CN112820276B

CN112820276B - 语音的处理方法、装置、计算机可读存储介质与处理器

Info

Publication number: CN112820276B
Application number: CN202011524114.8A
Authority: CN
Inventors: 李健; 袁逸晨; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2023-05-16
Anticipated expiration: 2040-12-21
Also published as: CN112820276A

Abstract

本申请提供了一种语音的处理方法、装置、计算机可读存储介质与处理器，该处理方法，包括：对语音音频中的音频片段进行语音识别，得到前一个音频片段中的N个部分的识别结果，音频片段由N个部分组成，每个部分为一个词或者一个语句，音频片段的长度为预定长度，N≥2；对前一个音频片段的后一个音频片段进行语音识别，得到N个部分的识别结果，后一个音频片段至少包括前一个音频片段的M个部分，M个部分至少包括前一个音频片段的最后一个部分，1≤M<N；采用后一个音频片段的前M个部分的识别结果替换前一个音频片段的后M个部分的识别结果，得到前一个音频片段的更新识别结果。该方法解决了现有技术中的语音识别不准确的问题。

Description

语音的处理方法、装置、计算机可读存储介质与处理器

技术领域

本申请涉及语音识别领域，具体而言，涉及一种语音的处理方法、装置、计算机可读存储介质、处理器与语音识别系统。

背景技术

语音是人类交流最自然、最方便的手段，因而也必然成为人机交互最自然、最方便的手段之一。目前语音识别技术已经广泛用于智能物联网、移动互联网、人工智能等业务领域，涉及在电信、金融、交通运输、电力、教育、政府等多个行业。随着人工智能的飞速发展和计算机技术的提升，语音识别技术日益成熟，目前行业内算法层面已经达到一定高度，识别率能达到96％以上，但是实际使用场景非常广泛和复杂，结合应用场景进行语音识别，实际正确率会下降5％～10％。原因有很多种，例如外部原因有采音不清晰或噪声太大，传入识别的音频质量不高影响识别效果，提升方法有：对音频进行预处理(降噪、消回声)。内部原因有识别的语言模型或声学模型不匹配，对应提升方法有：对模型进行训练优化或者让不同领域的音频送入对应的模型进行识别。

在实际ASR引擎对音频进行识别的时候，考虑到识别的实时性，一般会采用流式识别，即会分片发送有限制长度的音频流送入识别引擎，引擎再分别返回每段识别结果，应用层再进行拼接完成识别结果返回。若是考虑非流式识别的离线转写场景，考虑到硬件载体的内存问题，为了服务高可用，以免内存占用波动太大，引擎也会分片去取音频流数据，每片音频识别结束后返回拼接好的识别结果。

无论是在线(流式)识别还是离线(非流式)识别都无法避免将音频分段送入ASR引擎返回分片拼接结果，这样就存在一个潜在的问题：在进行固定大小音频流分片时，上一片末尾段和下一片起始段的字的发音可能被拆分，导致不识别或未结合上下文识别错误，例如原始音频为“今天天气怎么样？”识别为“今天天气么样？”或者“今天天气怎模样？”。总体感觉上识别结果会概率性的丢失部分待转写结果或者识别有误。

即使是通过VAD端点检测出静音段进行分片时，由于VAD检测受音频声音大小影响，容易检测不准确，依然会造成丢字和识别不准确的问题，并不能解决根本问题。

现有技术虽然可以不同程度的提升语音识别准确率，但是在实际识别的分片问题上没有明显提升的办法。

在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

发明内容

本申请的主要目的在于提供一种语音的处理方法、装置、计算机可读存储介质、处理器与语音识别系统，以解决现有技术中分片进行语音识别时导致的识别不准确的问题。

根据本发明实施例的一个方面，提供了一种语音的处理方法，包括：对语音音频中的音频片段进行语音识别，得到前一个所述音频片段中的N个部分的识别结果，所述音频片段由N个所述部分组成，每个所述部分为一个词或者一个语句，所述音频片段的长度为预定长度，N≥2；对前一个所述音频片段的后一个所述音频片段进行语音识别，得到N个所述部分的识别结果，其中，后一个所述音频片段至少包括前一个所述音频片段的M个所述部分，M个所述部分至少包括前一个所述音频片段的最后一个所述部分，1≤M<N；采用后一个所述音频片段的前M个所述部分的识别结果替换前一个所述音频片段的后M个所述部分的识别结果，得到前一个所述音频片段的更新识别结果。

可选地，对前一个所述音频片段的后一个所述音频片段进行语音识别，得到N个所述部分的识别结果，包括：获取前一个所述音频片段中的第N-M个所述部分的结束时间；确定后一个所述音频片段的起始时间为前一个所述音频片段的第N-M个所述部分的结束时间；对后一个所述音频片段进行语音识别，得到N个所述部分的识别结果。

可选地，M＝1。

可选地，所述处理方法还包括：拼接所述语音音频中的所有的所述音频片段的更新识别结果，得到所述语音音频的识别结果。

根据本发明实施例的另一方面，还提供了一种语音的处理装置，包括：第一识别单元，用于对语音音频中的音频片段进行语音识别，得到前一个所述音频片段中的N个部分的识别结果，所述音频片段由N个所述部分组成，每个所述部分为一个词或者一个语句，所述音频片段的长度为预定长度，N≥2；第二识别单元，用于对前一个所述音频片段的后一个所述音频片段进行语音识别，得到N个所述部分的识别结果，其中，后一个所述音频片段至少包括前一个所述音频片段的M个所述部分，M个所述部分至少包括前一个所述音频片段的最后一个所述部分，1≤M<N；更新单元，用于采用后一个所述音频片段的前M个所述部分的识别结果替换前一个所述音频片段的后M个所述部分的识别结果，得到前一个所述音频片段的更新识别结果。

可选地，所述第二识别单元包括：获取模块，用于获取前一个所述音频片段中的第N-M个所述部分的结束时间；确定模块，用于确定后一个所述音频片段的起始时间为前一个所述音频片段的第N-M个所述部分的结束时间；识别模块，用于对后一个所述音频片段进行语音识别，得到N个所述部分的识别结果。

可选地，M＝1。

根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行任意一种所述的方法。

根据本发明实施例的再一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任意一种所述的方法。

根据本发明实施例的再一方面，还提供了一种语音识别系统，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任意一种所述的方法。

在本发明实施例中，上述语音的处理方法中，首先对语音音频中的音频片段进行语音识别，得到前一个上述音频片段中的N个部分的识别结果，上述音频片段由N个上述部分组成，每个上述部分为一个词或者一个语句，上述音频片段的长度为预定长度，N≥2；然后对前一个上述音频片段的后一个上述音频片段进行语音识别，得到N个上述部分的识别结果，其中，后一个上述音频片段至少包括前一个上述音频片段的M个上述部分，M个上述部分至少包括前一个上述音频片段的最后一个上述部分，1≤M<N；最后采用后一个上述音频片段的前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，得到前一个上述音频片段的更新识别结果。在该方法中，通过将前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，解决了现有技术中由于上一个片段末尾的语音识别不准确的问题，从而提高了整体的语音识别率。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请的一种实施例的语音的处理方法的流程图；

图2示出了根据本申请的一种实施例的语音的处理装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

语音识别(ASR)：语音识别也称为自动语音识别，是一种将人类语音转换为文本的技术。语音识别是涉及心理学、生理学、声学、语言学、信息理论、信号处理、计算机科学、模式识别等多个学科的交叉学科。

端点检测(VAD)：语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,语音边界检测。目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。

正如背景技术中所说的，现有技术中分片进行语音识别时导致的识别不准确的问题，为了解决上述问题，本申请的一种典型的实施方式中，提供了一种语音的处理方法、装置、计算机可读存储介质、处理器与语音识别系统。

根据本申请的实施例，提供了一种语音的处理方法。

图1是根据本申请实施例的语音的处理方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，对语音音频中的音频片段进行语音识别，得到前一个上述音频片段中的N个部分的识别结果，上述音频片段由N个上述部分组成，每个上述部分为一个词或者一个语句，上述音频片段的长度为预定长度，N≥2；

步骤S102，对前一个上述音频片段的后一个上述音频片段进行语音识别，得到N个上述部分的识别结果，其中，后一个上述音频片段至少包括前一个上述音频片段的M个上述部分，M个上述部分至少包括前一个上述音频片段的最后一个上述部分，1≤M<N；

步骤S103，采用后一个上述音频片段的前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，得到前一个上述音频片段的更新识别结果。

上述语音的处理方法中，首先对语音音频中的音频片段进行语音识别，得到前一个上述音频片段中的N个部分的识别结果，上述音频片段由N个上述部分组成，每个上述部分为一个词或者一个语句，上述音频片段的长度为预定长度，N≥2；然后对前一个上述音频片段的后一个上述音频片段进行语音识别，得到N个上述部分的识别结果，其中，后一个上述音频片段至少包括前一个上述音频片段的M个上述部分，M个上述部分至少包括前一个上述音频片段的最后一个上述部分，1≤M<N；最后采用后一个上述音频片段的前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，得到前一个上述音频片段的更新识别结果。在该方法中，通过将前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，解决了现有技术中由于上一个片段末尾的语音识别不准确的问题，从而提高了整体的语音识别率。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请的一种实施例中，对前一个上述音频片段的后一个上述音频片段进行语音识别，得到N个上述部分的识别结果，包括：获取前一个上述音频片段中的第N-M个上述部分的结束时间；确定后一个上述音频片段的起始时间为前一个上述音频片段的第N-M个上述部分的结束时间；对后一个上述音频片段进行语音识别，得到N个上述部分的识别结果。在该实施例中，通过获取前一个上述音频片段中的第N-M个上述部分的结束时间来确定后一个上述音频片段的起始时间，这样进一步保证后一个音频片段识别的对象包括前一个音频片段的后M个部分，从而进一步减少识别结果会概率性的丢失部分待转写结果或者识别有误，进而进一步提高整体语音识别的准确率。

本申请的又一种实施例中，M＝1。即后一个音频片段的开始时间为前一个音频片段的倒数第二个部分的结束时间，这样，用后一个音频片段识别的第一个部分就是前一个音频片段的最后一个部分，后续，用后一个音频片段的第一个部分的识别结果替换前一个音频片段的最后一个部分的识别结果。

本申请的再一种实施例中，上述语音处理方法还包括：拼接上述语音音频中的所有的上述音频片段的更新识别结果，得到上述语音音频的识别结果。在该实施例中，通过拼接所有的上述音频片段更新识别结果，可以得到更准确的语音识别结果，进一步地提高整体语音识别的准确率。

一种具体的实施例中，上述的处理方法包括：将预定格式的语音音频进行切分，切分固定长度的音频片段；之后流送入ASR引擎进行识别。ASR引擎对固定长度音频进行识别，返回wordlist句(词)列表；结果列表有N句话(或者词)，N不是固定的数值，依据每片音频流不同而不同，其中第1句(词)至第N-M句(词)是“可信任的”，第N句(词)是“不可信任的”，并记录第N-M句(词)结束的时间戳。保存第1句(词)至第N-M句(词)的结果，其他的句(词)“抛弃”不保存。按照固定长度再次对剩余的语音音频进行分片，切分的起始时间点为上一次切分的第N-M句(词)结束时间戳，切分固定长度音频流送入ASR引擎进行识别。循环往复，最后一段送入识别的音频一定小于固定长度，由于对语音音频按固定长度进行切分，假设固定长度为200ms以及语音音频为1.5s，这样切分后每个音频片段的长度为200ms，当切分6个片段之后，剩余待切分的语音音频的长度为300ms，由于固定长度为200ms，故一旦大于200ms会立即进行切分，所以最后一段音频片段为100ms，共有8个音频片段，因此不会出现末尾不为静音段的情况(最后一段作为最终结果)。组合所有返回的分片识别结果即为最后结果，“不可信任”部分已被再次识别的“信任”部分替代，提升了语音识别率。

上述预定格式可以但是并不限于pcm、wav或mp3等格式，且上述的M可以等于1，ASR引擎也可以为其他的语音识别引擎。

本申请实施例还提供了一种语音的处理装置，需要说明的是，本申请实施例的语音的处理装置可以用于执行本申请实施例所提供的用于语音的处理方法。以下对本申请实施例提供的语音的处理装置进行介绍。

图2是根据本申请实施例的语音的处理装置的示意图。如图2所示，该装置包括：

第一识别单元10，用于对语音音频中的音频片段进行语音识别，得到前一个上述音频片段中的N个部分的识别结果，上述音频片段由N个上述部分组成，每个上述部分为一个词或者一个语句，上述音频片段的长度为预定长度，N≥2；

第二识别单元20，用于对前一个上述音频片段的后一个上述音频片段进行语音识别，得到N个上述部分的识别结果，其中，后一个上述音频片段至少包括前一个上述音频片段的M个上述部分，M个上述部分至少包括前一个上述音频片段的最后一个上述部分，1≤M<N；

更新单元30，用于采用后一个上述音频片段的前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，得到前一个上述音频片段的更新识别结果。

上述语音的处理装置中，第一识别单元用于对语音音频中的音频片段进行语音识别，得到前一个上述音频片段中的N个部分的识别结果，上述音频片段由N个上述部分组成，每个上述部分为一个词或者一个语句，上述音频片段的长度为预定长度，N≥2；第二识别单元用于对前一个上述音频片段的后一个上述音频片段进行语音识别，得到N个上述部分的识别结果，其中，后一个上述音频片段至少包括前一个上述音频片段的M个上述部分，M个上述部分至少包括前一个上述音频片段的最后一个上述部分，1≤M<N；更新单元用于采用后一个上述音频片段的前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，得到前一个上述音频片段的更新识别结果。在该装置中，通过将前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，解决了现有技术中由于上一个片段末尾的语音识别不准确的问题，从而提高了整体的语音识别率。

本申请的一种实施例中，上述第二识别单元包括获取模块、确定模块和识别模块，其中，获取模块，用于获取前一个上述音频片段中的第N-M个上述部分的结束时间；确定模块，用于确定后一个上述音频片段的起始时间为前一个上述音频片段的第N-M个上述部分的结束时间；识别模块，用于对后一个上述音频片段进行语音识别，得到N个上述部分的识别结果。在该实施例中，通过获取前一个上述音频片段中的第N-M个上述部分的结束时间来确定后一个上述音频片段的起始时间，这样进一步保证后一个音频片段识别的对象包括前一个音频片段的后M个部分，从而进一步减少识别结果会概率性的丢失部分待转写结果或者识别有误，进而进一步提高整体语音识别的准确率。

本申请的另一种实施例中，M＝1。即后一个音频片段的开始时间为前一个音频片段的倒数第二个部分的结束时间，这样，用后一个音频片段识别的第一个部分就是前一个音频片段的最后一个部分，后续，用后一个音频片段的第一个部分的识别结果替换前一个音频片段的最后一个部分的识别结果。

本申请的再一种实施例中，上述语音的处理装置，还包括拼接单元，用于拼接上述语音音频中的所有的上述音频片段的更新识别结果，得到上述语音音频的识别结果。在该实施例中，通过拼接所有的上述音频片段更新识别结果，可以得到更准确的语音识别结果，进一步地提高整体语音识别的准确率。

上述语音的处理装置包括处理器和存储器，上述第一识别单元、第二识别单元和更新单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中分片进行语音识别时导致的识别不准确的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述语音的处理方法。

本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述语音的处理方法。

本发明实施例提供了一种语音识别系统，包括：一个或多个处理器，存储器以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、上述语音的处理方法中，首先对语音音频中的音频片段进行语音识别，得到前一个上述音频片段中的N个部分的识别结果，上述音频片段由N个上述部分组成，每个上述部分为一个词或者一个语句，上述音频片段的长度为预定长度，N≥2；然后对前一个上述音频片段的后一个上述音频片段进行语音识别，得到N个上述部分的识别结果，其中，后一个上述音频片段至少包括前一个上述音频片段的M个上述部分，M个上述部分至少包括前一个上述音频片段的最后一个上述部分，1≤M<N；最后采用后一个上述音频片段的前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，得到前一个上述音频片段的更新识别结果。在该方法中，通过将前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，解决了现有技术中由于上一个片段末尾的语音识别不准确的问题，从而提高了整体的语音识别率。

2)、上述语音的处理装置中，第一识别单元用于对语音音频中的音频片段进行语音识别，得到前一个上述音频片段中的N个部分的识别结果，上述音频片段由N个上述部分组成，每个上述部分为一个词或者一个语句，上述音频片段的长度为预定长度，N≥2；第二识别单元用于对前一个上述音频片段的后一个上述音频片段进行语音识别，得到N个上述部分的识别结果，其中，后一个上述音频片段至少包括前一个上述音频片段的M个上述部分，M个上述部分至少包括前一个上述音频片段的最后一个上述部分，1≤M<N；更新单元用于采用后一个上述音频片段的前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，得到前一个上述音频片段的更新识别结果。在该装置中，通过将前M个上述部分的识别结果替换前一个上述音频片段的后M个上述部分的识别结果，解决了现有技术中由于上一个片段末尾的语音识别不准确的问题，从而提高了整体的语音识别率。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音的处理方法，其特征在于，包括：

对语音音频中的音频片段进行语音识别，得到前一个所述音频片段中的N个部分的识别结果，所述音频片段由N个所述部分组成，每个所述部分为一个词或者一个语句，所述音频片段的长度为预定长度，N≥2；

对前一个所述音频片段的后一个所述音频片段进行语音识别，得到N个所述部分的识别结果，其中，后一个所述音频片段至少包括前一个所述音频片段的M个所述部分，M个所述部分至少包括前一个所述音频片段的最后一个所述部分，1≤M<N；

采用后一个所述音频片段的前M个所述部分的识别结果替换前一个所述音频片段的后M个所述部分的识别结果，得到前一个所述音频片段的更新识别结果，

对前一个所述音频片段的后一个所述音频片段进行语音识别，得到N个所述部分的识别结果，包括：

获取前一个所述音频片段中的第N-M个所述部分的结束时间；

确定后一个所述音频片段的起始时间为前一个所述音频片段的第N-M个所述部分的结束时间；

对后一个所述音频片段进行语音识别，得到N个所述部分的识别结果。

2.根据权利要求1所述的处理方法，其特征在于，M＝1。

3.根据权利要求1或2所述的处理方法，其特征在于，所述处理方法还包括：

拼接所述语音音频中的所有的所述音频片段的更新识别结果，得到所述语音音频的识别结果。

4.一种语音的处理装置，其特征在于，包括：

第一识别单元，用于对语音音频中的音频片段进行语音识别，得到前一个所述音频片段中的N个部分的识别结果，所述音频片段由N个所述部分组成，每个所述部分为一个词或者一个语句，所述音频片段的长度为预定长度，N≥2；

第二识别单元，用于对前一个所述音频片段的后一个所述音频片段进行语音识别，得到N个所述部分的识别结果，其中，后一个所述音频片段至少包括前一个所述音频片段的M个所述部分，M个所述部分至少包括前一个所述音频片段的最后一个所述部分，1≤M<N；

更新单元，用于采用后一个所述音频片段的前M个所述部分的识别结果替换前一个所述音频片段的后M个所述部分的识别结果，得到前一个所述音频片段的更新识别结果，

所述第二识别单元包括：

获取模块，用于获取前一个所述音频片段中的第N-M个所述部分的结束时间；

确定模块，用于确定后一个所述音频片段的起始时间为前一个所述音频片段的第N-M个所述部分的结束时间；

识别模块，用于对后一个所述音频片段进行语音识别，得到N个所述部分的识别结果。

5.根据权利要求4所述的处理装置，其特征在于，M＝1。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1至3中任意一项所述的方法。

7.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至3中任意一项所述的方法。

8.一种语音识别系统，其特征在于，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至3中任意一项所述的方法。