CN111261161B

CN111261161B - 一种语音识别方法、装置及存储介质

Info

Publication number: CN111261161B
Application number: CN202010111854.2A
Authority: CN
Inventors: 生士东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2021-12-14
Anticipated expiration: 2040-02-24
Also published as: CN111261161A

Abstract

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置及存储介质。本发明在接收语音对象的语音过程中，当语音中尾端静音到达第一预设时间时，即获取目标语音上传至语音识别服务器，使语音识别服务器在语音完全结束前提前对目标语音进行语音识别，获得预处理结果，在语音中尾端静音到达第二预设时间即语音完全结束时，向语音识别服务器请求语音识别，服务器可以根据预处理结果快速确定并下发语音识别结果，使客户端在确认语音完全结束时能即时获得该语音的语音识别结果，减少客户端获取服务器数据处理结果的等待时长。

Description

一种语音识别方法、装置及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置及存储介质。

背景技术

随着电子设备的不断发展，作为电子设备的重要组成部分——电子设备的控制系统，例如，语音控制系统，也在不断地发展，随着语音识别技术迅速发展成熟，各种语音识别软件纷纷亮相，使得人与电子设备的交流变得简单、有趣。为了避免人与电子设备进行语音控制时产生误操作，可以设置唤醒词，当电子设备接收到与自身匹配的唤醒词时，才会接收外界的语音控制信息，并依据语音控制信息执行相应的操作。

用户每次与电子设备进行语音交互时，电子设备接收到用户的语音，将用户的语音传送至服务端，由服务端来进行语音识别，然后按照用户的指示进行操作。通常，向服务器传送的语音必须是完整的音频数据，完整的音频数据包括四部分音频数据，分别为唤醒音频数据、VAD(Voice Activity Detection，语音端点检测)静音前端数据、说话过程中的音频数据和说话结束后的静音结束音频数据。其中，唤醒音频数据可表现为唤醒词，用于唤醒电子设备；VAD静音前端数据是针对目前行业内VAD前端点检测出现的延迟现象(即当检测到VAD前端点的时候，当前人已经说了一段时间的话了)，为确保整体识别的准确性而增加前推保护；说话过程中的音频数据可以包含人对电子设备发出的控制指令；静音结束音频数据用于确定说话结束，由于人说话的过程中存在停顿，不能检测到静音就认为说话结束，因此需要持续观察一段时间(例如500ms)，发现持续静音才认为说话结束。用户与电子设备语音交互过程中，电子设备须等待用户说完话并持续静音一段时间，才能将完整的音频数据上传至服务器，等待服务器对音频数据进行识别后方能获得服务器反馈的识别结果，这个过程中，用户自说话结束到收到电子设备的反馈，需要等待的时间为电子设备判断用户说话结束花费的时间、服务器处理音频获得识别结果的时间及电子设备与服务器之间数据传输耗时的总和，用户等待耗时较长，交互体验有待提高。

发明内容

本发明提供了一种语音识别方法、装置及存储介质，可以在确定语音对象的语音结束后及时获得语音识别结果，减少客户端等待响应的时间，提升交互体验。

第一方面，本发明提供了一种语音识别方法，该方法包括：

接收语音对象的语音，所述语音包括至少一个单元语音，每个所述单元语音包括指令语音和所述指令语音结束后的尾端静音；

根据语音接收的时序确定当前单元语音；

对于所述当前单元语音，执行下述数据处理操作：

在所述当前单元语音的尾端静音的持续时长到达第一预设时间时，基于接收到的语音确定目标语音，将所述目标语音传输至语音识别服务器；以使所述语音识别服务器对所述目标语音进行预处理，获得预处理结果；

在所述尾端静音的持续时长到达所述第二预设时间时，向所述语音识别服务器发送语音识别请求；以使所述语音识别服务器根据所述预处理结果确定对所述语音识别请求的响应数据；

接收所述语音识别服务器返回的所述响应数据。

第二方面，本发明提供了另一种语音识别方法，所述方法包括：

接收客户端上传的目标语音，所述目标语音为客户端接收语音的过程中，当所述语音中当前单元语音的尾端静音的持续时长到达第一预设时间时，根据接收到的语音确定的；

对接收的所述目标语音进行预处理，获得预处理结果；

接收客户端发送的语音识别请求，所述语音识别请求是所述客户端在所述尾端静音的持续时长到达所述第二预设时间时生成的；

根据所述预处理结果确定对所述语音识别请求的响应数据；

将所述响应数据发送给所述客户端。

第三方面提供了一种语音识别装置，所述装置包括：

语音接收模块，用于接收语音对象的语音，所述语音包括至少一个单元语音，每个所述单元语音包括指令语音和所述指令语音结束后的尾端静音；

当前单元语音确定模块，用于根据语音接收的时序确定当前单元语音；

数据处理模块，用于对所述当前单元语音执行数据处理操作；

所述数据处理模块包括目标语音发送单元和语音识别请求发送单元；

所述目标语音发送单元，用于在所述当前单元语音的尾端静音的持续时长到达第一预设时间时，基于接收到的语音确定目标语音，将所述目标语音传输至语音识别服务器；以使所述语音识别服务器对所述目标语音进行预处理，获得预处理结果；

所述语音识别请求发送单元，用于在所述尾端静音的持续时长到达所述第二预设时间时，向所述语音识别服务器发送语音识别请求；以使所述语音识别服务器根据所述预处理结果确定对所述语音识别请求的响应数据；

响应数据接收模块，用于接收所述语音识别服务器返回的所述响应数据。

第四方面，本发明提供了另一种语音识别装置，所述装置包括：

目标语音接收模块，用于接收客户端上传的目标语音，所述目标语音为客户端接收语音的过程中，当所述语音中当前单元语音的尾端静音的持续时长到达第一预设时间时，根据接收到的语音确定的；

预处理模块，用于对接收的所述目标语音进行预处理，获得预处理结果；

语音识别请求接收模块，用于接收客户端发送的语音识别请求，所述语音识别请求是所述客户端在所述尾端静音的持续时长到达所述第二预设时间时生成的；

语音识别请求处理模块，用于根据所述预处理结果确定对所述语音识别请求的响应数据；

响应数据发送模块，用于将所述响应数据发送给所述客户端。

第五方面提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令和至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如第一方面或第二方面所述的语音识别方法。

第六方面提供了一种计算机存储介质，所述存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如第一方面或第二方面所述的语音识别方法。

本发明提供的一种语音识别方法、装置及存储介质，具有如下技术效果：

在接收语音对象的语音过程中，当语音中尾端静音到达第一预设时间时，即获取目标语音上传至语音识别服务器，使语音识别服务器在语音完全结束前提前对目标语音进行语音识别，获得预处理结果，在语音中尾端静音到达第二预设时间即语音完全结束时，向语音识别服务器请求语音识别，服务器可以根据预处理结果快速确定并下发语音识别结果，使客户端在确认语音完全结束时能即时获得该语音的语音识别结果，减少客户端获取服务器数据处理结果的等待时长，提高端对端响应速度，提升用户针对语音操作的体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明构思的一实施例的语音识别系统的结构图；

图2是本发明提供的语音识别方法的一种实施例的流程示意图；

图3是本发明提供的对当前语音单元执行数据处理操作的一种实施例的流程示意图；

图4是本发明提供的语音识别方法的另一种实施例的流程示意图；

图5是本发明提供的对目标语音进行预处理的一种实施例的流程示意图；

图6是本发明提供的语音识别方法的一种应用场景的示意图；

图7是使用通用语音识别方法进行语音识别交互的示意图；

图8是使用通用语音识别方法进行语音识别交互时数据处理逻辑的示意图；

图9是使用本发明提供的语音识别方法进行语音识别交互的示意图；

图10是使用本发明提供的语音识别方法进行语音识别交互时数据处理逻辑的示意图；

图11是本发明提供的一种语音识别装置的实施例的结构示意图；

图12是本发明提供的另一种语音识别装置的实施例的结构示意图；

图13是本发明提供的客户端的一种实施例的结构示意图；

图14是本发明提供的服务器的一种实施例的结构示意图；

图15是本发明实施例提供的分布式系统应用于区块链系统的一个可选的结构示意图；

图16是本发明实施例提供的区块结构一个可选的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供的语音识别方案可以利用人工智能和云计算实现语音快速识别。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景，

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

本申请实施例提供的方案涉及人工智能的语音识别等技术，具体通过如下实施例进行说明。

图1是本发明构思的一实施例的语音识别系统的结构图。参照图1，语音识别系统可包括客户端200及语音识别装置100。但是，这只是用于实现本发明构思的目的的优选实施例，当然可根据需要附加或删除一部分结构要素。例如，虽然在图1中图示了语音识别装置100，但根据实施例，还可以包括数据处理装置，用于对语音识别装置100的语音识别结果进行数据处理获得响应数据。此外，图1所示的语音识别系统的各个结构要素表示按功能区分的功能要素，应注意在实际物理环境中也可以以彼此合并的形式实现至少一个结构要素。例如，语音识别装置100和数据处理装置可以以内置在同一服务器或者服务器集群中的方式实现语音识别装置100的各功能，也可以分属于不同的服务器或者服务器集群。

在所述语音识别系统中，客户端200为接收用户输入的语音信号并提供由语音识别装置100返回的响应数据30的终端，在不包含数据处理装置情况下，响应数据30可以是语音识别结果，在包含数据处理装置情况下，所述响应数据可以是对语音识别结果的数据处理结果。在图1中，虽然客户端200被图示为智能手机，但也可以被实现为任何装置，例如智能音箱、可穿戴智能设备等。

在所述语音识别系统中，语音识别装置100为被输入语音数据10并提供基于识别结果的计算装置。在此，语音数据是将以波(wave)形式表示语音信号的波文件、以频率形式表示所述波文件的声谱图(spectrogram)和梅尔频率倒谱系数(Mel-Frequency CepstralCoefficient，MFCC)等都包括在内的总括性含义。此外，所述计算装置可以是笔记本、台式机(desktop)、便携式电脑(laptop)或智能手机(smart phone)等，但并不局限于此，可包括具备运算单元的所有种类的装置。

根据本发明构思的实施例，为了提供端到端语音识别，语音识别装置100可构建由深度神经网络构成的声学模型，并且利用构建出的所述声学模型来提供语音数据10的识别结果。在此，所述深度神经网络例如可以是递归神经网络(Recurrent Neural Network，RNN)、双向递归神经网络(Bi-directional RNN，BRNN)、长短期记忆(Long ShortTermMemory，LSTM)、双向长短期记忆(Bi-directional LSTM，BLSTM)、门控循环单元(GatedRecurrent Unit，GRU)或双向门控循环单元(Bi-directional GRU，BGRU)等，但并不限定于此。

此外，根据本发明构思的实施例，客户端200接收语音对象的语音的过程中，在语音中的尾端静音的持续时长到达第二预设时间前，将目标语音上传至语音识别装置100，语音识别装置100根据接收的目标语音确定待处理语音，对待处理语音进行预处理获得预处理结果，当语音中的尾端静音的持续时长到达第二预设时间时，客户端200向语音识别装置100发送语音识别请求，语音识别装置100根据预处理结果确定对语音识别请求的响应数据。由此，客户端200在语音完全结束(尾端静音持续时长到达第二预设时间时语音完全结束)前即上传语音识别装置，使语音识别装置能够提前进行语音处理，待语音完全结束时能够即时获得响应数据，提高端对端响应速度。关于此的详细说明将在后面参照图2至图10来进行描述。

本发明实施例涉及的语音识别系统可以是由客户端、多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例，参见图15，图15是本发明实施例提供的分布式系统1510应用于区块链系统的一个可选的结构示意图，由多个节点1520(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端1530形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，TransmissionControl Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图15示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图16，图16是本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

以下介绍本发明语音识别方法的一种实施例，图2是本发明提供的语音识别方法的一种实施例的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述语音识别方法可以由客户端执行，包括：

S201：接收语音对象的语音，所述语音包括至少一个单元语音，每个所述单元语音包括指令语音和所述指令语音结束后的尾端静音。

其中，语音对象可以是客户端用户，语音指该客户端用户说的话，这里，客户端用户说的话不仅包含说话内容本身，还包括说话内容完毕后的静音部分，待静音持续一段时间后，才确定该用户端用户说话结束。由于说话过程中，可能存在用户说完一段话停顿几秒又继续下一段话的情况，因此，可以将用户语音划分为至少一个单元语音，每个单元语音包含一段说话内容和该段说话内容中最后一个字停止后的静音部分，其中，说话内容即指令语音，静音部分即尾端静音。

S203：根据语音接收的时序确定当前单元语音。

具体的，用户说的话随时间推移逐渐增加，使客户端接收的语音具有时序性，根据本发明实施例的构思，需要在确定语音完全结束之前提前对语音进行预处理，在前述将语音划分为至少一个单元语音的基础上，可以以单元语音为单位对接收到的语音进行处理。在一个可行的实施例中，根据语音接收的时序确定当前单元语音，包括：在接收语音过程中，确定当前接收到的语音所属的单元语音，将确定的单元语音作为当前单元语音。

S205：对于所述当前单元语音，执行下述数据处理操作：

在所述尾端静音的持续时长到达所述第二预设时间时，向所述语音识别服务器发送语音识别请求；以使所述语音识别服务器根据所述预处理结果确定对所述语音识别请求的响应数据。

根据本发明实施例的构思，在语音完全结束之前预先对已接收到的语音进行处理，具体可以体现为，对每个接收到的单元语音进行尾端静音持续时长的判别，根据判别结果执行相应的处理策略。

图3是本发明提供的对当前语音单元执行数据处理操作的一种实施例的流程示意图，请参见图3，数据处理操作包括：

S301：获取当前单元语音的尾端静音的持续时长。

S303：判断尾端静音的持续时长是否到达第一预设时间，如果达到第一预设时间，则执行步骤S309，如果未到达第一预设时间，则执行步骤S305。

S305：判断是否接收到其他单元语音，如果没有收到其他单元语音，则持续接收语音并返回执行步骤S301，如果收到其他单元语音，则执行步骤S307。

具体可以包括：判断是否在满足尾端静音的持续时长超过第三预设时间且未到达第一预设时间时接收到其他单元语音，第三预设时间小于第一预设时间。

S307：持续接收其他单元语音，直至接收到的其他单元语音的尾端静音的持续时长达到第一预设时间时，将满足尾端静音的持续时长达到第一预设时间的其他单元语音作为新的当前单元语音，以及，对新的当前单元语音返回执行步骤S301。

S309：确定尾端静音的持续时长达到第一预设时间时对应的时间为第一时间点，获取第一时间点之前未上传至语音识别服务器的语音，将获取的语音中首个单元语音的开始时间确定为第二时间点，根据第二时间点至第一时间点之间的语音确定目标语音，将目标语音上传至语音识别服务器。继续执行步骤S311。

S311：判断是否在尾端静音的持续时长超过第一预设时间并且未到达第二预设时间时接收到其他单元语音，如果在尾端静音的持续时长超过第一预设时间并且未到达第二预设时间时接收到其他单元语音，则执行步骤S313，如果在尾端静音的持续时长超过第一预设时间并且未到达第二预设时间时没有接收到其他单元语音，则执行步骤S315。

S313：确定尾端静音到达第二预设时间时对应的时间为第二时间点、尾端静音后的首个单元语音的开始时间为第三时间点；根据第二时间点至第三时间点之间的语音确定目标语音；将目标语音上传至语音识别服务器；以及，将尾端静音后的首个单元语音作为新的当前单元语音，以及，对新的当前单元语音返回执行步骤S301。

S315：在尾端静音的持续时长达到第二预设时间时，向语音识别服务器发送语音识别请求。

需要说明的是，第二预设时间是在第一预设时间之后的时间，第三预设时间是在第一预设时间之前的时间。尤其是，第三预设时间可以Oms，与尾端静音的开始时间对应；第二预设时间可以是与现有技术中完全确定语音结束所对应的尾端静音的最大持续时长相同，例如现有技术中在尾端静音持续时长达到500ms时确定语音完全结束，则第二预设时间可以设置为500ms；第一预设时间位于第二预设时间与第三预设时间之间，取值范围在50ms至300ms之间，优选为100ms。

S207：接收所述语音识别服务器返回的所述响应数据。

语音识别服务器根据预处理结果确定对语音识别请求的响应数据。在一个可行的实施例中，语音识别服务器将预处理结果作为对客户端上传的语音对象的语音的语音识别结果，语音识别服务器可以将所述语音识别结果作为对语音识别请求的响应数据直接反馈给客户端，也可以将语音识别结果传输至数据处理服务器，由数据处理服务器基于语音识别结果获取相应的处理数据，将获取的处理数据作为对语音识别请求的响应数据，以及，将该响应数据反馈至客户端。

由上述实施例，客户端在接收语音对象的语音过程中，当语音中尾端静音到达第一预设时间时，即获取目标语音上传至语音识别服务器，使语音识别服务器在语音完全结束前提前对目标语音进行语音识别，获得预处理结果，在语音中尾端静音到达第二预设时间即语音完全结束时，向语音识别服务器请求语音识别，服务器可以根据预处理结果快速确定并下发语音识别结果，使客户端在确认语音完全结束时能即时获得该语音的语音识别结果，减少客户端获取服务器数据处理结果的等待时长，提高端对端响应速度，提升用户针对语音操作的体验。该实施例的语音识别方法可以应用于语音翻译或智能音箱控制中。

下面以语音识别服务器为执行主体，介绍本发明语音识别方法的另一种实施例，图4是本发明提供的语音识别方法的另一种实施例的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图4所示，所述方法可以包括：

S401：接收客户端上传的目标语音，所述目标语音为客户端接收语音的过程中，当所述语音中当前单元语音的尾端静音的持续时长到达第一预设时间时，根据接收到的语音确定的。

语音对象通过客户端提供语音，其中，语音包括至少一个单元语音，每个单元语音包括指令语音和指令语音结束后的尾端静音，客户端根据语音接收的时序确定当前单元语音，并对当前单元语音逐一进行数据处理操作，以确定与当前时刻对应的目标语音，客户端对当前单元语音的数据处理包括：

(1)在所述当前单元语音的尾端静音的持续时长到达第一预设时间时，基于接收到的语音确定目标语音，将所述目标语音传输至语音识别服务器；以使所述语音识别服务器对所述目标语音进行预处理，获得预处理结果。

(2)当所述当前单元语音的尾端静音的持续时长到达第一预设时间时，确定所述尾端静音的持续时长到达第一预设时间时对应的时间为第一时间点，获取所述第一时间点之前未上传至所述语音识别服务器的语音，将获取的语音中首个单元语音的开始时间确定为第二时间点，根据所述第二时间点至第一时间点之间的语音确定目标语音，将所述目标语音上传至所述语音识别服务器。

(3)如果在所述当前单元语音的尾端静音的持续时长超过第三预设时间但未到达第一预设时间时接收到其他单元语音，则持续接收其他单元语音，直至接收到的其他单元静音满足尾端静音的持续时长到达第一预设时间时，将满足尾端静音的持续时长到达第一预设时间的其他单元语音作为新的当前单元语音。

需要说明的是，客户端对当前单元语音进行数据处理操作的流程与图3对应的实施例相同，详细细节可以参照图3对应的实施例，在此不赘述。

S403：对接收的所述目标语音进行预处理，获得预处理结果。

图5是本发明提供的对目标语音进行预处理的一种实施例的流程示意图,请参见图5，对目标语音进行预处理获得预处理结果可以包括：

S501：根据目标语音接收的时序确定待处理语音。

具体的，语音对象输出至客户端的语音具有时序性，客户端按时序对当前单元语音进行数据处理获得目标语音，目标语音一旦获得即上传语音识别服务器，因此，语音识别服务器接收到的目标语音也具有时序性。语音识别服务器根据接收的目标语音的时序确定待处理语音，以接收任一客户端的任一语音处理任务来说，待处理语音是指当前接收到的目标语音与在此之前接收到的目标语音的总和，例如，语音识别服务器接收到三段目标语音，按时序由早及晚排列为第一目标语音、第二目标语音和第三目标语音，在接收到第一目标语音时，对应的待处理语音为第一目标语音，在接收到第二目标语音时，对应的待处理语音由第一目标语音和第二目标语音组成，在接收到第三目标语音时，对应的待处理语音由第一目标语音、第二目标语音和第三目标语音组成。

语音识别服务器每接收到一个目标语音即确定一次待处理语音，待处理语音的数量与目标语音的数量相同。

S503：对每个所述待处理语音进行语音识别，得到与各待处理语音对应的语音识别结果。

在一个可行的实施例中，可以采用自动语音识别技术(Automatic SpeechRecognition，简称ASR)将每个待处理语音转换为文本，获得与待处理语音对应的语音识别结果。

ASR是一种将人的语音转换为文本的技术，其基本原理包括：

训练(Training)：预先分析出语音特征参数，制作语音模板，并存放在语音参数库中。

识别(Recognition)：待识别语音经过与训练时相同的分析，得到语音参数。将它与参数库中的参考模板一一比较，并采用判决的方法找出最接近语音特征的模板，得出识别结果。

失真测度(Distortion Measures)：在进行比较时要有个标准，这就是计量语音特征参数矢量之间的“失真测度”。

主要识别框架：基于模式匹配的动态时间规整法(DTW)和基于统计模型的隐马尔可夫模型法(HMM)。

由于ASR是当前较为成熟的语音识别技术，且语音识别过程不是本发明实施例的重点，在此不对ASR展开说明。

S505：根据待处理语音的确定时间，将与最新确定的待处理语音对应的语音识别结果作为所述预处理结果。

S405：接收客户端发送的语音识别请求，所述语音识别请求是所述客户端在所述尾端静音的持续时长到达所述第二预设时间时生成的。

S407：根据所述预处理结果确定对所述语音识别请求的响应数据。

在一个可行的实施例中，语音识别服务器将预处理结果作为对客户端上传的语音对象的语音的语音识别结果，语音识别服务器可以将所述语音识别结果作为对语音识别请求的响应数据直接反馈给客户端，也可以将语音识别结果传输至数据处理服务器，由数据处理服务器基于语音识别结果获取相应的处理数据，将获取的处理数据作为对语音识别请求的响应数据，以及，将该响应数据反馈至客户端。

S409：将所述响应数据发送给所述客户端。

上述实施例在接收语音对象的语音过程中，当语音中尾端静音到达第一预设时间时，即获取目标语音上传至语音识别服务器，使语音识别服务器在语音完全结束前提前对目标语音进行语音识别，获得预处理结果，在语音中尾端静音到达第二预设时间即语音完全结束时，向语音识别服务器请求语音识别，服务器可以根据预处理结果快速确定并下发语音识别结果，使客户端在确认语音完全结束时能即时获得该语音的语音识别结果，该语音识别方法可用于语音翻译或智能音箱控制中，能够减少客户端获取服务器数据处理结果的等待时长，提高端对端响应速度，提升用户针对语音操作的体验。

图6是本发明提供的语音识别方法的一种应用场景的示意图。请参见图6，其示出了与AI智能设备进行语音交互的场景，图中以人作为语音对象，通过oneshot方式与AI智能设备进行语音交互，采用具有云计算能力的云服务器作为语音识别服务器实现数据处理。Oneshot是指人连续对智能设备说唤醒词和识别命令的一种识别方式。云端语音识别模式下，正常会向语音识别服务发送四部分音频数据，分别为：唤醒音频数据、VAD静音前端数据、说话过程中的音频数据、说话结束后的静音结束音频数据。智能设备的在接收到唤醒音频数据后唤醒语音识别组件，同时控制媒体播放组件暂停当前播放内容，继续接收人的语音指令并识别，此过程保持媒体播放组件为暂停播放状态，当对语音指令识别完成后，由智能设备向语音对象返回响应数据，并播报更新内容。图6中，“叮当叮当”为唤醒音频数据，“换首歌吧”为说话过程中的音频数据，“好的，下面开始播放…”为语音识别服务器的响应数据。

图7是使用通用语音识别方法进行语音识别交互的示意图。请参见图7，通用的AI智能设备针对语音识别交互数据，都会向云端传输一个完整的音频数据，即在等待说话结束后的静音持续达到500ms判定语音完全结束时，才将唤醒词、VAD前推音频数据、说话中的音频数据和静音500ms作为完整的音频数据，通过网络上传至语音识别服务器，语音识别服务器使用如图8所示数据处理方法进行音频解码。

图8是使用通用语音识别方法进行语音识别交互时数据处理逻辑的示意图。请参见图8，语音识别服务器在接收到智能设备上传的完整音频数据后采用ASR进行音频解码获得对应的语音识别结果，解码器解码耗时约为200ms，在不考虑网络传输耗时情况下，反映到智能设备上，在智能设备上传完整音频数据后需要至少等待200ms才能响应语音对象，于语音对象而言，在说话结束后需要付出等待500ms静音和200ms处理时间的代价，交互体验欠佳。

对于现有技术存在的上述缺陷，本发明实施例在现有的判断语音结束的框架下，通过设计控制策略，改变上传至语音识别服务器的音频数据的上传时机和上传方式，使语音识别服务器在语音完全结束之前即准备好该语音的预处理结果数据，从而在语音完全结束时能够根据预处理结果数据即时下发语音识别结果，提高端对端数据响应。下面结合图9和图10进行分析说明。

图9是使用本发明提供的语音识别方法进行语音识别交互的示意图；图10是使用本发明提供的语音识别方法进行语音识别交互时数据处理逻辑的示意图。如图9和10所示，在遵循原有的说话结束后静音500ms判定语音完全结束的规则下，在静音到达100ms(对应第一预设时间)时，将静音100ms及其之前未上传语音识别服务器的音频确定为目标语音，并通过网络模块将目标语音上传至语音识别服务器，使得语音识别服务器可以在语音完全结束之前即开始预解码，若按照预解码耗时200ms计算，则在静音达到300ms时，语音识别服务器就预解码完成了，当静音达到500ms时，语音识别服务器则可直接拉取预解码结果下发给智能设备。如此，智能设备能够在语音完全结束时即响应语音对象，语音对象也减少了200ms的等待时间。此外，由于智能设备向语音识别服务器传输的音频数据减少了400ms静音，因此也在一定程度上减少了网络传输耗时以及语音识别服务器预解码耗时。

本发明实施例还提供了一种语音识别装置，所述语音识别装置可以设置在客户端中，图11是本发明提供的一种语音识别装置的实施例的结构示意图，请参见图11，所述装置可以包括：

语音接收模块111，用于接收语音对象的语音，所述语音包括至少一个单元语音，每个所述单元语音包括指令语音和所述指令语音结束后的尾端静音；

当前单元语音确定模块113，用于根据语音接收的时序确定当前单元语音；

数据处理模块115，用于对所述当前单元语音执行数据处理操作；

所述数据处理模块115包括目标语音发送单元1151和语音识别请求发送单元1153；

所述目标语音发送单元1151，用于在所述当前单元语音的尾端静音的持续时长到达第一预设时间时，基于接收到的语音确定目标语音，将所述目标语音传输至语音识别服务器；以使所述语音识别服务器对所述目标语音进行预处理，获得预处理结果；

所述语音识别请求发送单元1153，用于在所述尾端静音的持续时长到达所述第二预设时间时，向所述语音识别服务器发送语音识别请求；以使所述语音识别服务器根据所述预处理结果确定对所述语音识别请求的响应数据；

响应数据接收模块117，用于接收所述语音识别服务器返回的所述响应数据。

进一步的，所述目标语音发送单元1151还用于：当所述当前单元语音的尾端静音的持续时长到达第一预设时间时，确定所述尾端静音的持续时长到达第一预设时间时对应的时间为第一时间点，获取所述第一时间点之前未上传至所述语音识别服务器的语音，将获取的语音中首个单元语音的开始时间确定为第二时间点，根据所述第二时间点至第一时间点之间的语音确定目标语音，将所述目标语音上传至所述语音识别服务器。

进一步的，所述数据处理模块115还包括第一当前单元语音确定单元和第二当前单元语音确定单元。其中，

第一当前单元语音确定单元，用于在所述当前单元语音的尾端静音的持续时长超过第三预设时间但未到达第一预设时间时接收到其他单元语音时，持续接收其他单元语音，直至接收到的其他单元静音满足尾端静音的持续时长到达第一预设时间时，将满足尾端静音的持续时长到达第一预设时间的其他单元语音作为新的当前单元语音。

第二当前单元语音确定单元，用于在所述当前单元语音的尾端静音的持续时长超过第一预设时间并且未到达第二预设时间时接收到其他单元语音时，确定所述尾端静音到达第二预设时间时对应的时间为第二时间点、所述尾端静音后的首个单元语音的开始时间为第三时间点；根据所述第二时间点至所述第三时间点之间的语音确定目标语音；将所述目标语音上传至所述语音识别服务器；以及，将所述尾端静音后的首个单元语音作为新的当前单元语音。

所述的语音识别装置实施例中的语音识别装置与图1-3对应的方法实施例基于同样地发明构思。

本发明实施例还提供了一种语音识别装置，所述语音识别装置可以设置在语音识别服务器中，图12是本发明提供的另一种语音识别装置的实施例的结构示意图，请参见图12，所述装置可以包括：

目标语音接收模块121，用于接收客户端上传的目标语音，所述目标语音为客户端接收语音的过程中，当所述语音中当前单元语音的尾端静音的持续时长到达第一预设时间时，根据接收到的语音确定的；

预处理模块123，用于对接收的所述目标语音进行预处理，获得预处理结果；

语音识别请求接收模块125，用于接收客户端发送的语音识别请求，所述语音识别请求是所述客户端在所述尾端静音的持续时长到达所述第二预设时间时生成的；

语音识别请求处理模块127，用于根据所述预处理结果确定对所述语音识别请求的响应数据；

响应数据发送模块129，用于将所述响应数据发送给所述客户端。

进一步的，预处理模块123还用于：根据目标语音接收的时序确定待处理语音，对每个所述待处理语音进行语音识别，得到与各待处理语音对应的语音识别结果；根据待处理语音的确定时间，将与最新确定的待处理语音对应的语音识别结果作为所述预处理结果。

所述的语音识别装置实施例中的语音识别装置与图4-5对应的方法实施例基于同样地发明构思。

本发明实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令和至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如图1-3对应的语音识别方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例还提供了一种客户端的结构示意图，如图13所示，该客户端可以用于实施上述实施例中提供的语音识别方法。具体来讲：

所述客户端可以包括RF(Radio Frequency，射频)电路1310、包括有一个或一个以上计算机可读存储介质的存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、WiFi(wireless fidelity，无线保真)模块1370、包括有一个或者一个以上处理核心的处理器1380、以及电源1390等部件。本领域技术人员可以理解，图13中示出的客户端结构并不构成对客户端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1380处理；另外，将涉及上行的数据发送给基站。通常，RF电路1310包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他客户端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobilecommunication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器1320可用于存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述客户端的使用所创建的数据等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1320还可以包括存储器控制器，以提供处理器880和输入单元1330对存储器1320的访问。

输入单元1330可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1330可包括触敏表面1331以及其他输入设备1332。触敏表面1331，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1331上或在触敏表面1331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面1331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1380，并能接收处理器1380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1331。除了触敏表面1331，输入单元1330还可以包括其他输入设备1332。具体地，其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及所述客户端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1340可包括显示面板1341，可选的，可以采用LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1341。进一步的，触敏表面1331可覆盖显示面板1341，当触敏表面1331检测到在其上或附近的触摸操作后，传送给处理器1380以确定触摸事件的类型，随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。其中，触敏表面1331与显示面板1341可以两个独立的部件来实现输入和输入功能，但是在某些实施例中，也可以将触敏表面1331与显示面板1341集成而实现输入和输出功能。

所述客户端还可包括至少一种传感器1350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度，接近传感器可在所述客户端移动到耳边时，关闭显示面板1341和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别客户端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于所述客户端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1360、扬声器1361，传声器1362可提供用户与所述客户端之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号，传输到扬声器1361，由扬声器1361转换为声音信号输出；另一方面，传声器1362将收集的声音信号转换为电信号，由音频电路1360接收后转换为音频数据，再将音频数据输出处理器1380处理后，经RF电路1310以发送给比如另一客户端，或者将音频数据输出至存储器1320以便进一步处理。音频电路1360还可能包括耳塞插孔，以提供外设耳机与所述客户端的通信。

WiFi属于短距离无线传输技术，所述客户端通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1370，但是可以理解的是，其并不属于所述客户端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1380是所述客户端的控制中心，利用各种接口和线路连接整个客户端的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行所述客户端的各种功能和处理数据，从而对客户端进行整体监控。可选的，处理器1380可包括一个或多个处理核心；优选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

所述客户端还包括给各个部件供电的电源1390(比如电池)，优选的，电源可以通过电源管理系统与处理器1380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1390还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，所述客户端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，客户端的显示单元是触摸屏显示器，客户端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行本发明中方法实施例中的指令。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于客户端之中以保存用于实现方法实施例中一种语音识别方法相关的至少一条指令或者至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的语音识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络客户端中的至少一个网络客户端。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述发明提供的语音识别方法、装置及存储介质，在接收语音对象的语音过程中，当语音中尾端静音到达第一预设时间时，即获取目标语音上传至语音识别服务器，使语音识别服务器在语音完全结束前提前对目标语音进行语音识别，获得预处理结果，在语音中尾端静音到达第二预设时间即语音完全结束时，向语音识别服务器请求语音识别，服务器可以根据预处理结果快速确定并下发语音识别结果，使客户端在确认语音完全结束时能即时获得该语音的语音识别结果，减少客户端获取服务器数据处理结果的等待时长，提高端对端响应速度，提升用户针对语音操作的体验。

本发明实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令和至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如图4-5对应的语音识别方法。

本发明实施例还提供了一种服务器的结构示意图，请参阅图14，该服务器1400用于实施上述实施例中提供的语音识别方法，具体来讲，所述服务器结构可以包括上述语音识别装置。该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1410(例如，一个或一个以上处理器)和存储器1430，一个或一个以上存储应用程序1423或数据1422的存储介质1420(例如一个或一个以上海量存储设备)。其中，存储器1430和存储介质1420可以是短暂存储或持久存储。存储在存储介质1420的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1410可以设置为与存储介质1420通信，在服务器1400上执行存储介质1420中的一系列指令操作。服务器1400还可以包括一个或一个以上电源1460，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1440，和/或，一个或一个以上操作系统1421，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种语音识别方法相关的至少一条指令和至少一段程序，该至少一条指令和该至少一段程序由该处理器加载并执行以实现上述图3-4对应的语音识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

根据语音接收的时序确定当前单元语音；

对于所述当前单元语音，执行下述数据处理操作：

在所述当前单元语音的尾端静音的持续时长到达第一预设时间时，基于接收到的语音确定目标语音，将所述目标语音传输至语音识别服务器；以使所述语音识别服务器对所述目标语音进行预处理，获得预处理结果；所述第一预设时间的范围为50-300ms；

在所述尾端静音的持续时长到达第二预设时间时，向所述语音识别服务器发送语音识别请求；以使所述语音识别服务器根据所述预处理结果确定对所述语音识别请求的响应数据；所述第二预设时间为500ms；所述语音识别服务器为区块链中的节点；

接收所述语音识别服务器返回的所述响应数据；所述响应数据为语音识别结果；所述语音识别结果为所述预处理结果；

所述所述语音识别服务器对所述目标语音进行预处理，获得预处理结果包括：

根据目标语音接收的时序确定待处理语音；所述待处理语音为当前接收的目标语音与在此之前接收到的目标语音的总和，所述待处理语音的数据与所述目标语音的数量相同；

对每个所述待处理语音进行语音识别，得到与各待处理语音对应的语音识别结果；

根据待处理语音的确定时间，将与最新确定的待处理语音对应的语音识别结果作为所述预处理结果。

2.根据权利要求1所述的方法，其特征在于，所述在所述当前单元语音的尾端静音的持续时长到达第一预设时间时，基于接收到的语音确定目标语音，将所述目标语音传输至语音识别服务器，包括：

当所述当前单元语音的尾端静音的持续时长到达第一预设时间时，确定所述尾端静音的持续时长到达第一预设时间时对应的时间为第一时间点，获取所述第一时间点之前未上传至所述语音识别服务器的语音，将获取的语音中首个单元语音的开始时间确定为第二时间点，根据所述第二时间点至第一时间点之间的语音确定目标语音，将所述目标语音上传至所述语音识别服务器。

3.根据权利要求1所述的方法，其特征在于，对所述当前单元语音执行的数据处理操作还包括：

如果在所述当前单元语音的尾端静音的持续时长超过第三预设时间但未到达第一预设时间时接收到其他单元语音，则持续接收其他单元语音，直至接收到的其他单元语音满足尾端静音的持续时长到达第一预设时间时，将满足尾端静音的持续时长到达第一预设时间的其他单元语音作为新的当前单元语音。

4.根据权利要求1所述的方法，其特征在于，对所述当前单元语音执行的数据处理操作还包括：

如果在所述当前单元语音的尾端静音的持续时长超过第一预设时间并且未到达第二预设时间时接收到其他单元语音，确定所述尾端静音到达第二预设时间时对应的时间为第二时间点、所述尾端静音后的首个单元语音的开始时间为第三时间点；根据所述第二时间点至所述第三时间点之间的语音确定目标语音；将所述目标语音上传至所述语音识别服务器；以及，

将所述尾端静音后的首个单元语音作为新的当前单元语音。

5.一种语音识别方法，其特征在于，应用于语音识别服务器，所述语音识别服务器为区块链中的节点；所述方法包括：

接收客户端上传的目标语音，所述目标语音为客户端接收语音的过程中，当所述语音中当前单元语音的尾端静音的持续时长到达第一预设时间时，根据接收到的语音确定的；所述第一预设时间的范围为50-300ms；

对接收的所述目标语音进行预处理，获得预处理结果；

接收客户端发送的语音识别请求，所述语音识别请求是所述客户端在所述尾端静音的持续时长到达第二预设时间时生成的；所述第二预设时间为500ms；

根据所述预处理结果确定对所述语音识别请求的响应数据；所述响应数据为语音识别结果；所述语音识别结果为所述预处理结果；

将所述响应数据发送给所述客户端；

6.一种语音识别装置，其特征在于，所述语音识别装置位于语音识别服务器中，所述语音识别服务器为区块链中的节点；所述装置包括：

所述目标语音发送单元，用于在所述当前单元语音的尾端静音的持续时长到达第一预设时间时，基于接收到的语音确定目标语音，将所述目标语音传输至语音识别服务器；以使所述语音识别服务器对所述目标语音进行预处理，获得预处理结果；所述第一预设时间的范围为50-300ms；所述所述语音识别服务器对所述目标语音进行预处理，获得预处理结果包括：

根据目标语音接收的时序确定待处理语音；对每个所述待处理语音进行语音识别，得到与各待处理语音对应的语音识别结果；根据待处理语音的确定时间，将与最新确定的待处理语音对应的语音识别结果作为所述预处理结果；所述待处理语音为当前接收的目标语音与在此之前接收到的目标语音的总和，所述待处理语音的数据与所述目标语音的数量相同；

所述语音识别请求发送单元，用于在所述尾端静音的持续时长到达第二预设时间时，向所述语音识别服务器发送语音识别请求；以使所述语音识别服务器根据所述预处理结果确定对所述语音识别请求的响应数据；所述第二预设时间为500ms；所述语音识别服务器为区块链中的节点；

响应数据接收模块，用于接收所述语音识别服务器返回的所述响应数据；所述响应数据为语音识别结果；所述语音识别结果为所述预处理结果。

7.一种语音识别装置，其特征在于，所述语音识别装置位于语音识别服务器中，所述语音识别服务器为区块链中的节点；所述装置包括：

目标语音接收模块，用于接收客户端上传的目标语音，所述目标语音为客户端接收语音的过程中，当所述语音中当前单元语音的尾端静音的持续时长到达第一预设时间时，根据接收到的语音确定的；所述第一预设时间的范围为50-300ms；

预处理模块，用于对接收的所述目标语音进行预处理，获得预处理结果；还用于根据目标语音接收的时序确定待处理语音；对每个所述待处理语音进行语音识别，得到与各待处理语音对应的语音识别结果；根据待处理语音的确定时间，将与最新确定的待处理语音对应的语音识别结果作为所述预处理结果；所述待处理语音为当前接收的目标语音与在此之前接收到的目标语音的总和，所述待处理语音的数据与所述目标语音的数量相同；

语音识别请求接收模块，用于接收客户端发送的语音识别请求，所述语音识别请求是所述客户端在所述尾端静音的持续时长到达第二预设时间时生成的；所述第二预设时间为500ms；

语音识别请求处理模块，用于根据所述预处理结果确定对所述语音识别请求的响应数据；所述响应数据为语音识别结果；所述语音识别结果为所述预处理结果；

8.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令和至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如权利要求1-4或权利要求5任一所述的语音识别方法。

9.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如权利要求1-4或权利要求5任一所述的语音识别方法。