CN113053392A

CN113053392A - 语音识别方法、语音识别装置、电子设备及介质

Info

Publication number: CN113053392A
Application number: CN202110325182.XA
Authority: CN
Inventors: 杨慕葵
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-29
Anticipated expiration: 2041-03-26
Also published as: CN113053392B

Abstract

本公开实施例提供了一种语音识别方法、语音识别装置、电子设备及计算机可读介质；涉及自然语音处理技术领域。该语音识别方法包括：接收语音设备上实时输入的音频片段，当音频片段中包含终止符时输入完成；将音频片段分发至多个识别源，通过多个识别源分别对音频片段进行识别，接收多个识别源返回的识别结果；根据多个识别源的响应时间将多个识别源的识别结果进行融合向语音设备返回中间识别结果；结合响应时间与多个识别源的识别准确性，向所述语音设备返回最终识别结果。本公开实施例的技术方案能够根据识别源的响应时间融合多个识别源的识别结果，从而快速返回识别结果，提高语音识别的响应时间。

Description

语音识别方法、语音识别装置、电子设备及介质

技术领域

本公开涉及自然语言处理技术领域，具体而言，涉及一种语音识别方法、语音识别装置、电子设备和计算机可读介质。

背景技术

语音识别指的是让机器通过识别和理解过程把语音信号转换为相应的文本的技术，广泛应用于各种语音交互设备，例如智能音箱、手机、智能手表、会议笔翻译机等等。

语音设备采集的音频是按流上报到云端，云端服务收到一个接一个的音频片段进行识别。目前各大语音识别技术服务商都推出了相关技术服务，通过提供接口来接收语音设备不断上传的音频流，然后持续返回中间识别结果，直到接收到终止提示符。由于每个音频片段中间因为网络延时存在一些时间间隔，而识别也需要花费一定的时间，造成用户等待的时间过长，难以满足需求。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例的目的在于提供一种语音识别方法、语音识别装置、电子设备和计算机可读介质，能够根据识别源的响应时间融合多个识别源的识别结果，从而快速返回识别结果，提高语音识别的响应时间。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的第一方面，提供了一种语音识别方法，包括：

接收语音设备上实时输入的音频片段，当所述音频片段中包含终止符时输入完成；

将所述音频片段分发至多个识别源，通过所述多个识别源分别对所述音频片段进行识别，接收所述多个识别源返回的识别结果；

根据所述多个识别源的响应时间将所述多个识别源的识别结果进行融合向所述语音设备返回中间识别结果；

结合所述响应时间与所述多个识别源的识别准确性，向所述语音设备返回最终识别结果，其中，所述最终识别结果为包含终止符的音频片段对应的识别结果。

在本公开的示例性实施方式中，所述根据所述多个识别源的响应时间将所述多个识别源的识别结果进行融合向所述语音设备返回中间识别结果包括：

接收所述多个识别源针对第一音频片段的第一识别结果，根据所述多个识别源的所述第一识别结果的响应时间确定第一中间识别结果，并将所述第一中间识别结果发送至所述语音设备；

接收所述多个识别源针对第二音频片段的第二识别结果，将包含所述第一中间识别结果的第二识别结果作为第二中间识别结果，将所述第二中间识别结果发送至所述语音设备。

在本公开的示例性实施方式中，所述将包含所述第一中间识别结果的第二识别结果作为第二中间识别结果，将所述第二中间识别结果发送至所述语音设备包括：

将所述第一中间识别结果对应的识别源作为第一识别源，当所述第一识别源的第二识别结果的响应时间小于其他识别源时，则将所述第一识别源返回的第二识别结果作为第二中间识别结果；

当所述第一识别源的第二识别结果的响应时间在预设范围内时，则将所述第一识别源的第二识别结果作为第二中间识别结果。

当所述第一识别源的第二识别结果的响应时间不在所述预设范围内时，根据所述多个识别源的识别准确性从所述多个识别源中确定第二识别源，将所述第二识别源的第二识别结果作为第二中间识别结果。

在本公开的示例性实施方式中，所述结合所述响应时间与所述多个识别源的识别准确性，向所述语音设备返回最终识别结果包括：

若所述中间识别结果对应的识别源返回候选识别结果的响应时间在预设等待时间内，则将所述中间识别结果对应的识别源返回的候选识别结果作为最终识别结果，其中，所述候选识别结果为针对所述包含终止符的音频片段的识别结果；

若所述中间识别结果对应的识别源返回候选识别结果的响应时间不在所述预设等待时间内，则根据多个识别源的识别准确性确定目标识别源，获取所述目标识别源的候选识别结果作为最终识别结果；

将所述最终识别结果发送至所述语音设备，以在所述语音设备上显示所述最终识别结果。

在本公开的示例性实施方式中，所述方法还包括：

确定所述中间识别结果对应的第三识别源的响应速度；

根据所述第三识别源的响应速度计算响应所述预设等待时间。

在本公开的示例性实施方式中，所述方法还包括：

采集语音样本，并向每个所述识别源发送所述语音样本；

根据所述识别源对所述语音样本的识别结果计算所述识别源的识别准确性以及响应速度。

根据本公开实施例的第二方面，提供了一种语音识别装置，可以包括数据接收模块、数据分发模块、数据识别模块以及识别结果确定模块。

其中，数据接收模块，用于接收语音设备上的输入数据，所述输入数据包括实时更新的多个音频片段；数据分发模块，用于将所述输入数据分发至多个识别源，通过所述多个识别源分别对所述输入数据进行识别，接收所述多个识别源返回的识别结果；数据识别模块，用于根据所述多个识别源的响应时间将所述多个识别源的识别结果进行融合向所述语音设备返回中间识别结果；识别结果确定模块，用于结合所述响应时间与所述多个识别源的识别准确性，向所述语音设备返回最终识别结果，其中，所述中间识别结果为所述音频片段的识别结果，所述最终识别结果为所述输入数据对应的识别结果。

在本公开的示例性实施方式中，所述数据识别模块包括第一中间结果模块，用于接收所述多个识别源针对第一音频片段的第一识别结果，根据所述多个识别源的所述第一识别结果的响应时间确定第一中间识别结果，并将所述第一中间识别结果发送至所述语音设备；以及第二中间结果模块，用于接收所述多个识别源针对第二音频片段的第二识别结果，将包含所述第一中间识别结果的第二识别结果作为第二中间识别结果，将所述第二中间识别结果发送至所述语音设备。

在本公开的示例性实施方式中，所述第二中间结果模块包括时间确定模块，用于将所述第一中间识别结果对应的识别源作为第一识别源，当所述第一识别源的第二识别结果的响应时间小于其他识别源时，则将所述第一识别源返回的第二识别结果作为第二中间识别结果；等待响应模块，用于当所述第一识别源的第二识别结果的响应时间在预设范围内时，则将所述第一识别源的第二识别结果作为第二中间识别结果。

在本公开的示例性实施方式中，所述第二中间结果模块包括准确性确定模块，用于当所述第一识别源的第二识别结果的响应时间不在所述预设范围内时，根据所述多个识别源的识别准确性从所述多个识别源中确定第二识别源，将所述第二识别源的第二识别结果作为第二中间识别结果。

在本公开的示例性实施方式中，识别结果确定模块包括候选结果接收模块，用于若所述中间识别结果对应的识别源返回候选识别结果的响应时间在预设等待时间内，则将所述中间识别结果对应的识别源返回的候选识别结果作为最终识别结果，其中，所述候选识别结果为针对所述包含终止符的音频片段的识别结果；目标识别源确定模块，用于若所述中间识别结果对应的识别源返回候选识别结果的响应时间不在所述预设等待时间内，则根据多个识别源的识别准确性确定目标识别源，获取所述目标识别源的候选识别结果作为最终识别结果；结果显示模块，用于将所述最终识别结果发送至所述语音设备，以在所述语音设备上显示所述最终识别结果。

在本公开的示例性实施方式中，所述语音识别装置还包括响应速度确定模块，用于确定所述中间识别结果对应的第三识别源的响应速度；以及时间计算模块，用于根据所述第三识别源的响应速度计算响应所述预设等待时间。

在本公开的示例性实施方式中，所述语音识别装置还包括样本采集模块，用于采集语音样本，并向每个所述识别源发送所述语音样本；以及准确性计算模块，用于根据所述识别源对所述语音样本的识别结果计算所述识别源的识别准确性以及响应速度。

根据本公开实施例的第三方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中第一方面所述的语音识别方法。

根据本公开实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中第一方面所述的语音识别方法。

在本公开实施例所提供的语音识别方法、语音识别装置、电子设备和计算机可读介质，一方面，通过响应时间对多个识别源的识别结果进行融合，可以快速向用户返回中间识别结果，提高语音识别的响应时间；另一方面，同时结合识别准确性与响应时间向用户返回最终识别结果，可以提高语音识别的准确性；再一方面，通过多个识别源的识别结果的融合，可以识别不同场景下的语音任务，满足不同场景下的语音识别需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了应用于本公开实施例的语音识别方法或语音识别装置的示例性系统架构示意图；

图2示意性示出了根据本公开的一实施例的语音识别方法的流程图；

图3示意性示出了根据本公开的另一实施例中语音识别方法的流程图；

图4示意性示出了根据本公开的又一实施例中语音识别方法的流程图；

图5示意性示出了根据本公开的一实施例中语音识别方法的流程图；

图6示意性示出了根据本公开的另一实施例中语音识别方法的流程图；

图7示意性示出了根据本公开的一实施例中的语音识别方法的应用场景示意图；

图8示意性示出了根据本公开的另一实施例中语音识别方法的应用场景示意图；

图9示意性示出了根据本公开的一实施例的语音识别装置的框图；

图10示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本说明书中，用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在一个或多个要素/组成部分/等；用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思，并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”、“第二”、“第三”等仅作为标记使用，不是对其对象的数量限制。

下面结合附图对本公开示例实施方式进行详细说明。

图1示出了可以应用于本公开实施例的语音识别方法或语音识别装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。其中，终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑、可穿戴设备、虚拟现实设备、智能家居等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理，并将处理结果反馈给终端设备。服务器105还可为提供云端服务的云服务器，例如对发送至云端的请求进行分析处理等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的语音识别方法一般由服务器105执行，相应地，语音识别装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的语音识别方法也可以由终端设备101、102、103执行，相应的，语音识别装置也可以设置于终端设备101、102、103中，本示例性实施例中对此不做特殊限定。

基于此，本公开实施例提供一种语音识别方法的技术方案，可以利用多个识别源的识别结果，提高识别响应的速度，减少语音识别的等待时间。

如图2所示，本公开实施例提供的语音识别方法可以包括步骤S21、步骤S22、步骤S23以及步骤S24。

步骤S21.接收语音设备上实时输入的音频片段，当所述音频片段中包含终止符时输入完成。

步骤S22.将所述音频片段分发至多个识别源，通过所述多个识别源分别对所述音频片段进行识别，接收所述多个识别源返回的识别结果。

步骤S23.根据所述多个识别源的响应时间将所述多个识别源的识别结果进行融合向所述语音设备返回中间识别结果。

步骤S24.结合所述响应时间与所述多个识别源的识别准确性，向所述语音设备返回最终识别结果，其中，所述最终识别结果为包含终止符的音频片段对应的识别结果。

在本公开示例性实施方式的语音识别方法中，一方面，通过响应时间对多个识别源的识别结果进行融合，可以快速向用户返回中间识别结果，提高语音识别的响应时间；另一方面，同时结合识别准确性与响应时间向用户返回最终识别结果，可以提高语音识别的准确性；再一方面，通过多个识别源的识别结果的融合，可以识别不同场景下的语音任务，满足不同场景下的语音识别需求。

下面对本公开示例性实施方式中的各个步骤进行详细介绍。

在步骤S21中，接收语音设备上实时输入的音频片段，当所述音频片段中包含终止符时输入完成。

其中，所述语音设备可以指具备语音交互功能的各种终端设备，包括但不限于手机、电脑、音箱、手表、智能家居设备、可穿戴设备等等。输入数据可以包括多个音频片段，也可以包括起始符、终止符，或者其他标识信息，例如音频片段的序号等。用户可以对着语音设备说出完整句子或完整对话，该完整语句的音频可以分多次进行传输，每次传输一音频片段，例如当用户进行语音对话时，每隔2秒传输一次当前接收到的音频片段等，当用户停止对话时，可以向音频片段尾部添加一终止符，标识输入完成，此时的音频片段为完整对话音频。

通过语音设备上的触发开关可以触发语音设备开始采集用户的音频信号，该触发开关可以包括语音设备上的实体按钮，也可以包括显示屏幕上虚拟按钮，并且该触发开关还可以包括语音控制的唤醒词等，本实施方式对此不做特殊限定。当该触发开关被开启时会向服务器发送一起始符，服务器接收到该起始符之后则开始进行语音识别；然后语音设备可以实时采集用户的语音并将采集到的音频信号以片段的形式不断向服务器传输，服务端可以持续不断地接收到音频片段；当语音设备检测到语音结束时将向服务器发送一终止符表示输入完成。举例而言，云端服务可以提供例如websocket、http2类型的接口，语音设备通过接口将实时采集到的音频片段上传至云端服务，云端服务通过该接口可以持续地接收到多个音频片段。

在步骤S22中，将所述音频片段分发至多个识别源，通过所述多个识别源分别对所述音频片段进行识别，接收所述多个识别源返回的识别结果。

识别源可以指提供语音识别服务的服务端，例如腾讯、百度等。当接收到语音设备上输入音频片段时，服务器可以将音频片段分发至每个识别源。识别源可以对传输过来的音频片段进行识别，得到识别结果，并将识别结果返回至服务器。不同的识别源返回的识别结果可以不同，通过识别源的标识信息可以对识别源与其返回的识别结果进行标识，以区分每个识别源。需要说明的是，本示例性实施方式中，将音频片段分发至多个识别源的过程是反复进行的，并且接收识别结果与分发音频片段是双向进行的。在语音设备上可以实时输入音频片段，输入的音频片段的时长随时间的增加而增加。识别源可以对每个音频片段分别进行识别，服务器每接收到一个音频片段就需要分发一次，当服务器分发第二个音频片段的同时也可以接收识别源返回的针对第一个音频片段的识别结果。

在步骤S23中，根据所述多个识别源的响应时间将所述多个识别源的识别结果进行融合向所述语音设备返回中间识别结果。

本示例性实施方式中，接收到每个识别源针对输入数据的识别结果后，可以将每个识别源的识别结果进行融合，来确定中间识别结果。示例性的，根据响应时间将快速响应的识别源返回的识别结果作为中间识别结果，返回至语音设备。响应时间越快返回识别结果的时延越小，因而可以将第一个接收到的识别源返回的识别结果作为中间识别结果。该方法具体可以包括步骤S31和步骤S32，如图3所示。

步骤S31.接收所述多个识别源针对第一音频片段的第一识别结果，根据所述多个识别源的所述第一识别结果的响应时间确定第一中间识别结果，并将所述第一中间识别结果发送至所述语音设备。

步骤S32.接收所述多个识别源针对第二音频片段的第二识别结果，将包含所述第一中间识别结果的第二识别结果作为第二中间识别结果，将所述第二中间识别结果发送至所述语音设备。

在步骤S31中，对于第一音频片段，在将其分发至多个识别源之后，可以将针对第一音频片段的响应时间最大的识别结果确定为第一中间识别结果，即将第一个返回的识别结果确定为第一中间识别结果，进而将第一中间识别结果发送至语音设备，可以加快语音设备的响应时间，减少用户等待的时间。此外，通过在一定的时间段内接收到的多个识别结果，例如获取在3秒内返回的识别结果，或者可以获取响应时间较小的识别结果，例如前三位返回的识别结果等，将响应时间符合要求的多个识别结果进行融合，从中确定出第一中间识别结果。示例性的，将多个识别结果进行融合可以包括确定该多个识别结果是否相同，若相同则可以将该识别结果作为第一中间识别结果；若不相同，可以选择字长最长的识别结果作为第一中间识别结果，或者选择出现频率最高的识别结果作为第一中间识别结果，例如三个识别源各返回一个识别结果，其中有两个识别结果相同，另一个识别结果与其不相同，则可以将两个相同的识别结果作为第一中间识别结果。

在步骤S32中，对于第二音频片段，在将其分发至各个识别源后，可以接收对于第二音频片段的第二识别结果，判断第一个返回的第二识别结果是否包含第一中间识别结果，如果第一个返回的第二识别结果包含第一中间识别结果则可以将其作为第二中间识别结果，发送至语音设备；如果第一个返回的第二识别结果不包含第一中间识别结果，则继续等待接收第二个返回的识别结果，依次类推，确定出包含第一中间识别结果的第二识别结果。需要说明的是，第二音频片段为第一音频片段之后传输的音频片段，也就是说，第二音频片段包含第一音频片段，例如语音设备的传输规则为每隔一秒传输一次音频片段，则当用户进行对话时，在第1秒传输一时长为1秒的音频片段，在第2秒传输一时长为2秒的音频片段，在第3秒传输的则为时长为3秒的音频片段。后传输的音频片段的时长大于前面传输的音频片段。

在示例性实施方式中，确定第二中间识别结果的方法可以包括步骤S41以及步骤S42，如图4所示。

步骤S41.将所述第一中间识别结果对应的识别源作为第一识别源，当所述第一识别源的第二识别结果的响应时间小于其他识别源时，则将所述第一识别源返回的第二识别结果作为第二中间识别结果。

步骤S42.当所述第一识别源的第二识别结果的响应时间在预设范围内时，则将所述第一识别源的第二识别结果作为第二中间识别结果。

在步骤S41中，确定第一中间识别结果时可以确定返回该第一中间识别结果的识别源，将该识别源作为第一识别源。当第一识别源的第二识别结果的响应时间小于其他识别源时，也就是说，第一识别源响应最快，返回第二识别结果的时间最短，则可以将第一识别源的第二识别结果作为第二中间识别结果。如果对于第二音频片段依然是该第一识别源首先返回识别结果，则可以直接将该第一识别源返回的第二识别结果作为第二中间识别结果，发送至语音设备。由于第一中间识别结果与第二中间识别结果为同一识别源返回的识别结果，因此第一中间识别结果与第二中间识别结果可以无缝衔接，例如，第一中间识别结果为“我们”，第二中间识别结果为“我们一起去吃饭”，对于语音设备来说识别结果的更替更加稳定，用户体验更好。

在步骤S42中，如果第一识别源返回第二识别结果的响应时间不小于其他识别源，即，第一识别源不是第一个返回第二识别结果的识别源，可以获取针对第二音频片段第一个返回的第二识别结果，若该识别结果中包含第一中间识别结果，则可以向语音设备返回该第二识别结果，也可以保证语音设备端识别结果的连续性。如果第一个返回的第二识别结果中并不包含第一中间识别结果，则可以在预定的时间段内等待第一识别源返回针对第二音频片段的识别结果。如果第一识别源在该预定时间段返回结果，即第一识别源的第二识别结果的响应时间在预设范围内，则可以将第一识别源的第二识别结果作为第二中间识别结果，保证语音设备段识别结果的连续性。如果第一识别源返回第二识别结果的响应时间不小于其他识别源时，可以获取针对第二音频片段第一个返回的第二识别结果，若该识别结果中包含第一中间识别结果，则可以向语音设备返回该识别结果，也可以实现语音设备段识别结果的连续性。

其中，预设范围可以包括一预设时间段，例如10毫秒、20毫秒秒、30毫秒等，也可以包括其他时间值，例如50毫秒等，本实施方式对此不做特殊限定。

在示例性实施方式中，如果所述第一识别源的第二识别结果的响应时间不在所述预设范围内时，根据所述多个识别源的识别准确性从所述多个识别源中确定第二识别源，将第二识别源的第二识别结果作为第二中间识别结果。

本实施方式中音频片段还可以包括第三音频片段、第四音频片段等等，相应地，针对第三音频片段可以获取第三识别结果，针对第四音频片段可以获取第四识别结果等等，音频片段的数量根据实际用户的语音对话而定。需要理解的是，每轮音频片段均可以按照上述方式确定出对应的中间识别结果，向语音设备反馈，从而实现实时的语音识别。举例而言，对于第三音频片段，可以首先获取上一中间识别结果对应的识别源，例如第一识别源，如果该第一识别源最快返回针对第三音频片段的第三识别结果，则可以将其返回的第三识别结果作为第三中间识别结果发送至语音设备。

在步骤S24中，结合所述响应时间与所述多个识别源的识别准确性，向所述语音设备返回最终识别结果，其中，所述最终识别结果为包含终止符的音频片段对应的识别结果。

本示例性实施方式中，当音频采集完成时，语音设备可以在音频片段上添加一终止符，此时输入更新为完整句子或完整对话对应的音频片段。将包含终止符的音频片段可以作为完整音频，或者最终音频片段(以下简称为“最终音频片段”)。具体的，各个识别源针对包含终止符的完整音频可以进行语音识别，并返回最终识别结果。对首先返回的最终识别结果进行检测，确定其是否包含上一音频片段对应的中间识别结果，如果该首先返回的最终识别结果中包含中间识别结果，则可以将该最终识别结果发送至语音设备，在语音设备进行显示。如果响应时间最短的最终识别结果中并不包含中间识别结果，则可以根据多个识别源的识别准确性，将识别准确性最高的识别源返回的识别结果作为最终识别结果。

确定最终识别结果的方法具体还可以包括步骤S51至步骤S53，如图5所示。

步骤S51.若所述中间识别结果对应的识别源返回候选识别结果的响应时间在预设等待时间内，则将所述中间识别结果对应的识别源返回的候选识别结果作为最终识别结果，其中，所述候选识别结果为针对所述包含终止符的音频片段的识别结果。

步骤S52.若所述中间识别结果对应的识别源返回候选识别结果的响应时间不在预设等待时间内，则根据多个识别源的识别准确性确定目标识别源，获取所述目标识别源的候选识别结果作为最终识别结果。

步骤S53.将所述最终识别结果发送至所述语音设备，以在所述语音设备上显示所述最终识别结果。

在步骤S51中，确定上一中间识别结果对应的识别源，如果该识别源返回的候选识别结果的响应时间在预设等待时间内，则将该识别源返回的候选识别结果作为最终识别结果。其中，预设等待时间为一预设时间段，例如1秒、10毫秒等，该时间段可以根据实际需求设定，例如20毫秒等，本实施方式对此不做特殊限定。候选识别结果为针对最终音频片段的识别结果。每个识别源均可以对最终音频片段进行识别，向服务器返回对应的候选识别结果。

在步骤S52中，如果中间识别结果对应的识别源返回的候选识别结果的响应时间不在预设等待时间内，则可以等待多个识别源返回候选识别结果，根据多个识别源的识别准确性确定目标识别源，从而将目标识别源的候选识别结果作为最终识别结果。目标识别源可以是返回识别结果的识别源中识别准确性最高的，也可以是返回的识别结果中字长最长的。示例性的，为了控制语音设备上的响应时间，可以在该预设等待时间内等待候选识别结果，从而将最终识别结果的响应时间控制在该预设等待时间内。

示例性实施方式中，该预设等待时间可以根据中间识别结果对应的识别源的响应速度而定。该方法具体可以包括步骤S61以及步骤S62，如图6所示。

步骤S61.确定所述中间识别结果对应的第三识别源的响应速度。

步骤S62.根据所述第三识别源的响应速度计算响应所述预设等待时间。

在步骤S61中，确定中间识别结果对应的第三识别源的响应速度。其中，响应速度可以理解为识别源识别一定时长的音频所花费的时间，计算公式为：识别音频片段的时间/音频片段的时长。识别音频片段的时间可以通过接收到音频片段的时间与返回识别结果的时间差确定。每个识别源的响应速度可以预先确定，保存在数据库中。将上一轮返回中间识别结果的识别源作为第三识别源，从数据库中可以查询该第三识别源的响应速度。

在步骤S62中，根据包含终止符的音频片段的时长以及第三识别源的响应速度来计算预设等待时间。举例而言，预设等待时间可以利用以下公式进行计算：Tp＝Max(50ms，Min(10ms,(S*Vi–Ti已经消耗时间)))，其中，S为最终音频片段的时长长度，Vi为中间识别结果对应的识别源i的响应速度，Ti为识别源i当前所花费总的识别时间，即，Ti为识别源i识别之前每一音频片段所花费的时间之和，计算得到Tp为预设等待时间。

在步骤S53中，将确定出的最终识别结果发送至语音设备，从而在语音设备上显示该最终识别结果。本领域技术人员容易理解的是，在语音设备上显示的识别结果也是不断更新的，每确定出一中间识别结果需要显示在语音设备，替换之前的中间识别结果，最终识别结果则需要替换之前显示的中间识别结果。

在示例性实施方式中，进行语音识别之前，可以预先测试各个识别源的识别准确性以及响应速度。具体的，采集语音样本，并向每个所述识别源发送所述语音样本；根据所述识别源对所述语音样本的识别结果计算所述识别源的识别准确性以及响应速度。

语音样本可以预先确定出识别结果，然后跟识别源返回的识别结果进行对比，确定识别源对语音样本的识别是否正确，从而统计出识别正确的样本数量以及识别错误的样本数量，来计算识别源的识别准确性。例如，语音样本为1000个，识别源a对这1000个语音样本进行识别，其中900个语音样本的识别结果与预先确定的识别结果一致，100个样本与预先确定的识别结果不一致，则900个识别正确，100个识别错误，该识别源a的识别正确性为900/1000＝0.9。

并且，在识别源返回识别结果时可以记录返回识别结果的时间，以及接收到语音样本的时间，从而根据“(返回识别结果的时间-接收到语音样本的时间)/语音样本的时长”来计算响应速度。计算出每一语音样本对应的响应速度之后取平均值作为该识别源的响应速度。

在示例性实施方式中，针对不同应用场景可以分别测试每个识别源的响应速度，从而精确地控制语音识别花费的时间。例如，对于智能手表、智能音箱场景分别测试每个识别源的识别准确性与响应速度，如下表所示：

其中，R为识别准确性，V指响应速度。测试出每个场景下各个识别源的识别准确性与响应速度后，可以对各个识别源进行排序，确定出最优的识别源。例如，对识别准确性与响应速度分别进行排序，并为识别准确性与响应速度分别设置一系数，通过该系数进行加权求和的方式来确定最大值的识别源，该最大值的识别源可以作为最优识别源。

结合上表，在本公开的一种应用场景中，语音识别方法还包括步骤S701至步骤S709，如图7所示。在步骤S701中，音频片段P1、P2、P3…等，按顺序依次发送至服务器。在步骤S702中，服务器接收到音频片段Pn后，将音频片段Pn分发至每个识别源，通过各个识别源来对音频片段进行识别。在步骤S703中，将第一个返回的识别结果C1作为中间识别结果发送至语音设备，例如第一返回识别结果的为识别源c，则将当前的中间识别结果对应的识别源作为最优识别源。当前的识别结果C1为针对音频片段P1的识别结果。在步骤S704中，更新识别结果，当前的识别结果可以更新为音频片段P2的识别结果C2。在步骤S705中，判断更新的识别结果C2是否包含C1，如果C2完全包含C1，则可以将C2作为中间识别结果发送至语音设备，例如C2为识别源b返回，则将最优识别源更新为b。在步骤S706中，继续更新识别结果C3，当前识别结果C3可以为音频片段P3对应的识别结果。在步骤S707中，如果识别结果C3不包含上一中间识别结果C2，则等待一段时间Tp。在步骤S708中，如果在Tp内，当前最优识别源b返回识别结果C4，则可以将C4作为中间识别结果发送至语音设备。在步骤S709中，如果在Tp内，最优识别源b没有返回结果，则可以根据已经返回结果的多个识别源中确定最优识别源，并将最优识别源的识别结果作为中间识别结果返回至语音设备。例如，在多个已经返回结果的识别源中将上表中的排序出的最优的识别源返回的识别结果作为中间识别结果，或者将准确性最高的识别源返回的识别结果作为最优识别源等。依次类推，每个音频片段对应的中间识别结果均可以采用上述步骤来确定，进而返回每一个音频片段的中间识别结果，直到服务器接收到终止符为止。其中，Tp可以根据实际需求设置，示例性的，例如采用Tp＝Max(50ms，Min(10ms,(当前音频片段长度*Vi–识别源i已经消耗时间)的公式确定，其中，Vi表示识别源i的响应速度。

示例性的，确定最终识别结果的方法可以包括步骤S801至步骤S8，如图8所示。在步骤S801中，如果服务器接收到终止符时，确定第一个返回针对语音片段Pn的识别结果N1的识别源是否为该场景下的最优识别源，若最优识别源先返回，则最优识别源返回的识别结果N1直接作为最终识别结果发送至语音设备。在步骤S802中，如果先返回识别结果的不是最优识别源，则等待一段时间Tf，等待其他识别源返回结果。该Tf可以根据最优识别源的响应速度来计算，例如Tf＝Min(200ms,音频长度*Va)，通过该方法可以将该等待时间控制在200ms以内；此外Tf可以采用其他方式计算，例如Tf＝Min(200ms,音频长度*(Vb–Va))等。在步骤S803中，如果在该等待时间Tf中，只有一个识别源返回识别结果N2，则将该识别源的识别结果N2作为最终识别结果发送至语音设备。在步骤S804中，在等待时间Tf中，如果有多个识别源返回识别结果，则可以确定将识别准确性最高的识别源返回的识别结果N3发送至语音设备。

以下介绍本公开的装置实施例，可以用于执行本公开上述的语音识别方法。参考图9，本公开实施例提供的语音识别装置90可以包括：数据接收模块91、数据分发模块92、数据识别模块93以及识别结果确定模块94。

其中，数据接收模块91，用于接收语音设备上的输入数据，所述输入数据包括实时更新的多个音频片段；数据分发模块92，用于将所述输入数据分发至多个识别源，通过所述多个识别源分别对所述输入数据进行识别，接收所述多个识别源返回的识别结果；数据识别模块93，用于根据所述多个识别源的响应时间将所述多个识别源的识别结果进行融合向所述语音设备返回中间识别结果；识别结果确定模块94，用于结合所述响应时间与所述多个识别源的识别准确性，向所述语音设备返回最终识别结果，其中，所述中间识别结果为所述音频片段的识别结果，所述最终识别结果为所述输入数据对应的识别结果。

在本公开的示例性实施方式中，所述数据识别模块93包括第一中间结果模块，用于接收所述多个识别源针对第一音频片段的第一识别结果，根据所述多个识别源的所述第一识别结果的响应时间确定第一中间识别结果，并将所述第一中间识别结果发送至所述语音设备；以及第二中间结果模块，用于接收所述多个识别源针对第二音频片段的第二识别结果，将包含所述第一中间识别结果的第二识别结果作为第二中间识别结果，将所述第二中间识别结果发送至所述语音设备。

在本公开的示例性实施方式中，识别结果确定模块94包括候选结果接收模块，用于若所述中间识别结果对应的识别源返回候选识别结果的响应时间在预设等待时间内，则将所述中间识别结果对应的识别源返回的候选识别结果作为最终识别结果，其中，所述候选识别结果为针对所述包含终止符的音频片段的识别结果；目标识别源确定模块，用于若所述中间识别结果对应的识别源返回候选识别结果的响应时间不在所述预设等待时间内，则根据多个识别源的识别准确性确定目标识别源，获取所述目标识别源的候选识别结果作为最终识别结果；结果显示模块，用于将所述最终识别结果发送至所述语音设备，以在所述语音设备上显示所述最终识别结果。

在本公开的示例性实施方式中，所述语音识别装置90还包括响应速度确定模块，用于确定所述中间识别结果对应的第三识别源的响应速度；以及时间计算模块，用于根据所述第三识别源的响应速度计算响应所述预设等待时间。

在本公开的示例性实施方式中，所述语音识别装置90还包括样本采集模块，用于采集语音样本，并向每个所述识别源发送所述语音样本；以及准确性计算模块，用于根据所述识别源对所述语音样本的识别结果计算所述识别源的识别准确性以及响应速度。

由于本公开的示例实施例的语音识别装置的各个功能模块与上述语音识别方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的语音识别方法的实施例。

下面参考图10，其示出了适于用来实现本公开实施例的电子设备的计算机系统1000的结构示意图。图10示出的电子设备的计算机系统1000仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的语音识别方法。

例如，所述的电子设备可以实现如图2中所示的：步骤S21，接收语音设备上的输入数据，所述输入数据包括实时更新的多个音频片段；步骤S22，将所述输入数据分发至多个识别源，通过所述多个识别源分别对所述输入数据进行识别，接收所述多个识别源返回的识别结果；步骤S23，根据所述多个识别源的响应时间将所述多个识别源的识别结果进行融合向所述语音设备返回中间识别结果；步骤S24，结合所述响应时间与所述多个识别源的识别准确性，向所述语音设备返回最终识别结果，其中，所述中间识别结果为所述音频片段的识别结果，所述最终识别结果为所述输入数据对应的识别结果。

又如，所述的电子设备可以实现如图3-6所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个识别源的响应时间将所述多个识别源的识别结果进行融合向所述语音设备返回中间识别结果包括：

3.根据权利要求2所述的方法，其特征在于，所述将包含所述第一中间识别结果的第二识别结果作为第二中间识别结果，将所述第二中间识别结果发送至所述语音设备包括：

4.根据权利要求3所述的方法，其特征在于，所述将包含所述第一中间识别结果的第二识别结果作为第二中间识别结果，将所述第二中间识别结果发送至所述语音设备包括：

5.根据权利要求1所述的方法，其特征在于，所述结合所述响应时间与所述多个识别源的识别准确性，向所述语音设备返回最终识别结果包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

确定所述中间识别结果对应的第三识别源的响应速度；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

采集语音样本，并向每个所述识别源发送所述语音样本；

8.一种语音识别装置，其特征在于，包括：

数据接收模块，用于接收语音设备上的输入数据，所述输入数据包括实时更新的多个音频片段；

数据分发模块，用于将所述输入数据分发至多个识别源，通过所述多个识别源分别对所述输入数据进行识别，接收所述多个识别源返回的识别结果；

数据识别模块，用于根据所述多个识别源的响应时间将所述多个识别源的识别结果进行融合向所述语音设备返回中间识别结果；

识别结果确定模块，用于结合所述响应时间与所述多个识别源的识别准确性，向所述语音设备返回最终识别结果，其中，所述中间识别结果为所述音频片段的识别结果，所述最终识别结果为所述输入数据对应的识别结果。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的语音识别方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音识别方法。