CN104123942A

CN104123942A - 一种语音识别方法及系统

Info

Publication number: CN104123942A
Application number: CN201410370737.2A
Authority: CN
Inventors: 吴云佳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2014-07-30
Filing date: 2014-07-30
Publication date: 2014-10-29
Anticipated expiration: 2034-07-30
Also published as: CN104123942B

Abstract

一种语音识别方法及系统，该方法包括接收客户端发送的语音识别请求，该语音识别请求包括语音包、语音包序号以及语音包所属语音文件的标识；获取语音包所属语音文件的标识对应的识别句柄，将该语音包存储至该识别句柄的缓存区；识别当前的语音识别服务类型，若语音识别服务类型为异步模式，按照语音包序号从首号到尾号的排列顺序，依次采用该识别句柄对该识别句柄的缓存区中的语音包所属语音文件的语音包进行识别处理，获得语音包所属语音文件的文字识别结果；将语音包所属语音文件的文字识别结果发送给客户端。本发明实施例在异步模式下可极大地省去语音识别系统与客户端之间的交互，可以有效地提升语音识别效率。

Description

一种语音识别方法及系统

技术领域

本发明涉及互联网技术领域，具体涉及一种语音识别方法及系统。

背景技术

在即时通讯客户端的应用中，即时通讯客户端可以将用户指定的语音文件传输至语音识别系统，由语音识别系统对语音文件进行识别处理，并返回文字识别结果给即时通讯客户端，从而可以实现在即时通讯客户端上进行语音与文字之间的转换。而在实际应用中，由于语音文件一般比较大，因此即时通讯客户端通常会将一条语音文件切分成多个语音包，并多次将语音包传输至语音识别系统进行识别处理。在实践中，语音识别系统通常采用同步模式来处理即时通讯客户端传输的语音包，即语音识别系统对即时通讯客户端传输的一个语音包进行识别处理并返回该语音包的文字识别结果给即时通讯客户端之后，语音识别系统再接收即时通讯客户端传输的下一个语音包进行识别处理，直至所有语音包被识别处理完毕为止。

发明人在实践中发现，上述采用同步模式处理语音包的过程中，语音识别系统对一个语音包进行识别处理并返回该语音包的文字识别结果之后，再接收即时通讯客户端传输的下一个语音包进行识别处理，当语音包的数量较多时，这种语音识别方式的效率就比较低。

发明内容

本发明实施例公开了一种语音识别方法及系统，能够有效地提升语音识别效率。

本发明实施例第一方面公开了一种语音识别方法，包括：

接收客户端发送的语音识别请求，所述语音识别请求包括语音包、语音包序号以及语音包所属语音文件的标识；

获取所述语音包所属语音文件的标识对应的识别句柄，并将所述语音包存储至所述识别句柄的缓存区；

识别当前的语音识别服务类型，若所述语音识别服务类型为异步模式，则按照语音包序号从首号到尾号的排列顺序，依次采用所述识别句柄对所述识别句柄的缓存区中的所述语音包所属语音文件的语音包进行识别处理，获得所述语音包所属语音文件的文字识别结果；

将所述语音包所属语音文件的文字识别结果发送给所述客户端。

本发明实施例第二方面公开了一种语音识别系统，包括：

接收单元，用于接收客户端发送的语音识别请求，所述语音识别请求包括语音包、语音包序号以及语音包所属语音文件的标识；

获取单元，用于获取所述语音包所属语音文件的标识对应的识别句柄；

存储单元，用于将所述语音包存储至所述识别句柄的缓存区；

服务类型识别单元，用于识别当前的语音识别服务类型；

语音识别单元，用于在所述服务类型识别单元识别所述语音识别服务类型为异步模式时，按照语音包序号从首号到尾号的排列顺序，依次采用所述识别句柄对所述识别句柄的缓存区中的所述语音包所属语音文件的语音包进行识别处理，获得所述语音包所属语音文件的文字识别结果；

发送单元，用于将所述语音包所属语音文件的文字识别结果发送给所述客户端。

本发明实施例中，可以将接收到的语音包所属语音文件的语音包存储至同一个识别句柄的缓存区，并且在识别出语音识别服务类型为异步模式时，可以按照语音包序号从首号到尾号的排列顺序，依次采用同一个识别句柄对该识别句柄的缓存区中的语音包所属语音文件的语音包进行识别处理，从而获得整个语音包所属语音文件的文字识别结果并一次性发送给即时通讯客户端。可见，与同步模式相比，本发明实施例在异步模式下可以极大地省去每一个语音包进行识别处理之后的语音识别系统与即时通讯客户端之间的交互，从而可以有效地提升语音识别效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种语音识别方法的流程示意图；

图2是本发明实施例公开的另一种语音识别方法的流程示意图；

图3是本发明实施例公开的一种语音识别系统的结构示意图；

图4是本发明实施例公开的另一种语音识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种语音识别方法及系统，可以极大地省去语音识别系统与即时通讯客户端之间的交互，从而可以有效地提升语音识别效率。以下分别进行详细说明。

请参阅图1，图1是本发明实施例公开的一种语音识别方法的流程示意图。如图1所示，该方法可以包括以下步骤。

S101、接收客户端发送的语音识别请求，该语音识别请求包括语音包、语音包序号以及语音包所属语音文件的标识。

本发明实施例中，可以由语音识别系统来接收客户端发送的包括语音包、语音包序号以及语音包所属语音文件的标识的语音识别请求。

本发明实施例中，客户端包括即时通讯客户端、社交客户端以及其他使用语音识别功能的客户端。

举例来说，即时通讯客户端可以将用户指定的语音文件切分成多个语音包，并且针对每一个语音包，即时通讯客户端可以将该语音包、该语音包的语音包序号以及该语音包所属语音文件的标识通过语音识别请求发送给语音识别系统。

S102、获取该语音包所属语音文件的标识对应的识别句柄，并将语音包存储至该识别句柄的缓存区。

本发明实施例中，可以由语音识别系统来获取该语音包所属语音文件的标识对应的识别句柄，并将语音包存储至该识别句柄的缓存区。

本发明实施例中，识别句柄也称为识别句柄资源，该识别句柄资源不仅具有语音识别功能，还具有语音包存储功能。

举例来说，语音识别系统可以以该语音包所属语音文件的标识为依据，判断是否存在与该语音包所属语音文件的标识相绑定的识别句柄标识，若存在，将该识别句柄标识所属的识别句柄作为该语音包对应的识别句柄；若不存在，从识别句柄队列申请识别句柄作为该语音包对应的识别句柄。具体地，语音识别系统从识别句柄队列申请识别句柄作为该语音包对应的识别句柄时，语音识别系统可以先判断识别句柄队列是否为空，若不为空，语音识别系统可以直接从识别句柄队列申请识别句柄作为该语音包对应的识别句柄，反之，若为空，语音识别系统可以先触发释放占用超时的识别句柄，然后再重新从识别句柄队列申请识别句柄作为该语音包对应的识别句柄。

S103、识别当前的语音识别服务类型，若语音识别服务类型为异步模式，则按照语音包序号从首号到尾号的排列顺序，依次采用该识别句柄对该识别句柄的缓存区中的该语音包所属语音文件的语音包进行识别处理，获得该语音包所属语音文件的文字识别结果。

本发明实施例中，语音识别系统可以读取配置文件记录的服务类型标识，并将该服务类型标识分别与预设的异步模式标识、预设的同步模式标识进行比较，若该服务类型标识与预设的异步模式标识一致，则识别当前的语音识别服务类型为异步模式，若该服务类型标识为预设的同步模式标识一致，则识别当前的语音识别服务类型为同步模式。

本发明实施例中，当识别当前的语音识别服务类型为异步模式时，语音识别系统可以按照语音包序号从首号到尾号的排列顺序，依次采用该识别句柄对该识别句柄的缓存区中的该语音包所属语音文件的语音包进行识别处理，以获得该语音包所属语音文件的各个语音包的文字识别结果，并将该语音包所属语音文件的各个语音包的文字识别结果进行组合，获得该语音包所属语音文件的文字识别结果。

S104、将该语音包所属语音文件的文字识别结果发送给即时通讯客户端。

本发明实施例中，语音识别系统在将该语音包所属语音文件的文字识别结果发送给即时通讯客户端之后，语音识别系统可以释放该识别句柄，防止对该识别句柄的超时占用。

本发明实施例中，语音识别系统释放该识别句柄之后，语音识别系统还可以判断该识别句柄的缓存区中的该语音包所属语音文件的语音包存储时间是否超过预设时间，若超过，删除该识别句柄的缓存区中的该语音包所属语音文件的语音包，从而可以有效防止该语音包所属语音文件的语音包对该识别句柄的缓存区的超时占用。

在图1所描述的方法中，可以将接收到的语音包所属语音文件的语音包存储至同一个识别句柄的缓存区，并且在识别出语音识别服务类型为异步模式时，可以按照语音包序号从首号到尾号的排列顺序，依次采用同一个识别句柄对该识别句柄的缓存区中的语音包所属语音文件的语音包进行识别处理，从而获得整个语音包所属语音文件的文字识别结果并一次性发送给即时通讯客户端。可见，与同步模式相比，图1所描述的方法在异步模式下可以极大地省去语音识别系统与即时通讯客户端之间的交互，从而可以有效地提升语音识别效率。

请参阅图2，图2是本发明实施例公开的一种语音识别方法的流程示意图。如图2所示，该方法可以包括以下步骤。

S201、语音识别系统接收即时通讯客户端发送的语音识别请求，该语音识别请求包括语音包、语音包序号以及语音包所属语音文件的标识。

S202、语音识别系统获取该语音包所属语音文件的标识对应的识别句柄，并将语音包存储至该识别句柄的缓存区。

S203、语音识别系统识别当前的语音识别服务类型，若语音识别服务类型为异步模式，执行步骤S204～S205以及步骤S208～S210；若语音识别服务类型为同步模式，执行步骤S206～步骤S210。

本发明实施例中，语音识别系统识别当前的语音识别服务类型为异步模式之后，可以发送第一通知消息给该即时通讯客户端，该第一通知消息用于通知该即时通讯客户端依次发送包括语音包、语音包序号以及语音包所属语音文件的标识的语音识别请求，直至该语音包所属语音文件所有语音包发送完毕为止。

本发明实施例中，语音识别系统识别当前的语音识别服务类型为同步模式之后，可以发送第二通知消息给该即时通讯客户端，该第二通知消息用于通知该即时通讯客户端只有在接收到该语音包的文字识别结果后再发送下一个包括语音包、语音包序号以及语音包所属语音文件的标识的语音识别请求。

S204、语音识别系统按照语音包序号从首号到尾号的排列顺序，依次采用该识别句柄对该识别句柄的缓存区中的该语音包所属语音文件的语音包进行识别处理，获得该语音包所属语音文件的文字识别结果。

S205、语音识别系统将该语音包所属语音文件的文字识别结果发送给即时通讯客户端，并执行步骤S208～步骤S210。

本发明实施例中，语音识别系统释放该识别句柄可以有效防止对该识别句柄的超时占用。

S206、语音识别系统采用该识别句柄对该识别句柄的缓存区中的该语音包进行识别处理，以获得该语音包的文字识别结果。

S207、语音识别系统将该语音包的文字识别结果发送给该即时通讯客户端，并执行步骤S208～步骤S210。

S208、语音识别系统释放该识别句柄。

S209、语音识别系统判断该识别句柄的缓存区中的该语音包所属语音文件的语音包存储时间是否超过预设时间，若超过，执行步骤S210；反之，若未超过，继续执行步骤S209。

S210、语音识别系统删除该识别句柄的缓存区中的该语音包所属语音文件的语音包。

在图2所描述的方法中，可以将接收到的语音包所属语音文件的语音包存储至同一个识别句柄的缓存区，并且在识别出语音识别服务类型为异步模式时，可以按照语音包序号从首号到尾号的排列顺序，依次采用同一个识别句柄对该识别句柄的缓存区中的语音包所属语音文件的语音包进行识别处理，从而获得整个语音包所属语音文件的文字识别结果并一次性发送给即时通讯客户端。可见，与同步模式相比，图2所描述的方法在异步模式下可以极大地省去语音识别系统与即时通讯客户端之间的交互，从而可以有效地提升语音识别效率。

请参阅图3，图3是本发明实施例公开的一种语音识别系统的结构示意图。如图3所示，该系统可以包括：

接收单元31，用于接收即时通讯客户端发送的语音识别请求，该语音识别请求包括语音包、语音包序号以及语音包所属语音文件的标识；

获取单元32，用于获取该语音包所属语音文件的标识对应的识别句柄；

存储单元33，用于将该语音包存储至该识别句柄的缓存区；

服务类型识别单元34，用于识别当前的语音识别服务类型；

语音识别单元35，用于在服务类型识别单元34识别该语音识别服务类型为异步模式时，按照语音包序号从首号到尾号的排列顺序，依次采用该识别句柄对该识别句柄的缓存区中的该语音包所属语音文件的语音包进行识别处理，获得该语音包所属语音文件的文字识别结果；

发送单元36，用于将该语音包所属语音文件的文字识别结果发送给即时通讯客户端。

本发明实施例中，获取单元31具体用于以该语音包所属语音文件的标识为依据，判断是否存在与该语音包所属语音文件的标识相绑定的识别句柄标识，若存在，将该识别句柄标识所属的识别句柄作为该语音包对应的识别句柄；若不存在，从识别句柄队列申请识别句柄作为该语音包对应的识别句柄。

本发明实施例中，服务类型识别单元34具体用于读取配置文件记录的服务类型标识，若该服务类型标识与预设的异步模式标识一致，识别当前的语音识别服务类型为异步模式，若该服务类型标识为预设的同步模式标识一致，识别当前的语音识别服务类型为同步模式。

本发明实施例中，获取单元32还用于在发送单元36将该语音包所属语音文件的文字识别结果发送给即时通讯客户端之后，释放该识别句柄，可以有效防止对该识别句柄的超时占用。

本发明实施例中，当服务类型识别单元34识别出该语音识别服务类型为同步模式时，语音识别单元35还用于采用该识别句柄对该识别句柄的缓存区中的该语音包进行识别处理，以获得所述语音包的文字识别结果；

相应地，发送单元36还用于将该语音包的文字识别结果发送给该即时通讯客户端；

相应地，获取单元32还用于在发送单元36将该语音包的文字识别结果发送给该即时通讯客户端之后，释放该识别句柄。

本发明实施例中，存储单元33还用于在获取单元32释放该识别句柄之后，判断该识别句柄的缓存区中的所述语音包所属语音文件的语音包存储时间是否超过预设时间，若超过，删除该识别句柄的缓存区中的该语音包所属语音文件的语音包，可以有效防止该语音包所属语音文件的语音包对该识别句柄的缓存区的超时占用。

本发明实施例中，服务类型识别单元34识别当前的语音识别服务类型为异步模式之后，发送单元36可以发送第一通知消息给该即时通讯客户端，该第一通知消息用于通知该即时通讯客户端依次发送包括语音包、语音包序号以及语音包所属语音文件的标识的语音识别请求，直至该语音包所属语音文件所有语音包发送完毕为止。

本发明实施例中，服务类型识别单元34识别当前的语音识别服务类型为同步模式之后，发送单元36可以发送第二通知消息给该即时通讯客户端，该第二通知消息用于通知该即时通讯客户端只有在接收到该语音包的文字识别结果后再发送下一个包括语音包、语音包序号以及语音包所属语音文件的标识的语音识别请求。

本发明实施例中，图3所描述的系统在异步模式下可以极大地省去语音识别系统与即时通讯客户端之间的交互，从而可以有效地提升语音识别效率。

请参阅图4，图4是本发明实施例公开的另一种语音识别系统的结构示意图的结构示意图。如图4所示，该语音识别系统的结构示意图可以包括输入装置401、处理器402，存储器403以及输出装置404以及通信总线405。其中，通信总线405用于实现这些组件之间的连接通信。如图4所示，作为一种计算机存储介质的存储器403中可以包括操作系统、网络通信模块、用户接口模块以及语音识别程序。

在图4所示的终端中，处理器402可以用于调用存储器403中存储的语音识别程序，并执行以下操作：

由经输入装置401接收即时通讯客户端发送的语音识别请求，该语音识别请求包括语音包、语音包序号以及语音包所属语音文件的标识；

获取该语音包所属语音文件的标识对应的识别句柄，并将该语音包存储至该识别句柄的缓存区；

识别当前的语音识别服务类型，若语音识别服务类型为异步模式，则按照语音包序号从首号到尾号的排列顺序，依次采用该识别句柄对该识别句柄的缓存区中的该语音包所属语音文件的语音包进行识别处理，获得该语音包所属语音文件的文字识别结果；

由经输出装置404将该语音包所属语音文件的文字识别结果发送给即时通讯客户端。

本发明实施例中，处理器402获取语音包所属语音文件的标识对应的识别句柄的方式具体为：

以该语音包所属语音文件的标识为依据，判断是否存在与该语音包所属语音文件的标识相绑定的识别句柄标识，若存在，将该识别句柄标识所属的识别句柄作为该语音包对应的识别句柄；若不存在，从识别句柄队列申请识别句柄作为该语音包对应的识别句柄。

本发明实施例中，处理器402识别当前的语音识别服务类型的方式具体为包括：

读取配置文件记录的服务类型标识，若服务类型标识与预设的异步模式标识一致，识别当前的语音识别服务类型为异步模式，若服务类型标识为预设的同步模式标识一致，识别当前的语音识别服务类型为同步模式。

本发明实施例中，处理器402将该语音包所属语音文件的文字识别结果发送给即时通讯客户端之后，还执行以下操作：

释放该识别句柄。

本发明实施例中，处理器402释放该识别句柄之后，还执行以下包括：

判断该识别句柄的缓存区中的该语音包所属语音文件的语音包存储时间是否超过预设时间，若超过，删除该识别句柄的缓存区中的该语音包所属语音文件的语音包。

本发明实施例中，若语音识别服务类型为同步模式，处理器402还执行以下操作：

采用该识别句柄对该识别句柄的缓存区中的该语音包进行识别处理，以获得该语音包的文字识别结果；

将该语音包的文字识别结果由经输出装置404发送给即时通讯客户端；

释放该识别句柄。

本发明实施例中，处理器402释放该识别句柄之后，还执行以下操作：

本发明实施例中，图4所描述的系统在异步模式下可以极大地省去语音识别系统与即时通讯客户端之间的交互，从而可以有效地提升语音识别效率。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

以上对本发明实施例公开的一种语音识别方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述语音包所属语音文件的标识对应的识别句柄包括：

以语音包所属语音文件的标识为依据，判断是否存在与所述语音包所属语音文件的标识相绑定的识别句柄标识，若存在，将所述识别句柄标识所属的识别句柄作为所述语音包对应的识别句柄；若不存在，从识别句柄队列申请识别句柄作为所述语音包对应的识别句柄。

3.根据权利要求1或2所述的方法，其特征在于，所述识别当前的语音识别服务类型包括：

读取配置文件记录的服务类型标识，若所述服务类型标识与预设的异步模式标识一致，识别当前的语音识别服务类型为异步模式，若所述服务类型标识为预设的同步模式标识一致，识别当前的语音识别服务类型为同步模式。

4.根据权利要求3所述的方法，其特征在于，所述将所述语音包所属语音文件的文字识别结果发送给所述客户端之后，所述方法还包括：

释放所述识别句柄。

5.根据权利要求4所述的方法，其特征在于，所述释放所述识别句柄之后，所述方法还包括：

判断所述识别句柄的缓存区中的所述语音包所属语音文件的语音包存储时间是否超过预设时间，若超过，删除所述识别句柄的缓存区中的所述语音包所属语音文件的语音包。

6.根据权利要求3所述的方法，其特征在于，若所述语音识别服务类型为同步模式，所述方法还包括：

采用所述识别句柄对所述识别句柄的缓存区中的所述语音包进行识别处理，以获得所述语音包的文字识别结果；

将所述语音包的文字识别结果发送给所述客户端；

释放所述识别句柄。

7.根据权利要求6所述的方法，其特征在于，所述释放所述识别句柄之后，所述方法还包括：

8.一种语音识别系统，其特征在于，包括：

服务类型识别单元，用于识别当前的语音识别服务类型；

9.根据权利要求8所述的系统，其特征在于，所述获取单元用于以语音包所属语音文件的标识为依据，判断是否存在与所述语音包所属语音文件的标识相绑定的识别句柄标识，若存在，将所述识别句柄标识所属的识别句柄作为所述语音包对应的识别句柄；若不存在，从识别句柄队列申请识别句柄作为所述语音包对应的识别句柄。

10.根据权利要求8或9所述的系统，其特征在于，所述服务类型识别单元用于读取配置文件记录的服务类型标识，若所述服务类型标识与预设的异步模式标识一致，识别当前的语音识别服务类型为异步模式，若所述服务类型标识为预设的同步模式标识一致，识别当前的语音识别服务类型为同步模式。

11.根据权利要求10所述的系统，其特征在于，所述获取单元还用于在所述发送单元将所述语音包所属语音文件的文字识别结果发送给所述客户端之后，释放所述识别句柄。

12.根据权利要求11所述的系统，其特征在于，所述存储单元还用于在所述获取单元释放所述识别句柄之后，判断所述识别句柄的缓存区中的所述语音包所属语音文件的语音包存储时间是否超过预设时间，若超过，删除所述识别句柄的缓存区中的所述语音包所属语音文件的语音包。

13.根据权利要求10所述的系统，其特征在于，若所述语音识别服务类型为同步模式，所述语音识别单元还用于采用所述识别句柄对所述识别句柄的缓存区中的所述语音包进行识别处理，以获得所述语音包的文字识别结果；

所述发送单元，还用于将所述语音包的文字识别结果发送给所述客户端；

所述获取单元，还用于所述发送单元将所述语音包的文字识别结果发送给所述客户端之后，释放所述识别句柄。

14.根据权利要求13所述的系统，其特征在于，所述存储单元还用于在所述获取单元释放所述识别句柄之后，判断所述识别句柄的缓存区中的所述语音包所属语音文件的语音包存储时间是否超过预设时间，若超过，删除所述识别句柄的缓存区中的所述语音包所属语音文件的语音包。