CN110459209A

CN110459209A - 语音识别方法、装置、设备及存储介质

Info

Publication number: CN110459209A
Application number: CN201910768561.9A
Authority: CN
Inventors: 王逐尘
Original assignee: Shenzhen Chase Technology Co Ltd
Current assignee: Shenzhen Chase Technology Co Ltd; Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-15
Anticipated expiration: 2039-08-20
Also published as: CN110459209B

Abstract

本申请公开了一种语音识别方法、装置、设备及存储介质，属于人工智能领域。所述方法包括：获取目标语音音频，该目标语音音频包括目标用户的语音和除该目标用户以外的干扰用户的语音中的至少一个；利用音频识别神经网络对该目标语音音频进行识别处理，得到该音频识别神经网络输出的概率信息，该概率信息用于指示该目标语音音频包括该目标用户的语音的概率；当该概率信息指示的概率大于或等于预设概率阈值时，对该目标语音音频进行语音识别，得到该目标语音音频对应的目标文字。本申请实施例提供的技术方案能够提高语音识别的准确性。

Description

语音识别方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，特别是涉及一种语音识别方法、装置、设备及存储介质。

背景技术

在人工智能领域，计算机设备通常需要获取用户说话的音频流，并对该音频流进行语音识别，以通过语音识别将该音频流中用户所说的话转化成文字，继而根据该文字对用户进行相应的响应。

实际应用中，用户说话的音频流中除了包括用户本人的语音之外，还可能包括除用户本人以外的干扰用户的语音，而干扰用户的语音会对语音识别的准确性造成严重影响，因此，当前，如何降低干扰用户的语音对语音识别准确性造成的负面影响已经成为了一个亟待解决的问题。

发明内容

基于此，有必要针对语音识别的准确性较低的问题，提供一种语音识别方法、装置、设备及存储介质。

第一方面，提供了一种语音识别方法，该方法包括：

获取目标语音音频，该目标语音音频包括目标用户的语音和除该目标用户以外的干扰用户的语音中的至少一个；利用音频识别神经网络对该目标语音音频进行识别处理，得到该音频识别神经网络输出的概率信息，该概率信息用于指示该目标语音音频包括该目标用户的语音的概率；当该概率信息指示的概率大于或等于预设概率阈值时，对该目标语音音频进行语音识别，得到该目标语音音频对应的目标文字。

在其中一个实施例中，该方法还包括：当该概率信息所指示的概率小于该预设概率阈值时，禁止对该目标语音音频进行语音识别。

在其中一个实施例中，利用音频识别神经网络对该目标语音音频进行识别处理，得到该音频识别神经网络输出的概率信息，包括：对该目标语音音频的音频特征参数进行提取，得到音频特征参数矩阵；将该音频特征参数矩阵输入至该音频识别神经网络中，得到该音频识别神经网络输出的该概率信息。

在其中一个实施例中，该音频识别神经网络包括特征提取子网络和特征识别子网络，将该音频特征参数矩阵输入至该音频识别神经网络中，得到该音频识别神经网络输出的概率信息，包括：将该音频特征参数矩阵输入至该特征提取子网络，得到该特征提取子网络输出的特征矩阵；将该特征矩阵输入至该特征识别子网络，得到该特征识别子网络输出的该概率信息。

在其中一个实施例中，该特征提取子网络为卷积神经网络，该特征识别子网络包括长短时记忆循环神经网络层和全连接层。

在其中一个实施例中，获取目标语音音频，包括：获取音频流，并从该音频流中提取出包含人的语音的音频段；对该音频段进行分割，得到多个音频长度相等的该目标语音音频。

在其中一个实施例中，对该目标语音音频进行语音识别，得到该目标语音音频对应的目标文字之后，该方法还包括：对该目标文字进行自然语义识别，得到语义识别结果；根据该语义识别结果生成响应内容；将该响应内容发送至该目标用户对应的终端，该响应内容供该目标用户对应的终端进行展示。

第二方面，提供了一种语音识别装置，其特征在于，该装置包括：

获取模块，用于获取目标语音音频，该目标语音音频包括目标用户的语音和除该目标用户以外的干扰用户的语音中的至少一个；

第一识别模块，用于利用音频识别神经网络对该目标语音音频进行识别处理，得到该音频识别神经网络输出的概率信息，该概率信息用于指示该目标语音音频包括该目标用户的语音的概率；

第二识别模块，用于在该概率信息指示的概率大于或等于预设概率阈值时，对该目标语音音频进行语音识别，得到该目标语音音频对应的目标文字。

在其中一个实施例中，该装置还包括禁止模块；该禁止模块，用于在该概率信息所指示的概率小于该预设概率阈值时，禁止对该目标语音音频进行语音识别。

在其中一个实施例中，该第一识别模块，具体用于对该目标语音音频的音频特征参数进行提取，得到音频特征参数矩阵；将该音频特征参数矩阵输入至该音频识别神经网络中，得到该音频识别神经网络输出的该概率信息。

在其中一个实施例中，该音频识别神经网络包括特征提取子网络和特征识别子网络，该第一识别模块，具体用于：将该音频特征参数矩阵输入至该特征提取子网络，得到该特征提取子网络输出的特征矩阵；将该特征矩阵输入至该特征识别子网络，得到该特征识别子网络输出的该概率信息。

在其中一个实施例中，该获取模块，具体用于：获取音频流，并从该音频流中提取出包含人的语音的音频段；对该音频段进行分割，得到多个音频长度相等的该目标语音音频。

在其中一个实施例中，该装置还包括响应模块；该响应模块，用于对该目标文字进行自然语义识别，得到语义识别结果；根据该语义识别结果生成响应内容；将该响应内容发送至该目标用户对应的终端，该响应内容供该目标用户对应的终端进行展示。

第三方面，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该计算机程序被该处理器执行时实现上述第一方面任一所述的语音识别方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面任一所述的语音识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取目标语音音频，其中，该目标语音音频包括目标用户的语音和除该目标用户的语音之外的干扰用户的语音中的至少一个，在获取到目标语音音频之后，利用音频识别神经网络对该目标语音音频进行识别处理，从而得到目标语音音频包括目标用户的语音的概率，当该概率大于或等于预设概率阈值时，对该目标语音音频进行语音识别，得到该目标语音音频对应的目标文字，这样，在本申请实施例提供的技术方案中，只有在目标语音音频包括目标用户的语音的概率较大的情况下，才对该目标语音音频进行语音识别，这样，就可以起到过滤掉一部分干扰用户的语音的效果，继而可以在一定程度上降低干扰用户的语音对语音识别准确性造成的负面影响。

附图说明

图1为本申请实施例提供的语音识别方法所涉及到的实施环境的示意图；

图2为本申请实施例提供的一种语音识别方法的流程图；

图3为本申请实施例提供的另一种语音识别方法的流程图；

图4为本申请实施例提供的另一种语音识别方法的流程图；

图5为本申请实施例提供的一种语音识别装置的框图；

图6为本申请实施例提供的另一种语音识别装置的框图；

图7为本申请实施例提供的一种计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在人工智能领域，计算机设备通常需要根据用户说话的内容对用户进行响应。

例如，以当前较为常见的智能语音辅助设备(例如，智能音箱)为例，智能语音辅助设备可以获取用户说话的内容，并根据用户说话的内容对用户进行相应的响应，例如，在用户说话的内容为“帮我打开电视机”时，智能语音辅助设备可以控制电视机开启，以对用户进行响应。

又例如，以当前较为常见的能够在一定程度上替代传统人工客服的智能客服系统为例，该智能客服系统中的服务器可以在呼叫用户的场景以及用户呼入的场景中获取用户说话的内容，并根据用户说话的内容对用户进行相应的响应，例如，用户说话的内容为“帮我查询上个月的话费单”，智能客服系统中的服务器可以根据用户所说的上述内容生成响应文本，该响应文本可以为“您上个月的话费消费为190元整”，而后，该智能客服系统中的服务器可以利用语音播报的形式将该响应文本反馈给用户，以对用户进行响应。

为了实现根据用户说话的内容对用户进行响应的功能，计算机设备需要获取用户说话的音频流，并对该音频流进行语音识别，从而将该音频流中用户所说的话转换为文字，继而，计算机设备可以根据该文字对用户进行相应的响应。

实际应用中，用户说话的环境中很可能存在着除该用户本人以外的其他用户(下文统一将其称为干扰用户)，在用户说话的过程中，这些干扰用户很可能也在说话，这就导致计算机设备获取到的用户说话的音频流中除了包括用户本人的语音之外，还可能包括干扰用户的语音，而干扰用户的语音会对语音识别的准确性造成严重影响。

例如，以智能客服系统为例，若智能客服系统的服务器获取到的音频流中除了包括用户本人的语音“帮我查询上个月的话费单”之外，还包括干扰用户的语音“我想找个人工客服帮助我”，那么，能客服系统的服务器对获取到的音频流进行语音识别后，转化得到的文字可能就包括“我想找个人工客服帮助我”，而这一识别结果显然不能反映用户的真实意图，这就导致语音识别不准确，语音识别的不准确进而会影响智能客服系统给的服务器对用户反馈的准确性。

考虑到上述情况，当前，如何降低干扰用户的语音对语音识别准确性造成的负面影响已经成为了一个亟待解决的问题。

本申请实施例提供了一种语音识别方法，在该方法中，计算机设备可以获取目标语音音频，其中，该目标语音音频包括目标用户的语音和除该目标用户的语音之外的干扰用户的语音中的至少一个，在获取到目标语音音频之后，计算机设备可以利用音频识别神经网络对该目标语音音频进行识别处理，从而得到目标语音音频包括目标用户的语音的概率，当该概率大于或等于预设概率阈值时，计算机设备可以对该目标语音音频进行语音识别，从而得到该目标语音音频对应的目标文字，这样，在本申请实施例提供的语音识别方法中，只有在目标语音音频包括目标用户的语音的概率较大的情况下，计算机设备才对该目标语音音频进行语音识别，这样，就可以起到过滤掉一部分干扰用户的语音的效果，继而可以在一定程度上降低干扰用户的语音对语音识别准确性造成的负面影响。

请参考图1，其示出了本申请实施例提供的语音识别方法所涉及到的实施环境的示意图。如图1所示，该实施环境可以包括服务器101和至少一个终端102(图1仅示例性地示出了一个终端102)。

其中，服务器101可以为智能客服系统中的服务器，终端102可以为用户所持有的终端，其中，用户可以通过自身所持有的终端102呼叫智能客服系统，或者，接听智能客服系统的呼叫。在终端102呼叫智能客服系统，或者，在终端102被智能客服系统呼叫时，该服务器101可以接收终端102发送的用户说话的音频流，并对该音频流执行本申请实施例提供的语音识别方法。

当然，在除智能客服系统的以外的其他可能的应用场景中，本申请实施例提供的语音识别方法所涉及的实施环境可以仅包括计算机设备。其中，这里的计算机设备指的是具有“根据用户说话的内容对用户进行响应”的功能的电子设备。实际实现时，该计算机设备可以为智能手机、平板电脑、可穿戴设备、车载设备、服务器或者智能机器人等，本申请实施例对此不作具体限定。在该实施环境中，计算机设备可以获取用户说话的音频流，并对该音频流执行本申请实施例提供的语音识别方法。

请参考图2，其示出了本申请实施例提供的一种语音识别方法的流程图，该语音识别方法可以应用于上文所述的计算机设备或者智能客服系统中的服务器中，本申请实施例仅以该语音识别方法应用于计算机设备中为例对本申请实施例提供的语音识别方法进行说明，该语音识别方法应用于服务器中的情况与同理，本申请实施例对其不再赘述。如图2所示，该语音识别方法可以包括以下步骤：

步骤201、计算机设备获取目标语音音频。

其中，该目标语音音频可以包括目标用户的语音和除目标用户的以外的干扰用户的语音中的至少一个。换句话说，该目标语音音频可以仅包括目标用户的语音，或者，该目标语音音频可以仅包括干扰用户的语音，或者，该目标语音音频可以既包括目标用户的语音又包括干扰用户的语音。其中，目标用户指的是计算机设备需要对其进行相应响应的用户，或者可以说，目标用户指的是计算机设备所需服务的用户。

可选的，在本申请实施例中，计算机设备可以获取目标用户说话的音频流，并从该音频流中提取出包含人的语音的音频段，而后，计算机设备可以对该音频段进行分割，从而得到多个音频长度相等的目标语音音频。

由于通常情况下，目标用户在说话的过程中很可能会出现停顿，换句话说，目标用户一般不可能每时每刻都在说话，因此，计算机设备获取到的音频流中一般存在着不包含人的语音的音频段和包含人的语音的音频段。其中，计算机设备获取到的不包含人的语音的音频段对后续的语音识别没有贡献，故而，为了降低后续步骤中计算机设备的计算量，计算机设备可以从获取到的目标用户说话的音频流中仅提取出包含人的语音的音频段。

在提取出包含人的语音的音频段之后，由于该音频段的不同部分包含的语音成分很可能不同(音频段的有些部分仅包括目标用户的语音，有些部分仅包括干扰用户的语音，还有些部分既包括目标用户的语音又包括干扰用户的语音)，因此，为了更有针对性对该包含人的语音的音频段进行语音识别，提高语音识别的准确性，本申请实施例中，计算机设备可以对该包含人的语音的音频段进行分割，得到多个音频长度相等的目标语音音频。其中，所谓音频长度相等指的是音频所持续的时长相等。计算机设备可以对每个目标语音音频均执行本申请实施例提供的语音识别方法。

如上文所述，目标用户说话的环境中很可能存在着干扰用户，因此，如果在目标语音音频录制的时间段内，目标用户和干扰用户均在说话，那么，目标语音音频就会既包括目标用户的语音又包括干扰用户的语音；如果在目标语音音频录制的时间段内，目标用户没有说话，而干扰用户在说话，那么目标语音音频就会仅包括干扰用户的语音；如果在目标语音音频录制的时间段内，目标用户说话的环境中不存在干扰用户，或者，即使目标用户说话的环境中存在干扰用户，但是，在目标用户说话的过程中，该干扰用户没有说话，那么，目标语音音频就会仅包括目标用户的语音。

步骤202、计算机设备利用音频识别神经网络对目标语音音频进行识别处理，得到音频识别神经网络输出的概率信息。

其中，该概率信息用于指示目标语音音频包括目标用户的语音的概率，换句话说，该概率信息可以用来指示目标语音音频包括目标用户的语音的可能性的大小。

步骤203、当音频识别神经网络输出的概率信息指示的概率大于或等于预设概率阈值时，计算机设备对目标语音音频进行语音识别，得到目标语音音频对应的目标文字。

当音频识别神经网络输出的概率信息所指示的概率较大时，也即是，大于或等于预设概率阈值时，说明目标语音音频包括目标用户的语音的可能性较大，在这种情况下，计算机设备可以对该目标语音音频进行语音识别，从而得到目标语音音频对应的目标文字。

反之，当音频识别神经网络输出的概率信息所指示的概率小于该预设概率阈值时，说明目标语音音频包括目标用户的语音的可能性较小，在这种情况下，计算机设备可以禁止对目标语音音频进行语音识别。

这样，计算机设备就可以仅对可能包含目标用户的语音的目标语音音频进行语音识别，而对包含目标用户的语音的可能性不大的目标语音音频(该目标语音音频可能仅包含干扰用户的语音)不进行语音识别，从而可以过滤掉一部分干扰用户的语音，继而可以在一定程度上降低干扰用户的语音对语音识别准确性造成的负面影响。

在本申请实施例提供的语音识别方法中，通过获取目标语音音频，其中，该目标语音音频包括目标用户的语音和除该目标用户的语音之外的干扰用户的语音中的至少一个，在获取到目标语音音频之后，利用音频识别神经网络对该目标语音音频进行识别处理，从而得到目标语音音频包括目标用户的语音的概率，当该概率大于或等于预设概率阈值时，对该目标语音音频进行语音识别，得到该目标语音音频对应的目标文字，这样，在本申请实施例提供的技术方案中，只有在目标语音音频包括目标用户的语音的概率较大的情况下，才对该目标语音音频进行语音识别，这样，就可以起到过滤掉一部分干扰用户的语音的效果，继而可以在一定程度上降低干扰用户的语音对语音识别准确性造成的负面影响。

请参考图3，在上文所述实施例的基础上，可选的，步骤202可以包括下述步骤2021和步骤2022的技术过程。

步骤2021、计算机设备对目标语音音频的音频特征参数进行提取，得到音频特征参数矩阵。

这里所谓的“音频特征参数”指的可以是对目标语音音频的频谱进行编码后得到的参数，其可以反映目标语音音频的声学特征。可选的，在本申请实施例中，该音频特征参数可以为MFCC(英文：Mel Frequency Cepstrum Coefficien；中文：梅尔频率倒谱系数)。对目标语音音频的音频特征参数进行提取后，可以得到该目标语音音频对应的音频特征参数矩阵。

步骤2022、计算机设备将音频特征参数矩阵输入至音频识别神经网络中，得到该音频识别神经网络输出的概率信息。

可选的，在本申请实施例中，音频识别神经网络可以包括特征提取子网络和特征识别子网络，其中，特征提取子网络用于对音频特征参数矩阵进行特征提取，可选的，该特征提取子网络可以为卷积神经网络，特征识别子网络用于对特征提取子网络所提取到的特征进行识别，可选的，该特征识别子网络可以包括长短时记忆循环神经网络层和全连接层。

可选的，在本申请实施例中，计算机设备可以将音频特征参数矩阵输入至特征提取子网络，从而得到该特征提取子网络对该音频特征参数矩阵进行特征提取后输出的特征矩阵。接着，计算机设备可以将特征提取子网络输出的特征矩阵输入至特征识别子网络，从而得到该特征识别子网络输出的概率信息。可选的，计算机设备将特征提取子网络输出的特征矩阵输入至特征识别子网络，包括：计算机设备将特征提取子网络输出的特征矩阵输入至长短时记忆循环神经网络层，并得到该长短时记忆循环神经网络层的输出，接着，计算机设备将该长短时记忆循环神经网络层的输出输入至全连接层，从而得到该全连接层的输出，其中，该全连接层的输出即为上文所述的概率信息。

在本申请实施例提供的语音识别方法中，计算机设备可以先对目标语音音频的音频特征参数进行提取，得到音频特征参数矩阵，而后，再将音频特征参数矩阵输入至音频识别神经网络，以利用该音频特征参数矩阵对目标语音音频进行识别，由于音频特征参数矩阵可以反映目标语音音频的声学特征，且，音频特征参数矩阵的数据量一般小于目标语音音频的数据量，因此，在对目标语音音频进行识别时，将该音频特征参数矩阵输入至音频识别神经网络相较于将目标语音音频直接输入至音频识别神经网络的方式，一方面能够提高对目标语音音频进行识别的准确性，另一方面可以降低计算机设备对目标语音音频进行识别的计算量。

请参考图4，在上文所述实施例的基础上，可选的，步骤203之后，本申请实施例提供的语音识别方法还可以包括以下步骤401至403的技术过程。

步骤401、计算机设备对目标文字进行自然语义识别，得到语义识别结果。

为了实现计算机设备对目标用户的响应，在对目标语音音频进行语音识别，得到目标文字之后，计算机设备可以对该目标文字进行自然语义识别，从而得到语义识别结果。

步骤402、计算机设备根据语义识别结果生成响应内容。

该响应内容可以为文字、音频或者指令等。如上文所述，以智能客服系统为例，智能客服系统中的服务器在对目标文字进行自然语义识别，得到语义识别结果之后，智能客服系统中的服务器可以根据该语义识别结果生成响应文字。

步骤403、计算机设备将响应内容发送至目标用户对应的终端。

其中，该响应内容用于供目标用户对应的终端进行展示。如上文所述，以智能客服系统为例，智能客服系统中的服务器可以利用语音播报的方式将响应文字推送至目标用户对应的终端。

请参考图5，本申请实施例还提供了一种语音识别装置500的框图，该语音识别装置500可以配置于上文所述的服务器或者计算机设备中。如图5所示，该语音识别装置500可以包括获取模块501、第一识别模块502和第二识别模块503。

其中，该获取模块501，用于获取目标语音音频，该目标语音音频包括目标用户的语音和除该目标用户以外的干扰用户的语音中的至少一个。

该第一识别模块502，用于利用音频识别神经网络对该目标语音音频进行识别处理，得到该音频识别神经网络输出的概率信息，该概率信息用于指示该目标语音音频包括该目标用户的语音的概率。

该第二识别模块503，用于在该概率信息指示的概率大于或等于预设概率阈值时，对该目标语音音频进行语音识别，得到该目标语音音频对应的目标文字。

在本申请的一个实施例中，该第一识别模块502，具体用于对该目标语音音频的音频特征参数进行提取，得到音频特征参数矩阵；将该音频特征参数矩阵输入至该音频识别神经网络中，得到该音频识别神经网络输出的该概率信息。

在本申请的一个实施例中，该音频识别神经网络包括特征提取子网络和特征识别子网络，该第一识别模块502，具体用于：将该音频特征参数矩阵输入至该特征提取子网络，得到该特征提取子网络输出的特征矩阵；将该特征矩阵输入至该特征识别子网络，得到该特征识别子网络输出的该概率信息。

在本申请的一个实施例中，该特征提取子网络为卷积神经网络，该特征识别子网络包括长短时记忆循环神经网络层和全连接层。

在本申请的一个实施例中，该获取模块501，具体用于：获取音频流，并从该音频流中提取出包含人的语音的音频段；对该音频段进行分割，得到多个音频长度相等的该目标语音音频。

请参考图6，本申请实施例还提供了另一种语音识别装置600，该语音识别装置600可以配置于上文所述的服务器或者计算机设备中。如图6所示，该语音识别装置600除了包括语音识别装置500包括的各模块外，可选的，该语音识别装置600还可以包括禁止模块504和响应模块505。

其中，该禁止模块504，用于在该概率信息所指示的概率小于该预设概率阈值时，禁止对该目标语音音频进行语音识别。

该响应模块505，用于对该目标文字进行自然语义识别，得到语义识别结果；根据该语义识别结果生成响应内容；将该响应内容发送至该目标用户对应的终端，该响应内容供该目标用户对应的终端进行展示。

本申请实施例提供的语音识别装置，可以实现上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。上语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请的一个实施例中，提供了一种计算机设备，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器和存储器。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种语音识别方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请的一个实施例中，提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：当该概率信息所指示的概率小于该预设概率阈值时，禁止对该目标语音音频进行语音识别。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：对该目标语音音频的音频特征参数进行提取，得到音频特征参数矩阵；将该音频特征参数矩阵输入至该音频识别神经网络中，得到该音频识别神经网络输出的该概率信息。

该音频识别神经网络包括特征提取子网络和特征识别子网络，在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：将该音频特征参数矩阵输入至该特征提取子网络，得到该特征提取子网络输出的特征矩阵；将该特征矩阵输入至该特征识别子网络，得到该特征识别子网络输出的该概率信息。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：获取音频流，并从该音频流中提取出包含人的语音的音频段；对该音频段进行分割，得到多个音频长度相等的该目标语音音频。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：对该目标文字进行自然语义识别，得到语义识别结果；根据该语义识别结果生成响应内容；将该响应内容发送至该目标用户对应的终端，该响应内容供该目标用户对应的终端进行展示。

本申请实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：当该概率信息所指示的概率小于该预设概率阈值时，禁止对该目标语音音频进行语音识别。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：对该目标语音音频的音频特征参数进行提取，得到音频特征参数矩阵；将该音频特征参数矩阵输入至该音频识别神经网络中，得到该音频识别神经网络输出的该概率信息。

该音频识别神经网络包括特征提取子网络和特征识别子网络，在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：将该音频特征参数矩阵输入至该特征提取子网络，得到该特征提取子网络输出的特征矩阵；将该特征矩阵输入至该特征识别子网络，得到该特征识别子网络输出的该概率信息。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取音频流，并从该音频流中提取出包含人的语音的音频段；对该音频段进行分割，得到多个音频长度相等的该目标语音音频。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：对该目标文字进行自然语义识别，得到语义识别结果；根据该语义识别结果生成响应内容；将该响应内容发送至该目标用户对应的终端，该响应内容供该目标用户对应的终端进行展示。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取目标语音音频，所述目标语音音频包括目标用户的语音和除所述目标用户以外的干扰用户的语音中的至少一个；

利用音频识别神经网络对所述目标语音音频进行识别处理，得到所述音频识别神经网络输出的概率信息，所述概率信息用于指示所述目标语音音频包括所述目标用户的语音的概率；

当所述概率信息指示的概率大于或等于预设概率阈值时，对所述目标语音音频进行语音识别，得到所述目标语音音频对应的目标文字。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述概率信息所指示的概率小于所述预设概率阈值时，禁止对所述目标语音音频进行语音识别。

3.根据权利要求1或2任意所述的方法，其特征在于，所述利用音频识别神经网络对所述目标语音音频进行识别处理，得到所述音频识别神经网络输出的概率信息，包括：

对所述目标语音音频的音频特征参数进行提取，得到音频特征参数矩阵；

将所述音频特征参数矩阵输入至所述音频识别神经网络中，得到所述音频识别神经网络输出的所述概率信息。

4.根据权利要求3所述的方法，其特征在于，所述音频识别神经网络包括特征提取子网络和特征识别子网络，所述将所述音频特征参数矩阵输入至所述音频识别神经网络中，得到所述音频识别神经网络输出的概率信息，包括：

将所述音频特征参数矩阵输入至所述特征提取子网络，得到所述特征提取子网络输出的特征矩阵；

将所述特征矩阵输入至所述特征识别子网络，得到所述特征识别子网络输出的所述概率信息。

5.根据权利要求4所述的方法，其特征在于，所述特征提取子网络为卷积神经网络，所述特征识别子网络包括长短时记忆循环神经网络层和全连接层。

6.根据权利要求1所述的方法，其特征在于，所述获取目标语音音频，包括：

获取音频流，并从所述音频流中提取出包含人的语音的音频段；

对所述音频段进行分割，得到多个音频长度相等的所述目标语音音频。

7.根据权利要求1所述的方法，其特征在于，对所述目标语音音频进行语音识别，得到所述目标语音音频对应的目标文字之后，所述方法还包括：

对所述目标文字进行自然语义识别，得到语义识别结果；

根据所述语义识别结果生成响应内容；

将所述响应内容发送至所述目标用户对应的终端，所述响应内容供所述目标用户对应的终端进行展示。

8.一种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取目标语音音频，所述目标语音音频包括目标用户的语音和除所述目标用户以外的干扰用户的语音中的至少一个；

第一识别模块，用于利用音频识别神经网络对所述目标语音音频进行识别处理，得到所述音频识别神经网络输出的概率信息，所述概率信息用于指示所述目标语音音频包括所述目标用户的语音的概率；

第二识别模块，用于在所述概率信息指示的概率大于或等于预设概率阈值时，对所述目标语音音频进行语音识别，得到所述目标语音音频对应的目标文字。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的语音识别方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7任一所述的语音识别方法。