CN110738990B

CN110738990B - 识别语音的方法和装置

Info

Publication number: CN110738990B
Application number: CN201810796701.9A
Authority: CN
Inventors: 朱长宝; 牛建伟; 刘鼎
Original assignee: Nanjing Horizon Robotics Technology Co Ltd
Current assignee: Nanjing Horizon Robotics Technology Co Ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2022-03-25
Anticipated expiration: 2038-07-19
Also published as: KR20200010124A; US20200027450A1; KR102306608B1; CN110738990A; JP6978792B2; JP2020013129A; EP3598438A1; US11183179B2

Abstract

公开了一种识别语音的方法和装置，该方法包括：将输入的声音信号分离为至少两个分离信号；生成在当前帧时的降噪信号；对在当前帧时的每个关注信号执行初步识别；以及根据在当前帧时的每个关注信号在当前帧时的识别得分执行识别判决。本公开的方法和装置将阵列信号处理和语音识别深度地融合在一起并采用多路识别，使得即使在信噪比很低的情况下也能够获得很好的识别率。

Description

识别语音的方法和装置

技术领域

本公开总体上涉及语音识别的技术领域，并且具体地涉及一种识别语音的方法和装置。

背景技术

在嘈杂的环境中，例如在存在电视干扰的情况下，远场语音识别的识别率将大大降低，进而影响远场语音交互。

可以通过麦克风阵列进行空间滤波，输出单路语音并送入语音识别器进行识别。然而，空间滤波通常依赖于声源定位，而在信噪比较低的情况下，声源定位本身的准确度将显著地降低。

发明内容

一方面，本公开提供了一种识别语音的方法，该方法包括：将输入的声音信号分离为至少两个分离信号；基于在前述声音信号的当前帧时从前述至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号，生成在当前帧时的降噪信号；对在当前帧时的多个关注信号中的每个关注信号执行初步识别，在当前帧时的多个关注信号包括前述至少两个分离信号和在当前帧时的降噪信号，并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分；以及根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分执行识别判决。

另一方面，本公开提供了一种计算机可读取的非易失性存储介质，在其上存储有程序指令，前述程序指令可以在被执行时执行上述方法。

另一方面，本公开提供了一种识别语音的装置，该装置可以包括一个或多个处理器，前述一个或多个处理器被配置为在启动时至少执行上述方法。

另一方面，本公开提供了一种识别语音的装置，该装置可以包括：分离器，被配置为将输入的声音信号分离为至少两个分离信号；信号生成器，被配置为基于在前述声音信号的当前帧时从前述至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号来生成在当前帧时的降噪信号；识别器，被配置为对在当前帧时的多个关注信号中的每个关注信号执行初步识别，在当前帧时的多个关注信号包括前述至少两个分离信号和在当前帧时的降噪信号，并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分；以及判决器，被配置为根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分来执行识别判决。

根据本公开的实施例的识别语音的方法和装置将阵列信号处理和语音识别深度地融合在一起并采用多路识别，使得即使在信噪比很低的情况下也能够获得很好的识别率。

附图说明

图1示出根据本公开的实施例的识别语音的方法的示例。

图2示出根据本公开的实施例的声音信号分离的示例。

图3示出根据本公开的实施例的识别语音的方法的另一个示例。

图4示出根据本公开的实施例的识别语音的方法的另一个示例。

图5示出根据本公开的实施例的识别语音的装置的示例。

具体实施方式

下面结合附图来描述根据本公开的实施例的用于识别语音的方法和装置的示例。

如图1所示，根据本公开的实施例的示例方法100可以包括步骤S110(分离声音信号)、S120(生成降噪信号)、S130(初步识别)和S140(识别判决)。

在步骤S110中，可以将输入的声音信号分离为至少两个分离信号。

在一个实施例中，可以通过诸如麦克风阵列这样的拾音器或拾音电路实时地获取外界声音，并通过诸如模数转换器这样的转换器或转换电路转换为例如数字信号，从而获得输入声音信号。在另外的实施例中，可以通过其他适当的方式获得输入的声音信号。本公开不局限于获取输入声音信号的特定方式或特定装置。

然后，在一个实施例中，可以通过例如盲源分离或独立分量分析等信号分离技术将输入的声音信号分离为至少两个分离信号。在另外的实施例中，可以通过例如波束形成技术将输入的声音信号分离为至少两个分离信号。在另外的实施例中，还可以采用其他适当的信号分离技术将输入的声音信号分离为至少两个分离信号。

例如，如图2所示，可以将输入的声音信号IN_SIG分离为分离信号SIG1、SIG2、……、SIGn(n为大于或等于2的自然数)。应当理解，图2仅仅示出信号的示意图，而不是声音信号和相应分离信号的实际波形。

另外，如图2所示，输入的声音信号IN_SIG可以包括一个或多个帧f0、f1、f2、f3、f4、f5、f6、f7、f8等。在本文中，“当前帧”表示与当前时间段(例如，采样时间段)相对应的信号部分或当前时间正在处理的信号部分。例如，当前帧f3可以表示声音信号IN_SIG和/或每个分离信号SIGi(1≤i≤n)在与f3相对应的时间段的信号部分。相应地，当前帧f3的前一帧(或者简称为“前一帧”)表示在时间上紧接在当前帧f3之前的帧f2，当前帧f3的后一帧(或者简称为“后一帧”)表示在时间上紧接在当前帧f3之后的帧f4，并且当前帧f3的先前帧(或者简称为“先前帧”)表时在时间上先于当前帧f3的一个或多个帧(可以是连续的，也可以是不连接的，可以是紧接在当前帧f3之前的，也可以不是紧接在当前帧f3之前的)。

然后，在步骤S120中，可以基于在声音信号的当前帧时从在步骤S110中分离出的至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号，生成在当前帧时的降噪信号。

在一个实施例中，在当前帧时从前述至少两个分离信号中选择出的主分离信号在前一帧时的识别得分可以大于或等于任何其他分离信号在前一帧时的识别得分。例如，如果SIG1至SIGn中的SIG2在帧f3时的识别得分大于或等于SIG1至SIGn中的其他任何分离信号的识别得分，则在帧f4开始时，可以将SIG2选择为在帧f4时的主分离信号，并将SIG1至SIGn中的其他任何分离信号中的一个或多个作为在帧f4时的副分离信号。

信号的识别得分表示例如针对该信号的识别结果与声音信号IN_SIG或声音信号IN_SIG代表的实际内容的接近程度，识别得分越高，接近程度越高。关于各个分离信号在各个帧时的识别得分将在下文更详细地描述。

然后，在一个实施例中，可以分析每个分离信号SIGi以获得每个分离信号SIGi的频谱和功率谱。例如，可以通过适时傅立叶分析来获得每个分离信号SIGi的频谱，并且可以基于每个分离信号SIGi的频谱进一步地获得每个分离信号SIGi的功率谱。

进一步地，可以根据所选择的主分离信号的功率谱和所选择的一个或多个副分离信号的功率谱确定降噪因子或增益。

在一个实施例中，可以先确定功率比，然后根据主副信号功率比来计算出或获得降噪因子或增益。例如，功率比可以是根据所选择的主分离信号的功率谱和所选择的一个或多个副分离信号中的一个副分离信号的功率谱获得的功率比。在另外的示例中，功率比可以是根据所选择的主分离信号的功率谱和所选择的所有副分离信号的平均功率谱获得的功率比。在另外的示例中，功率比可以是根据所选择的主分离信号的功率谱和所选择的所有副分离信号中的多个副分离信号的平均功率谱获得的功率比。

在一个实施例中，可以将降噪因子或增益g确定为例如g＝a/(1+a)，其中，a为先前所获得的功率比。在另外的实施例中，可以采用其他方式根据功率比来确定降噪因子或增益g，使得功率比越大，降噪因子或增益g越大。

然后，可以根据降噪因子或增益g和主分离信号的频谱来获得当前帧时的降噪信号。在一个实施例中，可以将降噪因子或增益g与主分离信号的频谱相乘，并进一步地通过合成变换来获得当前帧时的降噪信号。在另外的实施例中，可以根据降噪因子或增益g和主分离信号的频谱，通过任何适当的降噪技术来获得当前帧时的降噪信号(在下文标记为SIG_DN)。

然后，可以至少将前述的至少两个分离信号SIG1至SIGn以及当前帧时的降噪信号SIG_DN作为当前帧时的多个(例如，n+1个)关注信号，并继续到步骤S130，以根据在当前帧时的多个关注信号中的每个关注信号执行初步识别，其中，在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分。

在一个实施例中，可以记录例如前一帧时每个分离信号的识别得分，以例至少在下一帧时使用。例如，在帧f3时，可以至少记录每个分离信号SIGi在该帧f3时的相应的识别得分；然后，可以在帧f4时，根据帧f3时记录的识别得分，从分离信号SIGi中选择在帧f4时的主分离信号，进而获得在帧f4时的降噪信号。

在步骤S130中，在一个实施例中，对于包括分离信号SIG1至SIGn以及当前帧时的降噪信号SIG_DN的多个关注信号中的每个关注信号，可以通过声学模型确定在当前帧时的声学得分。

在不同的实施例中，声学模型可以是基于诸如隐马尔科夫模型(HMM)、深度神经网络(DNN)等构建的任何适当的声学模型SND。本公开不局限于任何特定的声学模型。相应地，每个关注信号的声学得分S_SND_j(例如，1≤j≤n+1)可以形式化地表示为S_SND_j＝SND(IS_j|θ^SND)，其中，IS_j表示关注信号，例如可以是任何一个分离信号SIGi或当前帧时的降噪信号SIG_DN；θ^SND表示声学模型SND的例如经过事先训练或在线训练的模型参数。

然后，对于每个关注信号IS_j，可以根据该关注信号IS_j在当前帧时的声学得分S_SND_j，对该关注信号IS_j执行解码。根据不同的实施例，可以采用诸如维特比解码和动态规划解码这样的任何适当的解码技术执行解码。例如，对于可能包括一个或多个预定词的命令词，可以采用一个或多个例如基于深度学习网络或隐马尔科夫模型的命令词模型对关注信号IS_j进行识别和打分。

在一个实施例中，在当前帧时针对每个关注信号IS_j执行解码所获得的解码的结果可以包括每个关注信号IS_j的相应的解码得分S_DEC_j，该解码得分S_DEC_j越高可以表示对应的关注信号IS_j的解码的结果越有可能接近于声音信号IN_SIG所有表达的实际语义。

在一个实施例中，步骤S130可以包括确定在当前帧时的多个关注信号中的每个关注信号在当前帧时的解码的结果与包括一个或多个预定词的预定语句相匹配的置信度。在该实施例中，在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分可以取决于在当前帧时所确定的置信度。

例如，在唤醒词或命令词识别的情况下，解码得分S_DEC_j可以对应于或基于相应的关注信号IS_j在当前帧时的解码的结果与包括一个或多个预定词的预定语句相匹配的置信度或程度，并且可以根据该置信度来确定关注信号IS_j在当前帧时的识别得分S_ID_j，例如将该置信度作为关注信号IS_j在当前帧时的识别得分S_ID_j。

在另一个实施例中，步骤S130还可以包括对在当前帧时的多个关注信号中的每个关注信号在当前帧时的解码的结果执行自然语言处理。在该实施例中，在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分可以取决于在当前帧时的自然语言处理得分。

例如，在通用语音识别的情况下，可以进一步地针对每个关注信号IS_j在当前帧时的解码的结果执行自然语言处理，并获得关注信号IS_j在当前帧时的自然语言处理得分S_NLP_j。例如，可以将相应的自然语言处理得分S_NLP_j作为关注信号IS_j在当前帧时的识别得分S_ID_j，或者基于相应的自然语言处理得分来确定关注信号IS_j在当前帧时的识别得分S_ID_j。

如前文所述，可以记录每个关注信号IS_j在当前帧时的识别得分，以供在下一帧时使用。

然后，示例方法100可以继续到步骤S140，以根据在当前帧时的每个关注信号IS_j在当前帧时的识别得分执行识别判决。

例如，在识别包括一个预定词的唤醒词的情况下，或者在识别包括一个或多个预定词的命令词的情况下，或者在通用语音识别的情况下，可以将在当前帧时的所有关注信号{IS_j,1≤j≤n+1}中的满足一个或多个预定条件的关注信号IS_k(1≤k≤n+1)在当前帧时的初步识别的结果确定为在当前帧时针对声音信号IN_SIG的识别结果。

根据不同的实施例，在步骤S140中可以考虑的一个或多个预定条件可以包括但不限于例如以下条件中的一个或多个：

-关注信号IS_k在当前帧时的识别得分S_ID_k大于或等于在当前帧时的任何其他关注信号IS_m(1≤m≤n+1，且m≠k)在当前帧时的识别得分S_ID_m；

-与关注信号IS_k在当前帧时的初步识别的结果相对应的预定词命中次数大于或等于与当前帧时的任何其他关注信号IS_m在当前帧时的初步识别的结果相对应的预定词命中次数；

-关注信号IS_k在当前帧时的识别得分S_ID_k大于或等于阈值TH1，其中，阈值TH1可以根据需要而设置为任何适当的值。

应当理解，上述预定条件仅仅是示例，而不是全部的可能的预定条件。例如，在识别包括一个预定词的唤醒词的情况下，将在当前帧时针对声音信号IN_SIG的识别结果确定为指示执行唤醒操作可以包括但不限于以下示例条件中的一个或多个：

-在当前帧时的所有关注信号{IS_j,1≤j≤n+1}中存在关注信号IS_k，该关注信号IS_k在当前帧时的识别得分S_ID_k大于或等于阈值TH1；

-在当前帧时的所有关注信号{IS_j,1≤j≤n+1}中的预定数量N1(例如，100个或以上)的关注信号{IS_r’,1≤r≤N1}中的每个关注信号IS_r’在当帧时的识别得分S_ID_r’均大于或等于阈值TH2；

-在当前帧时的降噪信号SIG_DN的识别得分大于或等于阈值TH3，并且每个分离信号SIGi在当前帧时的识别得分均大于或等于阈值TH4；

-在当前帧时的降噪信号SIG_DN的识别得分S_ID_{SIG_DN}大于或等于阈值TH5，并且存在分离信号SIGp(1≤p≤n)，使得分离信号SIGp在当前帧时的识别得分S_ID_SIGp大于或等于任何其他分离信号SIGq(1≤q≤n且q≠p)在当前帧时的识别得分S_ID_SIGq、|S_ID_{SIG_DN}-S_ID_SIGp|<TH6并且S_ID_SIGp≥TH7。

根据不同的实施例，上述的阈值TH1至TH7的值可以根据需要而设置为任何适当的值。

在一个实施例中，在根据预定条件将在当前帧时针对声音信号IN_SIG的识别结果确定为指示执行唤醒操作的情况下，示例方法100或者示例方法100的步骤S140还可以包括执行唤醒操作，从而使例如处于休眠或待机状态的装置开启部分或全部功能。

在图1所示的示例方法100中，采用多路识别，并且在每一帧的处理中均考虑前一帧的反馈信息，使得即使在信噪比很低的情况下也能够获得很好的识别率。

如图3所示，示例方法100还包括用于获得话者模型的步骤S150。相应地，在步骤S120中，还可以考虑话者模型在前一帧时的反馈信息。

在一个实施例中，在当前帧时所选择的主分离信号在前一帧时由话者模型确定的与话者相关联的概率大于或等于任何其他分离信号在前一帧时由所述话者模型确定的与所述话者相关联的概率并且大于或等于特定阈值。

例如，对于SIG1至SIGn中的每个分离信号SIGi，可以在帧f3时，通过话者模型确定各个分离信号与话者相关联的概率P_SIGi，如果分离信号SIG2的概率P_SIG2大于其他任何分离信号SIGk(1≤k≤n并且k≠2)的概率P_SIGk，则在帧f4开始时，可以将SIG2选择为在帧f4时的主分离信号，并将SIG1至SIGn中的其他任何分离信号中的一个或多个作为在帧f4时的副分离信号。

为了获得这样的话者模型，在步骤S150中，可以至少根据在当前帧时针对声音信号IN_SIG的识别结果来确定话者的话者特征，并对话者特征进行训练以获得话者特征。

根据不同的实施例，话者模型可以是例如反向传播型的人工神经网络话者模型、基于遗传算法的矢量量化话者模型等任何适当的话者模型。根据所采用的话者模型，可以确定需要确定的话者特征的细节。本公开不局限于特定的话者模型和特定的话者特征。

在一个实施例中，还可以记录在当前帧之前的至少一个先前帧时的先前关注信号，每个先前关注信号在对应的先前帧时的初步识别的结果是在对应的在对应的先前帧时针对声音信号IN_SIG的识别结果。

例如，假设当前帧为f4，则可以记录在帧f0时的关注信号IS_f0(分离信号SIG1至SIGn和在帧f0时的降噪信号中的满足前述一个或多个预定条件的关注信号)、在帧f1时的关注信号IS_f1(分离信号SIG1至SIGn和在帧f1时的降噪信号中的满足前述一个或多个预定条件的关注信号)、在帧f2时的关注信号IS_f2(分离信号SIG1至SIGn和在帧f2时的降噪信号中的满足前述一个或多个预定条件的关注信号)以及在帧f3时的关注信号IS_f3(分离信号SIG1至SIGn和在帧f3时的降噪信号中的满足前述一个或多个预定条件的关注信号)。

然后，在确定话者的话者特征时，还可以考虑每个先前关注信号在对应的先前帧时的初步识别的结果。

例如，可以根据在帧f0时的关注信号IS_f0的初步识别的结果(即，在帧f0时针对声音信号IN_SIG的识别结果)、在帧f1时的关注信号IS_f1的初步识别的结果(即，在帧f1时针对声音信号IN_SIG的识别结果)、在帧f2时的关注信号IS_f2的初步识别的结果(即，在帧f2时针对声音信号IN_SIG的识别结果)、在帧f3时的关注信号IS_f3的初步识别的结果(即，在帧f3时针对声音信号IN_SIG的识别结果)以及在当前帧f4时针对声音信号IN_SIG的识别结果来确定话者的话者特征。

图4示出根据本公开的实施例的方法的另一示例，其中的步骤S110可以与图1或图3所示的步骤S110相同，并且步骤S150可以与图3所示的步骤S150相同，重复之处不再赘述。

在图4的示例中，A可以对应于唤醒过程，并且A中的步骤S120’、S130’和S140’可以分别对应于图1的示例中的步骤S120、S130和S140，只是可以更侧重于针对唤醒词的识别，重复之处不再赘述。相应地，步骤S140’可以包括执行唤醒操作并且可以被称为“唤醒判决”，并且步骤S130’也可以被称为“唤醒识别”。

在通过步骤S140’执行唤醒操作之后，可以从A转换成B，其中，B可以对应于一般的识别过程(例如，命令词识别和通用语音识别)，并且B中的步骤S120”、S130”和S140”可以分别对应于图3的示例中的步骤S120、S130和S140，重复之处不再赘述。

在图3或图4的示例中，根据本公开的实施例的方法还考虑通过话者模型判断与话者的关联性，从而允许在语音控制和交互阶段更进一步地融合话者的特征信息，并进一步地提高识别率。

在一个实施例中，可以在一个或多个计算机可读取的非临时性存储介质上存储或实施能够执行上述方法的各个步骤的程序指令，使得这样的非临时性存储介质能够在被计算机或其他计算装置(例如处理器)读取时提供相应的程序指令，并使得计算机或其他计算装置能够根据所读取的程序指令执行相应的操作。根据不同的实施例，程序指令能够以诸如源代码、二进制代码、中间代码等各种形式或各种形式的不同组合而实施或存储在非临时性存储介质上。

图5示出能够应用根据本公开的实施例的方法的示例装置200，该示例装置200可以包括分离器SPT、信号生成器GEN、识别器RGZ和判决器DEC。

在一个实施例中，分离器SPT可以包括一个或多个处理器，例如，诸如中央处理单元(CPU)和现场可编程门阵列(FPGA)这样的通用处理器或处理装置或者其他专用处理器或处理装置。在一个实施例中，分离器SPT(例如，分离器SPT中的处理器)可以被配置为将输入的声音信号IN_SIG分离为至少两个分离信号SIG1、SIG2、……、SIGn。在一个实施例中，分离器SPT或者其中的处理器可以被配置为执行例如示例方法100的步骤S110。

在一个实施例中，信号生成器GEN可以包括一个或多个处理器，诸如CPU和FPGA这样的通用处理器或处理装置或者其他专用处理器或处理装置。在一个实施例中，信号生成器GEN可以被配置为基于在当前帧时从分离信号SIG1、SIG2、……、SIGn中选择出的主分离信号SIG_M以及一个或多个副分离信号SIG_V1、……、SIG_Vn-1来生成在当前帧时的降噪信号SIG_DN。在一个实施例中，信号生成器GEN或者其中的处理器可以被配置为执行例如示例方法100的步骤S120。

在一个实施例中，识别器RGZ可以包括一个或多个处理器，诸如CPU和FPGA这样的通用处理器或处理装置或者其他专用处理器或处理装置。在一个实施例中，识别器RGZ可以被配置为对在当前帧时的多个关注信号中的每个关注信号执行初步识别，在当前帧时的多个关注信号可以包括分离信号SIG1、SIG2、……、SIGn和在当前帧时的降噪信号SIG_DN，并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果RGZj(1≤j≤n+1)相关联的在当前帧时的识别得分。在一个实施例中，识别器RGZ或者其中的处理器可以被配置为执行例如示例方法100的步骤S130。

在一个实施例中，判决器DEC可以包括一个或多个处理器，诸如CPU和FPGA这样的通用处理器或处理装置或者其他专用处理器或处理装置。在一个实施例中，判决器DEC可以被配置为根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分(根据不同的实施例，可以是RGZj或者包括在RGZj中)来执行识别判决，以获得在当前帧时针对输入的声音信号IN_SIG的识别结果OUT_R。在一个实施例中，判决器DEC或者其中的处理器可以被配置为执行例如示例方法100的步骤S140。

应当理解，图5所示的结构仅是示例性的，而非限制性的。根据本公开的实施例的装置还可以具有其他部件和/或结构。

例如，示装置200还可以包括麦克风阵列，用于作为获取外声音的拾音器或拾音电路。另外，还可以包括诸如模数转换器这样的转换器或转换电路以及滤波器等部件。

例如，根据本公开的实施例的装置可以包括一个或多个处理器(例如CPU和FPGA等通用的处理器或处理装置和/或专用的处理器或处理装置)，并且这样的一个或多个处理器可以被配置为在启动时至少执行根据本公开的实施例的方法，例如示例方法100。

例如，根据本公开的实施例的装置还可以包括I/O接口、网络接口和/或存储器，从而通过有线或无线地方式与其他部件或装置进行信息/数据交互。

例如，根据不同的实施例，装置中的存储器可以包括各种形式的计算机可读写存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)、高速缓冲存储器(cache)、片上存储器等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪速存储器等。可读写存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件、或者任意以上的组合。在一个实施例中，存储器可以存储用于指示装置中的一个或多个处理器执行根据本公开的实施例的方法的步骤的程序指令。

贯穿说明书和权利要求书，除非上下文清楚地另有要求，否则措词“包括”、“包含”等应当以与排他性或穷尽性的意义相反的包括性的意义来解释，也就是说，应当以“包括但不限于”的意义来解释。另外，措词“在本文中”、“上文”、“下文”以及相似含义的措词在本申请中使用时应当指作为整体的本申请，而不是本申请的任何具体部分。在上下文允许时，在使用单数或复数的以上描述中的措词也可以分别包括复数或单数。例如，前文所提到的“第一障碍物”或“第二障碍物”可以指一个或多个的“第一障碍物”或“第二障碍物”，并且“另一”也可以表示另外的一个或多个。关于在提及两个或多个项目的列表时的措词“或”，该措词涵盖该措词的以下解释中的全部：列表中的任何项目，列表中的所有项目，以及列表中的项目的任何组合。另外，措词“第一”、“第二”等旨在用于区分，而不是用于强调次序或重要程度。

虽然已经描述了本公开的一些实施例，但是这些实施例仅作为示例而呈现，而不打算限制本公开的范围。实际上，在本文中所描述的方法和系统可以采用多种其他形式来实施。另外，可以在不脱离本公开的范围的情况下，在本文中所描述的方法和装置的形式上做出各种省略、替换和改变。

Claims

1.一种识别语音的方法，包括：

将输入的声音信号分离为至少两个分离信号；

基于在所述声音信号的当前帧时从所述至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号，生成在当前帧时的降噪信号；

对在当前帧时的多个关注信号中的每个关注信号执行初步识别，在当前帧时的多个关注信号包括所述至少两个分离信号和在当前帧时的降噪信号，并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分；以及

根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分执行识别判决，

其中，在当前帧时所选择的主分离信号在所述声音信号的前一帧时的识别得分大于或等于所述至少两个分离信号中的任何其他分离信号在前一帧时的识别得分。

2.根据权利要求1所述的方法，其中，所述初步识别包括：

确定在当前帧时的多个关注信号中的每个关注信号在当前帧时的声学得分；以及

分别根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的声学得分对在当前帧时的多个关注信号中的每个关注信号执行解码。

3.根据权利要求2所述的方法，其中，所述初步识别还包括：

确定在当前帧时的多个关注信号中的每个关注信号在当前帧时的解码的结果与包括一个或多个预定词的预定语句相匹配的置信度，在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分取决于在当前帧时所确定的置信度。

4.根据权利要求2所述的方法，其中，所述初步识别还包括：

对在当前帧时的多个关注信号中的每个关注信号在当前帧时的解码的结果执行自然语言处理，在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分取决于在当前帧时的自然语言处理得分。

5.根据权利要求1所述的方法，其中，所述识别判决包括：

将在当前帧时的多个关注信号中的满足预定条件的第一关注信号在当前帧时的初步识别的结果确定为在当前帧时针对所述声音信号的识别结果。

6.根据权利要求5所述的方法，其中，所述预定条件包括以下条件中的一个或多个：

所述第一关注信号在当前帧时的识别得分大于或等于在当前帧时的多个关注信号中的任何其他关注信号在当前帧时的识别得分；

与所述第一关注信号在当前帧时的初步识别的结果相对应的预定词命中次数大于或等于与当前帧时的多个关注信号中的任何其他关注信号在当前帧时的初步识别的结果相对应的预定词命中次数；以及

所述第一关注信号在当前帧时的识别得分大于或等于第一阈值。

7.根据权利要求1所述的方法，其中，所述当前识别判决包括：

根据预定条件将在当前帧时针对所述声音信号的识别结果确定为指示执行唤醒操作。

8.根据权利要求7所述的方法，其中，所述预定条件包括以下条件中的一个或多个：

在当前帧时的多个关注信号包括第一关注信号，所述第一关注信号在当前帧时的识别得分大于或等于第一阈值；

在当前帧时的多个关注信号中的第一预定数量的关注信号中的每个关注信号在当帧时的识别得分均大于或等于第二阈值；

在当前帧时的降噪信号的识别得分大于或等于第三阈值并且所述至少两个分离信号中的每个分离信号在当前帧时的识别得分均大于或等于第四阈值；以及

在当前帧时的降噪信号的识别得分大于或等于第五阈值并且在当前帧时的降噪信号的识别得分与所述至少两个分离信号中的第一分离信号在当前帧时的识别得分之间的差值小于第六阈值，所述第一分离信号在当前帧时的识别得分大于或等于所述至少两个分离信号中的任何其他分离信号在当前帧时的识别得分并且大于或等于第七阈值。

9.根据权利要求1所述的方法，还包括：

至少根据在当前帧时针对所述声音信号的识别结果确定话者的话者特征；以及

对所述话者特征进行训练以获得话者模型。

10.根据权利要求9所述的方法，还包括：

记录在当前帧之前的至少一个先前帧时的先前关注信号，每个先前关注信号在对应的先前帧时的初步识别的结果是在对应的先前帧时针对所述声音信号的识别结果；以及

还根据每个先前关注信号在对应的先前帧时的初步识别的结果确定话者的话者特征。

11.根据权利要求9所述的方法，其中，在当前帧时所选择的主分离信号在前一帧时由所述话者模型确定的与所述话者相关联的概率大于或等于所述至少两个分离信号中的任何其他分离信号在前一帧时由所述话者模型确定的与所述话者相关联的概率并且大于或等于第一阈值。

12.根据权利要求1至11中的任一项所述方法，其中，生成在当前帧时的降噪信号包括：

分析所述至少两个分离信号中的每个分离信号，以获得每个分离信号的频谱和功率谱；

根据所述主分离信号的功率谱和所述一个或多个副分离信号的功率谱确定降噪因子；以及

根据所述降噪因子和所述主分离信号的频谱获得在当前帧时的降噪信号。

13.根据权利要求12所述的方法，其中，确定所述降噪因子包括：

所述主分离信号的功率谱和所述一个或多个副分离信号的功率谱确定功率比；以及

根据所述功率比确定所述降噪因子，所述功率比越大，则降噪因子越大。

14.一种识别语音的装置，包括：

分离器，被配置为将输入的声音信号分离为至少两个分离信号；

信号生成器，被配置为基于在所述声音信号的当前帧时从所述至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号来生成在当前帧时的降噪信号；

识别器，被配置为对在当前帧时的多个关注信号中的每个关注信号执行初步识别，在当前帧时的多个关注信号包括所述至少两个分离信号和在当前帧时的降噪信号，并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分；以及

判决器，被配置为根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分来执行识别判决，

15.一种识别语音的装置，包括：

一个或多个处理器，被配置为在启动时至少执行根据权利要求1至13中的任一项所述的方法。

16.一种计算机可读取的非易失性存储介质，在其上存储有程序指令，所述程序指令在被执行时执行根据权利要求1至13中的任一项所述的方法。