CN110875053A

CN110875053A - 语音处理的方法、装置、系统、设备和介质

Info

Publication number: CN110875053A
Application number: CN201810995203.7A
Authority: CN
Inventors: 许云峰; 刘刚; 余涛; 银鞍
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2020-03-10
Also published as: WO2020042992A1; US11887605B2; US20210183396A1

Abstract

一种语音处理的方法、装置、系统、设备和介质，包括：基于说话人的声纹特征在说话人注册表中，查询到所述说话人的标识，所述说话人的声纹特征是根据麦克风阵列采集说话人的语音信号获得的参数；在所述说话人注册表中所述说话人的标识对应的位置信息与所述说话人的位置信息不同，更新所述说话人注册表，所述说话人的位置信息是根据麦克风阵列采集说话人的语音信号获得的参数；在所述说话人的语音信号中标注所述说话人的标识，以跟踪所述说话人。采用本发明实施例后，能够跟踪多人的语音。

Description

语音处理的方法、装置、系统、设备和介质

技术领域

本发明涉及计算机领域，尤其涉及一种语音处理的方法、装置、系统、设备和计算机存储介质。

背景技术

环境噪声和其他说话者的干扰是处理语音过程中常见的干扰情况。人的听觉系统可以在嘈杂的环境中区分和跟踪感兴趣的语音信号。

基于麦克风阵列的语音增强技术在车载通信、多媒体会议以及机器人控制系统中得到广泛的应用。与单个麦克风相比，麦克风阵列在时域和频域的基础上增加空间域，对来自空间不同方位的信号进行联合处理。

在利用麦克风阵列分离语音中，具体通过划分空域，采集对应的空域的语音，从而实现语音的分离。

但在多人说话会议，或者多人采访等场景中，需要区分每个人的语音。每个人的位置会可能会发生改变，则存在难以跟踪多人的语音的技术问题。

发明内容

本发明实施例提供了一种语音处理的方法、装置、系统、设备和计算机存储介质，能够跟踪多人的语音。

一种语音处理的方法，包括：

基于说话人的声纹特征在说话人注册表中，查询到所述说话人的标识，所述说话人的声纹特征是根据麦克风阵列采集说话人的语音信号获得的参数；

在所述说话人注册表中所述说话人的标识对应的位置信息与所述说话人的位置信息不同，更新所述说话人注册表，所述说话人的位置信息是根据麦克风阵列采集说话人的语音信号获得的参数；

在所述说话人的语音信号中标注所述说话人的标识，以跟踪所述说话人。

所述基于说话人的声纹特征在说话人注册表中，查询到所述说话人的标识之后，还包括：

在所述说话人注册表中所述说话人的标识对应的位置信息与所述说话人的位置信息相同；

还包括：

基于说话人的声纹特征在所述说话人注册表中，未查询到所述说话人的标识；

将所述说话人的声纹特征、所述说话人的位置信息和所述说话人的标识增加到所述说话人注册表中，以跟踪所述说话人。

基于说话人的声纹特征在说话人注册表查询到声纹特征的注册时间早于预设时间阈值，则利用所述说话人的声纹特征更新所述说话人注册表。

还包括：

在所述说话人注册表中不确定是否查询到所述说话人的声纹特征，缓存所述语音信号。

还包括：

一组语音信号的位置信息与上一次一组语音信号的位置信息不同，则根据所述说话人注册表中的声纹特征的注册时间，整合所述说话人注册表中的声纹特征，所述一组语音信号包括一个或多个所述语音信号。

所述基于说话人的声纹特征在说话人注册表中，查询到所述说话人的标识之前，还包括：

一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度大于或等于最大相似阈值，且所述说话人注册表所存储的说话人声纹特征未满。

一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度大于或等于最大相似阈值，且所述说话人注册表所存储的说话人的声纹特征已满。

所述一组语音信号的位置信息与上一次一组语音信号的位置信息不同，包括：

所述一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度小于最大相似阈值且大于最小相似阈值。

一种语音处理系统，所述语音处理系统包括：声学传感器和语音处理设备，所述声学传感器与所述语音处理设备耦合；

所述声学传感器，用于采集说话人的语音信号；

所述语音处理设备，用于接收所述说话人的语音信号，获取所述说话人的声纹特征和所述说话人的位置信息；

基于说话人的声纹特征在说话人注册表中，查询到所述说话人的标识；

在所述说话人注册表中所述说话人的标识对应的位置信息与所述说话人的位置信息不同，更新所述说话人注册表；

所述语音处理设备，还用于确定在所述说话人注册表中所述说话人的标识对应的位置信息与所述说话人的位置信息相同；

所述语音处理设备，还用于确定基于说话人的声纹特征在所述说话人注册表中，未查询到所述说话人的标识；

所述语音处理设备，还用于确定基于说话人的声纹特征在说话人注册表查询到声纹特征的注册时间早于预设时间阈值，则利用所述说话人的声纹特征更新所述说话人注册表。

所述语音处理设备，用于确定在所述说话人注册表中不确定是否查询到所述说话人的声纹特征，缓存所述语音信号。

所述语音处理设备，用于确定一组语音信号的位置信息与上一次一组语音信号的位置信息不同，则根据所述说话人注册表中的声纹特征的注册时间，整合所述说话人注册表中的声纹特征，所述一组语音信号包括一个或多个所述语音信号。

所述语音处理设备，用于确定一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度大于或等于最大相似阈值，且所述说话人注册表所存储的说话人声纹特征未满。

所述语音处理设备，用于确定一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度大于或等于最大相似阈值，且所述说话人注册表所存储的说话人的声纹特征已满。

所述语音处理设备，具体用于确定所述一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度小于最大相似阈值且大于最小相似阈值。

一种语音处理的装置，包括：

查询模块，用于基于说话人的声纹特征在说话人注册表中，查询到所述说话人的标识，所述说话人的声纹特征是根据麦克风阵列采集说话人的语音信号获得的参数；

更新模块，用于在所述说话人注册表中所述说话人的标识对应的位置信息与所述说话人的位置信息不同，更新所述说话人注册表，所述说话人的位置信息是根据麦克风阵列采集说话人的语音信号获得的参数；

标注模块，用于在所述说话人的语音信号中标注所述说话人的标识，以跟踪所述说话人。

一种语音处理的设备，

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行如上述语音处理的方法。

一种计算机可读存储介质，其上存储有计算机程序指令，当所述计算机程序指令被处理器执行时实现如上述语音处理的方法。

从上述技术方案中可以看出，根据麦克风阵列采集的语音信号，得到语音信号的位置信息和语音信号的声纹特征；说话人注册表中存储有说话人的标识、说话人的位置信息和说话人的声纹特征的对应关系，进而可以获知说话人的标识；最后，在语音信号中标注说话人的标识。这样，说话人位置发生变化，可以在语音信号中标注说话人的标识，从而实现跟踪多人的语音。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1是麦克风阵列采集语音信号的场景示意图；

图2是本发明实施例中语音处理系统的结构示意图；

图3是本发明实施例中处理麦克风阵列采集语音信号的示意图；

图4是本发明实施例中说话人位置表和说话人声纹特征表的示意图；

图5是本发明实施例中五种状态的关系示意图；

图6是本发明实施例中语音处理的方法流程示意图；

图7是本发明实施例中语音处理的装置结构示意图；

图8是本发明实施例语音处理的方法、装置和系统的计算设备的示例性硬件架构的结构图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例中，可以使用麦克风阵列对存在多干扰源的嘈杂环境中来自空间不同方向的语音信号，进行信号采样和信号处理。麦克风阵列中的每个声学传感器例如麦克风可以称为是一个阵元，每个麦克风阵列至少包括两个阵元。每个阵元可以视为一个声音采集通道，可以利用包含多个阵元的麦克风阵列获得多通道语音信号。

在本发明实施例中，声源定位是指在实际应用场景中，基于麦克风阵列采集的语音信号，确定语音信号的声源方向或声源的空间位置，从而对语音的声源进行位置探测，确定麦克风阵列和与声源的空间位置关系。

参见图1，图1是麦克风阵列采集语音信号的场景示意图。在图1中的麦克风阵列有四个阵元，四个阵元分别采集四个方向的语音信号，每个方向包括90度。作为一个示例，第一阵元采集-45度至45度范围内的语音信号；第二阵元采集45度至135度范围内的语音信号；第三阵元采集135度至225度范围内的语音信号；第四阵元采集225度至315度范围内的语音信号。

在多人说话会议，或者多人采访等场景中，需要区分每个人的语音。采用麦克风阵列可以区分每个人的语音。但是，说话人的位置会发生改变。这样，存在难以跟踪多人的语音的问题。

参见图2，图2是本发明实施例中语音处理系统的结构示意图，具体包括声学传感器和语音处理设备，声学传感器与语音处理设备耦合。

声学传感器采集说话人的语音信号。语音处理设备利用本发明实施例中的技术方案，可以在说话人的语音信号中标注说话人的标识，以跟踪说话人。作为一个示例，声音传感器可以是麦克风阵列。

参见图3，图3是本发明实施例中处理麦克风阵列采集语音信号的示意图。在图3中，麦克风阵列包括6个阵元，分别采集6路语音信号，采用波束成型技术处理6路语音信号。

具体来说，分别对6路语音信号进行降噪处理，并确定说话人的位置信息和声纹特征。作为一个示例，处理说话人的语音信号，得到语音信号的位置信息。位置信息包括波达方向(Direction Of Arrival，DOA)。DOA是通过处理接收到的回波信号，获取说话人的距离信息和方位信息。

在本发明的一个实施例中，说话人的语音信号的长度可以为500毫秒(ms)。考虑到500ms的时间比较短，假定500ms的语音信号仅有一个声源。也就是说，500ms的语音信号仅是一个说话人的语音。对于每个500ms的语音信号包括DOA。

在本发明的一个实施例中，设置有说话人注册表。说话人注册表包括说话人的标识、说话人的位置信息和说话人的声纹特征的对应关系。

说话人的标识是用于区分说话人的标记。作为一个示例，说话人的标识可以是字符等。

说话人的位置信息是用于标识说话人的位置，作为一个示例，说话人的位置信息包括DOA。

说话人的声纹特征是说话人所对应的声纹特征。声纹是用电声学仪器显示的携带言语信息的声波频谱。由于每个说话人的声纹特征是不同的，因此可以以声纹特征区分不同的说话人。

作为一个示例，声纹特征可以包括频谱、倒频谱、共振峰、基音、反射系数等特征；也可以包括语言的词法特征，如上下文中词的关联性，上下文中音素的关联性；也可以包括韵律特征；还可以包括语言的语种、方言和口音等特征。

说话人注册表包括说话人的标识、说话人的位置信息和说话人的声纹特征的对应关系。作为一个示例，说话人注册表包括说话人A的标识、说话人A的位置信息和说话人A的声纹特征。

在本发明的一个实施例中，可以通过说话人位置表和说话人声纹特征表，更新说话人注册表。也就是说，说话人注册表具体包括说话人位置表和说话人声纹特征表。其中，说话人位置表用于记录说话人的ID和说话人的位置信息。说话人声纹特征表用于记录说话人的ID和说话人的声纹特征。

参见图4，图4是本发明实施例中说话人位置表和说话人模型表的示意图。图4中的左图是说话人位置表，图4中的右图是说话人声纹特征表。其中，说话人的标识可以是说话人的ID。

说话人位置表中记载说话人的ID与说话人的位置信息的对应关系。说话人声纹特征表中记载说话人的ID与说话人的声纹特征的对应关系。

说话人的声纹特征是随着时间而改变较少的参数，那么说话人声纹特征表随着时间的改变，除了新增说话人外，很少发生变更。

说话人的位置是随着时间而改变的参数，那么说话人位置表会随着时间的改变，发生较大的变化。

相对于说话人声纹特征表而言，说话人位置表随时间的改变较大，因此将说话人注册表分为说话人声纹特征表和说话人位置表。这样，在更新说话人注册表时，可以仅需要更新说话人位置表，而无需更新说话人声纹特征表。

根据麦克风阵列采集的语音信号，得到语音信号的位置信息和语音信号的声纹特征。

基于语音信号的位置信息和语音信号的声纹特征，分为以下三种情况。

第一种情况：不确定状态。

在说话人注册表中，不确定是否查询到语音信号的声纹特征，则说明难以确定语音信号的声纹特征是否存在于说话人注册表中。难以确定的原因有很多种，如：语音信号长度太短或语音信号中的噪音较多等原因。

在不确定状态，可以缓存语音信号。这样，针对缓存的语音信号，在说话人注册表中进行再次查询。

第二种情况：说话人未在说话人注册表中注册，即说话人是未注册说话人。

在说话人注册表中没有查询到语音信号的声纹特征，则说明说话人是新用户。由于需要存储空间存储说话人注册表，那么说话人注册表可以存储的说话人的声纹特征是有限的。

说话人是新用户的情况下，说话人注册表所存储的说话人的声纹特征未满，则可以将新用户的声纹特征、新用户的位置信息和新用户的标识增加到说话人注册表中。其中，新用户的标识可以是区别于其他老用户的标记。

下面具体说明，在说话人注册表中查询到语音信号的声纹特征的详细过程。

具体来说，可以基于语音信号的声学特征与说话人注册表中说话人的声学特征一一比较，若语音信号的声学特征与说话人注册表中说话人的声学特征的相似度大于相似阈值，则确定在说话人注册表中查询到语音信号的声纹特征；若语音信号的声学特征与说话人注册表中说话人的声学特征的相似度小于等于相似阈值，则确定在说话人注册表中没有查询到语音信号的声纹特征。.

在本发明的一个实施例中，可以通过预先训练好的声纹识别模型，确定语音信号的声学特征与说话人注册表中说话人的声学特征的相似度。声纹识别模型可以将语音信号的声学特征与说话人注册表中说话人的声学特征作为输入，在经过声纹识别模型中的参数进行计算后，得到语音信号的声学特征与说话人注册表中说话人的声学特征的相似度。

需要说明的是，训练声纹识别模型进行时，可以根据声学特征的相似度调整声纹识别模型中的参数，以便声纹识别模型能够更加精准地根据声纹特征确定声学特征的相似度。

第三种情况：说话人已在说话人注册表中注册，即说话人已是注册说话人。

在说话人注册表中查询到语音信号的声纹特征，则说明说话人是老用户。在说话人注册表中，老用户的声纹特征是之前老用户在注册说话人注册表或更新说话人注册表时注册的声纹特征。那么，在说话人注册表中的每个声纹特征均对应有注册时间。

作为一个示例，对于用户A来说，用户A在说话人注册表中声纹特征注册时间为1月1日上午9点30分2秒。在当前时刻之前，用户A并未更新说话人注册表的声纹特征，那么可知用户A的声纹特征注册时间为1月1日上午9点30分2秒。

作为另一个示例，对于用户A来说，用户A在说话人注册表中声纹特征注册时间为1月1日上午9点30分2秒。用户A在1月1日上午9点30分45秒更新说话人注册表的声纹特征，那么可知用户A的声纹特征注册时间为1月1日上午9点30分45秒。

在说话人注册表中，说话人注册表中老用户的声纹特征的注册时间早于预设时间阈值，则说明可以利用语音信号的声纹特征更新老用户在说话人注册表中的声纹特征。这样，可以确保老用户的声纹特征的实时性。

在说话人注册表中，说话人注册表中老用户的声纹特征的注册时间晚于预设时间阈值，则可以无需更新说话人注册表中老用户的声纹特征。

从麦克风阵列采集的语音信号得到语音信号的位置信息，是用于判断发言人是否移动。

在本发明的一个实施例中，在说话人注册表中说话人的标识对应的位置信息与语音信号的位置信息不同，则说明该说话人已由说话人的标识对应的位置信息对应的位置移动到语音信号的位置信息对应的位置。那么，需要更新说话人注册表的中位置信息。具体来说，可以以语音信号的位置信息更新说话人的标识对应的位置信息。然后，在语音信号中标注说话人的标识，即实现跟踪对说话人的跟踪。

在本发明的一个实施例中，在说话人注册表中说话人的标识对应的位置信息与语音信号的位置信息相同，则说明该说话人并未移动，则无需更新说话人注册表的中位置信息，然后，在语音信号中标注说话人的标识，即实现跟踪说话人。

在本发明的一个实施例中，根据从语音信号的位置信息和语音信号的声纹特征，可以确定是否需要更新说话人注册表。若不需要更新说话人注册表，则可以基于语音信号的位置信息和语音信号的声纹特征在说话人注册表中确定说话人的标识；若需要更新说话人注册表，则可以基于语音信号的位置信息和语音信号的声纹特征在更新后说话人注册表中确定说话人的标识。最后，在语音信号中标注说话人的标识，从而实现对说话人的跟踪。

考虑到声纹本身的可靠性并不是特别的高，不能做出非此即彼的判断。若更新说话人注册表发生错误更新，会导致跟踪说话人的准确性较低。

采集语音信号，每个语音信号的时长较短。并不是所有语音信号都可以确定是否与说话人注册表中的声纹相同。但如果需要获得可靠的结果，则需要增加每个语音信号的时长，进而导致处理语音的实时性较差。

在本发明的一个实施例中，为了提高跟踪说话人的准确性和处理语音的实时性，采用状态机处理麦克风阵列采集的语音信号。状态机由状态寄存器和组合逻辑电路构成，能够根据控制信号按照预先设定的状态进行状态转移，是协调相关信号动作、完成特定操作的控制中心。可以理解的是，采用状态机控制实现本发明实施例中的技术方案。

在本发明的一个实施例中，状态机可以包括以下五种状态：模糊态、确定态、临界态、稳定态和延时态。

模糊态，无法判断语音信号的声纹特征是否与说话人注册表中的声纹相同，则进入模糊态。

确定态，可以判断语音信号的声纹特征是否与说话人注册表中的声纹相同，且说话人注册表所存储的说话人声纹特征未满，则进入确定态。

临界态，语音信号的位置信息与上一次语音信号的位置信息不同，则进入临界态。

稳定态，可以判断语音信号的声纹特征是否与说话人注册表中的声纹相同，且说话人注册表所存储的说话人声纹特征已满，则进入稳定态。

延时态，语音信号的位置信息与上一次语音信号的位置信息的相似度小于最大相似阈值且大于最小相似阈值，则进入延时态。

其中，模糊态、确定态、临界态、稳定态和延时态之间是可以相互转换的。需要说明的是，说话人注册表所存储的说话人声纹特征的数目是有限的。也就是说，会出现说话人注册表所存储的说话人声纹特征已满，或，说话人注册表所存储的说话人声纹特征未满。

由于在说话人注册表新增说话人需要添加说话人的声纹特征，在说话人注册表所存储的说话人的声纹特征已满的情况下，则无法新增说话人，但可以更新说话人的声纹和/或说话人的位置信息。

在说话人注册表所存储的说话人的声纹特征未满的情况下，则可以更新说话人的声纹和/或说话人的位置信息，以及新增说话人的声纹特征。

参见图5，图5是本发明实施例中五种状态的关系示意图。下面以语音块为例，详细说明五种状态之间的关系。

在语音从一个方向切换到另一个方向的情况下，进入临界态。当满足一定的条件，可以从临界态分别切换至模糊态、确定态或稳定态。在模糊态、确定态或稳定态下，还可以切换至延时态。从延时态还可以切换至临界态。

在本发明的一个实施例中，一个语音块的时长为500ms，可以将4个语音块作为一组语音信号。也就是说，一组语音数据的时长是2秒(s)。语音块的位置信息可以是DOA。可以在每个语音块上标记其所在的DOA。这样，一组语音数据中就会有4个DOA。

一组语音数据的位置信息与上一组语音数据的位置信息不同，则说明语音从一个方向切换到另一个方向，则此时状态机为临界态。

作为一个示例，一组语音数据中包括四个语音块，每个语音块均标记有DOA。那么，当一组语音数据的4个DOA与上一组语音数据中4个DOA并不完全相同，则说明语音从一个方向切换到另一个方向。其中，设置最大相似阈值75％，也就是说，一组语音数据的4个DOA中的3个DOA与上一组语音数据中4个DOA中的3个DOA相同。设置最小相似阈值25％，也就是说，一组语音数据的4个DOA中的1个DOA与上一组语音数据中4个DOA中的1个DOA相同。

在临界态，首先缓存语音数据。然后，可以根据说话人的声纹特征的注册时间，整合说话人注册表中的声纹特征。

作为一个示例，整合说话人注册表中的声纹特征包括删除注册时间较短的声纹，以尽量减少新增声纹特征对说话人注册表的影响。如：删除说话人注册表的声纹特征的注册时间小于4s的声纹特征。

作为另一个示例，整合说话人注册表中的声纹特征包括合并重复的声纹特征。如：对于注册时间大于15s的声纹特征，相互比较后声学特征的相似度较高，则说明声学特征的相似度较高的两个声纹特征是同一个声纹特征的可能性比较大，则合并声学特征的相似度较高的两个声纹特征。

在说话人注册表所存储的说话人的声纹特征未满，且语音数据的DOA与上一次语音数据的DOA的相似度大于或等于最大相似阈值，则进入模糊态。其中，相似度可以等于相同的语音块的比值。

状态机为模糊态，则缓存多组语音数据，作为一个示例，缓存至多7组语音数据。然后，基于缓存的语音数据与说话人注册表所存储的说话人的声纹特征匹配。缓存的语音数据越多，匹配结果的正确性越高。

在模糊态中，采集语音数据的DOA与上一次语音数据的DOA的相似度小于最大相似阈值且大于最小相似阈值，则说明两次语音数据的相似度降低，则将状态机切换至延时态。

基于缓存的语音数据与说话人注册表所存储的说话人的声纹特征进的匹配，得到确定的结果，则状态机进入确定态。

在确定态，需要清空缓存保证处理语音的实时性。采集语音数据的DOA与上一次语音数据的DOA的相似度小于最大相似阈值且大于最小相似阈值，则说明两次语音数据的相似度降低，则将状态机切换至延时态。

在说话人注册表所存储的说话人的声纹特征已满，且语音数据的DOA与上一次语音数据的DOA的相似度大于或等于最大相似阈值，则进入稳定态。

在稳定态，可以缓存语音数据，基于缓存的语音数据与说话人注册表所存储的说话人的声纹特征进的匹配，得到确定的结果。

由于在说话人注册表新增说话人需要添加说话人的声纹特征，在说话人注册表所存储的说话人的声纹特征已满的情况下，则无法新增说话人的声纹特征，但可以更新说话人的声纹和/或说话人的位置信息。

因此，在稳定态下无法在说话人注册表中新增说话人的声纹特征，但可以更新说话人的声纹和/或说话人的位置信息。

采集语音数据的DOA与上一次语音数据的DOA的相似度小于最大相似阈值且大于最小相似阈值，则说明两次语音数据的相似度降低，则将状态机切换至延时态。

模糊态、确定态和稳定态的情况下，在语音数据的相似度小于最大相似阈值且大于最小相似阈值的情况下，均可以切换至延时态。

那么，在延时态下持续多次，则由延时态切换至临界态。作为一个示例，若连续满足两次，相邻连词语音数据的相似度小于最大相似阈值且大于最小相似阈值，则由延时态切换至临界态。

在本发明实施例中，利用状态机可以控制说话人注册表的更新。进而提高了跟踪说话人的准确性和实时性。

通过上述的说明，本发明实施例的技术方案可以总结为下述内容。

参见图6，图6是本发明实施例中语音处理的方法流程示意图，具体包括：

S601、基于说话人的声纹特征在说话人注册表中，查询到说话人的标识，说话人的声纹特征是根据麦克风阵列采集说话人的语音信号获得的参数。

麦克风阵列采集语音信号，可以获得语音信号的位置信息。基于采集的语音信号可以提取声纹特征。

说话人注册表中存储有说话人的标识、说话人的位置信息和说话人的声纹特征的对应关系。

语音信号的声纹特征与说话人注册表中说话人的声纹特征一一比对。

若语音信号的声纹特征与说话人注册表中说话人的声纹特征的相似度大于相似阈值，则可以认为语音信号的声纹特征已存在于说话人注册表中。

若语音信号的声纹特征与说话人注册表中说话人的声纹特征的相似度小于或等于相似阈值，则可以认为语音信号的声纹特征未存在于说话人注册表中。

S602、在说话人注册表中说话人的标识对应的位置信息与说话人的位置信息不同，更新说话人注册表，说话人的位置信息是根据麦克风阵列采集说话人的语音信号获得的参数。

判断说话人的位置信息是否与说话人注册表中语音信号的声纹特征对应的位置信息相同，若相同则说明说话人的位置未移动；若不相同则说明说话人的位置已移动。

在说话人位置移动的情况下，则需要更新说话人注册表。

S603、在说话人的语音信号中标注说话人的标识，以跟踪说话人。

在说话人的语音信号中标注说话人的标识，以实现对说话人的跟踪。

在上述实施例中，根据说话人的声纹特征在说话人注册表中，查询到说话人的标识。然后，确定说话人的标识对应的位置信息与说话人的位置信息不同，则说话人发生移动，更新说话人注册表。最后，在说话人的语音信号中标注说话人的标识，以跟踪说话人。这样，说话人位置发生变化，可以在语音信号中标注说话人的标识。即使说话方向发生改变，由于每个语音信号均标注有说话人的标识，也可以实现对多人语音的跟踪。

在本发明的一个实施例中，说话人注册表中声纹特征和语音信号的声纹特征相同，说话人注册表中语音信号的位置信息和语音信号的位置信息相同，则说明同一个说话人的位置未发生变化。那么，在上述情况下，说话人注册表则无需更新，在说话人的语音信号中标注说话人的标识，以跟踪说话人。

需要注意的是，在查询说话人注册表时，需要首先在说话人注册表中查询到语音信号的声纹特征，确定语音信号的声纹特征对应的说话人的标识。然后，在说话人注册表中说话人的标识对应的位置信息与语音信号的位置信息相同，则将说话人的标识作为语音信号的位置信息对应的说话人的标识。

也就是说，并非仅可以基于语音信号的声纹特征或语音信号的位置信息就可以按照说话人注册表中的对应关系直接获知说话人的标识。这样是因为，不确定说话人是否发生移动。那么，需要先确定语音信号的声纹特征是否存在于说话人注册表中。然后，根据语音信号的声纹特征确定说话人的标识。最后进一步判断说话人是否发生移动。可见，上述的判断过程的先后顺序提高了判断说话人是否移动的准确性。

在本发明的一个实施例中，在说话人注册表中未查询到语音信号的声纹特征，则说明说话人是未注册用户即新用户。那么，对于新用户则需要在说话人注册表中注册。

具体来说，将语音信号的声纹特征、语音信号的位置信息和语音信号的声纹特征对应的说话人的标识增加到说话人注册表。其中，说话人的标识可以是区别于其他用户的标识。

对于新用户而言，即将新增到说话人注册表中说话人的标识，作为位置信息对应的说话人的标识。

这样，对于新用户也可以通过在语音信号中标注说话人的标识，实现对说话人的跟踪。

在本发明的一个实施例中，在说话人注册表中查询到语音信号的声纹特征，则说明说话人是已注册用户即老用户。

在说话人注册表中语音信号的声纹特征，是老用户在之前注册或更新说话人注册表时的声纹特征。在说话人注册表中查询到声纹特征的注册时间早于预设时间阈值，则说明说话人注册表中的声纹特征并非说话人近期的声纹特征，为了提高识别声纹，语音信号的声纹特征是该用户的最新的声纹特征，可以利用语音信号的声纹特征更新说话人注册表中该用户的声纹特征。

在本发明的一个实施例中，在说话人注册表中，不能确定是否查询到语音信号的声纹特征。那么，对于上述不能确定的情况，则可以缓存语音信号。缓存多次语音信号后，多次语音信号的长度远大于一次语音信号的长度，基于多次语音信号，再次判断是否在说话人注册表中查询到语音信号的声纹特征。这样，能够提高识别声纹特征的准确性。

在本发明的一个实施例中，说话人注册表中存储有较多的声纹特征，受存储空间所限，说话人注册表中能够存储声纹特征的数目是有限的。因此，需要整合说话人注册表中的声纹特征。

在一组语音信号发生改变的情况下，可以整合说话人注册表中的声纹特征。需要说明的是，一组语音信号中包括一个或多个语音信号。这样，两段语音信号的位置信息相比较，就可以以相似度衡量两段语音信号的位置信息的相似性。作为一个示例，一组语音信号包括四个语音信号。当两段语音信号中有3个位置信息相同的语音信号，则两段语音信号的相似度为75％。

作为一个示例，本次一组语音信号的位置信息与上一次一组语音信号的位置信息不同，则可以根据说话人注册表中的声纹特征的注册时间，整合说话人注册表中的声纹特征。

在本发明的一个实施例中，在一组语音信号的方向发生改变不大的情况下，也就是说，本次一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度大于或等于最大相似阈值，而且同时满足说话人注册表所存储的说话人声纹特征未满，则说明新用户可以注册和/或老用户可能发生移动。

在本发明的一个实施例中，在一组语音信号的方向改变不大的情况下，也就是说，本次一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度大于或等于最大相似阈值，而且同时满足说话人注册表所存储的说话人声纹特征已满，则说明新用户无法注册和/或老用户可能发生移动。

在本发明的一个实施例中，在一组语音信号的方向发生较大改变的情况下，也就是说，本次一组语音信号的位置信息与上一次一段音信号的位置信息的相似度小于最大相似阈值且大于最小相似阈值，造成语音信号的方向发生较大改变的原因可能是语音停顿或误检，那么可以整合说话人注册表中的声纹特征。

参见图7，图7是本发明实施例中语音处理的装置结构示意图，语音处理的装置与语音处理的方法相对应，语音处理的装置具体包括：

查询模块701，用于基于说话人的声纹特征在说话人注册表中，查询到说话人的标识，说话人的声纹特征是根据麦克风阵列采集说话人的语音信号获得的参数。

更新模块702，用于在说话人注册表中说话人的标识对应的位置信息与说话人的位置信息不同，更新说话人注册表，说话人的位置信息是根据麦克风阵列采集说话人的语音信号获得的参数。

标注模块703，用于在说话人的语音信号中标注说话人的标识，以跟踪说话人。

在本发明的一个实施例中，更新模块702，还用于确定在说话人注册表中说话人的标识对应的位置信息与说话人的位置信息相同。

在本发明的一个实施例中，查询模块701，还用于确定基于说话人的声纹特征在说话人注册表中，未查询到说话人的标识。

更新模块702，还用于将说话人的声纹特征、说话人的位置信息和说话人的标识增加到说话人注册表中，以跟踪所述说话人。

在本发明的一个实施例中，更新模块702，还用于确定基于说话人的声纹特征在说话人注册表查询到声纹特征的注册时间早于预设时间阈值，则利,说话人的声纹特征更新说话人注册表。

在本发明的一个实施例中，查询模块701，还用于在说话人注册表中不确定是否查询到说话人的声纹特征，缓存语音信号。

在本发明的一个实施例中，更新模块702，还用于确定一组语音信号的位置信息与上一次一组语音信号的位置信息不同，则根据说话人注册表中的声纹特征的注册时间，整合说话人注册表中的声纹特征，一组语音信号包括一个或多个语音信号。

在本发明的一个实施例中，更新模块702，还用于确定一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度大于或等于最大相似阈值，且说话人注册表所存储的说话人声纹特征未满。

在本发明的一个实施例中，更新模块702，还用于确定一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度大于或等于最大相似阈值，且说话人注册表所存储的说话人的声纹特征已满。

在本发明的一个实施例中，更新模块702，具体用于确定一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度小于最大相似阈值且大于最小相似阈值。

图8是示出能够实现根据本发明实施例语音处理的方法、装置和系统的计算设备的示例性硬件架构的结构图。

如图8所示，计算设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、以及输出设备806。其中，输入接口802、中央处理器803、存储器804、以及输出接口805通过总线810相互连接，输入设备801和输出设备806分别通过输入接口802和输出接口805与总线810连接，进而与计算设备800的其他组件连接。

具体地，输入设备801接收来自外部的输入信息，并通过输入接口802将输入信息传送到中央处理器803；中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器804中，然后通过输出接口805将输出信息传送到输出设备806；输出设备806将输出信息输出到计算设备800的外部供用户使用。

也就是说，图8所示的计算设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图1至图7描述的语音处理的方法和装置。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使对应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音处理的方法，包括：

2.根据权利要求1所述语音处理的方法，其中，所述基于说话人的声纹特征在说话人注册表中，查询到所述说话人的标识之后，还包括：

3.根据权利要求1所述语音处理的方法，其中，还包括：

4.根据权利要求1所述语音处理的方法，其中，所述基于说话人的声纹特征在说话人注册表中，查询到所述说话人的标识之后，还包括：

5.根据权利要求1所述语音处理的方法，其中，还包括：

6.根据权利要求1所述语音处理的方法，其中，还包括：

7.根据权利要求1至3任一所述语音处理的方法，其中，所述基于说话人的声纹特征在说话人注册表中，查询到所述说话人的标识之前，还包括：

8.根据权利要求1或2所述语音处理的方法，其中，所述基于说话人的声纹特征在说话人注册表中，查询到所述说话人的标识之前，还包括：

9.根据权利要求6所述语音处理的方法，其中，所述一组语音信号的位置信息与上一次一组语音信号的位置信息不同，包括：

10.一种语音处理系统，所述语音处理系统包括：声学传感器和语音处理设备，所述声学传感器与所述语音处理设备耦合；

所述声学传感器，用于采集说话人的语音信号；

11.根据权利要求10所述语音处理系统，其中，所述语音处理设备，还用于确定在所述说话人注册表中所述说话人的标识对应的位置信息与所述说话人的位置信息相同；

12.根据权利要求10所述语音处理系统，其中，所述语音处理设备，还用于确定基于说话人的声纹特征在所述说话人注册表中，未查询到所述说话人的标识；

13.根据权利要求10所述语音处理系统，其中，所述语音处理设备，还用于确定基于说话人的声纹特征在说话人注册表查询到声纹特征的注册时间早于预设时间阈值，则利用所述说话人的声纹特征更新所述说话人注册表。

14.根据权利要求10所述语音处理系统，其中，所述语音处理设备，用于确定在所述说话人注册表中不确定是否查询到所述说话人的声纹特征，缓存所述语音信号。

15.根据权利要求10所述语音处理系统，其中，所述语音处理设备，用于确定一组语音信号的位置信息与上一次一组语音信号的位置信息不同，则根据所述说话人注册表中的声纹特征的注册时间，整合所述说话人注册表中的声纹特征，所述一组语音信号包括一个或多个所述语音信号。

16.根据权利要求10至12任一所述语音处理系统，其中，所述语音处理设备，用于确定一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度大于或等于最大相似阈值，且所述说话人注册表所存储的说话人声纹特征未满。

17.根据权利要求10或11所述语音处理系统，其中，所述语音处理设备，用于确定一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度大于或等于最大相似阈值，且所述说话人注册表所存储的说话人的声纹特征已满。

18.根据权利要求14所述语音处理系统，其中，所述语音处理设备，具体用于确定所述一组语音信号的位置信息与上一次一组语音信号的位置信息的相似度小于最大相似阈值且大于最小相似阈值。

19.一种语音处理的装置，包括：

20.一种语音处理的设备，

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行如权利要求1-9任一所述语音处理的方法。

21.一种计算机可读存储介质，其上存储有计算机程序指令，当所述计算机程序指令被处理器执行时实现如权利要求1-9中任一项所述语音处理的方法。