CN108305615A

CN108305615A - 一种对象识别方法及其设备、存储介质、终端

Info

Publication number: CN108305615A
Application number: CN201710992605.7A
Authority: CN
Inventors: 张明远
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2018-07-20
Anticipated expiration: 2037-10-23
Also published as: KR20200012963A; EP3614377B1; US11289072B2; CN108305615B; KR102339594B1; EP3614377A1; US20200058293A1; EP3614377A4; WO2019080639A1; JP2021500616A; JP6938784B2

Abstract

本发明实施例公开一种对象识别方法及其设备、存储介质、终端，其中方法包括如下步骤：获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息；基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；获取所述声纹特征信息对应的声音置信度；基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。采用本发明，通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，可以增加获取到的对象识别结果的准确性。

Description

一种对象识别方法及其设备、存储介质、终端

技术领域

本发明涉及计算机技术领域，尤其涉及一种对象识别方法及其设备、存储介质、终端。

背景技术

随着科技的不断发展，声纹识别作为一种生物识别技术已经发展的越来越成熟，通过声纹识别可以从多个话说人中辨别出某一说话人也可以通过识别某一语音的声纹特征确定该语音对应的说话人身份，例如，语音识别系统中的笔录系统可以通过声纹区分出在某一场景中的所有说话人(例如，通过笔录系统中的声纹识别技术区分出庭审这一场景中的法官和犯人)。现有技术中，主要是通过匹配声学模型的声纹特征(例如，语调、方言、节奏以及鼻音等)进行声纹识别，然而，当存在相似度较高的声纹特征时，容易出现声纹匹配结果差别较小，难以根据声纹匹配结果区分出说话人的情况，从而影响声纹识别结果的准确性。

发明内容

本发明实施例提供一种对象识别方法及其设备、存储介质、终端，通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，可以增加获取到的对象识别结果的准确性。

本发明实施例第一方面提供了一种对象识别方法，可包括：

获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息；

基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；

获取所述声纹特征信息对应的声音置信度；

基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。

在一种可能的设计中，所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息，包括：

基于麦克风阵列获取当前语音环境中语音信息集合，并对所述语音信息集合进行筛选处理，获取经所述筛选处理后的所述目标对象的语音信息；

获取所述麦克风阵列在采集所述语音信息集合时的相位信息，基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。

在一种可能的设计中，所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息之前，还包括：

获取声纹训练语音集合，基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。

在一种可能的设计中，所述获取所述声纹特征信息对应的声音置信度，包括：

将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值；

根据所述匹配度值确定所述声纹特征信息对应的声音置信度。

在一种可能的设计中，所述基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果，包括：

基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果。

在一种可能的设计中，所述基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果，包括：

当所述声音置信度大于或等于第一置信度阈值时，将所述声纹特征信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

当所述声音置信度小于第二置信度阈值时，将所述述方位信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果。

在一种可能的设计中，所述当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果，包括：

当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息；

根据所述声纹特征信息获取所述目标对象的候选识别结果；

采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果。

本发明实施例第二方面提供了一种对象识别设备，可包括：

对象信息获取模块，用于获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息；

特征信息获取模块，用于基于训练后的声纹特征提取模型对所述语音信息进行声纹特征提取，获取经所述声纹匹配后所述语音信息对应的声纹特征信息；

置信度获取模块，用于获取所述声纹特征信息对应的声音置信度；

结果获取模块，用于基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。

在一种可能的设计中，所述对象信息获取模块包括：

信息获取单元，用于基于麦克风阵列获取当前语音环境中语音信息集合，并对所述语音信息集合进行筛选处理，获取经所述筛选处理后的所述目标对象的语音信息；

信息确定单元，用于获取所述麦克风阵列在采集所述语音信息集合时的相位信息，基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。

在一种可能的设计中，还包括：

模型生成模块，用于获取声纹训练语音集合，基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。

在一种可能的设计中，所述置信度获取模块包括：

匹配度值获取单元，用于将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值；

置信度确定单元，用于根据所述匹配度值确定所述声纹特征信息对应的声音置信度。

在一种可能的设计中，所述结果获取模块具体用于，

在一种可能的设计中，所述结果获取模块包括：

第一结果获取单元，用于当所述声音置信度大于或等于第一置信度阈值时，将所述声纹特征信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

第二结果获取单元，用于当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

第三结果获取单元，用于当所述声音置信度小于第二置信度阈值时，将所述述方位信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果。

在一种可能的设计中，所述第二结果获取单元包括：

信息确定子单元，用于当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息；

候选结果获取子单元，用于根据所述声纹特征信息获取所述目标对象的候选识别结果；

结果获取子单元，用于采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果。

本发明实施例第三方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行以下步骤：

获取所述声纹特征信息对应的声音置信度；

本发明实施例第四方面提供了一种终端，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

获取所述声纹特征信息对应的声音置信度；

在本发明实施例中，通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息，然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息，最后获取声纹特征信息对应的声音置信度，基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，增加了获取到的对象识别结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种对象识别设备的硬件架构示意图；

图2是本发明实施例提供的一种对象识别设备的系统框图；

图3是本发明实施例提供的一种对象识别方法的流程示意图；

图4是本发明实施例提供的另一种对象识别方法的流程示意图；

图5是本发明实施例提供的基于波束形成方式的语音分离显示示意图；

图6是本发明实施例提供的另一种对象识别方法的流程示意图；

图7是本发明实施例提供的另一种对象识别方法的流程示意图；

图8是本发明实施例提供的另一种对象识别方法的流程示意图；

图9是本发明实施例提供的一种对象识别设备的结构示意图；

图10是本发明实施例提供的另一种对象识别设备的结构示意图；

图11是本发明实施例提供的对象信息获取模块的结构示意图；

图12是本发明实施例提供的置信度获取模块的结构示意图；

图13是本发明实施例提供的结果获取模块的结构示意图；

图14是本发明实施例提供的第二结果获取单元的结构示意图；

图15是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的对象识别方法可以应用于在多声源环境中对声源对象进行声纹识别，辨别出目标对象的场景中，例如：对象识别设备通过获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息，然后基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；最后获取所述声纹特征信息对应的声音置信度，基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，增加了获取到的对象识别结果的准确性。

本发明实施例涉及的对象识别设备可以是平板电脑、智能手机、掌上电脑以及移动互联网设备(MID)等其他可以集成麦克风阵列或可以接收麦克风阵列发送的声源方位信息且具备声纹识别功能的终端设备。所述对象识别设备的硬件架构可以如图1所示，其中，音频处理器用于降噪以及定位方向，系统处理器用于连接云端并进行声纹特征分析，存储系统用于存储对象识别的应用程序。所述对象识别设备的系统框图可以如图2所示，其中，麦克风阵列可以识别不同方位的声源对应的语音信息，并对不同的声源进行角度定位。

下面将结合附图3-附图8，对本发明实施例提供的对象识别方法进行详细介绍。

请参见图3，为本发明实施例提供了一种对象识别方法的流程示意图。如图3所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S103。

S101，获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息；

具体的，对象识别设备可以基于麦克风阵列获取当前语音环境中目标对象的语音信息，并基于所述麦克风阵列获取所述目标对象的方位信息。可以理解的是，所述目标对象可以是当前语音环境中的有效声源对象(例如，庭审案件时的法官、律师、被告以及原告)，需要说明的是，所述对象识别设备在当前语音环境中所获取的语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如，庭审案件时庭下听众的语音信息或者其他物体发出的噪音等)，所述对象识别设备获取到当前语音环境中的语音信息集合后，可以对所述语音信息结合进行筛选处理，获取目标对象的语音信息。

在本发明实施例中，所述麦克风阵列可以通过多个麦克风获取从不同方位采集的同一个目标对象的语音信息，由于多个麦克风处于所述麦克风阵列中的不同位置，因此每个麦克风可以依据声音的大小获取该目标对象的相位信息，根据所获得的相位信息通过波束形成的方式计算出该目标对象的方位信息(即确定该目标对象在当前语音环境中的位置信息)。

S102，基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；

具体的，对象识别设备可以基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，可以理解的是，所述声纹匹配模型可以是对预先采集的声纹训练语音集合中的各声纹训练语音和所述声纹训练语音对应的样本特征信息采用某种训练算法(例如，神经网络方法、隐马尔可夫方法或者VQ聚类方法等)进行训练后建立的模型，可以理解的是，所述声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象并不限定特定的目标对象，所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。

进一步的，所述对象识别设备可以获取经所述声纹特征提取后所述语音信息对应的声纹特征信息，可以理解的是，所述声纹特征信息可以是所述目标对象的语音信息中的区别特征信息，例如，可以是频谱、倒频谱、共振峰、基音、反射系数等信息。

S103，获取所述声纹特征信息对应的声音置信度；

具体的，所述对象识别设备可以获取所述声纹特征信息对应的声音置信度，可以理解的是，所述声音置信度可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度，例如，当所述声音置信度为90％时，可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90％。

在可选实施例中，所述对象识别设备可以将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值，然后根据所述匹配度值确定所述声纹特征信息对应的声音置信度。例如，所述声纹特征信息与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后，检测到声纹训练语音A的样本特征信息与所述声纹特征信息的匹配度最高，且最高值为90％，则所述对象识别设备可以确定所述声纹特征信息对应的声音置信度为90％。

S104，基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果；

可以理解的是，所述对象识别设备可以采用所述声纹特征信息生成对所述目标对象的对象识别结果，所述对象识别结果可以指示所述目标对象的语音信息所属的所述目标对象，例如，当前语音环境中存在至少两个目标对象，所述对象识别设备可以通过所述至少两个目标对象的声纹特征信息将所述至少两个目标对象的语音信息进行归类(例如，将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告等)。

在本发明实施例中，当所述声纹特征信息中存在两个相似的声纹特征时，所述对象识别设备不能准确地通过对上述两个相似的声纹特征得出所述目标对象的对象识别结果。

对于上述情况，所述对象识别设备可以基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果，具体的，所述对象识别设备可以基于所述声音置信度和预设声音置信度阈值的关系，确定用于识别所述目标对象的对象识别结果的对象识别信息，再根据所述对象识别信息获取所述对象识别结果，可以理解的是，所述对象识别信息可以是所述方位信息也可以是所述声纹特征信息。

在本发明的具体实现方式中，所述对象识别设备可以在所述声音置信度大于或等于第一置信度阈值时，将所述声纹特征信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果(即采用所述声纹特征信息辨别所述目标对象，而所述方位信息不参与识别仅用作声源定位)；在所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果(即采用是声纹特征信息进行声纹辨别所述目标对象，同时采用所述方位信息定位的声源方向进一步识别所述目标对象)；在所述声音置信度小于第二置信度阈值时，将所述述方位信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果(即仅采用所述方位信息声源定位后的定位方向辨别所述目标对象)。

需要说明的是，由于声纹识别可以是对多个说话人进行辨别也可以是对某一说话人进行身份确认，对于涉及说话人辨别的执行过程请参见下述图4所示实施例，对于涉及说话人身份确认的执行过程请参见下述图8所示实施例。

请参见图4，为本发明实施例提供了另一种对象识别方法的流程示意图。如图4所示，本发明实施例的所述方法可以包括以下步骤S201-步骤S207。

S201，获取声纹训练语音集合，基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型；

可以理解的是，在进行声纹识别之前对象识别设备可以获取声纹训练语音集合，并基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型，可以理解的是，所述对象识别设备可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练，所述声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象并不限定特定的目标对象，所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。

S202，基于麦克风阵列获取当前语音环境中语音信息集合，并对所述语音信息集合进行筛选处理，获取经所述筛选处理后的所述目标对象的语音信息；

具体的，所述对象识别设备可以基于麦克风阵列获取当前语音环境中语音信息集合，可以理解的是，所述语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如，庭审案件时庭下听众的语音信息或者其他物体发出的噪音等)，其中所述目标对象可以是当前语音环境中的有效声源对象(例如，庭审案件时的法官、律师、被告以及原告)。

可以理解的是，由于所述语音信息集合中的语音信息并不全是所述目标对象的语音信息，所述对象识别设备可以对所述语音信息集合进行筛选处理，获取经所述筛选处理后的所述目标对象的语音信息，所述筛选处理可以是通过降噪处理滤除噪音、去除回音或者根据待处理的目标对象的语音信息的特征(声音响度、音色或其他特征信息)滤除非目标对象的语音也可以是其他的语音过滤处理。

S203，获取所述麦克风阵列在采集所述语音信息集合时的相位信息，基于所述相位信息所指示的语音方位确定所述目标对象的方位信息；

可以理解的是，所述麦克风阵列在采集所述语音信息集合的同时可以获取到所述语音信息集合中各语音信息对应的相位信息。具体的，所述对象识别设备可以获取所述相位信息，并可以基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。可以理解的是，所述相位信息中的相位可以指示所述语音信息的语音波形在某一时刻的标度，可以描述语音信号波形变化的度量，通常以度(角度)作为单位，也称作相角。

在可选实施例中，所述麦克风阵列可以通过多个麦克风获取从不同方位采集的同一个目标对象的语音信息，由于多个麦克风处于所述麦克风阵列中的不同位置，因此每个麦克风可以依据声音的大小获取该目标对象的相位信息，根据所获得的相位信息通过波束形成的方式计算出该目标对象的方位信息(即确定该目标对象在当前语音环境中的位置信息)，其中，所述波束形成的方式如图5所示，可以是通过向不同方向的声源分别形成拾音波束，并且抑制其他方向的声音，来进行语音提取或分离。

S204，基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；

具体的，所述对象识别设备可以基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息，可以理解的是，所述声纹特征信息可以是所述目标对象的语音信息中的区别特征信息，例如，可以是频谱、倒频谱、共振峰、基音、反射系数等信息。

S205，将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值；

具体的，所述对象识别设备可以将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值，可以理解的是，不同人的声纹特征是不一样的，即使是同一个人的声纹特征也会随说话人自身的身体状况或所处的环境而不同，因此，在将所述声纹特征信息的声纹特征与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配时，所得到的匹配度值也会有大有小，但可以通过比较所有匹配度值从中获取特征匹配度最高时的匹配度值。

S206，根据所述匹配度值确定所述声纹特征信息对应的声音置信度；

具体的，所述对象识别设备可以根据所述匹配度值确定所述声纹特征信息对应的声音置信度，可以理解的是，所述声音置信度可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度，例如，当所述声音置信度为90％时，可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90％。

在可选实施例中，所述对象识别设备可以直接将所述匹配度值确定所述声纹特征信息对应的声音置信度，例如，所述声纹特征信息与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后，检测到声纹训练语音A的样本特征信息与所述声纹特征信息的匹配度最高，且最高值为90％，则所述对象识别设备可以确定所述声纹特征信息对应的声音置信度为90％。

S207，基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

可以理解的是，所述对象识别设备可以采用所述声纹特征信息生成对所述目标对象的对象识别结果，所述对象识别结果可以指示所述目标对象的语音信息是属于所述目标对象的，例如，当前语音环境中存在至少两个目标对象，所述对象识别设备可以通过所述至少两个目标对象的声纹特征信息将所述至少两个目标对象的语音信息进行归类(例如，将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告等)。

对于上述情况，所述对象识别设备可以基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果。可以理解的是，所述预设声音置信度值可以是根据多次识别过程中的经验所得，可以包括至少两个预设的声音置信度阈值。所述对象识别信息可以用于识别所述目标对象，可以包括所述方位信息或所述声纹特征信息。

在本发明实施例一种具体实现方式中，所述基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果可以包括以下几个步骤，如图6所示：

S301，当所述声音置信度大于或等于第一置信度阈值时，将所述声纹特征信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

具体的，当所述声音置信度大于或等于第一置信度阈值时，可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度较大，所述对象识别设备可以将所述声纹特征信息确定为所采用的对象识别信息，然后采用所述声纹特征信息辨别所述目标对象，此时的所述方位信息不参与识别仅用作声源定位。

在本发明实施例的具体实现方式中，可以将所述第一置信度阈值设为90％、95％或者其他根据实际情况所确定的值。

S302，当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

具体的，当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度处于平均水平，为更准确的识别所述目标对象，所述对象识别设备可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，然后采用声纹特征信息进行声纹识别初步识别所述目标对象，同时采用所述方位信息定位的声源方向进一步识别所述目标对象。

在本发明实施例的具体实现方式中，可以将所述第一置信度阈值设为90％、95％或者其他根据实际情况所确定的值，可以将所述第二置信度阈值设置为50％、55％或者60％等其他根据实际情况所确定的可以代表平均值的数据。

S303，当所述声音置信度小于第二置信度阈值时，将所述述方位信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

具体的，当所述声音置信度小于第二置信度阈值时，可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度较低，采用所述声纹特征信息所识别的所述目标对象的准确率较低，所述对象识别设备可以将所述述方位信息确定为所采用的对象识别信息，然后采用所述方位信息声源定位后的定位方向辨别所述目标对象，实现同一语音环境下的人声分离，可以理解的是，采用所述方位信息作为所述对象识别信息时，在识别的过程中可以存在允许范围内的误差。

在本发明实施例中，通过声音置信度确定用于对象识别的对象识别信息，避免了在对象识别的过程中对非必要信息的识别过程，提高了对象识别的效率。

在本发明实施例一种具体实现方式中，所述当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果可以包括以下几个步骤，如图7所示：

S401，当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息；

可以理解的是，当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度处于平均水平，即根据所述声纹特征信息识别所述目标对象的对象识别结果时，所确定的所述对象识别结果的可信程度一般，此时，所述对象识别设备可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息。

S402，根据所述声纹特征信息获取所述目标对象的候选识别结果；

具体的，所述对象识别设备将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息后，可以根据所述声纹特征信息获取所述目标对象的候选识别结果。可以理解的是，当所述目标对象的声纹特征信息具有明显区别时，所述候选识别结果可以是最终的所述目标对象的对象识别结果，即所述对象识别设备可以将多个语音信息进行准确归类；当所述目标对象中存在至少两个声纹特征信息区别不明显的目标对象时，所述候选识别结果对应的目标对象的语言信息的归类是不准确的，例如，法官A和犯人B的声纹特征信息相似度很大，所述对象识别设备在对二者进行语音信息归类时，可能将法官A的语音信息归类至犯人B的语音信息，或者将犯人B的语音信息归类至法官A的语音信息。

S403，采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果；

具体的，在所述对象识别设备根据所述声纹特征信息初步识别所述目标对象的候选识别结果的同时，所述对象识别设备可以采用所述方位信息定位的声源方向从所述候选识别结果中进一步定位所述目标对象的对象识别结果，即所述对象识别设备可以对所述候选识别结果进行调整并最终确定所述目标对象的对象识别结果。例如，法官A和犯人B的声纹特征信息相似度较大，所述对象识别设备可以根据法官A和犯人B所在的位置，从候选识别结果即归类不准确的语音信息中进一步将二者的语音信息进行准确归类。

在本发明实施例中，通过方位信息和声纹特征信息同时识别目标对象的对象识别结果，进一步增加了所获得的对象识别结果的准确性。

在本发明实施例中，通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息，然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取，获取经声纹特征提取后语音信息对应的声纹特征信息，最后获取声纹特征信息对应的声音置信度，基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用，实现根据方位信息或声纹特征信息获取对象识别结果，增加了获取到的对象识别结果的准确性；通过声音置信度确定用于对象识别的对象识别信息，避免了在对象识别的过程中对非必要信息的识别过程，提高了对象识别的效率；通过方位信息和声纹特征信息同时识别目标对象的对象识别结果，进一步增加了所获得的对象识别结果的准确性。

请参见图8，为本发明实施例提供了另一种对象识别方法的流程示意图。如图8所示，本发明实施例的所述方法可以包括以下步骤S501-步骤S507。

S501，获取包含目标对象的训练语音的声纹训练语音集合，基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型；

可以理解的是，通过声纹识别可以确认一个语言信息对应的说话人的身份信息，与通过声纹识别从多个语言信息中辨别目标说话人的不同之处在于声纹匹配模型的建立过程。

具体的，对象识别设备可以获取包含目标对象的训练语音的声纹训练语音集合，并基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型，可以理解的是，所述对象识别设备可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练，所述声纹训练语音集合中的语音对应的语音采集者与步骤S201中的不同，此时所述声纹训练语音集合中的语音对应的语音采集者必须包含所述目标对象，所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。

S502，基于麦克风阵列获取当前语音环境中语音信息集合，并对所述语音信息集合进行筛选处理，获取经所述筛选处理后的所述目标对象的语音信息；

S503，获取所述麦克风阵列在采集所述语音信息集合时的相位信息，基于所述相位信息所指示的语音方位确定所述目标对象的方位信息；

S504，基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；

S505，将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值；

S506，根据所述匹配度值确定所述声纹特征信息对应的声音置信度。

S507，基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

可以理解的是，所述对象识别设备可以采用所述声纹特征信息生成对所述目标对象的对象识别结果，所述对象识别结果可以指示所述目标对象的语音信息对应的所述目标对象的身份信息，例如，当前语音环境中存在至少两个目标对象，所述对象识别设备可以通过所述至少两个目标对象的声纹特征信息确定所述至少两个目标对象的语音信息对应的目标对象，并确定所述目标对象的身份信息(例如，将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告后可以确定声音A是属于法官的、声音B属于被告、声音C属于原告等。)

对于上述情况，所述对象识别设备可以基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果。

在本发明实施例一种具体实现方式中，所述基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果可以包括以下几个步骤，具体可以参见图6所示的过程：

具体的，当所述声音置信度大于或等于第一置信度阈值时，可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度较大，所述对象识别设备可以将所述声纹特征信息确定为所采用的对象识别信息，然后采用所述声纹特征信息识别所述目标对象的身份信息，此时的所述方位信息不参与身份确认仅用作声源定位。

具体的，当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度处于平均水平，为更准确的识别所述目标对象的身份，所述对象识别设备可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，然后采用是声纹特征信息进行声纹识别，初步确定所述目标对象的身份，同时采用所述方位信息定位的声源方向进一步识别所述目标对象的身份。

具体的，当所述声音置信度小于第二置信度阈值时，可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度较低，采用所述声纹特征信息所识别的所述目标对象身份的准确率较低，所述对象识别设备可以将所述述方位信息确定为所采用的对象识别信息，然后采用所述方位信息声源定位后的定位方向确定所述目标对象的身份，实现同一语音环境下的人声分离，可以理解的是，进采用所述方位信息作为所述对象识别信息时，在识别的过程中可以存在允许范围内的误差。需要说明的是，在此种情况下所述当前语音环境需要是特定的语音环境，例如，目标对象的位置都是确定的环境(例如，庭审中，法官和犯人的位置是确定的)

在本发明实施例一种具体实现方式中，所述当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果可以包括以下几个步骤，具体可以参见图7所示的过程：

具体的，所述对象识别设备将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息后，可以根据所述声纹特征信息获取所述目标对象的候选识别结果。可以理解的是，当所述目标对象的声纹特征信息具有明显区别时，所述候选识别结果可以是最终的所述目标对象的对象识别结果，即所述对象识别设备可以从多个语音信息中明确识别出目标对象的语音信息；当所述目标对象中存在至少两个声纹特征信息区别不明显的目标对象时，所述候选识别结果所指示的目标对象与语音信息之间的对应关系可能是不准确的，例如，法官A和犯人B的声纹特征信息相似度很大，所述对象识别设备在在庭审的多个语音信息中识别法官A的语音信息时，可能将犯人B的语音信息错认为是法官A的，也可能将将法官A的语音信息错认为是犯人B的。

具体的，在所述对象识别设备根据所述声纹特征信息初步识别所述目标对象的候选识别结果的同时，所述对象识别设备可以采用所述方位信息定位的声源方向从所述候选识别结果中进一步定位所述目标对象的对象识别结果，即所述对象识别设备可以对所述候选识别结果进行调整并最终确定所述目标对象的对象识别结果。例如，法官A和犯人B的声纹特征信息相似度较大，候选识别结果指示法官A的语音信息对应犯人B，结合法官A的位置信息所述对象识别设备可以将法官A的语音信息对应法官A。

下面将结合附图9-附图14，对本发明实施例提供的对象识别设备进行详细介绍。需要说明的是，附图9-附图14所示的设备，用于执行本发明图3-图8所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图3-图8所示的实施例。

请参见图9，为本发明实施例提供了一种对象识别设备的结构示意图。如图9所示，本发明实施例的所述对象识别设备1可以包括：对象信息获取模块11、特征信息获取模块12、置信度获取模块13和结果获取模块14。

对象信息获取模块11，用于获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息；

具体实现中，对象信息获取模块11可以基于麦克风阵列获取当前语音环境中目标对象的语音信息，并基于所述麦克风阵列获取所述目标对象的方位信息。可以理解的是，所述目标对象可以是当前语音环境中的有效声源对象(例如，庭审案件时的法官、律师、被告以及原告)，需要说明的是，所述对象信息获取模块11在当前语音环境中所获取的语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如，庭审案件时庭下听众的语音信息或者其他物体发出的噪音等)，所述对象信息获取模块11获取到当前语音环境中的语音信息集合后，可以对所述语音信息结合进行筛选处理，获取目标对象的语音信息。

特征信息获取模块12，用于基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；

具体实现中，特征信息获取模块12可以基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，可以理解的是，所述声纹匹配模型可以是对预先采集的声纹训练语音集合中的各声纹训练语音和所述声纹训练语音对应的样本特征信息采用某种训练算法(例如，神经网络方法、隐马尔可夫方法或者VQ聚类方法等)进行训练后建立的模型，可以理解的是，所述声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象并不限定特定的目标对象，所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。

进一步的，所述特征信息获取模块12可以获取经所述声纹特征提取后所述语音信息对应的声纹特征信息，可以理解的是，所述声纹特征信息可以是所述目标对象的语音信息中的区别特征信息，例如，可以是频谱、倒频谱、共振峰、基音、反射系数等信息。

置信度获取模块13，用于获取所述声纹特征信息对应的声音置信度；

具体实现中，置信度获取模块13可以获取所述声纹特征信息对应的声音置信度，可以理解的是，所述声音置信度可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度，例如，当所述声音置信度为90％时，可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90％。

在可选实施例中，所述置信度获取模块13可以将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值，然后根据所述匹配度值确定所述声纹特征信息对应的声音置信度。例如，所述声纹特征信息与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后，检测到声纹训练语音A的样本特征信息与所述声纹特征信息的匹配度最高，且最高值为90％，则所述对象识别设备可以确定所述声纹特征信息对应的声音置信度为90％。

结果获取模块14，用于采用所述方位信息、所述声纹特征信息以及所述声音置信度获取所述目标对象的对象识别结果；

可以理解的是，所述对象识别设备1可以采用所述声纹特征信息生成对所述目标对象的对象识别结果，所述对象识别结果可以指示所述目标对象的语音信息所属的所述目标对象，例如，当前语音环境中存在至少两个目标对象，所述对象识别设备可以通过所述至少两个目标对象的声纹特征信息将所述至少两个目标对象的语音信息进行归类(例如，将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告等)。

在本发明实施例中，当所述声纹特征信息中存在两个相似的声纹特征时，所述对象识别设备1不能准确地通过对上述两个相似的声纹特征得出所述目标对象的对象识别结果。

对于上述情况，结果获取模块14可以基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果，具体实现中，所述结果获取模块14可以基于所述声音置信度和预设声音置信度阈值的关系，确定用于识别所述目标对象的对象识别结果的对象识别信息，再根据所述对象识别信息获取所述对象识别结果，可以理解的是，所述对象识别信息可以是所述方位信息也可以是所述声纹特征信息。

在本发明的具体实现方式中，所述结果获取模块14可以在所述声音置信度大于或等于第一置信度阈值时，将所述声纹特征信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果(即采用所述声纹特征信息辨别所述目标对象，而所述方位信息不参与识别仅用作声源定位)；在所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果(即采用是声纹特征信息进行声纹辨别所述目标对象，同时采用所述方位信息定位的声源方向进一步识别所述目标对象)；在所述声音置信度小于第二置信度阈值时，将所述述方位信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果(即仅采用所述方位信息声源定位后的定位方向辨别所述目标对象)。

需要说明的是，由于声纹识别可以是对多个说话人进行辨别也可以是对某一说话人进行身份确认，对于涉及说话人辨别的执行过程请参见下述图10所示实施例的第一种实现方式，对于涉及说话人身份确认的执行过程请参见下述图10所示实施例的第二种实现方式。

请参见图10，为本发明实施例提供了另一种对象识别设备的结构示意图。如图10所示，本发明实施例的所述对象识别设备1可以包括：对象信息获取模块11、特征信息获取模块12、置信度获取模块13、结果获取模块14和模型生成模块15，在图10所示实施例的第一种实现方式中：

模型生成模块15，用于获取声纹训练语音集合，基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型；

可以理解的是，在进行声纹识别之前模型生成模块15可以获取声纹训练语音集合，并基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型，可以理解的是，所述模型生成模块15可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练，所述声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象并不限定特定的目标对象，所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。

具体实现中，对象信息获取模块11可以获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息。

请一并参考图11，为本发明实施例提供了对象信息获取模块的结构示意图。如图11所示，所述对象信息获取模块11可以包括：

信息获取单元111，用于基于麦克风阵列获取当前语音环境中语音信息集合，并对所述语音信息集合进行筛选处理，获取经所述筛选处理后的所述目标对象的语音信息；

具体实现中，信息获取单元111可以基于麦克风阵列获取当前语音环境中语音信息集合，可以理解的是，所述语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如，庭审案件时庭下听众的语音信息或者其他物体发出的噪音等)，其中所述目标对象可以是当前语音环境中的有效声源对象(例如，庭审案件时的法官、律师、被告以及原告)。

可以理解的是，由于所述语音信息集合中的语音信息并不全是所述目标对象的语音信息，所述信息获取单元111可以对所述语音信息集合进行筛选处理，获取经所述筛选处理后的所述目标对象的语音信息，所述筛选处理可以是通过降噪处理滤除噪音、去除回音或者根据待处理的目标对象的语音信息的特征(声音响度、音色或其他特征信息)滤除非目标对象的语音也可以是其他的语音过滤处理。

信息确定单元112，用于获取所述麦克风阵列在采集所述语音信息集合时的相位信息，基于所述相位信息所指示的语音方位确定所述目标对象的方位信息

可以理解的是，所述麦克风阵列在采集所述语音信息集合的同时可以获取到所述语音信息集合中各语音信息对应的相位信息。具体实现中，信息确定单元112可以获取所述相位信息，并可以基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。可以理解的是，所述相位信息中的相位可以指示所述语音信息的语音波形在某一时刻的标度，可以描述语音信号波形变化的度量，通常以度(角度)作为单位，也称作相角。

具体实现中，特征信息获取模块12可以基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹匹特征提取所述语音信息对应的声纹特征信息，可以理解的是，所述声纹特征信息可以是所述目标对象的语音信息中的区别特征信息，例如，可以是频谱、倒频谱、共振峰、基音、反射系数等信息。

具体实现中，置信度获取模块13可以获取所述声纹特征信息对应的声音置信度。

请一并参考图12，为本发明实施例提供了置信度获取模块的结构示意图。如图12所示，所述置信度获取模块13可以包括：

匹配度值获取单元131，用于将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值；

具体实现中，匹配度值获取单元131可以将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值，可以理解的是，不同人的声纹特征是不一样的，即使是同一个人的声纹特征也会随说话人自身的身体状况或所处的环境而不同，因此，在将所述声纹特征信息的声纹特征与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配时，所得到的匹配度值也会有大有小，但可以通过比较所有匹配度值从中获取特征匹配度最高时的匹配度值。

置信度确定单元132，用于根据所述匹配度值确定所述声纹特征信息对应的声音置信度；

具体实现中，置信度确定单元132可以根据所述匹配度值确定所述声纹特征信息对应的声音置信度，可以理解的是，所述声音置信度可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度，例如，当所述声音置信度为90％时，可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90％。

在可选实施例中，所述置信度确定单元132可以直接将所述匹配度值确定所述声纹特征信息对应的声音置信度，例如，所述声纹特征信息与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后，检测到声纹训练语音A的样本特征信息与所述声纹特征信息的匹配度最高，且最高值为90％，则所述对象识别设备可以确定所述声纹特征信息对应的声音置信度为90％。

结果获取模块14，具体用于基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

可以理解的是，所述对象识别设备1可以采用所述声纹特征信息生成对所述目标对象的对象识别结果，所述对象识别结果可以指示所述目标对象的语音信息是属于所述目标对象的，例如，当前语音环境中存在至少两个目标对象，所述对象识别设备可以通过所述至少两个目标对象的声纹特征信息将所述至少两个目标对象的语音信息进行归类(例如，将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告等)。

对于上述情况，结果获取模块14可以基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果。可以理解的是，所述预设声音置信度值可以是根据多次识别过程中的经验所得，可以包括至少两个预设的声音置信度阈值。所述对象识别信息可以用于识别所述目标对象，可以包括所述方位信息或所述声纹特征信息。

在本发明实施例一种具体实现方式中，所述结果获取模块14可以包括一下几个单元，如图13所示：

第一结果获取单元141，用于当所述声音置信度大于或等于第一置信度阈值时，将所述声纹特征信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

具体实现中，当所述声音置信度大于或等于第一置信度阈值时，可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度较大，第一结果获取单元141可以将所述声纹特征信息确定为所采用的对象识别信息，然后采用所述声纹特征信息辨别所述目标对象，此时的所述方位信息不参与识别仅用作声源定位。

第二结果获取单元142，用于当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息中确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

具体实现中，当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度处于平均水平，为更准确的识别所述目标对象，第二结果获取单元142可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，然后采用声纹特征信息进行声纹识别初步识别所述目标对象，同时采用所述方位信息定位的声源方向进一步识别所述目标对象。

第三结果获取单元143，用于当所述声音置信度小于第二置信度阈值时，将所述述方位信息确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

具体实现中，当所述声音置信度小于第二置信度阈值时，可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度较低，采用所述声纹特征信息所识别的所述目标对象的准确率较低，第三结果获取单元143可以将所述述方位信息确定为所采用的对象识别信息，然后采用所述方位信息声源定位后的定位方向辨别所述目标对象，实现同一语音环境下的人声分离，可以理解的是，进采用所述方位信息作为所述对象识别信息时，在识别的过程中可以存在允许范围内的误差。

在本发明实施例一种具体实现方式中，所述第二结果获取单元142可以包括一下几个子单元，如图14所示：

信息确定子单元1421，用于当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息；

可以理解的是，当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度处于平均水平，即根据所述声纹特征信息识别所述目标对象的对象识别结果时，所确定的所述对象识别结果的可信程度一般，此时，信息确定子单元1421可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息。

候选结果获取子单元1422，用于根据所述声纹特征信息获取所述目标对象的候选识别结果；

具体实现中，所述信息确定子单元1421将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息后，候选结果获取子单元1422可以根据所述声纹特征信息获取所述目标对象的候选识别结果。可以理解的是，当所述目标对象的声纹特征信息具有明显区别时，所述候选识别结果可以是最终的所述目标对象的对象识别结果，即所述对象识别设备可以将多个语音信息进行准确归类；当所述目标对象中存在至少两个声纹特征信息区别不明显的目标对象时，所述候选识别结果对应的目标对象的语言信息的归类是不准确的，例如，法官A和犯人B的声纹特征信息相似度很大，所述对象识别设备在对二者进行语音信息归类时，可能将法官A的语音信息归类至犯人B的语音信息，或者将犯人B的语音信息归类至法官A的语音信息。

结果获取子单元1423，用于采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果；

具体实现中，在所述候选结果获取子单元1422根据所述声纹特征信息初步识别所述目标对象的候选识别结果的同时，结果获取子单元1423可以采用所述方位信息定位的声源方向从所述候选识别结果中进一步定位所述目标对象的对象识别结果，即所述结果获取子单元1423可以对所述候选识别结果进行调整并最终确定所述目标对象的对象识别结果。例如，法官A和犯人B的声纹特征信息相似度较大，所述对象识别设备可以根据法官A和犯人B所在的位置，从候选识别结果即归类不准确的语音信息中进一步将二者的语音信息进行准确归类。

在图10所示实施例的第二种实现方式中：

模型生成模块15，具体用于获取包含目标对象的训练语音的声纹训练语音集合，基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型；

具体实现中，模型生成模块15可以获取包含目标对象的训练语音的声纹训练语音集合，基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型，可以理解的是，所述模型生成模块15可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练，所述声纹训练语音集合中的语音对应的语音采集者与图8所示实施例的第一种实现方式中模型生成模块15中的不同，此时所述声纹训练语音集合中的语音对应的语音采集者必须包含所述目标对象，所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。

具体实现中，信息获取单元111获取所述目标对象的语音信息的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

信息确定单元112，用于获取所述麦克风阵列在采集所述语音信息集合时的相位信息，基于所述相位信息所指示的语音方位确定所述目标对象的方位信息；

具体实现中，信息确定单元112获取所述目标对象的方位信息的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

具体实现中，特征信息获取模块12获取所述声纹特征信息的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

具体实现中，匹配度值获取单元131获取所述匹配度值的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

具体实现中，置信度确定单元132确定所述声音置信度的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

可以理解的是，所述对象识别设备1可以采用所述声纹特征信息生成对所述目标对象的对象识别结果，所述对象识别结果可以指示所述目标对象的语音信息对应的所述目标对象的身份信息，例如，当前语音环境中存在至少两个目标对象，所述对象识别设备1可以通过所述至少两个目标对象的声纹特征信息确定所述至少两个目标对象的语音信息对应的目标对象，并确定所述目标对象的身份信息(例如，将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告后可以确定声音A是属于法官的、声音B属于被告、声音C属于原告等。)

对于上述情况，结果获取模块14可以基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果。

在本发明实施例一种具体实现方式中，所述结果获取模块14可以包括一下单元如图13所示：

具体实现中，当所述声音置信度大于或等于第一置信度阈值时，可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度较大，第一结果获取单元141可以将所述声纹特征信息确定为所采用的对象识别信息，然后采用所述声纹特征信息识别所述目标对象的身份信息，此时的所述方位信息不参与身份确认仅用作声源定位。

具体实现中，当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度处于平均水平，为更准确的识别所述目标对象的身份，第二结果获取单元142可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，然后采用是声纹特征信息进行声纹识别，初步确定所述目标对象的身份，同时采用所述方位信息定位的声源方向进一步识别所述目标对象的身份。

具体实现中，当所述声音置信度小于第二置信度阈值时，可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度较低，采用所述声纹特征信息所识别的所述目标对象身份的准确率较低，第三结果获取子单元1323可以将所述述方位信息确定为所采用的对象识别信息，然后采用所述方位信息声源定位后的定位方向确定所述目标对象的身份，实现同一语音环境下的人声分离，可以理解的是，进采用所述方位信息作为所述对象识别信息时，在识别的过程中可以存在允许范围内的误差。需要说明的是，在此种情况下所述当前语音环境需要是特定的语音环境，例如，目标对象的位置都是确定的环境(例如，庭审中，法官和犯人的位置是确定的)

在本发明实施例一种具体实现方式中，所述结果获取模块14可以包括一下子单元如图14所示：

具体实现中，信息确定子单元1421确定所述对象识别信息的详细过程可以参考上述方法实施例中的描述，此处不再赘述。

具体实现中，所述信息确定子单元1421将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息后，候选结果获取子单元1422可以根据所述声纹特征信息获取所述目标对象的候选识别结果。可以理解的是，当所述目标对象的声纹特征信息具有明显区别时，所述候选识别结果可以是最终的所述目标对象的对象识别结果，即所述对象识别设备可以从多个语音信息中明确识别出目标对象的语音信息；当所述目标对象中存在至少两个声纹特征信息区别不明显的目标对象时，所述候选识别结果所指示的目标对象与语音信息之间的对应关系可能是不准确的，例如，法官A和犯人B的声纹特征信息相似度很大，所述对象识别设备在在庭审的多个语音信息中识别法官A的语音信息时，可能将犯人B的语音信息错认为是法官A的，也可能将将法官A的语音信息错认为是犯人B的。

具体实现中，在所述候选结果获取子单元1422根据所述声纹特征信息初步识别所述目标对象的候选识别结果的同时，结果获取子单元1423可以采用所述方位信息定位的声源方向从所述候选识别结果中进一步定位所述目标对象的对象识别结果，即所述结果获取子单元1423可以对所述候选识别结果进行调整并最终确定所述目标对象的对象识别结果。例如，法官A和犯人B的声纹特征信息相似度较大，候选识别结果指示法官A的语音信息对应犯人B，结合法官A的位置信息所述对象识别设备可以将法官A的语音信息对应法官A。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图3-图8所示实施例的方法步骤，具体执行过程可以参见图3-图8所示实施例的具体说明，在此不进行赘述。

请参见图15，为本发明实施例提供了一种终端的结构示意图。如图15所示，所述终端1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及对象识别应用程序。

在图15所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；网络接口1004用于与用户终端进行数据通信；而处理器1001可以用于调用存储器1005中存储的对象识别应用程序，并具体执行以下操作：

获取所述声纹特征信息对应的声音置信度；

在一个实施例中，所述处理器1001在执行获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息之前，还用于执行以下操作：

在一个实施例中，所述处理器1001在执行获取所述声纹特征信息对应的声音置信度时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果时，具体执行以下操作：

根据所述声纹特征信息获取所述目标对象的候选识别结果；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种对象识别方法，其特征在于，包括：

获取所述声纹特征信息对应的声音置信度；

2.如权利要求1所述的方法，其特征在于，所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息，包括：

3.如权利要求1所述的方法，其特征在于，所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息之前，还包括：

4.如权利要求3所述的方法，其特征在于，所述获取所述声纹特征信息对应的声音置信度，包括：

5.如权利要求1所述的方法，其特征在于，所述基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果，包括：

6.如权利要求5所述的方法，其特征在于，所述基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果，包括：

当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果；

7.如权利要求6所述的方法，其特征在于，所述当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时，将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果，包括：

根据所述声纹特征信息获取所述目标对象的候选识别结果；

8.一种对象识别设备，其特征在于，包括：

特征信息获取模块，用于基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取，获取经所述声纹特征提取后所述语音信息对应的声纹特征信息；

结果获取模块，用于采用所述方位信息、所述声纹特征信息以及所述声音置信度获取所述目标对象的对象识别结果。

9.如权利要求8所述的设备，其特征在于，所述对象信息获取模块包括：

10.如权利要求8所述的设备，其特征在于，还包括：

11.如权利要求10所述的设备，其特征在于，所述置信度获取模块包括：

匹配度值获取单元，用于将所述声纹特征信息的声纹特征与所述声纹训练语音集合中的各声纹训练语音对应的声纹特征进行匹配，获取声纹特征匹配度最高时的匹配度值；

12.如权利要求8所述的设备，其特征在于，所述结果获取模块具体用于，基于所述声音置信度和预设声音置信度阈值的关系，在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息，并根据所述对象识别信息获取所述目标对象的对象识别结果。

13.如权利要求12所述的设备，其特征在于，所述结果获取模块包括：

14.如权利要求13所述的设备，其特征在于，所述第二结果获取单元包括：

15.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

获取所述声纹特征信息对应的声音置信度；