CN112397089B

CN112397089B - 语音发出者身份识别方法、装置、计算机设备及存储介质

Info

Publication number: CN112397089B
Application number: CN201910766157.8A
Authority: CN
Inventors: 石晶; 许家铭; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2023-07-04
Anticipated expiration: 2039-08-19
Also published as: CN112397089A

Abstract

本发明实施例涉及一种语音发出者身份识别方法、装置、计算机设备及存储介质，所述方法包括：调用语音采集设备采集会议过程的全程语音，调用图像采集设备采集会议过程的全程图像；从全程语音中提取单通道语音，从单通道语音中分别提取多个语音分段数据流；针对每个语音分段数据流，从全程图像中截取与该语音分段数据流对应的图像分段数据流；将每个语音分段数据流输入听觉处理子网络模型中，得到多个对应听觉隐层特征，将每个图像分段数据流输入视觉处理子网络模型中，得到多个对应视觉隐层特征；选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份。

Description

语音发出者身份识别方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及计算机信息自动处理技术领域，尤其涉及一种语音发出者身份识别方法、装置、计算机设备及存储介质。

背景技术

语音是人们进行信息交互最自然、最有效的手段之一。在日常生活中，人类通过语音之间的沟通，其实是基于多种感官信号(例如听觉、视觉)共同的刺激而完成的。举例而言，在日常的一段对话过程中，除了听觉通路本身的纯语音信号以外，视觉也会带来如对语音发出者的身份的确认、对语音识别的提升(例如通过唇语动作的辅助)等作用。

除了在多种模态信号输入方面的复杂之外，现实中的语音经常会面对有不止一个人参与的场景。在这类场景中，语音发出者的身份随时会发生转换，这使得在较为复杂的场景中的语音发出者识别技术成为一个非常重要的任务。

语音发出者身份识别是语音处理中的一项比较重要的任务，其目的是从音频输入的信号中确定语音发出者的身份。然而，经典的语音发出者身份识别的任务只专注于从单纯的听觉通道来识别语音发出者的身份，忽略了在实际场景中视觉信号参与的重要性。在仅有听觉通道的情况下，其性能很容易受到如干扰噪声、背景音乐等的影响。

发明内容

鉴于此，为解决上述技术问题或部分技术问题，本发明实施例提供了一种语音发出者身份识别方法、装置、计算机设备及存储介质。

第一方面，本发明实施例提供了一种语音发出者身份识别方法，所述方法包括：

调用语音采集设备采集会议过程中的多个语音发出者对应的全程语音，调用图像采集设备采集会议过程中的多个语音发出者对应的全程图像；

从所述全程语音中提取单通道语音，从所述单通道语音中分别提取多个语音分段数据流，其中，每个语音分段数据流均属于一个语音发出者；

针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流对应的图像分段数据流，其中，每个语音分段数据流与对应的图像分段数据流均属于同一语音发出者；

将每个语音分段数据流输入听觉处理子网络模型中，得到多个对应听觉隐层特征，将每个图像分段数据流输入视觉处理子网络模型中，得到多个对应视觉隐层特征；

选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份。

在一个可能的实施方式中，所述从所述全程语音中提取单通道语音，包括：

将所述全程语音经过A/D转换，且按照预设的提取率进行提取，以得到单通道语音。

在一个可能的实施方式中，所述从所述单通道语音中分别提取多个语音分段数据流，包括：

对所述单通道语音进行断句切分，以提取多个语音分段数据流。

在一个可能的实施方式中，所述针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流对应的图像分段数据流，包括：

针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流位于同一时间段的对应图像分段数据流。

在一个可能的实施方式中，所述选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份，包括：

利用预设的不同的特征通道选择规则，选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份。

第二方面，本发明实施例提供一种语音发出者身份识别装置，所述装置包括：

采集模块，用于调用语音采集设备采集会议过程中的多个语音发出者对应的全程语音，调用图像采集设备采集会议过程中的多个语音发出者对应的全程图像；

语音提取模块，用于从所述全程语音中提取单通道语音；

数据流提取模块，用于从所述单通道语音中分别提取多个语音分段数据流，其中，每个语音分段数据流均属于一个语音发出者；

数据流截取模块，用于针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流对应的图像分段数据流，其中，每个语音分段数据流与对应的图像分段数据流均属于同一语音发出者；

数据流处理模块，用于将每个语音分段数据流输入听觉处理子网络模型中，得到多个对应听觉隐层特征，将每个图像分段数据流输入视觉处理子网络模型中，得到多个对应视觉隐层特征；

身份识别模块，用于选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份。

在一个可能的实施方式中，所述语音提取模块具体用于：

在一个可能的实施方式中，所述数据流提取模块具体用于：

第三方面，本发明实施例提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述的语音发出者身份识别方法。

第四方面，本发明实施例提供一种计算机设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的语音发出者身份识别程序，以实现前述的语音发出者身份识别方法。

本发明实施例提供的技术方案，通过使用视听觉两方面的信息，可以实现语音发出者身份的识别，在使用视听觉两方面的信息的情况下，避免了如干扰噪声、背景音乐等的影响。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例的语音发出者身份识别方法的实施流程示意图；

图2为本发明实施例的语音发出者身份识别装置的结构示意图；

图3为本发明实施例的计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

如图1所示，为本发明实施例提供的一种语音发出者身份识别方法的实施流程示意图，该方法具体可以包括以下步骤：

S101，调用语音采集设备采集会议过程中的多个语音发出者对应的全程语音，调用图像采集设备采集会议过程中的多个语音发出者对应的全程图像；

在本发明实施例中，语音采集设备可以是麦克风，图像采集设备可以是摄像头。

例如，调用麦克风采集会议过程中的多个语音发出者对应的全程语音，调用摄像头采集会议过程中的多个语音发出者对应的全程图像，其中，所述全程图像可以保存为RGB格式。

S102，从所述全程语音中提取单通道语音，从所述单通道语音中分别提取多个语音分段数据流，其中，每个语音分段数据流均属于一个语音发出者；

对于上述采集到的全程语音，从所述全程语音中提取单通道语音，具体可以是：

例如，将所述全程语音经过A/D转换，设置提取率为16000，则可以提取到提取率为16000的单通道语音。

针对上述得到的单通道语音，从所述单通道语音中分别提取多个语音分段数据流，其中，每个语音分段数据流均属于一个语音发出者。

例如，从所述单通道语音中分别提取语音分段数据流1、语音分段数据流2、语音分段数据流3，则语音分段数据流1属于用户A，语音分段数据流2属于用户B，语音分段数据流3属于用户C。

作为一可选实施方式，可以对所述单通道语音进行断句切分，以提取多个语音分段数据流。

作为另一可选实施方式，可以对所述单通道语音进行语音检查并进行断句切分，以提取多个语音分段数据流。可以利用语音处理中的声音活动检测(VAD)技术，训练一个可以判断每帧语音是若干语音发出者的混合语音还是无语音的神经网络检测模型，利用该神经网络检测模型进行判断，只保存一个语音发出者的语音帧，如此可以得到多个语音分段数据流。

S103，针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流对应的图像分段数据流，其中，每个语音分段数据流与对应的图像分段数据流均属于同一语音发出者；

针对上述得到的每个语音分段数据流，从所述全程图像中截取与该语音分段数据流对应的图像分段数据流，其中，每个语音分段数据流与对应的图像分段数据流均属于同一语音发出者。

例如，语音分段数据流1与图像分段数据流a一一对应，两者均属于同一语音发出者A。

作为一可选实施方式，针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流位于同一时间段的对应图像分段数据流，如此基于时序，可以得到多组互相对应的语音分段数据流与图像分段数据流，且均属于同一语音发出者。

S104，将每个语音分段数据流输入听觉处理子网络模型中，得到多个对应听觉隐层特征，将每个图像分段数据流输入视觉处理子网络模型中，得到多个对应视觉隐层特征；

对于每个语音分段数据流可以视为一个听觉信号，与该语音分段数据流对应的图像分段数据流可以视为一个视觉信号，将每个语音分段数据流输入听觉处理子网络模型中，得到多个对应听觉隐层特征，将每个图像分段数据流输入视觉处理子网络模型中，得到多个对应视觉隐层特征。

听觉处理子网络模型主要将听觉原始信号提取到高维空间当中进行进一步处理。该网络的语音输入是常见的语音特征，如短时傅里叶变换(STFT)，梅尔频率倒谱系数(MFCC)或Fbank特征等。

具体来说，该听觉处理子网络模型通过多层卷积神经网络和池化(Pooling)操作以及全连接层，将所输入的语音信号的特征提取为高维的隐层向量。

其中，输入的第一层卷积卷积神经网络会依据输入语音特征的通道数的不同而制定不同的输入通道数目。在整个听觉处理子网络模型中，卷积层的操作将保持数据的尺寸大小不变，但是通道数保持不变或增加，直到达到预设定好的通道数目。在池化操作中，会将输入语音特征在时间的尺度上进行压缩，逐步将语音信号的时间维度压缩到与视觉信号的时间长度相同，同时语音特征的频谱维度将在池化操作中压缩到1。

视觉处理子网络模型主要是将听觉原始信号提取到高维空间当中进行进一步处理。该网络的图像输入是常见的RGB图像特征。

具体来说，该视觉处理子网络模型通过底层特征提取网络、上下文相关卷积层以及全连接层构成，将所输入的图像信号的特征提取为高维的隐层向量。

其中，底层特征提取网络是根据在如图像分类、物体识别等任务上预训练好的特征提取网络，用来将本发明所述场景下的图像输入特征从底层进行提取。借用在大规模图像数据集上预训练的网络，可以有利于本网络的训练的收敛速度。此外，该部分的特征提取也将原始图像输入的尺寸进行了归一化，用更少的空间尺寸(典型值如13*13)代表了原始的每一帧的图像信号。之后，本发明使用一个时序相关的卷积网络层，将多帧图像的前后时序信息进行建模，用来捕捉在图像上的明显变化以及动作等信息。最后经过两个全连接层，将每一帧图像的每一个像素点投射到预设的特征通道数目，该数目与语音处理子网络最后的预设通道数目保持一致。

S106，选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份。

选择选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份，具体可以是：

对于通过上述子网络模型得到的听觉隐层特征以及视觉隐层特征，本发明采用多种不同的特征通道选择规则，选择听觉隐层特征以及视觉隐层特征进行融合。其中，特征通道选择规则可以包括：只选取听觉通道、只选取视觉通道、选择“经过听觉刺激的视觉通道”、视听觉联合通道、“经过听觉刺激的视觉”与听觉，总计五种不同的规则。

具体而言，针对选择视觉或听觉通道，本发明将在对应的隐层特征的空间尺度上进行池化操作，将每一帧的特征提取为只包含一个预设大小的特征向量。

经过听觉刺激的视觉通道较为复杂，本发明利用听觉通道和视觉通道的一致性，首先计算图像特征中每一帧中的每一个像素点与对应时刻的语音特征的相似性，之后得到了一个蒙版(mask)。该mask代表了该帧中不同位置的图像与当前时刻的语音的对应程度。之后，将该mask应用于视觉子网络得到的隐层特征上进行乘积操作，按照设定好的阈值过滤掉较小的像素点的特征。最后将每一帧的像素点进行融合，得到每一帧对应的特征向量。

视听觉联合通道是将单独操作的两个不同通路的信号直接进行拼接形成了两倍大小的最终特征向量。

经过听觉刺激的视觉与听觉联合通道是在经过听觉刺激的视觉通道之后，与听觉通路的信号直接进行拼接，同样形成了两倍大小的最终特征向量。

另外，根据融合结果识别语音发出者身份，可以是将该融合结果输入分类器进行语音发出者身份识别。该分类器可以将按照最终特征向量的维数的不同进行构建，对语音发出者身份进行识别。

通过上述对本发明实施例提供的技术方案的描述，本发明实施例提供的语音发出者身份识别方法具有以下有益效果：

1、现有语音发出者识别方案中，大部分是仅仅使用了单纯语音通道的信息，并没有很好地利用视觉通路提供的信息。在最近出现的一些多模态相关的工作中，也都是专注于单个语音发出者场景下的简单情形。本发明通过使用视听觉两方面的信息，可以实现语音发出者身份的识别，在使用视听觉两方面的信息的情况下，避免了如干扰噪声、背景音乐等的影响。

2、在视听觉多模态的一些近似任务上，对于语音活动的处理和建模都还是需要非常理想的面部数据或采用额外的工具或应用来提取语音发出者的清晰和正面的脸部或唇部区域。这种准备将带来额外的计算成本和一定的错误累积和传递。并且，在大多数情况下，想要获得理想的面部数据是不切实际的。针对这个问题，本发明中的网络模型是直接基于全景的图像作为输入，而不需要额外的处理工具。这大大拓展了算法的应用范围。

3、本发明将视听觉作为两个通道进行处理，并且用一个灵活可以调整的特征通路选择的规则构建了多种不同的组织方式来对数据进行融合。在这之中，本发明提出的“听觉刺激下的视觉”规则在进一步提高语音发出者识别的基础上，还可以定位到语音发出者的位置。通过这种规则，证明了某人的身体运动也可以成为识别真实说话者的重要线索，这在无法获得面部或嘴唇的清晰动作时非常有用。

4、本发明中的模型可以作为一个处理多语音发出者场景的基础工具，很方便地与处理一些下游的任务，例如视频内的语音发出者追踪和音频-视频同步、会议纪要等。这可以有效地解决一系列面向多语音发出者场景中语音发出者区分困难、整理麻烦的问题。

相对于方法实施例，本发明实施例还提供了一种语音发出者身份识别装置的实施例，如图2所示，该装置可以包括：采集模块210、语音提取模块220、数据流提取模块230、数据流截取模块240、数据流处理模块250、身份识别模块260。

采集模块210，用于调用语音采集设备采集会议过程中的多个语音发出者对应的全程语音，调用图像采集设备采集会议过程中的多个语音发出者对应的全程图像；

语音提取模块220，用于从所述全程语音中提取单通道语音；

数据流提取模块230，用于从所述单通道语音中分别提取多个语音分段数据流，其中，每个语音分段数据流均属于一个语音发出者；

数据流截取模块240，用于针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流对应的图像分段数据流，其中，每个语音分段数据流与对应的图像分段数据流均属于同一语音发出者；

数据流处理模块250，用于将每个语音分段数据流输入听觉处理子网络模型中，得到多个对应听觉隐层特征，将每个图像分段数据流输入视觉处理子网络模型中，得到多个对应视觉隐层特征；

身份识别模块260，用于选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份。

根据本发明提供的一种具体实施方式，所述语音提取模块220具体用于：

根据本发明提供的一种具体实施方式，所述数据流提取模块230具体用于：

图3为本发明实施例提供的一种的计算机设备的结构示意图，图3所示的计算机设备300包括：至少一个处理器301、存储器302、至少一个网络接口304和其他用户接口303。计算机设备300中的各个组件通过总线系统305耦合在一起。可理解，总线系统305用于实现这些组件之间的连接通信。总线系统305除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统305。

其中，用户接口303可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本发明实施例中的存储器302可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(ProgrammableROM，PROM)、可擦除可编程只读存储器(ErasablePROM，EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(StaticRAM，SRAM)、动态随机存取存储器(DynamicRAM，DRAM)、同步动态随机存取存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM，DRRAM)。本文描述的存储器302旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器302存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统3021和应用程序3022。

其中，操作系统3021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序3022，包含各种应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序3022中。

在本发明实施例中，通过调用存储器302存储的程序或指令，具体的，可以是应用程序3022中存储的程序或指令，处理器301用于执行各方法实施例所提供的方法步骤，例如包括：

调用语音采集设备采集会议过程中的多个语音发出者对应的全程语音，调用图像采集设备采集会议过程中的多个语音发出者对应的全程图像；从所述全程语音中提取单通道语音，从所述单通道语音中分别提取多个语音分段数据流，其中，每个语音分段数据流均属于一个语音发出者；针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流对应的图像分段数据流，其中，每个语音分段数据流与对应的图像分段数据流均属于同一语音发出者；将每个语音分段数据流输入听觉处理子网络模型中，得到多个对应听觉隐层特征，将每个图像分段数据流输入视觉处理子网络模型中，得到多个对应视觉隐层特征；选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份。

上述本发明实施例揭示的方法可以应用于处理器301中，或者由处理器301实现。处理器301可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(FieldProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302，处理器301读取存储器302中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits，ASIC)、数字信号处理器(DigitalSignalProcessing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(ProgrammableLogicDevice，PLD)、现场可编程门阵列(Field-ProgrammableGateArray，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的计算机设备可以是如图3中所示的计算机设备，可执行如图1中语音发出者身份识别方法的所有步骤，进而实现图1所示语音发出者身份识别方法的技术效果，具体请参照图1相关描述，为简洁描述，在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在语音发出者身份识别设备侧执行的语音发出者身份识别方法。

所述处理器用于执行存储器中存储的语音发出者身份识别程序，以实现以下在语音发出者身份识别设备侧执行的语音发出者身份识别方法的步骤：

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音发出者身份识别方法，其特征在于，所述方法包括：

利用经过听觉刺激的视觉通道，或经过听觉刺激的视觉通道结合听觉通道，选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份，其中，听觉刺激的视觉通道包括利用听觉通道和视觉通道的一致性，首先计算图像特征中每一帧中的每一个像素点与对应时刻的语音特征的相似性，之后得到了一个蒙版mask，该mask代表了该帧中不同位置的图像与当前时刻的语音的对应程度，之后，将该mask应用于视觉子网络得到的隐层特征上进行乘积操作，按照设定好的阈值过滤掉较小的像素点的特征。

2.根据权利要求1所述的方法，其特征在于，所述从所述全程语音中提取单通道语音，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述单通道语音中分别提取多个语音分段数据流，包括：

4.根据权利要求1所述的方法，其特征在于，所述针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流对应的图像分段数据流，包括：

5.根据权利要求1所述的方法，其特征在于，所述选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份，包括：

6.一种语音发出者身份识别装置，其特征在于，所述装置包括：

语音提取模块，用于从所述全程语音中提取单通道语音；

身份识别模块，用于利用经过听觉刺激的视觉通道，或经过听觉刺激的视觉通道结合听觉通道，选择听觉隐层特征以及视觉隐层特征进行融合，根据融合结果识别语音发出者身份，其中，听觉刺激的视觉通道包括利用听觉通道和视觉通道的一致性，首先计算图像特征中每一帧中的每一个像素点与对应时刻的语音特征的相似性，之后得到了一个蒙版mask，该mask代表了该帧中不同位置的图像与当前时刻的语音的对应程度，之后，将该mask应用于视觉子网络得到的隐层特征上进行乘积操作，按照设定好的阈值过滤掉较小的像素点的特征。

7.根据权利要求6所述的装置，其特征在于，所述语音提取模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述数据流提取模块具体用于：

9.一种计算机设备，其特征在于，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的语音发出者身份识别程序，以实现权利要求1~5中任一项所述的语音发出者身份识别方法。

10.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1~5中任一项所述的语音发出者身份识别方法。