CN108922546A

CN108922546A - 一种识别发言者身份的方法及装置

Info

Publication number: CN108922546A
Application number: CN201810735900.9A
Authority: CN
Inventors: 王旭; 林柱英; 李莉
Original assignee: Wuxi Zhong Chuang Future Technology Application Co Ltd
Current assignee: Wuxi Zhong Chuang Future Technology Application Co Ltd
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2018-11-30

Abstract

本发明涉及一种对发言者身份进行识别的方法，其包括：从第一视频片段的第一音频内容中提取第一音频特征，从包括第一发言者的第一视频内容中提取第一视频特征，基于第一音频特征和第一视频特征获得认证签名；从第二视频的第二音频内容中提取第二音频特征，所述第二音频特征中包括未被预识别的语言的第二发言者；从包括所述第二发言者的图像的第二视频内容中提取第二视频特征；基于所述第二发言者第二音频特征和第二视频特征；以及基于所述第二发言者的所述签名与所述认证签名进行匹配来确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者相同。

Description

一种识别发言者身份的方法及装置

技术领域

本发明涉及智能家居领域，尤其涉及一种对发言人身份进行识别的方法及装置。

背景技术

目前的智能家居一般可以通过手机安装的app实现控制，然而传统的APP控制家居操作步骤比较复杂，比如根据语音控制需要通过语音唤醒，语音录入等步骤，另一方面，实现对家庭电器控制控制需要对输入信号进行识别，而信号识别通常是对单个时域或频域产生的信号进行识别，例如图像或声音。而在对视频中的发言人进行识别时，通常通过单独分析图片和声音来完成将发言人的特定图像识别为给定图片的组成部分以及将发言人作为给定声音的组成部分的特征，这样导致无法准确对未知身份的发言人进行身份鉴定，此外，由于只能对音频或图像进行识别，很容易对发言人身份识别错误，从而无法实现相应的语音命令操作。

发明内容

本发明公开一种确定发言者的身份的方法及装置，所述方法包括：一种识别发言者身份的方法，所述方法包括：从第一视频片段的第一音频内容中提取第一音频特征，所述第一音频特征包括由发言者标识符标识的第一发言者的规范语言；从包括第一发言者的图像的第一视频片段的第一视频中提取第一视频特征；基于第一音频特征和第一视频特征获得认证签名；从第二视频的第二音频内容中提取第二音频特征，所述第二音频内容包括未被预识别的第二发言者；从包括所述第二发言者的图像的所述第二视频片段的第二视频内容中提取第二视频特征；基于所述第二发言者的第二音频特征和第二视频特征；以及基于所述第二发言者的所述签名与所述认证签名进行匹配来确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者身份相同。

所述的方法，还包括在基于所述第一音频特征和所述第一视频特征获得所述认证签名之前对所述第一音频特征和所述第一视频特征进行时间对准。

进一步，还包括在基于所述第二音频特征和所述第二视频特征获得所述第二发言者的所述签名之前对所述第二音频特征和所述第二视频特征进行时间对准。

其中所述发言者标识符被存储为标签。

其中所述认证签名和所述标签被存储为包括密钥的密钥值对，所述密钥包括所述标签和认证签名的值。

其中确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者相同包括确定所述第二发言者的所述签名与所述认证签名之间的汉明距离。

其中确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者相同包括确定所述第二视频片段中的所述第二发言者与所述第一视频片段中的所述第一发言者相同，如果所述第二发言者的签名与所述认证签名之间的汉明距离小于阈值距离，则确定第一发言者与第二发言者身份相同。

本发明还公开一种识别发言者的身份的装置，包括：存储器；以及可通信地耦合到所述存储器的处理器，所述处理器被配置为执行指令从第一视频片段的第一音频内容中提取第一音频特征，所述第一音频特征包括由发言者标识符标识的第一发言者的规范语言；从包括第一发言者的图像的第一视频片段的第一视频中提取第一视频特征；基于第一音频特征和第一视频特征获得认证签名；从第二视频的第二音频内容中提取第二音频特征，所述第二音频内容包括未被预识别的第二发言者；从包括所述第二发言者的图像的所述第二视频片段的第二视频内容中提取第二视频特征；基于所述第二发言者第二音频特征和第二视频特征；以及基于所述第二发言者的所述签名与所述认证签名进行匹配来确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者身份相同。

其中所述发言者标识符被存储为标签。

其中所述认证签名和所述标签被存储为包括密钥的密钥值对，所述密钥包括所述标签和包括所述认证签名的值。

其中确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者相同的指令包括用于确定所述第二发言者的签名与所述认证之间的汉明距离的指令签名。

其中确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者相同的指令包括用于确定所述第二视频片段中的所述第二发言者与所述第一视频片段中的所述第二发言者相同，如果所述第二发言者的签名与所述认证签名之间的汉明距离小于阈值距离，则所述第一视频片段中的所述发言者位于所述第一视频片段中。

根据本发明所示方法及装置能够提取视频中发言人的音频和图像的特征进行整合训练构建模型，进一步对未知发言人的身份进行识别，应用在智能家居领域能够更加准确识别未知发言人的身份，同时基于发言人的发言实现语音命令操作。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1：第一阶段通过训练神经网络的音频和视频特征确定发言者的身份特征过程的示例的流程图；

图2：第二阶段用于生成并存储一个或多个发言者的认证签名的过程的流程图；

图3：第三阶段通过从发言者的音频和视频特征中获得的签名与存储的认证签名进行比较来识别视频流中的发言者流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的对发言人身份进行识别的方法及装置。图1表示第一阶段通过训练神经网络的音频和视频特征确定发言者的身份特征过程的示例的流程图。步骤102中读取包括具有发言者标识符的发言者的规定语言的视频片段。该视频片段是一个训练片段，其中包含音频和视频内容，其主要目的在于根据已知身份的发言者信息训练该神经网络。在提取的音频和视频特征被时间对齐和合并之前，进一步对音频和视频特征分别并行处理以分别提取音频和视频特征。具体为，在步骤104中从视频片段中提取音频内容，并且可以按照本领域技术人员已知的方式在步骤106中对音频内容的音频帧进行归一化。步骤108，从归一化的音频帧中提取音频特征。

其中特征是用于训练一个或多个域中的神经网络的信号或其特征的有效表示。音频特征可以是表示归一化音频帧中提取的音频信号的复数值的各种表达之一。例如，该特征可以是具有实数和虚数分量的复数值的表达式，或者具有幅度和相位的表达式。例如，音量可以以线性大小，对数大小或声音中已知的对数大小的形式表示。

同时对视频特征进行并行处理，步骤110中可以提取视频片段的视频内容，并且可以以本领域技术人员已知的方式在步骤112中对视频内容的视频帧进行归一化。视频内容可以包括规范发言作为视频片段的音频内容所对应的说话者的图像。步骤114中从归一化视频帧的视频内容中提取视频特征。与音频特征相同，视频特征可以是用于训练神经网络的有效格式的视频信号的数字表示。例如，如果视频信号由复数值表示，则视频特征可以是具有实数和虚数分量，或者具有幅度和相位的复数值的表达。视频信号的各种其他表达也可以被用作用于神经网络的有效训练的视频特征。

根据步骤108中提取的音频特征和步骤114中提取的视频特征，在步骤116中将音频和视频特征进行时间对齐。在一些情况下，同一视频片段中的音频和视频内容可能不会以相同的速率成帧匹配，导致音频和视频帧可能不会相对于彼此时间对齐。对于这些类型的视频片段，可以在步骤116中将提取的音频特征和视频特征进行时间对齐，使得音频和视频特征可以由音频-视频域中的神经网络进行处理。进一步步骤118中，时间对齐的音频和视频特征可以与发言者标识符一起进行存储。由于在步骤102中读取的视频片段被用于训练神经网络以用于确定另一个视频片段中的发言者的身份的训练片段，所以训练视频中的发言者的身份是已知的，并且可以用作标签与步骤118中提取的和时间对齐的音频和视频特征相关联。

进一步步骤120中判断是否存在未处理的视频片段。若在步骤120中确定还有未处理的视频片段可用于训练神经网络，则循环步骤提取视频片段中的音频和视频特征，对提取的音频和视频特征进行时间对准以及存储并关联的发言者标识符作为标签。

在一些实施方式中，可以提取同一个发言者的两个或更多个视频片段来训练神经网络以确定发言者的身份。例如，可以提供两个或更多个训练片段，每个训练片段具有稍微不同的发言以及发言者的略微不同的姿态来训练神经网络以识别未在视频中预先识别的发言者的身份。其中音频和视频特征可以从音频和视频内容中提取并进行时间对齐，进一步将与它们相关联的发言者标识符一起作为标签存储在包括多个发言者的训练数据的表格中。另外还可以为多个发言者中的每一个发言者提供多于一个训练视频片段，以保证神经网络更加有效，提高区分视频中非训练视频片段的一部分的多个发言者的身份。

进一步如果步骤120中判断没有多余的训练视频片段需要被读取，则在步骤122中将存储的音频和视频特征以及相关联的标签传递到神经网络中对神经网络进行训练，以识别发言者身份。神经网络可以是包括多个神经网络层的深度神经网络(DNN)。神经网络可以包括一个或多个LSTM层，一个或多个卷积神经网络(CNN)层或一个或多个LCN层。在一些情况下，除了作为一个或多个神经网络层的一部分之外，可以实现各种类型的滤波器，诸如无限脉冲响应(IIR)滤波器，线性预测滤波器，卡尔曼滤波器等。

进一步，为了获取充分的训练数据来训练神经网络，发言者的视频特征还可以从其他发言者音频内容提取的音频特征时间为准的视频中进行提取，以生成新的一组具有与提供视频内容的发言者的身份和提供音频内容的其他发言者的身份相对应的关联标签的数据。这样的新数据集及其相关标签可以被输入到用于交叉引用不同发言者身份的表格中。通过使用这些数据集合以及不同发言者进行交叉参考，例如，可以训练神经网络以识别哪个发言者说话与给定的视频图像不相关。其中不同发言者的音频和视频特征的时间对准可以通过使用诸如隐马尔可夫模型或动态时间扭曲算法的翘曲算法来实现。另外神经网络架构可以是具有一个或多个LCN，CNN或LSTM层的深度神经网络，或其任何组合。图2是示出第二阶段用于生成并存储一个或多个发言者的认证签名的过程的流程图，该认证签名用于在发言者的识别阶段训练神经网络。首先步骤201中读取包括具有发言者标识符的发言者的规范发言的视频片段。其包括音频和视频内容。步骤202，从视频片段中获得时间对齐的音频和视频特征，然后在步骤203中通过神经网络以获得认证签名。在这个阶段，为了达到识别目的，为已知身份的发言者生成认证签名。基于从包括该发言者的规范发言的一个或多个训练视频片段中提取音频和视频特征，发言者的认证签名与该发言者一一对应。

步骤204，将与发言者对应的认证签名存储在用于训练神经网络的模板表中，每个认证签名及其相关联的标签，即发言者标识符作为键值对存储在模板表中，例如，将发言者标识符或标签存储为密钥，其中认证签名可以被存储为键值对中的值。多个发言者的多组键值对可以存储在关系数据库中。只要认证签名与其对应的标签或发言者身份正确关联，认证签名和指示多个发言者的相应身份标签就可以以各种方式存储在数据库中。

步骤205，判断是否有未处理的视频片段。如果存在未处理的视频片段可用于读取以获得附加认证签名，则重复步骤201-204的处理步骤以获得附加认证签名，如果全部视频片段都已经进行处理，则训练神经网络以识别发言者的第二阶段结束。在一些实施方式中，可以向神经网络提供包含具有已知身份的相同发言者的规范发言的若干训练视频片段，例如三个或更多个视频片段，使得可以从该发言者中提取多个认证签名以进行识别。

图3表示第三阶段通过从发言者的音频和视频特征中获得的签名与存储的认证签名进行比较来识别视频流中的发言者流程图。具体为，步骤301读取包括发言者发言的视频片段。所述视频片段包含未预先识别的发言者的声音和图像的视频流。在一些情况下，包括音频内容和包括视频内容的视频帧的音频帧可能具有不同的帧速率导致不彼此对齐。因此步骤302，将音频和视频特征分别从视频片段的音频和视频帧中提取并且彼此时间对齐。步骤303，将时间对准的音频和视频特征通过已经训练好的神经网络，以获得非训练视频片段中出现的发言者的签名。此外还可以从训练视频片段中提取的音频和视频特征获得的认证签名相同的方式获得非训练视频剪辑中的发言者的签名。

由第二阶段处理可知，从训练包含具有已知身份的发言者的发言的视频片段中获得的认证签名及其相应标签或发言者身份已经被存储为模板表中的键值对，其中每个发言者标识符或标签被存储为密钥并且每个认证签名被存储为一个值。在步骤304中将从非训练视频片段获得的发言者的签名与存储在模板表中的认证签名进行对比，获取发言者的签名与存储在模板表中的认证签名之间差值。其中发言者的签名和认证签名可以具有相同的比特数，并且发言者的签名与存储在模板表中的认证签名之间的差值可以计算获取。

步骤305，判断发言者的签名与认证签名之间的差值大小。如果两者二进制串彼此相同，则两个二进制串之间的汉明距离为零，而较大的汉明距离指示两个二进制串的对应位之间的大量失配。其中可以设定预定距离阈值判断发言者的签名与认证签名之间的差值是否小于或等于预定阈值距离。例如，如果发言者的签名和认证签名各自包含16位串，则如果两串之间的汉明距离为2或更小，那么两个签名之间的差值可以被认为足够小。

如果在步骤与305中判断发言者的签名与认证签名之间的差值小于预定距离阈值，则可以确定非训练视频片段中的发言者的身份与认证签名对应的发言者身份匹配。在步骤306中将非训练视频片段中的发言者身份标志设置为识别标志＝TRUE，并且发言者的身份可以被设置为与认证签名对应的发言者身份，即身份＝template_speaker_id_with_min_dist。如果在步骤305中确定发言者的签名与认证签名之间的差值大于预设距离阈值，则在步骤307中将身份标志设置为识别标志＝FALSE，指示两个签名之间不匹配。

如上所述，多个认证签名可以与模板表中的发言者标识符相关联。非训练视频片段中的发言者的签名可以匹配发言者识别符相关联的认证签名，而不会与存储在模板表中的发言者识别符相关联的其他认证签名匹配。只要其中一个认证签名与发言者的签名匹配成功，就可以将发言者的身份设置为等于该发言者标识符。

如果存在于模板表存储的多个发言者标识符都关联的认证签名，则可以重复匹配发言者的签名与存储在模板表中的每个认证签名之间差值，直到找到所述差值小于预设距离阈值的认证签名，确定该发言者的身份。例如，如果当前认证签名与发言者的签名的差值大于预设距离阈值，则选择其他认证签名并与该发言者的签名进行比较。如果其他认证签名与发言者的签名的差值小于预设距离阈值，则确定该认证签名与发言者者签名相匹配，将发言者的身份设置为等于该发言者标识符。如果没有认证签名可用于匹配，则判定匹配失败。

为了实现上述实施例，本发明还提出一种识别发言者身份的装置。

该装置包括存储器；以及可通信地耦合到所述存储器的处理器，所述处理器被配置为执行指令从第一视频片段的第一音频内容中提取第一音频特征，所述第一音频特征包括由发言者标识符标识的第一发言者的规范语言；从包括第一发言者的图像的第一视频片段的第一视频中提取第一视频特征；基于第一音频特征和第一视频特征获得认证签名；从第二视频的第二音频内容中提取第二音频特征，所述第二音频内容包括未被预识别的第二发言者；从包括所述第二发言者的图像的所述第二视频片段的第二视频内容中提取第二视频特征；基于所述第二发言者第二音频特征和第二视频特征；以及基于所述第二发言者的所述签名与所述认证签名进行匹配来确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者身份相同。

其中所述发言者标识符被存储为标签。

基于本发明所述识别发言者身份的方法和装置，可以应用于智能家居领域来推断居住在家中的用户，并将电子设备与用户相关联。因此，智能家庭环境可以“了解”谁是用户(例如，授权用户)并且允许与该用户关联的电子设备控制智能家庭环境的网络连接的智能设备包括智能家居环境中使用的传感器或传感器。可以通过发送到一个或多个用户电子设备的消息向用户提供各种类型的通知和其他信息。例如，可以通过电子邮件，短消息服务(SMS)，多媒体消息服务(MMS)，非结构化补充服务数据(USSD)以及任何其他类型的消息服务或通信协议来发送消息。

智能家居环境可以包括与智能家居环境之外但在家庭的近地理范围内的设备的通信。例如，智能家居环境可以通过通信网络或者直接向中央服务器或云计算系统传递关于检测到的人，动物和任何其他对象的移动或存在的信息，并且接收用于相应地控制照明的命令。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种识别发言者身份的方法，所述方法包括：从第一视频片段的第一音频内容中提取第一音频特征，所述第一音频特征包括由发言者标识符标识的第一发言者的规范语言；从包括第一发言者的图像的第一视频片段的第一视频中提取第一视频特征；基于第一音频特征和第一视频特征获得认证签名；从第二视频的第二音频内容中提取第二音频特征，所述第二音频内容包括未被预识别的第二发言者；从包括所述第二发言者的图像的所述第二视频片段的第二视频内容中提取第二视频特征；基于所述第二发言者的第二音频特征和第二视频特征；以及基于所述第二发言者的所述签名与所述认证签名进行匹配来确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者身份相同。

2.根据权利要求1所述的识别发言者身份的方法，还包括在基于所述第一音频特征和所述第一视频特征获得所述认证签名之前对所述第一音频特征和所述第一视频特征进行时间对准。

3.根据权利要求1所述的识别发言者身份的方法，还包括在基于所述第二音频特征和所述第二视频特征获得所述第二发言者的所述签名之前对所述第二音频特征和所述第二视频特征进行时间对准。

4.如权利要求1所述的识别发言者身份的方法，其中所述发言者标识符被存储为标签。

5.根据权利要求4所述的识别发言者身份的方法，其中所述认证签名和所述标签被存储为包括密钥的密钥值对，所述密钥包括所述标签和认证签名的值。

6.根据权利要求1所述的识别发言者身份的方法，其中确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者相同包括确定所述第二发言者的所述签名与所述认证签名之间的汉明距离。

7.根据权利要求6所述的识别发言者身份的方法，其中确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者相同包括确定所述第二视频片段中的所述第二发言者与所述第一视频片段中的所述第一发言者相同，如果所述第二发言者的签名与所述认证签名之间的汉明距离小于阈值距离，则确定第一发言者与第二发言者身份相同。

8.一种用于识别发言者身份的装置，包括：存储器以及可通信地耦合到所述存储器的处理器，所述处理器被配置为执行如权利要求1～7中任意一项所述的识别发言者身份的方法的指令。