CN112153461B

CN112153461B - 用于定位发声物的方法、装置、电子设备及可读存储介质

Info

Publication number: CN112153461B
Application number: CN202011022940.2A
Authority: CN
Inventors: 蒋旻悦; 谭啸
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-11-18
Anticipated expiration: 2040-09-25
Also published as: CN112153461A

Abstract

本申请实施例公开了用于定位发声物的方法、装置、电子设备及计算机可读存储介质，涉及人工智能领域，具体为计算机视觉、深度学习以及语音识别技术。该方法的一具体实施方式包括：获取包含有发声物的音频信息和图像信息的视频数据；根据视频数据确定发声物在由图像信息形成的图像中的实际位置。该实施方式提供了一种用于定位发声物在图像中位置的方案，尤其适用于存在鸡尾酒会效应的多类型发声物的嘈杂环境下，使得机器也可具备识别出不同类型的发声物在图像中的实际位置的能力，以便于根据确定出的实际位置针对性的查看某种类型的发声物所在的特定画面区域，在多种场景下均能发挥重要作用。

Description

用于定位发声物的方法、装置、电子设备及可读存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及人工智能领域，具体为计算机视觉、深度学习以及语音识别技术，尤其涉及用于定位发声物的方法、装置、电子设备及计算机可读存储介质。

背景技术

鸡尾酒会效应是指人的一种听力选择能力，在这种情况下，注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。该效应揭示了人类听觉系统中令人惊奇的能力，即我们可以在噪声中谈话。

在实际生活中，还存在许多其它类似的场景，例如人车穿流的场景、多乐器的音乐会等，如何在此种场景下让机器也具有人耳的类似能力，是当前研究的重点。

发明内容

本申请实施例提出了一种用于定位发声物的方法、装置、电子设备及计算机可读存储介质。

第一方面，本申请实施例提出了一种用于定位发声物的方法，包括：获取包含有发声物的音频信息和图像信息的视频数据；根据视频数据确定发声物发声时在由图像信息形成的图像中的实际位置。

第二方面，本申请实施例提出了一种用于定位发声物的装置，包括：视频数据获取单元，被配置成获取包含有发声物的音频信息和图像信息的视频数据；发声物图像位置确定单元，被配置成根据视频数据确定发声物发声时在由图像信息形成的图像中的实际位置。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的用于定位发声物的方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的用于定位发声物的方法。

本申请实施例提供的用于定位发声物的方法、装置、电子设备及计算机可读存储介质，获取包含有发声物的音频信息和图像信息的视频数据；根据视频数据确定发声物发声时在由图像信息形成的图像中的实际位置。本申请通过上述技术特征提供了一种用于定位发声物在图像中位置的方案，尤其适用于存在鸡尾酒会效应的多类型发声物的嘈杂环境下，使得机器也可具备识别出不同类型的发声物在图像中的实际位置的能力，以便于根据确定出的实际位置针对性的查看某种类型的发声物所在的特定画面区域，在多种场景下均能发挥重要作用。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构；

图2为本申请实施例提供的一种用于定位发声物的方法的流程图；

图3为本申请实施例提供的另一种用于定位发声物的方法的流程图；

图4为本申请实施例提供的一种训练得到发声物定位模型的方法的流程图；

图5为本申请实施例提供的包含三种类型的发声乐器的音乐会视频画面；

图6为本申请实施例提供的对图5所示画面中的古筝进行轮廓标记后的画面；

图7为本申请实施例提供的一种用于定位发声物的装置的结构框图；

图8为本申请实施例提供的一种适用于执行用于定位发声物的方法的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于定位发声物的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用，例如视频文件上传类应用、发声物图像位置定位类应用、即时通讯类应用等。

终端设备101、102、103和服务器105可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等；当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器；服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

服务器105通过内置的各种应用可以提供各种服务，以可以提供定位视频文件中发声物在画面中位置的服务的发声物图像位置定位类应用为例，服务器105在运行该类应用时可实现如下效果：首先，通过网络104从终端设备101、102、103获取包含有发声物的音频信息和图像信息的视频数据，然后，根据该视频数据确定发声物发声时在由该图像信息形成的图像中的实际位置。进一步的，服务器105还可以根据该实际位置在画面中标注出该发声物，并将标注后的视频文件通过网络104返回给终端设备101、102、103，以便用户基于对画面中发声物实际位置标注后的视频文件有针对性的观看。

需要指出的是，获取包含有发声物的音频信息和图像信息的视频数据除可以从终端设备101、102、103通过网络104获取到之外，也可以通过各种方式预先存储在服务器105本地。因此，当服务器105检测到本地已经存储有这些数据时(例如开始处理之前留存的待处理定位任务)，可选择直接从本地获取这些数据，在此种情况下，示例性系统架构100也可以不包括终端设备101、102、103和网络104。

由于实现视频中发声物在画面中实际位置的定位需要占用较多的运算资源和较强的运算能力，因此本申请后续各实施例所提供的用于定位发声物的方法一般由拥有较强运算能力、较多运算资源的服务器105来执行，相应地，用于定位发声物的装置一般也设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，图2为本申请实施例提供的一种用于定位发声物的方法的流程图，其中流程200包括以下步骤：

步骤201：获取包含有发声物的音频信息和图像信息的视频数据；

本步骤旨在由用于定位发声物的方法的执行主体(例如图1所示的服务器105)获取包含有发声物的音频信息和图像信息的视频数据，即视频数据中不仅有发声物发出的声音还有其图像。

其中，视频数据可以是由用户通过网络向上述执行主体临时上传的，也可以是由用户告知上述执行主体可通过某个网络链接或网络地址在对应的网络存储单元中找到的，此处不做具体限定。

应当理解的是，通常情况下，本申请所指的用于对视频中发声物在画面中的位置进行定位的视频数据，其应是音画同步的，即发声物在发声时其应处在画面中，本申请不考虑诸如混剪视频、混音、音频和图像由自行挑选和拼接得到的视频数据，主要针对直接由摄像机或同时具有音频采集和图像采集功能的设备采集到的视频数据，例如拍摄得到的音乐会视频、由行车记录仪记录得到的视频等。

步骤202：根据视频数据确定发声物发声时在由图像信息形成的图像中的实际位置。

在步骤201的基础上，本步骤旨在由上述执行主体根据视频数据确定发声物发声时在由图像信息形成的图像中的实际位置。

其中，由于视频数据中的音频数据是由发声物发声时采集到的，当发声物仅有一种时，该音频数据特指唯一存在的发声物发出的音频，当存在多种发声物时，该音频数据可以包含各种发声物在单独发声时的音频，也包含多种发声物混合发声时的音频。

发声物在图像中不同位置发声实际上也对应着在空间上不同位置进行发声，由于视频数据的拍摄设备通常是固定的(例如在音乐会场景下)，也就导致即使同一或相同种类(本申请默认相同种类的不同发声物发出的声音信号相同)的发声物在不同的空间位置发声时，其发出的原始声音信号经过不同的空间传播路径被拍摄设备采集到后的实际声音信号也是不同的，而不同种类的发声物即使在相同的空间位置发声时，其发出的原始声音信号经过不同的空间传播路径被拍摄设备采集到后的实际声音信号也是不同的。因此，本申请充分利用这一特性来实现根据视频数据确定发声物在发声时在图像中的实际位置的目的。

简单来说，为实现本步骤的目的需要拥有根据实际采集到的音频数据，识别出这是哪种发声物在空间中哪个位置上发声时被拍摄设备采集到的能力。

本申请实施例提供的用于定位发声物的方法，提供了一种用于定位发声物在图像中位置的方案，尤其适用于存在鸡尾酒会效应的多类型发声物的嘈杂环境下，使得机器也可具备识别出不同类型的发声物在图像中的实际位置的能力，以便于根据确定出的实际位置针对性的查看某种类型的发声物所在的特定画面区域，在多种场景下均能发挥重要作用。

请参考图3，图3为本申请实施例提供的另一种用于定位发声物的方法的流程图，其中流程300包括以下步骤：

步骤301：获取包含有发声物的音频信息和图像信息的视频数据；

本步骤与流程200中的步骤201一致，相同部分的描述请参见步骤201，此处不再赘述。

步骤302：从音频数据中提取得到实际音频特征；

在步骤301的基础上，本步骤旨在由上述执行主体从视频数据中包含的音频数据中提取到实际音频特征，即当仅有一种发声物时，该实际音频特征表征了唯一种类的发声物在空间中某个位置发出的声音信号被视频拍摄设备采集到的音频特征，可通过后续步骤确定与该发声物是在空间中哪个位置发声；当有多种发声物时，该实际音频特征表征了多种发声物各自在空间中某个位置发声后被视频拍摄设备采集到的混合音频特征，后续步骤需要确定每种发声物分别在空间中哪个位置发声。

步骤303：利用发声物定位模型确定与实际音频特征对应的实际类型的发声物发声时在由图像信息形成的图像中的实际位置

其中，该发声物定位模型记录有不同发声物在图像中不同位置发声的不同音频特征，即具有根据实际采集到的音频数据，识别出这是哪种发声物在空间中哪个位置上发声时被拍摄设备采集到的能力，也可以认为是经针对性的样本数据训练后拥有该能力的一种识别模型。

在步骤302的基础上，本步骤旨在由上述执行主体直接调用预先训练好的成品模型(即发声物定位模型)来确定与实际音频特征对应的实际类型的发声物发声时在由图像信息形成的图像中的实际位置。

具体的，可将实际音频特征作为输入数据输入该发声物定位模型，经该发声物定位模型处理后，接收其输出的哪种发声物在哪些发声时刻在画面中位置的结果。

在上一实施例的基础上，本实施例具体通过步骤302-步骤303提供了一种步骤202的下位实现方案，即通过预先采用具有针对性的训练样本来训练出一个具有所需能力的发声物定位模型，后续即可直接调用训练好的模型来使用，便于调用、提升效率。

为便于理解上一实施例所使用的发声物定位模型是如何训练得到的，本实施例还通过图4提供了一种训练得到发声物定位模型的方法的流程图，具体实现步骤可参见如图4所示的流程40：

步骤401：获取仅记录不同的单一发声物的音频信息和图像信息的第一视频样本；

步骤402：利用第一视频样本中包含单一发声物在发声时的音频特征和图像特征的关联关系，对初始定位模型进行训练，得到具有识别单一发声物发声时在图像中实际位置的能力的训练后模型；

步骤401和步骤402由于采用的是单一发声物的训练样本，旨在通过训练让初始定位模型从中挖掘、学习到单一发声物在发声时的音频特征和图像特征的关联关系，从而具备识别单一发声物发声时在图像中实际位置的能力。其中，音频特征是指视频拍摄设备采集到的实际声音信号中提取出的特征，图像特征则是在对应时刻该发声物在图像中的图像相关特征，主要是在图像上的位置特征，例如在图像的正中心等。

这部分可被称为一阶段训练，或称单发声物场景训练阶段。

步骤403：获取记录不同类型的多个发声物的音频信息和图像信息的第二视频样本；

步骤404：利用第二视频样本中包含的不同类型的发声物的音频特征对训练后模型进行训练，得到具有识别发声物发声时在图像中实际位置且发声物的类型的能力的发声物定位模型。

步骤403和步骤404则换用了多发声物的视频数据作为新的训练样本，以使经一阶段训练后的训练后模型经过新的训练样本具有识别发声物发声时在图像中实际位置且发声物的类型的能力。

应当理解的是，在训练样本符合要求的情况下，上述训练过程可以无监督的方式进行，也可以根据实际情况适当加入部分有监督的训练方式，例如使用一些标注有发声物在对应图像中位置的训练样本参与训练。

本实施例通过步骤401-步骤404提供了一种二阶段训练的定位发声物在图像中位置的发声物定位模型的训练方式，使得原始模型依次通过两个训练阶段拥有了根据实际采集到的音频数据识别出这是哪种发声物在空间中哪个位置上发声时被拍摄设备采集到的能力。应当理解的是，本实施例仅给出了一种如何使模型拥有上述能力的训练方式，并不局限在这一种，例如还可以调整训练样本、采用有监督、增加训练阶段、将两个训练阶段分离成同时在两个不同原始模型进行训练的方式等等。

在上一实施例的基础上，若在获取到视频数据时还可以同时得知包含的发声物的类型数，还将类型数作为聚类算法的聚类中心数参与发声物定位模型的训练过程，以基于准确的发声物种类数来准确区分混合音频信号中都包含哪几种发声物，进而提升对每种发声物在图像中位置的定位准确度。

进一步的，在上述任意实施例的基础上，在根据视频数据确定发声物在由图像信息形成的图像中的实际位置之后，还可以基于确定出实际位置进行一些其它处理，例如在图像中对实际位置的预设范围内的运动物体进行轮廓标记，然后从视频数据中提取标记出的轮廓内的部分视频内容，并作为对应的发声物的独立发声视频资料，就可以基于该种类发声物的独立发声视频资料来针对性的查看其图像内容，进一步的，可根据该图像内容针对性的学习该种类乐器的演凑方式、演凑手势等；又例如还可以结合音频分离技术，向用户提供某种类发声物的单一发声功能(即屏蔽其它种类的发声)，来进行针对性的学习。

为加深理解，本申请还结合一个具体应用场景，给出了一种具体的实现方案，请参见如图5和图6：

图5示出了对某厂音乐会拍摄得到的视频文件的某个时刻的画面，画面中从左到右分别存在吉他、古筝、小号，需求为：根据视频文件包含的上述三种乐器的音频信息确定在各发声时刻是图像上哪个位置的乐器在发声，并具体提取出乐器—古筝在正常音乐会的独立视频资料。

1)服务器接收到用户发来的包含上述音乐会的视频文件；

2)将该视频文件导入预设训练好的发声物定位模型，得到该发声物定位模型输出的对古筝发声时的位置标记，得到古筝全程在图像中心发声的位置信息；

该发声物定位模型通过以下训练过程得到：

该发声物定位模型包含音频网络和图像网络两部分，分别用音频网络提取音频特征和用图像网络提取图像特征，然后计算以图像方式表示的音频特征在图像特征形成的空间特征图上各部分的相似度，得到发声物定位图，同时判断发声物定位图中大于一定阈值的地方认为是发声物体，即单发声物定位图；

然后通过平均特征，得到当前图像的特征表达，对此表达进行聚类，可以得到伪标签，代表大约有多少种发声物体，并可以使用该伪标签对音频/图像网络进行分类训练，迭代此过程，得到一阶段训练好的音频网络和图像网络，以及不同类别的表征；

在得到单发声物定位图之后，在此基础上输入多发声物的音频-图像对作为新的训练样本，仍然从中提取音频特征和图像特征，然后计算均以图像形式表示的空间相似度，这时的发声物定位图大于一定阈值的位置则变化为多个发声物的空间融合。同时使用上面训练阶段得到的不同发声物类别的表征，对这些发声物进行区分，得到不同类别物体的发声物定位图，进而实现定位的目的。

3)服务器将古筝所处的图像中心位置为中心，辅以演凑者的动作，将预设范围的运动部分进行轮廓标记，可得到形如图6所示的方形的包括古筝和其演凑者的轮廓；

轮廓也可以调整为诸如人形、椭圆形等其它形状。

4)服务器将方形轮廓部分的视频从原视频文件中截取出来，作为用户所需的独立视频资料返回。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种用于定位发声物的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的用于定位发声物的装置500可以包括：视频数据获取单元501和发声物图像位置确定单元502。其中，视频数据获取单元501，被配置成获取包含有发声物的音频信息和图像信息的视频数据；发声物图像位置确定单元502，被配置成根据视频数据确定发声物发声时在由图像信息形成的图像中的实际位置。

在本实施例中，用于定位发声物的装置500中：视频数据获取单元501和发声物图像位置确定单元502的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-202的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，当视频数据中包含有多种类型的发声物时，发声物图像位置确定单元502可以包括：

多类型发声物图像位置确定子单元，被配置成根据视频数据确定不同类型的发声物发声时在由图像信息形成的图像中的实际位置。

在本实施例的一些可选的实现方式中，该多类型发声物图像位置确定子单元可以包括：

模型定位模块，被配置成通过预先训练的发声物定位模型，确定不同类型的发声物发声时在由视频数据的图像信息形成的图像中的位置信息；其中，发声物定位模型记录有不同发声物发声时在图像中不同位置发声的不同音频特征。

在本实施例的一些可选的实现方式中，该模型定位模块可以进一步被配置成：

从音频数据中提取得到实际音频特征；

利用发声物定位模型确定与实际音频特征对应的实际类型的发声物发声时在由图像信息形成的图像中的实际位置。

在本实施例的一些可选的实现方式中，用于定位发声物的装置500还可以包括发声物定位模型训练单元，该发声物定为模型训练单元可以被配置成：

获取仅记录不同的单一发声物的音频信息和图像信息的第一视频样本；

利用第一视频样本中包含单一发声物在发声时的音频特征和图像特征的关联关系，对初始定位模型进行训练，得到具有识别单一发声物发声时在图像中实际位置的能力的训练后模型；

获取记录不同类型的多个发声物的音频信息和图像信息的第二视频样本；

利用第二视频样本中包含的不同类型的发声物的音频特征对训练后模型进行训练，得到具有识别发声物发声时在图像中实际位置且发声物的类型的能力的发声物定位模型。

在本实施例的一些可选的实现方式中，用于定位发声物的装置500还可以包括：

类型数参与训练单元，被配置成响应于在获取到视频数据时同时得知包含的发声物的类型数，将类型数作为聚类算法的聚类中心数参与发声物定位模型的训练。

轮廓标记单元，被配置成在根据视频数据确定发声物在由图像信息形成的图像中的实际位置之后，在图像中对实际位置的预设范围内的运动物体进行轮廓标记；

独立发声视频资料提取单元，被配置成从视频数据中提取标记出的轮廓内的部分视频内容，并作为对应的发声物的独立发声视频资料。

本实施例作为对应于上述方法实施例的装置实施例存在，本实施例提供的用于定位发声物的装置提供了一种用于定位发声物在图像中位置的方案，尤其适用于存在鸡尾酒会效应的多类型发声物的嘈杂环境下，使得机器也可具备识别出不同类型的发声物在图像中的实际位置的能力，以便于根据确定出的实际位置针对性的查看某种类型的发声物所在的特定画面区域，在多种场景下均能发挥重要作用。

根据本申请的实施例，本申请还提供了一种电子设备和一种计算机可读存储介质。

图8示出了一种适于用来实现本申请实施例的用于定位发声物的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的用于定位发声物的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于定位发声物的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用于定位发声物的方法对应的程序指令/模块(例如，附图7所示的视频数据获取单元501和发声物图像位置确定单元502)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于定位发声物的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储该电子设备在执行用于定位发声物的方法所创建的各类数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至适用于执行用于定位发声物的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

适用于执行用于定位发声物的方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生适用于执行用于定位发声物的方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本申请实施例提供了一种用于定位发声物在图像中位置的方案，尤其适用于存在鸡尾酒会效应的多类型发声物的嘈杂环境下，使得机器也可具备识别出不同类型的发声物在图像中的实际位置的能力，以便于根据确定出的实际位置针对性的查看某种类型的发声物所在的特定画面区域，在多种场景下均能发挥重要作用。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于定位发声物的方法，包括：

获取包含有发声物的音频信息和图像信息的视频数据；

根据所述视频数据和预先训练的发声物定位模型确定所述发声物发声时在由所述图像信息形成的图像中的实际位置，所述发声物定位模型通过以下方式训练得到：获取仅记录不同的单一发声物的音频信息和图像信息的第一视频样本；利用所述第一视频样本中包含单一发声物在发声时的音频特征和图像特征的关联关系，对初始定位模型进行训练，得到具有识别单一发声物发声时在图像中实际位置的能力的训练后模型及不同发声物类别的表征，所述不同发声物类别的表征通过在训练的过程中，基于图像特征进行聚类，得到伪标签，并根据所述伪标签对初始定位模型进行分类训练得到；获取记录不同类型的多个发声物的音频信息和图像信息的第二视频样本；利用所述第二视频样本中包含的不同类型的发声物的音频特征及所述不同发声物类别的表征对所述训练后模型进行训练，得到具有识别发声物发声时在图像中实际位置且发声物的类型的能力的发声物定位模型。

2.根据权利要求1所述的方法，其中，当所述视频数据中包含有多种类型的发声物时，所述根据所述视频数据确定所述发声物发声时在由所述图像信息形成的图像中的实际位置，包括：

根据所述视频数据确定不同类型的发声物发声时在由所述图像信息形成的图像中的实际位置。

3.根据权利要求2所述的方法，其中，所述根据所述视频数据确定不同类型的发声物发声时在由所述图像信息形成的图像中的实际位置，包括：

通过预先训练的发声物定位模型，确定不同类型的发声物发声时在由所述视频数据的图像信息形成的图像中的位置信息；其中，所述发声物定位模型记录有不同发声物在图像中不同位置发声的不同音频特征。

4.根据权利要求3所述的方法，其中，所述通过预先训练的发声物定位模型，确定不同类型的发声物发声时在由所述视频数据的图像信息形成的图像中的位置信息，包括：

从所述音频数据中提取得到实际音频特征；

利用所述发声物定位模型确定与所述实际音频特征对应的实际类型的发声物发声时在由所述图像信息形成的图像中的实际位置。

5.根据权利要求1所述的方法，还包括：

响应于在获取到所述视频数据时同时得知包含的发声物的类型数，将所述类型数作为聚类算法的聚类中心数参与所述发声物定位模型的训练。

6.根据权利要求1至5任一项所述的方法，在根据所述视频数据确定所述发声物发声时在由所述图像信息形成的图像中的实际位置之后，还包括：

在所述图像中对所述实际位置的预设范围内的运动物体进行轮廓标记；

从所述视频数据中提取标记出的轮廓内的部分视频内容，并作为对应的发声物的独立发声视频资料。

7.一种用于定位发声物的装置，包括：

视频数据获取单元，被配置成获取包含有发声物的音频信息和图像信息的视频数据；

发声物图像位置确定单元，被配置成根据所述视频数据和预先训练的发声物定位模型确定所述发声物发声时在由所述图像信息形成的图像中的实际位置；

发声物定位模型训练单元，被配置成：获取仅记录不同的单一发声物的音频信息和图像信息的第一视频样本；利用所述第一视频样本中包含单一发声物在发声时的音频特征和图像特征的关联关系，对初始定位模型进行训练，得到具有识别单一发声物发声时在图像中实际位置的能力的训练后模型及不同发声物类别的表征，所述不同发声物类别的表征通过在训练的过程中，基于图像特征进行聚类，得到伪标签，并根据所述伪标签对初始定位模型进行分类训练得到；获取记录不同类型的多个发声物的音频信息和图像信息的第二视频样本；利用所述第二视频样本中包含的不同类型的发声物的音频特征及所述不同发声物类别的表征对所述训练后模型进行训练，得到具有识别发声物发声时在图像中实际位置且发声物的类型的能力的发声物定位模型。

8.根据权利要求7所述的装置，其中，当所述视频数据中包含有多种类型的发声物时，所述发声物图像位置确定单元包括：

多类型发声物图像位置确定子单元，被配置成根据所述视频数据确定不同类型的发声物发声时在由所述图像信息形成的图像中的实际位置。

9.根据权利要求8所述的装置，其中，所述多类型发声物图像位置确定子单元包括：

模型定位模块，被配置成通过预先训练的发声物定位模型，确定不同类型的发声物发声时在由所述视频数据的图像信息形成的图像中的位置信息；其中，所述发声物定位模型记录有不同发声物在图像中不同位置发声的不同音频特征。

10.根据权利要求9所述的装置，其中，所述模型定位模块进一步被配置成：

从所述音频数据中提取得到实际音频特征；

11.根据权利要求7所述的装置，还包括：

类型数参与训练单元，被配置成响应于在获取到所述视频数据时同时得知包含的发声物的类型数，将所述类型数作为聚类算法的聚类中心数参与所述发声物定位模型的训练。

12.根据权利要求7至11任一项所述的装置，还包括：

轮廓标记单元，被配置成在根据所述视频数据确定所述发声物在由所述图像信息形成的图像中的实际位置之后，在所述图像中对所述实际位置的预设范围内的运动物体进行轮廓标记；

独立发声视频资料提取单元，被配置成从所述视频数据中提取标记出的轮廓内的部分视频内容，并作为对应的发声物的独立发声视频资料。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的用于定位发声物的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的用于定位发声物的方法。