CN110717067A

CN110717067A - 视频中音频聚类的处理方法和装置

Info

Publication number: CN110717067A
Application number: CN201911289077.4A
Authority: CN
Inventors: 闫启伟; 黄宇凯; 郝玉峰; 曹琼; 李科
Original assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Current assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-01-21
Anticipated expiration: 2039-12-16
Also published as: CN110717067B

Abstract

本公开涉及一种视频中音频聚类的处理方法和装置，其中，该方法包括：获取视频片段集，视频片段集包括多个视频片段；获取每个视频片段的音频；提取所述音频的音频特征；获取每个视频片段的人脸图像；提取人脸图像的人脸特征；基于视频片段的音频特征和人脸特征，确定音频之间的综合相似度；基于综合相似度，对音频进行聚类。通过本公开的处理方法，提高了音频聚类的准确率。

Description

视频中音频聚类的处理方法和装置

技术领域

本公开涉及音频聚类技术领域，具体是涉及一种视频中音频聚类的处理方法和装置。

背景技术

对于音频的聚类，除了采用人工听音频，根据音色的不同，通过主观判断对音频进行聚类之外，还往往通过提取该音频的声纹特征，基于提取得到的声纹特征进行聚类。通过这两种方式对音频进行聚类，其聚类的准确率存在瓶颈。

发明内容

为了克服相关技术问题，本公开提供一种视频中音频聚类的处理方法和装置。

第一方面，本公开实施例提供一种视频中音频聚类的处理方法，其包括：获取视频片段集，视频片段集包括多个视频片段；获取每个视频片段的音频；提取音频的音频特征；获取每个视频片段的人脸图像；提取人脸图像的人脸特征；基于视频片段的音频特征和人脸特征，确定音频之间的综合相似度；基于综合相似度，对音频进行聚类。

一种实施方式中，获取视频片段集包括：获取视频；基于视频，根据语音活动检测，对视频进行切分，得到视频片段集。

另一种实施方式中，获取每个视频片段的音频包括：基于视频片段，通过分轨处理，得到视频片段的音频。

又一种实施方式中，提取音频的音频特征，得到音频特征向量；提取人脸图像的人脸特征，得到人脸特征向量；基于音频特征和人脸特征，确定音频之间的综合相似度，包括：根据音频特征向量之间的第一距离，以及人脸特征向量之间的第二距离，确定音频之间的综合距离；基于综合相似度，对音频进行聚类，包括：基于综合距离，根据距离阈值对音频进行聚类。

又一种实施方式中，基于综合距离，根据距离阈值对音频进行聚类，包括：确定音频之间的综合距离的最小值，并判断最小值是否大于距离阈值；若综合距离的最小值小于或等于距离阈值，则将综合距离最小的音频进行聚类，并返回执行确定音频之间的综合距离的最小值，并判断最小值是否大于距离阈值的步骤；若综合距离最小值大于距离阈值，则完成对音频的聚类。

又一种实施方式中，获取每个视频片段的人脸图像包括：提取每个视频片段的图像代表帧，基于图像代表帧，切取图像代表帧中的人脸图像。

又一种实施方式中，提取每个视频片段的图像代表帧包括：基于每个视频片段，通过人脸特征检测、人脸校验，以及人脸姿态估计，提取每个视频片段的图像代表帧。

第二方面，本公开实施例提供了一种视频中音频聚类的处理装置，该视频中音频聚类的处理装置具有实现上述第一方面或第一方面任意一种实施方式中所涉及的视频中音频聚类的处理方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

一种实施方式中，视频中音频聚类的处理装置包括：获取视频片段集模块，用于获取视频片段集，视频片段集包括多个视频片段；获取音频模块，用于获取每个视频片段的音频；提取音频特征模块，用于提取音频的音频特征；获取人脸图像模块，用于获取每个视频片段的人脸图像；提取人脸特征模块，用于提取人脸图像的人脸特征；确定模块，用于基于视频片段的音频特征和人脸特征，确定音频之间的综合相似度；聚类模块，用于基于综合相似度，对音频进行聚类。

另一种实施方式中，获取视频片段集模块采用如下方式获取视频片段集：获取视频；基于视频，根据语音活动检测，对视频进行切分，得到视频片段集。

又一种实施方式中，提取音频特征模块采用如下方式提取音频的音频特征：提取音频的音频特征，得到音频特征向量；提取人脸特征模块采用如下方式提取人脸图像的人脸特征：提取人脸图像的人脸特征，得到人脸特征向量；确定模块采用如下方式确定音频的综合相似度：根据音频特征向量之间的第一距离，以及人脸特征向量之间的第二距离，确定音频之间的综合距离；聚类模块采用如下方式对音频进行聚类：基于综合距离，根据距离阈值对所述音频进行聚类。

又一实施方式中，聚类模块采用如下方式对音频进行聚类：确定音频之间的综合距离的最小值，并判断最小值是否大于距离阈值；若综合距离的最小值小于或等于距离阈值，则将综合距离最小的音频进行聚类，并返回执行确定音频之间的综合距离的最小值，并判断最小值是否大于距离阈值的步骤；若综合距离最小值大于距离阈值，则完成对音频的聚类。

又一种实施方式中，获取人脸图像模块采用如下方式获取每个视频片段的人脸图像：提取每个视频片段的图像代表帧，基于图像代表帧，切取图像代表帧中的人脸图像。

又一种实施方式中，获取人脸图像模块采用如下方式提取每个视频片段的图像代表帧：基于每个视频片段，通过人脸特征检测、人脸校验，以及人脸姿态估计，提取每个视频片段的图像代表帧。

第三方面，本公开实施例提供一种电子设备，其中，电子设备包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行视频中音频聚类的处理方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行视频中音频聚类的处理方法。

本公开提供的一种视频中音频聚类的处理方法和装置，其中，本公开的处理方法通过获取与每个视频片段对应的音频特征，以及与每个视频片段对应的人脸图像的人脸特征，并基于视频片段的音频特征和人脸特征，对与视频片段对应的音频进行聚类。通过本公开的处理方法，提高了音频聚类的准确率。

附图说明

通过参考附图阅读下文的详细描述，本公开实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的实施方式，其中：

图1示出了本公开实施例提供的一种视频中音频聚类的处理方法示意图；

图2示出了本公开实施例提供的一种视频中音频聚类的处理方法中获取视频片段集的步骤的示意图；

图3示出了本公开实施例提供的一种视频中音频聚类的处理装置示意图；

图4示出了本公开实施例提供的一种电子设备示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本公开的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

本公开提供一种视频中音频聚类的处理方法，该处理方法应用于对视频中的音频进行聚类处理的过程中。

图1示出了本公开实施例提供的一种视频中音频聚类的处理方法示意图。

如图1所示，视频中音频聚类的处理方法100包括步骤S101、步骤S102、步骤S103、步骤S104、步骤S105、步骤S106，以及步骤S107。下面将分别介绍各步骤的具体情况。

在步骤S101中，视频片段集包括多个视频片段。其中，视频片段中包含有正在说话的人。

在步骤S102中，获取每一个视频片段对应的音频。其中，一个视频片段对应一个音频。

在步骤S103中，基于获取的每一个视频片段的音频，获取到该音频的音频特征。例如，若视频片段中只有一个人在说话，那么，音频特征是该正在说话的人的音频特征；若视频片段中有众多的人在说话，那么，音频特征是有关众多的人的音频特征。

在步骤S104中，获取每一个视频片段中的人脸图像。其中，视频片段中的人脸图像可以是一个，也可以是多个。

在步骤S105中，基于获取的每一个视频片段的人脸图像，获取到该人脸图像的人脸特征。例如，若视频片段是只有一个人脸的场景，那么，人脸特征是该这个人脸的人脸特征。其中，人脸特征是指可以表示这一人脸的特点的标识。例如，可以是人脸的图像特征值，还可以是人脸的特征向量。

在步骤S106中，可以基于每一个视频片段的对应的音频特征，以及每一个视频片段中的人脸图像的人脸特征，确定与该视频片段对应的音频，和与其他视频片段对应的音频之间的综合相似度。

在步骤S107中，可以基于S106步骤中得到的综合相似度，对各个音频进行聚类，将综合相似度最大的两个音频进行聚类处理；重复所述过程。如果综合相似度小于一定阈值，则完成此聚类。

图2示出了本公开实施例提供的一种视频中音频聚类的处理方法中获取视频片段集的步骤的示意图。

作为一种可能的实施例，如图2所示，在步骤S101中，可以包括步骤S1011和步骤S1012。

在步骤S1011中，可以获取视频。其中，所述视频可以包括完整的对话，例如，所述视频可以是一段电影片段。

在步骤S1012中，基于获取的视频，根据语音活动检测（Voice ActivityDetection，VAD），判断视频中的独立的一段语音片段是否结束，若此段语音片段结束，则将视频从语音片段结束之处切分出来，通过此种方式，可以得到若干个各自包含有一段独立对话的视频片段。若干个视频片段构成视频片段集，其中，每一个视频片段中可以存在并且只包含有一个说话的人。

根据语音活动检测，将一整段视频切割成若干个各自包含有一段独立对话的视频片段。通过对每一段视频片段进行音频提取和人脸图像的提取，并基于提取的音频得到该音频的音频特征，基于提取的人脸图像得到该人脸图像的人脸特征。根据得到的每一段视频片段的音频特征和人脸特征，可以确定不同视频片段之间的综合相似度，进而可以将一整段视频中的各个音频中包含有同一个说话的人的音频片段放在一组，包含有不同说话的人的音频片段放在一组，实现了对这一整段视频的中各个音频的聚类处理。由于聚类处理过程中，同时考虑了音频特征与人脸特征，进一步保证了聚类处理的准确度。

作为一种可能的实施例，获取每个视频片段的音频包括：可以基于视频片段，通过分轨处理，得到每个视频片段对应的音频。

在实际应用中，通过对得到的视频片段进行分轨处理，可以快速、准确得将与该视频片段对应的音频提取出来，为后续获取音频的音频特征提供了基础。

作为一种可能的实施例，提取音频的音频特征包括：通过声纹识别模型中的声纹特征提取模块，提取每个音频的音频特征。例如，梅尔倒频谱系数（MFCC）或深度特征（DeepFeature），通过梅尔倒频谱系数可以辨识某段音频的发话者是谁。可以基于梅尔倒频谱系数，得到相应音频特征的音频特征向量。通过音频特征向量可以将音频量化，进而可以更加直观、准确的判断音频与音频之间的不同。

若音频中存在一个说话人，那么，该音频特征向量是关于该说话人的音频特征向量；若音频中存在多个说话人，那么该音频特征是关于这多个说话人的音频特征向量。由于一个说话人的音频特征向量与多个说话人的音频特征向量的差别较大，因此，在进行音频聚类时，基于音频特征向量即可有效将多个说话人的音频与一个说话人的音频区分开来，以保证音频聚类的准确性，即音频中包含有同一个说话人的音频片段聚类为一组别，进而使得同一视频中含有多个说话人的音频片段不被聚类到任何一个聚类组别中。

作为一种可能的实施例，提取人脸图像的人脸特征包括：通过人脸识别模型中的人脸特征提取模块，提取人脸图像的人脸特征，得到相应人脸特征的人脸特征向量。

可以通过卷积神经网络计算，将人脸图像中的人脸映射到欧式空间的特征向量上，以得到与人脸图像对应的人脸特征向量。

还可以通过神经网络进行特征值提取，得到与人脸图像对应的人脸图像的特征值。并基于人脸特征向量或人脸图像的特征值将人脸图像进行量化，来加直观、准确的判断音频与音频之间的不同。

作为一种可能的实施例，基于音频特征和人脸特征，确定音频之间的综合相似度包括：可以根据得到的音频特征向量之间的第一距离，以及人脸特征向量之间的第二距离，确定音频之间的综合距离。

基于综合相似度，对音频进行聚类包括：基于音频之间的综合距离，根据距离阈值对音频进行聚类。

为了便于解释音频之间的综合距离，以下述示例进行说明。

视频片段V1存在音频片段w1，视频片段V2存在音频片段w2。若通过声纹识别模型中的声纹特征提取模块提取了音频片段w1和音频片段w2的音频特征向量，并计算音频片段w1和音频片段w2的音频特征向量之间的第一距离D1=w_dist(w1,w2)。

视频片段V1存在人脸图像f1，视频片段V2存在人脸图像f2。若通过人脸识别模型中的人脸特征提取模块提取了人脸图像f1和人脸图像f2的人脸特征向量，并计算人脸图像f1和人脸图像f2的人脸特征向量之间的第二距离D2=f_dist(f1,f2)。

基于第一距离D1和第二距离D2得到音频片段w1和音频片段w2之间的综合距离D。其中，综合距离可以是第一距离D1和第二距离D2的加权求和值，例如，综合距离D=a*w_dist(w1,w2) + ß*f_dist(f1,f2)。其中，a和ß的大小可以根据实际情况进行调整。

在判断音频片段w1和音频片段w2是否可以进行聚类处理时，除了考虑音频片段的音频特征是否相似外，同时也考虑了与音频片段相对应的视频片段中的人脸图像的人脸特征是否相似。通过此种方式，进一步提高了音频聚类的准确率。

作为一种可能的实施例，基于综合距离，根据距离阈值对音频进行聚类包括：确定音频之间的综合距离的最小值，并判断最小值是否大于距离阈值。

若综合距离的最小值小于或等于距离阈值，则将综合距离最小的音频进行聚类，并返回执行确定音频之间的综合距离的最小值，并判断最小值是否大于距离阈值的步骤。

若综合距离最小值大于距离阈值，则完成对音频之间的聚类。

为了便于解释，现以下例进行解释说明。

现有A、B、C、D四个音频片段，分别两两计算这四个音频片段之间的综合距离。其中，A音频和B音频之间的综合距离为D_（A/B）；A音频和C音频之间的综合距离为D_（A/C）；A音频和D音频之间的综合距离为D_（A/D）；B音频和C音频之间的综合距离为D_（B/C）；B音频和D音频之间的综合距离为D_（B/D）；C音频和D音频之间的综合距离为D_（C/D）。

若综合距离D_（A/B）是上述所有综合距离中的最小距离，且小于或等于距离阈值，则可以将A音频和B音频聚类为一组。此时需要基于A音频和B音频聚类为一组后，分别计算与C、D音频片段之间的综合距离，并基于计算后得到的综合距离，进行上述的聚类过程。

需要说明的是，基于A音频和B音频聚类为一组后，计算与C（或D）音频片段之间的综合距离可以理解为是，分别计算A音频与C（或D）音频之间的第一综合距离，和B音频与C（或D）音频之间的第二综合距离。并将第一综合距离和第二综合距离的平均值，作为基于A音频和B音频聚类为一组后，计算与C（或D）音频片段之间的综合距离。

作为一种变形，还可以将第一综合距离和第二综合距离的最大值（或最小值），作为基于A音频和B音频聚类为一组后，计算与C（或D）音频片段之间的综合距离。

A音频和B音频聚类为一组后，计算得到的与C音频片段之间的综合距离为D_（A/B/C）；A音频和B音频聚类为一组后，计算得到的与D音频片段之间的综合距离为D_（A/B/D）。若综合距离D_（A/B/C）是D_（A/B/C）、D_（A/B/D）和D_（C/D）中的最小值，且小于或等于距离阈值，则可以将A音频、B音频和C音频聚类为一组。若综合距离D_（A/B/C）大于距离阈值，则完成聚类，此时，能够聚类为一组的音频为A音频和B音频。

进一步的，此时需要基于A音频、B音频和C音频聚类为一组后，计算与D音频片段之间的综合距离，并基于计算后得到的综合距离，进行上述的聚类过程。其中，距离阈值可以根据实际情况进行调整。

作为一种可能的实施例，获取每个视频片段的人脸图像包括：提取每个视频片段的图像代表帧，基于图像代表帧，切取图像代表帧中的人脸图像。

图像代表帧是能够代表该视频片段的图像。可以通过人脸特征检测、人脸校验，以及人脸姿态估计等技术，找到一段连续视频帧中，嘴唇轮廓变动、正面的人脸作为该视频片段的代表图像，即该视频片段的图像代表帧。并把正面的人脸作为视频片段的人脸图像。

通过嘴唇轮廓变动，并将正面的人脸作为视频片段的人脸图像，可以剔除掉存在多个人脸图像的视频片段。也就是说，本公开一实施例的视频中音频聚类的处理方法100，通过人脸特征检测、人脸校验检测，以及人脸姿态估计检测等技术，将存在多个人脸图像的视频片段剔除掉，即不对存在多个人脸图像的视频片段进行音频聚类处理。以使得到的视频片段中有且只有一个说话的人。

由于在视频片段中，将嘴唇轮廓变动，正面的人脸为该视频片段中的说话者，因此，在应用中只选取具有正面的人脸且嘴唇轮廓变动的视频片段作为获取人脸图像的视频片段，并将该嘴唇轮廓变动、正面的人脸作为视频片段的人脸图像。通过此种方式，可以剔除掉存在多个人脸图像的视频片段进行音频聚类处理的可能，保证了音频聚类的准确性，即音频中包含有同一个说话人的音频片段聚类为一组别，进而使得同一视频中含有多个说话人的音频片段不被聚类到任何一个聚类组别中。

进一步的，基于得到的有且只有一个说话的人的视频片段中的人脸图像，进行人脸特征向量的提取，得到相应的人脸特征向量；并基于该视频片段对应的音频，得到音频特征向量；再基于得到的人脸特征向量和音频特征向量，对若干个视频片段进行聚类分析。通过此种聚类处理的方式，可以使得音频中只对应一个说话人，并且将音频中包含有同一个说话人的音频片段聚类为一组别，不同说话人的音频片段，分别聚类到相应的不同组别。

在应用过程中，由于对人脸图像进行特征向量计算时，需要将待计算的人脸图像处理成固定的尺寸。因此，可以将正面的人脸处理成具有固定尺寸大小的图片，以为后续进行人脸特征向量的计算提供依据。需要说明的是，正面的人脸为进行特征向量计算的对象。

由于图像代表帧是能够代表视频片段的图像，相应的，图像代表帧中的人脸图像也是能够代表视频片段的图像。用图像代表帧中的人脸图像的人脸特征向量作为衡量视频片段中人脸图像的特征，在保证选取的人脸特征向量的准确性的基础上，还简化了对视频片段中相应的人脸特征向量的计算。

作为一种可能的实施例中，提取每个视频片段的图像代表帧包括：基于每个视频片段，通过人脸特征检测、人脸校验，以及人脸姿态估计，提取每个视频片段的图像代表帧。

图3示出了本公开实施例提供的一种视频中音频聚类的处理装置示意图。

基于相同的发明构思，如图3所示，本公开实施例还提供一种视频中音频聚类的处理装置200。视频中音频聚类的处理装置200包括：获取视频片段集模块201、获取音频模块202、提取音频特征模块203、获取人脸图像模块204、提取人脸特征模块205、确定模块206和聚类模块207。

获取视频片段集模块201，用于获取视频片段集，视频片段集包括多个视频片段。

获取音频模块202，用于获取每个视频片段的音频。

提取音频特征模块203，用于提取音频的音频特征。

获取人脸图像模块204，用于获取每个视频片段的人脸图像。

提取人脸特征模块205，用于提取人脸图像的人脸特征。

确定模块206，用于基于视频片段的音频特征和人脸特征，确定音频之间的综合相似度。

聚类模块207，用于基于综合相似度，对音频进行聚类。

作为一种可能的实施例，获取视频片段集模块201采用如下方式获取视频片段集：获取视频；基于视频，根据语音活动检测，对视频进行切分，得到视频片段集。

作为一种可能的实施例，获取音频模块202采用如下方式获取每个视频片段的音频：基于视频片段，通过分轨处理，得到视频片段的音频。

作为一种可能的实施例，提取音频特征模块203采用如下方式提取音频的音频特征：通过提取音频的音频特征，得到音频特征向量。

作为一种可能的实施例，提取人脸特征模块205采用如下方式提取人脸图像的人脸特征：通过提取人脸图像的人脸特征，得到人脸特征向量。

作为一种可能的实施例，确定模块206采用如下方式确定音频的综合相似度：根据音频特征向量之间的第一距离，以及人脸特征向量之间的第二距离，确定音频之间的综合距离；聚类模块207采用如下方式对音频进行聚类：基于综合距离，根据距离阈值对音频进行聚类。

作为一种可能的实施例，聚类模块207采用如下方式对音频进行聚类：确定音频之间的综合距离的最小值，并判断最小值是否大于距离阈值；若综合距离的最小值小于或等于距离阈值，则将综合距离最小的音频进行聚类，并返回执行确定音频之间的综合距离的最小值，并判断最小值是否大于距离阈值的步骤；若综合距离最小值大于距离阈值，则完成对音频的聚类。

作为一种可能的实施例，获取人脸图像模块204采用如下方式获取每个视频片段的人脸图像：提取每个视频片段的图像代表帧，基于图像代表帧，切取图像代表帧中的人脸图像。

作为一种可能的实施例，获取人脸图像模块204采用如下方式提取每个视频片段的图像代表帧：基于每个视频片段，通过人脸特征检测、人脸校验，以及人脸姿态估计，提取每个视频片段的图像代表帧。

图4示出了本公开的一个实施方式提供的一种电子设备30。

如图4所示，本公开的一个实施方式提供的一种电子设备30，其中，该电子设备30包括存储器310、处理器320、输入/输出（Input/Output，I/O）接口330。其中，存储器310，用于存储指令。处理器320，用于调用存储器310存储的指令执行本公开实施例的视频中音频聚类的处理方法。其中，处理器320分别与存储器310、I/O接口330连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器310可用于存储程序和数据，包括本公开实施例中涉及的音频聚类的处理的程序，处理器320通过运行存储在存储器310的程序从而执行电子设备30的各种功能应用以及数据处理。

本公开实施例中处理器320可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器320可以是中央处理单元（Central Processing Unit，CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本公开实施例中的存储器310可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（Random Access Memory，RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（Read-OnlyMemory，ROM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，HDD）或固态硬盘（Solid-State Drive，SSD）等。

本公开实施例中，I/O接口330可用于接收输入的指令（例如数字或字符信息，以及产生与电子设备30的用户设置以及功能控制有关的键信号输入等），也可向外部输出各种信息（例如，图像或声音等）。本公开实施例中I/O接口330可包括物理键盘、功能按键（比如音量控制按键、开关按键等）、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中，本公开提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本公开的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

Claims

1.一种视频中音频聚类的处理方法，其特征在于，所述方法包括：

获取视频片段集，所述视频片段集包括多个视频片段；

获取每个所述视频片段的音频；

提取所述音频的音频特征；

获取每个所述视频片段的人脸图像；

提取所述人脸图像的人脸特征；

基于所述视频片段的所述音频特征和所述人脸特征，确定所述音频之间的综合相似度；

基于所述综合相似度，对所述音频进行聚类。

2.根据权利要求1所述的处理方法，其特征在于，所述获取视频片段集包括：

获取视频；

基于所述视频，根据语音活动检测，对所述视频进行切分，得到所述视频片段集。

3.根据权利要求1所述的处理方法，其特征在于，所述获取每个所述视频片段的音频包括：

基于所述视频片段，通过分轨处理，得到所述视频片段的音频。

4.根据权利要求1所述的处理方法，其特征在于，

提取所述音频的音频特征，得到音频特征向量；

提取所述人脸图像的人脸特征，得到人脸特征向量；

所述基于所述音频特征和所述人脸特征，确定所述音频之间的综合相似度，包括：

根据所述音频特征向量之间的第一距离，以及所述人脸特征向量之间的第二距离，确定所述音频之间的综合距离；

所述基于所述综合相似度，对所述音频进行聚类，包括：

基于所述综合距离，根据距离阈值对所述音频进行聚类。

5.根据权利要求4所述的处理方法，其特征在于，所述基于所述综合距离，根据距离阈值对所述音频进行聚类，包括：

确定所述音频之间的所述综合距离的最小值，并判断所述最小值是否大于所述距离阈值；

若所述综合距离的最小值小于或等于所述距离阈值，则将所述综合距离最小的所述音频进行聚类，并返回执行确定所述音频之间的所述综合距离的最小值，并判断所述最小值是否大于所述距离阈值的步骤；

若所述综合距离最小值大于所述距离阈值，则完成对所述音频的聚类。

6.根据权利要求1所述的处理方法，其特征在于，所述获取每个所述视频片段的人脸图像包括：

提取所述每个所述视频片段的图像代表帧，基于所述图像代表帧，切取所述图像代表帧中的人脸图像。

7.根据权利要求6所述的处理方法，其特征在于，所述提取所述每个视频片段的图像代表帧包括：

基于所述每个视频片段，通过人脸特征检测、人脸校验，以及人脸姿态估计，提取所述每个视频片段的图像代表帧。

8.一种视频中音频聚类的处理装置，其特征在于，所述装置包括：

获取视频片段集模块，用于获取视频片段集，所述视频片段集包括多个视频片段；

获取音频模块，用于获取每个所述视频片段的音频；

提取音频特征模块，用于提取所述音频的音频特征；

获取人脸图像模块，用于获取每个所述视频片段的人脸图像；

提取人脸特征模块，用于提取所述人脸图像的人脸特征；

确定模块，用于基于所述视频片段的所述音频特征和所述人脸特征，确定所述音频之间的综合相似度；

聚类模块，用于基于所述综合相似度，对所述音频进行聚类。

9.根据权利要求8所述的处理装置，其特征在于，所述获取视频片段集模块采用如下方式获取视频片段集：

获取视频；

10.根据权利要求8所述的处理装置，其特征在于，所述获取音频模块采用如下方式获取每个所述视频片段的音频：

11.根据权利要求8所述的处理装置，其特征在于，

所述提取音频特征模块采用如下方式提取所述音频的音频特征：

提取所述音频的音频特征，得到音频特征向量；

所述提取人脸特征模块采用如下方式提取所述人脸图像的人脸特征：

提取所述人脸图像的人脸特征，得到人脸特征向量；

所述确定模块采用如下方式确定所述音频的综合相似度：

所述聚类模块采用如下方式对所述音频进行聚类：

基于所述综合距离，根据距离阈值对所述音频进行聚类。

12.根据权利要求11所述的处理装置，所述聚类模块采用如下方式对所述音频进行聚类：

13.根据权利要求8所述的处理装置，其特征在于，所述获取人脸图像模块采用如下方式获取每个所述视频片段的人脸图像：

14.根据权利要求13所述的处理装置，其特征在于，所述获取人脸图像模块采用如下方式提取所述每个视频片段的图像代表帧：

15. 一种电子设备，其中，所述电子设备包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行权利要求1-7中任意一项所述视频中音频聚类的处理方法。

16.一种计算机可读存储介质，其中，

所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-7中任意一项所述视频中音频聚类的处理方法。