CN114519880A - 基于跨模态自监督学习的主动说话人识别方法 - Google Patents
基于跨模态自监督学习的主动说话人识别方法 Download PDFInfo
- Publication number
- CN114519880A CN114519880A CN202210120706.6A CN202210120706A CN114519880A CN 114519880 A CN114519880 A CN 114519880A CN 202210120706 A CN202210120706 A CN 202210120706A CN 114519880 A CN114519880 A CN 114519880A
- Authority
- CN
- China
- Prior art keywords
- active speaker
- speaker recognition
- video
- attention
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000003287 optical effect Effects 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000005236 sound signal Effects 0.000 claims abstract description 13
- 238000010586 diagram Methods 0.000 claims description 24
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000002441 reversible effect Effects 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000001629 suppression Effects 0.000 abstract description 5
- 238000001914 filtration Methods 0.000 abstract description 3
- 238000011176 pooling Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000029152 Small face Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于跨模态自监督学习的主动说话人识别方法,通过利用视频的同步性特征来自动划分正负样本对用于训练,使得模型能够在无需人工标注的情况下训练至合适的参数,进一步,采用光流法追踪像素点在时间维度上的运动轨迹,通过计算轨迹上的注意力值的平均值可以得到整合后的注意力图,在注意力图上寻找注意力峰值的同时对其周围的区域进行非极大值抑制,能够方便准确地获取单帧注意力图上的人脸位置,通过沿着光流的轨迹反向投影,可准确获得原图中每一帧图片的人脸位置,通过利用人脸特征可计算与音频信号的余弦相似度,用预定的阈值过滤,从而获得能够对主动说话人图像以及非主动说话人图像同时进行高精度识别的主动说话人识别模型。
Description
技术领域
本发明属于计算机视觉以及语音识别技术领域,具体涉及一种基于跨模态自监督学习的主动说话人识别方法。
背景技术
主动说话人识别是视频分析算法中的一个重要组成部分,该任务通过分析微小的面部运动和相应的语音波形,在一组可能的候选人中识别出主动说话者。主动说话人识别是大量后续任务的必要基础,比如说话人分类、会议视频重定位、语音增强和人机交互等应用,主要依据视频帧中的人物面部特征和当前音频中人物声音特征的相似程度来区分识别。若人物面部特征和人物声音特征的相似度超过特定阈值,则当前声音由该人物发出,并称其为主动说话人,反之则为非主动说话人。
近年来,随着深度学习的不断发展,尤其是卷积神经网络在目标识别上的优异表现,使得越来越多的目标识别任务能够实现高效自动化。一些研究已将卷积神经网络应用于主动说话人识别的任务中。
然而,目前的主动说话人识别模型对数据标注的依赖性较强,仅仅利用人工标注的正负图像样本进行训练。在现实情况中,由于网络社交平台的兴起,网络上大量的视频内容可以作为实验数据,但人力资源有限无法标注,一般的主动说话人识别模型无法利用这些天然可用的数据样本。与此同时,由于拍摄仪器、光照、技术等原因,可能出现人工难以辨别主动说话人的视频图像,如人物面部过小、人脸模糊或人脸密集等较难辨认的图像,一般的主动说话人识别模型很难在这些样本上具有强泛化与高精度的识别表现。
发明内容
本发明是为解决上述问题而进行的,目的在于提供一种无需人工标注且能够对识别难度相对较大的图像完成精确识别的主动说话人识别方法,本发明采用了如下技术方案:
本发明提供了一种基于跨模态自监督学习的主动说话人识别方法,其特征在于,包括以下步骤:
步骤S1,利用训练数据对主动说话人识别模型进行跨模态自监督学习,获得合适的模型参数;
步骤S2,将待测视频输入训练完成的所述主动说话人识别模型,得到所述待测视频的主动说话人识别结果,
其中,步骤S2中,主动说话人识别模型通过如下步骤进行识别:
步骤S2-1,提取所述待测视频的视觉特征和听觉特征,并基于所述视觉特征和所述听觉特征计算所述待测视频中每帧图像的注意力图;
步骤S2-2,采用光流法融合所述注意力图,提取每帧所述注意力图的密度光流值,并将所述密度光流值进行链接,得到光流轨迹,并对所述光流轨迹上的注意力得分进行平均;
步骤S2-3,寻找所述注意力图中的峰值点,并采用非极大值抑制法去除干扰项;
步骤S2-4,将找到的所述峰值点沿所述光流轨迹反向投影到每帧所述图像,从而定位各帧所述图像中的人脸位置;
步骤S2-5,计算所述人脸位置的所述视觉特征和所述听觉特征的余弦相似度,当该余弦相似度大于预定的阈值时,判定所述人脸位置对应于主动说话人。
本发明提供的基于跨模态自监督学习的主动说话人识别方法,还可以具有这样的技术特征,其中,步骤S1中,利用视频的同步性特征构建所述训练数据。
本发明提供的基于跨模态自监督学习的主动说话人识别方法,还可以具有这样的技术特征,其中,将所述视频中连续的N帧图像和对应的音频信号组成正样本对,将所述视频中连续的N帧图像和偏移t秒后的音频信号组成负样本对。
本发明提供的基于跨模态自监督学习的主动说话人识别方法,还可以具有这样的技术特征,其中,所述主动说话人识别模型包括依次设置的输入层、特征提取模块、光流法整合注意力层、寻找峰值点层、非极大值抑制层、峰值点反向投影层、相似度计算层以及归一化层,所述特征提取模块包括视觉子模块以及听觉子模块,分别用于提取所述待测视频的所述视觉特征和所述听觉特征。
本发明提供的基于跨模态自监督学习的主动说话人识别方法,还可以具有这样的技术特征,其中,步骤S2-1包括以下子步骤:
步骤S2-1-1,将所述连续的N帧图像依次输入所述视觉子模块,获取每帧图像的所述视觉特征;
步骤S2-1-2,将对应的所述音频信号依次输入所述听觉子模块,获取对应的所述听觉特征;
步骤S2-1-3,计算所述视觉特征和对应的所述听觉特征的余弦相似度,得到每帧图像的所述注意力图。
本发明提供的基于跨模态自监督学习的主动说话人识别方法,还可以具有这样的技术特征,其中,步骤S2-3中,所述主动说话人识别模型检测空间局部极大值在时间聚合上的同步映射,并以降序排列,从而选择出所述峰值点,同时每次都抑制在ρ×ρ大小的区域内的所述峰值点。
本发明提供的基于跨模态自监督学习的主动说话人识别方法,还可以具有这样的技术特征,其中,步骤S2-4中,在沿所述光流轨迹反向投影的过程中,同时检测ρ×ρ大小的区域内是否有所述峰值点,如果存在所述峰值点,则以该峰值点作为反向投影的轨迹。
本发明提供的基于跨模态自监督学习的主动说话人识别方法,还可以具有这样的技术特征,其中,所述主动说话人识别模型为以VGG-M模型为骨干的神经网络模型。
发明作用与效果
根据本发明的基于跨模态自监督学习的主动说话人识别方法,因为通过利用视频的同步性特征来自动划分正负样本对用于训练,所以使得模型能够在无需人工标注的情况下利用数据集训练至合适的参数,进一步,采用光流法追踪像素点在时间维度上的运动轨迹,通过计算轨迹上的注意力值的平均值可以得到整合后的注意力图,在整合后的注意力图上寻找注意力峰值的同时对其周围的区域进行非极大值抑制,因此能够方便且准确地获取到单帧注意力图上的人脸位置,通过沿着光流的轨迹反向投影,即可准确获得原图中每一帧图片的人脸位置,通过利用人脸所在位置的图像特征可以计算其与音频信号的余弦相似度,使用预定的特定阈值过滤,从而获得了能够对主动说话人图像以及非主动说话人图像同时进行高精度识别的主动说话人识别模型。根据本发明提供的基于跨模态自监督学习的主动说话人识别方法,能够无需人工标注即可通过主动说话人识别模型高效地训练和检测视频中的主动说话者,具有强泛化和高精度的优势。
附图说明
图1是本发明实施例中基于跨模态自监督学习的主动说话人识别方法的流程图;
图2是本发明实施例中主动说话人识别模型的特征提取模块的结构示意图;
图3是本发明实施例中主动说话人识别模型进行识别的流程图;
图4是本发明实施例中主动说话人识别结果的示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的基于跨模态自监督学习的主动说话人识别方法作具体阐述。
<实施例>
本实施例中,基于跨模态自监督学习的主动说话人识别方法通过一台计算机运行,该计算机需要一张显卡进行GPU加速从而完成模型的训练过程,训练完成的主动说话人识别方法的模型以及视频识别过程以可执行代码的形式存储在计算机中。
本实施例中,采用的训练数据集从YouTube平台下载视频得到,包括训练集和验证集。其中,训练集包含231部好莱坞影片,从每段视频中提取超过15分钟的片段,用于模型训练;验证集包含66部好莱坞影片,从每段视频中提取超过15分钟的片段,用于模型效果的检验。
图1是本实施例中基于跨模态自监督学习的主动说话人识别方法的流程图。
如图1所示,基于跨模态自监督学习的主动说话人识别方法具体包括以下步骤:
步骤S1,利用待训练数据对主动说话人识别模型进行跨模态自监督学习,获得合适的模型参数,也即得到训练完成的主动说话人识别模型。
本实施例中,主动说话人识别模型包括依次设置的输入层、特征提取模块、光流法整合注意力层、寻找峰值点层、非极大值抑制层、峰值点反向投影层、相似度计算层以及归一化层。其中,各层包含有不同的模型参数,这些模型参数在构建时为随机设置。
图2是本实施例中主动说话人识别模型特征提取模块的结构示意图。
如图2所示,特征提取模块包括视频子模块和音频子模块,其中,视频子模块包括依次设置的输入层I1、卷积层C1-0、卷积层C1-1、最大池化层M1-0、卷积层C1-2、卷积层C1-3、卷积层C1-4、卷积层C1-5、最大池化层M1-1、全连接层F1-0、全连接层F1-1,音频子模块包括依次设置的输入层I2、卷积层C2-0、最大池化层M2-0、卷积层C2-1、最大池化层M2-1、卷积层C2-2、卷积层C2-3、卷积层C2-4、最大池化层M2-2、卷积层C2-5、全连接层F2-0、全连接层F2-1。特征提取模块的具体结构和设置如下:
(1)输入层I1,用于输入视频画面,经过尺寸调整、帧率调整、视频帧分组等视频预处理操作,得到尺寸为T×H×W×3的视频帧;
(2)卷积层C1-0,卷积核大小为5×7×7,滑动步长为(1,2,2),输出为(T-4)×(H/2)×(W/2)×64;
(3)卷积层C1-1,卷积核大小为5×5,滑动步长为(2,2),输出为(T-4)×(H/4)×(W/4)×128;
(4)最大池化层M1-0,池化大小为3×3,滑动步长为(2,2),输出为(T-4)×(H/8)×(W/8)×128;
(5)卷积层C1-2,卷积核大小为3×3,滑动步长为(1,1),输出为(T-4)×(H/8)×(W/8)×256;
(6)卷积层C1-3,卷积核大小为3×3,滑动步长为(1,1),输出为(T-4)×(H/8)×(W/8)×256;
(7)卷积层C1-4,卷积核大小为3×3,滑动步长为(1,1),输出为(T-4)×(H/8)×(W/8)×256;
(8)卷积层C1-5,卷积核大小为5×5,滑动步长为(1,1),输出为(T-4)×(H/8)×(W/8)×512;
(9)最大池化层M1-1,池化大小为3×3,滑动步长为(2,2),输出为(T-4)×(H/16)×(W/16)×512;
(10)全连接层F1-0,进行矩阵变换,输出为(T-4)×(H/16)×(W/16)×512;
(11)全连接层F1-1,进行矩阵变换,输出为(T-4)×(H/16)×(W/16)×1024;
(12)输入层I2,用于输入音频序列,经过短时傅里叶变换等音频预处理操作,得到尺寸为4T×80×1的梅尔频谱图;
(13)卷积层C2-0,卷积核大小为3×3,滑动步长为(1,2),输出为4T×40×64;
(14)最大池化层M2-0,卷积核大小为3×1,滑动步长为(1,2),输出为4T×19×64;
(15)卷积层C2-1,池化大小为3×3,滑动步长为(1,1),输出为4T×19×192;
(16)最大池化层M2-1,卷积核大小为3×3,滑动步长为(2,2),输出为2T×9×192;
(17)卷积层C2-2,卷积核大小为3×3,滑动步长为(1,1),输出为2T×9×256;
(18)卷积层C2-3,卷积核大小为3×3,滑动步长为(1,1),输出为2T×9×256;
(19)卷积层C2-4,池化大小为3×3,滑动步长为(1,1),输出为2T×9×256;
(20)最大池化层M2-2,池化大小为3×3,滑动步长为(2,2),输出为T×4×256;
(21)卷积层C2-5,池化大小为4×4,滑动步长为(1,1),输出为(T-4)×1×512;
(22)全连接层F2-0,进行矩阵变换,输出为(T-4)×1×512;
(23)全连接层F2-1,进行矩阵变换,输出为(T-4)×1×1024;
上述主动说话人识别模型特征提取模块中,每一个卷积层之后都做批量归一化操作。
本实施例中,利用视频的同步性特征来自动构建大量训练数据,具体地,将视频中连续的N帧图像和其相对应的音频信号共同形成正样本对,将视频中连续的N帧图像和其偏移t秒后的音频信号共同形成负样本对,因此,利用视频本身的同步性特征即可自动生成正负样本对,无需人工标注。随后,利用这些正负样本对来训练模型参数,从而得到训练完成的模型,由于采用正负样本进行训练,因此训练完成的模型能够同时对主动说话人以及非主动说话人进行识别。
步骤S2,将待测视频输入训练完成的主动说话人识别模型,得到待测视频的主动说话人识别结果。
本实施例中,主动说话人识别模型为预先通过模型训练步骤训练获得并存储在计算机中,计算机可以通过可执行代码调用该模型并同时批量处理多段视频,得到并输出每段视频的主动说话人识别结果。
本实施例中,主动说话人识别模型的输出维数为二维,分别表示视频中的待预测人物被识别为主动说话人和非主动说话人的概率得分,若主动说话人得分大于非主动说话人得分则判断该待预测人物的主动说话人识别结果为说话,反之,则该主动说话人识别结果为不说话。
图3是本实施例中主动说话人识别模型进行识别的流程图。
如图3所示,步骤S2中,训练完成的主动说话人识别模型在预测阶段的识别、检测过程具体包括以下子步骤:
步骤S2-1,分别计算待测视频中每一帧图片的注意力图。
步骤S2-1具体包括以下子步骤:
步骤S2-1-1,将连续的N帧图像依次输入视觉子模块,从而获取每帧图像的视觉特征图,该视觉特征图包含有多个视觉特征向量。
步骤S2-1-2,将对应的音频信号依次输入听觉子模块,从而获取对应的听觉特征图,该听觉特征图包含有多个听觉特征向量。
步骤S2-1-3,对每帧图像,计算对应的视觉特征向量和听觉特征向量的余弦相似度,从而得到每帧图像的注意力图。
本实施例中,计算注意力图的模型以卷积神经网络VGG-M模型为骨干,利用现有的深度学习框架PyTorch完成模型的搭建。同时,该模型采用三维卷积来处理视频图像,对于一维的声音信号,先求其对应的梅尔频谱图,然后在梅尔频谱图上使用二维卷积提取特征。
将训练集中的各个训练图像依次输入构建好的主动说话人识别特征提取模型并进行一次迭代。迭代后,采用最后一层的模型参数分别计算出损失误差,然后将计算得到的损失误差反向传播,从而更新模型参数。重复迭代至达到训练完成条件,得到训练完成的主动说话人识别特征提取模型,通过该模型,可以计算视频中每帧图像的注意力图。
步骤S2-2,采用光流法整合注意力图,提取每一帧注意力图的密度光流值,并将密度光流值进行链接,得到光流轨迹,对光流轨迹上的注意力得分进行平均,从而使得注意力图中各像素点的注意力得分更加平滑。
本实施例中,为了使模型对人物运动的变化更加稳健,采用光流法沿时间整合注意力图,任何跟踪方法都可以用来代替光流法,在本实施例中,为便于进行说明,直接采用光流法。
步骤S2-3,寻找注意力图中的峰值点,并采用非极大值抑制法来去除干扰项。
本实施例中,为了获得离散的视听对象,该模型检测空间局部极大值在时间聚合上的同步映射,并以降序排列,通过简单地选择峰值点,同时每次都抑制在ρ×ρ大小的正方形框中的峰值点,所选的峰值点可以看作是明显的视听对象。
步骤S2-4,将寻找到的峰值点根据光流轨迹反向投影到各帧图像,定位各帧图像中的人脸位置。
本实施例中,声源已经被分组成不同的视听对象,因此可以为每一个对象提取特征向量,以便在最后的主动说话人检测中使用。在提取这些特征之前,首先先确定声源在每一帧中的位置。一个简单的策略是在整个视频中遵循物体的光流轨迹,然而这些轨迹是不精确的,可能不完全对应于声源的位置。因此,在沿着光流轨迹反向投影的过程中,同时检测ρ×ρ大小的区域内是否有峰值点,如果存在峰值点,则以该峰值点作为反向投影的轨迹。
步骤S2-5,计算人脸特征(即人脸位置区域的图像的视觉特征)和听觉特征的余弦相似度,当该余弦相似度大于预定的阈值时,则判定该人脸位置对应于主动说话人,否则则判定为非主动说话人。
在步骤S2-4中,主动说话人识别模型已经追踪到每一帧中的声源位置,然后从视觉特征图中选择相应声源位置处的听觉特征向量,计算该视觉特征向量和相应的听觉特征向量的余弦相似度,通过一个简单的阈值判断,即可定位主动说话人。
图4是本实施例中主动说话人识别结果的示意图,其中,左边的方框所标记的是主动说话人,右边的方框所标记的是非主动说话人,两个方框采用不同的颜色进行标示。
将最终得到的主动说话人识别模型在验证集上进行验证,实验结果显示,对于66好莱坞影片中的1500000张视频帧,主动说话人识别模型的识别准确率达到95%,即模型几乎能够完全正确地识别视频中的主动说话人。最终的主动说话人识别模型能够以较高的准确度识别视频中的主动说话人与非主动说话人。
本实施例中,主动说话人识别模型学习到的是微小的面部运动和相应的语音波形间的关系,根据这一特征来进行主动说话人的识别,因此能够达到很高的识别精度。
实施例作用与效果
根据本实施例提供的基于跨模态自监督学习的主动说话人识别方法,基于跨模态自监督学习的主动说话人识别方法,因为通过利用视频的同步性特征来自动划分正负样本对用于训练,所以使得模型能够在无需人工标注的情况下利用数据集训练至合适的参数,进一步,采用光流法追踪像素点在时间维度上的运动轨迹,通过计算轨迹上的注意力值的平均值可以得到整合后的注意力图,在整合后的注意力图上寻找注意力峰值的同时对其周围以ρ为边长的正方形区域进行非极大值抑制,因此能够方便且准确地获取到单帧注意力图上的人脸位置,通过沿着光流的轨迹反向投影,即可准确获得原图中每一帧图片的人脸位置,通过利用人脸所在位置的图像特征可以计算其与音频信号的的余弦相似度,使用特定阈值过滤,从而获得了能够对主动说话人图像以及非主动说话人图像同时进行高精度识别的主动说话人识别模型。根据本发明实施例的基于跨模态自监督学习的主动说话人识别方法,能够无需人工标注即可通过主动说话人识别模型高效地训练和检测视频中的主动说话者,具有强泛化和高精度的优势。
另外,实施例中,由于主动说话人识别模型基于深度卷积神经网络VGG-M模型,因此能够表达图像的高层特征,有利于图像识别任务。同时,还由于主动说话人识别模型仅基于深度卷积神经网络VGG-M模型,因此模型结构简单,不需要使用模型混合、多任务训练以及度量学习等方法就能够完成主动说话人以及非主动说话人识别,所以,本实施例的模型构建快速方便,训练集也不需要过多人工标注就能够实现训练,因此训练过程可以快速完成,且训练消耗的人力资源也较少。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
Claims (8)
1.一种基于跨模态自监督学习的主动说话人识别方法,其特征在于,包括以下步骤:
步骤S1,利用训练数据对主动说话人识别模型进行跨模态自监督学习,获得合适的模型参数;
步骤S2,将待测视频输入训练完成的所述主动说话人识别模型,得到所述待测视频的主动说话人识别结果,
其中,步骤S2中,所述主动说话人识别模型通过如下步骤进行识别:
步骤S2-1,提取所述待测视频的视觉特征和听觉特征,并基于所述视觉特征和所述听觉特征计算所述待测视频中每帧图像的注意力图;
步骤S2-2,采用光流法融合所述注意力图,提取每帧所述注意力图的密度光流值,并将所述密度光流值进行链接,得到光流轨迹,并对所述光流轨迹上的注意力得分进行平均;
步骤S2-3,寻找所述注意力图中的峰值点,并采用非极大值抑制法去除干扰项;
步骤S2-4,将找到的所述峰值点沿所述光流轨迹反向投影到每帧所述图像,从而定位各帧所述图像中的人脸位置;
步骤S2-5,计算所述人脸位置的所述视觉特征和所述听觉特征的余弦相似度,当该余弦相似度大于预定的阈值时,判定所述人脸位置对应于主动说话人。
2.根据权利要求1所述的基于跨模态自监督学习的主动说话人识别方法,其特征在于:
其中,步骤S1中,利用视频的同步性特征构建所述训练数据。
3.根据权利要求2所述的基于跨模态自监督学习的主动说话人识别方法,其特征在于:
其中,将所述视频中连续的N帧图像和对应的音频信号组成正样本对,将所述视频中连续的N帧图像和偏移t秒后的音频信号组成负样本对。
4.根据权利要求1所述的基于跨模态自监督学习的主动说话人识别方法,其特征在于:
其中,所述主动说话人识别模型包括依次设置的输入层、特征提取模块、光流法整合注意力层、寻找峰值点层、非极大值抑制层、峰值点反向投影层、相似度计算层以及归一化层,
所述特征提取模块包括视觉子模块以及听觉子模块,分别用于提取所述待测视频的所述视觉特征和所述听觉特征。
5.根据权利要求4所述的基于跨模态自监督学习的主动说话人识别方法,其特征在于:
其中,步骤S2-1包括以下子步骤:
步骤S2-1-1,将所述连续的N帧图像依次输入所述视觉子模块,获取每帧图像的所述视觉特征;
步骤S2-1-2,将对应的所述音频信号依次输入所述听觉子模块,获取对应的所述听觉特征;
步骤S2-1-3,计算所述视觉特征和对应的所述听觉特征的余弦相似度,得到每帧图像的所述注意力图。
6.根据权利要求1所述的基于跨模态自监督学习的主动说话人识别方法,其特征在于:
其中,步骤S2-3中,所述主动说话人识别模型检测空间局部极大值在时间聚合上的同步映射,并以降序排列,从而选择出所述峰值点,同时每次都抑制在ρ×ρ大小的区域内的所述峰值点。
7.根据权利要求1所述的基于跨模态自监督学习的主动说话人识别方法,其特征在于:
其中,步骤S2-4中,在沿所述光流轨迹反向投影的过程中,同时检测ρ×ρ大小的区域内是否有所述峰值点,如果存在所述峰值点,则以该峰值点作为反向投影的轨迹。
8.根据权利要求1所述的基于跨模态自监督学习的主动说话人识别方法,其特征在于:
其中,所述主动说话人识别模型为以VGG-M模型为骨干的神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210120706.6A CN114519880B (zh) | 2022-02-09 | 2022-02-09 | 基于跨模态自监督学习的主动说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210120706.6A CN114519880B (zh) | 2022-02-09 | 2022-02-09 | 基于跨模态自监督学习的主动说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114519880A true CN114519880A (zh) | 2022-05-20 |
CN114519880B CN114519880B (zh) | 2024-04-05 |
Family
ID=81597671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210120706.6A Active CN114519880B (zh) | 2022-02-09 | 2022-02-09 | 基于跨模态自监督学习的主动说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114519880B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115831119A (zh) * | 2022-12-07 | 2023-03-21 | 湘潭大学 | 一种基于交叉注意力机制的说话人检测及字幕生成方法 |
WO2024032159A1 (zh) * | 2022-08-12 | 2024-02-15 | 之江实验室 | 多人机交互场景下的说话对象检测 |
CN117562583A (zh) * | 2024-01-17 | 2024-02-20 | 吉林大学 | 人工智能辅助的心脏功能检测系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647804A (zh) * | 2019-08-09 | 2020-01-03 | 中国传媒大学 | 一种暴力视频识别方法、计算机系统和存储介质 |
CN110751208A (zh) * | 2018-10-29 | 2020-02-04 | 山东大学 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
CN112906624A (zh) * | 2021-03-12 | 2021-06-04 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN113378697A (zh) * | 2021-06-08 | 2021-09-10 | 安徽大学 | 一种基于卷积神经网络的说话人脸视频生成方法及装置 |
WO2021184026A1 (en) * | 2021-04-08 | 2021-09-16 | Innopeak Technology, Inc. | Audio-visual fusion with cross-modal attention for video action recognition |
CN113851131A (zh) * | 2021-08-17 | 2021-12-28 | 西安电子科技大学广州研究院 | 一种跨模态唇语识别方法 |
-
2022
- 2022-02-09 CN CN202210120706.6A patent/CN114519880B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751208A (zh) * | 2018-10-29 | 2020-02-04 | 山东大学 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
CN110647804A (zh) * | 2019-08-09 | 2020-01-03 | 中国传媒大学 | 一种暴力视频识别方法、计算机系统和存储介质 |
CN112906624A (zh) * | 2021-03-12 | 2021-06-04 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
WO2021184026A1 (en) * | 2021-04-08 | 2021-09-16 | Innopeak Technology, Inc. | Audio-visual fusion with cross-modal attention for video action recognition |
CN113378697A (zh) * | 2021-06-08 | 2021-09-10 | 安徽大学 | 一种基于卷积神经网络的说话人脸视频生成方法及装置 |
CN113851131A (zh) * | 2021-08-17 | 2021-12-28 | 西安电子科技大学广州研究院 | 一种跨模态唇语识别方法 |
Non-Patent Citations (2)
Title |
---|
柳欣;李鹤洋;钟必能;杜吉祥;: "结合有监督联合一致性自编码器的跨音视频说话人标注", 电子与信息学报, no. 07, 9 May 2018 (2018-05-09) * |
潘陈听;谭晓阳;: "复杂背景下基于深度学习的视频动作识别", 计算机与现代化, no. 07, 15 July 2020 (2020-07-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024032159A1 (zh) * | 2022-08-12 | 2024-02-15 | 之江实验室 | 多人机交互场景下的说话对象检测 |
CN115831119A (zh) * | 2022-12-07 | 2023-03-21 | 湘潭大学 | 一种基于交叉注意力机制的说话人检测及字幕生成方法 |
CN117562583A (zh) * | 2024-01-17 | 2024-02-20 | 吉林大学 | 人工智能辅助的心脏功能检测系统及方法 |
CN117562583B (zh) * | 2024-01-17 | 2024-03-15 | 吉林大学 | 人工智能辅助的心脏功能检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114519880B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114519880B (zh) | 基于跨模态自监督学习的主动说话人识别方法 | |
US10275672B2 (en) | Method and apparatus for authenticating liveness face, and computer program product thereof | |
Fisher et al. | Speaker association with signal-level audiovisual fusion | |
Hassanat | Visual speech recognition | |
Yargıç et al. | A lip reading application on MS Kinect camera | |
CN105959723A (zh) | 一种基于机器视觉和语音信号处理相结合的假唱检测方法 | |
Kalbande et al. | Lip reading using neural networks | |
CN110458235A (zh) | 一种视频中运动姿势相似度比对方法 | |
Tao et al. | CENet: A channel-enhanced spatiotemporal network with sufficient supervision information for recognizing industrial smoke emissions | |
Chanthaphan et al. | Facial emotion recognition based on facial motion stream generated by kinect | |
Hao et al. | Deepfake detection using multiple data modalities | |
Soundarya et al. | Visual speech recognition using convolutional neural network | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
Singh et al. | Scientific exploration of hand gesture recognition to text | |
Kikuchi et al. | Watch, listen once, and sync: Audio-visual synchronization with multi-modal regression CNN | |
Herath et al. | Image based sign language recognition system for Sinhala sign language | |
Han et al. | Multi-view visual speech recognition based on multi task learning | |
CN114022938A (zh) | 视素识别的方法、装置、设备和存储介质 | |
Chaturvedi et al. | Object recognition using image segmentation | |
Han et al. | Efficient and fast multi-view face detection based on feature transformation | |
Lin et al. | Enhanced multi-view dancing videos synchronisation | |
Kim et al. | Design and implementation of a lip reading system in smart phone environment | |
Clarke et al. | Improving audiovisual active speaker detection in egocentric recordings with the data-efficient image transformer | |
Kishore et al. | DSLR-Net a depth based sign language recognition using two stream convents | |
Geeroms et al. | Audio-Visual Active Speaker Identification: A comparison of dense image-based features and sparse facial landmark-based features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |