CN115376542A - 一种低侵入性的视听语音分离方法及系统 - Google Patents
一种低侵入性的视听语音分离方法及系统 Download PDFInfo
- Publication number
- CN115376542A CN115376542A CN202211005193.0A CN202211005193A CN115376542A CN 115376542 A CN115376542 A CN 115376542A CN 202211005193 A CN202211005193 A CN 202211005193A CN 115376542 A CN115376542 A CN 115376542A
- Authority
- CN
- China
- Prior art keywords
- audio
- visual
- video
- resolution
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 81
- 230000000007 visual effect Effects 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000009545 invasion Effects 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims description 12
- 230000001360 synchronised effect Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims 1
- 238000010200 validation analysis Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100194363 Schizosaccharomyces pombe (strain 972 / ATCC 24843) res2 gene Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种低侵入性的视听语音分离方法及系统,该方法包括以下步骤:获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;构建低侵入性视听语音分离模型;利用预处理后的数据训练视听语音分离模型;将待分离的视听语音输入已训练好的视听语音分离模型中,分离出各目标对象的语音。本发明构建了一种新的视觉模态模型,将视觉特征的提取分为双支路结构,该结构同时融合了说话人的动态特征与语义特征,可在人脸图像分辨率不具备隐私侵入性的情况下有效关注可辅助语音分离的唇部动态特征,这使系统既能达到语音分离的目的又可以保护使用者的隐私信息。
Description
技术领域
本发明涉及语音分离技术领域,特别是一种低侵入性的视听语音分离方法及系统。
背景技术
如今人工智能已广泛应用于各个领域,如医疗领域、金融领域、网络安全领域等等,生活中具有人机交互功能的多模态机器人的应用场景不断增多,良好的语音分离性能是多模态机器人与用户进行良好交互的前提。视听多模态语音分离较单模态语音分离性能更好,但多模态机器人若要实现良好语音分离性能,首要任务在于视觉与语音信息的采集,如人脸图像、用户语音等,这导致对话机器人的隐私性能差,限制了对话机器人的应用范围,在这个个人隐私保护和个人信息安全备受重视的时代,人们一方面享受着多模态机器人所带来的便捷服务,另一方面又为其对隐私的侵犯而困扰。
语音分离也被称为“鸡尾酒会问题”,目的是从多人混合语音中得到每个说话人的纯净语音。随着信息技术与多媒体技术的发展,视频信号与音频信号被大量的同时保存与传播,研究者们不再局限于仅采用语音来解决语音分离问题,而是同时引入视觉信息来辅助分离。第一个视听语音分离工作的提出证明了视听语音分离的有效性,随后很多视听语音分离方法被提出,尤其是基于大数据的深度学习视听多模态语音分离。但这些方法在实现了比纯语音分离更好的分离性能的同时也采集用户更多的信息,用户在走向与机器人交互更加顺畅、便捷的同时,也担心自己的隐私被暴露,有些用户甚至会拒绝使用采集个人信息的机器人。
除此之外,多模态交互机器人或智能设备采集的视觉信息都为高清视觉信息及高采样率音频信息,如测温机器人、商用服务机器人、人脸验证、考勤设备等,高清视觉信息与高采样率音频中包含用户丰富的个人信息,如年龄、情绪、声纹等,在如今互联网大数据时代这些信息一旦泄露,不法分子便可利用这些信息获取用户更多的隐私,如健康状态、人际关系、消费行为等,而隐私泄露将导致用户不再信任人工智能,不利于人工智能的发展。
发明内容
鉴于此,本发明提供一种低侵入性的视听语音分离方法及系统,以解决上述技术问题。
本发明公开了一种低侵入性的视听语音分离方法,包括以下步骤:
步骤1:获取视频中的人脸图像之间不具备隐私侵入性的分辨率;
步骤2:基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,所述音视频包括所述视频以及与所述视频同步的语音;
步骤3:构建低侵入性视听语音分离模型;
步骤4:利用预处理后的数据训练视听语音分离模型;
步骤5:将待分离的视听语音输入已训练好的所述视听语音分离模型中,分离出所述待分离的视听语音中的语音。
进一步地,所述步骤1包括:
步骤11、从视觉模态分别采集任意两个目标对象s1和s2的n个人脸图像并分别形成人脸图像序列;其中,所述人脸图像的分辨率为fv;
步骤14、降低人脸图像的分辨率,重复步骤12至步骤13,直到不能区分人脸特征聚类图中两个人脸特征聚类图中的类别为止,然后找到对应人脸图像不具备隐私侵入性的分辨率。
进一步地,在所述步骤13中:
进一步地,所述步骤2包括:
提取视听数据集中与视频同步的音频;对于视频,选取三种不同分辨率,分别为原始分辨率,不具备隐私侵入性的分辨率之下的分辨率,介于原始分辨率与不具备隐私侵入性的分辨率之间分辨率;
将视听数据集中的视频分辨率灰度化,将灰度化的视频的分辨率分别降低至所选的三种分辨率。
进一步地,所述视听数据集选择LRS3数据集、LRS2数据集与GRID数据集,且LRS3数据集、LRS2数据集与GRID数据集分别被分为训练集、验证集与测试集,互不重叠。
进一步地,所述步骤3包括:
步骤31:利用深度神经网络构建视觉模态模型,
步骤32:将视觉模态模型与多个纯语音分离模型结合,构成低侵入性视听语音分离模型。
进一步地,在所述步骤31中:
视觉模态模型总体分为快支路和慢支路,快支路和慢支路分别以不同的帧速率处理同一输入的视频,并在不同的阶段进行横向连接,最后通过卷积块注意力模块关注与音频特征相关的视觉特征。
进一步地,所述慢支路以较大的时序跨度在一整段视频中获取稀疏的视频帧;若慢支路的采样率为T,时间跨度为τ,原始视频长度为T*τ帧;
快支路与慢支路并行,以较小的时间跨度在一整段视频中获取稠密的视频帧;快支路的时间跨度为τ/,α为两支路的帧率比,α>1,即采样率为αT;α代表两条支路对于同一视频在不同时间速度上的处理方式。
进一步地,在所述步骤32中:
视觉特征与音频特征的融合采用串联方式,串联后的视听融合特征送入分离器进行分离任务,音频解码器将分离器产生的掩码恢复为语音。
本发明还公开了一种低侵入性的视听语音分离系统,包括:
分辨率获取模块,用于获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;
预处理模块,用于基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,所述音视频包括所述视频以及与所述视频同步的语音;
构建模块,用于构建低侵入性视听语音分离模型;
训练模块,用于利用预处理后的数据训练视听语音分离模型;
分离模块,用于将待分离的视听语音输入已训练好的所述视听语音分离模型中,分离出各目标对象的语音。
由于采用了上述技术方案,本发明具有如下的优点:构建了一种新的视觉模态模型,将视觉特征的提取分为双支路结构,这种结构同时融合了说话人的唇部动态特征与语义特征,可在人脸图像分辨率不具备隐私侵入性的情况下有效关注可辅助语音分离的唇部动态特征,这使系统能够既达到语音分离的目的又可以保护使用者隐私信息,还可使系统扩展到低分辨率摄像头设备上。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种低侵入性的视听语音分离方法的流程示意图;
图2为本发明实施例的所绘制人脸特征聚类图;
图3为本发明实施例的低侵入性视听语音分离流程的系统图;
图4为本发明实施例的视觉模态模型的结构示意图。
具体实施方式
结合附图和实施例对本发明作进一步说明,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
本实施例中一种低侵入性的视听语音分离方法及系统的具体实现平台:操作系统为ubuntu16.04,编程语言为Python 3.7,神经网络框架为Pytorch1.11.0版本,CUDA版本为11.7,计算加速单元为NVIDIA 3090Ti GPU。
如图1所示,本发明提供了一种低侵入性的视听语音分离方法的实施例,其包括如下步骤;
S1、获取视频中的人脸图像之间不具备隐私侵入性的分辨率。
S11、视觉隐私侵入性的量化计算方法:
定义如下:设从视觉模态分别采集到任意两个说话人s1和s2的n个面部图像序列分别为和图像分辨率均为fv,使用视觉特征提取器Fv分别对说话人s1和s2的面部图像进行特征提取得到特征序列为和当分辨率fv低于阈值Thv时,采用任意的特征提取器Fv得到的两个说话人的脸部特征均不具有差异性,即对于统计量两者之间的差别无统计学意义,则认为视觉模态不具备侵入性,公式:其中,αv为置信度水平,N为两人采用的人脸图片数,
S12、将人脸识别数据集中男女分开,进行了三组实验,分别为男-男实验组、女-女实验组,男-女实验组,每组实验中任意两人进行配对。
本实施例人脸识别数据集采用Pins Face Recognition数据集。Pins FaceRecognition数据经过裁剪和标记,共包括了105个名人的不同角度与不同形式的17534张图片,图片原始分辨率为224×224。
其中,FaceNet在LFW数据集上测试的准确率达到了99.63%。
如图2所示,为本发明实施例的人脸特征聚类图。
本实施例使用TSNE绘制人脸特征聚类图,图中不同颜色代表每对中不同人s1与s2,每个点代表从一张人脸图像中提取出的特征,红色点代表在低分辨率下,两人特征距离小于0.15。
S15、降低人脸图像分辨率、重复S12~S14直到人脸特征聚类图中两人人脸特征聚类图中类别聚合趋势不明显,此时对应分辨率为分辨率上线;
其中,实验按照原始图像比例降低分辨率,最低分辨率fvmin,最高分辨率为fvmax。
S2、基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,音视频包括视频以及与视频同步的语音;
本实施例对视听数据集提取与视频同步的音频。对于视频,选取三个不同分辨率,分别为原始分辨率(HR),阈值分辨率之下的分辨率(LR),介于原始分辨率与阈值分辨率之间分辨率(MR)。将视听数据集中的视频分辨率灰度化,将灰度化的视频分别降低至所选的三种分辨率。
其中,视听数据集选择LRS3数据集、LRS2数据集与GRID数据集,每个数据集被分为训练集、验证集与测试集,互不重叠。
如图3所示,本实施例中,低侵入性视听语音分离模型包括视觉模态模型、音频编码器、分离器及音频解码器。
S3、构建低侵入性视听语音分离模型包括;
S31、构建视觉模态模型。
如图4所示,为本发明实施例中的视觉模态模型结构图。本实施例中,视觉模态模型总体上分为两个支路,分别称为快支路与慢支路。两个支路使用相同的卷积神经网络,但以不同的帧速率处理同一段视频,并在不同的阶段进行横向连接。
S32、慢支路以较大的时序跨度在一整段视频中获取稀疏的视频帧,这样低帧率的采样下主要获取人的颜色、纹理等语义信息。若慢支路的采样率为T,时间跨度为τ(每隔τ帧图像序列处理一帧),原始视频长度为T*τ帧。
S33、快支路与慢支路并行,但以较小的时间跨度在一整段视频中获取稠密的视频帧。快支路的时间跨度为τ/α(α>1),α为两支路的帧率比,即采样率为αT。α代表了两条支路对于同一视频在不同时间速度上的处理方式。
其中,在快支路中不仅采用高采样率的输入,在整体网络中不对时间维度进行下采样(不进行池化与卷积)。同时快支路还具有较低的信道容量,慢支路的β(β<1)倍,对于空间的建模能力弱,含有空间语义信息少。
本实施例中,τ=16/13,α=8,β=1/8。
S34、两支路在每个“阶段”以横向连接的方式进行融合,使另外一条支路含有另外一条支路所提取的特征。
本实施例中,横向连接具体在pool1、res2、res3和res4之后。最后,对每条支路的输出进行全局池化,将两个特征向量连接起来。去掉了最后的全连接层,网络具体实例化参数如表1所示,卷积核的维度用{T×S2,C}表示,T×S2表示时空大小,T其中是时间长度,S是一个正方形空间裁剪的高度和宽度,C是通道数。
表1网络具体实例化参数
S35、将特征沿时间维度进行上采样后得到视觉特征Fv。最后通过卷积块注意力块进一步关注与音频特征相关的视觉特征。
S36、将视觉模态模型嵌入到其他纯语音分离模型的方法中,得到低侵入性视听语音分离模型。视觉特征与音频特征融合阶段采用串联融合方式。
本实例化中,纯语音分离模型选择Conv-TasNet,DPRNN将本发明中所提视觉模态模型嵌入到其中构成低侵入性视听语音分离模型。视觉特征与音频特征的融合采用串联方式,串联后的视听融合特征送入分离器进行分离任务,音频解码器将分离器产生的掩码恢复为语音。
S4、利用预处理后的数据训练视听语音分离模型包括;
S41、在音频采样率8000Hz下训练纯语音模型;
S42、利用训练好的纯语音模型进行高分辨率(HR)下的增量训练视听语音分离模型,音频采样率为8000Hz;
S43、利用S42训练好的视听分离模型继续增量训练低分辨率(MR和LR)下的视听语音分离模型。
实验设置:
初始学习率为1-5,批量大小(batch size)为1,优化器为ADAM优化器,学习率每隔两个epoch调整为原来的0.98倍。采用评价指标为尺度不变信噪比(SI-SNRi)与信噪比(SDRi)衡量分离出的说话人语音的质量。
实施例结果:
表2为本发明与纯语音分离模型对比结果;
视觉模态模型对视觉信息提取是在视频原始分辨率、音频采样率为8000Hz时。从表中我们可以看出,相比单模态语音分离模型,加入视觉模态模型的方法分离结果更好。这说明,当引入视觉信息时,由于唇部动态特征和声学特征之间的互补性使分离性能的到了提高。同时说明,视觉模态模型在嵌入到其他单模态分离方法中时,仍能够起到作用,与单模态相比多模态语音分离更具有效性。
表2本发明与纯语音分离模型对比结果
表3为本发明在LRS3数据集中在不用分辨率下对比结果;可以看出在视频分辨率降低时,两种方法的分离性能并没有下降,甚至有所提升。我们猜测这是因为此时在低分辨率情况下,视频中与声学特征无关的信息被模糊,如脸部轮廓、颜色、发型等,本视觉模态模型所提取唇部动态特征更加丰富。尤其是在分辨率为50×50时分离性能仍旧良好,这说明了我们的方法能够在不侵犯用户隐私条件下良好的完成语音分离任务。
表3本发明在LRS3数据集中在不用分辨率下对比结果
表4为本发明实施例在LRS2数据集中在不用分辨率下对比结果;与在LRS3数据集中结果类似,在视频分辨率降低时,两种方法的分离性能并没有下降,甚至有所提升。表5为本发明实施例在GRID数据集中在不用分辨率下对比结果。
表4本发明在LRS2数据集中在不用分辨率下对比结果
表5本发明实施例在GRID数据集中在不用分辨率下对比结果;
S5、将待分离的视听语音输入已训练好的所述视听语音分离模型中,分离出待分离的视听语音中的语音。
本发明还提供了一种低侵入性的视听语音分离系统的实施例,其包括:
分辨率获取模块,用于获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;
预处理模块,用于基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,音视频包括视频以及与视频同步的语音;
构建模块,用于构建低侵入性视听语音分离模型;
训练模块,用于利用预处理后的数据训练视听语音分离模型;
分离模块,用于将待分离的视听语音输入已训练好的视听语音分离模型中,分离出各目标对象的语音。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种低侵入性的视听语音分离方法,其特征在于,包括以下步骤:
步骤1:获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;
步骤2:基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,所述音视频包括所述视频以及与所述视频同步的语音;
步骤3:构建低侵入性视听语音分离模型;
步骤4:利用预处理后的数据训练视听语音分离模型;
步骤5:将待分离的视听语音输入已训练好的所述视听语音分离模型中,分离出各目标对象的语音。
4.根据权利要求1所述的方法,其特征在于,所述步骤2包括:
提取视听数据集中与视频同步的音频;对于视频,选取三种不同分辨率,分别为原始分辨率,不具备隐私侵入性的分辨率之下的分辨率,介于原始分辨率与不具备隐私侵入性的分辨率之间分辨率;
将视听数据集中的视频分辨率灰度化,将灰度化的视频的分辨率分别降低至所选的三种分辨率。
5.根据权利要求4所述的方法,其特征在于,所述视听数据集选择LRS3数据集、LRS2数据集与GRID数据集,且LRS3数据集、LRS2数据集与GRID数据集分别被分为训练集、验证集与测试集,互不重叠。
6.根据权利要求1所述的方法,其特征在于,所述步骤3包括:
步骤31:利用深度神经网络构建视觉模态模型,
步骤32:将视觉模态模型与多个纯语音分离模型结合,构成低侵入性视听语音分离模型。
7.根据权利要求6所述的方法,其特征在于,在所述步骤31中:
视觉模态模型总体分为快支路和慢支路,快支路和慢支路分别以不同的帧速率处理同一输入的视频,并在不同的阶段进行横向连接,最后通过卷积块注意力模块关注与音频特征相关的视觉特征。
8.根据权利要求7所述的方法,其特征在于,所述慢支路以较大的时序跨度在一整段视频中获取稀疏的视频帧;若慢支路的采样率为T,时间跨度为τ,原始视频长度为T*τ帧;
快支路与慢支路并行,以较小的时间跨度在一整段视频中获取稠密的视频帧;快支路的时间跨度为τ/α,α为两支路的帧率比,α>1,即采样率为αT;α代表两条支路对于同一视频在不同时间速度上的处理方式。
9.根据权利要求6所述的方法,其特征在于,在所述步骤32中:
视觉特征与音频特征的融合采用串联方式,串联后的视听融合特征送入分离器进行分离任务,音频解码器将分离器产生的掩码恢复为语音。
10.一种低侵入性的视听语音分离系统,其特征在于,包括:
分辨率获取模块,用于获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;
预处理模块,用于基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,所述音视频包括所述视频以及与所述视频同步的语音;
构建模块,用于构建低侵入性视听语音分离模型;
训练模块,用于利用预处理后的数据训练视听语音分离模型;
分离模块,用于将待分离的视听语音输入已训练好的所述视听语音分离模型中,分离出各目标对象的语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005193.0A CN115376542A (zh) | 2022-08-22 | 2022-08-22 | 一种低侵入性的视听语音分离方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005193.0A CN115376542A (zh) | 2022-08-22 | 2022-08-22 | 一种低侵入性的视听语音分离方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115376542A true CN115376542A (zh) | 2022-11-22 |
Family
ID=84067407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211005193.0A Pending CN115376542A (zh) | 2022-08-22 | 2022-08-22 | 一种低侵入性的视听语音分离方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115376542A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129931A (zh) * | 2023-04-14 | 2023-05-16 | 中国海洋大学 | 一种视听结合的语音分离模型搭建方法及语音分离方法 |
-
2022
- 2022-08-22 CN CN202211005193.0A patent/CN115376542A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129931A (zh) * | 2023-04-14 | 2023-05-16 | 中国海洋大学 | 一种视听结合的语音分离模型搭建方法及语音分离方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Silva et al. | Bimodal emotion recognition | |
De Melo et al. | Encoding temporal information for automatic depression recognition from facial analysis | |
CN108537754B (zh) | 基于形变引导图的人脸图像复原系统 | |
CN111401268B (zh) | 一种面向开放环境的多模态情感识别方法及装置 | |
CN111488932B (zh) | 一种基于帧率感知的自监督视频时-空表征学习方法 | |
CN112507920B (zh) | 一种基于时间位移和注意力机制的考试异常行为识别方法 | |
CN113343950B (zh) | 一种基于多特征融合的视频行为识别方法 | |
CN113935435A (zh) | 基于时空特征融合的多模态情感识别方法 | |
CN115376542A (zh) | 一种低侵入性的视听语音分离方法及系统 | |
CN113298018A (zh) | 基于光流场和脸部肌肉运动的假脸视频检测方法及装置 | |
CN114519880A (zh) | 基于跨模态自监督学习的主动说话人识别方法 | |
CN115359534A (zh) | 基于多特征融合和双流网络的微表情识别方法 | |
CN113835375A (zh) | 一种辅助治疗焦虑障碍的人工智能系统 | |
Yan et al. | Micro-expression recognition using enriched two stream 3d convolutional network | |
CN116417008A (zh) | 一种跨模态音视频融合语音分离方法 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
CN115471901A (zh) | 基于生成对抗网络的多姿态人脸正面化方法及系统 | |
CN113269068B (zh) | 一种基于多模态特征调节与嵌入表示增强的手势识别方法 | |
CN114882590A (zh) | 一种基于事件相机的多粒度时空特征感知的唇读方法 | |
CN111898576B (zh) | 一种基于人体骨架时空关系的行为识别方法 | |
CN115346259A (zh) | 一种结合上下文信息的多粒度学业情绪识别方法 | |
CN114782995A (zh) | 一种基于自注意力机制的人交互行为检测方法 | |
CN114360034A (zh) | 基于三胞胎网络的深度伪造人脸检测方法、系统及设备 | |
CN112183727A (zh) | 一种对抗生成网络模型、以及基于所述对抗生成网络模型的散景效果渲染方法及系统 | |
CN112700255A (zh) | 一种多模态监督服务系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |