CN117475360A - 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 - Google Patents

基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 Download PDF

Info

Publication number
CN117475360A
CN117475360A CN202311817989.0A CN202311817989A CN117475360A CN 117475360 A CN117475360 A CN 117475360A CN 202311817989 A CN202311817989 A CN 202311817989A CN 117475360 A CN117475360 A CN 117475360A
Authority
CN
China
Prior art keywords
audio
video
separation
data
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311817989.0A
Other languages
English (en)
Other versions
CN117475360B (zh
Inventor
袁佳宁
范易鑫
袁幼廷
李健
范晓军
徐佳军
刘林峰
王孝坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Nashi Medical Technology Co ltd
Original Assignee
Nanjing Nashi Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Nashi Medical Technology Co ltd filed Critical Nanjing Nashi Medical Technology Co ltd
Priority to CN202311817989.0A priority Critical patent/CN117475360B/zh
Publication of CN117475360A publication Critical patent/CN117475360A/zh
Application granted granted Critical
Publication of CN117475360B publication Critical patent/CN117475360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

发明公开了基于改进型MLSTM‑FCN的音视频特点的生物体征提取与分析方法,具体涉及生物特征提取领域,首先,通过音视频分离得到音频和视频数据,并利用分离效能系数生成分离质量信号,在高度和中度分离质量信号下,使用SwinTransformer‑Base模型提取连续的41维AU特征向量和39维MCFF特征,确保音视频数据长度和维度相同,随后,利用MLSTM‑FCN模型和分离效能系数转换数据为生物特征质量概率模型,以明确样本属性,解决传统方法中的限制、参数庞大和高成本问题,提高生物特征分析的准确性和可行性,为决策提供可靠的数据支持。

Description

基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析 方法
技术领域
本发明涉及生物特征提取领域,更具体地说,本发明涉及基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法。
背景技术
现有服务行业为更好地了解并理解用户来制定更好的服务,近年来,基于音视频的生物特征提取技术应运而生,通过分析用户的音频和视频数据,能够识别和理解个体的生理和心理特征,包括情感、声音特征和面部表情等。这种方法目前在多个领域得到广泛应用。在情感分析和用户体验研究中,被用来深入了解情感反馈、分析声音特征和检测面部表情。
目前,视频特征的提取主要依赖于光流的神经网络,例如基于C3D的Slowfast和基于vision transformer的Timesformer。然而,这些网络需要大量的训练数据,并且通常只能处理较短(3—10秒)的视频片段。这导致了庞大的模型参数和高昂的训练成本,尤其在迁移到非标准数据集时需要额外的处理步骤。
另一方面,音频特征主要依赖于音频的频谱特征和属性,如MFCC和fbank等。尽管这些特征能够反映音频的一部分特征信息,但由于音频通常具有较高的采样率(例如42kHz),导致序列长度非常长,难以直接用于特征提取。
值得注意的是,目前的音视频分析方法通常只是对音视频进行直接分析,而没有充分考虑分离质量对最终分析结果的影响。这导致了生物特征提取的结果可能受到分离质量的干扰,无法为最终决策提供有效的数据支持,从而导致服务效果不如人意。
为了解决上述问题,现提供一种技术方案。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供,首先,通过音视频分离获得音频和视频数据并得到分离效能系数,基于分离效能系数生成分离质量信号,并将它们转化为适当的格式;然后,在高度和中度分离质量信号的情况下,使用SwinTransformer-Base模型对视频进行分帧处理,提取41维AU特征向量,并生成连续的AU序列;同时,对音频数据提取MCFF特征,得到39维的特征矩阵;接下来,通过预处理确保音频和视频数据具有相同的长度和维度;最后,使用改进的MLSTM-FCN模型和分离效能系数,将数据转化为生物特征质量概率模型,通过映射生成概率值,明确样本属性,进而克服了传统方法中存在的训练数据限制、模型参数庞大和高昂成本的问题,同时使得音视频数据更适于特征提取和分析,从而有助于提高生物特征分析的准确性和可行性,为决策提供更可靠的数据支持,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
步骤S1,针对数据样本的视频进行音视频分离得到音频数据和视频数据,并将音频和视频数据转化为对应的文件格式,采集音视频分离前后的结构信息,结构信息包括音频互相关指数和视频互相关指数,对音频互相关指数和视频互相关指数综合处理得到分离效能系数,对分析效能进一步分析,得到分离等级信号,分离等级信号包括高度、中度和低度分离质量信号;
步骤S2,在确认为高度、中度分离质量信号的情况下,使用SwinTransformer-Base模型对视频进行帧率分割,将每一帧的图像预测出41维的AU特征向量,形成连续的AU序列;
步骤S3,在确认为高度、中度分离质量信号的情况下,提取音频中MCFF特征,输出结果为m个时间以及每个时间步上的39个特征值的特征矩阵;
步骤S4,在步骤S3和S2的基础上,获取处理过后的音频和视频数据,对音频数据和视频数据进行预处理,确保输入模型的音频和视频数据具有相同的长度和维度;
步骤S5,将预处理过后的数据传入到改进后MLSTM-FCN模型,分别得到8维中间向量结果,将中间结果传入FC中加权得到对应的生物特征质量概率模型,将模型结果通过映射并结合分离效能系数得到概率值,对概率值进一步分析生成提示信号,提示信号包括高度、低度相似信号。
在一个优选的实施方式中,音频互相关指数的获取逻辑为:
步骤S1-001,获取音视频未分离前后的原始、分离后音频数据集合,以及原始、分离后视频数据集合;
步骤S1-002,通过原始、分离后音频数据集合以及原始、分离后视频数据集合获得音频互相关指数和视频互相关指数;
步骤S1-003,对于音频数据,音频互相关指数的计算公式为:
其中:
表示音频互相关指数;
分别表示原始音频数据、分离后音频数据的平均振幅;
分别表示原始音频数据、分离后音频数据的振幅标准差;
表示原始音频和分离后音频之间的振幅协方差;
是用于稳定计算的常数,以避免分母为零,且/>均为小正数。
在一个优选的实施方式中,视频互相关指数的获取逻辑为:
步骤S1-011,对于视频数据,首先将原始、分离后视频分别间隔抽帧进行分解,得到每一帧的图像;
步骤S1-012,对于每一对对应的帧,计算每一对对应帧的结构相关系数,计算公式为:
其中:
表示第/>对对应帧的结构相关系数;
分别表示第/>对对应原始帧、分离后帧的亮度均值;
分别表示第/>对对应原始帧、分离后帧的亮度标准差;
表示第/>对对应原始帧和分离后帧之间的亮度协方差;
分别是用于稳定计算的常数,且均大于0;
分别表示为原始帧、分离后帧;
表示亮度相似性;
表示对比度相似性;
表示结构相似性;
步骤S1-013,将每一对对应帧的结构相关系数和区分阈值进行比较,若每一对对应帧的结构相关系数大于等于区分阈值,则合格分离帧数量累加1,计算合格分离帧数量与所有对应帧总数的比值得到视频互相关指数。
在一个优选的实施方式中,在获取分离效能系数后,将分离效能系数和分类第一、第二阈值分别进行比较;
若分析效能系数大于等于分类第二阈值,生成高度分离质量信号;
若分离效能系数大于等于分类第一阈值,且小于分类第二阈值,生成中度分离质量信号;
若分离效能系数小于分类第一阈值,生成低度分离质量信号。
在一个优选的实施方式中,步骤S2具体包括以下内容:
步骤S2-001,在确认为高度、中度分离质量信号的情况下,对分离后的视频提取连续的帧,根据视频的帧率将视频分割成一系列的图像帧,每帧代表视频中的一个瞬时图像;
步骤S2-002,对每一帧的图像,使用预训练的SwinTransformer-Base模型进行特征提取,生成一个特征向量;
步骤S2-003,使用神经网络将图像特征映射到AU的维度,以获得41维的AU特征向量;
步骤S2-004,将每帧的41维AU特征向量按照时间顺序连接起来,形成一个连续的AU序列,这个序列代表了整个视频中AU特征的变化过程。
在一个优选的实施方式中,步骤S3具体包括以下内容:
步骤S3-001,在确认为高度、中度分离质量信号的情况下,对分离后的音频提取每个视频帧下对应的信号,将每个帧下对应的信号标记为
,其功率谱密度的计算公式为:其功率谱密度的计算公式为:;式中,表示功率频谱密度,/>是信号的傅里叶变换,用于离散采样的信号;
步骤S3-002,使用Mel滤波组对功率频谱密度进行滤波,每个Mel滤波器通道的输出可以表示为:
式中,
表示第/>个Mel滤波器通道的输出,/>表示功率谱密度在频率/>处的值,是第/>个Mel滤波器的频率响应;
步骤S3-003,对Mel滤波器通道的能量进行对数化:;
式中,表示第/>个Mel滤波器通道的对数化结果;
步骤S3-004,对对数化的Mel滤波器通道系数应用离散余弦变换来获得MFCC系数:
式中,表示第/>个MFCC系数;
步骤S3-005,由此将原始的MFCC特征数据变换为一个39维的MFCC特征向量,其中包括12维的倒谱系数,12维的倒谱系数一阶差分,12维的倒谱系数二阶差分,以及1维的能量信息,1维的能量一阶差分,和1维的能量二阶差分。
在一个优选的实施方式中,步骤S4具体包括以下内容:
步骤S4-001,在步骤S3和S2的基础上,获取处理过后的音频和视频数据;
步骤S4-002,找到所有数据中音频特征和视频特征各自的最长序列长度,分别记为 和/>
步骤S4-003,使用填充操作,将所有数据的音频特征序列和视频特征序列扩展到相同的最大长度;
步骤S4-004,将处理过的音频和视频特征数据按照批量大小的要求,在批次维度上进行拼接。
在一个优选的实施方式中,步骤S5具体包括以下内容:
步骤S5-001,经过步骤S4处理得到预处理过后的音频特征和视频特征,将预处理过后的音频特征和视频特征传入改进后的MLSTM-FCN模型,获得8维中间向量,中间向量分别表示为和/>
步骤S5-002,将中间向量,分别传递到两个独立的全连接层,得到加权的特征,加权后的特征分别表示为和/>,表示为:/>
式中,和/>是/>层的函数;
步骤S5-003,将两个层的结果进行融合,得到融合的特征,将融合的特征标记为/>,表示为:/>
步骤S5-004,将融合后的特征传递到另一个层,以生成生物特征质量的概率模型,该/>
层的输出表示不同生物特征质量类别的分数,表示为:
式中,是用于映射的/>层,/>是分数向量。
在一个优选的实施方式中,步骤S5-005,应用Softmax函数来将分数向量映射到概率分布,以获得每个生物特征质量类别的概率值,表示为:
式中,表示每个类别的生物特征质量的估计概率,即概率值,/>表示分离效能系数,/>分别为分离第一阈值、分离第二阈值,/>为/>的权重因子,且/>大于0。
在一个优选的实施方式中,步骤S5-006,将概率值和相似阈值进行比较;
若概率值大于等于相似阈值,生成高度相似信号;
若概率值小于相似阈值,生成低度相似信号。
本发明基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法的技术效果和优点:
1.首先,通过音视频分离获得音频和视频数据并得到分离效能系数,基于分离效能系数生成分离质量信号,并将它们转化为适当的格式;然后,在高度和中度分离质量信号的情况下,使用SwinTransformer-Base模型对视频进行分帧处理,提取41维AU特征向量,并生成连续的AU序列;同时,对音频数据提取MCFF特征,得到39维的特征矩阵;接下来,通过预处理确保音频和视频数据具有相同的长度和维度;最后,使用改进的MLSTM-FCN模型和分离效能系数,将数据转化为生物特征质量概率模型,通过映射生成概率值,明确样本属性,进而克服了传统方法中存在的训练数据限制、模型参数庞大和高昂成本的问题,同时使得音视频数据更适于特征提取和分析,从而有助于提高生物特征分析的准确性和可行性,为决策提供更可靠的数据支持;
2.通过音频互相关指数和视频互相关系数经过综合处理得到分离效能系数,通过分离效能系数对最初的音视频数据进行处理分离时的质量进行评估,将分离效能系数和分类第一、第二阈值分别进行比较,根据比较结果生成高度、中度和低度分离质量信号,进而给出明确的分析质量提示,确保仅仅生成符合进一步执行和分析的符合要求的结果,有助于避免无效的分析结果,为生物特征分析提供更为可靠的数据支持,改善生物特征提取和分析的可行性和准确性;
3.针对中度分离质量信号,引入分析效能系数,对概率值进行精细调整,以提高每个类别的生物特征质量估计的准确性,便于消除最初音视频分离结果可能引入的影响,确保最终的生物特征质量评估更加精确和可靠,分析效能系数的引入充分考虑了分离后的数据质量,从而提供更清晰的概率结果,使决策制定更有信心和精确,进而在生物特征分析中有助于减少分离误差对最终结果的潜在影响,提高了决策的可信度。
附图说明
图1为本发明基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1给出了本发明基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法,具体包括如下步骤:
步骤S1,针对数据样本的视频进行音视频分离得到音频数据和视频数据,并将音频和视频数据转化为对应的文件格式,采集音视频分离前后的结构信息,结构信息包括音频互相关指数和视频互相关指数,对音频互相关指数和视频互相关指数综合处理得到分离效能系数,对分析效能进一步分析,得到分离等级信号,分离等级信号包括高度、中度和低度分离质量信号;
步骤S2,在确认为高度、中度分离质量信号的情况下,使用SwinTransformer-Base模型对视频进行帧率分割,将每一帧的图像预测出41维的AU特征向量,形成连续的AU序列;
步骤S3,在确认为高度、中度分离质量信号的情况下,提取音频中MCFF特征,输出结果为m个时间以及每个时间步上的39个特征值的特征矩阵;
步骤S4,在步骤S3和S2的基础上,获取处理过后的音频和视频数据,对音频数据和视频数据进行预处理,确保输入模型的音频和视频数据具有相同的长度和维度;
步骤S5,将预处理过后的数据传入到改进后MLSTM-FCN模型,分别得到8维中间向量结果,将中间结果传入FC中加权得到对应的生物特征质量概率模型,将模型结果通过映射并结合分离效能系数得到概率值,对概率值进一步分析生成提示信号,提示信号包括高度、低度相似信号。
本发明首先,通过音视频分离获得音频和视频数据,并将它们转化为适当的格式;然后,在高度和中度分离质量信号的情况下,使用SwinTransformer-Base模型对视频进行分帧处理,提取41维AU特征向量,并生成连续的AU序列;同时,对音频数据提取MCFF特征,得到39维的特征矩阵;接下来,通过预处理确保音频和视频数据具有相同的长度和维度;最后,使用MLSTM-FCN模型,将数据转化为生物特征质量概率模型,通过映射生成概率值,基于概率值明确样本属性,进而克服了传统方法中存在的训练数据限制、模型参数庞大和高昂成本的问题,同时使得音视频数据更适于特征提取和分析,从而有助于提高生物特征分析的准确性和可行性,为决策提供更可靠的数据支持。
音视频分离可能导致的问题包括分离质量问题、数据不匹配、信息丢失、噪声和干扰、数据处理错误以及模型问题。这些问题可能对后续的生物特征分析造成负面影响,影响分析的准确性和可信度。因此,获取明确的分离质量情况对于确保数据质量以及后续生物特征提取和分析的有效性至关重要。只有通过详细的分离质量评估,可以识别和纠正潜在的问题,确保分析结果不受分离过程中引入的不确定性和误差的干扰,从而提高生物特征分析的可信度和准确性。
步骤S1具体包括以下内容:
音频互相关指数的获取逻辑为:
步骤S1-001,获取音视频未分离前后的原始、分离后音频数据集合,以及原始、分离后视频数据集合;
步骤S1-002,通过原始、分离后音频数据集合以及原始、分离后视频数据集合获得音频互相关指数和视频互相关指数;
步骤S1-003,对于音频数据,音频互相关指数的计算公式为:
其中:
表示音频互相关指数;
分别表示原始音频数据、分离后音频数据的平均振幅;
分别表示原始音频数据、分离后音频数据的振幅标准差;
表示原始音频和分离后音频之间的振幅协方差;
是用于稳定计算的常数,以避免分母为零,且/>均为小正数。
音频互相关指数用于反映分离前后音频信号之间的相似性程度,即它衡量了它们的声音结构和特征之间的相似性。有助于比较和识别音频片段之间的共性和差异,帮助明确分离质量。通过度量音频结构相似度,可以更好地理解音频数据之间的相关性,提高语音和音乐处理任务的准确性和效率,例如在语音识别和情感分析中有广泛的应用。
视频互相关指数的获取逻辑为:
步骤S1-011,对于视频数据,首先将原始、分离后视频分别间隔抽帧进行分解,得到每一帧的图像;
步骤S1-012,对于每一对对应的帧,计算每一对对应帧的结构相关系数,计算公式为:
其中:
表示第/>对对应帧的结构相关系数;
分别表示第/>对对应原始帧、分离后帧的亮度均值;
分别表示第/>对对应原始帧、分离后帧的亮度标准差;
表示第/>对对应原始帧和分离后帧之间的亮度协方差;
分别是用于稳定计算的常数,且均大于0;
分别表示为原始帧、分离后帧;
表示亮度相似性;
表示对比度相似性;
表示结构相似性;
步骤S1-013,将每一对对应帧的结构相关系数和区分阈值进行比较,若每一对对应帧的结构相关系数大于等于区分阈值,则合格分离帧数量累加1,计算合格分离帧数量与所有对应帧总数的比值得到视频互相关指数。
视频互相关指数用于反映分离前后视频之间的结构相似性,度量了视频之间的空间和时间结构的相似程度。用于评估两段视频之间的内容和结构的相似性,可以帮助识别相同或相似的视频内容,检测视频复制、视频内容变化,以及视频分离后的质量评估。
将音频互相关指数和视频互相关系数经过综合处理得到分离效能系数,例如,可以通过以下计算公式得到分离效能系数:;
式中,表示分离效能系数,/>分别为音频互相关指数、视频互相关系数,分别为音频互相关指数、视频互相关系数的预设比例系数,且/>均大于0。
在获取分离效能系数后,将分离效能系数和分类第一、第二阈值分别进行比较;
若分析效能系数大于等于分类第二阈值,表示分离后的音频、视频数据和原始音视频高度相似,生成高度分离质量信号;
若分离效能系数大于等于分类第一阈值,且小于分类第二阈值,表示分离后的音频、视频数据和原始音视频存在一定程度上的相似性,但是还存在一些差异,生成中度分离质量信号;
若分离效能系数小于分类第一阈值,表示分离后的音视、视频数据和原始音视频的相似性极低,生成低度分离质量信号。
本发明通过音频互相关指数和视频互相关系数经过综合处理得到分离效能系数,通过分离效能系数对最初的音视频数据进行处理分离时的质量进行评估,将分离效能系数和分类第一、第二阈值分别进行比较,根据比较结果生成高度、中度和低度分离质量信号,进而给出明确的分析质量提示,确保仅仅生成符合进一步执行和分析的符合要求的结果,有助于避免无效的分析结果,为生物特征分析提供更为可靠的数据支持,改善生物特征提取和分析的可行性和准确性。
步骤S2具体包括以下内容:
步骤S2-001,在确认为高度、中度分离质量信号的情况下,对分离后的视频提取连续的帧,根据视频的帧率将视频分割成一系列的图像帧。每帧代表视频中的一个瞬时图像;
步骤S2-002,对每一帧的图像,使用预训练的SwinTransformer-Base模型进行特征提取,生成一个特征向量,SwinTransformer是一种基于注意力机制的深度学习模型,用于图像分类和特征提取任务;
步骤S2-003,使用神经网络将图像特征映射到AU的维度,以获得41维的AU特征向量;有助于自动从图像中提取人脸表情特征,实现自动化的情感分析和面部表情检测,提高了面部特征提取的效率和准确性;
步骤S2-004,将每帧的41维AU特征向量按照时间顺序连接起来,形成一个连续的AU序列,这个序列代表了整个视频中AU特征的变化过程。
步骤S2的目标是分离后的视频中提取出与人脸表情相关的41个AU特征的连续序列。这对于表情、情感分析以及生物特征提取识别分析具有关键作用,AU特征代表了面部表情中不同肌肉群的活动程度,可以帮助理解和分析人的情感状态、情绪表达以及面部动作的细微差异,能够更好地帮助理解和分析视频中情感和表情的动态变化,为进一步的分析和决策提供了基础。
步骤S3具体包括以下内容:步骤S3-001,在确认为高度、中度分离质量信号的情况下,对分离后的音频提取每个视频帧下对应的信号,将每个帧下对应的信号标记为,其功率谱密度的计算公式为:/>
式中,表示功率频谱密度,/>是信号的傅里叶变换,用于离散采样的信号;
计算功率谱密度用于分析音频信号在不同频率成分上的能量分布,以便了解音频在频域上的特征和频率分布。
步骤S3-002,使用Mel滤波组对功率频谱密度进行滤波,每个Mel滤波器通道的输出可以表示为:
式中,表示第/>个Mel滤波器通道的输出,/>表示功率谱密度在频率/>处的值,是第/>个Mel滤波器的频率响应;
使用Mel滤波组对功率频谱密度进行滤波有助于模拟人类听觉系统对声音频率的感知,提高了语音信号的特征提取和音频处理性能。
步骤S3-003,对Mel滤波器通道的能量进行对数化:;
式中,表示第/>个Mel滤波器通道的对数化结果;
对Mel滤波器通道的能量进行对数化有助于模拟人类听觉对声音强度的感知,增强了对音频特征的鉴别性和提取效果;
步骤S3-004,对对数化的Mel滤波器通道系数应用离散余弦变换来获得MFCC系数:
式中,
表示第/>个MFCC系数;
对对数化的Mel滤波器通道系数应用离散余弦变换(DCT)有助于减少特征之间的相关性,提高音频特征的压缩表示,以用于声音分析和识别任务。
步骤S3-005,由此将原始的MFCC特征数据变换为一个39维的MFCC特征向量,其中包括12维的倒谱系数,12维的倒谱系数一阶差分,12维的倒谱系数二阶差分,以及1维的能量信息,1维的能量一阶差分,和1维的能量二阶差分,这样的组合提供了更全面的音频特征表示,包括频谱特性、动态变化和能量信息。
将MFCC特征数据转换为39维的形式,其中包括倒谱系数、一阶差分、二阶差分以及能量信息的多维度组合,有助于提取更丰富和鉴别性更强的音频特征,捕获语音信号中的更多语音相关信息和上下文信息,从而改善了音频处理和识别的性能。这种多维度特征表示可以更好地区分不同的语音信号,提高了声音识别和分析的准确性和鲁棒性。
步骤S4具体包括以下内容:
步骤S4-001,在步骤S3和S2的基础上,获取处理过后的音频和视频数据;
步骤S4-002,找到所有数据中音频特征和视频特征各自的最长序列长度,分别记为 和/>,这是为了确定需要填充的最终序列长度;
步骤S4-003,使用填充操作,将所有数据的音频特征序列和视频特征序列扩展到相同的最大长度,这是为了确保不同数据之间的特征长度一致,以便它们可以作为输入传递给模型;
步骤S4-004,将处理过的音频和视频特征数据按照批量大小的要求,在批次维度上进行拼接,这是为了将数据组织成批次,以便于进行训练。
通过执行步骤S4,确保了音频和视频特征数据的一致性,使其能够在训练中被正确地输入到模型中。有助于提高模型的稳定性和训练效率,同时确保了音视频特征的协同作用,最终提供了更准确的生物特征分析和情感识别结果。
步骤S5具体包括以下内容:
步骤S5-001,经过步骤S4处理得到预处理过后的音频特征和视频特征,将预处理过后的音频特征和视频特征传入MLSTM-FCN模型,获得8维中间向量,中间向量分别表示为和/>,这样做有助于将不同类型的特征整合和融合,以获取更丰富和准确的信息,从而提高生物特征分析的综合性和性能;
步骤S5-002,将中间向量,分别传递到两个独立的全连接层,得到加权的特征,加权后的特征分别表示为和/>,表示为:/>
式中,
和/>是/>层的函数;
将中间向量分别传递到两个独立的全连接层有助于保留不同类型特征的特性和信息,从而允许独立调整每个数据源的权重和贡献,以更好地捕捉和利用音频和视频数据的特征,提高生物特征分析的准确性和鲁棒性;
步骤S5-003,将两个层的结果进行融合,得到融合的特征,将融合的特征标记为/>,表示为:/>
步骤S5-004,将融合后的特征传递到另一个层,以生成生物特征质量的概率模型,该/>层的输出表示不同生物特征质量类别的分数,表示为:/>
式中,是用于映射的/>层,/>是分数向量,这样做有助于综合不同数据源的信息,允许系统更好地对生物特征质量进行建模,提高分类的准确性和可解释性,从而更有效地评估生物特征的质量;
步骤S5-005,应用Softmax函数来将分数向量映射到概率分布,以获得每个生物特征质量类别的概率值,表示为:
式中,
表示每个类别的生物特征质量的估计概率,即概率值,/>表示分离效能系数,/>分别为分离第一阈值、分离第二阈值,/>为/>的权重因子,且/>大于0。
概率值越大表示样本属于该类别的概率越大,具有作为分析决策的意义,概率值越小表示样本属于该类别的概率越小,不具有作为分析决策的意义,如果某一类别的概率远高于其他类别,那么可以更有信心地确定样本属于该类别。反之,如果概率接近均匀分布,说明难以确定最终的分类结果。因此,概率值用于衡量模型的置信度和不确定性。
步骤S5-006,将概率值和相似阈值进行比较;
若概率值大于等于相似阈值,表示样本属于该生物特征的可能性高,确定样本属于该生物特征,生成高度相似信号;
若概率值小于相似阈值,表示样本属于对应生物特征的可能性低,样本对应不上该生物特征,生成低度相似信号。
针对中度分离质量信号,引入分析效能系数对概率值进行补充和精确,最终后获得的每个类别的生物特征质量的估计概率的结果越精确,从而消除由于最初音视频分离结果所带来的影响,使得生物特征的提取方法越精准有效。
本发明针对中度分离质量信号,引入分析效能系数,对概率值进行精细调整,以提高每个类别的生物特征质量估计的准确性,便于消除最初音视频分离结果可能引入的影响,确保最终的生物特征质量评估更加精确和可靠,分析效能系数的引入充分考虑了分离后的数据质量,从而提供更清晰的概率结果,使决策制定更有信心和精确,进而在生物特征分析中有助于减少分离误差对最终结果的潜在影响,提高了决策的可信度。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数以及阈值选取由本领域的技术人员根据实际情况进行设置。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络,或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD),或者半导体介质。半导体介质可以是固态硬盘。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件,或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术作出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法,其特征在于,包括如下步骤:
步骤S1,针对数据样本的视频进行音视频分离得到音频数据和视频数据,并将音频和视频数据转化为对应的文件格式,采集音视频分离前后的结构信息,结构信息包括音频互相关指数和视频互相关指数,对音频互相关指数和视频互相关指数综合处理得到分离效能系数,对分析效能进一步分析,得到分离等级信号,分离等级信号包括高度、中度和低度分离质量信号;
步骤S2,在确认为高度、中度分离质量信号的情况下,使用SwinTransformer-Base模型对视频进行帧率分割,将每一帧的图像预测出41维的AU特征向量,形成连续的AU序列;
步骤S3,在确认为高度、中度分离质量信号的情况下,提取音频中MCFF特征,输出结果为m个时间以及每个时间步上的39个特征值的特征矩阵;
步骤S4,在步骤S3和S2的基础上,获取处理过后的音频和视频数据,对音频数据和视频数据进行预处理,确保输入模型的音频和视频数据具有相同的长度和维度;
步骤S5,将预处理过后的数据传入到改进后MLSTM-FCN模型,分别得到8维中间向量结果,将中间结果传入FC中加权得到对应的生物特征质量概率模型,将模型结果通过映射并结合分离效能系数得到概率值,对概率值进一步分析生成提示信号,提示信号包括高度、低度相似信号。
2.根据权利要求1所述的基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法,其特征在于:
音频互相关指数的获取逻辑为:
步骤S1-001,获取音视频未分离前后的原始、分离后音频数据集合,以及原始、分离后视频数据集合;
步骤S1-002,通过原始、分离后音频数据集合以及原始、分离后视频数据集合获得音频互相关指数和视频互相关指数;
步骤S1-003,对于音频数据,音频互相关指数的计算公式为:
其中:表示音频互相关指数;
分别表示原始音频数据、分离后音频数据的平均振幅;
分别表示原始音频数据、分离后音频数据的振幅标准差;
表示原始音频和分离后音频之间的振幅协方差;
是用于稳定计算的常数,以避免分母为零,且/>均为小正数。
3.根据权利要求2所述的基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法,其特征在于:
视频互相关指数的获取逻辑为:
步骤S1-011,对于视频数据,首先将原始、分离后视频分别间隔抽帧进行分解,得到每一帧的图像;
步骤S1-012,对于每一对对应的帧,计算每一对对应帧的结构相关系数,计算公式为:
其中:
表示第/>对对应帧的结构相关系数;
分别表示第/>对对应原始帧、分离后帧的亮度均值;
分别表示第/>对对应原始帧、分离后帧的亮度标准差;
表示第/>对对应原始帧和分离后帧之间的亮度协方差;
分别是用于稳定计算的常数,且均大于0;
分别表示为原始帧、分离后帧;
表示亮度相似性;
表示对比度相似性;
表示结构相似性;
步骤S1-013,将每一对对应帧的结构相关系数和区分阈值进行比较,若每一对对应帧的结构相关系数大于等于区分阈值,则合格分离帧数量累加1,计算合格分离帧数量与所有对应帧总数的比值得到视频互相关指数。
4.根据权利要求3所述的基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法,其特征在于:
在获取分离效能系数后,将分离效能系数和分类第一、第二阈值分别进行比较;
若分析效能系数大于等于分类第二阈值,生成高度分离质量信号;
若分离效能系数大于等于分类第一阈值,且小于分类第二阈值,生成中度分离质量信号;
若分离效能系数小于分类第一阈值,生成低度分离质量信号。
5.根据权利要求4所述的基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法,其特征在于:
步骤S2具体包括以下内容:
步骤S2-001,在确认为高度、中度分离质量信号的情况下,对分离后的视频提取连续的帧,根据视频的帧率将视频分割成一系列的图像帧,每帧代表视频中的一个瞬时图像;
步骤S2-002,对每一帧的图像,使用预训练的SwinTransformer-Base模型进行特征提取,生成一个特征向量;
步骤S2-003,使用神经网络将图像特征映射到AU的维度,以获得41维的AU特征向量;
步骤S2-004,将每帧的41维AU特征向量按照时间顺序连接起来,形成一个连续的AU序列,这个序列代表了整个视频中AU特征的变化过程。
6.根据权利要求5所述的基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法,其特征在于:
步骤S3具体包括以下内容:步骤S3-001,在确认为高度、中度分离质量信号的情况下,对分离后的音频提取每个视频帧下对应的信号,将每个帧下对应的信号标记为,其功率谱密度的计算公式为:/>
式中,表示功率频谱密度,/>是信号的傅里叶变换,用于离散采样的信号;
步骤S3-002,使用Mel滤波组对功率频谱密度进行滤波,每个Mel滤波器通道的输出可以表示为:
式中,表示第/>个Mel滤波器通道的输出,/>表示功率谱密度在频率/>处的值,是第/>个Mel滤波器的频率响应;
步骤S3-003,对Mel滤波器通道的能量进行对数化:;
式中,表示第/>个Mel滤波器通道的对数化结果;
步骤S3-004,对对数化的Mel滤波器通道系数应用离散余弦变换来获得MFCC系数:
式中,表示第/>个MFCC系数;
步骤S3-005,由此将原始的MFCC特征数据变换为一个39维的MFCC特征向量,其中包括12维的倒谱系数,12维的倒谱系数一阶差分,12维的倒谱系数二阶差分,以及1维的能量信息,1维的能量一阶差分,和1维的能量二阶差分。
7.根据权利要求6所述的基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法,其特征在于:
步骤S4具体包括以下内容:
步骤S4-001,在步骤S3和S2的基础上,获取处理过后的音频和视频数据;
步骤S4-002,找到所有数据中音频特征和视频特征各自的最长序列长度,分别记为和/>
步骤S4-003,使用填充操作,将所有数据的音频特征序列和视频特征序列扩展到相同的最大长度;
步骤S4-004,将处理过的音频和视频特征数据按照批量大小的要求,在批次维度上进行拼接。
8.根据权利要求7所述的基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法,其特征在于:
步骤S5具体包括以下内容:
步骤S5-001,经过步骤S4处理得到预处理过后的音频特征和视频特征,将预处理过后的音频特征和视频特征传入改进后的MLSTM-FCN模型,获得8维中间向量,中间向量分别表示为和/>
步骤S5-002,将中间向量,分别传递到两个独立的全连接层,得到加权的特征,加权后的特征分别表示为和/>,表示为:/>
式中,和/>是/>层的函数;
步骤S5-003,将两个层的结果进行融合,得到融合的特征,将融合的特征标记为,表示为:/>
步骤S5-004,将融合后的特征传递到另一个层,以生成生物特征质量的概率模型,该/>层的输出表示不同生物特征质量类别的分数,表示为:/>
式中,是用于映射的/>层,/>是分数向量。
9.根据权利要求8所述的基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法,其特征在于:
步骤S5-005,应用Softmax函数来将分数向量映射到概率分布,以获得每个生物特征质量类别的概率值,表示为:
式中,表示每个类别的生物特征质量的估计概率,即概率值,/>表示分离效能系数,/>分别为分离第一阈值、分离第二阈值,/>为/>的权重因子,且/>大于0。
10.根据权利要求9所述的基于改进型MLSTM-FCN的音视频特点的生物体征提取与分析方法,其特征在于:
步骤S5-006,将概率值和相似阈值进行比较;
若概率值大于等于相似阈值,生成高度相似信号;
若概率值小于相似阈值,生成低度相似信号。
CN202311817989.0A 2023-12-27 2023-12-27 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 Active CN117475360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311817989.0A CN117475360B (zh) 2023-12-27 2023-12-27 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311817989.0A CN117475360B (zh) 2023-12-27 2023-12-27 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法

Publications (2)

Publication Number Publication Date
CN117475360A true CN117475360A (zh) 2024-01-30
CN117475360B CN117475360B (zh) 2024-03-26

Family

ID=89626039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311817989.0A Active CN117475360B (zh) 2023-12-27 2023-12-27 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法

Country Status (1)

Country Link
CN (1) CN117475360B (zh)

Citations (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093541A (zh) * 2001-12-03 2007-12-26 微软公司 使用多种线索对多个人进行自动探测和追踪的方法和系统
CN101106723A (zh) * 2007-07-10 2008-01-16 中国传媒大学 一种快速播放多媒体信息的系统和方法
CN102930024A (zh) * 2011-11-03 2013-02-13 微软公司 基于知识的数据质量解决方案体系结构
WO2014195132A1 (en) * 2013-06-05 2014-12-11 Thomson Licensing Method of audio source separation and corresponding apparatus
CN105849284A (zh) * 2013-11-01 2016-08-10 奥基诺公司 序列数据中分离质量等级和测序较长读段的方法和设备
CN106776374A (zh) * 2017-01-23 2017-05-31 中国核动力研究设计院 一种基于fpga的高效数据缓冲方法
CN106898362A (zh) * 2017-02-23 2017-06-27 重庆邮电大学 基于核主成分分析改进Mel滤波器的语音特征提取方法
US20170185455A1 (en) * 2015-12-29 2017-06-29 Harmonic, Inc. Scheduler of computer processes for optimized offline video processing
US20180075859A1 (en) * 2016-09-09 2018-03-15 Continental Automotive Systems, Inc. Robust noise estimation for speech enhancement in variable noise conditions
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN109153993A (zh) * 2016-04-14 2019-01-04 梅约医学教育与研究基金会 检测胰腺高度异型增生
US20190261121A1 (en) * 2016-10-03 2019-08-22 Nokia Technologies Oy Method Of Editing Audio Signals Using Separated Objects And Associated Apparatus
CN110519637A (zh) * 2019-08-27 2019-11-29 西北工业大学 基于音频视频监控结合的异常监测方法
CN110600055A (zh) * 2019-08-15 2019-12-20 杭州电子科技大学 一种使用旋律提取与语音合成技术的歌声分离方法
CN111131913A (zh) * 2018-10-30 2020-05-08 王一涵 基于虚拟现实技术的视频生成方法、装置及存储介质
WO2020127900A1 (en) * 2018-12-21 2020-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
CN111724801A (zh) * 2020-06-22 2020-09-29 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
CN111782860A (zh) * 2020-06-08 2020-10-16 Oppo广东移动通信有限公司 一种音频检测方法及装置、存储介质
WO2020233504A1 (en) * 2019-05-17 2020-11-26 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for emotion recognition
CN112071329A (zh) * 2020-09-16 2020-12-11 腾讯科技(深圳)有限公司 一种多人的语音分离方法、装置、电子设备和存储介质
WO2020248841A1 (zh) * 2019-06-13 2020-12-17 平安科技(深圳)有限公司 图像的au检测方法、装置、电子设备及存储介质
CN113470688A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
CN113488063A (zh) * 2021-07-02 2021-10-08 国网江苏省电力有限公司电力科学研究院 一种基于混合特征及编码解码的音频分离方法
WO2021208287A1 (zh) * 2020-04-14 2021-10-21 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN113782048A (zh) * 2021-09-24 2021-12-10 科大讯飞股份有限公司 多模态语音分离方法、训练方法及相关装置
CN113850246A (zh) * 2021-11-30 2021-12-28 杭州一知智能科技有限公司 基于对偶一致网络的声源定位与声源分离的方法和系统
CN113963715A (zh) * 2021-11-09 2022-01-21 清华大学 语音信号的分离方法、装置、电子设备及存储介质
CN114613389A (zh) * 2022-03-16 2022-06-10 大连交通大学 一种基于改进mfcc的非语音类音频特征提取方法
US20220328065A1 (en) * 2021-03-26 2022-10-13 Zhejiang Lab Speech emotion recognition method and system based on fused population information
CN115579021A (zh) * 2022-09-23 2023-01-06 重庆邮电大学 一种基于神经网络和视听融合的声乐表演评分方法及系统
US11671604B1 (en) * 2020-12-09 2023-06-06 Amazon Technologies, Inc. Content aware uniform quality for quality-defined variable bitrate encoding of videos
WO2023139559A1 (en) * 2022-01-24 2023-07-27 Wonder Technology (Beijing) Ltd Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation
CN116863384A (zh) * 2023-07-31 2023-10-10 浙江树人学院 一种基于CNN-Transfomer的自监督视频分割方法和系统
CN117095698A (zh) * 2023-08-23 2023-11-21 北京经纬恒润科技股份有限公司 一种报警音识别的方法、装置、电子设备及存储介质
CN117173193A (zh) * 2023-07-14 2023-12-05 中国地质大学(武汉) 基于注意力机制的无监督彩色地质图像分割方法及系统

Patent Citations (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093541A (zh) * 2001-12-03 2007-12-26 微软公司 使用多种线索对多个人进行自动探测和追踪的方法和系统
CN101106723A (zh) * 2007-07-10 2008-01-16 中国传媒大学 一种快速播放多媒体信息的系统和方法
CN102930024A (zh) * 2011-11-03 2013-02-13 微软公司 基于知识的数据质量解决方案体系结构
WO2014195132A1 (en) * 2013-06-05 2014-12-11 Thomson Licensing Method of audio source separation and corresponding apparatus
CN105849284A (zh) * 2013-11-01 2016-08-10 奥基诺公司 序列数据中分离质量等级和测序较长读段的方法和设备
US20170185455A1 (en) * 2015-12-29 2017-06-29 Harmonic, Inc. Scheduler of computer processes for optimized offline video processing
CN109153993A (zh) * 2016-04-14 2019-01-04 梅约医学教育与研究基金会 检测胰腺高度异型增生
US20180075859A1 (en) * 2016-09-09 2018-03-15 Continental Automotive Systems, Inc. Robust noise estimation for speech enhancement in variable noise conditions
US20190261121A1 (en) * 2016-10-03 2019-08-22 Nokia Technologies Oy Method Of Editing Audio Signals Using Separated Objects And Associated Apparatus
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN106776374A (zh) * 2017-01-23 2017-05-31 中国核动力研究设计院 一种基于fpga的高效数据缓冲方法
CN106898362A (zh) * 2017-02-23 2017-06-27 重庆邮电大学 基于核主成分分析改进Mel滤波器的语音特征提取方法
CN111131913A (zh) * 2018-10-30 2020-05-08 王一涵 基于虚拟现实技术的视频生成方法、装置及存储介质
WO2020127900A1 (en) * 2018-12-21 2020-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
CN113574597A (zh) * 2018-12-21 2021-10-29 弗劳恩霍夫应用研究促进协会 用于使用声音质量的估计和控制的源分离的装置和方法
WO2020233504A1 (en) * 2019-05-17 2020-11-26 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for emotion recognition
WO2020248841A1 (zh) * 2019-06-13 2020-12-17 平安科技(深圳)有限公司 图像的au检测方法、装置、电子设备及存储介质
CN110600055A (zh) * 2019-08-15 2019-12-20 杭州电子科技大学 一种使用旋律提取与语音合成技术的歌声分离方法
CN110519637A (zh) * 2019-08-27 2019-11-29 西北工业大学 基于音频视频监控结合的异常监测方法
WO2021208287A1 (zh) * 2020-04-14 2021-10-21 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN111782860A (zh) * 2020-06-08 2020-10-16 Oppo广东移动通信有限公司 一种音频检测方法及装置、存储介质
CN111724801A (zh) * 2020-06-22 2020-09-29 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
CN112071329A (zh) * 2020-09-16 2020-12-11 腾讯科技(深圳)有限公司 一种多人的语音分离方法、装置、电子设备和存储介质
US11671604B1 (en) * 2020-12-09 2023-06-06 Amazon Technologies, Inc. Content aware uniform quality for quality-defined variable bitrate encoding of videos
US20220328065A1 (en) * 2021-03-26 2022-10-13 Zhejiang Lab Speech emotion recognition method and system based on fused population information
CN113488063A (zh) * 2021-07-02 2021-10-08 国网江苏省电力有限公司电力科学研究院 一种基于混合特征及编码解码的音频分离方法
CN113470688A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
CN113782048A (zh) * 2021-09-24 2021-12-10 科大讯飞股份有限公司 多模态语音分离方法、训练方法及相关装置
CN113963715A (zh) * 2021-11-09 2022-01-21 清华大学 语音信号的分离方法、装置、电子设备及存储介质
CN113850246A (zh) * 2021-11-30 2021-12-28 杭州一知智能科技有限公司 基于对偶一致网络的声源定位与声源分离的方法和系统
WO2023139559A1 (en) * 2022-01-24 2023-07-27 Wonder Technology (Beijing) Ltd Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation
CN114613389A (zh) * 2022-03-16 2022-06-10 大连交通大学 一种基于改进mfcc的非语音类音频特征提取方法
CN115579021A (zh) * 2022-09-23 2023-01-06 重庆邮电大学 一种基于神经网络和视听融合的声乐表演评分方法及系统
CN117173193A (zh) * 2023-07-14 2023-12-05 中国地质大学(武汉) 基于注意力机制的无监督彩色地质图像分割方法及系统
CN116863384A (zh) * 2023-07-31 2023-10-10 浙江树人学院 一种基于CNN-Transfomer的自监督视频分割方法和系统
CN117095698A (zh) * 2023-08-23 2023-11-21 北京经纬恒润科技股份有限公司 一种报警音识别的方法、装置、电子设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LEI WANG等: ""AFExplorer: Visual analysis and interactive selection of audio features"", 《VISUAL INFORMATICS》, vol. 6, no. 1, 31 March 2022 (2022-03-31), pages 47 - 55 *
NAOYA TAKAHASHI等: ""AENet:Learning Deep Audio Features for Video Analysis"", 《ARXIV》, 4 January 2017 (2017-01-04), pages 1 - 12 *
SIDDU P. ALGUR等: ""Correlation analysis of audio and video contents: A metadata based approach"", 《2015 INTERNATIONAL CONFERENCE ON APPLIED AND THEORETICAL COMPUTING AND COMMUNICATION TECHNOLOGY (ICATCCT)》, 21 April 2016 (2016-04-21), pages 1 - 15 *
李为相等: ""基于语音和视频图像的多模态情感识别研究"", 《计算机工程与应用》, vol. 57, no. 23, 31 December 2021 (2021-12-31), pages 163 - 170 *
李莲春等: ""网络音视频语义信息抽取系统"", 《计算机工程》, vol. 37, no. 13, 31 July 2011 (2011-07-31), pages 269 - 271 *
赵德芳: ""基于人工智能的音视频内容检索系统设计"", 《电声技术》, vol. 47, no. 5, 31 May 2023 (2023-05-31), pages 98 - 101 *

Also Published As

Publication number Publication date
CN117475360B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
CN110189769B (zh) 基于多个卷积神经网络模型结合的异常声音检测方法
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN112700794B (zh) 一种音频场景分类方法、装置、电子设备和存储介质
CN111951824A (zh) 一种基于声音判别抑郁症的检测方法
CN112669820B (zh) 基于语音识别的考试作弊识别方法、装置及计算机设备
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
CN113221673B (zh) 基于多尺度特征聚集的说话人认证方法及系统
CN108831506A (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN115101077A (zh) 一种声纹检测模型训练方法及声纹识别方法
Whitehill et al. Whosecough: In-the-wild cougher verification using multitask learning
CN112466284B (zh) 一种口罩语音鉴别方法
Riwurohi et al. People recognition through footstep sound using MFCC extraction method of artificial neural network back propagation
CN117475360B (zh) 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
CN107093430A (zh) 一种基于小波包变换的声纹特征提取算法
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
CN112259107A (zh) 一种会议场景小样本条件下的声纹识别方法
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
CN111477248A (zh) 一种音频噪声检测方法及装置
CN106971725B (zh) 一种具有优先级的声纹识方法和系统
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质
CN111179942B (zh) 声纹识别方法、装置、设备及计算机可读存储介质
CN114863939B (zh) 一种基于声音的大熊猫属性识别方法及系统
Brenes-Jiménez et al. Evaluation of denoising algorithms for footsteps sound classification in noisy environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant