CN111553899A - 一种基于音视频的帕金森非接触式智能检测方法及系统 - Google Patents

一种基于音视频的帕金森非接触式智能检测方法及系统 Download PDF

Info

Publication number
CN111553899A
CN111553899A CN202010348501.4A CN202010348501A CN111553899A CN 111553899 A CN111553899 A CN 111553899A CN 202010348501 A CN202010348501 A CN 202010348501A CN 111553899 A CN111553899 A CN 111553899A
Authority
CN
China
Prior art keywords
audio
video
layer
convolution
channel model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010348501.4A
Other languages
English (en)
Inventor
邹娟
向懿
曾碧霄
陈钢
房海鹏
郑金华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202010348501.4A priority Critical patent/CN111553899A/zh
Publication of CN111553899A publication Critical patent/CN111553899A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4082Diagnosing or monitoring movement diseases, e.g. Parkinson, Huntington or Tourette
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Neurology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Neurosurgery (AREA)
  • Signal Processing (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Surgery (AREA)
  • Quality & Reliability (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pathology (AREA)
  • Veterinary Medicine (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Physiology (AREA)
  • Developmental Disabilities (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)

Abstract

本发明涉及一种基于音视频的帕金森非接触式智能检测方法及系统。该方法包括:获取帕金森患者和非帕金森患者的音视频数据集;构建音频通道模型;构建视频通道模型;根据所述音视频数据集和所述音频通道模型,确定音频特征向量;根据所述音视频数据集和所述视频通道模型,确定视频特征向量;构建融合网络模型;根据所述音频特征向量、所述视频特征向量和所述融合网络模型,得到标签向量;根据所述标签向量,确定帕金森患者。本发明能够将面部特征与声音特征综合分析,提高交互性以及检测效率。

Description

一种基于音视频的帕金森非接触式智能检测方法及系统
技术领域
本发明涉及帕金森非接触式智能检测领域,特别是涉及一种基于音视频的帕金森非接触式智能检测方法及系统。
背景技术
随着人脸识别技术、自然语言处理技术的发展,基于视频进行病症诊断的医疗应用不断涌现。帕金森“面具脸”是指帕金森患者由于运动性障碍导致的面部表情减少症状,临床表现由轻到重依次表现为:正常、面部呆板、面部表情差、不自主张口、完全没有表情等。随着帕金森病的发展期不断推演,僵硬感将会越发明显地在面部肌肉运动时显现。言语障碍是指由运动-言语系统中的运动区的神经损伤造成的运动性语言障碍,在所有的帕金森患者中,大约有90%的患者会出现这种症状,其特征主要表现为声音强度的降低、倾向于升高和不变的音调、模糊不清的言语。“面具脸”和言语障碍均为临床判定是否患帕金森病的重要指标。
目前针对于帕金森症状检测的应用场景,大量的研究专注于“面具脸”特征对应的视频单通道或是“言语障碍”对应的音频单通道问题,基于预先设置好的动作指令,记录患者做出相应的表情模拟或发声练习过程,利用人脸关键点标定或者音频信号特征处理等技术对单通道特征进行分析判定。现有的工作具有以下普遍性局限:1)单通道模型。将面部特征与声音特征分割开来,忽略构音困难与面部肌肉运动性僵硬之间的内在联系。2)存在指令干扰。不论是视频通道还是音频通道,均要求受试者在规定时间内完成指定要求,交互性差。3)耗时长。由于播报指令--受试者反馈环节的设计,视频时长普遍在20s以上。
发明内容
本发明的目的是提供一种基于音视频的帕金森非接触式智能检测方法及系统,能够将面部特征与声音特征综合分析,提高交互性以及检测效率。
为实现上述目的,本发明提供了如下方案:
一种基于音视频的帕金森非接触式智能检测方法,包括:
获取帕金森患者和非帕金森患者的音视频数据集;
构建音频通道模型;
构建视频通道模型;
根据所述音视频数据集和所述音频通道模型,确定音频特征向量;
根据所述音视频数据集和所述视频通道模型,确定视频特征向量;
构建融合网络模型;
根据所述音频特征向量、所述视频特征向量和所述融合网络模型,得到标签向量;
根据所述标签向量,确定帕金森患者。
可选的,所述构建音频通道模型,具体包括:
构建2D核卷积网络的音频通道模型,所述音频通道模型包括第一音频深度卷积阶段、第二音频深度卷积阶段和音频全连接阶段,所述第一音频深度卷积阶段包括第一音频卷积层、第二音频卷积层和第一音频池化层,所述第二音频深度卷积阶段包括第三音频卷积层、第四音频卷积层和第二音频池化层,所述音频全连接阶段包括音频输入层、音频隐藏层和音频输出层。
可选的,所述根据所述音视频数据集和所述音频通道模型,确定音频特征向量,具体包括:
将所述第一音频卷积层、所述第二音频卷积层、所述第三音频卷积层和所述第四音频卷积层中卷积核的个数分别设置为32、32、64和64,卷积核的大小均设置为3×3,步长均设置为1,边界零填充均设置为1,对各卷积层的输出都进行归一化处理;
将所述第一音频池化层和所述第二音频池化层均采用最大池化的方式,池化区域核的大小均设置为2×2,步长均设置为2;
将所述第一音频深度卷积阶段和所述音频第二深度卷积阶段的输出特征矩阵扁平化处理为1维特征向量。
可选的,所述构建视频通道模型,具体包括:
构建3D核卷积网络的视频通道模型,所述视频通道模型包括第一视频深度卷积阶段、第二视频深度卷积阶段和视频全连接阶段,所述第一视频深度卷积阶段包括第一视频卷积层、第二视频卷积层和第一视频池化层,所述第二视频深度卷积阶段包括第三视频卷积层、第四视频卷积层和第二视频池化层,所述视频全连接阶段包括视频输入层、视频隐藏层和视频输出层。
可选的,所述根据所述音视频数据集和所述视频通道模型,确定视频特征向量,具体包括:
将所述第一视频卷积层、所述第二视频卷积层、所述第三视频卷积层和所述第四视频卷积层中卷积核的个数分别设置为32、32、64和64,卷积核的大小均设置为3×3×3,步长均设置为1,边界零填充均设置为1,对各卷积层的输出都进行归一化处理;
将所述第一视频池化层和所述第二视频池化层均采用最大池化的方式,池化区域核的大小均设置为2×2×3,步长均设置为2;
将所述第一视频深度卷积阶段和所述视频第二深度卷积阶段的输出特征矩阵扁平化处理为1维特征向量。
可选的,所述构建融合网络模型,具体包括:
构建由特征融合阶段和全连接阶段组成的融合网络模型,所述融合全连接阶段包括输入层、第一隐藏层、第二隐藏层和输出层。
可选的,所述根据所述根据所述音频特征向量、所述视频特征向量和所述融合网络模型,得到标签向量,具体包括:
将所述音频通道模型输出的1维音频特征向量和所述视频通道模型输出的1维视频拼接成1维融合特征向量;
将融合特征向量作为所述融合网络模型全连接阶段的输入向量,得到2维标签向量。
一种基于音视频的帕金森非接触式智能检测系统,包括:
数据集获取模块,用于获取帕金森患者和非帕金森患者的音视频数据集;
音频通道模型构建模块,用于构建音频通道模型;
视频通道模型构建模块,用于构建视频通道模型;
音频特征向量确定模块,用于根据所述音视频数据集和所述音频通道模型,确定音频特征向量;
视频特征向量确定模块,用于根据所述音视频数据集和所述视频通道模型,确定视频特征向量;
融合网络模型构建模块,用于构建融合网络模型;
标签向量确定模块,用于根据所述音频特征向量、所述视频特征向量和所述融合网络模型,得到标签向量;
帕金森患者确定模块,用于根据所述标签向量,确定帕金森患者。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明将面部特征与声音特征综合起来分析,考虑了构音困难与面部肌肉运动性僵硬之间的内在联系。本发明不论是构建视频通道还是构建音频通道,均不要求受试者在规定时间内完成指定要求,从而解决了现有技术中交互性差的问题。另外,本发明基于音视频的帕金森非接触式智能检测方法能够迅速得到检测结果,提高了检测效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于音视频的帕金森非接触式智能检测方法流程图;
图2是本发明基于音视频的帕金森非接触式智能检测系统结构图;
图3是本发明的音频通道模型图;
图4是本发明的视频通道模型图;
图5是本发明的融合网络模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于音视频的帕金森非接触式智能检测方法及系统,能够将面部特征与声音特征综合分析,提高交互性以及检测效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明基于音视频的帕金森非接触式智能检测方法流程图。如图1所示,一种基于音视频的帕金森非接触式智能检测方法包括:
步骤101:获取帕金森患者和非帕金森患者的音视频数据集。
本发明构建了一个由2N个受试者组成的通过临床验证的数据集,其中帕金森患者与非患者比例为1:1。该数据集包含2N条纯人脸视频以及与其对应的2N个语音特征矩阵,将这样的数据以及二分类标签作为整个模型的初始输入数据。
步骤102:构建音频通道模型,具体包括:
构建2D核卷积网络的音频通道模型,所述音频通道模型包括第一音频深度卷积阶段、第二音频深度卷积阶段和音频全连接阶段,所述第一音频深度卷积阶段包括第一音频卷积层、第二音频卷积层和第一音频池化层,所述第二音频深度卷积阶段包括第三音频卷积层、第四音频卷积层和第二音频池化层,所述音频全连接阶段包括音频输入层、音频隐藏层和音频输出层。
步骤103:构建视频通道模型,具体包括:
构建3D核卷积网络的视频通道模型,所述视频通道模型包括第一视频深度卷积阶段、第二视频深度卷积阶段和视频全连接阶段,所述第一视频深度卷积阶段包括第一视频卷积层、第二视频卷积层和第一视频池化层,所述第二视频深度卷积阶段包括第三视频卷积层、第四视频卷积层和第二视频池化层,所述视频全连接阶段包括视频输入层、视频隐藏层和视频输出层。
步骤104:根据所述音视频数据集和所述音频通道模型,确定音频特征向量,具体包括:
将所述第一音频卷积层、所述第二音频卷积层、所述第三音频卷积层和所述第四音频卷积层中卷积核的个数分别设置为32、32、64和64,卷积核的大小均设置为3×3,步长均设置为1,边界零填充均设置为1,对各卷积层的输出都进行归一化处理。
将所述第一音频池化层和所述第二音频池化层均采用最大池化的方式,池化区域核的大小均设置为2×2,步长均设置为2。
将所述第一音频深度卷积阶段和所述音频第二深度卷积阶段的输出特征矩阵扁平化处理为1维特征向量。
步骤105:根据所述音视频数据集和所述视频通道模型,确定视频特征向量,具体包括:
将所述第一视频卷积层、所述第二视频卷积层、所述第三视频卷积层和所述第四视频卷积层中卷积核的个数分别设置为32、32、64和64,卷积核的大小均设置为3×3×3,步长均设置为1,边界零填充均设置为1,对各卷积层的输出都进行归一化处理。
将所述第一视频池化层和所述第二视频池化层均采用最大池化的方式,池化区域核的大小均设置为2×2×3,步长均设置为2。
将所述第一视频深度卷积阶段和所述视频第二深度卷积阶段的输出特征矩阵扁平化处理为1维特征向量。
步骤106:构建融合网络模型,具体包括:
构建由特征融合阶段和全连接阶段组成的融合网络模型,所述融合全连接阶段包括输入层、第一隐藏层、第二隐藏层和输出层。
步骤107:根据所述音频特征向量、所述视频特征向量和所述融合网络模型,得到标签向量,具体包括:
将所述音频通道模型输出的1维音频特征向量和所述视频通道模型输出的1维视频拼接成1维融合特征向量;
将融合特征向量作为所述融合网络模型全连接阶段的输入向量,得到2维标签向量。全连接阶段以ReLu作为激活函数,使用Dropout方法减少过拟合现象,最后输出2维标签向量。
步骤108:根据所述标签向量,确定帕金森患者。
本发明将面部特征与声音特征综合起来分析,考虑了构音困难与面部肌肉运动性僵硬之间的内在联系。本发明不论是构建视频通道还是构建音频通道,均不要求受试者在规定时间内完成指定要求,从而解决了现有技术中交互性差的问题。另外,本发明基于音视频的帕金森非接触式智能检测方法能够迅速得到检测结果,提高了检测效率。
图2是本发明基于音视频的帕金森非接触式智能检测系统结构图。如图2所示,一种基于音视频的帕金森非接触式智能检测系统包括:
数据集获取模块201,用于获取帕金森患者和非帕金森患者的音视频数据集。
音频通道模型构建模块202,用于构建音频通道模型。
视频通道模型构建模块203,用于构建视频通道模型。
音频特征向量确定模块204,用于根据所述音视频数据集和所述音频通道模型,确定音频特征向量。
视频特征向量确定模块205,用于根据所述音视频数据集和所述视频通道模型,确定视频特征向量。
融合网络模型构建模块206,用于构建融合网络模型。
标签向量确定模块207,用于根据所述音频特征向量、所述视频特征向量和所述融合网络模型,得到标签向量。
帕金森患者确定模块208,用于根据所述标签向量,确定帕金森患者。
实施例1:
为了更为详尽的论述本发明,以下提供一个具体的实施例,具体步骤如下:
步骤一、数据集的构建:
本实施例构建了一个由200个受试者组成的通过临床验证的数据集,其中帕金森患者与非患者比例为1∶1。该数据集包含200条纯人脸视频以及与其对应的200个语音特征矩阵,将这样的数据以及二分类标签作为整个模型的初始输入数据。本实施例的工作主要是在youtube上搜索帕金森患者和非患者在自然表达场景下的相关视频,通过检索‘Parkinson facial OR vlog’筛选出含有‘Parkinson facial’或者’Parkinson vlog’的条目,选择性跟踪含有大量帕金森节目的发布源,非患者片段则从亲属/治疗师描述患者病情的片段中截取。符合实验要求的节目有如下特点:1)人物面部清晰,完整;2)人物位置不过分偏离画面中心;3)含人物自然叙述片段;4)无明显噪音;5)视频属性中包含视频及音频信息。视频从youtube上挑选后,将经二次剪辑后的6.5秒视频片段交由医生团队进行临床标定,剔除争议的部分,最终保留100个帕金森患者视频与100个对照视频。
为了从视频中提取人脸部分,本实施例应用了MTCNN的人脸识别多任务级联网络框架,该框架能够以从粗略到精细的方式预测面部和关键点位置,即使是在头部姿势多种多样的情况下也能保持鲁棒,得到大小为32×32包含人脸特征信息的帧序列特征矩阵。对音频信号进行了logfbank特征以及mfcc特征的提取,得到649×39的音频特征矩阵。每一个样本的数据由通道数为200且大小为32×32的帧序列特征矩阵、大小为649×39的音频特征矩阵以及二分类标签向量Y组成,在二维标签向量Y中0表示非患者,1表示患者。
步骤二、音频通道模型的构建,如图3所示:
音频通道模型为2D核卷积网络,由2个深度卷积阶段和1个全连接阶段组成。先将大小为649×39的音频特征矩阵Vecaudio1做减去平均值再除以最大值的归一化处理(BatchNormalization),然后通过第1个深度卷积阶段:第一卷积层(Conv2D_1)+第二卷积层(Conv2D_2)+第一池化层(MaxPool2D_1),第一、第二卷积层的卷积核大小均设置为3×3,数量均设置为32,步长均设置为1,边界零填充(padding)均设置为1,池化层采用最大池化的方式,池化区域核大小为2×2,步长为2,输出通道数为32且大小为324×19的特征向量Vecaudio2。接着Vecaudio2通过第2个深度卷积阶段:第三卷积层(Conv2D_3)+第四卷积层(Conv2D_4)+第二池化层(MaxPool2D_2),第三、第四卷积层的卷积核大小均设置为3×3,数量均设置为32,步长均设置为1,边界零填充(padding)均设置为1,第二池化层采用最大池化的方式,池化区域核大小为2×2,步长为2,输出通道数为64且大小为161×8的特征向量Vecaudio3,对每个卷积层的输出都进行减去平均值再除以最大值的归一化处理(BatchNormalization),使其恢复原来输入时的分布。将Vecaudio3扁平化处理(Flatten)成大小为1×82432的特征向量Vecaudio4,作为全连接阶段的输入向量。全连接阶段的结构:输入层(Input Layer)+1层隐藏层(Hidden Layer)+输出层(Output Layer),采用ReLU作为激活函数,使用Dropout方法随机使一定的神经元失活来减少过拟合现象,失活概率p=0.3,最后输出大小为1×512的音频特征向量Vecaudio
步骤三、视频通道模型的构建,如图4所示:
视频通道模型为3D核卷积网络,由2个深度卷积阶段和1个全连接阶段组成。先将通道数为200且大小为32×32的帧序列特征矩阵Vecvisual1做减去平均值再除以最大值的归一化处理(BatchNormalization),然后通过第1个深度卷积阶段:第一卷积层(Conv3D_1)+第二卷积层(Conv3D_2)+第一池化层(MaxPool3D_1),第一、第二卷积层的卷积核大小均设置为3×3×3,数量均设置为32,步长均设置为1,边界零填充(padding)均设置为1,池化层采用最大池化的方式,池化区域核大小为2×2×3,步长为2,输出通道数为32且大小为16×16的特征向量Vecvisual2。接着Vecvisual2通过第2个深度卷积阶段:第三卷积层(Conv3D_3)+第四卷积层(Conv4D_4)+第二池化层(MaxPool3D_2),第三、第四卷积层的卷积核大小均设置为3×3×3,数量均设置为32,步长均设置为1,边界零填充(padding)均设置为1,第二池化层采用最大池化的方式,池化区域核大小为2×2×3,步长为2,输出通道数为64且大小为7×7的特征向量Vecvisual3,对每个卷积层的输出都进行减去平均值再除以最大值的归一化处理(BatchNormalization),使其恢复原来输入时的分布。将Vecvisual3扁平化处理(Flatten)成大小为1×3136的特征向量Vecvisual4,作为全连接阶段的输入向量。全连接阶段的结构:输入层(Input Layer)+1层隐藏层(Hidden Layer)+输出层(Output Layer),采用ReLU作为激活函数,使用Dropout方法随机使一定的神经元失活来减少过拟合现象,失活概率P=0.3,最后输出大小为1×512的音频特征向量Vecvisual
步骤四、融合网络模型的构建,如图5所示:
融合网络模型由特征融合阶段和全连接阶段组成。将音频通道输出的大小为1×512的音频特征向量Vecaudio和视频通道输出的大小为1×512的音频特征向量Vecvisual拼接成大小为1×1024的融合特征向量Vecmerge,该特征向量作为融合网络中全连接阶段的输入向量,全连接阶段的结构:输入层(Input Layer)+第一隐藏层(Hidden Layer_1)+第二隐藏层(Hidden Layer_2)+输出层(Output Layer),该阶段采用二分类交叉熵(Binary_Crossentropy)作为损失函数,输入层和第一隐藏层以及第一隐藏层和第二隐藏层之间采用ReLu作为激活函数,使用Dropout方法随机使一定的神经元失活来减少过拟合现象,失活概率p=0.3,特征向量Vecmerge通过整个全连接阶段后得到大小为1×2的输出向量Vecoutput,对Vecoutput先做减去平均值再除以最大值的归一化处理(BatchNormalization)并且再用sigmoid函数进行处理Vectarget,根据二维向量Vectarget中两个值的大小确定是否为患者。
为了验证本发明的有效性,本实施例通过Anaconda3编程平台采用Python编程语言进行实验,网络模型采用5折交叉验证的方式训练取平均测试结果,交叉验证可以防止模型过拟合的同时保证每一折对应训练数据与验证数据不重叠。音频单通道、视频单通道网络和音视频双通道融合网络的测试结果分别为55%、57.5%、75%。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于音视频的帕金森非接触式智能检测方法,其特征在于,包括:
获取帕金森患者和非帕金森患者的音视频数据集;
构建音频通道模型;
构建视频通道模型;
根据所述音视频数据集和所述音频通道模型,确定音频特征向量;
根据所述音视频数据集和所述视频通道模型,确定视频特征向量;
构建融合网络模型;
根据所述音频特征向量、所述视频特征向量和所述融合网络模型,得到标签向量;
根据所述标签向量,确定帕金森患者。
2.根据权利要求1所述的基于音视频的帕金森非接触式智能检测方法,其特征在于,所述构建音频通道模型,具体包括:
构建2D核卷积网络的音频通道模型,所述音频通道模型包括第一音频深度卷积阶段、第二音频深度卷积阶段和音频全连接阶段,所述第一音频深度卷积阶段包括第一音频卷积层、第二音频卷积层和第一音频池化层,所述第二音频深度卷积阶段包括第三音频卷积层、第四音频卷积层和第二音频池化层,所述音频全连接阶段包括音频输入层、音频隐藏层和音频输出层。
3.根据权利要求2所述的基于音视频的帕金森非接触式智能检测方法,其特征在于,所述根据所述音视频数据集和所述音频通道模型,确定音频特征向量,具体包括:
将所述第一音频卷积层、所述第二音频卷积层、所述第三音频卷积层和所述第四音频卷积层中卷积核的个数分别设置为32、32、64和64,卷积核的大小均设置为3×3,步长均设置为1,边界零填充均设置为1,对各卷积层的输出都进行归一化处理;
将所述第一音频池化层和所述第二音频池化层均采用最大池化的方式,池化区域核的大小均设置为2×2,步长均设置为2;
将所述第一音频深度卷积阶段和所述音频第二深度卷积阶段的输出特征矩阵扁平化处理为1维特征向量。
4.根据权利要求1所述的基于音视频的帕金森非接触式智能检测方法,其特征在于,所述构建视频通道模型,具体包括:
构建3D核卷积网络的视频通道模型,所述视频通道模型包括第一视频深度卷积阶段、第二视频深度卷积阶段和视频全连接阶段,所述第一视频深度卷积阶段包括第一视频卷积层、第二视频卷积层和第一视频池化层,所述第二视频深度卷积阶段包括第三视频卷积层、第四视频卷积层和第二视频池化层,所述视频全连接阶段包括视频输入层、视频隐藏层和视频输出层。
5.根据权利要求4所述的基于音视频的帕金森非接触式智能检测方法,其特征在于,所述根据所述音视频数据集和所述视频通道模型,确定视频特征向量,具体包括:
将所述第一视频卷积层、所述第二视频卷积层、所述第三视频卷积层和所述第四视频卷积层中卷积核的个数分别设置为32、32、64和64,卷积核的大小均设置为3×3×3,步长均设置为1,边界零填充均设置为1,对各卷积层的输出都进行归一化处理;
将所述第一视频池化层和所述第二视频池化层均采用最大池化的方式,池化区域核的大小均设置为2×2×3,步长均设置为2;
将所述第一视频深度卷积阶段和所述视频第二深度卷积阶段的输出特征矩阵扁平化处理为1维特征向量。
6.根据权利要求1所述的基于音视频的帕金森非接触式智能检测方法,其特征在于,所述构建融合网络模型,具体包括:
构建由特征融合阶段和全连接阶段组成的融合网络模型,所述融合全连接阶段包括输入层、第一隐藏层、第二隐藏层和输出层。
7.根据权利要求6所述的基于音视频的帕金森非接触式智能检测方法,其特征在于,所述根据所述根据所述音频特征向量、所述视频特征向量和所述融合网络模型,得到标签向量,具体包括:
将所述音频通道模型输出的1维音频特征向量和所述视频通道模型输出的1维视频拼接成1维融合特征向量;
将融合特征向量作为所述融合网络模型全连接阶段的输入向量,得到2维标签向量。
8.一种基于音视频的帕金森非接触式智能检测系统,其特征在于,包括:
数据集获取模块,用于获取帕金森患者和非帕金森患者的音视频数据集;
音频通道模型构建模块,用于构建音频通道模型;
视频通道模型构建模块,用于构建视频通道模型;
音频特征向量确定模块,用于根据所述音视频数据集和所述音频通道模型,确定音频特征向量;
视频特征向量确定模块,用于根据所述音视频数据集和所述视频通道模型,确定视频特征向量;
融合网络模型构建模块,用于构建融合网络模型;
标签向量确定模块,用于根据所述音频特征向量、所述视频特征向量和所述融合网络模型,得到标签向量;
帕金森患者确定模块,用于根据所述标签向量,确定帕金森患者。
CN202010348501.4A 2020-04-28 2020-04-28 一种基于音视频的帕金森非接触式智能检测方法及系统 Pending CN111553899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010348501.4A CN111553899A (zh) 2020-04-28 2020-04-28 一种基于音视频的帕金森非接触式智能检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010348501.4A CN111553899A (zh) 2020-04-28 2020-04-28 一种基于音视频的帕金森非接触式智能检测方法及系统

Publications (1)

Publication Number Publication Date
CN111553899A true CN111553899A (zh) 2020-08-18

Family

ID=72001712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010348501.4A Pending CN111553899A (zh) 2020-04-28 2020-04-28 一种基于音视频的帕金森非接触式智能检测方法及系统

Country Status (1)

Country Link
CN (1) CN111553899A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT202000021382A1 (it) * 2020-09-10 2020-12-10 Brain Innovations S R L Metodo e dispositivo per la caratterizzazione oggettiva dei sintomi della malattia di Parkinson
CN112750468A (zh) * 2020-12-28 2021-05-04 厦门嘉艾医疗科技有限公司 一种帕金森病筛查方法、装置、设备及存储介质
CN113241175A (zh) * 2021-06-25 2021-08-10 中国科学院计算技术研究所 基于边缘计算的帕金森症辅助诊断系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108670297A (zh) * 2018-04-19 2018-10-19 上海大学 基于多模态经颅超声的帕金森病辅助诊断系统及方法
CN109171769A (zh) * 2018-07-12 2019-01-11 西北师范大学 一种应用于抑郁症检测的语音、面部特征提取方法及系统
CN109222903A (zh) * 2018-08-29 2019-01-18 清华大学玉泉医院 帕金森病患者异常动作提示方法及装置
CN109480857A (zh) * 2018-12-29 2019-03-19 中国科学院合肥物质科学研究院 一种用于帕金森病患者冻结步态检测的装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108670297A (zh) * 2018-04-19 2018-10-19 上海大学 基于多模态经颅超声的帕金森病辅助诊断系统及方法
CN109171769A (zh) * 2018-07-12 2019-01-11 西北师范大学 一种应用于抑郁症检测的语音、面部特征提取方法及系统
CN109222903A (zh) * 2018-08-29 2019-01-18 清华大学玉泉医院 帕金森病患者异常动作提示方法及装置
CN109480857A (zh) * 2018-12-29 2019-03-19 中国科学院合肥物质科学研究院 一种用于帕金森病患者冻结步态检测的装置及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT202000021382A1 (it) * 2020-09-10 2020-12-10 Brain Innovations S R L Metodo e dispositivo per la caratterizzazione oggettiva dei sintomi della malattia di Parkinson
WO2022054112A1 (en) * 2020-09-10 2022-03-17 Brain Innovations S.R.L. Method and device for the objective characterization of symptoms of parkinson's disease
CN112750468A (zh) * 2020-12-28 2021-05-04 厦门嘉艾医疗科技有限公司 一种帕金森病筛查方法、装置、设备及存储介质
CN113241175A (zh) * 2021-06-25 2021-08-10 中国科学院计算技术研究所 基于边缘计算的帕金森症辅助诊断系统和方法
CN113241175B (zh) * 2021-06-25 2023-10-27 中国科学院计算技术研究所 基于边缘计算的帕金森症辅助诊断系统和方法

Similar Documents

Publication Publication Date Title
Harwath et al. Jointly discovering visual objects and spoken words from raw sensory input
AU2022200439B2 (en) Multi-modal speech separation method and system
Kamaruddin et al. Cultural dependency analysis for understanding speech emotion
CN111553899A (zh) 一种基于音视频的帕金森非接触式智能检测方法及系统
WO2024001646A1 (zh) 音频数据的处理方法、装置、电子设备、程序产品及存储介质
Chetty Biometric liveness checking using multimodal fuzzy fusion
EP3982362B1 (en) Audio processing method, apparatus, computer device, and storage medium
WO2023050650A1 (zh) 动画视频生成方法、装置、设备及存储介质
Kong et al. Appearance matters, so does audio: Revealing the hidden face via cross-modality transfer
Sheng et al. Deep learning for visual speech analysis: A survey
CN114359768A (zh) 一种基于多模态异质特征融合的视频密集事件描述方法
CN111724899A (zh) 一种基于Fbank和MFCC融合特征的帕金森音频智能检测方法及系统
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
CN116012255A (zh) 一种基于循环一致性生成对抗网络的低光图像增强方法
Altuncu et al. Deepfake: definitions, performance metrics and standards, datasets and benchmarks, and a meta-review
Li et al. VCSE: Time-domain visual-contextual speaker extraction network
Qiao et al. Joint learning of audio–visual saliency prediction and sound source localization on multi-face videos
Li et al. An audio-visual speech separation model inspired by cortico-thalamo-cortical circuits
CN116167015A (zh) 一种基于联合交叉注意力机制的维度情感分析方法
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
Xiong et al. Audio-visual speech separation based on joint feature representation with cross-modal attention
Chetty Biometric liveness detection based on cross modal fusion
Maniyar et al. Persons facial image synthesis from audio with Generative Adversarial Networks
CN111783612A (zh) 一种基于视频流的帕金森非接触式智能检测方法及系统
He et al. Generative Adversarial Networks (GANs) for Audio-Visual Speech Recognition in Artificial Intelligence IoT. Information 2023, 14, 575

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210621

Address after: 100000 No. 6 South Road, Zhongguancun Academy of Sciences, Beijing, Haidian District

Applicant after: Institute of Computing Technology, Chinese Academy of Sciences

Applicant after: XIANGTAN University

Address before: No.27 yanggutang, Yuhu District, Xiangtan City, Hunan Province, 411100

Applicant before: XIANGTAN University