CN112331337A - 自动抑郁检测方法、装置、设备 - Google Patents

自动抑郁检测方法、装置、设备 Download PDF

Info

Publication number
CN112331337A
CN112331337A CN202110001070.9A CN202110001070A CN112331337A CN 112331337 A CN112331337 A CN 112331337A CN 202110001070 A CN202110001070 A CN 202110001070A CN 112331337 A CN112331337 A CN 112331337A
Authority
CN
China
Prior art keywords
video
audio
attention
segment
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110001070.9A
Other languages
English (en)
Other versions
CN112331337B (zh
Inventor
陶建华
牛明月
刘斌
李启飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110001070.9A priority Critical patent/CN112331337B/zh
Publication of CN112331337A publication Critical patent/CN112331337A/zh
Application granted granted Critical
Publication of CN112331337B publication Critical patent/CN112331337B/zh
Priority to US17/389,381 priority patent/US11266338B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1126Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
    • A61B5/1128Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique using image analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7253Details of waveform analysis characterised by using transforms
    • A61B5/7257Details of waveform analysis characterised by using transforms using Fourier transforms
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/182Extraction of features or characteristics of the image by coding the contour of the pattern
    • G06V30/1826Extraction of features or characteristics of the image by coding the contour of the pattern analysing the spectrum of the contour, e.g. Fourier expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2560/00Constructional details of operational features of apparatus; Accessories for medical measuring apparatus
    • A61B2560/02Operational features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Educational Technology (AREA)
  • Developmental Disabilities (AREA)
  • Child & Adolescent Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)

Abstract

本申请实施例涉及数据处理领域,具体涉及一种自动抑郁检测方法、装置、设备,旨在提高抑郁检测的准确率。所述方法包括:输入音视频文件,音视频文件中包含音频和视频这两种模态的原始数据,对音频文件和视频文件进行分段处理以及特征提取,得到多段音频段水平特征和视频段水平特征,利用特征进化池化目标函数将上述段水平特征分别聚合为音频水平特征和视频水平特征,对上述段水平特征进行注意力计算,得到视频注意力音频特征和音频注意力视频特征,将音频水平特征、视频水平特、征视频注意力音频特征和音频注意力视频特征进行拼接构成多模态时空表示,将多模态时空表示输入支持向量回归来预测输入音视频中个体的抑郁水平。

Description

自动抑郁检测方法、装置、设备
技术领域
本申请实施例涉及数据处理技术领域,具体而言,涉及一种自动抑郁检测方法、装置、设备。
背景技术
抑郁症是一种精神类疾病,严重影响着人们的身心健康。目前治疗精神类疾病的医生极为匮乏,很多病人无法得到及早的治疗,从而延误了病情。自动抑郁检测是当今人机交互和人工智能领域重点关注的研究方向,自动抑郁检测的目的是探索健康个体和抑郁病人在语音和面部的变化规律,并提出相应的模型和方法来建立起机器在捕获抑郁线索方面的能力,增强其诊断能力,提升诊断效率。现有技术中主要通过为个体录制音视频,提取音视频中能够刻画个体的多段特征,将多段特征聚合为整体特征,对特征进行分析,进行抑郁水平预测。
现有技术中存在的问题是现有的特征提取方法并不是针对抑郁检测任务的,因此在抑郁检测上准确率不高,另一个问题是在聚合多段特征时只是简单地拼接每一段的特征,并不能完整包含每一段特征中的信息,没有考虑各个特征之间的交互关系,因此在抑郁检测任务上准确率不高。
发明内容
本申请实施例提供一种自动抑郁检测方法、装置、设备,旨在提高自动抑郁检测的准确率。
本申请实施例第一方面提供一种自动抑郁检测方法,所述方法包括:
输入音视频文件,所述音视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;
提取所述长时音频文件的傅里叶幅值谱,将所述傅里叶幅值谱切分成具有固定大小的多个谱段,同时,将所述长时视频文件切分成具有固定帧数的多个视频段;
将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络,得到多个音频段水平特征和多个视频段水平特征;
对所述多个音频段水平特征和多个视频段水平特征,构造特征进化池化目标函数,并进行优化求解,得到结果矩阵;
利用所述结果矩阵将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征;
根据所述多个音频水平特征和视频水平特征,分别提取视频注意力音频特征和音频注意力视频特征;
将所述音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示;
将所述多模态时空表示输入支持向量回归来预测所述输入音视频文件中的个体的抑郁水平。
可选地,提取所述长时音频文件的傅里叶幅值谱,将所述傅里叶幅值谱切分成具有固定大小的谱段,同时,将所述长时视频文件切分成具有固定帧数的视频段,包括:
从原始格式为MP4的长时音频文件中提取语音文件,并将所述语音文件以wav格式进行保存,得到wav文件;
利用快速傅里叶变换对所述wav文件进行处理得到傅里叶谱;
通过对所述傅里叶谱进行取幅值操作来获得傅里叶幅值谱;
以第一预设帧数作为窗口长度,第二预设帧数作为帧移来对傅里叶幅值谱进行切分,得到多个幅值谱段,所述多个幅值谱段的标签就是wav文件对应的标签;
将所述幅值谱段以mat格式进行保存;
提取所述长时视频文件中所有视频帧,将所述所有视频帧归一化到预设大小,得到视频帧序列;
以第三预设帧数作为窗口长度,以第四预设帧数作为帧移来切分所述视频帧序列,得到视频段,所述视频段的标签即为所述长时视频文件对应的标签。
可选地,将所述多个谱段和多个视频段输入时空注意力网络,得到多个音频段水平特征和视频段水平特征,包括:
预先将标注好的谱段和视频段作为训练集分别输入到音频时空注意力网络和视频时空注意力网络进行训练,得到训练好的音频时空注意力网络和训练好的视频时空注意力网络;
将所述多个谱段和所述多个视频段分别输入所述训练好的音频时空注意力网络和所述训练好的视频时空注意力网络,得到所述多个音频段水平特征和多个视频段水平特征。
可选地,对所述多个音频段水平特征和多个视频段水平特征,构造特征进化池化目标函数,并进行优化求解,得到结果矩阵,所述特征进化池化目标函数为:
Figure 165376DEST_PATH_IMAGE001
其中,G为已知矩阵,
Figure 457817DEST_PATH_IMAGE002
为矩阵G的转置矩阵,
Figure 846073DEST_PATH_IMAGE003
为第I个视频段水平特征或音频段水平特征的转置,D为音频段水平特征或视频段水平特征的个数,
Figure 540360DEST_PATH_IMAGE004
表示矩阵G为K阶矩阵,
Figure 191921DEST_PATH_IMAGE005
为所述结果矩阵,
Figure 237237DEST_PATH_IMAGE006
表示括号中式子达到最小值时的特征向量取值。
可选地,利用所述特征聚合进化的优化结果将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征,包括:
将所述多个音频段水平特征和多个视频段水平特征分别按照先后顺序排列成音频矩阵和视频矩阵;
将所述音频矩阵与水平矩阵分别与所述结果矩阵的第一列相乘,得到所述音频水平特征和视频水平特征。
可选地,根据所述多个音频水平特征和视频水平特征,分别提取视频注意力音频特征和音频注意力视频特征,包括:
使用注意力机制对所述多个音频段水平特征进行计算,得到视频注意力音频特征;
使用注意力机制对所述多个视频段水平特征进行计算,得到音频注意力视频特征。
可选地,使用注意力机制对所述多个音频段进行计算,得到视频注意力音频特征,计算方法为:
Figure 632447DEST_PATH_IMAGE007
其中,VAAF是所述视频注意力音频特征,
Figure 181240DEST_PATH_IMAGE008
是第j个音频段的特征,α是视频注意力权重,
Figure 672876DEST_PATH_IMAGE009
中每一个元素的计算公式如下:
Figure 939910DEST_PATH_IMAGE010
其中,
Figure 138810DEST_PATH_IMAGE011
是视频水平特征,
Figure 542109DEST_PATH_IMAGE008
是第j个音频段的特征,e是自然对数的底。
可选地,使用注意力机制对所述多个视频段进行计算,得到音频注意力视频特征,计算方法包括:
Figure 801052DEST_PATH_IMAGE012
其中,AAVF是所述音频注意力视频特征,
Figure 555382DEST_PATH_IMAGE013
是第j个视频段的特征,β是音频注意力权重,
Figure 823552DEST_PATH_IMAGE014
中每一个元素的计算公式如下:
Figure 346937DEST_PATH_IMAGE015
其中,
Figure 776781DEST_PATH_IMAGE016
是音频水平特征,
Figure 752828DEST_PATH_IMAGE013
是第j个视频段的特征,e是自然对数的底。
本申请实施例第二方面提供一种自动抑郁检测装置,所述装置包括:
音视频输入模块,用于输入音视频文件,所述音视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;
音视频切分模块,用于提取所述长时音频文件的傅里叶幅值谱,将所述傅里叶幅值谱切分成具有固定大小的多个谱段,同时,将所述长时视频文件切分成具有固定帧数的多个视频段;
段水平特征提取模块,用于将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络,得到多个音频段水平特征和多个视频段水平特征;
优化求解模块,用于对所述多个音频段水平特征和多个视频段水平特征,构造特征进化池化目标函数,并进行优化求解,得到结果矩阵;
特征聚合模块,用于利用所述结果矩阵将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征;
注意力特征提取模块,用于根据所述多个音频水平特征和视频水平特征,分别提取视频注意力音频特征和音频注意力视频特征;
多模态时空表示模块,用于将所述音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示;
抑郁水平预测模块,用于将所述多模态时空表示输入支持向量回归来预测所述输入音视频文件中的个体的抑郁水平。
可选地,所述音视频切分模块包括:
语音文件提取子模块,用于从原始格式为MP4的长时音频文件中提取语音文件,并将所述语音文件以wav格式进行保存,得到wav文件;
快速傅里叶变换子模块,用于利用快速傅里叶变换对所述wav文件进行处理得到傅里叶谱;
幅值提取子模块,用于通过对所述傅里叶谱进行取幅值操作来获得傅里叶幅值谱;
幅值谱切分子模块,用于以第一预设帧数作为窗口长度,第二预设帧数作为帧移来对傅里叶幅值谱进行切分,得到多个幅值谱段,所述多个幅值谱段的标签就是wav文件对应的标签;
幅值谱段保存子模块,用于将所述幅值谱段以mat格式进行保存;
视频帧提取子模块,用于提取所述长时视频文件中所有视频帧,将所述所有视频帧归一化到预设大小,得到视频帧序列;
视频切分子模块,用于以第三预设帧数作为窗口长度,以第四预设帧数作为帧移来切分所述视频帧序列,得到视频段,所述视频段的标签即为所述长时视频文件对应的标签。
可选地,所述段水平特征提取模块包括:
网络训练子模块,用于预先将标注好的谱段和视频段作为训练集分别输入到音频时空注意力网络和视频时空注意力网络进行训练,得到训练好的音频时空注意力网络和训练好的视频时空注意力网络;
段水平特征提取模块,用于将所述多个谱段和所述多个视频段分别输入所述训练好的音频时空注意力网络和所述训练好的视频时空注意力网络,得到所述多个音频段水平特征和多个视频段水平特征。
可选地,对所述多个音频段水平特征和多个视频段水平特征,构造特征进化池化目标函数,并进行优化求解,得到结果矩阵,所述特征进化池化目标函数为:
Figure 293530DEST_PATH_IMAGE017
其中,G为已知矩阵,
Figure 937001DEST_PATH_IMAGE018
为矩阵G的转置矩阵,
Figure 678692DEST_PATH_IMAGE019
为第I个视频段水平特征或音频段水平特征的转置,D为音频段水平特征或视频段水平特征的个数,
Figure 407614DEST_PATH_IMAGE020
表示矩阵G为K阶矩阵,
Figure 486428DEST_PATH_IMAGE021
为所述结果矩阵,
Figure 984406DEST_PATH_IMAGE022
表示括号中式子达到最小值时的特征向量取值。
可选地,所述特征聚合模块包括:
特征排列子模块,用于将所述多个音频段水平特征和多个视频段水平特征分别按照先后顺序排列成音频矩阵和视频矩阵;
特征计算子模块,用于将所述音频矩阵与水平矩阵分别与所述结果矩阵的第一列相乘,得到所述音频水平特征和视频水平特征。
可选地,所述注意力特征提取模块包括:
第一注意力特征提取子模块,用于使用注意力机制对所述多个音频段水平特征进行计算,得到视频注意力音频特征;
第二注意力特征提取子模块,用于使用注意力机制对所述多个视频段水平特征进行计算,得到音频注意力视频特征。
可选地,使用注意力机制对所述多个音频段进行计算,得到视频注意力音频特征,计算方法为:
Figure 490474DEST_PATH_IMAGE023
其中,VAAF是所述视频注意力音频特征,
Figure 706691DEST_PATH_IMAGE024
是第j个音频段的特征,α是视频注意力权重,
Figure 120355DEST_PATH_IMAGE025
中每一个元素的计算公式如下:
Figure 472839DEST_PATH_IMAGE026
其中,
Figure 415387DEST_PATH_IMAGE027
是视频水平特征,
Figure 853322DEST_PATH_IMAGE028
是第j个音频段的特征,e是自然对数的底。
可选地,使用注意力机制对所述多个视频段进行计算,得到音频注意力视频特征,计算方法包括:
Figure 273939DEST_PATH_IMAGE029
其中,AAVF是所述音频注意力视频特征,
Figure 746509DEST_PATH_IMAGE030
是第j个视频段的特征,β是音频注意力权重,
Figure 903DEST_PATH_IMAGE031
中每一个元素的计算公式如下:
Figure 926134DEST_PATH_IMAGE032
其中,
Figure 150442DEST_PATH_IMAGE033
是音频水平特征,
Figure 477518DEST_PATH_IMAGE030
是第j个视频段的特征,e是自然对数的底。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
采用本申请提供的自动抑郁检测方法,提取长时语音文件的傅里叶幅值谱,利用快速傅里叶赋值变换来获得傅里叶幅值谱,将长时傅里叶幅值谱切分成具有固定大小的谱段,将长时视频切分成具有固定帧数的视频段,将每一个谱段输入音频时空注意力网络来提取音频段水平特征,将每一个视频段输入视频时空注意力网络来提视频段水平特征,利用特征聚合进化池化函数将音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征,对多个音频段水平特征进行计算,得到视频注意力音频特征,对多个视频段水平特征进行计算,得到音频注意力视频特征,将音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示,将多模态时空表示输入支持向量回归来预测个体的抑郁水平。本申请中通过利用时空注意力网络来提取短时语音幅值谱和视频的段水平特征,相比现有技术更有助于提取出具有区分性的特征,通过利用特征进化池化有效的包含了所有短时音视特征中与抑郁相关的信息,从而聚合短时音视频特征到长时音视频特征,通过利用多模态注意力特征融合策略来融合音视频两种模态的特征,从而增强了抑郁检测的效果,有效的提高了自动抑郁检测的预测精度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的自动抑郁检测方法的流程图;
图2是本申请一实施例提出的自动抑郁检测装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是本申请一实施例提出的自动抑郁检测方法的流程图。如图1所示,该方法包括以下步骤:
S11:输入音视频文件,所述音视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据。
本实施例中,通过检测音视频文件中的个体的语音和动作神态等特征来对该个体进行抑郁检测,需要向抑郁检测网络中输入音视频文件,该音视频文件中需要包含被检测的个体。长时音频文件中包含了音频模态的原始数据,长时视频文件中包含了视频模态的原始数据。
S12:提取所述长时音频文件的傅里叶幅值谱,将所述傅里叶幅值谱切分成具有固定大小的多个谱段,同时,将所述长时视频文件切分成具有固定帧数的多个视频段。
本实施例中,长时音频文件的傅里叶幅值谱是通过对长时音频文件中的音频信息进行傅里叶变换得到的,可以反映出音频的特征,将傅里叶幅值谱切分成具有固定大小的多个谱段,将长时视频文件切分成具有固定帧数的多个视频段,都有利于更好的提取出音频和视频的特征。
本实施例中,提取所述长时音频文件的傅里叶幅值谱,将所述傅里叶幅值谱切分成具有固定大小的多个谱段,同时,将所述长时视频文件切分成具有固定帧数的多个视频段的具体步骤是:
S12-1:从原始格式为MP4的长时音频文件中提取语音文件,并将所述语音文件以wav格式进行保存,得到wav文件。
本实施例中,为了对音频文件进行傅里叶变换,需要从原始格式为MP4的长时音频文件中提取语音文件,将语音文件以wav格式进行保存,得到wav文件,wav格式的文件保存的声音波形真实,无压缩数据,数据量大。
S12-2:利用快速傅里叶变换对所述wav文件进行处理得到傅里叶谱。
本实施例中,快速傅里叶变换就是利用计算机对音频文件进行快速的离散傅里叶变换计算,可以高效快速的得到音频文件的傅里叶谱。
示例地,对音频文件进行快速傅里叶变换可以使用MATLAB等软件进行,本申请不做限制。
S12-3:通过对所述傅里叶谱进行取幅值操作来获得傅里叶幅值谱。
本实施例中,得到音频文件的傅里叶谱之后,读取傅里叶谱中的幅值,获取傅里叶幅值谱,傅里叶幅值谱可以表现出各个时刻音频变换的幅度,从中可以分析出人的情绪变化。
示例地,傅里叶幅值谱可通过MATLAB等软件求得。
S12-4:以第一预设帧数作为窗口长度,第二预设帧数作为帧移来对傅里叶幅值谱进行切分,得到多个幅值谱段,所述多个幅值谱段的标签就是wav文件对应的标签。
本实施例中,傅里叶幅值谱可以以帧为单位进行切分,通过窗口滑动来对傅里叶幅值谱进行切分,窗口长度代表了窗口内最多可以显示多少帧的幅值谱内容,帧移代表窗口一次移动多少帧的距离。每个幅值谱段的标签就是这段音频wav文件对应的标签。
示例地,可以以64帧作为窗口长,32帧作为帧移来对傅里叶幅值谱进行切分已得到幅值谱段。
S12-5:将所述幅值谱段以mat格式进行保存。
本实施例中,mat格式是MATLAB标准的数据存储格式,将幅值谱段以mat格式进行保存,便于后续的处理。
S12-6:提取所述长时视频文件中所有视频帧,将所述所有视频帧归一化到预设大小,得到视频帧序列。
本实施例中,将长时视频文件中所有的视频帧提取出来,就是将视频文件中每一帧的图像提取出来,对图像进行归一化,就是对图像经进行归一化计算,使每一帧的图像变为标准大小的图像,便于处理。
示例地,可以将所有图像归一化到128×128的大小。
S12-7:以第三预设帧数作为窗口长度,以第四预设帧数作为帧移来切分所述视频帧序列,得到视频段,所述视频段的标签即为所述长时视频文件对应的标签。
本实施例中,切分视频的方法也是通过滑动窗口进行,所有视频段的标签就是长时视频文件对应的标签。
示例地,可以以60帧作为窗口长,30帧为帧移来切分视频帧序列以得到视频段。
S13:将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络,得到多个音频段水平特征和多个视频段水平特征。
本实施例中,将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络,得到多个音频段水平特征和多个视频段水平特征的具体步骤是:
S13-1:预先将标注好的谱段和视频段作为训练集分别输入到音频时空注意力网络和视频时空注意力网络进行训练,得到训练好的音频时空注意力网络和训练好的视频时空注意力网络。
本实施例中,音频时空注意力网络和视频时空注意力网络可以从音频段和视频段中提取出音频段水平特征和视频段水平特征,训练集中可以将谱段和视频段中的个体的抑郁水平进行标注,将标注好的谱段输入音频时空注意力网络中,将标注好的视频段输入视频时空注意力网络中,音频时空注意力网络和视频时空注意力网络可以通过学些训练集中的的特征来不断调整自身的参数,得到训练好的音频时空注意力网络和训练好的视频时空注意力网络。
S13-2:将所述多个谱段和所述多个视频段分别输入所述训练好的音频时空注意力网络和所述训练好的视频时空注意力网络,得到所述多个音频段水平特征和多个视频段水平特征。
本实施例中,训练好的音频时空注意力网络会对输入的谱段进行特征提取,得到多个音频段水平特征,训练后阿德视频时空注意力网络会对输入的视频段进行特征提取,得到多个视频段水平特征。
示例地,音频时空注意力网络和视频时空注意力网络可以选择CNN、RNN等网络,在此不做限制。
S14:对所述多个音频段水平特征和多个视频段水平特征,构造特征进化池化目标函数,并进行优化求解,得到结果矩阵。
本实施例中,构造特征进化池化目标函数是为了将多个视频段特征和音频段特征分别进行融合,将所有视频段特征输入特征进化池化目标函数中进行优化,可以得到一个结果矩阵,用于将多个视频段特征进行融合;将所有音频段特征输入特征进化池化目标函数中进行优化,可以得到一个结果矩阵,用于将多个音频段特征进行融合。
本实施例中,特征进化池化目标函数为:
Figure 761869DEST_PATH_IMAGE034
其中,G为已知矩阵,
Figure 174396DEST_PATH_IMAGE035
为矩阵G的转置矩阵,
Figure 936816DEST_PATH_IMAGE036
为第I个视频段水平特征或音频段水平特征的转置,D为音频段水平特征或视频段水平特征的个数,
Figure 649557DEST_PATH_IMAGE037
表示矩阵G为K阶矩阵,
Figure 104809DEST_PATH_IMAGE038
为所述结果矩阵,
Figure 4632DEST_PATH_IMAGE039
表示括号中式子达到最小值时的特征向量取值。
本实施例中,矩阵G中的元素是已知的,通过计算来优化矩阵G,最后得到的优化结果是
Figure 570742DEST_PATH_IMAGE040
,即结果矩阵。
S15:利用所结果矩阵将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征。
本实施例中,在得到结果矩阵之后,可以通过结果矩阵将多个音频段水平特征和视频段水平特征进行融合,得到音频水平特征和视频水平特征,具体方法为:
S15-1:将所述多个音频段水平特征和多个视频段水平特征分别按照先后顺序排列成音频矩阵和视频矩阵。
本实施例中,将多个音频段水平特征排列成一个矩阵,按照每个音频段水平特征在傅里叶幅值谱中出现的顺序进行排列,其中每一行是一个特征向量;将多个视频段水平特征排列成一个矩阵,按照每个视频段水平特征对应的视频段在视频中出现的顺序进行排列,其中每一行是一个特征向量。
S15-2:将所述音频矩阵和视频矩阵分别与所述结果矩阵的第一列相乘,得到所述音频水平特征和视频水平特征。
本实施例中,通过使用音频矩阵乘以结果矩阵的第一列,将多个音频段特征聚合在一起,得到整体的特征即音频水平特征;通过使用视频矩阵乘以结果矩阵的第一列,将多个视频段特征聚合在一起,得到整体的特征即视频水平特征。
本实施例中,经过推导计算,得到音频矩阵或视频矩阵与音频矩阵或视频矩阵的转置的乘积的最大特征值对应的特征向量与音频矩阵或视频矩阵与结果矩阵的第一列相乘得到的矩阵的最大特征值对应的特征向量相同。故音频水平特征和视频水平特征还可以表示为:
计算
Figure 606831DEST_PATH_IMAGE041
的特征值和特征向量,这里
Figure 232985DEST_PATH_IMAGE042
Figure 26628DEST_PATH_IMAGE043
是第j个音频或者视频段水平特征。
选择
Figure 130851DEST_PATH_IMAGE041
的最大特征值对应的特征向量
Figure 287025DEST_PATH_IMAGE044
,则
Figure 84080DEST_PATH_IMAGE045
即为聚合的结果。
S16:根据所述多个音频水平特征和视频水平特征,分别提取视频注意力音频特征和音频注意力视频特征。
本实施例中,视频注力音频特征是通过对音频段特征的计算,得到视频段特征在音频段特征中占有的权重,即视频段特征对音频段特征的影响。音频注意力视频特征也是同理,代表了音频段特征对视频段特征的影响。其中同一帧的音频段特征和视频段特征是相对应的。
本实施例中,根据所述多个音频水平特征和视频水平特征,分别提取视频注意力音频特征和音频注意力视频特征的具体方法是:
S16-1:使用注意力机制对所述多个音频段水平特征进行计算,得到视频注意力音频特征。
本实施例中,使用注意力机制对所述多个音频段进行计算,得到视频注意力音频特征,计算方法为:
Figure 692916DEST_PATH_IMAGE046
其中,VAAF是所述视频注意力音频特征,
Figure 866408DEST_PATH_IMAGE047
是第j个音频段的特征,α是视频注意力权重,
Figure 408248DEST_PATH_IMAGE048
中每一个元素的计算公式如下:
Figure 376204DEST_PATH_IMAGE049
其中,
Figure 472336DEST_PATH_IMAGE050
是视频水平特征,
Figure 918361DEST_PATH_IMAGE047
是第j个音频段的特征,e是自然对数的底。
本实施例中,视频注意力音频特征是考虑了视频特征对音频特征的影响计算出来的,是考虑了视频特征影响的音频特征。
S16-2:使用注意力机制对所述多个视频段水平特征进行计算,得到音频注意力视频特征。
本实施例中,使用注意力机制对所述多个视频段进行计算,得到音频注意力视频特征,计算方法包括:
Figure 49128DEST_PATH_IMAGE051
其中,AAVF是所述音频注意力视频特征,
Figure 187985DEST_PATH_IMAGE052
是第j个视频段的特征,β是音频注意力权重,
Figure 771413DEST_PATH_IMAGE053
中每一个元素的计算公式如下:
Figure 427654DEST_PATH_IMAGE054
其中,
Figure 412927DEST_PATH_IMAGE055
是音频水平特征,
Figure 722686DEST_PATH_IMAGE056
是第j个视频段的特征,e是自然对数的底。
本实施例中,音频注意力视频特征是考虑了音频特征对视频特征的影响计算出来的,是考虑了音频特征影响的视频特征。
S17:将所述音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示。
本实施例中,将音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起,构成了多模态时空表示,多模态时空表示就是将音频水平特征向量、视频水平特征向量、视频注意力音频特征向量和音频注意力视频特征向量拼接成一个向量,其中包含了视频和音频这两个模态的特征和这两个模态交互的特征。
示例地,将音频水平特征
Figure 793410DEST_PATH_IMAGE057
、视频水平特征
Figure 846817DEST_PATH_IMAGE058
、视频注意力音频特征VAAF和音频注意力视频特征AAVF拼接到一起得到向量
Figure 686597DEST_PATH_IMAGE059
,即最终的多模态时空表示。
S18:将所述多模态时空表示输入支持向量回归来预测所述输入音视频文件中的个体的抑郁水平。
本实施例中,支持向量回归是一种分类模型,可以根据接收到的多模态时空表示来为输入音视频中的个体的抑郁水平进行打分。支持向量回归会根据之前训练时学习到的特征,来为当前输入的音视频中的个体的抑郁水平进行打分。
示例地,个体的抑郁水平使用BDI-II分数度量, BDI-II分数的区间段是0-63(0-13是无抑郁,14-19是轻微抑郁,20-28是中度抑郁,29-63是重度抑郁),最终的预测结果就是0-63之间的一个实数。
基于同一发明构思,本申请一实施例提供一种自动抑郁检测装置。参考图2,图2是本申请一实施例提出的自动抑郁检测装置200的示意图。如图2所示,该装置包括:
音视频输入模块201,用于输入音视频文件,所述音视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;
音视频切分模块202,用于提取所述长时音频文件的傅里叶幅值谱,将所述傅里叶幅值谱切分成具有固定大小的多个谱段,同时,将所述长时视频文件切分成具有固定帧数的多个视频段;
段水平特征提取模块203,用于将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络,得到多个音频段水平特征和多个视频段水平特征;
优化求解模块204,用于对所述多个音频段水平特征和多个视频段水平特征,构造特征进化池化目标函数,并进行优化求解,得到结果矩阵;
特征聚合模块205,用于利用所述结果矩阵将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征;
注意力特征提取模块206,用于根据所述多个音频水平特征和视频水平特征,分别提取视频注意力音频特征和音频注意力视频特征;
多模态时空表示模块207,用于将所述音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示;
抑郁水平预测模块208,用于将所述多模态时空表示输入支持向量回归来预测所述输入音视频文件中的个体的抑郁水平。
可选地,所述音视频切分模块包括:
语音文件提取子模块,用于从原始格式为MP4的长时音频文件中提取语音文件,并将所述语音文件以wav格式进行保存,得到wav文件;
快速傅里叶变换子模块,用于利用快速傅里叶变换对所述wav文件进行处理得到傅里叶谱;
幅值提取子模块,用于通过对所述傅里叶谱进行取幅值操作来获得傅里叶幅值谱;
幅值谱切分子模块,用于以第一预设帧数作为窗口长度,第二预设帧数作为帧移来对傅里叶幅值谱进行切分,得到多个幅值谱段,所述多个幅值谱段的标签就是wav文件对应的标签;
幅值谱段保存子模块,用于将所述幅值谱段以mat格式进行保存;
视频帧提取子模块,用于提取所述长时视频文件中所有视频帧,将所述所有视频帧归一化到预设大小,得到视频帧序列;
视频切分子模块,用于以第三预设帧数作为窗口长度,以第四预设帧数作为帧移来切分所述视频帧序列,得到视频段,所述视频段的标签即为所述长时视频文件对应的标签。
可选地,所述段水平特征提取模块包括:
网络训练子模块,用于预先将标注好的谱段和视频段作为训练集分别输入到音频时空注意力网络和视频时空注意力网络进行训练,得到训练好的音频时空注意力网络和训练好的视频时空注意力网络;
段水平特征提取模块,用于将所述多个谱段和所述多个视频段分别输入所述训练好的音频时空注意力网络和所述训练好的视频时空注意力网络,得到所述多个音频段水平特征和多个视频段水平特征。
可选地,对所述多个音频段水平特征和多个视频段水平特征,构造特征进化池化目标函数,并进行优化求解,得到结果矩阵,所述特征进化池化目标函数为:
Figure 698415DEST_PATH_IMAGE060
其中,G为已知矩阵,
Figure 990856DEST_PATH_IMAGE061
为矩阵G的转置矩阵,
Figure 847954DEST_PATH_IMAGE062
为第I个视频段水平特征或音频段水平特征的转置,D为音频段水平特征或视频段水平特征的个数,
Figure 542240DEST_PATH_IMAGE063
表示矩阵G为K阶矩阵,
Figure 193802DEST_PATH_IMAGE064
为所述结果矩阵,
Figure 239118DEST_PATH_IMAGE065
表示括号中式子达到最小值时的特征向量取值。
可选地,所述特征聚合模块包括:
特征排列子模块,用于将所述多个音频段水平特征和多个视频段水平特征分别按照先后顺序排列成音频矩阵和视频矩阵;
特征计算子模块,用于将所述音频矩阵与水平矩阵分别与所述结果矩阵的第一列相乘,得到所述音频水平特征和视频水平特征。
可选地,所述注意力特征提取模块包括:
第一注意力特征提取子模块,用于使用注意力机制对所述多个音频段水平特征进行计算,得到视频注意力音频特征;
第二注意力特征提取子模块,用于使用注意力机制对所述多个视频段水平特征进行计算,得到音频注意力视频特征。
可选地,使用注意力机制对所述多个音频段进行计算,得到视频注意力音频特征,计算方法为:
Figure 40852DEST_PATH_IMAGE066
其中,VAAF是所述视频注意力音频特征,
Figure 589645DEST_PATH_IMAGE067
是第j个音频段的特征,α是视频注意力权重,
Figure 677687DEST_PATH_IMAGE068
中每一个元素的计算公式如下:
Figure 944720DEST_PATH_IMAGE069
其中,
Figure 878041DEST_PATH_IMAGE070
是视频水平特征,
Figure 546920DEST_PATH_IMAGE067
是第j个音频段的特征,e是自然对数的底。
可选地,使用注意力机制对所述多个视频段进行计算,得到音频注意力视频特征,计算方法包括:
Figure 805863DEST_PATH_IMAGE071
其中,AAVF是所述音频注意力视频特征,
Figure 825771DEST_PATH_IMAGE072
是第j个视频段的特征,β是音频注意力权重,
Figure 828362DEST_PATH_IMAGE073
中每一个元素的计算公式如下:
Figure 351747DEST_PATH_IMAGE074
其中,
Figure 516013DEST_PATH_IMAGE075
是音频水平特征,
Figure 757638DEST_PATH_IMAGE072
是第j个视频段的特征,e是自然对数的底。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的自动抑郁检测方法方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种自动抑郁装置方法、装置、设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种自动抑郁检测方法,其特征在于,所述方法包括:
输入音视频文件,所述音视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;
提取所述长时音频文件的傅里叶幅值谱,将所述傅里叶幅值谱切分成具有固定大小的多个谱段,同时,将所述长时视频文件切分成具有固定帧数的多个视频段;
将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络,得到多个音频段水平特征和多个视频段水平特征;
对所述多个音频段水平特征和多个视频段水平特征,构造特征进化池化目标函数,并进行优化求解,得到结果矩阵;
利用所述结果矩阵将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征;
根据所述多个音频水平特征和视频水平特征,分别提取视频注意力音频特征和音频注意力视频特征;
将所述音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示;
将所述多模态时空表示输入支持向量回归来预测所述输入音视频文件中的个体的抑郁水平。
2.根据权利要求1所述的方法,其特征在于,提取所述长时音频文件的傅里叶幅值谱,将所述傅里叶幅值谱切分成具有固定大小的谱段,同时,将所述长时视频文件切分成具有固定帧数的视频段,包括:
从原始格式为MP4的长时音频文件中提取语音文件,并将所述语音文件以wav格式进行保存,得到wav文件;
利用快速傅里叶变换对所述wav文件进行处理得到傅里叶谱;
通过对所述傅里叶谱进行取幅值操作来获得傅里叶幅值谱;
以第一预设帧数作为窗口长度,第二预设帧数作为帧移来对傅里叶幅值谱进行切分,得到多个幅值谱段,所述多个幅值谱段的标签就是wav文件对应的标签;
将所述幅值谱段以mat格式进行保存;
提取所述长时视频文件中所有视频帧,将所述所有视频帧归一化到预设大小,得到视频帧序列;
以第三预设帧数作为窗口长度,以第四预设帧数作为帧移来切分所述视频帧序列,得到视频段,所述视频段的标签即为所述长时视频文件对应的标签。
3.根据权利要求1所述的方法,其特征在于,将所述多个谱段和多个视频段输入时空注意力网络,得到多个音频段水平特征和视频段水平特征,包括:
预先将标注好的谱段和视频段作为训练集分别输入到音频时空注意力网络和视频时空注意力网络进行训练,得到训练好的音频时空注意力网络和训练好的视频时空注意力网络;
将所述多个谱段和所述多个视频段分别输入所述训练好的音频时空注意力网络和所述训练好的视频时空注意力网络,得到所述多个音频段水平特征和多个视频段水平特征。
4.根据权利要求1所述的方法,其特征在于,对所述多个音频段水平特征和多个视频段水平特征,构造特征进化池化目标函数,并进行优化求解,得到结果矩阵,所述特征进化池化目标函数为:
Figure 888964DEST_PATH_IMAGE001
其中,G为已知矩阵,
Figure 779560DEST_PATH_IMAGE002
为矩阵G的转置矩阵,
Figure 576615DEST_PATH_IMAGE003
为第I个视频段水平特征或音频段水平特征的转置,D为音频段水平特征或视频段水平特征的个数,
Figure 185451DEST_PATH_IMAGE004
表示矩阵G为K阶矩阵,
Figure 765468DEST_PATH_IMAGE005
为所述结果矩阵,
Figure 776149DEST_PATH_IMAGE006
表示括号中式子达到最小值时的特征向量取值。
5.根据权利要求1所述的方法,其特征在于,利用所述特征聚合进化的优化结果将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征,包括:
将所述多个音频段水平特征和多个视频段水平特征分别按照先后顺序排列成音频矩阵和视频矩阵;
将所述音频矩阵与水平矩阵分别与所述结果矩阵的第一列相乘,得到所述音频水平特征和视频水平特征。
6.根据权利要求1所述的方法,其特征在于,根据所述多个音频水平特征和视频水平特征,分别提取视频注意力音频特征和音频注意力视频特征,包括:
使用注意力机制对所述多个音频段水平特征进行计算,得到视频注意力音频特征;
使用注意力机制对所述多个视频段水平特征进行计算,得到音频注意力视频特征。
7.根据权利要求6所述的方法,其特征在于,使用注意力机制对所述多个音频段进行计算,得到视频注意力音频特征,计算方法为:
Figure 744105DEST_PATH_IMAGE007
其中,VAAF是所述视频注意力音频特征,
Figure 840237DEST_PATH_IMAGE008
是第j个音频段的特征,α是视频注意力权重,
Figure 551841DEST_PATH_IMAGE009
中每一个元素的计算公式如下:
Figure 417029DEST_PATH_IMAGE010
其中,
Figure 87045DEST_PATH_IMAGE011
是视频水平特征,
Figure 670473DEST_PATH_IMAGE012
是第j个音频段的特征,e是自然对数的底。
8.根据权利要求6所述的方法,其特征在于,使用注意力机制对所述多个视频段进行计算,得到音频注意力视频特征,计算方法包括:
Figure 920188DEST_PATH_IMAGE013
其中,AAVF是所述音频注意力视频特征,
Figure 905462DEST_PATH_IMAGE014
是第j个视频段的特征,β是音频注意力权重,
Figure 215221DEST_PATH_IMAGE015
中每一个元素的计算公式如下:
Figure 285945DEST_PATH_IMAGE016
其中,
Figure 745876DEST_PATH_IMAGE017
是音频水平特征,
Figure 585656DEST_PATH_IMAGE018
是第j个视频段的特征,e是自然对数的底。
9.一种自动抑郁检测装置,其特征在于,所述装置包括:
音视频输入模块,用于输入音视频文件,所述音视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;
音视频切分模块,用于提取所述长时音频文件的傅里叶幅值谱,将所述傅里叶幅值谱切分成具有固定大小的多个谱段,同时,将所述长时视频文件切分成具有固定帧数的多个视频段;
段水平特征提取模块,用于将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络,得到多个音频段水平特征和多个视频段水平特征;
优化求解模块,用于对所述多个音频段水平特征和多个视频段水平特征,构造特征进化池化目标函数,并进行优化求解,得到结果矩阵;
特征聚合模块,用于利用所述结果矩阵将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征;
注意力特征提取模块,用于根据所述多个音频水平特征和视频水平特征,分别提取视频注意力音频特征和音频注意力视频特征;
多模态时空表示模块,用于将所述音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示;
抑郁水平预测模块,用于将所述多模态时空表示输入支持向量回归来预测所述输入音视频文件中的个体的抑郁水平。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至8任一所述的方法的步骤。
CN202110001070.9A 2021-01-04 2021-01-04 自动抑郁检测方法、装置、设备 Active CN112331337B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110001070.9A CN112331337B (zh) 2021-01-04 2021-01-04 自动抑郁检测方法、装置、设备
US17/389,381 US11266338B1 (en) 2021-01-04 2021-07-30 Automatic depression detection method and device, and equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110001070.9A CN112331337B (zh) 2021-01-04 2021-01-04 自动抑郁检测方法、装置、设备

Publications (2)

Publication Number Publication Date
CN112331337A true CN112331337A (zh) 2021-02-05
CN112331337B CN112331337B (zh) 2021-04-16

Family

ID=74302048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110001070.9A Active CN112331337B (zh) 2021-01-04 2021-01-04 自动抑郁检测方法、装置、设备

Country Status (2)

Country Link
US (1) US11266338B1 (zh)
CN (1) CN112331337B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560811A (zh) * 2021-02-19 2021-03-26 中国科学院自动化研究所 端到端的音视频抑郁症自动检测研究方法
CN112687390A (zh) * 2021-03-12 2021-04-20 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930619A (zh) * 2010-08-25 2010-12-29 中国科学院自动化研究所 基于协同过滤算法的实时语音驱动人脸唇部同步动画系统
CN107133481A (zh) * 2017-05-22 2017-09-05 西北工业大学 基于dcnn‑dnn和pv‑svm的多模态抑郁症估计和分类方法
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN109431521A (zh) * 2018-10-12 2019-03-08 西北工业大学 一种基于音视频信息的多模态双相抑郁障碍自动检测方法
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN111723239A (zh) * 2020-05-11 2020-09-29 华中科技大学 一种基于多模态的视频标注方法
WO2020196976A1 (ko) * 2019-03-22 2020-10-01 한국과학기술원 멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반 전자 장치 및 그의 동작 방법

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7194752B1 (en) * 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
US10204625B2 (en) * 2010-06-07 2019-02-12 Affectiva, Inc. Audio analysis learning using video data
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
US9355635B2 (en) * 2010-11-15 2016-05-31 Futurewei Technologies, Inc. Method and system for video summarization
EP2884888A4 (en) * 2012-08-16 2016-04-20 Ginger Io Inc METHOD FOR MODELING BEHAVIORAL AND HEALTH CHANGES
BR112015021139A2 (pt) * 2013-03-08 2017-07-18 Thomson Licensing método e aparelho para segmentação automática de vídeo
EP2972678A4 (en) * 2013-03-15 2016-11-02 Interaxon Inc CLOTHING COMPUTER APPARATUS AND ASSOCIATED METHOD
US10080861B2 (en) * 2015-06-14 2018-09-25 Facense Ltd. Breathing biofeedback eyeglasses
US11903680B2 (en) * 2015-06-14 2024-02-20 Facense Ltd. Wearable-based health state verification for physical access authorization
US20210259557A1 (en) * 2015-06-14 2021-08-26 Facense Ltd. Doorway system that utilizes wearable-based health state verifications
US10045737B2 (en) * 2015-06-14 2018-08-14 Facense Ltd. Clip-on device with inward-facing cameras
US20210169417A1 (en) * 2016-01-06 2021-06-10 David Burton Mobile wearable monitoring systems
US20170258390A1 (en) * 2016-02-12 2017-09-14 Newton Howard Early Detection Of Neurodegenerative Disease
US11504038B2 (en) * 2016-02-12 2022-11-22 Newton Howard Early detection of neurodegenerative disease
WO2018026838A1 (en) * 2016-08-02 2018-02-08 Atlas5D, Inc. Systems and methods to identify persons and/or identify and quantify pain, fatigue, mood, and intent with protection of privacy
CN110192252A (zh) * 2016-11-14 2019-08-30 科格诺亚公司 用于评估发育状况并提供覆盖度和可靠性控制的方法和装置
WO2019079475A1 (en) * 2017-10-17 2019-04-25 Satish Rao MACHINE LEARNING-BASED SYSTEM FOR IDENTIFYING AND FOLLOWING NEUROLOGICAL DISORDERS
US20190189259A1 (en) * 2017-12-20 2019-06-20 Gary Wayne Clark Systems and methods for generating an optimized patient treatment experience
US10812424B1 (en) * 2018-02-05 2020-10-20 Beacon Tech Inc. System and method for quantifying mental health within a group chat application
JP2022505676A (ja) * 2018-10-23 2022-01-14 ブラックソーン セラピューティクス インコーポレイテッド 患者のスクリーニング、診断、及び層別化のためのシステム及び方法
KR102643554B1 (ko) * 2019-03-22 2024-03-04 코그노아, 인크. 개인 맞춤식 디지털 치료 방법 및 디바이스
US11386712B2 (en) * 2019-12-31 2022-07-12 Wipro Limited Method and system for multimodal analysis based emotion recognition
EP4193235A1 (en) * 2020-04-13 2023-06-14 Aiberry, Inc. Multimodal analysis combining monitoring modalities to elicit cognitive states and perform screening for mental disorders
US11144764B1 (en) * 2020-09-30 2021-10-12 Cbs Interactive Inc. Systems, methods, and storage media for selecting video portions for a video synopsis of streaming video content

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930619A (zh) * 2010-08-25 2010-12-29 中国科学院自动化研究所 基于协同过滤算法的实时语音驱动人脸唇部同步动画系统
CN107133481A (zh) * 2017-05-22 2017-09-05 西北工业大学 基于dcnn‑dnn和pv‑svm的多模态抑郁症估计和分类方法
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN109431521A (zh) * 2018-10-12 2019-03-08 西北工业大学 一种基于音视频信息的多模态双相抑郁障碍自动检测方法
WO2020196976A1 (ko) * 2019-03-22 2020-10-01 한국과학기술원 멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반 전자 장치 및 그의 동작 방법
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN111723239A (zh) * 2020-05-11 2020-09-29 华中科技大学 一种基于多模态的视频标注方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560811A (zh) * 2021-02-19 2021-03-26 中国科学院自动化研究所 端到端的音视频抑郁症自动检测研究方法
US11963771B2 (en) 2021-02-19 2024-04-23 Institute Of Automation, Chinese Academy Of Sciences Automatic depression detection method based on audio-video
CN112687390A (zh) * 2021-03-12 2021-04-20 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置
CN112687390B (zh) * 2021-03-12 2021-06-18 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置

Also Published As

Publication number Publication date
CN112331337B (zh) 2021-04-16
US11266338B1 (en) 2022-03-08

Similar Documents

Publication Publication Date Title
Schoneveld et al. Leveraging recent advances in deep learning for audio-visual emotion recognition
He et al. Automated depression analysis using convolutional neural networks from speech
Niu et al. Multimodal spatiotemporal representation for automatic depression level detection
CN112331337B (zh) 自动抑郁检测方法、装置、设备
Li et al. An automated assessment framework for atypical prosody and stereotyped idiosyncratic phrases related to autism spectrum disorder
CN112784798A (zh) 一种基于特征-时间注意力机制的多模态情感识别方法
CN110347872B (zh) 视频封面图像提取方法及装置、存储介质及电子设备
CN112329746B (zh) 多模态谎言检测方法、装置、设备
Zhang et al. Spectrogram-frame linear network and continuous frame sequence for bird sound classification
CN111400540B (zh) 一种基于挤压和激励残差网络的歌声检测方法
CN114519809A (zh) 一种基于多尺度语义网络的视听视频解析装置及方法
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
Cai et al. TDCA-Net: Time-Domain Channel Attention Network for Depression Detection.
Yasmin et al. A rough set theory and deep learning-based predictive system for gender recognition using audio speech
Dressler et al. Towards an automated assessment of musculoskeletal insufficiencies
Zheng et al. Audio-visual speaker identification with multi-view distance metric learning
Li et al. Frame aggregation and multi-modal fusion framework for video-based person recognition
Kathiravan et al. Efficient Intensity Bedded Sonata Wiles System using IoT
Fuente et al. Multimodal recognition of frustration during game-play with deep neural networks
CN112687390B (zh) 基于混合网络和lp范数池化的抑郁状态检测方法及装置
O’Brien Musical Structure Segmentation with Convolutional Neural Networks
Forczmański Evaluation of singer's voice quality by means of visual pattern recognition
van Bemmel et al. Automatic Selection of the Most Characterizing Features for Detecting COPD in Speech
Ryumina et al. Impact of Visual Modalities in Multimodal Personality and Affective Computing
CN112396114A (zh) 一种测评系统、测评方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant