CN113317791B

CN113317791B - 一种基于被测者的音频确定抑郁症严重程度的方法及装置

Info

Publication number: CN113317791B
Application number: CN202110592462.7A
Authority: CN
Inventors: 毛凯宁; 陈颉; 叶敏捷; 王保凤
Original assignee: Hangzhou Yelimi Information Technology Co ltd; Wenzhou Kangning Hospital Co ltd
Current assignee: Hangzhou Yelimi Information Technology Co ltd; Wenzhou Kangning Hospital Co ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2023-03-14
Anticipated expiration: 2041-05-28
Also published as: CN113317791A

Abstract

本申请涉及计算机技术领域，公开了一种基于被测者的音频确定抑郁症严重程度的方法、装置、设备及介质。本申请的方法包括：接收被测者的音频；对提取自音频的第一矩阵，使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理，以及至少一个时域分布式卷积神经网络进行的池化处理，得到第二矩阵；将第二矩阵处理成向量，并根据向量确定被测者的抑郁症严重程度。本申请从声音输入到最后形成检测结果，期间无需人工干预，实现对被测者的抑郁严重程度进行直接确定，而不受限医生主观判断的影响，同时在精神压力访谈语料库数据集上实现了0.9870的F1得分，判断结果有显著改进，且具有较强的抗噪能力。

Description

一种基于被测者的音频确定抑郁症严重程度的方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种基于被测者的音频确定抑郁症严重程度的方法、装置、设备及介质。

背景技术

精神健康障碍，如抑郁症，正成为我国社会的主要挑战之一。到2030年，抑郁症将成为世界范围内残疾的主要原因之一。目前临床上对抑郁症的筛查、诊断，以及治疗效果的评价，一般采用患者健康问卷抑郁量表(PHQ)、蒙哥马利和阿斯伯格抑郁症等级量表(MADRS)以及自报告问卷(如白氏抑郁症量表BDI)，判断的准确度一方面依赖于病人是否诚实回答了相关问题，另一方面严重依赖于医生的经验和主观判断。在当前抑郁症门诊量激增的情况下，医生问诊时间短，压力大，误诊率高。

目前，人工智能领域已经借助机器学习方法，从音频、视频出发建立了多种多样的抑郁症检测系统，来帮助心理学家和医护人员进行临床抑郁症的检测预防和治疗。在过去的几年中，通过音视频信息来进行抑郁症的检测已经取得了许多重要的成果，然而由于抑郁症的复杂性以及个体的差异性，抑郁症的研究仍然面临着严峻的挑战。因此，提供一种具有客观评判依据，不易受医生主观经验影响的可基于被测者的音频确定抑郁症严重程度的方法，显得尤为迫切。

发明内容

本申请实施例提供了一种基于被测者的音频确定抑郁症严重程度的方法、装置、设备及介质。

第一方面，本申请实施例提供了一种基于被测者的音频确定抑郁症严重程度的方法，所述方法包括：

接收所述被测者的音频；

对提取自所述音频的第一矩阵，使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理，以及至少一个时域分布式卷积神经网络进行的池化处理，得到第二矩阵，其中，所述第二矩阵包括所述音频数据的特征数据；

将所述第二矩阵处理成向量，并根据所述向量确定所述被测者的抑郁症严重程度。

在上述第一方面的一种可能的实现中，对提取自所述音频数据的第一矩阵，使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理，包括：

对于提取自所述音频数据的所述第一矩阵使用至少一个所述双向长短期记忆模型分别基于所述正向长短期记忆模型和所述反向长短期记忆模型做并行处理，得到第三矩阵，所述第三矩阵由所述正向长短期记忆模型输出的正向隐含状态序列和由所述反向长短期记忆模型输出的反向隐含状态序列组成。

在上述第一方面的一种可能的实现中，使用至少一个所述双向长短期记忆模型对所述第一矩阵分别基于所述正向长短期记忆模型和所述反向长短期记忆模型做并行处理，得到第三矩阵，进一步包括：将所述第一矩阵输入至少一个所述正向长短期记忆模型，得到所述正向隐含状态序列[h₀,h₁,h₂,……,h_n]；将所述第一矩阵上下翻转得到翻转矩阵；将所述翻转矩阵输入至少一个所述反向长短期记忆模型，得到所述反向隐含状态序列 [h’_n,h’_n-1,h’_n-2,……,h’₀]；将所述正向隐含状态序列和所述反向隐含状态序列顺次排列，得到所述第三矩阵[h₀,h₁,h₂,……,h_n，h’_n,h’_n-1,h’_n-2,……,h’₀]，其中每个隐含状态h均表示一个二维矩阵。

在上述第一方面的一种可能的实现中，至少一个时域分布式卷积神经网络进行的池化处理包括：使用至少一个时域分布式卷积神经网络在时间上对所述第三矩阵做卷积，得到所述第二矩阵，所述第二矩阵表示由所述第三矩阵在时间轴上求平均值得到的矩阵。

在上述第一方面的一种可能的实现中，至少一个时域分布式卷积神经网络在时间上对所述第三矩阵做卷积，得到第二矩阵，进一步包括：基于至少一个所述时域分布式卷积神经网络，通过卷积对所述第三矩阵进行特征提取，得到矩阵序列，从时间上对所述矩阵序列做平均，求得平均值得到所述第二矩阵。

在上述第一方面的一种可能的实现中，所述第一矩阵是对所述音频进行预处理后得到的矩阵。

在上述第一方面的一种可能的实现中，对所述音频进行预处理，包括：从所述音频中获取第四矩阵，所述第四矩阵包括从所述音频中提取的音频特征；对所述第四矩阵进行音频边界处理得到所述第一矩阵，所述音频边界处理从所述第一矩阵中提取预设数量个时步的恒定采样周期的有声部分的音频特征，其中所述时步表示连续提取的所述音频特征的次数。

在上述第一方面的一种可能的实现中，从所述音频中获取第四矩阵，包括：使用COVAREP工具箱对所述音频中的音频特征进行提取，得到所述第四矩阵A_i∈A^T×F，其中A表示所述第四矩阵，A_i表示所述第四矩阵中的特征，T表示所述时步，与所述音频的持续时间成正比，F表示每次提取COVAREP时的初始特征数量。

在上述第一方面的一种可能的实现中，对所述第四矩阵进行音频边界处理得到所述第一矩阵，包括：去除所述第四矩阵中每次提取的F个所述初始特征中的F-N个VUV＝0 的初始特征，保留N个VUV＝1的初始特征，得到所述第一矩阵B_i∈B^T×N；其中B表示所述第一矩阵，B_i表示所述第一矩阵中的特征，所述VUV表示所述音频特征是音频中的有声部分还是静默部分，当VUV＝0时，所述初始特征对应所述静默部分，当VUV＝1 时，所述初始特征对应所述有声部分。

在上述第一方面的一种可能的实现中，所述音频特征包括韵律特征、音质特征和频谱特征。

在上述第一方面的一种可能的实现中，所述音频包括以下的一个或多个：所述被测者朗读特定文本发出的声音，所述被测者基于特定问题的口头回答发出的声音。

在上述第一方面的一种可能的实现中，将所述第二矩阵处理成向量，包括：使用全连接网络对所述第二矩阵进行线性处理，以获得向量。

在上述第一方面的一种可能的实现中，根据所述向量确定所述被测者的抑郁症严重程度，包括：根据所述向量的元素的值来确定抑郁症的严重程度。

在上述第一方面的一种可能的实现中，根据所述向量确定所述被测者的抑郁症严重程度，包括：根据所述向量包含的元素中的最大值来确定抑郁症的严重程度。

第二方面，本申请实施例提供了一种基于被测者的音频确定抑郁症严重程度的装置，所述基于被测者的音频确定抑郁症严重程度的设备包括：

接收模块，接收所述被测者的音频；

处理模块，对提取自所述音频的第一矩阵，使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理，以及至少一个时域分布式卷积神经网络进行的池化处理，得到第二矩阵，其中，所述第二矩阵包括所述音频数据的特征数据；

输出模块，将所述第二矩阵处理成向量，并根据所述向量确定所述被测者的抑郁症严重程度。

在上述第二方面的一种可能的实现中，对提取自所述音频数据的第一矩阵，使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理，包括：

在上述第二方面的一种可能的实现中，使用至少一个所述双向长短期记忆模型对所述第一矩阵分别基于所述正向长短期记忆模型和所述反向长短期记忆模型做并行处理，得到第三矩阵，进一步包括：将所述第一矩阵输入至少一个所述正向长短期记忆模型，得到所述正向隐含状态序列[h₀,h₁,h₂,……,h_n]；将所述第一矩阵上下翻转得到翻转矩阵；将所述翻转矩阵输入至少一个所述反向长短期记忆模型，得到所述反向隐含状态序列 [h’_n,h’_n-1,h’_n-2,……,h’₀]；将所述正向隐含状态序列和所述反向隐含状态序列顺次排列，得到所述第三矩阵[h₀,h₁,h₂,……,h_n，h’_n,h’_n-1,h’_n-2,……,h’₀]，其中每个隐含状态h均表示一个二维矩阵。

在上述第二方面的一种可能的实现中，至少一个时域分布式卷积神经网络进行的池化处理包括：使用至少一个时域分布式卷积神经网络在时间上对所述第三矩阵做卷积，得到所述第二矩阵，所述第二矩阵表示由所述第三矩阵在时间轴上求平均值得到的矩阵。

在上述第二方面的一种可能的实现中，至少一个时域分布式卷积神经网络在时间上对所述第三矩阵做卷积，得到第二矩阵，进一步包括：基于至少一个所述时域分布式卷积神经网络，通过卷积对所述第三矩阵进行特征提取，得到矩阵序列，从时间上对所述矩阵序列做平均，求得平均值得到所述第二矩阵。

在上述第二方面的一种可能的实现中，所述第一矩阵是对所述音频进行预处理后得到的矩阵。

在上述第二方面的一种可能的实现中，对所述音频进行预处理，包括：从所述音频中获取第四矩阵，所述第四矩阵包括从所述音频中提取的音频特征；对所述第四矩阵进行音频边界处理得到所述第一矩阵，所述音频边界处理从所述第一矩阵中提取预设数量个时步的恒定采样周期的有声部分的音频特征，其中所述时步表示连续提取的所述音频特征的次数。

在上述第二方面的一种可能的实现中，从所述音频中获取第四矩阵，包括：使用COVAREP工具箱对所述音频中的音频特征进行提取，得到所述第四矩阵A_i∈A^T×F，其中A表示所述第四矩阵，A_i表示所述第四矩阵中的特征，T表示所述时步，与所述音频的持续时间成正比，F表示每次提取COVAREP时的初始特征数量。

在上述第二方面的一种可能的实现中，对所述第四矩阵进行音频边界处理得到所述第一矩阵，包括：去除所述第四矩阵中每次提取的F个所述初始特征中的F-N个VUV＝0 的初始特征，保留N个VUV＝1的初始特征，得到所述第二矩阵B_i∈B^T×N；其中B表示所述第二矩阵，B_i表示所述第二矩阵中的特征，所述VUV表示所述音频特征是音频中的有声部分还是静默部分，当VUV＝0时，所述初始特征对应所述静默部分，当VUV＝1 时，所述初始特征对应所述有声部分。

在上述第二方面的一种可能的实现中，所述音频特征包括韵律特征、音质特征和频谱特征。

在上述第二方面的一种可能的实现中，所述音频包括以下的一个或多个：所述被测者朗读特定文本发出的声音，所述被测者基于特定问题的口头回答发出的声音。

在上述第二方面的一种可能的实现中，将所述第二矩阵处理成向量，包括：使用全连接网络对所述第四矩阵进行线性处理，以获得向量。

在上述第二方面的一种可能的实现中，根据所述向量确定所述被测者的抑郁症严重程度，包括：根据所述向量的元素的值来确定抑郁症的严重程度。

在上述第二方面的一种可能的实现中，根据所述向量确定所述被测者的抑郁症严重程度，包括：根据所述向量包含的元素中的最大值来确定抑郁症的严重程度。

第三方面，本申请实施例提供了一种基于被测者的音频确定抑郁症严重程度的设备，所述基于被测者的音频确定抑郁症严重程度的设备包括：

存储器，用于存储由系统的一个或多个处理器执行的指令，以及

处理器，是系统的处理器之一，用于执行所述指令以实施上述第一方面的任意一种可能的方法。

第四方面，本申请实施例提供了一种计算机可读介质，计算机可读介质上存储有指令，该指令在计算机上执行时可以使计算机执行上述第一方面的任意一种可能的方法。

本申请与现有技术相比，其效果在于：

过往的研究工作往往采用Bi-LSTM最后一个时刻的隐含状态作为输入序列的抽象表述，这种方式忽略了不同时刻的序列之间的相关性(correlation)，而本申请提出时域分布式卷积神经网络T-CNN，任意时刻的Bi-LSTM隐态都将由一个卷积神经网络进行进一步特征提取。最终，每一个特定时刻都会产生一张特征图(feature map)，通过全局平均池化(Global Average Pooling)获得所有时刻对应的特征图的全局统计结果。将全局统计结果输入到全连接网络进行抑郁症严重程度的预测。本申请中的技术方案，通过对被测者声音的处理，采用端到端的训练方式，即从声音输入到最后形成检测结果，期间无需人工干预，实现对被测者的抑郁严重程度进行直接确定，而不受限医生主观判断的影响，同时在精神压力访谈语料库(Distress Analysis Interview Corpus,DAIC-WOZ数据集上实现了0.9870的F1得分，判断结果有显著改进，且具有较强的抗噪能力。

附图说明

图1根据本申请的一些实施例，示出了一种基于被测者的音频确定抑郁症严重程度的方法的应用场景图；

图2根据本申请的一些实施例，示出了一种基于被测者的音频确定抑郁症严重程度的方法的硬件结构框图；

图3根据本申请的一些实施例，示出了一种基于被测者的音频确定抑郁症严重程度的方法的网络结构图；

图4根据本申请的一些实施例，示出了一种基于被测者的音频确定抑郁症严重程度的方法的流程图；

图5根据本申请的一些实施例，示出了一种Bi-LSTM的处理过程示意图；

图6根据本申请的一些实施例，示出了一种T-CNN的处理过程示意图；

图7根据本申请的一些实施例，示出了一种全连接网络线性处理过程的示意图；

图8根据本申请的一些实施例，示出了两种不同模型配置的ROC曲线示意图；

图9根据本申请的一些实施例，示出了对照组和实验组的音频持续时间直方图；

图10根据本申请的一些实施例，示出了一种抑郁症级别的混淆矩阵的示意图；

图11根据本申请的一些实施例，示出了一种基于被测者的音频确定抑郁症严重程度的装置的结构示意图。

具体实施方式

本申请的说明性实施例包括但不限于一种基于被测者的音频确定抑郁症严重程度的方法、装置、设备以及介质。

可以理解，本申请提供的基于被测者的音频确定抑郁症严重程度的方法可以在各种电子设备上实施，包括但不限于，服务器、多个服务器组成的分布式服务器集群、手机、平板电脑、膝上型计算机、台式计算机、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏机、便携式音乐播放器、阅读器设备、个人数字助理、虚拟现实或者增强现实设备、其中嵌入或耦接有一个或多个处理器的电视机等电子设备等。

可以理解，在本申请各实施例中，处理器可以是微处理器、数字信号处理器、微控制器等，和/或其任何组合。根据另一个方面，所述处理器可以是单核处理器，多核处理器等，和/或其任何组合。

下面将结合附图对本申请的实施例作进一步地详细描述。

图1根据本申请的一些实施例，示出了一种基于被测者的音频确定抑郁症严重程度的场景图。具体的，如图1所示，该基于被测者的音频确定抑郁症严重程度的方法应用于基于被测者的音频确定抑郁症严重程度的系统。该基于被测者的音频确定抑郁症严重程度的系统包括终端110、服务器120、声音采集装置130和被测者140。终端110、服务器 120和声音采集装置130之间通过网络连接，网络连接可以包括各种连接类型，例如有线、无线通信链路、云或者光纤电缆等等，上述的网络具体实例可包括终端110的通信供应商提供的互联网。终端110和声音采集装置130之间也可采用其他方式连接，比如通过数据线连接，以使接收的音频可以传输到终端110上。

终端110可以是安装有端到端的基于被测者的音频确定抑郁症严重程度的软件的设备，具体可以是台式终端或移动终端，移动终端具体是可以手机、平板电脑、笔记本电脑等中的至少一种。

服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

声音采集装置130接收由被测者140通过朗读特定文本或回答的特定的问题所发出的声音，形成音频文件。这里的声音采集装置130包括但不限于话筒、声音收集器等。

通过采集被测者140的声音，传送到声音采集装置130，声音采集装置130将采集到的声音形成音频文件，并将音频文件传输到服务器120和终端110，终端110针对该音频通过本申请的基于被测者的音频确定抑郁症严重程度的方法进行处理，最终输出确定的抑郁症严重程度的结果。

下面根据本申请的一些实施例，详细说明应用于图1所示的场景的基于被测者的音频确定抑郁症严重程度的技术方案。通过声音采集装置采集被测者声音，形成音频文件。然后对提取自该音频的包含音频特征的矩阵，使用至少一个双向长短期记忆模型(Bidirectional Long-Short Term Memory，以下简称Bi-LSTM)分别基于正向长短期记忆模型(以下简称正向LSTM)和反向长短期记忆模型(以下简称正向LSTM)的并行处理，以及至少一个时域分布式卷积神经网络(Time Distributed Convolutional Neural Network，以下简称T-CNN)在时间上的池化处理，得到包括音频数据的特征数据的矩阵。之后，使用全连接网络对前述处理输出的矩阵进行线性处理，以将该矩阵处理成向量，并根据向量，最终确定被测者的抑郁症严重程度。

本申请方式所提供的方法实施方式可以在终端110中执行，图2根据本申请的一些实施例，示出了一种基于被测者的音频确定抑郁症严重程度的方法的硬件结构框图。如图2所示，终端110可以包括一个或多个(图中仅示出一个)处理器111(处理器111可以包括但不限于中央处理器CPU、图像处理器GPU、数字信号处理器DSP、微处理器MCU 或可编程逻辑器件FPGA等的处理装置)、用于与用户交互的输入输出接口112、用于存储数据的存储器113、以及用于通信功能的传输装置114。本领域技术人员可以理解，图 2所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，终端110还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。

输入输出接口112可以连接一个或多个显示器、触控屏等，用于显示从终端110传送的数据，还可以连接键盘、触控笔、触控板和/或鼠标等，用于输入诸如，选择、创建、编辑等的用户指令。

存储器113可用于存储数据库、队列、应用软件的软件程序以及模块，如本申请的一些实施例中的基于被测者的音频确定抑郁症严重程度的方法对应的程序指令/模块，处理器111通过运行存储在存储器113内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于被测者的音频确定抑郁症严重程度的方法。存储器113可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器113可进一步包括相对于处理器111 远程设置的存储器，这些远程存储器可以通过网络连接至终端110。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置114用于经由网络接收由服务器120传输的经由声音采集装置130上传的音频文件或者发送处理后的数据到服务器120，网络可以包括各种连接类型，例如有线、无线通信链路、云或者光纤电缆等等。上述的网络具体实例可包括终端110的通信供应商提供的互联网。

图3示出了一种基于被测者的音频确定抑郁症严重程度的方法的网络结构图，如图3 所示，该网络结构主要包括四个模块，首先是声音提取模块1111，通过声音采集装置130 获取被测者的声音，得到音频文件；音频分组模块1112，使用COVAREP工具箱对音频文件进行特征提取，并以恒定采样周期将音频进行分组得到第一矩阵后输出至下一模块。Bi-LSTM和T-CNN模块1113，基于至少一个的Bi-LSTM和至少一个的T-CNN模块，依次对第一矩阵进行处理，得到第二矩阵，其中第二矩阵包括音频文件的特征数据；全连接处理模块1114，基于全连接网络对第二矩阵进行线性处理，得到表征抑郁症严重程度的向量，并基于该向量，确定抑郁症严重程度的结果并输出。

图4根据本申请的一些实施例，示出了一种基于被测者的音频确定抑郁症严重程度的方法的流程图。如图4所示，在某些实施例中，该方法可以包括：

步骤402：接收被测者的音频。

具体的，在步骤402中，在声音提取模块1111中，通过声音采集装置接收被测者发出的声音，形成音频文件。在一些实施例中，音频由被测者朗读特定文本发出的声音，或基于特定问题的口头回答发出的声音组成。具体的，本申请中采用遇险分析访谈语料库Oz语料库向导(精神压力访谈语料库(Distress Analysis Interview Corpus,DAIC-WOZ)数据集进行训练和测试。语料库中的音频来自被测者和访问者之间的访谈。访问者可以是真实的人类，也可以是由人类访问者控制的虚拟动画角色。

步骤404：由音频分组模块1112提取音频的音频特征得到初始矩阵(该初始矩阵为第四矩阵的一个实例)，对初始矩阵进行音频边界处理得到标准矩阵(该标准矩阵为第一矩阵的一个实例)。

具体的，在步骤404中，在一些实施例中，音频特征由COVAREP工具箱提取。音频特征可以分成韵律特征，音质特征和频谱特征三种。其中，韵律特征包括基频，发声边界。音质特征包括归一化幅度商(NAQ)、准开放商(QOQ)、差分声门源频谱的前两个谐波的幅度差(H1H2)、抛物线频谱参数(PSP)、最大色散商(MDQ)。光谱特征由Mel- Cepstral系数(MCEP0-24)、谐波模型和相位失真平均值(HMPDM0-24)以及偏差 (HMPDD0-12)组成。三种特征加在一起总共有74个音频特征。例如，假设以每10毫秒为一个恒定采样周期来计算音频特征。F表示每次提取COVAREP时的音频特征的数量，例如它在该数据集中是74。即表示在每个特征提取周期中，总共有74个音频特征。而提取的被测者的音频，有些部分是静默的无用数据，需要去除。针对此，需要实施对准特征向量的音频边界处理。具体的，沿着时间维度对输入数据进行分组。其中，每个组由相同数量的连续获得的音频特征组成，使得模型可以批量处理音频特征。在74个音频特征中，条目“VUV”指示音频特征是从原始访谈记录的有声部分还是静默部分提取的。如果“VUV”的值是0，则相应的音频特征是从被测者回答的静默部分提取的。这些音频特征被视为无效并被丢弃。只有那些“VUV”为1的音频特征，作为有声部分输入后续模型进行进一步处理。因此在初始矩阵中字段“VUV”总是1，而“VUV”被丢弃，这使得标准矩阵的宽为73。对于每个音频特征组，连续获得的音频特征的数量(即，分成多少个组)被命名为恒定的时步T。时步T的值被用于指示馈送到模型中用于确定抑郁症严重程度的特征向量的数量。由COVAREP工具箱对每个被测者的音频进行特征提取得到第四矩阵 A_i∈A^T ^×F，其中A表示初始矩阵，A_i表示初始矩阵中的特征，T表示时步 (TIMESTEP)，与音频的持续时间成正比，F表示每次提取COVAREP时的初始特征数量。因而输入模型的标准矩阵的形状是(TIMESTEP,73)。

步骤406：对标准矩阵，使用至少一个Bi-LSTM分别基于正向LSTM和反向LSTM 做并行处理，得到中间矩阵(该中间矩阵为第三矩阵的一个实例)。

具体的，在步骤406中，由Bi-LSTM和T-CNN模块1113对于提取自音频的标准矩阵，并行的使用至少一个由正向LSTM和反向LSTM组成的Bi-LSTM做处理，得到中间矩阵，中间矩阵由正向LSTM输出的正向隐含状态序列和由反向LSTM输出的反向隐含状态序列组成。Bi-LSTM的具体实施过程将在下文中做进一步的阐述。

步骤408：使用至少一个T-CNN在时间上对中间矩阵做卷积，得到最终矩阵(该最终矩阵为第二矩阵的一个实例)。

具体的，在步骤408中，由Bi-LSTM和T-CNN模块1113使用至少一个T-CNN在时间上对中间矩阵做卷积，得到最终矩阵，最终矩阵表示由中间矩阵在时间轴上求平均值得到的矩阵，在该实施例中是一个二维矩阵。T-CNN的具体实施过程将在下文中做进一步的阐述。

步骤410：使用全连接网络对最终矩阵进行线性处理，以获得向量，根据向量确定抑郁症的严重程度。

具体的，在步骤410中，使用全连接网络对最终矩阵进行线性处理，得到由若干个元素组成的向量，其中向量中的每个元素表示被测者属于该种严重程度的概率，且向量中所有元素之和为1。例如，得到向量Y＝[0.15,0.05,0.45,0.3,0.05]，分别对应于抑郁症的严重程度为健康，轻度，中度，高度，重度。则取向量中元素的最大值作为确定该被测者抑郁症严重程度的结果输出，即输出被测者抑郁症严重程度概率最高的选项作为结果，在该例子中，则输出最大值0.45对应的“中度”作为检测该被测者抑郁症严重程度的结果。全连接网络的具体实施过程将在下文中做进一步的阐述。

以下，结合图5和图6对上述步骤406和步骤408中实施的生成最终矩阵的具体过程做进一步的解释。

图5根据本申请的一些实施例，示出了一种如上所述的步骤406中Bi-LSTM的处理过程示意图，如图5所示，双向LSTM是由两个单独的LSTM模型组成的LSTM的变体。一个是正向LSTM，基于原始输入序列来训练。另一个是反向LSTM，在反向序列上训练。

具体的，如图5所示，假设在双向LSTM模型的正向和反向分别具有四个神经元(UNIT)神经元一、神经元二、神经元三、神经元四。

在正向LSTM中，输入标准矩阵B_i∈B^T×N的第一行即x＝(1,73)到神经元一，得到隐含状态1:h₀＝σ(wx+b)，w为初始权重，可以为0或者一系列符合高斯分布的随机数，b为偏置项，设置初始值，训练时参数会自动更新。输入第一矩阵B_i∈B^T×N的第二行即x＝(2,73)到神经元二，得到隐含状态2:h₁＝σ(w_ix+w_hh₀)；w_i为输入向量的权重，预先设定，w_h为隐含状态权重，预先设定。训练时会根据神经网络模型的训练方法比如反向传播算法去手动更新这个值，得到w’，这是在综合考虑了当前网络的输出和标签的差距之后，通过求导法则算出需要更新的网络模型的参数的量是多少，然后对模型进行手动更新，即w-特定的量＝w’,新的参数将在下一次训练的过程中取代w和b；完成参数的迭代更新。输入第一矩阵B_i∈B^T×N的第三行即x＝(3,73)到神经元三，同理得到隐含状态3:h₂＝σ(w_ix+w_hh₁)。输入第一矩阵B_i∈B^T×N的第四行即x＝(4,73)到神经元四，同理得到隐含状态4:h₃＝σ(w_ix+w_hh₂)。其中，对于神经元一，用第一个恒定采样周期 10ms作为输入，对于神经元二，用第二个恒定采样周期10ms作为输入，同时要第一个恒定采样周期10ms的隐含状态作为输入，对于神经元三，用第三个恒定采样周期10ms 作为输入，同时要第二个恒定采样周期10ms的隐含状态作为输入，对于神经元四，用第四个恒定采样周期10ms作为输入，同时要第三个恒定采样周期10ms的隐含状态作为输入。

在反向LSTM中，将标准矩阵进行上下翻转，得到翻转矩阵C_i∈C^T×N，输入翻转矩阵C_i∈C^T×N的第一行即x＝(4,73)到神经元一，得到隐含状态1:h₀’＝σ(wx+b)，w为初始权重，可以为0或者一系列符合高斯分布的随机数，b为偏置项，设置初始值，训练时会手动更新。输入翻转矩阵C_i∈C^T×N的第二行即x＝(3,73)到神经元二，得到隐含状态2: h₁’＝σ(w_ix+w_hh₀’)。输入翻转矩阵C_i∈C^T×N的第三行即x＝(2,73)到神经元三，同理得到隐含状态3:h₂’＝σ(w_ix+w_hh₁’)。输入翻转矩阵C_i∈C^T×N的第四行即x＝(1,73)到神经元四，同理得到隐含状态4:h₃’＝σ(w_ix+w_hh₂’)。其中，对于神经元一，用第四个恒定采样周期10ms作为输入，对于神经元二，用第三个恒定采样周期10ms作为输入，同时要第四个恒定采样周期10ms的隐含状态作为输入，对于神经元三，用第二个恒定采样周期 10ms作为输入，同时要第三个恒定采样周期10ms的隐含状态作为输入，对于神经元四，用第一个恒定采样周期10ms作为输入，同时要第二个恒定采样周期10ms的隐含状态作为输入。

现有技术中通过LSTM的最后隐含状态来表示输入序列。然而，由于最后的隐含状态不足以表示整个序列，因而我们选择将由正向以及反向的所有的隐含状态按照先正向后反向，即正向LSTM神经元一输出的隐含状态、正向LSTM神经元二输出的隐含状态、正向LSTM神经元三输出的隐含状态、正向LSTM神经元四输出的隐含状态、反向 LSTM神经元一输出的隐含状态、反向LSTM神经元二输出的隐含状态、反向LSTM神经元三输出的隐含状态、反向LSTM神经元四输出的隐含状态组成的中间矩阵[h₀，h₁， h₂，h₃，h₃’，h₂’，h₁’，h₀’]作为输出。其中每一个隐含状态都是一个特征图，因而中间矩阵是一个三维的矩阵。Bi-LSTM优于传统的LSTM，因为反向LSTM能够学习更多关于输入序列的上下文信息。且在每个时间步长的Bi-LSTM的输出由正向和反向网络的隐含状态共同确定。

抑郁评估是一项复杂的任务，它高度依赖于不同时间步长的音频特征之间的关系。如果在不同的时间步长上直接连接隐藏状态或者沿时间维度展平隐藏状态，则会导致时间信息的丢失。为了解决这个问题，本申请中利用T-CNN来学习Bi-LSTM的输出中的潜在时间和空间信息。简单的CNN仅支持2维或3维矩阵作为输入。如果时域分布式包装器被应用到CNN，则它支持4维矩阵作为输入，其中，4维矩阵表示2维LSTM隐藏状态的时间序列。

图6根据本申请的一些实施例，示出了一种如上所述的步骤408中T-CNN的处理过程示意图。如图6所示，本申请中提出的T-CNN由三层组成，第一层是时域分布式卷积层，将中间矩阵中的隐含状态依次输入到第一层中，其中使用Re LU作为激活函数，时域分布式卷积层的初始参数由He Normal Initialize提供，每一个隐含状态所对应的矩阵基于卷积核相乘得到特征矩阵。第二层是时域分布式汇集层，对输入的特征矩阵序列，进行特征提取，输出得到下采样的特征映射，以减少特征映射中的特征数量。第三层是批归一化层，对下采样的特征映射进行归一化处理，从时间上做平均池化，得到最终特征映射，最终特征映射为二维矩阵。并且，由于计算机可以并行处理不同样式的T-CNN模块，并行处理的数量取决于批归一化层中，批的大小(bitch-size)，因而支持四位矩阵作为输出，最终输出二维矩阵。该结构可重复5次，形成5个T-CNN块。在这五个T-CNN 块中分别有64、64、64、128、256个核。这些内核的大小分别为3、3、3、3、9。最后一个T-CNN块的输出为最终矩阵，最终矩阵由步长T个采样组成，每个采样由256个特征映射表示。

图7根据本申请的一些实施例，示出了一种如上所述的步骤410中全连接网络线性处理过程的示意图。如图7所示，在得到最终矩阵之后，需要对通过全局平均池层对其进行下采样。具体的，沿着最终矩阵中特征映射的时间维度滑动，即沿着最终矩阵的列，步长T的方向计算每个矩阵元素的平均值，这确保了本申请中提出的模型在时间维度上进行展开，考虑了每个时步之间的关系。然后将全局平均池化层的输出馈送到具有128和 64个隐藏单元的以下两个线性层中。最后，线性层的输出成为具有5个隐藏单元的另一线性层的输入。Softmax函数用作最后的线性层中的非线性激活。可选的，Softmax函数的输出是由落入五个等级的概率组成的向量，可选择向量中的元素的最大值来确定抑郁症的严重程度。

上述实施例中，通过接收被测者音频，使用COVAREP工具箱对音频中的音频特征进行提取，得到初始矩阵，对初始矩阵进行边界处理，得到标准矩阵，将标准矩阵输入到Bi-LSTM做处理，得到中间矩阵，再由T-CNN在时间上对中间矩阵做卷积，得到最终矩阵，最后再将最终矩阵输入到全连接层进行线性处理，得到向量，输出抑郁症严重程度的结果。采用端到端的训练方式，即从声音输入到最后形成检测结果，期间无需人工干预，实现对被测者的抑郁严重程度进行直接确定，而不受限医生主观判断的影响，同时在精神压力访谈语料库(Distress Analysis Interview Corpus,DAIC-WOZ数据集上实现了0.9870的F1得分，判断结果有显著改进，且具有较强的抗噪能力。

为了验证以上技术效果，我们也进行了大量的实验验证，首先，在测试阶段，基于自我报告问卷，将被测者分为抑郁、创伤后应激障碍(PTSD)和焦虑三个类别。访谈持续 5-20分钟，可以分成三个阶段。以中立问题开始，目的是在被测者和访问者之间建立信任，也使被测者感觉放松。随后是目标阶段，并且访问者所提问的问题与抑郁和PTSD的症状更加相关。最后，访谈终止于“退火”阶段，这有助于被测者摆脱困扰的状态。以从0 至24的范围，PHQ-8决定了精神障碍的严重程度。被测者分为五个类别，并且五个类别(健康、轻度、中度、高度和重度)的临界值分别为0、5、10、15、20。除此之外，我们在国内某医院收集了一系列临床医师与被测者的访谈。我们根据他们的蒙哥马利-阿斯伯格抑郁评定量表(MADRS)来注释他们的抑郁严重性。将患者分为四个严重程度(健康，轻度，中度，重度)，每个等级的MADRS临界值为6,19,30和35。然后使用COVAREP工具箱提取音频特征。据了解，这是中文第一个多模态临床遇险访谈语料库。其中，在精神压力访谈语料库(Distress Analysis InterviewCorpus,DAIC-WOZ数据集的测试分区上的准确度、精密度、召回和F1得分的量度分别示于表1-基线音频模型的结果和表2-本申请提出的音频模型的结果中。

表1

表2

如表1和表2所示，对于具有全连接层模型的LSTM，其准确度比最佳基线模型高7％。相比之下，具有全连接层模型的Bi-LSTM在准确度上优于37.38％。针对所提出的 Bi-LSTM模型，结合时域分布式的CNN模型，在准确度比最佳基线模型提高了48.9％。由此可以得出结论，LSTM与基线机器学习模型(例如初始贝叶斯模型)相比在抑郁症级别分类上表现得更好。另外，模型的性能高度依赖于之后联接LSTM的网络的类型。如果其他配置是固定的，则具有T-CNN的Bi-LSTM优于其他方法，因为T-CNN通过利用 LSTM的所有隐藏状态而比其他方法学习更多的时间和空间信息。

对于本申请中提出的模型，性能因不同的配置而不同。我们研究了时间步长的值的影响，并确定了当时间步长为16时，本申请所提出的模型表现最佳。图8a和8b示出了当时间步长为16时接收机工作特性(ROC)的曲线。本申请提出的模型的微均AUC为 0.9853。图中显示了每一类别的AUC，"严重"的AUC小于任何其它抑郁症水平，这表明模型正确区分严重抑郁症于其它抑郁症水平更具挑战性。这可能归因于当被测者遭受的痛苦得越严重时，变得越向内，这意味着在访谈期间被测者和临床医生之间的互动越少。另外，在抑郁人群中回答之间的停顿时间也比通常长。严重程度抑郁症患者正在一段时间内的音频特征少于那些患有轻微症状的被测者。为了验证我们的假设，我们统计了原始访谈记录和转录文本。将原始音频和转录文本按其PHQ-8分为两组，对照组和实验组的分数界限为9。如果被测者的PHQ8小于或等于9，则认为他们是正常的或轻度的 (对照组)。否则，它们被认为是中度或重度的(实验组)。

表3中列出了统计信息。对照和实验组的音频持续时间直方图在图9中示出。

表3

如表3和图9所示，对照组和实验组的回答持续时间分别为1003.8350±305.9030秒和936.3534±249.8590秒。两侧T测试被应用于测试在对照组和实验组中的音频持续时间是否存在显著差异。两尾p值为0.1163。对照组和实验组的句长分别为8.3226±8.4243和8.7410±8.9237。两侧T测试被应用于测试在对照组和实验组中的音频持续时间是否存在显著差异。双尾p值为4.5705×10^-5。上述结果表明，对照组和实验组的音频持续时间没有显著差异。然而，对照组和实验组的句长显著不同。在实验组中存在更多由少于5个单词组成的更短的回答。由于对照组和实验组之间的音频持续时间具有相同的平均值，我们可以得出结论：实验组的会话中有更多的停顿。

图8c和8d是当时间步长为32时的ROC。该模型的微均AUC为0.9664。这次，与具有16个时间步长的模型相比，每个类别之间的AUC的差异较小。具有32个时间步长的模型的性能优于具有16个时间步长的模型。这可能是由于更严重的抑郁症导致在短时间内我们可以获得的音频和文本特征更少。结果表明，我们应该考虑音频特征中的长期依赖性。图10示出了一种抑郁症级别的混淆矩阵，比较具有不同时间步长的模型，图 10a和10c示出了具有16个时间步长的模型的混淆矩阵，而图10b和10d示出了具有32 个时间步长的模型的混淆矩阵。不同的时间步长意味着测试集的不同大小。为了消除测试集大小的影响，我们对混淆矩阵沿每行进行了归一化。就归一化的混淆矩阵而言，具有16个时间步长的模型表现得更好，但是从图10d的第一行上的条目来看，具有32个时间步长的模型将抑郁症患者误诊为健康人的可能性更小。症状严重的患者被误诊为健康人可能导致不良后果。为了找到优化计算成本(更大的时间步长意味着更多的计算)和误诊率之间的折衷的时间步长的临界值，应该进一步研究在检测严重抑郁症中具有更大时间步长的模型的贡献。

由单层Bi-LSTM和5个堆叠的T-CNN块组成的模型在测试集上实现了最佳结果：F1得分＝0.9870。另外，我们用曲线下面积(AUC)作为度量评估了具有不同时间步长的音频模型。结果表明，16时步模型较32时步模型效果更好，且微均AUC明显高于32时步模型。然而，32时步模型在检测严重抑郁症方面表现得更好。对于16时间步和32时间步模型，"严重"的AUC分别为0.9537和0.9654。我们进行了统计检验，以探讨32步模型表现更好的原因，并且认识到这可以归结于在访谈期间严重的患者可能的交互更少。因此，长期音频特征序列携带比短期音频特征序列更多的信息。与16时步模型相比，32时步模型获得更多的音频特征，从而获得更好的性能。当我们在临床环境下部署该方法时，新的理解有助于我们的模型选择和超参数配置。本申请中提出的模型是独立于被测者的，并且预测是基于一段时间的音频特征。

根据本申请的一些实施例，提供了一种基于被测者的音频确定抑郁症严重程度的装置600，图11根据本申请的一些实施例，示出了一种基于被测者的音频确定抑郁症严重程度的装置的结构示意图。如图11所示，基于被测者的音频确定抑郁症严重程度的装置 600如下：

接收模块601，接收被测者的音频；

处理模块602，对提取自音频的第一矩阵，使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理，以及至少一个时域分布式卷积神经网络进行的池化处理，得到第二矩阵，其中，第二矩阵包括音频数据的特征数据；

输出模块603，将第二矩阵处理成向量，并根据向量确定被测者的抑郁症严重程度。

第一实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本申请的第三实施方式涉及一种基于被测者的音频确定抑郁症严重程度的设备，包括：

本申请的第四实施方式涉及一种使用计算机程序编码的计算机存储介质，计算机可读介质上存储有指令，该指令在计算机上执行时可以使计算机执行上述第一方面的任意一种可能的方法。

需要说明的是，本申请的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本申请是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(Programmable Array Logic，简称“PAL”)、随机存取存储器(Random Access Memory，简称“RAM”)、可编程只读存储器(Programmable Read Only Memory，简称“PROM”)、只读存储器(Read-Only Memory，简称“ROM”)、电可擦除可编程只读存储器(Electrically ErasableProgrammable ROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc，简称“DVD”)等等。

需要说明的是，本申请各设备实施方式中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部位，还可以以多个物理单元的组合实现，这些逻辑单元本身的物理实现方式并不是最重要的，这些逻辑单元所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部位，本申请上述各设备实施方式并没有将与解决本申请所提出的技术问题关系不太密切的单元引入，这并不表明上述设备实施方式并不存在其它的单元。

需要说明的是，在本专利的权利要求和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施方式，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种确定抑郁症严重程度的音频模型构建方法，用于电子设备，其特征在于，所述方法包括：

构建至少一个双向长短期记忆模型，用于对提取自音频的第一矩阵做并行处理以得到第三矩阵，所述至少一个双向长短期记忆模型包括正向长短期记忆模型和反向长短期记忆模型，所述正向长短期记忆模型和所述反向长短期记忆模型分别包括n个神经元，所述第三矩阵由所述正向长短期记忆模型输出的n个隐含状态序列和由所述反向长短期记忆模型输出的n个反向隐含状态序列组成；

构建至少一个时域分布式卷积神经网络，用于对所述第三矩阵进行池化处理以得到第二矩阵，其中，所述第二矩阵包括所述音频数据的特征数据；其中，所述池化处理包括基于所述至少一个时域分布式卷积神经网络，通过卷积对所述第三矩阵进行特征提取，得到矩阵序列，从时间上对所述矩阵序列做平均池化得到所述第二矩阵；

构建全连接网络，所述全连接网络包括线性层，所述线性层用于对所述第二矩阵执行线性处理以获得输出向量。

2.根据权利要求1所述的方法，其特征在于，对提取自音频的第一矩阵做并行处理得到第三矩阵，进一步包括：

将所述第一矩阵输入所述至少一个正向长短期记忆模型，得到正向隐含状态序列[h₀ ,h₁ ,h_{2 ,……,}h_n]；

将所述第一矩阵上下翻转得到翻转矩阵；

将所述翻转矩阵输入所述至少一个反向长短期记忆模型，得到反向隐含状态序列[h’_n,h’_n-1 ,h’_{n-2 ,……,}h’₀]；

将所述正向隐含状态序列和所述反向隐含状态序列顺次排列，得到所述第三矩阵[h₀ ,h₁ ,h_{2 ,……,}h_n，h’_n ,h’_n-1 ,h’_{n-2 ,……,}h’₀]，其中每个隐含状态h均表示一个二维矩阵。

3.根据权利要求1所述的方法，其特征在于，所述第一矩阵是对所述音频进行预处理后得到的矩阵。

4.根据权利要求3所述的方法，其特征在于，对所述音频进行预处理，包括：

从所述音频中获取第四矩阵，所述第四矩阵包括从所述音频中提取的音频特征；

对所述第四矩阵进行音频边界处理得到所述第一矩阵，所述音频边界处理从所述第一矩阵中提取预设数量个时步的恒定采样周期的有声部分的音频特征，其中所述时步表示连续提取的所述音频特征的次数。

5.根据权利要求4所述的方法，其特征在于，从所述音频中获取第四矩阵，包括：

使用COVAREP工具箱对所述音频中的音频特征进行提取，得到所述第四矩阵A_i ∈ A^T ^{× F}，

其中A表示所述第四矩阵，A_i 表示所述第四矩阵中的特征，T表示所述时步，与所述音频的持续时间成正比，F表示每次提取COVAREP时的初始特征数量。

6.根据权利要求4所述的方法，其特征在于，对所述第四矩阵进行音频边界处理得到所述第一矩阵，包括：

去除所述第四矩阵中每次提取的F个初始特征中的F-N个VUV=0的初始特征，保留N个VUV=1的初始特征，得到所述第一矩阵B_i ∈ B^{T × N}；

其中B表示所述第一矩阵，B_i 表示所述第一矩阵中的特征，所述VUV表示所述音频特征是音频中的有声部分还是静默部分，当VUV=0时，所述初始特征对应所述静默部分，当VUV=1时，所述初始特征对应所述有声部分。

7.根据权利要求4所述的方法，其特征在于，所述音频特征包括韵律特征、音质特征和频谱特征。

8.根据权利要求1所述的方法，其特征在于，所述音频包括以下的一个或多个：

朗读特定文本发出的声音，

基于特定问题的口头回答发出的声音。

9.一种确定抑郁症严重程度的音频模型的构建设备，其特征在于，包括：

处理器，是系统的处理器之一，用于执行所述指令以实施权利要求1-8中任一项所述的方法。

10.一种使用计算机程序编码的计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，所述指令在计算机上执行时使计算机执行权利要求1-8中任一项所述的方法。