CN111192659A

CN111192659A - 用于抑郁检测的预训练方法和抑郁检测方法及装置

Info

Publication number: CN111192659A
Application number: CN201911420723.6A
Authority: CN
Inventors: 俞凯; 吴梦玥; 丁翰林; 张平越
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-22

Abstract

本发明公开用于抑郁检测的预训练方法和抑郁检测方法及装置，其中，方法包括：将从训练音频中提取的频谱图特征切分为N个子频谱图特征；在所述N个子频谱图特征的中心M₀的前后分别选取k个子频谱图特征，其中，k<(N‑1)/2；将M₀的前k个子频谱图特征和后k个子频谱图特征合记为M_i，将M_i输入编码器；以中心子频谱图特征M₀作为目标标签，训练所述编码器和解码器以使得所述编码器和所述解码器能够利用M_i预测M₀。申请的方法和装置提供的方案通过对语音进行预训练之后能够提取出音频中关于人声的更加丰富的信息，从而使得检测精度相比不用预训练，有很大程度的提升。

Description

用于抑郁检测的预训练方法和抑郁检测方法及装置

技术领域

本发明属于神经网络技术领域，尤其涉及用于抑郁检测的预训练方法和抑郁检测方法及装置。

背景技术

抑郁症是一种引起人们广泛关注的疾病，已经影响到全世界3亿多人。随着抑郁症的严重程度在没有充分治愈的情况下增长，患有这种疾病的人将遭受多种症状，包括失眠，失去兴趣以及在极端时自杀。越来越多的研究涉及自动抑郁症的检测和严重程度的预测，特别是对话性语音，其中嵌入了有关人的精神状态的重要信息。但是，到目前为止，这些模型受到抑郁数据十分有限的严重限制，导致精度提高和再现困难。在过去的几十年中，抑郁症检测的研究有所增加，因为该疾病已成为社会关注的问题。

现有技术中，研究自动抑郁检测方法的主要瓶颈，在于可用的数据十分有限。因此，一般在进行抑郁症检测时，大多数人会选用多模态，即语音，视频以及文字等数据进行模态融合，或者仅仅使用文字进行检测，这样可以使得特征与人声或者人的说话内容更相关。由于音频中经常存在很多与说话人无关的信息，比如噪音，所以检测的精度较差。

发明内容

本发明实施例提供一种用于抑郁检测的预训练方法和抑郁检测方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种用于抑郁检测的预训练方法，包括：将从训练音频中提取的频谱图特征切分为N个子频谱图特征；在所述N个子频谱图特征的中心M₀的前后分别选取k个子频谱图特征，其中，k<(N-1)/2；将M₀的前k个子频谱图特征和后k个子频谱图特征合记为M_i，将M_i输入编码器；以及以中心子频谱图特征M₀作为目标标签，训练所述编码器和解码器以使得所述编码器和所述解码器能够利用M_i预测M₀。

第二方面，本发明实施例提供一种抑郁检测方法，包括：将待检测语音输入至根据第一方面所述的方法训练的编码器中，获取所述编码器的输出；以及将所述编码器的输出输入至抑郁判别网络中，获取所述抑郁判别网络输出的与所述待检测语音对应的抑郁状况。

第三方面，本发明实施例提供一种用于抑郁检测的预训练方法装置，包括：提取切分模块，配置为将从训练音频中提取的频谱图特征切分为N个子频谱图特征；周围特征选取模块，在所述N个子频谱图特征的中心M₀的前后分别选取k个子频谱图特征，其中，k<(N-1)/2；输入模块，配置为将M₀的前k个子频谱图特征和后k个子频谱图特征合记为M_i，将M_i输入编码器；以及训练模块，配置为以中心子频谱图特征M₀作为目标标签，训练所述编码器和解码器以使得所述编码器和所述解码器能够利用M_i预测M₀。

第四方面，本发明实施例提供一种抑郁检测装置，包括：输出获取模块，配置为将待检测语音输入至根据第一方面所述的方法训练的编码器中，获取所述编码器的输出；以及抑郁状况输出模块，配置为将所述编码器的输出输入至抑郁判别网络中，获取所述抑郁判别网络输出的与所述待检测语音对应的抑郁状况。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的抑郁检测方法的步骤。

第六方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的抑郁检测方法的步骤。

本申请的方法和装置提供的方案通过对语音进行预训练之后，发现不论运用什么数据集(甚至是跨语种)，预训练后的编码器都能提取出音频中关于人声的更加丰富的信息，从而使得对抑郁症检测的精度相比不用预训练，有很大程度的提升。进一步地，很多人声数据集可以用来预训练，不会存在缺乏数据的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种用于抑郁检测的预训练方法的流程图；

图2为本发明一实施例提供的一种抑郁检测方法的流程图；

图3为本发明一实施例提供的预训练方法的一个具体实施例的框架示意图；

图4为本发明一实施例提供的预训练方法的一个具体实施例的算法示意图；

图5为本发明一实施例提供的一种预训练方法的一个具体实施例的预训练编码器-解码器体系架构图；

图6为本发明一实施例提供的一种抑郁检测方法的一个具体实施例的抑郁检测流程示意图；

图7为本发明一实施例提供的一种用于抑郁检测的预训练装置的框图；

图8为本发明一实施例提供的一种抑郁检测装置的框图；

图9是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的用于抑郁检测的预训练方法一实施例的流程图，本实施例的抑郁检测方法可以适用于用于抑郁检测或者情绪检测的设备中，例如抑郁检测设备等。

如图1所示，在步骤101中，将从训练音频中提取的频谱图特征切分为N个子频谱图特征；

在步骤102中，在N个子频谱图特征的中心M₀的前后分别选取k个子频谱图特征，其中，k<(N-1)/2；

在步骤103中，将M₀的前k个子频谱图特征和后k个子频谱图特征合记为M_i，将M_i输入编码器；

在步骤104中，以中心子频谱图特征M₀作为目标标签，训练编码器和解码器以使得编码器和解码器能够利用M_i预测M₀。

在本实施例中，对于步骤101，预训练装置首先获取训练音频，然后从训练音频中提取所需地频谱图特征，并将提取地频谱图特征切分成N 个子频谱图特征，每个特征的大小可以预设，本申请在此没有限制。

之后，对于步骤102，预训练装置从N个子频谱特征的中心M₀的前后分别选取k个子频谱图特征，如果N是奇数的话是M₀唯一的，如果N 是偶数的话，M₀可以是中心处两个子频谱图特征中的任一，本申请在此没有限制。

然后，对于步骤103，预训练装置将M₀的前k个子频谱图特征和后 k个子频谱图特征，作为输入同时输入至编解码器中。最后，对于步骤 104，由于已知中心M₀，因此可以以中心子频谱图特征M₀作为目标标签，训练编解码器以使得编码器和解码器能够利用M_i预测M₀。通过控制两个特征的相似度，来训练编解码器最后能够输出与目标标签相似的特征从而训练出能够通过周边特征预测中心特征的编解码器。

本实施例的方法通过提取中心特征周围的特征输入编解码器进行训练，通过控制最终输出的特征与目标标签的特征的近似度，调整编解码器的参数使得编解码器最终符合要求，训练出能够通过周边特征预测中心特征的编解码器。

在一些可选的实施例中，上述训练所述编码器和解码器以使得所述编码器和所述解码器能够利用M_i预测M₀的步骤进一步包括：计算M_i和 M₀的平均绝对误差，训练所述编码器和所述解码器以使得所述平均绝对误差小于等于预设阈值。从而通过上述方法训练出来的编码器和解码器能够输出与目标标签非常接近的结果。

在进一步可选的实施例中，所述频谱图特征包括梅尔频谱特征和短时傅立叶变换特征，所述子频谱图特征包括96帧的子频谱图中的特征。

进一步可选的，所述编码器和所述解码器均为CNN(Convolutional NeuralNetworks，卷积神经网络)。

本实施例的方法通过对语音进行预训练之后，能够提取出音频中关于人声的更加丰富的信息，从而使得对抑郁症检测的精度相比不用预训练，有很大程度的提升。进一步地，很多人声数据集可以用来预训练，不会存在缺乏数据的问题。

请参考图2，其示出了本申请一实施例提供的一种抑郁检测方法。

在步骤201中，将待检测语音输入至根据上述实施例的方法训练的编码器中，获取所述编码器的输出；

在步骤202中，将所述编码器的输出输入至抑郁判别网络中，获取所述抑郁判别网络输出的与所述待检测语音对应的抑郁状况。

在本实施例中，对于步骤201，抑郁检测装置通过将待检测语音输入至根据以上实施例的预训练方法训练后的编码器中，获取该编码器的输出，可以通过训练后的编码器获得更丰富的信息。之后，将该编码器输出的信息输入至抑郁判别网络中，该抑郁判别网络可以是现有技术中比较成功的经过训练的抑郁判别网络，从而之后可以输出与该待检测语音对应的抑郁状况。由于不是将待检测语音直接输入抑郁检测网络，而是先通过预训练的编码器提取了更加丰富的特征之后再输入抑郁检测网络，可以使得检测的结果更加精准。后续会有发明人的实验结果对本申请的效果进行验证，在此不再赘述。

在一些可选的实施例中，上述抑郁判别网络为双向LSTM(Long Short-TermMemory，长短时记忆)网络。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

自然语言处理(NLP，Natural Language Processing)中的许多数据稀疏的场景任务受益于预训练的文本嵌入。关于多模态研究，已经发现预训练提取音频嵌入性能优于传统的基于声谱图的声学环境分类特征。所有这些预训练的神经网络都利用了自监督的编码器/解码器模型，该模型不需要人工标记，因此可以在大型数据集上进行预训练。

但是，关于预训练音频特征的研究很少。与基于高级文本的特征相比，将基于音频的特征用于抑郁症检测具有潜在的缺点：1)内容丰富的音频包含很多与说话人无关的信息，例如环境声音，干扰语音和噪声。2) 特征通常是低级的，并且是在较短的时间范围内(例如40毫秒)提取的，每个特征都几乎不包含高阶(例如口语单词)的信息。

发明人认为，需要在序列级别(例如句子)上提取成功的用于抑郁症检测的音频嵌入，以便在采访中捕捉丰富的长期口语语境以及情绪发展。因此，本申请的方案旨在探讨通过音频进行的抑郁症检测是否可以受益于预训练的网络。本文提出了DEPA，它是一种自监督的，类似于 Word2Vec的预训练的抑郁症音频嵌入方法，用于自动抑郁症检测。进行了两组DEPA实验。首先，发明人通过对抑郁症(集内数据集)数据进行预训练来研究DEPA的使用。其次，发明人进一步探讨了对其他精神障碍的集外数据集预训练，方法是采访对话数据集和通用语音数据集。据发明人所知，这是第一次在抑郁症检测任务上执行预训练网络。更重要的是，这可以用有限的数据资源生成给其他语音研究。

关于抑郁症检测，已经提出了各种用于自动抑郁检测的方法。先前基于语音的检测工作已经对各种声学特征进行了实验，例如韵律特征 (例如音调，抖动，响度，讲话率，能量，暂停时间，强度等)，频谱特征(例如共振峰，能谱密度，频谱能量分布，声道频谱，频谱噪声等 )和倒频谱特征(例如，梅尔频率倒频谱系数)，以及最近出现的诸如 COVAREP(CVP)之类的特征组合，包括维度特征向量，涵盖基本特征，例如基频和峰值斜率。深度学习方法也已被用来提取高级特征表示。尽管尝试了不同的特征和模型，但基于语音的抑郁检测所产生的F1准确性却是平均水平。相关研究发现，通过在大型，独立于任务的语料库上对文本嵌入进行预训练，可以显著提高检测性能。

自监督学习是一种对训练数据进行自动标记，但对训练过程进行监督的技术。在NLP中，预训练的单词嵌入是通过自监督学习进行训练的，可应用于各种任务，并实现卓越的性能。主要理念是根据上下文的历史/未来去预测下一个单词/句子，而无需任何人工标记。自监督学习还可以提取有关数据本身的一些有用信息。因此，该方法可以应用于抑郁症检测，以捕获每个说话者语音下的隐式信息，并预测他们的抑郁状态。

本申请实施例提出DEPA，这是一种通过神经网络提取的语音特征，以捕获更丰富的语音细节。本申请实施例提出的方法由一个自监督的编码器-解码器网络组成，该编码器之后将被用作频谱图的DEPA嵌入提取器。给定特定音频剪辑的频谱图X∈R^S×F，其中S是帧数，F是数据维数 (例如频点)。

在本申请实施例中，继续将X切片为不重叠的子频谱图X_i∈R^{((2k+1)·T)×F}。然后，在一个中心M₀之前和之后，用k个频谱图选择2k+1个子频谱图：

X_i＝[M_-k，M_-k+1，...，M_-1，M₀，M₁，...，M_k-1，M_k]，

其中M_i∈R^T×F。自监督的训练过程将中心频谱图M₀视为目标标签，给定其周围的频谱图M_i，(i≠0)并计算嵌入损失(公式(1))。详细的预训练过程可以在算法1(如图4中所示，具体解释如下)中看到，并在图3中进行描绘。

算法1：预训练DEPA的伪代码

1：算法DEPA(X，Ω，Φ)

2：Xi＝(2k+1)，T大小的频谱图的序列

3：M0＝Xi的中心频谱图

4：[Mk···M-1，M1···Mk]＝M0前后的2k个频谱图

5：将M0前后的2k个频谱图输入编码-解码器中，得到M0’

6：利用上述损失函数计算并更新网络

图3示出了DEPA预训练框架。

其中，编码器体系结构：编码器体系结构包含三个下采样块。每个块由卷积，平均池，批归一化和ReLU激活层组成。

解码器体系结构：解码器通过三个转置的卷积上采样块对v进行上采样，并预测中心频谱图

然后通过公式(1)中的嵌入损耗来更新模型。编码器-解码器架构如图5所示。

图5示出了DEPA预训练编码器-解码器体系结构。

在对编码器/解码器网络进行预训练之后，通过输入可变长度的音频段R提取DEPA(此处为响应级别)放入编码器模型并获得单个256维嵌入。然后将DEPA进一步输入抑郁检测网络。

本申请实施例旨在比较DEPA在相关的(例如集内数据集(抑郁检测)和集外数据集(例如语音识别))数据集的预训练方面。

表1.用于DEPA预训练的已利用数据集。

关于集内数据集数据，本申请实施例将公开可用的DAIC数据集用于集内数据集预训练，以便将DEPA与传统音频特征方法进行比较。为了确定DEPA的可用性，本申请实施例还使用了成熟的switchboard(SWB )数据集，其中包含英语电话语音。阿尔茨海默氏病(AD)数据集是从上海精神病诊所私下收集的，其中包含大约400小时(问答)来自高级患者的普通话采访材料。表1列出了这三个数据集。抑郁检测中使用最广泛的数据集是“遇险分析访谈语料库绿野仙踪(DAIC)”，涵盖从142名患者中进行的189次临床访谈中收集的50小时数据。为每个参与者提供了两个标签：抑郁/健康状况的二进制诊断和患者的八项患者健康问卷评分 (PHQ8，eight-item Patient Health Questionnaire score)指标。训练中的30 名说话者(28％)和发育中的12名说话者(34％)被分类为患有抑郁症 (二进制值设为1)。DAIC数据集被完全转录，包括音频中的相应开和偏移。训练子集包含大约13个小时，而研究设置了大约6个小时的响应时间。该数据库以前仅用于2017年音频/视觉情感挑战赛(AVEC2017，Audio/VisualEmotionChallenge2017)，尽管此数据集包含训练，研究和测试子集，但由于研究子集标签仅对参与者可用，因此本申请实施例在研究子集上报告了发明人的评估协议挑战AVEC2017。

关于特征选择，研究了两个特征：MSP和CVP。由于整个数据集的采样率不同，在本申请实施例中将每个数据集的音频重新采样为22050 Hz。每23ms提取窗口长度为93ms的128维MSP。跨音频段的音频段79 维特征内的CVP特征(HCVP)的高阶统计量(平均值，中位数，方差，最小，最大，偏度，峰度)，因此为553维。

在本申请实施例中，DEPA预训练过程，编码器-解码器训练利用 MSP特征，超参数k＝3，T＝96，可提取256维DEPA嵌入。此外，该模型使用Adam优化以0.004的初始学习率训练了4000个纪元(epochs )。对于集内数据集和集外数据集，预训练过程有所不同。对于集内数据集数据，将患者的所有响应串联起来，这意味着忽略了受访者的沉默或讲话。对于集外数据集数据，不执行任何预处理，这意味着将使用整个数据集。

关于抑郁状态和严重程度的最终决定是基于现有的多任务模型。这种方法顺序地模拟了患者的抑郁状况，这意味着仅利用了患者的反应。由于LSTM网络在该领域的最新成功，本申请实施例中的抑郁预测结构遵循双向LSTM(BLSTM)方法，具有四个大小为128的层。在每个 BLSTM层之后应用0.1的随机丢弃(dropout)以防止过度拟合。该模型在每个响应r(时间步长)处输出一个二维矢量(y_c′(r),y_c′(r))，该二维矢量表示估计的二元患者状态(y_c′(r))以及PHQ8得分(y_c′(r))。最终，应用LSTM输出的第一个时间步(time step,T＝1)以减少患者对单个向量的所有响应。该架构如图5所示。

关于指标，与现有技术类似，之间的二进制交叉熵损失用于二进制分类(公式(2))，而y_r，y′_r之间的Huber损失用于回归(公式(3)) ，其中yc，yr分别是地面实况PHQ8二分值和PHQ8分数。σ是S型函数。

结果以MAE(Mean Absolute Error，平均绝对误差)和RMSE(Root Mean SquareError，均方根误差)进行回归，并以宏观平均F1分数进行分类。

图6示出了使用DEPA进行抑郁检测。所提出的编码器-解码器模型中的编码器为BLSTM网络提供了高级听觉特征。

训练检测过程在DEPA，HCVP(Higher-order statistics(高阶统计量 )of CVPfeature)和MSP(Mel-Spectrogram，梅尔频谱)特征之间略有不同。即使它们都是在病人每一句回答的级别上提取的，HCVP和DEPA 都是固定大小的矢量表示形式，而MSP是可变长度特征序列。通过在训练集上计算全局均值和方差并将其应用于开发集来应用数据标准化。使用起始学习率为0.004的Adam优化。

表2示出了关于使用的三个数据集，在进行DEPA预训练和不进行 DEPA预训练的检测之间的比较。Σ表示使用所有三个数据集进行DEPA 提取。表2中的结果在两个不同级别上进行了比较：

表2的前两行表明，固定大小的响应级别特征(HCVP)的确优于可变大小的序列特征(MSP)。关于领集内数据集训练(第3行)，相比于传统特征，DEPA在分类和回归性能方面均表现出色。

集外数据集DEPA

预训练产生了有趣的结果：就二进制分类(F1)而言，集外数据集 SWB和AD的预训练均优于集内数据集DAIC。此外，就MAE和RMSE 而言，对AD进行预训练会导致最低的回归错误率。发明人认为AD预训练的优越表现是因为某些认知障碍与抑郁症高度相关；因此，AD和DAIC(抑郁)之间共享更多的语音特征。更重要的是，通过对所有可用数据集进行联合训练(713h)，性能会降低到MSP级别，这意味着尽管实际上可以对任何数据集进行预训练，但应该注意一致的数据集内容。因此，鉴于情感可以独立于语言这一事实，探索预训练提取音频嵌入的一般性是发明人未来的兴趣。

本申请实施例提出了DEPA，一种用于自动抑郁症检测的音频嵌入预训练方法。以自监督的方式训练编码器-解码器模型，以在给定频谱图上下文的情况下预测和重建中心频谱图。然后，从经过训练的编码器模型中提取DEPA，并将其输入到多任务抑郁检测BLSTM中。与传统的频谱图和COVAREP特征相比，DEPA具有出色的性能。与不具有DEPA的传统谱图特征(F1 0.61，MAE 6.07)相比，集内数据集结果表明检测存在检测的结果明显更好(F10.72，MAE 4.72)。集外数据集结果表明，几乎可以对任何口头语言数据集进行DEPA预训练，同时有利于抑郁检测性能。

发明人在实现本申请的过程中发现，现有技术的缺陷主要是由于以下内容导致的：

现有技术的基于语音特征对抑郁症进行检测的方案通过提取各种语音特征(梅尔，MFCC，短时傅立叶变换)并拼接这些特征，经过一个网络(LSTM)对抑郁症进行检测。

该方案的音频中经常存在很多与说话人无关的信息，比如噪音，所以检测精度较差。主要是由于没有采用一种有效的方法从音频中提取和人声更相关的信息，而是直接采用了包含任何声音信息的特征进行检测。。

本领域技术人员在遇到上述技术问题的时候，通常会采用以下解决方案：

一般在进行抑郁症检测时，大多数人会选用多模态，即语音，视频以及文字等数据进行模态融合，或者仅仅使用文字进行检测，这样可以使得特征与人声或者人的说话内容更相关。他们不会选择只用语音信息，是因为语音信息中所包含的噪声等与检测无关的元素太多，给检测带来了很大的困难。

而本申请实施例的方案采用预训练的方法，先在一个语音数据集上训练出一个用来提取特征的encoder，这个encoder能够从语音中提取出只与人声相关的，更为丰富的信息。再用提取好的特征进行抑郁症检测。首先，在预训练阶段，我们挑选了几个数据集，这些数据集不需要与抑郁症有关。在这些音频中，我们提取了梅尔频谱特征(或短时傅立叶变换特征)。然后将特征输入encoder-decoder网络，其中，我们将每96帧的特征作为一块，采用一块作为中心，用周围的2k块(前k后k)来预测中心块。

预训练结束后，我们保留encoder，用来在抑郁症数据集上提取包含人声信息更丰富的特征，将其输入到一个判别网络(双向LSTM)检测患者是否有抑郁症以及其的抑郁程度。

encoder与decoder均为CNN网络。

申请人在实现的过程中还采用了如下的beta版方案：beta版利用 LSTM作为encoder，优点是对抑郁症的检测也有一定的提升并且可以输入变长的数据。缺点是对抑郁症的检测效果不如CNN，并且训练难度较大。

发明人对语音进行预训练之后，发现不论运用什么数据集(甚至是跨语种)，预训练后的encoder都能提取出音频中关于人声的更加丰富的信息，从而使得对抑郁症检测的精度相比不用预训练，有很大程度的提升(F1从0.69提升至0.74)。因此，很多人声数据集可以用来预训练，不会存在缺乏数据的问题。

此外，不仅对于抑郁症这一单一病种可以用此方法进行更精确的检测，我们可以推广到其他更多病种(如老年痴呆症)甚至是情绪的检测当中去。

由于用于提取特征的encoder提取速度很快，而用于判别的LSTM速度也很快，这种方法日后还可以用于实时检测中。

请参考图7，其示出了本申请一实施例提供的一种用于抑郁检测的的特征提取编解码器训练装置框图。

如图7所示，用于抑郁检测的特征提取编解码器训练装置700，包括提取切分模块710、周围特征选取模块720、输入模块730和训练模块740。

其中，提取切分模块710，配置为将从训练音频中提取的频谱图特征切分为N个子频谱图特征；周围特征选取模块720，在所述N个子频谱图特征的中心M₀的前后分别选取k个子频谱图特征，其中，k<(N-1)/2 ；输入模块730，配置为将M₀的前k个子频谱图特征和后k个子频谱图特征合记为M_i，将M_i输入编码器；以及训练模块740，配置为以中心子频谱图特征M₀作为目标标签，训练所述编码器和解码器以使得所述编码器和所述解码器能够利用M_i预测M₀。

请参考图8，其示出了本申请一实施例提供的一种抑郁检测装置。

如图8所示，本申请的抑郁检测装置800包括输出获取模块810和抑郁状况输出模块820。

其中，输出获取模块810，配置为将待检测语音输入至以上方法实施例中任一项的方法训练的编码器中，获取所述编码器的输出；以及抑郁状况输出模块820，配置为将所述编码器的输出输入至抑郁判别网络中，输出与所述待检测语音对应的抑郁状况。

应当理解，图7和图8中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图7和图8中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如分词模块可以描述为将接收的语句文本分为说法和至少一个词条的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如分词模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于抑郁检测的预训练方法或抑郁检测方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将从训练音频中提取的频谱图特征切分为N个子频谱图特征；

在所述N个子频谱图特征的中心M₀的前后分别选取k个子频谱图特征，其中，k<(N-1)/2；

将M₀的前k个子频谱图特征和后k个子频谱图特征合记为M_i，将M_i输入编码器；

以中心子频谱图特征M₀作为目标标签，训练所述编码器和解码器以使得所述编码器和所述解码器能够利用M_i预测M₀。

作为另一种实施例，

将待检测语音输入至根据权利要求1-4中任一项所述的方法训练的编码器中，获取所述编码器的输出；

将所述编码器的输出输入至抑郁判别网络中，输出与所述待检测语音对应的抑郁状况。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于抑郁检测的预训练装置或抑郁检测装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至用于抑郁检测的预训练装置或抑郁检测设备装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项用于抑郁检测的预训练方法或抑郁检测方法。

图9是本发明实施例提供的电子设备的结构示意图，如图9所示，该设备包括：一个或多个处理器910以及存储器920，图9中以一个处理器 910为例。用于抑郁检测的预训练方法或抑郁检测方法的设备还可以包括：输入装置930和输出装置940。处理器910、存储器920、输入装置930 和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。存储器920为上述的非易失性计算机可读存储介质。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的方法。输入装置930可接收输入的数字或字符信息，以及产生与上述实施例的装置的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于预训练装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

将从训练音频中提取的频谱图特征切分为N个子频谱图特征；

作为另一种实施方式，上述电子设备用于抑郁检测装置中，包括：

将待检测语音输入至根据上述实施例中任一项预训练方法训练的编码器中，获取所述编码器的输出；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID 和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于抑郁检测的预训练方法，包括：

将从训练音频中提取的频谱图特征切分为N个子频谱图特征；

2.根据权利要求1所述的方法，其中，所述训练所述编码器和解码器以使得所述编码器和所述解码器能够利用M_i预测M₀包括：

计算M_i和M₀的平均绝对误差，训练所述编码器和所述解码器以使得所述平均绝对误差小于等于预设阈值。

3.根据权利要求1或2所述的方法，其中，所述频谱图特征包括梅尔频谱特征和短时傅立叶变换特征，所述子频谱图特征包括96帧的子频谱图中的特征。

4.根据权利要求3所述的方法，其中，所述编码器和所述解码器均为卷积神经网络。

5.一种抑郁检测方法，包括：

将所述编码器的输出输入至抑郁判别网络中，获取所述抑郁判别网络输出的与所述待检测语音对应的抑郁状况。

6.根据权利要求5所述的方法，其中，所述抑郁判别网络为双向长短时记忆网络。

7.一种用于抑郁检测的预训练装置，包括：

提取切分模块，配置为将从训练音频中提取的频谱图特征切分为N个子频谱图特征；

周围特征选取模块，在所述N个子频谱图特征的中心M₀的前后分别选取k个子频谱图特征，其中，k<(N-1)/2；

输入模块，配置为将M₀的前k个子频谱图特征和后k个子频谱图特征合记为M_i，将M_i输入编码器；

训练模块，配置为以中心子频谱图特征M₀作为目标标签，训练所述编码器和解码器以使得所述编码器和所述解码器能够利用M_i预测M₀。

8.一种抑郁检测装置，包括：

输出获取模块，配置为将待检测语音输入至根据权利要求1-4中任一项所述的方法训练的编码器中，获取所述编码器的输出；

抑郁状况输出模块，配置为将所述编码器的输出输入至抑郁判别网络中，获取所述抑郁判别网络输出的与所述待检测语音对应的抑郁状况。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。