CN111462773A

CN111462773A - 一种自杀风险预测模型的生成方法和预测系统

Info

Publication number: CN111462773A
Application number: CN202010220759.6A
Authority: CN
Inventors: 冯甄陶
Original assignee: Xintu Entropy Technology Suzhou Co ltd
Current assignee: Xintu Entropy Technology Suzhou Co ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-28
Anticipated expiration: 2040-03-26
Also published as: CN111462773B

Abstract

本申请提供一种自杀风险预测模型的生成方法，包括：步骤1：按预设主题采集用户第一音频数据和用户自杀可能性得分；步骤2：对第一音频数据提取音频特征；步骤3：通过有效特征关联图计算音频特征的最终稳定特征值；步骤4：将最终稳定特征值作为输入值，自杀可能性得分作为输出层，利用反向传播算法训练得到自杀风险预测模型。通过本发明，数据采集快捷、方便，利用语音和人工智能技术，实现了对用户自杀可能性的自动识别，为心理危机的预防和干预提供了强有力的支持。

Description

一种自杀风险预测模型的生成方法和预测系统

技术领域

本发明涉及心理学和人工智能领域，更具体地涉及一种自杀风险预测模型的生成方法和预测系统。

背景技术

自杀是全世界公认的社会和公共卫生问题，每年有超过80万人因自杀而死亡，据世界卫生组织(World Health Organization，WHO)称，自杀是15～29岁人群中第二大死亡原因。WHO发布的第一份关于预防自杀的报告指出，预防自杀是全球的当务之急。临床医生、临床心理学家、心理危机干预工作者、社会工作者都渴望有效地预测个体的自杀风险性，并在此基础上采取针对性的措施，预防个体自杀行为的发生。但是，自杀行为产生的原因非常复杂，而且自杀风险性是一个不断发展变化的过程，其意愿的表露也涉及到个体的主观选择，因此临床上很难把握个体的自杀风险性。

目前已有数个影响较大的、以预测个体自杀风险性的工具问世，如哥伦比亚自杀严重性评估量表、自杀未遂与自我伤害访谈、自我伤害的想法和行为问卷、自杀意念量表以及死亡/自杀内隐联想测验等。通过这些工具，可以评估工作对象在将来产生自杀行为的可能性，但是这些方法均依据被试的自我报告，受主观影响较大，需要被试的积极配合和主动应答，且其成本耗费较大。

发明内容

为克服现有技术的上述缺陷，本发明提出一种通过待测试者自然状态下自我介绍的语音数据，利用音频特征预测实现对其自杀风险进行自动识别的模型的生成方法和预测系统，通过充分利用互联网上大量无标注(标注指自杀可能性)的自我介绍的音频数据，可以对用户的自杀风险进行更为生态化的计算预测。

根据本发明的一个方面，提出一种自杀风险预测模型的生成方法，包括：

步骤1：按预设主题采集用户第一音频数据和用户自杀可能性得分；优选的，自杀可能性得分通过被试完成自杀可能性量表得到；优选的，所述预设主题为自我介绍；步骤2：对所述第一音频数据提取音频特征；步骤3：通过有效特征关联图计算所述音频特征的最终稳定特征值；步骤4：将所述最终稳定特征值作为输入值，自杀可能性得分作为输出层，利用反向传播算法训练得到自杀风险预测模型。

较佳地，在所述步骤2中，提取音频特征包括：对音频数据进行加窗切分处理，在每个窗口中进行音频特征提取。

较佳地，在所述步骤2中，所述音频特征包括：基本特征、基本特征的导数值特征、基本特征的均值和方差以及导数值特征的均值和方差，其中，基本特征包括：强度、响度、过零率、基频、基频包络、8个线性频谱对，12个梅尔倒谱系数。

较佳地，所述步骤S3中，所述有效特征关联图的获取步骤包括：

S31：按预设主题获取第二音视频数据，形成无标注的音频数据；

S32：对第二音视频数据提取音频特征，计算任意两个音频特征间的皮尔逊相关系数作为所述两个音频特征之间的关联值，将所述音频特征作为节点，将所述关联值作为两个节点之间的边的权重，从而形成音频特征关联图；

S33：从音频特征关联图中删除特征间关联值小于第一阈值的边，得到有效特征关联图。

较佳地，所述步骤S3中计算所述音频特征的最终稳定性特征值的步骤包括：

(1)计算所述音频特征的t+1轮的特征值，计算公式为：

其中，

表示音频特征X_a在0时刻的特征值，

分别表示第t轮和第t+1轮音频特征X_a的特征值(t≥1)；

表示由音频特征X_c至音频特征X_a的特征关联值；a、b、c分别为有效特征关联图中的音频特征；

(2)对步骤(1)中的计算公式进行多轮级联迭代，直至所有音频特征的第t+1轮和第t轮特征值之差的和小于设定的第二阈值，至此，特征值达到稳定状态，音频特征的第t+1轮特征值即为音频特征的最终稳定特征值。

根据本发明的另一方面，提出一种自杀风险预测系统，所述系统包括被试音频数据采集模块、音频特征提取模块、音频特征稳定特征值生成模块、自杀风险预测模型生成模块和预测模块；其中，

被试音频数据采集模块，用于按预设主题采集被试的音频数据；优选的，所述预设主题为自我介绍；

音频特征提取模块，用于接收音频数据，并提取音频特征；

音频特征稳定特征值生成模块，用于接收音频特征，并生成音频特征的最终稳定特征值；

自杀风险预测模型生成模块，用于利用反向传播神经网络生成自杀风险预测模型；

预测模块，用于接收被试的音频数据，通过所述音频特征提取模块、音频特征稳定特征值生成模块和自杀风险预测模型，获得被试自杀可能风险值，并判断是否进行自杀风险预警。

较佳地，在音频特征提取模块中，对音频数据进行加窗切分处理，在每个窗口中进行音频特征提取。音频特征包括：基本特征、基本特征的导数值特征、基本特征的均值和方差以及导数值特征的均值和方差，其中，基本特征包括：强度、响度、过零率、基频、基频包络、8个线性频谱对，12个梅尔倒谱系数。

较佳地，所述音频特征稳定特征值生成模块中，生成音频特征的稳定特征值的步骤包括；

(1)计算所述音频特征的t+1轮的特征值，计算公式为：

其中，

表示音频特征X_a在0时刻的特征值，

分别表示第t轮和第t+1轮音频特征X_a的特征值(t≥1)；

(2)对步骤(1)中的计算公式进行多轮级联迭代，直至所有音频特征的第t+1轮和第t轮特征值之差的和小于设定的第二阈值，至此，特征值达到稳定状态，音频特征的t+1轮特征值

为音频特征的最终稳定特征值。

较佳地，有效特征关联图的生成步骤包括：

按预设主题获取第二音视频数据，形成无标注的音频数据；

通过音频特征提取模块提取第二音视频数据的音频特征，计算任意两个音频特征间的皮尔逊相关系数作为所述两个音频特征之间的关联值，将所述音频特征作为节点，将所述关联值作为两个节点之间的边的权重，从而形成音频特征关联图；

从音频特征关联图中删除特征间关联值小于第一阈值的边，得到有效特征关联图。

较佳地，所述自杀风险预测模型生成模块包括：

有标注的音频信息采集单元，用于按预设主题采集用户第一音频数据和用户自杀可能性得分，并将所述第一音频数据传送给所述音频特征提取模块进行音频特征提取，然后将提取的音频特征传送到所述音频特征稳定特征值生成模块；优选的，自杀可能性得分通过被试完成自杀可能性量表得到；

模型生成单元，用于从所述音频特征稳定特征值生成模块接收第一音频数据的音频特征的最终稳定特征值，将所述最终稳定特征值作为输入值，用户自杀可能性得分作为输出层，利用反向传播算法训练得到自杀风险预测模型。

本发明弥补了传统自杀风险监测手段无法大规模实施、耗费大量人力和时间资源的缺陷，充分利用网络环境数据，结合心理学理论和大数据技术，实现了一种网络环境下基于用户语音资料的自杀风险预警技术，风险监测所用的数据获取更为简便，且将自杀风险监测的时间节点提前，为存在自杀意愿的用户提供早期的心理风险援助提供辅助诊断手段，为网络用户中可能存在的心理健康问题提供帮助，并预防潜在的自杀风险。

附图说明

图1为根据本发明一个实施例的自杀风险预测模型的生成方法流程示意图；

图2为根据本发明一个实施例的自杀风险预测系统的结构示意图。

为了能明确实现本发明的实施例的结构，在图中标注了特定的尺寸、结构和器件，但这仅为示意需要，并非意图将本发明限定在该特定尺寸、结构、器件和环境中，根据具体需要，本领域的普通技术人员可以将这些器件和环境进行调整或者修改，所进行的调整或者修改仍然包括在后附的权利要求的范围中。

具体实施方式

下面结合附图和具体实施例对本发明提供的基于特定文本朗读语音数据的焦虑识别方法的和预警系统进行详细描述。

在以下的描述中，将描述本发明的多个不同的方面，然而，对于本领域内的普通技术人员而言，可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言，阐述了特定的数目、配置和顺序，但是很明显，在没有这些特定细节的情况下也可以实施本发明。在其他情况下，为了不混淆本发明，对于一些众所周知的特征将不再进行详细阐述。

在通过语音网络预测自杀可能性的研究中，研究数据的获取主要分为两部分。一部分为用户实验获取有标注数据，用于训练预测模型；另一部分为从互联网搜索并下载的大量无标注的自我介绍的音视频数据，用于输入预测模型并进行用户自杀可能性的预测计算。

用户实验获取的有标注数据也分为两部分，一是实验被试的自我介绍音频数据，二是被试通过完成自杀可能性量表(Suicidal Possibility Scale)得到的自杀可能性得分(即标注部分)。自杀可能性量表(Suicidal Possibility Scale，SPS)是有36项条目的自评量表，用于检测14岁以上青少年的自杀危险，它主要由4个维度构成：绝望感、自杀意念、消极自我评价、敌对。SPS总量表和各分量表的一致性程度较高，重测信度和分半信度也比较理想。

在本发明中，有标注就是音频数据被标注了自杀可能性得分；被试指待测试者；用户指用于采集其信息者。

如图1所示，本发明提供了一种自杀风险预测模型的生成方法，包括：步骤1：按预设主题采集用户第一音频数据和用户自杀可能性得分；优选的，自杀可能性得分通过用户完成自杀可能性量表得到；预设主题可以为自我介绍；步骤2：对第一音频数据提取音频特征；步骤3：通过有效特征关联图计算音频特征的最终稳定特征值；步骤4：将最终稳定特征值作为输入值，自杀可能性得分作为输出层，利用反向传播算法训练得到自杀风险预测模型。

在一个实施例中，用户实验中音频数据采集流程如下(下面以自我介绍这一预设主题为例)：

在数据采集过程中，具体的音频数据采集实施过程如下所示：

实验场地：

安静的室内空间，无杂音影响。提前在空间内确定好患者音频数据采集实验的被试位置。

使用设备：

录音笔一个

下面是用户实验中被试的自杀可能性得分的采集流程：

在数据采集过程中，具体的量表得分数据采集实施过程如下所示：

实验场地：

安静的室内空间，无杂音影响。

使用设备：

平板电脑一个，里面已导入自杀可能性量表。

实验过程：

被试在平板上完成自杀可能性量表的作答。

在步骤S2中，为了描述音频在细节上的变化，对音频数据进行加窗切分处理。例如，帧长30ms、帧移15ms，加窗函数为汉明窗，然后在每个窗口中进行音频特征提取。在特征提取上，首先提取基本音频特征(比如强度(intensity)、响度(loudness)、过零率(zero-crossing rate)、基频(fundamental frequency，F0)、基频包络(F0 envelope)、8个线性频谱对(line spectral pairs，LSP)，12个梅尔倒谱系数(MFCC))，为了表述音频特征的动态变化，对所有基本音频特征分别计算其导数值特征(△)，并在窗口切分技术上分别计算基本音频特征和其导数值的均值和方差来表示音频动态变化特点，最后针对每个音频样本，共提取了100个时域特征。

在步骤3：通过有效特征关联图计算上面提取的音频特征的最终稳定特征值。其中，有效特征关联图的生成步骤包括：

(1)按预设主题获取大量无标注的第二音视频数据，形成无标注的自我介绍音频数据；比如从互联网搜索并下载。无标注的就是指单纯的音视频数据。

(2)对于每一个第二音频数据，提取其音频特征，计算任意两个音频特征间的皮尔逊相关系数作为它们之间的关联值，将每个特征作为节点，两个特征间的关联值作为它们之间的边的权重，从而生成音频特征关联图；设定关联值的第一阈值，两个特征间的关联值超过第一阈值的，表示高相关，低于第一阈值的，表示较低的关联，可以认为它们之间的关联较小，从而忽略它们之间的影响，从音频特征关联图中删除特征间关联值小于第一阈值的边，得到有效特征关联图；第一阈值一般可以取0.4。

(3)计算所有音频特征的最终稳定特征值。即针对音频数据的音频特征，根据有效特征关联图对音频特征的进一步处理，计算步骤如下：

步骤3-1：

表示音频特征X_a的数值，在此基础上计算该音频特征的t+1轮的特征值，计算公式为：

其中，

分别表示第t轮和第t+1轮音频特征X_a的特征值(t≥1)；

表示由音频特征X_c至音频特征X_a的特征关联值；a、b、c分别为有效特征关联图中的特征；公式中使用了省略号，这是数学公式中常用的写法。

步骤3-2：对步骤3-1中的计算公式进行多轮级联迭代，直至所有音频特征的第t+1轮和第t轮特征值之差的和小于设定的第二阈值时，至此，则认为在t+1轮达到特征值的稳定状态，这个时候音频特征的t+1轮特征值就是最终稳定特征值，从而得到所有音频特征的最终稳定特征值。第二阈值一般为比较小的数，比如0.01，这样状态会比较稳定。

针对用户实验获得的有自杀可能性用户的音频数据(即有标注数据)，经过上述步骤处理后，得到音频特征的最终稳定特征值。

在步骤S4中，将所有第一音频数据的音频特征的最终稳定特征值作为输入值，对应的用户自杀可能性数值作为输出层，利用反向传播算法训练得到自杀风险预测模型。

其中，利用反向传播算法训练模型是现有的技术手段，有多种框架可以选择使用。

根据本发明的另一方面，提出一种自杀风险预测系统，如图2所示，该系统包括被试音频数据采集模块、音频特征提取模块、音频特征稳定特征值生成模块、自杀风险预测模型生成和预测模块；其中，

被试音频数据采集模块，用于按预设主题采集被试的音频数据；

音频特征提取模块，用于接收音频数据，并提取音频特征；

优选的，预设主题为自我介绍。

在音频特征提取模块中，为了描述音频在细节上的变化，对音频数据进行加窗切分处理。例如，帧长30ms、帧移15ms，加窗函数为汉明窗，然后在每个窗口中进行音频特征提取。在特征提取上，首先提取基本音频特征(比如，强度(intensity)、响度(loudness)、过零率(zero-crossing rate)、基频(fundamental frequency，F0)、基频包络(F0 envelope)、8个线性频谱对(line spectral pairs，LSP)，12个梅尔倒谱系数(MFCC))，为了表述音频特征的动态变化，对所有音频特征分别计算其导数值特征(△)，并在窗口切分技术上分别计算基本音频特征和其导数的均值和方差来表示音频动态变化特点，最后针对每个音频样本，共提取了100个时域特征。

在音频特征稳定特征值生成模块中，生成音频特征的稳定特征值的步骤包括；

(1)计算所述音频特征的t+1轮的特征值，计算公式为：

其中，

表示音频特征X_a在0时刻的特征值，

分别表示第t轮和第t+1轮音频特征X_a的特征值(t≥1)；

(2)对步骤(1)中的计算公式进行多轮级联迭代，直至所有音频特征的第t+1轮和第t轮特征值之差的和小于设定的第二阈值，至此，特征值达到稳定状态，音频特征的t+1轮时的特征值是音频特征的最终稳定特征值。

其中，有效特征关联图的生成步骤包括：

按预设主题获取第二音视频数据(如通过互联网下载)，形成无标注的音频数据；

所述自杀风险预测模型生成模块包括：有标注的音频信息采集单元，用于按预设主题采集用户第一音频数据和用户自杀可能性得分，并将所述第一音频数据传送给所述音频特征提取模块进行音频特征提取，然后将提取的音频特征传送到所述音频特征稳定特征值生成模块；优选的，自杀可能性得分通过被试完成自杀可能性量表得到；模型生成单元，用于从所述音频特征稳定特征值生成模块接收第一音频数据的音频特征的最终稳定特征值，将所述最终稳定特征值作为输入值，用户自杀可能性得分作为输出层，利用反向传播算法训练得到自杀风险预测模型。

在预测模块中，针对任何新的用户即被试，在获取按预设主题的语音数据后，通过语音特征提取单元提取音频特征，然后利用音频特征稳定特征值生成模块得到该用户音频特征的最终稳定特征值，将最终稳定特征值传送训练得到的预测模型，然后根据返回的自杀可能风险值判断是否进行自杀风险预警。判断方法与自杀可能性得分为同一标准，比如采用SPS量表获得自杀可能性得分时，继续利用SPS总量表和各分量表的标准进行自杀风险预警。

本发明充分利用网络环境数据，结合心理学理论和大数据技术，实现了一基于用户语音资料的自杀风险预警技术，风险监测所用的数据获取更为简便。而且预测的内容与传统的内容完全不同，并没有相关自杀的信息，预测更为隐蔽，因此准确性更高。通过对用户的语音进行分析，与传统方法相比，对用户的侵扰更少，使得预测的生态性更高，而且由于整个过程中可以完全不涉及自杀，所以用户的表现会更自然，从而会有更好的预测效果。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其他的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种自杀风险预测模型的生成方法，包括：

步骤1：按预设主题采集用户的第一音频数据和用户自杀可能性得分；优选的，自杀可能性得分通过用户完成自杀可能性量表得到；优选的，所述预设主题为自我介绍；

步骤2：对所述第一音频数据提取音频特征；

步骤3：通过有效特征关联图计算所述音频特征的最终稳定特征值；

步骤4：将所述音频数据的最终稳定特征值作为输入层，自杀可能性得分作为输出层，利用反向传播算法训练获得自杀风险预测模型。

2.根据权利要求1所述的方法，其特征在于，在所述步骤2中，提取音频特征包括：对音频数据进行加窗切分处理，在每个窗口中进行音频特征提取。

3.根据权利要求1所述的方法，其特征在于，在所述步骤2中，所述音频特征包括：基本特征、基本特征的导数值特征、基本特征的均值和方差以及导数值特征的均值和方差，其中，基本特征包括：强度、响度、过零率、基频、基频包络、8个线性频谱对，12个梅尔倒谱系数。

4.根据权利要求1所述的方法，其特征在于，所述步骤S3中，所述有效特征关联图的获取步骤包括：

S31：按所述预设主题获取第二音视频数据，形成无标注的音频数据；

S32：对第二音视频数据提取所述音频特征，计算任意两个音频特征间的皮尔逊相关系数作为所述两个音频特征之间的关联值，将所述音频特征作为节点，将所述关联值作为两个节点之间的边的权重，从而形成音频特征关联图；

5.根据权利要求1所述的方法，其特征在于，所述步骤S3中计算所述音频特征的最终稳定性特征值的步骤包括：

(1)计算所述音频特征的t+1轮的特征值，计算公式为：

其中，

表示音频特征X_a在0时刻的特征值，

分别表示第t轮和第t+1轮音频特征X_a的特征值(t≥1)；

(2)对步骤(1)中的计算公式进行多轮级联迭代，直至所有音频特征的第t+1轮和第t轮特征值之差的和小于设定的第二阈值，音频特征的t+1轮特征值为最终稳定特征值。

6.一种自杀风险预测系统，其特征在于，所述系统包括被试音频数据采集模块、音频特征提取模块、音频特征稳定特征值生成模块、自杀风险预测模型生成和预测模块；其中，

音频特征提取模块，用于接收所述音频数据，并提取音频特征；

音频特征稳定特征值生成模块，用于接收所述音频特征，并生成音频特征的最终稳定特征值；

预测模块，用于接收所述被试的音频数据，通过所述音频特征提取模块、音频特征稳定特征值生成模块和自杀风险预测模型，获得被试自杀可能风险值，并判断是否进行自杀风险预警。

7.根据权利要求6所述的预测系统，其特征在于，在所述音频特征提取模块中，能够对音频数据进行加窗切分处理，在每个窗口中进行音频特征提取，所述音频特征包括：基本特征、基本特征的导数值特征、基本特征的均值和方差以及导数值特征的均值和方差，其中，基本特征包括：强度、响度、过零率、基频、基频包络、8个线性频谱对，12个梅尔倒谱系数。

8.根据权利要求6所述的方法，其特征在于，所述音频特征稳定特征值生成模块中，生成音频特征的稳定特征值的步骤包括；

(1)计算所述音频特征的t+1轮的特征值，计算公式为：

其中，

表示音频特征X_a在0时刻的特征值，

分别表示第t轮和第t+1轮音频特征X_a的特征值(t≥1)；

9.根据权利要求8所述的预测系统，其特征在于，有效特征关联图的生成步骤包括：

按所述预设主题获取第二音视频数据，形成无标注的音频数据；

10.根据权利要求6所述的预测系统，其特征在于，所述自杀风险预测模型生成模块包括：

有标注的音频信息采集单元，用于按所述预设主题采集用户第一音频数据和用户自杀可能性得分，并将所述第一音频数据传送给所述音频特征提取模块进行音频特征提取，然后将提取的音频特征传送到所述音频特征稳定特征值生成模块；优选的，自杀可能性得分通过用户完成自杀可能性量表得到；

模型生成单元，用于从所述音频特征稳定特征值生成模块接收第一音频数据的音频特征的最终稳定特征值，将所述最终稳定特征值作为输入层，用户自杀可能性得分作为输出层，利用反向传播算法训练得到自杀风险预测模型。