CN113807612A

CN113807612A - 一种基于心理量表数据的预测方法和装置

Info

Publication number: CN113807612A
Application number: CN202111191267.XA
Authority: CN
Inventors: 刘思妤
Original assignee: Sichuan Jiuyuan Yinhai Software Co ltd
Current assignee: Sichuan Jiuyuan Yinhai Software Co ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2021-12-17

Abstract

本申请公开了一种基于心理量表数据的预测方法和装置，所述预测方法包括：针对目标群体中的每个用户，获取该用户的预测样本；对多个预测样本进行聚类，获得多个初始聚类簇；根据所述多个初始聚类簇的簇属性，对所述多个初始聚类簇进行调整以获得多个目标心理类别簇；对所述多个目标心理类别簇分别进行风险预估，确定每个目标心理类别簇对应的心理风险等级；对所述多个目标心理类别簇进行可视化处理，输出用于展示所述多个目标心理类别簇以及对应心理风险等级的图像数据。本申请通过对用户心理量表数据和用户特征数据进行分析，并对分析结果进行可视化展示，可以更为准确、直观地反应用户的心理健康状况。

Description

一种基于心理量表数据的预测方法和装置

技术领域

本申请涉及心理测评技术领域，具体而言，涉及一种基于心理量表数据的预测方法和装置。

背景技术

随着科技变化和竞争压力的变大，关注学生心理健康成为学校重要的工作。面对越来越严重的学生心理问题，需要有效的测评手段去评估学生心理健康状况，并结合学生心理健康状况及时进行疏导。

心理测评是依据一定的心理学理论，使用一定的操作程序，给人的能力、人格及心、理健康等心理特性和行为确定出一种数量化的价值，现有技术中的心理测评系统，主要用于采集用户的心理测评数据信息，而缺少了对获取的用户心理测评数据进行分析的过程，且用户心理测评数据包括文本、语音、图像、视频等多种格式，测评过程中，需要采用特定方法将数据转化为同一格式再进行计算，导致心理测评更存在一定的客观性和误差。

发明内容

本申请实施例的目的在于提供一种基于心理量表数据的预测方法和装置，本申请的预测方法能够将用户心理量表数据和用户特征数据进行结合，并对结合后的数据进行分析处理，从而实现对用户心理状况的预测，极大地提高了心理测评的准确性。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提出一种基于心理量表数据的预测方法，预测方法包括：

针对目标群体中的每个用户，获取该用户的预测样本，预测样本包括用户心理量表数据和用户特征数据，用户心理量表数据用于表征用户在不同心理评测维度下的健康程度；

对多个预测样本进行聚类，获得多个初始聚类簇；

根据多个初始聚类簇的簇属性，对多个初始聚类簇进行调整以获得多个目标心理类别簇；

对多个目标心理类别簇分别进行风险预估，确定每个目标心理类别簇对应的心理风险等级；

对多个目标心理类别簇进行可视化处理，输出用于展示多个目标心理类别簇以及对应心理风险等级的图像数据。

可选地，对多个预测样本进行聚类，获得多个初始聚类簇的步骤包括：

(A)从多个预测样本中确定多个初始聚类中心；

(B)根据多个初始聚类中心，获得多个候选聚类簇；

(C)从多个候选聚类簇中选取预测样本数量大于第一阈值的候选聚类簇，确定为多个初始聚类簇；

(D)针对每个初始聚类簇，计算该初始聚类簇的计算聚类中心。

可选地，从多个预测样本中确定多个初始聚类中心的步骤包括：

分别计算每个待选取预测样本与上一初始聚类中心的距离，将计算得到的距离中与上一初始聚类中心的距离最大的待选取预测样本确定为当前初始聚类中心，待选取预测样本为多个预测样本中除作为初始聚类中心的预测样本之外的其他预测样本，首个初始聚类中心是根据从多个预测样本中随机选取一个预测样本来确定的；

重复上述步骤，以获得多个初始聚类中心。

可选地，簇属性包括多个初始聚类中心的数量；

其中，根据多个初始聚类簇的簇属性，对多个初始聚类簇进行调整以获得多个目标心理类别簇的步骤包括：

(E)判断多个初始聚类簇的当前聚类中心数量是否满足第一分裂条件，第一分裂条件为当前聚类中心数量小于第一目标聚类值；

(F)如果当前聚类中心数量满足第一分裂条件，则对多个初始聚类簇进行簇分裂操作，以获得多个目标心理类别簇；

(G)如果当前聚类中心数量不满足第一分裂条件，则判断多个初始聚类簇的当前聚类中心数量是否满足第一合并条件，第一合并条件为当前聚类中心数量大于第二目标聚类值或者当前聚类中心数量满足奇偶性校验；

(H)如果当前聚类中心数量满足第一合并条件，则对多个初始聚类簇进行簇合并操作，以获得多个目标心理类别簇；

(I)如果当前聚类中心数量不满足第一合并条件，则对多个初始聚类簇进行簇分裂操作，以获得多个目标心理类别簇。

可选地，对多个初始聚类簇进行簇分裂操作的步骤包括：

判断多个初始聚类簇中是否存在满足第二分裂条件的第一目标初始聚类簇；

如果存在满足第二分裂条件的第一目标初始聚类簇，则对第一目标初始聚类簇进行簇分裂操作；

如果不存在满足第二分裂条件的初始类别簇，则对多个初始聚类簇进行簇合并操作，以获得多个目标心理类别簇。

可选地，判断多个初始聚类簇中是否存在满足第二分裂条件的第一目标初始聚类簇的步骤包括：

针对每个初始聚类簇，计算该初始聚类簇中特征变量的标准差向量，初始聚类簇中特征变量的标准差向量中的每个特征标准差分量对应一个特征变量的标准差；

确定所有初始聚类簇中特征变量的标准差向量中的最大特征标准差分量，判断最大特征标准差分量是否大于预设特征标准差分量上限值；

如果最大特征标准差分量大于预设特征标准差分量上限值，则确定多个初始聚类簇中存在满足第二分裂条件的第一目标初始聚类簇，并将最大特征标准差分量对应的初始聚类簇确定为第一目标初始聚类簇；

如果最大特征标准差分量不大于预设特征标准差分量上限值，则确定多个初始聚类簇中不存在满足第二分裂条件的初始聚类簇。

可选地，对第一目标初始聚类簇进行簇分裂操作的步骤包括：

获取第一目标初始聚类簇的计算聚类中心和分裂系数；

根据分裂系数，将第一目标初始聚类簇分裂为两个新的初始聚类簇，将当前聚类中心数量加一，并返回执行步骤(B)。

可选地，对多个初始聚类簇进行簇合并操作的步骤包括：

(J)判断多个初始聚类簇是否满足第二合并条件，第二合并条件为多个初始聚类簇中存在计算聚类中心之间的距离值小于预设聚类中心最小距离值的第二目标初始聚类簇；

(K)如果多个初始聚类簇满足第二合并条件，对第二目标初始聚类簇进行合并操作，并确定新的聚类中心；

(L)判断当前迭代运算次数是否等于预设迭代次数；

(M)如果当前迭代运算次数不等于预设迭代次数，则返回执行步骤(B)；

(N)如果多个初始聚类簇不满足第二合并条件，则返回执行步骤(L)。

可选地，预测方法还包括：如果当前迭代运算次数等于预设迭代次数，则获得多个目标心理类别簇；

如果当前迭代运算次数不等于预设迭代次数，则确定是否改变至少一个聚类输入参数，聚类输入参数包括第一阈值、第一目标聚类值、第二目标聚类值、预设特征标准差分量上限值；

如果确定改变至少一个聚类输入参数，则将当前聚类中心数量减一，迭代运算次数增加一，并返回执行步骤(A)；

如果确定不改变至少一个聚类输入参数，则将当前聚类中心数量减一，迭代运算次数增加一，并返回执行步骤(B)。

第二方面，本申请实施例还提供一种基于心理量表数据的预测装置，该预测装置包括：

获取模块，用于针对目标群体中的每个用户，获取该用户的预测样本，预测样本包括用户心理量表数据和用户特征数据，用户心理量表数据用于表征用户在不同心理评测维度下的健康程度；

处理模块，用于对多个预测样本进行聚类，获得多个初始聚类簇；

分析模块，用于根据多个初始聚类簇的簇属性，对多个初始聚类簇进行调整以获得多个目标心理类别簇；

统计预警模块，用于对多目标心理类别簇分别进行风险预估，确定每个目标心理类别簇对应的心理风险等级；

可视化模块，用于对多个目标心理类别簇进行可视化处理，输出用于展示多目标心理类别簇以及对应心理风险等级的图像数据。

本申请公开了一种基于心理量表数据的预测方法和装置，预测方法包括：针对目标群体中的每个用户，获取该用户的预测样本，所述预测样本包括用户心理量表数据和用户特征数据；对多个预测样本进行聚类，获得多个初始聚类簇；根据所述多个初始聚类簇的簇属性，对所述多个初始聚类簇进行调整以获得多个目标心理类别簇；对所述多个目标心理类别簇分别进行风险预估，确定每个目标心理类别簇对应的心理风险等级；对所述多个目标心理类别簇进行可视化处理，输出用于展示所述多个目标心理类别簇以及对应心理风险等级的图像数据。本申请通过对用户心理量表数据和用户特征数据进行分析并对分析结果进行可视化展示，更为准确直观地反应用户的心理健康状况。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的基于心理量表数据的预测方法的流程图。

图2示出了本申请实施例所提供的确定多个初始聚类簇的步骤的流程图。

图3示出了本申请实施例所提供的对多个初始聚类簇进行调整以获得多个目标心理类别簇的步骤的流程图。

图4示出了本申请实施例所提供的对多个初始聚类簇进行簇分裂操作的步骤的流程图。

图5示出了本申请实施例所提供的对多个初始聚类簇进行簇合并操作的步骤的流程图。

图6示出了本申请实施例所提供的基于心理量表数据的预测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本公开的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了提高心理健康预测的准确性，本申请提出一种基于心理量表数据的预测方法，参见图1，图1示出了本申请实施例所提供的基于心理量表数据的预测方法的流程图，具体的，上述预测方法包括：

S10、针对目标群体中的每个用户，获取该用户的预测样本。

在本申请实施例中，所获取的预测样本包括用户心理量表数据和用户特征数据，用户心理量表数据用于表征用户在不同心理评测维度下的健康程度。示例性的，用户心理量表数据涉及了用户的感觉、情感、思维、意识、行为、生活习惯、人际关系和饮食睡眠等多个心理评测为度，并采用不同心理特征分别反映用户在不同方面的心理健康情况，包括焦虑情绪水平、抑郁情绪水平、家庭功能、总体生活满意度、生命态度、网络使用情况、应激程度、情绪症状、品行问题和多动注意不能等。

用户心理量表数据可包括多个心理特征变量，每个心理特征变量都对应一个具体的数值，通过具体的数值反映不同心理特征的水平程度，这里，用户心理量表数据中的每个心理特征变量用于表征对应的一个心理特征的心理健康程度。

用户特征数据可指用户的基本信息数据，示例性的，用户特征数据可包括多个用户特征变量，用户特征变量可包括但不限于以下项中的至少一项：用户的年龄、性别、身高、学校、班级。

在一优选实施例中，通过心理测评平台获取用户填写的用户心理量表数据和用户特征数据，心理测评平台可为设置在客户端的应用程序，用户需要先完成心理测评平台的注册，注册信息即包括用户特征数据，然后再填写对应的心理测评量表，以生成该用户对应的用户心理量表数据。

S20、对多个预测样本进行聚类，获得多个初始聚类簇。

请参照图2，图2示出了本申请实施例所提供的确定多个初始聚类簇的步骤的流程图，如图2所示，对多个预测样本进行聚类，获得多个初始聚类簇，具体包括以下步骤：

S210、对多个预测样本进行数据预处理和特征提取。

在本申请一优选实施例中，在对多个预测样本进行聚类之前，需要先对每个预测样本进行数据预处理和特征提取。

示例性的，数据预处理过程可包括但不限于以下项中的至少一项：缺失值处理、独热编码处理、标准化处理和正负向转换处理。

例如，首先对预测样本进行缺失值检测，对含有缺失值的预测样本进行缺失值处理，缺失值处理方法包括但不限于删除含有缺失值的预测样本和利用可能值插补缺失值。

对缺失值处理后的数据进行独热编码处理，具体的，可将预测样本中的类别型数据转换为独热编码数据，在一优选实施例中，以用户性别为例，用户性别即属于类别型数据，用户性别经过独热编码处理后，结果为01和10，其中一种表示可以为01表示性别为男，10表示性别为女。

对独热编码处理后的预测样本进行标准化处理，作为示例，可以通过以下公式对预测样本进行标准化处理：

o_ij＝(t_ij-μ_j)/σ_j (1)

公式(1)中，i表示第i个预测样本，j表示预测样本涉及的第j个特征变量，预测样本中的特征变量包括心理特征变量和用户特征变量，t_ij表示标准化之前的第i个预测样本的第j个特征变量的数值，μ_j表示第j个特征变量在所有预测样本中的算数平均值，σ_j表示第j个特征变量在所有预测样本中的标准差，o_ij表示标准化后的第i个预测样本的第j个特征变量的数值，o_ij等于标准化之前的第i个预测样本的第j个特征变量的数值与第j个特征变量在所有预测样本中的算数平均值的差除以第j个特征变量在所有预测样本中的标准差，由上述公式(1)获得标准化之后的多个预测样本，每个预测样本由o_ij组成。

对多个预测样本进行正负向转换处理，正负向转换处理就是对预测样本中的心理特征变量中的逆指标变量前的正负号进行对调。

预处理后的每个预测样本的特征变量值围绕0上下波动，大于0说明高于平均水平，小于0说明低于平均水平。

对预处理后的多个预测样本进行特征提取，通过优化算法得到优化后的预测样本x_i，x_i表示第i个预测样本。

示例性的，该优化算法可为自编码器算法，通过自编码器算法剔除预处理后的多个预测样本中的冗余信息，提取出具有价值的预测样本x_i。

S220、确定多个聚类输入参数。

在本申请实施例中，在从多个预测样本中确定多个初始聚类中心之前，还需要先确定多个聚类输入参数，多个聚类输入参数可包括但不限于预设特征标准差分量上限值、预设聚类中心间最小距离、一次迭代运算中可以合并的聚类中心的最多对数、预设迭代次数、第一阈值、第二阈值、第一目标聚类值和第二目标聚类值，第一阈值即每个聚类簇中最少的样本数量，预设特征标准差分量上限值即预先设置的每个聚类簇中样本距离分布的标准差。

S230、从多个预测样本中确定多个初始聚类中心。

在一具体实施例中，可以通过以下方式从多个预测样本中确定多个初始聚类中心：

分别计算每个待选取预测样本与上一初始聚类中心的距离，将计算得到的距离中与上一初始聚类中心的距离最大的待选取预测样本确定为当前初始聚类中心，重复上述步骤，以获得多个初始聚类中心。这里，待选取预测样本可为多个预测样本中除作为初始聚类中心的预测样本之外的其他预测样本，其中，首个初始聚类中心是从多个预测样本中随机选取一个预测样本来确定的。

在一具体实施例中，待聚类预测样本为多个预测样本中除作为初始聚类中心的预测样本之外的其他预测样本。例如预测样本x_i包括x_1(0，0)，x_2(3，8)，x_3(2，2)，每个预测样本中的每个分量表示该预测样本的其中一个特征变量的数值，例如，x_2(3，8)中的3表示抑郁指数值，8表示焦虑指数的数值，在预测样本x_i中随机选取x_2(3，8)作为初始聚类中心，计算x_2(3，8)与其余预测样本的距离，该距离为欧氏距离，确定x_1(0，0)与初始聚类中心的距离最大，则将x_1(0，0)定为当前初始聚类中心。其中，初始聚类中心的数量可以随机选取，重复上述过程，以获得多个初始聚类中心，并确定多个初始聚类中心的数量为N_C。

S240、根据多个初始聚类中心，获得多个候选聚类簇。

在一优选示例中，分别计算每个待聚类预测样本与各初始聚类中心的距离，按照近邻聚类原则，将每个待聚类预测样本归类到距离其最近的初始聚类中心，由此获得多个候选聚类簇，待聚类预测样本为多个预测样本中除作为初始聚类中心的预测样本之外的其他预测样本。

S250、从多个候选聚类簇中选取预测样本数量大于第一阈值的候选聚类簇，确定为多个初始聚类簇。

在一具体实施例中，第一阈值即为多个聚类输入参数中的每个聚类簇中最少的样本数量θ_N，若候选聚类簇中的预测样本数量不大于(即，小于或者等于)θ_N，则确定该候选聚类簇不构成一个独立的聚类簇，取消该候选聚类簇，初始聚类中心的数量N_C减1，并分别计算该候选聚类簇中的每个预测样本与各其余初始聚类中心的距离，这里包括取消候选聚类簇的初始聚类中心，按照近邻聚类原则，将该候选聚类簇中的各预测样本归类到距离其最近的初始聚类中心对应的候选聚类簇，若该候选聚类簇中的预测样本数量大于θ_N，将该候选聚类簇确定为初始聚类簇，由此获得多个初始聚类簇。

S260、针对每个初始聚类簇，计算该初始聚类簇的计算聚类中心。

在一优选实施例中，针对每个初始聚类簇，需要重新计算每个初始聚类簇的计算聚类中心，例如，可以通过以下公式进行计算：

公式(2)中，Z_j表示第j个初始聚类簇中的计算聚类中心，N_j表示第j个初始聚类簇中预测样本的数量，x表示预测样本，x∈S_j表示属于第j个初始聚类簇的预测样本x。即，第j个初始聚类簇中的计算聚类中心等于第j个初始聚类簇中的预测样本的平均数，由此获得多个初始聚类簇对应的多个计算聚类中心Z_j。

此外，针对每个初始聚类簇，计算每个初始聚类簇中各个预测样本到对应初始聚类簇的计算聚类中心的距离的平均值，将该平均值确定为第一距离指标值。

在一优选实施例中，可以通过以下公式计算第一距离指标值：

公式(3)中，

表示第j个初始聚类簇中的第一距离指标值，N_j表示第j个初始聚类簇中预测样本的数量，S_j表示第j个初始聚类簇，x∈S_j表示属于第j个初始聚类簇的预测样本x，||x-z_j||表示第j个初始聚类簇的每个预测样本x到该初始聚类簇的计算聚类中心Z_j的距离，

表示第j个初始聚类簇的每个预测样本x与计算聚类中心Z_j的距离的和，

表示第j个初始聚类簇中每个预测样本到该初始聚类簇的计算聚类中心的距离的平均值，即第一距离指标值

此外，计算所有初始聚类簇的第一距离指标值的平均值，确定为第二距离指标值。

在一优选实施例中，可以通过以下公式计算第二距离指标值：

公式(4)中，

为第二距离指标值，N表示多个初始聚类簇中预测样本的总数，N_j表示第j个初始聚类簇中的预测样本数量，

表示第j个初始聚类簇中的第一距离指标值，

表示第j个初始聚类簇中的每个预测样本到该初始聚类簇的计算聚类中心的距离的和，

表示所有预测样本到其对应的计算聚类中心的距离的和，

表示所有预测样本到其对应的计算聚类中心的距离的和的平均值，即第二距离指标值

返回图1，S30、根据多个初始聚类簇的簇属性，对多个初始聚类簇进行调整以获得多个目标心理类别簇。

在本申请实施例中，簇属性可包括多个初始聚类中心的数量N_C。

参照图3，图3示出了本申请实施例所提供的对多个初始聚类簇进行调整获得多个目标心理类别簇的步骤的流程图。如图3所示，根据多个初始聚类簇的簇属性，对多个初始聚类簇进行调整以获得多个目标心理类别簇的步骤，具体可以包括：

S310、判断当前迭代运算次数是否等于预设迭代运算次数I。

在本申请实施例中，每执行一次图2和图3的处理过程，当前迭代运算次数加一，初始迭代运算次数为零。这里，可以在执行上述步骤S260之后，执行上述的步骤S310。

如果当前迭代运算次数等于预设迭代运算次数，则执行步骤S320：对多个初始聚类簇进行簇合并操作。

在一具体实施例中，如果当前迭代运算次数等于预设迭代运算次数，需要将多个聚类输入参数中的，然后进行下一步操作。

如果当前迭代运算次数不等于(即，小于)预设迭代运算次数，则执行步骤S330：判断多个初始聚类簇的当前聚类中心数量是否满足第一分裂条件。

在一具体实施例中，第一分裂条件为初始聚类中心数量N_C小于第一目标聚类值，示例性的，第一目标聚类值可以为预期的聚类中心数目K的一半，即K/2，其中，预期的聚类中心数目K为最后输出的多个目标心理类别簇的数目。

如果当前聚类中心数量满足第一分裂条件，则执行步骤S340：对多个初始聚类簇进行簇分裂操作，以获得多个目标心理类别簇。

在一具体实施例中，如果初始聚类中心数量N_C小于K/2，则对多个初始聚类簇进行簇分裂操作。

在另一具体实施例中，第一分裂条件还可以为第一目标初始聚类的第一距离指标值

大于第二距离指标值

且第一目标初始聚类中的预测样本的数量大于第一阈值，其中，第一阈值可为2×(θ_N+1)，即第一目标初始聚类中预测样本总数超过规定值一倍以上。

参照图4，图4示出了本申请实施例所提供的对多个初始聚类簇进行簇分裂操作的步骤的流程图。如图4所示，通过以下步骤对满足第一分裂条件的多个初始聚类簇进行簇分裂操作以获得多个目标心理类别簇。

S341、判断多个初始聚类簇中是否存在满足第二分裂条件的第一目标初始聚类簇。

在一具体实施例中，通过以下方式判断多个初始聚类簇中是否存在满足第二分裂条件的第一目标初始聚类：

针对每个初始聚类簇，计算该初始聚类簇中关于特征变量的标准差向量，初始聚类簇中特征变量的标准差向量中的每个特征标准差分量对应一个特征变量的标准差。

例如，可以通过如下公式表示每个初始聚类簇中特征变量的标准差向量ξ_j：

ξ_j＝(ξ_1j，ξ_2j，...，ξ_nj)^T (5)

在公式(5)中，n表示预测样本中特征变量的维数，特征变量包括心理特征变量和用户特征变量，ξ_j表示第j个初始聚类簇中的特征变量的标准差向量，ξ_j中的每个分量ξ_nj表示第j个初始聚类簇中第n个特征变量在该初始聚类簇中的标准差。

其中，每个分量的计算公式如下所示：

公式(6)中，j表示初始聚类簇的数量，N_j表示第j个初始聚类簇中预测样本的数量，在第j个初始聚类簇中，x_wk表示第k个预测样本中的第w个特征变量值，w的取值是[1，n]，z_wj表示第j个初始聚类簇的计算聚类中心中的第w个特征变量值，(x_wk-z_wj)表示第k个预测样本中的第w个特征变量值相对计算聚类中心的第w个特征变量值的方差，

表示第j个初始聚类簇中第w个特征变量值相对计算聚类中心的第w个特征变量值的方差的和，

表示第j个初始聚类簇中第w个特征变量值相对计算聚类中心的第w个特征变量值方差的平均数，

表示第j个初始聚类簇中第w个特征变量值相对计算聚类中心的第w个特征变量值的标准差，ξ_wj表示第j个初始聚类簇中第w个特征变量的标准差。

确定所有初始聚类簇中特征变量的标准差向量中的最大特征标准差分量，判断所述最大特征标准差分量是否大于预设特征标准差分量上限值。

根据公式(6)计算每个初始聚类簇中特征变量的标准差向量中的特征标准差分量，获取每个初始聚类簇的特征变量的标准差向量ξ_j中的最大特征标准差分量ξ_jmax，判断初始聚类簇是否存在最大分量ξ_jmax大于预设特征标准差分量上限值，具体的，预设特征标准差分量上限值即为聚类域中样本距离分布的标准差，聚类域中样本距离分布的标准差是预先设定的。

如果最大特征标准差分量大于预设特征标准差分量上限值，则确定多个初始聚类簇中存在满足第二分裂条件的第一目标初始聚类，并将最大特征标准差分量对应的初始聚类簇确定为第一目标初始聚类。

在一具体实施例中，如果最大特征标准差分量ξ_jmax大于一个聚类域中样本距离分布的标准差，则确定该最大特征标准差分量ξ_jmax对应的初始聚类簇为满足第二分裂条件的第一目标初始聚类。

在一具体实施例中，如果最大特征标准差分量ξ_jmax于等于一个聚类域中样本距离分布的标准差，则确定多个初始聚类簇中不存在满足第二分裂条件的初始聚类簇。

S342、如果存在满足第二分裂条件的第一目标初始聚类簇，则对第一目标初始聚类簇进行簇分裂操作。

在一具体实施例中，通过以下方式对第一目标初始聚类簇进行簇分裂操作：

获取所述目标初始聚类簇的所述当前初始聚类中心和分裂系数；

具体的，通过以下公式获取分裂系数r_j：

公式(7)中，

为范围位于(0，1)之间的指定系数，且也属于至少一个聚类输入参数，需要提前进行设定，ξ_jmax为第一目标初始聚类簇中的最大特征标准差分量，分裂系数r_j为指定系数与第一目标初始聚类簇中最大特征标准差分量的乘积。

通过分裂系数r_j对第一目标初始聚类簇的当前初始聚类中心进行分裂计算，获取分裂后的两个新的初始聚类簇。

通过分裂系数将所述第一目标初始聚类簇分裂为两个新的初始聚类簇，将当前初始聚类中心数量加一，并返回执行步骤S240。

在一具体实施例中，通过以下公式获取两个新的当前初始聚类中心：

Z_c ^±＝{Z_1c，Z_2c...(Z_mc±r_j)...Z_nc}^T (8)

公式(8)中，Z_c ^±表示目标初始类别簇分裂后的两个新的聚类中心Z_c ⁺和Z_c ^-，n表示预测样本中特征变量的维数，n的取值为(1，n)，Z_nc表示第一目标初始聚类簇的计算初始聚类中心中的第n个特征变量值，Z_mc表示与最大特征标准差分量ξ_jmax对应的分裂特征变量，Z_kc±r_j表示将分裂特征变量Z_mc与分裂系数r_j相加减，分裂成两个新的当前初始聚类中心Z_c ⁺和Z_c ^-。

S343、簇分裂操作完成后，返回执行步骤S240。

在一具体实施例中，簇分裂操作完成后，将当前初始聚类中心数量加一，迭代次数增加一，并返回执行步骤S240。

如果不存在满足第二分裂条件的初始聚类簇，则返回执行步骤S320：对多个初始聚类簇进行簇合并操作。

在一具体实施例中，若目标初始聚类簇中的最大特征标准差分量ξ_jmax小于等于多个聚类输入参数中一个聚类域中样本距离分布的标准差，则该目标初始聚类簇不满足第二分裂条件，然后对多个初始聚类簇进行簇合并操作。

返回图3，如果当前聚类中心数量不满足第一分裂条件，则执行步骤S350：判断多个初始聚类簇的当前聚类中心数量是否满足第一合并条件。

在一具体实施例中，第一合并条件为当前聚类中心数量大于第二目标聚类值或者初始聚类中心数量满足奇偶性校验，具体的，第二目标聚类值可以为当前聚类中心数量大于预期的聚类中心数目的两倍，或者当前迭代次数为偶数次。

如果初始聚类中心数量满足第一合并条件，则执行步骤S320：对多个初始聚类簇进行簇合并操作，以获得多个目标心理类别簇。

在一具体实施例中，参照图5所示，图5示出了本申请实施例所提供的对多个初始聚类簇进行簇合并操作的步骤的流程图。如图5所示，通过以下方式对多个初始聚类簇进行簇合并操作：

S3201、判断多个初始聚类簇满足第二合并条件。

在一优选实施例中，第二合并条件为各个初始聚类簇中的当前初始聚类中心之间的距离值小于多个聚类输入参数中的两个聚类中心之间最小距离。

在一具体实施例中，通过以下公式获取当前各个初始聚类簇中的初始聚类中心之间的距离值：

D_cd＝||z_c-z_d||，c＝1，2，...，N_c-1，d＝i+1，...，N_c (9)

在公式(9)中，D_cd表示第c个计算聚类中心和第d个计算聚类中心之间的距离，z_c表示第c个计算聚类中心，z_d表示第d个计算聚类中心，其中，c的取值范围是[1，N_c-1]，N_c表示当前聚类中心数量，d的取值范围是[1，N_c]，第c个计算聚类中心和第d个计算聚类中心之间的距离D_cd等于第c个计算聚类中心与第d个计算聚类中心的差的绝对值。

如果多个初始聚类簇满足第二合并条件，则执行步骤S3202：将满足第二合并条件的初始聚类簇确定为第二目标初始聚类簇，对第二目标初始聚类簇进行合并操作，并确定新的聚类中心。

在一优选实施例中，比较当前各个初始聚类簇中的初始聚类中心之间的距离值与两个聚类中心之间的最小距离的大小，将小于两个聚类中心之间的最小距离的距离值最小距离次序递增排列，得到如下所示的集合

在该集合中，L表示S220中设定的一次迭代运算中可以合并的聚类中心的最多数量，在该集合中

在一优选实施例中，按照小于两个聚类中心之间的最小距离的距离值的集合

的顺序，将距离对应的两个目标初始聚类中心进行合并，其中，k的取值范围为(1，L)，即按照集合表示的递增顺序依次对集合中的距离值对应的目标初始聚类中心进行合并操作，具体的，将集合中距离为

的两个聚类中心

和

通过以下公式进行合并操作：

公式(10)中，

表示合并后的聚类中心，g的取值范围为(1，L)，

表示小于两个聚类中心之间最小距离的距离值

对应的其中一个目标初始聚类中心，

表示目标初始聚类中心

对应的当前第二目标初始聚类中预测样本的个数，

表示

对应的当前第二目标初始聚类中所有预测样本与目标初始聚类中心

距离的和，

表示小于两个聚类中心之间最小距离的距离值

对应的另一个目标初始聚类中心，

表示初始聚类中心

对应的当前第二目标初始聚类中预测样本的个数，

表示

对应的当前第二目标初始聚类中所有预测样本与初始聚类中心

的距离的和，

表示小于两个聚类中心之间最小距离的距离值

对应的两个第二目标初始聚类中的所有预测样本与其对应的目标初始聚类中心之间距离的和，合并后的目标聚类中心

等于

对应的两个第二目标初始聚类中的所有预测样本与其对应的目标初始聚类中心之间距离的和除以两个第二目标初始聚类簇中的所有预测样本的数量。

S3203、判断当前迭代运算次数是否等于预设迭代次数I。

在一具体实施例中，预设迭代运算次数I为S220中设置的预设迭代运算迭代次数，该预设迭代运算次数I可以进行修改，当多个初始聚类簇中没有满足第二合并条件的初始聚类簇，判断当前迭代运算次数是否达到预设迭代运算次数I。

如果当前迭代运算次数等于预设迭代次数I，获得多个目标心理类别簇。

如果当前迭代运算次数不等于预设迭代次数I，则执行S3204：判断是否改变聚类输入参数。

如果确定改变至少一个聚类输入参数，则返回S220：重新确定多个聚类输入参数。

在一具体实施例中，如果确认预设迭代运算次数不足以满足分类要求，需要进行修改，返回S220修改预设迭代运算次数，并继续执行之后的步骤直到获得多个目标心理类别簇。

如果确定不改变至少一个聚类输入参数，则返回执行S240：根据多个初始聚类中心，获得多个候选聚类簇。

在一具体实施例中，确定不改变至少一个聚类输入参数，将当前聚类中心数量减一，则返回执行步骤S240，迭代运算次数增加一。

如果多个初始聚类簇不满足第二合并条件，则执行S3203：判断当前迭代运算次数是否等于预设迭代次数I。

如果确定改变至少一个聚类输入参数，则返回S220重新确定多个聚类输入参数，迭代运算次数增加一，并返回执行步骤(A)；

如果确定不改变至少一个聚类输入参数，则迭代运算次数增加一，则返回执行步骤S240。

返回图3，如果初始聚类中心数量不满足第一合并条件，则执行步骤S340：对多个初始聚类簇进行簇分裂操作，以获得多个目标心理类别簇。

返回图1，S40、对多个目标心理类别簇分别进行风险预估，确定每个目标心理类别簇对应的心理风险等级。

在本申请一具体实施例中，通过以下公式对多个目标心理类别簇进行风险预估：

μ_j＝(μ_1j，μ_2j，...，μ_nj) (11)

公式(11)中，μ_j表示第j个目标心理类别簇中的平均特征向量，μ_j中的每个分量表示第j个目标心理类别簇中的每个特征向量的平均值，判断μ_j是否超过第二阈值，第二阈值为评价心理状况的预警值。

当μ_j超过设定的第二阈值时，确定该目标心理类别簇为心理状况较差的用户，并将超过设定的第二阈值的目标心理类别簇推送给专业心理分析人员。

当μ_j低于设定的第二阈值时，确定该目标心理类别簇为心理状况较好的用户。

具体的，通过以下公式计算目标心理类别簇中每个特征向量的平均值：

公式(12)中，μ_fj表示第j个目标心理类别簇中第f个特征变量的平均值，

表示第j个目标心理类别簇中的预测样本的第f个特征变量的平均值，其中，f的取值为[1，n]，表示每个预测样本中有n维变量，N_j为第j个目标心理类别簇中的样本参数，j表示目标心理类别簇的数目。

S50、对多个目标心理类别簇进行可视化处理，输出用于展示多个目标心理类别簇以及对应心理风险等级的图像数据。

在本申请一具体实施例中，可以采用T分布和随机近邻嵌入对多个目标心理类别簇进行可视化处理，处理形成多个目标心理类别簇对应的图像数据，可以通过颜色区分每个目标心理类别簇对应的风险等级。

参照图6所示，图6示出了本申请实施例所提供的基于心理量表数据的预测装置的结构示意图，如图6所示，本申请实施例还提供一种基于心理量表数据的预测装置，预测装置包括：

本申请提供了一种基于心理量表数据的预测方法和装置，本申请采用用户的心理量表数据和用户的基本信息，更为准确地反应用户的心理状况，且本申请的预测方法，不用人为设定固定的聚类个数，在聚类过程中，能够根据数据自动选择较好的聚类个数，并且选定初始值时，采用相互远离的思想，因此，能有效地克服传统聚类算法中初值影响和确定聚类个数的问题，能给定一个较好的初始值，并且能在迭代运算的过程中不断变换聚类个数，使得结果更加接近真实数据分布。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排它性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后应说明的是：以上实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于心理量表数据的预测方法，其特征在于，所述预测方法包括：

针对目标群体中的每个用户，获取该用户的预测样本，所述预测样本包括用户心理量表数据和用户特征数据，所述用户心理量表数据用于表征用户在不同心理评测维度下的健康程度；

对多个预测样本进行聚类，获得多个初始聚类簇；

根据所述多个初始聚类簇的簇属性，对所述多个初始聚类簇进行调整以获得多个目标心理类别簇；

对所述多个目标心理类别簇分别进行风险预估，确定每个目标心理类别簇对应的心理风险等级；

对所述多个目标心理类别簇进行可视化处理，输出用于展示所述多个目标心理类别簇以及对应心理风险等级的图像数据。

2.根据权利要求1所述的预测方法，其特征在于，对多个预测样本进行聚类，获得多个初始聚类簇的步骤包括：

(A)从所述多个预测样本中确定多个初始聚类中心；

(B)根据所述多个初始聚类中心，获得多个候选聚类簇；

(C)从所述多个候选聚类簇中选取预测样本数量大于第一阈值的候选聚类簇，确定为多个初始聚类簇；

3.根据权利要求2所述的预测方法，其特征在于，从所述多个预测样本中确定多个初始聚类中心的步骤包括：

分别计算每个待选取预测样本与上一初始聚类中心的距离，将计算得到的距离中与所述上一初始聚类中心的距离最大的待选取预测样本确定为当前初始聚类中心，所述待选取预测样本为所述多个预测样本中除作为初始聚类中心的预测样本之外的其它预测样本，首个初始聚类中心是根据从所述多个预测样本中随机选取一个预测样本来确定的；

重复上述步骤，以获得多个初始聚类中心。

4.根据权利要求2所述的预测方法，其特征在于，所述簇属性包括所述多个初始聚类中心的数量，

其中，根据所述多个初始聚类簇的簇属性，对所述多个初始聚类簇进行调整以获得多个目标心理类别簇的步骤包括：

(E)判断所述多个初始聚类簇的当前聚类中心数量是否满足第一分裂条件，所述第一分裂条件为所述当前聚类中心数量小于第一目标聚类值；

(F)如果当前聚类中心数量满足第一分裂条件，则对所述多个初始聚类簇进行簇分裂操作，以获得多个目标心理类别簇；

(G)如果当前聚类中心数量不满足第一分裂条件，则判断所述多个初始聚类簇的当前聚类中心数量是否满足第一合并条件，所述第一合并条件为所述当前聚类中心数量大于第二目标聚类值或者所述当前聚类中心数量满足奇偶性校验；

(H)如果当前聚类中心数量满足第一合并条件，则对所述多个初始聚类簇进行簇合并操作，以获得多个目标心理类别簇；

(I)如果当前聚类中心数量不满足第一合并条件，则对所述多个初始聚类簇进行簇分裂操作，以获得多个目标心理类别簇。

5.根据权利要求4所述的预测方法，其特征在于，对所述多个初始聚类簇进行簇分裂操作的步骤包括：

判断所述多个初始聚类簇中是否存在满足第二分裂条件的第一目标初始聚类簇；

如果不存在满足第二分裂条件的初始类别簇，则对所述多个初始聚类簇进行簇合并操作，以获得多个目标心理类别簇。

6.根据权利要求5所述的预测方法，其特征在于，判断所述多个初始聚类簇中是否存在满足第二分裂条件的第一目标初始聚类簇的步骤包括：

针对每个初始聚类簇，计算该初始聚类簇中特征变量的标准差向量，所述初始聚类簇中特征变量的标准差向量中的每个特征标准差分量对应一个特征变量的标准差；

确定所有初始聚类簇中特征变量的标准差向量中的最大特征标准差分量，判断所述最大特征标准差分量是否大于预设特征标准差分量上限值；

如果所述最大特征标准差分量大于预设特征标准差分量上限值，则确定所述多个初始聚类簇中存在满足第二分裂条件的第一目标初始聚类簇，并将所述最大特征标准差分量对应的初始聚类簇确定为第一目标初始聚类簇；

如果所述最大特征标准差分量不大于预设特征标准差分量上限值，则确定所述多个初始聚类簇中不存在满足第二分裂条件的初始聚类簇。

7.根据权利要求5所述的预测方法，其特征在于，对第一目标初始聚类簇进行簇分裂操作的步骤包括：

获取第一目标初始聚类簇的计算聚类中心和分裂系数；

根据所述分裂系数，将第一目标初始聚类簇分裂为两个新的初始聚类簇，将当前聚类中心数量加一，并返回执行步骤(B)。

8.根据权利要求4所述的预测方法，其特征在于，对所述多个初始聚类簇进行簇合并操作的步骤包括：

(J)判断所述多个初始聚类簇是否满足第二合并条件，所述第二合并条件为所述多个初始聚类簇中存在计算聚类中心之间的距离值小于预设聚类中心间最小距离值的第二目标初始聚类簇；

(K)如果所述多个初始聚类簇满足第二合并条件，对第二目标初始聚类簇进行合并操作，并确定新的聚类中心；

(L)判断当前迭代运算次数是否等于预设迭代次数；

(N)如果所述多个初始聚类簇不满足所述第二合并条件，则返回执行步骤(L)。

9.根据权利要求8所述的预测方法，其特征在于，所述预测方法还包括：

如果当前迭代运算次数等于预设迭代次数，则获得多个目标心理类别簇；

如果当前迭代运算次数不等于预设迭代次数，则确定是否改变至少一个聚类输入参数，所述至少一个聚类输入参数包括所述第一阈值、第一目标聚类值、第二目标聚类值、预设特征标准差分量上限值；

如果确定改变所述至少一个聚类输入参数，则将所述当前聚类中心数量减一，迭代运算次数增加一，并返回执行步骤(A)；

如果确定不改变所述至少一个聚类输入参数，则将所述当前聚类中心数量减一，迭代运算次数增加一，并返回执行步骤(B)。

10.一种基于心理量表数据的预测装置，其特征在于，所述预测装置包括：

获取模块，用于针对目标群体中的每个用户，获取该用户的预测样本，所述预测样本包括用户心理量表数据和用户特征数据，所述用户心理量表数据用于表征用户在不同心理评测维度下的健康程度；

分析模块，用于根据所述多个初始聚类簇的簇属性，对所述多个初始聚类簇进行调整以获得多个目标心理类别簇；

统计预警模块，用于对所述多目标心理类别簇分别进行风险预估，确定每个目标心理类别簇对应的心理风险等级；

可视化模块，用于对所述多个目标心理类别簇进行可视化处理，输出用于展示所述多目标心理类别簇以及对应心理风险等级的图像数据。