CN111477328B

CN111477328B - 一种非接触式的心理状态预测方法

Info

Publication number: CN111477328B
Application number: CN202010241780.4A
Authority: CN
Inventors: 王冲冲; 杨菲; 贺同路; 李嘉懿; 郭学栋; 任永亮
Original assignee: Beijing Intelligent Workshop Technology Co ltd
Current assignee: Beijing Intelligent Workshop Technology Co ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2021-02-02
Anticipated expiration: 2040-03-31
Also published as: CN111477328A

Abstract

一种非接触式的心理状态预测方法，通过分析用户的单位时间内的历史心理文本、图像数据以及房树人数据对用户的心理状态进行评测，获取到用户真实的心理状态，并及时反馈评估结果和相应的对策建议，使得用户可以直观了解到自己当前的心理状态，方便用户及时进行自我调整或就医以便达到心理健康的状态。

Description

一种非接触式的心理状态预测方法

技术领域

本发明涉及计算机技术领域，特别涉及一种非接触式的心理状态预测的方法。

背景技术

随着社会经济发展，人类生活水平的提高，人们对健康的需求也在不断提升，健康的概念，已经跨越了“无病”的时代，开始进入身心健康和高质量的生活时代。现代人物质生活相对安逸，但精神上、心理上的压力大，心里健康问题日益成为现代人健康的主要健康话题，因此，如何快速、准确、全面的评估个人的身心健康亟待研究。

在信息化时代的今天，互联网日益成为人们生活中不可缺少的一部分。各大搜索网站上可以找到各种各样的心理测验网站，但是这些网站只有少量是专业机构编制的标准化测验，其余的大多是各种各样科普的活趣味性的心理测验，而且往往需要用户花费较长时间来填写心理测量表，再根据心理测量表的填写内容对心理健康状态进行评估，对于随意选择或故意选择错误答案的情况无法进行有效处理。

发明内容

针对现有技术的上述缺陷，本发明提供一种非接触式的心理状态预测方法，包括如下步骤：

S101采集数据:

从以下方面进行数据采集：个体专业心理测试数据采集；个体历史心理文本和图片数据采集；新个体历史信息采集；个体房树人数据以及心理专家分析数据；

S102构建心理测试数据库：根据采集的个体专业心理测试数据以及个体历史发布的心理文本和图片数据构建心理测试数据库；

S103数据分析：分为文本分析和图片分析两部分分别进行；

S104对获取的文本数据进行分析；

S105计算心理文本的语义相似度；

S106心理文本分类：对个体相应的心理文本数据进行标注和分类、并将结果保存；

S107构建文本因子特征集:根据心理文本分类的结果和心理文本的语义相似度的结果构建文本因子特征集；

S108图片分析:对用户历史发布的图片进行分析,获取图片要素；

S109图片分类:对用户发布的图片进行分类，训练图片分类模型，预测用户历史发布图片的类别；

S110计算图片权重因子:根据S109中得出的图片分类结果对用户历史发布的图片进行分析，并根据分析结果计算图片权重因子；

S111构建图片因子特征集:利用图片权重因子和对应类别图片构建图片因子特征集；

S112房树人数据库构建：根据采集的个体的房树人图片数据以及相应的心理专家分析数据构建房树人数据库；

S113房树人图片分析：根据个体的房树人图片数据进行分析，获取图片中的要素；

S114获取房树人图片特征：跟据S113的分析获得的房树人图片要素，获取房树人图片特征向量；

S115根据房树人图片特征向量获取专家数据；

S116心理状态分析模块:根据S107获取的文本因子特征集和S111获取的图片因子特征集构建心理分析模型对用户心理状态进行分析，预测用户的心理状态；

S117结果分析:对用户心理状态的预测结果进行分析，并根据当前的心理状态给出相应的结论或对策建议。

优选地，其中所述个体专业心理测试信息的采集包括但不限于从专业机构获取可信度高的相关心理测试数据。

优选地，其中所述个体历史心理文本和图片数据包括但不限于从用户历史发布的数据中获取。

优选地，根据S114中获取的房树人图片特征向量通过计算房树人数据库中的房树人图片的特征向量选取最优匹配的房树人图片；获取最优匹配的房树人图片对应的专家数据。

优选地，S104中进一步包括：在进行文本分析之前，对采集到的数据进行预处理；包括但不限于采用编码规范统一编码规则对数据进行编码，去除非心理相关文本、过滤特殊字符、去除停用词。

优选地，S105中进一步包括：构建语义向量模型对心理文本进行语义向量的转化；计算心理文本与对应心理测试表中题目的语义相似度,并将结果保存。

优选地，S109中图片分类进一步包括以下步骤：

S301数据预处理：对个体单位时间内的图片数据进行清洗，清除非正常图片、对图片进行格式化处理、统一图片大小并进行标注；并对标注后的标准数据进行划分；

S302训练分类模型：在训练分类模型之前将图片转化成对应的矩阵表示。根据本发明的一个优选实施方式；

S303模型评估：利用测试集测试分类模型的效果，对图片分类模型进行评估；判断是否达到预期的评估标准；如果达到，则执行S305；如果未达到，则返回S302继续进行模型优化；

S304是否符合预期：当未达到预期的评估标准时，对模型进行优化调整；返回执行S302；当模型达到预期的评估标准；从而完成图片分类模型的训练和评估优化，最终的结果就是图片分类模型的最优结果；

S305结果输出：S304中的最终的结果就是图片分类模型的最优结果，将其作为最终的结果进行输出。

优选地，S110中计算图片权重因子具体为：

S1101、根据S301的标注结果，统计样本个体每个类别的图片的数量；

S1102、计算每个类别图片所占样本个体图片总数的比例Tn，n＝1,2,…,N，N为类别数；

S1103、心理测试分数记为I，根据心理测试结果将心理测试分数划分成几个等级然后用数字进行表示；

构建预设心理公式为：

I＝T1*α+T2*β+…+Tn*γ

其中α、β、…、γ为该类图片的心理权重值，I为心理测试分数；

S1104、将每个样本个体的心理测试分数I以及其对应的比例Tn分别带入到心理预设公式中，得到一个公式组；

S1105、求解公式组，得到α、β、…、γ的图片心理权重值。α+β+γ＝1，即α、β、…、γ的取值范围为0～1之间。

优选地，所述对用户心理状态进行分析,具体包括:

S401构建因子数据集：根据S107构建的文本因子数据集和S111构建的图片因子数据集构建因子数据集；S402训练评估模型：将训练集中的因子标签以嵌入的方式嵌入到特征因子集中作为特征集和分类标签一起加载到心理评估模型中进行训练；

S403模型评估：获得的评估模型进行评估，对心理评估模型进行评估；判断是否达到预期的评估标准；如果达到，则执行S405；如果未达到，则执行S404；

S404当未达到预期的评估标准时，对模型进行优化调整；返回执行S402；

当模型达到预期的评估标准；从而完成评估模型的训练和评估优化；当前最优的预测结果就是最佳的评估模型结果；

S405结果输出：S404中当前最优的预测结果就是最终的输出结果R。

优选地，所述S117的结果分析具体包括：

在分析结果的时候需要将S115获取的专家数据的分值Z跟S405的结果R结合起来，用专家分值Z对最终的结果进行纠正；

S11701假设真实的心理状态值为T；

S11702假设预设心理状态公式：T＝Z*w+R；

S11703将个体真实心理状态值Ti、个体相应的专家数据分值Zi，个体对应的S405的预测结果Ri,i＝1,2,3,…,N，N为整数；带入公式T＝Z*w+R；这样我们可以得出N个w，去除极端值，然后对剩下的w求平均，最终得出w^即为通用的权值w^；

S11704新个体预测的时候再将w^带入公式T＝Z*w+R；即新个体最终的心理状态为T＝Z*w^+R；

S11705根据新个体的心理状态值对用户心理状态进行分析，并根据当前的心理状态给出相应的结论或对策建议。本发明基于神经网络分析个体历史心理文本，并根据心理测试表提取相关特征因子，然后结合个体历史发布图片分布，最终通过神经网络评估模型对用户的心理状态进行判断和评估，使得评估结果更科学、准确、快速，并且无需用户在线填写心理测量表。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的一种非接触式的心理状态预测方法流程图；

图2为本发明实施例提供的一种文本分类模型流程图；

图3为本发明实施例提供的一种图片分类模型流程图；

图4为本发明实施例提供的一种神经网络评估模型流程图；

图5为本发明实施例提供的一种卷积神经网络映射示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种非接触式的心理状态预测方法,包括如下步骤：

S101数据采集:包括但不限于从至少以下方面进行数据采集：

个体专业心理测试数据采集：个体专业心理测试信息的采集包括但不限于从专业机构获取可信度高的相关心理测试数据；根据本发明的一个优选实施方式，所述专业机构包括但不限于专业心理治疗机构、专业心理治疗网站、专业心理研究机构等；根据本发明的一个优选实施方式，所述相关心理测试数据包括但不限于个体专业的心理测试表及其测试结果，以及对应的测试数据来源时间、个人信息、评估结果、对策建议等数据；个体房树人数据以及心理专家分析数据。

个体历史心理文本和图片数据采集：个体历史心理文本和图片数据包括但不限于从用户历史发布的数据中获取，根据本发明的一个优选实施方式，所述用户历史发布的数据包括但不限于从用户自身发布的社交媒体历史数据中获取，根据本发明的一个优选实施方式，所述社交媒体的历史数据包括但不限于微信朋友圈、QQ、微博等社交媒体的历史数据，所获取的数据为用户历史发布的心理相关的文本和图片等数据。

新个体历史信息采集：新个体历史信息包括但不限于从新个体在单位时间内发布的心理相关的文本和图片等数据中获取，根据本发明的一个优选实施方式，所述新个体在单位时间内发布的心理相关的文本和图片等数据包括并不限于新个体用户在微信朋友圈、QQ、微博等社交媒体发布的历史数据。所述新个体是指新用户。

S102构建心理测试数据库：根据采集的个体专业心理测试数据以及个体历史发布的心理文本和图片数据构建心理测试数据库。

S103数据分析：分为文本分析和图片分析两部分分别进行。

S104文本分析:根据本发明的一个优选实施方式，在进行文本分析之前，对采集到的数据进行预处理；根据本发明的一个优选实施方式，对数据进行预处理是进行数据清洗，包括但不限于采用编码规范统一编码规则(如：UTF-8)对数据进行编码，去除非心理相关文本、过滤特殊字符、去除停用词等。

S105计算心理文本的语义相似度：构建语义向量模型对心理文本进行语义向量的转化；进一步计算心理文本与对应心理测试表中题目的语义相似度,并将结果保存；根据本发明的一个优选实施方式，使用深度学习或机器学习的方法构建语义向量模型；根据本发明的一个优选实施方式，通过余弦距离或杰卡德相似性等方法计算心理文本与对应心理测试表中题目的语义相似度。

S106心理文本分类：对个体相应的心理文本数据进行标注和分类、并将结果保存，为下一步数据处理做准备；根据本发明的一个优选实施方式，采用有监督或无监督的方式构建分类模型进行心理文本分类。

S107构建文本因子特征集:根据心理文本分类的结果和心理文本的语义相似度的结果构建文本因子特征集。

S108图片分析:对用户历史发布的图片进行分析,获取图片要素；根据本发明的一个优选实施方式，图片要素包括但不限于色彩(例如彩色、黑白等)、内容(例如：人物、风景、建筑等)、发布时间(例如发布时间可以划分为凌晨、白天、晚上)；

S109图片分类:对用户发布的图片进行分类，训练图片分类模型，预测用户历史发布图片的类别；根据本发明的一个优选实施方式，将图片要素一致的图片划分为一类,例如当图片要素包含按照色彩、内容、时间三要素时,将这三要素完全一致的图片划为一类。根据本发明的一个优选实施方式，如果第一图片要素包含m1个子类别、第二图片要素包含m2个子类别、第n个图片要素包含mn个子类别，则可将图片划分为N个类别，N＝m1*m2*…*mn。

根据本发明的一个优选实施方式，所述采集的个体的房树人图片数据从用户发布的图片中包含房、树、人中至少之一的图片中提取；

S115根据房树人图片特征向量获取专家数据；

根据本发明的一个优选实施方式，根据S114中获取的房树人图片特征向量通过计算房树人数据库中的房树人图片的特征向量选取最优匹配的房树人图片；获取最优匹配的房树人图片对应的专家数据。

根据本发明的一个优选实施方式，根据欧氏距离、余弦距离、或杰卡德相似性选取最优匹配的房树人图片；

S117结果分析:对用户心理状态的预测结果进行分析，并根据当前的心理状态给出相应的结论或对策建议等。

下面结合附图1-5对本发明的具体实施方式作进一步的详细说明：

S101数据采集:包括但不限于从至少以下方面进行数据采集：

个体专业心理测试数据采集：个体专业心理测试信息的采集包括但不限于从专业机构获取可信度高的相关心理测试数据；根据本发明的一个优选实施方式，所述专业机构包括但不限于专业心理治疗机构、专业心理治疗网站、专业心理研究机构等；根据本发明的一个优选实施方式，所述相关心理测试数据包括但不限于个体专业的心理测试表及其测试结果，以及对应的测试数据来源时间、个人信息、评估结果、对策建议等数据。

个体房树人数据以及心理专家分析数据采集：包括个体单位时间内的房树人数据以及对应的心理专家的分析数据的获取，如可以通过专业心理测试渠道获取个体的房树人数据和对应的心理专家的分析数据。

S103数据分析：分为文本分析和图片分析两部分分别进行。

S105计算心理文本的语义相似度：构建语义向量模型对心理文本进行语义向量的转化；进一步计算心理文本与对应心理测试表中题目的语义相似度,并将结果保存；根据本发明的一个优选实施方式，使用深度学习或机器学习的方法构建语义向量模型；根据本发明的一个优选实施方式，通过余弦距离计算心理文本与对应心理测试表中题目的语义相似度。

根据本发明的一个具体实施方式，采用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。与单纯使用距离度量进行比较，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。向量空间中向量X，Y之间的余弦相似度可以表示为：

根据本发明的一个优选实施方式，通过杰卡德相似性计算心理文本与对应心理测试表中题目的语义相似度；其中，杰卡德相似性系数用于比较有限样本集之间的相似性与差异性。系数值越大，则表示样本相似度越高。

对于给定的两个n维向量A，B，其杰卡德相似性系数可以表示为：

根据本发明的一个具体实施方式，心理文本语义相似度计算具体做法如下：

1)将文本数据转换成对应的语义向量；

根据本发明的一个优选实施方式，使用深度学习或机器学习的方法进行文本数据的向量化：

根据本发明的一个优选实施方式，使用BERT(编码器的双向编码表示)构建语义向量模型将文本转换成语义向量表示的形式；根据本发明的一个优选实施方式，使用Word2Vec(词向量)的变体Sent2Vec(句向量)将文本转换成向量表示的形式；根据本发明的优选实施方式，可使用其他深度学习或机器学习的方法进行文本数据的向量化(例如TF-IDF(词频-逆文本频率)、LDA(主题模型)等)将文本转换成唯一向量表示的形式；

根据本发明的一个优选实施方式，心理文本的向量化分为两部分进行：个体历史心理文本向量化和相应心理测试题目向量化。

2)计算心理文本的语义相似度：

在进行个体历史心理文本向量化和相应心理测试题目向量化之后，计算单位时间内的每个个体的每条历史心理文本与对应的心理测量表题目文本的语义相似度Si,其中i＝1,2,…,n,n为正整数，表示对应心理测量表题目的个数；接下来对获得的文本相似度进行均值化处理记为

i＝1,2,…,n,n为正整数，表示对应心理测量表题目的个数。所述均值化处理是对每个题目对应的心理文本向量进行均值化处理，例如心理测试题目1对应3条心理文本，则对这3条心理文本向量做均值化即取平均值。

根据本发明的一个优选实施方式，使用无监督学习二分K-means(K-均值)聚类的方法对心理文本进行分类处理；

S10601把所有数据初始化为一个簇；

S10602使用k-means(K-均值)算法将第一个簇划分成两个簇(初始时只有一个簇)；然后计算划分开的两个簇的SSE(总误差平方和)，即计算每个簇中的元素与簇中心的差值的平方值之和，SSE计算方式如下：

参数描述：P表示点位置(x,y)、Mi为中心点的位置、SSE表示当前的分类情况的中心点到自身分类簇的点的位置的总和。

使用方法：在聚类算法迭代的过程中，我们通过计算当前得到的中心点情况下的SSE值来评估现在的分类效果，如果SSE值在某次迭代之后大大减小就说明聚类过程基本完成，不需要再进行更多次的迭代了。

S10603判断当前是否已经有k个簇，所述k是预先设置的心理文本所需要划分的类别数；如果判断结果是是，则结束分类；如果判断结果为否，则执行S10604；

S10604选取SSE(总误差平方和)最大的那个簇；返回执行S10602。

SSE误差平方和越小表示聚类效果越好；如果采用轮廓系数表示聚类效果，轮廓系数越大，表示簇与簇之间距离，距离越远则聚类效果越好。根据本发明的一个具体实施方式，轮廓系数中包含有聚类的凝聚度和分离度，用于评估聚类的效果；该值S处于-1～1之间，值越大，表示聚类效果越好。

采用如下方式计算轮廓系数：

其中，a是Xi与同簇的其他样本的平均距离，称为凝聚度；b是Xi与最近簇中所有样本的平均距离，称为分离度。最近簇的定义如下：

其中，p是某个簇Ck中的样本；用Xi到某个簇所有样本平均距离作为衡量该点到该簇的距离后，选择离Xi最近的一个簇作为最近簇。求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数。平均轮廓系数的取值范围为[-1,1]，且簇内样本的距离越近，簇间样本距离越远，平均轮廓系数越大，聚类效果越好。

根据本发明的一个优选实施方式，使用深度学习文本分类模型对心理文本进行分类；将文本数据进行向量化，然后对文本向量进行分类。

根据本发明的一个优选实施方式，文本分类方法进一步包括：

S201数据预处理：文本预处理的目的是从文本语料库中规范地提取出主要内容，去除与文本情感分类不相关的信息。中文文本的预处理，主要包括规范编码，过滤非法字符，分词处理，去除停用词等步骤；

1)编码规范：中文文本一般都会涉及到编码的问题，常见的中文编码有GB2312、GBK、UTF-8等，为了避免文本出现乱码，根据本发明的一个优选实施方式，对文本进行统一的编码。根据本发明的一个优选实施方式，对文本进行UTF-8编码。

2)过滤非法字符:在处理中文文本的时候不需要其他特殊字符如：表情符、非中文字符、特殊符号等，本发明中将这些不需要的特殊字符统称为非法字符。由于非法字符的出现会影响对于中文文本的分析，为了避免影响后续模型训练的准确性，需进行非法字符的过滤；

3)分词处理：对中文文本进行分词处理是文本分析中很重要的一步，分词的好坏甚至直接影响到模型的准确性(例如：“她不好看”可以被分为“她”、“不”、“好看”)，根据本发明的一个优选实施方式，分词方法包括但不限于如Jieba(结巴)分词、Glove分词、NLTK(自然语言处理工具包)等分词工具包；

4)去除停用词：在处理中文文本数据之前通常要过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)。一般这些停用词都是根据文本分析任务和数据集进行人工整理、非自动化生成的，最后获得的停用词会形成一个停用词表。所述停用词是指出现频率非常高但是对文本实质意义没具体影响的词(如：还是、的、之、也、了等等)，这些停用词去掉后不会对模型的准确性造成影响；

S202文本标注与数据分割：首先需要对数据集进行标注，以抑郁测试为例，具体标注方式如下：

参照个体抑郁测试心理测试结果对心理文本进行标注；抑郁测试根据专业心理分析一般包括三类特征：生理、心理、行为；我们可以将个体历史文本按照这三类特征进行标注筛选出个体对应的心理文本；具体标注如下：

然后将标注好的数据集按预定比例划分为训练集和测试集。根据本发明的一个优选实施方式，划分比例为8：2或7：3；其中的训练集文本用于心理分类模型的训练；测试集文本用于评估模型的预测能力。

S203训练分类模型：在训练分类模型之前我们首先需要对文本进行向量化，计算机不能识别中文，因此我们需要对之进行转化。如：抑郁测试一般包括三类特征：生理、心理、行为，可以分别转化为标签1、2、3；模型训练的本质是各种数值或矩阵的运算；将样本转化为相应的特征向量后，训练的时候按照批次往模型中投数据，然后按照标注的标签对进行文本分类模型的训练；

S204模型评估：利用测试集测试分类模型的效果，对文本分类模型进行评估；判断是否达到预期的评估标准；如果达到，则执行S205；如果未达到，则返回S203对模型继续优化；根据本发明的一个优选实施方式，对文本模型进行评估的方法包括但不限于准确率值、精确率值、召回率值、F1值等评估方法。

根据本发明的一个具体实施方式，根据下列方式计算准确率值、精确率值、召回率值、F1值：

	真实为正类	真实为负类
			判定为正类	TP	FP
判定为负类	FN	TN

根据S202的数据标注结果，根据本发明的一个优选实施方式，选取10000条标注好的心理文本作为测试集对文本分类模型进行评估；

根据本发明的一个优选实施方式，选取出的10000条心理文本中生理、心理、行为文本的条数分别是3333、3333、3334条；

根据本发明的一个优选实施方式，预测出的心理文本中生理、心理、行为文本的条数3400，3400，3200条；其中预测正确的生理、心理、行为文本的条数3300，3300，3300；每个类别都可以将本类别作为正类、非本类别作为负类；

准确率：

准确率为：Accuracy＝预测正确的条数/预测总数(即测试集总数)

Accuracy＝3300+3300+3300/10000＝99％

精确率：

每个类别的精确率：Precision＝该类预测正确的条数/所有预测为该类的数目

召回率：

每个类别的召回率：Recall＝该类预测正确的条数/该类测试集中真实的数目

F1值：

每个类别的F1值等于2倍的精确率*召回率/(精确率+召回率)

其中，各参数定义如下:

True Positive(TP)：将正类预测为正类数

True Negative(TN)：将负类预测为负类数

False Positive(FP)：将负类预测为正类数

False Negative(FN)：将正类预测为负类数

S205是否符合预期：当未达到预期的评估标准时，对模型进行优化调整；返回执行S203；根据本发明的一个优选实施方式，优化调整的方式包括但不限于调整学习率、随机断开一定比例的神经元、调整优化函数。根据本发明的一个优选实施方式，学习率的初始取值为0.001。根据本发明的一个优选实施方式，调整优化函数包括但不限于Adam优化算法、SGD随机梯度下降。

当模型达到预期的评估标准；从而完成文本分类模型的训练和评估优化，最终优化完成的文本分类模型即所需的文本分类模型，其分类结果为当前最佳的分类结果。

S206结果输出：S205中达到预期评估标准的分类结果就是当前最佳的分类结果，并将当前最优的文本分类结果进行输出。

根据本发明的一个优选实施方式，将个体相同类型的文本进行向量化，然后对之进行加和求平均的运算，这样我们就可以得到生理、心理、行为三种类型的语义表示向量集；将S106中文本语义相似度计算的结果序列集作为标签；将两种数据集按个体依次进行组合构建文本因子特征集。

S109图片分类:对用户发布的图片进行分类；

根据本发明的一个优选实施方式，训练图片分类模型，预测用户历史发布图片的类别；

根据本发明的一个优选实施方式，将图片要素一致的图片划分为一类,例如当图片要素包含按照色彩、内容、时间三要素时,将这三要素完全一致的图片划为一类。根据本发明的一个优选实施方式，如果第一图片要素包含m1个子类别、第二图片要素包含m2个子类别、第n个图片要素包含mn个子类别，则可将图片划分为N个类别，N＝m1*m2*…*mn。

根据本发明的一个优选实施方式，色彩可以根据等级分为m1个等级；内容可以按大类分为m2个类别，例如房屋、河流、人物等等；时间可以按照早、中、晚进行划分为m3个时间段；最终可以根据色彩、内容、时间将图片分为N个类别，N＝m1*m2*m3。

根据本发明的一个优选实施方式，图片分类进一步包括以下步骤：

S301数据预处理：对个体单位时间内的图片数据进行清洗，清除非正常图片、对图片进行格式化处理、统一图片大小并进行标注；

	类别
		图片1	类别1
图片2	类别N
		图片3	类别2
…	…
		图片n	类别N

对标注后的标准数据进行划分；根据本发明的一个具体实施方式，所述数据集中训练集、测试集的划分比例为7：3或8：2；根据本发明的一个具体实施方式，可根据具体需求调整训练集、测试集的划分比例；其中的训练集用来对图片分类模型进行训练；测试集：用来对图片分类模型的效果进行评估。

S302训练分类模型：在训练分类模型之前我们首先需要对图片进行处理，计算机不能直接识别图片，因此我们需要对之进行转化。根据本发明的一个具体实施方式，将图片转化成对应的矩阵表示。根据本发明的一个优选实施方式，图片分类模型可以由CNN(卷积神经网络)、pooling(池化)、FC(全连接网络)构成；将图片数据加载到相应的图片分类网络中并按照标注的标签对图片分类模型的训练。

根据本发明的一个具体实施方式，卷积神经网络的卷积核在工作时，会有规律地扫过输入特征，在感受野内对输入特征做矩阵元素乘法求和并叠加偏差量。

卷积神经网络的工作情况如下：左图中的黑色点框为卷积核，这里卷积核的大小为5*5，卷积核中每个点都有相应的权值系数，每个卷积核即感受野对输入特征(图片特征)做矩阵元素的乘法求和并叠加偏差量，最终的值为映射结果即特征图如图5所示；接下来卷积核按照设定的步长依次开始扫描输入特征；

式中的求和部分等价于求解一次交叉相关(cross-correlation)。b为偏差量，z^l和z^l+1表示第l+1层卷积的输入和输出，也被称为特征图(feature map)。L_l+1为z_l+1的尺寸，这里假设特征图长宽相同。z_(i，j)对应特征图的像素，K为特征图的通道数，f、s₀和p是卷积层参数，对应卷积核大小、卷积步长(stride)和填充(padding)层数。

根据本发明的一个具体实施方式，池化可形式为：

式中步长s₀、像素(i，j)的含义与卷积层相同，p是预指定参数。当p＝1时，池化在池化区域内取均值，被称为均值池化(average pooling)；当p→∞时，池化在区域内取极大值，被称为极大池化(max pooling)。

根据本发明的一个具体实施方式，卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层；全连接层位于卷积神经网络隐含层的最后部分，并只向其它全连接层传递信号。根据本发明的一个具体实施方式，特征图在全连接层中失去空间拓扑结构，被展开为向量并通过激励函数输出分类标签。

根据本发明的一个具体实施方式，神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值，并将输入值传递给下一层，输入层神经元节点会将输入属性值直接传递给下一层(隐层或输出层)。在多层神经网络中，上层节点的输出和下层节点的输入之间的函数关系为激活函数。根据本发明的一个具体实施方式，采用的激活函数包括但不限于下述类型：

Sigmoid函数解析式：

tanh函数解析式：

ReLU函数解析式：

Relu＝max(0，x)

Softmax函数解析式：

S303模型评估：利用测试集测试分类模型的效果，对图片分类模型进行评估；判断是否达到预期的评估标准；如果达到，则执行S305；如果未达到，则返回S302继续进行模型优化；根据本发明的一个优选实施方式，对图片模型进行评估的方法包括但不限于准确率值、精确率值、召回率值、F1值等评估方法。

准确率：

精确率：

召回率：

F1值：

每个类别的F1值等于2倍的精确率*召回率/(精确率+召回率)

其中，各参数定义如下:

True Positive(TP)：将正类预测为正类数

True Negative(TN)：将负类预测为负类数

False Positive(FP)：将负类预测为正类数

False Negative(FN)：将正类预测为负类数

S304是否符合预期：当未达到预期的评估标准时，对模型进行优化调整；返回执行S302；根据本发明的一个优选实施方式，优化调整的方式包括但不限于调整学习率、随机断开一定比例的神经元、调整优化函数。根据本发明的一个优选实施方式，学习率取值为0.001。根据本发明的一个优选实施方式，调整优化函数包括但不限于Adam优化算法、SGD随机梯度下降。

当模型达到预期的评估标准；从而完成图片分类模型的训练和评估优化，最终的结果就是图片分类模型的最优结果。

S110计算图片权重因子:根据S109中得出的图片分类结果对用户历史发布的图片进行分析，并根据分析结果计算图片权重因子。

根据本发明的一个具体实施方式，计算图片权重因子具体方式如下：

S1103、心理测试分数记为I，为简化计算过程和提高计算速度可以根据心理测试结果将心理测试分数划分成几个等级然后用数字进行表示；

构建预设心理公式为：

I＝T1*α+T2*β+…+Tn*γ

S1105、求解公式组，得到α、β、…、γ的图片心理权重值。α+β+…+γ＝1，即α、β、…、γ的取值范围为0～1之间。

S111构建图片因子特征集:利用图片权重因子和对应类别图片构建图片因子特征集。根据本发明的一个优选实施方式，利用卷积神经网络获取图片的特征向量并结合S1105中获取到的图片心理权重值可以使用权重因子乘以图片特征向量的方法，这样每个个体的多张图片就可以构成该个体的图片因子特征集。

根据本发明的一个优选实施方式，房树人图片包含房屋、树木、人三个要素中的至少之一；

根据本发明的一个优选实施方式，使用卷积神经网络对图片的特征进行提取；

根据本发明的一个优选实施方式，采用灰度特征，或纹理特征进行提取。

所述灰度特征提取包括但不限于提取灰度平均值、方差；所述纹理特征提取包括但不限于灰度差分统计法、灰度共生矩阵、灰度-梯度共生矩阵等。

根据本发明的一个优选实施方式，使用卷积神经网络对房树人图片的特征进行提取，具体实现方式如下：

S11401构建一个房树人图片特征提取网络；

根据本发明的一个优选实施方式，使用CNN(卷积神经网络)、DNN(深度神经网络)、或全连接神经网络来构建房树人图片特征提取网络；

S11402使用房树人图片特征提取网络来获取房树人图片的特征数据；

根据本发明的一个具体实施方式，采用特征向量F或矩阵F表征所提取的房树人图片特征；

S115根据房树人图片特征向量获取专家数据；

根据本发明的一个优选实施方式，根据房树人的图片特征获取专家数据具体实现方式如下：

S11501房树人数据库中的房树人图片特征提取及计算:

根据本发明的一个优选实施方式，房树人图片特征得提取方法跟S1104的房树人图片特征提取方法一致，使用相同的方法获取房树人的图片特征数据，记为Fn，n＝1,2,…,N，n为整数；然后将个体的房树人图片特征F跟房树人数据库中的特征数据进行计算；

根据本发明的一个具体实施方式，采用向量空间中两个向量的欧式距离来衡量两个房树人特征向量间的距离的大小、即相似性；距离越小，两个房树人特征向量越相似。

两个n维向量F(x11,x12,…,x1n)与F1(x21,x22,…,x2n)间的标准化欧氏距离的公式如下：

Sk为两个向量的标准差、x1k、x2k为向量F(x11,x12,…,x1n)与F1(x21,x22,…,x2n)对应的维度数据。

根据本发明的一个优选实施方式，采用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。与单纯使用距离度量进行比较，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。向量空间中向量X，Y之间的余弦相似度可以表示为：

根据本发明的一个优选实施方式，通过杰卡德相似性计算房树人向量的特征的语义相似度；其中，杰卡德相似性系数用于比较有限样本集之间的相似性与差异性。系数值越大，则表示样本相似度越高。

S110502对应的专家数据转换或分析：将专家数据按照指定的规则转换成相应的分值，记为Z；

S116心理状态分析模块:对用户心理状态进行分析，预测用户的心理状态；

所述对用户心理状态进行分析,具体包括:

S401构建因子数据集：根据S107构建的文本因子数据集和S111构建的图片因子数据集构建因子数据集；根据本发明的一个优选实施方式,将对应的个体文本因子向量集和图片因子数据集进行连接起来作为特征集，即可以将每个个体的文本因子向量和图片因子向量看作个体的一个个特征，对应的个体语义相似度序列和图片权重序列作为因子标签集，将专业心理测试的结果按照分数以10分为例划分成10个等级，可以作为分类标签1、2、3、…、10；

根据本发明的一个具体实施方式，将构建的因子数据集按预设比例划分成训练集和测试集；其中的训练集:用来进行心理评估模型的训练；测试集：用来进行评估模型的好坏程度；

S402训练评估模型：将训练集中的因子标签以嵌入的方式嵌入到特征因子集中作为特征集和分类标签一起加载到心理评估模型中进行训练。

S403模型评估：获得的评估模型进行评估，对心理评估模型进行评估；判断是否达到预期的评估标准；如果达到，则执行S405；如果未达到，则执行S404；根据本发明的一个优选实施方式，对心理评估模型进行评估的方法包括但不限于准确率值、精确率值、召回率值、F1值等评估方法。

S404是否符合预期：当未达到预期的评估标准时，对模型进行优化调整；返回执行S402；根据本发明的一个优选实施方式，优化调整的方式包括但不限于调整学习率、随机断开一定比例的神经元、调整优化函数。根据本发明的一个优选实施方式，学习率取值为0.001。根据本发明的一个优选实施方式，调整优化函数包括但不限于Adam优化算法、SGD随机梯度下降。

当模型达到预期的评估标准；从而完成评估模型的训练和评估优化；当前最优的预测结果就是最佳的评估模型结果。

S117结果分析:

在分析结果的时候需要将S115获取的专家数据的分值Z跟S405的结果R结合起来，用专家分值Z对最终的结果进行纠正。

S11701假设真实的心理状态值为T；

S11702假设预设心理状态公式：T＝Z*w+R；

S11705根据新个体的心理状态值对用户心理状态进行分析，并根据当前的心理状态给出相应的结论或对策建议等。根据本发明的另一优选实施方式，将S305获得的个体的历史心理图片的分类结果跟S1105得到α、β、…、γ的图片心理权重值联系起来；计算个体的每个类别图片所占个体图片总数的比例Tn，n＝1,2,…,N，N为类别数；然后将计算结果代入预设心理公式，求出心理测试分数I＝T1*α+T2*β+…+Tn*γ；接下来将S405获取的分类结果也可以视为分数跟上一步求出的心理测试分数进行加和求平均，最后的结果就是我们想要的最优结果。

根据本发明的另一优选实施方式，不需要S111构建图片因子特征集，以及将图片因子特征集跟S401中文本因子特征集进行集成，直接使用上面的带入心理预设公式的方法计算心理测试分数，然后将心理测试分数的值跟S405的结果进行加和求平均，最后的结果就是期望的最优结果。

通过实施本发明，无需用户手动做题或和用户面对面接触，而是通过分析用户的单位时间内的历史心理文本和图片数对用户的心理状态进行评测，这种方式不会对用户造成压力，很大程度能够获取到用户真实的心理状态，使得评测结果更快速、准确；并能及时反馈评估结果和相应的对策建议，这样可以使用户可以直观的了解到自己当前的心理状态，方便用户及时进行自我调整或就医以便达到心理健康的状态。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种非接触式的心理状态预测方法,包括如下步骤：

S101采集数据:

S103数据分析：分为文本分析和图片分析两部分分别进行；

S104对获取的文本数据进行分析；

S105计算心理文本的语义相似度；

S114获取房树人图片特征：根据 S113的分析获得的房树人图片要素，获取房树人图片特征向量；

S115根据房树人图片特征向量获取专家数据；

2.如权利要求1所述的一种非接触式的心理状态预测方法，其特征在于：

其中所述个体专业心理测试信息的采集包括但不限于从专业机构获取可信度高的相关心理测试数据。

3.如权利要求1-2任一所述的一种非接触式的心理状态预测方法，其特征在于：

其中所述个体历史心理文本和图片数据包括但不限于从用户历史发布的数据中获取。

4.如权利要求3所述的一种非接触式的心理状态预测方法，其特征在于：

根据S114中获取的房树人图片特征向量通过计算房树人数据库中的房树人图片的特征向量选取最优匹配的房树人图片；获取最优匹配的房树人图片对应的专家数据。

5.如权利要求4所述的一种非接触式的心理状态预测方法，其特征在于：

S104中进一步包括：在进行文本分析之前，对采集到的数据进行预处理；包括但不限于采用编码规范统一编码规则对数据进行编码，去除非心理相关文本、过滤特殊字符、去除停用词。

6.如权利要求5所述的一种非接触式的心理状态预测方法，其特征在于：

S105中进一步包括：构建语义向量模型对心理文本进行语义向量的转化；计算心理文本与对应心理测试表中题目的语义相似度,并将结果保存。

7.如权利要求6所述的一种非接触式的心理状态预测方法，其特征在于：

S109中图片分类进一步包括以下步骤：

S302训练分类模型：在训练分类模型之前将图片转化成对应的矩阵表示；

S303模型评估：利用测试集测试分类模型的效果，对图片分类模型进行评估；

S304是否符合预期：当未达到预期的评估标准时，对模型进行优化调整；返回执行S302；当模型达到预期的评估标准；从而完成图片分类模型的训练和评估优化；

8.如权利要求7所述的一种非接触式的心理状态预测方法，其特征在于：

S110中计算图片权重因子具体为：

S1103、心理测试分数记为I，根据心理测试结果将心理测试分数划分成几个等级然后用数字进行表示；构建预设心理公式为：

I＝T1*α+T2*β+…+Tn*γ

S1105、求解公式组，得到α、β、…、γ的图片心理权重值；α+β+γ＝1，即α、β、…、γ的取值范围为0～1之间。

9.如权利要求8所述的一种非接触式的心理状态预测方法，其特征在于：

所述对用户心理状态进行分析,具体包括:

S401构建因子数据集：根据S107构建的文本因子数据集和S111构建的图片因子数据集构建因子数据集；

S402训练评估模型：将训练集中的因子标签以嵌入的方式嵌入到特征因子集中作为特征集和分类标签一起加载到心理评估模型中进行训练；

S403模型评估：获得的评估模型进行评估，对心理评估模型进行评估；

S404当未达到预期的评估标准时，对模型进行优化调整；返回执行S402；当模型达到预期的评估标准；从而完成评估模型的训练和评估优化；当前最优的预测结果就是最佳的评估模型结果；

10.如权利要求9所述的一种非接触式的心理状态预测方法，其特征在于：

所述S117的结果分析具体包括：

S11701假设真实的心理状态值为T；

S11702假设预设心理状态公式：T＝Z*w+R；

S11703将个体真实心理状态值Ti、个体相应的专家数据分值Zi，个体对应的S405的预测结果Ri,i＝1,2,3,…,N，N为整数；带入公式T＝Z*w+R；这样我们可以得出N个权值w，去除极端值，然后对剩下的w求平均，最终得出w^即为通用的权值w^；

S11705根据新个体的心理状态值对用户心理状态进行分析，并根据当前的心理状态给出相应的结论或对策建议。