CN113361252A

CN113361252A - 基于多模态特征和情感词典的文本抑郁倾向检测系统

Info

Publication number: CN113361252A
Application number: CN202110583446.1A
Authority: CN
Inventors: 王红; 张慧; 庄鲁贺; 韩书; 李威; 杨杰; 王正军; 杨雪; 滑美芳
Original assignee: Shandong Normal University
Current assignee: Shanghai Junshuo Information Technology Co ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-07
Anticipated expiration: 2041-05-27
Also published as: CN113361252B

Abstract

本公开提供了一种基于多模态特征和情感词典的文本抑郁倾向检测系统，其工作方法为：对获取的文本数据进行预处理；根据预处理后的文本数据和预设词嵌入模型，得到词嵌入向量；根据预处理后的文本数据和预设情感词典，得到每个词的二维情感特征向量；提取文本数据中的词性特征向量，依次与二维情感特征向量和词嵌入向量拼接后，得到单词级别的特征向量表示；提取文本数据中的词频特征向量，得到句子级别的特征向量表示；根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN‑BiLSTM网络模型，得到最终的分类结果；本公开根据社交媒体文本数据，扩充了现有的情感词典，实现了更精准的文本抑郁倾向检测。

Description

基于多模态特征和情感词典的文本抑郁倾向检测系统

技术领域

本公开涉及文本数据处理技术领域，特别涉及一种基于多模态特征和情感词典的文本抑郁倾向检测系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

抑郁症是一种严重的精神疾病，随着社交媒体的迅速发展，患有精神疾病的用户会在社交平台上发布一些帖子，以在线寻求帮助和支持，这使得庞大的数据可供研究人员进行分析。

发明人发现，在文本抑郁倾向检测技术方面，传统的机器学习分类算法在特征工程中需要消耗大量的人力物力；并且，针对社交媒体帖子而言，由于其书写的随意性、并过多得使用网络词语，现有的研究大多缺乏对文本中词的情感信息的特征提取，特别是忽视了网络流行词汇和表情符号等所传达的情感信息，因此采用传统的特征提取方式反而效果不好，模型分类精度不高。

发明内容

为了解决现有技术的不足，本公开提供了一种基于多模态特征和情感词典的文本抑郁倾向检测系统，根据社交媒体文本数据，扩充了现有的情感词典，提取了二维情感特征向量、单词级别的特征向量表示和句子级别的特征向量表示，实现了更精准的文本抑郁倾向检测。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种基于多模态特征和情感词典的文本抑郁倾向检测系统。

一种基于多模态特征和情感词典的文本抑郁倾向检测系统，包括：

数据获取模块，被配置为：获取待处理的文本数据，对获取的文本数据进行预处理；

词嵌入模块，被配置为：根据预处理后的文本数据和预设词嵌入模型，得到词嵌入向量；

情感特征向量获取模块，被配置为：根据预处理后的文本数据和预设情感词典，得到每个词的二维情感特征向量；

单词级特征向量获取模块，被配置为：提取文本数据中的词性特征向量，依次与二维情感特征向量和词嵌入向量拼接后，得到单词级别的特征向量表示；

句子级特征向量获取模块，被配置为：提取文本数据中的词频特征向量，得到句子级别的特征向量表示；

分类模块，被配置为：根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN-BiLSTM网络模型，得到最终的分类结果。

进一步的，分类模块中，将单词级别的特征向量表示和句子级别的特征向量表示，分别输入到预设卷积神经网络中，将两个卷积神经网络输出的高层特征进行融合后输入到预设Bi-LSTM网络模型中，得到分类结果。

进一步的，对获取的文本数据进行预处理，包括：

从文本数据中提取标题、内容和标签，去除由于已删除内容而缺少的数据以及不相关数据，将文本数据转换为小写字母。

进一步的，对SenticNet4.0情感词典进行扩充，包括：融入常用的网络表情符号、常用网络流行用语的情感以及常用俚语。

进一步的，提取基于扩充后的SenticNet4.0情感词典的二维情感特征向量，提取单词的一维词性特征，将两者进行拼接，得到每个单词的三维特征向量表示，将三维特征向量表示与词嵌入向量进行拼接，得到单词级别的特征向量表示。

进一步的，提取n-gram的TF-IDF词频特征，选取TF-IDF词频矩阵中互信息最大的预设个数特征作为文本的向量表示，进而得到句子级别的特征向量表示。

进一步的，利用情感词典提取文本数据中词的情感属性特征，包括积极属性和消极属性，对情感属性特征进行数值化处理，令积极属性的值为1，消极属性的值为-1，结合预处理后的文本数据，得到每个词的二维情感特征向量。

本公开第二方面提供了一种基于多模态特征和情感词典的文本抑郁倾向检测方法。

一种基于多模态特征和情感词典的文本抑郁倾向检测方法，包括以下过程：

获取待处理的文本数据，对获取的文本数据进行预处理；

根据预处理后的文本数据和预设词嵌入模型，得到词嵌入向量；

根据预处理后的文本数据和预设情感词典，得到每个词的二维情感特征向量；

提取文本数据中的词性特征向量，依次与二维情感特征向量和词嵌入向量拼接后，得到单词级别的特征向量表示；

提取文本数据中的词频特征向量，得到句子级别的特征向量表示；

根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN-BiLSTM网络模型，得到最终的分类结果。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第二方面所述的基于多模态特征和情感词典的文本抑郁倾向检测方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第二方面所述的基于多模态特征和情感词典的文本抑郁倾向检测方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质或电子设备，根据社交媒体文本数据，扩充了现有的情感词典，提取了二维情感特征向量、单词级别的特征向量表示和句子级别的特征向量表示，实现了更精准的文本抑郁倾向检测。

2、本公开所述的方法、系统、介质或电子设备，采用多模态特征提取方式，分别对文本数据的单词和句子级别提取特征，构建基于单词和基于句子的特征表示，将多模态的特征表示进行融合，获取更丰富的文本特征，并结合词嵌入输入到深度学习模型中，进一步的提高了文本抑郁倾向检测的准确度。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的基于多模态特征和情感词典的文本抑郁倾向检测方法的流程示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1所示，本公开实施例1提供了一种基于多模态特征和情感词典的文本抑郁倾向检测方法，包括以下过程：

获取待处理的文本数据，对获取的文本数据进行预处理；

具体的，包括分类模型构建和抑郁倾向检测两个阶段。

S1：分类模型构建

S1.1：获取Reddit社交媒体帖子的文本数据；

具体地，数据收集方式是根据JT Wolohan的数据收集方式进行收集的。具体地，使用Python Reddit API包装器(PRAW)从Reddit社交媒体平台的两个子文件中爬取了数据：/r/depression和/r/AskReddit。

其中，从/r/depression中爬取的文本数据的标签标记为抑郁，从/r/AskReddit中爬取的文本数据标签标记为非抑郁，本实施例将抑郁倾向检测问题作为二分类任务。

采用的数据集Data＝{d₁,d₂,d₃,…,d_n}，类别标签表示该文本是否具有抑郁倾向，用二进制表示Label＝{0,1}，其中1表示具有抑郁倾向的帖子，0表示不具有抑郁倾向的帖子。

具体地，所述文本清洗即对数据进行预处理，从原始数据中提取标题，内容和标签等必要特征。除去了由于已删除内容而缺少的数据，将文本转换为小写字母，此外，诸如subreddit、警告、html标签、以及额外的数字和标点符号等不相关数据将被删除。

抑郁文本标记为1，非抑郁注文本标记为0。预处理后的数据总共包含5473条注释：被标记为“抑郁”的2718个样本和被标记为“非抑郁”的2755个样本，因此，该数据集在分析和建模方面极为平衡。数据集按70％-30％的比例分为训练集和测试集。在训练数据中，30％的样本用于模型验证。

S1.2：使用Word2vec词嵌入模型生成嵌入向量，将每一个单词嵌入到向量中。将输入的文本数据转化为词的向量表示，Word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

首先将输入的抑郁倾向检测文本转换成单词序列，嵌入维度设置为300，Word2vec将数据语料库中每一个词都表示成300维的向量。

假设S表示数据中的一个文本S＝{w₁,w₂,w₃,…,w_n}，其中w_i(1≤i≤n)表示文本中的第i个单词。使用Word2vec词嵌入模型生成嵌入向量，将每一个单词嵌入到向量中。针对序列S，对每一个单词w_i，其对应的单词向量表示为

对于数据中的标签，采取one-hot编码的形式。

本实施例使用了SenticNet4.0情感词典，并仅使用了该情感词典中单个单词概念去提取抑郁文本中词的情感信息方面的特征，包括单词的情感属性特征和情感极性值特征。

其中情感属性特征包括“positive”和“negative”两种，并对情感属性中的“positive”和“negative”做了数值化处理，令“positive”的值为1，“negative”的值为-1。并对原有的SenticNet4.0情感词典做了进一步的扩充，融入了457个新的元素信息，包括一些常用的网络表情符号，如“:)”，并考虑了常用网络流行用语的情感，如LOL，favo等表示正面情感，IFU，VSF，SIGH等表示负面情感，以及常用俚语，如Gorgeous，giggly等。

为了客观评价457个元素所表达的情感值，本实施例招募了10名志愿者，志愿者在没有其他因素干扰的情况下，对每个元素所反映的情感值进行评分，评分范围从-2到2分别表示极度正面和极度负面情感，并将评分取平均值，最后将其归一化为[-1,1]范围内的值。本实施例规定：若某个词的极性值大于0，则将其情感属性定为positive(PN＝1)，反之，为negative(PN＝-1)。最终得到了每个词的二维情感特征向量。

在提取单词级别的特征中，提取了基于扩充后的SenticNet4.0情感词典的二维情感特征向量，此外，还提取了单词的一维词性特征，将两者进行拼接，得到每个单词的三维特征表示，并将其和Word2vec得到的300维词嵌入向量进行拼接，从而得到基于单词级别的303维的特征表示。

在提取句子级别的特征中，提取了n-gram的TF-IDF词频特征，包括unigram和bigram，并利用互信息进行特征筛选，选取了TF-IDF词频矩阵中互信息最大的前1000个特征作为文本的向量表示，从而获得句子级别的1000维的特征表示。

设定文本数据的最大句子长度为3000，根据文本数据的句子长度将文本加到最大长度，不足的地方填充零，以保证相同的向量维度，以便有效地对文本进行批量处理。

将得到的303维的单词级别的向量表示和1000维的句子级别的向量表示，分别输入到CNN网络中，再将两个CNN网络输出的高层特征进行融合，作为Bi-LSTM网络的输入，最终输入到sigmoid层做分类。

本实施例中采用的多模态特征提取方式，是分别对文本数据的单词和句子级别进行特征提取，构建基于单词和基于句子的特征表示，将多模态的特征表示进行融合，获取更丰富的文本特征，并结合词嵌入输入到深度学习模型中，可以提高文本抑郁倾向检测的准确度。

并且，本实施例使用了情感词典，先前的研究在文本词嵌入方面大多都采用词嵌入的方法作为词或句子的向量表示，但是词嵌入模型没有考虑到词的情感极性，例如“I amhappy”与“I am very unhappy”两句话中，两者从词嵌入的角度来说向量表示是相似的，但从情感角度来说，由于两者的极性相反，所以向量表示应该完全不同。由于基于词嵌入的向量表示没有足够的情感信息，不能精确捕获句子的整体情感。因此本实施例利用情感词典，引入外部情感知识信息，将其作为单词的情感特征表示向量。并对情感词典进行扩充，丰富了情感词典元素，可以捕获更多的文本情感方面的信息。

S1.3：基于深度神经网络模型，训练抑郁倾向检测分类模型。

卷积神经网络CNN模型可以提取文本的本地特征并提高分类的准确性，但它无法更好的表达上下文信息，而LSTM克服了CNN无法捕获长距离文本特征的缺点，可以保存历史信息，提取上下文文本的依赖关系，在训练过程可以学习需要记忆哪些信息和遗忘哪些信息。

比如，“I feel not good about myself”，“not”是对“good”的否定，既该句子的情感极性为消极。虽然LSTM模型可以提取长距离文本信息，但它存在一个问题，即无法编码从后向前的信息，LSTM只能依据之前时刻的时序信息来预测下一时刻的输出，但在有些问题中，当前时刻的输出不仅和之前的状态有关，还可能和未来的状态有关系。

比如预测一句话中缺失的单词不仅需要根据前文来判断，还需要考虑它后面的内容，真正做到基于上下文判断。BiLSTM通过前向的LSTM与后向的LSTM叠加在一起组成，因此BiLSTM模型的输出由这两个叠加的LSTM的状态共同决定，可以更好的捕获双向语义。因此，本实施例使用CNN-BiLSTM混合模型作为本实施例的抑郁倾向检测分类模型。

为了更好的提取单词特征，将由word2vec模型得到的每个单词300维词嵌入矩阵后，将其与通过情感词典提取的2维特征向量表示和1维的词性特征向量表示进行拼接得到303维的特征表示，作为CNN网络的输入向量。因此，输入向量v_i表示为：

v_i＝v_w2v：v_dic：v_pos (2)

其中，v_w2v表示采用Word2vec模型生成的嵌入向量，v_dic表示采用情感词典得到的特征向量，v_pos表示采用单词的词性特征向量。

将经过互信息特征筛选得到的1000维TF-IDF词频特征作为CNN模型的输入，因此，该部分的输入向量t_i表示为：

t_i＝v_tfidf (3)

其中，v_tfidf表示TF-IDF词频特征。

本实验使用深度学习模型进行特征提取，分别将CNN模型应用于上述303维的特征表示向量v_i和1000维的特征表示向量t_i，两者分别经过CNN模型后，得到：

V_i＝CNN(v_i) (4)

T_i＝CNN(t_i) (5)

其中，V_i，T_i分别表示经过CNN模型后生成的高层特征。

将得到的V_i，T_i特征向量进行融合，作为Bi-LSTM模型的输入。

Mixed_Feature＝concatenate(V_i，T_i) (6)

Fea＝BiLSTM(Mixed_Feature) (7)

其中，Mixed_Feature表示融合后的特征向量，Fea表示融合后的特征向量经过BiLSTM模型得到的输出向量。

最后，将高层特征Fea输入到Sigmoid层进行分类，得到最终的预测结果Result：

Result＝Sigmoid(Fea) (8)

步骤4：基于测试数据，采用训练得到的文本抑郁倾向检测分类模型进行抑郁倾向的检测并进行评价。

采用评价指标进行评价时，分别采用准确率P，召回率R和F值作为评价指标：

S2：抑郁倾向检测阶段

在经过模型训练获取模型参数，以及进行了模型精度评价之后，上述模型即可部署于社交媒体平台，用于对平台上的社交媒体帖子进行抑郁倾向检测，包括：

获取社交媒体平台的文本数据，基于抑郁倾向检测分类模型检测该帖子是否具有抑郁倾向。

使用CNN-BiLSTM模型训练抑郁倾向检测分类模型，具有较高的准确度和执行效率。本实施例运用文本分析和数据挖掘技术对社交媒体帖子进行抑郁倾向检测，检测该帖子是否具有抑郁倾向，达到疾病的预警作用，从而相关平台可采取必要的干预，进一步分析检测用户，确定其是否真正抑郁。

本实施例提出的基于CNN_BiLSTM神经网络混合模型，训练了一个帖子级别的分类器，可预测某条推文是否具有抑郁倾向，它不是直接将用户标记为抑郁患者，而是通过该分类器将用户标记为具有抑郁倾向，达到疾病的预警作用，从而相关平台可采取必要的干预，进一步分析检测用户，确定其是否真正抑郁。

实施例2：

本公开实施例2提供了一种基于多模态特征和情感词典的文本抑郁倾向检测系统，包括：

所述系统的工作方法与实施例1提供的基于多模态特征和情感词典的文本抑郁倾向检测方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的基于多模态特征和情感词典的文本抑郁倾向检测方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于多模态特征和情感词典的文本抑郁倾向检测方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于多模态特征和情感词典的文本抑郁倾向检测系统，其特征在于：包括：

2.如权利要求1所述的基于多模态特征和情感词典的文本抑郁倾向检测系统，其特征在于：

分类模块中，将单词级别的特征向量表示和句子级别的特征向量表示，分别输入到预设卷积神经网络中，将两个卷积神经网络输出的高层特征进行融合后输入到预设Bi-LSTM网络模型中，得到分类结果。

3.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：

对获取的文本数据进行预处理，包括：

4.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：

对SenticNet4.0情感词典进行扩充，包括：融入常用的网络表情符号、常用网络流行用语的情感以及常用俚语。

5.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：

提取基于扩充后的SenticNet4.0情感词典的二维情感特征向量，提取单词的一维词性特征，将两者进行拼接，得到每个单词的三维特征向量表示，将三维特征向量表示与词嵌入向量进行拼接，得到单词级别的特征向量表示。

6.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：

提取n-gram的TF-IDF词频特征，选取TF-IDF词频矩阵中互信息最大的预设个数特征作为文本的向量表示，进而得到句子级别的特征向量表示。

7.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：

利用情感词典提取文本数据中词的情感属性特征，包括积极属性和消极属性，对情感属性特征进行数值化处理，令积极属性的值为1，消极属性的值为-1，结合预处理后的文本数据，得到每个词的二维情感特征向量。

8.一种基于多模态特征和情感词典的文本抑郁倾向检测方法，其特征在于：包括以下过程：

获取待处理的文本数据，对获取的文本数据进行预处理；

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于多模态特征和情感词典的文本抑郁倾向检测方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于多模态特征和情感词典的文本抑郁倾向检测方法中的步骤。