CN113343706A

CN113343706A - 基于多模态特征和语义规则的文本抑郁倾向检测系统

Info

Publication number: CN113343706A
Application number: CN202110584120.0A
Authority: CN
Inventors: 王红; 张慧; 庄鲁贺; 韩书; 李威; 杨杰; 王正军; 杨雪; 滑美芳
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-03
Anticipated expiration: 2041-05-27
Also published as: CN113343706B

Abstract

本公开提供了一种基于多模态特征和语义规则的文本抑郁倾向检测系统，工作方法为：获取待处理的文本数据，对获取的文本数据进行预处理；根据预处理后的文本数据和预设词嵌入模型，得到词嵌入向量；根据预处理后的文本数据、预设情感词典和预设语义规则，得到文本的情感值特征向量；提取文本数据中的词性特征向量，与词嵌入向量拼接后，得到单词级别的特征向量表示；提取文本数据中的词频特征向量，与情感值特征向量拼接后，得到句子级别的特征向量表示；根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN‑BiLSTM网络模型，得到最终的分类结果；本公开考虑了文本的情感信息，提取了多模态的文本特征，提高了文本抑郁倾向检测的精度。

Description

基于多模态特征和语义规则的文本抑郁倾向检测系统

技术领域

本公开涉及文本数据处理技术领域，特别涉及一种基于多模态特征和语义规则的文本抑郁倾向检测系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

抑郁症是一种严重的精神疾病，随着社交媒体的迅速发展，患有精神疾病的用户会在社交平台上发布一些帖子，以在线寻求帮助和支持，这使得庞大的数据可供研究人员进行分析。在这项工作中，本实施例的主要检测Reddit数据集上患有抑郁倾向的用户。

发明人发现，在基于文本数据的抑郁倾向检测技术方面，现有的方法大多都采用词嵌入的方法作为词或句子的向量表示，缺乏情感信息，不能精确捕获句子的整体情感；并且，由于社交媒体帖子书写随意性、并过多使用网络词语，因此采用传统词嵌入的方式无法捕获句子更丰富的情感方面的信息，从而导致模型分类精度不高。

发明内容

为了解决现有技术的不足，本公开提供了一种基于多模态特征和语义规则的文本抑郁倾向检测系统，考虑了文本的情感信息，提取了多模态的文本特征，提高了文本抑郁倾向检测的精度。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种基于多模态特征和语义规则的文本抑郁倾向检测系统。

一种基于多模态特征和语义规则的文本抑郁倾向检测系统，包括：

数据获取模块，被配置为：获取待处理的文本数据，对获取的文本数据进行预处理；

词嵌入模块，被配置为：根据预处理后的文本数据和预设词嵌入模型，得到词嵌入向量；

情感值特征向量获取模块，被配置为：根据预处理后的文本数据、预设情感词典和预设语义规则，得到文本的情感值特征向量；

单词级特征向量获取模块，被配置为：提取文本数据中的词性特征向量，与词嵌入向量拼接后，得到单词级别的特征向量表示；

句子级特征向量获取模块，被配置为：提取文本数据中的词频特征向量，与情感值特征向量拼接后，得到句子级别的特征向量表示；

分类模块，被配置为：根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN-BiLSTM网络模型，得到最终的分类结果。

进一步的，分类模块中，将单词级别的特征向量表示和句子级别的特征向量表示，分别输入到预设卷积神经网络中，将两个卷积神经网络输出的高层特征进行融合后输入到预设Bi-LSTM网络模型中，得到分类结果。

进一步的，对获取的文本数据进行预处理，包括：

从文本数据中提取标题、内容和标签，去除由于已删除内容而缺少的数据以及不相关数据，将文本数据转换为小写字母。

进一步的，采用Word2vec词嵌入模型生成嵌入向量。

进一步的，利用扩充后的SenticNet4情感词典，根据情感词典中每个单词的情感极性值和预设语义规则，进行句子情感值计算，得到文本的情感值特征向量。

进一步的，语义规则，包括：

若文本数据中出现感叹号或者问号，文本或句子的情感极性增强。

进一步的，语义规则，包括：若句子同时含有大小写，全部大写的单词情感强度增强。

进一步的，语义规则，包括：若句子中的情感词前面存在程度副词，文本或句子的情感极性增强。

进一步的，语义规则，包括：如果句子中存在转折连词，只考虑转折连词后面的句子情感极性。

进一步的，语义规则，包括：如果句子中存在否定词，考虑否定词相关联的词的相反情感极性。

进一步的，语义规则，包括：如果句子为反问句，将句中情感词乘以相应的权值。

进一步的，语义规则，包括：如果句子中包含表情符号，根据表情符号所代表的含义判断句子或文本的情感极性。

本公开第二方面提供了一种基于多模态特征和语义规则的文本抑郁倾向检测方法。

一种基于多模态特征和语义规则的文本抑郁倾向检测方法，包括以下过程：

获取待处理的文本数据，对获取的文本数据进行预处理；

根据预处理后的文本数据和预设词嵌入模型，得到词嵌入向量；

根据预处理后的文本数据、预设情感词典和预设语义规则，得到文本的情感值特征向量；

提取文本数据中的词性特征向量，与词嵌入向量拼接后，得到单词级别的特征向量表示；

提取文本数据中的词频特征向量，与情感值特征向量拼接后，得到句子级别的特征向量表示；

根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN-BiLSTM网络模型，得到最终的分类结果。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第二方面所述的基于多模态特征和语义规则的文本抑郁倾向检测方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第二方面所述的基于多模态特征和语义规则的文本抑郁倾向检测方法中的步骤。

与现有技术相比，本公开的有益效果是：

本公开所述的方法、系统、介质或电子设备，采用多模态特征提取方式，分别对文本数据的单词级别和句子级别提取特征，构建基于单词和基于句子的特征表示，将多模态的特征表示进行融合，获取更丰富的文本特征，结合词嵌入输入到深度学习模型中，提高了文本抑郁倾向检测的准确度。

本公开所述的方法、系统、介质或电子设备，根据提出的7种语义规则，结合扩充后的情感词典对文本进行句法分析，从而得到每个文本的情感值特征，进一步的提高了文本抑郁倾向检测的准确度。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的基于多模态特征和语义规则的文本抑郁倾向检测方法的模型框架图。

图2为本公开实施例1提供的基于多模态特征和语义规则的文本抑郁倾向检测方法的实验数据概要图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1和图2所示，本公开实施例1提供了一种基于多模态特征和语义规则的文本抑郁倾向检测方法，包括以下过程：

获取待处理的文本数据，对获取的文本数据进行预处理；

具体的，包括以下内容：

S1：分类模型构建

S1.1：获取Reddit社交媒体帖子的文本数据；

具体地，数据收集方式是根据JT Wolohan的数据收集方式进行收集的。

具体地，使用Python Reddit API包装器(PRAW)从Reddit社交媒体平台的两个子文件中爬取了数据：/r/depression和/r/AskReddit。

其中，从/r/depression中爬取的文本数据的标签标记为抑郁，从/r/AskReddit中爬取的文本数据标签标记为非抑郁。

将抑郁倾向检测问题作为二分类任务，采用的数据集Data＝{d₁，d₂，d₃，...，d_n}，类别标签表示该文本是否具有抑郁倾向，用二进制表示Label＝{0，1}，其中1表示具有抑郁倾向的帖子，0表示不具有抑郁倾向的帖子。

具体地，所述文本清洗即对数据进行预处理。从原始数据中提取标题，内容和标签等必要特征。除去了由于已删除内容而缺少的数据。将文本转换为小写字母，此外，诸如subreddit，警告，html标签，以及额外的数字和标点符号等不相关数据将被删除。抑郁文本标记为1，非抑郁注文本标记为0。预处理后的数据总共包含5473条注释：被标记为“抑郁”的2718个样本和被标记为“非抑郁”的2755个样本，因此，该数据集在分析和建模方面极为平衡。数据集按70％-30％的比例分为训练集和测试集。在训练数据中，30％的样本用于模型验证。

S1.2：使用Word2vec词嵌入模型生成嵌入向量，将每一个单词嵌入到向量中。将输入的文本数据转化为词的向量表示，Word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

首先将输入的抑郁倾向检测文本转换成单词序列，嵌入维度设置为300，Word2vec将数据语料库中每一个词都表示成300维的向量。

假设S表示数据中的一个文本S＝{w₁，w₂，W₃，...，w_n}，其中w_i(1≤i≤n)表示文本中的第i个单词。使用Word2vec词嵌入模型生成嵌入向量，将每一个单词嵌入到向量中。针对序列S，对每一个单词w_i，其对应的单词向量表示为

对于数据中的标签，采取one-hot编码的形式。

本实施例中，使用SenticNet4.0情感词典，并仅使用了该情感词典中单个单词概念去提取抑郁文本中词的情感信息方面的特征，包括单词的情感属性特征和情感极性值特征。

本实施例中仅使用情感词典中每个单词的情感极性值特征，对原有的SenticNet4.0情感词典做了进一步的扩充，融入了457个新的元素信息，包括一些常用的网络表情符号，如“:)”，并考虑了常用网络流行用语的情感，如LOL，favo等表示正面情感，IFU，VSF，SIGH等表示负面情感，以及常用俚语，如Gorgeous，giggly等。

为了客观评价457个元素所表达的情感值，本实施例中招募了10名志愿者，志愿者在没有其他因素干扰的情况下，对每个元素所反映的情感值进行评分，评分范围从-2到2分别表示极度正面和极度负面情感，并将评分取平均值，最后将其归一化为[-1,1]范围内的值，从而得到每个新加入的元素的情感极性值。

本实施例中，制定了对句子进行句法分析等操作的一些规则，包括考虑了句子中的标点符号，单词的大小写，程度副词，连词，否定词，反问句分析以及表情符号分析等，以下为具体对情感句子进行句法分析操作的7种分析规则的描述：

(1)标点符号：例如“！”“？”，这些标点符号是依附于它所在文本的情感极性，可以是正面情感或负面情感的句子，起到加强句子的情感强度的作用；

(2)单词大小写：若句子同时含有大小写，则全部大写的单词会显明用户想要重强调该词，因此全部大写的单词情感强度会加强；

(3)程度副词：若句子中的情感词前面存在程度副词，则将会加强该情感词的正面情感或者负面情感极性强度。例如“extremely bad”会比“bad”的负面情感要强；

(4)连词：如果句子中存在像“but”，“while”“和However”等转折连词，会使句子前后的情感极性相反，而总的语义表达通常在这些词之后，因此本实施例只考虑转折连词后面的句子情感极性；

(5)否定词：如果句子中存在“not”等否定词，也会导致句子前后具有相反的情感极性。比如“I am not happy”，“happy”是正面情感词，而前面加上“not”之后，使得整个句子表达的是一种负面情感。

(6)反问句：反问句的目的往往是加强语气，把原本的思想表达更加强烈、鲜明。它通常比陈述句表达更为有力，感情色彩也更加明显。通过句尾有“？”的出现以及反问标志词来判断句子是否为反问句。如果为反问句，就将句中情感词乘以相应的权值，以表示情感强度的加强。

(7)表情符号：符号暗含了感情色彩，人们常用合适的表情来直接表达某种心情。比如“No one came to accompany me today>；(”，不考虑表情符号时，整个句子表达的是一种客观陈述，不包含任何情感色彩，但加上表情符号“>；(”就传达了一种负面情感。

本实施例使用前面叙述中扩充后的SenticNet4情感词典，并根据情感词典中每个单词的情感极性值和上述制定的7种句法分析规则，进行句子情感值计算，从而得到每个文本的情感值特征。

所述提取单词级别和句子级别的特征。具体地，在提取单词级别的特征中，提取了单词的1维词性特征，并将其和Word2vec得到的300维词嵌入向量进行拼接，从而得到基于单词级别的301维的特征表示。在提取句子级别的特征中，提取了n-gram的TF-IDF词频特征，包括unigram和bigram，并利用互信息进行特征筛选，选取了TF-IDF词频矩阵中互信息最大的前1000个特征作为文本的向量表示，此外，还根据情感词典并结合7种语义规则，得到1维的文本情感值特征，并将其与词频特征进行拼接，从而获得句子级别的1001维的特征表示。

设定文本数据的最大句子长度为3000，根据文本数据的句子长度将文本加到最大长度，不足的地方填充零，以保证相同的向量维度，以便有效地对文本进行批量处理。

将得到的301维的单词级别的向量表示和1001维的句子级别的向量表示，分别输入到CNN网络中，再将两个CNN网络输出的高层特征进行融合，作为Bi-LSTM网络的输入，最终输入到sigmoid层做分类。

本实施例中采用多模态特征提取方式，是分别对文本数据的单词和句子级别提取特征，构建基于单词和基于句子的特征表示，将多模态的特征表示进行融合，获取更丰富的文本特征，并结合词嵌入输入到深度学习模型中，此外，还提出了7种语义规则，结合扩充后的情感词典对文本进行句法分析，从而得到每个文本的情感值特征，可以提高文本抑郁倾向检测的准确度。

S1.3：基于深度神经网络模型，训练抑郁倾向检测分类模型。

卷积神经网络CNN模型可以提取文本的本地特征并提高分类的准确性，但它无法更好的表达上下文信息，而LSTM克服了CNN无法捕获长距离文本特征的缺点，可以保存历史信息，提取上下文文本的依赖关系，在训练过程可以学习需要记忆哪些信息和遗忘哪些信息。

比如，“I feel not good about myself”，“not”是对“good”的否定，既该句子的情感极性为消极。虽然LSTM模型可以提取长距离文本信息，但它存在一个问题，即无法编码从后向前的信息，LSTM只能依据之前时刻的时序信息来预测下一时刻的输出，但在有些问题中，当前时刻的输出不仅和之前的状态有关，还可能和未来的状态有关系。比如预测一句话中缺失的单词不仅需要根据前文来判断，还需要考虑它后面的内容，真正做到基于上下文判断。BiLSTM通过前向的LSTM与后向的LSTM叠加在一起组成，因此BiLSTM模型的输出由这两个叠加的LSTM的状态共同决定，可以更好的捕获双向语义。因此，本实施例中使用CNN-BiLSTM混合模型作为抑郁倾向检测分类模型。

为了更好的提取单词特征，将由Word2vec模型得到的每个单词300维词嵌入矩阵后，将其与1维的词性特征向量表示进行拼接得到301维的特征表示，作为CNN网络的输入向量。因此，输入向量v_i表示为：

v_i＝v_w2v：v_pos (2)

其中，v_w2v表示采用Word2vec模型生成的嵌入向量，v_pos表示采用单词的词性特征向量。

将由TF-IDF词频特征和文本情感值特征拼接得到的1001维特征表示作为CNN模型的输入，因此，该部分的输入向量t_i表示为：

t_i＝v_tfidf：v_rule (3)

其中，v_tfidf表示TF-IDF词频特征，v_rule表示文本情感值特征。

本实验使用深度学习模型进行特征提取，分别将CNN模型应用于上述301维的特征表示向量v_i和1001维的特征表示向量t_i，二者分别经过CNN模型后，得到：

V_i＝CNN(v_i) (4)

T_i＝CNN(t_i) (5)

其中，V_i，T_i分别表示经过CNN模型后生成的高层特征。

将得到的V_i，T_i特征向量进行融合，作为Bi-LSTM模型的输入。

Mixed_Feature＝concatenate(V_i，T_i) (6)

Fea＝BiLSTM(Mixed_Feature) (7)

其中，Mixed_Feature表示融合后的特征向量，Fea表示融合后的特征向量经过BiLSTM模型得到的输出向量。

最后，将高层特征Fea输入到Sigmoid层进行分类，得到最终的预测结果Result：

Result＝Sigmoid(Fea) (8)

步骤4：基于测试数据，采用训练得到的文本抑郁倾向检测分类模型进行抑郁倾向的检测并进行评价。

采用评价指标进行评价时，分别采用准确率P，召回率R和F值作为评价指标：

S2：抑郁倾向检测阶段

在经过模型训练获取模型参数，以及进行了模型精度评价之后，上述模型即可部署于社交媒体平台，用于对平台上的社交媒体帖子进行抑郁倾向检测，包括：

获取社交媒体平台的文本数据，基于抑郁倾向检测分类模型检测该帖子是否具有抑郁倾向。

使用CNN-BiLSTM模型训练抑郁倾向检测分类模型，具有较高的准确度和执行效率。本实施例运用文本分析和数据挖掘技术对社交媒体帖子进行抑郁倾向检测，检测该帖子是否具有抑郁倾向，达到疾病的预警作用，从而相关平台可采取必要的干预，进一步分析检测用户，确定其是否真正抑郁。

本实施例提供的CNN_BiLSTM神经网络混合模型，训练了一个帖子级别的分类器，可预测某条推文是否具有抑郁倾向，它不是直接将用户标记为抑郁患者，而是通过该分类器将用户标记为具有抑郁倾向，达到疾病的预警作用，从而相关平台可采取必要的干预，进一步分析检测用户，确定其是否真正抑郁。

实施例2：

本公开实施例2提供了一种基于多模态特征和语义规则的文本抑郁倾向检测系统，包括：

所述系统的工作方法与实施例1提供的基于多模态特征和语义规则的文本抑郁倾向检测方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的基于多模态特征和语义规则的文本抑郁倾向检测方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于多模态特征和语义规则的文本抑郁倾向检测方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：包括：

2.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：

分类模块中，将单词级别的特征向量表示和句子级别的特征向量表示，分别输入到预设卷积神经网络中，将两个卷积神经网络输出的高层特征进行融合后输入到预设Bi-LSTM网络模型中，得到分类结果。

3.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：

对获取的文本数据进行预处理，包括：

4.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：

采用Word2vec词嵌入模型生成嵌入向量。

5.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：

利用扩充后的SenticNet4情感词典，根据情感词典中每个单词的情感极性值和预设语义规则，进行句子情感值计算，得到文本的情感值特征向量。

6.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：

语义规则，包括：

若文本数据中出现感叹号或者问号，文本或句子的情感极性增强；

或者，

若句子同时含有大小写，全部大写的单词情感强度增强；

或者，

若句子中的情感词前面存在程度副词，文本或句子的情感极性增强。

7.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：

语义规则，还包括：

如果句子中存在转折连词，只考虑转折连词后面的句子情感极性；

或者，

如果句子中存在否定词，考虑否定词相关联的词的相反情感极性；

或者，

如果句子为反问句，将句中情感词乘以相应的权值；

或者，

如果句子中包含表情符号，根据表情符号所代表的含义判断句子或文本的情感极性。

8.一种基于多模态特征和语义规则的文本抑郁倾向检测方法，其特征在于：包括以下过程：

获取待处理的文本数据，对获取的文本数据进行预处理；

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求8所述的基于多模态特征和语义规则的文本抑郁倾向检测方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求8所述的基于多模态特征和语义规则的文本抑郁倾向检测方法中的步骤。