CN112766747A - 一种基于社交网络媒体发帖信息的自杀风险检测方法 - Google Patents
一种基于社交网络媒体发帖信息的自杀风险检测方法 Download PDFInfo
- Publication number
- CN112766747A CN112766747A CN202110090702.3A CN202110090702A CN112766747A CN 112766747 A CN112766747 A CN 112766747A CN 202110090702 A CN202110090702 A CN 202110090702A CN 112766747 A CN112766747 A CN 112766747A
- Authority
- CN
- China
- Prior art keywords
- user
- week
- equal
- sequence
- gru
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010010144 Completed suicide Diseases 0.000 title claims abstract description 41
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 230000008859 change Effects 0.000 claims abstract description 33
- 230000002996 emotional effect Effects 0.000 claims abstract description 33
- 230000008451 emotion Effects 0.000 claims description 61
- 239000013598 vector Substances 0.000 claims description 39
- 230000003442 weekly effect Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 22
- 239000000126 substance Substances 0.000 claims description 18
- 230000000007 visual effect Effects 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 12
- 230000006855 networking Effects 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 10
- 206010027940 Mood altered Diseases 0.000 claims description 7
- 230000007510 mood change Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 5
- 208000019901 Anxiety disease Diseases 0.000 claims description 4
- 230000036506 anxiety Effects 0.000 claims description 4
- 206010063659 Aversion Diseases 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 238000012502 risk assessment Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims 2
- 239000011541 reaction mixture Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 230000036651 mood Effects 0.000 description 4
- 206010042458 Suicidal ideation Diseases 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 206010027951 Mood swings Diseases 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 229920003169 water-soluble polymer Polymers 0.000 description 1
- 230000036642 wellbeing Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于社交网络媒体发帖信息的自杀风险检测方法,首先了解用户的正常帖子及其在树洞中隐藏评论之间的相关性,从用户公开的帖子中洞察用户内心的真实想法和情绪变化,进行心理压力预测;然后,据此检测用户的自杀风险。
Description
技术领域
本发明涉及自然语言技术领域,尤其涉及一种基于社交网络媒体发帖信息的自杀风险检测方法。
背景技术
自杀已经成为一个严重的问题,损害了全球人类社会的福祉。借助社交媒体,从人们的语言帖子中,自杀意念检测达到了最先进的水平,准确率达91%。过去已有的解决方案存在一个共同的问题:强调人们在社交媒体上的外在表达,而忽视了人们内心的真实想法和感受,而从相关社交网络中获取并了解人们隐藏的真实想法和感受,然后根据中间结果检测自杀意念,可以对自杀意向提供非常高的预测准确度,从而提前进行干预,避免悲剧。现有技术中,虽然已有相关的尝试,但没有具体有效的具有高检测准确率的基于社交网络媒体发帖信息的自杀风险检测方法。
发明目的
本发明的目的即在于解决现有技术中存在的不足,提供一种基于社交网络媒体发帖信息的自杀风险方法,从人们公开的微博帖子等社交网络媒体中了解人们隐藏的真实想法和感受,进行心理压力预测,然后根据中间结果检测自杀意念。
发明内容
本发明提供了一种基于社交网络媒体发帖信息的自杀风险检测方法,包括以下步骤:
步骤1、了解用户在社交网络媒体中的公开发帖及其在树洞中的隐藏评论之间的相关性,从用户的公开发帖中洞察用户内心的真实想法和情绪变化;具体包括以下子步骤:
子步骤S11:根据用户在社交网络媒体的公开发帖揭示用户内心的真实想法,令OP[1,t]=(O1,O2,...,Ot)表示用户第1周到第t周在社交网络媒体的公开发帖的发文序列,Oi为其第i周所发的周帖子集合,其中1≤i≤t;用户公开发帖包含文本句子和可视图片,将用户的每周发帖子集表示为Oi=(OSi,OPi),其中,OSi是一组句子,OPi是在第i周发布的一组图片;将用户在树洞中发布的隐藏评论表示为该隐藏评论反映了用户的真实内心想法;OP[1,t]与满足以下映射函数:
其中,t=26周,n=52周,相当于1年;
子步骤S12:捕捉用户隐式情绪变化,首先定义从用户的每周帖子集中揭示的每周情绪的测量以及连续两周之间的情绪变化,将用户的情绪定义为快乐、爱、惊讶、生气、悲伤、焦急、厌恶共7类,表示为:
EC={joy″,love,surprised,angry,sorrow,anxiety,hate″}.
采用了汉语情绪词典DUTIR,获得了包含了所述7类情绪相关的共27466个词,将每一个词对应一个强度分数,其中用9表示最高强度,1表示最低强度,即EI={1,3,5,7,9};
假设函数WordSet(c,i)返回DUTIR词典中强度分数为i的类别为c的单词集,其中,(c∈EC),(i∈EI);
令S表示在用户在某周发布的一组语言句子,即S为用户在社交网络媒体的公开发帖的句子集或在树洞里发布的隐藏评论集,则,:从S中揭示的类别为c∈EC的情绪程度值是情绪类别c中的词的总情绪强度,表示为:
将S所表示的七种情绪类别中的情绪程度呈现在一个7维向量中,表示为:
其中,ci∈EC,根据周公开发帖句子集所呈现的情绪程度,计算连续两周之间的情绪变化;
令Sk与Sk+1为第k周与第(k+1)周的公开发帖句子集,则Sk与Sk+1之间的情绪变化定义为:
其中,1≤k≤n-1,ci∈EC;
根据用户第t周的公开发帖句子集序列(OS1,OS2,…,OSt),导出用户从第1周到第t周的情绪变化序列:
对序列OE[1,t],OE[4,t+3],…,OE[n-t+1,n]应用大小为t和滑动步幅为3周的滑动窗口,产生对应的序列如下所示:
CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n],
步骤2、构建检测自杀风险的模型,根据用户从第t周到第n周的内心想法以及所得到的从第m周到第n周的情绪变化序列CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n],结合所使用的社交网络媒体的特征,检测得到自杀风险系数。
优选地,所述步骤1中通过构建模型A来实现子步骤S11,具体包括以下三步:
第一步:学习表示用户的周社交网络媒体发帖句子集O=(OS,OP),使用已知的自杀导向单词或词语嵌入,用300维向量表示所述发帖句子集O=(OS,OP),所述OS被转换成k×300的矩阵,如下所示:
hl=GRU1(xl,hl-1),
其中,hl-1与hl分别为第(l-1)个与第l个位置的隐藏状态(1≤l≤m);
注意力向量Att和H的乘法生成OS的最终句子,表示为:
对于用户的周社交网络媒体发帖中的图片表示为图片集OP,采用一个34层的ResNet,抽取出一个(300×1)维的可视特征表示,以OP中所有图片的平均特征向量作为每周的视觉图片表示如果则采用一个缺省图片,此图像显示在应用程序所需要的图像位置;
第二步:学习表示用户从第1周到第t周的社交网络媒体发帖集(O1,O2,...,Ot),具体为:
其中,hl-1与hl分别为第(l-1)个与第l个位置的隐藏状态(1≤l≤t);
优选地,通过构建训练模型B来实现子步骤S12,采用神经编解码方法,将输入的开放式情绪变化序列OE[1,t],编码成中间的内部向量表示,然后解码内部表示以生成隐藏的情绪变化序列CE[m,t],具体包括以下两步:
初始时,h0,1=(0,0,…,0),通过CRU3编码,获得OE[1,t]的内部序列,表示为如下所示:
第二步:将解码为输出序列CE[m,t],具体为,在编码器最后一个隐藏状态ht-1,t的基础上,通过另一个带有注意力机制的GRU层GRU4,对内部表不进行解码,生成输出序列CE[m,t],表示为(cem,m+1,cem+1,m+2,…,cet-1,t),1≤m≤t-1,如下式所示:
(cel,l+1,h′l,l+1)=GRU4(inl,l+1,hl-1,l),
其中,为GRU4第(l-1)个与第l个位置的隐含状态,为第l个位置的输入与输出状态,为学得的注意力向量, 以及为训练参数(1≤m≤t-1),输入值inl,l+1是基于先前的输出、先前的隐藏状态值,以及与(t-1)维编码器输出相关的注意力向量计算所得;
初始时,l=m,解码器的h′m-1,m设置为所述编码器的最后一个隐含状态,即h′m-1,m=ht-1,t,令解码器的cem-1,m为(0,0,…,0),则满足如下关系:
在经过GRU4之后,推导出用户从第m周到第t周的内在情绪变化序列
CE[m,t]=(cem,m+1,cem+1,m+2,…,cel-1,l),其中,1≤m≤t-1;
所构建的训练模型B采用基于MSE的损失函数,随着损失函数值下降,所产生的内部情绪变化序列CE[m,t]不断接近真实值CE[m,t]a,如下式所示:
将用户的个人资料信息profile,包括性别、网名长度、发帖数量、发帖时间分布、关注人数、关注用户数,纳入自杀风险分析,通过一个12维向量来表示用户的profile;
通过一个全连接层,判断得出一个用户是否具有自杀风险的可能性大小,如下所示:
优选地,所述社交网络媒体包括微博、微信、推特、facebook。
附图说明
图1是本发明所述自杀风险检测方法的示意图。
图2是本发明所提出的从用户的公开社交网络媒体中学习其真实想法的模型图。
图3是本发明所提出的基于用户的公开情绪波动推理出其真实情绪波动的模型图。
图4是本发明所提出的融合图2与图3模型进行自杀风险检测的模型图。
具体实施方式
以下结合附图详细阐述本发明。
以微博发帖为例对本发明进行说明性阐述。首先了解用户的正常帖子及其在树洞中隐藏评论之间的相关性,从用户公开的帖子中洞察用户内心的真实想法和情绪变化;然后,据此检测用户的自杀风险。图1给出本发明的自杀风险检测图,共分三个子任务。
子任务1:从用户的公开微博帖子揭示用户内心的真实想法。
利用一个GRU层、ResNet层与一个全连接层,分别对用户的发文和发图进行编码。
引入注意力机制,查找与树洞中隐藏注释相关的关键内容。子任务1的模型A旨在内容层面发现用户公开帖子与树洞中隐藏评论之间的隐含关联。
子任务2:捕捉用户的隐式情绪变化
子任务2旨在从情绪层面捕捉用户公开帖子和隐藏评论之间的相关性。这里,考虑其中主要情绪(快乐、爱、惊讶、生气、悲伤、焦急、厌恶)。
假设S表示公开微博句子集或树洞中的隐藏评论集。e(S,c)表示S显露的情绪类别为c的情绪程度值。S显露的七种情绪类别的情绪程度可以表示为E(S)。通过E(Sk+1)-E(Sk)来测量连续两周之间的情绪变化。
令OE[1,t]表示用户公开发文的微博帖子所显示的从第1周到第t周的情绪变化序列。子任务2需要推测树洞中的隐藏评论所显露的从第m周到第t周情绪变化序列这里,表示第(l-1)周到第l周的情绪变化(m+1≤l≤t),也即,
本发明采用seq2seq模型,根据公开的情绪变化序列生成一系列隐藏的情绪变化序列。
子任务3:集成以上两个模型检测自杀风险
基于以上两个模型(模型A与模型B),本发明设计了检测个体真实自杀意念的技术。多次使用预先训练好的模型A,获取用户从t周到n周的内心想法:(Ct,Ct+1,...,Cn)。
同样,多次使用预先训练好的模型B,导出用户从m周到n周的情绪变化序列:
(CE[m,t],CE[t,t+(t-m)],...,CE[n-(t-m),n]=(cem,m+1,cem+1,m+2,...,cen-1,n)。
子任务3的目标是集成以上两个结果,同时考虑用户的社交媒体特征,检测其自杀风险。
下面详细介绍三个子任务模型。
1.从用户的公开微博帖子捕捉用户内心的真实想法(子任务1)
1.1任务A
由于用户在开放微博和隐藏树洞中的负面情绪表达之间存在相关性,子任务1的目标是从开放的微博中发现用户的真实想法。
令OP[1,t]=(O1,O2,...,Ot)表示用户第1周到第t周的公开微博发文序列,Oi为其第i周所发的周帖子集合(1≤i≤t)。由于用户的帖子可能包含文本句子和可视图片,表示用户的每周帖子集为Oi=(OSi,OPi),其中,OSi是一组句子,OPi是在第i周发布的一组图片。子任务1旨在根据用户从第1周到第t周公开发布的周微博帖子序列OF[1,t],推测出其在树洞中发布的隐藏评论这些隐藏评论反映了用户的真实内心想法。子任务1可以表示为以下映射函数:
这里,t=26周,n=52周(相当于1年)。
1.2模型A
从用户的每周公开帖子集序列,学习隐藏评论分三步进行,如图2所示。
第一步:学习表示用户的周微博帖子集O=(OS,OP)
语言级表示
对于每周发文句子集合OS中的每个语言单词,通过文献中已有的自杀导向单词嵌入,使用300维向量表示它。OS因此可以转换为一个(k×300)的矩阵:--
周句子集合OSc的嵌入向量表示经过一个GRU层,可得到关于OS的基本文本表示:
hl=GRU1(xl,ht-1),
其中,hl-1与hl分别为第(l-1)个与第l个位置的隐藏状态(1≤l≤m)。
注意力向量Att和H的乘法生成周句子集OS的最终句子表示:
可视图片级表示
对于每周微博发布的图片集OP,采用一个34层的ResNet,抽取出一个(300×1)维的可视特征表示。以OP中所有图片的平均特征向量作为每周的视觉图片表示如果采用一个缺省图片,此图像通常显示在应用程序需要的图像位置。
合并语言级表示与可视图片级表示
第二步:学习表示用户从第1周到第t周的微博帖子集(O1,O2,...,Ot)
其中,hl-1与hl分别为第(l-1)个与第l个位置的隐藏状态(1≤l≤t)。
第三步:从用户t周的微博帖子集表示序列(O1,O2,...,Ot),生成一个虚拟句子
随着损失函数值的降低,两个值之间的相似度越来越近。
2.捕捉用户的真实情绪变化(子任务2)
2.1目标B
子任务1从内容层次,学习理解用户公开的微博帖子与真实隐藏想法之间的相关性,子任务2旨在从公开的微博帖子显示出的情绪,来了解用户真实的内心情绪。
基于用户公开的微博帖子直接捕捉用户的真实感受面临两个困难。首先,由于社交媒体的自由特性,用户在社交媒体上的语言表达通常是隐含的、不确定的。其次,一些情绪(例如,喜悦,爱,惊讶,愤怒,悲伤,焦虑,憎恨)可能会从用户的公开帖子中交织出来,
阻止了解用户真实的内心情绪。为解决此问题,聚焦用户公开微博所透露出的情绪变化,并透过这些变化来感知用户的自杀风险。
在给出子任务2的正式定义之前,首先定义从用户的每周帖子集中揭示的每周情绪的测量以及连续两周之间的情绪变化。考虑如下七类情绪:
EC={joy″,love,surprised,angry,sorrow,anxiety,hate″}.。
为了测量不同类别情绪的强度,采用了汉语情绪词典DUTIR,它包含了这7类情绪相关的共27466个词。情绪类别中的每个单词都有一个强度分数,其中9表示最高强度,1表示最低强度,即EI={1,3,57,9}。假设函数WordSet(c,i)返回DUTIR词典中强度分数为i的类别为c的单词集,其中,(c∈EC),(i∈EI)。
令S表示在某个星期发布的一组语言句子。在下面的定义中,S是公开微博句子集或在树洞里发布的隐藏评论集。
定义2::S所揭示的七种情绪类别中的情绪程度可呈现在一个7维向量中
其中,(ci∈EC)。
根据周微博句子集呈现的情绪程度定义,可以计算出连续两周之间的情绪变化。
定义3:令Sk与Sk+1为第k周与第(k+1)周的微博句子集。Sk与Sk+1之间的情绪变化定义为:
其中,(1≤k≤n-1),(ci∈EC)。
根据上述定义,从用户t周的微博句子集序列(OS1,OS2,…,OSt),可以导出用户从第1周到第t周的情绪变化序列:
CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n]
其中,
这里,t=26周,m=23周,n=52周(1年)。
2.2模型B
图3为模型B的encoder与decoder。
为便于解释,将输入的情绪变化序列表示为OE[1,t]=(oe1,2,oe2,3,…,ost-1,t)。为了将此输入序列编码为一个内部表示,将其输入到一个GRU层GRU3:
(cem,m+1,cem+1,m+2,…,cet-1,t)(1≤m≤t-1):
(cel,l+1,h′l,l+1)=GPU4(inl,l+1,h′l-1,l)
初始时,(l=m)。解码器的h′m-1,m设置为上述编码器的最后一个隐含状态,也即(h′m-1,m=ht-1,t).令解码器的cem-1,m为(0,0,…,0)。
GRU4之后,推导出用户从第m周到第t周的内在情绪变化序列
CE[m,t]=(cem,m+1,cem+1,m+2,…,cet-1,t)(1≤m≤l-1).
采用基于MSE的损失函数训练模型B.随着损失函数值下降,所产生的内部情绪变化序列CE[m,t]不断接近真实值CE[m,t]a:
3.集成两个模型,检测自杀风险(子任务3)
3.1目标C
模型A和模型B使能够在内容和情绪两个层面上捕捉公开微博帖子和树洞中隐藏评论之间的关联。
使用预先训练过的模型A来推导用户从第t周到第n周的内心想法:
同样,使用预先训练过的模型B来导出用户从第m周到第n周的情绪变化序列:
(CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n])=(cem,m+1,cem+1,m+2,…,cen-1,n)
子任务3的目标是综合上述两类结果,同时考虑用户的社交媒体特征,实行自杀风险检测。
3.2模型C
除了了解用户隐藏的想法和情绪变化外,还将用户的个人资料信息profile,包括性别、网名长度、发帖数量、发帖时间分布、关注人数、关注用户数等纳入自杀风险分析。通过一个12维向量来表示用户的profile。
最终,通过一个全连接层,可以得出一个用户是否具有自杀风险的可能性大小:
Claims (5)
1.一种基于社交网络媒体发帖信息的自杀风险检测方法,其特征在于,包括以下步骤:
步骤1、了解用户在社交网络媒体中的公开发帖及其在树洞中的隐藏评论之间的相关性,从用户的公开发帖中洞察用户内心的真实想法和情绪变化;具体包括以下子步骤:
子步骤S11:根据用户在社交网络媒体的公开发帖揭示用户内心的真实想法,令OP[1,t]=(O1,O2,...,Ot)表示用户第1周到第t周在社交网络媒体的公开发帖的发文序列,Oi为其第i周所发的周帖子集合,其中1≤i≤t;用户公开发帖包含文本句子和可视图片,将用户的每周发帖子集表示为Oi=(OSi,OPi),其中,OSi是一组句子,OPi是在第i周发布的一组图片;将用户在树洞中发布的隐藏评论表示为该隐藏评论反映了用户的真实内心想法;OP[1,t]与满足以下映射函数:
将大小为t的滑动窗口应用于从第1周到第n周的用户公开发帖帖子集OP[1,t],OP[2,t+1],...,OP[n-t+1,n],则生成了一系列基于Bert的隐藏注释其中, 其中,t=26周,n=52周,相当于1年;
子步骤S12:捕捉用户隐式情绪变化,首先定义从用户的每周帖子集中揭示的每周情绪的测量以及连续两周之间的情绪变化,将用户的情绪定义为快乐、爱、惊讶、生气、悲伤、焦急、厌恶共7类,表示为:
EC={joy″,love,surprised,angry,sorrow,anxiety,hate″}.
采用了汉语情绪词典DUTIR,获得了包含了所述7类情绪相关的共27466个词,将每一个词对应一个强度分数,其中用9表示最高强度,1表示最低强度,即EI={1,3,5,7,9};
假设函数WordSet(c,i)返回DUTIR词典中强度分数为i的类别为c的单词集,其中,(c∈EC),(i∈EI);
令S表示在用户在某周发布的一组语言句子,即S为用户在社交网络媒体的公开发帖的句子集或在树洞里发布的隐藏评论集,则,:从S中揭示的类别为c∈EC的情绪程度值是情绪类别c中的词的总情绪强度,表示为:
将S所表示的七种情绪类别中的情绪程度呈现在一个7维向量中,表示为:
其中,ci∈EC,根据周公开发帖句子集所呈现的情绪程度,计算连续两周之间的情绪变化;
令Sk与Sk+1为第k周与第(k+1)周的公开发帖句子集,则Sk与Sk+1之间的情绪变化定义为:
其中,1≤k≤n-1,ci∈EC;
根据用户第t周的公开发帖句子集序列(OS1,OS2,…,OSt),导出用户从第1周到第t周的情绪变化序列:
对序列OE[1,t],OE[4,t+3],…,OE[n-t+1,n]应用大小为t和滑动步幅为3周的滑动窗口,产生对应的序列如下所示:
CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n],
2.根据权利要求1所述的一种基于社交网络媒体发帖信息的自杀风险检测方法,其特征在于,所述步骤1中通过构建模型A来实现子步骤S11,具体包括以下三步:
第一步:学习表示用户的周社交网络媒体发帖句子集O=(OS,OP),使用已知的自杀导向单词或词语嵌入,用300维向量表示所述发帖句子集O=(OS,OP),所述OS被转换成k×300的矩阵,如下所示:
hl=GRU1(xl,hl-1),
其中,hl-1与hl分别为第(l-1)个与第l个位置的隐藏状态(1≤l≤m);
注意力向量Att和H的乘法生成OS的最终句子,表示为:
对于用户的周社交网络媒体发帖中的图片表示为图片集OP,采用一个34层的ResNet,抽取出一个(300×1)维的可视特征表示,以OP中所有图片的平均特征向量作为每周的视觉图片表示 如果则采用一个缺省图片,此图像显示在应用程序所需要的图像位置;
第二步:学习表示用户从第1周到第t周的社交网络媒体发帖集(O1,O2,...,Ot),具体为:
其中,hl-1与hl分别为第(l-1)个与第l个位置的隐藏状态(1≤l≤t);
3.根据权利要求2所述的一种基于社交网络媒体发帖信息的自杀风险检测方法,其特征在于,通过构建训练模型B来实现子步骤S12,采用神经编解码方法,将输入的开放式情绪变化序列OE[1,t],编码成中间的内部向量表示,然后解码内部表示以生成隐藏的情绪变化序列CE[m,t],具体包括以下两步:
初始时,h0,1=(0,0,…,0),通过GRU3编码,获得OE[1,t]的内部序列,表示为如下所示:
第二步:将解码为输出序列CE[m,t],具体为,在编码器最后一个隐藏状态ht-1,t的基础上,通过另一个带有注意力机制的GRU层GRU4,对内部表示进行解码,生成输出序列CE[m,t],表示为(cem,m+1,cem+1,m+2,…,cet-1,t),1≤m≤t-1,如下式所示:
(cel,l+1,hl,l+1)=GRU4(inl,l+1,h′l-1,l),
其中,为GRU4第(l-1)个与第l个位置的隐含状态,为第l个位置的输入与输出状态,为学得的注意力向量, 以及为训练参数(1≤m≤t-1),输入值inl,l+1是基于先前的输出、先前的隐藏状态值,以及与(t-1)维编码器输出相关的注意力向量计算所得;
初始时,l=m,解码器的h′m-1,m设置为所述编码器的最后一个隐含状态,即h′m-1,m=ht-1,t,令解码器的cem-1,m为(0,0,…,0),则满足如下关系:
在经过GRU4之后,推导出用户从第m周到第t周的内在情绪变化序列CE[m,t]=(cem,m+1,cem+1,m+2,…,cet-1,t),其中,1≤m≤t-1;
所构建的训练模型B采用基于MSE的损失函数,随着损失函数值下降,所产生的内部情绪变化序列CE[m,t]不断接近真实值CE[m,t]a,如下式所示:
4.根据权利要求3所述的一种基于社交网络媒体发帖信息的自杀风险检测方法,其特征在于,所述步骤2中将GRU5和GRU6应用于两个衍生序列,分别提取与自杀意念相关的关键线索,令与为GRU5和GRU6的最终输出,分别表示第52周隐藏评论表示,以及用户第51周与第52周之间的情绪变化;
将用户的个人资料信息profile,包括性别、网名长度、发帖数量、发帖时间分布、关注人数、关注用户数,纳入自杀风险分析,通过一个12维向量来表示用户的profile;
通过一个全连接层,判断得出一个用户是否具有自杀风险的可能性大小,如下所示:
[y1,y0]=Softmax(U×W8+b8),
5.根据权利要求1-4任一所述的一种基于社交网络媒体发帖信息的自杀风险检测方法,其特征在于,所述社交网络媒体包括微博、微信、推特、facebook。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110090702.3A CN112766747A (zh) | 2021-01-22 | 2021-01-22 | 一种基于社交网络媒体发帖信息的自杀风险检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110090702.3A CN112766747A (zh) | 2021-01-22 | 2021-01-22 | 一种基于社交网络媒体发帖信息的自杀风险检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112766747A true CN112766747A (zh) | 2021-05-07 |
Family
ID=75706764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110090702.3A Pending CN112766747A (zh) | 2021-01-22 | 2021-01-22 | 一种基于社交网络媒体发帖信息的自杀风险检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766747A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130275352A1 (en) * | 2012-04-17 | 2013-10-17 | The Mitre Corporation | Identifying and Forecasting Shifts in the Mood of Social Media Users |
CN106919673A (zh) * | 2017-02-21 | 2017-07-04 | 浙江工商大学 | 基于深度学习的文本情绪分析系统 |
CN109671487A (zh) * | 2019-02-25 | 2019-04-23 | 上海海事大学 | 一种社交媒体用户心理危机预警方法 |
CN109918556A (zh) * | 2019-03-08 | 2019-06-21 | 北京工业大学 | 一种综合微博用户社交关系和微博文本特征抑郁情绪识别方法 |
CN110489552A (zh) * | 2019-07-17 | 2019-11-22 | 清华大学 | 一种微博用户自杀风险检测方法及装置 |
CN110742625A (zh) * | 2019-10-23 | 2020-02-04 | 西安交通大学 | 一种基于社交网络数据的用户周期性心理压力检测方法 |
CN111326222A (zh) * | 2020-01-21 | 2020-06-23 | 北京华峰创业科技有限公司 | 一种基于用户日记的情绪分析方法、装置及系统 |
-
2021
- 2021-01-22 CN CN202110090702.3A patent/CN112766747A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130275352A1 (en) * | 2012-04-17 | 2013-10-17 | The Mitre Corporation | Identifying and Forecasting Shifts in the Mood of Social Media Users |
CN106919673A (zh) * | 2017-02-21 | 2017-07-04 | 浙江工商大学 | 基于深度学习的文本情绪分析系统 |
CN109671487A (zh) * | 2019-02-25 | 2019-04-23 | 上海海事大学 | 一种社交媒体用户心理危机预警方法 |
CN109918556A (zh) * | 2019-03-08 | 2019-06-21 | 北京工业大学 | 一种综合微博用户社交关系和微博文本特征抑郁情绪识别方法 |
CN110489552A (zh) * | 2019-07-17 | 2019-11-22 | 清华大学 | 一种微博用户自杀风险检测方法及装置 |
CN110742625A (zh) * | 2019-10-23 | 2020-02-04 | 西安交通大学 | 一种基于社交网络数据的用户周期性心理压力检测方法 |
CN111326222A (zh) * | 2020-01-21 | 2020-06-23 | 北京华峰创业科技有限公司 | 一种基于用户日记的情绪分析方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bandi et al. | The power of generative ai: A review of requirements, models, input–output formats, evaluation metrics, and challenges | |
CN113420807A (zh) | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 | |
CN110825867B (zh) | 相似文本推荐方法、装置、电子设备和存储介质 | |
CN111460132B (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
CN114676704B (zh) | 句子情感分析方法、装置、设备以及存储介质 | |
CN112100406B (zh) | 数据处理方法、装置、设备以及介质 | |
CN112015862B (zh) | 基于层级多通道注意力的用户异常评论检测方法及系统 | |
CN110502626A (zh) | 一种基于卷积神经网络的方面级情感分析方法 | |
CN111966800A (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
AU2019101138A4 (en) | Voice interaction system for race games | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN110765769A (zh) | 一种基于子句特征的实体属性依赖情感分析方法 | |
CN111538841B (zh) | 基于知识互蒸馏的评论情感分析方法、装置及系统 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
Huang et al. | A window-based self-attention approach for sentence encoding | |
Fu et al. | A CNN-LSTM network with attention approach for learning universal sentence representation in embedded system | |
Fu et al. | Emotion Recognition in Conversations: A Survey Focusing on Context, Speaker Dependencies, and Fusion Methods | |
Chan et al. | Optimization of language models by word computing | |
Xu et al. | Research on Depression Tendency Detection Based on Image and Text Fusion | |
CN111368524A (zh) | 一种基于自注意力双向gru和svm的微博观点句识别方法 | |
Biswas et al. | A new ontology-based multimodal classification system for social media images of personality traits | |
CN115309894A (zh) | 一种基于对抗训练和tf-idf的文本情感分类方法及装置 | |
CN112766747A (zh) | 一种基于社交网络媒体发帖信息的自杀风险检测方法 | |
CN114419409A (zh) | 基于人脸识别和分层融合策略的多模态恶意迷因图检测方法 | |
Yuhan et al. | Sensory Features in Affective Analysis: A Study Based on Neural Network Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |