CN111428492A - 一种情境感知的深度学习算法 - Google Patents
一种情境感知的深度学习算法 Download PDFInfo
- Publication number
- CN111428492A CN111428492A CN202010027050.4A CN202010027050A CN111428492A CN 111428492 A CN111428492 A CN 111428492A CN 202010027050 A CN202010027050 A CN 202010027050A CN 111428492 A CN111428492 A CN 111428492A
- Authority
- CN
- China
- Prior art keywords
- topic
- probability
- text
- words
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种情境感知的深度学习算法,针对现有医疗舆情情感分析方法不足以区分复杂情感中细粒度的目标指向的问题,提出一种情境感知的深度学习算法——CAN‑LSTM,用于识别医疗舆情中不同认知层次的情感:首先利用LDA主题模型从大量的负面评论中挖掘民众在医疗事件中的不同认知层次;然后在各层次情境中不同评论的影响力的条件下,利用LSTM进行训练情感分析预测模型。本发明的有益效果在于:1.有效识别了医疗舆情中不同认知层次的情感;2.三种加权的CAN‑LSTM模型预测的准确率优于主流的LSTM算法。
Description
技术领域
本发明涉及一种算法,具体涉及一种情境感知的深度学习算法及模型。
背景技术
文本情感分析(简称SA)是指利用自然语言处理和文本挖掘的技术,对包 含个人情感、喜好、观点等主观性文本进行分析、挖掘的过程。当前情感分析 的方法主要包括基于词典规则的方法和基于机器学习的方法。基于词典规则的 方法首先需要构建情感词典,在此基础上提取出情感关键词,分析文本中的积 极、消极情感词频,判断文本的情感倾向。基于机器学习的方法首先需要人工 标注句子的情感类别,然后选择文本中的情感词,并将其矩阵化,用机器学习 的算法对其进行分类。
但上述两种方法都存在明显不足,一方面,基于词典的情感识别算法需要 构建特定领域的情感词典,这使得为每个领域注释大量数据的成本十分高昂, 已成为构建高质量系统的瓶颈;另一方面,基于机器学习的情感识别算法也在 很大程度上依赖于人工特征选择。因此,这两类方法对于复杂文本数据的情感 识别效果并不理想。而且在医疗事件的网络舆情中,负面倾向通常占据主导地 位,而现有两种方法却不足以区分复杂情感中细粒度的目标指向。如何设计出 精准预警的医疗舆情算法是目前医疗预警面临的一个主要挑战,吸引了学者的 广泛关注。
针对现有医疗舆情情感分析方法不足以区分复杂情感中细粒度的目标指向 的问题,提出一种情境感知的深度学习算法——CAN-LSTM,用于识别医疗舆情 中不同认知层次的情感。
发明内容
本申请首先利用LDA主题模型从大量的负面评论中挖掘民众在医疗事件中 的不同认知层次;然后在各层次情境中不同评论的影响力的条件下,利用LSTM 进行训练情感分析预测模型。
LDA主题模型的基本思想是将文档表示为若干主题的随机组合,而每个主题 又表示为若干词条的概率分布。给定文档集其中 dt(i=1,2,…,N)为若干词条组成的文本。假设主题集词条集 则LDA主题模型中的“文本-主题”概率分布θd和“主题-词 条”概率分布分别满足以α和β为超参数的Dirichlet分布,如式(1)和式(2) 所示。
(i)对于每一篇文档dt(i=1,2,…,N),生成L个主题的概率分布 θd=(θd,1,θd,2,…,θd,L),使得θd~P(·|α);
(iii)重复遍历文本di中的每一个词条wk(k=1,2,…,K),生成主题 wi(i=1,2,…,L)的概率分布,以及词条wk(k=1,2,…,K)的概率分布。
由此,我们可以分别得到“文本-主题”概率矩阵和“主题-词条”概率矩 阵。
利用LDA得到每个主题中对应的敏感词出现的概率,然后对训练数据进行 多种方式的权重分配,分别记为Wbase、Wpartial和Wtotal,其核心思想是借助过采样 含有主题特征的样本来实现权重分配。三种权重分配方式分别为:
(i)Wbase:把敏感词出现的概率值都相应的扩大100倍,然后向下取整, 把该值作为含有敏感词的句子采样的倍数。Wbase加权的数据集可以表示为:
(ii)Wpartial:按敏感词在该主题的所有词汇中所占的比例进行加权,敏感 词在其主题中出现的概率可以表示为:其中分子表示敏感词在该主题 出现的次数,分母表示该主题包含的所有词汇之和。Wpartial:加权数据集可以表 示为其中SWT表示主题中含有敏感词的句子。
(iii)Wtotal:依据该敏感词占文挡d中所有词汇的比例进行加权,敏感词 在其文本d中出现的概率可以表示为:其中分子表示敏感词在该文本 d中出现的次数,分母表示文本的所有词汇之和。Wtotal:加权数据集可以表示为 其中SWT表示主题中含有敏感词的句子。
在得到Wbase、Wpartial和Wtotal三种数据集之后便可构建三种加权的CAN-LSTM模 型,将其送入LSTM网络中学习,反复迭代,直至收敛,得到认知情感识别模型 即可对测试数据集进行预测。
本发明的有益效果在于:1.有效识别了医疗舆情中不同认知层次的情 感;2.三种加权的CAN-LSTM模型预测的准确率优于主流的LSTM算法。
附图说明
图1为算法流程图;
图2实施例中的“主题-敏感词”分布图;
图3 CAN-LSTM算法与LSTM算法预测准确率的比较。
具体实施方式
Step 5.构建三种CAN-LSTM加权数据集,即CAN-LSTM(Wbase)、CAN-LSTM(Wpartial) 和CAN-LSTM(Wtotal)。(1)CAN-LSTM(Wbase):对于中的每一个敏感 词sw,依据其在“主题-词条”概率分布矩阵出现的概率构建新的训练集增加含有关键词的句子的权重。(2) CAN-LSTM(Wpartial):依据敏感词在该主题中出现的概率 tft构造新的训练集(3)CAN-LSTM(Wtotal):依据敏感词在该文档中出现的概率df,构造新的训练集
Step 7.反向传播,先迭代计算每个时刻的误差项E,然后用梯度下降算法 更新权重W;
我们以2018年7月“XXX假疫苗事件”为实证案例。该事件曾在网上引起 广大网民关注,网民通过新闻跟帖、微博评论等方式积极发声,一些微博参与 讨论数达数十万,跟帖数万条。本文分别在新浪微博、新闻媒体(新浪网,搜 狐网,今日头条)、百度贴吧上爬取了1万2千多条数据,经过数据预处理后得 到11422条数据,其中训练数据10465条和测试数据957条。
实验环境及配置如表1所示。
表1实验环境及配置
在实验中,我们设置K=3,Base=100。本文实验的具体内容分为以下几个操作流程:
(1)由于医药造假事件舆情大多体现为负面情感,因而我们考虑从公众认 知的不同层次对其进行情感分析。首先用LDA主题提取算法聚焦舆情分析的 三个认知层次,并据此对相应文本数据进行不同认知情感的标注;
(2)利用LDA主题提取算法得到的先验知识,赋予LSTM的训练数据不同的 权重值,改善LSTM深度学习算法的训练。
(3)用三种加权的CAN-LSTM模型对测试数据集进行预测,比较与LSTM算 法的实验结果。
通过实验,我们提取出了3个认知层次的情感主题,分别为“监管情感主 题”、“企业罚款赔偿”、“个人刑法处置”。并在每个主题中选择出现概率排在前 十位的敏感词以可视化的形式展示出来。每个主题中敏感词的概率分布如图2 所示。
根据得到的主题及敏感词的概率分布,我们分别构建三种加权的 CAN-LSTM模型。
Wbase模型的构建过程如下:首先将LDA模型得到的“监管情感主题”、“企业 罚款赔偿”、“个人刑法处置”三个主题下的三十个敏感词的概率分别扩大100 倍,并把该值作为原始数据中包含三十个敏感词的句子采样的倍数,然后将采 样之后的句子加到原始数据中去,最终构成新的Wbase加权数据集。
Wpartial模型的构建过程如下:首先根据LDA模型得到的三个主题模型,将原 始数据集划分为相应的三个子数据集,这三个子数据集分别对应“监管情感主 题”、“企业罚款赔偿”、“个人刑法处置”三个主题。然后在每一个子数据集中, 分别求出包含敏感词的词条数占子数据集中总词条数的比例,并将该值作为子 数据集中包含敏感词的句子采样的倍数,最后将采样之后的句子与原始数据共 同构成新的Wpartial加权数据集。
Wtotal模型的构建与Wpartial模型的构建类似,但与Wpartial模型不同的是,Wtotal模型不需要划分子数据集,直接求出包含敏感词的词条数占原始数据集中总词 条数的比例,并、然后将该值作为原始数据集中包含敏感词的句子采样的倍数, 最后将采样之后的句子与原始数据共同构成新的Wtotal加权数据集。
构建好加权数据集之后,我们对比了不同权重分配下的准确率如图3所示, 分析结果如下:
(1)LSTM预测的准确率随着训练次数的增加有个先增后减的过程。准确率 最终稳定在84%~86%之间。
(2)Wbase的准确率随着训练次数的增加有很大幅度的提高,并且比LSTM的 准确率高。在第13轮训练中准确率最高,达到了89.92%。
(3)Wpartial的准确率比较稳定,准确率和LSTM相差无几,但比LSTM的准确 率波动小。
(4)Wtotal的准确率随着训练次数的增加有着缓慢的提升且优于LSTM。
从全局来看三种加权的CAN-LSTM在总体上比LSTM的准确率要高,且Wbase的 加权方法效果更加显著。因此,通过加权的情景感知方法可有效提高情感 识别的准确率。
Claims (1)
1.一种情境感知的深度学习算法,其特征在于,包括以下步骤:
(1)将文档表示为若干主题的随机组合,每个主题又表示为若干词条的概率分布,给定文档集其中di(i=1,2,…,N)为若干词条组成的文本,假设主题集词条集则LDA主题模型中的“文本-主题”概率分布θd和“主题-词条”概率分布分别满足以α和β为超参数的Dirichlet分布,如式(1)和式(2)所示:
(i)对于每一篇文档di(i=1,2,…,N),生成L个主题的概率分布θd=(θd,1,θd,2,…,θd,L),使得θd~P(·|α);
(iii)重复遍历文本di中的每一个词条wk(k=1,2,…,K),生成主题ti(i=1,2,…,L)的概率分布,以及词条wk(k=1,2,…,K)的概率分布;
由此分别得到“文本-主题”概率矩阵和“主题-词条”概率矩阵;
(2)利用LDA得到每个主题中对应的敏感词出现的概率,然后对训练数据进行多种方式的权重分配,分别记为Wbase、Wpartial和Wtotal:
三种权重分配方式分别为:
(i)Wbase:把敏感词出现的概率值都相应的扩大100倍,然后向下取整,把该值作为含有敏感词的句子采样的倍数,Wbase加权的数据集可以表示为:其中表示敏感词在“主题-词条”概率分布中的概率,SWT表示主题中含有敏感词的句子,表示原始数据集;
(ii)Wpartial:按敏感词在该主题的所有词汇中所占的比例进行加权,敏感词在其主题中出现的概率可以表示为:其中分子表示敏感词在该主题出现的次数,分母表示该主题包含的所有词汇之和,Wpartial:加权数据集可以表示为其中SWT表示主题中含有敏感词的句子;
(iii)Wtotal:依据该敏感词占文挡d中所有词汇的比例进行加权,敏感词在其文本d中出现的概率可以表示为:其中分子表示敏感词在该文本d中出现的次数,分母表示文本的所有词汇之和,Wtotal:加权数据集可以表示为其中SWT表示主题中含有敏感词的句子;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010027050.4A CN111428492B (zh) | 2020-01-10 | 2020-01-10 | 一种情境感知的深度学习算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010027050.4A CN111428492B (zh) | 2020-01-10 | 2020-01-10 | 一种情境感知的深度学习算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428492A true CN111428492A (zh) | 2020-07-17 |
CN111428492B CN111428492B (zh) | 2023-07-07 |
Family
ID=71547623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010027050.4A Active CN111428492B (zh) | 2020-01-10 | 2020-01-10 | 一种情境感知的深度学习算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428492B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122347A (zh) * | 2017-03-17 | 2017-09-01 | 清华大学 | 一种基于深度学习技术的新闻子事件预测方法及装置 |
CN107239529A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于深度学习的舆情热点类别划分方法 |
CN107491548A (zh) * | 2017-08-28 | 2017-12-19 | 武汉烽火普天信息技术有限公司 | 一种网络舆情文本信息推荐及可视化方法 |
CN108694200A (zh) * | 2017-04-10 | 2018-10-23 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN109446404A (zh) * | 2018-08-30 | 2019-03-08 | 中国电子进出口有限公司 | 一种网络舆情的情感极性分析方法和装置 |
CN109933804A (zh) * | 2019-03-27 | 2019-06-25 | 北京信息科技大学 | 融合主题信息与双向lstm的关键词抽取方法 |
CN110162594A (zh) * | 2019-01-04 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本数据的观点生成方法、装置及电子设备 |
CN110263153A (zh) * | 2019-05-15 | 2019-09-20 | 北京邮电大学 | 面向多源信息的混合文本话题发现方法 |
-
2020
- 2020-01-10 CN CN202010027050.4A patent/CN111428492B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122347A (zh) * | 2017-03-17 | 2017-09-01 | 清华大学 | 一种基于深度学习技术的新闻子事件预测方法及装置 |
CN108694200A (zh) * | 2017-04-10 | 2018-10-23 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN107239529A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于深度学习的舆情热点类别划分方法 |
CN107491548A (zh) * | 2017-08-28 | 2017-12-19 | 武汉烽火普天信息技术有限公司 | 一种网络舆情文本信息推荐及可视化方法 |
CN109446404A (zh) * | 2018-08-30 | 2019-03-08 | 中国电子进出口有限公司 | 一种网络舆情的情感极性分析方法和装置 |
CN110162594A (zh) * | 2019-01-04 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本数据的观点生成方法、装置及电子设备 |
CN109933804A (zh) * | 2019-03-27 | 2019-06-25 | 北京信息科技大学 | 融合主题信息与双向lstm的关键词抽取方法 |
CN110263153A (zh) * | 2019-05-15 | 2019-09-20 | 北京邮电大学 | 面向多源信息的混合文本话题发现方法 |
Non-Patent Citations (1)
Title |
---|
李青: "高校网络舆情话题热度趋势预测研究", 《中国优秀硕士学位论文全文数据库社会科学Ⅱ辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111428492B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
Srikanth et al. | Sentiment analysis on COVID-19 twitter data streams using deep belief neural networks | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
CN111626050A (zh) | 基于表情词典与情感常识的微博情感分析方法 | |
Zhang et al. | Exploring deep recurrent convolution neural networks for subjectivity classification | |
Sboev et al. | Deep learning network models to categorize texts according to author's gender and to identify text sentiment | |
Jia | Sentiment classification of microblog: A framework based on BERT and CNN with attention mechanism | |
Pai et al. | Real-time Twitter sentiment analytics and visualization using Vader | |
Baboo et al. | Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
Kancharapu et al. | A comparative study on word embedding techniques for suicide prediction on COVID-19 tweets using deep learning models | |
Mehendale et al. | Cyber bullying detection for Hindi-English language using machine learning | |
CN117291190A (zh) | 一种基于情感词典和lda主题模型的用户需求计算方法 | |
Susmitha et al. | Sentimental Analysis on Twitter Data using Supervised Algorithms | |
Wankhade et al. | Bi-directional lstm attention mechanism for sentiment classification | |
CN111428492B (zh) | 一种情境感知的深度学习算法 | |
Sani et al. | Sentiment Analysis of Hausa Language Tweet Using Machine Learning Approach | |
Ahmed et al. | Interpretable movie review analysis using machine learning and transformer models leveraging XAI | |
Zhang et al. | On the need of hierarchical emotion classification: Detecting the implicit feature using constrained topic model | |
Amsaprabhaa et al. | Deep spatio-temporal emotion analysis of geo-tagged tweets for predicting location based communal emotion during COVID-19 Lock-down | |
Kaushal et al. | A Survey of Various Sentiment Analysis Techniques of Whatsapp | |
Alruwais et al. | Modified arithmetic optimization algorithm with Deep Learning based data analytics for depression detection | |
Agrawal | Enriching affect analysis through emotion and sarcasm detection | |
Han et al. | Emotional Feature Extraction from Texts by Support Vector Machine with Local Multiple Kernel Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |