CN111522913A - 一种适用于长文本和短文本的情感分类方法 - Google Patents
一种适用于长文本和短文本的情感分类方法 Download PDFInfo
- Publication number
- CN111522913A CN111522913A CN202010303617.6A CN202010303617A CN111522913A CN 111522913 A CN111522913 A CN 111522913A CN 202010303617 A CN202010303617 A CN 202010303617A CN 111522913 A CN111522913 A CN 111522913A
- Authority
- CN
- China
- Prior art keywords
- emotion
- text
- dictionary
- classification method
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000010801 machine learning Methods 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000010276 construction Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种适用于长文本和短文本的情感分类方法,长文本和短文本的情感分类方法的步骤包括:收集、标注、构建情感词典、文本拆分、训练情感分析语料、情感分析模型训练、二次分析、加权计算、获取结果。本发明可取得如下技术效果:解决单个模型同时短文本和长文本同时分析的问题;解决了机器学习过拟合和欠拟合的问题;减少了分析模型调参时间和调参次数;满足特殊行业的情感分析需求。
Description
技术领域
本发明涉及计算机网络技术领域,确切地说是一种适用于长文本和短文本的情感分类方法。
背景技术
随着互联网技术的不断发展,人们的生活方式和工作方式发生了翻天覆地的变化。微博、微信等社交平台逐渐占领人们的生活,并呈现出爆发式的增长状态。随着时间的推移,使用网络的用户数量越来越多。
在大数据时代人们在门户、论坛、贴吧等区域留下了大量的信息,文本作为这类数据常见的载体,如果利用自然语言处理技术挖掘文本潜在的情感态度对于舆情分析、商品售后等各个方面有积极的推动作用。
目前主要的研究研究主要基于基于词典的情感分析方法,情感词典由人工编写,这类方法的缺陷在于情感词典带有作者的主管意愿,情感词典的客观性不足;另外情感词典不可能覆盖所有领域的所有的词汇,尤其是进入21世纪互联网词汇日新月异,很多涌入的新词汇不可能被编入词典中;基于机器学习情感分析的方法是未来发展的主流趋势,该方法以及日趋成熟,它的优势在于具有多种特征建模的能力,然而有效特征的筛选和训练语料的不足都会影响基于机器学习情感分析系统的性能。
发明内容
本发明要解决的技术问题是情感词典由人工编写,这类方法的缺陷在于情感词典带有作者的主管意愿,情感词典的客观性不足;另外情感词典不可能覆盖所有领域的所有的词汇,尤其是进入21世纪互联网词汇日新月异,很多涌入的新词汇不可能被编入词典中;基于机器学习情感分析的方法是未来发展的主流趋势,该方法以及日趋成熟,它的优势在于具有多种特征建模的能力,然而有效特征的筛选和训练语料的不足都会影响基于机器学习情感分析系统的性能。
为解决上述技术问题,本发明采用如下技术手段:
一种适用于长文本和短文本的情感分类方法,长文本和短文本的情感分类方法的步骤:
步骤1:收集、标注、构建情感词典:收集和标注的形式构建情感词典;
步骤2:文本拆分:按照文章-段落-句子-词义对文本进行拆分;
步骤3:训练情感分析语料:标识出文本的情感属性包含:正面、中性、负面;
步骤4:情感分析模型训练:基于机器学习利用标准的语料进行;
步骤5:二次分析:利用情感词典对于文本做二次分析,计算情感文本情感分值;
步骤6:加权计算:根据情感文本分值和模型训练结果加权计算;
步骤7:获取结果:得到情感概率值和情感分析结果。
本发明可取得如下技术效果:解决单个模型同时短文本和长文本同时分析的问题;解决了机器学习过拟合和欠拟合的问题;减少了分析模型调参时间和调参次数;满足特殊行业的情感分析需求。
作为优选,本发明更进一步的技术方案是:
所述的收集、标注、构建情感词典通过人工完成。
所述的收集、标注、构建情感词典中情感词典包含词汇、词性、情感强度、极性属性。
本发明要解决的技术问题是基于词典和机器学习提供一种适应能够高效分析长文本和短文本的情感分析方法;该方法通过基础的情感词库,对待分类的文本进行分词,结合词典分值、篇章结构、语义和句法等多种因素;同时训练部分语料数据进行机器学习模型训练。结合词典和模型的优势他有效解决了文本情感分析的弊端,解决了情感分析在长期发展过程中遇到的瓶颈问题。
附图说明
图1为本发明的结构框图。
具体实施方式
下面结合实施例,进一步说明本发明。
参见图1可知,本发明一种适用于长文本和短文本的情感分类方法,长文本和短文本的情感分类方法的步骤:
步骤1:收集、标注、构建情感词典:收集和标注的形式构建情感词典;收集、标注、构建情感词典通过人工完成,收集、标注、构建情感词典中情感词典包含词汇、词性、情感强度、极性属性,步骤2:文本拆分:按照文章-段落-句子-词义对文本进行拆分;步骤3:训练情感分析语料:标识出文本的情感属性包含:正面、中性、负面;步骤4:情感分析模型训练:基于机器学习利用标准的语料进行;步骤5:二次分析:利用情感词典对于文本做二次分析,计算情感文本情感分值;步骤6:加权计算:根据情感文本分值和模型训练结果加权计算;步骤7:获取结果:得到情感概率值和情感分析结果。
本发明的关键点为:机器学习引入情感词库分析机制;词库分析值和模型分析值权重系数的占比;全行业通用情感分析词库;模型训练和词库算法相结合的整体流程。
由于以上所述仅为本发明的具体实施方式,但本发明的保护不限于此,任何本技术领域的技术人员所能想到本技术方案技术特征的等同的变化或替代,都涵盖在本发明的保护范围之内。
Claims (3)
1.一种适用于长文本和短文本的情感分类方法,其特征在于所述的长文本和短文本的情感分类方法的步骤:
步骤1:收集、标注、构建情感词典:收集和标注的形式构建情感词典;
步骤2:文本拆分:按照文章-段落-句子-词义对文本进行拆分;
步骤3:训练情感分析语料:标识出文本的情感属性包含:正面、中性、负面;
步骤4:情感分析模型训练:基于机器学习利用标准的语料进行;
步骤5:二次分析:利用情感词典对于文本做二次分析,计算情感文本情感分值;
步骤6:加权计算:根据情感文本分值和模型训练结果加权计算;
步骤7:获取结果:得到情感概率值和情感分析结果。
2.根据权利要求1所述的一种适用于长文本和短文本的情感分类方法,其特征在于:所述的收集、标注、构建情感词典通过人工完成。
3.根据权利要求1所述的一种适用于长文本和短文本的情感分类方法,其特征在于:所述的收集、标注、构建情感词典中情感词典包含词汇、词性、情感强度、极性属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010303617.6A CN111522913A (zh) | 2020-04-16 | 2020-04-16 | 一种适用于长文本和短文本的情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010303617.6A CN111522913A (zh) | 2020-04-16 | 2020-04-16 | 一种适用于长文本和短文本的情感分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111522913A true CN111522913A (zh) | 2020-08-11 |
Family
ID=71902724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010303617.6A Pending CN111522913A (zh) | 2020-04-16 | 2020-04-16 | 一种适用于长文本和短文本的情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111522913A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985223A (zh) * | 2020-08-25 | 2020-11-24 | 武汉长江通信产业集团股份有限公司 | 一种基于长短记忆网络和情感词典结合的情感计算方法 |
CN112307771A (zh) * | 2020-10-29 | 2021-02-02 | 平安科技(深圳)有限公司 | 基于情感分析的课程分析方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331506A (zh) * | 2014-11-20 | 2015-02-04 | 北京理工大学 | 一种面向双语微博文本的多类情感分析方法与系统 |
CN106503049A (zh) * | 2016-09-22 | 2017-03-15 | 南京理工大学 | 一种基于svm融合多种情感资源的微博情感分类方法 |
CN107038249A (zh) * | 2017-04-28 | 2017-08-11 | 安徽博约信息科技股份有限公司 | 基于词典的网络舆情信息情感分类方法 |
CN108108468A (zh) * | 2017-12-29 | 2018-06-01 | 华中科技大学鄂州工业技术研究院 | 一种基于概念和文本情感的短文本情感分析方法和装置 |
CN108388608A (zh) * | 2018-02-06 | 2018-08-10 | 金蝶软件(中国)有限公司 | 基于文本感知的情感反馈方法、装置、计算机设备和存储介质 |
CN108460009A (zh) * | 2017-12-14 | 2018-08-28 | 中山大学 | 嵌入情感词典的注意力机制循环神经网络文本情感分析法 |
CN109376251A (zh) * | 2018-09-25 | 2019-02-22 | 南京大学 | 一种基于词向量学习模型的微博中文情感词典构建方法 |
-
2020
- 2020-04-16 CN CN202010303617.6A patent/CN111522913A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331506A (zh) * | 2014-11-20 | 2015-02-04 | 北京理工大学 | 一种面向双语微博文本的多类情感分析方法与系统 |
CN106503049A (zh) * | 2016-09-22 | 2017-03-15 | 南京理工大学 | 一种基于svm融合多种情感资源的微博情感分类方法 |
CN107038249A (zh) * | 2017-04-28 | 2017-08-11 | 安徽博约信息科技股份有限公司 | 基于词典的网络舆情信息情感分类方法 |
CN108460009A (zh) * | 2017-12-14 | 2018-08-28 | 中山大学 | 嵌入情感词典的注意力机制循环神经网络文本情感分析法 |
CN108108468A (zh) * | 2017-12-29 | 2018-06-01 | 华中科技大学鄂州工业技术研究院 | 一种基于概念和文本情感的短文本情感分析方法和装置 |
CN108388608A (zh) * | 2018-02-06 | 2018-08-10 | 金蝶软件(中国)有限公司 | 基于文本感知的情感反馈方法、装置、计算机设备和存储介质 |
CN109376251A (zh) * | 2018-09-25 | 2019-02-22 | 南京大学 | 一种基于词向量学习模型的微博中文情感词典构建方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985223A (zh) * | 2020-08-25 | 2020-11-24 | 武汉长江通信产业集团股份有限公司 | 一种基于长短记忆网络和情感词典结合的情感计算方法 |
CN112307771A (zh) * | 2020-10-29 | 2021-02-02 | 平安科技(深圳)有限公司 | 基于情感分析的课程分析方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919673B (zh) | 基于深度学习的文本情绪分析系统 | |
CN110807328B (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
CN104137102B (zh) | 非事实型询问应答系统以及方法 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
KR102416684B1 (ko) | 인공지능 기반 이력서/구인요청서 작성 지원 시스템 | |
CN111597350A (zh) | 基于深度学习的轨道交通事件知识图谱构建方法 | |
CN111309891B (zh) | 一种阅读机器人进行自动问答的系统及其应用方法 | |
CN110717045A (zh) | 一种基于信访信件概况的信件要素自动提取方法 | |
CN112183059A (zh) | 一种中文结构化事件抽取方法 | |
CN110287298A (zh) | 一种基于问句主题的自动问答答案选择方法 | |
CN115687634A (zh) | 一种结合先验知识的金融实体关系抽取系统及方法 | |
CN111522913A (zh) | 一种适用于长文本和短文本的情感分类方法 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN112434161A (zh) | 一种采用双向长短期记忆网络的方面级情感分析方法 | |
CN117851871A (zh) | 一种境外互联网社交阵地多模态数据识别方法 | |
CN108536781A (zh) | 一种社交网络情绪焦点的挖掘方法及系统 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN112200674B (zh) | 一种证券市场情绪指数智能计算信息系统 | |
CN113869040A (zh) | 一种电网调度的语音识别方法 | |
Ali et al. | K-means clustering to improve the accuracy of decision tree response classification | |
CN111985223A (zh) | 一种基于长短记忆网络和情感词典结合的情感计算方法 | |
CN116795979A (zh) | 一种基于触发词增强的标签信号指导事件检测方法 | |
CN106021225A (zh) | 一种基于汉语简单名词短语的汉语最长名词短语识别方法 | |
CN116186422A (zh) | 基于社交媒体和人工智能的疾病相关舆情分析系统 | |
CN109919657A (zh) | 用户需求信息的获取方法、装置、存储介质及语音设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200811 |