CN112966514A - 一种基于义原的自然语言情感分类方法 - Google Patents

一种基于义原的自然语言情感分类方法 Download PDF

Info

Publication number
CN112966514A
CN112966514A CN202110272643.1A CN202110272643A CN112966514A CN 112966514 A CN112966514 A CN 112966514A CN 202110272643 A CN202110272643 A CN 202110272643A CN 112966514 A CN112966514 A CN 112966514A
Authority
CN
China
Prior art keywords
natural language
word
emotion classification
text
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110272643.1A
Other languages
English (en)
Inventor
辛欣
王艳平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110272643.1A priority Critical patent/CN112966514A/zh
Publication of CN112966514A publication Critical patent/CN112966514A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于义原的自然语言情感分类方法,属于自然语言处理中的信息分类技术领域。所述方法先对HowNet知识库中的义原进行正向和负向极性的标注;再利用HowNet知识库中的词义和义原的对应信息来对知识库中的所有词进行远程监督的标注,从而获取词或短语的正负极性的关系的字典;然后将数据集中的文本与包含正负极关系的字典进行匹配,获取远程监督的数据集;然后设计一个监督的模型进行训练,从而实现对文本情感分类的任务。由于引入了义原对情感进行分类,缓解了其中极性词指向不明显的文本进行情感分类的困难。所述情感分类方法在测试集和任意给定自然语言文本中都能很好的完成对情感的正负向分类任务。

Description

一种基于义原的自然语言情感分类方法
技术领域
本发明涉及一种基于义原的自然语言情感分类方法,属于自然语言处理中的信息分类技术领域。
背景技术
自然语言情感分类任务是给定一段自然语言文本,返回这个自然语言文本正负向倾向。例如“读书是一件很有趣的事情”,这句话传递出的是一种正向的情感倾向。
自然语言情感分类是是近年来学术界和工业界研究的热点。它能够帮助用户快速的分析并且提取相关的带有情感色彩的评价信息。这与传统的文本分类任务不同,传统的文本分类主要研究的是文本中的客观内容,而情感分类主要针对的是文本中的主观内容,能够输出是否支持某种观点的信息。
现有的自然语言情感分类方法,主要是通过构建极性词表的方法来实现情感分类,由于一些文本中的词的正负极性不明显,导致这样的方法难以对其进行分类。为了缓解这样的问题,本发明通过启发式的假设句子中的义原信息的正负向极性是文本中蕴含情感信息的重要特征,将文本映射到义原所在空间中,从而利用义原本身所包含的极性信息来进行情感分类。提出了一种基于义原的自然语言情感分类方法。
我们提出的一种基于义原的自然语言情感分类方法。先对HowNet知识库中的义原进行正向和负向极性的标注;再利用知识库中的词义和义原的对应信息来获取正负极性的关系的字典和远程监督的数据集;然后有监督的训练一个情感分类任务的模型进行训练。所述情感分类方法在测试集和任意给定自然语言文本中都能很好的完成对情感的正负向分类任务。
发明内容
本发明的目的在于针对现有的情感分类方法中极性词指向不明显的问题,提出了一种基于义原的自然语言情感分类方法。
所述基于义原的自然语言情感分类方法,包括识别句子中触发词和实体关系抽取,具体包括以下步骤:
1.一种融合触发词识别特征的实体关系抽取方法,包括包括义原正负向极性的标注和文本情感分类,具体包括以下步骤:
步骤1:提取义原的极性特征;
步骤1.1:对HowNet知识库中所有义原标注其属于正向极性还是负向极性,输出标注后的义原列表L:Si→Yi
其中Yi的取值为0或1,分别表示该词极性为负向和正向;
步骤1.2:将步骤1.1输出的义原列表L与HowNet知识库中每个词的中心义原Si进行匹配,输出将词映射到正负向极性的字典D:Ci→Yi
步骤2:将数据集中的文本进行分词;
步骤2.1:使用Stanford分词开源工具将句子进行分词;
步骤2.2:将分词后的句子进行正负向情感标注,从而构建训练集样本,具体为:如果句子中只有一个分词后的词能与字典D中的某个词Ci匹配,则将该文本标记为当前Ci对应的Yi;如果句子中有多个分词后的词能与字典中的某个词Ci匹配,则将该文本标记为占比更高的Yi;如果句子中没有分词后的词能与字典中的某个词Ci匹配,则将当前文本从训练集中移至测试集中;
步骤2.3:获取训练集输入,具体为:将训练集中的每个样本(Xi,Yi)中的Xi使用BERT的预训练词向量对整个文本进行编码,得到的句子向量
Figure BDA0002975116290000031
作为模型的输入;
步骤3:
步骤3.1:将步骤1.5中获取到的输入句子向量ei联合对应文本的标签Yi输入到机器学习模型中进行特征提取和目标标签的学习;
步骤3.2:对训练集中的所有训练样本进行N次迭代训练,输出被训练好的基于义原的自然语言情感分类模型;
步骤4:使用步骤3.2输出的自然语言情感分类模型识别句子中两个实体之间的关系;任意输入一句自然语言的句子到被训练好的情感分类模型中,输出该自然语言是属于正向情感还是负向情感。
有益效果
本发明是一种基于义原的自然语言情感分类方法,与现有情感分类方法相比,具有如下有益效果:
所述方法缓解了现有情感分类方法对极性词指向不明显的问题,提出了一种基于义原的自然语言情感分类方法,所述情感分类方法在测试集和任意给定自然语言文本中都能很好的完成对情感的正负向分类任务;
附图说明
图1是本发明一种基于义原的自然语言情感分类方法的流程图。
具体实施方式
下面结合具体实施例1以及附图1对本发明一种基于义原的自然语言情感分类方法进行细致阐述。
实施例1
本实施例阐述了本发明所述的一种基于义原的自然语言情感分类方法中的具体实施。
图1所示,是所述方法的流程图。
步骤1:提取义原的极性特征;
步骤1.1:对HowNet知识库中所有义原标注其属于正向极性还是负向极性,输出标注后的义原列表L:Si→Yi;例如对于“interesting|趣”和“boring|乏”两个不同的义原,“pinteresting|趣”被标注为正向特征,即1;“boring|乏”被标注为负向特征,即0;
步骤1.2:将步骤1.1输出的义原列表L与HowNet知识库中每个词的中心义原Si进行匹配,输出将词映射到正负向极性的字典D:Ci→Yi;例如知识库中的词“有趣”的中心义原为“interesting|趣”,则“有趣”这个词将被标注为正向特征。
步骤2:将数据集中的文本进行分词;
步骤2.1:使用Stanford分词开源工具将句子进行分词;例如句子“读书是一件很有趣的事情”,分词后为“读书/是/一/件/很/有趣/的/事情”;
步骤2.2:将分词后的句子进行正负向情感标注,从而构建训练集样本。例如经过步骤2.1分词过的句子“读书/是/一/件/很/有趣/的/事情”,其中只有一个词“有趣”能够和字典D中的词进行匹配,于是此样本被视为正向特征,标注为1;
步骤2.3:获取训练集输入。例如,将训练集中的样本(“读书是一件很有趣的事情”,1)使用BERT的预训练词向量对整个文本进行编码,得到的句子向量ei作为模型的输入;
步骤3:进行模型训练;
步骤3.1:将步骤1.5中获取到的输入句子向量ei联合对应文本的标签1输入到机器学习模型中,比如BiLSTM深度神经网络,进行特征提取和目标标签的学习;
步骤3.2:对训练集中的所有训练样本进行N次迭代训练,例如可以通过随机梯度下降方法进行模型参数的更新,输出被训练好的基于义原的自然语言情感分类模型;
步骤4:使用步骤3.2输出的自然语言情感分类模型识别句子中两个实体之间的关系;任意输入一句自然语言的句子到被训练好的情感分类模型中,输出该自然语言是属于正向情感还是负向情感。例如,输入“读书是一件很有趣的事情”这段自然语言文本,被训练好的情感分类抽取模型输出的。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (5)

1.一种基于义原的自然语言情感分类方法,其特征在于:包括义原正负向极性的标注和文本情感分类,具体包括以下步骤:
步骤1:提取义原的极性特征;
步骤1.1:对HowNet知识库中所有义原标注其属于正向极性还是负向极性,输出标注后的义原列表L:Si→Yi
其中Yi的取值为0或1,分别表示该词极性为负向和正向;
步骤1.2:将步骤1.1输出的义原列表L与HowNet知识库中每个词的中心义原Si进行匹配,输出将词映射到正负向极性的字典D:Ci→Yi
步骤2:将数据集中的文本进行分词;
步骤2.1:使用Stanford分词开源工具将句子进行分词;
步骤2.2:将分词后的句子进行正负向情感标注,从而构建训练集样本,具体为:如果句子中只有一个分词后的词能与字典D中的某个词Ci匹配,则将该文本标记为当前Ci对应的Yi;如果句子中有多个分词后的词能与字典中的某个词Ci匹配,则将该文本标记为占比更高的Yi;如果句子中没有分词后的词能与字典中的某个词Ci匹配,则将当前文本从训练集中移至测试集中;
步骤2.3:获取训练集输入,具体为:将训练集中的每个样本(Xi,Yi)中的Xi使用BERT的预训练词向量对整个文本进行编码,得到的句子向量
Figure FDA0002975116280000011
作为模型的输入;
步骤3:进行模型训练;
步骤3.1:将步骤1.5中获取到的输入句子向量ei联合对应文本的标签Yi输入到机器学习模型中进行特征提取和目标标签的学习;
步骤3.2:对训练集中的所有训练样本进行N次迭代训练,输出被训练好的基于义原的自然语言情感分类模型;
步骤4:使用步骤3.2输出的自然语言情感分类模型识别句子中两个实体之间的关系;任意输入一句自然语言的句子到被训练好的情感分类模型中,输出该自然语言是属于正向情感还是负向情感。
2.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法,其特征在于:步骤1.2具体包括以下子步骤:
步骤1.2.1:从HowNet知识库中取出一个词Ci与其对应的中心义原Si,在标注后的义原列表L中查找的当前词的中心义原Si,若Si=0,Yi=0;若Si=1,Yi=1,,从而得到字典D。
3.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法,其特征在于:步骤1.2中i的取值范围是1到N,N是训练集中样本的总数。
4.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法,其特征在于:步骤3.1中,ei经过sigmoid(·)函数将值映射到(0,1)区间。
5.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法,其特征在于:步骤4中,任意输入一句自然语言的句子经过训练好的逻辑回归模型后的阈值为0.5。
CN202110272643.1A 2021-03-13 2021-03-13 一种基于义原的自然语言情感分类方法 Pending CN112966514A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110272643.1A CN112966514A (zh) 2021-03-13 2021-03-13 一种基于义原的自然语言情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110272643.1A CN112966514A (zh) 2021-03-13 2021-03-13 一种基于义原的自然语言情感分类方法

Publications (1)

Publication Number Publication Date
CN112966514A true CN112966514A (zh) 2021-06-15

Family

ID=76277560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110272643.1A Pending CN112966514A (zh) 2021-03-13 2021-03-13 一种基于义原的自然语言情感分类方法

Country Status (1)

Country Link
CN (1) CN112966514A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163191A (zh) * 2011-05-11 2011-08-24 北京航空航天大学 一种基于HowNet的短文本情感识别方法
CN104331506A (zh) * 2014-11-20 2015-02-04 北京理工大学 一种面向双语微博文本的多类情感分析方法与系统
US20180032507A1 (en) * 2016-07-28 2018-02-01 Abbyy Infopoisk Llc Aspect-based sentiment analysis and report generation using machine learning methods
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理系统及方法
WO2020125445A1 (zh) * 2018-12-18 2020-06-25 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163191A (zh) * 2011-05-11 2011-08-24 北京航空航天大学 一种基于HowNet的短文本情感识别方法
CN104331506A (zh) * 2014-11-20 2015-02-04 北京理工大学 一种面向双语微博文本的多类情感分析方法与系统
US20180032507A1 (en) * 2016-07-28 2018-02-01 Abbyy Infopoisk Llc Aspect-based sentiment analysis and report generation using machine learning methods
WO2020125445A1 (zh) * 2018-12-18 2020-06-25 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法、设备及介质
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛兴荣等: "基于词典的文本极性计算及分类研究", 《网络安全技术与应用》 *

Similar Documents

Publication Publication Date Title
Ishaq et al. Aspect-based sentiment analysis using a hybridized approach based on CNN and GA
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN106980608A (zh) 一种中文电子病历分词和命名实体识别方法及系统
CN109933664A (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN108108355A (zh) 基于深度学习的文本情感分析方法和系统
Alotaibi et al. Optical character recognition for quranic image similarity matching
Valakunde et al. Multi-aspect and multi-class based document sentiment analysis of educational data catering accreditation process
CN110427458B (zh) 基于双门lstm的社交网络双语的五分类情感分析方法
CN107818084A (zh) 一种融合点评配图的情感分析方法
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN114942991A (zh) 一种基于隐喻识别的情感分类模型构建方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
Misra et al. Authorship analysis of online predatory conversations using character level convolution neural networks
Hayawi et al. The imitation game: Detecting human and ai-generated texts in the era of large language models
Vayadande et al. Mood detection and emoji classification using tokenization and convolutional neural network
Purba et al. Implementation opinion mining for extraction of opinion learning in university
CN114118113A (zh) 一种基于语境识别的机器翻译方法
Joharee et al. Sentiment Analysis and Text Classification for Depression Detection
Rajput et al. Hate me not: detecting hate inducing memes in code switched languages
CN112966514A (zh) 一种基于义原的自然语言情感分类方法
Cherrat et al. Sentiment Analysis from Texts Written in Standard Arabic and Moroccan Dialect based on Deep Learning Approaches.
He Recent works for sentiment analysis using machine learning and lexicon based approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210615