CN110046356A - 标签嵌入在微博文本情绪多标签分类中的应用研究 - Google Patents
标签嵌入在微博文本情绪多标签分类中的应用研究 Download PDFInfo
- Publication number
- CN110046356A CN110046356A CN201910345877.7A CN201910345877A CN110046356A CN 110046356 A CN110046356 A CN 110046356A CN 201910345877 A CN201910345877 A CN 201910345877A CN 110046356 A CN110046356 A CN 110046356A
- Authority
- CN
- China
- Prior art keywords
- tag
- label
- embedded
- text
- mood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种标签嵌入在微博文本情绪多标签分类中的应用研究方法,通过将多标签看作特殊单标签,直接利用标签嵌入算法,来解决多标签分类问题。本发明首先根据原始多标签间的欧式距离及代价信息,利用多维定标方法将各个多标签嵌入到嵌入空间中,然后将微博文本进行特征提取及表示,再训练情绪多标签编码器,学习多标签嵌入的函数,并训练从文本特征空间映射到嵌入空间的分析器,最后利用分析器及编/解码映射关系来预测文本情绪。
Description
技术领域
本发明属于自然语言处理领域,涉及一种将标签嵌入应用于多标签分类的方法。
背景技术
随着人们对社交平台的普遍使用,微博作为一个重要的社交平台,已经成为人们表达观点和宣泄情绪的重要方式之一。海量的微博文本中蕴含着许多潜在的有价值信息,这些信息可以反映出用户对某事物的态度和喜好,因此微博文本情绪可以作为向用户推荐商品、文章及相关服务的重要参考方式。
近几年来,现有工作提出了多种解决文本情绪分析的方法。但是许多方法的实际效果并不理想。比如,某些研究虽然采用机器学习的方法,但是仅将情绪分类问题看作单标签分类问题,并未考虑到文本情绪复杂性。然而情绪往往比较复杂,即使一条短文本中也可能包含多种情绪,使得提取出的文本特征不够准确。因此,传统的多标签分类可能对最终分析结果不够准确。
已有的文本情绪分析方面的研究已经提出了不同的解决方法,但很多方法的实际效果并不理想,例如:①基于词典的方法未能深入考虑到文本上下文信息,使得提取出的文本特征不够准确;②某些研究虽然采用机器学习的方法,但是仅将情绪分类问题看作单标签分类问题,并未考虑到文本情绪复杂性。然而情绪往往比较复杂,即使一条短文本中也可能包含多种情绪,所以将情绪分类问题看作单标签分类问题可能使最终分析结果不够准确;③某些研究即使将情绪分析问题看做多标签分类问题,但其中部分研究将情绪多标签看作多个单标签的组合,然后对每个标签分别训练分类器,最后将每个分类器结果作为最终预测结果,该种策略是一类较主流的方法,但实际分类效果往往依赖于一系列人为设定的阈值,使人为因素对分析效果造成较大影响。
为了解决现有工作的不足,我们提出一种结合多标签嵌入的多标签分类模型。我们贡献在于如下两个方面:第一,我们的模型在嵌入过程中同时考虑欧式距离和海明损失信息,提高了标签嵌入效果;第二,我们的模型可以解决新标签缺失问题,并且为嵌入标签向量解码构建相应的映射关系,这种映射关系能够对预测出的嵌入向量进行解码,最终输出预测的情绪多标签,提高了对新标签的嵌入有效性和标签映射关系对嵌入标签解码的有效性。
发明内容
该发明是在微博文本情绪上采用标签嵌入算法而开发的多标签分类系统,通过同时考虑欧式距离和海明损失信息,提高标签嵌入效果,从而提高多标签分类的性能。
本发明的技术方案是:一种采用标签嵌入的多标签分类方法,其特征在于,包括以下步骤:
步骤1:收集微博文本数据,并进行预处理。
步骤2:将每个情绪多标签看作一种特殊单标签,如果多标签中某一单标签值不同则该多标签便被视作不同的标签。然后根据原始标签间的欧氏距离及代价信息嵌入到较低维的嵌入空间。
通过欧式距离函数,得到计算真实标签yi与预测标签之间的距离,其分解模型如下:
其中,y={y1,y2,...,yk}为标签集合,y是8维的情绪标签,dij表示标签yi与yj的距离,yim表示标签yi中第m个向量值,同理
通过海明损失函数,计算标签代价矩阵,其分解模型如下:
计算标签嵌入信息diff,其分解模型如下:
diff=D+δ(C) (3)
使用多维定标方法进行嵌入。
步骤3:通过文本表示方法对微博文本进行特征提取。
步骤4:训练情绪多标签编码器,其损失函数如下:
步骤5:训练文本分析器和编码/解码器。
步骤6:利用分析器和编码/解码器来预测文本情绪。
所述步骤2多维定标流程如下:
构造矩阵
构造矩阵B=(bij),其中
求解B的特征值并从大到小排列,使得λ1≥λ2≥...≥λi。
计算贡献率a1,m和a2,m,其中:
定义表示矩阵B中对应于特征值λ1,λ2,...,λm的正交变换向量,使得令则的行向量则为所求解。
所述步骤3文本特征提取,首先,对文本语句进行分词处理,将语句转化为一系列词的序列。然后,剔除所有分词中无实际意义的词及符号。再加载词向量训练工具,并设置相应参数。最后利用训练工具训练词向量模型并格式化输出词向量。
所述步骤3文本特征提取中还使用keras提供的嵌入层并结合词典模型进行文本特征提取及表示,该种嵌入层思想是首先根据训练好的词向量模型构建相应词典,使得每个词都有一个相应的索引值,然后将每个待表示文本表示为该一个指定维度的索引列表,接着构建一个指定文本长度及字典长度的嵌入层,并将所有词向量依次作为嵌入层的权重。
所述步骤本发明的有益效果为,已知微博文本信息,提出了一种基于标签嵌入的多标签分类模型,解决了新标签缺失的多标签分类问题。
附图说明
图1为本发明的流程示意图。
图2为标签信息处理过程图。
图3为情绪多标签文本分类器结构图。
图4为情绪多标签编码器神经网络结构图。
具体实施方式
下面结合附图,详细描述本发明的技术方案:
如图1所示,本发明的主要流程为:
步骤1:收集微博文本数据,并采用word2vec与jieba等工具对微博文本进行预处理。
步骤2:采用多维定标方法,将预处理后的标签嵌入到低维嵌入空间,在进行标签嵌入过程中考虑使用原始标签间的欧式距离及海明损失信息:
通过海明损失函数,计算标签代价矩阵,其分解模型如下:
通过使用欧式距离公式,已知8维情绪标签集合y={y1,y2,...,yk},求出真实标签yi与预测标签yj之间的距离,其分解模型如下:
其中,dij表示标签yi与yj之间的距离,表示标签中第m个向量值,同理yim。
计算标签嵌入信息diff,其分解模型如下:
diff=D+δ(C) (3)
使用多维定标方法将各个多标签嵌入到嵌入空间中。
步骤3:采用结合词典和词向量的嵌入层文本表示方法对微博文本进行特征提取。
步骤4:训练情绪多标签编码器,得到多标签的嵌入信息。如图2所示,其损失函数如下:
步骤5:利用提取出的文本向量训练文本分析器。
步骤6:在实验验证集上选出编码器/解码器和分析器模型后,使用测试集中的数据对模型进行预测。
所述步骤2多维定标流程如下:
构造矩阵
构造矩阵B=(bij),其中
求解B的特征值并从大到小排列,使得λ1≥λ2≥...≥λi。
计算贡献率a1,m和a2,m,其中:
定义表示矩阵B中对应于特征值λ1,λ2,...,λm的正交变换向量,使得令则的行向量则为所求解。
所述步骤3文本特征提取,首先,对文本语句进行分词处理,将语句转化为一系列词的序列。然后,剔除所有分词中无实际意义的词及符号。再加载词向量训练工具,并设置相应参数。最后利用训练工具训练词向量模型并格式化输出词向量。
所述步骤3文本特征提取中还使用keras提供的嵌入层并结合词典模型进行文本特征提取及表示,首先根据训练好的词向量模型构建相应词典,使得每个词都有一个相应的索引值,然后将每个待表示文本表示为该一个指定维度的索引列表,接着构建一个指定文本长度及字典长度的嵌入层,并将所有词向量依次作为嵌入层的权重。
Claims (13)
1.本发明提供了一种标签嵌入在微博文本情绪多标签分类中的应用研究方法,包括以下步骤:
步骤1:对文本语料库进行预处理。
步骤2:将预处理后的数据进行基于欧式距离及海明损失信息的标签嵌入。
步骤3:提取微博文本特征并表示。
步骤4:训练将标签从原始标签空间中映射到嵌入空间的编码器,学习出标签嵌入函数。
步骤5:训练从文本特征空间映射到嵌入空间的分析器。
步骤6:结合分析器及解码映射关系对文本进行情绪多标签分类预测。
2.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:将文本语料库中的文本情绪分为Anxiety、Surprise、Sorrow、Love、Joy、Hate、Anger、Expect八种情绪。
3.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤1对微博文本语料库进行预处理,包括分词及去除停用词等操作。
4.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤2采用标签空间维度归约类的标签嵌入算法,使得嵌入标签在嵌入空间中的距离与原始标签间距离及代价相似。
5.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤3通过提取微博文本特征,并结合向量空间模型将文本向量化表示。
6.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤4训练情绪多标签编码器,将标签从原始标签空间中映射到嵌入空间中,并学得其嵌入函数表达。
7.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤5训练从文本特征空间映射到嵌入空间的分析器。
8.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤6结合分析器及解码映射关系对文本进行情绪多标签分类预测。
9.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:其中标签嵌入流程如下:
a.从所有语句标签中选出具有代表性的标签,得到标签矩阵Y。
b.通过标签矩阵Y中所有标签两两之间的海明损失函数得到代价矩阵C。
c.通过计算矩阵Y中所有标签两两之间的欧式距离得到距离矩阵D。
d.需要进行嵌入的信息用diff表示,其分解模型如下:
diff=D+δ(C) (1)
其中δ()表示一个单调函数,其目的是为了将标签间的代价信息进行放大或缩小。
e.采用多维定标算法进行标签嵌入。
10.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:其中情绪多标签编码器的损失函数如下:
11.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:其中文本特征提取流程如下:
a.对文本语句进行分词处理,将语句转化为一系列词的序列。
b.剔除所有分词中无实际意义的词及符号。
c.加载词向量训练工具,并设置相应参数。
d.利用训练工具训练词向量模型并格式化输出词向量。
12.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:其中文本特征提取中还使用keras提供的嵌入层并结合词典模型进行文本特征提取及表示,该种嵌入层思想是首先根据训练好的词向量模型构建相应词典,使得每个词都有一个相应的索引值,然后将每个待表示文本表示为该一个指定维度的索引列表,接着构建一个指定文本长度及字典长度的嵌入层,并将所有词向量依次作为嵌入层的权重。
13.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:其中多维定标流程如下:
a.构造矩阵
b.构造矩阵B=(bij),其中
c.求解B的特征值并从大到小排列,使得λ1≥λ2≥...≥λi。
d.计算贡献率a1,m和a2,m,其中:
e.定义表示矩阵B中对应于特征值λ1,λ2,...,λm的正交变换向量,使得令则的行向量则为所求解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910345877.7A CN110046356B (zh) | 2019-04-26 | 2019-04-26 | 标签嵌入的微博文本情绪多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910345877.7A CN110046356B (zh) | 2019-04-26 | 2019-04-26 | 标签嵌入的微博文本情绪多标签分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046356A true CN110046356A (zh) | 2019-07-23 |
CN110046356B CN110046356B (zh) | 2020-08-21 |
Family
ID=67279646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910345877.7A Active CN110046356B (zh) | 2019-04-26 | 2019-04-26 | 标签嵌入的微博文本情绪多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046356B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633365A (zh) * | 2019-07-25 | 2019-12-31 | 北京国信利斯特科技有限公司 | 一种基于词向量的层次多标签文本分类方法及系统 |
CN110807323A (zh) * | 2019-09-20 | 2020-02-18 | 平安科技(深圳)有限公司 | 情绪向量的生成方法及装置 |
CN112989051A (zh) * | 2021-04-13 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 文本分类的方法、装置、设备和计算机可读存储介质 |
CN113360639A (zh) * | 2020-03-06 | 2021-09-07 | 上海卓繁信息技术股份有限公司 | 一种短文本情绪分类方法,装置及存储设备 |
CN113657446A (zh) * | 2021-07-13 | 2021-11-16 | 广东外语外贸大学 | 多标签情绪分类模型的处理方法、系统和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110184721A1 (en) * | 2006-03-03 | 2011-07-28 | International Business Machines Corporation | Communicating Across Voice and Text Channels with Emotion Preservation |
WO2016169594A1 (en) * | 2015-04-22 | 2016-10-27 | Longsand Limited | Web technology responsive to mixtures of emotions |
CN109086357A (zh) * | 2018-07-18 | 2018-12-25 | 深圳大学 | 基于变分自动编码器的情感分类方法、装置、设备及介质 |
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
-
2019
- 2019-04-26 CN CN201910345877.7A patent/CN110046356B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110184721A1 (en) * | 2006-03-03 | 2011-07-28 | International Business Machines Corporation | Communicating Across Voice and Text Channels with Emotion Preservation |
WO2016169594A1 (en) * | 2015-04-22 | 2016-10-27 | Longsand Limited | Web technology responsive to mixtures of emotions |
CN109086357A (zh) * | 2018-07-18 | 2018-12-25 | 深圳大学 | 基于变分自动编码器的情感分类方法、装置、设备及介质 |
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633365A (zh) * | 2019-07-25 | 2019-12-31 | 北京国信利斯特科技有限公司 | 一种基于词向量的层次多标签文本分类方法及系统 |
CN110807323A (zh) * | 2019-09-20 | 2020-02-18 | 平安科技(深圳)有限公司 | 情绪向量的生成方法及装置 |
CN113360639A (zh) * | 2020-03-06 | 2021-09-07 | 上海卓繁信息技术股份有限公司 | 一种短文本情绪分类方法,装置及存储设备 |
CN112989051A (zh) * | 2021-04-13 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 文本分类的方法、装置、设备和计算机可读存储介质 |
CN112989051B (zh) * | 2021-04-13 | 2021-09-10 | 北京世纪好未来教育科技有限公司 | 文本分类的方法、装置、设备和计算机可读存储介质 |
CN113657446A (zh) * | 2021-07-13 | 2021-11-16 | 广东外语外贸大学 | 多标签情绪分类模型的处理方法、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110046356B (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN110046356A (zh) | 标签嵌入在微博文本情绪多标签分类中的应用研究 | |
US20230195773A1 (en) | Text classification method, apparatus and computer-readable storage medium | |
CN111476023B (zh) | 识别实体关系的方法及装置 | |
CN109635280A (zh) | 一种基于标注的事件抽取方法 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN110232439B (zh) | 一种基于深度学习网络的意图识别方法 | |
CN110232114A (zh) | 语句意图识别方法、装置及计算机可读存储介质 | |
CN111897908A (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN105404632B (zh) | 基于深度神经网络对生物医学文本序列化标注的系统和方法 | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN107808011A (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
CN107203511A (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN111104498A (zh) | 一种任务型对话系统中的语义理解方法 | |
CN110414009B (zh) | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN111881671B (zh) | 一种属性词提取方法 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN111078847A (zh) | 电力用户意图识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |