CN112100371A - 一种基于XLNet和BLS的弹幕情感分类方法 - Google Patents

一种基于XLNet和BLS的弹幕情感分类方法 Download PDF

Info

Publication number
CN112100371A
CN112100371A CN202010808842.5A CN202010808842A CN112100371A CN 112100371 A CN112100371 A CN 112100371A CN 202010808842 A CN202010808842 A CN 202010808842A CN 112100371 A CN112100371 A CN 112100371A
Authority
CN
China
Prior art keywords
xlnet
bls
bullet screen
barrage
emotion classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010808842.5A
Other languages
English (en)
Other versions
CN112100371B (zh
Inventor
刘瑞军
张伦
王向上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202010808842.5A priority Critical patent/CN112100371B/zh
Publication of CN112100371A publication Critical patent/CN112100371A/zh
Application granted granted Critical
Publication of CN112100371B publication Critical patent/CN112100371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

弹幕是目前年轻人常用的互动方式,其中承载了丰富的情感信息。基于此本申请提出一种基于XLNet和BLS弹幕情感分类方法,包括:一、获取弹幕数据并预处理,构建数据集;二、对弹幕进行分词,使用词典编码器对句子进行标记;三、利用XLNet模型进行学习来更新深空间中的任务特定参数;四、将序列G(x)放入广义学习系统中,在广义空间中搜索额外的特征,根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签;五、用训练好的网络对测试样本做情感分类。

Description

一种基于XLNet和BLS的弹幕情感分类方法
技术领域
本申请属于文本情感分析处理技术领域,特别涉及一种基于深度学习模型XLNet与广义学习系统(BLS)的弹幕情感分类方法。
背景技术
情感分析又称意见挖掘,是自然语言处理领域中一项重要而复杂的工作。它主要通过大量的文本数据来分析产品、服务、品牌所反映的意见、情感、态度。由于其广泛的应用,学术界和业界都在努力在几乎所有可能的领域开展相应的研究。近年来,电子商务和社交媒体在全球迅猛发展,理解和提取其中所包含的主观信息是一项繁琐的任务。因此,建立一个自动处理情绪分析任务的系统是非常必要的。
2017年6月,Google团队提出了一种完全基于注意力机制的网络模块Transformer,它可以学习文本中长距离依赖关系和全局特性。次年完全基于Transformer构建的Bert(Bidirectional Encoder Representations from Transformers)
横空出世,横扫各大排行榜,并引领一股预训练加微调的迁移学习热潮。但是在语言建模中仍然受到固定长度上下文的限制。针对此问题,Dai等人引入了段间循环机制,并将绝对位置编码改为相对位置编码,提出了Transformer-XL。实验表明,Transformer-XL可以学习到比RNN多80%,比Transformer多450%的距离依赖关系,而且速度更是Transformer的1800多倍。随后,基于Transformer-XL构建的XLNet在各项任务的表现都超越了Bert,成为了目前性能最好的自然语言处理模型。
广义学习系统(BLS),通过提取特征来处理高维数据。在深度和广阔的空间。首先将输入数据映射到特征节点上,然后对其进行增强节点补充,形成非线性结构。它非常灵活和动态地支持探索图结构数据的更深层次信息。
发明内容
本申请所要解决的技术问题在是弹幕情感分类问题,由于目前的方法主要还是通过使用情感词典和卷积神经网络来对文本进行情感分析,并且XLNet模型在其他领域使用获得的效果均好于传统模型。受上述启发,提出一种基于XLNe与BLS弹幕情感分类方法,获取弹幕数据并对弹幕进行预处理,构建训练集T;对处理后的弹幕进行分词,使用词典编码器对句子进行标记;利用XLNet模型进行学习来更新深空间中的任务特定参数;将表示G(x)放入广义学习系统(BLS)中,在广义空间中搜索额外的特征;根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签,最终得到分类结果。本方法对弹幕情感分类的结果具有较好的准确性,具有一定的实用价值。
根据本申请的一个方面,提出一种基于XLNet与BLS弹幕情感分类方法,所述方法包括:
S1、获取弹幕数据并对弹幕进行预处理,构建弹幕数据集;
S2、对处理后的弹幕进行分词,使用词典编码器对句子进行标记,在句子开头连接[CLS]标记,在辅助句与原句之间加入[SEP]标记,生成输入序列G(x),具体为:[CLS]原句序列[SEP]辅助句序列[SEP];
S3、利用XLNet模型进行学习来更新深空间中的任务特定参数;
S4、将序列G(x)放入广义学习系统(BLS)中,在广义空间中搜索额外的特征。根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签。
S5、用训练好的网络对测试样本进行情感分类。
具体的,步骤S1中,将表情等特殊字符转义成文字。并按9比1的比率将数据集分成训练集和测试集。
具体的,步骤S2中,词典D中每一行为一个词或字符。
具体的,步骤S3具体为:
S301、XLNet模型的训练过程。采用置换语言建模方法学习Transformer-XL编码器的参数,使语言模型能够获取通用信息和表征。
S302、使用公开发布的预训练过的casexlnet-base 2模型。它有12层Transformer-XL块,隐藏层大小768和12self-attention head。
S303、在微调阶段,我们设置最大序列长度为128,预热步骤为120。
具体的,步骤S4具体为:
S401、正则化参数的拟合也起着重要的作用。广义学习系统的正则化参数的最优值将在2范围内的不同节点数下进行调整。
S402、由于不同的映射节点和增强节点数量可能会导致分类精度的性能略有变化。根据以往的经验,将广义学习系统的映射节点设置为10个,增强节点设置为110个。
与现有技术相比,本发明的有益效果是:主要包括以下几个方面:
一、本方法所使用的XLNet模型在Google提出时,已经在大量的文本数据集上预训练过,相比于CNN,RNN,LSTM等模型,可以减少预训练的步骤,减少繁琐的工作量;
二、模型结合了BLS和XLNet,同时利用了这两点广义自回归训练前语言模,可以从大规模的无标记语料库中转移通用的语言知识。
三、可以在深度表示有限的情况下在广阔的空间中搜索更多的特征。模型可以随机生成映射和增强节点,同时查找所需的连接权重。
四、实验证明模型在情绪分析中的鲁棒性更好。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的一种弹幕情感分类方法的示意性流程图;
图2是根据本申请一个实施例的示例效果图;
具体实施方式
实施过程主要包括两个步骤:用预处理好的弹幕数据训练网络;然后使用训练好的模型对测试数据进行测试。
S1、获取弹幕数据并对弹幕进行预处理,构建弹幕数据集;
S2、对处理后的弹幕进行分词,使用词典编码器对句子进行标记,在句子开头连接[CLS]标记,在辅助句与原句之间加入[SEP]标记,生成输入序列G(x),具体为:[CLS]原句序列[SEP]辅助句序列[SEP];
S3、利用XLNet模型进行学习来更新深空间中的任务特定参数;
S4、将序列G(x)放入广义学习系统(BLS)中,在广义空间中搜索额外的特征。根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签。
S5、用训练好的网络对测试样本进行情感分类。
具体的,步骤S1中,将表情等特殊字符转义成文字。并按9比1的比率将数据集分成训练集和测试集。
具体的,步骤S2中,词典D中每一行为一个词或字符。
具体的,步骤S3具体为:
S301、XLNet模型的训练过程。采用置换语言建模方法学习Transformer-XL
编码器的参数,使语言模型能够获取通用信息和序列。
S302、使用公开发布的预训练过的casexlnet-base 2模型。它有12层Transformer-XL块,隐藏层大小768和12self-attention head。
S303、在微调阶段,我们设置最大序列长度为128,预热步骤为120。
具体的,步骤S4具体为:
S401、正则化参数的拟合也起着重要的作用。广义学习系统的正则化参数的最优值将在2范围内的不同节点数下进行调整。
S402、由于不同的映射节点和增强节点数量可能会导致分类精度的性能略有变化。根据以往的经验,将广义学习系统的映射节点设置为10个,增强节点设置为110个。
进一步的,步骤S302中self-attention的计算公式如下:
在self-attention中,Q=V=K,均是attention机制的输入矩阵,WQ、WK、WV是对应于Q、K、V的三个权重矩阵,是需要模型学习的权重参数。dk指的是输入矩阵行向量的维度,目的是为了控制分母的内积结果不要太大。
其中,多头attention的计算公式如下:
multihead(Q,K,V)=concat(head1,head2,...,headh)Wo
concat()目的是实现矩阵进行行向量的拼接;headi指的多头attention中的第i个self-attention的计算结果;WO指的是多头attention的输出与下一层连接的权重参数。
进一步的,步骤S402中,设X∈RN×M为输入数据集,由N个样本组成,每个样本特征维数为M。Y∈RN×C为输出矩阵,其中C为类。首先将X放入BLS中,随机生成n个节点的映射特征。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (5)

1.一种基于XLNet和BLS的弹幕情感分类方法,包括:
S1、获取弹幕数据并对弹幕进行预处理,构建弹幕数据集;
S2、对处理后的弹幕进行分词,使用词典编码器对句子进行标记,在句子开头连接[CLS]标记,在辅助句与原句之间加入[SEP]标记,生成输入序列G(x),具体为:[CLS]原句序列[SEP]辅助句序列[SEP];
S3、利用XLNet模型进行学习来更新深空间中的任务特定参数;
S4、将序列G(x)放入广义学习系统(BLS)中,在广义空间中搜索额外的特征。根据实际的情绪分析任务随机生成映射特征和增强特征,并连接在一起计算样本的标签;
S5、用训练好的网络对测试样本进行情感分类。
2.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法,其特征在于,步骤S1中,将表情等特殊字符转义成文字。并按9比1的比率将数据集分成训练集和测试集。
3.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法,其特征在于,步骤S2中,词典D中每一行为一个词或字符。
4.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法,其特征在于,步骤S3具体为:
S301、XLNet模型的训练过程。采用置换语言建模方法学习Transformer-XL编码器的参数,使语言模型能够获取通用信息和表征。
S302、使用公开发布的预训练过的casexlnet-base 2模型。它有12层Transformer-XL块,隐藏层大小768和12self-attention head。
S303、在微调阶段,我们设置最大序列长度为128,预热步骤为120。
5.根据权利要求1所述的基于XLNet和BLS的弹幕情感分类方法,其特征在于,步骤S4具体为:
S401、正则化参数的拟合也起着重要的作用。广义学习系统的正则化参数的最优值将在2范围内的不同节点数下进行调整。
S402、由于不同的映射节点和增强节点数量可能会导致分类精度的性能略有变化。根据以往的经验,将广义学习系统的映射节点设置为10个,增强节点设置为110个。
CN202010808842.5A 2020-08-12 2020-08-12 一种基于XLNet和BLS的弹幕情感分类方法 Active CN112100371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010808842.5A CN112100371B (zh) 2020-08-12 2020-08-12 一种基于XLNet和BLS的弹幕情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010808842.5A CN112100371B (zh) 2020-08-12 2020-08-12 一种基于XLNet和BLS的弹幕情感分类方法

Publications (2)

Publication Number Publication Date
CN112100371A true CN112100371A (zh) 2020-12-18
CN112100371B CN112100371B (zh) 2023-10-03

Family

ID=73753631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010808842.5A Active CN112100371B (zh) 2020-08-12 2020-08-12 一种基于XLNet和BLS的弹幕情感分类方法

Country Status (1)

Country Link
CN (1) CN112100371B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN111144448A (zh) * 2019-12-09 2020-05-12 江南大学 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN111144448A (zh) * 2019-12-09 2020-05-12 江南大学 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方英兰;孙吉祥;韩兵;: "基于BERT的文本情感分析方法的研究", 信息技术与信息化, no. 02 *

Also Published As

Publication number Publication date
CN112100371B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN110532554B (zh) 一种中文摘要生成方法、系统及存储介质
CN112100388A (zh) 一种长文本新闻舆情的情感极性的分析方法
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN111368049A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及系统
CN111858878B (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN110717341A (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114528398A (zh) 一种基于交互双重图卷积网络的情感预测方法及系统
CN113344036A (zh) 一种基于动态词嵌入的多模态Transformer的图像描述方法
CN111160020A (zh) 一种具有多种子模块信息的中文词向量生成方法
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN114138969A (zh) 文本处理方法及装置
CN117237479A (zh) 基于扩散模型的产品风格自动生成方法、装置及设备
CN114896450B (zh) 一种基于深度学习的视频时刻检索方法与系统
CN112100371B (zh) 一种基于XLNet和BLS的弹幕情感分类方法
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN113221568B (zh) 一种基于神经网络的改进分层序列标注联合关系抽取方法
CN114595687A (zh) 基于BiLSTM的老挝语文本正则化方法
Li et al. Multilingual toxic text classification model based on deep learning
Yturrizaga-Aguirre et al. Story visualization using image-text matching architecture for digital storytelling
CN111274392B (zh) 一种多频道联合处理方法和装置
CN117391082B (zh) 一种长篇工程设计报告中综合说明自动生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant