CN109697232B - 一种基于深度学习的中文文本情感分析方法 - Google Patents

一种基于深度学习的中文文本情感分析方法 Download PDF

Info

Publication number
CN109697232B
CN109697232B CN201811617266.5A CN201811617266A CN109697232B CN 109697232 B CN109697232 B CN 109697232B CN 201811617266 A CN201811617266 A CN 201811617266A CN 109697232 B CN109697232 B CN 109697232B
Authority
CN
China
Prior art keywords
text
emotion
characters
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811617266.5A
Other languages
English (en)
Other versions
CN109697232A (zh
Inventor
朱玲
张友书
陈思成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN201811617266.5A priority Critical patent/CN109697232B/zh
Publication of CN109697232A publication Critical patent/CN109697232A/zh
Application granted granted Critical
Publication of CN109697232B publication Critical patent/CN109697232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的中文文本情感分析方法,属于自然语言处理技术领域。解决基于英文的无监督情感分析方法的不足之处。本发明将获取语料文本转换为拼音后,预训练构建好的语言模型,得到预训练后的语言模型;将获取与语料文本同领域的、少量带情感类别的文本数据,同样将文本数据中的文本转换为拼音后,基于预训练后的语言模型,训练构建好的情感分类模型,得到训练好的情感分析模型;利用训练好的情感分析模型,对未标注文本进行情感分类,得到对应的情感类别标签。本发明用于对中文文本情感分析。

Description

一种基于深度学习的中文文本情感分析方法
技术领域
一种基于深度学习的中文文本情感分析方法,用于对中文文本情感分析,属于自然语言处理技术领域。
背景技术
文本情感分析是指判断文本的情感倾向。
语言模型是用来计算一个句子的概率,判断一个句子是否合理。
RNN是循环神经网络,一种用于处理序列数据的神经网络。
LSTM是长短期记忆网络,是RNN特殊的类型,可以学习长期依赖信息。
GRU是门控循环单元,LSTM变体,简化了LSTM模型结构。
在现有的中文文本情感分析中,大多采用中文字符进行文本分类,通过中文字符进行分类,情感分类预测准确率低;而所采用的方法大多是基于词典或机器学习的分类方法,需要耗费大量的人工构建词典或标注数据,而与本提案最接近的方法,是基于英文的无监督情感分析方法,文献为“Alec Radford,Rafal Jozefowicz,Ilya Sutskever.Learningto Generate Reviews and Discovering Sentiment”,该方法首先预训练基于LSTM的字符级语言模型,然后进行迁移学习,即利用预训练的语言模型得到文本特征,每句文本的特征,即句向量是采用该句最后一个字符的向量表示,然后在此基础上添加Softmax分类器,进行情感分类。但存在如下不足之处:
1)首先该方法无法在中文上实现情感分析;
2)其次该语言模型训练耗时,模型网络参数较多,预训练语言模型需要耗费大量时间;
3)最后该方法只利用每句文本的最后一个字符作为该句文本的特征表示,而最后一个字符的字向量并不能代表整句文本,会降低对每句文本的情感分类准确率。
发明内容
针对上述研究的问题,本发明的目的在于提供一种基于深度学习的中文文本情感分析方法,解决现有技术中基于英文的无监督情感分析方法的不足之处:(1)该方法无法在中文上实现情感分析;(2)该方法中语言模型训练耗时,模型网络参数较多,预训练语言模型需要耗费大量时间;(3)该方法只利用每句文本的最后一个字符作为该句文本的特征表示,而最后一个字符的字向量并不能代表整句文本,会降低对每句文本的情感分类准确率。
为了达到上述目的,本发明采用如下技术方案:
一种基于深度学习的中文文本情感分析方法,其特征在于,如下步骤:
步骤1、将获取语料文本转换为拼音后,预训练构建好的语言模型,得到预训练后的语言模型;
步骤2、获取与语料文本同领域的、少量带情感类别标签的文本数据,将文本数据中的文本转换为拼音后,基于预训练后的语言模型,训练构建好的情感分析模型,得到训练好的情感分析模型;
步骤3、利用训练好的情感分析模型,对未标注文本进行情感分类,得到对应的情感类别标签。
进一步,所述步骤1中构建好的语言模型采用RNN网络结构,包含输入层、嵌入层、GRU网络层以及输出层四层,其中嵌入层将每个数字表示的字符映射为嵌入大小维度的字向量,然后将得到的字向量输入GRU网络层,得到文本序列编码,最后输入到输出层,利用激活函数softmax,预测下一个字符。
进一步,所述步骤1的具体步骤为:
步骤1.1、数据获取
爬取语料文本;
步骤1.2、数据预处理
将语料文本中的中文文字转换为拼音,并以字符为粒度,先去掉语料文本中的低频字符,去掉低频字符后将剩余的字符去重,并映射为数字索引,得到字符与数字索引的映射字典,再利用映射字典将语料文本表示为数字形式,得到预处理后的文本数据,文本字符数为n;
步骤1.3、以步长为1,从预处理后的文本数据的开始将语料文本进行划分,划分后得到多个包含K个字符的序列长度文本,序列长度文本的前K-1个字符作为模型输入x,最后一个字符作为该模型输出y,得到整个输入样本X和输出样本Y,输入样本数为n-K+1,n为语料文本字符数;
步骤1.4、对于输入样本X与输出样本Y,按照比例0.1-0.5,划分为训练集和验证集,然后按照分批的大小划分训练集,分批作为构建好的语言模型的输入,同时采用多类交叉熵作为构建好的语言模型的损失函数,Adam作为构建好的语言模型优化器,迭代多次,直到验证集损失小于1.0,得到预训练后的语言模型。
进一步,所述步骤2中构建好的情感分析模型采用RNN网络结构,包含输入层、嵌入层、GRU网络层以及输出层,网络前三层的模型参数采用预训练后的语言模型的网络参数,即可通过网络前三层得到每个字符的编码,对于每条文本,对其所有字符编码求平均得到平均编码、求最大值得到最大编码、以及该条文本中最后一个字符的编码,作为该条文本的向量表示,然后输入到输出层,利用激活函数sigmoid,得到情感二分类模型,即构建好的情感分析模型。
进一步,所述步骤2的具体步骤为:
步骤2.1、数据获取
获取与语料文本同领域的文本数据,标记文本数据的情感类别,得到标记数据,样本数为m,包含文本与文本所对应的情感类别标签两列,其中情感类别为正面和负面;
步骤2.2、数据清洗
对于标记数据中的文本,首先将文本转换为拼音,然后根据预训练后的语言模型中的映射字典,将拼音字符映射为数字索引,然后计算每条文本的长度,取其最大值,再将所有长度小于最大值的长度的文本以0填补,使得所有文本长度相同;
步骤2.3、将数据清洗后的文本作为输入样本X’,标记数据中的情感类别标签作为输出样本Y’;
步骤2.4、对于输入样本X’与输出样本Y’,按照0.1-0.5的比例,将其划分为训练集与验证集,然后按照分批的大小划分训练集,分批作为模型输入,同时采用二分类交叉熵作为构建好的情感分析模型的损失函数,Adam作为构建好的情感分析模型的优化器,迭代多次,验证集损失小于0.5,得到训练好的情感分析模型。
进一步,所述步骤3的具体步骤为:
步骤3.1、对于未标记的文本数据,只包含一列文本,将其中的中文字符转化为拼音,作为输入J;
步骤3.2:输入J到训练好的情感分析模型,进行情感分类的预测,得到情感类别标签。
本发明同现有技术相比,其有益效果表现在:
一、本发明所采用的方法将中文文本转化为拼音,然后进行建模,即语言模型和情感分析模型,在模型中融合了中文的发音,增加了模型的信息量,在建模策略上,采用预训练语言模型,然后迁移语言模型的部分网络结构与参数,并添加sigmoid层,对于训练后续的情感分析模型,不需要用到太多的标签数据,即可达到对大量的无标签文本较好的预测效果,不易造成过拟合,跟现有的词典或机器学习分类方法对中文或英文进行情感分类相比,提升了情感分类预测准确率,在基于中文文本的情感分析中,传统的机器学习分类方法使用少量的标签数据,对大量样本的预测准确率只有85%,而本案中的预测准确率为90%;
二、本发明采用GRU构建语言模型,简化模型参数,从而缩短训练时长,提升了预训练语言模型的效率;
三、本发明克服了以每条文本句最后一个字符的向量代表整句文本,并不具有可靠性的问题,采用拼接该句所有字符的平均向量,最大向量以及最后一个字符的向量,作为每句文本的特征表示,提升情感分析模型预测准确率。
附图说明
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
而本案所采用的方法首先是对中文的情感分析,同时模型的输入并不是采用中文字符,而是将中文转换为拼音进行情感分析;其次构建语言模型采用GRU模型(即GRU网络层),GRU简化了LSTM的模型结构,能够在提升训练效率的同时,达到与LSTM同等的模型效果;最后在提取每句文本的特征时,对该文本句所有字符的字向量求平均得到mean_coding,对所有的字向量求最大值,得到最大编码max_coding,并结合该文本句的最后一个字符编码,作为该文本句的特征表示,然后进行最后的情感分类。具体如下:
一种基于深度学习的中文文本情感分析方法,如下步骤:
步骤1、将获取语料文本转换为拼音后,预训练构建好的语言模型,得到预训练后的语言模型;具体步骤为:
步骤1.1、数据获取
爬取语料文本;
步骤1.2、数据预处理
将语料文本中的中文文字转换为拼音,并以字符为粒度,先去掉语料文本中的低频字符,去掉低频字符后将剩余的字符去重,并映射为数字索引,得到字符与数字索引的映射字典,再利用映射字典将语料文本表示为数字形式,得到预处理后的文本数据,文本字符数为n;
步骤1.3、以步长为1,从预处理后的文本数据的开始将语料文本进行划分,划分后得到多个包含K个字符的序列长度文本,序列长度文本的前K-1个字符作为模型输入x,最后一个字符作为该模型输出y,得到整个输入样本X和输出样本Y,输入样本数为n-K+1,n为语料文本字符数;
步骤1.4、对于输入样本X与输出样本Y,按照比例0.1-0.5,划分为训练集和验证集,然后按照分批的大小划分训练集,分批作为构建好的语言模型的输入,同时采用多类交叉熵作为构建好的语言模型的损失函数,Adam作为构建好的语言模型优化器,迭代多次,直到验证集损失小于1.0,得到预训练后的语言模型。其中,构建好的语言模型采用RNN网络结构,包含输入层、嵌入层、GRU网络层以及输出层四层,其中嵌入层将每个数字表示的字符映射为嵌入大小维度的字向量,然后将得到的字向量输入GRU网络层,得到文本序列编码,最后输入到输出层,利用激活函数softmax,预测下一个字符。
步骤2、获取与语料文本同领域的、少量带情感类别标签的文本数据,将文本数据中的文本转换为拼音后,基于预训练后的语言模型,训练构建好的情感分析模型,得到训练好的情感分析模型;具体步骤为:
步骤2.1、数据获取
获取与语料文本同领域的文本数据,标记文本数据的情感类别,得到标记数据,样本数为m,包含文本与文本所对应的情感类别标签两列,其中情感类别为正面和负面;
步骤2.2、数据清洗
对于标记数据中的文本,首先将文本转换为拼音,然后根据预训练后的语言模型中的映射字典,将拼音字符映射为数字索引,然后计算每条文本的长度,取其最大值,再将所有长度小于最大值的长度的文本以0填补,使得所有文本长度相同;
步骤2.3、将数据清洗后的文本作为输入样本X’,标记数据中的情感类别标签作为输出样本Y’;
步骤2.4、对于输入样本X’与输出样本Y’,按照0.1-0.5的比例,将其划分为训练集与验证集,然后按照分批的大小划分训练集,分批作为模型输入,同时采用二分类交叉熵作为构建好的情感分析模型的损失函数,Adam作为构建好的情感分析模型的优化器,迭代多次,验证集损失小于0.5,得到训练好的情感分析模型。其中,构建好的情感分析模型采用RNN网络结构,包含输入层、嵌入层、GRU网络层以及输出层,网络前三层的模型参数采用预训练后的语言模型的网络参数,即可通过网络前三层得到每个字符的编码,对于每条文本,对其所有字符编码求平均得到平均编码、求最大值得到最大编码、以及该条文本中最后一个字符的编码,作为该条文本的向量表示,然后输入到输出层,利用激活函数sigmoid,得到情感二分类模型,即构建好的情感分析模型。
步骤3、利用训练好的情感分析模型,对未标注文本进行情感分类,得到对应的情感类别标签。具体步骤为:
步骤3.1、对于未标记的文本数据,只包含一列文本,将其中的中文字符转化为拼音,作为输入J;
步骤3.2:输入J到训练好的情感分析模型,进行情感分类的预测,得到情感类别标签。
实施案例
爬取网贷之家存管平台的新闻作为语料文本(包括文字和标点符号等),语料文本为10万条;
将10万条语料文本中的中文文字转换为拼音,并以字符为粒度,去掉语料文本中出现次数少于10次的低频字符,去掉低频字符后将剩余的字符去重,并映射为数字索引,得到字符与数字索引的映射字典,再利用映射字典将语料文本表示为数字形式,得到预处理后文本数据,文本字符数为n;
以步长为1,从预处理后的文本数据的开始将语料文本进行划分,序列长度为64的句子,划分后的句子前63个字符为模型输入x,最后一个字符作为该模型输出y,划分完语料文本,得到多个序列长度句子(即序列长度文本,包含K个字符),得到整个输入样本X和输出样本Y,输入样本或输入样本数为n-K+1。
构建语言模型,得到构建好的语言模型,构建好的语言模型采用RNN网络结构,包含输入层、嵌入层、GRU网络层以及输出层四层,其中嵌入层将每个数字表示的字符映射为512维的字向量,然后将得到的字向量输入具有512个隐藏神经元的GRU网络层,得到文本序列编码,最后输入到输出层,利用激活函数softmax,预测下一个字符。
对于输入样本X与输出样本Y,按照比例0.2,划分为训练集和验证集,对于训练集,以256个输入样本和输出样本分批,分批作为构建好的语言模型的输入,同时采用多分类交叉熵作为构建好的语言模型的损失函数,Adam作为构建好的语言模型优化器,迭代多次,验证集误差达到1.0,得到预训练后的语言模型。
获取与语料文本同领域的300条文本数据,人工标记文本数据的情感类别,得到标记数据,包含文本和与文本相对应的情感类别标签两列,其中情感类别为正面和负面;
对于标记数据中的文本句,首先将文本转换为拼音,然后根据预训练后的语言模型中的映射字典,将拼音字符映射为数字索引,然后计算每条文本句的长度,计算标记数据中所有文本的长度,取其最大值,再将所有长度小于最大值的长度的文本句以0填补,使得所有标记文本长度相同,即完成数据清洗;
将数据清洗后的文本句作为输入样本X’,标记数据中的情感类别标签作为输出样本Y’;
构建情感分析模型,得到构建好的情感分析模型,构建好的情感分析模型采用RNN网络结构,包含输入层、嵌入层、GRU网络层以及输出层,网络前三层的模型参数采用训练好的语言模型的网络参数,即可通过网络前三层得到每个字符的编码,对于每条文本句,对其所有字符编码求平均得到平均编码、求最大值得到最大编码、以及该条文本句中最后一个字符的编码,作为该条文本句的向量表示,然后输入到输出层,利用激活函数sigmoid,得到情感二分类模型,即构建好的情感分析模型。
对于输入样本X’与输出样本Y’,按照0.2的比例,将其划分为训练集与验证集,对于训练集,以256个样本分块,分批作为模型输入,同时采用二分类交叉熵作为构建好的情感分析模型的损失函数,Adam作为构建好的情感分析模型的优化器,迭代20次,验证集准确率达到0.93,得到最终模型sentment_model。
对于未标记的文本数据6万条,只包含一列文本句,将其中的中文字符转化为拼音,作为输入J;
输入J到训练好的情感分析模型,进行情感分类的预测,得到情感类别标签。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (5)

1.一种基于深度学习的中文文本情感分析方法,其特征在于,如下步骤:
步骤1、将获取语料文本转换为拼音后,预训练构建好的语言模型,得到预训练后的语言模型;
步骤1.1、数据获取
爬取语料文本;
步骤1.2、数据预处理
将语料文本中的中文文字转换为拼音,并以字符为粒度,先去掉语料文本中的低频字符,去掉低频字符后将剩余的字符去重,并映射为数字索引,得到字符与数字索引的映射字典,再利用映射字典将语料文本表示为数字形式,得到预处理后的文本数据,文本字符数为n;
步骤1.3、以步长为1,从预处理后的文本数据的开始将语料文本进行划分,划分后得到多个包含K个字符的序列长度文本,序列长度文本的前K-1个字符作为模型输入x,最后一个字符作为该模型输出y,得到整个输入样本X和输出样本Y,输入样本数为n-K+1,n为语料文本字符数;
步骤1.4、对于输入样本X与输出样本Y,按照比例0.1-0.5,划分为训练集和验证集,然后按照分批的大小划分训练集,分批作为构建好的语言模型的输入,同时采用多类交叉熵作为构建好的语言模型的损失函数,Adam作为构建好的语言模型优化器,迭代多次,直到验证集损失小于1.0,得到预训练后的语言模型;
步骤2、获取与语料文本同领域的、少量带情感类别标签的文本数据,将文本数据中的文本转换为拼音后,基于预训练后的语言模型,训练构建好的情感分析模型,得到训练好的情感分析模型;
步骤3、利用训练好的情感分析模型,对未标注文本进行情感分类,得到对应的情感类别标签。
2.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于,所述步骤1中构建好的语言模型采用RNN网络结构,包含输入层、嵌入层、GRU网络层以及输出层四层,其中嵌入层将每个数字表示的字符映射为嵌入大小维度的字向量,然后将得到的字向量输入GRU网络层,得到文本序列编码,最后输入到输出层,利用激活函数softmax,预测下一个字符。
3.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于,所述步骤2中构建好的情感分析模型采用RNN网络结构,包含输入层、嵌入层、GRU网络层以及输出层,网络前三层的模型参数采用预训练后的语言模型的网络参数,即可通过网络前三层得到每个字符的编码,对于每条文本,对其所有字符编码求平均得到平均编码、求最大值得到最大编码、以及该条文本中最后一个字符的编码,作为该条文本的向量表示,然后输入到输出层,利用激活函数sigmoid,得到情感二分类模型,即构建好的情感分析模型。
4.根据权利要求3所述的一种基于深度学习的中文文本情感分析方法,其特征在于,所述步骤2的具体步骤为:
步骤2.1、数据获取
获取与语料文本同领域的文本数据,标记文本数据的情感类别,得到标记数据,样本数为m,包含文本与文本所对应的情感类别标签两列,其中情感类别为正面和负面;
步骤2.2、数据清洗
对于标记数据中的文本,首先将文本转换为拼音,然后根据预训练后的语言模型中的映射字典,将拼音字符映射为数字索引,然后计算每条文本的长度,取其最大值,再将所有长度小于最大值的长度的文本以0填补,使得所有文本长度相同;
步骤2.3、将数据清洗后的文本作为输入样本X’,标记数据中的情感类别标签作为输出样本Y’;
步骤2.4、对于输入样本X’与输出样本Y’,按照0.1-0.5的比例,将其划分为训练集与验证集,然后按照分批的大小划分训练集,分批作为模型输入,同时采用二分类交叉熵作为构建好的情感分析模型的损失函数,Adam作为构建好的情感分析模型的优化器,迭代多次,验证集损失小于0.5,得到训练好的情感分析模型。
5.根据权利要求4所述的一种基于深度学习的中文文本情感分析方法,其特征在于,所述步骤3的具体步骤为:
步骤3.1、对于未标记的文本数据,只包含一列文本,将其中的中文字符转化为拼音,作为输入J;
步骤3.2:输入J到训练好的情感分析模型,进行情感分类的预测,得到情感类别标签。
CN201811617266.5A 2018-12-28 2018-12-28 一种基于深度学习的中文文本情感分析方法 Active CN109697232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811617266.5A CN109697232B (zh) 2018-12-28 2018-12-28 一种基于深度学习的中文文本情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811617266.5A CN109697232B (zh) 2018-12-28 2018-12-28 一种基于深度学习的中文文本情感分析方法

Publications (2)

Publication Number Publication Date
CN109697232A CN109697232A (zh) 2019-04-30
CN109697232B true CN109697232B (zh) 2020-12-11

Family

ID=66232247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811617266.5A Active CN109697232B (zh) 2018-12-28 2018-12-28 一种基于深度学习的中文文本情感分析方法

Country Status (1)

Country Link
CN (1) CN109697232B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162789B (zh) * 2019-05-13 2023-07-21 北京一览群智数据科技有限责任公司 一种基于汉语拼音的词表征方法及装置
CN110263164A (zh) * 2019-06-13 2019-09-20 南京邮电大学 一种基于模型融合的情感倾向分析方法
CN110502633A (zh) * 2019-07-19 2019-11-26 中山大学 基于机器学习的网络评论管理方法
CN110728145B (zh) * 2019-10-11 2023-08-29 集奥聚合(北京)人工智能科技有限公司 一种基于录音对话的自然语言理解模型的建立方法
CN111027329B (zh) * 2019-11-06 2023-07-21 上海大学 一种基于深度学习的物流智能客服系统的用户情感分析系统及方法
CN111078882A (zh) * 2019-12-13 2020-04-28 北京工业大学 一种文本情感测量方法和装置
CN111078887B (zh) * 2019-12-20 2022-04-29 厦门市美亚柏科信息股份有限公司 文本分类方法和装置
CN111611795A (zh) * 2020-04-14 2020-09-01 广州数说故事信息科技有限公司 一种自动化品牌形象分析方法和系统
CN111582360B (zh) * 2020-05-06 2023-08-15 北京字节跳动网络技术有限公司 用于标注数据的方法、装置、设备和介质
CN111507099A (zh) * 2020-06-19 2020-08-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN111986687B (zh) * 2020-06-23 2022-08-02 合肥工业大学 基于交互式解码的双语情感对话生成系统
CN111767718B (zh) * 2020-07-03 2021-12-07 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111883101B (zh) * 2020-07-13 2024-02-23 北京百度网讯科技有限公司 一种模型训练及语音合成方法、装置、设备和介质
CN112328785A (zh) * 2020-10-09 2021-02-05 福建亿榕信息技术有限公司 一种电力领域文本分类的方法和存储设备
CN112711664B (zh) * 2020-12-31 2022-09-20 山西三友和智慧信息技术股份有限公司 一种基于tcn+lstm的文本情感分类方法
CN112837701B (zh) * 2020-12-31 2022-12-27 西安电子科技大学 基于多分类器交互学习的语音情感识别方法
CN113297383B (zh) * 2021-06-22 2023-08-04 苏州大学 基于知识蒸馏的语音情感分类方法
CN113609851A (zh) * 2021-07-09 2021-11-05 浙江连信科技有限公司 心理学上想法认知偏差的识别方法、装置及电子设备
CN113642583B (zh) * 2021-08-13 2022-06-28 北京百度网讯科技有限公司 用于文本检测的深度学习模型训练方法及文本检测方法
CN113761204B (zh) * 2021-09-06 2023-07-28 南京大学 一种基于深度学习的emoji文本情感分析方法及系统
US11366965B1 (en) * 2021-10-29 2022-06-21 Jouf University Sentiment analysis using bag-of-phrases for Arabic text dialects
CN114357168B (zh) * 2021-12-31 2022-08-02 成都信息工程大学 一种文本分类方法
CN115496076B (zh) * 2022-11-01 2023-03-24 之江实验室 一种价值需求特征驱动的文本情感识别、训练方法及装置
CN116340511B (zh) * 2023-02-16 2023-09-15 深圳市深弈科技有限公司 结合深度学习与语言逻辑推理的舆情分析方法
CN116204642B (zh) * 2023-03-06 2023-10-27 上海阅文信息技术有限公司 数字阅读中角色隐式属性智能识别分析方法、系统和应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038159A (zh) * 2017-03-09 2017-08-11 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
CN107577662A (zh) * 2017-08-08 2018-01-12 上海交通大学 面向中文文本的语义理解系统及方法
WO2018118546A1 (en) * 2016-12-21 2018-06-28 Microsoft Technology Licensing, Llc Systems and methods for an emotionally intelligent chat bot
CN108536870A (zh) * 2018-04-26 2018-09-14 南京大学 一种融合情感特征和语义特征的文本情感分类方法
CN108595592A (zh) * 2018-04-19 2018-09-28 成都睿码科技有限责任公司 一种基于五笔字型码字符级语言模型的文本情感分析方法
CN108733652A (zh) * 2018-05-18 2018-11-02 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018118546A1 (en) * 2016-12-21 2018-06-28 Microsoft Technology Licensing, Llc Systems and methods for an emotionally intelligent chat bot
CN107038159A (zh) * 2017-03-09 2017-08-11 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
CN107577662A (zh) * 2017-08-08 2018-01-12 上海交通大学 面向中文文本的语义理解系统及方法
CN108595592A (zh) * 2018-04-19 2018-09-28 成都睿码科技有限责任公司 一种基于五笔字型码字符级语言模型的文本情感分析方法
CN108536870A (zh) * 2018-04-26 2018-09-14 南京大学 一种融合情感特征和语义特征的文本情感分类方法
CN108733652A (zh) * 2018-05-18 2018-11-02 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法

Also Published As

Publication number Publication date
CN109697232A (zh) 2019-04-30

Similar Documents

Publication Publication Date Title
CN109697232B (zh) 一种基于深度学习的中文文本情感分析方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN109977416B (zh) 一种多层次自然语言反垃圾文本方法及系统
CN110825845B (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN110826331A (zh) 基于交互式与迭代式学习的地名标注语料库智能构建方法
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN109299211B (zh) 一种基于Char-RNN模型的文本自动生成方法
CN109213997B (zh) 一种基于双向长短时记忆网络模型的中文分词方法
CN110297889B (zh) 一种基于特征融合的企业情感倾向分析方法
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN113220876B (zh) 一种用于英文文本的多标签分类方法及系统
CN111966825A (zh) 一种基于机器学习的电网设备缺陷文本分类方法
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
CN108829823A (zh) 一种文本分类方法
CN112732872B (zh) 面向生物医学文本的基于主题注意机制的多标签分类方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN112989833A (zh) 一种基于多层lstm的远程监督实体关系联合抽取方法和系统
CN113360667B (zh) 基于多任务学习的生物医学触发词检测和命名实体识别方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant