CN110334210A - 一种基于bert与lstm、cnn融合的中文情感分析方法 - Google Patents

一种基于bert与lstm、cnn融合的中文情感分析方法 Download PDF

Info

Publication number
CN110334210A
CN110334210A CN201910462751.8A CN201910462751A CN110334210A CN 110334210 A CN110334210 A CN 110334210A CN 201910462751 A CN201910462751 A CN 201910462751A CN 110334210 A CN110334210 A CN 110334210A
Authority
CN
China
Prior art keywords
text
chinese
bert
sequence
cnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910462751.8A
Other languages
English (en)
Inventor
谢金宝
王彦卿
王庆岩
王玉静
林木深
李紫玉
赵楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201910462751.8A priority Critical patent/CN110334210A/zh
Publication of CN110334210A publication Critical patent/CN110334210A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明提供了一种基于BERT与LSTM、CNN融合的中文情感分析方法。该方法包括:对中文语料数据集中的多条中文语料进行文本预处理,以获得所述多条中文语料对应的多个序列;使用BERT模型提取每个序列的词嵌入;采用BERT、LSTM和CNN对每个序列进行特征提取,以获得每个序列对应的文本深层语义特征;通过使用softmax分类器对所获得的文本深层语义特征进行分类,来对模型进行训练和测试,进而实现情感极性预测分析。本发明的上述技术能够克服现有技术不足,提高对中文文本情感分析的准确率。

Description

一种基于BERT与LSTM、CNN融合的中文情感分析方法
技术领域
本发明涉及信息处理技术,尤其涉及一种基于BERT与LSTM、CNN融合的中文情感分析方法。
背景技术
近年来,随着网络技术的快速发展,许多消费者开始在网络上发表自己对某一事物的看法和评论,自然语言处理技术应运而生,情感分析一类的任务比如商品评价正负面分析,敏感内容分析,用户感兴趣内容分析、甚至安全领域的异常访问日志分析等等实际上都可以用文本分类的方式去做,本质上来讲就是一个文本输出一个多个对应的标签。因此如何快速并准确的从海量信息中分析用户看法及情感成为当前信息技术领域的一个重要研究课题,在现实生活中具有很重要的理论意义和实际应用价值。
对于企业产品来说,通过将用户的评论数据进行分析,同时将其中的情感信息提取出来,可以最大化的了解到用户们对于产品的满意程度,对于产品的改进以及产品价值的提升具有很好的参考价值。同样的,在评定电影的好坏程度、某酒店服务情况,美团中商家的口碑,情感分析技术也具有十分重要的现实意义。
不管是文本分类、命名体识别、语义分析还是情感分析,都需要进行文本的预处理。传统的文本预处理过程一般包含文本预训练、分词,生成向量词典、生成词索引等过程,过程繁琐,模型实现功能少,这样会导致文本分析准确率下降以及花费时间更长。而且一般将预训练语言表示应用于下游任务有两种策略:基于特征和微调。基于特征的方法,如ELMo,主要是以特定于任务的体系结构为主;基于微调的方法,如OpenAI GPT,引入特定的任务参数,然后通过简单的微调预训练参数来训练文本特征。两者均是使用单向的语言模型来完成任务。
目前情感分析的粒度较大,一般指对整个句子或是文本进行分析判断,这样容易忽视文本和句子中更细粒度的信息,丢失很多有价值的信息,不能准确的判断文本含义。传统的对文本进行标记一般是人工,这样耗费大量的时间和人力资源,这样的方法影响后续的训练效果,大大降低情感分类的准确性。而且相较于之前提出的特征融合方法,分类结果均没有本发明中在加入BERT模型后准确率高。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不意图确定本发明的关键或重要部分,也不意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,本发明提供了基,以至少解决现有技术中存在的问题。
本发明的一方面提供了一种基于BERT与LSTM、CNN融合的中文情感分析方法,包括:对中文语料数据集中的多条中文语料进行文本预处理,以获得所述多条中文语料对应的多个序列;使用BERT模型提取每个序列的词嵌入;采用BERT、LSTM和CNN对每个序列进行特征提取,以获得每个序列对应的文本深层语义特征;通过使用softmax分类器对所获得的文本深层语义特征进行分类,来对模型进行训练和测试,进而实现情感极性预测分析。
进一步地,所述对中文语料数据集中的多条中文语料进行文本预处理的步骤包括:针对所述中文语料数据集中的每条中文语料,将该条中文语料中的文本字符化,其中,在获得的该条中文语料对应的序列中,用CLS作为该序列的第一个标记,通过SEP对该序列进行分割。
进一步地,在所述对中文语料数据集中的多条中文语料进行文本预处理的步骤中,通过所述文本字符化使得文本中的句子切分为多个字。
进一步地,其中每个序列为词向量序列,每个序列的第一个标记均为特殊分类符CLS标记,句子之间的分割用SEP进行标记,句子中替换的词汇用MASK标记,其中,真实文本的每一个字对应1,补全符号对应0,其中CLS和SEP对应1。
进一步地,采用BERT模型提取词嵌入,其中文本中各个字\词的原始词向量作为BERT模型的输入,文本中各个字\词融合全文语义信息后的向量表示作为BERT模型的输出。
进一步地,采用BERT、LSTM和CNN进行特征提取,提取文本深层语义特征。
进一步地,采用12层的注意力机制来提取更深层次的文本语义特征。
进一步地,所述CNN中的卷积层采用1维卷积,其中池化层采用最大池化。
进一步地,在通过LSTM处理序列形式的文本数据时,产生序列化的输出数据,以将提取到的文本特征向量与CNN、BERT中的数据拼接融合在一起,在经过全连接层后再进入分类器。
进一步地,在模型训练时,数据沿神经网络正向传播,所有网络在输出时进行多元特征的融合,反向传播时,通过对损失函数求偏导,进行参数更新;其中,反向传播采用的方法是Adam优化算法,在进行模式测试时,利用训练时获得的模型和权重,测试数据沿神经网络正向传播至softmax分类器,进行情感极性分析。
本发明提供了一种基于BERT与LSTM、CNN融合的中文情感分析方法,该方法能够在使模型在训练过程中能够挖掘出更深层次的情感信息,相比于现有技术能够提高中文文本情感分析的准确率。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。其中:
图1是示出本发明的一种基于BERT与LSTM、CNN融合的中文情感分析方法的一种示例性流程的示意图;
图2为本发明的一个优选实施例中的模型整体结构示意图;
图3为本发明的一个优选实施例中的BERT模型的内部结构示意图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本发明内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明的实施例提供了一种基于BERT与LSTM、CNN融合的中文情感分析方法,所述中文情感分析方法包括:对中文语料数据集中的多条中文语料进行文本预处理,以获得所述多条中文语料对应的多个序列;使用BERT模型提取每个序列的词嵌入;采用BERT、LSTM和CNN对每个序列进行特征提取,以获得每个序列对应的文本深层语义特征;通过使用softmax分类器对所获得的文本深层语义特征进行分类,来对所述模型进行训练和测试,进而实现情感极性预测分析。
图1示出了本发明的一种基于BERT与LSTM、CNN融合的中文情感分析方法的一个示例性处理的流程图。
如图1所示,该流程开始之后,执行步骤S110。
在步骤S110中,对中文语料数据集中的多条中文语料进行文本预处理,以获得多条中文语料对应的多个序列。其中,上述中文语料数据集包括有预先获得的多条中文语料。
作为一个示例,在步骤S110中,例如可以通过如处理来对中文语料数据集中的多条中文语料进行文本预处理:针对中文语料数据集中的每条中文语料,将该条中文语料中的文本字符化,其中,在获得的该条中文语料对应的序列中,用CLS作为该序列的第一个标记,通过SEP对该序列进行分割。
作为一个示例,在步骤S110中,在对中文语料数据集中的多条中文语料进行文本预处理的过程中,例如可以通过文本字符化使得文本中的句子切分为多个字。
其中,每个序列例如为词向量序列。
每个序列的第一个标记例如均为特殊分类符CLS标记,句子之间(即两个序列之间)的分割用SEP进行标记,句子中替换的词汇用MASK标记,其中,真实文本的每一个字对应1,补全符号对应0,其中CLS和SEP对应1。
接着,在步骤S120中,使用BERT模型提取每个序列的词嵌入。然后,执行步骤S130。
作为一个示例,在采用BERT模型提取词嵌入时,例如可以将文本中各个字\词的原始词向量作为BERT模型的输入,将文本中各个字\词融合全文语义信息后的向量表示作为BERT模型的输出。
也就是说,本发明使用BERT模型提取词嵌入,BERT模型的主要输入是文本中各个字\词的原始词向量,可随机初始化,输出的是文本中各个字\词融合了全文语义信息后的向量表示,代替了之前常用word2vec算法进行预训练的过程,而且BERT模型作为双向深层系统,能够捕捉到真正意义上的上下文信息。
在步骤S130中,采用BERT、LSTM和CNN对每个序列进行特征提取,以获得每个序列对应的文本深层语义特征。然后,执行步骤S140。
例如,在步骤S130中,可以采用BERT、LSTM和CNN进行特征提取来获得文本深层语义特征。
作为一个示例,可以采用12层的注意力机制来提取更深层次的文本语义特征。
需要说明的是,BERT模型的核心模块是Transformer,Transformer的关键部分是Attention机制,而且是多层注意力和位置嵌入,常用的BERT模型是12层Attention及24层的,本发明采用12层的Attention机制来提取更深层次的文本语义特征。
其中,CNN中的卷积层例如可以采用1维卷积,其中池化层例如采用最大池化,来实现深层特征挖掘以及降维过程。
本发明加入LSTM用来处理序列形式的文本数据,并产生序列化的输出数据,将提取到的文本特征向量与CNN、BERT中的数据拼接融合在一起,然后在全连接后进入分类器。
这样,在步骤S140中,可以通过使用softmax分类器对所获得的文本深层语义特征进行分类,来对上述模型进行训练和测试,进而实现情感极性预测分析。
作为一个示例,在通过LSTM处理序列形式的文本数据时,产生序列化的输出数据,以将提取到的文本特征向量与CNN、BERT中的数据拼接融合在一起,在经过全连接层后再进入分类器。
此外,根据本发明的实施例,在模型训练时,数据沿神经网络(即上述模型)正向传播,所有网络在输出时进行多元特征的融合,反向传播时,通过对损失函数求偏导,进行参数更新。
换句话说,在模型训练时,CNN通路的训练目标是权重WCNN和偏置bCNN;LSTM通路的训练目标是权重WLSTM和偏置bLSTM;BERT通路的训练目标是WBERT和偏置bBERT。数据沿神经网络(即上述模型)正向传播,所有网络在输出时进行多元特征的融合。最终训练目标是:Q={WCNN,WLSTM,WBERT,bCNN,bLSTM,bBERT}。反向传播时,以损失函数Loss求Q求偏导,进行目标参数的更新。
其中,反向传播采用的方法是Adam优化算法,在进行模式测试时,利用训练时获得的模型和权重,测试数据沿神经网络正向传播至softmax分类器,进行情感极性分析。
作为一个示例,通过采用经过预训练的BERT模型避免分词、去停用词过程中所存在的误差对模型性能的影响;而且BERT模型是双向的语言处理模型,比起常用的word2vec算法生成向量词典的预训练模型,BERT模型能够捕捉到真正意义上的上下文信息,提高了情感分类的准确性。除此以外,BERT模型可以同时输入字向量、文本向量和位置向量,这样能够将予以解禁的字/词在特征向量空间上的距离拉近,得到的语义信息更加准确。
例如,在本发明的实施例中,采用BERT、LSTM、CNN融合层来提取特征,比起常用的单层神经网络或是双层神经网络得到的数据更加准确,而且BERT模型采用的是12层的Attention机制,在进行特征提取时,挖掘到的数据更加全面详细。
以上均说明在情感分析过程中加入BERT模型可以提高分析的准确率,能够得到更真实的数据结果,不管对于下面的特征提取和权重计算过程,还是最终的情感极性分类,都奠定了很好的基础,在很大程度上提升了情感分类的准确度。
在该实施例中,首先可以进行数据的采集和提取。
其中,本发明中的数据例如是从AI Challenger中的细粒度用户评论情感分析中进行采集和提取的。
接着,对中文语料数据集进行文本预处理,将文本字符化,用CLS作为每一个序列的第一个标记,SEP将句子进行分割。
其中,在对中文文本语料进行预处理时,例如可以将文本字符化,使得文本中的句子切分为一个个字。其中每个词向量序列的第一个标记始终是特殊分类符CLS标记,句子之间的分割用SEP进行标记,句子中替换的词汇用MASK标记,MASK也是真实字符和补全字符标识符,真实文本的每一个字对应1,补全符号对应0,其中CLS和SEP对应的是1。例如:
[CLS]博客是什么[SEP]
1 1 1 1 1 1 1 0 0 0 0 0 0 0…
BERT模型支持的序列长度是512个字符,上述例子中就是七个字符对应1,其他剩余为0。
接着,可以使用BERT模型提取词嵌入。
其中,例如可以使用BERT模型提取词嵌入,代替了之前常用word2vec算法进行预训练的过程,其中BERT模型作为双向深层系统,能够捕捉到真正意义上的上下文信息。而且可以在不同的任务和模型中更新词向量,使词向量逐步地适应特定任务。
接着,可以采用BERT、LSTM(长短期记忆网络)和CNN(卷积神经网络)进行特征提取,提取文本深层语义特征。
其中,可以采用BERT、LSTM和CNN进行特征提取,提取文本深层语义特征。其中本发明提出的BERT模型的核心模块是Transformer,Transformer的关键部分是Attention机制,常用的BERT模型是12层Attention及24层的,本发明采用12层的Attention机制来提取更深层次的语义特征。本发明中CNN中的卷积层采用1维卷积,其中池化层采用最大池化,来实现深层特征挖掘以及降维过程。本发明加入LSTM用来处理序列形式的文本数据,并产生序列化的输出数据,将提取到的文本特征向量与CNN、BERT中的数据拼接融合在一起,然后在全连接后进入分类器。最后将BERT与LSTM、CNN中得到的数据特征进行同一维度上尺度的统一,可以避免数据信息的损失。
这样,可以通过使用softmax分类器进行分类,对模型进行训练和测试,进而实现情感极性预测分析。
其中,利用已经构建好的特征融合模型进行数据训练和测试,在进行模型训练时,各条神经网络的通路从嵌入层获取数据。其中BERT模型的训练目标是网络参数权重WB及偏置bB,LSTM的网络权重WL和偏置bL,CNN的网络权重WC和偏置bC。当数据沿神经网络正向传播时,所有通路的输出在BERT模型中结合。最终的训练目标为£={WB,bB,WL,bL,WC,bC}。反向传播时,通过损失函数对£求偏导,进行目标参数的更新。本发明中反向传播采用的方法是Adam优化算法。在进行模式测试时,利用训练时获得的模型和权重,测试数据沿神经网络正向传播至分类器。最终将得到的数据进行正向、负向、中性及未提及四类细粒度情感分类,实现情感极性分析。
本发明通过采用经过预训练的BERT模型避免分词、去停用词过程中所存在的误差对模型性能的影响;而且BERT模型用的是Transformer,相比于常用的RNN更加高效、能捕捉更长距离的依赖;同时比起常用的word2vec算法生成向量词典的预训练模型,BERT模型能够捕捉到真正意义上的上下文信息;除此以外,BERT模型可以同时输入字向量、文本向量和位置向量,这样能够将予以解禁的字/词在特征向量空间上的距离拉近,得到的语义信息更加准确。本发明提出一种基于BERT与LSTM、CNN融合的中文情感分析方法,能够更加全面的挖掘深层次的语义特征,从而提高了情感分类结果的准确性。
下面描述本发明的一个优选实施例。
在该优选实施例中,如图2所示,首先对中文语料数据集进行文本预处理,将文本字符化,用CLS作为每一个序列的第一个标记,SEP将句子进行分割。
其中本发明所采用的中文语料集是从AI Challenger中的细粒度用户评论情感分析这个数据库中进行采集和提取的。
本文的预处理过程主要完成了字符化过程,将文本切分成一个个字,然后用CLS、SEP进行标注,最终将处理好的数据传递到BERT模型,为下一步过程做好准备工作。
然后使用BERT模型提取词嵌入,数据集划分为训练集和测试集;
本发明加入BERT模型,代替了之前常用word2vec算法进行预训练的过程,其中BERT模型作为双向深层系统,能够捕捉到真正意义上的上下文信息。也不需要进行结巴分词和独自训练或者下载词向量,之后在词典中找到对应索引,完成向量化,为了便于神经网络的训练,向量数据形成一个嵌入矩阵,在BERT模型的作用下完成词嵌入过程。而且可以在不同的任务和模型中更新词向量,使词向量逐步地适应特定任务。
接着采用BERT、LSTM(长短期记忆网络)和CNN(卷积神经网络)进行特征提取,提取文本深层语义特征;
本发明通过将BERT、LSTM和CNN进行特征融合能够更加全面的挖掘文本深层特征,在完成文本预处理及词嵌入过程后,将得到的数据经过BERT、LSTM和CNN融合层进行特征提取。本发明中BERT层、LSTM层及CNN层的输出数据都是一维的,这样做的目的是将BERT与LSTM、CNN中得到的数据特征进行同一维度上尺度的统一,可以避免数据信息的损失,使得最后融合生成的向量数据更加准确。
最后通过使用softmax分类器进行分类,对模型进行训练和测试,进而实现情感极性预测分析。
利用已经构建好的模型进行数据训练和测试,在进行模型训练时,主要是BERT、LSTM、CNN将经过预处理后的数据进行训练,然后从中提取各自的网络参数权重W及偏置b。同时在模型训练过程中需要通过正向传播和反向传播过程来实现对数据的传递和参数的更新,当进行正向传播时,BERT、LSTM、CNN中得到的数据最终传输到融合层进行处理。在反向传播时,主要是对损失函数£来求偏导,实现目标参数的更新。其中本发明中进行反向传播采用的方法是Adam优化算法。在模型训练结束后,进行模型测试,将训练后得到的数据通过正向传播至softmax分类器。最终对得到的数据实现正向、负向、中性及未提及四类细粒度情感分类,实现情感极性分析。
如图3所示,公开了一种基于BERT与LSTM、CNN融合的中文情感分析方法,包括以下步骤:
BERT模型对文本的处理主要是:首先输入文本,然后将文本用向量表示,之后进入Multi-head Self-Attention(多头自注意力)结构,对数据进行处理和更新,最后输出文本。
比起Attention(注意力)和Self-Attention(自注意力)机制,Multi-headSelf-Attention结构主要为了增强Attention的多样性,通过利用不同的Self-Attention模块获得文本中每个字在不同语义空间下的增强语义向量,并将每个字的多个增强语义向量进行线性组合,从而获得一个最终的与原始字向量长度相同的增强语义向量。
这里给出一个例子来帮助理解Multi-head Self-Attention。看下面这句话:“北京市长春市”,在不同语义场景下对这句话可以有不同的理解:“北京市/长春市”,或“北京市长/春市”。对于这句话中的“长”字,在前一种语义场景下需要和“春”字组合才能形成一个正确的语义单元;而在后一种语义场景下,它则需要和“市”字组合才能形成一个正确的语义单元。
而且,Self-Attention旨在用文本中的其它字来增强目标字的语义表示。在不同的语义场景下,Attention所重点关注的字应有所不同。因此,Multi-headSelf-Attention可以理解为考虑多种语义场景下目标字与文本中其它字的语义向量的不同融合方式。可以看到,Multi-head Self-Attention的输入和输出在形式上完全相同,输入为文本中各个字的原始向量表示,输出为各个字融合了全文语义信息后的增强向量表示。因此,BERT模型对文本中每个字分别增强其语义向量表示具有重要意义,为后续情感分类的准确率有很大提升。
最后应说明的是:以上实施例仅用以示例性说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明及本发明带来的有益效果进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求的范围。

Claims (10)

1.一种基于BERT与LSTM、CNN融合的中文情感分析方法,其特征在于,所述中文情感分析方法包括:
对中文语料数据集中的多条中文语料进行文本预处理,以获得所述多条中文语料对应的多个序列;
使用BERT模型提取每个序列的词嵌入;
采用BERT、LSTM和CNN对每个序列进行特征提取,以获得每个序列对应的文本深层语义特征;
通过使用softmax分类器对所获得的文本深层语义特征进行分类,来对模型进行训练和测试,进而实现情感极性预测分析。
2.根据权利要求1所述的中文情感分析方法,其特征在于,所述对中文语料数据集中的多条中文语料进行文本预处理的步骤包括:
针对所述中文语料数据集中的每条中文语料,将该条中文语料中的文本字符化,其中,在获得的该条中文语料对应的序列中,用CLS作为该序列的第一个标记,通过SEP对该序列进行分割。
3.根据权利要求2所述的中文情感分析方法,其特征在于,在所述对中文语料数据集中的多条中文语料进行文本预处理的步骤中,通过所述文本字符化使得文本中的句子切分为多个字。
4.根据权利要求2或3所述的中文情感分析方法,其特征在于,其中每个序列为词向量序列,每个序列的第一个标记均为特殊分类符CLS标记,句子之间的分割用SEP进行标记,句子中替换的词汇用MASK标记,其中,真实文本的每一个字对应1,补全符号对应0,其中CLS和SEP对应1。
5.根据权利要求1-4中任一项所述的中文情感分析方法,其特征在于,采用BERT模型提取词嵌入,其中文本中各个字\词的原始词向量作为BERT模型的输入,文本中各个字\词融合全文语义信息后的向量表示作为BERT模型的输出。
6.根据权利要求1-5中任一项所述的中文情感分析方法,其特征在于,采用BERT、LSTM和CNN进行特征提取,提取文本深层语义特征。
7.根据权利要求6所述的中文情感分析方法,其特征在于,采用12层的注意力机制来提取更深层次的文本语义特征。
8.根据权利要求7所述的中文情感分析方法,其特征在于,所述CNN中的卷积层采用1维卷积,其中池化层采用最大池化。
9.根据权利要求6所述的中文情感分析方法,其特征在于,在通过LSTM处理序列形式的文本数据时,产生序列化的输出数据,以将提取到的文本特征向量与CNN、BERT中的数据拼接融合在一起,在经过全连接层后再进入分类器。
10.根据权利要求9所述的中文情感分析方法,其特征在于,在模型训练时,数据沿神经网络正向传播,所有网络在输出时进行多元特征的融合,反向传播时,通过对损失函数求偏导,进行参数更新;其中,反向传播采用的方法是Adam优化算法,在进行模式测试时,利用训练时获得的模型和权重,测试数据沿神经网络正向传播至softmax分类器,进行情感极性分析。
CN201910462751.8A 2019-05-30 2019-05-30 一种基于bert与lstm、cnn融合的中文情感分析方法 Pending CN110334210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910462751.8A CN110334210A (zh) 2019-05-30 2019-05-30 一种基于bert与lstm、cnn融合的中文情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910462751.8A CN110334210A (zh) 2019-05-30 2019-05-30 一种基于bert与lstm、cnn融合的中文情感分析方法

Publications (1)

Publication Number Publication Date
CN110334210A true CN110334210A (zh) 2019-10-15

Family

ID=68140520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910462751.8A Pending CN110334210A (zh) 2019-05-30 2019-05-30 一种基于bert与lstm、cnn融合的中文情感分析方法

Country Status (1)

Country Link
CN (1) CN110334210A (zh)

Cited By (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532380A (zh) * 2019-07-12 2019-12-03 杭州电子科技大学 一种基于记忆网络的文本情感分类方法
CN110826327A (zh) * 2019-11-05 2020-02-21 泰康保险集团股份有限公司 情感分析方法、装置、计算机可读介质及电子设备
CN110968671A (zh) * 2019-12-03 2020-04-07 北京声智科技有限公司 一种基于Bert的意图确定方法及装置
CN111061868A (zh) * 2019-11-05 2020-04-24 百度在线网络技术(北京)有限公司 读法预测模型获取及读法预测方法、装置及存储介质
CN111078833A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种基于神经网络的文本分类方法
CN111079985A (zh) * 2019-11-26 2020-04-28 昆明理工大学 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法
CN111143553A (zh) * 2019-12-06 2020-05-12 国家计算机网络与信息安全管理中心 一种实时文本数据流的特定信息识别方法及系统
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法
CN111222327A (zh) * 2019-12-23 2020-06-02 东软集团股份有限公司 一种词嵌入表示方法、装置及设备
CN111260154A (zh) * 2020-02-17 2020-06-09 河海大学 基于cnn-lstm的短期太阳辐射预测方法及装置
CN111325021A (zh) * 2020-02-17 2020-06-23 国家计算机网络与信息安全管理中心 识别微信公众号所属业态的方法及装置
CN111339768A (zh) * 2020-02-27 2020-06-26 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN111353042A (zh) * 2020-02-27 2020-06-30 浙江大学 一种基于深度多任务学习的细粒度文本观点分析方法
CN111414754A (zh) * 2020-03-19 2020-07-14 中国建设银行股份有限公司 一种事件的情感分析方法、装置、服务器及存储介质
CN111414454A (zh) * 2020-03-16 2020-07-14 昆明理工大学 基于bert模型和法条知识的法条推荐处理方法
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN111488455A (zh) * 2020-04-03 2020-08-04 上海携旅信息技术有限公司 模型训练的方法、文本分类的方法、系统、设备及介质
CN111507101A (zh) * 2020-03-03 2020-08-07 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法
CN111563143A (zh) * 2020-07-20 2020-08-21 上海二三四五网络科技有限公司 一种新词的确定方法及装置
CN111581229A (zh) * 2020-03-25 2020-08-25 平安科技(深圳)有限公司 Sql语句的生成方法、装置、计算机设备及存储介质
CN111581966A (zh) * 2020-04-30 2020-08-25 华南师范大学 一种融合上下文特征方面级情感分类方法和装置
CN111597340A (zh) * 2020-05-22 2020-08-28 迪爱斯信息技术股份有限公司 一种文本分类方法及装置、可读存储介质
CN111625641A (zh) * 2020-07-30 2020-09-04 浙江大学 一种基于多维度语义交互表征模型的对话意图识别方法及系统
CN111738015A (zh) * 2020-06-22 2020-10-02 北京百度网讯科技有限公司 文章情感极性分析方法、装置、电子设备及存储介质
CN111797229A (zh) * 2020-06-10 2020-10-20 南京擎盾信息科技有限公司 文本表示方法、装置和文本分类方法
CN111858944A (zh) * 2020-07-31 2020-10-30 电子科技大学 一种基于注意力机制的实体方面级情感分析方法
CN111914560A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 文本蕴含关系识别方法、装置、设备及存储介质
CN111930939A (zh) * 2020-07-08 2020-11-13 泰康保险集团股份有限公司 一种文本检测的方法及装置
CN112101009A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112232087A (zh) * 2020-10-20 2021-01-15 中国民航大学 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112232058A (zh) * 2020-10-15 2021-01-15 济南大学 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN112257442A (zh) * 2020-09-27 2021-01-22 重庆生产力促进中心 一种基于扩充语料库神经网络的政策文件信息提取方法
CN112270615A (zh) * 2020-10-26 2021-01-26 西安邮电大学 基于语义计算的复杂装备制造bom智能分解方法
CN112270187A (zh) * 2020-11-05 2021-01-26 中山大学 一种基于bert-lstm的谣言检测模型
CN112329467A (zh) * 2020-11-03 2021-02-05 腾讯科技(深圳)有限公司 地址识别方法、装置、电子设备以及存储介质
CN112328469A (zh) * 2020-10-22 2021-02-05 南京航空航天大学 一种基于嵌入技术的函数级缺陷定位方法
CN112416956A (zh) * 2020-11-19 2021-02-26 重庆邮电大学 一种基于bert和独立循环神经网络的问句分类方法
CN112463965A (zh) * 2020-12-03 2021-03-09 上海欣方智能系统有限公司 一种对文本的语义理解的方法及系统
CN112528668A (zh) * 2020-11-27 2021-03-19 湖北大学 深层情感语义识别方法、系统、介质、计算机设备及终端
CN112560506A (zh) * 2020-12-17 2021-03-26 中国平安人寿保险股份有限公司 文本语义解析方法、装置、终端设备及存储介质
CN112559730A (zh) * 2020-12-08 2021-03-26 北京京航计算通讯研究所 基于全局性特征提取的文本摘要自动生成方法及系统
CN112597759A (zh) * 2020-11-30 2021-04-02 深延科技(北京)有限公司 一种基于文本的情绪检测方法和装置、计算机设备和介质
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN112733507A (zh) * 2021-01-16 2021-04-30 江苏网进科技股份有限公司 一种自动生成法律文本标记事件的方法
WO2021081945A1 (zh) * 2019-10-31 2021-05-06 深圳市欢太科技有限公司 一种文本分类方法、装置、电子设备及存储介质
CN112883720A (zh) * 2021-01-25 2021-06-01 北京瑞友科技股份有限公司 一种基于双模型的文本情感分类系统及方法
CN112905794A (zh) * 2021-02-24 2021-06-04 珠海高凌信息科技股份有限公司 基于迁移学习的互联网垃圾信息检测方法及系统
CN112905796A (zh) * 2021-03-16 2021-06-04 山东亿云信息技术有限公司 基于再注意力机制的文本情绪分类方法及系统
CN113011126A (zh) * 2021-03-11 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN113065330A (zh) * 2021-03-22 2021-07-02 四川大学 一种从非结构化数据中提取敏感信息的方法
CN113238197A (zh) * 2020-12-29 2021-08-10 杭州电子科技大学 基于Bert和BiLSTM的雷达目标识别及据判方法
CN113362858A (zh) * 2021-07-27 2021-09-07 中国平安人寿保险股份有限公司 语音情感分类方法、装置、设备及介质
CN113378024A (zh) * 2021-05-24 2021-09-10 哈尔滨工业大学 一种基于深度学习面向公检法领域的相关事件识别方法
CN113377901A (zh) * 2021-05-17 2021-09-10 内蒙古工业大学 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法
CN113420807A (zh) * 2021-06-22 2021-09-21 哈尔滨理工大学 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN113435209A (zh) * 2021-06-24 2021-09-24 台州师同人信息技术有限公司 基于共享实验室平台的数据管理方法及系统
WO2021190259A1 (zh) * 2020-03-23 2021-09-30 华为技术有限公司 一种槽位识别方法及电子设备
CN113468324A (zh) * 2021-06-03 2021-10-01 上海交通大学 基于bert预训练模型和卷积网络的文本分类方法和系统
CN113672729A (zh) * 2021-07-31 2021-11-19 广州永链信息技术有限责任公司 敏感信息文本分类方法、装置、设备及存储介质
CN113688235A (zh) * 2021-07-31 2021-11-23 广州永链信息技术有限责任公司 文本多标签分类方法、装置、设备及存储介质
CN113836285A (zh) * 2021-09-26 2021-12-24 平安科技(深圳)有限公司 意图信息预测方法、装置、设备及介质
CN114048288A (zh) * 2021-11-10 2022-02-15 北京明略软件系统有限公司 细粒度情感分析方法、系统、计算机设备和存储介质
CN114357168A (zh) * 2021-12-31 2022-04-15 成都信息工程大学 一种文本分类方法
WO2022088979A1 (zh) * 2020-10-26 2022-05-05 四川大学华西医院 LightGBM集成多个BERT模型用于加速系统评价更新的方法
CN115292568A (zh) * 2022-03-02 2022-11-04 内蒙古工业大学 一种基于联合模型的廉政和民生新闻事件抽取方法
CN115659995A (zh) * 2022-12-30 2023-01-31 荣耀终端有限公司 一种文本情感分析方法和装置
CN116340522A (zh) * 2023-05-26 2023-06-27 品木世纪(北京)营销科技有限公司 一种母婴垂直媒体ugc的情感分类模型的构建方法和装置
CN117056859A (zh) * 2023-08-15 2023-11-14 丁杨 一种对文言文中缺失文字的补全方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528528A (zh) * 2016-10-18 2017-03-22 哈尔滨工业大学深圳研究生院 文本情感分析的方法及装置
US20180268298A1 (en) * 2017-03-15 2018-09-20 Salesforce.Com, Inc. Deep Neural Network-Based Decision Network
CN108647219A (zh) * 2018-03-15 2018-10-12 中山大学 一种结合情感词典的卷积神经网络文本情感分析方法
CN108763216A (zh) * 2018-06-01 2018-11-06 河南理工大学 一种基于中文数据集的文本情感分析方法
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528528A (zh) * 2016-10-18 2017-03-22 哈尔滨工业大学深圳研究生院 文本情感分析的方法及装置
US20180268298A1 (en) * 2017-03-15 2018-09-20 Salesforce.Com, Inc. Deep Neural Network-Based Decision Network
US20180268287A1 (en) * 2017-03-15 2018-09-20 Salesforce.Com, Inc. Probability-Based Guider
CN108647219A (zh) * 2018-03-15 2018-10-12 中山大学 一种结合情感词典的卷积神经网络文本情感分析方法
CN108763216A (zh) * 2018-06-01 2018-11-06 河南理工大学 一种基于中文数据集的文本情感分析方法
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FEIYANG CHEN等: ""Audio-Text Sentiment Analysis using Deep Robust Complementary Fusion of Multi-Features and Multi-Modalities"", 《COMPUTER SCIENCE》 *
MALAK ABDULLAH等: ""SEDAT: Sentiment and Emotion Detection in Arabic Text Using CNN-LSTM Deep Learning"", 《2018 17TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA)》 *
于海燕: ""基于知识嵌入的情感分类研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
高扬: "《人工智能与机器人先进技术丛书 智能摘要与深度学习》", 30 April 2019 *
龚泽阳等: ""基于深度学习的中英文混合短文本情感分析"", 《信息与电脑》 *

Cited By (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532380A (zh) * 2019-07-12 2019-12-03 杭州电子科技大学 一种基于记忆网络的文本情感分类方法
WO2021081945A1 (zh) * 2019-10-31 2021-05-06 深圳市欢太科技有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110826327A (zh) * 2019-11-05 2020-02-21 泰康保险集团股份有限公司 情感分析方法、装置、计算机可读介质及电子设备
CN111061868A (zh) * 2019-11-05 2020-04-24 百度在线网络技术(北京)有限公司 读法预测模型获取及读法预测方法、装置及存储介质
CN111079985A (zh) * 2019-11-26 2020-04-28 昆明理工大学 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法
CN111078833B (zh) * 2019-12-03 2022-05-20 哈尔滨工程大学 一种基于神经网络的文本分类方法
CN110968671A (zh) * 2019-12-03 2020-04-07 北京声智科技有限公司 一种基于Bert的意图确定方法及装置
CN111078833A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种基于神经网络的文本分类方法
CN111143553A (zh) * 2019-12-06 2020-05-12 国家计算机网络与信息安全管理中心 一种实时文本数据流的特定信息识别方法及系统
CN111143553B (zh) * 2019-12-06 2023-04-07 国家计算机网络与信息安全管理中心 一种实时文本数据流的特定信息识别方法及系统
CN111222327A (zh) * 2019-12-23 2020-06-02 东软集团股份有限公司 一种词嵌入表示方法、装置及设备
CN111222327B (zh) * 2019-12-23 2023-04-28 东软集团股份有限公司 一种词嵌入表示方法、装置及设备
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法
CN111260154A (zh) * 2020-02-17 2020-06-09 河海大学 基于cnn-lstm的短期太阳辐射预测方法及装置
CN111325021A (zh) * 2020-02-17 2020-06-23 国家计算机网络与信息安全管理中心 识别微信公众号所属业态的方法及装置
CN111353042B (zh) * 2020-02-27 2023-06-30 浙江大学 一种基于深度多任务学习的细粒度文本观点分析方法
CN111353042A (zh) * 2020-02-27 2020-06-30 浙江大学 一种基于深度多任务学习的细粒度文本观点分析方法
CN111339768A (zh) * 2020-02-27 2020-06-26 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN111339768B (zh) * 2020-02-27 2024-03-05 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN111507101A (zh) * 2020-03-03 2020-08-07 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法
CN111507101B (zh) * 2020-03-03 2020-12-15 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法
CN111414454A (zh) * 2020-03-16 2020-07-14 昆明理工大学 基于bert模型和法条知识的法条推荐处理方法
CN111414454B (zh) * 2020-03-16 2022-07-19 昆明理工大学 基于bert模型和法条知识的法条推荐处理方法
CN111414754A (zh) * 2020-03-19 2020-07-14 中国建设银行股份有限公司 一种事件的情感分析方法、装置、服务器及存储介质
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN111414481B (zh) * 2020-03-19 2023-09-26 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
WO2021190259A1 (zh) * 2020-03-23 2021-09-30 华为技术有限公司 一种槽位识别方法及电子设备
CN111581229B (zh) * 2020-03-25 2023-04-18 平安科技(深圳)有限公司 Sql语句的生成方法、装置、计算机设备及存储介质
CN111581229A (zh) * 2020-03-25 2020-08-25 平安科技(深圳)有限公司 Sql语句的生成方法、装置、计算机设备及存储介质
CN111488455A (zh) * 2020-04-03 2020-08-04 上海携旅信息技术有限公司 模型训练的方法、文本分类的方法、系统、设备及介质
CN111581966B (zh) * 2020-04-30 2023-04-21 华南师范大学 一种融合上下文特征方面级情感分类方法和装置
CN111581966A (zh) * 2020-04-30 2020-08-25 华南师范大学 一种融合上下文特征方面级情感分类方法和装置
CN111597340A (zh) * 2020-05-22 2020-08-28 迪爱斯信息技术股份有限公司 一种文本分类方法及装置、可读存储介质
CN111797229A (zh) * 2020-06-10 2020-10-20 南京擎盾信息科技有限公司 文本表示方法、装置和文本分类方法
CN111738015B (zh) * 2020-06-22 2024-04-12 北京百度网讯科技有限公司 文章情感极性分析方法、装置、电子设备及存储介质
CN111738015A (zh) * 2020-06-22 2020-10-02 北京百度网讯科技有限公司 文章情感极性分析方法、装置、电子设备及存储介质
CN111930939A (zh) * 2020-07-08 2020-11-13 泰康保险集团股份有限公司 一种文本检测的方法及装置
CN111563143A (zh) * 2020-07-20 2020-08-21 上海二三四五网络科技有限公司 一种新词的确定方法及装置
CN111625641A (zh) * 2020-07-30 2020-09-04 浙江大学 一种基于多维度语义交互表征模型的对话意图识别方法及系统
CN111914560A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 文本蕴含关系识别方法、装置、设备及存储介质
CN111858944B (zh) * 2020-07-31 2022-11-22 电子科技大学 一种基于注意力机制的实体方面级情感分析方法
CN111858944A (zh) * 2020-07-31 2020-10-30 电子科技大学 一种基于注意力机制的实体方面级情感分析方法
CN112101009B (zh) * 2020-09-23 2024-03-26 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112101009A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112257442B (zh) * 2020-09-27 2023-01-24 重庆生产力促进中心 一种基于扩充语料库神经网络的政策文件信息提取方法
CN112257442A (zh) * 2020-09-27 2021-01-22 重庆生产力促进中心 一种基于扩充语料库神经网络的政策文件信息提取方法
CN112232058B (zh) * 2020-10-15 2022-11-04 济南大学 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN112232058A (zh) * 2020-10-15 2021-01-15 济南大学 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN112232087B (zh) * 2020-10-20 2022-09-02 中国民航大学 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112232087A (zh) * 2020-10-20 2021-01-15 中国民航大学 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112328469A (zh) * 2020-10-22 2021-02-05 南京航空航天大学 一种基于嵌入技术的函数级缺陷定位方法
CN112270615A (zh) * 2020-10-26 2021-01-26 西安邮电大学 基于语义计算的复杂装备制造bom智能分解方法
WO2022088979A1 (zh) * 2020-10-26 2022-05-05 四川大学华西医院 LightGBM集成多个BERT模型用于加速系统评价更新的方法
CN112329467A (zh) * 2020-11-03 2021-02-05 腾讯科技(深圳)有限公司 地址识别方法、装置、电子设备以及存储介质
CN112270187A (zh) * 2020-11-05 2021-01-26 中山大学 一种基于bert-lstm的谣言检测模型
CN112416956A (zh) * 2020-11-19 2021-02-26 重庆邮电大学 一种基于bert和独立循环神经网络的问句分类方法
CN112528668A (zh) * 2020-11-27 2021-03-19 湖北大学 深层情感语义识别方法、系统、介质、计算机设备及终端
CN112597759A (zh) * 2020-11-30 2021-04-02 深延科技(北京)有限公司 一种基于文本的情绪检测方法和装置、计算机设备和介质
CN112597759B (zh) * 2020-11-30 2024-04-09 深延科技(北京)有限公司 一种基于文本的情绪检测方法和装置、计算机设备和介质
CN112463965A (zh) * 2020-12-03 2021-03-09 上海欣方智能系统有限公司 一种对文本的语义理解的方法及系统
CN112559730A (zh) * 2020-12-08 2021-03-26 北京京航计算通讯研究所 基于全局性特征提取的文本摘要自动生成方法及系统
CN112560506A (zh) * 2020-12-17 2021-03-26 中国平安人寿保险股份有限公司 文本语义解析方法、装置、终端设备及存储介质
CN112560506B (zh) * 2020-12-17 2023-07-25 中国平安人寿保险股份有限公司 文本语义解析方法、装置、终端设备及存储介质
CN113238197A (zh) * 2020-12-29 2021-08-10 杭州电子科技大学 基于Bert和BiLSTM的雷达目标识别及据判方法
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN112733507A (zh) * 2021-01-16 2021-04-30 江苏网进科技股份有限公司 一种自动生成法律文本标记事件的方法
CN112733507B (zh) * 2021-01-16 2023-06-09 江苏网进科技股份有限公司 一种自动生成法律文本标记事件的方法
CN112883720A (zh) * 2021-01-25 2021-06-01 北京瑞友科技股份有限公司 一种基于双模型的文本情感分类系统及方法
CN112905794A (zh) * 2021-02-24 2021-06-04 珠海高凌信息科技股份有限公司 基于迁移学习的互联网垃圾信息检测方法及系统
CN112905794B (zh) * 2021-02-24 2023-01-06 珠海高凌信息科技股份有限公司 基于迁移学习的互联网垃圾信息检测方法及系统
CN113011126A (zh) * 2021-03-11 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN113011126B (zh) * 2021-03-11 2023-06-30 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN112905796A (zh) * 2021-03-16 2021-06-04 山东亿云信息技术有限公司 基于再注意力机制的文本情绪分类方法及系统
CN112905796B (zh) * 2021-03-16 2023-04-18 山东亿云信息技术有限公司 基于再注意力机制的文本情绪分类方法及系统
CN113065330A (zh) * 2021-03-22 2021-07-02 四川大学 一种从非结构化数据中提取敏感信息的方法
CN113377901A (zh) * 2021-05-17 2021-09-10 内蒙古工业大学 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法
CN113377901B (zh) * 2021-05-17 2022-08-19 内蒙古工业大学 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法
CN113378024A (zh) * 2021-05-24 2021-09-10 哈尔滨工业大学 一种基于深度学习面向公检法领域的相关事件识别方法
CN113378024B (zh) * 2021-05-24 2023-09-01 哈尔滨工业大学 一种基于深度学习面向公检法领域的相关事件识别方法
CN113468324A (zh) * 2021-06-03 2021-10-01 上海交通大学 基于bert预训练模型和卷积网络的文本分类方法和系统
CN113420807A (zh) * 2021-06-22 2021-09-21 哈尔滨理工大学 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN113435209A (zh) * 2021-06-24 2021-09-24 台州师同人信息技术有限公司 基于共享实验室平台的数据管理方法及系统
CN113362858A (zh) * 2021-07-27 2021-09-07 中国平安人寿保险股份有限公司 语音情感分类方法、装置、设备及介质
CN113362858B (zh) * 2021-07-27 2023-10-31 中国平安人寿保险股份有限公司 语音情感分类方法、装置、设备及介质
CN113672729A (zh) * 2021-07-31 2021-11-19 广州永链信息技术有限责任公司 敏感信息文本分类方法、装置、设备及存储介质
CN113688235A (zh) * 2021-07-31 2021-11-23 广州永链信息技术有限责任公司 文本多标签分类方法、装置、设备及存储介质
CN113836285A (zh) * 2021-09-26 2021-12-24 平安科技(深圳)有限公司 意图信息预测方法、装置、设备及介质
CN114048288A (zh) * 2021-11-10 2022-02-15 北京明略软件系统有限公司 细粒度情感分析方法、系统、计算机设备和存储介质
CN114357168A (zh) * 2021-12-31 2022-04-15 成都信息工程大学 一种文本分类方法
CN114357168B (zh) * 2021-12-31 2022-08-02 成都信息工程大学 一种文本分类方法
CN115292568A (zh) * 2022-03-02 2022-11-04 内蒙古工业大学 一种基于联合模型的廉政和民生新闻事件抽取方法
CN115292568B (zh) * 2022-03-02 2023-11-17 内蒙古工业大学 一种基于联合模型的民生新闻事件抽取方法
CN115659995A (zh) * 2022-12-30 2023-01-31 荣耀终端有限公司 一种文本情感分析方法和装置
CN116340522A (zh) * 2023-05-26 2023-06-27 品木世纪(北京)营销科技有限公司 一种母婴垂直媒体ugc的情感分类模型的构建方法和装置
CN117056859A (zh) * 2023-08-15 2023-11-14 丁杨 一种对文言文中缺失文字的补全方法

Similar Documents

Publication Publication Date Title
CN110334210A (zh) 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
Liao et al. CNN for situations understanding based on sentiment analysis of twitter data
CN110287481B (zh) 命名实体语料标注训练系统
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN109255119A (zh) 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN108959270A (zh) 一种基于深度学习的实体链接方法
CN106844349B (zh) 基于协同训练的垃圾评论识别方法
CN108182295A (zh) 一种企业知识图谱属性抽取方法及系统
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN112966079B (zh) 一种用于对话系统的面向事件画像的文本分析方法
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
CN112417854A (zh) 中文文档抽取式摘要方法
CN115392259B (zh) 一种基于对抗训练融合bert的微博文本情感分析方法及系统
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
Stewart et al. Seq2kg: an end-to-end neural model for domain agnostic knowledge graph (not text graph) construction from text
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
Thattinaphanich et al. Thai named entity recognition using Bi-LSTM-CRF with word and character representation
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191015