CN111414475A - 文本情感信息的识别方法和装置 - Google Patents
文本情感信息的识别方法和装置 Download PDFInfo
- Publication number
- CN111414475A CN111414475A CN202010138855.6A CN202010138855A CN111414475A CN 111414475 A CN111414475 A CN 111414475A CN 202010138855 A CN202010138855 A CN 202010138855A CN 111414475 A CN111414475 A CN 111414475A
- Authority
- CN
- China
- Prior art keywords
- text
- data
- word
- emotion
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000013499 data model Methods 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000006243 chemical reaction Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 3
- 238000004904 shortening Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003319 supportive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种文本情感信息的识别方法和装置。所述方法包括:对获取的数据进行处理,得到文本数据集,其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据;将所述文本数据集中的文本转换为词向量;利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型;利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。
Description
技术领域
本申请实施例涉及信息处理领域,尤指一种文本情感信息的识别方法和装置。
背景技术
在电商行业和新媒体的业务场景中,会产生大量的文本数据,比如对商品或服务的评价、对影视或音乐作品的评论以及社交媒体上发表的评论观点等。针对上述文本数据,可以通过对这些大量的文本数据做出分类,例如,分类比如是表达喜欢或是厌恶,支持或是反对的情感。
在相关技术中,基于关键词的情感分析方法包括:通过使用预先标记好的词汇字典,将待分析的文本做分词处理后,用得到的单词和词典中的词汇做匹配,根据匹配到的词汇,确定该文本中表示积极或消极的词汇,并按照一定的规则计分处理;最后,利用得到的分数来判断该文本的情感是积极还是消极。
在实际应用中,基于关键词的情感分析方法的结果,通常维护成本较高,并且在业务场景上的局限性和错误率在技术层面难以消除。
发明内容
为了解决上述任一技术问题,本申请实施例提供了一种文本情感信息的识别方法和装置。
为了达到本申请实施例目的,本申请实施例提供了一种文本情感信息的识别方法,包括:
对获取的数据进行处理,得到文本数据集,其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据;
将所述文本数据集中的文本转换为词向量;
利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型;
利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。
在一个示例性实施例中,所述对获取的数据进行处理,得到文本数据集,包括:
对获取到的每条数据进行分字处理,并保留所述每条数据中的停用词,得到文本数据集,其中分字处理是以每个中文汉字为单位或者以每个英文单词为例单位执行的。
在一个示例性实施例中,所述将所述文本数据集中的文本转换为词向量,包括:
将文本数据集中每条文本转换为词向量;
利用预先存储的词嵌入模型,将文本数据集中每条文本对应的文本向量的维度数量进行缩短操作,得到从离散的词向量处理成紧凑的词向量的结果。
在一个示例性实施例中,所述利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型,包括:
将词向量传入长短期记忆LSTM网络的嵌入层;
控制所述嵌入层上连接的词向量中的序列信息在所述LSTM的递归链接网络中传输,并通过输出层输出文本的情感信息的识别结果。
在一个示例性实施例中,所述对获取的数据进行处理,得到文本数据集之后,包括:
获取所述文本数据集中文本长度的分布信息;
根据所述文本分布信息,确定所述文本长度的基准值;
将所述文本数据集中的文本转换为词向量,包括:
利用所述文本的基准值对所述文本数据集中的文本进行筛选,得到满足所述文本的基准值的目标文本;
对所述目标文本进行词向量转换的操作。
一种文本情感信息的识别装置,包括:
处理模块,用于对获取的数据进行处理,得到文本数据集,其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据;
转换模块,用于将所述文本数据集中的文本转换为词向量;
训练模块,用于利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型;
识别模块,用于利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。
在一个示例性实施例中,所述处理模块具体用于:
对获取到的每条数据进行分字处理,并保留所述每条数据中的停用词,得到文本数据集,其中分字处理是以每个中文汉字为单位或者以每个英文单词为例单位执行的。
在一个示例性实施例中,所述转换模块包括:
转换单元,用于将文本数据集中每条文本转换为词向量;
嵌入单元,用于利用预先存储的词嵌入模型,将文本数据集中每条文本对应的文本向量的维度数量进行缩短操作,得到从离散的词向量处理成紧凑的词向量的结果。
在一个示例性实施例中,所述训练模块包括:
传入单元,用于将词向量传入长短期记忆LSTM网络的嵌入层;
控制单元,用于控制所述嵌入层上连接的词向量中的序列信息在所述LSTM的递归链接网络中传输,并通过输出层输出文本的情感信息的识别结果。
在一个示例性实施例中,所述装置还包括:
获取模块,用于在得到文本数据集后,获取所述文本数据集中文本长度的分布信息;
确定模块,用于根据所述文本分布信息,确定所述文本长度的基准值;
所述转换模块,包括:
筛选单元,用于利用所述文本的基准值对所述文本数据集中的文本进行筛选,得到满足所述文本的基准值的目标文本;
转换单元,用于对所述目标文本进行词向量转换的操作。
本申请实施例提供的方案,对获取的数据进行处理,得到文本数据集,将所述文本数据集中的文本转换为词向量,并利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型,再利用所述情绪数据模型对接收的数据中所表达的情绪进行分类,实现利用情绪数据模型代替词典的目的,降低维护成本,并提高情绪模型的迁移性。
本申请实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请实施例的实施例一起用于解释本申请实施例的技术方案,并不构成对本申请实施例技术方案的限制。
图1为本申请实施例提供的文本情感信息的识别方法的流程图;
图2为本申请实施例提供的样本长度的分布示意图;
图3为本申请实施例提供的句子长度累积分布函数的示意图;
图4为本申请实施例提供的文本转换词向量操作的示意图;
图5为本申请实施例提供的模型训练的正确率的示意图;
图6为本申请实施例提供的模型训练的损失值的示意图;
图7为本申请实施例提供的文本情感信息的识别装置的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互任意组合。
在实现本申请过程中,发明人发现基于关键词的情感分析方法存在以下问题,包括:
1.预标记词汇词典需要人工生成:分类所依据的词典目前都是通过人工维护的,维护成本较高;另外,分类结果依赖于词典中词汇的准确程度。
2.情感分析结果的局限性:基于固定的词典进行分类;在不同的业务场景下,所需要的词典往往有所差异,意味着对于不同的业务,需要不同的预标记词典,因此,依照词典进行分类的方式,词典的可迁移性较差。
为解决上述问题,本申请提出如下解决方案,包括:
图1为本申请实施例提供的文本情感信息的识别方法的流程图。如图1所示,图1所示方法包括:
步骤101、对获取的数据进行处理,得到文本数据集,其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据;
在一个示例性实施例中,将获取到的数据的编码格式统一转换为utf-8编码,在对编码后的文本数据进行预处理,该预处理操作包括对文本的内容进行分字操作。
其中,所述对获取的数据进行处理,得到文本数据集,包括:
对获取到的每条数据进行分字处理,并保留所述每条数据中的停用词,得到文本数据集,其中分字处理是以每个中文汉字为单位或者以每个英文单词为例单位执行的。
通过完成分字操作完成文本的预处理;并通过保留停用词,为后续情绪分析提供参考。
步骤102、将所述文本数据集中的文本转换为词向量;
发明人发现,由于简单的文本向量往往得到的是相当稀疏的矩阵,即One-Hot编码,该编码是把文本中所含的词的编号的位置置为1作为文本向量,这样得到的文本向量矩阵因为数据过于离散,不适合进行深度学习模型训练,所以需要将向量维数进行一定程度的缩减。
在一个示例性实施例中,所述将所述文本数据集中的文本转换为词向量,包括:
将文本数据集中每条文本转换为词向量;
利用预先存储的词嵌入模型,将文本数据集中每条文本对应的文本向量的维度数量进行缩短操作,得到从离散的词向量处理成紧凑的词向量的结果。
通过将文本处理成紧凑的向量,将文本向量从高维度转换为低维度的向量。利用低维向量来进行训练,能够达到更好的训练效果。
步骤103、利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型;
在一个示例性实施例中,神经网络可以为LSTM(Long Short Term Memory,长短期记忆)算法,属于RNN循环神经网络的一种,该算法擅长对时间序列中间隔和延迟较长的事件做处理和分析。本申请中对大量的文本数据做出情感分类。
在一个示例性实施例中,所述利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型,包括:
将词向量传入LSTM网络的嵌入层;
控制所述嵌入层上连接的词向量中的序列信息在所述LSTM的递归链接网络中传输,并通过输出层输出文本的情感信息的识别结果。
因为分字数量太多,将词向量传入嵌入(embedding)层,使用嵌入式词向量来表示单词更有效率。通过embedding层,新的分字可以表示为传入LSTM的cells。在LSTM的递归链接网络中单词的序列信息会在网络之间传递,并最终连接一个sigmoid output layer。使用sigmoid可以预测该文本是积极的还是消极的情感。输出层只有一个单元节点,并使用sigmoid激活。由于只需要关注最后一个sigmoid的输出,损失只计算最后一步的输出和标签的差异,提高处理的效率。
步骤104、利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。
在一个示例性实施例中,与利用词典进行情绪识别操作相比,利用情绪数据模型代替词典的功能,并通过得到的训练结果对接收的数据出携带的情绪信息进行识别,提高识别的准确性和工作效率。
本申请实施例提供的方法,对获取的数据进行处理,得到文本数据集,将所述文本数据集中的文本转换为词向量,并利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型,再利用所述情绪数据模型对接收的数据中所表达的情绪进行分类,实现利用情绪数据模型代替词典的目的,降低维护成本,并提高情绪模型的迁移性。
在一个示例性实施例中,在步骤101之后,所述方法还包括:
获取所述文本数据集中文本长度的分布信息;
根据所述文本分布信息,确定所述文本长度的基准值;
所述步骤102具体包括:
利用所述文本的基准值对所述文本数据集中的文本进行筛选,得到满足所述文本的基准值的目标文本;
对所述目标文本进行词向量转换的操作。
通过对文本长度的基准值的确定,保持样本数据的长度的一致性,方便后续的词向量的转换和样本数据的训练操作。
下面对本申请实施例提供的方法进行说明:
本申请方案通过导入的数据,得到训练数据;再确定训练数据中每个样本长度,通过数据可视化的方法,确定文本数据集中的文本长度分布;基于该文本长度分布信息,对样本文本集中样本长度进行筛选;对筛选后的样本文本集中的文本进行词向量的转换,再利用词向量进行模型训练,得到模型;并通过验证数据对得到模型进行正确率和损失值的指标的评估。
下面对上述流程进行说明:
1.导入数据,文本预处理:
在相关技术中,在得到样本文档后,需要对文档做预处理,这里的预处理主要是去停用词和分词操作。其中,在相关技术中,中文分词处理中经常使用的就是jieba分词。
在本申请实施例中,发明人发现使用jieba分词最后得到的准确率在90%,且有过拟合的问题。因此,本申请提出改用分字处理的方法,以克服上述问题。采用直接分字的方法,即将中文单字分为一个字,英文单词分为一个字。
发明人发现,相关技术中去停用词是由于停用词在文本中对语义的影响不明显的词,在分词的同时可以将这些停用词去掉。在分析情绪信息时,如果采集到的样本不是十分充足,不执行停用词的处理,将停用词存在着一些情感信息保留,能够帮助情绪信息的分析。
2.通过数据可视化确定训练数据中每个样本的长度:
本申请以所使用的数据集来自某电商中的商品评论为例进行说明,其中包含25000条数据,正向数据和负项数据各12500条。计算每条评论中的文字长度,得到长度分布图如图2所示,图2为本申请实施例提供的样本长度的分布示意图。如图2所示,大多数样本的句子长度集中在1-200之间。
图3为本申请实施例提供的句子长度累积分布函数的示意图。如图3所示,句子长度累计频率取0.91分位点,则长度为183左右,以长度为183为文本的基准值,作为后续样本的筛选的基准值,以保证样本的长度的一致性。
3.文本向量化:
由于简单的文本向量往往得到的是相当稀疏的矩阵,即One-Hot编码,该编码是把文本中所含的词的编号的位置置为1作为文本向量。这样得到的文本向量矩阵因为数据过于离散,不适合进行深度学习模型训练,所以需要将向量维数进行一定程度的缩减。
对分字处理后的文本进行向量化,以使用word2Vec为例进行说明,word2Vec就能够较好的解决这个问题,将文本处理成比较紧凑的向量用深度学习。Word2Vec将文本处理成相对紧凑的向量,这个过程称为词嵌入(embedding),词嵌入本身也是一个神经网络模型。在训练完成之后,就能得到每个词所对应的低维向量。而这个低维向量来进行训练,能够达到较好的训练效果。
4.构建LSTM网络
因为分字数量太多,将词向量传入嵌入(embedding)层,使用嵌入式词向量来表示单词更有效率。通过embedding层,新的分字可以表示为传入LSTM的cells。在LSTM的递归链接网络中单词的序列信息会在网络之间传递,并最终连接一个sigmoid output layer。使用sigmoid可以预测该文本是积极的还是消极的情感。输出层只有一个单元节点,并使用sigmoid激活。由于只需要关注最后一个sigmoid的输出,损失只计算最后一步的输出和标签的差异,提高处理的效率。
5.超参数调整:
在构建完成LSTM网络后,需要去定义一些超参数,本方法中定义批处理大小(batchSize)、LSTM的单元个数位(lstmUnits)、分类类别(numClasses)和训练次数iterations中至少一个,例如,设置如下数值,包括
batchSize=24;
lstmUnits=64;
numClasses=2;
iterations=50000;
另外,还可以指定两个占位符,一个用于数据输入,另一个用于标签数据。对于占位符,需要确定对应的维度。标签占位符代表一组值,每一个值都为[1,0]或者[0,1],这个取决于数据是正向的还是负向的。输入占位符,是一个整数化的索引数组。
在完成上述配置后,接下来将上述步骤得到的数据输入到LSTM网络中,依次执行如下步骤,包括:
步骤01、调用用于配置LSTM单元个数的函数,例如,函数名称为tf.nn.rnn_cell.BasicLSTMCell函数,这个函数输入的参数是一个整数,表示需要的LSTM单元个数。这是设置的一个超参数,需要对这个数值进行调试从而来找到最优的解。
步骤02、设置用于判断过拟合的参数,可以设置一个dropout参数,以此来避免出现过拟合现象。最后,将LSTM cell和三维的数据输入到tf.nn.dynamic_rnn,这个函数的功能是展开整个网络,并且构建一整个RNN模型。
步骤03、设置正确的预测函数和正确率评估参数。正确的预测形式是查看最后输出的0-1向量是否和标记的0-1向量相同。
步骤04,使用一个标准的交叉熵损失函数来作为损失值。对于优化器,本方法中选择Adam,并且采用默认的学习率。
6.模型训练:
在训练过程中,先定义一个TensorFlow会话,然后,加载一批评论和对应的标签。接下来调用会话的run函数。run函数有两个参数,fetches参数和feed_dict参数,前者定义了用户感兴趣的值,通过优化器来最小化损失函数。后者是提供的占位符。需要将一个批处理的评论和标签输入模型,然后不断对这一组训练数据进行循环训练。
训练的正确率和损失变化参见附图4和图5。如图4所示,训练的正确率在接近100%,如图5所示,损失值在稳定下降。
当继续分析训练曲线时,会出现模型在训练集上面已经过拟合了。在训练LSTM时,采用提前终止训练来防止过拟合。具体实现方式在训练的同时,在测试集上评估性能,当测试误差停止下降或者增大时刻,表示模型的性能开始过拟合了,需要停止训练。
本申请实施例带来的技术效果包括:
1.利用LSTM模型对样本文本训练,相对预标记词典的方法,减少了维护成本,且在一定程度上提高了准确率;
2.基于LSTM模型的文本分类,是利用相关的样本数据训练得到的,可以适用于不同的业务场景下,比如商品评论、影评等的情感分析,便于迁移,灵活性较高。
图7为本申请实施例提供的文本情感信息的识别装置的结构图。如图7所示,图7所示装置包括:
处理模块,用于对获取的数据进行处理,得到文本数据集,其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据;
转换模块,用于将所述文本数据集中的文本转换为词向量;
训练模块,用于利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型;
识别模块,用于利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。
在一个示例性实施例中,所述处理模块具体用于:
对获取到的每条数据进行分字处理,并保留所述每条数据中的停用词,得到文本数据集,其中分字处理是以每个中文汉字为单位或者以每个英文单词为例单位执行的。
在一个示例性实施例中,所述转换模块包括:
转换单元,用于将文本数据集中每条文本转换为词向量;
嵌入单元,用于利用预先存储的词嵌入模型,将文本数据集中每条文本对应的文本向量的维度数量进行缩短操作,得到从离散的词向量处理成紧凑的词向量的结果。
在一个示例性实施例中,所述训练模块包括:
传入单元,用于将词向量传入LSTM网络的嵌入层;
控制单元,用于控制所述嵌入层上连接的词向量中的序列信息在所述LSTM的递归链接网络中传输,并通过输出层输出文本的情感信息的识别结果。
在一个示例性实施例中,所述装置还包括:
获取模块,用于在得到文本数据集后,获取所述文本数据集中文本长度的分布信息;
确定模块,用于根据所述文本分布信息,确定所述文本长度的基准值;
所述转换模块,包括:
筛选单元,用于利用所述文本的基准值对所述文本数据集中的文本进行筛选,得到满足所述文本的基准值的目标文本;
转换单元,用于对所述目标文本进行词向量转换的操作。
本申请实施例提供的装置,对获取的数据进行处理,得到文本数据集,将所述文本数据集中的文本转换为词向量,并利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型,再利用所述情绪数据模型对接收的数据中所表达的情绪进行分类,实现利用情绪数据模型代替词典的目的,降低维护成本,同时提高情绪模型的迁移性。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (10)
1.一种文本情感信息的识别方法,其特征在于,包括:
对获取的数据进行处理,得到文本数据集,其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据;
将所述文本数据集中的文本转换为词向量;
利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型;
利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。
2.根据权利要求1所述的方法,其特征在于,所述对获取的数据进行处理,得到文本数据集,包括:
对获取到的每条数据进行分字处理,并保留所述每条数据中的停用词,得到文本数据集,其中分字处理是以每个中文汉字为单位或者以每个英文单词为例单位执行的。
3.根据权利要求1所述的方法,其特征在于,所述将所述文本数据集中的文本转换为词向量,包括:
将文本数据集中每条文本转换为词向量;
利用预先存储的词嵌入模型,将文本数据集中每条文本对应的文本向量的维度数量进行缩短操作,得到从离散的词向量处理成紧凑的词向量的结果。
4.根据权利要求1所述的方法,其特征在于,所述利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型,包括:
将词向量传入长短期记忆LSTM网络的嵌入层;
控制所述嵌入层上连接的词向量中的序列信息在所述LSTM的递归链接网络中传输,并通过输出层输出文本的情感信息的识别结果。
5.根据权利要求1至4任一所述的方法,其特征在于:
所述对获取的数据进行处理,得到文本数据集之后,包括:
获取所述文本数据集中文本长度的分布信息;
根据所述文本分布信息,确定所述文本长度的基准值;
将所述文本数据集中的文本转换为词向量,包括:
利用所述文本的基准值对所述文本数据集中的文本进行筛选,得到满足所述文本的基准值的目标文本;
对所述目标文本进行词向量转换的操作。
6.一种文本情感信息的识别装置,其特征在于,包括:
处理模块,用于对获取的数据进行处理,得到文本数据集,其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据;
转换模块,用于将所述文本数据集中的文本转换为词向量;
训练模块,用于利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型;
识别模块,用于利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。
7.根据权利要求6所述的装置,其特征在于,所述处理模块具体用于:
对获取到的每条数据进行分字处理,并保留所述每条数据中的停用词,得到文本数据集,其中分字处理是以每个中文汉字为单位或者以每个英文单词为例单位执行的。
8.根据权利要求6所述的装置,其特征在于,所述转换模块包括:
转换单元,用于将文本数据集中每条文本转换为词向量;
嵌入单元,用于利用预先存储的词嵌入模型,将文本数据集中每条文本对应的文本向量的维度数量进行缩短操作,得到从离散的词向量处理成紧凑的词向量的结果。
9.根据权利要求6所述的装置,其特征在于,所述训练模块包括:
传入单元,用于将词向量传入长短期记忆LSTM网络的嵌入层;
控制单元,用于控制所述嵌入层上连接的词向量中的序列信息在所述LSTM的递归链接网络中传输,并通过输出层输出文本的情感信息的识别结果。
10.根据权利要求6至9任一所述的装置,其特征在于,所述装置还包括:
获取模块,用于在得到文本数据集后,获取所述文本数据集中文本长度的分布信息;
确定模块,用于根据所述文本分布信息,确定所述文本长度的基准值;
所述转换模块,包括:
筛选单元,用于利用所述文本的基准值对所述文本数据集中的文本进行筛选,得到满足所述文本的基准值的目标文本;
转换单元,用于对所述目标文本进行词向量转换的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010138855.6A CN111414475A (zh) | 2020-03-03 | 2020-03-03 | 文本情感信息的识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010138855.6A CN111414475A (zh) | 2020-03-03 | 2020-03-03 | 文本情感信息的识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111414475A true CN111414475A (zh) | 2020-07-14 |
Family
ID=71492776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010138855.6A Pending CN111414475A (zh) | 2020-03-03 | 2020-03-03 | 文本情感信息的识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414475A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069316A (zh) * | 2020-09-03 | 2020-12-11 | 常州微亿智造科技有限公司 | 情绪识别方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919673A (zh) * | 2017-02-21 | 2017-07-04 | 浙江工商大学 | 基于深度学习的文本情绪分析系统 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109933664A (zh) * | 2019-03-12 | 2019-06-25 | 中南大学 | 一种基于情感词嵌入的细粒度情绪分析改进方法 |
CN110162626A (zh) * | 2019-04-26 | 2019-08-23 | 湘潭大学 | 一种基于双向lstm的舆情情感热度熵的计算方法 |
CN110222184A (zh) * | 2019-06-13 | 2019-09-10 | 广东工业大学 | 一种文本的情感信息识别方法及相关装置 |
-
2020
- 2020-03-03 CN CN202010138855.6A patent/CN111414475A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919673A (zh) * | 2017-02-21 | 2017-07-04 | 浙江工商大学 | 基于深度学习的文本情绪分析系统 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109933664A (zh) * | 2019-03-12 | 2019-06-25 | 中南大学 | 一种基于情感词嵌入的细粒度情绪分析改进方法 |
CN110162626A (zh) * | 2019-04-26 | 2019-08-23 | 湘潭大学 | 一种基于双向lstm的舆情情感热度熵的计算方法 |
CN110222184A (zh) * | 2019-06-13 | 2019-09-10 | 广东工业大学 | 一种文本的情感信息识别方法及相关装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069316A (zh) * | 2020-09-03 | 2020-12-11 | 常州微亿智造科技有限公司 | 情绪识别方法和装置 |
CN112069316B (zh) * | 2020-09-03 | 2021-08-24 | 常州微亿智造科技有限公司 | 情绪识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992668B (zh) | 一种基于自注意力的企业舆情分析方法和装置 | |
CN111177326A (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
KR20200127020A (ko) | 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체 | |
CN110245227B (zh) | 文本分类的融合分类器的训练方法及设备 | |
CN111860237B (zh) | 一种视频情感片段的识别方法及装置 | |
Lopes et al. | An AutoML-based approach to multimodal image sentiment analysis | |
CN110046223B (zh) | 基于改进型卷积神经网络模型的影评情感分析方法 | |
CN113705733A (zh) | 医疗票据图像处理方法及装置、电子设备、存储介质 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN109086265A (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN110750978A (zh) | 情感倾向分析方法、装置、电子设备及存储介质 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN112836053A (zh) | 用于工业领域的人机对话情感分析方法及系统 | |
CN114818718A (zh) | 合同文本识别方法及装置 | |
CN114118113A (zh) | 一种基于语境识别的机器翻译方法 | |
CN114419394A (zh) | 一种数据有限和不平衡的语义软标签图像识别方法及装置 | |
CN111414475A (zh) | 文本情感信息的识别方法和装置 | |
CN117115505A (zh) | 一种结合知识蒸馏与对比学习的情感增强继续训练方法 | |
CN116361454A (zh) | 一种基于Bloom分类法的课程教学案例自动评估方法 | |
CN115908933A (zh) | 半监督分类模型训练、图像分类方法和装置 | |
CN112860900B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN117235271A (zh) | 信息抽取方法、装置、计算机存储介质及电子设备 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN113987254A (zh) | 基于计算机视觉的图书图像检索方法 | |
CN114781485A (zh) | 文本分类方法、装置、计算机设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200714 |