CN115544255A

CN115544255A - 微博数据正负面识别方法

Info

Publication number: CN115544255A
Application number: CN202211246647.3A
Authority: CN
Inventors: 郝静
Original assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Current assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-12-30

Abstract

本发明公开了微博数据正负面识别方法，包括以下步骤：S1、预处理；S2、文本分词；S3、训练词向量；S4、生成字向量矩阵；S5、生成词向量矩阵；S6、生成字向量与词向量拼接矩阵；S7、获得识别结果。本发明通过先将微博杂质文本过滤，避免无效语句影响模型效果，同时使用了海量分词，对文本进行分析并对特殊词进行归一化处理，减少对模型的影响，同时使用了bert模型和word2vec模型，融合了bert模型基于句子的字向量表示和基于上下文的词向量表示，丰富了文本的特征表示，由此作为textcnn深度学习模型，训练出的准确率更高，从而实现了可以高效并准确识别短文本情感的正负面。

Description

微博数据正负面识别方法

技术领域

本发明涉及数据处理技术领域，具体为微博数据正负面识别方法。

背景技术

21世纪以来，随着网络的普及，人们也愿意在微博等一些短文本平台上发表与交流自己的观点，因此短文本的情感正负面识别的研究变得尤为重要。目前现有的短文分类主要有两种，基于规则的方式和基于深度学习的方式。

基于规则方式，需要人工收录情感，构建情感词典，根据文本中出现的情感词来进行特征提取，并计算正负面结果。

基于深度学习的文本分类方法，先使用one-hot、word2vec等方式做词嵌入，将文本表示成向量，再通过CNN/RNN/LSTM等深度学习模型自动获取特征表达方式，实现情感正负面分类。

但是现有技术在实际使用时：

基于规则的方法灵活性较差，由于网络语言普及，新型词汇层出不穷，需要人工做大量工作收录情感知识，比较被动；

基于深度学习的方法中：one-hot方式生成的向量维度过大且稀疏，容易在计算过程中爆炸，且没有结合上下文，导致短文本的表达效果不理想；

word2vec虽然结合了上下文，但由于受限于训练时上下文滑窗口长度大小，导致无法理解整句中所有词的相关性，也使得短文本表达效果欠佳。

因此上述基于规则的方式和基于深度学习的方式均无法高效准确地对短文本的情感进行正负面识别。

发明内容

本发明的目的在于提供微博数据正负面识别方法，以解决基于规则的方式和基于深度学习的方式均无法高效准确地对短文本的情感进行正负面识别的问题。

为实现上述目的，本发明提供如下技术方案：包括以下步骤：

S1、预处理：去除微博短文本中的杂质语句；

S2、文本分词：通过海量分词算法对步骤S1中去除杂质语句后的短文本进行分词归一化处理；

S3、训练词向量：将步骤S2中完成分词归一化处理后的训练语料使用word2vec模型训练词向量；

S4、生成字向量矩阵：加载谷歌预训练的bert模型，将步骤S1中过滤杂质语句后的短文本转成字向量矩阵；

S5、生成词向量矩阵：将步骤S3中训练好的词向量转化成词向量矩阵；

S6、生成字向量与词向量拼接矩阵：将步骤S4中的字向量矩阵与步骤S5中的词向量矩阵进行拼接，并活动字向量矩阵与词向量矩阵的拼接矩阵；

S7、获得识别结果：将步骤S6中的生成的拼接矩阵作为textcnn深度学习模型训练的输入训练模型，并计训练出最优模型，得到数据正负面的分类结果。

优选的，所述步骤S1中杂质语句包括但不限于常用的表情符号、转发和话题的无效信息内容。

优选的，所述步骤S2中海量分词算法是由通过结合人民日报以及互联网文本收集加人工整理的专用词知识，使用开源trie树算法实现快速知识的扫描匹配，并结合HMM和Viterbi双重算法组成。

优选的，所述步骤S2中海量分词算法提取出短文本中的时间、地点、数量词、人名、机构名、停用词和标点符号使用归一化处理，并将上述专有词汇统一映射成TIME_HY、LOC_HY、NUM_HY、NAME_HY、ORG_HY、STOP_HY和PUNC_HY的训练语料。

优选的，所述步骤S7中textcnn深度学习模型结构包括输入层、卷积层、池化层和全连接层。

与现有技术相比，本发明的有益效果是：

1、本发明通过先将微博杂质文本过滤，避免无效语句影响模型效果，同时使用了海量分词，对文本进行分析并对特殊词进行归一化处理，减少对模型的影响，同时使用了bert模型和word2vec模型，融合了bert模型基于句子的字向量表示和基于上下文的词向量表示，丰富了文本的特征表示，由此作为textcnn深度学习模型，训练出的准确率更高，从而实现了可以高效并准确识别短文本情感的正负面。

附图说明

图1为本发明微博数据正负面识别方法整体流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：包括以下步骤：

S1、预处理：去除微博短文本中的杂质语句；

步骤S1中杂质语句包括但不限于常用的表情符号、转发和话题的无效信息内容。

步骤S2中海量分词算法是由通过结合人民日报以及互联网文本收集加人工整理的专用词知识，使用开源trie树算法实现快速知识的扫描匹配，并结合HMM和Viterbi双重算法组成。

步骤S2中海量分词算法提取出短文本中的时间、地点、数量词、人名、机构名、停用词和标点符号使用归一化处理，并将上述专有词汇统一映射成TIME_HY、LOC_HY、NUM_HY、NAME_HY、ORG_HY、STOP_HY和PUNC_HY的训练语料。

步骤S7中textcnn深度学习模型结构包括输入层、卷积层、池化层和全连接层，输入层为经word2vec处理的n*k二维矩阵，矩阵每一行代表一个长度为k的词向量；卷积层采用多个h*k的卷积核对输入层数据进行局部特征提取，之后由池化层的1-max pooling对卷积层特征进行抽象提取，提取出的多个特征被拼接为一个一维向量，最后该向量经全连接层特征映射得到文本特征。

通过先将微博杂质文本过滤，避免无效语句影响模型效果，同时使用了海量分词，对文本进行分析并对特殊词进行归一化处理，减少对模型的影响，同时使用了bert模型和word2vec模型，融合了bert模型基于句子的字向量表示和基于上下文的词向量表示，丰富了文本的特征表示，由此作为textcnn深度学习模型，训练出的准确率更高，从而实现了可以高效并准确识别短文本情感的正负面，本发明使用海量分词算法将分词后的文本归一化处理，有效地减小对textcnn深度学习模型的影响，同时通过融合bert和word2vec作为新的文本表示，丰富了文本的特征表示，有助于textcnn深度学习模型准确识别短文本情感的正负面，通过textcnn深度学习模型，利用卷积核，关注文本局部特征且降低文本表示维度，进一步提高识别短文本情感正负面的准确度。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.微博数据正负面识别方法，其特征在于：包括以下步骤：

S1、预处理：去除微博短文本中的杂质语句；

2.根据权利要求1所述的微博数据正负面识别方法，其特征在于：所述步骤S1中杂质语句包括但不限于常用的表情符号、转发和话题的无效信息内容。

3.根据权利要求1所述的微博数据正负面识别方法，其特征在于：所述步骤S2中海量分词算法是由通过结合人民日报以及互联网文本收集加人工整理的专用词知识，使用开源trie树算法实现快速知识的扫描匹配，并结合HMM和Viterbi双重算法组成。

4.根据权利要求1所述的微博数据正负面识别方法，其特征在于：所述步骤S2中海量分词算法提取出短文本中的时间、地点、数量词、人名、机构名、停用词和标点符号使用归一化处理，并将上述专有词汇统一映射成TIME_HY、LOC_HY、NUM_HY、NAME_HY、ORG_HY、STOP_HY和PUNC_HY的训练语料。

5.根据权利要求1所述的微博数据正负面识别方法，其特征在于：所述步骤S7中textcnn深度学习模型结构包括输入层、卷积层、池化层和全连接层。