CN115544255A - 微博数据正负面识别方法 - Google Patents
微博数据正负面识别方法 Download PDFInfo
- Publication number
- CN115544255A CN115544255A CN202211246647.3A CN202211246647A CN115544255A CN 115544255 A CN115544255 A CN 115544255A CN 202211246647 A CN202211246647 A CN 202211246647A CN 115544255 A CN115544255 A CN 115544255A
- Authority
- CN
- China
- Prior art keywords
- word
- word vector
- text
- model
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了微博数据正负面识别方法,包括以下步骤:S1、预处理;S2、文本分词;S3、训练词向量;S4、生成字向量矩阵;S5、生成词向量矩阵;S6、生成字向量与词向量拼接矩阵;S7、获得识别结果。本发明通过先将微博杂质文本过滤,避免无效语句影响模型效果,同时使用了海量分词,对文本进行分析并对特殊词进行归一化处理,减少对模型的影响,同时使用了bert模型和word2vec模型,融合了bert模型基于句子的字向量表示和基于上下文的词向量表示,丰富了文本的特征表示,由此作为textcnn深度学习模型,训练出的准确率更高,从而实现了可以高效并准确识别短文本情感的正负面。
Description
技术领域
本发明涉及数据处理技术领域,具体为微博数据正负面识别方法。
背景技术
21世纪以来,随着网络的普及,人们也愿意在微博等一些短文本平台上发表与交流自己的观点,因此短文本的情感正负面识别的研究变得尤为重要。目前现有的短文分类主要有两种,基于规则的方式和基于深度学习的方式。
基于规则方式,需要人工收录情感,构建情感词典,根据文本中出现的情感词来进行特征提取,并计算正负面结果。
基于深度学习的文本分类方法,先使用one-hot、word2vec等方式做词嵌入,将文本表示成向量,再通过CNN/RNN/LSTM等深度学习模型自动获取特征表达方式,实现情感正负面分类。
但是现有技术在实际使用时:
基于规则的方法灵活性较差,由于网络语言普及,新型词汇层出不穷,需要人工做大量工作收录情感知识,比较被动;
基于深度学习的方法中:one-hot方式生成的向量维度过大且稀疏,容易在计算过程中爆炸,且没有结合上下文,导致短文本的表达效果不理想;
word2vec虽然结合了上下文,但由于受限于训练时上下文滑窗口长度大小,导致无法理解整句中所有词的相关性,也使得短文本表达效果欠佳。
因此上述基于规则的方式和基于深度学习的方式均无法高效准确地对短文本的情感进行正负面识别。
发明内容
本发明的目的在于提供微博数据正负面识别方法,以解决基于规则的方式和基于深度学习的方式均无法高效准确地对短文本的情感进行正负面识别的问题。
为实现上述目的,本发明提供如下技术方案:包括以下步骤:
S1、预处理:去除微博短文本中的杂质语句;
S2、文本分词:通过海量分词算法对步骤S1中去除杂质语句后的短文本进行分词归一化处理;
S3、训练词向量:将步骤S2中完成分词归一化处理后的训练语料使用word2vec模型训练词向量;
S4、生成字向量矩阵:加载谷歌预训练的bert模型,将步骤S1中过滤杂质语句后的短文本转成字向量矩阵;
S5、生成词向量矩阵:将步骤S3中训练好的词向量转化成词向量矩阵;
S6、生成字向量与词向量拼接矩阵:将步骤S4中的字向量矩阵与步骤S5中的词向量矩阵进行拼接,并活动字向量矩阵与词向量矩阵的拼接矩阵;
S7、获得识别结果:将步骤S6中的生成的拼接矩阵作为textcnn深度学习模型训练的输入训练模型,并计训练出最优模型,得到数据正负面的分类结果。
优选的,所述步骤S1中杂质语句包括但不限于常用的表情符号、转发和话题的无效信息内容。
优选的,所述步骤S2中海量分词算法是由通过结合人民日报以及互联网文本收集加人工整理的专用词知识,使用开源trie树算法实现快速知识的扫描匹配,并结合HMM和Viterbi双重算法组成。
优选的,所述步骤S2中海量分词算法提取出短文本中的时间、地点、数量词、人名、机构名、停用词和标点符号使用归一化处理,并将上述专有词汇统一映射成TIME_HY、LOC_HY、NUM_HY、NAME_HY、ORG_HY、STOP_HY和PUNC_HY的训练语料。
优选的,所述步骤S7中textcnn深度学习模型结构包括输入层、卷积层、池化层和全连接层。
与现有技术相比,本发明的有益效果是:
1、本发明通过先将微博杂质文本过滤,避免无效语句影响模型效果,同时使用了海量分词,对文本进行分析并对特殊词进行归一化处理,减少对模型的影响,同时使用了bert模型和word2vec模型,融合了bert模型基于句子的字向量表示和基于上下文的词向量表示,丰富了文本的特征表示,由此作为textcnn深度学习模型,训练出的准确率更高,从而实现了可以高效并准确识别短文本情感的正负面。
附图说明
图1为本发明微博数据正负面识别方法整体流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:包括以下步骤:
S1、预处理:去除微博短文本中的杂质语句;
S2、文本分词:通过海量分词算法对步骤S1中去除杂质语句后的短文本进行分词归一化处理;
S3、训练词向量:将步骤S2中完成分词归一化处理后的训练语料使用word2vec模型训练词向量;
S4、生成字向量矩阵:加载谷歌预训练的bert模型,将步骤S1中过滤杂质语句后的短文本转成字向量矩阵;
S5、生成词向量矩阵:将步骤S3中训练好的词向量转化成词向量矩阵;
S6、生成字向量与词向量拼接矩阵:将步骤S4中的字向量矩阵与步骤S5中的词向量矩阵进行拼接,并活动字向量矩阵与词向量矩阵的拼接矩阵;
S7、获得识别结果:将步骤S6中的生成的拼接矩阵作为textcnn深度学习模型训练的输入训练模型,并计训练出最优模型,得到数据正负面的分类结果。
步骤S1中杂质语句包括但不限于常用的表情符号、转发和话题的无效信息内容。
步骤S2中海量分词算法是由通过结合人民日报以及互联网文本收集加人工整理的专用词知识,使用开源trie树算法实现快速知识的扫描匹配,并结合HMM和Viterbi双重算法组成。
步骤S2中海量分词算法提取出短文本中的时间、地点、数量词、人名、机构名、停用词和标点符号使用归一化处理,并将上述专有词汇统一映射成TIME_HY、LOC_HY、NUM_HY、NAME_HY、ORG_HY、STOP_HY和PUNC_HY的训练语料。
步骤S7中textcnn深度学习模型结构包括输入层、卷积层、池化层和全连接层,输入层为经word2vec处理的n*k二维矩阵,矩阵每一行代表一个长度为k的词向量;卷积层采用多个h*k的卷积核对输入层数据进行局部特征提取,之后由池化层的1-max pooling对卷积层特征进行抽象提取,提取出的多个特征被拼接为一个一维向量,最后该向量经全连接层特征映射得到文本特征。
通过先将微博杂质文本过滤,避免无效语句影响模型效果,同时使用了海量分词,对文本进行分析并对特殊词进行归一化处理,减少对模型的影响,同时使用了bert模型和word2vec模型,融合了bert模型基于句子的字向量表示和基于上下文的词向量表示,丰富了文本的特征表示,由此作为textcnn深度学习模型,训练出的准确率更高,从而实现了可以高效并准确识别短文本情感的正负面,本发明使用海量分词算法将分词后的文本归一化处理,有效地减小对textcnn深度学习模型的影响,同时通过融合bert和word2vec作为新的文本表示,丰富了文本的特征表示,有助于textcnn深度学习模型准确识别短文本情感的正负面,通过textcnn深度学习模型,利用卷积核,关注文本局部特征且降低文本表示维度,进一步提高识别短文本情感正负面的准确度。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.微博数据正负面识别方法,其特征在于:包括以下步骤:
S1、预处理:去除微博短文本中的杂质语句;
S2、文本分词:通过海量分词算法对步骤S1中去除杂质语句后的短文本进行分词归一化处理;
S3、训练词向量:将步骤S2中完成分词归一化处理后的训练语料使用word2vec模型训练词向量;
S4、生成字向量矩阵:加载谷歌预训练的bert模型,将步骤S1中过滤杂质语句后的短文本转成字向量矩阵;
S5、生成词向量矩阵:将步骤S3中训练好的词向量转化成词向量矩阵;
S6、生成字向量与词向量拼接矩阵:将步骤S4中的字向量矩阵与步骤S5中的词向量矩阵进行拼接,并活动字向量矩阵与词向量矩阵的拼接矩阵;
S7、获得识别结果:将步骤S6中的生成的拼接矩阵作为textcnn深度学习模型训练的输入训练模型,并计训练出最优模型,得到数据正负面的分类结果。
2.根据权利要求1所述的微博数据正负面识别方法,其特征在于:所述步骤S1中杂质语句包括但不限于常用的表情符号、转发和话题的无效信息内容。
3.根据权利要求1所述的微博数据正负面识别方法,其特征在于:所述步骤S2中海量分词算法是由通过结合人民日报以及互联网文本收集加人工整理的专用词知识,使用开源trie树算法实现快速知识的扫描匹配,并结合HMM和Viterbi双重算法组成。
4.根据权利要求1所述的微博数据正负面识别方法,其特征在于:所述步骤S2中海量分词算法提取出短文本中的时间、地点、数量词、人名、机构名、停用词和标点符号使用归一化处理,并将上述专有词汇统一映射成TIME_HY、LOC_HY、NUM_HY、NAME_HY、ORG_HY、STOP_HY和PUNC_HY的训练语料。
5.根据权利要求1所述的微博数据正负面识别方法,其特征在于:所述步骤S7中textcnn深度学习模型结构包括输入层、卷积层、池化层和全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211246647.3A CN115544255A (zh) | 2022-10-12 | 2022-10-12 | 微博数据正负面识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211246647.3A CN115544255A (zh) | 2022-10-12 | 2022-10-12 | 微博数据正负面识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115544255A true CN115544255A (zh) | 2022-12-30 |
Family
ID=84733668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211246647.3A Pending CN115544255A (zh) | 2022-10-12 | 2022-10-12 | 微博数据正负面识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115544255A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108859A (zh) * | 2023-03-17 | 2023-05-12 | 美云智数科技有限公司 | 情感倾向确定、样本构建、模型训练方法、装置及设备 |
CN116226575A (zh) * | 2023-02-23 | 2023-06-06 | 北京麦克斯泰科技有限公司 | 一种基于自动化的媒体账号管理方法和系统 |
-
2022
- 2022-10-12 CN CN202211246647.3A patent/CN115544255A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226575A (zh) * | 2023-02-23 | 2023-06-06 | 北京麦克斯泰科技有限公司 | 一种基于自动化的媒体账号管理方法和系统 |
CN116108859A (zh) * | 2023-03-17 | 2023-05-12 | 美云智数科技有限公司 | 情感倾向确定、样本构建、模型训练方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284400B (zh) | 一种基于Lattice LSTM和语言模型的命名实体识别方法 | |
CN109255118B (zh) | 一种关键词提取方法及装置 | |
Alwehaibi et al. | Comparison of pre-trained word vectors for arabic text classification using deep learning approach | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN111401061A (zh) | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 | |
CN115544255A (zh) | 微博数据正负面识别方法 | |
CN109359291A (zh) | 一种命名实体识别方法 | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
CN108287911B (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN107193796B (zh) | 一种舆情事件检测方法及装置 | |
CN111444704B (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN111709242A (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
Sen et al. | Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods | |
CN114781392A (zh) | 一种基于bert改进模型的文本情感分析方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN111950283A (zh) | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN115146629A (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN104317882B (zh) | 一种决策级中文分词融合方法 | |
CN114153973A (zh) | 基于t-m bert预训练模型的蒙古语多模态情感分析方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |