CN113051367A - 基于语义特征强化的深度学习预警方法、系统及电子设备 - Google Patents
基于语义特征强化的深度学习预警方法、系统及电子设备 Download PDFInfo
- Publication number
- CN113051367A CN113051367A CN202110304374.2A CN202110304374A CN113051367A CN 113051367 A CN113051367 A CN 113051367A CN 202110304374 A CN202110304374 A CN 202110304374A CN 113051367 A CN113051367 A CN 113051367A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- model
- emotion
- textcnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013135 deep learning Methods 0.000 title claims abstract description 33
- 230000008451 emotion Effects 0.000 claims abstract description 193
- 238000012549 training Methods 0.000 claims abstract description 133
- 239000013598 vector Substances 0.000 claims abstract description 98
- 239000011159 matrix material Substances 0.000 claims abstract description 89
- 238000004364 calculation method Methods 0.000 claims abstract description 57
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 230000002996 emotional effect Effects 0.000 claims description 87
- 238000012545 processing Methods 0.000 claims description 84
- 230000002787 reinforcement Effects 0.000 claims description 32
- 230000011218 segmentation Effects 0.000 claims description 31
- 238000012163 sequencing technique Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 22
- 230000007935 neutral effect Effects 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 16
- 238000013526 transfer learning Methods 0.000 claims description 7
- 230000003014 reinforcing effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000036651 mood Effects 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005728 strengthening Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语义特征强化的深度学习预警方法、系统及电子设备,该方法包括:将预先训练好的文本词向量作为textcnn模型的词向量嵌入层;将关键词词词向量化特征矩阵、主题词词向量化特征矩阵和情感特征词词向量化矩阵作为textcnn模型的语义特征强化层;将训练语料集输入由textcnn模型和xgboost模型构成的堆叠模型中进行训练得到最优堆叠模型;将在线预测数据输入最优堆叠模型中得到加强特征textcnn计算的类别权值和xgboost计算的类别权值;根据预设情感词典和多种词汇的权值得到文本情感计算的权值;对文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值进行融合加权计算,得到最终类别权值;根据最终权重值得到预警结果。该方法提高了文本预警的准确性。
Description
技术领域
本发明涉及互联网数据处理领域,具体涉及到一种基于语义特征强化的深度学习预警方法、系统、电子设备及存储介质。
背景技术
随着互联网的普及和移动互联网的崛起,媒体以及自媒体时代的到来,网络内容巨增。互联网和移动互联网的快速发展使网络平台成为人们进行消息获取、交流和知识共享的主流平台。
现有的重大突发事件预警方案通常是根据关键字进行匹配,也就是通过负面词典进行匹配,负面词语前面加上否定词后就会变成正面词,仅通过字典匹配无法把握文章的真实语义,需要大量的收集和积累词库,对于语义反转,一词多意的情况无法判断,故通过词典匹配存在预警不准确的问题。
发明内容
有鉴于此,本发明实施例提供了一种基于语义特征强化的深度学习预警方法、系统、电子设备及存储介质,以解决现有技术中文本预警不准确的缺点。
为此,本发明实施例提供了如下技术方案:
根据第一方面,本发明实施例提供了一种基于语义特征强化的深度学习预警方法,包括:获取训练语料集;对训练语料集进行分词处理得到训练语料集的分词文本;获取预先训练好的文本词向量,将所述文本词向量作为textcnn模型的词向量嵌入层;通过关键词提取模型对训练语料集进行关键词特征提取,得到文本关键词;对文本关键词进行词向量化得到关键词词向量化特征矩阵;通过主题模型对训练语料集进行主题特征提取,得到文本主题词;对文本主题词进行词向量化得到主题词词向量化特征矩阵;通过预设情感词典对分词文本进行情感特征提取,得到文本情感词;对文本情感词进行词向量化得到情感特征词词向量化矩阵;将关键词词词向量化特征矩阵、主题词词向量化特征矩阵和情感特征词词向量化矩阵作为textcnn模型的语义特征强化层;将训练语料集输入由textcnn模型和xgboost模型构成的堆叠模型中进行训练,得到最优堆叠模型;获取在线预测数据;将所述在线预测数据输入最优堆叠模型中得到加强特征textcnn计算的类别权值和xgboost计算的类别权值;根据预设情感词典,负面词的预设情感权值、正面词的预设情感权值、中性词的预设情感权值、反转词的预设情感正负方向权值和加强语气词的加强倍数权值得到文本情感计算的权值;对文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值进行融合加权计算,得到最终类别权值;根据最终类别权值进行类别判断,得到预警结果。
可选地,获取预先训练好的文本词向量的步骤中,包括:获取训练词向量模型;通过训练词向量模型对分词文本进行文本词向量化和语义特征迁移学习得到预先训练好的文本词向量。
可选地,通过关键词提取模型对训练语料集进行关键词特征提取,得到文本关键词的步骤中,包括:通过关键词提取模型对训练语料集中的每篇文章分别进行关键词特征提取,得到每篇文章的关键词和所对应的关键词权重值;按照每篇文章的关键词权重值分别对每篇文章中的关键词进行降序排列,得到每篇文章的排序关键词;从每篇文章的排序关键词的起始位置开始,选取第一预设数量的排序关键词作为每篇文章所对应的核心关键词;根据每篇文章的核心关键词得到训练语料集的文本关键词。
可选地,通过主题模型对训练语料集进行主题特征提取,得到文本主题词的步骤中,包括:通过主题模型对训练语料集中的每篇文章分别进行主题特征提取,得到每篇文章的主题词和所对应的主题词权重值;按照每篇文章的主题词权重值分别对每篇文章中的主题词进行降序排列,得到每篇文章的排序主题词;从每篇文章的排序主题词的起始位置开始,选取第二预设数量的排序主题词作为每篇文章所对应的核心主题词;根据每篇文章的核心主题词得到训练语料集的文本主题词。
可选地,通过预设情感词典对分词文本进行情感特征提取,得到文本情感词的步骤中,包括:通过预设情感词典对训练语料集中的每篇文章所对应的分词文本分别进行情感特征提取,得到每篇文章的情感词和所对应的情感词频次;按照每篇文章的情感词频次分别对每篇文章中的情感词进行降序排列,得到每篇文章的排序情感词;从每篇文章的排序情感词的起始位置开始,选取第三预设数量的排序情感词作为每篇文章所对应的核心情感词;根据每篇文章的核心情感词得到训练语料集的文本情感词。
可选地,所述textcnn模型包括七层结构,分别为:textcnn模型第一层为textcnn输入层,所述textcnn输入层为堆叠模型的输入;textcnn模型第二层为词向量嵌入层;textcnn模型第三层为textcnn层,用于textcnn卷积神经网对词向量化的文本数据进行语义特征提取;textcnn模型第四层为语义特征强化层;textcnn模型第五层为全连接线性学习层;textcnn模型第六层为textcnn分类层;textcnn模型第七层为textcnn输出层;
xgboost模型包括三层结构,分别为:xgboost模型第一层为xgboost输入层,将textcnn模型中的全连接线性学习层输出的特征矩阵作为输入;xgboost模型第二层为xgboost分类层;xgboost模型第三层为xgboost输出层,所述xgboost输出层为堆叠模型的输出。
可选地,文本情感计算的权值的计算公式为:
其中,S为一篇文本中句子的个数;Wne为负面词的预设情感权值;nne为负面词的个数;Wp为正面词的预设情感权值;np为正面词的个数;Wneo为中性词的预设情感权值;nneo为中性词的个数;Wstr为加强语气词的加强倍数权值,t1为加强语气词的个数;Wdir为反转词的预设情感正负方向权值,t2为反转词的个数;ts为文本情感计算的权值;
特征加强型textcnn计算的类别权值的计算公式为:
ty=sigmoid(wx+b)
其中,w为全连接的权重矩阵,x为上层全连接层的特征输出矩阵,b为全连接的偏置矩阵,ty为特征加强型textcnn计算的类别权值;
xgboost计算的类别权值的计算公式为:
其中,k表示有k棵cart回归树,k=1,2…k,f(xi)为拟合的cart回归树,xi为特征加强型textcnn的全连接层输出的特征向量,tx为xgboost计算的类别权值;
融合加权计算的计算公式为:
其中:λ1、λ2、λ3分别为预设的情感加权参数,b为惩罚项,ts、ty、tx分别为文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值;Score为融合加权计算后得到的最终类别权值。
根据第二方面,本发明实施例提供了一种基于语义特征强化的深度学习预警系统,包括:第一获取模块,用于获取训练语料集;第一处理模块,用于对训练语料集进行分词处理得到训练语料集的分词文本;第二获取模块,用于获取预先训练好的文本词向量,将所述文本词向量作为textcnn模型的词向量嵌入层;第二处理模块,用于通过关键词提取模型对训练语料集进行关键词特征提取,得到文本关键词;第三处理模块,用于对文本关键词进行词向量化得到关键词词向量化特征矩阵;第四处理模块,用于通过主题模型对训练语料集进行主题特征提取,得到文本主题词;第五处理模块,用于对文本主题词进行词向量化得到主题词词向量化特征矩阵;第六处理模块,用于通过预设情感词典对分词文本进行情感特征提取,得到文本情感词;第七处理模块,用于对文本情感词进行词向量化得到情感特征词词向量化矩阵;第八处理模块,用于将关键词词词向量化特征矩阵、主题词词向量化特征矩阵和情感特征词词向量化矩阵作为textcnn模型的语义特征强化层;第九处理模块,用于将训练语料集输入由textcnn模型和xgboost模型构成的堆叠模型中进行训练,得到最优堆叠模型;第三获取模块,用于获取在线预测数据;第十处理模块,用于将所述在线预测数据输入最优堆叠模型中得到加强特征textcnn计算的类别权值和xgboost计算的类别权值;第十一处理模块,用于根据预设情感词典,负面词的预设情感权值、正面词的预设情感权值、中性词的预设情感权值、反转词的预设情感正负方向权值和加强语气词的加强倍数权值得到文本情感计算的权值;第十二处理模块,用于对文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值进行融合加权计算,得到最终类别权值;第十三处理模块,用于根据最终类别权值进行类别判断,得到预警结果。
可选地,所述第二获取模块包括:获取单元,用于获取训练词向量模型;第一处理单元,用于通过训练词向量模型对分词文本进行文本词向量化和语义特征迁移学习得到预先训练好的文本词向量。
可选地,所述第二处理模块包括:第二处理单元,用于通过关键词提取模型对训练语料集中的每篇文章分别进行关键词特征提取,得到每篇文章的关键词和所对应的关键词权重值;第三处理单元,用于按照每篇文章的关键词权重值分别对每篇文章中的关键词进行降序排列,得到每篇文章的排序关键词;第四处理单元,用于从每篇文章的排序关键词的起始位置开始,选取第一预设数量的排序关键词作为每篇文章所对应的核心关键词;第五处理单元,用于根据每篇文章的核心关键词得到训练语料集的文本关键词。
可选地,所述第四处理模块包括:第六处理单元,用于通过主题模型对训练语料集中的每篇文章分别进行主题特征提取,得到每篇文章的主题词和所对应的主题词权重值;第七处理单元,用于按照每篇文章的主题词权重值分别对每篇文章中的主题词进行降序排列,得到每篇文章的排序主题词;第八处理单元,用于从每篇文章的排序主题词的起始位置开始,选取第二预设数量的排序主题词作为每篇文章所对应的核心主题词;第九处理单元,用于根据每篇文章的核心主题词得到训练语料集的文本主题词。
可选地,所述第六处理模块包括:第十处理单元,用于通过预设情感词典对训练语料集中的每篇文章所对应的分词文本分别进行情感特征提取,得到每篇文章的情感词和所对应的情感词频次;第十一处理单元,用于按照每篇文章的情感词频次分别对每篇文章中的情感词进行降序排列,得到每篇文章的排序情感词;第十二处理单元,用于从每篇文章的排序情感词的起始位置开始,选取第三预设数量的排序情感词作为每篇文章所对应的核心情感词;第十三处理单元,用于根据每篇文章的核心情感词得到训练语料集的文本情感词。
可选地,所述textcnn模型包括七层结构,分别为:textcnn模型第一层为textcnn输入层,所述textcnn输入层为堆叠模型的输入;textcnn模型第二层为词向量嵌入层;textcnn模型第三层为textcnn层,用于textcnn卷积神经网对词向量化的文本数据进行语义特征提取;textcnn模型第四层为语义特征强化层;textcnn模型第五层为全连接线性学习层;textcnn模型第六层为textcnn分类层;textcnn模型第七层为textcnn输出层;
xgboost模型包括三层结构,分别为:xgboost模型第一层为xgboost输入层,将textcnn模型中的全连接线性学习层输出的特征矩阵作为输入;xgboost模型第二层为xgboost分类层;xgboost模型第三层为xgboost输出层,所述xgboost输出层为堆叠模型的输出。
可选地,文本情感计算的权值的计算公式为:
其中,S为一篇文本中句子的个数;Wne为负面词的预设情感权值;nne为负面词的个数;Wp为正面词的预设情感权值;np为正面词的个数;Wneo为中性词的预设情感权值;nneo为中性词的个数;Wstr为加强语气词的加强倍数权值,t1为加强语气词的个数;Wdir为反转词的预设情感正负方向权值,t2为反转词的个数;ts为文本情感计算的权值;
特征加强型textcnn计算的类别权值的计算公式为:
ty=sigmoid(wx+b)
其中,w为全连接的权重矩阵,x为上层全连接层的特征输出矩阵,b为全连接的偏置矩阵,ty为特征加强型textcnn计算的类别权值;
xgboost计算的类别权值的计算公式为:
其中,k表示有k棵cart回归树,k=1,2…n,f(xi)为拟合的cart回归树,xi为特征加强型textcnn的全连接层输出的特征向量,tx为xgboost计算的类别权值;
融合加权计算的计算公式为:
其中:λ1、λ2、λ3分别为预设的情感加权参数,b为惩罚项,ts、ty、tx分别为文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值;Score为融合加权计算后得到的最终类别权值。
根据第三方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任意一项描述的基于语义特征强化的深度学习预警方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任意一项描述的基于语义特征强化的深度学习预警方法。
本发明实施例技术方案,具有如下优点:
本发明实施例提供了一种基于语义特征强化的深度学习预警方法、系统、电子设备及存储介质,其中,该方法包括:获取训练语料集;对训练语料集进行分词处理得到训练语料集的分词文本;获取预先训练好的文本词向量,将所述文本词向量作为textcnn模型的词向量嵌入层;通过关键词提取模型对训练语料集进行关键词特征提取,得到文本关键词;对文本关键词进行词向量化得到关键词词向量化特征矩阵;通过主题模型对训练语料集进行主题特征提取,得到文本主题词;对文本主题词进行词向量化得到主题词词向量化特征矩阵;通过预设情感词典对分词文本进行情感特征提取,得到文本情感词;对文本情感词进行词向量化得到情感特征词词向量化矩阵;将关键词词词向量化特征矩阵、主题词词向量化特征矩阵和情感特征词词向量化矩阵作为textcnn模型的语义特征强化层;将训练语料集输入由textcnn模型和xgboost模型构成的堆叠模型中进行训练,得到最优堆叠模型;获取在线预测数据;将所述在线预测数据输入最优堆叠模型中得到加强特征textcnn计算的类别权值和xgboost计算的类别权值;根据预设情感词典,负面词的预设情感权值、正面词的预设情感权值、中性词的预设情感权值、反转词的预设情感正负方向权值和加强语气词的加强倍数权值得到文本情感计算的权值;对文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值进行融合加权计算,得到最终类别权值;根据最终类别权值进行类别判断,得到预警结果。该方法将预先训练好的文本词向量作为textcnn模型的词向量嵌入层,再结合关键词、主题词、情感等特征加强来表示一篇文章的主要语义特征,根据文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值共同得到预警结果,提高了文本预警的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于语义特征强化的深度学习预警方法的一个具体示例的流程图;
图2为本发明实施例的基于语义特征强化的深度学习预警方法的另一个具体示例的流程图;
图3为本发明实施例的分布式预警计算服务系统的结构示意图;
图4为本发明实施例的基于语义特征强化的深度学习预警系统的一个具体示例的框图;
图5为本发明实施例的电子设备的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于语义特征强化的深度学习预警方法,如图1所示,该方法包括步骤S1-S16。
步骤S1:获取预训练语料集。
作为示例性的实施例,预训练语料集包括大量历史文本数据,也就是大量历史文章,这些历史文本数据包括预警文本和非预警文本。预警文本为包含重大突发事件的文章,重大突发事件是突然发生,造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。
步骤S2:对训练语料集进行分词处理得到训练语料集的分词文本。
作为示例性的实施例,通过jieba分词器对训练语料集进行分词,得到分词文本。当然,在其它实施例中,也可以采用其它的分词方法对训练语料集进行分词,本实施例对此仅作示意性描述,不以此为限。
步骤S3:获取预先训练好的文本词向量,将文本词向量作为textcnn模型的词向量嵌入层。
作为示例性的实施例,可通过预训练模型对训练语料集进行训练,得到预先训练好的文本词向量,将上述预先训练好的文本词向量作为textcnn模型的词向量嵌入层,其优点是通过预训练词向量,把文本词的语义特征转化为稠密的词向量,解决了文本特征稀疏的问题。
文本词向量化是指把文本的每个词与词向量进行映射处理,使数据集中的文本转化成向量的形式输入到模型。假设一篇文本D,有f个词W,每个词的词向量维度为d,则D映射到W,如下:
步骤S4:通过关键词提取模型对训练语料集进行关键词特征提取,得到文本关键词。
作为示例性的实施例,对训练语料集中每篇文章提取关键词,对提取的每篇文章的关键词分别按照权重排序,取每篇文章top 10的关键词当作该文章的关键词,用这10个关键词表示该文章的语义信息特征。将上述训练语料集中所有文章的top 10关键词构成文本关键词。
步骤S5:对文本关键词进行词向量化得到关键词词向量化特征矩阵。
作为示例性的实施例,对文本关键词进行词向量化,取top p的关键词当作全文本的核心并进行词向量化,用这p个关键词表示此文章的语义信息特征。关键词特征维度,即为p个词的向量拼接, 输入维度为也就是关键词词向量化特征矩阵。
步骤S6:通过主题模型对训练语料集进行主题特征提取,得到文本主题词。
作为示例性的实施例,通过主题模型分别提取训练语料集中每篇文章的主题词,并取每篇文章的top 5的主题词当作该文章的主题特征。将上述训练语料集中所有文章的top 5主题词构成文本主题词。
步骤S7:对文本主题词进行词向量化得到主题词词向量化特征矩阵。
步骤S8:通过预设情感词典对分词文本进行情感特征提取,得到文本情感词。
作为示例性的实施例,通过预先设定的情感词典,对分过词的文本数据进行情感词提取,对提取的情感词按照出现的频次进行排序,取每篇文章的top 10情感词当作该篇文章的情感特征,将上述训练语料集中所有文章的top 10情感词构成文本情感词。
步骤S9:对文本情感词进行词向量化得到情感特征词词向量化矩阵。
步骤S10:将关键词词词向量化特征矩阵、主题词词向量化特征矩阵和情感特征词词向量化矩阵作为textcnn模型的语义特征强化层。
作为示例性的实施例,textcnn模型包括七层结构,分别为:textcnn模型第一层为textcnn输入层,所述textcnn输入层为堆叠模型的输入;textcnn模型第二层为词向量嵌入层;textcnn模型第三层为textcnn层,用于textcnn卷积神经网对词向量化的文本数据进行语义特征提取;textcnn模型第四层为语义特征强化层;textcnn模型第五层为全连接线性学习层;textcnn模型第六层为textcnn分类层;textcnn模型第七层为textcnn输出层。
具体地,如图2所示,1.Textcnn强化训练部分。
此部分算法设计为七层:第一层为输入层,即输入的文本数据;第二层为embedding层,即文本词向量化层;第三层为textcnn卷积神经网对词向量化的文本数据进行语义特征提取;第四层为语义特征强化层,通过矩阵拼接的方法,依次拼接textcnn的输出语义特征矩阵、关键词词词向量化特征矩阵、主题词词向量化特征矩阵、情感特征词词向量化矩阵;第五层为FC(fully connected layer)层,即全连接线性学习层;第六层为sigmoid进行分类层;第七层为输出层,输出类别的概率分布。
步骤S11:将训练语料集输入由textcnn模型和xgboost模型构成的堆叠模型中进行训练,得到最优堆叠模型。
作为示例性的实施例,xgboost模型包括三层结构,分别为:
xgboost模型第一层为xgboost输入层,将textcnn模型中的全连接线性学习层输出的特征矩阵作为输入;
xgboost模型第二层为xgboost分类层;
xgboost模型第三层为xgboost输出层,所述xgboost输出层为堆叠模型的输出。
xgboost模型包括三层结构,分别为:xgboost模型第一层为xgboost输入层,将textcnn模型中的全连接线性学习层输出的特征矩阵作为输入;xgboost模型第二层为xgboost分类层;xgboost模型第三层为xgboost输出层,所述xgboost输出层为堆叠模型的输出。
具体地,模型训练部分为多模型堆叠的形式进行训练的,即先训练textcnn模型,然后取textcnn模型的倒数第二层的学习输出结果,进行xgboost层训练。也可以认为是分为两段训练,textcnn特征强化训练部分以及xgboost训练部分。
整体结构的设计如图2所示,下层为textxcnn特征强化训练部分,上层为xgboost堆叠训练部分。
Textcnn强化训练部分,此部分算法设计为七层:第一层为输入层,即输入的文本数据;第二层为embedding层,即文本词向量化层;第三层为textcnn卷积神经网对词向量化的文本数据进行语义特征提取;第四层为语义特征强化层,通过矩阵拼接的方法,依次拼接textcnn的输出语义特征矩阵、关键词词词向量化特征矩阵、主题词词向量化特征矩阵、情感特征词词向量化矩阵;第五层为FC(fully connected layer)层,即全连接线性学习层;第六层为sigmoid进行分类层;第七层为输出层,输出类别的概率分布。
Xgboost训练部分,此部分采用Xgboost进行回归分析,xgboost属于广泛使用的树形学习算法,其决策树允许基于以树状结构排列的一系列规则对输出变量进行预测。树形学习算法不需要线性特征或特征之间的线性交互,与其他算法相比,它们是更好的分类器。Xgboost的训练过程分为三层,第一层为取已经训练好的textcnn强化模型的Fullyconnected层输出的特征矩阵作为输入;第二层,采用xgboost做了树状结构的分类回归训练;第三层,为输出,输出概率分布值。
图2为算法模型的原理图,分为textcnn特征强化训练部分,xgboost训练部分。
(1)textcnn特征强化训练部分
其中第一层为输入层,即训练数据集的输入,其中单篇文章的输入如下:
W1...Wn
输入维度为n,即n个词。
其中,第三层为textcnn层,
通过一维卷积Conv1d:
ci=f(a*wi:h+i+b);
一维最大池化maxpooling1d:
本文在池化层采用的是max-pool方法对特征图进行下采样,提取特征图中的关键特征;
全连接Concatenate:为提取不同特征本文构建s个卷积核,得到一个下采样输出矩阵:
语义特征强化层:
关键词:
主题词:
情感词:
把上述关键词特征、主题特征、情感词特征维度压平成和textcnn层输出同样的维度j,分别记作C2、C3和C4,并把textcnn的输出向量C1与主题词压平向量C3、关键词词压平向量C2、情感词压平向量C4拼接到一起作为全连接层的输入,如下:
表示对两个特征的拼接操作,在此把四个特征进行拼接,得到了最终的强化特征;其中C1为textcnn的输出的特征向量,C2为关键词特征向量,C3为主题词特征向量,C4为情感词特征向量。其C的向量长度为4j。
全连接层:
f(x)=tanh(wx+b)
最后通过一个sigmoid函数来输出分类结果:
ty=sigmoid(wx+b)
其中w为全连接的权重矩阵,x为上层全连接层的特征输出矩阵,b为全连接的偏置矩阵,ty即为特征加强型textcnn计算输出的类别权值。
(2)xgboost训练部分
取出(1)中的全连接层的输出,最为xgboost的输入:
即f(x)=tanh(wx+b)输出的结果,作为xgboost的输入X,输入Y为训练集数据的标签集合,最终通过拟合残差构建多个CART树组成线性的强化学习器。
其中,k表示有k棵cart回归树,k=1,2…k,f(xi)为拟合的cart回归树,xi为特征加强型textcnn的全连接层输出的特征向量,tx即为xgboost计算输出的类别权值。
训练数据为历史预警数据和历史非预警数据,为二分类,即预警、不预警。通过多轮迭代训练,取最好的训练模型并保存,为下一步在线预测新数据类别做准备。
步骤S12:获取在线预测数据。
步骤S13:将所述在线预测数据输入最优堆叠模型中得到加强特征textcnn计算的类别权值和xgboost计算的类别权值。
本实施例中,特征加强型textcnn计算的类别权值的计算公式为:
ty=sigmoid(wx+b)
其中,w为全连接的权重矩阵,x为上层全连接层的特征输出矩阵,b为全连接的偏置矩阵,ty为特征加强型textcnn计算的类别权值。
xgboost计算的类别权值的计算公式为:
其中,k表示有k棵cart回归树,k=1,2…k,f(xi)为拟合的cart回归树,xi为特征加强型textcnn的全连接层输出的特征向量,tx为xgboost计算的类别权值。
步骤S14:根据预设情感词典,负面词的预设情感权值、正面词的预设情感权值、中性词的预设情感权值、反转词的预设情感正负方向权值和加强语气词的加强倍数权值得到文本情感计算的权值。
具体的,将预设情感词典中的词汇进行情感态度区分,得到负面词、正面词、中性词、反转词和加强语气词;并获取预先设置好的各种词汇的权值,负面词的预设情感权值、正面词的预设情感权值、中性词的预设情感权值、反转词的预设情感正负方向权值和加强语气词的加强倍数权值,对上面的参数进行计算得到文本情感计算的权值。
负面词是表达负面情感的词汇;正面词是表达正面情感的词汇;中性词是不能体现情感倾向的词汇;反转词是表达情感翻转的词汇;加强语气词是表示语气的虚词。
本实施例中,文本情感计算的权值的计算公式为:
其中,S为一篇文本中句子的个数;Wne为负面词的预设情感权值;nne为负面词的个数;Wp为正面词的预设情感权值;np为正面词的个数;Wneo为中性词的预设情感权值;nneo为中性词的个数;Wstr为加强语气词的加强倍数权值,t1为加强语气词的个数;Wdir为反转词的预设情感正负方向权值,t2为反转词的个数;ts为文本情感计算的权值。
具体的,负面词的预设情感权值、正面词的预设情感权值、中性词的预设情感权值、反转词的预设情感正负方向权值和加强语气词的加强倍数权值的取值范围均为-10到10之间的数值。如:正面:高兴6、开心8;负面:失落-6;中性:一般0,加强:非常2;反转:不-2。
步骤S15:对文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值进行融合加权计算,得到最终类别权值。
融合加权计算的计算公式为:
其中:λ1、λ2、λ3分别为预设的情感加权参数,b为惩罚项,ts、ty、tx分别为文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值;Score为融合加权计算后得到的最终类别权值。
本实施例中,λ1、λ2、λ3的取值范围均为0-1之间的数值。惩罚项的取值范围为0到1。具体的,λ1为0.5,λ2为0.5,λ3为0.5,b为1。本实施例对此仅作示意性说明,不以此为限。
步骤S16:根据最终类别权值进行类别判断,得到预警结果。
具体的,将得到的最终类别权值与预设阈值进行比较,通过比较结果判断类别,若最终类别权值大于预设阈值,则分为一类,预警类别,若最终类别权值小于或者等于预设阈值,则分为另一类,不预警类别。
预设阈值根据经验确定,本实施例中,预设阈值为0.7,当然,在其它实施例中,预设阈值还可以设置为其它数值,在实际应用中根据需要合理设置即可。
作为示例性的实施例,预警结果为预警类别,具体包括预警和不预警。对在线预测数据进行预警类别的预测,通过加载最优堆叠模型中的模型参数,通过已经学习的历史数据语义特征来对在线预测数据进行语义类别特征计算,得到加强特征textcnn计算的类别权值和xgboost计算的类别权值;在结合预设情感词典,负面词的预设情感权值、正面词的预设情感权值、中性词的预设情感权值、反转词的预设情感正负方向权值和加强语气词的加强倍数权值得到文本情感计算的权值;最后,将上述得到的加强特征textcnn计算的类别权值、xgboost计算的类别权值和文本情感计算的权值进行融合计算得到最终类别权值,从而得到在线预测数据的预警类别。
上述步骤,将预先训练好的文本词向量作为textcnn模型的词向量嵌入层,再结合关键词、主题词、情感等特征加强来表示一篇文章的主要语义特征,根据文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值,进行上述加权融合计算,共同得到预警结果,提高了文本预警的准确性。
作为示例性的实施例,步骤S3获取预先训练好的文本词向量的步骤中,包括步骤S31-S32。
步骤S31:获取训练词向量模型。
具体地,训练词向量模型为word2vec模型;通过word2vec模型无监督学习从大规模数据中获得与具体任务无关的预训练模型。当然,在其它实施例中,训练词向量模型也可以是其它模型,如glove模型等,根据需要合理设置即可。
步骤S32:通过训练词向量模型对分词文本进行文本词向量化和语义特征迁移学习得到预先训练好的文本词向量。
作为示例性的实施例,通过word2vec进行无监督训练,提取词在文本集里的上下文语义特征。词向量化是把预训练模型学习的词语义特征迁移到文本特征来,通过迁移学习把学习到的词语义特征来表示文本语义特征,避免了近义词多义词的语义不全的问题。
通过word2vector模型,对海量历史数据进行无监督的训练学习,对海量文本数据的上下文理解,来学习到每个词的语义特征;然后通过训练词向量模型对训练语料集的分词结果进行embedding化,通过预训练模型学习到的词语义特征直接迁移到文本数据上,降低近义词和多义词的语义不全以及歧义的情况。
作为示例性的实施例,步骤S4通过关键词提取模型对训练语料集进行关键词特征提取,得到文本关键词的步骤中,包括步骤S41-S44。
步骤S41:通过关键词提取模型对训练语料集中的每篇文章分别进行关键词特征提取,得到每篇文章的关键词和所对应的关键词权重值。
具体地,关键词提取模型为textrank模型,通过textrank模型对每篇文本分别提取关键词。
步骤S42:按照每篇文章的关键词权重值分别对每篇文章中的关键词进行降序排列,得到每篇文章的排序关键词。
具体地,按照每篇文章的关键词权重值,将该篇文章的所有关键词按照关键词权重值从大到小进行排列,得到每篇文章的排序关键词。
步骤S43:从每篇文章的排序关键词的起始位置开始,选取第一预设数量的排序关键词作为每篇文章所对应的核心关键词。
具体地,第一预设数量为10,则选取关键词权重值排列在前10的关键词,也就是取一篇文章的top 10的关键词作为这篇文章的核心关键词,用这10个关键词来表示此文章的语义信息特征。
步骤S44:根据每篇文章的核心关键词得到训练语料集的文本关键词。
具体地,将训练语料中每一篇文章的核心关键词组成核心关键词集合,将上述核心关键词集合作为该训练语料集的文本关键词。
上述步骤,通过textrank模型对每篇文本提取关键词,对提取的关键词按照权重排序,取top 10的关键词当作全文本的核心并进行词向量化,用这10个关键词来表示此文章的语义信息特征。
作为示例性的实施例,步骤S6通过主题模型对训练语料集进行主题特征提取,得到文本主题词的步骤中,包括步骤S61-S64。
步骤S61:通过主题模型对训练语料集中的每篇文章分别进行主题特征提取,得到每篇文章的主题词和所对应的主题词权重值。
具体地,主题模型为LDA模型,通过LDA模型分别提取每篇文章的主题词。
步骤S62:按照每篇文章的主题词权重值分别对每篇文章中的主题词进行降序排列,得到每篇文章的排序主题词。
具体地,按照每篇文章的主题词权重值,将该篇文章的所有主题词按照主题词权重值从大到小进行排列,得到每篇文章的排序主题词。
步骤S63:从每篇文章的排序主题词的起始位置开始,选取第二预设数量的排序主题词作为每篇文章所对应的核心主题词。
具体地,第二预设数量为5,则选取主题词权重值排列在前5的主题词,也就是取一篇文章的top 5的主题词作为这篇文章的核心主题词,用这10个主题词来表示此文章的主题特征。
步骤S64:根据每篇文章的核心主题词得到训练语料集的文本主题词。
具体地,将训练语料中每一篇文章的核心主题词组成核心主题词集合,将上述核心主题词集合作为该训练语料集的文本主题词。
上述步骤,通过LDA模型对文本主题特征进行提取,提取文本主要表达的主题信息。
作为示例性的实施例,步骤S8通过预设情感词典对分词文本进行情感特征提取,得到文本情感词的步骤中,包括步骤S81-S84。
步骤S81:通过预设情感词典对训练语料集中的每篇文章所对应的分词文本分别进行情感特征提取,得到每篇文章的情感词和所对应的情感词频次。
具体地,通过预先设定的情感词典,对每篇文章分过词的文本数据进行情感词提取,提取整篇文本的情感色彩、情感倾向性、情绪态度的信息,得到每篇文章的情感词和情感词所对应的情感词频次。
步骤S82:按照每篇文章的情感词频次分别对每篇文章中的情感词进行降序排列,得到每篇文章的排序情感词。
具体地,按照每篇文章的情感词词频,将该篇文章的所有情感词按照词频从大到小进行排列,得到每篇文章的排序情感词。
步骤S83:从每篇文章的排序情感词的起始位置开始,选取第三预设数量的排序情感词作为每篇文章所对应的核心情感词。
具体地,第三预设数量为10,则选取词频排列在前10的情感词,也就是取一篇文章的top 10的情感词作为这篇文章的核心情感词,用这10个情感词来表示此文章的情感特征。
步骤S84:根据每篇文章的核心情感词得到训练语料集的文本情感词。
具体地,将训练语料中每一篇文章的核心情感词组成核心情感词集合,将上述核心情感词集合作为该训练语料集的文本情感词。
上述步骤,通过预先设定的情感词典,对分过词的文本数据进行情感词提取,对提取的情感词按照出现的频次进行排序并进行词向量化,取top 10当作文本的情感特征。
本实施例中的基于语义特征强化的深度学习预警方法,通过word2vec模型无监督学习从大规模数据中获得与具体任务无关的预训练模型。词向量化是把预训练模型学习的词语义特征迁移到文本特征来,通过迁移学习把学习到的词语义特征来表示文本语义特征,避免了近义词多义词的语义不全的问题。关键词提取模块是通过textrank模型提取关键词。主题提取模块是通过LDA模型对文本主题特征进行提取,提取文本主要表达的主题信息。情感特征识别模型是通过预先构建的情感词典对分词之后文本情感词提取,提取了整篇文本的情感色彩、情感倾向性、情绪态度的信息。该方法是一套语义特征强化的方案,通过预训练词向量模型,以及textcnn提取文本语义特征,在结合关键词、主题、情感等特征加强,来表示一篇文章的主要语义特征,通过强化文本语义特征,解决文本语义稀疏的问题,从而提高文本分类训练的准确率和召回率;通过对强化之后的特征矩阵运用FC(全连接神经网络)进行线性学习,并对输出的结果矩阵通过xgboost算法进行二分类回归计算,在此用xgboost算法进行分类计算代替传统的sigmoid函数做分类概率分布计算。xgboost属于广泛使用的树形学习算法,树形学习算法不需要线性特征之间的交互,只需要通过残差拟合结果,分类效果更好。针对互联网内网进行智能预警的解决方案,通过对网络内容进行特征提取学习到模型预测,通过把机器学习算法模型落地到智能预警应用中,提高了预警的实效性以及节省了人工成本。
由于单个机器的计算资源少,效率低,无法应对互联网海量数据的实时计算情况,本实施例中引入了分布式实时计算框架,满足了海量数据的实时计算。图3示出了一种分布式预警计算服务系统的结构示意图,该系统从吞吐量需求和实际文本数据量考虑,采用分布式计算框架Spark Streaming实现准实时预警预测。待提取的文本集数据实时且不断写入Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)中,Spark Streaming从HDFS中读取离散数据流(Discretized Stream),进行上述步骤中的预警预测计算,最后预警预测结果同样以离散数据流的形式返回到一个kafka话题中,从而完成一个完整的读取-处理-提取-反馈的流程。
具体的过程为:将获取到的在线预测数据在HDFS中进行分布式存储,生成监控目录。通过分布式构架集群调用最优模型的模型参数进行模型预测,之后,将集群各个节点得到的预测结果整合后写入分布式消息队列(kafka),最后输出至web,提供展示页面,显示预警结果。通过上述步骤,实现了批量预测的分布式计算,提高了运算速度。
分布式智能预警系统通过zookeeper服务进行管理,待预测文档集被实时写入Hadoop分布式文件系统(Hadoop Distributed File System,HDFS),Spark Streaming从HDFS中读取离散数据流,执行上述的预警预测方法,进行预警权值评价处理,并通过预设阈值,将最终类别权值大于预设阈值确定为预警数据,小于阀值的确定为无需预警数据,写入消息队列,以离散数据流的形式返回到一个kafka话题中,经由网络(web)进行发布。
在本实施例中还提供了一种基于语义特征强化的深度学习预警系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例还提供一种基于语义特征强化的深度学习预警系统,如图4所示,包括:
第一获取模块1,用于获取训练语料集;
第一处理模块2,用于对训练语料集进行分词处理得到训练语料集的分词文本;
第二获取模块3,用于获取预先训练好的文本词向量,将所述文本词向量作为textcnn模型的词向量嵌入层;
第二处理模块4,用于通过关键词提取模型对训练语料集进行关键词特征提取,得到文本关键词;
第三处理模块5,用于对文本关键词进行词向量化得到关键词词向量化特征矩阵;
第四处理模块6,用于通过主题模型对训练语料集进行主题特征提取,得到文本主题词;
第五处理模块7,用于对文本主题词进行词向量化得到主题词词向量化特征矩阵;
第六处理模块8,用于通过预设情感词典对分词文本进行情感特征提取,得到文本情感词;
第七处理模块9,用于对文本情感词进行词向量化得到情感特征词词向量化矩阵;
第八处理模块10,用于将关键词词词向量化特征矩阵、主题词词向量化特征矩阵和情感特征词词向量化矩阵作为textcnn模型的语义特征强化层;
第九处理模块11,用于将训练语料集输入由textcnn模型和xgboost模型构成的堆叠模型中进行训练,得到最优堆叠模型;
第三获取模块12,用于获取在线预测数据;
第十处理模块13,用于将所述在线预测数据输入最优堆叠模型中得到加强特征textcnn计算的类别权值和xgboost计算的类别权值;
第十一处理模块14,用于根据预设情感词典,负面词的预设情感权值、正面词的预设情感权值、中性词的预设情感权值、反转词的预设情感正负方向权值和加强语气词的加强倍数权值得到文本情感计算的权值;
第十二处理模块15,用于对文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值进行融合加权计算,得到最终类别权值;
第十三处理模块16,用于根据最终类别权值进行类别判断,得到预警结果。
作为示例性的实施例,所述第二获取模块包括:获取单元,用于获取训练词向量模型;第一处理单元,用于通过训练词向量模型对分词文本进行文本词向量化和语义特征迁移学习得到预先训练好的文本词向量。
作为示例性的实施例,所述第二处理模块包括:第二处理单元,用于通过关键词提取模型对训练语料集中的每篇文章分别进行关键词特征提取,得到每篇文章的关键词和所对应的关键词权重值;第三处理单元,用于按照每篇文章的关键词权重值分别对每篇文章中的关键词进行降序排列,得到每篇文章的排序关键词;第四处理单元,用于从每篇文章的排序关键词的起始位置开始,选取第一预设数量的排序关键词作为每篇文章所对应的核心关键词;第五处理单元,用于根据每篇文章的核心关键词得到训练语料集的文本关键词。
作为示例性的实施例,所述第四处理模块包括:第六处理单元,用于通过主题模型对训练语料集中的每篇文章分别进行主题特征提取,得到每篇文章的主题词和所对应的主题词权重值;第七处理单元,用于按照每篇文章的主题词权重值分别对每篇文章中的主题词进行降序排列,得到每篇文章的排序主题词;第八处理单元,用于从每篇文章的排序主题词的起始位置开始,选取第二预设数量的排序主题词作为每篇文章所对应的核心主题词;第九处理单元,用于根据每篇文章的核心主题词得到训练语料集的文本主题词。
作为示例性的实施例,所述第六处理模块包括:第十处理单元,用于通过预设情感词典对训练语料集中的每篇文章所对应的分词文本分别进行情感特征提取,得到每篇文章的情感词和所对应的情感词频次;第十一处理单元,用于按照每篇文章的情感词频次分别对每篇文章中的情感词进行降序排列,得到每篇文章的排序情感词;第十二处理单元,用于从每篇文章的排序情感词的起始位置开始,选取第三预设数量的排序情感词作为每篇文章所对应的核心情感词;第十三处理单元,用于根据每篇文章的核心情感词得到训练语料集的文本情感词。
作为示例性的实施例,所述textcnn模型包括七层结构,分别为:textcnn模型第一层为textcnn输入层,所述textcnn输入层为堆叠模型的输入;textcnn模型第二层为词向量嵌入层;textcnn模型第三层为textcnn层,用于textcnn卷积神经网对词向量化的文本数据进行语义特征提取;textcnn模型第四层为语义特征强化层;textcnn模型第五层为全连接线性学习层;textcnn模型第六层为textcnn分类层;textcnn模型第七层为textcnn输出层。
作为示例性的实施例,xgboost模型包括三层结构,分别为:xgboost模型第一层为xgboost输入层,将textcnn模型中的全连接线性学习层输出的特征矩阵作为输入;xgboost模型第二层为xgboost分类层;xgboost模型第三层为xgboost输出层,所述xgboost输出层为堆叠模型的输出。
可选地,文本情感计算的权值的计算公式为:
其中,S为一篇文本中句子的个数;Wne为负面词的预设情感权值;nne为负面词的个数;Wp为正面词的预设情感权值;np为正面词的个数;Wneo为中性词的预设情感权值;nneo为中性词的个数;Wstr为加强语气词的加强倍数权值,t1为加强语气词的个数;Wdir为反转词的预设情感正负方向权值,t2为反转词的个数;ts为文本情感计算的权值;
特征加强型textcnn计算的类别权值的计算公式为:
ty=sigmoid(wx+b)
其中,w为全连接的权重矩阵,x为上层全连接层的特征输出矩阵,b为全连接的偏置矩阵,ty为特征加强型textcnn计算的类别权值;
xgboost计算的类别权值的计算公式为:
其中,k表示有k棵cart回归树,k=1,2…k,f(xi)为拟合的cart回归树,xi为特征加强型textcnn的全连接层输出的特征向量,tx为xgboost计算的类别权值;
融合加权计算的计算公式为:
其中:λ1、λ2、λ3分别为预设的情感加权参数,b为惩罚项,ts、ty、tx分别为文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值;Score为融合加权计算后得到的最终类别权值。
本实施例中的基于语义特征强化的深度学习预警系统是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供了一种电子设备,如图5所示,该电子设备包括一个或多个处理器71以及存储器72,图5中以一个处理器71为例。
该控制器还可以包括:输入装置73和输出装置74。
处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器71可以为中央处理器(Central Processing Unit,CPU)。处理器71还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。
存储器72作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的基于语义特征强化的深度学习预警方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的基于语义特征强化的深度学习预警方法。
存储器72可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器72可选包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置73可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。
一个或者多个模块存储在存储器72中,当被一个或者多个处理器71执行时,执行如图1-2所示的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,被执行的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述基于语义特征强化的深度学习预警方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种基于语义特征强化的深度学习预警方法,其特征在于,包括:
获取训练语料集;
对训练语料集进行分词处理得到训练语料集的分词文本;
获取预先训练好的文本词向量,将所述文本词向量作为textcnn模型的词向量嵌入层;
通过关键词提取模型对训练语料集进行关键词特征提取,得到文本关键词;
对文本关键词进行词向量化得到关键词词向量化特征矩阵;
通过主题模型对训练语料集进行主题特征提取,得到文本主题词;
对文本主题词进行词向量化得到主题词词向量化特征矩阵;
通过预设情感词典对分词文本进行情感特征提取,得到文本情感词;
对文本情感词进行词向量化得到情感特征词词向量化矩阵;
将关键词词词向量化特征矩阵、主题词词向量化特征矩阵和情感特征词词向量化矩阵作为textcnn模型的语义特征强化层;
将训练语料集输入由textcnn模型和xgboost模型构成的堆叠模型中进行训练,得到最优堆叠模型;
获取在线预测数据;
将所述在线预测数据输入最优堆叠模型中得到加强特征textcnn计算的类别权值和xgboost计算的类别权值;
根据预设情感词典,负面词的预设情感权值、正面词的预设情感权值、中性词的预设情感权值、反转词的预设情感正负方向权值和加强语气词的加强倍数权值得到文本情感计算的权值;
对文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值进行融合加权计算,得到最终类别权值;
根据最终类别权值进行类别判断,得到预警结果。
2.根据权利要求1所述的基于语义特征强化的深度学习预警方法,其特征在于,获取预先训练好的文本词向量的步骤中,包括:
获取训练词向量模型;
通过训练词向量模型对分词文本进行文本词向量化和语义特征迁移学习得到预先训练好的文本词向量。
3.根据权利要求1所述的基于语义特征强化的深度学习预警方法,其特征在于,通过关键词提取模型对训练语料集进行关键词特征提取,得到文本关键词的步骤中,包括:
通过关键词提取模型对训练语料集中的每篇文章分别进行关键词特征提取,得到每篇文章的关键词和所对应的关键词权重值;
按照每篇文章的关键词权重值分别对每篇文章中的关键词进行降序排列,得到每篇文章的排序关键词;
从每篇文章的排序关键词的起始位置开始,选取第一预设数量的排序关键词作为每篇文章所对应的核心关键词;
根据每篇文章的核心关键词得到训练语料集的文本关键词。
4.根据权利要求1所述的基于语义特征强化的深度学习预警方法,其特征在于,通过主题模型对训练语料集进行主题特征提取,得到文本主题词的步骤中,包括:
通过主题模型对训练语料集中的每篇文章分别进行主题特征提取,得到每篇文章的主题词和所对应的主题词权重值;
按照每篇文章的主题词权重值分别对每篇文章中的主题词进行降序排列,得到每篇文章的排序主题词;
从每篇文章的排序主题词的起始位置开始,选取第二预设数量的排序主题词作为每篇文章所对应的核心主题词;
根据每篇文章的核心主题词得到训练语料集的文本主题词。
5.根据权利要求1所述的基于语义特征强化的深度学习预警方法,其特征在于,通过预设情感词典对分词文本进行情感特征提取,得到文本情感词的步骤中,包括:
通过预设情感词典对训练语料集中的每篇文章所对应的分词文本分别进行情感特征提取,得到每篇文章的情感词和所对应的情感词频次;
按照每篇文章的情感词频次分别对每篇文章中的情感词进行降序排列,得到每篇文章的排序情感词;
从每篇文章的排序情感词的起始位置开始,选取第三预设数量的排序情感词作为每篇文章所对应的核心情感词;
根据每篇文章的核心情感词得到训练语料集的文本情感词。
6.根据权利要求1-5中任一所述的基于语义特征强化的深度学习预警方法,其特征在于,
所述textcnn模型包括七层结构,分别为:textcnn模型第一层为textcnn输入层,所述textcnn输入层为堆叠模型的输入;textcnn模型第二层为词向量嵌入层;textcnn模型第三层为textcnn层,用于textcnn卷积神经网对词向量化的文本数据进行语义特征提取;textcnn模型第四层为语义特征强化层;textcnn模型第五层为全连接线性学习层;textcnn模型第六层为textcnn分类层;textcnn模型第七层为textcnn输出层;
xgboost模型包括三层结构,分别为:xgboost模型第一层为xgboost输入层,将textcnn模型中的全连接线性学习层输出的特征矩阵作为输入;xgboost模型第二层为xgboost分类层;xgboost模型第三层为xgboost输出层,所述xgboost输出层为堆叠模型的输出。
7.根据权利要求1所述的基于语义特征强化的深度学习预警方法,其特征在于,
文本情感计算的权值的计算公式为:
其中,S为一篇文本中句子的个数;Wne为负面词的预设情感权值;nne为负面词的个数;Wp为正面词的预设情感权值;np为正面词的个数;Wneo为中性词的预设情感权值;nneo为中性词的个数;Wstr为加强语气词的加强倍数权值,t1为加强语气词的个数;Wdir为反转词的预设情感正负方向权值,t2为反转词的个数;ts为文本情感计算的权值;
特征加强型textcnn计算的类别权值的计算公式为:
ty=sigmoid(wx+b)
其中,w为全连接的权重矩阵,x为上层全连接层的特征输出矩阵,b为全连接的偏置矩阵,ty为特征加强型textcnn计算的类别权值;
xgboost计算的类别权值的计算公式为:
其中,k表示有k棵cart回归树,k=1,2…k,f(xi)为拟合的cart回归树,xi为特征加强型textcnn的全连接层输出的特征向量,tx为xgboost计算的类别权值;
融合加权计算的计算公式为:
其中:λ1、λ2、λ3分别为预设的情感加权参数,b为惩罚项,ts、ty、tx分别为文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值;Score为融合加权计算后得到的最终类别权值。
8.一种基于语义特征强化的深度学习预警系统,其特征在于,包括:
第一获取模块,用于获取训练语料集;
第一处理模块,用于对训练语料集进行分词处理得到训练语料集的分词文本;
第二获取模块,用于获取预先训练好的文本词向量,将所述文本词向量作为textcnn模型的词向量嵌入层;
第二处理模块,用于通过关键词提取模型对训练语料集进行关键词特征提取,得到文本关键词;
第三处理模块,用于对文本关键词进行词向量化得到关键词词向量化特征矩阵;
第四处理模块,用于通过主题模型对训练语料集进行主题特征提取,得到文本主题词;
第五处理模块,用于对文本主题词进行词向量化得到主题词词向量化特征矩阵;
第六处理模块,用于通过预设情感词典对分词文本进行情感特征提取,得到文本情感词;
第七处理模块,用于对文本情感词进行词向量化得到情感特征词词向量化矩阵;
第八处理模块,用于将关键词词词向量化特征矩阵、主题词词向量化特征矩阵和情感特征词词向量化矩阵作为textcnn模型的语义特征强化层;
第九处理模块,用于将训练语料集输入由textcnn模型和xgboost模型构成的堆叠模型中进行训练,得到最优堆叠模型;
第三获取模块,用于获取在线预测数据;
第十处理模块,用于将所述在线预测数据输入最优堆叠模型中得到加强特征textcnn计算的类别权值和xgboost计算的类别权值;
第十一处理模块,用于根据预设情感词典,负面词的预设情感权值、正面词的预设情感权值、中性词的预设情感权值、反转词的预设情感正负方向权值和加强语气词的加强倍数权值得到文本情感计算的权值;
第十二处理模块,用于对文本情感计算的权值、加强特征textcnn计算的类别权值和xgboost计算的类别权值进行融合加权计算,得到最终类别权值;
第十三处理模块,用于根据最终类别权值进行类别判断,得到预警结果。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任意一项所述的基于语义特征强化的深度学习预警方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任意一项所述的基于语义特征强化的深度学习预警方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304374.2A CN113051367B (zh) | 2021-03-22 | 2021-03-22 | 基于语义特征强化的深度学习预警方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304374.2A CN113051367B (zh) | 2021-03-22 | 2021-03-22 | 基于语义特征强化的深度学习预警方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051367A true CN113051367A (zh) | 2021-06-29 |
CN113051367B CN113051367B (zh) | 2023-11-21 |
Family
ID=76514184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110304374.2A Active CN113051367B (zh) | 2021-03-22 | 2021-03-22 | 基于语义特征强化的深度学习预警方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051367B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283235A (zh) * | 2021-07-21 | 2021-08-20 | 明品云(北京)数据科技有限公司 | 一种用户标签的预测方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN109344403A (zh) * | 2018-09-20 | 2019-02-15 | 中南大学 | 一种增强语义特征嵌入的文本表示方法 |
CN109446404A (zh) * | 2018-08-30 | 2019-03-08 | 中国电子进出口有限公司 | 一种网络舆情的情感极性分析方法和装置 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
US10459962B1 (en) * | 2018-09-19 | 2019-10-29 | Servicenow, Inc. | Selectively generating word vector and paragraph vector representations of fields for machine learning |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
CN112463966A (zh) * | 2020-12-08 | 2021-03-09 | 北京邮电大学 | 虚假评论检测模型训练方法、检测方法及装置 |
-
2021
- 2021-03-22 CN CN202110304374.2A patent/CN113051367B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN109446404A (zh) * | 2018-08-30 | 2019-03-08 | 中国电子进出口有限公司 | 一种网络舆情的情感极性分析方法和装置 |
US10459962B1 (en) * | 2018-09-19 | 2019-10-29 | Servicenow, Inc. | Selectively generating word vector and paragraph vector representations of fields for machine learning |
CN109344403A (zh) * | 2018-09-20 | 2019-02-15 | 中南大学 | 一种增强语义特征嵌入的文本表示方法 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
CN112463966A (zh) * | 2020-12-08 | 2021-03-09 | 北京邮电大学 | 虚假评论检测模型训练方法、检测方法及装置 |
Non-Patent Citations (3)
Title |
---|
LI XIA LUO等: "network text sentiment analysis method combining LDA text representation and GRU-CNN", PERSONAL AND UBIQUITOUS COMPUTING, vol. 23, no. 4, pages 405 - 412, XP036846300, DOI: 10.1007/s00779-018-1183-9 * |
潘东行;袁景凌;李琳;盛德明;: "一种融合上下文特征的中文隐式情感分类模型", 计算机工程与科学, no. 02, pages 341 - 350 * |
陈天龙;喻国平;姚磊岳;: "基于卷积与双向简单循环单元的文本分类模型", 计算机工程与设计, no. 03, pages 838 - 844 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283235A (zh) * | 2021-07-21 | 2021-08-20 | 明品云(北京)数据科技有限公司 | 一种用户标签的预测方法及系统 |
CN113283235B (zh) * | 2021-07-21 | 2021-11-19 | 明品云(北京)数据科技有限公司 | 一种用户标签的预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113051367B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874782B (zh) | 一种层次注意力lstm和知识图谱的多轮对话管理方法 | |
CN109271522B (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
CN110263324B (zh) | 文本处理方法、模型训练方法和装置 | |
CN107526785B (zh) | 文本分类方法及装置 | |
Zheng et al. | The fusion of deep learning and fuzzy systems: A state-of-the-art survey | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN108009148A (zh) | 基于深度学习的文本情感分类表示方法 | |
CN113326377B (zh) | 一种基于企业关联关系的人名消歧方法及系统 | |
CN111914067A (zh) | 中文文本匹配方法及系统 | |
CN104834747A (zh) | 基于卷积神经网络的短文本分类方法 | |
CN113407660B (zh) | 非结构化文本事件抽取方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN106156163B (zh) | 文本分类方法以及装置 | |
WO2022007867A1 (zh) | 神经网络的构建方法和装置 | |
CN113361258A (zh) | 基于图卷积网络和选择注意力的方面级情感分析方法及系统 | |
CN114627282B (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
Kozhevnikov et al. | Research of the text data vectorization and classification algorithms of machine learning | |
CN105975497A (zh) | 微博话题自动推荐方法及装置 | |
Chen et al. | A deep learning method for judicial decision support | |
CN111651602A (zh) | 一种文本分类方法及系统 | |
CN114461804A (zh) | 一种基于关键信息与动态路由的文本分类方法、分类器及系统 | |
CN114528374A (zh) | 一种基于图神经网络的电影评论情感分类方法及装置 | |
CN106599824A (zh) | 一种基于情感对的gif动画情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |