CN114265937A - 科技情报的智能分类分析方法、系统、存储介质及服务器 - Google Patents

科技情报的智能分类分析方法、系统、存储介质及服务器 Download PDF

Info

Publication number
CN114265937A
CN114265937A CN202111603443.6A CN202111603443A CN114265937A CN 114265937 A CN114265937 A CN 114265937A CN 202111603443 A CN202111603443 A CN 202111603443A CN 114265937 A CN114265937 A CN 114265937A
Authority
CN
China
Prior art keywords
text
vocabulary
information
scientific
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111603443.6A
Other languages
English (en)
Inventor
李俊辉
康建东
韩笑
万金明
闫华光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI filed Critical State Grid Corp of China SGCC
Priority to CN202111603443.6A priority Critical patent/CN114265937A/zh
Publication of CN114265937A publication Critical patent/CN114265937A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种科技情报的智能分类分析方法、系统、存储介质及服务器,方法包括:进行数据收集并对收集到的数据通过预处理构建文本主题信息词向量矩阵;利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征和上下文特征;获取上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征;对整合特征通过softmax分类学习得到分类标签。本发明使卷积神经网络模型在文本特征提取方面兼具细颗粒度的词向量特征和粗颗粒度的上下文特征,相比于传统卷积网络分类模型,能够捕获更为丰富的语义特征,解决了文本信息中蕴含的上下文复杂语义关系特征抽取问题。相比图像分类卷积模型,本发明模型结构具有轻量化特点,降低网络复杂度。

Description

科技情报的智能分类分析方法、系统、存储介质及服务器
技术领域
本发明属于文本智能分类技术领域,具体涉及一种科技情报的智能分类分析方法、系统、存储介质及服务器。
背景技术
随着社会经济的飞速发展,用电资源逐渐增多,电网规模日趋扩大,由此带来的变电站设备巡视、辅助设施维护、变电站设备的检修规范与运行数据等信息及资源呈现海量特征,增长迅速,其中,变电站的故障诊断分析、不同设备的操作标准规范、设备关键参数设置及型号等文本信息量非常大、影响广泛,已越来越受到变电运维人员的关注。同时,国外变电运维新技术不断涌现,迫切需要收集跟踪国外相关科技情报,结合变电运维知识结构,明确变电运维知识不同领域对应的知识点,以及针对不同等级的受训者需要明确分类关键知识信息,以强化受训者能力量化评估及评价。
文本智能分类技术作为知识信息分类的关键技术,是信息挖掘及信息分析的重要基础,目前已广泛应用于知识挖掘、信息检索和信息监督等领域。文本分类方法有很多,但是均不适合变电运维信息资源库中海量文本的快速准确分类,例如,传统卷积网络分类模型不能捕获丰富的语义特征,难以适应文本信息中蕴含的上下文复杂语义关系特征抽取问题,而图像分类卷积模型存在模型参数的数量多以及网络复杂度较高的问题。
发明内容
本发明的目的在于针对上述现有技术中的问题,提供一种科技情报的智能分类分析方法、系统、存储介质及服务器,通过对词向量信息和上下文信息特征细化提取,选择合适的卷积核窗口尺寸,简化模型参数数量,从而提高特征提取的准确性、提升训练速度和泛化能力,使模型的训练复杂度和分类效果达到较高水平。
为了实现上述目的,本发明有如下的技术方案:
第一方面,提供一种科技情报的智能分类分析方法,包括:
进行科技情报数据收集,并对收集到的数据通过预处理构建文本主题信息词向量矩阵;
利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征;
获取词汇上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征;
对整合特征通过softmax分类学习得到分类标签。
作为本发明科技情报的智能分类分析方法的一种优选方案,在所述进行科技情报数据收集并对收集到的数据通过预处理构建文本主题信息词向量矩阵的步骤中,所收集的数据为变电运维领域的信息资料,所述变电运维领域的信息资料主题包括理论、技术、题库;所构建的文本主题信息词向量矩阵包括标题、内容、核心主题句三个维度。
作为本发明科技情报的智能分类分析方法的一种优选方案,在所述进行科技情报数据收集并对收集到的数据通过预处理构建文本主题信息词向量矩阵的步骤中,预处理过程包括:
利用Doc2Vec工具对各类主题的信息文本句进行向量分析计算,获取文本内容的主题句;
利用Jieba工具对文本的标题和文本内容的主题句进行主题信息分词提取;
利用Word2Vec工具对主题信息分词进行词向量计算,建立文本主题信息词向量矩阵。
作为本发明科技情报的智能分类分析方法的一种优选方案,在所述利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征的步骤中,所述卷积神经网络模型按照如下方式构建:依次包括输入层、词嵌入卷积层、区域卷积层、池化层和全连接层;
输入层,通过对文本进行词向量计算,建立文本向量矩阵;
词嵌入卷积层,通过卷积核与词向量进行卷积操作,生成每个词汇信息的新特征;
区域卷积层,在每个词汇信息的新特征基础上,获取每个词汇上下文特征;
池化层,实现特征降维;
全连接层,使某些神经元的激活概率固定在p值上,p值的取值范围为0~1。
更进一步的,所述卷积神经网络模型的池化层采用最大池化,池化层通过最大池化减少卷积层参数误差造成的估计均值偏移。
更进一步的,所述卷积神经网络模型的全连接层应用dropout策略,通过dropout策略使某些神经元的激活概率固定在p值上。
作为本发明科技情报的智能分类分析方法的一种优选方案,所述利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征的步骤包括:
在输入层输入主题信息词向量矩阵TN×V,其中N表示文本中有N个词汇,V表示每个词汇的向量维度为V;
利用卷积运算提取词汇特征,特征提取的计算方法为:
Si=f(Ch×v*Ti:i+h-1+b)
其中,Ch×v为卷积核,行数h为卷积核窗口大小,h取值为1,列数v为词向量维度,T为文本特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取词汇特征图S=[S1,S2,...,Sn],S为n×1向量矩阵;
利用卷积运算提取词汇上下文特征,特征提取的计算方法为:
Mi=f(Ch×1*Si:i+h-1+b)
其中,Ch×1为卷积核,行数h为卷积核窗口大小,h取值为2以上的正整数,S为文本词汇特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取词汇上下文特征图M=[S1,S2,...,Sn-h+1],S为(n-h+1)×1向量矩阵。
作为本发明科技情报的智能分类分析方法的一种优选方案,所述获取词汇上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征的步骤包括:
采用最大池化函数获取词汇上下文特征图M中最大值,放弃其它特征值,得到池化特征;
采用全连接对池化特征进行非线性处理,整合具有类别区分性的特征信息。
作为本发明科技情报的智能分类分析方法的一种优选方案,所述对整合特征通过softmax分类学习得到分类标签的步骤包括:采用多类交叉熵函数作为卷积神经网络模型的损失函数,整合特征通过卷积神经网络模型计算之后输出特征分类标签。
第二方面,提供一种科技情报的智能分类分析系统,包括:
数据收集与预处理模块,用于进行科技情报数据收集并对收集到的数据通过预处理构建文本主题信息词向量矩阵;
上下文特征提取模块,用于利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征;
特征整合模块,用于获取词汇上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征;
分类标签获取模块,用于对整合特征通过softmax分类学习得到分类标签。
作为本发明科技情报的智能分类分析系统的一种优选方案,所述数据收集与预处理模块利用Doc2Vec工具对各类主题的信息文本句进行向量分析计算,获取文本内容的主题句;利用Jieba工具对文本的标题和文本内容的主题句进行主题信息分词提取;利用Word2Vec工具对主题信息分词进行词向量计算,建立文本主题信息词向量矩阵。
作为本发明科技情报的智能分类分析系统的一种优选方案,所述上下文特征提取模块所利用的卷积神经网络模型按照如下方式构建:依次包括输入层、词嵌入卷积层、区域卷积层、池化层和全连接层;
输入层,通过对文本进行词向量计算,建立文本向量矩阵;
词嵌入卷积层,通过卷积核与词向量进行卷积操作,生成每个词汇信息的新特征;
区域卷积层,在每个词汇信息的新特征基础上,获取每个词汇上下文特征;
池化层,实现特征降维;
全连接层,使某些神经元的激活概率固定在p值上,p值的取值范围为0~1。
作为本发明科技情报的智能分类分析系统的一种优选方案,所述的上下文特征提取模块在卷积神经网络模型的输入层输入主题信息词向量矩阵TN×V,其中N表示文本中有N个词汇,V表示每个词汇的向量维度为V;
利用卷积运算提取词汇特征,特征提取的计算方法为:
Si=f(Ch×v*Ti:i+h-1+b)
其中,Ch×v为卷积核,行数h为卷积核窗口大小,h取值为1,列数v为词向量维度,T为文本特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取词汇特征图S=[S1,S2,...,Sn],S为n×1向量矩阵;
利用卷积运算提取词汇上下文特征,特征提取的计算方法为:
Mi=f(Ch×1*Si:i+h-1+b)
其中,Ch×1为卷积核,行数h为卷积核窗口大小,h取值为2以上的正整数,S为文本词汇特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取上下文特征图M=[S1,S2,...,Sn-h+1],S为(n-h+1)×1向量矩阵。
作为本发明科技情报的智能分类分析系统的一种优选方案,所述的特征整合模块采用最大池化函数获取词汇上下文特征图M中最大值,放弃其它特征值,得到池化特征;采用全连接对池化特征进行非线性处理,整合具有类别区分性的特征信息。
第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如第一方面所述科技情报的智能分类分析方法。
第四方面,提供一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述科技情报的智能分类分析方法。
相较于现有技术,本发明第一方面至少具有如下的有益效果:
本发明对收集到的科技情报数据通过预处理构建文本主题信息词向量矩阵,再利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征和词汇上下文特征,使得卷积神经网络模型在文本特征提取方面,兼具了细颗粒度的词向量特征和粗颗粒度的上下文特征,相比于传统卷积网络分类模型,能够捕获更为丰富的语义特征,很好的解决了文本信息中蕴含的上下文复杂语义关系特征抽取问题。本发明模型的复杂度比传统基准卷神经网络模型的卷积核窗口尺寸要小,相比图像分类卷积模型,本发明模型的结构具有轻量化特点,降低了整个网络的复杂度。本发明获取词汇上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征,最后,利用卷积神经网络模型对整合特征通过softmax分类学习得到分类标签,模型参数远少于其它同类深度学习分类模型,因此,反向传播训练速度更快,具有明显的效率优势。
进一步的,本发明所构建的卷积神经网络模型依次包括输入层、词嵌入卷积层、区域卷积层、池化层和全连接层。其中,输入层通过对文本进行词向量计算,建立文本向量矩阵;词嵌入卷积层通过卷积核与词向量进行卷积操作,生成每个词汇信息的新特征;区域卷积层在每个词汇信息的新特征基础上,获取每个词汇上下文语义特征;池化层实现特征降维;全连接层使某些神经元的激活概率固定在p值上,p值的取值范围为0~1。本发明采用不同卷积核窗口尺寸大小对上下文语义信息特征提取,实现了上下文语义信息特征分层提取,保证词向量信息的完整性,解决了一词多义等现象带来的语义模糊问题。卷积核窗口尺寸的大小直接影响卷积神经网络模型训练的收敛速度及模型性能,本发明在综合考虑卷积神经网络模型训练时间和准确性条件下,合理设计卷积核窗口尺寸平衡卷积神经网络模型的训练复杂度和分类效果,解决了卷积神经网络模型在实现很好拟合的背景下,模型性能调优的问题。
可以理解的是,上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1本发明实施例构建的卷积神经网络模型结构示意图;
图2本发明实施例科技情报的智能分类分析方法流程图;
图3本发明实施例实验一数据集下模型损失函数下降图;
图4本发明实施例实验二数据集下模型损失函数下降图;
图5本发明实施例科技情报的智能分类分析系统结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请的实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
深度学习通过所特有的层次结构,能够从低层特征中提取高层特征,已在图像、语音和自然语言处理等领域取得了重大进展,展示出了潜在的应用价值,成为机器学习的一个新兴领域。为了解决变电运维知识共现不足与人工抽取特征困难的问题,本发明提出一种变电运维知识分类方法,利用卷积神经网络快速提取特征的优势,实现变电运维知识智能化分类。
实施例1
在图像识别卷积神经网络中,图像是二维数据,图像处理的卷积核是从左到右、从上到下滑动进行特征提取计算,而自然语言是一维数据,虽然通过word-embidding(词嵌入)生成二维向量,但对词向量来说,从左向右滑动的卷积操作没有意义,因此,图像处理中卷积核大小Dk×Dk不合适用在文本特征提取(Dk表示卷积核尺寸大小),此外,文本信息中词组本身的含义与文本的上下文相关联,卷积核大小设计需要考虑到区域文本关联关系,因此设计不同功能的灵活卷积核,对文本特征进行分层卷积,实现对词向量信息和上下文信息的细化特征提取,避免语义混淆,降低卷积网络的复杂度,对有效挖掘文本特征至关重要。
深度神经网络模型能够通过多层网络,不断组合低层文本信息,形成更加抽象的高层文本表示,从而提高模型分类的准确性。卷积神经网络是一个典型的深度神经网络,具有优异的特征自提取能力,能够显著降低文本分类中人工抽取特征的难度。本发明考虑文本语言特点、词向量特征以及文本上下文语义关系等因素,进一步优化图像卷积网络结构,提出一种融合变电运维知识主题、内容、核心主题句的卷积神经网络文本分类方法。
请参阅图1,本发明科技情报的智能分类分析方法所设计的卷积神经网络模型总体结构分为五层,即输入层、词嵌入卷积层、区域卷积层、池化层和全连接层。
第一层为输入层,输入层与传统的CNN模型处理方式一样进行向量化处理,通过word2Vec模型将预处理后的文本进行词向量计算,建立文本向量矩阵,长度为k的训练文本表示为:x=[x1,x2,...,xk],xi表示文本中第i个向量维度为d的词组,x∈Rk×d,k表示文本词汇数量,d表示单个词汇向量长度。
第二层为词嵌入卷积层,词嵌入卷积层专注分析词汇本身的含义,提取细颗粒度的文本特征。该层的词嵌入卷积操作权重W1∈R1×d,通过卷积核与词向量卷积操作,生成每个词汇信息的新特征。例如:一个词汇新特征C1i是由一个词xi生成的:C1i=f(W1*xi+b1),其中f是指ReLU激活函数,避免梯度爆炸和梯度消失。通过词嵌入卷积操作形成新特征图:C1=[C11,C12,...,Clk],且C1∈Rk
第三层为区域卷积层,区域卷积层在第二层单个词汇信息特征的基础上获取词汇上下文语义特征,卷积运算的滤波器W2∈RDk×1,C2i=f(W2*[C1i:i+Dk-1]+b2),其中f是指ReLU激活函数。通过区域卷积操作,生成词汇上下文信息特征图:C2=[c21,c22,...,C2k-Dk+1],C2∈Rk-Dk+1
第四层为池化层,池化层通过特征降维,进一步提取C2的特征,降低模型的复杂度,提高模型泛化能力,常见的池化操作有平均池化和最大池化,本模型中选择最大池化,以减少卷积层参数误差造成估计均值偏移。C3表示最大池化特征:C3=max{C2},C3∈RN,C3表征是最终获得综合文本特征。
第五层为全连接层,C3特征在全连接层应用dropout,通过dropout策略可以使某些神经元的激活概率固定在p值上,p值的取值范围为0~1,使模型在向前传输过程中不会太依赖某些局部特征,使模型的鲁棒性更好,泛化能力更强,y=W3*C3+b3。最后输出单元y通过softmax分类学习得到最终分类标签。
请参阅图2,本发明提出的一种科技情报的智能分类分析方法,主要包括两个阶段:
第一阶段主要开展数据收集和预处理工作,收集变电运维培训主题知识信息资料,从标题、内容、核心主题句三个维度,进行主题分词提取,构建词向量矩阵,为卷积神经网络分类推送计算做准备,具体步骤如下:
导入变电运维领域的理论、技术、题库等主题信息资料;
利用Doc2Vec工具对各类主题信息文本句进行向量分析计算,获取文本内容的主题句;
利用Jieba工具对文本的标题和文本内容的主题句进行主题分词信息提取;
利用Word2Vec工具对主题分词信息进行词向量计算,建立文本主题信息词向量矩阵。
第二阶段主要依托卷积神经网络模型,对第一阶段建立的文本主题信息词向量矩阵进行卷积操作,从单个词向量和上下文语义中自动提取文本特征信息,经过池化层和softmax层获得分类结果的概率分布,具体步骤如下:
1)卷积神经网络输入:在输入层输入主题信息词向量矩阵TN×V,其中N表示文本中有N个词汇,V表示每个词汇的向量维度为V。
2)词嵌入卷积操作:对词汇特征提取,利用卷积运算提取词汇特征,特征提取的计算方法为:
Si=f(Ch×v*Ti:i+h-1+b);
其中,Ch×v为卷积核,行数h为卷积核窗口大小,h取值为1,列数v为词向量维度,T为文本特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取词汇特征图:S=[S1,S2,...,Sn],S为n×1向量矩阵。
3)对词汇上下文特征提取:利用卷积运算提取词汇上下文特征,特征提取的计算方法为:
Mi=f(Ch×1*Si:i+h-1+b);
其中,Ch×1为卷积核,行数h为卷积核窗口大小,h取值为2,3,4,5等,S为文本词汇特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取词汇上下文特征图:M=[S1,S2,...,Sn-h+1],S为(n-h+1)×1向量矩阵。
4)对词汇上下文特征图进行池化:采用最大池化函数(MaxPooling)获取词汇上下文特征图M中最大值,同时放弃其它特征值。
5)全连接层:采用全连接对池化特征进行非线性处理,整合具有类别区分性的特征信息。
6)卷积神经网络输出:采用多类交叉熵函数(Softmax Cross Entropy)作为损失函数,输出特征分类标签。
本发明提出的科技情报的智能分类分析方法中通过对词向量信息和上下文信息特征细化提取,选择合适的卷积核窗口尺寸,简化了模型参数数量,从而提高特征提取的准确性、提升训练速度和泛化能力,使模型的训练复杂度和分类效果达到较高水平。
以下通过实验案例对本发明提出的方法效果加以验证。
实验硬件配置
Figure BDA0003432671600000111
Core(TM)i7-6500uCPU 2.50GHz处理器和8GB内存笔记本电脑,软软件配置Windows 7 64位操作系统,算法开发软件为Eclipse,编程语言Python3.6,深度学习框架TensorFlow2.0,预训练词向量采用Word2Vec。
实验一:数据集采用北京师范大学中文信息处理研究所构建的开发中文语言向量资源,选用1950-2018年的人民日报语料,分别采用以词级的标题和全文作为训练集和测试集,评估大规模词向量语料库对词级CNN自动分类推荐模型的性能影响。
实验二:数据集采用16000篇变电运维信息资源库文本作为语料,分别采用以词级的标题和全文作为训练集和测试集,评估采用自训练的词向量模型对词级CNN自动分类推荐模型的性能影响。
(1)卷积核窗口尺寸对模型性能的影响分析
为了探究卷积核窗口尺寸对模型性能的影响因素,实验中,将卷积核的数目固定为300,卷积核的窗口尺寸分别设置为3,5,7,9和3,4,5。实验结果如图3和图4所示,对于人民日报语料数据集,将卷积核窗口大小设置为7准确率最高,对于变电运维信息资源库的语料数据集,卷积核大小为5表现最好,同时,卷积核窗口尺寸为3时,收敛速度最快,且随着卷积核大小的增加,模型训练收敛速度也逐渐降低,复杂度逐渐上升。因此,综合考虑模型的训练时间和准确率,在实践中,将卷积核设置为窗口是3、4、5的混合卷积核,这样既可以保证模型较低的训练复杂度有拥有良好的分类效果。
(2)模型准确率比对分析
为了从不同的角度来验证本发明神经网络模型在文本分类任务总的适用性和优越性,与KIM学者提供的4种基准卷积神经网络模型,即:CNN-rand、CNN-static、CNN-non-static和CNN-multi-channel进行比较,通过比较分析,本发明提出的神经网络模型在模型训练耗费时间及准确率方面具有明显优势,在不同的分类任务中均取得最佳效果,参见表1。
表1 与传统卷积神经模型实验比较
序号 卷积神经网络模型 模型训练时间 F-度量值
1 CNN-rand 6m25s 75.32%
2 CNN-static 9m31s 78.43%
3 CNN-non-static 7m16s 78.35%
4 CNN-multi-channel 10m48s 79.47%
5 本发明模型 3m15s 82.25%
实验验证结论:
本发明设计的卷积神经网络在文本特征提取方面,兼具了细颗粒度的词向量特征和粗颗粒度的上下文特征,相比较传统卷积网络分类模型,捕获了更为丰富的语义特征,且模型参数远少于其它同类深度学习分类模型,因此反向传播训练速度更快,具有明显的效率优势。
综上,从数学角度分析,本发明模型的复杂度比传统基准卷神经网络模型的卷积核窗口尺寸要小,相比图像分类卷积模型,本发明模型的结构具有轻量化特点,降低了整个网络的复杂度;其次本发明模型对文本特征从词汇、上下文进行分级提取,丰富了文本语义特征挖掘,提升文本语义特征提取准确性;从模型训练时间及评估指标上可见,本发明模型的训练时间最短、准确率最高;从不同语料训练上可见,本发明模型的泛化能力强,实用价值高。
实施例2
请参阅图5,本发明实施例提出的科技情报的智能分类分析系统,包括数据收集与预处理模块1、上下文特征提取模块2、特征整合模块3以及分类标签获取模块4,具体的:
数据收集与预处理模块1,用于进行科技情报数据收集并对收集到的数据通过预处理构建文本主题信息词向量矩阵;
上下文特征提取模块2,用于利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征;
特征整合模块3,用于获取词汇上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征;
分类标签获取模块4,用于对整合特征通过softmax分类学习得到分类标签。
在一种实施方式中,数据收集与预处理模块1,所收集的数据为变电运维领域的信息资料,所述变电运维领域的信息资料主题包括理论、技术、题库;所构建的文本主题信息词向量矩阵包括标题、内容、核心主题句三个维度。数据收集与预处理模块1的预处理过程包括:
利用Doc2Vec工具对各类主题的信息文本句进行向量分析计算,获取文本内容的主题句;
利用Jieba工具对文本的标题和文本内容的主题句进行主题信息分词提取;
利用Word2Vec工具对主题信息分词进行词向量计算,建立文本主题信息词向量矩阵。
在一种实施方式中,上下文特征提取模块2在卷积神经网络模型的输入层输入主题信息词向量矩阵TN×V,其中N表示文本中有N个词汇,V表示每个词汇的向量维度为V;
利用卷积运算提取词汇特征,特征提取的计算方法为:
Si=f(Ch×v*Ti:i+h-1+b)
其中,Ch×v为卷积核,行数h为卷积核窗口大小,h取值为1,列数v为词向量维度,T为文本特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取词汇特征图S=[S1,S2,...,Sn],S为n×1向量矩阵;
利用卷积运算提取词汇上下文特征,特征提取的计算方法为:
Mi=f(Ch×1*Si:i+h-1+b)
其中,Ch×1为卷积核,行数h为卷积核窗口大小,h取值为2以上的正整数,S为文本词汇特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取上下文特征图M=[S1,S2,...,Sn-h+1],S为(n-h+1)×1向量矩阵。
实施例3
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的变电运维知识分类方法。所述计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。为了便于说明,以上内容仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质是非暂时性的,可以存储在各种电子设备形成的存储装置当中,能够实现本发明实施例方法记载的执行过程。
实施例4
本发明实施例还提供一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的变电运维知识分类方法。同样,为了便于说明,以上内容仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (16)

1.一种科技情报的智能分类分析方法,其特征在于,包括:
进行科技情报数据收集,并对收集到的数据通过预处理构建文本主题信息词向量矩阵;
利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征;
获取词汇上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征;
对整合特征通过softmax分类学习得到分类标签。
2.根据权利要求1所述科技情报的智能分类分析方法,其特征在于:在所述进行科技情报数据收集并对收集到的数据通过预处理构建文本主题信息词向量矩阵的步骤中,所收集的数据为变电运维领域的信息资料,所述变电运维领域的信息资料主题包括理论、技术、题库;所构建的文本主题信息词向量矩阵包括标题、内容、核心主题句三个维度。
3.根据权利要求2所述科技情报的智能分类分析方法,其特征在于:在所述进行科技情报数据收集并对收集到的数据通过预处理构建文本主题信息词向量矩阵的步骤中,预处理过程包括:
利用Doc2Vec工具对各类主题的信息文本句进行向量分析计算,获取文本内容的主题句;
利用Jieba工具对文本的标题和文本内容的主题句进行主题信息分词提取;
利用Word2Vec工具对主题信息分词进行词向量计算,建立文本主题信息词向量矩阵。
4.根据权利要求1所述科技情报的智能分类分析方法,其特征在于:在所述利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征的步骤中,所述卷积神经网络模型按照如下方式构建:依次包括输入层、词嵌入卷积层、区域卷积层、池化层和全连接层;
输入层,通过对文本进行词向量计算,建立文本向量矩阵;
词嵌入卷积层,通过卷积核与词向量进行卷积操作,生成每个词汇信息的新特征;
区域卷积层,在每个词汇信息的新特征基础上,获取每个词汇上下文特征;
池化层,实现特征降维;
全连接层,使某些神经元的激活概率固定在p值上,p值的取值范围为0~1。
5.根据权利要求4所述科技情报的智能分类分析方法,其特征在于,所述卷积神经网络模型的池化层采用最大池化,池化层通过最大池化减少卷积层参数误差造成的估计均值偏移。
6.根据权利要求4所述科技情报的智能分类分析方法,其特征在于,所述卷积神经网络模型的全连接层应用dropout策略,通过dropout策略使某些神经元的激活概率固定在p值上。
7.根据权利要求1所述科技情报的智能分类分析方法,其特征在于,所述利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征的步骤包括:
在输入层输入主题信息词向量矩阵TN×V,其中N表示文本中有N个词汇,V表示每个词汇的向量维度为V;
利用卷积运算提取词汇特征,特征提取的计算方法为:
Si=f(Ch×v*Ti:i+h-1+b)
其中,Ch×v为卷积核,行数h为卷积核窗口大小,h取值为1,列数v为词向量维度,T为文本特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取词汇特征图S=[S1,S2,...,Sn],S为n×1向量矩阵;
利用卷积运算提取词汇上下文特征,特征提取的计算方法为:
Mi=f(Ch×1*Si:i+h-1+b)
其中,Ch×1为卷积核,行数h为卷积核窗口大小,h取值为2以上的正整数,S为文本词汇特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取词汇上下文特征图M=[S1,S2,...,Sn-h+1],S为(n-h+1)×1向量矩阵。
8.根据权利要求7所述科技情报的智能分类分析方法,其特征在于,所述获取词汇上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征的步骤包括:
采用最大池化函数获取词汇上下文特征图M中最大值,放弃其它特征值,得到池化特征;
采用全连接对池化特征进行非线性处理,整合具有类别区分性的特征信息。
9.根据权利要求1所述科技情报的智能分类分析方法,其特征在于,所述对整合特征通过softmax分类学习得到分类标签的步骤包括:采用多类交叉熵函数作为卷积神经网络模型的损失函数,整合特征通过卷积神经网络模型计算之后输出特征分类标签。
10.一种科技情报的智能分类分析系统,其特征在于,包括:
数据收集与预处理模块,用于进行科技情报数据收集并对收集到的数据通过预处理构建文本主题信息词向量矩阵;
上下文特征提取模块,用于利用卷积神经网络模型从文本主题信息词向量矩阵提取词汇特征,再利用卷积神经网络模型结合词汇特征提取词汇上下文特征;
特征整合模块,用于获取词汇上下文特征的池化特征,并采用全连接对池化特征进行非线性处理获得整合特征;
分类标签获取模块,用于对整合特征通过softmax分类学习得到分类标签。
11.根据权利要求10所述科技情报的智能分类分析系统,其特征在于,所述数据收集与预处理模块利用Doc2Vec工具对各类主题的信息文本句进行向量分析计算,获取文本内容的主题句;利用Jieba工具对文本的标题和文本内容的主题句进行主题信息分词提取;利用Word2Vec工具对主题信息分词进行词向量计算,建立文本主题信息词向量矩阵。
12.根据权利要求10所述科技情报的智能分类分析系统,其特征在于,所述上下文特征提取模块所利用的卷积神经网络模型按照如下方式构建:依次包括输入层、词嵌入卷积层、区域卷积层、池化层和全连接层;
输入层,通过对文本进行词向量计算,建立文本向量矩阵;
词嵌入卷积层,通过卷积核与词向量进行卷积操作,生成每个词汇信息的新特征;
区域卷积层,在每个词汇信息的新特征基础上,获取每个词汇上下文特征;
池化层,实现特征降维;
全连接层,使某些神经元的激活概率固定在p值上,p值的取值范围为0~1。
13.根据权利要求10所述科技情报的智能分类分析系统,其特征在于,所述的上下文特征提取模块在卷积神经网络模型的输入层输入主题信息词向量矩阵TN×V,其中N表示文本中有N个词汇,V表示每个词汇的向量维度为V;
利用卷积运算提取词汇特征,特征提取的计算方法为:
Si=f(Ch×v*Ti:i+h-1+b)
其中,Ch×v为卷积核,行数h为卷积核窗口大小,h取值为1,列数v为词向量维度,T为文本特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取词汇特征图S=[S1,S2,...,Sn],S为n×1向量矩阵;
利用卷积运算提取词汇上下文特征,特征提取的计算方法为:
Mi=f(Ch×1*Si:i+h-1+b)
其中,Ch×1为卷积核,行数h为卷积核窗口大小,h取值为2以上的正整数,S为文本词汇特征矩阵,b为偏置值,f为神经元激活函数,采用ReLU函数,计算后,获取上下文特征图M=[S1,S2,...,Sn-h+1],S为(n-h+1)×1向量矩阵。
14.根据权利要求13所述科技情报的智能分类分析系统,其特征在于,所述的特征整合模块采用最大池化函数获取词汇上下文特征图M中最大值,放弃其它特征值,得到池化特征;采用全连接对池化特征进行非线性处理,整合具有类别区分性的特征信息。
15.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述科技情报的智能分类分析方法。
16.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述科技情报的智能分类分析方法。
CN202111603443.6A 2021-12-24 2021-12-24 科技情报的智能分类分析方法、系统、存储介质及服务器 Pending CN114265937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111603443.6A CN114265937A (zh) 2021-12-24 2021-12-24 科技情报的智能分类分析方法、系统、存储介质及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111603443.6A CN114265937A (zh) 2021-12-24 2021-12-24 科技情报的智能分类分析方法、系统、存储介质及服务器

Publications (1)

Publication Number Publication Date
CN114265937A true CN114265937A (zh) 2022-04-01

Family

ID=80830087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111603443.6A Pending CN114265937A (zh) 2021-12-24 2021-12-24 科技情报的智能分类分析方法、系统、存储介质及服务器

Country Status (1)

Country Link
CN (1) CN114265937A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858474A (zh) * 2023-02-27 2023-03-28 环球数科集团有限公司 一种基于aigc的文件整理系统
CN116912845A (zh) * 2023-06-16 2023-10-20 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN117787249A (zh) * 2024-02-23 2024-03-29 北京大学深圳研究生院 一种用于材料与化工行业科技情报的数据处理方法
CN117973386A (zh) * 2024-02-23 2024-05-03 北京大学深圳研究生院 一种用于材料与化工行业科技情报的实词识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909164A (zh) * 2019-11-22 2020-03-24 科大国创软件股份有限公司 一种基于卷积神经网络的文本增强语义分类方法及系统
CN111680225A (zh) * 2020-04-26 2020-09-18 国家计算机网络与信息安全管理中心 基于机器学习的微信金融消息分析方法及系统
CN112052687A (zh) * 2020-09-02 2020-12-08 厦门市美亚柏科信息股份有限公司 基于深度可分离卷积的语义特征处理方法、装置及介质
CN112765353A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种基于科研文本的生物医学学科分类方法及装置
WO2021151306A1 (zh) * 2020-06-19 2021-08-05 平安科技(深圳)有限公司 智能问答语料分析方法、装置、电子设备及可读存储介质
WO2021169347A1 (zh) * 2020-02-25 2021-09-02 华为技术有限公司 提取文本关键字的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909164A (zh) * 2019-11-22 2020-03-24 科大国创软件股份有限公司 一种基于卷积神经网络的文本增强语义分类方法及系统
WO2021169347A1 (zh) * 2020-02-25 2021-09-02 华为技术有限公司 提取文本关键字的方法及装置
CN111680225A (zh) * 2020-04-26 2020-09-18 国家计算机网络与信息安全管理中心 基于机器学习的微信金融消息分析方法及系统
WO2021151306A1 (zh) * 2020-06-19 2021-08-05 平安科技(深圳)有限公司 智能问答语料分析方法、装置、电子设备及可读存储介质
CN112052687A (zh) * 2020-09-02 2020-12-08 厦门市美亚柏科信息股份有限公司 基于深度可分离卷积的语义特征处理方法、装置及介质
CN112765353A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种基于科研文本的生物医学学科分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
严佩敏;唐婉琪;: "基于可分离卷积神经网络的文本分类", 电子测量技术, no. 13, 8 July 2020 (2020-07-08) *
唐婉琪: "基于可分离卷积神经网络的文本分类", 中国优秀硕士学位论文全文数据库, 15 February 2021 (2021-02-15), pages 4 - 5 *
杨锐等: "融合主题信息的卷积神经网络文本分类方法研究", 现代情报, 30 April 2020 (2020-04-30), pages 2 - 3 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858474A (zh) * 2023-02-27 2023-03-28 环球数科集团有限公司 一种基于aigc的文件整理系统
CN115858474B (zh) * 2023-02-27 2023-05-09 环球数科集团有限公司 一种基于aigc的文件整理系统
CN116912845A (zh) * 2023-06-16 2023-10-20 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN116912845B (zh) * 2023-06-16 2024-03-19 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN117787249A (zh) * 2024-02-23 2024-03-29 北京大学深圳研究生院 一种用于材料与化工行业科技情报的数据处理方法
CN117973386A (zh) * 2024-02-23 2024-05-03 北京大学深圳研究生院 一种用于材料与化工行业科技情报的实词识别方法
CN117787249B (zh) * 2024-02-23 2024-05-28 北京大学深圳研究生院 一种用于材料与化工行业科技情报的数据处理方法
CN117973386B (zh) * 2024-02-23 2024-08-20 北京大学深圳研究生院 一种用于材料与化工行业科技情报的实词识别方法

Similar Documents

Publication Publication Date Title
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN112395393B (zh) 一种基于多任务多示例的远程监督关系抽取方法
CN111581401A (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN110134946A (zh) 一种针对复杂数据的机器阅读理解方法
CN116701431A (zh) 一种基于大语言模型的数据检索方法及系统
CN112100397A (zh) 基于双向门控循环单元的电力预案知识图谱构建方法及系统
CN113204674B (zh) 基于局部-整体图推理网络的视频-段落检索方法及系统
CN110728144B (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN112925904A (zh) 一种基于Tucker分解的轻量级文本分类方法
CN114743143A (zh) 一种基于多概念知识挖掘的视频描述生成方法及存储介质
Sun et al. Multi-channel CNN based inner-attention for compound sentence relation classification
Liu et al. Hybrid neural network text classification combining TCN and GRU
Çayli et al. Knowledge distillation for efficient audio-visual video captioning
CN112765353B (zh) 一种基于科研文本的生物医学学科分类方法及装置
CN113688621A (zh) 一种长短不一的文本在不同粒度下的文本匹配方法及装置
Mossie Social media dark side content detection using transfer learning emphasis on hate and conflict
CN115995029A (zh) 一种基于双向连接的图像情感分析方法
CN113722431B (zh) 命名实体关系识别方法、装置、电子设备及存储介质
Zhai et al. TRIZ technical contradiction extraction method based on patent semantic space mapping
CN114943224A (zh) 基于词向量的警情文本关键词提取方法、系统、介质及设备
CN113157914A (zh) 一种基于多层循环神经网络的文档摘要提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination