CN106959946B

CN106959946B - 一种基于深度学习的文本语义特征生成优化方法

Info

Publication number: CN106959946B
Application number: CN201710223503.9A
Authority: CN
Inventors: 张福泉; 徐琳
Original assignee: Minjiang University
Current assignee: Minjiang University
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2020-05-05
Anticipated expiration: 2037-04-07
Also published as: CN106959946A

Abstract

本发明涉及一种基于深度学习的文本语义特征生成优化方法，包括对象层、上层语义模块、下层语义模块以及文本信息模块；所述文本信息模块中记录的是文本信息原身，外部情感多样性提供给文本信息的是非线性属性；采取栈式去噪自编码法建立文本编码器提取文本语义，采用单层神经网络学习下层文本语义获取其特征，保存到下层语义模块；以下层语义模块为数据基础提取上层文本语义获取其特征，保存到上层语义模块；在上层语义模块、下层语义模块和对象层之间建立语义特征优化程序，运行程序输出文本语义特征集群，完成双向推导过程。本发明具有良好的学习效果，能够准确生成文本语义特征，可保证有效特征占据比例稳定维持在一个较高水平。

Description

一种基于深度学习的文本语义特征生成优化方法

技术领域

本发明涉及语义特征提取领域，特别是一种基于深度学习的文本语义特征生成优化方法。

背景技术

随着网络平台数据量的不断更新，信息时代逐渐加深着它对现代社会的影响力，各种各样的社交和传播平台充斥在人们的生活当中。与此同时，网民也不再像网络时代初期那样仅仅是浏览信息，而是摇身变成信息的主宰者，使网络信息更加多样化。网民自主产生的主观思维信息中夹带着的情感多种多样，如果使用计算机对这些情感加以利用，使得网络信息将能更加符合人们的日常生活习惯和思维模式，成为重要课题。自然语言处理学科就是在这种态势下发展起来的人工智能技术。一般是通过计算机技术对自然语言进行处理，挖掘语言的深度语义特征含义。卷积神经网络、深度置信等都是常见的自然语言处理算法，但到目前为止，这些方法都是单向推导方法，结果都存在较大误差。还未曾找到能够准确挖掘文本语义特征的方法。

深度学习也是人工智能技术的一个分支学科，它与神经网络使用同种机器学习分析方式。深度学习按层次建立神经网络，将机器学习应用在网络中学习信息深层含义，逐层缔造信息特征，使所挖掘出的特征具有更强的表述力度。对于自然语言处理来说，深度学习在文本语义特征运算方面具有一定的专研意义，能够利用免监督手段从网络文本信息中找到深层语义特征。研究基于深度学习的文本语义特征生成优化算法是一次大胆尝试。

与本申请有关的文献如下；

[1]杨伟杰.复杂细微差异化网络数据特征的语义优化提取算法[J].计算机科学,2015,42(8):269-272。

[2]何小利.路由冲突下语义特征信息优化查准算法[J].科学技术与工程,2016,16(17):81-85。

[3]姜芳,李国和,岳翔.基于语义的文档特征提取研究方法[J].计算机科学,2016,43(2):254-258。

[4]Kuo J,Su K,Hu L,et al.WE-AB-204-04:Feature Selection andClustering Optimization for Pseudo-CT Generation in MR-Based AttenuationCorrection and Radiation Therapy Planning[J].Medical Physics,2015,42(6):3659.

[5]李敏,禹龙,田生伟,等.基于深度学习的维吾尔语语句情感倾向分析[J].计算机工程与设计,2016,37(8):2213-2217。

[6]Ito Y,Shih A,Koomullil R,et al.Solution Adaptive Mesh GenerationUsing Feature-Aligned Embedded Surface Meshes[J].Aiaa Journal,2015,47(8):1879-1888。

[7]马成虎,董洪伟.一种基于深度学习的多尺度深度网络的场景标注算法[J].计算机工程与科学,2016,38(7):1356-1361。

[8]Herremans D,

K,Martens D.Classification and Generation ofComposer-Specific Music Using Global Feature Models and Variable NeighborhoodSearch[J].Computer Music Journal,2015,39(3):71-91。

[9]程玉胜,梁辉,王一宾,等.基于风险决策的文本语义分类算法[J].计算机应用,2016,36(11):2963-2968。

[10]谭光兴,刘臻晖.基于SVM的局部潜在语义分析算法研究[J].计算机工程与科学,2016,38(1):177-182。

[11]Tommasel A,Godoy D.Short-text feature construction and selectionin social media data:a survey[J].Artificial Intelligence Review,2016:1-38。

[12]Garla V N,Brandt C.Ontology-guided feature engineering forclinical text classification.[J].Journal of Biomedical Informatics,2012,45(5):992-998。

[13]Altincay H,Erenel Z.Ternary encoding based feature extraction forbinary text classification[J].Applied Intelligence,2014,41(1):310-326。

[14]Xiao Y,Wu J,Yuan J.mCENTRIST:A Multi-Channel Feature GenerationMechanism for Scene Categorization[J].IEEE Transactions on Image Processing,2014,23(2):823-836。

[15]Samirelons A,Abull-Ela M,Tolba M F.Pulse-coupled neural networkfeature generation model for Arabic sign language recognition[J].Iet ImageProcessing,2013,7(9):829-836。

[16]Lin W C,Tsai C F,Chen Z Y,et al.Keypoint selection for efficientbag-of-words feature generation and effective image classification[J].Information Sciences,2016,329:33-51。

[17]Wang Y,Mao H,Yi Z.Protein Secondary Structure Prediction by usingDeep Learning Method[J].Knowledge-Based Systems,2016。

[18]Kong X,Choi J Y,Shattuckhufnagel S.Analysis of distinctivefeature matching with random error generation in a lexical access system[J].Journal of the Acoustical Society of America,2015,138(3):1780-1780。

[19]Wang Y,Luo Z,Jodoin P M.Interactive Deep Learning Method forSegmenting Moving Objects[J].Pattern Recognition Letters,2016。

[20]Lee Y M.Classification of node degree based on deep learning androuting method applied for virtual route assignment[J].Ad Hoc Networks,2016(15):25-29。

发明内容

有鉴于此，本发明的目的是提出一种基于深度学习的文本语义特征生成优化方法，具有良好的学习效果，能够准确生成文本语义特征，可保证有效特征占据比例稳定维持在一个较高水平。

本发明采用以下方案实现：一种基于深度学习的文本语义特征生成优化方法，具体包括以下步骤：

步骤S1：包括对象层、上层语义模块、下层语义模块以及文本信息模块；所述文本信息模块中记录的是文本信息原身，外部情感多样性提供给文本信息的是非线性属性；

步骤S2：采取栈式去噪自编码法建立文本编码器提取文本语义，采用单层神经网络学习下层文本语义获取其特征，保存到下层语义模块；

步骤S3：以下层语义模块为数据基础提取上层文本语义获取其特征，保存到上层语义模块；

步骤S4：在上层语义模块、下层语义模块和对象层之间建立语义特征优化程序，运行程序输出文本语义特征集群，完成双向推导过程。

进一步的，所述语义特征优化程序包括正向文本语义特征生成以及反向文本语义特征生成；

其中，所述正向文本语义特征生成具体为：每层神经网络都有一个文本编码器，采用深度学习的免监督手段从下到上依次训练编码器，学习文本语义，使用新浪云算法学习文本语义，模拟网民思维方式，重新定义文本语义；经过上述发展，单层神经网络的神经元比重发生了变化，根据梯度将单层神经网络展开，建立标准神经网络；训练标准神经网络的整体文本语义，生成低等级文本语义特征。

进一步的，所述反向文本语义特征生成具体为：利用深度学习在所生成的正向文本语义特征上建立概念数据库进行深层次特征提取；深度学习算法在上、下层语义模块内分别建立隐含层和输出层，在下层语义模块隐含层中使用卷积运算对正向文本语义特征进行深层反向分析，所涉及到的操作均为免监督式，无任何顾虑地、不接受多余条件约束地生成文本语义特征；单层神经网络的学习是自下而上，概念数据库进行的深度学习是自上而下，从对象层开始向下输入数据，用以补充文本信息因单方向输入算法模型中产生的挖掘漏洞；上述过程结束后，开始提取高等级文本语义特征，整个过程与正向文本语义特征提取过程基本一致。

进一步的，上、下层推导语义模块隐含层的深度学习过程使用的函数为；

其中，上角标low和high分别表示下层语义模块和上层语义模块，h_k是指隐含层中的第k个神经元，W_k是h_k的卷积核，b_k是h_k的文本语义特征误差，V是标准神经网络体积，n是上层语义模块隐含层神经元数量，p是后验概率。

进一步的，正向语义推导模块拥有两种后验概率，即隐含层p₁和输出层p₂，表示为：

与现有技术相比，本发明有以下有益效果：本发明就文本语义特征生成工作提出深度学习优化算法，深度学习算法融入多种思维，包括神经网络、机器学习、数学模型、数据编码等，应用到免监督式的学习方法、单层神经网络、新浪云算法和反向分析等学科，对文本语义的高、低等级特征均已进行细致描述，还对算法的一些缺陷进行了合理优化。本发明的算法具有良好的学习效果，能够准确生成文本语义特征，可保证有效特征占据比例稳定维持在一个较高水平。

附图说明

图1为本发明实施例中文本语义特征的提取过程。

图2为本发明实施例中文本编码器程序走向图。

图3为本发明实施例中算法操作模型的单层神经网络。

图4为本发明实施例中正向文本语义特征生成进程。

图5为本发明实施例中反向文本语义特征生成过程。

图6为本发明实施例中文本分词处理结果图。

图7为本发明实施例中有效特征占据比例(实验1)。

图8为本发明实施例中有效特征占据比例(实验2)。

图9为本发明实施例中有效特征占据比例(实验3)。

图10为本发明实施例中文本语义特征生成精度对比示意图。

图11为本发明实施例中文本特征生成召回率对比图。

图12为本发明实施例中文本特征生成效率对比图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本实施例提供了一种基于深度学习的文本语义特征生成优化方法，文本语义存在显著的特征结构，可简要将其分为上、下两层。下层的文本语义特征比较具体，特征之间存在很强的关联性，为低等级特征。上层的文本语义特征之间关联界限模糊，特征挖掘难度要大很多，属于高等级特征。深度学习通过免监督式的机器学习方式模仿文本信息行为，得到下层语义特征，根据下层语义特征逐层递增地提取上层语义特征。

在本实施例中，首先进行文本语义特征双向生成可行性证明。文本语义特征生成过程是一个较为复杂的过程，整个过程如图1所示。由图1可知，深度学习算法操作模型拥有四个模块和两个操作步骤，模块包括对象层、上层语义模块、下层语义模块和文本信息模块，操作步骤包括语义提取与学习、生成语义特征。栈式去噪自编码法是对信息内在非线性编码的去噪与提取。文本信息模块内记录的是文本信息原身，外部情感多样性提供给文本信息的正是非线性属性，可采取栈式去噪自编码法建立文本编码器提取文本语义，采用单层神经网络学习下层文本语义获取其特征，保存到下层语义模块。再以下层语义模块为数据基础提取上层文本语义，保存到上层语义模块。在上下层语义模块和对象层之间建立语义特征优化程序，运行程序输出文本语义特征集群，完成双向推导过程。

在本实施例中，如图2所示，图2是文本编码器程序走向图，文本编码器的栈式去噪过程是将文本信息与编码去噪矩阵进行点乘运算，由文本信息的产生网络提供文本概念。将文本概念平均分配生成虚拟电子标签，引入文本信息模块。文本编码器根据文本概念提取出信息原身中的偏序关系，在其中标注编码并分析文本基础情感，建立文本语义集合。通过网络将文本语义集合共享给下层语义模块进行存储和处理，生成低等级语义特征，为高等级语义特征的生成与优化作准备。

在本实施例中，包括正向文本语义特征生成方法设计。将单层神经网络应用于基于深度学习的文本语义特征正向生成算法中，有一个很强大的优点，就是能够让所生成的文本语义特征更加满足人类生理视觉与网络浏览页的融合性，这一优点源自单层神经网络的强感知能力。本实施例将图1所示的算法操作模型转换成关于文本语义的单层神经网络，如图3所示，各神经元之间的箭头指向都是朝上的，上层语义模块和下层语义模块都是隐含层，并都将应用到机器学习进行文本语义特征提取。在机器学习算法选择中，新浪、腾讯等云计算算法都兼具高存储量和快速运算的能力，但新浪云算法的起点更高，是中国最大的PaaS(Platform-as-a-Service，平台服务)厂商，可靠性强，功能多，学习效果好。

单层神经网络输出的是单点文本语义特征，指每条文本语义对应一个单独的特征。在深度学习算法操作模型定义下的单点文本语义特征编码形式紧凑，数据维度随着特征提取进程的发展不断下降，如图4所示，每层神经网络都有一个文本编码器，采用深度学习的免监督手段从下到上依次训练编码器，学习文本语义。新浪云算法的可视层就是深度学习算法操作模型的文本信息模块，使用新浪云算法学习文本语义，模拟网民思维方式，重新定义文本语义。经过上述发展，单层神经网络的神经元比重发生了变化，根据梯度将单层神经网络展开，建立标准神经网络。训练标准神经网络的整体文本语义，生成低等级文本语义特征。

在本实施例中，还包括反向文本语义特征生成方法设计。反向文本语义特征之所以被称之为“反向特征”，是因为新浪云算法没能充分意识到一些文本语义信息具有高阶统计特征。深度学习将在所生成的正向文本语义特征上建立概念数据库进行深层次特征提取，如图5所示，深度学习算法在上、下层语义模块内分别建立隐含层和输出层，在下层语义模块隐含层中使用卷积运算对正向文本语义特征进行深层反向分析，所涉及到的操作均为免监督式，可以无任何顾虑地、不接受多余条件约束地生成文本语义特征。单层神经网络的学习是自下而上，概念数据库进行的深度学习是自上而下，从对象层开始向下输入数据，可以补充文本信息因单方向输入算法模型中产生的挖掘漏洞。这个过程结束后，开始提取高等级文本语义特征，整个过程与正向文本语义特征提取过程基本一致。

其中，上、下层推导语义模块隐含层的深度学习过程使用的函数为：

其中，正向语义推导模块拥有两种后验概率，即隐含层p₁和输出层p₂，表示为：

在本实施例中，深度学习算法操作模型的学习效果在很大程度上关系着其所生成的文本语义特征的可用性，模型推导问题具备较大难度。根据以往的文献记载，其推导问题主要包括推导算法的选择、学习效率的控制、信息相似特征的处理、神经元比重的管理以及模型运算速率的提升等。一些推导问题已经在上文有所提及，比如将文本编码器分配到所有模块中进行分布式文本语义提取，再比如分开建立上、下层语义模块的隐含层和输出层，减少文本信息相似特征的混淆。下面对模型运算速率推导方法进行设计：

在标准神经网络中，好的神经元比重能够充分发挥深度学习的学习效果，但过于强调学习效果会约束模型运算速率。正向推导语义模块隐含层的神经元数量远远少于反向语义模块隐含层的神经元数量，所以使用神经元的平均卷积核代替并不会对学习效果造成较大影响，可以将正反向语义模块的深度学习过程设计成：

接下来，本实施例提供了上述方法的实验分析。

在本实施例中，实验于在线实验室进行，实验选取的是一个网络攻防云计算系统，可快速提取网络文本信息，并具有极强的数据安保性能，可使实验过程不受干扰。关于测评语料，实验采用COAE2016数据集。COAE在我国语言情感类会议中占据非常重要的地位，COAE2016是其中一款新型语料，稳定性和新颖性都比较好，能够进行网络文本的多组合分析，针对文本语义的情感倾向做出裁决。实验随机从COAE2016中抽取语料，再从微博评论中随机选择大量文本信息，将以上数据合并进行训练，建立5个不同的文本数据集群，如表1所示。

表1 实验数据集群

在本实施例中，实验过程如下：实验采用两种方式测评深度学习优化算法。将表1中的5个数据集群分成学习样本和算法测评样本，保证每种样本中的文本数据量均不相同。两种测评方式使用的数据集群分别用表2和表3描述，表2中学习样本和算法测评样本的比例为8:2，表3则保持算法测评样本数据量不变，依次增加学习样本数据量。

两种测评方式都是使用Multi2.0机器学习软件从实验结果里提取有效的文本语义特征占据总特征生成量的比例，以测评深度学习算法是否可用。

表2 文本数据样本1

表3 文本数据样本2

为了准确的生成文本语义特征，首先需要进行文本进行分词处理，其次进一步进行有效特征占据比例分析，再次对文本语义特征生成精度进行对比，然后对文本特征生成的召回情况进行分析，最后进行生成效率方面的对比分析。此时采用K-means算法作为分词方法，分词的有效性由熵来衡量，其表达式为：

式中：E(S_r)为第r类分词结果熵，k为分词分类别数，n_r为第r类中的文本数，n为总文本数，具体如下：

式中：q为文本集中的真实类别数，

为分词r中分为第i类的文本数，由此可知，当熵为零时分词效果为最优，且熵越小分词效果越好。

最后，在实施例对实验结果进行分析如下。

首先，分别采用对风险决策法、神经网络法与改进方法为对比，以文本分词熵值为指标进行实验分析，结果如图6所示，文本进行分词处理结果。

由图6可知，采用风险决策法时，其熵值随着文本数量的增加而逐渐增加，虽然在文本数4时出现了下降，但之后迅速上升，整体熵值约为0.72；采用神经网络法时，其熵值随着随着文本数的增加有下降的趋势，但在文本数7时，逐渐增加，整体熵值约为0.523；采用改进方法进行分词处理时，其熵值随着文本数的提高而出现先下降后升高的现象，整体熵值约为0.236，相比风险决策法、神经网络法分别降低了0.436、0.287；熵值较低，且最接近“0”，具有一定的优势。

其次，分别采用对风险决策法、神经网络法与改进方法为对比进行有效特征占据比例对比分析。图7、图8分别是深度学习优化算法针对表2、表3中文本信息进行文本语义特征提取的实验结果。

由图7、图8可知，在基于深度学习的文本语义特征生成优化算法给出的文本语义特征生成集群中，有效特征占据很大比例。而且实验数据集群的容量越大，有效特征占据比例的上升幅度就越显著，实验数据集群4和5在两种测评方法中的比例相近，上述结果证明，深度学习在进行文本语义训练时发挥了十分有效的学习效果，能够减少文本信息相似特征混淆现象的发生概率。

另外，实验2的有效特征占据比例要稍微低于实验1，其原因可能是在分配学习样本和算法测评样本时，未能将文本中大多数的重要语义分配到学习样本中。为此，将表3中的算法测评样本数量全部设为5000条再进行一次测评，实验结果如图9所示，可以看到图9中有效特征占据比例与图7中的数据是比较接近的，这个现象说明，在使用本实施例算法时适度减少学习样本数据容量可提高文本语义特征生成精度。整体来讲，算法所生成的文本语义特征中有效特征占据比例大，具有强可用性。

再次，分别采用对风险决策法、神经网络法与改进方法为对比，以文本生成精度为指标进行实验分析，结果如下图10文本语义特征生成精度对比图。

由图10可知，采用风险决策法时，其文本特征生成精度随着文本数量的增加出现先降低后上升的现象，虽然在文本数4万时开始上升，但其整体文本特征生成精度约为68.9％；采用神经网络法时，其文本特征生成精度也随着文本数的增加而先下降后上升，但在文本数7万时，上升迅速，整体生成效率约为46.8％；采用改进方法进行文本特征生成优化时，其文本特征生成精度随着文本数量的提高而逐渐升高，整体生成精度约为92.4％，相比风险决策法、神经网络法文本生成精度分别提高了约23.5％、45.6％，具有一定的优势。

然后，分别采用对风险决策法、神经网络法与改进方法为对比，以文本生成召回率为指标进行实验分析，结果如图11所示。由图11可知，采用风险决策法时，其文本特征生成召回率随着文本数量的增加而上升，稳定性较强，其整体文本特征生成召回率无下降趋势，召回率约为96.48％；采用神经网络法时，其文本特征生成召回率随着文本数的增加而出现上升与下降交替的波动状态，整体特征生成召回率约为58.64％；采用改进方法进行文本特征生成优化时，其文本特征生成召回率随着文本数量的提高而逐渐升高，最后趋于稳定，整体召回率约为18.69％，相比风险决策法、神经网络法文本生成效率分别提高了约77.79％、39.55％，具有一定的优势。

最后，分别采用对风险决策法、神经网络法与改进方法为对比，以文本生成效率为指标进行实验分析，结果如图12所示：由图12可知，采用风险决策法时，其文本特征生成效率随着文本数量的增加出现了波动，稳定性差，虽然在文本数1万时出现了上升，但其整体文本特征生成效率约为18.37％；采用神经网络法时，其文本特征生成效率随着文本数的增加而出现上升与下降的波动，整体生成效率约为24.7％；采用改进方法进行文本特征生成优化时，其文本特征生成效率随着文本数量的提高而逐渐升高，最后趋于稳定，整体生成效率约为96.8％，相比风险决策法、神经网络法文本生成效率分别提高了约78.43％、72.1％，具有一定的优势。

本实施例就文本语义特征生成工作提出深度学习优化算法，深度学习算法融入多种思维，包括神经网络、机器学习、数学模型、数据编码等，应用到免监督式的学习方法、单层神经网络、新浪云算法和反向分析等学科，对文本语义的高、低等级特征均已进行细致描述，还对算法的一些缺陷进行了合理优化。实验测评中，应用COAE2016建立数据集群，采用三种测评方法全面、客观地分析本文算法的可用性，证明出本文算法具有良好的学习效果，能够准确生成文本语义特征，可保证有效特征占据比例稳定维持在一个较高水平。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于深度学习的文本语义特征生成优化方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的文本语义特征生成优化方法，其特征在于：所述语义特征优化程序包括正向文本语义特征生成以及反向文本语义特征生成；

其中，所述正向文本语义特征生成具体为：每层神经网络都有一个文本编码器，采用深度学习的免监督手段从下到上依次训练编码器，学习文本语义，使用新浪云算法学习文本语义，模拟网民思维方式，重新定义文本语义；经过上述过程，单层神经网络的神经元比重发生了变化，根据梯度将单层神经网络展开，建立标准神经网络；训练标准神经网络的整体文本语义，生成低等级文本语义特征。

3.根据权利要求2所述的一种基于深度学习的文本语义特征生成优化方法，其特征在于：所述反向文本语义特征生成具体为：利用深度学习在所生成的正向文本语义特征上建立概念数据库进行深层次特征提取；深度学习算法在上、下层语义模块内分别建立隐含层和输出层，在下层语义模块隐含层中使用卷积运算对正向文本语义特征进行深层反向分析，所涉及到的操作均为免监督式，无任何顾虑地、不接受多余条件约束地生成文本语义特征；单层神经网络的学习是自下而上，概念数据库进行的深度学习是自上而下，从对象层开始向下输入数据，用以补充文本信息因单方向输入算法模型中产生的挖掘漏洞；上述过程结束后，开始提取高等级文本语义特征，整个过程与正向文本语义特征提取过程一致。

4.根据权利要求3所述的一种基于深度学习的文本语义特征生成优化方法，其特征在于：上、下层推导语义模块隐含层的深度学习过程使用的函数为；

5.根据权利要求4所述的一种基于深度学习的文本语义特征生成优化方法，其特征在于：正向语义推导模块拥有两种后验概率，即隐含层p₁和输出层p₂，表示为：