CN110321929A

CN110321929A - 一种提取文本特征的方法、装置及存储介质

Info

Publication number: CN110321929A
Application number: CN201910479413.5A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-10-11

Abstract

本申请涉及神经网络领域，提供一种提取文本特征的方法、装置及存储介质，所述方法包括：获取数据集，对所述数据集进行预处理，得到训练集；根据所述训练集对卷积神经网络进行预训练，得到卷积神经网络的参数；将所述训练集映射到向量空间，得到词向量，将所述词向量输入所述卷积神经网络；通过所述卷积神经网络提取词向量的隐含特征，并将所述隐藏特征输入自编码结构；对所述自编码结构进行非监督学习，得到自编码模型，通过所述自编码模型将所述隐含特征转换为输出隐含层的隐含特征向量。通过采用本方案，能够实现对于文本特征的有效学习与提取。

Description

一种提取文本特征的方法、装置及存储介质

技术领域

本申请涉及神经网络领域，尤其涉及一种提取文本特征的方法、装置及存储介质。

背景技术

在自编码神经网络中，假设自编码神经网络输出O与输入I是相同的，然后训练调整自编码神经网络的参数，得到自编码神经网络中每一层的权重。进而得到了输入I的几种不同表示(每一层代表一种表示)，这些表示就是特征。自编码神经网络在缺乏先验知识的情形下，能够挖掘海量状态数据的内在规律并提取特征，根据特征生成词向量，进而构建文本向量。

但是，目前的这种构建文本向量的方式是以词向量为基础，通过统计计算得到文本向量，而缺少对文本特征的有效提取。

发明内容

本申请提供了一种提取文本特征的方法、装置及存储介质，能够解决现有技术中无法有效提取文本特征的问题。

第一方面，本申请提供一种提取文本特征的方法，所述方法包括：

获取数据集，对所述数据集进行预处理，得到训练集；

根据所述训练集对卷积神经网络进行预训练，得到训练好的卷积神经网络；

将所述训练集映射到向量空间，得到词向量，将所述词向量输入所述训练好的卷积神经网络；

通过所述训练好的卷积神经网络提取词向量的隐含特征，并将所述隐藏特征输入自编码结构；

对所述自编码结构进行非监督学习，得到自编码模型，通过所述自编码模型将所述隐含特征转换为输出隐含层的隐含特征向量。

在一些可能的设计中，所述词向量采用分布式表示或离散表示，其中，分布式表示是指将词表示成一个固定长度的连续的稠密向量，以展示词之间的相似关系；离散表示则是把每个词表示为一个长向量，长向量的维度为词表大小。

在一些可能的设计中，所述通过所述自编码模型将所述隐含特征转换为输出隐含层的隐含特征向量，包括：

根据所述自编码模型预测所述词向量的隐含特征并输出所述隐含特征；

将所述隐含特征转换为所述隐含特征向量。

在一些可能的设计中，所述隐含特征是指将词向量输入自编码结构中的隐含层后解码得到的词向量之间的隐层特征，所述隐含特征用于表示输入所述自编码结构的特征之间的相关性。

在一些可能的设计中，所述自编码结构包括多个隐藏神经元，所述方法还包括：

在所述自编码结构的隐藏神经元中加入限制条件；

所述根据所述自编码模型预测所述词向量的隐含特征并输出所述隐含特征，包括：

根据加入了所述限制条件的隐藏神经元发掘所述词向量中隐藏的特定结构，并通过所述自编码模型的输出层输出所述特定结构。

在一些可能的设计中，所述限制条件包括稀疏性限制，所述稀疏性限制是指如果当神经元的输出趋近于1时，则认为输出趋近于1的神经元被激活；神经元的输出趋近于0时，则认为输出趋近于0被抑制。

第二方面，本申请提供一种用于提取文本特征的装置，具有实现对应于上述第一方面提供的提取文本特征的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

一种可能的设计中，所述装置包括：

获取模块，用于获取数据集，对所述数据集进行预处理，得到训练集；

处理模块，用于根据所述训练集对卷积神经网络进行预训练，得到训练好的卷积神经网络；将所述训练集映射到向量空间，得到词向量，将所述词向量输入所述训练好的卷积神经网络；通过所述训练好的卷积神经网络提取词向量的隐含特征，并将所述隐藏特征输入自编码结构；对所述自编码结构进行非监督学习，得到自编码模型，通过所述自编码模型将所述隐含特征转换为输出隐含层的隐含特征向量。

在一些可能的设计中，所述处理模块用于：

将所述隐含特征转换为所述隐含特征向量。

在一些可能的设计中，所述自编码结构包括多个隐藏神经元，所述处理模块还用于：

在所述自编码结构的隐藏神经元中加入限制条件；

本申请又一方面提供了一种计算机装置，其包括至少一个处理器、存储器、编码器和输入输出单元，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。

本申请又一方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

相较于现有技术，本申请提供的方案中，对获取的数据集进行预处理，得到训练集；根据所述训练集对卷积神经网络进行预训练，得到卷积神经网络的参数；将所述训练集映射到向量空间，得到词向量，将所述词向量输入所述卷积神经网络；通过所述卷积神经网络提取词向量的隐含特征，并将所述隐藏特征输入自编码结构；对所述自编码结构进行非监督学习，得到自编码模型，通过所述自编码模型将所述隐含特征转换为输出隐含层的隐含特征向量。通过采用本方案，能够实现对于文本特征的有效学习与提取。

附图说明

图1为本申请实施例中提取文本特征的方法的一种流程示意图；

图2为本申请实施例中自编码结构的一种结构示意图；

图3为本申请实施例KL散度与隐藏神经元的平均活跃度的关系变化示意图；

图4为本申请实施例中用于提取文本特征的装置的一种结构示意图；

图5为本申请实施例中计算机装置的一种结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。

本申请提供一种提取文本特征的方法、装置及存储介质，可用于文本处理或者图像处理。

为解决上述技术问题，本申请主要提供以下技术方案：

在大规模文本数据集上预训练卷积神经网络，预训练完成后，将所需构建文本向量的训练文本转化为词向量，通过卷积神经网络提取特征并输出至自编码结构，进行非监督学习，并输出所学习的隐含特征，作为文本向量。能够实现对于文本特征的有效学习与有效提取。。

请参照图1，以下介绍本申请中的一种提取文本特征的方法，所述方法包括：

101、获取数据集，对所述数据集进行预处理，得到训练集。

其中，所述数据集为大规模文本数据集，本申请用于建立评语的文本向量时，作为评语的数据集由业务方提供。

一些实施方式中，对所述数据集进行预处理还可以得到测试集。训练集用于构建语言模型。测试集用于对构建的语言模型的准确率进行检验。

一些实施方式中，预处理的方式可包括：分层采样、数据中的缺失值处理、以及特征梳理与筛选。

其中，分层采样是指是分别对每个类别进行随机采样，以保证在采样空间或类型选取上的均匀性及代表性。例如，按照文章标签进行划分(例如按照旅游、娱乐、社交等标签划分新闻文章)。

数据中的缺失值处理包括抽取、清洗、转换、集成和填充。

特征梳理与筛选可采用去噪声方式。

一些实施方式中，预处理可以采用留出法或者交叉验证法。其中，留出法是指将所述第一数据集划分为两个互斥的集合，即划分为测试集和训练集。交叉验证法是指将所述第一数据集划分为k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性，即每个子集都从第一数据集中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的子集作为测试集；这样就可以获得k组训练/测试集，从而可以进行k次训练和测试，最终返回的是k个测试结果的均值。

102、根据所述训练集对卷积神经网络进行预训练，得到训练好的卷积神经网络。

其中，训练卷积神经网络还可以得到卷积神经网络的参数，卷积神经网络的参数可以称为卷积神经网络的权重。

卷积神经网络(Convolutional Neural Network，CNN)包括输入层、特征提取层和特征映射层。特征提取层由n个卷积层和池化层的组合组成，每个神经元的输入与其前一层的局部接受域相连，并提取该局部的特征。特征映射层即一个全连结的多层感知机分类器。在卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的神经元组成，同一特征平面上的所有神经元的权值相等，即共享卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。卷积核能够减少网络各层之间的连接，降低过拟合的风险。

本申请实施例中，由于卷积神经网络的建立需要通过监督学习，而本方案则针对非监督学习。因此，需要预先训练完成卷积神经网络，用于后续建模。

103、将所述训练集映射到向量空间，得到词向量，将所述词向量输入所述训练好的卷积神经网络。

一些实施方式中，词向量(Word embedding)可采用语言模型生成，词向量可采用分布式表示或离散表示。其中，分布式表示是指将词表示成一个固定长度的连续的稠密向量，以展示词之间的相似关系。离散表示则是把每个词表示为一个长向量，该长向量的维度为词表大小，即表示当前的词。

其中，词向量也可称为Word嵌入，词向量是自然语言处理(Neuro-LinguisticProgramming，NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量，即词向量是指从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。词向量目的在于：基于语言数据的大样本中的分布属性来量化和分类语言项之间的语义相似性。生成这种映射的方法包括神经网络、单词共生矩阵的降维、概率模型、可解释的知识库方法和术语的显式表示单词出现的背景。当词向量用作底层的输入时，嵌入单词和短语能够提高NLP任务的性能，例如进行语法分析和情感分析。

例如，所述训练集中包括大量新闻、商品或帖子的评语，以待预测的商品评论数据为例，商品评论数据包括“衣服质量可以，我很满意”，形成了如下分词：“衣服”、“质量”、“可以”、“我”、“满意”。为每个单词提取出的词向量，对待预测商品评论数据形成向量表示。商品评论数据包含的单词的词向量之和(即为该条评论的特征向量表示)，“衣服质量可以，我很满意”这条评论数据可以表示为(w11+w16+w19+w13+w18,w21+w26+w29+w23+w28,…,w1001+w1006+w1009+w1003+w1008)这样一个100维的向量。

104、通过所述训练好的卷积神经网络提取词向量的隐含特征，并将所述隐藏特征输入自编码结构。

其中，所述隐含特征是指将词向量输入自编码结构中的隐含层后解码得到的词向量之间的隐层特征，所述隐含特征用于表示输入所述自编码结构的特征之间的相关性。隐层特征也可称为隐含的特定特征或者特定结构或者文本特征，特定特征可以是指：某些输入特征是彼此相关的，那么采用自编码结构时，就可以发现输入该自编码结构中的隐含特征中的这些相关性。例如，以待预测的商品评论数据为例，将(w11+w16+w19+w13+w18,w21+w26+w29+w23+w28,…,w1001+w1006+w1009+w1003+w1008)这个100维的向量输入到自编码模型，即可得到待预测的商品评论数据的情感倾向。

自编码结构是指深度学习与神经网络中的自编码器，也可以成为自编码模型。神经网络是连接在一起的多个神经元，一个神经元的输出可作为另一神经元的输入。自编码结构是编码与解码的过程，如图2所示的一种自编码结构示意图。自编码结构的两端为输入输出，中间为隐含特征。自编码结构通过将输入进行编码得到隐含特征，并通过解码将隐含特征还原。因此，自编码结构训练目标，是使得输入与输出差异最小化，即能够保证中间特征保留了原始输入的大量信息。自编码结构可通过开源工具(例如tensorflow)构建，将特征输入到自编码模型，即可得到中间层的隐层特征，即隐含特征。

105、对所述自编码结构进行非监督学习，得到自编码模型，通过所述自编码模型将所述隐含特征转换为输出隐含层的隐含特征向量。

其中，自编码模型也可称为非监督学习模型，自编码模型用于预测和输出词向量的隐含特征。在本申请中，隐含特征向量是指文本向量。

与现有机制相比，本申请实施例中，根据训练集对卷积神经网络进行预训练，得到卷积神经网络的参数；将所述训练集映射到向量空间，得到词向量，将所述词向量输入所述卷积神经网络；通过所述卷积神经网络提取词向量的隐含特征，并将所述隐藏特征输入自编码结构；对所述自编码结构进行非监督学习，得到自编码模型，通过所述自编码模型将所述隐含特征转换为输出隐含层的隐含特征向量。通过采用本方案，能够实现对于文本特征的有效学习与提取。

在本申请的一些实施例中，所述通过所述自编码模型将所述隐含特征转换为输出隐含层的隐含特征向量，包括：

将所述隐含特征转换为所述隐含特征向量。

一些实施方式中，还可以通过给自编码结构施加一些其他的限制条件来发现训练样本中有趣的特定结构。具体来说，如果给隐藏神经元加入稀疏性限制，即使在隐藏神经元数量较多的情况下，自编码结构仍然可以发现训练样本中有趣的特定结构。具体来说，可以在所述自编码结构的隐藏神经元中加入限制条件，根据加入了所述限制条件的隐藏神经元发掘所述词向量中隐藏的特定结构，并通过所述自编码模型的输出层输出所述特定结构。

一些实施方式中，所述限制条件包括稀疏性限制，所述稀疏性限制是指如果当神经元的输出趋近于1时，则认为输出趋近于1的神经元被激活；神经元的输出趋近于0时，则认为输出趋近于0被抑制，那么使得隐藏神经元在大部分时间都是被抑制的限制则被称作稀疏性限制。

假设神经元的激活函数是sigmoid函数。令a(2)j(x)表示输入为x时自编码神经网络隐藏神经元j的激活度，可得到：

其中，p′表示隐藏神经元j的平均活跃度，此处的平均活跃度是指在训练集上求平均。

然后，加入下述条件(即引入稀疏性限制)：

P′_j＝p

其中，p为稀疏性参数，是一个比较接近于0的值，比如0.05为了满足这个条件，则需要使大多数隐藏神经元的活跃度接近0。为了实现稀疏性限制，在优化的目标函数中加入一个额外的惩罚因子，该惩罚因子将惩罚那些p′j和p之间显著不同的情况，惩罚因子如下：

其中，s2表示隐藏神经元的数量。若基于相对熵或者称为KL散度(Kullback–Leibler Divergence，KLD)，则上述惩罚因子也可以表示为:

其中，KL(P||P′_j)是指当用概率分布p′j来拟合真实分布p时所产生的信息损耗，p′j表示p的拟合分布。

假设p＝0.2，则随着p′j的变化如图3所示。由图3可知，当p′j＝p的时候，的值为0，而当p′j远离p时，的值快速增大。因此，很明显，这个惩罚因子的作用就是让p′j尽可能靠近p,从而达到稀疏性限制的目的。

上述图1-图3所对应的实施例中提及的各项技术特征也同样适用于本申请中的图4和图5所对应的实施例，后续类似之处不再赘述。

以上对本申请中一种提取文本特征的方法进行说明，以下对执行上述提取文本特征的方法的装置进行描述。

如图4所示的一种用于提取文本特征的装置40的结构示意图，其能够实现对应于上述图1所对应的实施例中所执行的提取文本特征的方法的步骤。装置40实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述装置40可包括获取模块401和处理模块402，所述处理模块402和获取模块401的功能实现可参考图1所对应的实施例中所执行的操作，此处不作赘述。处理模块可用于控制所述获取模块401的收发操作。

一些实施方式中，所述获取模块401可用于获取数据集，对所述数据集进行预处理，得到训练集。

所述处理模块402可用于根据所述获取模块401得到的所述训练集对卷积神经网络进行预训练，得到训练好的卷积神经网络；将所述训练集映射到向量空间，得到词向量，将所述词向量输入所述训练好的卷积神经网络；通过所述卷积神经网络提取词向量的隐含特征，并将所述隐藏特征输入自编码结构；对所述自编码结构进行非监督学习，得到自编码模型，通过所述自编码模型将所述隐含特征转换为输出隐含层的隐含特征向量。

本申请实施例中，所述处理模块401根据预处理得到的训练集对卷积神经网络进行预训练，得到训练好的卷积神经网络；将所述训练集映射到向量空间，得到词向量，将所述词向量输入所述训练好的卷积神经网络；通过所述卷积神经网络提取词向量的隐含特征，并将所述隐藏特征输入自编码结构；对所述自编码结构进行非监督学习，得到自编码模型，通过所述自编码模型将所述隐含特征转换为输出隐含层的隐含特征向量。通过采用本方案，能够实现对于文本特征的有效学习与提取。

一些实施方式中，所述词向量采用分布式表示或离散表示，其中，分布式表示是指将词表示成一个固定长度的连续的稠密向量，以展示词之间的相似关系；离散表示则是把每个词表示为一个长向量，长向量的维度为词表大小。

一些实施方式中，所述处理模块402用于：

将所述隐含特征转换为所述隐含特征向量。

一些实施方式中，所述隐含特征是指将词向量输入自编码结构中的隐含层后解码得到的词向量之间的隐层特征，所述隐含特征用于表示输入所述自编码结构的特征之间的相关性。

一些实施方式中，所述自编码结构包括多个隐藏神经元，所述处理模块402还用于：

在所述自编码结构的隐藏神经元中加入限制条件；

一些实施方式中，所述限制条件包括稀疏性限制，所述稀疏性限制是指如果当神经元的输出趋近于1时，则认为输出趋近于1的神经元被激活；神经元的输出趋近于0时，则认为输出趋近于0被抑制。

上面从模块化功能实体的角度分别介绍了本申请实施例中的装置40，以下从硬件角度介绍一种计算机装置，如图5所示，其包括：处理器、存储器、编码器和输入输出单元以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如，该计算机程序可以为图1所对应的实施例中提取文本特征的方法对应的程序。例如，当该计算机装置实现如图4所示的装置40的功能时，所述处理器执行所述计算机程序时实现上述图4所对应的实施例中由装置40执行的提取文本特征的方法中的各步骤；或者，所述处理器执行所述计算机程序时实现上述图4所对应的实施例的装置40中各模块的功能。又例如，该计算机程序可以为图1所对应的实施例中提取文本特征的方法对应的程序。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述输入输出单元也可以用输入单元和输出单元代替，可以为相同或者不同的物理实体。为相同的物理实体时，可以统称为收发器。该输入输出单元可以为收发器。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本申请的保护之内。

Claims

1.一种提取文本特征的方法，其特征在于，所述方法包括：

获取数据集，对所述数据集进行预处理，得到训练集；

2.根据权利要求1所述的方法，其特征在于，所述词向量采用分布式表示或离散表示，其中，分布式表示是指将词表示成一个固定长度的连续的稠密向量，以展示词之间的相似关系；离散表示则是把每个词表示为一个长向量，长向量的维度为词表大小。

3.根据权利要求2所述的方法，其特征在于，所述通过所述自编码模型将所述隐含特征转换为输出隐含层的隐含特征向量，包括：

将所述隐含特征转换为所述隐含特征向量。

4.根据权利要求3所述的方法，其特征在于，所述隐含特征是指将词向量输入自编码结构中的隐含层后解码得到的词向量之间的隐层特征，所述隐含特征用于表示输入所述自编码结构的特征之间的相关性。

5.根据权利要求2-4中任一项所述的方法，其特征在于，所述自编码结构包括多个隐藏神经元，所述方法还包括：

在所述自编码结构的隐藏神经元中加入限制条件；

6.根据权利要求5所述的方法，其特征在于，所述限制条件包括稀疏性限制，所述稀疏性限制是指如果当神经元的输出趋近于1时，则认为输出趋近于1的神经元被激活；神经元的输出趋近于0时，则认为输出趋近于0被抑制。

7.一种用于提取文本特征的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述处理模块用于：

将所述隐含特征转换为所述隐含特征向量。

9.一种计算机装置，其特征在于，所述装置包括：

至少一个处理器、存储器、编码器和输入输出单元；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-6中任一项所述的方法。

10.一种计算机存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-6中任一项所述的方法。