CN108345633A

CN108345633A - 一种自然语言处理方法及装置

Info

Publication number: CN108345633A
Application number: CN201711473689.XA
Authority: CN
Inventors: 赵伟; 武新; 崔维力; 曹昕雅
Original assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Current assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-07-31

Abstract

本发明旨在提供一种通过使用卷积神经网络的意识流来分析人格特质的自然语言处理方法。该方法针对五种人格特质使用相同的架构来分别训练相应的卷积神经网络，每个卷积神经网络是一个二进制分类器，该分类器可以预测相应的特征为正值或负值，对应着是否拥有该人格特质。将单词组成n元特征向量，再将其整合成句子，再将句子聚合成一个完整的文档，获得的值随后与文档级别的语义特征结合，并在最后分类阶段形成文档表示。本发明通过对自然语言的处理及分析从而实现一个人个性特点的自动检测。

Description

一种自然语言处理方法及装置

技术领域

本发明属于数据挖掘领域，基于心理学的五因素人格理论，针对五种人格特质使用相同的架构来分别训练相应的卷积神经网络，在过程中还用到了word2vec技术进行相应的处理。

背景技术

个性是个体表现、情绪、动机和思维模式的综合，对生活有极大的左右能力，会影响生活选择、幸福、健康和许多其他的表现，也是一个人能否施展才能，有效完成工作的基础，个性缺陷会使其所拥有的才能和能力大打折扣。

一个人个性特点的自动检测在实际应用中非常重要，通过检测可以把人的所有个性都了解清楚，以准确、全面地了解一个人的整体个性。因此亟需能够帮助实现个性检测的技术方案。

发明内容

本发明要解决的问题是基于五因素人格理论为基础提出一种自然语言处理方法及装置，通过对自然语言的处理及分析从而实现一个人个性特点的自动检测。

为了达到上述目的，本发明采取的技术方案为：一种自然语言处理方法，包括：

(1)自然语言预处理及特征提取；所述特征提取包括文档级特征提取和词级特征提取，实现词向量化、句子向量化、文档向量化；

(2)使用深度卷积神经网络分类；所述神经网络基于五大人格特性建立五个单独的神经分类器，所述五个单独的神经分类器具有相同的架构。

进一步的，步骤(1)所述自然语言预处理及特征提取的具体过程包括：

(11)预处理：包括句子拆分、数据清理和统一；

(12)文档级特征提取：使用Mairesse基线的特性值，提取全局特征，包括字数统计及句子平均长度；

(13)过滤：将没有包含个性线索的句子删除；

(14)词级特征提取：在连续的向量空间中每个单词用词向量表示，使用word2vec方式嵌入，为文档提供一个可变长度特征集，文档被表示成一个句子的可变数量，表示固定长度词特征向量的可变数量。

进一步的，步骤(2)的具体过程包括：

(21)输入：输入一个四维的实数数组R^D×S×W×E，D是数据集中的文档数量，S是文档间最大句子数量，W是文档间句子的最大词数量，E是词嵌入的长度；

(22)词向量聚集成句子向量：使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型，经过最大池化层，句子向量变成这三个卷积过滤器汇总特征向量的串联形式；

(23)句子向量聚集成文档向量：每个句子处理完后，文档向量成为一个所有句子向量集合而成的可变字符串；

(24)将文档级特征加入到文档向量中：使用个性检测文档级特征集；

(25)分类：使用由完全联通层组成的两层感知器，柔性最大值传输函数作为输出；

(26)训练：利用负对数可能性作为训练的目标函数，随机地初始化神经网络参数。

更进一步的，步骤(22)包括：

(221)在每个句子s∈R^W×E中使用n×E的卷积过滤器,将卷积过滤器作用于s上，为给定的句子提供特征图谱，将sigmoid函数应用在特征图谱上；

(222)在每个特征图谱应用最大池化技术，将其缩小；

(223)在文档中的所有句子间共享神经网络参数，即使用虚拟词将所有句子都填补成同样大小，但不需要用虚拟句子将所有文档填补成同样大小。

本发明的另一方面，还提供了一种自然语言处理装置，包括：

预处理及特征提取模块，用于自然语言预处理及特征提取；所述特征提取包括文档级特征提取和词级特征提取，实现词向量化、句子向量化、文档向量化；

分类模块，用于使用深度卷积神经网络分类；所述神经网络基于五大人格特性建立五个单独的神经分类器，所述五个单独的神经分类器具有相同的架构。

进一步的，预处理及特征提取模块包括：

预处理单元，用于句子拆分、数据清理和统一；

文档级特征提取单元，用于文档级特征提取，使用Mairesse基线的特性值，提取全局特征，包括字数统计及句子平均长度；

过滤单元，用于过滤，将没有包含个性线索的句子删除；

词级特征提取单元，用于词级特征提取，在连续的向量空间中每个单词用词向量表示，使用word2vec方式嵌入，为文档提供一个可变长度特征集，文档被表示成一个句子的可变数量，表示固定长度词特征向量的可变数量。

进一步的，分类模块包括：

输入单元，用于输入一个四维的实数数组R^D×S×W×E，D是数据集中的文档数量，S是文档间最大句子数量，W是文档间句子的最大词数量，E是词嵌入的长度；

第一聚集单元，用于词向量聚集成句子向量，使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型，经过最大池化层，句子向量变成这三个卷积过滤器汇总特征向量的串联形式；

第二聚集单元，用于句子向量聚集成文档向量，每个句子处理完后，文档向量成为一个所有句子向量集合而成的可变字符串；

特征加入单元，用于将文档级特征加入到文档向量中，使用个性检测文档级特征集；

分类单元，用于使用由完全联通层组成的两层感知器，柔性最大值传输函数作为输出；

训练单元，用于利用负对数可能性作为训练的目标函数，随机地初始化神经网络参数。

更进一步的，第一聚集单元包括：

第一子单元，用于在每个句子s∈R^W×E中使用n×E的卷积过滤器,将卷积过滤器作用于s上，为给定的句子提供特征图谱，将sigmoid函数应用在特征图谱上；

第二子单元，用于在每个特征图谱应用最大池化技术，将其缩小；

第三子单元，用于在文档中的所有句子间共享神经网络参数，即使用虚拟词将所有句子都填补成同样大小，但不需要用虚拟句子将所有文档填补成同样大小。

本发明提出的一种自然语言处理方法与装置，与现有技术相比，有益效果为：

通过对自然语言的处理及分析从而实现一个人个性特点的自动检测，处理过程中,

1、可以保留邻域的联系和空间的局部特点；

2、由于是居于共享卷积核的结果，所以处理实际尺寸的高维度图像也毫无难度；

3、实现了特征提取的封装。

附图说明

图1是本发明实施例的示意图；

图2是本发明实施例所述文档向量化的示意图。

具体实施方式

下面结合具体实施例对本发明做进一步说明。

本发明的方法包括输入数据的预处理、过滤、特征提取和分类，使用两种特性：一个是文档级文本特征的固定数量，另一种可以组合成输入文本的变长表示中的每个字的语义特征，这个变长表示被放入卷积神经网络分层处理。

本发明包括如下步骤：

(1)预处理：包括句子拆分、数据清理和统一，比如还原成小写字母；

(2)文档级特征提取：使用Mairesse基线的特性值，其中包括字数统计及句子平均长度等全局特征；

(3)过滤：文章中的有些句子可能没有包含个性线索，在语义特征提取中，这些句子会因为以下两个原因被过滤掉：第一，会产生降低分类器性能的噪音，第二，删除这些句子可以极大的降低输入规模，同时又不会影响结果，故将这些句子在下一阶段进行前删除；

(4)词级特征提取：在连续的向量空间中每个单词用词向量表示，使用word2vec方式嵌入，为文档提供一个可变长度特征集，文档被表示成一个句子的可变数量，表示固定长度词特征向量的可变数量；

(5)分类：使用深度卷积神经网络，其原始层分层地处理文本，在输入中，每个词根据word2vec方法表示一个固定长度特征向量，句子代表词向量的可变数量。在某些层中，该可变长度向量又被还原成每个句子的固定长度向量，这是在连续向量空间中的一种句子嵌入，在该水平中，文档代表固定长度句子嵌入的一个可变数量，最后在最深层，这个可变长度文档向量又被还原成一个固定长度文档向量。该固定长度特征向量依据能够提供固定长度文档向量的文档级特征串联，之后再进入分类阶段使用。

本发明有五个单独的神经分类器，这五个神经分类器为五大人格特性提供相同的架构，神经网络中的加工流程主要包括四步：

●词向量化，使用固定长度词向量作为输入数据；

●句子向量化，将每个句子中的一系列词用固定长度的句子向量表示；

●文档向量化，将一系列句子向量用文档向量表示；

●分类，将文档向量用分类结果表示。

如图1、2所示，本发明包括七层：输入层(词向量化)、卷积层(句子向量化)、最大池化层(句子向量化)、1-最大池化层(文档向量化)、线性激活函数层(分类)和两种神经元的最大输出(分类)，数字1代表两个句子的端对端网络。

1、输入：用数据集合表示一组文档，每个文档d是一个句子序列，每个句子s_i是一个词序列，每个词w_i是一个固定长度词嵌入的实数向量。输入层是一个四维的实数数组R^D ^×S×W×E，D是数据集中的文档数量，S是文档间最大句子数量，W是文档间句子的最大词数量，E是词嵌入的长度。执行中，为了使所用文档有相同的句子数量，会在文章中加入虚拟句子，在句子中加入虚拟词。

2、词向量聚集成句子向量：使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型，经过最大池化层，句子向量变成这三个卷积过滤器汇总特征向量的串联形式。

●卷积：用于提取n元特征，在每个句子s∈R^W×E中使用n×E的卷积过滤器,对n＝1,2,3的情况使用200个n元特征图谱，卷积过滤器作用于矩阵s上，F_n ^CONV∈R^200×n×E，在过滤器的输出中加入方差B_n ^CONV∈R²⁰⁰，这能为给定的句子提供特征图谱FM_n∈R^{200×(W-n+1)×1},n＝1,2,3,将sigmoid函数应用在特征图谱FM_n，以便引出非线性；

●最大池化层：在每个特征图谱FM_n应用最大池化技术，以便进一步将其缩小到一个特征图谱DFM_n∈R^200×1×1，从而得到一个大小为200的特征向量；

●卷积：为使三种n元获得表示句子的向量s∈R⁶⁰⁰，将获得的向量连接起来，在文档中的每个句子应用卷积技术和最大池化技术，在文档中的所有句子间共享神经网络参数，即使用虚拟词将所有句子都填补成同样大小，但不需要用虚拟句子将所有文档填补成同样大小。

3、句子向量聚集成文档向量：每个句子处理完后，文档向量成为一个所有句子向量集合而成的可变字符串。如果文档具备一些特征，并且这些特征中至少有一种是句子所具有的，每个句子表示一个600维的向量，针对这600个特征中的每一个特征，在文档的所有句子中使用最大限度，从而获得文档向量，整个文档获得了一个600维的实数向量d^network∈R⁶⁰⁰.

4、将文档级特征加入到文档向量中：其中使用到一个包括84个特征的个性检测文档级特征集，包括语言调查、词汇统计、医学研究委员会、表达种类以及韵律特征，这些集合中的特征包括文档中的字数统计、每个句子的平均字数、代词总数、过去式动词、现在式动词、将来式动词、字母、音素、音节、问题和断言。

之后将这84个特征通过文档向量d^network得到向量d^Mairesse，最后将d＝(d^netword,d^Mairess)赋给最后684维的文档向量，同时会使用特征集d^Mairess作为估值的基线。

5、分类：使用由一个200的完全连接层组成的两层感知器、2的最终柔性最大值传输函数代表是或否。

●完全联通层：通过矩阵W^fc∈R^684×200将文档增至d∈R⁶⁸⁴，再加上方差B^fc∈R²⁰⁰获得向量d^fc∈R²⁰⁰，通过线性函数引出非线性可以改进结果：d^fc＝σ(dW^fc+B^fc),其中σ(x)＝1/(1+exp(-x))。

●柔性最大值传输输出：使用柔性最大值传输函数来确定文档是否属于对象“是”或“否”的可能性，为了实现这个，建立一个向量(x_yes,x_no)＝d^fc| W^sm+B^sm，其中W^sm∈R^200×2，方差B^sm∈R²，计算对象可能性的公式为P(i|network parameters)＝exp(x_i)/(exp(x_yes)+exp(x_no)),其中i∈{yes,no}。

6、训练：利用负对数可能性作为训练的目标函数，随机地初始化神经网络参数F₁ ^conv，F₂ ^conv，F₃ ^conv，B₁ ^conv，B₂ ^conv，B₃ ^conv，W^fc，B^fc，W^sm，B^sm，使用遵循Adadelta更新规则的随机梯度下降法调整神经网络参数来讲错误最小化为负对数可能性。

以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自然语言处理方法，其特征在于，包括：

2.根据权利要求1所述的一种自然语言处理方法，其特征在于，步骤(1)所述自然语言预处理及特征提取的具体过程包括：

(11)预处理：包括句子拆分、数据清理和统一；

(13)过滤：将没有包含个性线索的句子删除；

3.根据权利要求1所述的一种自然语言处理方法，其特征在于，步骤(2)的具体过程包括：

4.根据权利要求3所述的一种自然语言处理方法，其特征在于，步骤(22)包括：

(222)在每个特征图谱应用最大池化技术，将其缩小；

5.一种自然语言处理装置，其特征在于，包括：

6.根据权利要求5所述的一种自然语言处理装置，其特征在于，所述预处理及特征提取模块包括：

预处理单元，用于句子拆分、数据清理和统一；

过滤单元，用于过滤，将没有包含个性线索的句子删除；

7.根据权利要求5所述的一种自然语言处理装置，其特征在于，所述分类模块包括：

8.根据权利要求7所述的一种自然语言处理装置，其特征在于，所述第一聚集单元包括：