CN109446334A

CN109446334A - 一种实现英文文本分类的方法及相关设备

Info

Publication number: CN109446334A
Application number: CN201910038005.6A
Authority: CN
Inventors: 陈海波
Original assignee: DeepBlue AI Chips Research Institute Jiangsu Co Ltd
Current assignee: DeepBlue AI Chips Research Institute Jiangsu Co Ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-03-08

Abstract

本发明实施例涉及文本分类领域，公开了一种实现英文文本分类的方法及相关设备，该方法，包括：对英文短文本数据集中的文本进行预处理，并将所述预处理后的英文文本转换为词向量矩阵，将所述词向量矩阵作为卷积神经网络CNN模型的第一输入数据；使用CNN模型对所述第一输入数据进行特征向量的提取和拼接，将获得的特征向量作为极速学习机ELM的第二输入数据；使用ELM对所述第二输入数据进行分类，得到所述英文短文本数据集中的文本的准确类别。如此，基于卷积神经网络和极速学习机的结合，比传统机器学习算法与卷积神经网络模型更有效，提升了文本分类的精度。

Description

一种实现英文文本分类的方法及相关设备

技术领域

本发明实施例涉及文本分类领域，特别涉及一种实现英文文本分类的方法及相关设备。

背景技术

目前深度学习在图像识别与手写识别的惊人表现有目共睹。近年来在自然语言处理 (NLP)的应用也越来越广泛，短文本分类更是其中重要的一部分。在短文本分类中最关键的问题是文本特征的提取，传统的特征提取方法诸如MI、pLSA、LDA等会忽略文本中的上下文关联信息从而不能准确获取词汇的语义。

发明内容

有鉴于此，本发明的实施方式提供了一种实现英文文本分类的方法，包括：

对英文短文本数据集中的文本进行预处理，并将所述预处理后的英文文本转换为词向量矩阵，将所述词向量矩阵作为卷积神经网络CNN模型的第一输入数据；

使用CNN模型对所述第一输入数据进行特征向量的提取和拼接，将获得的特征向量作为极速学习机ELM的第二输入数据；

使用ELM对所述第二输入数据进行分类，得到所述英文短文本数据集中的文本的准确类别。

本发明的实施方式还提供了一种实现英文文本分类的装置，包括：

预处理单元，用于对英文短文本数据集中的文本进行预处理，并将所述预处理后的英文文本转换为词向量矩阵，将所述词向量矩阵作为卷积神经网络CNN模型的第一输入数据；

提取和拼接单元，用于使用CNN模型对所述第一输入数据进行特征向量的提取和拼接，将获得的特征向量作为极速学习机ELM的第二输入数据；

分类单元，用于使用ELM对所述第二输入数据进行分类，得到所述英文短文本数据集中的文本的准确类别。

本发明的实施方式还提供了一种设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实现英文文本分类的方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述实现英文文本分类的方法。

本发明实施例提供的上述实施方式，基于卷积神经网络和极速学习机的结合，比传统机器学习算法与卷积神经网络模型更有效，提升了文本分类的精度。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本发明实施方式一提供的实现英文文本分类的方法的流程示意图；

图2为本发明实施例一提供的实现英文文本分类的方法的流程示意图；

图3为本发明实施例一中步骤201具体实现的流程示意图；

图4为本发明实施例一中步骤202具体实现的流程示意图

图5为本发明实施例一中步骤203具体实现的流程示意图；

图6为本发明实施例一中步骤204具体实现的流程示意图；

图7为本发明实施方式二提供的实现英文文本分类的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

极速学习机(ELM，Extreme Learning Machine)是一种强大的机器学习模型，它是一种可以随机选择隐层节点数并计算输出权重的单隐层前馈神经网络(SLFNs，Single-hidden Layer Feedforward Neural Network)，它的特点是泛化能力强且拥有非常快的学习速度，有研究表明ELM分类器比支持向量机(SVM，Support Vector Machine)分类器更优秀。近年来，将极速学习机与卷积特征相结合的方法在个别领域中得到了实现，但还未有人在文本处理中进行相关研究。并且，ELM虽然有着优异的泛化能力，但目前获取ELM的最优结果大多是通过人工统计来实现的，因此其模型的缺点是效率低，代价高，实现周期更长，可靠性不高。

若要使用深度学习实现文本处理就需要将文本进行数字化的表示。其中词嵌套(word embedding)是目前最有效的保留词汇语法、语义信息的词向量转换方式。这种使用训练过程的算法将词汇的相似性表达为向量空间的相似度，极大地保留了词汇的语义与语境信息。借助于词嵌套的帮助，对文本使用深度学习以提取丰富的特征就成为了可能。相关技术中，将 CNN与不同的分类原理相结合的最常见方式是将CNN与SVM相结合，例如这种方法已经被应用在情感分析与人脸识别中并获得了比传统CNN分类模型更好的结果；但是在实验中使用交叉验证法(Cross Validation)划分训练与测试集时,SVM会产生较大的时间损耗来确定其自身的参数，训练时间较长，同时其性能不佳，效率相对较低，稳定性不高。

为此，本发明实施方式提供的技术方案提出了一种结合卷积神经网络与极速学习机的 CNN-ELM混合短文本分类模型，即使用卷积神经网络(CNN)进行短文本分类任务时结合不同神经网络结构与分类算法来提高分类性能。

实施方式一

图1为本发明实施方式一提供的实现英文文本分类的方法的流程示意图。如图1所示，该方法包括：

步骤101，对英文短文本数据集中的文本进行预处理，并将所述预处理后的英文文本转换为词向量矩阵，将所述词向量矩阵作为卷积神经网络CNN模型的第一输入数据；

步骤102，使用CNN模型对所述第一输入数据进行特征向量的提取和拼接，将获得的特征向量作为极速学习机ELM的第二输入数据；

步骤103，使用ELM对所述第二输入数据进行分类，得到所述英文短文本数据集中的文本的准确类别。

其中，在使用CNN模型对所述第一输入数据进行特征向量的提取和拼接之前，该方法还包括：

使用高速路Highway神经网络对所述第一输入数据进行优化处理。

其中，所述对英文短文本数据集中的文本进行预处理，并将所述预处理后的英文文本转换为词向量矩阵，包括：

对所述英文短文本数据集中的文本进行预处理工作，将标点符号及不相关的符号进行剔除，使用正则表达式识别数据集中的复杂属性，将未识别的归为超出字典的情况；

若vi是句子中位置为i的k维词向量，n是语料集中最长句子的长度，l是使用的卷积核的宽度最大值，那么所述英文短文本数据集中的文本就是一个k*(n+l-1)矩阵，所述矩阵就是一个由词向量拼接而来的句子，即表示为其中，是连接操作符，n+l-1 为词向量个数，k为训练维度。

其中，所述使用CNN模型对所述第一输入数据进行特征向量的提取和拼接，包括：

使用CNN对所述第一输入数据进行特征的提取，并对特征进行最大池化输出，同时将输出的特征向量进行拼接获得新的特征向量。

其中，所述使用CNN对所述第一输入数据进行特征的提取，并对特征进行最大池化输出，同时将输出的特征向量进行拼接获得新的特征向量，包括：

通过结合不同的卷积窗口所提取出的特征向量a_i表示为a_i＝f(w·x_i:i+h-1+b)，其中，w是卷积核的权重,b是偏置项，f是非线性激活函数；卷积核的宽度h，维度k，代表该卷积窗口包含h个词向量；

对提取的特征向量进行最大池化操作获取其最大值A＝max{a}，之后将A进行拼接，获得卷积结构提取的特征向量；

将最大池化后获得的特征向量进行Dropout操作，获得新的特征向量。

其中，所述使用高速路Highway神经网络对所述第一输入数据进行优化处理，包括：

对一个具有L层的传统前向神经网络，其每层网络都可对输入x_i使用具有参数w_H的非线性映射变换H产生输出y，即y＝H(x,W_H)；

对非线性变换增加两个非线性映射函数T和C，则输出为y＝H(x,W_H)·T(x,W_T)+x·C(x,W_C)，其中，T被称为转换门，C被称为携带门。

其中，所述使用ELM对所述第二输入数据进行分类，得到所述英文短文本数据集中文本的准确类别，包括：

在给定训练集最大隐层节点数L_max与期望学习准确率e>0时，有初始化单隐层前向神经网络(SLFN)并设置初始隐层节点数其中，L₀初始节点数为1；

利用传统的ELM方法计算隐层输出矩阵H₁，并计算输出误差其中， H^-为H的Moore-Penrose广义逆矩阵；

使用递归方法更新输出权重,使模型收敛，使用收敛后的模型对训练集进行特征提取,得到所述英文短文本数据集中文本的准确类别。

下面通过六个具体的实施例详细阐述本发明实施方式一提供的技术方案。

实施例一

图2为本发明实施例一提供的实现英文文本分类的方法的流程示意图，如图2所示，该方法包括：

步骤201，对多种英文短文本数据集进行预处理，并将文本转换为维度一定的词向量来作为提取特征的输入数据；

其中，可以通过对数据集进行预处理，将文本转换为固定大小的词向量矩阵，从而得到 CNN的输入数据。

步骤202、使用卷积神经网络(CNN)模型对输入数据进行特征的提取，将提取到的特征进行最大池化输出，将输出的向量进行拼接；

步骤203、引入Highway网络，进行拼接后向量的优化处理；

步骤204、引入极速学习机(ELM)，将优化后的向量作为ELM的输入，来完成分类任务，同时对不同数据集进行实验测试分析，对比得出文本分类精确率。

实施例二

图3为本发明实施例一中步骤201具体实现的流程示意图，如图3所示，实施例一中步骤201，包括：

步骤301，对文本进行预处理工作，将标点符号及不相关的符号进行剔除，使用正则表达式识别数据集中的复杂属性，将未识别的归为超出字典的情况；

步骤302，在输入数据的处理上，若vi是句子中位置为i的k维词向量，n是语料集中最长句子的长度，l是使用的卷积核的宽度最大值，那么输入数据就是一个k*(n+l-1)矩阵，这一个矩阵就是一个由词向量拼接而来的句子，即表示为

其中，是连接操作符，使用训练工具Word2Vec中的架构Skip-gram进行词向量的训练，将文本词汇训练成维度是k＝300的词向量，其个数是n+l-1。

实施例四

图4为本发明实施例一中步骤202具体实现的流程示意图，如图4所示，实施例一中步骤202，包括：

步骤401，卷积核的宽度h，维度k，代表该卷积窗口包含h个词向量，并利用这些词向量来产生一个新的特征，通过结合不同的卷积窗口所提取出的特征向量可以更好地反映这一句子真正的语义特征。其特征向量a_i表示为a_i＝f(w·x_i:i+h-1+b)其中w是卷积核的权重,b是偏置项，f是非线性激活函数如ReLU；

步骤402、对特征向量进行最大池化操作获取其最大值A＝max{a}，之后将A进行拼接，从而获得了卷积结构提取的特征向量；

步骤403、将最大池化后获得的特征向量进行Dropout操作，避免出现过拟合。

实施例五

图5为本发明实施例一中步骤203具体实现的流程示意图，如图5所示，实施例一中步骤203，包括：

步骤501，对一个具有L层的传统前向神经网络，其每层网络都可对输入x_i使用具有参数w_H的非线性映射变换H产生输出y，即y＝H(x,W_H)；

步骤502，对非线性变换增加两个非线性映射函数T和C，则输出为 y＝H(x,W_H)·T(x,W_T)+x·C(x,W_C)；

其中，T被称为转换门，C被称为携带门。

步骤503，为简化模型，携带门C常被设置为(1-T),则 y＝H(x,W_H)·T(x,W_T)+x·(1-T(x,W_C))。

实施例六

图6为本发明实施例一中步骤204具体实现的流程示意图，如图6所示，实施例一中步骤204，包括：

步骤601，在给定训练集最大隐层节点数L_max与期望学习准确率e>0时，有初始化单隐层前向神经网络(SLFN)并设置初始隐层节点数其中，L₀初始节点数为1；

步骤602、利用传统的ELM方法计算隐层输出矩阵H₁，并计算输出误差

其中，H^-为H的广义逆矩阵Moore-Penrose；

步骤603、使用递归方法更新输出权重,使模型收敛，使用收敛后的模型对训练集进行特征提取,得出文本分类的精确率。

本发明实施例提供的技术方案，基于卷积神经网络的混合文本分类模型，在卷积神经网络的基础上，该模型结合了极速学习机与Highway网络的相关理论，获得了较原有模型更优秀的分类结果，该方法比传统机器学习算法与卷积神经网络模型更有效，提升分类的精度。

本发明的实施方式二还提供了一种实现英文文本分类的装置，图7为本发明实施方式二提供的实现英文文本分类的装置的结构示意图，如图7所示，该装置包括：

其中，还包括优化处理单元，用于在使用CNN模型对所述第一输入数据进行特征向量的提取和拼接之前，使用高速路Highway神经网络对所述第一输入数据进行优化处理。

其中，所述预处理单元，具体用于对所述英文短文本数据集中的文本进行预处理工作，将标点符号及不相关的符号进行剔除，使用正则表达式识别数据集中的复杂属性，将未识别的归为超出字典的情况；

其中，所述提取和拼接单元，具体用于使用CNN对所述第一输入数据进行特征的提取，并对特征进行最大池化输出，同时将输出的特征向量进行拼接获得新的特征向量。

其中，所述提取和拼接单元，具体用于通过结合不同的卷积窗口所提取出的特征向量a_i表示为a_i＝f(w·x_i:i+h-1+b)，其中，w是卷积核的权重,b是偏置项，f是非线性激活函数；卷积核的宽度h，维度k，代表该卷积窗口包含h个词向量；

其中，所述优化处理单元，具体用于对一个具有L层的传统前向神经网络，其每层网络都可对输入x_i使用具有参数w_H的非线性映射变换H产生输出y，即y＝H(x,W_H)；

对非线性变换增加两个非线性映射函数T和C，则输出为 y＝H(x,W_H)·T(x,W_T)+x·C(x,W_C)，其中，T被称为转换门，C被称为携带门。

其中，所述分类单元，具体用于在给定训练集最大隐层节点数L_max与期望学习准确率e>0时，有初始化单隐层前向神经网络(SLFN)并设置初始隐层节点数其中， L₀初始节点数为1；

本发明的实施方式还提供了一种设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述英文文本分类的方法。

本领域技术人员可以理解，实现上述实施例方法中的控制单元的操作是可以通过程序来指令相关的硬件(传感器)来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例中控制单元执行的操作。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种实现英文文本分类的方法，包括：

2.根据权利要求1所述的方法，其特征在于，在使用CNN模型对所述第一输入数据进行特征向量的提取和拼接之前，该方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述对英文短文本数据集中的文本进行预处理，并将所述预处理后的英文文本转换为词向量矩阵，包括：

若vi是句子中位置为i的k维词向量，n是语料集中最长句子的长度，l 是使用的卷积核的宽度最大值，那么所述英文短文本数据集中的文本就是一个 k*(n+l-1)矩阵，所述矩阵就是一个由词向量拼接而来的句子，即表示为，其中，是连接操作符，n +l-1为词向量个数，k为训练维度。

4.根据权利要求1所述的方法，其特征在于，所述使用CNN模型对所述第一输入数据进行特征向量的提取和拼接，包括：

5.根据权利要求4所述的方法，其特征在于，所述使用CNN对所述第一输入数据进行特征的提取，并对特征进行最大池化输出，同时将输出的特征向量进行拼接获得新的特征向量，包括：

通过结合不同的卷积窗口所提取出的特征向量表示为，其中，w是卷积核的权重,b是偏置项，f是非线性激活函数；卷积核的宽度h，训练维度k，代表该卷积窗口包含h 个词向量；

对提取的特征向量进行最大池化操作获取其最大值 A=max{a}，之后将 A 进行拼接，获得卷积结构提取的特征向量；

6.根据权利要求2所述的方法，其特征在于，所述使用高速路Highway神经网络对所述第一输入数据进行优化处理，包括：

对一个具有 L 层的传统前向神经网络，其每层网络都可对输入使用具有参数的非线性映射变换H产生输出 y，即；

对非线性变换增加两个非线性映射函数T和C，则输出为，其中，T被称为转换门，C被称为携带门。

7.根据权利要求1所述的方法，其特征在于，所述使用ELM对所述第二输入数据进行分类，得到所述英文短文本数据集中文本的准确类别，包括：

在给定训练集，最大隐层节点数与期望学习准确率e>0时，有初始化单隐层前向神经网络（SLFN）并设置初始隐层节点数其中，初始节点数为1；

利用传统的ELM方法计算隐层输出矩阵，并计算输出误差，其中，为的 Moore-Penrose 广义逆矩阵；

8.一种实现英文文本分类的装置，其特征在于，包括：

9.一种设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的实现英文文本分类的方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的实现英文文本分类的方法。