CN109446333A

CN109446333A - 一种实现中文文本分类的方法及相关设备

Info

Publication number: CN109446333A
Application number: CN201910038004.1A
Authority: CN
Inventors: 陈海波
Original assignee: DeepBlue AI Chips Research Institute Jiangsu Co Ltd
Current assignee: DeepBlue AI Chips Research Institute Jiangsu Co Ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-03-08

Abstract

本发明实施例涉及文本分类领域，公开了一种实现中文文本分类的方法及相关设备，该方法，包括：用中文的拼音序列对中文短文本进行语义拓展，使用词向量建立字符映射矩阵和词级映射矩阵；将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量；将所述局部特征向量进行串接融合后，加入到归一化Softmax分类器中，实现对所述中文短文本的分类。如此，基于字符映射矩阵与词级映射矩阵作为联合输入的卷积神经网络模型，能够有效地解决标准卷积神经网络维度单一的缺陷，更加充分的提取中文短文本上下文信息特征，获得准确率更高的分类结果。

Description

一种实现中文文本分类的方法及相关设备

技术领域

本发明实施例涉及文本分类领域，特别涉及一种实现中文文本分类的方法及相关设备。

背景技术

目前，深度学习在图像识别与手写识别的惊人表现有目共睹。近年来在自然语言处理 (NLP)的应用也越来越广泛，短文本分类更是其中重要的一部分。

其中，实现短文本分类的方法包括：基于文本特征拓展的方法和基于深度学习的方法。基于文本特征拓展的方法可进一步分为基于规则的方法和基于统计量的方法，基于规则的方法主要依靠专家知识，通过对数据集制定一定的规则来进行分类；基于统计量的方法则主要从机器学习角度出发，引入外部语料对短文本进行拓展，进而对人工标注的文本进行特征抽取，将短文本分类问题转换成一个长文本的有监督学习问题，从而实现对短文本的自动分类。由此可见，基于文本特征拓展的方法往往依赖于特定的场景与资源，待分类文本与知识且必须具有语义一致性，其计算效率较低，难以进行推广。

基于深度学习的方法，通过将单词嵌入与卷积神经网络结合，在短文本情感分类中取得良好效果；将英文短文本的字符序列作为处理单元，分别学习文本的词级和句子级特征，提高短文本分类的准确性；将one-hot向量作为卷积神经网络的输入，来减少模型的学习参数数量；通过对输入短文本进行语义聚类，构建语义拓展矩阵，进而结合卷积神经网络进行分类；将卷积神经网络和传统的情感计算资源进行结合，通过对文本中的词语进行抽象表示，提高情感分类的准确性；利用字特征来挖掘微博文本特征，与词级别作为原始输入特征相比，其准确率更高。但是基于深度学习的方法具有较强的适应性，但是针对中文短文本同音词、拼写错误多的语言现象，并没有进行很好的解决。

发明内容

有鉴于此，本发明的实施方式提供了一种实现中文文本分类的方法，包括：

用中文的拼音序列对中文短文本进行语义拓展，使用词向量建立字符映射矩阵和词级映射矩阵；

将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量；

将所述局部特征向量进行串接融合后，加入到归一化Softmax分类器中，实现对所述中文短文本的分类。

本发明的实施方式还提供了一种实现中文文本分类的装置，包括：

矩阵建立单元，用于用中文的拼音序列来对中文短文本进行语义拓展，使用词向量建立字符映射矩阵和词级映射矩阵；

向量提取单元，用于将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量；

分类单元，用于将所述局部特征向量进行串接融合后，加入到归一化Softmax分类器中，实现对所述中文短文本的分类。

本发明的实施方式还提供了一种设备，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实现中文文本分类的方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述实现中文文本分类的方法。

本发明实施例提供的上述实施方式，基于字符映射矩阵与词级映射矩阵作为联合输入的卷积神经网络模型，能够有效地解决标准卷积神经网络维度单一的缺陷，更加充分的提取中文短文本上下文信息特征，获得准确率更高的分类结果。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本发明实施方式一提供的实现中文文本分类的方法的流程示意图；

图2为本发明实施例一提供的实现中文文本分类的方法的流程示意图；

图3为本发明实施例一中步骤201具体实现的流程示意图；

图4为本发明实施例一中步骤202具体实现的流程示意图

图5为本发明实施例一中步骤203具体实现的流程示意图；

图6为本发明实施方式二提供的实现中文文本分类的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

随着深度学习技术的不断发展，开始将深度神经网络的相关技术应用到自然语言处理领域中来。深度神经网络模型能够通过多层网络，不断组合低层文本信息，形成更加抽象的高层文本表示，从而提高模型的准确性。比如卷积神经网络(CNN)具有优异的特征自抽取能力，能够显著降低文本分类中人工抽取特征的难度。

为此，本发明实施方式提供的技术方案提出了一种基于神经网络模型的单词嵌入(Word Embedding)技术，为中文短文本进行语义化向量表示提供了新的思路。

实施方式一

图1为本发明实施方式一提供的实现中文文本分类的方法的流程示意图。如图1所示，该方法包括：

步骤101，用中文的拼音序列对中文短文本进行语义拓展，使用词向量建立字符映射矩阵和词级映射矩阵；

步骤102，将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量；

步骤103，将所述局部特征向量进行串接融合后，加入到归一化Softmax分类器中，实现对所述中文短文本的分类。

其中，所述用中文的拼音序列来对中文短文本进行语义拓展，使用词向量建立字符映射矩阵和词级映射矩阵，包括：

对文本进行预处理工作，包括去除含有大量无意义的符号，对混合评论进行保留；

使用大规模语料训练得到的单词嵌入向量集合，记为VT；对字符级别特征CF和词级别特征PF中的每一个组成单位进行向量化表示，得到字符映射矩阵w_C和词组映射矩阵w_p，其计算公式如下所示：W_C＝VT·idx(CF)，W_P＝VT·idx(PF)；

其中，idx()是计算索引函数，通过迭代CF的组成单元求出其在VT中的索引，获取其单词嵌入向量，通过迭代PF的组成单元求出其在VT中的索引，获取其词嵌入向量。

其中，所述将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量，包括：

利用大小为h×d的卷积核对输入的字符映射矩阵和词组映射矩阵分别进行卷积运算，得到所述中文短文本的形态多层局部特征矩阵w_sc和语义多层局部特征矩阵w_sp，卷积运算过程如下：其中，s_i,j为得到的多层局部特征矩阵组成单元，w_u,v为卷积核矩阵中第u行v列的权重值，b为偏置值；

选择函数Relu作为线性激活函数f，f(x)＝max(0,x)；

卷积之后加入降采样层，采用k-max降采样策略，对采样区域选取k个最大值，单个形态多层局部特征矩阵w_sc的采样过程，如下所示：其中，为第i个形态多层特征矩阵，f_flatten()表示光栅化操作，即将二维矩阵压缩成一维向量， f_sort()为排序操作函数，对一维向量进行排序。

其中，所述将所述局部特征向量进行串接融合后，加入到归一化Softmax分类器中，实现对所述中文短文本的分类，包括：

对多个局部特征向量进行融合，采用串接方式将多个局部特征向量进行连接，形成固定长度的融合特征向量，即所述中文短文本的语义向量表示，过程如下所示：其中为向量串接操作；

将所述中文短文本的语义向量表示作为Softmax分类器的输入，从全局角度对特征进行分析，进而完成短文本分类任务；

进行文本类别判断，判为概率值p所属较大的类别，并与文本标签进行对比计算，得到文本正确率。

下面通过两个具体的实施例详细阐述本发明实施方式一提供的技术方案。

实施例一

图2为本发明实施例一提供的实现中文文本分类的方法的流程示意图，如图2所示，该方法包括：

步骤201，用中文的拼音序列来对原始文本进行语义拓展，通过使用词向量建立字符级和词级的双输入矩阵；

其中，所述双输入矩阵是指字符映射矩阵w_C和词组映射矩阵w_p。

步骤202、输入经过卷积和降采样操作自动提取文本的局部特征向量；

步骤203、将串接融合后的特征向量加入到Softmax分类器中，实现对中文短文本的分类。

实施例二

图3为本发明实施例一中步骤201具体实现的流程示意图，如图3所示，实施例一中步骤201，包括：

步骤301，对文本进行预处理工作，包括去除含有大量无意义的符号，对混合评论进行了保留；

其中，该混合评论可以是一些中英文或者其他语言的评论。

步骤302，使用大规模语料训练得到的单词嵌入向量集合，记为VT；对CF和PF中的每一个组成单位进行向量化表示，得到字符映射矩阵w_C和词组映射矩阵w_p。

其中，字符级别特征(Char Level Feature,CF)：即拼音表示序列；词级别特征(Phrase Level Feature,PF)：即词组表示序列。

其中，计算公式如下所示：

W_C＝VT·idx(CF)，W_P＝VT·idx(PF)

其中，idx()是计算索引函数。通过迭代CF的组成单元求出其在VT中的索引，获取其词嵌入向量，w_P与其计算过程类似。此时，即可得到原始短文本的输入表示。

实施例四

图4为本发明实施例一中步骤202具体实现的流程示意图，如图4所示，实施例一中步骤202，包括：

步骤401，利用大小为h×d的卷积核对输入的字符映射矩阵和词组映射矩阵分别进行卷积运算，得到原始短文本的形态多层局部特征矩阵w_sc和语义多层局部特征矩阵w_sp；

其中，卷积运算过程如下：

其中，s_i,j为得到的多层局部特征矩阵组成单元，w_u,v为卷积核矩阵中第u行v列的权重值，b为偏置值。

步骤402，为加快网络的收敛速度，选择函数Relu作为线性激活函数f；

其中，公式如下：f(x)＝max(0,x)

步骤403，,卷积之后加入降采样层，采用k-max降采样策略，对采样区域选取k个最大值，单个形态多层局部特征矩阵w_sc的采样过程，如下所示：

其中，为第i个形态多层特征矩阵，f_flatten()表示光栅化操作，即将二维矩阵压缩成一维向量，f_sort()为排序操作函数，对一维向量进行排序。

实施例五

图5为本发明实施例一中步骤203具体实现的流程示意图，如图5所示，实施例一中步骤203，包括：

步骤501，需要对多个特征向量进行融合，采用串接方式将多个向量进行连接，形成固定长度的融合特征向量；

其中，融合特征向量，即原始短文本的语义向量表示，过程如下所示：

其中,为向量串接操作。

步骤502，将原始短文本的语义向量表示作为Softmax分类器的输入，从全局角度对特征进行分析，进而完成短文本分类任务；

步骤503，进行文本类别判断，判为概率值p所属较大的类别，并与文本标签进行对比计算，得到文本正确率。

本发明实施例提供的技术方案，解决短文本特征信息共现不足与人工抽取特征困难以及传统方法在语义层次上会面临数据特征稀疏和语义敏感，和实际中文短文本中噪声大、拼写错误和同音词多的特征的问题，从而有效提高中文短文本分类的准确度。

本发明的实施方式二还提供了一种实现中文文本分类的装置，图6为本发明实施方式二提供的实现中文文本分类的装置的结构示意图，如图6所示，该装置包括：

其中，所述矩阵建立单元，具体用于对文本进行预处理工作，包括去除含有大量无意义的符号，对混合评论进行保留；

其中，所述向量提取单元，具体用于利用大小为h×d的卷积核对输入的字符映射矩阵和词组映射矩阵分别进行卷积运算，得到所述中文短文本的形态多层局部特征矩阵w_sc和语义多层局部特征矩阵w_sp，卷积运算过程如下：其中，s_i,j为得到的多层局部特征矩阵组成单元，w_u,v为卷积核矩阵中第u行v列的权重值，b为偏置值；

选择函数Relu作为线性激活函数f，f(x)＝max(0,x)；

其中，所述分类单元，具体用于对多个局部特征向量进行融合，采用串接方式将多个局部特征向量进行连接，形成固定长度的融合特征向量，即所述中文短文本的语义向量表示，过程如下所示：其中为向量串接操作；

本发明实施方式提供的技术方案，提出了一种多输入卷积神经网络分类模型CP-CNN，有效解决了传统文本分类方法难以解决的短文本特征共现稀疏问题。主要贡献包括：a)使用拼音序列的文本表征方式，解决中文字符难以量化的难题；b)将字符特征与词特征作为联合输入，解决单一字符特征或词特征维度不足的问题；c)采用k-max降采样策略，增强模型的特征表达能力，并且本发明提出的以字符级别特征与词级别特征作为联合输入的卷积神经网络模型，能够有效地解决标准卷积神经网络维度单一的缺陷，更加充分的提取短文本上下文信息特征，获得准确率更高的分类结果。

本发明的实施方式还提供了一种设备，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；其中，

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述中文文本分类的方法。

本领域技术人员可以理解，实现上述实施例方法中的控制单元的操作是可以通过程序来指令相关的硬件(传感器)来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例中控制单元执行的操作。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种实现中文文本分类的方法，包括：

将所述局部特征向量进行串接融合后，加入到归一化Softmax 分类器中，实现对所述中文短文本的分类。

2.根据权利要求1所述的方法，其特征在于，所述用中文的拼音序列来对中文短文本进行语义拓展，使用词向量建立字符映射矩阵和词级映射矩阵，包括：

使用大规模语料训练得到的词嵌入向量集合，记为 VT；对字符级别特征CF和词级别特征PF中的每一个组成单位进行向量化表示，得到字符映射矩阵和词级映射矩阵，其计算公式如下所示：，;

其中，是计算索引函数，通过迭代CF的组成单元求出其在VT中的索引，获取其词嵌入向量，通过迭代PF的组成单元求出其在VT中的索引，获取其词嵌入向量。

3.根据权利要求1所述的方法，其特征在于，所述将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量，包括：

利用大小为的卷积核对输入的字符映射矩阵和词级映射矩阵分别进行卷积运算，得到所述中文短文本的形态多层局部特征矩阵和语义多层局部特征矩阵，卷积运算过程如下：，其中，为得到的多层局部特征矩阵组成单元，为卷积核矩阵中第u行v列的权重值，b为偏置值；

选择函数 Relu作为线性激活函数，；

卷积之后加入降采样层，采用 k-max 降采样策略，对采样区域选取 k 个最大值，单个形态多层局部特征矩阵的采样过程，如下所示：，其中，为第 i 个形态多层特征矩阵，表示光栅化操作，即将二维矩阵压缩成一维向量，为排序操作函数，对一维向量进行排序。

4.根据权利要求1所述的方法，其特征在于，所述将所述局部特征向量进行串接融合后，加入到归一化Softmax 分类器中，实现对所述中文短文本的分类，包括：

对多个局部特征向量进行融合，采用串接方式将多个局部特征向量进行连接，形成固定长度的融合特征向量，即所述中文短文本的语义向量表示，过程如下所示：，其中为向量串接操作；

将所述中文短文本的语义向量表示作为Softmax 分类器的输入，从全局角度对特征进行分析，进而完成短文本分类任务；

5.一种实现中文文本分类的装置，其特征在于，包括：

矩阵建立单元，用于用中文的拼音序列对中文短文本进行语义拓展，使用词向量建立字符映射矩阵和词级映射矩阵；

分类单元，用于将所述局部特征向量进行串接融合后，加入到归一化Softmax 分类器中，实现对所述中文短文本的分类。

6.根据权利要求5所述的装置，其特征在于，

所述矩阵建立单元，具体用于对文本进行预处理工作，包括去除含有大量无意义的符号，对混合评论进行保留；

其中，是求索引函数，通过迭代CF的组成单元求出其在VT中的索引，获取其词嵌入向量，通过迭代PF的组成单元求出其在VT中的索引，获取其词嵌入向量。

7.根据权利要求5所述的装置，其特征在于，

所述向量提取单元，具体用于利用大小为的卷积核对输入的字符映射矩阵和词级映射矩阵分别进行卷积运算，得到所述中文短文本的形态多层局部特征矩阵和语义多层局部特征矩阵，卷积运算过程如下：，其中，为得到的多层局部特征矩阵组成单元，为卷积核矩阵中第u行v列的权重值，b为偏置值；

选择函数 Relu作为线性激活函数，；

8.根据权利要求5所述的装置，其特征在于，

所述分类单元，具体用于对多个局部特征向量进行融合，采用串接方式将多个局部特征向量进行连接，形成固定长度的融合特征向量，即所述中文短文本的语义向量表示，过程如下所示：，其中为向量串接操作；

9.一种设备，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的实现中文文本分类的方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述的实现中文文本分类的方法。