CN110543560B

CN110543560B - 基于卷积神经网络的长文本分类识别方法、装置及介质

Info

Publication number: CN110543560B
Application number: CN201910731678.XA
Authority: CN
Inventors: 吴鸿伟; 林修明; 连志阳; 林淑强; 张永光; 陈志飞
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2022-10-11
Anticipated expiration: 2039-08-08
Also published as: CN110543560A

Abstract

本发明提供了一种基于多粒度卷积神经网络的长文本分类识别方法、装置及存储介质，该方法包括：将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集，使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络，基于所述映射表将待分类识别的长文本转换为数字序列使用训练后的多粒度卷积神经网络进行分类识别得到分类识别结果。本发明将汉字文本转换为数字序列进行处理，提高了处理速度，且本发明的多粒度卷积神经网络结构，具有提取全局特征和局部特征的分支，由于采用多分支的结构，保留了长文本的整体语义信息及局部关键信息，有效提升长文本分类识别的准确率。

Description

基于卷积神经网络的长文本分类识别方法、装置及介质

技术领域

本发明涉及人工智能技术领域，特别是一种基于多粒度卷积神经网络的长文本分类识别方法、装置及存储介质。

背景技术

自然语言理解是当前人工智能发展的高地，也是通往通用人工智能的必经之路。文本分类是自然语言理解领域内的重要技术方向，而如何让机器去理解一段文本中的语义信息是对其进行正确分类的关键。人类语言的最小组织单位可定义为一个字符，如中文中的一个字，英文中的一个字母。对于人类来说，中文多个字组成的词汇(对应英文中多个字母组成的单词短语)才是人们日常生活表达的语言组织基本单位，故文本分类常常采用预训练的词向量来完成自然文本到数字特征的文本表示，再借助机器学习中的分类器完成这一分类任务。除此之外，另外一种违反人类直觉的基于字符级的分类方法被证明是行之有效的。如DeepMind成功将字符级模型应用于文本翻译领域。OpenAI证明字符级语言模型可以学会识别亚马逊网站购物评论中所带的情绪信息。

对于基于词向量的分类方法而言，往往需要海量的词汇库才能达到一个良好的效果，而对于某一特定领域的文本来说，比如医疗文本，包含了大量的专业词汇或者领域专家才能理解的俚语、缩写和行话等。对于此类文本来说，现有预训练的词向量往往难以奏效，或者需要耗时费力重新收集标记此类领域词汇以重新训练词向量。

可见，在目前的文本分类识别中，特别是长文本分类识别中，需要构建海量的词汇库，且针对一些特殊领域，现有的预训练的词向量往往难以奏效，影响了识别准确率及识别效率。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种基于多粒度卷积神经网络的长文本分类识别方法，该方法包括：

数据预处理步骤，基于训练样本集构建字符表，所述字符表根据字符在样本集中的出现频率进行降序排序，得到每个汉字到数字编码的映射表，将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集；

多粒度卷积神经网络训练步骤，使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络；

长文本分类识别步骤，基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本，将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分类识别，得到分类识别结果。

更进一步地，所述长文本为字符数大于100的文本。

更进一步地，所述多粒度卷积神经网络用于提取数字序列形式的待分类识别的长文本的全局特征和局部特征。

更进一步地，所述多粒度卷积神经网络包括第一卷积层、第二卷积层、第三卷积层、第一全连接层、第二全连接层、第三全连接层、第四全连接层和分类层，所述数字序列形式的待分类识别的长文本输入第一卷积层，第一卷积层对数字序列形式的待分类识别的长文本进行卷积操作后分别输出至第二卷积层和第三卷积层，第二卷积层进行处理后输出至第一全连接层，第三卷积层进行处理后分别输出至第二、三全连接层，第一全连接层输出待分类识别的长文本的全局特征至第四全连接层，第二、三全连接层输出待分类识别的长文本的局部特征至第四全连接层，第四全连接层将所述全局特征和局部特征进行融合输出至所述分类层进行分类识别。

更进一步地，所述第一卷积层的卷积核为3*3，步长为2；所述第二卷积层的卷积核为3*3，步长为2；所述第三卷积层的卷积核为3*3，步长为1；所述分类层采用SoftMax函数。

本发明还提出了一种基于多粒度卷积神经网络的长文本分类识别装置，该装置包括：

数据预处理单元，基于训练样本集构建字符表，所述字符表根据字符在样本集中的出现频率进行降序排序，得到每个汉字到数字编码的映射表，将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集；

多粒度卷积神经网络训练单元，使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络；

长文本分类识别单元，基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本，将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分类识别，得到分类识别结果。

更进一步地，所述长文本为字符数大于100的文本。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：

本发明根据训练样本集构建字符表，基于字符出现的频率排序，得到单个汉字到数字编码的映射表，对于输入每段文本根据所述映射表对其进行编码(embedding层)得到数字序列形式的长文本，以便作为神经网络的输入，将汉字文本转换为数字序列进行处理，提高了处理速度，便于提取文本的特征。

本发明提出了多粒度卷积神经网络结构，具有提取全局特征和局部特征的分支，由于采用多分支的结构，保留了长文本的整体语义信息及局部关键信息，有效提升长文本分类识别的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于多粒度卷积神经网络的长文本分类识别方法的流程图。

图2是多粒度卷积神经网络的结构图。

图3是根据本发明的实施例的一种基于多粒度卷积神经网络的长文本分类识别装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种基于多粒度卷积神经网络的长文本分类识别方法，该方法包括以下步骤。

数据预处理步骤S101，基于训练样本集构建字符表，所述字符表根据字符在样本集中的出现频率进行降序排序，得到每个汉字到数字编码的映射表，将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集。

本发明根据训练样本集构建字符表，基于字符出现的频率排序，得到单个汉字到数字编码的映射表，对于输入每段文本根据所述映射表对其进行编码(embedding层)得到数字序列形式的长文本，以便作为神经网络的输入，将汉字文本转换为数字序列进行处理，提高了处理速度，便于提取文本的特征，这是本发明的重要发明点之一。

多粒度卷积神经网络训练步骤S102，使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络。在多粒度卷积神经网络训练时，可以采用相应的优化算法进行训练，以保证多粒度卷积神经网络尽快收敛，提高训练速度。

长文本分类识别步骤S103，基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本，将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分类识别，得到分类识别结果。

在一个实施例中，所述长文本为字符数大于100的文本，经过仿真对比，针对该类长文本的识别效果较好。

在一个实施例中，所述多粒度卷积神经网络用于提取数字序列形式的待分类识别的长文本的全局特征和局部特征。

在一个实施例中，如图2所示，所述多粒度卷积神经网络包括第一卷积层、第二卷积层、第三卷积层、第一全连接层、第二全连接层、第三全连接层、第四全连接层和分类层，所述数字序列形式的待分类识别的长文本输入第一卷积层，第一卷积层对数字序列形式的待分类识别的长文本进行卷积操作后分别输出至第二卷积层和第三卷积层，第二卷积层进行处理后输出至第一全连接层，第三卷积层进行处理后分别输出至第二、三全连接层，第一全连接层输出待分类识别的长文本的全局特征至第四全连接层，第二、三全连接层输出待分类识别的长文本的局部特征至第四全连接层，第四全连接层将所述全局特征和局部特征进行融合输出至所述分类层进行分类识别。

在一个实施例中，所述第一卷积层的卷积核为3*3，步长为2；所述第二卷积层的卷积核为3*3，步长为2；所述第三卷积层的卷积核为3*3，步长为1；所述分类层采用SoftMax函数。

即本发明设计了上述的多粒度卷积神经网络，多粒度卷积神经网络的全局语义提取由第一、二卷积层，第一全连接层构成，局部语义提取自第一卷积层后引出，但经过第三卷积层时去除原有的下采样操作，保留原来的特征图，再沿水平方向平均切分分别输入到下一步的第二、三全连接层中，从而尽可能多保留局部关键语义信息，然后将各个分支输入到最后的第四连接层完成特征融合。由于采用多分支的结构，保留了长文本的整体语义信息及局部关键信息，有效提升长文本分类识别的准确率，这是本发明另一个重要发明点。

进一步参考图3，作为对上述图1所示方法的实现，本申请提供了一种基于多粒度卷积神经网络的长文本分类识别装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以包含于各种电子设备或通过网络连接的多个电子设备中。

图3示出了本发明的图1示出了本发明的图1示出了本发明的一种基于多粒度卷积神经网络的长文本分类识别装置，该装置包括以下部分。

数据预处理单元301，基于训练样本集构建字符表，所述字符表根据字符在样本集中的出现频率进行降序排序，得到每个汉字到数字编码的映射表，将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集。

多粒度卷积神经网络训练单元302，使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络。在多粒度卷积神经网络训练时，可以采用相应的优化算法进行训练，以保证多粒度卷积神经网络尽快收敛，提高训练速度。

长文本分类识别单元303，基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本，将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分类识别，得到分类识别结果。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多粒度卷积神经网络的长文本分类识别方法，其特征在于，该方法包括：

长文本分类识别步骤，基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本，将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分类识别，得到分类识别结果；

其中，所述多粒度卷积神经网络用于提取数字序列形式的待分类识别的长文本的全局特征和局部特征；

其中，所述多粒度卷积神经网络包括第一卷积层、第二卷积层、第三卷积层、第一全连接层、第二全连接层、第三全连接层、第四全连接层和分类层，所述数字序列形式的待分类识别的长文本输入第一卷积层，第一卷积层对数字序列形式的待分类识别的长文本进行卷积操作后分别输出至第二卷积层和第三卷积层，第二卷积层进行处理后输出至第一全连接层，第三卷积层进行处理后分别输出至第二、三全连接层，第一全连接层输出待分类识别的长文本的全局特征至第四全连接层，第二、三全连接层输出待分类识别的长文本的局部特征至第四全连接层，第四全连接层将所述全局特征和局部特征进行融合输出至所述分类层进行分类识别；其中，在多粒度卷积神经网络训练时，采用相应的优化算法进行训练，以保证多粒度卷积神经网络尽快收敛，提高训练速度；多粒度卷积神经网络采用多分支的结构，保留了长文本的整体语义信息及局部关键信息，有效提升长文本分类识别的准确率。

2.根据权利要求1所述的方法，其特征在于，所述长文本为字符数大于100的文本。

3.根据权利要求2所述的方法，其特征在于，所述第一卷积层的卷积核为3*3，步长为2；所述第二卷积层的卷积核为3*3，步长为2；所述第三卷积层的卷积核为3*3，步长为1；所述分类层采用SoftMax函数。

4.一种基于多粒度卷积神经网络的长文本分类识别装置，其特征在于，该装置包括：

长文本分类识别单元，基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本，将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分类识别，得到分类识别结果；

5.根据权利要求4所述的装置，其特征在于，所述长文本为字符数大于100的文本。

6.根据权利要求5所述的装置，其特征在于，所述第一卷积层的卷积核为3*3，步长为2；所述第二卷积层的卷积核为3*3，步长为2；所述第三卷积层的卷积核为3*3，步长为1；所述分类层采用SoftMax函数。

7.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行权利要求1-3之任一的方法。