CN110825850A

CN110825850A - 一种自然语言主题分类方法及装置

Info

Publication number: CN110825850A
Application number: CN201911080875.6A
Authority: CN
Inventors: 赵毅; 王一峰
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-02-21
Anticipated expiration: 2039-11-07
Also published as: CN110825850B

Abstract

本发明公开一种自然语言主题分类方法及装置。该方法中训练阶段包括：获取已知主题的自然语言文本段作为样本集；提取样本集中出现频率最高的多个词得到多个特征词；将每个特征词表示成向量得到多个特征向量；计算任意两个特征向量之间的相似程度得到相似程度集合；将相似程度、主题以及每个主题对应的特征词输入预设的神经网络结构中进行训练得到特征谱以及表达特征谱与分类结果之间关系的模型；分类阶段包括：获取待分类的自然语言文本段；提取待分类的自然语言文本段中属于特征谱的特征词得到输入特征参数；将输入特征参数输入表达特征谱与分类结果之间关系的模型得到分类结果。本发明能够实现特征的自适应选取，提高分类准确度。

Description

一种自然语言主题分类方法及装置

技术领域

本发明涉及自然语言分类领域，特别是涉及一种自然语言主题分类方法及装置。

背景技术

文本分类算法早已有之，在20世纪50年代就已经有科学家借助“专家系统”的方法对文本进行分类了，然而该方法可覆盖的范围以及分类准确率都非常有限，只能用于解决一些条件明确、描述清晰且有条理的文本分类问题。随着统计学方法的发展，特别是90年代后互联网在线文本数量增长和机器学习学科的兴起，逐渐形成了一套解决大规模文本分类问题的经典方法，其主要流程是“人工特征工程”+“分类模型”，即把整个文本分类问题拆分成特征工程和分类器两部分。对于不同类型的文本，特征选取方法是不同的，分类器的设计也是不同的，例如：有采用Apriori算法对同时出现在语句中的特征项进行筛选，进而实现分类的模型；有基于遗传算法对诗文特征项进行选取，后接朴素贝叶斯模型进行分类的方法等。

在2014年的文章《基于特征项聚合的古典诗歌分类模型》中，黄永锋等提出了通过均值漂移、谱聚类、k-means等聚类算法选取特征，随后采用支持向量机、距离加权最近邻、贝叶斯模型等分类器进行分类的方法，并将其进行了对比，最终发现：使用均值漂移聚类算法寻找特征，并采用加权最近邻分类器的方法是目前为止对中国古诗文分类准确率较高的一种方法。然而该方法的初始特征库的建立依赖于人工选取的特征，无法实现特征的自适应选取，分类准确度受到限制。

发明内容

本发明的目的是提供一种自然语言主题分类方法及装置，能够实现特征的自适应选取，提高分类准确度。

为实现上述目的，本发明提供了如下方案：

一种自然语言主题分类方法，包括：训练阶段和分类阶段；

所述训练阶段包括：

获取已知主题的自然语言文本段作为样本集；

提取所述样本集中出现频率最高的多个词，得到多个特征词；

将每个所述特征词表示成向量，得到多个特征向量；

计算任意两个所述特征向量之间的相似程度，得到相似程度集合；所述相似程度集合反映多个特征向量的特性与联系；

将所述相似程度、所述主题以及每个主题对应的特征词输入预设的神经网络结构中进行训练，从而对多个所述特征向量的特性和联系以及特征词与分类结果之间的关系进行学习，得到特征谱以及表达特征谱与分类结果之间关系的模型；所述特征谱为最能影响分类结果的多个特征词；

所述分类阶段包括：

获取待分类的自然语言文本段；

提取所述待分类的自然语言文本段中属于所述特征谱的特征词，得到输入特征参数；

将所述输入特征参数输入所述表达特征谱与分类结果之间关系的模型，得到分类结果。

可选的，所述提取所述样本集中出现频率最高的多个词，得到多个特征词，具体包括：

利用Sunday算法检索所述样本集各个词的出现频率，得到出现频率最高的多个词。

可选的，所述将每个所述特征词表示成向量，得到多个特征向量，具体包括：

计算每个特征词的词频-逆文本频率指数，得到每个特征词的特征向量表示。

可选的，所述计算任意两个所述特征向量之间的相似程度，得到相似程度集合，具体包括：

利用余弦相似度计算任意两个特征向量之间的相似度；

对每个所述相似度值进行归一化处理，得到相似程度集合。

可选的，所述预设的神经网络结构包括特征信息汇总层、特征谱层、输入层、隐藏层和输出层；

所述特征信息汇总层的各个节点由所述相似程度集合的各个元素生成；

所述特征谱层用于在训练阶段生成所述特征谱；

所述输入层用于在分类阶段输入所述输入特征参数；

所述隐藏层用于在训练阶段建立所述特征谱与分类结果之间的关系，在分类阶段根据所建立的关系生成所述输入特征参数所对应的分类结果；

所述输出层用于在分类阶段输出分类结果。

一种自然语言主题分类装置，包括：

样本获取装置，用于获取已知主题的自然语言文本段作为样本集；

高频词提取装置，用于提取所述样本集中出现频率最高的多个词，得到多个特征词；

向量表示装置，用于将每个所述特征词表示成向量，得到多个特征向量；

相似程度计算装置，用于计算任意两个所述特征向量之间的相似程度，得到相似程度集合；所述相似程度集合反映多个特征向量的特性与联系；

训练与分类装置，用于将所述相似程度、所述主题以及每个主题对应的特征词输入预设的神经网络结构中进行训练，从而对多个所述特征向量的特性和联系以及特征词与分类结果之间的关系进行学习，得到特征谱以及表达特征谱与分类结果之间关系的模型；所述特征谱为最能影响分类结果的多个特征词；

待分类文本获取装置，用于获取待分类的自然语言文本段；

输入参数提取装置，用于提取所述待分类的自然语言文本段中属于所述特征谱的特征词，得到输入特征参数；

所述训练与分类装置还用于将所述输入特征参数输入所述表达特征谱与分类结果之间关系的模型，得到分类结果。

可选的，所述高频词提取装置包括：

高频词提取元件，用于利用Sunday算法检索所述样本集各个词的出现频率，得到出现频率最高的多个词。

可选的，所述向量表示装置包括：

向量表示元件，用于计算每个特征词的词频-逆文本频率指数，得到每个特征词的特征向量表示。

可选的，所述相似程度计算装置包括：

余弦相似度计算元件，用于利用余弦相似度计算任意两个特征向量之间的相似度；

归一化处理元件，用于对每个所述相似度值进行归一化处理，得到相似程度集合。

所述特征谱层用于在训练阶段生成所述特征谱；

所述输入层用于在分类阶段输入所述输入特征参数；

所述输出层用于在分类阶段输出分类结果。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的一种自然语言主题分类方法及装置，利用神经网络结构筛选出特征谱，从而自动生成最能影响分类结果的多个特征词，能够实现特征的自适应选取，避免对人工特征选取的特征的依赖，提高分类准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为实施例1的自然语言主题分类方法中训练阶段的流程图；

图2为实施例1的自然语言主题分类方法中分类阶段的流程图；

图3为本发明实施例2的预设的神经网络结构的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

该实施例提供一种自然语言主题分类方法。众所周知，自然语言主题的分类是目前学生必须掌握的内容之一。例如古诗主题的分类能够帮助学生理解古诗的主体思想。因此本申请的方案能够起到辅助教学的作用。

该自然语言主题分类方法，包括：训练阶段和分类阶段。

图1为实施例1的自然语言主题分类方法中训练阶段的流程图。

参见图1该训练阶段包括：

步骤101：获取已知主题的自然语言文本段作为样本集。

步骤102：提取所述样本集中出现频率最高的多个词，得到多个特征词；具体为：利用Sunday算法检索所述样本集各个词的出现频率，得到出现频率最高的多个词。

步骤103：将每个所述特征词表示成向量，得到多个特征向量；具体为：计算每个特征词的词频-逆文本频率指数，得到每个特征词的特征向量表示。

步骤104：计算任意两个所述特征向量之间的相似程度，得到相似程度集合；所述相似程度集合反映多个特征向量的特性与联系；具体包括：

利用余弦相似度计算任意两个特征向量之间的相似度；对每个所述相似度值进行归一化处理，得到相似程度集合。

步骤105：将所述相似程度、所述主题以及每个主题对应的特征词输入预设的神经网络结构中进行训练，从而对多个所述特征向量的特性和联系以及特征词与分类结果之间的关系进行学习，得到特征谱以及表达特征谱与分类结果之间关系的模型；所述特征谱为最能影响分类结果的多个特征词。

该预设的神经网络结构的作用在于在多个所述特征向量的特性和联系不明确以及特征词与分类结果之间的关系不明确的情况下，通过学习自动建立多个所述特征向量的特性和联系以及建立特征词与分类结果之间的关系。

所述预设的神经网络结构包括特征信息汇总层、特征谱层、输入层、隐藏层和输出层；所述特征谱层与所述隐藏层建立正向传播与反向传播关系。

所述特征信息汇总层的各个节点由所述相似程度集合的各个元素生成；所述特征信息汇总层的节点数与相似程度集合的元素数量相同。即所述特征信息汇总层本质上是由相似程度集合中的元素构成。

所述特征谱层用于在训练阶段生成所述特征谱；所述特征谱层的节点数量与特征词的数量相同。特征谱层将属于特征谱的特征词标记为1，将不属于特征谱的特征词标记为0，则生成的特征谱为1×n的掩码向量M，M由0和1构成，属于特征谱的特征词所对应的位置为1，不属于特征谱的特征词对应的位置为0。n为步骤102得到的特征词的数量。所述特征谱层与所述特征信息汇总层全连接。

所述输入层用于在分类阶段输入所述输入特征参数。所述输入层的节点数量与特征谱中特征词的数量相同。

所述输出层用于在分类阶段输出分类结果。所述输出层的节点数量与预设的分类结果的种类的数量相同。所述输入层、所述隐藏层和所述输出层全连接。

图2为实施例1的自然语言主题分类方法中分类阶段的流程图。

参见图2，该分类阶段包括：

步骤201：获取待分类的自然语言文本段。

步骤202：提取所述待分类的自然语言文本段中属于所述特征谱的特征词，得到输入特征参数。

输入特征参数存在两种形式，分别为归一化形式和二进制形式；

归一化形式的确定过程：

统计待分类的自然语言文本段中n个特征词出现的频数，然后进行归一化，得到一个1×n向量。将该1×n向量与掩码向量M做点乘得到输入特征参数向量。输入特征参数的归一化形式蕴含了各个特征词出现频数的特征。

二进制形式的确定过程：

提取待分类的自然语言文本段中的特征词；构建1×n向量，将该1×n向量中属于特征谱的特征词所对应的位置标记为1，将不属于特征谱的特征词所对应的位置标记为0，得到输入特征参数向量。输入特征参数的二进制形式未包含各个特征词出现频数的特征，仅包含待分类的自然语言文本段中包括哪些特征词的特征。

步骤203：将所述输入特征参数输入所述表达特征谱与分类结果之间关系的模型，得到分类结果。

实施例2：

该实施例2以古诗文本为例对本发明的技术方案进行详细说明。

古诗文本作为一种特殊类型的自然语言文本，其句式、格式、表达方式都有别于现代文，而且内容含蓄、晦涩、同时极为精炼。另外古诗文以单音节词占多数，这一特性也为特征的选取带来了不小的问题。本发明通过自适应地选择对于文本分类最有用的特征，形成最高效的特征谱(特征谱即是多个所选择的特征的集合)，由于分类任务是根据特征选择来完成的，特征的选择应受最终任务完成情况影响，即分类的好坏直接影响特征的选择，因此非常适用于特征众多的大数据领域，如文本识别、文本分类等，也能克服古诗文本的特性所带来的问题。

本发明以将某段古诗文本的主题分为“爱情”、“山水田园”、“忧国忧民”、“哲理”四类中的一类为例说明。

选取1200余篇已知主题的古诗文本，其中700篇作为训练集，500篇作为测试集(每类125篇)。

该分类方法分为训练阶段和分类阶段。训练阶段如下：

1、使用Sunday算法(Sunday算法是一种线性字符串模式匹配算法)检索训练集中的高频词，并组成高频词特征库。特征库中含有n个特征项(即n个特征词)。

2、将每个特征词向量化。

该实施例2的目标是将输入的古诗文本分成4类，因此每个特征词的数值应与该特征词对4种类型古诗文本的区分表示度相关。所以选取TF-IDF即“词频-逆文本频率”方法对特征词进行向量表示。具体过程如下：

1)计算词频(TF，TermFrequency)。

设爱情类、山水田园类、忧国忧民类、哲理类诗文分别对应类别：1、2、3、4，每种类别下对应的篇数分别为：N1、N2、N3、N4，第i类下第j篇古诗文本所包含的汉字总数目为n_i,j，特征词t在第i类下第j篇古诗文本中出现次数为n_t,i,j(i＝1,2,3,4；j＝1,2,…,N_i)，则特征词t在第i类文本中的词频TF_t,i为

该词频TF_t,i的公式表示了特征词t在i类文本中的出现率，同时也是对词数的归一化，以避免其偏向更长的文本文件。

2)计算逆文档频。

逆文档频IDF(InverseDocumentFrequency)是对某个特征词的“普遍重要性”的度量。设所有文本中包含特征词t的篇数为DF_t，所有文本数量为：N＝N1+N2+N3+N4，则特征词t的逆文档频率IDF_t为：

3)基于类别共有4种，特征词t的TF-IDF表示为一个1×4的向量：

TF_IDF_t＝(TF_t,1,TF_t,2,TF_t,3,TF_t,4)×IDF_t

3、采用余弦相似度计算各特性向量之间的相似度矩阵A。

A_p,q＝cos(TF_IDF_tp,TF_IDF_tq)

p和q均为特征向量的序号。t_p为第p个特征向量，t_q为第q个特征向量。A_p,q为特征向量t_p与特征向量t_q之间的相似度。且A_p,q为矩阵A的第p行第q列元素。

4、归一化处理。

构建对角矩阵D：

D_pp为矩阵D的第p行第p列元素。

归一化处理，得到拉普拉斯矩阵L：

则拉普拉斯矩阵的上三角部分依次按序排列形成相似程度集合。

5、训练神经网络。将相似程度集合作为预设的神经网络结构的特征信息汇总层，经过训练，生成特征谱以及表达特征谱与分类结果之间关系的模型。

特征信息汇总层的节点数量为相似程度集合中元素的数量。图3为本发明实施例2的预设的神经网络结构的结构图。参见图3，特征信息汇总层后为特征谱层。特征谱层的本质是隐藏层。所述特征谱层用于在训练阶段生成所述特征谱；所述特征谱层的节点数量与特征词的数量相同。特征谱层将属于特征谱的特征词标记为1，将不属于特征谱的特征词标记为0。所述特征谱层与所述特征信息汇总层全连接。所述输入层用于在分类阶段输入所述输入特征参数。所述输入层的节点数量与特征谱中特征词的数量相同，输入层的节点数量小于特征谱层的节点数量。所述隐藏层用于在训练阶段建立所述特征谱与分类结果之间的关系，在分类阶段根据所建立的关系生成所述输入特征参数所对应的分类结果。所述输出层用于在分类阶段输出分类结果。所述输出层的节点数量与预设的分类结果的种类的数量相同。所述输入层、所述隐藏层和所述输出层全连接。

特征谱层选取特征谱的过程是对各个特征词分配权重的过程。在特征谱层找到权重最大的前m个节点对应的位置，即选择出了m个最能影响分类结果的特征词。根据m个节点对应的位置生成一个二进制掩码向量M，该掩码向量中，m个节点对应的位置为1，其余位置为0。M向量中共有n个元素，取值为0或1，其中取值为1的元素共有m个，表示m个最能影响分类结果的特征词，该m各特征词构成特征谱。

特征谱由特征谱层生成。输入层、隐藏层和输出层经训练成为表达特征谱与分类结果之间关系的模型。

分类阶段：

将待分类的古诗文本转化为向量空间模型(vectorspacemodel，VSM)。

分别统计每篇古诗文本中n个特征词出现的频数，然后进行归一化，得到一个1×n的向量作为该篇古诗文本的表示向量S。将表示向量S与掩码向量M做点乘得到输入文本向量。输入文本向量S'＝S·M。将输入文本作为输入层的输入实现分类。

表1为本发明的方法与现有的分类方法的分类准确率对比表。由表1可知，本发明的分类方法具有较高的准确度和灵敏度。

表1本发明的方法与现有的分类方法的分类准确率对比表

实施例3：

该实施例3提供一种自然语言主题分类装置，包括：

待分类文本获取装置，用于获取待分类的自然语言文本段；

可选的，所述高频词提取装置包括：

可选的，所述向量表示装置包括：

可选的，所述相似程度计算装置包括：

所述特征谱层用于在训练阶段生成所述特征谱；

所述输入层用于在分类阶段输入所述输入特征参数；

所述输出层用于在分类阶段输出分类结果。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的一种自然语言主题分类方法及装置，利用神经网络结构筛选出特征谱，从而自动生成最能影响分类结果的多个特征词，能够实现特征的自适应选取，避免对人工特征选取的特征的依赖，提高分类准确度。

本发明在预设的神经网络结构中设置特征谱层，可以自适应地选择文本中有利于分类的特征，使得分类的好坏直接反向作用于特征的选择，有效解决了深度学习中特征难以选择的问题。因此该算法特别适合特征数量众多的大数据领域。

本发明的可迁移性强，模型无需更改，只需改变训练集，即可将其用于各语言类型(例如古诗、现代文等)的自然语言分类问题。同时，且该算法不限于完成文本分类任务，随着任务和数据集的改变，只需要将自适应特征谱神经网络后边的隐藏层、输出层相应地调整为RNN或其他的一些结构，即可以很好地完成机器翻译、文本预测、文本匹配、文本摘要、指代消解等任务。

本发明将深度学习应用于自然语言处理问题，在深度学习框架之前所做的数据预处理、特征选取等工作为自然语言处理问题提供了一种思路。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种自然语言主题分类方法，其特征在于，包括：训练阶段和分类阶段；

所述训练阶段包括：

获取已知主题的自然语言文本段作为样本集；

将每个所述特征词表示成向量，得到多个特征向量；

所述分类阶段包括：

获取待分类的自然语言文本段；

2.根据权利要求1所述的自然语言主题分类方法，其特征在于，所述提取所述样本集中出现频率最高的多个词，得到多个特征词，具体包括：

3.根据权利要求1所述的自然语言主题分类方法，其特征在于，所述将每个所述特征词表示成向量，得到多个特征向量，具体包括：

4.根据权利要求1所述的自然语言主题分类方法，其特征在于，所述计算任意两个所述特征向量之间的相似程度，得到相似程度集合，具体包括：

利用余弦相似度计算任意两个特征向量之间的相似度；

对每个所述相似度值进行归一化处理，得到相似程度集合。

5.根据权利要求1所述的自然语言主题分类方法，其特征在于，所述预设的神经网络结构包括特征信息汇总层、特征谱层、输入层、隐藏层和输出层；

所述特征谱层用于在训练阶段生成所述特征谱；

所述输入层用于在分类阶段输入所述输入特征参数；

所述输出层用于在分类阶段输出分类结果；

所述输入层、所述隐藏层和所述输出层构成单隐藏层的BP神经网络。

6.一种自然语言主题分类装置，其特征在于，包括：

待分类文本获取装置，用于获取待分类的自然语言文本段；

7.根据权利要求6所述的自然语言主题分类装置，其特征在于，所述高频词提取装置包括：

8.根据权利要求6所述的自然语言主题分类装置，其特征在于，所述向量表示装置包括：

9.根据权利要求6所述的自然语言主题分类装置，其特征在于，所述相似程度计算装置包括：

10.根据权利要求6所述的自然语言主题分类装置，其特征在于，所述预设的神经网络结构包括特征信息汇总层、特征谱层、输入层、隐藏层和输出层；

所述特征谱层用于在训练阶段生成所述特征谱；

所述输入层用于在分类阶段输入所述输入特征参数；

所述输出层用于在分类阶段输出分类结果；