CN108304468A

CN108304468A - 一种文本分类方法以及文本分类装置

Info

Publication number: CN108304468A
Application number: CN201711441846.9A
Authority: CN
Inventors: 佘萧寒; 姜梦晓; 万四爽; 费志军; 王宇; 张莉敏; 张琦; 邱雪涛; 乐旭; 刘想
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2018-07-20
Anticipated expiration: 2037-12-27
Also published as: CN108304468B

Abstract

本发明涉及一种文本分类方法以及文本分类装置。该方法包括下述步骤：NLP预处理步骤，对用户对话文字进行自然语言处理方法的分析，得到关于该用户对话文字的词集合和语义标注结果；多维度特征选择步骤，对于所述词集合和语义标注结果按照多种规则组合，得到用户对话文字所包含的语义信息的向量化表征形式；以及分类步骤，对于所述多维度特征选择步骤得到的用户对话分类计算概率估计值。根据本发明的文本分类方法以及文本分类系统，能够整合统计和深度学习方法的优势，通过多维度特征选择实现面向客户需求的文本分类解决方案。

Description

一种文本分类方法以及文本分类装置

技术领域

本发明涉及文本处理技术，具体涉及一种文本分类方法以及文本分类装置。

背景技术

现阶段有关文本分类技术的实现方案，主要分为统计学习方法和深度学习方法。前者主要以特征选择方法为主，通过诸如TF-IDF、PMI、卡方值等指标对文本的词、句级别特征进行选择，得到代表文本的特征向量，并用机器学习的方法得出该特征向量之于各标签的概率，作为最终的分类标准；后者则以模型构建为主，将文本的离散信息作为输入，通过多层神经网络的串、并联结构，辅以反向传播算法更新网络权重，直接得到该文本之于各标签的概率。

然而，无论是统计学习方法或是深度学习方法，都有其缺陷。前者对特征选择的过于依赖导致后续算法的提升空间有限，且离散化的特征常会导致诸如数据稀疏、语义鸿沟等问题；后者则是黑盒结构，端到端的学习方法难以泛化，也很难实现领域迁移，极其依赖训练数据的规模。

发明内容

鉴于所述问题，本发明旨在提供一种能够整合统计学习方法和深度学习方法的基于多维度特征选择的文本分类方法。

本发明的文本分类方法，其特征在于，包括下述步骤：

NLP预处理步骤，对用户对话文字进行自然语言处理方法的分析，得到关于该用户对话文字的词集合和语义标注结果；以及

多维度特征选择步骤，对于所述词集合和语义标注结果按照多种规则组合，得到用户对话文字所包含的语义信息的向量化表征形式。

优选地，所述NLP预处理步骤包括下述子步骤：

将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果，其中，所述自然语言处理方法使用LTP工具包实现；以及

根据停用词词表，去除所述词集合中的停用词，其中，所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。

优选地，所述多维度特征选择步骤包括下述子步骤：

抽取n-gram离散特征的子步骤；

抽取依存三元组特征的子步骤；以及

抽取WE分布式特征的子步骤。

优选地，所述抽取n-gram离散特征的子步骤包括：

从所述NLP预处理步骤得到的用户对话词集合中抽取Unigram、Bigram和Trigram集合，其中，gram指代单词，Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形；以及

根据n-gram索引表，将n-gram离散特征向量中的对应位置置1，其中，根据训练语料中的n-gram统计结果，将出现次数高的gram添加到gram索引表中。

优选地，所述抽取依存三元组特征的子步骤包括：

将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析，其中，依存句法分析使用LTP工具包实现；以及

根据依存关系三元组索引表，将依存关系三元组特征向量中的对应位置置1，其中，根据是否包含客服业务的关键词，由训练语料中的依存关系三元组生成对应的索引表。

优选地，所述抽取WE分布式特征的子步骤包括：

将去除了所述词集合中的停用词的词集合进行词向量检索匹配，其中，词向量匹配使用到深度学习模型训练得到的词向量文件；以及

将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算，生成三个新的特征向量；

优选地，在所述多维度特征选择步骤之后，进一步具备：

分类步骤，对于所述多维度特征选择步骤得到的用户对话分类计算概率估计值。

优选地，所述分类步骤包括：

将通过所述多维度特征选择步骤得到的向量化的用户对话文字所包含的语义信息进行拼接；

将拼接后的特征向量作为规定分类系统的输入；以及

根据分类系统的输出概率，将其中最大项对应的用户对话意图，作为用户对话文本的分类标签。

优选地，所述规定分类系统包括：神经网络、支持向量机、逻辑回归分类系统等中的一种。

本发明的文本分类装置，其特征在于，具备：

NLP预处理装置，对用户对话文字进行自然语言处理方法的分析，得到关于该用户对话文字的词级别特征；以及

多维度特征选择装置，对于所述词级别特征分别从多个层面向量化用户对话词集合。

优选地，所述NLP预处理装置包括：

词集合和语义标注结果获取子模块，将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果，其中，所述自然语言处理方法使用LTP工具包实现；以及

停用词去除子模块，根据停用词词表，去除所述词集合中的停用词，其中，所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。

优选地，所述多维度特征选择装置具备：

用于抽取n-gram离散特征的n-gram离散特征子模块；

用于抽取依存三元组特征的依存三元组特征子模块；以及

用户抽取WE分布式特征的WE分布式特征子模块。

优选地，所述n-gram离散特征子模块将从所述NLP预处理装置获得的用户对话词集合中抽取Unigram、Bigram和Trigram集合，其中，gram指代单词，Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形，并且，根据n-gram索引表，将n-gram离散特征向量中的对应位置置1，其中，根据训练语料中的n-gram统计结果，将出现次数高的gram添加到gram索引表中。

优选地，所述抽取依存三元组特征的三元组特征子模块将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析，其中，依存句法分析使用LTP工具包实现，并且，根据依存关系三元组索引表，将依存关系三元组特征向量中的对应位置置1，其中，根据是否包含客服业务的关键词，由训练语料中的依存关系三元组生成对应的索引表。

优选地，所述WE分布式特征子模块将去除了所述词集合中的停用词的词集合进行词向量检索匹配，其中，词向量匹配使用到word2vec或GloVe深度学习模型训练得到的词向量文件，并且将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算，生成三个新的特征向量。

优选地，进一步具备：

分类模块，对于从所述多维度特征选择装置得到的用户对话分类计算概率估计值。

优选地，所述分类模块包括：

拼接子模块，将通过所述多维度特征选择装置得到的向量化的用户对话文字所包含的语义信息进行拼接；以及

分类系统，将拼接后的特征向量作为输入并且根据输出概率将其中最大项对应的用户对话意图，作为用户对话文本的分类标签。

优选地，所述规定分类系统为神经网络、支持向量机、逻辑回归分类系统等中的一种。

如上所述，根据本发明的文本分类方法以及文本分类系统，能够整合统计和深度学习方法的优势，通过多维度特征选择实现面向客户需求的文本分类解决方案。而且，本发明的文本分类方法以及文本分类系统，领域适应性佳，再者，由于利用特征选择的方法，得以在小规模训练数据上进行学习。

附图说明

图1是本发明一实施方式的文本分类方法的流程图。

图2是本发明实施例1的文本分类方法的流程图。

图3是本发明的文本分类装置的构造示意图。

具体实施方式

下面介绍的是本发明的多个实施例中的一些，旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

本方案的目的是针对现有的文本分类方法存在的诸如数据稀疏以及模型泛化等问题，提出一种基于多维度特征选择的文本分类方法以及文本分类系统。本发明的主要技术构思在于，首先对用户对话文本进行分词、词性标注、去除停用词等常规NLP预处理，然后分别抽取对话文本中的n-gram特征、Word Embedding特征、依存句法关系三元组特征，将其拼接后输入到神经网络分类系统中，最终得到分类标签对应的概率。

图1是本发明一实施方式的文本分类方法的流程图。图1中箭头表示数据流向。

如图1所示，本发明一实施方式的文本分类方法包括下述步骤：

NLP预处理步骤S10：对用户对话文本进行自然语言处理方法的分析，得到关于该用户对话文字的词级别特征，具体地例如，针对用户对话文字进行分词、词性标注和去除停用词等自然语言处理技术的分析，得到关于该段文字的词集合和语义标注结果（其中，NLP是指Natural Language Processing，自然语言处理方法）；

多维度特征选择步骤S20：对于所述词级别特征分别从多个层面向量化用户对话词集合，例如在本实施方式中，分别是抽取n-gram（n元语法）离散特征、抽取依存三元组特征、以及抽取WE（Word Embedding，词向量）分布式特征；以及

利用分类系统实现的分类步骤S30：对于所述多维度特征选择步骤S20得到的用户对话分类计算概率估计值。

接着，对于本发明的文本分类方法的一个具体实施例进行说明。

图2是本发明实施例1的文本分类方法的流程图。

如图2所示，本发明实施例1的文本分类方法包括下述步骤：NLP预处理步骤S100、多维度特征选择步骤S200以及分类步骤S300。

接着，对于各个步骤进行详细说明。

NLP预处理步骤S200包括下述子步骤：

将用户对话文字以词为单位进行分词和词性标注并得到词集合，其中，所述自然语言处理方法使用LTP（语言技术平台）工具包实现；以及

根据停用词词表，去除上述步骤中得到的词集合中的停用词，其中，所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。

所述多维度特征选择步骤S200包括下述子步骤（在图2中S200的虚线框中的从左到右的顺序表示）：

抽取n-gram离散特征的子步骤S210；

抽取依存三元组特征的子步骤S220；以及

抽取WE分布式特征的子步骤S230。

具体地，在抽取n-gram离散特征的子步骤S210中包括下述内容：

在抽取依存三元组特征的子步骤S220中包括下述内容：

根据依存关系三元组索引表，将依存关系三元组特征向量中的对应位置置1，其中，根据是否包含客服业务的关键词，由训练语料中的依存关系三元组生成对应的索引表，其中，可以将包含客服业务关键词的依存关系（例如发起词、接收词以及关系类型）集合作为依存三元组特征。

在抽取WE分布式特征的子步骤S230中包括下述内容：

将去除了所述词集合中的停用词的词集合进行词向量检索匹配，其中，词向量匹配使用到深度学习模型（例如，word2vec或GloVe）训练得到的词向量文件；以及

将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算，生成三个新的特征向量作为WE（Word Embedding，词向量）分布式特征。

接着，在分类步骤S300中包括下述内容：

将通过所述多维度特征选择步骤S200得到的多个层面向量化用户对话词集合的结果进行拼接的步骤S310；

将拼接后的特征向量作为规定分类系统例如神经网络分类器的输入的步骤S320；以及

根据分类系统的输出概率，将其中最大项对应的用户对话意图，作为用户对话文本的分类标签，得到用户对话分类概率。

作为变换方式，规定分类系统除了神经网络之外，例如也可以是支持向量机、逻辑回归等分类算法。

接着，对于本发明的文本分类方法的变形例进行说明。

在上述实施方式的文本分类方式中，上述自然语言处理方法使用LTP工具实现，可替换为其他自然语言处理的工具。进一步，在多维度特征选择步骤中使用word2vec训练得到的词向量实现，可替换为GloVe等其他工具实现。进一步，在分类步骤中使用的神经网络分类器，可替换为其他分类模型。

接着对于本发明的文本分类方法的一变形例进行说明。

该变形例的文本分类方法包括下述步骤：

一、NLP预处理步骤，其包括：

（1）将用户对话文字以词为单位进行分词和词性标注，以句为单位进行依存句法分析，其中，分词、词性标注、依存句法分析属于自然语言处理方法范畴，可以使用诸如LTP、Stanford Parser等工具包实现，属于可替换技术方案；

（2）去除（1）中得到的词集合中的停用词，其中，去除停用词是自然语言处理方法中的一种技术，可选择诸如词频、词性等策略进行去除停用词操作，属于可替换技术方案。

二、多维度特征选择步骤，其包括：

（1）根据NLP预处理步骤得到的词序列，抽取Unigram、Bigram和Trigram集合，作为n-gram离散特征；以及

（2）根据NLP预处理步骤得到的依存句法分析结果，将包含客服业务关键词的依存关系 (发起词，接收词，关系类型)集合，作为依存三元组特征；

（3）使用深度学习方法训练词向量，并将步骤一词序列中各词对应向量的每一维度进行最大值Max、最小值Min、平均值Avg计算，生成三个新的特征向量，作为WE分布式特征，其中，训练词向量的方法，可以使用诸如Wordvec、GloVe等工具包实现；

三、分类步骤（该步骤可以省略，属于补充实施例），其包括：

（1）将多维度特征选择步骤中的三部分特征向量进行拼接；

（2）将拼接后的特征向量作为神经网络分类器的输入，其中，特征向量可以作为诸如神经网络、支持向量机、逻辑回归等分类器的输入，属于可替换技术方案；

（3）根据分类器的输出概率，将其中最大项作为用户对话文本的分类标签。

以上对于本发明的文本分类方法进行了说明。接着，对于本发明的文本分类装置进行说明。

图3是本发明的文本分类装置的构造示意图。

如图3所示，本发明的文本分类装置具备：

NLP预处理装置100，对用户对话文字进行自然语言处理方法的分析，得到关于该用户对话文字的词集合和语义标注结果；以及

多维度特征选择装置200，对于所述词集合和语义标注结果按照多种规则组合，得到用户对话文字所包含的语义信息的向量化表征形式；以及

分类模块300，对于从所述多维度特征选择装置得到的用户对话分类计算的概率估计值。

其中，NLP预处理装置100包括：

词集合和语义标注结果获取子模块110，将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果，其中，所述自然语言处理方法使用LTP工具包实现；以及

停用词去除子模块120，根据停用词词表，去除所述词集合中的停用词，其中，所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。

其中，多维度特征选择装置200具备：

用于抽取n-gram离散特征的n-gram离散特征子模块210；

用于抽取依存三元组特征的依存三元组特征子模块220；以及

用户抽取WE分布式特征的WE分布式特征子模块230。

具体地，n-gram离散特征子模块210将从所述NLP预处理装置100获得的用户对话词集合中抽取Unigram、Bigram和Trigram集合，其中，gram指代单词，Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形，并且，根据各gram索引表，将n-gram离散特征向量中的对应位置置1，其中，根据训练语料中的n-gram统计结果，将出现次数高的gram添加到gram索引表中。

再者，抽取依存三元组特征的三元组特征子模块220将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析，其中，依存句法分析使用LTP工具包实现，并且，根据依存关系三元组索引表，将依存关系三元组特征向量中的对应位置置1，其中，根据是否包含客服业务的关键词，由训练语料中的依存关系三元组生成对应的索引表。

再者，WE分布式特征子模块230将去除了所述词集合中的停用词的词集合进行词向量检索匹配，其中，词向量匹配使用到word2vec或GloVe深度学习模型训练得到的词向量文件，并且将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算，生成三个新的特征向量。

分类模块300包括：

拼接子模块310，将通过所述多维度特征选择装置200得到的向量化的用户对话文字所包含的语义信息进行拼接；以及

分类系统320，将拼接后的特征向量作为输入并且根据输出概率将其中最大项对应的用户对话意图作为用户对话文本的分类标签。

根据本发明的文本分类方法以及文本分类系统，能够整合统计和深度学习方法的优势，通过多维度特征选择实现面向客户需求的文本分类解决方案。而且，本发明的文本分类方法以及文本分类系统，领域适应性佳，再者，由于利用特征选择的方法，得以在小规模训练数据上进行学习。

以上例子主要说明了本发明的文本分类方法以及文本分类系统。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种文本分类方法，其特征在于，包括下述步骤：

2.如权利要求1所述文本分类方法，其特征在于，

所述NLP预处理步骤包括下述子步骤：

3.如权利要求2所述文本分类方法，其特征在于，

所述多维度特征选择步骤包括下述子步骤：

抽取n-gram离散特征的子步骤；

抽取依存三元组特征的子步骤；以及

抽取WE分布式特征的子步骤。

4.如权利要求3所述文本分类方法，其特征在于，

所述抽取n-gram离散特征的子步骤包括：

5.如权利要求3所述文本分类方法，其特征在于，

所述抽取依存三元组特征的子步骤包括：

6.如权利要求3所述文本分类方法，其特征在于，

所述抽取WE分布式特征的子步骤包括：

将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算，生成三个新的特征向量。

7.如权利要求1~6任意一项所述文本分类方法，其特征在于，在所述多维度特征选择步骤之后，进一步具备：

8.如权利要求7所述文本分类方法，其特征在于，

所述分类步骤包括：

将拼接后的特征向量作为规定分类系统的输入；以及

9.如权利要求7所述文本分类方法，其特征在于，

所述规定分类系统包括：神经网络、支持向量机、逻辑回归分类系统等中的一种。

10.一种文本分类装置，其特征在于，具备：

NLP预处理装置，对用户对话文字进行自然语言处理方法的分析，得到关于该用户对话文字的词集合和语义标注结果；以及

多维度特征选择装置，对于所述词集合和语义标注结果按照多种规则组合，得到用户对话文字所包含的语义信息的向量化表征形式。

11.如权利要求10所述文本分类装置，其特征在于，

所述NLP预处理装置包括：

12.如权利要求11所述文本分类系统，其特征在于，

所述多维度特征选择装置具备：

用于抽取n-gram离散特征的n-gram离散特征子模块；

用于抽取依存三元组特征的依存三元组特征子模块；以及

用户抽取WE分布式特征的WE分布式特征子模块。

13.如权利要求12所述文本分类系统，其特征在于，

所述n-gram离散特征子模块将从所述NLP预处理装置获得的用户对话词集合中抽取Unigram、Bigram和Trigram集合，其中，gram指代单词，Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形，并且，根据n-gram索引表，将n-gram离散特征向量中的对应位置置1，其中，根据训练语料中的n-gram统计结果，将出现次数高的gram添加到gram索引表中。

14.如权利要求13所述文本分类系统，其特征在于，

所述抽取依存三元组特征的三元组特征子模块将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析，其中，依存句法分析使用LTP工具包实现，并且，根据依存关系三元组索引表，将依存关系三元组特征向量中的对应位置置1，其中，根据是否包含客服业务的关键词，由训练语料中的依存关系三元组生成对应的索引表。

15.如权利要求3所述文本分类方法，其特征在于，

所述WE分布式特征子模块将去除了所述词集合中的停用词的词集合进行词向量检索匹配，其中，词向量匹配使用到word2vec或GloVe深度学习模型训练得到的词向量文件，并且将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算，生成三个新的特征向量。

16.如权利要求10~15任意一项所述文本分类系统，其特征在于，进一步具备：

17.如权利要求16所述文本分类系统，其特征在于，

所述分类模块包括：

18.如权利要求17所述文本分类系统，其特征在于，

所述规定分类系统为神经网络、支持向量机、逻辑回归分类系统等中的一种。