CN110580288A

CN110580288A - 基于人工智能的文本分类方法和装置

Info

Publication number: CN110580288A
Application number: CN201910782674.4A
Authority: CN
Inventors: 吕孟轩; 唐亚腾; 钟滨; 徐进; 王志平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-12-17
Anticipated expiration: 2039-08-23
Also published as: CN110580288B

Abstract

本申请实施例公开了一种基于人工智能的文本分类方法和装置，该文本分类方法包括：获取待分类文本；将待分类文本转化为第一词向量序列；将待分类文本转化为字向量序列；基于字向量序列和第一词向量序列进行文本分类，得到待分类文本的分类结果。本申请根据待分类文本的字向量序列和第一词向量序列对待分类文本进行分类，进行文本分类时即考虑了字维度的信息也考虑了词维度的信息，提高了文本分类的准确率和召回率。

Description

基于人工智能的文本分类方法和装置

技术领域

本申请涉及自然语言处理和及机器学习技术领域，具体涉及一种基于人工智能的文本分类方法和装置。

背景技术

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

针对中文文本而言，字是构成词的独立基本单元，从构成词的字中可以推断出词的语义信息。然而，目前针对中文文本分类的方法通常是将词向量或者字向量作为构成文本特征的基本单元，字向量丢失了中文词语的信息，词向量没有字维度上的信息，因此，造成了文本分类的准确率和召回率不高。

也就是说，现有技术中，文本分类的准确率和召回率不高。

发明内容

本申请实施例提供一种基于人工智能的文本分类方法和装置，能够提高文本分类的准确率和召回率。

一方面，本申请提供一种基于人工智能的文本分类方法，所述文本分类方法包括：

获取待分类文本；

将所述待分类文本转化为第一词向量序列；

将所述待分类文本转化为字向量序列；

基于所述字向量序列和所述第一词向量序列进行文本分类，得到所述待分类文本的分类结果。

其中，所述将所述待分类文本转化为第一词向量序列，包括：

对所述待分类文本进行词切割，得到第一词集合；

对所述第一词集合进行向量化处理，得到所述第一词向量序列。

其中，所述将所述待分类文本转化为字向量序列，包括：

在所述第一词集合中相邻的两个词之间插入词间隔符，得到第二词集合；

对所述第二词集合中的词进行字切割，得到字集合；

对所述字集合进行向量化处理，得到所述字向量序列。

其中，所述对所述字集合进行向量化处理，得到所述字向量序列，包括：

获取字向量矩阵；

基于所述字向量矩阵对所述字集合进行向量化处理，得到字向量序列。

其中，所述基于所述字向量序列和所述第一词向量序列进行文本分类，得到所述待分类文本的分类结果，包括：

将所述字向量序列正向输入循环神经网络模型，得到前向隐向量序列；

将所述字向量序列倒向输入循环神经网络模型，得到倒向隐向量序列；

对前向隐向量序列和倒向隐向量序列进行拼接，得到第二词向量序列；

基于所述第一词向量序列和所述第二词向量序列对所述待分类文本进行文本分类，得到所述待分类文本的分类结果。

其中，基于所述第一词向量序列和所述第二词向量序列对所述待分类文本进行文本分类，得到所述待分类文本的分类结果，包括：

将所述第一词向量序列和所述第二词向量序列拼接，得到第三词向量序列；

基于所述第三词向量序列进行文本分类，得到所述待分类文本的分类结果。

其中，基于所述第三词向量序列对所述待分类文本进行文本分类，得到所述待分类文本的分类结果，包括：

将所述第三词向量序列输入预设文本分类模型；

根据所述预设文本分类模型对所述第三词向量序列进行文本分类，得到所述待分类文本的分类结果。

其中，所述预设文本分类模型为卷积神经网络模型和循环神经网络模型中的任意一种。

一方面，本申请提供一种基于人工智能的文本分类装置，所述文本分类装置包括：

获取模块，用于获取待分类文本；

第一向量转化模块，用于将所述待分类文本转化为第一词向量序列；

第二向量转化模块，用于将所述待分类文本转化为字向量序列；

文本分类模块，用于基于所述字向量序列和所述第一词向量序列进行文本分类，得到所述待分类文本的分类结果。

其中，所述第一向量转化模块，还用于对所述待分类文本进行词切割，得到第一词集合；

其中，所述第二向量转化模块，还用于在所述第一词集合中相邻的两个词之间插入词间隔符，得到第二词集合；

对所述第二词集合中的词进行字切割，得到字集合；

对所述字集合进行向量化处理，得到所述字向量序列。

其中，所述第二向量转化模块，还用于获取字向量矩阵；

其中，所述文本分类模块，还用于将所述字向量序列正向输入循环神经网络模型，得到前向隐向量序列；

其中，所述文本分类模块，还用于将所述第一词向量序列和所述第二词向量序列拼接，得到第三词向量序列；

其中，所述文本分类模块，还用于将所述第三词向量序列输入预设文本分类模型；

一方面，本申请提供一种基于人工智能的文本分类装置，包括存储器和处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以上任一项的文本分类方法：

本申请实施例提供一种基于人工智能的文本分类方法，该文本分类方法包括：获取待分类文本；将待分类文本转化为第一词向量序列；将待分类文本转化为字向量序列；基于字向量序列和第一词向量序列进行文本分类，得到待分类文本的分类结果。本申请根据待分类文本的字向量序列和第一词向量序列对待分类文本进行分类，进行文本分类时即考虑了字维度的信息也考虑了词维度的信息，提高了文本分类的准确率和召回率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中提供的基于人工智能的文本分类方法的一个实施例流程示意图；

图2是本申请实施例提供的基于人工智能的文本分类方法的另一个实施例流程示意图；

图3是图2基于人工智能的文本分类方法中标题转化为低俗分数的结构示意图；

图4是本申请实施例提供的预设文本分类模型的训练方法的一个实施例流程示意图；

图5是本申请实施例提供的基于人工智能的文本分类装置的一个实施例结构示意图；

图6是本申请实施例提供的基于人工智能的文本分类装置的另一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有说明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“模块”或“单元”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术，具体通过如下实施例进行说明：

本申请提供一种基于人工智能的文本分类方法，该文本分类方法包括：获取待分类文本；将待分类文本转化为第一词向量序列；将待分类文本转化为字向量序列；基于字向量序列和第一词向量序列进行文本分类，得到待分类文本的分类结果。

请参阅图1，图1是本申请实施例中提供的基于人工智能的文本分类方法的一个实施例流程示意图，该基于人工智能的文本分类方法包括：

S11、获取待分类文本。

在本申请的一些实施例中，待分类文本可以预设语料库的文章标题。例如，预设语料库可以是微信公众号的文章集合。从预设语料库中提取文章标题，从而获取待分类文本。

S12、将待分类文本转化为第一词向量序列。

在本申请的一些实施例中，将待分类文本转化为第一词向量序列，可以包括以下步骤：

(1)对待分类文本进行词切割，得到第一词集合。

本申请实施例中，通过分词工具对待分类文本进行词切割，得到第一词集合。分词工具可以是jieba、THULAC、SnowNLP、pynlpir、CoreNLP以及pyLTP等分词工具，本申请对此不作限定。例如，jieba分词工具支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来,速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。根据具体情况选用具体的分词模式，本申请对此不作限定。

具体的，例如，待分类文本为“我吃晚饭了”，对待分类文本进行词切割，得到第一词集合为：“我”“吃”“晚饭”“了”，共4个词。

(2)对第一词集合进行向量化处理，得到第一词向量序列。

本申请实施例中，将第一词集合输入词向量转化模型，基于词向量转化模型得到第一词向量序列。词向量转化模型可以是word2vec模型、CBOW模型、glove模型以及kip-gram模型中的一种或多种组合。词向量是深度学习中的一种词语的分布式表示，将词语表示成一个定长连续的稠密向量。

word2vec模型，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

CBOW(连续词袋模型，Continuous Bag-of-Words Model)是个在自然语言处理和信息检索下被简化的表达模型。

Skip-gram模型是一个简单但却非常实用的模型。在自然语言处理中，语料的选取是一个相当重要的问题:第一，语料必须充分。一方面词典的词量要足够大，另一方面要尽可能多地包含反映词语之间关系的句子，例如，只有“鱼在水中游”这种句式在语料中尽可能地多，模型才能够学习到该句中的语义和语法关系，这和人类学习自然语言一个道理，重复的次数多了，也就会模仿了；第二，语料必须准确。也就是说所选取的语料能够正确反映该语言的语义和语法关系，这一点似乎不难做到，例如中文里，《人民日报》的语料比较准确。但是，更多的时候，并不是语料的选取引发了对准确性问题的担忧，而是处理的方法。n元模型中，因为窗口大小的限制，导致超出窗口范围的词语与当前词之间的关系不能被正确地反映到模型之中，如果单纯扩大窗口大小又会增加训练的复杂度。Skip-gram模型的提出很好地解决了这些问题。顾名思义，Skip-gram就是“跳过某些符号”，例如，句子“中国足球踢得真是太烂了”有4个3元词组，分别是“中国足球踢得”、“足球踢得真是”、“踢得真是太烂”、“真是太烂了”，可是我们发现，这个句子的本意就是“中国足球太烂”可是上述4个3元词组并不能反映出这个信息。Skip-gram模型却允许某些词被跳过，因此可以组成“中国足球太烂”这个3元词组。如果允许跳过2个词，即2-Skip-gram。

优选的，通过word2vec模型对第一词集合进行向量化处理，得到第一词向量序列。其中，word2vec模型为使用语料训练过的word2vec模型。例如，word2vec模型可以为经过微信公众号文章标题语料训练过的word2vec模型。

具体的，例如，通过word2vec模型对第一词集合进行向量化处理，得到第一词向量序列为：{“Emb1(我)”“Emb1(吃)”“Emb1(晚饭)”“Emb1(了)”}。其中，“Emb1(我)”为“我”的词向量，“Emb1(吃)”为“吃”的词向量，“Emb1(晚饭)”为“晚饭”的词向量，“Emb1(了)”为“了”的词向量。

S13、将待分类文本转化为字向量序列。

在一个具体的实施例中，将待分类文本转化为字向量序列，可以包括以下步骤：

(1)在第一词集合中相邻的两个词之间插入词间隔符，得到第二词集合。

具体的，在S12中，已经对待分类文本进行词切割，得到了第一词集合。因此这里可以直接获取第一词集合，在第一词集合中相邻的两个词之间插入词间隔符，得到第二词集合。例如，第一词集合为：“我”“吃”“晚饭”“了”，共4个词。在第一次词集合之间加入词间隔符[sep]，得到第二词集合为：[sep1]“我”[sep2]“吃”[sep3]“晚饭”[sep4]“了”[sep5]。

(2)对第二词集合中的词进行字切割，得到字集合。

具体的，对第二词集合中的词进行字切割，得到字集合。例如，将第二词集合进行字切割，得到字集合：[sep1]“我”[sep2]“吃”[sep3]“晚”“饭”[sep4]“了”[sep5]。

(3)对字集合进行向量化处理，得到字向量序列。

在本申请的一些实施例中，获取字向量矩阵，基于字向量矩阵对字集合进行向量化处理，得到字向量序列。字向量是深度学习中的一种字符的分布式表示，将字符表示成一个定长连续的稠密向量。

具体的，加载Bert模型，从Bert模型中提取字向量矩阵。Bert(BidirectionalEncoder Representations from Transformers)模型是谷歌2018年发布的一种全称的语言模型，通过联合调节所有层中的双向转换器来训练预训练深度双向表示。Bert融合了众多自然语言处理模型的优点，在多达11项的自然语言处理任务中取得了最优的效果。并且Bert模型中的字向量矩阵为在大规模中文语料(包括维基百科等语料)上训练得到的，包含泛化性更好的中文信息以及字维度上的信息，从而能够提高本申请文本分类的泛化性。在其他实施例中，字向量矩阵也可以通过word2vec模型和CBOW模型等预训练模型训练得到，本申请对此不作限定。

由于，Bert模型训练代价太大，并且模型极为复杂庞大，上线要求极高，对线上服务器的压力巨大。因此，如果单纯的在Bert中文预训练模型的基础上进行微调，得到标题低俗二分类Bert模型，会增加文本分类成本，降低文本分类效率。因此，本申请仅提取Bert模型的字向量矩阵用于文本分类，能够在提高文本分类的准确性和泛化性的同时，不增加文本分类成本。

具体的，通过Char2Vec基于字向量矩阵对字集合进行向量化处理，得到字向量序列。Char2Vec运行于字符集，对拼写错误更加宽容。例如，对字集合进行向量化处理后，得到的字向量序列为：{“Emb[sep1]”“Emb(我)”“Emb[sep2]”“Emb[吃]”“Emb[sep3]”“Emb(晚)”“Emb(饭)”“Emb[sep4]”“Emb(了)”“Emb[sep5]”}。需要说明的是，[sep1]，[sep2]，[sep3]，[sep4]，[sep5]的初始化是相同的，sep之后的标号仅代表其位置。

S14、基于字向量序列和第一词向量序列进行文本分类，得到待分类文本的分类结果。

本申请实施例中，基于字向量序列和第一词向量序列进行文本分类，得到待分类文本的分类结果，可以包括以下步骤：

(1)将字向量序列正向输入循环神经网络模型，得到前向隐向量序列。

具体的，循环神经网络模型可以为长短期记忆模型。循环神经网络(RNN，Recurrent Neural Network)是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的手写识别、语音识别等。长短期记忆模型(LSTM，Long Short-Term Memory)是RNN(Recurrent Neural Network)的一种。长短期记忆模型由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。长短期记忆模型是一种具有链状结构的特殊的循环神经网络，和普通的循环神经网络相比，长短期记忆模型的重复循环模块具有不同的结构，主要有四层神经网络组成，网络层之间的交互是复杂的。长短期记忆模型的核心是由每个传输单元的状态决定。长短期记忆模型的另一个优势就是可以对单元状态中信息的传输进行控制，并通过门限结构管理信息，门限的作用就是对信息进行选择，使其有选择性地通过。阈值的组成主要有sigmoid神经网络层和逐点乘法组成。输出表示信息传递的选择程度，0表示不允许任何信息通过，1表示都可以通过。LSTM一共有三个门限，分别为：输入门、遗忘门和输出门。通过这三种门限结构对单元状态进行控制和保护。

本申请实施例中，将字向量序列正向输入长短期记忆模型，得到前向隐向量序列。例如，将字向量序列正向输入长短期记忆模型，得到前向隐向量序列为：{hL1，hL2，hL3，hL4}。

(2)将字向量序列倒向输入循环神经网络模型，得到倒向隐向量序列。

本申请实施例中，将字向量序列倒向输入长短期记忆模型，得到倒向隐向量序列。例如，将字向量序列倒向输入长短期记忆模型，得到倒向隐向量序列为:{hR1，hR2，hR3，hR4}。

(3)对前向隐向量序列和倒向隐向量序列进行拼接，得到第二词向量序列。

本申请实施例中，对前向隐向量序列和倒向隐向量序列进行拼接，得到第二词向量序列。在其他实施例中，也可以将前向隐向量序列和倒向隐向量序列进行加和处理，本申请对此不作限定。例如，得到第二词向量序列为{“Emb2(我)”“Emb2[吃]”“Emb2(晚饭)”“Emb2(了)”}。具体的，当对前向隐向量序列和倒向隐向量序列进行拼接处理时，{“Emb2(我)”“Emb2[吃]”“Emb2(晚饭)”“Emb2(了)”}分别为{[hL1；hR1]，[hL2；hR2]，[hL3；hR3]，[hL4；hR4]}；当对前向隐向量序列和倒向隐向量序列进行加和处理时，{“Emb2(我)”“Emb2[吃]”“Emb2(晚饭)”“Emb2(了)”}分别为{[hL1+hR1]，[hL2+hR2]，[hL3+hR3]，[hL4+hR4]}。也即第二词向量既包含了前后语料的信息，又蕴含了字符信息，从而能够提高文本分类的准确率和召回率。

并且，由于前向隐向量序列和倒向隐向量序列均是通过循环神经网络模型得到的，得到的第二词向量序列为非静态词向量，能够解决一次多义的问题。

在其他实施例中，也可以通过字符级卷积神经网络(Char-cnn，Character-levelConvolutional Networks for Text Classification)将字向量序列转化为第二词向量序列，本申请对此不作限定。

(4)基于第一词向量序列和第二词向量序列对待分类文本进行文本分类，得到待分类文本的分类结果。

在本申请的一些实施例中，将第一词向量序列和第二词向量序列拼接，得到第三词向量序列。基于第三词向量序列进行文本分类，得到待分类文本的分类结果。例如，将第一词向量序列和第二词向量序列拼接，得到第三词向量序列为：{“Emb1(我)；Emb2(我)”，“Emb1(吃)；Emb2(吃)”，“Emb1(晚饭)；Emb2(晚饭)”，“Emb1(了)；Emb2(了)”}。在其他实施例中，也可以将第一词向量和第二词向量进行加和处理，得到第三词向量，本申请对此不作限定。第一词向量序列和第二词向量序列拼接，得到的得到第三词向量，即本方案没有简单的将字向量通过池化操作然后与词向量相结合，而是通过将字向量转换为词向量，并与原始词向量拼接。每个词语的向量表达既包含了前后语料的信息，又蕴含了分词信息和字符信息，从而能够提高文本分类的准确率和召回率。

在本申请的一些实施例中，将第一词向量序列和第二词向量序列拼接，得到第三词向量序列，将第三词向量序列输入预设文本分类模型，根据预设文本分类模型对第三词向量序列进行文本分类，得到待分类文本的分类结果。其中，预设文本分类模型可以为卷积神经网络模型和循环神经网络模型中的任意一种。优选的，预设文本分类模型可以是textcnn模型。在其他实施例中，预设文本分类模型也可以为注意力模型。

textcnn模型为一种将卷积神经网络CNN应用到文本分类的算法模型。textcnn模型由四部分构成：输入层、卷积层、池化层、全连接层。

输入层：也即词嵌入层，通过textcnn模型的输入层将第三词向量输入卷积层。

卷积层：主要用于对输入的特征数据进行特征提取(即将应用数据映射到隐层特征空间)，其中，卷积核大小可以根据实际应用而定，比如(3，3)，可选的，为了降低计算的复杂度，提高计算效率，卷积层的卷积核大小也可以都设置为(3，3)。可选的，为了提高模型的表达能力，还可以通过加入激活函数来加入非线性因素，在本申请实施例中，该激活函数均为“relu(线性整流函数，Rectified Linear Unit)”。

池化层：与卷积层交替设置，具体的，即在第一个卷积层之后和第二个卷积层之后分别设置池化层，池化层用于进行下采样(pooling)操作，该下采样操作与卷积的操作基本相同，只不过下采样的卷积核为只取对应位置的最大值(max pooling)或平均值(meanpooling)等。

全连接层：可以将学到的“分布式特征表示”映射到样本标记空间，其在整个卷积神经网络中主要起到“分类器”的作用，全连接层的每一个结点都与上一层输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定，比如，在该卷积神经网络模型中，全连接层的神经元数量可以设置为512个，或者，也可以设置为128个等等。与卷积层类似，可选的，在全连接层中，也可以通过加入激活函数来加入非线性因素，比如，可以加入激活函数sigmoid(S型函数)。

本申请实施例中，textcnn模型中可以设置有一个或多个全连接层，每个全连接层的神经元数量可以设置为不同数量，具体可以根据实际应用需要进行设置，例如第一个全连接层的神经元数量可以设置为1024个，第二个全连接层神经元可以设置为512个。

本申请实施例中，通过textcnn模型的输入层将第三词向量输入卷积层，通过多个卷积层对第三词向量进行卷积运算，得到多个局部信息，将多个局部信息输入值池化层进行数据压缩。池化层在将多个局部信息进行数据压缩后输入至全连接层。全连接层对输入的多个局部信息整合得到整体信息并进行文本分类。

具体的，全连接层可以采用softmax逻辑回归模型进行文本分类。softmax逻辑回归模型能将一个含任意实数的K维的向量“压缩”到另一个K维实向量中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。这样正样本的结果将趋近于1，而负样本的结果趋近于0。这样为多类别分类提供了方便。例如，本次文本分类的类型是低俗信息与非低俗信息两类，通过softmax逻辑回归模型计算属于低俗信息的概率值并输出。在其他实施例中，也可以通过其他分类器对待分类文本进行分类，本申请对此不作限定。

在本申请的一些实施例中，将第三词向量序列输入预设文本分类模型，获取预设文本分类模型的输出值，根据预设文本分类模型的输出值确定待分类文本的标签。若预设文本分类模型的输出值大于预设值，则将待分类文本的标签确定为低俗标签；若预设文本分类模型的输出值大于预设值，则将待分类文本的标签确定为非低俗标签。预设值可以为0.4，0.5等数值，本申请对此不作限定。

区别于现有技术，本申请实施例提供一种基于人工智能的文本分类方法，该文本分类方法包括：获取待分类文本；将待分类文本转化为第一词向量序列；将待分类文本转化为字向量序列；基于字向量序列和第一词向量序列进行文本分类，得到待分类文本的分类结果。本申请根据待分类文本的字向量序列和第一词向量序列对待分类文本进行分类，进行文本分类时即考虑了字维度的信息也考虑了词维度的信息，提高了文本分类的准确率和召回率。

下面结合一具体应用场景对本申请实施例中基于人工智能的文本分类方法进行描述。

请参阅图2和图3，图2是本申请实施例提供的基于人工智能的文本分类方法的另一个实施例流程示意图，图3是图2基于人工智能的文本分类方法中标题转化为低俗分数的结构示意图。该文本分类方法流程可以包括：

S201：获取标题。

本申请实施例中，获取预设语料库中文章的标题。例如，获取微信公众号中文章的标题。以文章的标题为“我吃晚饭了”进行说明。

S202：对标题进行词切割，得到第一词集合。

本申请实施例中，通过jieba、THULAC、SnowNLP、pynlpir、CoreNLP以及pyLTP等分词工具对标题进行词切割，得到第一词集合。例如，对“我吃晚饭了”进行词切割，得到第一词集合为：“我”“吃”“晚饭”“了”，共4个词。

S211：通过word2vec模型对第一词集合进行向量化处理，得到第一词向量序列。

本申请实施例中，通过word2vec模型对第一词集合进行向量化处理，得到第一词向量序列为：{“Emb1(我)”“Emb1(吃)”“Emb1(晚饭)”“Emb1(了)”}。其中，“Emb1(我)”为“我”的词向量，“Emb1(吃)”为“吃”的词向量，“Emb1(晚饭)”为“晚饭”的词向量，“Emb1(了)”为“了”的词向量。

S221、在第一词集合中相邻的两个词之间插入词间隔符，得到第二词集合。

具体的，在S202中，已经对待分类文本进行词切割，得到了第一词集合。因此这里可以直接获取第一词集合，在第一词集合中相邻的两个词之间插入词间隔符，得到第二词集合。例如，第一词集合为：“我”“吃”“晚饭”“了”，共4个词。在第一次词集合之间加入词间隔符[sep]、得到第二词集合为：[sep1]“我”[sep2]“吃”[sep3]“晚饭”[sep4]“了”[sep5]。

S222、对第二词集合中的词进行字切割，得到字集合。

具体的，对第二词集合中的词进行字切割，得到字集合。例如，在得到第二词集合后，将第二词集合进行字切割，得到字集合：[sep1]“我”[sep2]“吃”[sep3]“晚”“饭”[sep4]“了”[sep5]。

S203、获取Bert模型的字向量矩阵。

具体的，加载Bert模型，从Bert模型中提取字向量矩阵。Bert(BidirectionalEncoder Representations from Transformers)模型是谷歌2018年发布的一种全称的语言模型，通过联合调节所有层中的双向转换器来训练预训练深度双向表示。Bert融合了众多自然语言处理模型的优点，在多达11项的自然语言处理任务中取得了最优的效果。并且Bert模型中的字向量举证为在大规模中文语料(包括维基百科等语料)上训练得到的，包含泛化性更好的中文信息以及字维度上的信息，从而能够提高本申请文本分类的泛化性。

S223、通过Char2Vec模型基于字向量矩阵对字集合进行向量化处理，得到字向量序列。

具体的，在S222中得到字集合，在S203中得到字向量矩阵后，通过Char2Vec模型基于字向量矩阵对字集合进行向量化处理，得到字向量序列。例如，通过Char2Vec模型基于字向量矩阵对字集合进行向量化处理后，得到的字向量序列为：{“Emb[sep1]”“Emb(我)”“Emb[sep2]”“Emb[吃]”“Emb[sep3]”“Emb(晚)”“Emb(饭)”“Emb[sep4]”“Emb(了)”“Emb[sep5]”}。

S224、将字向量序列正向输入长短期记忆模型，得到前向隐向量序列。

具体的，将字向量序列正向输入长短期记忆模型，得到前向隐向量序列。例如，将字向量序列正向输入循环神经网络模型，得到前向隐向量序列为：{hL1，hL2，hL3，hL4}。具体的，hL1为词分隔符[sep2]的隐向量，hL2为词分隔符[sep3]的隐向量，hL3为词分隔符[sep4]的隐向量，hL4为词分隔符[sep5]的隐向量。

S225、将字向量序列倒向输入长短期记忆模型，得到倒向隐向量序列。

具体的，将字向量序列倒向输入长短期记忆模型，得到倒向隐向量序列。其中，例如，将字向量序列倒向输入循环神经网络模型，得到倒向隐向量序列为:{hR1，hR2，hR3，hR4}。具体的，hR1为词分隔符[sep1]的隐向量，hR2为词分隔符[sep2]的隐向量，hR3为词分隔符[sep3]的隐向量，hR4为词分隔符[sep4]的隐向量。

S226、对前向隐向量序列和倒向隐向量序列进行拼接，得到第二词向量序列。

本申请实施例中，对前向隐向量序列和倒向隐向量序列进行拼接，得到第二词向量序列。在其他实施例中，也可以将前向隐向量序列和倒向隐向量序列进行加和处理，本申请对此不作限定。例如，对前向隐向量序列和倒向隐向量序列进行拼接，得到第二词向量序列为{“Emb2(我)”“Emb2[吃]”“Emb2(晚饭)”“Emb2(了)”}。具体的，当对前向隐向量序列和倒向隐向量序列进行拼接处理时，{“Emb2(我)”“Emb2[吃]”“Emb2(晚饭)”“Emb2(了)”}分别为{[hL1；hR1]，[hL2；hR2]，[hL3；hR3]，[hL4；hR4]}。通过向量拼接将顺序长短期记忆模型和倒序长短期记忆模型相对应的两个词间隔符的隐向量组合成中间词语的词向量，进而形成第二词向量序列。也即第二词向量序列既包含了前后语料的信息，又蕴含了字符信息，从而能够提高文本分类的准确率和召回率。

S231、将第一词向量序列和第二词向量序列拼接，得到第三词向量序列。

具体的，在S211得到第一词向量序列，在S226得到了第二词向量序列，将第一词向量序列和第二词向量序列拼接，得到第三词向量序列为：{“Emb1(我)；Emb2(我)”“Emb1(吃)；Emb2(吃)”“Emb1(晚饭)；Emb2(晚饭)”，“Emb1(了)；Emb2(了)”}。第一词向量序列和第二词向量序列拼接，得到的得到第三词向量，即本方案没有简单的将字向量通过池化操作然后与词向量相结合，而是通过将字向量转换为词向量，并与原始词向量拼接。每个词语的向量表达既包含了前后语料的信息，又蕴含了分词信息和字符信息，从而能够提高文本分类的准确率和召回率。

在一个具体的实施例中，通过如下公式(1)进行拼接，

其中，hw和hc分别代表词的字维度表示Emb2和词的词维度表示Emb1。t是由[emb1；emb2]两个向量拼接在一起经过一层全连接和sigmoid激活函数得到的一个系数，范围在(0-1)之间。以“我”为例，将Emb1(我)和Emb2(我)代入公式(1)，得到的z值即为第三词向量序列中“我”的词向量。

S232、将第三词向量序列输入textcnn模型。

其中，txctcnn为经过训练的textcnn训练过的模型。textcnn模型为一种将卷积神经网络CNN应用到文本分类的算法模型。textcnn模型由四部分构成：输入层、卷积层、池化层、全连接层。

输入层也即词嵌入层，通过textcnn模型的输入层将第三词向量输入卷积层。卷积层的数量可以为多个，通过多个卷积层对第三词向量进行卷积运算，得到多个局部信息，将多个局部信息输入值池化层进行数据压缩。池化层在将多个局部信息进行数据压缩后输入至全连接层。全连接层对输入的多个局部信息整合得到整体信息并进行文本分类。具体的，全连接层可以采用softmax逻辑回归进行文本分类。

例如，本次文本分类的类型是低俗信息与非低俗信息两类，通过softmax逻辑回归计算属于低俗信息的概率值并输出。

S233、根据textcnn模型的输出值确定标题的标签。

在本申请的一些实施例中，获取textcnn模型的输出值，根据textcnn模型的输出值确定标题的标签。若textcnn模型的输出值大于0.5，则将标题的标签确定为低俗标签；若textcnn模型的输出值不大于0.5，则将标题的标签确定为非低俗标签。例如，通过计算，将标题“我吃晚饭了”输入textcnn模型，获取textcnn模型的输出值为0.1，则将标题“我吃晚饭了”的标签确定为非低俗标签。

请参阅图4，图4是本申请实施例提供的预设文本分类模型的训练方法的一个实施例流程示意图。该预设文本分类模型的训练方法流程可以包括：

S301：获取标题和标题对应的标签。

本申请实施例中，获取预设语料库中文章的标题。例如，获取微信公众号中文章的标题。其中，标题对应的标签预先进行标注，可以是人工标注，也可以是机器标注。文本分类装置读取已经标注的标题以及标题对应的分类标签。具体的，标题的类型包括低俗和正常两类，则标题的标签分别用0和1标识低俗和正常。需要说明的是，在训练时，输入多个标题和多个标题对应的标签对进行训练。例如以文章的标题为“我吃晚饭了”进行说明。标题为“我吃晚饭了”对应的标签为1。

S302：对标题进行词切割，得到第一词集合。

S311：通过word2vec模型对第一词集合进行向量化处理，得到第一词向量序列。

S321、在第一词集合中相邻的两个词之间插入词间隔符，得到第二词集合。

S322、对第二词集合中的词进行字切割，得到字集合。

S303、获取Bert模型的字向量矩阵。

S323、通过Char2Vec模型基于字向量矩阵对字集合进行向量化处理，得到字向量序列。

S324、将字向量序列正向输入长短期记忆模型，得到前向隐向量序列。

S325、将字向量序列倒向输入长短期记忆模型，得到倒向隐向量序列。

S326、对前向隐向量序列和倒向隐向量序列进行拼接，得到第二词向量序列。

S331、将第一词向量序列和第二词向量序列拼接，得到第三词向量序列。

需要说明的是，本申请实施例中，S302、S311、S321、S322、S303、S323、S324、S325、S326以及S331的具体实施方式可参阅上一实施例中对应的S202、S211、S221、S222、S203、S223、S224、S225、S226以及S231，本申请对此不作赘述。

S332、将第三词向量序列输入textcnn模型进行训练，得到预设文本分类模型。

将第三词向量序列输入textcnn模型，获取textcnn模型的输出结果，根据textcnn模型的输出结果与标题对应的标签的偏差值，对textcnn模型的各权重参数进行更新迭代。当textcnn模型的输出结果与标题对应的标签的偏差值小于预设值时，将包括特定权重参数的textcnn模型确定为预设文本分类模型。

需要说明的是，在训练时，也可以将S324、S325、S326、S331并入textcnn模型作为一个整体模型进行训练，本申请对此不作限定。

S333、保存训练生成的预设文本分类模型。

在训练得到预设文本分类模型后，保存训练生成的预设文本分类模型，此时预设文本分类模型的权重参数固定，可以直接对新的标题进行分类。

参阅图5，图5是本申请实施例提供的基于人工智能的文本分类装置的一个实施例结构示意图，其中该文本分类装置可以包括获取模块401、第一向量转化模块402、第二向量转化模块403以及文本分类模块404，具体如下：

获取模块401，用于获取待分类文本；

第一向量转化模块402，用于将待分类文本转化为第一词向量序列；

第二向量转化模块403，用于将待分类文本转化为字向量序列；

文本分类模块404，用于基于字向量序列和第一词向量序列进行文本分类，得到待分类文本的分类结果。

其中，第一向量转化模块402，还用于对待分类文本进行词切割，得到第一词集合；

对第一词集合进行向量化处理，得到第一词向量序列。

其中，第二向量转化模块403，还用于在第一词集合中相邻的两个词之间插入词间隔符，得到第二词集合；

对第二词集合中的词进行字切割，得到字集合；

对字集合进行向量化处理，得到字向量序列。

其中，第二向量转化模块403，还用于获取字向量矩阵；

基于字向量矩阵对字集合进行向量化处理，得到字向量序列。

其中，文本分类模块404，还用于将字向量序列正向输入循环神经网络模型，得到前向隐向量序列；

将字向量序列倒向输入循环神经网络模型，得到倒向隐向量序列；

基于第一词向量序列和第二词向量序列对待分类文本进行文本分类，得到待分类文本的分类结果。

其中，文本分类模块404，还用于将第一词向量序列和第二词向量序列拼接，得到第三词向量序列；

基于第三词向量序列进行文本分类，得到待分类文本的分类结果。

其中，文本分类模块404，还用于将第三词向量序列输入预设文本分类模型；

根据预设文本分类模型对第三词向量序列进行文本分类，得到待分类文本的分类结果。

其中，预设文本分类模型为卷积神经网络模型和循环神经网络模型中的任意一种。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

本申请实施例还提供一种基于人工智能的文本分类装置，如图6所示，其示出了本申请实施例所涉及的文本分类装置的结构示意图，具体来讲：

该文本分类装置可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图6中示出的文本分类装置结构并不构成对文本分类装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该文本分类装置的控制中心，利用各种接口和线路连接整个文本分类装置的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行文本分类装置的各种功能和处理数据，从而对文本分类装置进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作存储介质、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作存储介质、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据文本分类装置的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

文本分类装置还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理存储介质与处理器501逻辑相连，从而通过电源管理存储介质实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电存储介质、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该文本分类装置还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，文本分类装置还可以包括显示单元等，在此不再赘述。具体在本实施例中，文本分类装置中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取待分类文本；将待分类文本转化为第一词向量序列；将待分类文本转化为字向量序列；基于字向量序列和第一词向量序列进行文本分类，得到待分类文本的分类结果。

区别于现有技术，本申请实施例获取待分类文本；将待分类文本转化为第一词向量序列；将待分类文本转化为字向量序列；基于字向量序列和第一词向量序列进行文本分类，得到待分类文本的分类结果。本申请根据待分类文本的字向量序列和第一词向量序列对待分类文本进行分类，进行文本分类时即考虑了字维度的信息也考虑了词维度的信息，提高了文本分类的准确率和召回率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种基于人工智能的文本分类方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种基于人工智能的文本分类方法中的步骤，因此，可以实现本申请实施例所提供的任一种基于人工智能的文本分类方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种基于人工智能的文本分类方法和装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于人工智能的文本分类方法，其特征在于，所述文本分类方法包括：

获取待分类文本；

将所述待分类文本转化为第一词向量序列；

将所述待分类文本转化为字向量序列；

2.根据权利要求1所述的文本分类方法，其特征在于，所述将所述待分类文本转化为第一词向量序列，包括：

对所述待分类文本进行词切割，得到第一词集合；

3.根据权利要求2所述的文本分类方法，其特征在于，所述将所述待分类文本转化为字向量序列，包括：

对所述第二词集合中的词进行字切割，得到字集合；

对所述字集合进行向量化处理，得到所述字向量序列。

4.根据权利要求3所述的文本分类方法，其特征在于，所述对所述字集合进行向量化处理，得到所述字向量序列，包括：

获取字向量矩阵；

5.根据权利要求1所述的文本分类方法，其特征在于，基于所述字向量序列和所述第一词向量序列进行文本分类，得到所述待分类文本的分类结果，包括：

6.根据权利要求5所述的文本分类方法，其特征在于，基于所述第一词向量序列和所述第二词向量序列对所述待分类文本进行文本分类，得到所述待分类文本的分类结果，包括：

7.根据权利要求6所述的文本分类方法，其特征在于，所述基于所述第三词向量序列对所述待分类文本进行文本分类，得到所述待分类文本的分类结果，包括：

将所述第三词向量序列输入预设文本分类模型；

8.根据权利要求7所述的文本分类方法，其特征在于，所述预设文本分类模型为卷积神经网络模型和循环神经网络模型中的任意一种。

9.一种基于人工智能的文本分类装置，其特征在于，所述文本分类装置包括：

获取模块，用于获取待分类文本；

10.一种基于人工智能的文本分类装置，其特征在于，包括存储器和处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至8任一项所述的文本分类方法。