CN110019788A - 文本分类方法及装置 - Google Patents

文本分类方法及装置 Download PDF

Info

Publication number
CN110019788A
CN110019788A CN201710918567.0A CN201710918567A CN110019788A CN 110019788 A CN110019788 A CN 110019788A CN 201710918567 A CN201710918567 A CN 201710918567A CN 110019788 A CN110019788 A CN 110019788A
Authority
CN
China
Prior art keywords
text
sentence
vector
word cutting
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710918567.0A
Other languages
English (en)
Inventor
王天祎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710918567.0A priority Critical patent/CN110019788A/zh
Publication of CN110019788A publication Critical patent/CN110019788A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法及装置,词向量模型和文本分类模型选用不同的语料库进行训练,既不需要人工提取特征表达,也可以表达文本丰富的语义,提高了文本分类精度。另外,基于注意力机制的文本分类模型能选择性地强化文本中的关键信息,弱化不必要信息,分类结果更加精准。

Description

文本分类方法及装置
技术领域
本发明涉及分类技术领域,更具体地说,涉及一种文本分类方法及装置。
背景技术
文本分类是文本分析领域最常见的需求点之一,比如,文本内容分类,文本情感分析等。文本分析的主要难点在于对原始文本的语义表达,尤其是对于篇章力度的长文本,由于篇幅较长,中间表达的语义情况多种多样,想要完整的捕获原文的类别信息,必须建立在对原文有充分的特征表达基础之上。
而现有的文本分类方法中,主要依赖于人工提取特征进行传统的机器学习分类算法。而人工提取特征主观性强,而且不能表达文本丰富的语义情况,分类结果的精确度较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本分类方法及装置。
借由上述技术方案,第一方面,本发明提供了一种文本分类方法,包括:
对待分类文本进行切词,得到切词序列;
通过预先训练好的词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵;
基于每个句子对应的二维矩阵,将所述待分类文本转化成三维矩阵;
将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别;
其中,所述文本分类模型通过对第二语料库进行切词,将切词通过所述述词向量模型转换为向量,根据转换得到的向量将第二语料库中的各个第二类文本转换为相同结构的三维矩阵,将三维矩阵作为基于注意力机制的多层神经网络模型的输入进行训练得到。
上述方法,优选的,所述基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵,包括:
若句子包含的切词数为预设值B,则由该句子包含的切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数大于所述预设值B,则取该句子的前B个切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数小于所述预设值B,则确定该句子相对于所述预设值B缺少的切词数D,将该句子包含的切词对应的向量以及D个预置向量构成该句子对应的二维矩阵。
上述方法,优选的,所述词向量模型将所述待分类文本中所有出现频率低于预置频率的词映射为同一向量。
上述方法,优选的,预先使用第一语料库中的第一类文本进行词向量训练,得到所述词向量模型。
上述方法,优选的,所述文本分类模型的训练过程包括:
对第二语料库中的各个第二类文本进行切词,得到所述第二类文本对应的切词序列;所述第二类文本带有类别标记;
通过所述词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
基于切词对应的向量,将所述第二类文本中的各个句子转化成相同结构的二维矩阵;
基于每个句子对应的二维矩阵,将各个第二类文本转化成相同结构的三维矩阵;
将所述三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行训练,得到文本分类模型。
上述方法,优选的,所述基于注意力机制的多层神经网络模型包括:基于注意力机制的两层神经网络模型。
上述方法,优选的,所述将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别,包括:
通过第一层次的神经网络对所述三维矩阵进行解析,获得句子层级的向量;
通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;
基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;
基于所述携带权重的文本的表达预测待分类文本的类别。
第二方面,本发明还提供了一种文本分类装置,包括:
切词模块,用于对待分类文本进行切词,得到切词序列;
映射模块,用于通过预先训练好的词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
第一转化模块,用于基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵;
第二转化模块,用于基于每个句子对应的二维矩阵,将所述待分类文本转化成三维矩阵;
分类模块,用于将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别;
其中,所述文本分类模型通过对第二语料库进行切词,将切词通过所述述词向量模型转换为向量,根据转换得到的向量将第二语料库中的各个第二类文本转换为相同结构的三维矩阵,将三维矩阵作为基于注意力机制的多层神经网络模型的输入进行训练得到。
第三方面,本发明还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如第一方面任意一项所述的文本分类方法。
第四方面,本发明还提供了一种处理器,所述处理器用于运行程序,所述程序运行时执行如第一方面任意一项所述的文本分类方法。
本发明提供的文本分类方法、装置、存储介质及处理器,不需要人工提取特征表达,也可以表达文本丰富的语义,提高了文本分类精度。另外,基于注意力机制的文本分类模型能选择性地强化文本中的关键信息,弱化不必要信息,分类结果更加精准。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请提供的文本分类模型训练过程的一种实现流程图;
图2示出了本申请提供的文本分类方法的一种实现流程图;
图3示出了本申请提供的文本分类装置的一种结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参阅图1,图1为本申请实施例提供的文本分类模型训练过程的一种实现流程图,可以包括:
步骤S11:使用第一语料库中的第一类文本进行词向量训练,得到词向量模型。
第一语料库可以为行业语料库,或者,通用语料库。其中,行业语料库是指某一特定行业或领域内的文本库,例如,汽车门户网站上的评论。通用语料库是指脱离行业个性化的文本库,例如,百度百科等。
可以使用开源工具软件,例如,哈工大语言技术平台(Language TechnologyPlatform,LTP),对第一语料库中每条文本句子进行切词,并使用词向量训练工具Word2vec或者Glove进行词向量训练,生成词向量模型,该词向量模型用于将词映射到一定维度的空间内,即将词映射为一定维度的向量。例如,将切词映射为100维的向量,100维的向量是指该向量包括100个元素。
第一语料库中会存在出现频率低于预置频率的切词,对于这类切词,词向量模型将这些切词映射为指定向量,所有出现频率低于预置频率的切词均映射为该指定向量。这样就减少了词向量模型存储的向量的数量,从而降低了存储词向量所占用的存储空间,而且,对后续的文本分类模型的训练影响很小,几乎不会产生影响。
对于第一语料库中出现频率高于上述预置频率的切词,词向量模型将不同的切词映射为不同的向量。
步骤S12:对第二语料库中的各个第二类文本进行切词,得到第二类文本对应的切词序列;第二类文本带有类别标记。
第二语料库中的文本带有类别标记,以情感分析为例,类别标记可以为:正面情感词标记,中性情感词标记,负面情感词标记。
可以使用开源工具软件,如哈工大LTP,或者,Jieba分词,对文本句子进行切词,得到相应切词序列。
本申请实施例中,步骤S11与步骤S12的执行顺序不做具体限定,可以先执行步骤S11,再执行步骤S12;或者,先执行步骤S12,再执行步骤S11;或者,步骤S11与步骤S12同时执行。
步骤S13:通过前述训练得到的词向量模型将切词序列中的各个切词映射为一定维度的向量。
若切词不在上述词向量模型中,则将该切词映射为上述指定向量。
步骤S14:基于切词对应的向量,将第二类文本中的各个句子转化成相同结构的二维矩阵。
每个句子都由切词构成,因此,可以将句子转化成A*B的二维矩阵,其中,A表示切词对应的向量的维度值,B为预先设定的句子长度。其中,预先设定的句子长度B可以在步骤S14之前,根据如下方式确定:
对于第二语料库中的所有文本(即第二类文本),统计文本里每句话的长度分布情况,若第二语料库中存在超长的离群长度句子,例如句子中包含的切词数量大于阈值T1,则取覆盖绝大部分长度句子的长度作为句子长度B,如果第二语料库中不存在超长的离群长度句子,则取最长句子的长度作为句子长度B。句子的长度可以用句子中包含的切词数度量。
下面举例说明句子长度B的确定过程。假设第二语料库中有100句话,每一句话的长度可以不等。那么,如果每句话包含的切词数都在20个以内,则取20为句子长度B,即B的取值为20;如果其中一个句子包含的切词数为500,另一个句子包含的切词数为300,其它句子包含的切词数都在60以内,若阈值T1为100,则取60为句子长度B,即B的取值为60;如果其中一个句子包含的切词数为500,有两个句子包含的切词数为300,还有一个句子包含90个切词,其它句子包含的切词数都在60以内,若阈值T1为100,则取90为句子长度B,即B的取值为90。
在一可选的实施例中,将句子转化成二维矩阵的过程可以包括:
若句子包含的切词数为预设值B,则由该句子包含的切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数大于所述预设值B,则取该句子的前B个切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数小于所述预设值B,则确定该句子相对于所述预设值B缺少的切词数D,将该句子包含的切词对应的向量以及D个预置向量构成该句子对应的二维矩阵。其中,预置向量的维度和上述切词的向量的维度相同。预置向量为实数向量,比如,预置向量可以为A维的全0向量。例如,假设预设值B的取值为15,而句子包含的切词数为10,则该句子相对于预设值B缺少的切词数5,则将上述10个切词对应的10个向量,以及5个预置向量构成A*15的二维矩阵。
步骤S15:基于每个句子对应的二维矩阵,将各个第二类文本转化成相同结构的三维矩阵。
与将句子转化成二维矩阵类似,每个第二类文本都由句子构成,因此,可以基于二维矩阵将文本转化成A*B*C的三维矩阵,其中,A表示切词对应的向量的维度值,B为预先设定的句子长度,C为预先设定的文本长度。其中,预先设定的句子长度B的设置方式参见前述内容,这里不再赘述。下面说明预先设定的文本长度C的确定方式:
对于第二语料库中的所有文本(即第二类文本),统计各个文本中包含的句子个数的分布情况,若第二语料库中存在超长的离群长度的文本,例如文本中包含的句子的数量大于阈值T2,则取覆盖绝大部分长度文本的长度作为文本长度C,如果第二语料库中不存在超长的离群长度文本,则取最长文本的长度作为文本长度C。文本长度可以用文本中包含的句子个数度量。
下面举例说明文本长度C的确定过程。假设第二语料库中有20个文本,每个文本的长度可以不等。那么,如果每个文本包含的句子数都在10个以内,则取10为文本长度C,即C的取值为10;如果其中一个文本包含的句子数为400,另一个文本包含的句子数为300,其它文本包含的句子数都在8以内,若阈值T2为100,则取8为句子长度C,即C的取值为8;如果其中一个文本包含的句子数为300,有两个文本包含的句子数为200,还有一个文本包含20个句子,其它文本包含的句子数都在10以内,若阈值T2为100,则取20为文本长度C,即C的取值为20。
步骤S16:将三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行训练,得到文本分类模型。
本申请实施例中,基于注意力机制的多层神经网络模型可以是基于注意力机制的两层神经网络模型。两层神经网络模型可以相同,也可以不同。
在一可选的实施例中,基于注意力机制的两层神经网络模型可以是:基于注意力机制的两层深度神经网络模型。上述深度神经网络模型可以是卷积神经网络(Convolutional Neural Networks,CNN)模型,也可以是循环神经网络(Recurrent NeuralNetworks,RNN)模型,例如,长短期记忆(Long Short-Term Memory,LSTM)网络模型。
在一可选的实施例中,文本分类模型的训练过程可以为:
通过第一层次的神经网络对三维矩阵进行解析,获得句子层级的向量;第一层次的神经网络可以是卷积神经网络,或者,可以是循环神经网络;
通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;该文本的表达表征文本中句子之间的序列关系,句子之间的序列关系就是句子在文本中的排列顺序。第二层次的神经网络可以是长短期记忆网络。
基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;
基于携带权重的文本的表达对各个第二类文本进行类别预测;预测过程可以选用常用的预测方法,这里不再赘述。
若预测结果满足迭代停止条件,则停止训练,若预测结果不满足迭代停止条件,则更新所有向量中的参数,向量的参数包括向量中的元素的值,获得新的三维矩阵,将新的三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行下一轮迭代。
可以将预测结果与真实的类别标记进行比较,判断预测结果的准确率,若准确率大于预设预置,则认为预测结果满足迭代停止条件。其中,预测结果的准确率可以是指所有有标记文本中,预测结果正确的文本数占总文本数的比率。
在一可选的实施例中,可以基于随机梯度下降法对向量中的参数进行更新。
本申请实施例训练得到的文本分类模型,结合不同的语料库进行训练得到,既包含了大量的外部词向量信息,又用到了序列结构语义信息,结合了注意力机制,分类效果更加精准。
在训练得到文本分类模型后,就可以基于该文本分类模型预测待分类文本的类别了。在使用上述文本分类模型预测待分类文本的类别时,对于每一个待分类文本,需要先将该待分类文本特征化为三维矩阵,然后将该三维矩阵作为上述文本分类模型的输入预测该待分类文本的类别。
本申请实施例提供的文本分类方法的一种实现流程图如图2所示,可以包括:
步骤S21:对待分类文本进行切词,得到切词序列;
可以使用开源工具软件,如哈工大LTP,或者,Jieba分词,对待分类文本中的句子进行切词,得到相应切词序列。
步骤S22:通过前述训练得到的词向量模型将切词序列中的各个切词映射为一定维度的向量;
步骤S23:基于切词对应的向量,将待分类文本中的各个句子转化成相同结构的二维矩阵;
在一可选的实施例中,可以通过如下方式将待分类文本中的各个句子转化成相同结构的二维矩阵:
若句子包含的切词数为预设值B,则由该句子包含的切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数大于所述预设值B,则取该句子的前B个切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数小于所述预设值B,则确定该句子相对于所述预设值B缺少的切词数D,将该句子包含的切词对应的向量以及D个预置向量构成该句子对应的二维矩阵。
本实施例中,二维矩阵为A*B的二维矩阵,其中,A表示切词对应的向量的维度值。
步骤S24:基于每个句子对应的二维矩阵,将待分类文本转化成三维矩阵。
在一可选的实施例中,可以通过如下方式将待分类文本转化成三维矩阵:
若待分类文本包含的句子数为预设值C,则由该文本包含的句子对应的二维矩阵构成该带分类文本对应的三维矩阵;
若待分类文本包含的句子数大于所述预设值C,则取该文本的前C个句子对应的二维矩阵构成该文本对应的三维矩阵;
若待分类文本包含的句子数小于所述预设值B,则确定该文本相对于所述预设值C缺少的句子数E,将该文本包含的句子对应的向量以及E个预置二维矩阵构成该文本对应的三维矩阵。其中,预置二维矩阵的结构与句子对应的二维矩阵的结构相同,都是A*B的二维矩阵。
本申请实施例中,三维矩阵为A*B*C的三维矩阵,其中,A表示切词对应的向量的维度值,B为预先设定的句子长度。
步骤S25:将三维矩阵作为输入传递给预先训练好的文本分类模型,得到待分类文本的类别。
本申请实施例提供的文本分类方法,既不需要人工提取特征表达,也可以表达文本丰富的语义,提高了文本分类精度。而且,词向量模型和文本分类模型选用不同的语料库进行训练,使得文本分类模型包含了大量的外部词向量信息,使语义表达更加丰富,进一步提高了文本分类精度。另外,基于注意力机制的文本分类模型能选择性地强化文本中的关键信息,弱化不必要信息,使文本分类结果更加精准。
在一可选的实施例中,词向量模型将所述待分类文本中所有出现频率低于预置频率的词映射为同一向量。也就是说,若待分类文本中的某个词是第一语料库中出现频率低于预置频率的词,则,将该词映射为指定的向量,若待分类文本中的某个词未在一语料库中出现,即词向量模型中没有该词与向量的映射关系,则该词也映射为上述指定向量。
在一可选的实施例中,基于注意力机制的多层神经网络模型可以为:基于注意力机制的两层神经网络模型。
在一可选的实施例中,将三维矩阵作为输入传递给预先训练好的文本分类模型,得到待分类文本的类别的过程可以包括:
通过第一层次的神经网络对所述三维矩阵进行解析,获得句子层级的向量;
通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;
基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;
基于所述携带权重的文本的表达预测所述待分类文本的类别。
与方法实施例,本申请实施例还提供一种文本分类装置。本申请实施例提供的文本分类装置的一种结构示意图如图3所示,可以包括:
切词模块31,用于对待分类文本进行切词,得到切词序列;
映射模块32,用于通过预先训练好的词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
第一转化模块33,用于基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵;
第二转化模块34,用于基于每个句子对应的二维矩阵,将所述待分类文本转化成三维矩阵;
分类模块35,用于将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别;
其中,所述文本分类模型通过对第二语料库进行切词,将切词通过所述述词向量模型转换为向量,根据转换得到的向量将第二语料库中的各个第二类文本转换为相同结构的三维矩阵,将三维矩阵作为基于注意力机制的多层神经网络模型的输入进行训练得到。
本申请实施例提供的文本分类装置,既不需要人工提取特征表达,也可以表达文本丰富的语义,提高了文本分类精度。而且,词向量模型和文本分类模型选用不同的语料库进行训练,使得文本分类模型包含了大量的外部词向量信息,使语义表达更加丰富,进一步提高了文本分类精度。另外,基于注意力机制的文本分类模型能选择性地强化文本中的关键信息,弱化不必要信息,分类结果更加精准。
在一可选的实施例中,第一转化模块33具体可以用于,
若句子包含的切词数为预设值B,则由该句子包含的切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数大于所述预设值B,则取该句子的前B个切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数小于所述预设值B,则确定该句子相对于所述预设值B缺少的切词数D,将该句子包含的切词对应的向量以及D个预置向量构成该句子对应的二维矩阵。
在一可选的实施例中,词向量模型将所述待分类文本中所有出现频率低于预置频率的词映射为同一向量。
在一可选的实施例中,文本分类装置还可以包括:
第一训练模块,用于使用第一语料库中的第一类文本进行词向量训练,得到所述词向量模型。
在一可选的实施例中,文本分类装置还可以包括:
第二训练模块,用于对第二语料库中的各个第二类文本进行切词,得到所述第二类文本对应的切词序列;所述第二类文本带有类别标记;通过所述词向量模型将所述切词序列中的各个切词映射为一定维度的向量;基于切词对应的向量,将所述第二类文本中的各个句子转化成相同结构的二维矩阵;基于每个句子对应的二维矩阵,将各个第二类文本转化成相同结构的三维矩阵;将所述三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行训练,得到文本分类模型。
第二训练模块在将所述三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行训练,得到文本分类模型时,具体用于,通过第一层次的神经网络对三维矩阵进行解析,获得句子层级的向量;通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;基于携带权重的文本的表达对各个第二类文本进行类别预测。若预测结果满足迭代停止条件,则停止训练,若预测结果不满足迭代停止条件,则更新所有向量中的参数,获得新的三维矩阵,将新的三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行下一轮迭代。
在一可选的实施例中,分类模块35具体用于,通过第一层次的神经网络对所述三维矩阵进行解析,获得句子层级的向量;通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;基于所述携带权重的文本的表达预测待分类文本的类别。
所述文本分类装置包括处理器和存储器,上述切词模块、映射模块、第一转化模块、第二转化模块和分类模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高文本分类精度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文本分类方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文本分类方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:(方法权项步骤,独权+从权)。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
对待分类文本进行切词,得到切词序列;
通过预先训练好的词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵;
基于每个句子对应的二维矩阵,将所述待分类文本转化成三维矩阵;
将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别;
其中,所述文本分类模型通过对第二语料库进行切词,将切词通过所述述词向量模型转换为向量,根据转换得到的向量将第二语料库中的各个第二类文本转换为相同结构的三维矩阵,将三维矩阵作为基于注意力机制的多层神经网络模型的输入进行训练得到。
其中,所述基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵,包括:
若句子包含的切词数为预设值B,则由该句子包含的切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数大于所述预设值B,则取该句子的前B个切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数小于所述预设值B,则确定该句子相对于所述预设值B缺少的切词数D,将该句子包含的切词对应的向量以及D个预置向量构成该句子对应的二维矩阵。
其中,所述词向量模型将所述待分类文本中所有出现频率低于预置频率的词映射为同一向量。
其中,预先使用第一语料库中的第一类文本进行词向量训练,得到所述词向量模型。
其中,所述文本分类模型的训练过程包括:
对第二语料库中的各个第二类文本进行切词,得到所述第二类文本对应的切词序列;所述第二类文本带有类别标记;
通过所述词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
基于切词对应的向量,将所述第二类文本中的各个句子转化成相同结构的二维矩阵;
基于每个句子对应的二维矩阵,将各个第二类文本转化成相同结构的三维矩阵;
将所述三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行训练,得到文本分类模型。
其中,所述基于注意力机制的多层神经网络模型包括:基于注意力机制的两层神经网络模型。
其中,所述将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别,包括:
通过第一层次的神经网络对所述三维矩阵进行解析,获得句子层级的向量;
通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;
基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;
基于所述携带权重的文本的表达预测待分类文本的类别。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
对待分类文本进行切词,得到切词序列;
通过预先训练好的词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵;
基于每个句子对应的二维矩阵,将所述待分类文本转化成三维矩阵;
将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别;
其中,所述文本分类模型通过对第二语料库进行切词,将切词通过所述述词向量模型转换为向量,根据转换得到的向量将第二语料库中的各个第二类文本转换为相同结构的三维矩阵,将三维矩阵作为基于注意力机制的多层神经网络模型的输入进行训练得到。
2.根据权利要求1所述的方法,其特征在于,所述基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵,包括:
若句子包含的切词数为预设值B,则由该句子包含的切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数大于所述预设值B,则取该句子的前B个切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数小于所述预设值B,则确定该句子相对于所述预设值B缺少的切词数D,将该句子包含的切词对应的向量以及D个预置向量构成该句子对应的二维矩阵。
3.根据权利要求1所述的方法,其特征在于,所述词向量模型将所述待分类文本中所有出现频率低于预置频率的词映射为同一向量。
4.根据权利要求1所述的方法,其特征在于,预先使用第一语料库中的第一类文本进行词向量训练,得到所述词向量模型。
5.根据权利要求4所述的方法,其特征在于,所述文本分类模型的训练过程包括:
对第二语料库中的各个第二类文本进行切词,得到所述第二类文本对应的切词序列;所述第二类文本带有类别标记;
通过所述词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
基于切词对应的向量,将所述第二类文本中的各个句子转化成相同结构的二维矩阵;
基于每个句子对应的二维矩阵,将各个第二类文本转化成相同结构的三维矩阵;
将所述三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行训练,得到文本分类模型。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述基于注意力机制的多层神经网络模型包括:基于注意力机制的两层神经网络模型。
7.根据权利要求6所述的方法,其特征在于,所述将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别,包括:
通过第一层次的神经网络对所述三维矩阵进行解析,获得句子层级的向量;
通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;
基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;
基于所述携带权重的文本的表达预测待分类文本的类别。
8.一种文本分类装置,其特征在于,包括:
切词模块,用于对待分类文本进行切词,得到切词序列;
映射模块,用于通过预先训练好的词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
第一转化模块,用于基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵;
第二转化模块,用于基于每个句子对应的二维矩阵,将所述待分类文本转化成三维矩阵;
分类模块,用于将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别;
其中,所述文本分类模型通过对第二语料库进行切词,将切词通过所述述词向量模型转换为向量,根据转换得到的向量将第二语料库中的各个第二类文本转换为相同结构的三维矩阵,将三维矩阵作为基于注意力机制的多层神经网络模型的输入进行训练得到。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7中任意一项所述的文本分类方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,所述程序运行时执行如权利要求1-7中任意一项所述的文本分类方法。
CN201710918567.0A 2017-09-30 2017-09-30 文本分类方法及装置 Pending CN110019788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710918567.0A CN110019788A (zh) 2017-09-30 2017-09-30 文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710918567.0A CN110019788A (zh) 2017-09-30 2017-09-30 文本分类方法及装置

Publications (1)

Publication Number Publication Date
CN110019788A true CN110019788A (zh) 2019-07-16

Family

ID=67186397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710918567.0A Pending CN110019788A (zh) 2017-09-30 2017-09-30 文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN110019788A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795563A (zh) * 2019-10-31 2020-02-14 支付宝(杭州)信息技术有限公司 文本分类模型训练方法、事件检测方法及对应的装置
CN110851600A (zh) * 2019-11-07 2020-02-28 北京集奥聚合科技有限公司 基于深度学习的文本数据处理方法及装置
CN110909549A (zh) * 2019-10-11 2020-03-24 北京师范大学 对古汉语进行断句的方法、装置以及存储介质
CN111858923A (zh) * 2019-12-24 2020-10-30 北京嘀嘀无限科技发展有限公司 一种文本分类方法、系统、装置及存储介质
CN113808591A (zh) * 2021-08-13 2021-12-17 北京百度网讯科技有限公司 音频处理方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法
CN106383815A (zh) * 2016-09-20 2017-02-08 清华大学 结合用户和产品信息的神经网络情感分析方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法
CN106383815A (zh) * 2016-09-20 2017-02-08 清华大学 结合用户和产品信息的神经网络情感分析方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张文萍等: "基于文本空间表示模型的文本相似度计算研究", 《现代情报》 *
张璞: "WEB评论文本情感分类方法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909549A (zh) * 2019-10-11 2020-03-24 北京师范大学 对古汉语进行断句的方法、装置以及存储介质
CN110795563A (zh) * 2019-10-31 2020-02-14 支付宝(杭州)信息技术有限公司 文本分类模型训练方法、事件检测方法及对应的装置
CN110851600A (zh) * 2019-11-07 2020-02-28 北京集奥聚合科技有限公司 基于深度学习的文本数据处理方法及装置
CN111858923A (zh) * 2019-12-24 2020-10-30 北京嘀嘀无限科技发展有限公司 一种文本分类方法、系统、装置及存储介质
CN113808591A (zh) * 2021-08-13 2021-12-17 北京百度网讯科技有限公司 音频处理方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN110019788A (zh) 文本分类方法及装置
CN110276066B (zh) 实体关联关系的分析方法及相关装置
CN110287477A (zh) 实体情感分析方法及相关装置
Weytjens et al. Process outcome prediction: CNN vs. LSTM (with attention)
US11074412B1 (en) Machine learning classification system
CN104899298A (zh) 一种基于大规模语料特征学习的微博情感分析方法
CN108255862B (zh) 一种裁判文书的检索方法及装置
CN109299476A (zh) 问答方法、装置、电子设备及存储介质
CN112395412B (zh) 文本分类的方法、装置以及计算机可读介质
CN108733644A (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN110472040A (zh) 评价信息的提取方法及装置、存储介质、计算机设备
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN110362663A (zh) 自适应多感知相似度检测和解析
CN112182214A (zh) 一种数据分类方法、装置、设备及介质
CN108717547A (zh) 样本数据生成方法及装置、训练模型的方法及装置
CN109002443A (zh) 一种文本信息的分类方法及装置
CN110019784A (zh) 一种文本分类方法及装置
CN109582774A (zh) 自然语言分类方法、装置、设备及存储介质
CN108241662A (zh) 数据标注的优化方法及装置
CN110969276B (zh) 判决预测方法、判决预测模型获得方法及装置
CN109597982A (zh) 摘要文本识别方法及装置
CN110019827A (zh) 一种语料库生成方法、装置、设备和计算机存储介质
CN114020921A (zh) 文本处理方法、装置、设备及存储介质
CN113722439A (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
CN110019787A (zh) 神经网络模型生成方法、文本情感分析方法、及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716