CN111125354A - 文本分类方法及装置 - Google Patents
文本分类方法及装置 Download PDFInfo
- Publication number
- CN111125354A CN111125354A CN201811290174.0A CN201811290174A CN111125354A CN 111125354 A CN111125354 A CN 111125354A CN 201811290174 A CN201811290174 A CN 201811290174A CN 111125354 A CN111125354 A CN 111125354A
- Authority
- CN
- China
- Prior art keywords
- text
- classified
- classification
- vector
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开了一种文本分类方法及装置。其中,该方法包括:通过对文本进行预处理,得到待分类文本;将上述待分类文本输入至目标深度分类模型,其中,上述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;依据上述目标深度分类模型对上述待分类文本进行向量化表示,确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,其中,上述分类结果至少包括:观点类别。本发明解决了传统的文本分类方案分类效果较差,导致无法准确确定文本的实际观点类别的技术问题。
Description
技术领域
本发明涉及文本处理领域,具体而言,涉及一种文本分类方法及装置。
背景技术
文本分类是自然语言处理中的一项基本任务,应用场景非常广泛,包括垃圾邮件分类、情感分析、新闻主题分类、自动问答系统中的问句分类等。传统的文本分类方案中,文本分类的效果主要取决于特征的表达能力,即特征是否包含足够用于分类的信息,主要基于统计分类的方法,选取的特征通常是词频、TF-IDF等。
通过传统的文本表示方法(例如,向量空间模型)来构建特征向量,主要缺点是忽略上下文关系,在词汇字面上进行相似度计算,对同义词,近义词等词语无法很好处理;无法有效利用语序信息,对实际观点类型把握不准;文章长度不同,每条句子对分类的影响因素无法得到有效处理;也无法表征语义信息,并且这种文本表示方式得到的特征向量高维度且高稀疏,传统的分类器并不适合处理这样的数据。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本分类方法及装置,以至少解决传统的文本分类方案分类效果较差,导致无法准确确定文本的实际观点类别的技术问题。
根据本发明实施例的一个方面,提供了一种文本分类方法,包括:通过对文本进行预处理,得到待分类文本,其中,上述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;将上述待分类文本输入至目标深度分类模型,其中,上述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;依据上述目标深度分类模型对上述待分类文本进行向量化表示,确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,其中,上述分类结果至少包括:观点类别。
根据本发明实施例的另一方面,还提供了一种文本分类装置,包括:预处理模块,用于通过对文本进行预处理,得到待分类文本,其中,上述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;输入模块,用于将上述待分类文本输入至目标深度分类模型,其中,上述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;分类模块,用于依据上述目标深度分类模型对上述待分类文本进行向量化表示,确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,其中,上述分类结果至少包括:观点类别。
根据本发明实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行任意一项上述的文本分类方法。
根据本发明实施例的另一方面,还提供了一种处理器,其特征在于,上述处理器用于运行程序,其中,上述程序运行时执行任意一项上述的文本分类方法。
在本发明实施例中,通过对文本进行预处理,得到待分类文本,其中,上述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;将上述待分类文本输入至目标深度分类模型,其中,上述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;依据上述目标深度分类模型对上述待分类文本进行向量化表示,确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,其中,上述分类结果至少包括:观点类别。
由此,本申请实施例基于目标深度分类模型对文章表示进行学习,得到连续分布的文章表示向量,并充分考虑词语的语义信息、句子中的词语结构信息以及针对篇章中句子的权重信息,达到了提高文本分类效率和准确性,取得更好的分类效果的目的,从而实现了有效提高确定文本的实际观点类别的准确性的技术效果,进而解决了传统的文本分类方案分类效果较差,导致无法准确确定文本的实际观点类别的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文本分类方法的流程图;
图2是根据本发明实施例的一种可选的目标深度分类模型的框架图;
图3是根据本发明实施例的一种可选的文本分类方法的流程图;以及
图4是根据本发明实施例的一种文本分类装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文本分类方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种文本分类方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,通过对文本进行预处理,得到待分类文本,其中,上述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;
步骤S104,将上述待分类文本输入至目标深度分类模型,其中,上述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;
步骤S106,依据上述目标深度分类模型对上述待分类文本进行向量化表示,确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,其中,上述分类结果至少包括:观点类别。
可选的,上述文本是指书面语言的表现形式,通常是具有完整、系统含义的一个句子或多个句子的组合,例如,一个文本可以为一个句子、一个段落或者一个篇章。在互联网领域,新闻报道、网页、电子邮件、学术论文、评论留言、博客文章等都属于常见的文本类型。
在本技术领域中,文本分类是自然语言处理中的一项基本任务,应用场景非常广泛,包括垃圾邮件分类、情感分析、新闻主题分类、自动问答系统中的问句分类等。文本分类即根据文本的特征将其分到预先设定好的类别中,例如,根据文本内容可以分为政治、经济、体育等类别,根据应用目的要求,检测垃圾邮件时,可以分为垃圾邮件、非垃圾邮件等,根据文本特点分类时,进行情感分析时,可以有积极情感文本、消极情感文本,等等。
可选的,关于待分类文本的分词处理,若待分类文本为“柜员取钱给客户”,则对其进行分词处理后,可以得到以下处理结果:[“柜员”,“取钱”,“给”,“客户”]。
可选的,上述目标深度分类模型的框架可以如图2所示,从输入到输出可以包括:输入层,词语表示层,句子表示层,篇章表示层,全连接层,输出层。其中,该目标深度分类模型,可以通过输入层接收输入的待分类文本,并通过词语表示层,句子表示层以及篇章表示层,确定待分类文本的词语表示向量、句子表示向量和文章表示向量,并通过全连接层基于上述待分类文本的词语表示向量、句子表示向量和文章表示向量,对上述待分类文本进行分类处理,得到准确的文本分类结果,进而通过输出层输出文本的分类结果。
并且,需要说明的是,如图2所示,在本申请实施例中,上述全连接层与输出层可以但不限于集成实现,以实现在得到分类结果之后,快速输出分类结果的效果。
在一种可选的实施例中,本申请实施例中,可以但不限于通过预先训练学习得到该目标深度分类模型,例如,对深度分类模型进行训练学习已标识观点类别的训练样本,得到深度分类模型中的参数,并将训练学习得到的目标深度分类模型保存到本地。
在上述实施例中,通过将上述待分类文本输入至目标深度分类模型,依据上述目标深度分类模型对上述待分类文本进行向量化表示,可以确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,例如,上述待分类文本的观点类别。
可选的,在本申请实施例中,可以但不限于依据目标深度分类模型中的词语表示层对上述待分类文本中的词语进行向量化表示,得到上述词语表示向量;可以但不限于依据目标深度分类模型中的句子表示层确定上述待分类文本的上述句子表示向量;可以但不限于依据目标深度分类模型中的篇章表示层确定上述待分类文本的上述文章表示向量;可以但不限于依据目标深度分类模型中的全连接层,基于上述词语表示向量、上述句子表示向量和上述文章表示向量,对上述待分类文本进行分类,得到上述分类结果。
在本发明实施例中,通过对文本进行预处理,得到待分类文本,其中,上述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;将上述待分类文本输入至目标深度分类模型,其中,上述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;依据上述目标深度分类模型对上述待分类文本进行向量化表示,确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,其中,上述分类结果至少包括:观点类别。
由此,本申请实施例基于目标深度分类模型对文章表示进行学习,得到连续分布的文章表示向量,并充分考虑词语的语义信息、句子中的词语结构信息以及针对篇章中句子的权重信息,达到了提高文本分类效率和准确性,取得更好的分类效果的目的,从而实现了有效提高确定文本的实际观点类别的准确性的技术效果,进而解决了传统的文本分类方案分类效果较差,导致无法准确确定文本的实际观点类别的技术问题。
在一种可选的实施例中,图3是根据本发明实施例的一种可选的文本分类方法的流程图,如图3所示,至少通过如下方式确定上述句子表示向量:
步骤S202,依据上述目标深度分类模型中的卷积神经网络模型获取上述待分类文本中词语的文法信息,其中,上述卷积神经网络模型采用不同大小的卷积核对应不同的语言模型;
步骤S204,在获取上述文法信息的基础上,依据上述卷积神经网络模型获取上述待分类文本的文本结构信息,其中,上述文本结构信息包括以下至少之一:前后文信息、上下文信息;
步骤S206,依据上述卷积神经网络模型对上述文本结构信息进行整合处理,得到上述句子表示向量。
作为一种可选的实施例,可以通过在目标深度分类模型的句子表示层中学习得到待分类文本的句子表示向量,在本申请实施中,可以但不限于依据卷积神经网络CNN模型确定上述句子表示向量:
首先,本申请实施例中可以但不限于采用不同大小的卷积核(例如,1、2、3..)对应不同的语言模型,以捕获待分类文本中的词语(一元),相邻两个词组(二元),相邻三个词(三元)…的文法信息。
其次,在获取上述文法信息的基础上,依据上述卷积神经网络模型获取上述待分类文本的文本结构信息,其中,上述文本结构信息包括以下至少之一:前后文信息、上下文信息,即,本申请实施例中通过两层卷积获取更多的文本结构信息。在第一层卷积获取得到文法信息的基础上,增加一层卷积得到文本结构信息,获得待分类文本更高维度的特征信息。
最后,通过使用池化层(Pooling层)对上述文本结构信息进行整合处理,得到上述句子表示向量。
通过本申请上述实施例,通过卷积神经网络模型CNN的句子表示层,可以保留句子结构信息,也可以获取相同维度的句子表示向量,而且使用三个以及更多的卷积核,保留待分类文本的单元,两元,三元乃至n元(n-gram)的文法信息。
在一种可选的实施例中,至少通过如下方式确定上述文章表示向量:
步骤S302,依据上述目标深度分类模型中的注意力机制标识上述待分类文本中的句子和/或词语对上述待分类文本的影响程度,其中,上述影响程度至少包括:对上述待分类文本的分类结果的影响程度;
步骤S304,基于上述影响程度确定上述文章表示向量。
在上述可选的实施例中,通过在目标深度分类模型中加入注意力机制,例如,可以增加Sentence Attention层来标识句子对上述待分类文本的影响程度,基于上述影响程度确定上述文章表示向量。
可选的,上述文章表示层可以但不限于使用双向GRU神经网络模型对文本进行建模,需要说明的是,本申请实施例可以但不局限于该使用双向GRU神经网络模型,其他可以实现的模型均可。
并且,由于每篇文章中,句子向量数量各不相同,本申请中不局限句子个数,针对不同的文章都可以采用相同的处理方法,最终得到相同维度的篇章表示,消除句子数量不一致造成的不便。同时,由于文本中的不同句子在文本中具有不同的重要性,通过加入注意力机制,可以区分不同句子及词语对文章观点的影响,例如,可以抓取核心句子对文本表示的影响,最终获取更好的分类结果。
在一种可选的实施例中,至少通过如下方式确定上述词语表示向量:
步骤S402,依据上述目标深度分类模型中的词向量模型对上述词语进行向量化表示,得到上述词语表示向量,其中,上述词向量模型依据获取到的语料数据训练得到。
可选的,在本申请实施例中,可以但不限于通过获取大规模语料,如人民日报新闻、互联网页内容等,训练一个词向量(Word Embeddings)模型,主要用于词语的向量化表示,进而,通过该词向量模型对上述词语进行向量化表示,得到上述词语表示向量。并且,通过采用词向量表示方式,可以解决同义性问题。
在一种可选的实施例中,上述目标深度分类模型基于上述词语表示向量、上述句子表示向量和上述文章表示向量,采用全连接分类器对上述待分类文本进行分类,得到上述分类结果。
可选的,上述全连接分类器处于目标深度分类模型的全连接层中,其中,全连接层在整个目标深度分类模型中起到分类的作用,具体可以通过全连接分类器实现对待分类文本的分类处理,得到分类结果。
在一种可选的实施例中,在将上述待分类文本输入至目标深度分类模型之前,上述方法还包括:
步骤S502,标注获取到的样本文本的第一类别。
在上述步骤S502中,可以但不限于通过如下方式标注上述样本文本的第一类别:对上述样本文本添加标签,上述标签用于标注上述样本文本的第一类别,对相同观点类别的上述样本文本添加相同的上述标签,对不同观点类别的上述样本文本添加不同的上述标签。
步骤S504,通过对上述样本文本进行上述预处理,得到训练文本;
步骤S506,将上述训练样本输入至深度分类模型进行训练,得到训练结果。
可选的,上述预处理可以但不限于包含如下至少之一:分词处理、词性标注、停用词过滤。在对上述样本文本进行上述预处理,得到训练文本之后,可以将上述训练样本输入至深度分类模型进行训练,得到训练结果。
在上述步骤S506中,上述训练结果至少包括:上述深度分类模型通过分类处理上述训练样本,输出的上述训练样本的第二类别,其中,上述第一类别和上述第二类别分别采用向量化表示。
需要说明的是,上述第一类别和第二类别可以相同或不同,其中,第一类别为预先标注的样本文本的观点类别,第二类别为采用深度分类模型通过分类处理上述训练样本,输出的上述训练样本的观点类别。
在一种可选的实施例中,在将上述训练样本输入至深度分类模型进行训练,得到训练结果之后,上述方法还包括:
步骤S602,比较上述第一类别和上述第二类别的向量相似度;
步骤S604,依据上述向量相似度与目标相似度的比较结果,确定是否优化上述深度分类模型中的参数数据,其中,上述目标相似度用于表征上述第一类别和上述第二类别的向量数据完全相似;
步骤S606,在确定上述参数数据优化完成的情况下,将训练后的上述深度分类模型确定为上述目标深度分类模型。
作为一种可选的实施例,在对待分类文本进行分类处理之前,需要预先训练得到目标深度分类模型,通过对样本文本打上不同的标签来区分样本文本的观点类别,其中,该标签要保证具有相同观点的样本文本具有相同的标签,不同观点的样本文本具有不同标签。
并且,通过获取大规模语料,如人民日报新闻、互联网页内容等,训练一个词向量(Word Embeddings)模型,主要用于词语的向量化表示,通过对样本文本进行预处理,例如,分词,词性标注,停用词过滤等操作,最后,通过随机采样的方法,获取语料中的一批样本文本,并通过多次采样形式,形成多个训练样本集合。将获取的样本文本作为训练样本按照批次输入到深度分类模型中,对深度分类模型进行训练学习得到深度分类模型中的参数数据。
在上述可选的实施例中,在将上述训练样本输入至深度分类模型进行训练,得到训练结果之后,本申请实施例还可以对上述训练结果进行优化,得到上述目标深度分类模型,具体的,在本申请实施例中,可以比较上述第一类别和上述第二类别的向量相似度;并依据上述向量相似度与目标相似度的比较结果,确定是否优化上述深度分类模型中的参数数据,其中,上述目标相似度用于表征上述第一类别和上述第二类别的向量数据完全相似;也即,确定上述第一类别和上述第二类别的向量数据是否完全相似。
在本申请实施例中,在上述第一类别和上述第二类别的向量数据完全相似的情况下,确定无需优化上述深度分类模型中的参数数据,本次优化流程完成,在上述第一类别和上述第二类别的向量数据不完全相似的情况下,确定优化上述深度分类模型中的参数数据,并在确定上述参数数据优化完成的情况下,将训练后的上述深度分类模型确定为上述目标深度分类模型,并保存上述目标深度分类模型。
实施例2
根据本发明实施例,还提供了一种用于实施上述文本分类方法的装置实施例,图4是根据本发明实施例的一种文本分类装置的结构示意图,如图4所示,上述文本分类装置,包括:预处理模块40、输入模块42和分类模块44,其中:
预处理模块40,用于通过对文本进行预处理,得到待分类文本,其中,上述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;输入模块42,用于将上述待分类文本输入至目标深度分类模型,其中,上述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;分类模块44,用于依据上述目标深度分类模型对上述待分类文本进行向量化表示,确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,其中,上述分类结果至少包括:观点类别。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述预处理模块40、输入模块42和分类模块44对应于实施例1中的步骤S102至步骤S106,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
上述的文本分类装置还可以包括处理器和存储器,上述预处理模块40、输入模块42和分类模块44等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元,上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本申请实施例,还提供了一种存储介质实施例。可选地,在本实施例中,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行上述任意一种文本分类方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述存储介质包括存储的程序。
可选地,在程序运行时控制存储介质所在设备执行以下功能:通过对文本进行预处理,得到待分类文本,其中,上述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;将上述待分类文本输入至目标深度分类模型,其中,上述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;依据上述目标深度分类模型对上述待分类文本进行向量化表示,确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,其中,上述分类结果至少包括:观点类别。
可选地,在程序运行时控制存储介质所在设备执行以下功能:依据上述目标深度分类模型中的卷积神经网络模型获取上述待分类文本中词语的文法信息,其中,上述卷积神经网络模型采用不同大小的卷积核对应不同的语言模型;在获取上述文法信息的基础上,依据上述卷积神经网络模型获取上述待分类文本的文本结构信息,其中,上述文本结构信息包括以下至少之一:前后文信息、上下文信息;依据上述卷积神经网络模型对上述文本结构信息进行整合处理,得到上述句子表示向量。
可选地,在程序运行时控制存储介质所在设备执行以下功能:依据上述目标深度分类模型中的注意力机制标识上述待分类文本中的句子和/或词语对上述待分类文本的影响程度,其中,上述影响程度至少包括:对上述待分类文本的分类结果的影响程度;基于上述影响程度确定上述文章表示向量。
可选地,在程序运行时控制存储介质所在设备执行以下功能:依据上述目标深度分类模型中的词向量模型对上述词语进行向量化表示,得到上述词语表示向量,其中,上述词向量模型依据获取到的语料数据训练得到。
可选地,在程序运行时控制存储介质所在设备执行以下功能:标注获取到的样本文本的第一类别,其中,对上述样本文本添加标签,上述标签用于标注上述样本文本的第一类别,对相同观点类别的上述样本文本添加相同的上述标签,对不同观点类别的上述样本文本添加不同的上述标签;通过对上述样本文本进行上述预处理,得到训练文本;将上述训练样本输入至深度分类模型进行训练,得到训练结果,其中,上述训练结果至少包括:上述深度分类模型通过分类处理上述训练样本,输出的上述训练样本的第二类别,其中,上述第一类别和上述第二类别分别采用向量化表示。
可选地,在程序运行时控制存储介质所在设备执行以下功能:比较上述第一类别和上述第二类别的向量相似度;依据上述向量相似度与目标相似度的比较结果,确定是否优化上述深度分类模型中的参数数据,其中,上述目标相似度用于表征上述第一类别和上述第二类别的向量数据完全相似;在确定上述参数数据优化完成的情况下,将训练后的上述深度分类模型确定为上述目标深度分类模型。
根据本申请实施例,还提供了一种处理器实施例。可选地,在本实施例中,上述处理器用于运行程序,其中,上述程序运行时执行上述任意一种文本分类方法。
本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:通过对文本进行预处理,得到待分类文本,其中,上述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;将上述待分类文本输入至目标深度分类模型,其中,上述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;依据上述目标深度分类模型对上述待分类文本进行向量化表示,确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,其中,上述分类结果至少包括:观点类别。
可选地,上述处理器执行程序时,还可以依据上述目标深度分类模型中的卷积神经网络模型获取上述待分类文本中词语的文法信息,其中,上述卷积神经网络模型采用不同大小的卷积核对应不同的语言模型;在获取上述文法信息的基础上,依据上述卷积神经网络模型获取上述待分类文本的文本结构信息,其中,上述文本结构信息包括以下至少之一:前后文信息、上下文信息;依据上述卷积神经网络模型对上述文本结构信息进行整合处理,得到上述句子表示向量。
可选地,上述处理器执行程序时,还可以依据上述目标深度分类模型中的注意力机制标识上述待分类文本中的句子和/或词语对上述待分类文本的影响程度,其中,上述影响程度至少包括:对上述待分类文本的分类结果的影响程度;基于上述影响程度确定上述文章表示向量。
可选地,上述处理器执行程序时,还可以依据上述目标深度分类模型中的词向量模型对上述词语进行向量化表示,得到上述词语表示向量,其中,上述词向量模型依据获取到的语料数据训练得到。
可选地,上述处理器执行程序时,还可以标注获取到的样本文本的第一类别,其中,对上述样本文本添加标签,上述标签用于标注上述样本文本的第一类别,对相同观点类别的上述样本文本添加相同的上述标签,对不同观点类别的上述样本文本添加不同的上述标签;通过对上述样本文本进行上述预处理,得到训练文本;将上述训练样本输入至深度分类模型进行训练,得到训练结果,其中,上述训练结果至少包括:上述深度分类模型通过分类处理上述训练样本,输出的上述训练样本的第二类别,其中,上述第一类别和上述第二类别分别采用向量化表示。
可选地,上述处理器执行程序时,还可以比较上述第一类别和上述第二类别的向量相似度;依据上述向量相似度与目标相似度的比较结果,确定是否优化上述深度分类模型中的参数数据,其中,上述目标相似度用于表征上述第一类别和上述第二类别的向量数据完全相似;在确定上述参数数据优化完成的情况下,将训练后的上述深度分类模型确定为上述目标深度分类模型。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:通过对文本进行预处理,得到待分类文本,其中,上述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;将上述待分类文本输入至目标深度分类模型,其中,上述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;依据上述目标深度分类模型对上述待分类文本进行向量化表示,确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,其中,上述分类结果至少包括:观点类别。
可选地,上述计算机程序产品执行程序时,还可以依据上述目标深度分类模型中的卷积神经网络模型获取上述待分类文本中词语的文法信息,其中,上述卷积神经网络模型采用不同大小的卷积核对应不同的语言模型;在获取上述文法信息的基础上,依据上述卷积神经网络模型获取上述待分类文本的文本结构信息,其中,上述文本结构信息包括以下至少之一:前后文信息、上下文信息;依据上述卷积神经网络模型对上述文本结构信息进行整合处理,得到上述句子表示向量。
可选地,上述计算机程序产品执行程序时,还可以依据上述目标深度分类模型中的注意力机制标识上述待分类文本中的句子和/或词语对上述待分类文本的影响程度,其中,上述影响程度至少包括:对上述待分类文本的分类结果的影响程度;基于上述影响程度确定上述文章表示向量。
可选地,上述计算机程序产品执行程序时,还可以依据上述目标深度分类模型中的词向量模型对上述词语进行向量化表示,得到上述词语表示向量,其中,上述词向量模型依据获取到的语料数据训练得到。
可选地,上述计算机程序产品执行程序时,还可以标注获取到的样本文本的第一类别,其中,对上述样本文本添加标签,上述标签用于标注上述样本文本的第一类别,对相同观点类别的上述样本文本添加相同的上述标签,对不同观点类别的上述样本文本添加不同的上述标签;通过对上述样本文本进行上述预处理,得到训练文本;将上述训练样本输入至深度分类模型进行训练,得到训练结果,其中,上述训练结果至少包括:上述深度分类模型通过分类处理上述训练样本,输出的上述训练样本的第二类别,其中,上述第一类别和上述第二类别分别采用向量化表示。
可选地,上述计算机程序产品执行程序时,还可以比较上述第一类别和上述第二类别的向量相似度;依据上述向量相似度与目标相似度的比较结果,确定是否优化上述深度分类模型中的参数数据,其中,上述目标相似度用于表征上述第一类别和上述第二类别的向量数据完全相似;在确定上述参数数据优化完成的情况下,将训练后的上述深度分类模型确定为上述目标深度分类模型。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
通过对文本进行预处理,得到待分类文本,其中,所述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;
将所述待分类文本输入至目标深度分类模型,其中,所述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;
依据所述目标深度分类模型对所述待分类文本进行向量化表示,确定所述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于所述词语表示向量、所述句子表示向量和所述文章表示向量对所述待分类文本进行分类处理,确定所述待分类文本的分类结果,其中,所述分类结果至少包括:观点类别。
2.根据权利要求1所述的方法,其特征在于,至少通过如下方式确定所述句子表示向量:
依据所述目标深度分类模型中的卷积神经网络模型获取所述待分类文本中词语的文法信息,其中,所述卷积神经网络模型采用不同大小的卷积核对应不同的语言模型;
在获取所述文法信息的基础上,依据所述卷积神经网络模型获取所述待分类文本的文本结构信息,其中,所述文本结构信息包括以下至少之一:前后文信息、上下文信息;
依据所述卷积神经网络模型对所述文本结构信息进行整合处理,得到所述句子表示向量。
3.根据权利要求1所述的方法,其特征在于,至少通过如下方式确定所述文章表示向量:
依据所述目标深度分类模型中的注意力机制标识所述待分类文本中的句子和/或词语对所述待分类文本的影响程度,其中,所述影响程度至少包括:对所述待分类文本的分类结果的影响程度;
基于所述影响程度确定所述文章表示向量。
4.根据权利要求1所述的方法,其特征在于,至少通过如下方式确定所述词语表示向量:
依据所述目标深度分类模型中的词向量模型对所述词语进行向量化表示,得到所述词语表示向量,其中,所述词向量模型依据获取到的语料数据训练得到。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述目标深度分类模型基于所述词语表示向量、所述句子表示向量和所述文章表示向量,采用全连接分类器对所述待分类文本进行分类,得到所述分类结果。
6.根据权利要求1至4中任意一项所述的方法,其特征在于,在将所述待分类文本输入至目标深度分类模型之前,所述方法还包括:
标注获取到的样本文本的第一类别,其中,对所述样本文本添加标签,所述标签用于标注所述样本文本的第一类别,对相同观点类别的所述样本文本添加相同的所述标签,对不同观点类别的所述样本文本添加不同的所述标签;
通过对所述样本文本进行所述预处理,得到训练文本;
将所述训练样本输入至深度分类模型进行训练,得到训练结果,其中,所述训练结果至少包括:所述深度分类模型通过分类处理所述训练样本,输出的所述训练样本的第二类别,其中,所述第一类别和所述第二类别分别采用向量化表示。
7.根据权利要求6所述的方法,其特征在于,在将所述训练样本输入至深度分类模型进行训练,得到训练结果之后,所述方法还包括:
比较所述第一类别和所述第二类别的向量相似度;
依据所述向量相似度与目标相似度的比较结果,确定是否优化所述深度分类模型中的参数数据,其中,所述目标相似度用于表征所述第一类别和所述第二类别的向量数据完全相似;
在确定所述参数数据优化完成的情况下,将训练后的所述深度分类模型确定为所述目标深度分类模型。
8.一种文本分类装置,其特征在于,包括:
预处理模块,用于通过对文本进行预处理,得到待分类文本,其中,所述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;
输入模块,用于将所述待分类文本输入至目标深度分类模型,其中,所述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;
分类模块,用于依据所述目标深度分类模型对所述待分类文本进行向量化表示,确定所述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于所述词语表示向量、所述句子表示向量和所述文章表示向量对所述待分类文本进行分类处理,确定所述待分类文本的分类结果,其中,所述分类结果至少包括:观点类别。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1-7中任意一项所述的文本分类方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-7中任意一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811290174.0A CN111125354A (zh) | 2018-10-31 | 2018-10-31 | 文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811290174.0A CN111125354A (zh) | 2018-10-31 | 2018-10-31 | 文本分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111125354A true CN111125354A (zh) | 2020-05-08 |
Family
ID=70494295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811290174.0A Pending CN111125354A (zh) | 2018-10-31 | 2018-10-31 | 文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125354A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832312A (zh) * | 2020-05-15 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 文本处理方法、装置、设备和存储介质 |
CN111966828A (zh) * | 2020-07-27 | 2020-11-20 | 电子科技大学 | 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法 |
CN112035660A (zh) * | 2020-08-14 | 2020-12-04 | 海尔优家智能科技(北京)有限公司 | 基于网络模型的对象类别确定方法及装置 |
CN112148878A (zh) * | 2020-09-23 | 2020-12-29 | 网易(杭州)网络有限公司 | 情感数据处理方法及装置 |
CN112667815A (zh) * | 2020-12-30 | 2021-04-16 | 北京捷通华声科技股份有限公司 | 文本处理方法、装置、计算机可读存储介质及处理器 |
CN112699679A (zh) * | 2021-03-25 | 2021-04-23 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置、电子设备及存储介质 |
CN112732896A (zh) * | 2020-12-31 | 2021-04-30 | 天津开心生活科技有限公司 | 目标信息显示方法、装置、电子设备和介质 |
CN113033216A (zh) * | 2021-03-03 | 2021-06-25 | 东软集团股份有限公司 | 文本预处理方法、装置、存储介质及电子设备 |
CN113420785A (zh) * | 2021-05-31 | 2021-09-21 | 北京联合大学 | 书面语体类型的分类方法、装置、存储介质及电子设备 |
CN113420138A (zh) * | 2021-07-15 | 2021-09-21 | 上海明略人工智能(集团)有限公司 | 用于文本分类的方法及装置、电子设备、存储介质 |
CN115249017A (zh) * | 2021-06-23 | 2022-10-28 | 马上消费金融股份有限公司 | 文本标注方法、意图识别模型的训练方法及相关设备 |
CN115858772A (zh) * | 2022-01-13 | 2023-03-28 | 北京中关村科金技术有限公司 | 对文本进行分类的方法、装置以及存储介质 |
CN116738298A (zh) * | 2023-08-16 | 2023-09-12 | 杭州同花顺数据开发有限公司 | 一种文本分类方法、系统和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
-
2018
- 2018-10-31 CN CN201811290174.0A patent/CN111125354A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832312A (zh) * | 2020-05-15 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 文本处理方法、装置、设备和存储介质 |
CN111966828A (zh) * | 2020-07-27 | 2020-11-20 | 电子科技大学 | 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法 |
CN111966828B (zh) * | 2020-07-27 | 2022-05-03 | 电子科技大学 | 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法 |
CN112035660A (zh) * | 2020-08-14 | 2020-12-04 | 海尔优家智能科技(北京)有限公司 | 基于网络模型的对象类别确定方法及装置 |
CN112148878A (zh) * | 2020-09-23 | 2020-12-29 | 网易(杭州)网络有限公司 | 情感数据处理方法及装置 |
CN112667815A (zh) * | 2020-12-30 | 2021-04-16 | 北京捷通华声科技股份有限公司 | 文本处理方法、装置、计算机可读存储介质及处理器 |
CN112732896A (zh) * | 2020-12-31 | 2021-04-30 | 天津开心生活科技有限公司 | 目标信息显示方法、装置、电子设备和介质 |
CN112732896B (zh) * | 2020-12-31 | 2023-04-07 | 天津开心生活科技有限公司 | 目标信息显示方法、装置、电子设备和介质 |
CN113033216A (zh) * | 2021-03-03 | 2021-06-25 | 东软集团股份有限公司 | 文本预处理方法、装置、存储介质及电子设备 |
CN112699679B (zh) * | 2021-03-25 | 2021-06-29 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置、电子设备及存储介质 |
CN112699679A (zh) * | 2021-03-25 | 2021-04-23 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置、电子设备及存储介质 |
CN113420785A (zh) * | 2021-05-31 | 2021-09-21 | 北京联合大学 | 书面语体类型的分类方法、装置、存储介质及电子设备 |
CN113420785B (zh) * | 2021-05-31 | 2023-12-19 | 北京联合大学 | 书面语体类型的分类方法、装置、存储介质及电子设备 |
CN115249017A (zh) * | 2021-06-23 | 2022-10-28 | 马上消费金融股份有限公司 | 文本标注方法、意图识别模型的训练方法及相关设备 |
CN115249017B (zh) * | 2021-06-23 | 2023-12-19 | 马上消费金融股份有限公司 | 文本标注方法、意图识别模型的训练方法及相关设备 |
CN113420138A (zh) * | 2021-07-15 | 2021-09-21 | 上海明略人工智能(集团)有限公司 | 用于文本分类的方法及装置、电子设备、存储介质 |
CN113420138B (zh) * | 2021-07-15 | 2024-02-13 | 上海明略人工智能(集团)有限公司 | 用于文本分类的方法及装置、电子设备、存储介质 |
CN115858772A (zh) * | 2022-01-13 | 2023-03-28 | 北京中关村科金技术有限公司 | 对文本进行分类的方法、装置以及存储介质 |
CN116738298B (zh) * | 2023-08-16 | 2023-11-24 | 杭州同花顺数据开发有限公司 | 一种文本分类方法、系统和存储介质 |
CN116738298A (zh) * | 2023-08-16 | 2023-09-12 | 杭州同花顺数据开发有限公司 | 一种文本分类方法、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125354A (zh) | 文本分类方法及装置 | |
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN109582788A (zh) | 垃圾评论训练、识别方法、装置、设备及可读存储介质 | |
CN114461804B (zh) | 一种基于关键信息与动态路由的文本分类方法、分类器及系统 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN111639185B (zh) | 关系信息抽取方法、装置、电子设备和可读存储介质 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
US20230073602A1 (en) | System of and method for automatically detecting sarcasm of a batch of text | |
CN115086182A (zh) | 邮件识别模型的优化方法、装置、电子设备及存储介质 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN110827797A (zh) | 语音应答事件分类处理方法和装置 | |
Ruposh et al. | A computational approach of recognizing emotion from Bengali texts | |
CN110610003A (zh) | 用于辅助文本标注的方法和系统 | |
CN111354354A (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN110888983B (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
Baniata et al. | Sentence representation network for Arabic sentiment analysis | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN113255368B (zh) | 针对文本数据进行情感分析的方法、装置及相关设备 | |
CN115292495A (zh) | 情绪分析方法、装置、电子设备及存储介质 | |
CN113051869B (zh) | 一种结合语义识别实现标识文本差异内容的方法及系统 | |
CN115292492A (zh) | 意图分类模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |