CN110209805B - 文本分类方法、装置、存储介质和计算机设备 - Google Patents
文本分类方法、装置、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN110209805B CN110209805B CN201810387343.6A CN201810387343A CN110209805B CN 110209805 B CN110209805 B CN 110209805B CN 201810387343 A CN201810387343 A CN 201810387343A CN 110209805 B CN110209805 B CN 110209805B
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- classification
- word
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 573
- 230000008859 change Effects 0.000 claims abstract description 45
- 230000011218 segmentation Effects 0.000 claims abstract description 30
- 238000013145 classification model Methods 0.000 claims description 161
- 238000012549 training Methods 0.000 claims description 51
- 230000004927 fusion Effects 0.000 claims description 34
- 238000003062 neural network model Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 9
- 238000012512 characterization method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 230000008451 emotion Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及一种文本分类方法、装置、存储介质和计算机设备,该方法包括:将待分类文本进行分词,得到词集合;向量化所述词集合中的各词,得到各所述词各自对应的词向量;根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量;所述第一概率分布向量表示待分类文本属于各分类类别的第一概率分布;根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量;所述第二概率分布向量表示待分类文本属于各分类类别的第二概率分布;通过所述第一概率分布向量与所述第二概率分布向量,确定所述分类文本所属的分类类别。本申请提供的方案提高了文本分类效率。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本分类方法、装置、存储介质和计算机设备。
背景技术
随着计算机技术的不断发展,用户所面对的信息量与日剧增,由于互联网平台上主要通过文本来传递信息。目前,通常是将文本进行分类后再推送给用户,以使得用户可以在众多的文本中快速、高效地找出自己所需要的文本。
传统技术中,通常是通过编辑人员阅读文本进行分类,这种分方式分类精确,但效率太低,尤其是在信息量与日剧增的当下,每天都会有大量文本涌现,人工分类方式已无法满足文本分类的要求。
发明内容
基于此,有必要针对目前文本分类效率比较低的问题,提供一种资源分享方法、装置、存储介质和计算机设备。
一种文本分类方法,包括:
将待分类文本进行分词,得到词集合;
向量化所述词集合中的各词,得到各所述词各自对应的词向量;
根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量;所述第一概率分布向量表示待分类文本属于各分类类别的第一概率分布;
根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量;所述第二概率分布向量表示待分类文本属于各分类类别的第二概率分布;
通过所述第一概率分布向量与所述第二概率分布向量,确定所述分类文本所属的分类类别。
一种文本分类装置,包括:
分词模块,用于将待分类文本进行分词,得到词集合;
向量化模块,用于向量化所述词集合中的各词,得到各所述词各自对应的词向量;
处理模块,用于根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量;所述第一概率分布向量表示待分类文本属于各分类类别的第一概率分布;根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量;所述第二概率分布向量表示待分类文本属于各分类类别的第二概率分布;
分类模块,用于通过所述第一概率分布向量与所述第二概率分布向量,确定所述分类文本所属的分类类别。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
将待分类文本进行分词,得到词集合;
向量化所述词集合中的各词,得到各所述词各自对应的词向量;
根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量;所述第一概率分布向量表示待分类文本属于各分类类别的第一概率分布;
根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量;所述第二概率分布向量表示待分类文本属于各分类类别的第二概率分布;
通过所述第一概率分布向量与所述第二概率分布向量,确定所述分类文本所属的分类类别。
一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
将待分类文本进行分词,得到词集合;
向量化所述词集合中的各词,得到各所述词各自对应的词向量;
根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量;所述第一概率分布向量表示待分类文本属于各分类类别的第一概率分布;
根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量;所述第二概率分布向量表示待分类文本属于各分类类别的第二概率分布;
通过所述第一概率分布向量与所述第二概率分布向量,确定所述分类文本所属的分类类别。
上述文本分类方法、装置、存储介质和计算机设备,自动对将待分类文本进行分词与向量化,得到待分类文本包括的各词各自对应的词向量;继而分别对得到的各词向量进行线性变化和非线性变化得到特征向量,以从多方面来表征文本的特征,从而在得到表示待分类文本属于各分类类别的概率分布后,即可确定分类文本所属的分类类别。这样,既避免了人工分类带来的耗时,提高了文本分类效率,而且不再依赖单一文本特征,提高了文本分类准确率。
附图说明
图1为一个实施例中文本分类方法的流程示意图;
图2为一个实施例中快速文本分类模型的示意图;
图3为一个实施例中卷积神经网络模型的示意图;
图4为一个实施例中模型训练的流程框图;
图5为一个实施例中模型使用的流程框图;
图6为一个实施例中不同文本分类方式的效果对比图;
图7为一个实施例中文本展示的界面示意图;
图8为另一个实施例中文本展示的界面示意图;
图9为一个实施例中文本分类装置的模块结构图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中文本分类方法的流程示意图。本实施例主要以该文本分类方法应用于计算机设备来举例说明。参照图1,该方法具体包括如下步骤:
S102,将待分类文本进行分词,得到词集合。
其中,待分类文本是待确定所属分类类别的文本数据。文本数据是多个字符按照顺序构成的字符序列。分类类别用于反映按照某种分类依据聚类得到的文本的共性。根据不同的分类依据,可以得到不同的分类类别。比如,将文本按照文本主题分类,可得到分类类别如体育类别、时政类别或者金融类别等。
在一个实施例中,待分类文本可以是长文本。长文本具体可以是待分类文章,比如新闻文章等。待分类文本也可以是短文本。短文本具体可以是推广内容,比如广告等。短文本也可以是用户发布内容,比如朋友圈或说说等。
具体地,计算机设备可提供输入界面,以获取用户通过输入界面输入或者上传的需要进行分类的文本数据,继而将获取的文本数据作为待分类文本。计算机设备也可接收其他设备发送的需要进行分类的文本数据,继而将接收到的文本数据作为待分类文本。
在一个实施例中,计算机设备具体可以是与资讯应用对应的服务器,或者运行有资讯应用的终端。资讯应用是用户发布资讯的应用,比如腾讯新闻或者今日头条等应用。用户可通过资讯应用发布文章等资讯。这样,计算机设备在获取到用户发布的文章后,可对该文章进行分类,以在展示或推送该文章时展示或推送该文章的分类类别,或者按该文章的分类类别展示或推送该文章。
进一步地,计算机设备获取到待分类文本后,可采用预设的分词方式对该待分类文本进行分词得到多个单独的词,从而得到这些单独的词组成的词集合。其中,分词是将一个连续的字符序列切分成多个单独的字符或者字符序列。预设的分词方式可以是基于字符匹配、基于语义理解或者基于统计的分词方式。
在一个实施例中,计算机设备在对待分类文本进行分词处理,得到多个字符或者字符序列后,可从得到的字符序列中过滤掉停用词再形成词集合。其中,停用词是自然语言中包括的一种功能字符或者字符序列,这类功能字符或者字符序列并无实际语义,包括代表语气的语气字符或字符序列和表示某种逻辑关系连接字符或字符序列等。
S104,向量化词集合中的各词,得到各词各自对应的词向量。
具体地,计算机设备可对词集合中的各词向量化,得到各词各自对应的词向量。其中,词向量是用于将文本形式的词以数学形式表达的数据。比如,文本形式的“话筒”表示为数学形式“[0 0 0 1 0 0 0 0 0 0 0...]”,此时,“[0 0 0 1 0 00 0 0 0 0...]”即为“话筒”的词向量。可以理解,这里不限定将文本形式的词转换为何种表示的词向量,只要能够将文本形式的词进行数学化表示即可。
其中,计算机设备可通过向量化模型对词进行向量化。向量化模型比如one-hotRepresentation模型或者distributed representation模型等。distributedrepresentation模型具体如word2vec等。
S106,根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量;第一概率分布向量表示待分类文本属于各分类类别的第一概率分布。
其中,第一特征向量是通过对各词向量进行线性变化后得到的、表征待分类文本某种特征的数据。待分类文本属于各分类类别的第一概率分布,是以第一特征向量所表征的特征为依据而确定的待分类文本分别属于每个分类类别的概率。可以理解,概率分布向量中的每个向量元素表示待分类文本属于其中一个分类类别的概率。概率分布向量中各向量元素之和为固定值,比如1。
具体地,计算机设备可以采用预设的线性函数对各词向量进行线性运算得到第一特征向量,或者采用预先训练得到的文本分类模型的线性变化层对各词向量进行线性运算得到第一特征向量。计算机设备在得到第一特征向量后,可再利用预先训练得到的分类器对第一特征向量进行分类,或者预先训练得到的文本分类模型的分类层对第一特征向量进行分类,得到待分类文本分别属于各分类类别的概率,从而得到第一概率分布向量。
其中,分类类别是预先设置的,分类器以及文本分类模型是预先根据属于各分类类别的文本样本有监督地训练得到的。分类器可以是基于Softmax激活函数、xgboost、决策树或者随机森林的分类模型。文本分类模型中的分类层可以是基于Softmax激活函数、xgboost、决策树或者随机森林的分类层。
举例说明,假设概率分布向量为[0.2,0.1,0.5,0.2],那么,预先设置的分类类别包括四种,待分类文本分别属于这四种分类类别的概率分别为0.2、0.1、0.5和0.2。可以理解,这里不对向量元素具体对应的分类类别进行限定,向量元素具体对应的分类类别可在通过文本样本进行训练时设置。比如设置第一个向量元素对应体育类别、第二个向量元素时政类别、第三个向量元素对应金融类别,第四个向量元素对应情感类别。
S108,根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量;第二概率分布向量表示待分类文本属于各分类类别的第二概率分布。
其中,第二特征向量是通过对各词向量进行非线性变化后得到的、表征待分类文本某种特征的数据。待分类文本属于各分类类别的第二概率分布,是以第二特征向量所表征的特征为依据而确定的待分类文本分别属于每个分类类别的概率。
具体地,计算机设备可以采用预设的非线性函数对各词向量进行非线性运算得到第二特征向量,或者采用预先训练得到的文本分类模型的非线性变化层对各词向量进行非线性运算得到第二特征向量。计算机设备在得到第二特征向量后,可再利用预先训练得到的分类器对第二特征向量进行分类,或者预先训练得到的文本分类模型的分类层对第二特征向量进行分类,得到待分类文本分别属于各分类类别的概率,从而得到第二概率分布向量。
可以理解,S106与S108为独立的两种对待分类文本进行分类的方式,第一概率分布向量与第二概率分布向量就可以反映出这两种方式分别对待分类文本进行分类的结果。那么,由于两者分类方式的精度可能不一样,第一概率分布向量与第二概率分布向量也不同。但第一概率分布向量与第二概率分布向量也可能存在相同的情况。那么这种场景下两种分类方式得到的分类结果相同。
其中,通常情况下第一概率分布向量与第二概率分布向量不同,但第一概率分布向量与第二概率分布向量也可能存在相同的情况。那么这种场景下两种分类方式得到的分类结果相同。
S110,通过第一概率分布向量与第二概率分布向量,确定分类文本所属的分类类别。
具体地,计算机设备可拼接第一概率分布向量与第二概率分布向量,得到拼接特征向量,将该拼接特征向量输入融合分类模型,得到融合分类模型输出的分类文本所属的分类类别。其中,融合分类模型可以是基于Softmax激活函数、xgboost、决策树或者随机森林的分类模型。
在一个实施例中,计算机设备可将第一概率分布向量与第二概率分布向量中相应元素位置的向量元素按权重相加,得到融合特征向量;再将融合特征向量中数值最大的向量元素所对应的分类类别确定为待分类文本所属的分类类别。第一概率分布向量的权重,可以是得到第一概率分布向量的分类方式的准确率占两种方式准确率之和的占比。
本实施例中,根据两种分类结果来确定待分类文本所属的分类类别,相比于单一的分类方式对文本进行分类,具有较好的鲁棒性。
上述文本分类方法、装置、存储介质和计算机设备,自动对将待分类文本进行分词与向量化,得到待分类文本包括的各词各自对应的词向量;继而分别对得到的各词向量进行线性变化和非线性变化得到特征向量,以从多方面来表征文本的特征,从而在得到表示待分类文本属于各分类类别的概率分布后,即可确定分类文本所属的分类类别。这样,既避免了人工分类带来的耗时,提高了文本分类效率,而且不再依赖单一文本特征,提高了文本分类准确率。
在一个实施例中,S104包括:确定词集合中各词相应的文本特征和词性特征;根据文本特征和词性特征向量化相应词,得到各词各自对应的词向量。
其中,词性(POS,Part of speech)特征反映的是词包含的字符在词性上的特征。词性包括形容词、介词、谓词和名词等12种词性。文本特征反映的是词包含的字符在文本内容上的特征。
举例说明,比如文本“30年来只买两组幸运数字68岁老伯中千万大奖”分词后各词的相应的文本特征和词性特征为“30|m、年|q、买|v、两|m、组|q、幸运|a、数字|n、68|m、岁|q、老伯|n、中|f、大奖|n”。其中,“n”代表名词、“v”代表动词、“m”代表数量词、“q”代表量词、“a”代表形容词、“f”代表介词。“30”、“年”、“买”等这些字符即为分词得到的各词在文本上的内容。
具体地,计算机设备可根据各词的文本特征与词性特征,将各词向量化,得到各词相应的词向量。其中,计算机设备可以利用机器学习模型将词转化为词向量。机器学习模型比如one-hot Representation模型或者distributed representation模型等。distributed representation模型具体如word2vec等。
在本实施例中,在将组成待分类文本的各词向量化时,不仅考虑到词的内容,还结合了词性信息,使得所生成的词向量能够更加充分、完整地反映词的信息,进而基于该词向量所进行的文本分类更加准确,提高了文本分类的准确性。
在一个实施例中,S106包括:将各词向量输入第一文本分类模型,在第一文本分类模型的隐层中,对各词向量进行线性变化得到第一特征向量;通过第一文本分类模型的分类层对第一特征向量进行分类,输出与待分类文本所对应的第一概率分布向量。
其中,第一文本分类模型是经过训练后具有文本分类能力的机器学习模型。机器学习英文全称为Machine Learning,简称ML。机器学习模型可通过样本学习具备文本分类能力。机器学习模型可采用神经网络模型、支持向量机、逻辑回归模型或者快速文本分类模型等。第一文本分类模型处理词向量得到特征向量的运算方式是线性运算方式。线性运算方式比如加权平均运算等。
在一个实施例中,计算机设备可通过另外的词向量模型向量化词集合中的各词,得到各词各自对应的词向量后,将各词向量输入第一文本分类模型,在第一文本分类模型的隐层中对各词向量进行线性运算。计算机设备也可直接将词集合中的各词输入第一文本分类模型,在第一文本分类模型的向量化层中对各词进行向量化,得到各词各自对应的词向量,再继续在隐层中对词向量进行运算。也就是说,将词集合中的各词向量化的过程可以由第一文本分类模型执行,也可由第一文本分类模型以外的词向量模型来执行。
在一个实施例中,第一文本分类模型为快速文本分类模型。将各词向量输入第一文本分类模型,在第一文本分类模型的隐层中,对各词向量进行线性变化得到第一特征向量,包括:将各词向量输入快速文本分类模型,在快速文本分类模型的隐层中,对各词向量进行加权平均运算,得到第一特征向量。
其中,快速文本分类模型(FastText)包括三层结构:向量化层、隐层与分类层。向量化层用于将词向量化为词向量;隐层用于对各词向量进行加权平均运算得到特征向量;分类层用于对特征向量进行分类得到文本属于每个分类类别的概率。这里,进行加权平均运算的各词的权重可以相同。例如,有两个词向量分别为(1,2,3)和(3,4,5),隐层对这两个词向量进行加权平均运算后的结果为(2,3,4)。
在一个实施例中,待分类文本为待分类文章,包括文章内容和文章标题。可以理解,文章标题对文章所属的分类类别具有较强的表征能力。那么,在对文章内容包括的词的词向量与文章标题包括的词的词向量进行加权平均运算时,文章标题包括的词的词向量的权重可以高于文章内容包括的词的词向量的权重。具体的权重值可自定义。
举例说明,图2示出了一个实施例中快速文本分类模型的示意图。参考图2,计算机设备对待分类文本(待分类文章)分词后的词集合为{C(1),C(2)…C(N-1),C(N)}共N个词,向量化层分别对这些词向量化后得到各词对应的词向量{X(1),X(2)…X(N-1),X(N)}。隐层再对这些词向量进行加权平均运算得到特征向量:T1=[X(1)+X(2)…X(N-1)+X(N)]/N。分类层再对特征向量T1进行分类,得到待分类文本属于每个分类类别的概率:[P1(1),P1(2)…P1(M-1),P1(M)]。M为分类类别的数量。
在一个实施例中,该文本分类方法还包括第一文本分类模型的训练过程。该训练过程具体包括以下步骤:分别收集属于各分类类别的文本样本;为各文本样本添加类别标签;对各文本样本进行分词,得到各文本样本对应的词样本集合;将各文本样本对应的词样本集合作为第一文本分类模型的训练数据,将各文本样本的类别标签作为训练标签,有监督地训练第一文本分类模型,直至满足训练结束条件。
其中,在调整第一文本分类模型的模型参数时,按照最小化模型输出与训练标签的差异的方向调整模型参数。具体可以通过反向传播方式调整模型参数。
在一个实施例中,待分类文本为待分类文章,包括文章正文和文章标题。那么,计算机设备收集的文本样本为文章样本,文章样本包括文章标题样本和文本正文样本。
关于本实施例中,模型训练中第一文本分类模型对输入数据的具体处理步骤可以参见前述实施例中的使用第一文本分类模型时的相关步骤的具体实现过程,在此不再赘述。
上述实施例中,通过对待分类文本按照线性变化后进行文本特征表征,再对表征文本特征的中间数据进行分类,将分类结果作为文本的分类结果,实现了对文本的分类。而且,第一文本分类模型结构简单,采用线性变化进行文本特征表征,提高了第一文本分类模型的训练效率,减少了一次模型预测的耗时。
在一个实施例中,S108包括:将各词向量输入第二文本分类模型,在第二文本分类模型的隐层中,对各词向量进行非线性变化得到第二特征向量;通过第二文本分类模型的分类层对第二特征向量进行分类,输出与待分类文本所对应的第二概率分布向量。
其中,第二文本分类模型也是经过训练后具有文本分类能力的机器学习模型。第二文本分类模型处理词向量得到特征向量的运算方式是非线性运算方式。非线性运算方式比如卷积运算等。
在一个实施例中,计算机设备可通过另外的词向量模型向量化词集合中的各词,得到各词各自对应的词向量后,将各词向量输入第二文本分类模型,在第二文本分类模型的隐层中对各词向量进行非线性运算。计算机设备也可直接将词集合中的各词输入第二文本分类模型,在第二文本分类模型的向量化层中对各词进行向量化,得到各词各自对应的词向量,再继续在隐层中对词向量进行运算。也就是说,将词集合中的各词向量化的过程可以由第二文本分类模型执行,也可由第二文本分类模型以外的词向量模型来执行。
在一个实施例中,第二文本分类模型为神经网络模型。将各词向量输入第二文本分类模型,在第二文本分类模型的隐层中,对各词向量进行非线性变化得到第二特征向量,包括:将各词向量输入神经网络模型,通过神经网络模型中卷积层的多个卷积核对各词向量进行卷积运算,得到每个卷积核输出的中间特征向量;通过神经网络模型的池化层对各中间特征向量进行池化运算,得到每个中间特征向量所对应的特征标量,并将包括各特征标量的第二特征向量传输至神经网络模型的分类层。
其中,神经网络模型具体可以是卷积神经网络模型(CNN)。卷积神经网络模型的卷积层(Convolution Layer)中包括多个卷积核(Convolution Kernel)。卷积核是卷积层对输入进行卷积运算的算子。每个卷积和对输入进行卷积运算后可得到一个输出。神经网络模型的池化层(Pooling Layer)层也称为采样层,用于对输入进行压缩,通常有均值池化(Mean Pooling)和最大值池化(Max Pooling)两种形式。池化可以看作一种特殊的卷积过程。
举例说明,图3示出了一个实施例中卷积神经网络模型的示意图。参考图3,计算机设备对待分类文本(待分类文章)分词后的词集合为{C(1),C(2)…C(N-1),C(N)}共N个词,向量化层分别对这些词向量化后得到各词对应的词向量{X(1),X(2)…X(N-1),X(N)}。卷积层中的卷积核再对这些词向量进行卷积运算,每个卷积核将各词向量共同映射为一个中间特征向量F(i),中间特征向量的数量与卷积核的数量相同。池化层再对各中间特征向量F(i)进行池化运算,将每个中间特征向量F(i)映射为一个特征标量B(i),得到由这些标量组成的特征向量T2。分类层再对特征向量T2进行分类,得到待分类文本属于每个分类类别的概率:[P2(1),P2(2)…P2(M-1),P2(M)]。M为分类类别的数量。其中,卷积层中可包括512个卷积核。卷积核的大小可为3*128、4*128或5*128。词向量的大小为1*128。
在一个实施例中,该文本分类方法还包括第二文本分类模型的训练过程。该训练过程具体包括以下步骤:分别收集属于各分类类别的文本样本;为各文本样本添加类别标签;对各文本样本进行分词,得到各文本样本对应的词样本集合;将各文本样本对应的词样本集合作为第二文本分类模型的训练数据,将各文本样本的类别标签作为训练标签,有监督地训练第二文本分类模型,直至满足训练结束条件。
其中,在调整第二文本分类模型的模型参数时,按照最小化模型输出与训练标签的差异的方向调整模型参数。具体可以通过反向传播方式调整模型参数。
关于本实施例中,模型训练中第二文本分类模型对输入数据的具体处理步骤可以参见前述实施例中的使用第二文本分类模型时的相关步骤的具体实现过程,在此不再赘述。
上述实施例中,通过对待分类文本按照非线性变化后进行文本特征表征,再对表征文本特征的中间数据进行分类,将分类结果作为文本的分类结果,实现了对文本的分类。而且,线性变化的对文本特征的表征能力有限,采用非线性变化能够更加充分、完整地表征文本特征,提高了模型的预测准确率。
在一个实施例中,待分类文本包括文本正文和文本标题。该文本分类方法还包括:获取各分类类别相应的关键词集合;计算每个关键词集合中的关键词与文本标题所包括的词的相关度,得到相应分类类别所对应的相关度;将每个分类类别所对应的相关度中的最大相关度,作为文本标题与该分类类别的类别相关度,并根据各类别相关度生成类别相关度向量。通过第一概率分布向量与第二概率分布向量,确定分类文本所属的分类类别,包括:通过第一概率分布向量、第二概率分布向量以及类别相关度向量,确定分类文本所属的分类类别。
其中,文本标题是文本内容的简要介绍。通常情况下,文本标题对文本所属的分类类别具有较强的表征能力。各分类类别相应的关键词集合,是各分类类别相应的关键词所组成的集合。一个分类类别相应的关键词是反映类别特征的词。举例说明,比如“篮球”、“羽毛球”或者“NBA”等词可以是体育类别的关键词。再比如“漫画”或者“cosplay”等词可以是动漫类别的关键词。
具体地,计算机设备可事先设置分类类别,并生成各分类类别相应的关键词集合。这样,计算机设备在对待分类文本的文本标题进行分词后,可计算分词得到的每个词和每个关键词集合中的关键词的相关度,得到每个分类类别所对应的多个相关度。计算机设备则可进一步地将每个分类类别所对应的相关度中的最大相关度,作为文本标题与该分类类别的类别相关度。
进一步地,计算机设备可根据各类别相关度生成类别相关度向量。该类别相关度向量中的每个向量元素表示文本标题与其中一个分类类别的相关度。
其中,每个分类类别所对应的多个相关度,包括每个分类类别相应的关键词集合中的每个关键词,与待分类文本的文本标题分词后的每个词的相关度。词与词间的相关度可以是两个词的词向量的欧式距离。
举例说明,假设类别相关度向量为[0,0.2,0.8,0],那么,预先设置的分类类别包括四种,待分类文本的文本标题分别与这四种分类类别的相关度为0、0.2、0.8和0。可以理解,这里不对向量元素具体对应的分类类别进行限定,向量元素具体对应的分类类别可在通过文本样本进行训练时设置。比如设置第一个向量元素对应体育类别、第二个向量元素时政类别、第三个向量元素对应金融类别,第四个向量元素对应情感类别。
更进一步地,计算机设备可拼接第一概率分布向量、第二概率分布向量与类别相关度向量,得到拼接特征向量,将该拼接特征向量输入融合分类模型,得到融合分类模型输出的分类文本所属的分类类别。其中,融合分类模型可以是基于Softmax激活函数、xgboost、决策树或者随机森林的分类模型。
计算机设备也可将第一概率分布向量、第二概率分布向量与类别相关度向量中相应元素位置的向量元素按权重相加,得到融合特征向量;再将融合特征向量中数值最大的向量元素所对应的分类类别确定为待分类文本所属的分类类别。第一概率分布向量的权重,可以是得到第一概率分布向量的分类方式的准确率占三种分类方式准确率之和的占比。
可以理解,根据待分类文本的文本标题与各分类类别相应的关键词集合中关键词的相关度计算,得到的类别相关度向量,也可以是独立的对待分类文本进行分类的结果。文本标题也分类类别的相关度运算可以单独用来预测待分类文本所属的分类类别。
在本实施例中,提供了一种计算文本标题与分类类别相关性的方式,并将该方式结合线性表征文本特征分类方式以及非线性表征文本特征分类方式,对待分类文本进行分类,避免了单一方式进行分类时,分类所依据的特征单一、鲁棒性不足的问题,提高了分类准确率。
在一个实施例中,该文本分类方法还包括:获取待分类文本的文本来源;根据文本来源模型将文本来源映射为文本来源向量;文本来源模型根据文本来源样本库训练得到。通过第一概率分布向量、第二概率分布向量以及类别相关度向量,确定分类文本所属的分类类别,包括:通过第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,确定分类文本所属的分类类别。
其中,文本来源是反映文本来源的数据。文本来源具体可以是文本发布平台标识或者文本发布用户标识。当文本具体为文章时,文本来源即文章来源可以是文章作者或者文章发布媒体等。可以理解,文本来源通常可反映文本的类别信息。例如,“腾讯动漫”所发文章都是“动漫”类的,“电竞C站”会常发“游戏”类的文章等。
具体地,计算机设备可将收集的属于各分类类别的文本样本的文本来源生成文本来源序列,通过文本来源序列训练来源向量化模型。该来源向量化模型具体可以是基于word2vec的机器学习模型。这样,计算机设备在欲对待分类文本进行分类时,可获取该待分类文本的文本来源,将该文本来源输入训练好的来源向量化模型,输出文本来源向量。
在一个实施例中,训练来源向量化模型的训练数据可以是用户点击文本列表中文本的文本来源组成的文本来源序列。
在一个实施例中,该文本分类方法还包括:获取各关键词集合中关键词与文本来源的词的相关度。
具体地,计算机设备还可计算对文章来源分词得到的每个词和每个关键词集合中的关键词的相关度。这样,每个分类类别所对应的多个相关度,还包括每个分类类别相应的关键词集合中的每个关键词,与待分类文本的文本来源分词后的每个词的相关度。
上述实施例中,提供了一种计算文本来源特征的方式,并将该方式结合线性表征文本特征分类方式、非线性表征文本特征分类方式以及文本标题与类别相关性,对待分类文本进行分类,避免了单一方式进行分类时,分类所依据的特征单一、鲁棒性不足的问题,提高了分类准确率。
在一个实施例中,通过第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,确定分类文本所属的分类类别,包括:拼接第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,得到融合特征向量;将融合特征向量输入融合分类模型,得到融合分类模型输出的分类文本所属的分类类别。
具体地,计算机设备可拼接第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,得到拼接特征向量,将该拼接特征向量输入融合分类模型,得到融合分类模型输出的分类文本所属的分类类别。其中,融合分类模型可以是基于Softmax激活函数、xgboost、决策树或者随机森林的分类模型。
在一个实施例中,该文本分类方法还包括融合分类模型的训练过程。该训练过程具体包括以下步骤:在将文本样本的词样本集合分别输入第一文本分类模型和第二文本分类模型,并将文本样本的样本来源输入来源向量化模型后,将第一文本分类模型的输出、第二文本分类模型的输出、来源向量化模型的输出及文本样本的文本标题的类别相关度向量拼接后作为训练数据,将文本样本的类别标签作为训练标签,有监督地训练融合分类模型,至满足训练结束条件。
其中,在调整融合分类模型的模型参数时,按照最小化模型输出与训练标签的差异的方向调整模型参数。具体可以通过反向传播方式调整模型参数。
在本实施例中,通过融合模型,综合对文本多种类型的特征表征结果进行分类,相比于单一的模型,提高了分类准确率。
在一个实施例中,该文本分类方法还包括:获取待分类文本的文本来源;根据文本来源模型将文本来源映射为文本来源向量;文本来源模型根据文本来源样本库训练得到。通过第一概率分布向量与第二概率分布向量,确定分类文本所属的分类类别,包括:通过第一概率分布向量、第二概率分布向量以及文本来源向量,确定分类文本所属的分类类别。
在本实施例中,结合文本特征线性表征、文本特征非线性表征以及文本来源特征三种特征来对待分类文本进行分类,避免了单一方式进行分类时,分类所依据的特征单一、鲁棒性不足的问题,提高了分类准确率。
图4示出了一个实施例中模型训练的流程框图。参考图4,计算机设备可收集分别收集属于各分类类别的文本样本以及各文本样本的文本样本来源,其中文本样本包括文本正文样本和文本标题样本。计算机设备可对各文本样本添加类别标签以作为训练标签。计算机设备可对各文本样本进行分词,得到各文本样本对应的词样本集合,该词集合中的词包括:文本正文样本的词、文本标题样本的词和文本样本来源的词。
计算机设备继而通过文本正文样本的词和文本标题样本的词训练第一文本分类模型(FastText)和第二文本分类模型(CNN),分别输出第一概率分布向量(FastTextEmbedding)和第二概率分布向量(CNN Embedding);通过文本样本来源的词训练来源向量化模型,输出文本来源向量(SRC Embedding);通过文本样本来源的词和文本标题样本的词计算文本样本的类别相关度向量(Title2Class Embedding)。
计算机设备再将第一概率分布向量、第二概率分布向量、文本来源向量和类别相关度向量拼接,来训练融合分类模型。最终得到训练完成的第一文本分类模型(FastText)、第二文本分类模型(CNN)、来源向量化模型和融合分类模型。其中各模型的结构在前述实施例中均有描述,再次不再赘述。
图5出了一个实施例中模型使用的流程框图。参考图5,计算机设备获取待分类文本及该待分类文本的文本来源,其中待分类文本包括文本正文和文本标题。计算机设备可对待分类文本进行分词,得到待分类文本对应的词样本集合,该词集合中的词包括:文本正文的词、文本标题的词和文本来源的词。
计算机设备继而将文本正文的词和文本标题的词输入训练好的第一文本分类模型(FastText)和第二文本分类模型(CNN),分别输出第一概率分布向量和第二概率分布向量;将文本来源的词输入来源向量化模型,输出文本来源向量;通过文本来源的词和文本标题的词计算待分类文本的类别相关度向量。计算机设备再将第一概率分布向量、第二概率分布向量、文本来源向量和类别相关度向量拼接,输入融合分类模型,得到融合分类模型输出的分类结果。
图6示出了一个实施例中不同文本分类方式的效果对比图。参考图6,计算机设备可单独通过第一文本分类模型(FastText)对测试文本进行分类测试,分类准确率为0.89。计算机设备可单独通过第二文本分类模型(CNN)对测试文本进行分类测试,分类准确率为0.907。计算机设备可结合第一文本分类模型(FastText)、第二文本分类模型(CNN)和来源向量化模型(SrcEmbed)对测试文本进行分类测试,分类准确率为0.915。计算机设备可结合第一文本分类模型(FastText)、第二文本分类模型(CNN)、来源向量化模型(SrcEmbed)和测试文本的类别相关度向量(Title2ClassEmbed),对测试文本进行分类测试,分类准确率为0.92。可以理解,计算机设备在结合多种方式进行分类测试时,会使用到融合分类模型。
在一个实施例中,终端在展示确定分类类别的文本时,可展示该文本的分类类别,或者按该文本的分类类别展示该文本。
举例说明,图7示出了一个实施例中文本展示的界面示意图。在本实施例中,文本具体为文章。参考图7,可以明显看到在展示文章时,同时展示了该文章的分类类别701。例如,对文章“《红海行动》里几十秒的爱情:细节最容易出卖人心”分类为“emotion(情感)”,在文章中展示了所属的分类类别。再参考图8,图8示出了一个实施例中文本展示的界面示意图。在本实施例中,文本具体为文章。参考图8,可以明显看到在展示文章时,按该文章的分类类别801展示该文章。例如,对文章“《红海行动》里几十秒的爱情:细节最容易出卖人心”分类为“emotion(情感)”,将文章显示在所属的分类类别的栏目下。
应该理解的是,虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图9所示,在一个实施例中,提供了一种文本分类装置900。参照图9,该文本分类装置900包括:分词模块901、向量化模块902、处理模块903和分类模块904。
分词模块901,用于将待分类文本进行分词,得到词集合。
向量化模块902,用于向量化词集合中的各词,得到各词各自对应的词向量。
处理模块903,用于根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量;第一概率分布向量表示待分类文本属于各分类类别的第一概率分布;根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量;第二概率分布向量表示待分类文本属于各分类类别的第二概率分布。
分类模块904,用于通过第一概率分布向量与第二概率分布向量,确定分类文本所属的分类类别。
在一个实施例中,向量化模块902还用于确定词集合中各词相应的文本特征和词性特征;根据文本特征和词性特征向量化相应词,得到各词各自对应的词向量。
在一个实施例中,处理模块903还用于将各词向量输入第一文本分类模型,在第一文本分类模型的隐层中,对各词向量进行线性变化得到第一特征向量;通过第一文本分类模型的分类层对第一特征向量进行分类,输出与待分类文本所对应的第一概率分布向量。
在一个实施例中,第一文本分类模型为快速文本分类模型。处理模块903还用于将各词向量输入快速文本分类模型,在快速文本分类模型的隐层中,对各词向量进行加权平均运算,得到第一特征向量。
在一个实施例中,处理模块903还用于将各词向量输入第二文本分类模型,在第二文本分类模型的隐层中,对各词向量进行非线性变化得到第二特征向量;通过第二文本分类模型的分类层对第二特征向量进行分类,输出与待分类文本所对应的第二概率分布向量。
在一个实施例中,第二文本分类模型为神经网络模型。处理模块903还用于将各词向量输入神经网络模型,通过神经网络模型中卷积层的多个卷积核对各词向量进行卷积运算,得到每个卷积核输出的中间特征向量;通过神经网络模型的池化层对各中间特征向量进行池化运算,得到每个中间特征向量所对应的特征标量,并将包括各特征标量的第二特征向量传输至神经网络模型的分类层。
在一个实施例中,待分类文本包括文本正文和文本标题。处理模块903还用于获取各分类类别相应的关键词集合;计算每个关键词集合中的关键词与文本标题所包括的词的相关度,得到相应分类类别所对应的相关度;将每个分类类别所对应的相关度中的最大相关度,作为文本标题与该分类类别的类别相关度,并根据各类别相关度生成类别相关度向量。分类模块904还用于通过第一概率分布向量、第二概率分布向量以及类别相关度向量,确定分类文本所属的分类类别。
在一个实施例中,处理模块903还用于获取待分类文本的文本来源;根据文本来源模型将文本来源映射为文本来源向量;文本来源模型根据文本来源样本库训练得到。分类模块904还用于通过第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,确定分类文本所属的分类类别。
在一个实施例中,处理模块903还用于获取各关键词集合中关键词与文本来源的词的相关度。
在一个实施例中,分类模块904还用于拼接第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,得到拼接特征向量;将拼接特征向量输入融合分类模型,得到融合分类模型输出的分类文本所属的分类类别。
在一个实施例中,处理模块903还用于获取待分类文本的文本来源;根据文本来源模型将文本来源映射为文本来源向量;文本来源模型根据文本来源样本库训练得到。分类模块904还用于通过第一概率分布向量、第二概率分布向量以及文本来源向量,确定分类文本所属的分类类别。
在一个实施例中,待分类文本为待分类文章。
图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端也可以是服务器。如图10所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本分类方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本分类方法。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本分类装置可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该文本分类装置的各个程序模块,比如,图9所示的分词模块901、向量化模块902、处理模块903和分类模块904等。各个程序模块组成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本分类方法中的步骤。
例如,图10所示的计算机设备可以通过如图9所示的文本分类装置900中的分词模块901将待分类文本进行分词,得到词集合。向量化模块902向量化词集合中的各词,得到各词各自对应的词向量。处理模块903根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量;第一概率分布向量表示待分类文本属于各分类类别的第一概率分布;根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量;第二概率分布向量表示待分类文本属于各分类类别的第二概率分布。分类模块904通过第一概率分布向量与第二概率分布向量,确定分类文本所属的分类类别。
在一个实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,使得处理器执行以下步骤:将待分类文本进行分词,得到词集合;向量化词集合中的各词,得到各词各自对应的词向量;根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量;第一概率分布向量表示待分类文本属于各分类类别的第一概率分布;根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量;第二概率分布向量表示待分类文本属于各分类类别的第二概率分布;通过第一概率分布向量与第二概率分布向量,确定分类文本所属的分类类别。
在一个实施例中,向量化词集合中的各词,得到各词各自对应的词向量,包括:确定词集合中各词相应的文本特征和词性特征;根据文本特征和词性特征向量化相应词,得到各词各自对应的词向量。
在一个实施例中,根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量,包括:将各词向量输入第一文本分类模型,在第一文本分类模型的隐层中,对各词向量进行线性变化得到第一特征向量;通过第一文本分类模型的分类层对第一特征向量进行分类,输出与待分类文本所对应的第一概率分布向量。
在一个实施例中,第一文本分类模型为快速文本分类模型。将各词向量输入第一文本分类模型,在第一文本分类模型的隐层中,对各词向量进行线性变化得到第一特征向量,包括:将各词向量输入快速文本分类模型,在快速文本分类模型的隐层中,对各词向量进行加权平均运算,得到第一特征向量。
在一个实施例中,根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量,包括:将各词向量输入第二文本分类模型,在第二文本分类模型的隐层中,对各词向量进行非线性变化得到第二特征向量;通过第二文本分类模型的分类层对第二特征向量进行分类,输出与待分类文本所对应的第二概率分布向量。
在一个实施例中,第二文本分类模型为神经网络模型。将各词向量输入第二文本分类模型,在第二文本分类模型的隐层中,对各词向量进行非线性变化得到第二特征向量,包括:将各词向量输入神经网络模型,通过神经网络模型中卷积层的多个卷积核对各词向量进行卷积运算,得到每个卷积核输出的中间特征向量;通过神经网络模型的池化层对各中间特征向量进行池化运算,得到每个中间特征向量所对应的特征标量,并将包括各特征标量的第二特征向量传输至神经网络模型的分类层。
在一个实施例中,待分类文本包括文本正文和文本标题。该计算机程序还使得处理器执行以下步骤:获取各分类类别相应的关键词集合;计算每个关键词集合中的关键词与文本标题所包括的词的相关度,得到相应分类类别所对应的相关度;将每个分类类别所对应的相关度中的最大相关度,作为文本标题与该分类类别的类别相关度,并根据各类别相关度生成类别相关度向量。通过第一概率分布向量与第二概率分布向量,确定分类文本所属的分类类别,包括:通过第一概率分布向量、第二概率分布向量以及类别相关度向量,确定分类文本所属的分类类别。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:获取待分类文本的文本来源;根据文本来源模型将文本来源映射为文本来源向量;文本来源模型根据文本来源样本库训练得到。通过第一概率分布向量、第二概率分布向量以及类别相关度向量,确定分类文本所属的分类类别,包括:通过第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,确定分类文本所属的分类类别。
在一个实施例中,待分类文本包括文本正文和文本标题。该计算机程序还使得处理器执行以下步骤:获取各关键词集合中关键词与文本来源的词的相关度。
在一个实施例中,通过第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,确定分类文本所属的分类类别,包括:拼接第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,得到拼接特征向量;将拼接特征向量输入融合分类模型,得到融合分类模型输出的分类文本所属的分类类别。
在一个实施例中,待分类文本包括文本正文和文本标题。该计算机程序还使得处理器执行以下步骤:获取待分类文本的文本来源;根据文本来源模型将文本来源映射为文本来源向量;文本来源模型根据文本来源样本库训练得到。通过第一概率分布向量与第二概率分布向量,确定分类文本所属的分类类别,包括:通过第一概率分布向量、第二概率分布向量以及文本来源向量,确定分类文本所属的分类类别。
在一个实施例中,待分类文本为待分类文章。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:将待分类文本进行分词,得到词集合;向量化词集合中的各词,得到各词各自对应的词向量;根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量;第一概率分布向量表示待分类文本属于各分类类别的第一概率分布;根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量;第二概率分布向量表示待分类文本属于各分类类别的第二概率分布;通过第一概率分布向量与第二概率分布向量,确定分类文本所属的分类类别。
在一个实施例中,向量化词集合中的各词,得到各词各自对应的词向量,包括:确定词集合中各词相应的文本特征和词性特征;根据文本特征和词性特征向量化相应词,得到各词各自对应的词向量。
在一个实施例中,根据对各词向量进行线性变化得到的第一特征向量,得到第一概率分布向量,包括:将各词向量输入第一文本分类模型,在第一文本分类模型的隐层中,对各词向量进行线性变化得到第一特征向量;通过第一文本分类模型的分类层对第一特征向量进行分类,输出与待分类文本所对应的第一概率分布向量。
在一个实施例中,第一文本分类模型为快速文本分类模型。将各词向量输入第一文本分类模型,在第一文本分类模型的隐层中,对各词向量进行线性变化得到第一特征向量,包括:将各词向量输入快速文本分类模型,在快速文本分类模型的隐层中,对各词向量进行加权平均运算,得到第一特征向量。
在一个实施例中,根据对各词向量进行非线性变化得到的第二特征向量,得到第二概率分布向量,包括:将各词向量输入第二文本分类模型,在第二文本分类模型的隐层中,对各词向量进行非线性变化得到第二特征向量;通过第二文本分类模型的分类层对第二特征向量进行分类,输出与待分类文本所对应的第二概率分布向量。
在一个实施例中,第二文本分类模型为神经网络模型。将各词向量输入第二文本分类模型,在第二文本分类模型的隐层中,对各词向量进行非线性变化得到第二特征向量,包括:将各词向量输入神经网络模型,通过神经网络模型中卷积层的多个卷积核对各词向量进行卷积运算,得到每个卷积核输出的中间特征向量;通过神经网络模型的池化层对各中间特征向量进行池化运算,得到每个中间特征向量所对应的特征标量,并将包括各特征标量的第二特征向量传输至神经网络模型的分类层。
在一个实施例中,待分类文本包括文本正文和文本标题。该计算机程序还使得处理器执行以下步骤:获取各分类类别相应的关键词集合;计算每个关键词集合中的关键词与文本标题所包括的词的相关度,得到相应分类类别所对应的相关度;将每个分类类别所对应的相关度中的最大相关度,作为文本标题与该分类类别的类别相关度,并根据各类别相关度生成类别相关度向量。通过第一概率分布向量与第二概率分布向量,确定分类文本所属的分类类别,包括:通过第一概率分布向量、第二概率分布向量以及类别相关度向量,确定分类文本所属的分类类别。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:获取待分类文本的文本来源;根据文本来源模型将文本来源映射为文本来源向量;文本来源模型根据文本来源样本库训练得到。通过第一概率分布向量、第二概率分布向量以及类别相关度向量,确定分类文本所属的分类类别,包括:通过第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,确定分类文本所属的分类类别。
在一个实施例中,待分类文本包括文本正文和文本标题。该计算机程序还使得处理器执行以下步骤:获取各关键词集合中关键词与文本来源的词的相关度。
在一个实施例中,通过第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,确定分类文本所属的分类类别,包括:拼接第一概率分布向量、第二概率分布向量、类别相关度向量以及文本来源向量,得到拼接特征向量;将拼接特征向量输入融合分类模型,得到融合分类模型输出的分类文本所属的分类类别。
在一个实施例中,待分类文本包括文本正文和文本标题。该计算机程序还使得处理器执行以下步骤:获取待分类文本的文本来源;根据文本来源模型将文本来源映射为文本来源向量;文本来源模型根据文本来源样本库训练得到。通过第一概率分布向量与第二概率分布向量,确定分类文本所属的分类类别,包括:通过第一概率分布向量、第二概率分布向量以及文本来源向量,确定分类文本所属的分类类别。
在一个实施例中,待分类文本为待分类文章。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (14)
1.一种文本分类方法,包括:
将待分类文本进行分词,得到词集合;所述待分类文本包括文本正文和文本标题;所述待分类文本是通过资讯应用发布的文章;
向量化所述词集合中的各词,得到各所述词各自对应的词向量;
根据对各词向量进行加权平均运算得到的第一特征向量,得到第一概率分布向量;所述第一概率分布向量表示待分类文本属于各分类类别的第一概率分布;
将各所述词向量输入神经网络模型,通过所述神经网络模型中卷积层的多个卷积核对各所述词向量进行卷积运算,得到每个卷积核输出的中间特征向量,通过所述神经网络模型的池化层对各所述中间特征向量进行池化运算,得到每个中间特征向量所对应的特征标量,并将包括各所述特征标量的第二特征向量传输至所述神经网络模型的分类层,通过所述神经网络模型的分类层对所述第二特征向量进行分类,输出与所述待分类文本所对应的第二概率分布向量;所述第二概率分布向量表示待分类文本属于各分类类别的第二概率分布;
获取各分类类别相应的关键词集合;对于每个分类类别,所述分类类别相应的关键词集合,是所述分类类别相应的关键词所组成的集合;
针对每个关键词集合,获取所述关键词集合中关键词与所述待分类文本的文本来源中词的相关度,并计算所述关键词集合中的关键词与所述文本标题所包括的词的相关度,基于各所述相关度得到相应分类类别所对应的多个相关度;
将每个分类类别所对应的相关度中的最大相关度,作为所述文本标题与所述分类类别的类别相关度,并根据各所述类别相关度生成类别相关度向量;所述类别相关度向量中的每个向量元素表示所述文本标题与一个分类类别的类别相关度;
将所述文本来源映射为文本来源向量,拼接所述第一概率分布向量、所述第二概率分布向量、所述类别相关度向量以及所述文本来源向量,得到拼接特征向量,基于所述拼接特征向量确定所述待分类文本所属的分类类别,所述待分类文本所属的分类类别,用于在所述资讯应用中展示所述待分类文本时,在所述待分类文本中展示所述待分类文本所属的分类类别。
2.根据权利要求1所述的方法,其特征在于,所述向量化所述词集合中的各词,得到各所述词各自对应的词向量,包括:
确定所述词集合中各词相应的文本特征和词性特征;
根据所述文本特征和所述词性特征向量化相应词,得到各所述词各自对应的词向量。
3.根据权利要求1所述的方法,其特征在于,所述根据对各词向量进行加权平均运算得到的第一特征向量,得到第一概率分布向量,包括:
将各所述词向量输入第一文本分类模型,在所述第一文本分类模型的隐层中,对各所述词向量进行加权平均运算得到第一特征向量;
通过所述第一文本分类模型的分类层对所述第一特征向量进行分类,输出与所述待分类文本所对应的第一概率分布向量。
4.根据权利要求3所述的方法,其特征在于,所述第一文本分类模型为快速文本分类模型;
所述将各所述词向量输入第一文本分类模型,在所述第一文本分类模型的隐层中,对各所述词向量进行线性变化得到第一特征向量,包括:
将各所述词向量输入快速文本分类模型,在所述快速文本分类模型的隐层中,对各所述词向量进行加权平均运算,得到第一特征向量。
5.根据权利要求1中所述的方法,其特征在于,所述基于所述拼接特征向量确定所述分类文本所属的分类类别包括:
将所述拼接特征向量输入融合分类模型,得到所述融合分类模型输出的所述分类文本所属的分类类别。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述将所述文本来源映射为文本来源向量包括:
根据文本来源模型将所述文本来源映射为文本来源向量;所述文本来源模型根据文本来源样本库训练得到。
7.一种文本分类装置,包括:
分词模块,用于将待分类文本进行分词,得到词集合;所述待分类文本包括文本正文和文本标题;所述待分类文本是通过资讯应用发布的文章;
向量化模块,用于向量化所述词集合中的各词,得到各所述词各自对应的词向量;
处理模块,用于根据对各词向量进行加权平均运算得到的第一特征向量,得到第一概率分布向量;所述第一概率分布向量表示待分类文本属于各分类类别的第一概率分布;将各所述词向量输入神经网络模型,通过所述神经网络模型中卷积层的多个卷积核对各所述词向量进行卷积运算,得到每个卷积核输出的中间特征向量,通过所述神经网络模型的池化层对各所述中间特征向量进行池化运算,得到每个中间特征向量所对应的特征标量,并将包括各所述特征标量的第二特征向量传输至所述神经网络模型的分类层,通过所述神经网络模型的分类层对所述第二特征向量进行分类,输出与所述待分类文本所对应的第二概率分布向量;所述第二概率分布向量表示待分类文本属于各分类类别的第二概率分布;获取各分类类别相应的关键词集合;对于每个分类类别,所述分类类别相应的关键词集合,是所述分类类别相应的关键词所组成的集合;针对每个关键词集合,获取所述关键词集合中关键词与所述待分类文本的文本来源中词的相关度,并计算所述关键词集合中的关键词与文本标题所包括的词的相关度,基于各所述相关度得到相应分类类别所对应的多个相关度;将每个分类类别所对应的相关度中的最大相关度,作为所述文本标题与所述分类类别的类别相关度,并根据各所述类别相关度生成类别相关度向量;所述类别相关度向量中的每个向量元素表示所述文本标题与一个分类类别的类别相关度;
分类模块,用于将所述文本来源映射为文本来源向量,拼接所述第一概率分布向量、所述第二概率分布向量、所述类别相关度向量以及所述文本来源向量,得到拼接特征向量,基于所述拼接特征向量确定所述待分类文本所属的分类类别;所述待分类文本所属的分类类别,用于在所述资讯应用中展示所述待分类文本时,在所述待分类文本中展示所述待分类文本所属的分类类别。
8.根据权利要求7所述的装置,其特征在于,所述向量化模块,还用于:
确定所述词集合中各词相应的文本特征和词性特征;
根据所述文本特征和所述词性特征向量化相应词,得到各所述词各自对应的词向量。
9.根据权利要求7所述的装置,其特征在于,所述处理模块,还用于:
将各所述词向量输入第一文本分类模型,在所述第一文本分类模型的隐层中,对各所述词向量进行线性变化得到第一特征向量;
通过所述第一文本分类模型的分类层对所述第一特征向量进行分类,输出与所述待分类文本所对应的第一概率分布向量。
10.根据权利要求9所述的装置,其特征在于,所述第一文本分类模型为快速文本分类模型;所述处理模块,还用于:
将各所述词向量输入快速文本分类模型,在所述快速文本分类模型的隐层中,对各所述词向量进行加权平均运算,得到第一特征向量。
11.根据权利要求7所述的装置,其特征在于,所述分类模块,还用于:
将所述拼接特征向量输入融合分类模型,得到所述融合分类模型输出的所述分类文本所属的分类类别。
12.根据权利要求7-10中任一项所述的装置,其特征在于,所述装置还用于:
根据文本来源模型将所述文本来源映射为文本来源向量;所述文本来源模型根据文本来源样本库训练得到。
13.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述的方法的步骤。
14.一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810387343.6A CN110209805B (zh) | 2018-04-26 | 2018-04-26 | 文本分类方法、装置、存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810387343.6A CN110209805B (zh) | 2018-04-26 | 2018-04-26 | 文本分类方法、装置、存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209805A CN110209805A (zh) | 2019-09-06 |
CN110209805B true CN110209805B (zh) | 2023-11-28 |
Family
ID=67779056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810387343.6A Active CN110209805B (zh) | 2018-04-26 | 2018-04-26 | 文本分类方法、装置、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209805B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096695B (zh) * | 2018-01-30 | 2023-01-03 | 腾讯科技(深圳)有限公司 | 超链接标记方法和装置、文本分类方法和装置 |
CN112685374B (zh) * | 2019-10-17 | 2023-04-11 | 中国移动通信集团浙江有限公司 | 日志分类方法、装置及电子设备 |
CN111027667B (zh) * | 2019-12-06 | 2023-10-17 | 北京金山安全软件有限公司 | 意图类别的识别方法和装置 |
CN111191893B (zh) * | 2019-12-20 | 2024-03-26 | 北京淇瑀信息科技有限公司 | 风控文本处理方法、装置及电子设备 |
CN111159412B (zh) * | 2019-12-31 | 2023-05-12 | 腾讯科技(深圳)有限公司 | 分类方法、装置、电子设备及可读存储介质 |
CN111241824B (zh) * | 2020-01-09 | 2020-11-24 | 中国搜索信息科技股份有限公司 | 一种用于中文隐喻信息识别的方法 |
CN111831806B (zh) * | 2020-07-02 | 2024-04-09 | 北京小米松果电子有限公司 | 语义完整性确定方法、装置、电子设备和存储介质 |
CN112328791A (zh) * | 2020-11-09 | 2021-02-05 | 济南大学 | 一种基于DiTextCNN的中文政务信息的文本分类方法 |
CN112487263A (zh) * | 2020-11-26 | 2021-03-12 | 杭州安恒信息技术股份有限公司 | 一种信息处理方法、系统、设备及计算机可读存储介质 |
CN112507120B (zh) * | 2021-02-07 | 2021-06-04 | 上海二三四五网络科技有限公司 | 一种保持分类一致性的预测方法及装置 |
CN113239200B (zh) * | 2021-05-20 | 2022-07-12 | 东北农业大学 | 内容识别分类方法、装置、系统及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936887A (zh) * | 2005-09-22 | 2007-03-28 | 国家计算机网络与信息安全管理中心 | 基于类别概念空间的自动文本分类方法 |
CN103064930A (zh) * | 2012-12-21 | 2013-04-24 | 人民搜索网络股份公司 | 一种基于网页拓扑结构的网页地理位置识别方法 |
CN106503236A (zh) * | 2016-10-28 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的问题分类方法以及装置 |
CN106776695A (zh) * | 2016-11-11 | 2017-05-31 | 上海中信信息发展股份有限公司 | 实现文书档案价值自动鉴定的方法 |
CN106886512A (zh) * | 2015-12-15 | 2017-06-23 | 腾讯科技(深圳)有限公司 | 文章分类方法和装置 |
KR20170096282A (ko) * | 2016-02-15 | 2017-08-24 | 한국과학기술원 | 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법 |
CN107436875A (zh) * | 2016-05-25 | 2017-12-05 | 华为技术有限公司 | 文本分类方法及装置 |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
-
2018
- 2018-04-26 CN CN201810387343.6A patent/CN110209805B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936887A (zh) * | 2005-09-22 | 2007-03-28 | 国家计算机网络与信息安全管理中心 | 基于类别概念空间的自动文本分类方法 |
CN103064930A (zh) * | 2012-12-21 | 2013-04-24 | 人民搜索网络股份公司 | 一种基于网页拓扑结构的网页地理位置识别方法 |
CN106886512A (zh) * | 2015-12-15 | 2017-06-23 | 腾讯科技(深圳)有限公司 | 文章分类方法和装置 |
KR20170096282A (ko) * | 2016-02-15 | 2017-08-24 | 한국과학기술원 | 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법 |
CN107436875A (zh) * | 2016-05-25 | 2017-12-05 | 华为技术有限公司 | 文本分类方法及装置 |
CN106503236A (zh) * | 2016-10-28 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的问题分类方法以及装置 |
CN106776695A (zh) * | 2016-11-11 | 2017-05-31 | 上海中信信息发展股份有限公司 | 实现文书档案价值自动鉴定的方法 |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110209805A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209805B (zh) | 文本分类方法、装置、存储介质和计算机设备 | |
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
US20150213361A1 (en) | Predicting interesting things and concepts in content | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN110325986A (zh) | 文章处理方法、装置、服务器及存储介质 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN111813944A (zh) | 一种直播评论分析方法、装置、电子设备及存储介质 | |
CN110955766A (zh) | 一种自动扩充智能客服标准问题对的方法和系统 | |
Alsubari et al. | Fake reviews identification based on deep computational linguistic | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
Ueno et al. | A spoiler detection method for japanese-written reviews of stories | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Duman | Social media analytical CRM: a case study in a bank | |
Ratmele et al. | OpExHAN: opinion extraction using hierarchical attention network from unstructured reviews | |
CN112182020B (zh) | 金融行为识别与分类的方法、装置及计算机可读存储介质 | |
CN115455151A (zh) | 一种ai情绪可视化识别方法、系统及云平台 | |
Popova et al. | Keyphrase extraction using extended list of stop words with automated updating of stop words list | |
CN114580398A (zh) | 文本信息提取模型生成方法、文本信息提取方法和装置 | |
CN112115258B (zh) | 一种用户的信用评价方法、装置、服务器及存储介质 | |
Arora et al. | Evaluation Of Product Reviews Using Deep Learning Classifier Models | |
Dop | Hands-On Natural Language Processing with PyTorch 1. x: Build smart, AI-driven linguistic applications using deep learning and NLP techniques | |
Periasamy et al. | A Comparative Study of ConvoBiGRU and ConvoBiLSTM on Amazon Dataset | |
KR102599136B1 (ko) | 트랜스포머 모델을 이용한 농산물 가격예측 방법 및 시스템 | |
US20220262268A1 (en) | Computer implemented description analysis for topic-domain mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |