CN113821634A - 内容分类方法、装置、电子设备和存储介质 - Google Patents
内容分类方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113821634A CN113821634A CN202110837092.9A CN202110837092A CN113821634A CN 113821634 A CN113821634 A CN 113821634A CN 202110837092 A CN202110837092 A CN 202110837092A CN 113821634 A CN113821634 A CN 113821634A
- Authority
- CN
- China
- Prior art keywords
- class
- category
- probability
- text description
- description information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24317—Piecewise classification, i.e. whereby each classification requires several discriminant rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种内容分类方法、装置、电子设备和存储介质,可以提取待分类内容对应的文本描述信息的文本特征信息;根据文本特征信息预测文本描述信息属于第一层级类别中预设类别的第一类别概率;基于第一类别概率从第一层级类别的预设类别中确定文本描述信息的第一类别;根据第一类别概率和文本特征信息,预测文本描述信息属于第二层级类别中预设类别的第二类别概率;基于第二类别概率从第二层级类别的预设类别中确定文本描述信息的第二类别;根据第一类别和第二类别确定待分类内容的分类信息。本申请可以基于第一层级类别的预测结果,来对文本描述信息在第二层级类别中的第二类别进行预测,可以提高内容层级分类的准确度。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种内容分类方法、装置、电子设备和存储介质。
背景技术
随着计算机技术的发展,多媒体的应用越来越广泛,各种各样的内容信息(比如视频、图像、文章等)也急剧增长。为了方便用户从海量的内容中快速获取想要观看的内容,内容展示平台通常会将该平台上大量的内容进行分类。内容分类对于实现内容的管理以及兴趣推荐具有十分重要的作用。此外,内容分类的技术在监控、检索以及人机交互等领域被广泛应用。
层次分类是内容分类领域中重要的一项任务,其主要的特点在于类目标签具有上下级的关系,上级标签是下级标签的父级。
在目前的相关技术中,通常将层次分类当成几个基础的多分类任务,将类目体系拉平,分类模型直接预测内容信息的二级类目,再由预测得到的二级类目结果来回溯一级类目,比如,分类模型预测得到的二级类目为“手机”,根据二级类目“手机”,可以回溯确定该内容信息的一级类目为“科技”。这样没有很好的利用标签的上下级约束关系,使得分类的精确度较低。
发明内容
本申请实施例提供一种内容分类方法、装置、电子设备和存储介质,可以提高内容层级分类的准确度。
本申请实施例提供一种内容分类方法,包括:
获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;
根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;
基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;
根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;
基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;
根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。
相应的,本申请实施例提供一种内容分类装置,包括:
提取单元,用于获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;
第一预测单元,用于根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;
第一确定单元,用于基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;
第二预测单元,用于根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;
第二确定单元,用于基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;
第三确定单元,用于根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。
可选的,在本申请的一些实施例中,所述第二预测单元可以包括第一融合子单元和第一预测子单元,如下:
所述第一融合子单元,用于将所述第一层级类别中预设类别对应的类别信息和所述第一类别概率进行融合,得到所述第一层级类别中预设类别的类别特征信息;
第一预测子单元,用于根据所述类别特征信息和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
可选的,在本申请的一些实施例中,所述第一融合子单元具体可以用于根据所述第一类别概率,从所述第一层级类别的预设类别中选取参考类别;将所述参考类别对应的类别信息和所述参考类别对应的第一类别概率进行融合,得到所述第一层级类别中参考类别的类别特征信息。
可选的,在本申请的一些实施例中,所述第一预测子单元具体可以用于将所述类别特征信息和所述文本特征信息进行融合,得到融合后特征信息;对所述融合后特征信息进行多个维度下的卷积处理,得到多个维度下的卷积特征信息;根据各个维度下的卷积特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
可选的,在本申请的一些实施例中,步骤“根据各个维度下的卷积特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率”,可以包括:
对各个维度下的卷积特征信息进行融合,得到多维度融合信息;
根据所述多维度融合信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
可选的,在本申请的一些实施例中,所述第二预测单元可以包括选取子单元、第二融合子单元和第二预测子单元,如下:
所述选取子单元,用于基于所述第一类别概率,从所述第一层级类别的预设类别中选取参考类别;
第二融合子单元,用于将所述参考类别对应的类别信息和所述文本特征信息进行融合,得到所述文本描述信息的融合后特征信息;
第二预测子单元,用于根据所述融合后特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
可选的,在本申请的一些实施例中,所述提取单元具体可以用于通过分类模型,对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息。
可选的,在本申请的一些实施例中,所述内容分类装置还可以包括训练单元,所述训练单元用于对分类模型进行训练;具体如下:
所述训练单元,用于获取训练数据,所述训练数据包括样本文本描述信息、所述样本文本描述信息属于第一层级类别中预设类别的期望第一类别概率以及所述样本文本描述信息属于第二层级类别中预设类别的期望第二类别概率;通过预设分类模型,对所述样本文本描述信息进行特征提取,得到所述样本文本描述信息对应的文本特征信息;根据所述文本特征信息,预测所述样本文本描述信息属于所述第一层级类别中预设类别的实际第一类别概率;根据所述实际第一类别概率和所述文本特征信息,预测所述样本文本描述信息属于所述第二层级类别中预设类别的实际第二类别概率;基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率、以及实际第二类别概率和期望第二类别概率,调整预设分类模型的参数,得到训练后的分类模型。
可选的,在本申请的一些实施例中,步骤“基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率、以及实际第二类别概率和期望第二类别概率,调整预设分类模型的参数”,可以包括:
基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率,计算所述样本文本描述信息的第一类别损失值;
基于所述样本文本描述信息的实际第二类别概率和期望第二类别概率,计算所述样本文本描述信息的第二类别损失值;
根据所述第一类别损失值和所述第二类别损失值,调整预设分类模型的参数。
可选的,在本申请的一些实施例中,步骤“根据所述第一类别损失值和所述第二类别损失值,调整预设分类模型的参数”,可以包括:
根据所述样本文本描述信息的期望第一类别概率和期望第二类别概率,确定所述样本文本描述信息在所述第一层级类别中的目标第一类别和在所述第二层级类别中的目标第二类别;
对所述样本文本描述信息属于所述目标第二类别的实际第二类别概率和所述样本文本描述信息属于所述目标第一类别的实际第一类别概率进行差值运算,得到所述样本文本描述信息的结构损失值;
根据所述第一类别损失值、所述第二类别损失值和所述结构损失值,调整预设分类模型的参数。
本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的内容分类方法中的步骤。
此外,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的内容分类方法中的步骤。
本申请实施例提供了一种内容分类方法、装置、电子设备和存储介质,可以获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。本申请可以基于第一层级类别的预测结果,来对文本描述信息在第二层级类别中的第二类别进行预测,可以提高内容层级分类的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的内容分类方法的场景示意图;
图1b是本申请实施例提供的内容分类方法的流程图;
图1c是本申请实施例提供的内容分类方法的说明图;
图1d是本申请实施例提供的内容分类方法的另一说明图;
图1e是本申请实施例提供的内容分类方法的模型架构图;
图2是本申请实施例提供的内容分类方法的另一流程图;
图3是本申请实施例提供的内容分类装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种内容分类方法、装置、电子设备和存储介质。该内容分类装置具体可以集成在电子设备中,该电子设备可以是终端或服务器等设备。
可以理解的是,本实施例的内容分类方法可以是在终端上执行的,也可以是在服务器上执行,还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。
如图1a所示,以终端和服务器共同执行内容分类方法为例。本申请实施例提供的内容分类系统包括终端10和服务器11等;终端10与服务器11之间通过网络连接,比如,通过有线或无线网络连接等,其中,内容分类装置可以集成在服务器中。
其中,服务器11,可以用于:获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。其中,服务器11可以是单台服务器,也可以是由多个服务器组成的服务器集群或云服务器。本申请所公开的内容分类方法或装置,其中多个服务器可组成为一区块链,而服务器为区块链上的节点。
其中,终端10可以接收服务器11发送的待分类内容的分类信息,并基于该分类信息,对待分类内容进行处理,比如,对待分类内容进行推荐等。其中,终端10可以包括手机、智能电视、平板电脑、笔记本电脑、或个人计算机(PC,Personal Computer)等。终端10上还可以设置客户端,该客户端可以是应用程序客户端或者浏览器客户端等等。
上述服务器11进行内容分类的步骤,也可以由终端10执行。
本申请实施例提供的内容分类方法涉及人工智能领域中的自然语言处理。本申请实施例可以提高内容层级分类的精确度。
其中,人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,自然语言处理(NLP,Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从内容分类装置的角度进行描述,该内容分类装置具体可以集成在电子设备中,该电子设备可以是服务器或终端等设备。
本申请实施例的内容分类方法可以应用于各种内容分类的场景中。例如,某视频平台需要对上百万个视频进行多级分类,可以通过本实施例提供的内容分类方法,可快速地对海量视频的视频标题进行主题分类,确定其在第一层级类别中的第一类别和在第二层级类别中的第二类别,能够提高内容层级分类的准确度。
如图1b所示,该内容分类方法的具体流程可以如下:
101、获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息。
本实施例中,待分类内容具体为需要进行层次分类(或层级分类)的内容,它可以包括视频、图像、音频、文本等,本实施例对此不作限制。待分类内容对应的文本描述信息为描述该待分类内容的文本信息。
具体地,若待分类内容为视频,其文本描述信息可以包括视频标题、视频文本摘要以及视频字幕等;若待分类内容为音频,其文本描述信息可以是该音频的文字介绍信息。
其中,层次分类(Hierarchical Multi-Label Classification)是自然语言处理或计算机视觉(CV,Computer Vision)领域多分类中重要的一项任务,其主要的特点在于类目标签具有上下级的关系,上级标签是下级标签的父级,越往下级其粒度越细。具体地,层次分类也即从含义较广的上位类细分到下位类的等级式分类方法。
在一具体场景中,对于待分类内容,可以主要构建两级类目,分别为一级类目和二级类目,一级类目(也即第一层级类别)为二级类目(也即第二层级类别)的父级,也即二级类目是一级类目的下级类目。需要说明的是,一级类目中类别的数量通常少于二级类目中类别的数量。例如,一级类目可以包括44个类别,具体包含体育、游戏、娱乐等主题性粗粒度类别,二级类目可以包括305个细粒度的类别,其中,一个一级类目又可以细分为多个二级类目下的类别。
参考图1c所示,待分类内容为视频,其文本描述信息具体可以是视频标题,如“游戏角色A没救了,经济被压制,完全起不来,手机给你来玩”,通过本申请提供的内容分类方法对视频标题进行层次分类,可以确定待分类内容的一级类目为游戏,再结合预测得到的一级类目,确定待分类内容的二级类目,具体地,该二级类目可以是手游、端游、小游戏等。
一般来说,类目体系越上层,粒度越粗,对于模型训练的数据量也越多,因此分类难度会更简单,往往可以获得更高的分类准确率。本实施例利用这一点,将高准确率的上层分类预测结果作为下层分类的先验知识,从而增强分类的效果。
本实施例中,对文本描述信息进行特征提取,具体可以是对文本描述信息的卷积操作、以及池化操作等。
可选地,可以通过神经网络对文本描述信息进行特征提取。该神经网络可以是卷积神经网络(CNN,Convolutional Neural Networks)、残差网络(ResNet,ResidualNetwork)、长短期记忆网络(LSTM,Long Short-Term Memory)等。但是应当理解的是,本实施例的神经网络并不仅限于上述列举的几种类型。
其中,LSTM是一种时间循环神经网络,即为循环神经网络(RNN,Recurrent NeuralNetwork)的一种。LSTM比较适合用于对时序数据提取语义特征,在自然语言处理任务中常被用来对上下文信息提取语义特征。LSTM可以通过三个门结构(输入门,遗忘门,输出门),选择性地遗忘部分历史数据,加入部分当前输入数据,最终整合到当前状态并产生输出状态。
一些实施例中,该神经网络还可以使用注意力机制(Attention),本实施例对此不作限制。
102、根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率。
其中,第一层级类别为粗粒度的类别,它是属于第一类别层级的类别,第一层级类别可以包括至少一个属于第一类别层级的预设类别。
其中,可以通过分类器来预测所述文本描述信息属于第一层级类别中各个预设类别的第一类别概率。该分类器具体可以是支持向量机(SVM,Support Vector Machine),也可以是循环神经网络、还可以是全连接深度神经网络(DNN,Deep Neual Networks)等等,本实施例对此不做限制。
103、基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别。
一些实施例中,可以将所述第一层级类别中,第一类别概率最大的预设类别确定为文本描述信息在所述第一层级类别中的第一类别。
另一些实施例中,可以将所述第一层级类别中,第一类别概率大于预设值的预设类别确定为文本描述信息在所述第一层级类别中的第一类别。其中,该预设值可以根据实际情况进行设置。
104、根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同。
相较于第一层级类别,第二层级类别为细粒度的类别,它可以包括至少一个属于第二类别层级的预设类别。第二类别层级和第一类别层级的类别层级不同,具体地,第二类别层级是第一类别层级的下层层级,也就是说,第二层级类别是第一层级类别的下级类别,即第一层级类别是第二层级类别的父级。
在一具体实施例中,第一层级类别中的预设类别可以包括教育、科技、医疗、游戏等,第二层级类别中的预设类别可以包括手游、端游、芯片等,其中,手游和端游可以视为第一层级类别——游戏的下级类别,芯片可以视为第一层级类别——科技的下级类别。
可选地,本实施例中,步骤“根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率”,可以包括:
将所述第一层级类别中预设类别对应的类别信息和所述第一类别概率进行融合,得到所述第一层级类别中预设类别的类别特征信息;
根据所述类别特征信息和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
其中,类别信息和第一类别概率的融合方式可以有多种,本实施例对此不作限制。比如,其融合方式可以是相乘等。
其中,可以对类别特征信息和文本特征信息进行融合,得到融合后特征信息,根据融合后特征信息,预测文本描述信息属于第二层级类别中预设类别的第二类别概率。
具体地,第一层级类别中预设类别对应的类别信息可以是该预设类别对应的词向量。例如,科技为第一层级类别中的预设类别,则该预设类别对应的类别信息可以为科技对应的词向量。
其中,可选地,该词向量可以由通用语料训练得到,训练方式可以采用单词到向量(word2vec,word to vector)模型等方式。
word2vec是一个NLP(Nature Language processing,自然语言处理)工具,它的特点是能够将单词转化为向量来表示,这样就可以定量的去度量词与词之间的关系,挖掘词之间的联系。
可选地,步骤“将所述第一层级类别中预设类别对应的类别信息和所述第一类别概率进行融合,得到所述第一层级类别中预设类别的类别特征信息”,可以包括:
针对所述第一层级类别中的各个预设类别,将所述预设类别对应的类别信息和所述预设类别对应的第一类别概率进行融合,得到所述预设类别的类别子特征信息;
将所述第一层级类别中各个预设类别的类别子特征信息进行融合,得到类别特征信息。
其中,类别子特征信息的融合方式具体可以是拼接等,将第一层级类别中各个预设类别的类别子特征信息进行拼接,可以得到类别特征信息。
可选地,本实施例中,步骤“将所述第一层级类别中预设类别对应的类别信息和所述第一类别概率进行融合,得到所述第一层级类别中预设类别的类别特征信息”,可以包括:
根据所述第一类别概率,从所述第一层级类别的预设类别中选取参考类别;
将所述参考类别对应的类别信息和所述参考类别对应的第一类别概率进行融合,得到所述第一层级类别中参考类别的类别特征信息。
一些实施例中,可以基于第一类别概率,对第一层级类别中的各预设类别进行排序,具体地,可以按照第一层级类别中各预设类别对应的第一类别概率的大小,对各预设类别进行从大到小的排序,得到排序后预设类别;将排序后预设类别中前k个预设类别确定为参考类别,k可以根据实际情况进行设置。
另一些实施例中,可以将所述第一层级类别中,第一类别概率大于预设值的预设类别选取为参考类别。其中,该预设值可以根据实际情况进行设置。
可选地,本实施例中,步骤“根据所述类别特征信息和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率”,可以包括:
将所述类别特征信息和所述文本特征信息进行融合,得到融合后特征信息;
对所述融合后特征信息进行多个维度下的卷积处理,得到多个维度下的卷积特征信息;
根据各个维度下的卷积特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
其中,类别特征信息和文本特征信息的融合方式有多种,比如其融合方式可以是拼接处理等。具体地,可以在类别特征信息之后拼接文本特征信息,也可以在文本特征信息之后拼接类别特征信息。
其中,类别特征信息是基于预测到的第一类别概率确定的,也就是说,类别特征信息包含了第一层级类别中的预测结果。
本实施例中,步骤“对所述融合后特征信息进行多个维度下的卷积处理,得到多个维度下的卷积特征信息”,具体可以包括:
通过多个不同尺度的卷积核,分别对所述融合后特征信息进行卷积处理,得到多个维度下的卷积特征信息。
例如,可以取尺度大小为x-gram(x=1,2,3,4..)的卷积核分别对融合后特征信息进行卷积处理,得到多个维度下的卷积特征信息。
可选地,本实施例中,步骤“根据各个维度下的卷积特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率”,可以包括:
对各个维度下的卷积特征信息进行融合,得到多维度融合信息;
根据所述多维度融合信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
一些实施例中,可以对各维度下的卷积特征信息进行池化处理后,得到各维度的池化后卷积特征信息,再将各维度的池化后卷积特征信息进行融合,得到多维度融合信息。
其中,池化处理的方式有多种,比如可以是最大池化(Max-pooling,MaximumPooling)、平均池化(Avg-pooling,Average Pooling)和广义均值池化(GEM-pooling,Generalized-mean Pooling)等。
其中,融合指的是特征融合。低层特征的分辨率比较高,包含更多的细节信息,但噪声较多,语义性低;高层特征则具有较强的语义信息,但是其分辨率低,细节丢失比较多。融合不同维度的卷积特征信息能够提高特征的表征能力。
其中,对各维度下的卷积特征信息进行融合,具体可以是将各维度下的卷积特征信息进行拼接,也可以是对各维度下的卷积特征信息进行加权运算等,本实施例对此不作限制。
可选地,本实施例中,步骤“根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率”,可以包括:
基于所述第一类别概率,从所述第一层级类别的预设类别中选取参考类别;
将所述参考类别对应的类别信息和所述文本特征信息进行融合,得到所述文本描述信息的融合后特征信息;
根据所述融合后特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
其中,参考类别对应的类别信息具体可以是参考类别对应的词向量。具体地,可以只将参考类别对应的类别信息和文本特征信息进行融合,如拼接处理,来得到文本描述信息的融合后特征信息。
一些实施例中,可以基于第一类别概率,对第一层级类别中的各预设类别进行排序,具体地,可以按照第一层级类别中各预设类别对应的第一类别概率的大小,对各预设类别进行从大到小的排序,得到排序后预设类别;将排序后预设类别中前k个预设类别确定为参考类别,k可以根据实际情况进行设置。
另一些实施例中,可以将所述第一层级类别中,第一类别概率大于预设值的预设类别选取为参考类别。其中,该预设值可以根据实际情况进行设置。
本实施例中,可以通过分类器预测文本描述信息属于第二层级类别中预设类别的第二类别概率。该分类器具体可以是支持向量机(SVM,Support Vector Machine),也可以是循环神经网络、还可以是全连接深度神经网络(DNN,Deep Neual Networks)等等,本实施例对此不做限制。
105、基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别。
一些实施例中,可以将所述第二层级类别中,第二类别概率最大的预设类别确定为文本描述信息在所述第二层级类别中的第二类别。
另一些实施例中,可以将所述第二层级类别中,第二类别概率大于预设值的预设类别确定为文本描述信息在所述第二层级类别中的第二类别。其中,该预设值可以根据实际情况进行设置。
106、根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。
其中,可选地,可以将预测得到的文本描述信息在第一层级类别中的第一类别和在第二层级类别中的第二类别,作为待分类内容在第一层级类别中的类别和在第二层级类别中的类别,从而得到待分类内容的分类信息。
可选地,本实施例中,步骤“对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息”,可以包括:
通过分类模型,对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息。
其中,分类模型可以用于对文本描述信息进行层级分类,具体即确定文本描述信息在第一层级类别中的第一类别和在第二层级类别中的第二类别。
其中,该分类模型可以是神经网络,具体地,该神经网络可以是卷积神经网络、残差网络、长短期记忆网络等。可以理解的是,本实施例的分类模型并不限于上述列举的类型。
需要说明的是,该分类模型具体可以由其他设备进行训练后,提供给该内容分类装置,或者,也可以由该内容分类装置自行进行训练。
若由该内容分类装置自行进行训练,则在步骤“通过分类模型,对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息”之前,该内容分类方法还可以包括:
获取训练数据,所述训练数据包括样本文本描述信息、所述样本文本描述信息属于第一层级类别中预设类别的期望第一类别概率以及所述样本文本描述信息属于第二层级类别中预设类别的期望第二类别概率;
通过预设分类模型,对所述样本文本描述信息进行特征提取,得到所述样本文本描述信息对应的文本特征信息;
根据所述文本特征信息,预测所述样本文本描述信息属于所述第一层级类别中预设类别的实际第一类别概率;
根据所述实际第一类别概率和所述文本特征信息,预测所述样本文本描述信息属于所述第二层级类别中预设类别的实际第二类别概率;
基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率、以及实际第二类别概率和期望第二类别概率,调整预设分类模型的参数,得到训练后的分类模型。
其中,样本文本描述信息包括两级标签数据,两级标签数据分别是:样本文本描述信息属于第一层级类别中预设类别的期望第一类别概率、以及所述样本文本描述信息属于第二层级类别中预设类别的期望第二类别概率。
具体地,如图1d所示,样本文本描述信息具体为视频标题,其两级标签数据分别为其在第一层级类别(即一级类目)中的目标第一类别和在第二层级类别(即二级类目)中的目标第二类别,可以理解的是,样本文本描述信息属于第一层级类别中的目标第一类别可以视为:样本文本描述信息属于第一层级类别中目标第一类别的期望第一类别概率为1,属于非目标第一类别的期望第一类别概率为0;二级类目同理,此处不再赘述。
可选地,本实施例中,步骤“基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率、以及实际第二类别概率和期望第二类别概率,调整预设分类模型的参数”,可以包括:
基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率,计算所述样本文本描述信息的第一类别损失值;
基于所述样本文本描述信息的实际第二类别概率和期望第二类别概率,计算所述样本文本描述信息的第二类别损失值;
根据所述第一类别损失值和所述第二类别损失值,调整预设分类模型的参数。
其中,可以通过损失函数计算样本文本描述信息的第一类别损失值和第二类别损失值,该损失函数可以是交叉熵损失函数等,本实施例对此不作限制。
具体地,第一类别损失值的计算方式可以如式子(1)所示,第二类别损失值的计算方式如式子(2)所示:
其中,losscls1表示第一类别损失值,n为第一层次类别中预设类别的数量,ai表示预测到的样本文本描述信息属于第一层级类别中第i个预设类别的实际第一类别概率,yi表示样本文本描述信息属于第一层级类别中第i个预设类别的期望第一类别概率(具体可以为0或1)。
其中,losscls2表示第二类别损失值,m为第二层次类别中预设类别的数量,aj表示预测到的样本文本描述信息属于第二层级类别中第j个预设类别的实际第二类别概率,yj表示样本文本描述信息属于第二层级类别中第j个预设类别的期望第二类别概率(具体可以为0或1)。
可选地,本实施例中,步骤“根据所述第一类别损失值和所述第二类别损失值,调整预设分类模型的参数”,可以包括:
根据所述样本文本描述信息的期望第一类别概率和期望第二类别概率,确定所述样本文本描述信息在所述第一层级类别中的目标第一类别和在所述第二层级类别中的目标第二类别;
对所述样本文本描述信息属于所述目标第二类别的实际第二类别概率和所述样本文本描述信息属于所述目标第一类别的实际第一类别概率进行差值运算,得到所述样本文本描述信息的结构损失值;
根据所述第一类别损失值、所述第二类别损失值和所述结构损失值,调整预设分类模型的参数。
其中,可以将第一层级类别中,期望第一类别概率最大的预设类别作为目标第一类别,将第二层级类别中,期望第二类别概率最大的预设类别作为目标第二类别。
其中,目标第二类别可以视为样本文本描述信息在第二层级类别中正确的类别,目标第一类别可以视为样本文本描述信息在第一层级类别中正确的类别。
本实施例中,分类模型的训练过程可以使用反向传播算法,基于第一类别损失值、第二类别损失值和结构损失值,对预设分类模型的参数进行调整,优化预设分类模型的参数,使得第一类别损失值、第二类别损失值和结构损失值满足预设损失条件,得到训练好的分类模型,该预设损失条件可以根据实际情况进行设置。具体地,预设损失条件可以是:第一类别损失值、第二类别损失值和结构损失值之和小于预设损失值,该预设损失值可以根据实际情况进行设置。
其中,增加结构损失值,是为了保证两级分类结果的一致性。假设粗粒度的上层类目(也即第一层级类别)的分类总是易于细粒度的下层类目(也即第二层级类别)的分类,也就是细粒度的类别的预测难度应该更大,因此增加结构损失值以保证一级类目的分类结果(具体为第一类别概率)应该总是要大于对应的二级类目的分类结果(即第二类别概率)的,其中,一级类目对应的二级类目为从属于该一级类目的二级类目。
一些实施例中,结构损失值的计算方式可以参考式子(3):
其中,lossh表示结构损失值,n表示第一层次类别中预设类别的数量,λ为预设调整参数,max函数为用于求向量或者矩阵的最大元素,或几个指定值中的最大值的函数,表示预测到的样本文本描述信息属于第一层级类别中第i个预设类别的实际第一类别概率,l2score表示预测到的样本文本描述信息属于第二层级类别中目标类别的实际第二类别概率,其中,目标类别为从属于第一层级类别中第i个预设类别的第二层级类别中的预设类别。
其中,式子(3)引入一级和二级分类结果的差异值用以约束多级类目分类结果的一致性,有效的利用了类目体系上下层约束关系,也即利用上层类目标签对下层类目的预测进行约束。
本实施例中,步骤“根据所述第一类别损失值、所述第二类别损失值和所述结构损失值,调整预设分类模型的参数”,可以包括:
将所述第一类别损失值、所述第二类别损失值和所述结构损失值进行融合,得到总损失值;
根据总损失值,调整预设分类模型的参数。
其中,三个损失值的融合方式有多种,本实施例对此不作限制。例如,其融合方式可以是加权融合。
一些实施例中,总损失值的计算方式可以参考式子(4):
loss=λ1losscls1+λ2losscls2+λ3lossh (4)
其中,loss表示总损失值,λ1、λ2、λ3分别表示三个损失值的调和超参数。
本申请的内容分类方法可以适用于多种分类场景,比如,可以用于需要提取文档类目的业务场景,例如搜索中的内容分类,电商系统中的商品标题分类等。
在一具体实施例中,如图1e所示,为分类模型的模型架构图,该分类模型可以包括上级类目分类模块和下级类目分类模块。
其中,待分类内容的文本描述信息具体可以是视频标题,如视频标题为“跳一跳,教你上600分的攻略”,通过上级类目分类模块中的编码器,可以提取文本描述信息的文本特征信息,并通过上级类目分类模块中的分类器,根据该文本特征信息,预测文本描述信息属于第一层级类别中预设类别的第一类别概率,进而根据第一类别概率确定文本描述信息在第一层级类别中的第一类别;接着,可以将上级类目分类模块预测到的第一层级类别中预设类别的第一类别概率以及其对应的类别信息进行融合,得到第一层级类别中预设类别的类别特征信息,将类别特征信息以及编码器提取到的文本特征信息输入到下级类目分类模块。
下级类目分类模块可以将文本特征信息和类别特征信息进行融合,得到融合后特征信息,再通过多个不同尺度的卷积核分别对融合后特征信息进行卷积处理,得到多个维度下的卷积特征信息;然后,对多个维度下的卷积特征信息进行池化处理,再将多个维度下池化处理后的卷积特征信息进行融合,得到多维度融合信息;最后,根据多维度融合信息,预测文本描述信息属于第二层级类别中预设类别的第二类别概率,从而基于第二类别概率确定文本描述信息在第二层级类别中的第二类别。
其中,对于该分类模型的训练过程,可以获取上级类目分类模块对应的第一类别损失值,以及下级类目分类模块对应的第二类别损失值,根据第一类别损失值、第二类别损失值和结构损失值,调整分类模型的参数,具体可以参考上述实施例的描述,此处不再详细赘述。
由上可知,本实施例可以获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。本申请可以基于第一层级类别的预测结果,来对文本描述信息在第二层级类别中的第二类别进行预测,可以提高内容层级分类的准确度。
根据前面实施例所描述的方法,以下将以该内容分类装置具体集成在服务器举例作进一步详细说明。
本申请实施例提供一种内容分类方法,如图2所示,该内容分类方法的具体流程可以如下:
201、服务器获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息。
本实施例中,待分类内容具体为需要进行层次分类(或层级分类)的内容,它可以包括视频、图像、音频、文本等,本实施例对此不作限制。待分类内容对应的文本描述信息为描述该待分类内容的文本信息。
其中,层次分类(Hierarchical Multi-Label Classification)是自然语言处理或计算机视觉(CV,Computer Vision)领域多分类中重要的一项任务,其主要的特点在于类目标签具有上下级的关系,上级标签是下级标签的父级,越往下级其粒度越细。具体地,层次分类也即从含义较广的上位类细分到下位类的等级式分类方法。
一般来说,类目体系越上层,粒度越粗,对于模型训练的数据量也越多,因此分类难度会更简单,往往可以获得更高的分类准确率。本实施例利用这一点,将高准确率的上层分类预测结果作为下层分类的先验知识,从而增强分类的效果。
202、服务器根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率。
其中,第一层级类别为粗粒度的类别,它是属于第一类别层级的类别,第一层级类别可以包括至少一个属于第一类别层级的预设类别。
203、服务器基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别。
一些实施例中,可以将所述第一层级类别中,第一类别概率最大的预设类别确定为文本描述信息在所述第一层级类别中的第一类别。
另一些实施例中,可以将所述第一层级类别中,第一类别概率大于预设值的预设类别确定为文本描述信息在所述第一层级类别中的第一类别。其中,该预设值可以根据实际情况进行设置。
204、服务器将所述第一层级类别中预设类别对应的类别信息和所述第一类别概率进行融合,得到所述第一层级类别中预设类别的类别特征信息。
其中,类别信息和第一类别概率的融合方式可以有多种,本实施例对此不作限制。比如,其融合方式可以是相乘等。
具体地,第一层级类别中预设类别对应的类别信息可以是该预设类别对应的词向量。
可选地,本实施例中,步骤“将所述第一层级类别中预设类别对应的类别信息和所述第一类别概率进行融合,得到所述第一层级类别中预设类别的类别特征信息”,可以包括:
根据所述第一类别概率,从所述第一层级类别的预设类别中选取参考类别;
将所述参考类别对应的类别信息和所述参考类别对应的第一类别概率进行融合,得到所述第一层级类别中参考类别的类别特征信息。
205、服务器将所述类别特征信息和所述文本特征信息进行融合,得到融合后特征信息。
其中,类别特征信息和文本特征信息的融合方式有多种,比如其融合方式可以是拼接处理等。具体地,可以在类别特征信息之后拼接文本特征信息,也可以在文本特征信息之后拼接类别特征信息。
206、服务器对所述融合后特征信息进行多个维度下的卷积处理,得到多个维度下的卷积特征信息。
本实施例中,步骤“对所述融合后特征信息进行多个维度下的卷积处理,得到多个维度下的卷积特征信息”,具体可以包括:
通过多个不同尺度的卷积核,分别对所述融合后特征信息进行卷积处理,得到多个维度下的卷积特征信息。
207、服务器根据各个维度下的卷积特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同。
相较于第一层级类别,第二层级类别为细粒度的类别,它可以包括至少一个属于第二类别层级的预设类别。第二类别层级和第一类别层级的类别层级不同,具体地,第二类别层级是第一类别层级的下层层级,也就是说,第二层级类别是第一层级类别的下级类别,即第一层级类别是第二层级类别的父级。
可选地,本实施例中,步骤“根据各个维度下的卷积特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率”,可以包括:
对各个维度下的卷积特征信息进行融合,得到多维度融合信息;
根据所述多维度融合信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
208、服务器基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别。
一些实施例中,可以将所述第二层级类别中,第二类别概率最大的预设类别确定为文本描述信息在所述第二层级类别中的第二类别。
另一些实施例中,可以将所述第二层级类别中,第二类别概率大于预设值的预设类别确定为文本描述信息在所述第二层级类别中的第二类别。其中,该预设值可以根据实际情况进行设置。
209、服务器根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。
由上可知,本实施例可以通过服务器获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;将所述第一层级类别中预设类别对应的类别信息和所述第一类别概率进行融合,得到所述第一层级类别中预设类别的类别特征信息;将所述类别特征信息和所述文本特征信息进行融合,得到融合后特征信息;对所述融合后特征信息进行多个维度下的卷积处理,得到多个维度下的卷积特征信息;根据各个维度下的卷积特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。本申请可以基于第一层级类别的预测结果,来对文本描述信息在第二层级类别中的第二类别进行预测,可以提高内容层级分类的准确度。
为了更好地实施以上方法,本申请实施例还提供一种内容分类装置,如图3所示,该内容分类装置可以包括提取单元301、第一预测单元302、第一确定单元303、第二预测单元304、第二确定单元305和第三确定单元306,如下:
(1)提取单元301;
提取单元301,用于获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息。
可选的,在本申请的一些实施例中,所述提取单元301具体可以用于通过分类模型,对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息。
(2)第一预测单元302;
第一预测单元302,用于根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率。
(3)第一确定单元303;
第一确定单元303,用于基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别。
(4)第二预测单元304;
第二预测单元304,用于根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同。
可选的,在本申请的一些实施例中,所述第二预测单元可以包括第一融合子单元和第一预测子单元,如下:
所述第一融合子单元,用于将所述第一层级类别中预设类别对应的类别信息和所述第一类别概率进行融合,得到所述第一层级类别中预设类别的类别特征信息;
第一预测子单元,用于根据所述类别特征信息和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
可选的,在本申请的一些实施例中,所述第一融合子单元具体可以用于根据所述第一类别概率,从所述第一层级类别的预设类别中选取参考类别;将所述参考类别对应的类别信息和所述参考类别对应的第一类别概率进行融合,得到所述第一层级类别中参考类别的类别特征信息。
可选的,在本申请的一些实施例中,所述第一预测子单元具体可以用于将所述类别特征信息和所述文本特征信息进行融合,得到融合后特征信息;对所述融合后特征信息进行多个维度下的卷积处理,得到多个维度下的卷积特征信息;根据各个维度下的卷积特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
可选的,在本申请的一些实施例中,步骤“根据各个维度下的卷积特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率”,可以包括:
对各个维度下的卷积特征信息进行融合,得到多维度融合信息;
根据所述多维度融合信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
可选的,在本申请的一些实施例中,所述第二预测单元可以包括选取子单元、第二融合子单元和第二预测子单元,如下:
所述选取子单元,用于基于所述第一类别概率,从所述第一层级类别的预设类别中选取参考类别;
第二融合子单元,用于将所述参考类别对应的类别信息和所述文本特征信息进行融合,得到所述文本描述信息的融合后特征信息;
第二预测子单元,用于根据所述融合后特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
(5)第二确定单元305;
第二确定单元305,用于基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别。
(6)第三确定单元306;
第三确定单元306,用于根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。
可选的,在本申请的一些实施例中,所述内容分类装置还可以包括训练单元,所述训练单元用于对分类模型进行训练;具体如下:
所述训练单元,用于获取训练数据,所述训练数据包括样本文本描述信息、所述样本文本描述信息属于第一层级类别中预设类别的期望第一类别概率以及所述样本文本描述信息属于第二层级类别中预设类别的期望第二类别概率;通过预设分类模型,对所述样本文本描述信息进行特征提取,得到所述样本文本描述信息对应的文本特征信息;根据所述文本特征信息,预测所述样本文本描述信息属于所述第一层级类别中预设类别的实际第一类别概率;根据所述实际第一类别概率和所述文本特征信息,预测所述样本文本描述信息属于所述第二层级类别中预设类别的实际第二类别概率;基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率、以及实际第二类别概率和期望第二类别概率,调整预设分类模型的参数,得到训练后的分类模型。
可选的,在本申请的一些实施例中,步骤“基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率、以及实际第二类别概率和期望第二类别概率,调整预设分类模型的参数”,可以包括:
基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率,计算所述样本文本描述信息的第一类别损失值;
基于所述样本文本描述信息的实际第二类别概率和期望第二类别概率,计算所述样本文本描述信息的第二类别损失值;
根据所述第一类别损失值和所述第二类别损失值,调整预设分类模型的参数。
可选的,在本申请的一些实施例中,步骤“根据所述第一类别损失值和所述第二类别损失值,调整预设分类模型的参数”,可以包括:
根据所述样本文本描述信息的期望第一类别概率和期望第二类别概率,确定所述样本文本描述信息在所述第一层级类别中的目标第一类别和在所述第二层级类别中的目标第二类别;
对所述样本文本描述信息属于所述目标第二类别的实际第二类别概率和所述样本文本描述信息属于所述目标第一类别的实际第一类别概率进行差值运算,得到所述样本文本描述信息的结构损失值;
根据所述第一类别损失值、所述第二类别损失值和所述结构损失值,调整预设分类模型的参数。
由上可知,本实施例可以通过提取单元301获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;由第一预测单元302根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;通过第一确定单元303基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;由第二预测单元304根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;通过第二确定单元305基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;由第三确定单元306根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。本申请可以基于第一层级类别的预测结果,来对文本描述信息在第二层级类别中的第二类别进行预测,可以提高内容层级分类的准确度。
本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,该电子设备可以是终端或者服务器等,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,该电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。本申请可以基于第一层级类别的预测结果,来对文本描述信息在第二层级类别中的第二类别进行预测,可以提高内容层级分类的准确度。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种内容分类方法中的步骤。例如,该指令可以执行如下步骤:
获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种内容分类方法中的步骤,因此,可以实现本申请实施例所提供的任一种内容分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述内容分类方面的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种内容分类方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (13)
1.一种内容分类方法,其特征在于,包括:
获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;
根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;
基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;
根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;
基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;
根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,包括:
将所述第一层级类别中预设类别对应的类别信息和所述第一类别概率进行融合,得到所述第一层级类别中预设类别的类别特征信息;
根据所述类别特征信息和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一层级类别中预设类别对应的类别信息和所述第一类别概率进行融合,得到所述第一层级类别中预设类别的类别特征信息,包括:
根据所述第一类别概率,从所述第一层级类别的预设类别中选取参考类别;
将所述参考类别对应的类别信息和所述参考类别对应的第一类别概率进行融合,得到所述第一层级类别中参考类别的类别特征信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述类别特征信息和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,包括:
将所述类别特征信息和所述文本特征信息进行融合,得到融合后特征信息;
对所述融合后特征信息进行多个维度下的卷积处理,得到多个维度下的卷积特征信息;
根据各个维度下的卷积特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
5.根据权利要求4所述的方法,其特征在于,所述根据各个维度下的卷积特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,包括:
对各个维度下的卷积特征信息进行融合,得到多维度融合信息;
根据所述多维度融合信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,包括:
基于所述第一类别概率,从所述第一层级类别的预设类别中选取参考类别;
将所述参考类别对应的类别信息和所述文本特征信息进行融合,得到所述文本描述信息的融合后特征信息;
根据所述融合后特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率。
7.根据权利要求1所述的方法,其特征在于,所述对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息,包括:
通过分类模型,对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息。
8.根据权利要求7所述的方法,其特征在于,所述通过分类模型,对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息之前,还包括:
获取训练数据,所述训练数据包括样本文本描述信息、所述样本文本描述信息属于第一层级类别中预设类别的期望第一类别概率以及所述样本文本描述信息属于第二层级类别中预设类别的期望第二类别概率;
通过预设分类模型,对所述样本文本描述信息进行特征提取,得到所述样本文本描述信息对应的文本特征信息;
根据所述文本特征信息,预测所述样本文本描述信息属于所述第一层级类别中预设类别的实际第一类别概率;
根据所述实际第一类别概率和所述文本特征信息,预测所述样本文本描述信息属于所述第二层级类别中预设类别的实际第二类别概率;
基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率、以及实际第二类别概率和期望第二类别概率,调整预设分类模型的参数,得到训练后的分类模型。
9.根据权利要求8所述的方法,其特征在于,所述基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率、以及实际第二类别概率和期望第二类别概率,调整预设分类模型的参数,包括:
基于所述样本文本描述信息的实际第一类别概率和期望第一类别概率,计算所述样本文本描述信息的第一类别损失值;
基于所述样本文本描述信息的实际第二类别概率和期望第二类别概率,计算所述样本文本描述信息的第二类别损失值;
根据所述第一类别损失值和所述第二类别损失值,调整预设分类模型的参数。
10.根据权利要求9所述的方法,其特征在于,所述根据所述第一类别损失值和所述第二类别损失值,调整预设分类模型的参数,包括:
根据所述样本文本描述信息的期望第一类别概率和期望第二类别概率,确定所述样本文本描述信息在所述第一层级类别中的目标第一类别和在所述第二层级类别中的目标第二类别;
对所述样本文本描述信息属于所述目标第二类别的实际第二类别概率和所述样本文本描述信息属于所述目标第一类别的实际第一类别概率进行差值运算,得到所述样本文本描述信息的结构损失值;
根据所述第一类别损失值、所述第二类别损失值和所述结构损失值,调整预设分类模型的参数。
11.一种内容分类装置,其特征在于,包括:
提取单元,用于获取待分类内容对应的文本描述信息,并对所述文本描述信息进行特征提取,得到所述文本描述信息对应的文本特征信息;
第一预测单元,用于根据所述文本特征信息,预测所述文本描述信息属于第一层级类别中预设类别的第一类别概率;
第一确定单元,用于基于所述第一类别概率,从所述第一层级类别的预设类别中确定所述文本描述信息在所述第一层级类别中的第一类别;
第二预测单元,用于根据所述第一类别概率和所述文本特征信息,预测所述文本描述信息属于第二层级类别中预设类别的第二类别概率,所述第二层级类别和所述第一层级类别的类别层级不同;
第二确定单元,用于基于所述第二类别概率,从所述第二层级类别的预设类别中确定所述文本描述信息在所述第二层级类别中的第二类别;
第三确定单元,用于根据所述第一类别和所述第二类别,确定所述待分类内容的分类信息。
12.一种电子设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至10任一项所述的内容分类方法中的操作。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至10任一项所述的内容分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110837092.9A CN113821634A (zh) | 2021-07-23 | 2021-07-23 | 内容分类方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110837092.9A CN113821634A (zh) | 2021-07-23 | 2021-07-23 | 内容分类方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113821634A true CN113821634A (zh) | 2021-12-21 |
Family
ID=78923910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110837092.9A Pending CN113821634A (zh) | 2021-07-23 | 2021-07-23 | 内容分类方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113821634A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090779A (zh) * | 2022-01-11 | 2022-02-25 | 中南大学 | 篇章级文本的层级多标签分类方法、系统、设备及介质 |
CN114780719A (zh) * | 2022-03-28 | 2022-07-22 | 京东城市(北京)数字科技有限公司 | 文本分类模型的训练方法、文本分类方法及装置 |
-
2021
- 2021-07-23 CN CN202110837092.9A patent/CN113821634A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090779A (zh) * | 2022-01-11 | 2022-02-25 | 中南大学 | 篇章级文本的层级多标签分类方法、系统、设备及介质 |
CN114090779B (zh) * | 2022-01-11 | 2022-04-22 | 中南大学 | 篇章级文本的层级多标签分类方法、系统、设备及介质 |
CN114780719A (zh) * | 2022-03-28 | 2022-07-22 | 京东城市(北京)数字科技有限公司 | 文本分类模型的训练方法、文本分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021203819A1 (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
Sivakumar et al. | Aspect-based sentiment analysis of mobile phone reviews using LSTM and fuzzy logic | |
Jain et al. | A comparative study of machine learning and deep learning techniques for sentiment analysis | |
CN110580292A (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
CN111667022A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN113254711B (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN113821634A (zh) | 内容分类方法、装置、电子设备和存储介质 | |
CN114330510A (zh) | 模型训练方法、装置、电子设备和存储介质 | |
CN114357151A (zh) | 文本类目识别模型的处理方法、装置、设备及存储介质 | |
CN113761359A (zh) | 数据包推荐方法、装置、电子设备和存储介质 | |
CN111046655A (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN114611692A (zh) | 模型训练方法、电子设备以及存储介质 | |
CN111291564B (zh) | 一种用于词向量获取的模型训练方法、装置和存储介质 | |
CN113609337A (zh) | 图神经网络的预训练方法、训练方法、装置、设备及介质 | |
Pohl et al. | Active online learning for social media analysis to support crisis management | |
CN113821632A (zh) | 内容分类方法、装置、电子设备和计算机可读存储介质 | |
Zhu et al. | Intelligent product redesign strategy with ontology-based fine-grained sentiment analysis | |
CN113255857B (zh) | 一种图形码的风险检测方法、装置及设备 | |
Zeng | Application of conditional random field model based on machine learning in online and offline integrated educational resource recommendation | |
CN114357152A (zh) | 信息处理方法、装置、计算机可读存储介质和计算机设备 | |
CN114328931A (zh) | 题目批改方法、模型的训练方法、计算机设备及存储介质 | |
CN114707633A (zh) | 特征提取方法、装置、电子设备和存储介质 | |
CN113704544A (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN114926192A (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN113569130A (zh) | 内容推荐方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |