CN112214603A - 图文资源分类方法、装置、终端及存储介质 - Google Patents

图文资源分类方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN112214603A
CN112214603A CN202011159419.3A CN202011159419A CN112214603A CN 112214603 A CN112214603 A CN 112214603A CN 202011159419 A CN202011159419 A CN 202011159419A CN 112214603 A CN112214603 A CN 112214603A
Authority
CN
China
Prior art keywords
image
text
resources
classification result
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011159419.3A
Other languages
English (en)
Inventor
王升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202011159419.3A priority Critical patent/CN112214603A/zh
Publication of CN112214603A publication Critical patent/CN112214603A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图文资源分类方法,该方法包括:获取待分类的图文资源,将所述待分类的图文资源拆分成图像资源和文本资源;运用第一深度学习方式处理图像资源得到第一分类结果;运用第二深度学习方式处理文本资源得到第二分类结果;依据所述第一分类结果和所述第二分类结果生成所述待分类的图文资源的分类结果。本申请还公开了一种图文资源分类装置、终端和计算机可读存储介质。本申请在保证分类结果精度的同时,降低深度学习模型计算复杂带来的效率差的问题,提高了图文资源分类的精度和效率。

Description

图文资源分类方法、装置、终端及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种图文资源分类方法、装置、终端及存储介质。
背景技术
现有技术对图文资源进行分类主要采用传统机器学习和深度学习两大技术路线。现有技术方案主要集中在图文资源特征提取与图文资源特征融合过程中,但仍存在以下问题:
一、传统机器学习分类器虽简单且相对容易训练部署,但对于复杂内容特征的提取分类能力有限;二、深度学习分类器如果使用轻量模型提取图文特征会出现分类效果不佳,而使用拟合能力强的大模型时又无法提供高效服务。
综上所述,现有技术方案的图文资源分类方式得到的分类结果精度差且分类过程效率差。
发明内容
本申请实施例通过提供一种图文资源分类方法、装置终端及存储介质,旨在解决现有技术方案的图文资源分类方式得到的分类结果精度差且分类过程效率差的技术问题。
为实现上述目的,本申请一方面提供了一种图文资源分类方法,所述图文资源分类方法包括:
获取待分类的图文资源,将所述待分类的图文资源拆分成图像资源和文本资源;
运用第一深度学习方式处理图像资源得到第一分类结果;
运用第二深度学习方式处理文本资源得到第二分类结果;
依据所述第一分类结果和所述第二分类结果生成所述待分类的图文资源的分类结果。
为实现上述目的,本申请一方面提供了一种图文资源分类方法,所述图文资源分类方法包括:
获取待分类的图文资源,将所述待分类的图文资源分解成图像资源和文本资源;
运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
为实现上述目的,本申请另一方面还提出一种图文资源分类装置,所述装置包括:获取模块、解析模块、第一深度学习模块和第二深度学习模块,
所述获取模块,用于获取待分类的图文资源;
所述解析模块,用于将所述待分类的图文资源分解成图像资源和文本资源;
第一深度学习模块,用于运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
第二深度学习模块,用于运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
为实现上述目的,本申请另一方面还提出一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类的图文资源,将所述待分类的图文资源分解成图像资源和文本资源;
运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
为实现上述目的,本申请另一方面还提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待分类的图文资源,将所述待分类的图文资源分解成图像资源和文本资源;
运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
本申请在处理图文资源分类时,先将图文资源做图像和文本的拆分,分开对图像资源和文本资源做深度学习,根据深度学习结果形成最终的分类结果,分开做深度学习时,可以采用不同的深度学习模型来完成分类操作,在保证分类结果精度的同时,降低深度学习模型计算复杂带来的效率差的问题,提高了图文资源分类的精度和效率。
附图说明
图1为实现本申请各个实施例的终端的硬件结构示意图;
图2为本申请图文资源分类方法一实施例的操作流程示意图;
图3为本申请图文资源分类另一实施例的操作流程示意图;
图4为本申请图文资源分类又一实施例的操作流程示意图;
图5为本申请图文资源分类又一实施例的操作流程示意图;
图6为本申请一实施例中运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果的操作流程示意图;
图7为本申请一实施例中将所述第一分类结果和所述文本资源组合形成执行第二深度学习的待学习的文本资源的操作流程示意图;
图8为本申请图文资源分类又一实施例的操作流程示意图;
图9为本申请图文资源分类又一实施例的操作流程示意图;
图10为本申请一实施例中终端架构中消息组织模块的架构示意图;
图11为本申请一实施例中终端架构中图像预处理模块的架构示意图;
图12为本申请一实施例中终端架构中图文预处理模块的架构示意图;
图13为本申请一实施例中终端架构中整体模块的架构示意图;
图14为本申请一实施例中图文资源分类装置的架构示意图;
图15为本申请另一实施例中图文资源分类装置的架构示意图;
图16为本申请又一实施例中图文资源分类装置的架构示意图;
图17为本申请又一实施例中图文资源分类装置的架构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请的实施方案是:获取待分类的图文资源,将所述待分类的图文资源拆分成图像资源和文本资源;运用第一深度学习方式处理图像资源得到第一分类结果;运用第二深度学习方式处理文本资源得到第二分类结果;依据所述第一分类结果和所述第二分类结果生成所述待分类的图文资源的分类结果。
本申请所述的终端可以各种形式来实施。例如,终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端。当然也可以是广义的终端设备,例如,加载了处理器的设备,例如,无人机、无人汽车等,所述终端还可以是包括支持图文资源处理的设备。
参照图1,图1是本申请实施例方法涉及的硬件运行环境的设备结构示意图
如图1所示,以移动终端为例,该移动终端可以包括:处理器1001,例如CPU,存储器1003,通信总线1004,用户输入单元1002,显示单元1005。其中,通信总线1004用于实现处理器1001和存储器1003之间的连接通信。存储器1003可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储装置。
可选地,移动终端还包括至少一种传感器,比如光传感器、运动传感器以及其他传感器。加速计传感器作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
可选地,显示单元1005用于显示由用户输入的消息或提供给用户的消息。显示单元1005可包括显示面板,可以采用液晶显示器(Liquid Crystal Display,LCD、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。
可选地,用户输入单元1002可用于接收输入的数字或字符消息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元1002可包括触控面板以及其他输入设备。触控面板,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程式驱动相应的连接装置。除了触控面板,用户输入单元1002还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。
可选地,处理器1001是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器1003内的软件程序和/或模块,以及调用存储在存储器1003内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器1001可包括一个或多个处理单元;可选的,处理器1001可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1001中。
可选地,存储器1003可用于存储软件程序以及各种数据。存储器1003可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1003可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域技术人员可以理解,图1中示出的移动终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在图1所示的移动终端中,处理器1001用于执行存储器1003中图文资源分类应用程序,实现以下步骤:
获取待分类的图文资源,将所述待分类的图文资源拆分成图像资源和文本资源;运用第一深度学习方式处理图像资源得到第一分类结果;运用第二深度学习方式处理文本资源得到第二分类结果;依据所述第一分类结果和所述第二分类结果生成所述待分类的图文资源的分类结果。
参考图2,图2为本申请图文资源分类方法的操作流程示意图;所述图文资源分类方法包括:
步骤S10,获取待分类的图文资源,将所述待分类的图文资源拆分成图像资源和文本资源;
终端维护一个消息队列,该消息队列接收各种内容请求,内容请求涉及的内容会跟业务相关或者跟终端本身的运行相关或者跟用户的需求相关,接收到的内容请求中会涉及单图文内容或者多图文内容。在消息队列中存在消息时,提取消息队列中的消息,提取的消息队列的消息为待分类的图文资源,该待分类的图文资源包括单图文资源和多图文资源。在提取到待分类的图文资源时,对待分类的图文资源,做拆分,将图文资源中的图像资源和文本资源做出拆分,形成图像资源和文本资源,而不再是图文结合的待分类的图文资源,而是形成按照图像和文本不同的,形成待分类的图像资源和待分类的文本资源这两种类别和格式的待分类的资源。
可选地,为了更好的识别拆分后的待分类的图像资源和待分类的文本资源,对分类后的资源设置标签,所述标签可以是标号或者编号等,可用来识别资源的信息。针对多图文拆分后的资源,可以依据多图文中的图像和文本的不同形成多层级的标签,例如,一级标签,而一级标签下面形成二级标签,二级标签为一级标签的子划分标签,对大概念的图像拆分成多个小概念的图像,进而形成大概念的一级标签和小概念的二级标签,根据图像的不同形成多个层级的标签,例如,还可以增加形成三级标签;图像资源的标签和文本标签设置的不同,便于区分识别。
步骤S20,运用第一深度学习方式处理图像资源得到第一分类结果;
所述第一深度学习方式是针对图像资源而设置的深度学习方式,深度学习方式是采用深度学习模型来完成图像资源的深度学习,形成深度学习的结果,而深度学习的结果以文本格式输出。
可以理解的是,在获取深度学习的图像资源时,可以采取多线程下载的方式,以多线程的方式下载获取深度学习的图像资源,利用第一深度学习方式,即图像深度学习方式来完成图像资源的深度学习,形成图像资源的深度学习结果,该深度学习结果为第一分类结果,是通过对图像资源深度学习得到的初步的分类结果。所述第一深度学习方式可以是EfficientNet系列模型,也还可以是其他支持图像资源深度学习的深度学习模型,该支持的深度学习模式是符合本实施例对图像资源深度学习的要求的模型。
在存在多个图像资源时,即通过多线程下载了多个图像资源时,将下载好的图像资源形成批处理请求。在下载的图像资源设置标签信息时,对批处理请求中的图像资源做出解析,同一标签信息(例如,一级标签或者二级标签或者三级标签)形成交集,通过交集后再对批处理请求下的图像资源做深度学习操作来得到第一分类结果。
步骤S30,运用第二深度学习方式处理文本资源得到第二分类结果;
第二深度学习方式是针对文本资源的深度学习方式,通过设置消息队列,来获取文本资源的内容,在得到文本资源内容时,对多个文本资源形成批量请求,对批处理请求中的文本资源做出解析,将解析结果发送至回调地址,完成此条图文资源任务请求的结果返回。第二深度学习模型可以是ALBERT系列模型,也还可以是其他支持文本资源深度学习的深度学习模型,该支持的深度学习模式是符合本实施例对文本资源深度学习的要求的模型。
步骤S40,依据所述第一分类结果和所述第二分类结果生成所述待分类的图文资源的分类结果。
在通过第一深度学习方式和第二深度学习方式,分别对图像资源和文本资源做深度学习得到第一分类结果和第二分类结果,将第一分类结果和第二分类结果组合形成最终的分类结果,例如,将第一分类结果和第二分类结果按照权重不同来执行合并,得到最终的分类结果,权重根据图像资源和文本资源所占的比例不同来设置;或者根据图像资源和文本资源设置的重要等级来设置,例如,图像资源重要等级高于文本资源,则图像资源的权重要高于文本资源,根据差别的等级数来设置,例如,差1个等级,图像资源权重60%而文本资源40%,差2个等级,图像资源权重65%而文本资源35%;或者根据第一分类结果和第二分类结果的重叠度,即相同的分类结果来设置第一分类结果和第二分类结果的权重,例如,第一分类结果中与第二分类结果重叠的部分更多,则第一分类结果的权重更高,反之权重更低。通过权重设置,将第一分类结果和第二分类结果组合形成最终的分类结果。当然,也可以采取其他方式来形成组合的分类结果,例如,只将第一分类结果和第二分类结果中重叠的分类结果作为最终的分类结果。
通过将图像资源和文本资源分开,采用不同的深度学习方式来完成资源的深度学习得到分类结果,完成图文资源的分类。
本实施例在处理图文资源分类时,先将图文资源做图像和文本的拆分,分开对图像资源和文本资源做深度学习,根据深度学习结果形成最终的分类结果,分开做深度学习时,可以采用不同的深度学习模型来完成分类操作,在保证分类结果精度的同时,降低深度学习模型计算复杂带来的效率差的问题,提高了图文资源分类的精度和效率。
在本申请的一实施例中,参考图3,所述方法,还进一步包括:
步骤S50,确定待分类的图文资源的分类需求;
步骤S60,依据所述分类需求匹配第一深度学习方式和第二深度学习方式。
不同的图文资源有不同的分类需求,分类需求包括精度需求和/或速度需求,也还可以包括资源占用需求等。在获取到图文资源后,根据图文资源的不同确定相应的分类需求,图文资源的需求可设置标签,通过设置的标签来确定分类需求。所述分类需求也可以根据图文资源包括的内容来确定,对图文资源的内容作出识别,根据识别的内容的不同匹配相应的分类需求,而分类需求与内容对应设置匹配关系,通过匹配关系来匹配分类需求。
在确定分类需求后,依据分类需求匹配第一深度学习方式和第二深度学习方式;而设置的第一深度学习方式和第二深度学习方式可以是不同的要求,例如,第一深度学习方式是精度需求,而第二深度学习方式是速度需求。
本实施例通过图文资源的分类需求不同,匹配不同的深度学习方式,通过深度学习方式的匹配,来提高分类的准确性,进而满足不同图文资源的分类需求,以及满足图文资源中不同图像和文本资源的深度学习。
在本申请的一实施例中,参考图4,所述运用第一深度学习方式处理图像资源得到第一分类结果的步骤之前,还包括:
步骤S70,确定中央控制器和图像控制器的资源占用情况;
步骤S80,依据所述资源占用情况从中央控制器和图像控制器选择深度学习的控制器;
步骤S90,依据选择的控制器执行运用第一深度学习方式处理图像资源得到第一分类结果的步骤。
终端设置有中央控制器和图像控制器,在处理深度学习是,可以采取中央控制器和图像控制器中的至少一种来完成第一深度学习方式的操作。例如,第一深度学习方式采用中央控制器,或者第一深度学习采用图像控制器执行。
所选取的依据是中央控制器和图像控制器的资源占用情况,在进行深度学习之前,先确定中央控制器和图像控制器的资源占用情况,执行深度学习选取资源占用少的控制器来执行,在执行完整的图像资源或者文本资源的深度学习操作后,才重新选择控制器;或者采用交替选择的方式选择中央控制器或者图像控制器来执行深度学习的操作。
可以理解的是,在执行第二深度学习方式的深度学习时,同样可以依据资源占用情况作出选择,选择更合适更加合理的控制器来执行深度学习过程。
在一实施例中,针对深度学习的图像资源做出判断,结合资源所需占用的运行资源以及中央控制器和图像控制器的资源占用情况,来匹配,所需占用的运行资源越高,需要控制器空闲的资源越高,才能匹配。或者依据图像资源的分类需求的不同,例如是速度需求,则需要利用运行速度更好的控制器来执行。
本实施例通过控制器的资源占用情况的不同来选择相应的控制器来执行深度学习的操作,匹配合适的控制器,来避免资源占用紧张导致运行卡顿或者速度变慢的情况,提高深度学习的效率。
在一实施例中,在做深度学习之前,可以通过图像资源的预处理模块或者文本资源的预处理模块对资源做相应的预处理,形成标签或者对图像资源或者文本资源整合,便于深度学习的操作。
在一实施例中,参考图5,所述图文资源分类方法,包括:
步骤S01,获取待分类的图文资源,将所述待分类的图文资源分解成图像资源和文本资源;
终端维护一个消息队列,该消息队列接收各种内容请求,内容请求涉及的内容会跟业务相关或者跟终端本身的运行相关或者跟用户的需求相关,接收到的内容请求中会涉及单图文内容或者多图文内容。在消息队列中存在消息时,提取消息队列中的消息,提取的消息队列的消息为待分类的图文资源,该待分类的图文资源包括单图文资源和多图文资源。在提取到待分类的图文资源时,对待分类的图文资源,做拆分,将图文资源中的图像资源和文本资源做出拆分,形成图像资源和文本资源,而不再是图文结合的待分类的图文资源,而是形成按照图像和文本不同的,形成待分类的图像资源和待分类的文本资源这两种类别和格式的待分类的资源。
可选地,为了更好的识别拆分后的待分类的图像资源和待分类的文本资源,对分类后的资源设置标签,所述标签可以是标号或者编号等,可用来识别资源的信息。针对多图文拆分后的资源,可以依据多图文中的图像和文本的不同形成多层级的标签,例如,一级标签,而一级标签下面形成二级标签,二级标签为一级标签的子划分标签,对大概念的图像拆分成多个小概念的图像,进而形成大概念的一级标签和小概念的二级标签,根据图像的不同形成多个层级的标签,例如,还可以增加形成三级标签;图像资源的标签和文本标签设置的不同,便于区分识别。
步骤S02,运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
所述第一深度学习方式是针对图像资源而设置的深度学习方式,深度学习方式是采用深度学习模型来完成图像资源的深度学习,形成深度学习的结果,而深度学习的结果以文本格式输出。
可以理解的是,在获取深度学习的图像资源时,可以采取多线程下载的方式,以多线程的方式下载获取深度学习的图像资源,利用第一深度学习方式,即图像深度学习方式来完成图像资源的深度学习,形成图像资源的深度学习结果,该深度学习结果为第一分类结果,是通过对图像资源深度学习得到的初步的分类结果。所述第一深度学习方式可以是EfficientNet系列模型,也还可以是其他支持图像资源深度学习的深度学习模型,该支持的深度学习模式是符合本实施例对图像资源深度学习的要求的模型。
在存在多个图像资源时,即通过多线程下载了多个图像资源时,将下载好的图像资源形成批处理请求。在下载的图像资源设置标签信息时,对批处理请求中的图像资源做出解析,同一标签信息(例如,一级标签或者二级标签或者三级标签)形成交集,通过交集后再对批处理请求下的图像资源做深度学习操作来得到第一分类结果。
步骤S03,运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
第二深度学习方式是针对文本资源的深度学习方式,通过设置消息队列,来获取文本资源的内容,在得到文本资源内容时,对多个文本资源形成批量请求,对批处理请求中的文本资源做出解析,将解析结果发送至回调地址,完成此条图文资源任务请求的结果返回。第二深度学习模型可以是ALBERT系列模型,也还可以是其他支持文本资源深度学习的深度学习模型,该支持的深度学习模式是符合本实施例对文本资源深度学习的要求的模型。
通过第二深度学习方式对第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果,形成图文资源的分类结果。而对于第二深度学习方式的深度学习操作过程进行深度学习推理。为了平衡模型精度和速度,选用ALBERT系列模型。分类任务中多分类和多标签分类任务的末层激活函数不同,多分类任务采用Softmax层,而多标签任务采用Sigmoid层;模型训练过程中,回归任务需要利用L1/L2Loss,分类任务需要利用交叉熵损失函数。
本实施例在处理图文资源分类时,先将图文资源做图像和文本的拆分,先对图像资源做深度学习形成文本分类结果,然后将分类结果结合文本资源做二次深度学习形成最终的分类结果,通过这样结合的方式,减少了深度学习的内容形态的多样化,均采用单一形态的内容(例如,都是文本都是图像)来做深度学习,减少深度学习的难度,在保证分类结果精度的同时,降低深度学习模型计算复杂带来的效率差的问题,提高了图文资源分类的精度和效率。
在本申请的一实施例中,参考图6,所述运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果的步骤包括:
步骤S11,将所述第一分类结果和所述文本资源组合形成执行第二深度学习的待学习的文本资源;
步骤S12,将所述待学习的文本资源运用第二深度学习方式处理得到第二分类结果。
在形成了采用第一深度学习的方式得到第一分类结果后,将第一分类结果与文本资源组合形成执行第二深度学习的待学习的文本资源,所述执行第二深度学习的均是文本格式的数据。在组合形成执行第二深度学习的待学习的文本资源后,将所述待学习的文本资源运用第二深度学习方式处理得到第二分类结果。
参考图7,所述将所述第一分类结果和所述文本资源组合形成执行第二深度学习的待学习的文本资源的步骤包括:
步骤S31,将第一分类结果和文本资源中标签信息匹配的第一分类结果和文本资源组合,组合后形成执行第二深度学习的待学习的文本资源。
维护一个队列和一个字典。一个队列接收图像预处理模块发来的带编号图片内容标签,一个字典接收消息组织模块模块发来的带编号文本消息,key为编号,value为文本消息。先取到图片内容标签后与对应编号的文本消息进行连接融合,组成batch(批处理)请求的图文资源深度学习,并对请求后的结果进行解析。最后将解析结果发送至回调地址,完成此条图文资源任务请求的结果返回。而这里组合的图文资源,实际是图像资源深度学习后的第一分类结果和文本资源的结合,均是文本格式的数据,是单文本模式的深度学习,而不涉及多形态的数据的深度学习。
本实施例通过先将图像数据深度学习形成文本格式的分类结果后,结合文本资源形成再次深度学习的文本资源,再次执行深度学习,形成最终的图文资源分类结果,采用单形态的信息深度学习方式,提高了学习精度和可操作性,提高了分类结果的精确度和效率。
在一实施例中,参考图8,所述方法,还进一步包括:
步骤S04,确定待分类的图文资源的分类需求;
步骤S05,依据所述分类需求匹配第一深度学习方式和第二深度学习方式。
不同的图文资源有不同的分类需求,分类需求包括精度需求和/或速度需求,也还可以包括资源占用需求等。在获取到图文资源后,根据图文资源的不同确定相应的分类需求,图文资源的需求可设置标签,通过设置的标签来确定分类需求。所述分类需求也可以根据图文资源包括的内容来确定,对图文资源的内容作出识别,根据识别的内容的不同匹配相应的分类需求,而分类需求与内容对应设置匹配关系,通过匹配关系来匹配分类需求。
在确定分类需求后,依据分类需求匹配第一深度学习方式和第二深度学习方式;而设置的第一深度学习方式和第二深度学习方式可以是不同的要求,例如,第一深度学习方式是精度需求,而第二深度学习方式是速度需求。
本实施例通过图文资源的分类需求不同,匹配不同的深度学习方式,通过深度学习方式的匹配,来提高分类的准确性,进而满足不同图文资源的分类需求,以及满足图文资源中不同图像和文本资源的深度学习。
在本申请的一实施例中,参考图9,所述运用第一深度学习方式处理图像资源得到第一分类结果的步骤之前,还包括:
步骤S06,确定中央控制器和图像控制器的资源占用情况;
步骤S07,依据所述资源占用情况从中央控制器和图像控制器选择深度学习的控制器;
步骤S08,依据选择的控制器执行运用第一深度学习方式处理图像资源得到第一分类结果的步骤。
终端设置有中央控制器和图像控制器,在处理深度学习是,可以采取中央控制器和图像控制器中的至少一种来完成第一深度学习方式的操作。例如,第一深度学习方式采用中央控制器,或者第一深度学习采用图像控制器执行。
所选取的依据是中央控制器和图像控制器的资源占用情况,在进行深度学习之前,先确定中央控制器和图像控制器的资源占用情况,执行深度学习选取资源占用少的控制器来执行,在执行完整的图像资源或者文本资源的深度学习操作后,才重新选择控制器;或者采用交替选择的方式选择中央控制器或者图像控制器来执行深度学习的操作。
可以理解的是,在执行第二深度学习方式的深度学习时,同样可以依据资源占用情况作出选择,选择更合适更加合理的控制器来执行深度学习过程。
在一实施例中,针对深度学习的图像资源做出判断,结合资源所需占用的运行资源以及中央控制器和图像控制器的资源占用情况,来匹配,所需占用的运行资源越高,需要控制器空闲的资源越高,才能匹配。或者依据图像资源的分类需求的不同,例如是速度需求,则需要利用运行速度更好的控制器来执行。
本实施例通过控制器的资源占用情况的不同来选择相应的控制器来执行深度学习的操作,匹配合适的控制器,来避免资源占用紧张导致运行卡顿或者速度变慢的情况,提高深度学习的效率。
在一实施例中,在做深度学习之前,可以通过图像资源的预处理模块或者文本资源的预处理模块对资源做相应的预处理,形成标签或者对图像资源或者文本资源整合,便于深度学习的操作。
在一实施例中,为了更好的描述本申请的图文资源分类过程,参考图10,本实施例的终端架构提供消息组织模块:
此模块维护1个消息接收队列。消息接收队列负责接收各种内容请求,包括单图文本内容和多图文本内容。先提取队列中的每条消息进行解析,将消息拆分为图片url(Uniform Resource Locator,统一资源定位符)消息和文本消息,标号一一对应。再将带编号的图片url消息放入发至图像预处理模块,将带编号的文本消息发至图文预处理模块。
参考图11,终端架构提供图像预处理模块:
此模块维护1个图片url队列。此队列负责接收消息组织模块发来的图片url消息。同时此模块负责多线程下载对应图片内容,并将图片进行推理前的预处理工作。抽取下载好的图片组成batch请求图像打标深度学习推理模块,并对请求后的结果进行解析。将同一标号下的图片打标结果求交集,连带编号一齐发送至图文预处理模块。
终端架构提供图像打标深度学习推理模块:
此模块对batch(批量)请求的图片资源进行GPU(图像控制器)深度学习推理。为平衡模型精度和速度,选用EfficientNet系列模型。
参考图12,终端架构提供图文预处理模块:
此模块维护一个队列和一个字典。一个队列接收图像预处理模块发来的带编号图片内容标签,一个字典接收消息组织模块模块发来的带编号文本消息,key为编号,value为文本消息。先取到图片内容标签后与对应编号的文本消息进行连接融合,再进行图文深度学习推理前的预处理,组成batch后请求图文深度学习推理模块,并对请求后的结果进行解析。最后将解析结果发送至回调地址,完成此条图文资源任务请求的结果返回。
终端架构提供图文深度学习推理模块:
此模块仅对batch请求的文本资源进行GPU深度学习推理。为了平衡模型精度和速度,选用ALBERT系列模型。参考图13,提供整体所有模块的架构图,在各模块的分工合作下完成图文资源的分类,形成最终的分类结果,用于信息推送,或者结合业务的操作。分类任务中多分类和多标签分类任务的末层激活函数不同,多分类任务采用Softmax层,而多标签任务采用Sigmoid层;模型训练过程中,回归任务需要利用L1/L2 Loss,分类任务需要利用交叉熵损失函数。
基于本技术方案,使用异步CPU/GPU分离部署架构方案,减少了硬件资源开销,提升了请求服务效率。并选用近乎SOTA的深度学习模型进行推理,做到的速度和精度的平衡,同时也降低了模型训练成本。此外,将图文多模态信息转为文本单模态信息,降低了多模态带来的不可解释性和精度风险。
在一实施例中,在处理图文资源的分类时,消息组织模块和图文预处理模块以及图像预处理模块的操作可以在CPU执行,而图像打标深度学习推理模块和图文深度学习推理模块可以运用GPU来完成,通过这样的方式,终端资源合理化利用。
本申请还提出一种图文资源分类装置,参考图14,所述装置包括:获取模10、解析模块20、第一深度学习模块30和第二深度学习模块40,
所述获取模块10,用于获取待分类的图文资源;
所述解析模块20,用于将所述待分类的图文资源分解成图像资源和文本资源;
所述第一深度学习模块30,用于运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
所述第二深度学习模块40,用于运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
进一步地,参考图15,所述装置还包括确定模块50和匹配模块60,
所述确定模块50,用于确定待分类的图文资源的分类需求;
所述匹配模块60,用于依据所述分类需求匹配第一深度学习方式和第二深度学习方式。
进一步地,参考图16,所述装置还包括选择模块70,
所述确定模块50,还用于确定中央控制器和图像控制器的资源占用情况;
所述选择模块70,用于依据所述资源占用情况从中央控制器和图像控制器选择深度学习的控制器;
所述第一深度学习模块30,用于依据选择的控制器执行运用第一深度学习方式处理图像资源得到第一分类结果的步骤。
进一步地,所述获取模块10,还用于获取待分类的图文资源;
所述解析模块20,还用于将所述待分类的图文资源分解成图像资源和文本资源;
所述第一深度学习模块30,还用于运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
所述第二深度学习模块40,还用于运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
进一步地,参考图17,所述装置还包括组合模块80,
所述组合模块80,用于将所述第一分类结果和所述文本资源组合形成执行第二深度学习的待学习的文本资源;
所述第二深度学习模块40,还用于将所述待学习的文本资源运用第二深度学习方式处理得到第二分类结果。
进一步地,所述组合模块80,还用于将第一分类结果和文本资源中标签信息匹配的第一分类结果和文本资源组合,组合后形成执行第二深度学习的待学习的文本资源。
本申请还提出一种终端,所述终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类的图文资源,将所述待分类的图文资源分解成图像资源和文本资源;
运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
所述终端设置有处理器以及与所述处理器连接的虚拟模块,通过虚拟模块的设置来对图文资源分类,拆解成图像资源和文本资源,通过先对图像资源深度学习之后,形成文本格式的分类结果,再结合文本资源来深度学习形成最终的分类结果,使得分类结果的操作更加可控可靠性提高,提高了分类的效率。
本申请还提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待分类的图文资源,将所述待分类的图文资源分解成图像资源和文本资源;
运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的可选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括可选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种图文资源分类方法,其特征在于,所述图文资源分类方法包括:
获取待分类的图文资源,将所述待分类的图文资源拆分成图像资源和文本资源;
运用第一深度学习方式处理图像资源得到第一分类结果;
运用第二深度学习方式处理文本资源得到第二分类结果;
依据所述第一分类结果和所述第二分类结果生成所述待分类的图文资源的分类结果。
2.根据权利要求1所述的图文资源分类方法,其特征在于,所述方法,还进一步包括:
确定待分类的图文资源的分类需求;
依据所述分类需求匹配第一深度学习方式和第二深度学习方式。
3.根据权利要求1或2所述的图文资源分类方法,其特征在于,所述运用第一深度学习方式处理图像资源得到第一分类结果的步骤之前,还包括:
确定中央控制器和图像控制器的资源占用情况;
依据所述资源占用情况从中央控制器和图像控制器选择深度学习的控制器;
依据选择的控制器执行运用第一深度学习方式处理图像资源得到第一分类结果的步骤。
4.一种图文资源分类方法,其特征在于,所述图文资源分类方法包括:
获取待分类的图文资源,将所述待分类的图文资源分解成图像资源和文本资源;
运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
5.根据权利要求4所述的图文资源分类方法,其特征在于,所述运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果的步骤包括:
将所述第一分类结果和所述文本资源组合形成执行第二深度学习的待学习的文本资源;
将所述待学习的文本资源运用第二深度学习方式处理得到第二分类结果。
6.根据权利要求5所述的图文资源分类方法,其特征在于,所述将所述第一分类结果和所述文本资源组合形成执行第二深度学习的待学习的文本资源的步骤包括:
将第一分类结果和文本资源中标签信息匹配的第一分类结果和文本资源组合,组合后形成执行第二深度学习的待学习的文本资源。
7.根据权利要求4-6任一项所述的图文资源分类方法,其特征在于,所述方法,还进一步包括:
确定待分类的图文资源的分类需求;
依据所述分类需求匹配第一深度学习方式和第二深度学习方式。
8.一种图文资源分类装置,其特征在于,所述装置包括:获取模块、解析模块、第一深度学习模块和第二深度学习模块,
所述获取模块,用于获取待分类的图文资源;
所述解析模块,用于将所述待分类的图文资源分解成图像资源和文本资源;
第一深度学习模块,用于运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
第二深度学习模块,用于运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
9.一种终端,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类的图文资源,将所述待分类的图文资源分解成图像资源和文本资源;
运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现以下步骤:
获取待分类的图文资源,将所述待分类的图文资源分解成图像资源和文本资源;
运用第一深度学习方式处理图像资源得到第一分类结果,所述第一分类结果为文本格式的分类结果;
运用第二深度学习方式处理第一分类结果和文本资源得到第二分类结果,所述第二分类结果为待分类的图文资源的分类结果。
CN202011159419.3A 2020-10-26 2020-10-26 图文资源分类方法、装置、终端及存储介质 Withdrawn CN112214603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011159419.3A CN112214603A (zh) 2020-10-26 2020-10-26 图文资源分类方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011159419.3A CN112214603A (zh) 2020-10-26 2020-10-26 图文资源分类方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN112214603A true CN112214603A (zh) 2021-01-12

Family

ID=74055335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011159419.3A Withdrawn CN112214603A (zh) 2020-10-26 2020-10-26 图文资源分类方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN112214603A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937445A (zh) * 2010-05-24 2011-01-05 中国科学技术信息研究所 一种文件自动分类系统
CN106897454A (zh) * 2017-02-15 2017-06-27 北京时间股份有限公司 一种文件分类方法及装置
CN106909946A (zh) * 2017-03-02 2017-06-30 深圳明创自控技术有限公司 一种多模态融合的商品分类系统
US20190147304A1 (en) * 2017-11-14 2019-05-16 Adobe Inc. Font recognition by dynamically weighting multiple deep learning neural networks
CN110096641A (zh) * 2019-03-19 2019-08-06 深圳壹账通智能科技有限公司 基于图像分析的图文匹配方法、装置、设备及存储介质
CN111026870A (zh) * 2019-12-11 2020-04-17 华北电力大学 一种综合文本分类和图像识别的ict系统故障分析方法
CN111259141A (zh) * 2020-01-13 2020-06-09 北京工业大学 一种基于多模型融合的社交媒体语料情感分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937445A (zh) * 2010-05-24 2011-01-05 中国科学技术信息研究所 一种文件自动分类系统
CN106897454A (zh) * 2017-02-15 2017-06-27 北京时间股份有限公司 一种文件分类方法及装置
CN106909946A (zh) * 2017-03-02 2017-06-30 深圳明创自控技术有限公司 一种多模态融合的商品分类系统
US20190147304A1 (en) * 2017-11-14 2019-05-16 Adobe Inc. Font recognition by dynamically weighting multiple deep learning neural networks
CN110096641A (zh) * 2019-03-19 2019-08-06 深圳壹账通智能科技有限公司 基于图像分析的图文匹配方法、装置、设备及存储介质
CN111026870A (zh) * 2019-12-11 2020-04-17 华北电力大学 一种综合文本分类和图像识别的ict系统故障分析方法
CN111259141A (zh) * 2020-01-13 2020-06-09 北京工业大学 一种基于多模型融合的社交媒体语料情感分析方法

Similar Documents

Publication Publication Date Title
CN112434721B (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
CN111476306B (zh) 基于人工智能的物体检测方法、装置、设备及存储介质
CN111277706B (zh) 一种应用推荐方法、装置、存储介质及电子设备
JP7167187B2 (ja) 仮想アシスタントのための入力モードの選択
CN111813532B (zh) 一种基于多任务机器学习模型的图像管理方法及装置
WO2016070098A2 (en) Determining categories for weakly labeled images
US20220027667A1 (en) Imagery evidence matching system
KR20210031768A (ko) 콘텐츠 제안 시스템
CN112163577B (zh) 游戏画面中的文字识别方法、装置、电子设备和存储介质
US12001471B2 (en) Automatic lot classification
CN110765294B (zh) 图像搜索方法、装置、终端设备及存储介质
CN114564666A (zh) 百科信息展示方法、装置、设备和介质
CN113822427A (zh) 一种模型训练的方法、图像匹配的方法、装置及存储介质
CN113220848A (zh) 用于人机交互的自动问答方法、装置和智能设备
CN112214603A (zh) 图文资源分类方法、装置、终端及存储介质
CN113486260B (zh) 互动信息的生成方法、装置、计算机设备及存储介质
US20190361590A1 (en) Using image understanding to assist user engagement
Neiva et al. A dynamic gesture recognition system to translate between sign languages in complex backgrounds
CN114547242A (zh) 一种问卷调研的方法、装置、电子设备及可读存储介质
JP7027524B2 (ja) 視覚的入力の処理
CN114462539A (zh) 一种内容分类模型的训练方法、内容分类的方法及装置
CN114924876A (zh) 基于分布式异构运算的声纹识别方法、装置及存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
US11928167B2 (en) Determining classification recommendations for user content
CN117094744A (zh) 基于IoT设备的商户类别确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210112