CN110737801A - 内容分类方法、装置、计算机设备和存储介质 - Google Patents

内容分类方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110737801A
CN110737801A CN201910975219.6A CN201910975219A CN110737801A CN 110737801 A CN110737801 A CN 110737801A CN 201910975219 A CN201910975219 A CN 201910975219A CN 110737801 A CN110737801 A CN 110737801A
Authority
CN
China
Prior art keywords
category
content
target
classification
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910975219.6A
Other languages
English (en)
Other versions
CN110737801B (zh
Inventor
叶振旭
杨伟东
车翔
管琰平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910975219.6A priority Critical patent/CN110737801B/zh
Publication of CN110737801A publication Critical patent/CN110737801A/zh
Application granted granted Critical
Publication of CN110737801B publication Critical patent/CN110737801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种内容分类方法、装置、计算机设备和存储介质,方法包括:获取待分类的目标内容对应的目标特征向量;获取已训练得到的目标分类模型,目标分类模型包括第一分类模型以及第二分类模型;将目标特征向量输入到第一分类模型中,得到目标内容对应的第一内容类别,第一内容类别为第一分类层级对应的内容类别;获取第一分类层级对应的第一类别特征信息;将第一类别特征信息以及目标特征向量输入到第二分类模型中,得到目标内容对应的第二内容类别,第二内容类别为第二分类层级对应的内容类别,第二分类层级的级别低于第一分类层级的级别;将第一内容类别以及第二内容类别作为目标内容对应的分类结果。上述方法可以提高内容分类准确度。

Description

内容分类方法、装置、计算机设备和存储介质
技术领域
本申请涉及信息处理领域,特别是涉及内容分类方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,互联网上的内容越来越多,在许多场景下都会存在对内容分类的需求。例如需要根据内容的类型对内容进行管理,根据用户选择的内容类别推送对应类别的内容。如对视频进行分类,以得到视频的类别,视频的类别例如可以是喜剧类或者剧情类。可以通过人工智能模型对内容进行分类,但目前分类得到的内容类别精细度以及准确度差。
发明内容
基于此,有必要针对上述分类得到的内容类别精细度以及准确度差的问题,提供一种内容分类方法、装置、计算机设备和存储介质。
一种内容分类方法,所述方法包括:获取待分类的目标内容对应的目标特征向量;获取已训练得到的目标分类模型,所述目标分类模型包括第一分类模型以及第二分类模型;将所述目标特征向量输入到所述第一分类模型中,得到所述目标内容对应的第一内容类别,所述第一内容类别为第一分类层级对应的内容类别;获取所述第一分类层级对应的第一类别特征信息;将所述第一类别特征信息以及所述目标特征向量输入到所述第二分类模型中,得到所述目标内容对应的第二内容类别,所述第二内容类别为第二分类层级对应的内容类别,所述第二分类层级的级别低于所述第一分类层级的级别;将所述第一内容类别以及所述第二内容类别作为所述目标内容对应的分类结果。
一种内容分类装置,所述装置包括:目标特征向量获取模块,用于获取待分类的目标内容对应的目标特征向量;分类模型获取模块,用于获取已训练得到的目标分类模型,所述目标分类模型包括第一分类模型以及第二分类模型;第一内容类别得到模块,用于将所述目标特征向量输入到所述第一分类模型中,得到所述目标内容对应的第一内容类别,所述第一内容类别为第一分类层级对应的内容类别;第一类别特征信息获取模块,用于获取所述第一分类层级对应的第一类别特征信息;第二内容类别得到模块,用于将所述第一类别特征信息以及所述目标特征向量输入到所述第二分类模型中,得到所述目标内容对应的第二内容类别,所述第二内容类别为第二分类层级对应的内容类别,所述第二分类层级的级别低于所述第一分类层级的级别;分类结果得到模块,用于将所述第一内容类别以及所述第二内容类别作为所述目标内容对应的分类结果。
在一些实施例中,所述第一类别特征信息获取模块包括:类别向量得到单元,用于获取所述第一分类层级中各个候选内容类别对应的类别向量;类别权重系数获取单元,用于获取各个所述候选内容类别对应的类别权重系数;第一类别特征信息得到单元,用于根据所述候选内容类别对应的类别向量以及对应的类别权重系数计算得到所述第一分类层级对应的第一类别特征信息。
在一些实施例中,所述第一内容类别得到模块用于:将所述目标特征向量输入到所述第一分类模型中,得到各个所述候选内容类别对应的被选中率;根据各个所述候选内容类别对应的被选中率确定所述目标内容对应的第一内容类别;所述类别权重系数获取单元用于:根据所述第一分类模型输出的所述候选内容类别对应的被选中率,得到所述候选内容类别对应的类别权重系数。
在一些实施例中,所述类别权重系数获取单元用于:计算所述候选内容类别对应的类别向量与所述目标内容的第一特征向量的相关度;根据所述相关度得到所述候选内容类别对应的类别权重系数。
在一些实施例中,所述目标内容为视频,所述类别权重系数获取单元用于:获取所述视频对应的第一特征向量,所述第一特征向量包括所述视频对应的图像特征向量或者所述视频对应的音频特征向量的至少一种;计算所述候选内容类别对应的类别向量与所述第一特征向量的相关度。
在一些实施例中,所述第一类别特征信息获取模块用于:获取所述第一内容类别对应的类别向量,根据所述第一内容类别对应的类别向量得到所述第一分类层级对应的第一类别特征信息。
在一些实施例中,所述第一类别特征信息获取模块用于:获取所述第一分类模型的隐藏层输出的隐层输出向量,根据所述隐层输出向量得到所述第一分类层级对应的第一类别特征信息。
在一些实施例中,所述目标分类模型还包括多个特征提取模型以及特征向量融合层,所述目标特征向量获取模块用于:获取各个所述特征提取模型输出的特征向量;将各个所述特征提取模型输出的特征向量输入到所述特征向量融合层中进行融合,得到待分类的目标内容对应的目标特征向量。
在一些实施例中,所述目标特征向量获取模块用于:获取对所述目标内容对应的内容语句进行分词得到的词序列,将所述词序列输入到文本特征提取模型中,输出所述词序列中各个词语对应的编码向量;计算各个所述词语对应的编码向量与参考特征向量的相关度,根据所述相关度得到所述词语对应的编码向量的编码权重系数,所述参考特征向量为所述目标内容对应的音频特征向量或者图像特征向量中的至少一个;根据各个所述词语对应的编码向量以及对应的编码权重系数得到文本特征向量。
在一些实施例中,所述装置还包括:内容向量得到模块,用于获取所述第一分类模型的隐藏层输出的第一隐层输出向量或者所述第二分类模型的隐藏层输出的第二隐层输出向量中的至少一个,作为所述目标内容对应的内容向量。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述内容分类方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述内容分类方法的步骤。
上述内容分类方法、装置、计算机设备和存储介质,通过获取待分类的目标内容对应的目标特征向量,将目标特征向量输入到第一分类模型中,得到第一层级对应的内容类别。并将第一分类层级对应的类别特征信息输入到第二分类模型中,得到第二层级对应的内容类别,第二分类层级的级别低于第一分类层级的级别。由于对内容进行了多个层级的分类,因此内容类别更加精细,而且利用第二分类模型进行分类时,还参考了第一分类层级对应的第一类别特征信息,即利用了粗分类对应的特征信息进行更细致的分类,因此得到的第二内容类别的准确度高。
附图说明
图1为一些实施例中提供的内容分类方法的应用环境图;
图2为一些实施例中内容分类方法的流程图;
图3为一些实施例中第一分类模型的结构示意图;
图4为一些实施例中将视频输入到目标分类模型,得到分类结果的示意图;
图5为一些实施例中获取第一分类层级对应的第一类别特征信息的流程图;
图6为一些实施例中目标分类模型的结构示意图;
图7为一些实施例中目标分类模型的结构示意图;
图8为一些实施例中目标分类模型的结构示意图;
图9为一些实施例中目标分类模型的结构示意图;
图10为一些实施例中目标分类模型的结构示意图;
图11为一些实施例中在视频播放界面展示分类结果的示意图;
图12为一些实施例中内容分类装置的结构框图;
图13为一些实施例中计算机设备的内部结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一内容类别称为第二内容类别,且类似地,可将第二内容类别称为第一内容类别。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的图像识别、语音识别以及自然语音识别等技术,具体通过如下实施例进行说明:
图1为一些实施例中提供的内容分类方法的应用环境图,如图1所示,在该应用环境中,包括终端110、内容服务器120以及分类服务器130。内容服务器120可以存储多个内容,例如视频。分类服务器130可以从内容服务器120中获取得到各个内容,得到各个内容对应的目标特征向量,然后执行本申请实施例提供的内容分类方法,得到各个内容对应的分类结果,将分类结果返回到内容服务器120中,当内容服务器120接收到终端110发送的携带目标类别的视频推送请求时,可以向终端110推送对应内容类别的内容。例如,终端110可以发送携带“第一内容类别为体育且第二内容类别为篮球”的视频推送请求,内容服务器120向终端110推送“第一内容类别为体育且第二内容类别为篮球”的视频。
可以理解,上述的应用场景仅是一种示例,本申请提供的内容分类方法还可以应用在其他场景中,例如可以获取满足筛选条件的内容,对这些内容的类别进行分析。筛选条件可以是与内容热度有关的条件,例如可以是筛选视频网站中,热度高于预设热度或者热度排名在预设排名之前的内容,对这些内容的类别进行分析。
上述的内容服务器120以及分类服务器130可以是同一服务器也可以是不同服务器。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端110以及服务器120可以通网络等通讯连接方式进行连接,本申请在此不做限制。
如图2所示,在一些实施例中,提出了一种内容分类方法,本实施例主要以该方法应用于上述图1中的分类服务器130来举例说明。具体可以包括以下步骤:
步骤S202,获取待分类的目标内容对应的目标特征向量。
具体地,内容可以是文本、语音、图片以及视频中的一种或多种。例如内容可以是新闻文章,新闻文章中包括文本以及图片,内容也可以是一个视频。“多种”是指两种以上,包括两种。特征向量是对内容的特征的向量化表示,特征用于描述内容的特性,可以根据内容的相关信息提取得到,例如内容对应的文本、图像或者语音等信息中的至少一个,还可以根据内容对应的属性信息例如内容的作者或者内容对应的标签等信息提取得到对应的特征。举个实际的例子,当视频为目标内容时,可以获取视频对应的标题、图像或者语音等信息中的至少一个,进行特征提取,得到该视频对应的特征向量。还可以获取视频对应的导演名称、视频的关键词、用户上传视频时自定义的分类或者标签信息中的至少一个,进行特征提取,得到特征向量。
在一些实施例中,分类服务器可以将内容服务器中所有的内容作为待分类的目标内容,例如将视频网站的所有视频作为待分类的视频。也可以是接收分类请求,分类请求中携带待分类的目标内容对应的内容标识或者目标内容本身。可以根据内容标识获取对应的目标内容。例如,当要对视频网站当天新增的视频进行分类时,则可以利用特征提取模型,对新增的视频进行特征提取,得到视频的特征向量。
在一些实施例中,特征可以包括文本特征、音频特征或者图像特征中的至少一个。当包括语音特征时,可以获取内容对应的语音数据,对语音数据进行特征提取,得到音频特征向量。例如对于视频中的语音,可以进行音频文件的抽取,得到音频文件,针对音频文件,获取对应的mel spctrogram(梅尔频谱图,然后针对梅尔频谱图,经过音频特征提取模型例如Vggish模型进行音频特征的抽取,对抽取得到的向量通过NetVlad(Net Vector oflocally aggregated descriptors,空间局部聚合向量)聚类编码,得到音频特征向量。NetVlad可以保存的每个特征点与离它最近的聚类中心的距离,并将其作为新的特征。
在一些实施例中,特征可以包括文本特征、音频特征或者图像特征中的至少一个。当包括图像特征时,可以获取内容对应的图像数据,利用图像特征提取模型对图像数据进行特征提取,得到图像特征向量。例如对于视频,可以进行视频帧的提取,得到图片集合,针对图片集合,经过Inception模型进行图像特征的抽取,对抽取得到的向量通过NetVlad模型进行聚类编码,得到图像特征向量。
在一些实施例中,当目标内容为视频时,可以从视频中抽取部分视频帧,对该部分视频帧提取图像特征。例如可以是每秒抽取一个视频帧。
在一些实施例中,特征可以包括文本特征、音频特征或者图像特征中的至少一个。当包括文本特征时,可以获取内容对应的文本,例如视频对应的标题,根据分词词库对文本进行切词,得到词序列,利用文本特征提取模型提取得到文本特征向量,例如可以采用TextCNN(Text Convolutional Neural Networks,文本卷积模型)抽取文本的特征,得到文本特征向量。还可以采用Bi-LSTM(Bidirectional Long Short-Term Memory,双向长短时记忆网络)得到句子对应的文本特征向量。还可以同时利用多个模型例如TextCNN模型以及Bi-LSTM模型提取得到文本特征向量,再结合多个模型提取得到的文本特征向量得到最终的文本特征向量,例如可以将TextCNN模型以及Bi-LSTM模型分别提取得到的文本特征向量进行拼接,得到最终的文本特征向量。TextCNN是一种卷积神经网络,其关注的焦点取决于感受野的面积(即卷积核的宽度和高度),因此能够抽取到关键的特征。
在一些实施例中,在利用Bi-LSTM对词语进行编码,得到各个词语对应的编码向量,以根据词语对应的编码向量提取得到文本特征向量时,可以引入注意力机制(Attention Mechanism),来加权Bi-LSTM模型中得到的词语对应的编码向量,即可以基于注意力机制确定词语对应的编码向量对应的注意力分配权重系数,从而得到更细粒度的文本特征向量。因此,获取待分类的目标内容对应的目标特征向量包括:获取对目标内容对应的内容语句进行分词得到的词序列,将词序列输入到文本特征提取模型中,输出词序列中各个词语对应的编码向量;计算各个词语对应的编码向量与参考特征向量的相关度,根据相关度得到词语对应的编码向量的编码权重系数,参考特征向量为目标内容对应的音频特征向量或者图像特征向量中的至少一个;根据各个词语对应的编码向量以及对应的编码权重系数得到文本特征向量。
具体地,目标内容对应的内容语句可以是与目标内容相关的语句,可以是目标内容包含的语句也可以是用于描述目标内容的语句。例如视频的标题或者对视频进行描述的句子。分词的方法可以可采用基于词典或基于统计的分词方式。例如,假设内容语句为“今天是星期天”,则分词得到的词序列为“今天/是/星期天”。
文本特征提取模型用于提取文本特征,文本特征提取模型例如可以是Bi-LSTM模型。编码可以将输入的数据转化为向量。可以通过文本特征提取模型对词序序列的各个词语进行编码,得到各个词语对应的编码向量。在编码时,当前时刻生成的当前词语对应的编码向量是根据当前词语对应的词向量以及前一时刻生成的编码向量决定的。用公式表示如下:bj=E(bj-1,xj),其中,bj表示词序列中第j个词对应的编码向量,bj-1表示语句中第j-1个词对应的编码向量,xj表示词序列中的第j个词的词向量,E表示特征提取模型对应的映射函数。
相关度表示向量之间的相关程度,相关度越大,则表示向量越相关。相关度的计算方法可以采用欧式距离或者余弦相似度计算方法得到。距离越大,则越不相关,即相关度越小。相似度越大,则越相关,例如可以将相似度作为相关度。参考特征向量可以是目标内容对应的音频特征向量或者图像特征向量中的至少一种。当将图像特征向量作为参考特征向量时,则文本特征向量与图像更契合,当将音频特征向量作为参考特征向量,则文本特征向量与音频更契合。相关度与注意力分配权重系数成正相关关系,相关度越大,则权重系数也越大。例如,得到编码向量对应的相关度后,可以对各个相关度进行求和,得到相关度的和,然后根据各个编码向量的相关度与相关度的和的比例得到编码权重系数,即编码向量对应的注意力分配权重系数。举个实际的例子,假设编码向量包括3个向量,各个编码向量与参考特征向量的相关度分别为0.8、0.7、0.5,则相关度的和为0.8+0.7+0.5=2,各个编码向量对应的注意力分配权重系数分别为0.8/2=0.4、0.7/2=0.35、0.5/2=0.25。得到各个编码向量对应的注意力分配权重系数后,可以根据编码向量以及对应的注意力分配权重系数进行加权求和,得到文本特征向量。通过参考特征向量为各个编码向量分配注意力分配权重系数,可以使得特征提取模型具备专注于与图像或者音频特征更相似的编码向量的能力,使得得到的文本特征向量与图像或者音频更加契合。
在一些实施例中,当参考特征向量包括目标内容对应的音频特征向量以及图像特征向量时,可以获取基于音频特征向量作为参考特征向量得到的相关度,以及基于图像特征向量作为参考特征向量得到的相关度,对相关度进行统计,将统计得到的相关度统计值作为该编码向量对应的相关度。相关度统计值例如可以是基于音频特征作为参考特征向量得到的相关度,以及基于音频特征向量作为参考特征向量得到的相关度的平均值。例如,假设a词语对应的编码向量为a1,a1与音频特征向量的相关度为2,与图像特征向量的相关度为3,则a词语与参考特征向量的相关度为(2+3)/2=2.5。
在一些实施例中,当目标内容对应的特征向量为多个时,例如包括图像特征向量、文本特征向量以及音频特征向量时,则可以对多个特征向量进行融合。例如对图像特征向量、文本特征向量以及音频特征向量进行拼接,得到目标特征向量。
步骤S204,获取已训练得到的目标分类模型,目标分类模型包括第一分类模型以及第二分类模型。
具体地,目标分类模型用于对内容进行分类。第一分类模型以及第二分类模型对应的分类层级不同。第一分类模型用于对第一分类层级进行分类,第二分类模型用于对第二分类层级进行分类。其中第二分类层级的级别低于第一分类层级的级别,例如,第一分类层级可以是一级分类,第二分类层级可以是二级分类。或者第一分类层级可以是一级分类,第二分类层级可以是三级分类。第一分类层级可以为第二分类层级的上一层级。例如,当第一分类层级为二级类别时,第二分类层级为三级类别。级别越高,则说明层级对应的内容范围越大。内容的分类层级对应的类别可以根据需要设置,例如一级分类可以包括体育、娱乐以及财经等类别。体育类别下,二级分类又可以包括篮球类别以及足球类别。篮球类别下,三级分类可以包括NBA(National Basketball Association,美国职业篮球联赛)类别以及CBA(China Basketball Association中国篮球联赛)类别。
目标分类模型是预先训练得到的机器学习模型。根据已训练的机器学习模型进行内容分类之前,需要通过训练数据对机器学习模型进行模型训练确定模型的参数,使其能够建立起从输入数据到输出数据的映射,即建立起根据内容的特征得到内容分类的映射。在进行模型训练时,采用有监督的学习方式,对于作为训练样本的内容,其对应的第一分类层级的类别以及第二分类层级的类别都是己知的,可以根据训练样本对应的预测类别与实际的类别得到模型损失值,根据随机梯度下降法,朝着使损失值变小的方向调整模型参数,得到满足模型收敛条件的机器学习模型。模型收敛条件可以是训练次数达到预设次数或者损失值小于预设阈值的一个或两个。
在一些实施例中,第一分类模型以及第二分类模型是级联的。在训练目标分类模型时,结合第一分类模型以及第二分类模型进行联合训练,学习得到对应的模型参数。例如可以将第一分类模型对应的损失值以及第二分类模型对应的损失值的和作为目标分类模型对应的损失值,根据目标分类模型对应的损失值调整模型参数。
步骤S206,将目标特征向量输入到第一分类模型中,得到目标内容对应的第一内容类别,第一内容类别为第一分类层级对应的内容类别。
具体地,通过第一分类模型的参数对目标特征向量进行处理,可以得到各个候选内容类别对应的概率(被选中率),可以获取概率最高的候选内容类别,作为第一内容类别。例如,假设候选内容类别有娱乐、体育以及财经,第一分类模型输出的概率可以为娱乐对应的概率为0.1,体育对应的概率为0.8,财经对应的概率为0.1,则可以将体育作为第一内容类别。
在一些实施例中,第一分类模型可以包括输入层、隐层(隐藏层)以及输出层。隐层是神经网络模型中的一种术语,是相对于输入层和输出层的中间层,隐层中包括对神经网络模型训练得到的模型参数,隐层的数量可以根据需要设置,例如可以为3层。将输入的目标特征向量输入到隐层中,得到隐层输出的隐层输出向量后,可以利用激活函数进行激活,得到各个候选内容类别对应的概率。激活函数例如可以是Relu,Sigmoid或者Tanh等激活函数。例如,如图3所示,第一分类模型可以包括输入层、三层隐层(维度为1024维的第一层全连接层、维度为512维的第二层全连接层以及维度为256维的第三层全连接层)、激活层以及分类得到层,激活层用于利用激活函数对隐层输出的隐层输出向量进行激活,得到各个候选内容类别对应的概率,分类得到层获取概率最大的候选内容类别,作为第一内容类别。
步骤S208,获取第一分类层级对应的第一类别特征信息。
具体地,第一类别特征信息是第一分类层级对应的类别特征信息,用于表示第一分类层级的类别特征。第一类别特征信息可以是根据第一分类模型的输出得到的,也可以是根据候选内容类别对应的类别向量得到的。例如可以将第一内容类别对应的类别向量作为第一类别特征信息,也可以将各个候选内容类别对应的类别向量与对应的权重系数进行加权,将加权得到的向量作为第一类别特征信息。也可以是将第一分类模型的隐层输出的隐层输出向量作为第一类别特征信息。
在一些实施例中,第一类别特征信息可以有一个或多个,例如可以将第一内容类别对应的类别向量、各个候选内容类别对应的类别向量与对应的权重系数进行加权得到的向量、或者第一分类模型隐层输出的隐层输出向量中的至少一个作为第一类别特征信息,也可以是将这三个向量相加或者拼接,将得到的向量作为第一类别特征信息。
步骤S210,将第一类别特征信息以及目标特征向量输入到第二分类模型中,得到目标内容对应的第二内容类别,第二内容类别为第二分类层级对应的内容类别,第二分类层级的级别低于第一分类层级的级别。
具体地,可以将第一类别特征信息以及目标特征向量拼接,输入到第二分类模型中。通过第一分类模型的参数对目标特征向量以及第一类别特征信息进行处理,可以得到第二分类层级中的候选内容类别对应的概率(被选中率),可以获取概率最高的候选内容类别,作为第二内容类别。例如,假设第二分类层级对应的候选内容类别中,有篮球以及足球两个类别,第二分类模型输出的概率为篮球对应的概率为0.1,足球对应的概率为0.9,则可以将足球作为第二内容类别。
在一些实施例中,第二分类模型可以包括输入层、隐层以及输出层。隐层中包括对神经网络模型训练得到的模型参数,隐层的数量可以根据需要设置,例如可以为3层。将输入的目标特征向量输入到隐层中,得到隐层输出的隐层向量后,可以利用激活函数进行激活,得到各个候选内容类别对应的概率。激活函数例如可以是Relu,Sigmoid或者Tanh等激活函数。例如,第二分类模型的结构可以与第一分类模型的结构相同,包括括输入层、三层隐层(维度为1024维的第一层全连接层、维度为512维的第二层全连接层以及维度为256维的第三层全连接层)、激活层以及分类得到层,激活层对隐层输出的隐层输出向量进行激活,得到各个候选内容类别对应的概率,分类得到层获取概率最大的候选内容类别,作为第二内容类别。
在一些实施例中,还可以获取第一分类模型的隐藏层输出的第一隐层输出向量或者第二分类模型的隐藏层输出的第二隐层输出向量中的至少一个,作为目标内容对应的内容向量。
具体地,目标内容对应的内容向量是对目标内容的向量化表示。例如当目标内容为视频时,可以获取该视频对应的视频向量。可以是将各个隐藏层的输出向量作为目标内容对应的内容向量,也可以是将第一分类模型中最后一层隐藏层输出的第一隐层输出向量作为目标内容对应的内容向量,将第二分类模型中最后一层隐藏层输出的第二隐层输出向量作为目标内容对应的内容向量。其中,第一分类模型对应的隐层输出向量可以包括更多的信息内容,第二分类模型对应的隐层输出向量由于是根据级别更高的第一分类层级的类别特征信息得到的,因此精确度更高,能够更加精确的表示目标内容。
在一些实施例中,目标内容对应的内容向量可以用于对内容进行召回或者排序。例如,在对用户进行内容推送时,可以将各个候选内容对应的内容向量与用户对应的用户向量进行相似度计算,将相似度大于预设相似度或者相似度排名在预设排名之前的候选内容作为向目标用户对应的终端进行推送的内容。
在一些实施例中,还可以根据目标内容的内容向量获取与该内容相似的相似内容。获取该相似内容对应的标签,根据相似内容对应的标签确定该目标内容的标签。例如,当获取到视频例如用户新上传的目标视频时,可以根据本申请实施例提供的方法得到该目标视频对应的目标视频向量,获取目标视频向量与已确定标签的候选视频的视频向量的相似度,得到与目标视频相似的一个或多个视频,获取该一个或多个视频的标签,然后根据该一个或多个视频的标签以及预设策略得到该目标视频的标签。预设策略例如可以是选取与目标视频相似的一个或多个视频中,标签次数出现最多的标签作为目标视频的标签。
步骤S212,将第一内容类别以及第二内容类别作为目标内容对应的分类结果。
具体地,得到第一内容类别以及第二内容类别后,可以输出该目标内容对应的分类结果。
上述内容分类方法、装置、计算机设备和存储介质,通过获取待分类的目标内容对应的目标特征向量,将目标特征向量输入到第一分类模型中,得到第一层级对应的内容类别。并将第一分类层级对应的类别特征信息输入到第二分类模型中,得到第二层级对应的内容类别,第二分类层级的级别小于第一分类层级的级别。由于对内容进行了多个层级的分类,因此内容类别更加精细,而且利用第二分类模型进行分类时,还参考了第一分类层级对应的第一类别特征信息,即利用了粗分类对应的特征信息进行更细致的分类,因此得到的第二内容类别的准确度高。
在一些实施例中,当目标内容对应的特征向量包括多种时,例如包括图像特征向量、文本特征向量以及音频特征向量时,则可以对特征向量进行融合。目标分类模型可以包括多个特征提取模型以及特征向量融合层。特征向量融合层可以与特征提取模型相连接。获取待分类的目标内容对应的目标特征向量包括:获取各个特征提取模型输出的特征向量;将各个特征提取模型输出的特征向量输入到特征向量融合层中进行融合,得到待分类的目标内容对应的目标特征向量。
具体地,融合的方式可以为将各个特征向量进行拼接、将各个特征向量进行元素积计算、将各个特征向量与对应的权重系数进行加权求和得到目标特征向量或者训练得到MLP(Multilayer Perceptron,多层感知机)模型,对特征向量进行融合的方式。特征向量对应的权重系数可以是预设的,例如设置文本特征向量的权重系数为0.2,图像特征向量的权重系数为0.3,音频特征向量的权重系数为0.5,则目标特征向量为:0.2*文本特征向量+0.3*图像特征向量+0.5*音频特征向量。又例如假设文本特征向量为5行*2列的矩阵向量,音频特征向量为5行*3列的矩阵向量,则拼接后,可以得到5行*5列的矩阵向量。
如图4所示,为一些实施例中将视频输入到目标分类模型,得到分类结果的示意图。目标分类模型可以包括图像特征提取模型、音频特征提取模型以及文本特征提取模型。当获取得到视频文件时,对视频相关的内容进行提取,得到视频帧图像、音频数据以及视频对应的文本例如标题三种类型的信息。然后将视频帧图像输入到图像特征提取模型中,得到图像特征向量。将音频数据输入到图像特征提取模型中,得到音频特征向量,将视频对应的文本输入到文本特征提取模型中,得到文本特征向量,文本特征提取模型可以包括TextCNN模型以及BI-LSTM模型。将图像特征向量、文本特征向量以及音频特征向量输入到特征向量融合层,得到目标特征向量。其中图4中,inception模型是指Google(谷歌公司)开源的CNN模型,可以作为一种抽取图片特征的方式。Vggish模型是由图像分类模型VGG(Visual Geometry Group,超分辨率测试序列)模型演化而来,可作为音频特征提取模型。NETVLAD模型是一种用聚合后的局部特征来表示全局特征的编码模型。图4中,N*Md是指输出的特征向量的行数与列数,例如1024*256d是指该特征向量对应的向量矩阵有1024行以及256列。其中N与M的值可以根据需要设置。可以理解,还可以利用其他模型进行特征提取,例如,可以使用Resnet(Residual Neural Network,残差网络模型)模型、Xception模型、MobuleNet模型或者VGG模型中的一种或多种代替inception模型。可以使用Bi-GRU模型、fastText模型或者BERT(Bidirectional Encoder Representations from Transformers,来自变换器的双向编码器表示)模型的一种或多种进行文本特征的提取。
可以理解,特征向量融合层还可以融合其他特征向量,例如可以获取不同模态对应的特征向量进行融合,可以根据需要选取部分模态对应的特征向量进行融合,因此通过特征向量融合层,可以支持便捷式的根据需要选择内容的模态特征确定内容的类别,例如除了图像特征向量、文本特征向量以及音频特征向量之外,还可以根据需要获取根据视频的封面图、用户上传的标签、用户个人信息或者视频的评论得到的特征向量中的一种或多种,输入到特征向量融合层中,这相当于特征向量的选取是可插拔的,可以根据实际确定需要哪些特征向量来辅助进行内容的分类,从而使得目标分类模型具有扩展性。其中,模态是指信息的来源或者形式,每一种信息的来源或者形式,可以称为一种模态。例如根据信息的媒介确定模态,可以有语音信息、视频信息以及文字信息等多种模态。
在一些实施例中,如图5所示,获取第一分类层级对应的第一类别特征信息包括:
步骤S502,获取第一分类层级中各个候选内容类别对应的类别向量。
具体地,类别向量是对内容类别的向量化表示,可以是分布式向量(embeddingvector)。各个候选内容类别对应的类别向量可以是在训练第一分类模型得到的,例如在训练第一分类模型时,可以随机初始化各个候选内容类别对应的类别向量,在得到模型损失值,进行参数的反向传播时,朝着损失值下降的方向调整候选内容类别对应的类别向量,从而更新候选内容类别对应的类别向量,直至训练得到第一分类模型时,确定候选内容类别对应的类别向量。
步骤S504,获取各个候选内容类别对应的类别权重系数。
具体地,类别权重系数用于表示该候选内容类别对应的权重。可以将候选内容类别对应的被选中率作为类别权重系数,也可以根据候选内容类别对应的类别向量与目标内容对应的特征向量的相关度得到候选内容类别对应的类别权重系数。
步骤S506,根据候选内容类别对应的类别向量以及对应的类别权重系数计算得到第一分类层级对应的第一类别特征信息。
具体地,得到类别向量以及对应的类别权重系数后,可以根据各个候选内容类别对应的类别向量与对应的类别权重系数进行权重加权求和运算,得到第一类别特征信息。举个例子,假设候选内容类别有3个,对应的类别向量分别为L1、L2以及L3,对应的类别权重系数分别为d1、d2以及d3,则第一类别特征信息可以为:d1*L1+d2*L2+d3*L3。相当于可以将经过激活函数(Softmax)归一化操作后的概率值向量与第一分类层级对应的候选内容类别对应的类别向量组成的矩阵向量对应位置做点乘运算,然后将点乘运算后的向量相加,得到用于表示第一分类层级的特征的表征向量。
在一些实施例中,将目标特征向量输入到第一分类模型中,得到目标内容对应的第一内容类别包括:将目标特征向量输入到第一分类模型中,得到各个候选内容类别对应的被选中率;根据各个候选内容类别对应的被选中率确定目标内容对应的第一内容类别;获取各个候选内容类别对应的类别权重系数包括:根据第一分类模型输出的候选内容类别对应的被选中率,得到候选内容类别对应的类别权重系数。
具体地,被选中率表示候选内容类别为目标内容在第一分类层级的第一内容类别的概率。将目标特征向量输入到第一分类模型中,得到各个候选内容类别对应的概率。可以根据各个候选内容类别对应的概率选取概率最大的候选内容类别作为第一内容类别。可以将各个候选内容类别对应的概率作为候选内容类别对应类别权重系数。
如图6所示,第一分类模型中,在经过激活层得到各个候选内容类别对应的概率后,可以将候选内容类别对应的概率与类别向量进行运算,得到第一类别特征向量,与目标内容对应的目标特征向量输入到第二分类模型的隐层中,其中图6中,左边的维度为1024维的第一层全连接层、维度为512维的第二层全连接层以及维度为256维的第三层全连接层表示第一分类模型对应的隐层。右边的维度为1024维的第一层全连接层、维度为512维的第二层全连接层以及维度为256维的第三层全连接层表示第二分类模型对应的隐层。
在一些实施例中,可以在模型中加入注意力模型,可以根据注意力机制计算得到各个候选内容类别对应的类别权重系数。获取各个候选内容类别对应的类别权重系数包括:计算候选内容类别对应的类别向量与目标内容的第一特征向量的相关度;根据相关度得到候选内容类别对应的类别权重系数。
具体地,第一特征向量可以是目标内容的任一个或者多个特征向量。当第一特征向量有多个时,可以将类别向量与各个第一特征向量的相关度的平均值或者最大值作为类别向量与目标内容的第一特征向量的相关度。例如,第一特征向量可以是根据目标内容对应的图像得到的图像特征向量,也可以是根据目标内容对应的音频得到的音频特征向量。
相关度与权重系数成正相关关系。得到候选内容类别对应的相关度后,可以对各个候选内容类别对应的相关度进行求和,得到相关度的和,然后根据各个候选内容类别对应的相关度与相关度的和的比例得到类别权重系数,即候选内容类别对应的注意力分配权重系数。举个实际的例子,假设候选内容类别有3个,各个候选内容类别的类别向量与第一特征向量的相关度分别为0.8、0.7、0.5,则相关度的和为0.8+0.7+0.5=2,各个类别向量对应的注意力分配权重系数分别为0.8/2=0.4、0.7/2=0.35、0.5/2=0.25。通过候选内容类别对应的类别向量与目标内容的第一特征向量的相关度得到对应的权重系数,能够使得与内容越相关的类别向量对应的权重更大,从而使得得到的类型特征信息与内容更加契合。
在一些实施例中,当目标内容为视频时,计算候选内容类别对应的类别向量与目标内容的第一特征向量的相关度包括:获取视频对应的第一特征向量,第一特征向量包括视频对应的图像特征向量或者视频对应的音频特征向量的至少一种;计算候选内容类别对应的类别向量与第一特征向量的相关度。
具体地,第一特征向量包括视频对应的图像特征向量或者视频对应的音频特征向量的至少一种。当选择图像特征向量作为第一特征向量时,可以使得与图像越相关的类别向量对应的权重更大,从而使得得到的第二内容类别与图像内容更加契合。当选择音频特征向量作为第一特征向量时,可以使得与音频越相关的类别向量对应的权重更大,从而使得得到的第二内容类别与视频的音频内容更加契合。
如图7所示,可以获取目标内容对应的第一特征向量例如图像特征向量以及第一分类层级对应的候选内容类别对应的类别向量,输入到注意力模型中。注意力模型计算图像特征向量与各个候选内容类别对应的类别向量的相关度,得到各个候选内容类别对应的类别权重系数,将类别权重系数与对应的类别向量进行加权求和,得到第一类别特征向量,将第一类别特征向量与特征向量融合层得到的目标内容对应的目标特征向量输入到第二分类模型的隐层中。其中,视频对应的图像帧向量可以是经过NetVlad聚类编码,得到的图像特征向量。左边的维度为1024维的第一层全连接层、维度为512维的第二层全连接层以及维度为256维的第三层全连接层表示第一分类模型对应的隐层。右边的维度为1024维的第一层全连接层、维度为512维的第二层全连接层以及维度为256维的第三层全连接层表示第二分类模型对应的隐层。
在一些实施例中,获取第一分类层级对应的第一类别特征信息包括:获取第一内容类别对应的类别向量,根据第一内容类别对应的类别向量得到第一分类层级对应的第一类别特征信息。
具体地,可以将第一内容类别对应的类别向量作为第一类别特征信息。如图8所示,在得到第一内容类别的类别向量后,将第一内容类别的类别向量与目标内容对应的目标特征向量输入到第二分类模型的隐层中。
在一些实施例中,获取第一分类层级对应的第一类别特征信息包括:获取第一分类模型的隐藏层输出的隐层输出向量,根据隐层输出向量得到第一分类层级对应的第一类别特征信息。
具体地,可以是将第一分类模型中,所有或者部分隐藏层输出的隐层输出向量作为第一类别特征信息。例如,可以将第一分类模型中,最后一层隐藏层输出的隐层输出向量作为第一分类层级对应的第一类别特征信息。如图9所示,可以将第三层隐藏层输出的隐层向量与目标内容对应的目标特征向量输入到第二分类模型的隐层中。
本申请实施例提供的内容分类方法可以应用于对新闻或者对视频进行分类中,例如可以对小视频进行分类。随着未来网络的普及,用户观看视频的时长占比将逐渐递增,依赖人工进行视频类别标注的压力和成本也与日俱增。而使用本申请实施例提供的方法能够帮助标注人员减少标注时间,提高标注效率。小视频是指视频时长小于预设时长的视频,预设时长例如可以为60秒。
通过高层级的分类信息辅助低层级的分类预测,可以使得分类结果更准确。譬如,如果一级分类预测结果为“体育”,有了一级分类的先验信息,二级分类预测为篮球运动或者足球运动的概率远远大于预测为唱歌或者舞蹈的概率。因此本申请实施例提供的内容分类方法,通过利用高级别的分类层级的类别特征信息辅助低级别的内容分类,即传递高层级分类任务的先验信息作用到低层级分类任务的预测,从而使得低层级分类任务预测得到的内容类别更加准确。
例如,通过从视频网站中获取20000个视频,然后采用本申请实施例提供的方法进行分类,将模型分类得到的类别与该视频实际的类别进行比较,得到一级分类中,准确率最高的前5个内容类别的分类统计结果如表一所示。得到二级分类中,准确率最高的前10个内容类别分类统计结果如表二所示。
表一、视频一级分类结果统计表
Figure BDA0002233382490000201
表二、视频二级分类结果统计表
Figure BDA0002233382490000202
Figure BDA0002233382490000211
以下以目标内容为视频为例,结合图10,对本申请实施例提供的内容分类方法,进行说明,包括以下步骤:
1、获取待分类的目标内容对应的图像特征向量。
2、获取待分类的目标内容对应的文本特征向量。
3、获取待分类的目标内容对应的音频特征向量。
如图10所示,可以利用音频特征提取模型对视频的音频数据进行特征提取,提取得到音频特征向量。可以利用图像特征提取模型对视频的图像数据进行特征提取,提取得到图像特征向量。可以利用文本特征提取模型对视频的标题进行特征提取,提取得到文本特征向量。
4、获取待分类的目标内容对应的目标特征向量。
具体地,如图10所示,可以利用特征向量融合层对图像特征向量、文本特征向量以及音频特征向量进行拼接,得到目标特征向量。
5、将目标特征向量输入到第一分类模型中,得到目标内容对应的第一内容类别,第一内容类别为第一分类层级对应的内容类别。
6、获取第一分类层级对应的第一类别特征信息。
具体地,可以获取第一内容类别对应的类别向量,作为第一分类层级对应的第一类别特征信息。例如第一分类模型为一级分类模型,获取得到的一级分类结果为“体育”,则可以将表示“体育”类别的向量作为第一类别特征信息。
7、将第一类别特征信息以及目标特征向量输入到第二分类模型中,得到目标内容对应的第二内容类别。
例如,可以得到视频的二级分类为“篮球”。
8、将第一内容类别以及第二内容类别作为目标内容对应的分类结果。
例如,视频对应的分类结果为“体育”以及“篮球”。如图11所示,可以将视频的一级分类结果以及二级分类结果添加到该视频对应的视频播放界面中。
如图12所示,在一些实施例中,提供了一种内容分类装置,该内容分类装置可以集成于上述的分类服务器130中,具体可以包括目标特征向量获取模块1202、分类模型获取模块1204、第一内容类别得到模块1206、第一类别特征信息获取模块1208、第二内容类别得到模块1210以及分类结果得到模块1212。
目标特征向量获取模块1202,用于获取待分类的目标内容对应的目标特征向量;
分类模型获取模块1204,用于获取已训练得到的目标分类模型,目标分类模型包括第一分类模型以及第二分类模型;
第一内容类别得到模块1206,用于将目标特征向量输入到第一分类模型中,得到目标内容对应的第一内容类别,第一内容类别为第一分类层级对应的内容类别;
第一类别特征信息获取模块1208,用于获取第一分类层级对应的第一类别特征信息;
第二内容类别得到模块1210,用于将第一类别特征信息以及目标特征向量输入到第二分类模型中,得到目标内容对应的第二内容类别,第二内容类别为第二分类层级对应的内容类别,第二分类层级的级别低于第一分类层级的级别;
分类结果得到模块1212,用于将第一内容类别以及第二内容类别作为目标内容对应的分类结果。
在一些实施例中,第一类别特征信息获取模块1208包括:
类别向量得到单元,用于获取第一分类层级中各个候选内容类别对应的类别向量;
类别权重系数获取单元,用于获取各个候选内容类别对应的类别权重系数;
第一类别特征信息得到单元,用于根据候选内容类别对应的类别向量以及对应的类别权重系数计算得到第一分类层级对应的第一类别特征信息。
在一些实施例中,第一内容类别得到模块1206用于:将目标特征向量输入到第一分类模型中,得到各个候选内容类别对应的被选中率;根据各个候选内容类别对应的被选中率确定目标内容对应的第一内容类别;
类别权重系数获取单元用于:根据第一分类模型输出的候选内容类别对应的被选中率,得到候选内容类别对应的类别权重系数。
在一些实施例中,类别权重系数获取单元用于:计算候选内容类别对应的类别向量与目标内容的第一特征向量的相关度;根据相关度得到候选内容类别对应的类别权重系数。
在一些实施例中,目标内容为视频,类别权重系数获取单元用于:获取视频对应的第一特征向量,第一特征向量包括视频对应的图像特征向量或者视频对应的音频特征向量的至少一种;计算候选内容类别对应的类别向量与第一特征向量的相关度。
在一些实施例中,第一类别特征信息获取模块1208用于:获取第一内容类别对应的类别向量,根据第一内容类别对应的类别向量得到第一分类层级对应的第一类别特征信息。
在一些实施例中,第一类别特征信息获取模块1208用于:获取第一分类模型的隐藏层输出的隐层输出向量,根据隐层输出向量得到第一分类层级对应的第一类别特征信息。
在一些实施例中,目标分类模型还包括多个特征提取模型以及特征向量融合层,获目标特征向量获取模块1202用于:获取各个特征提取模型输出的特征向量;将各个特征提取模型输出的特征向量输入到特征向量融合层中进行融合,得到待分类的目标内容对应的目标特征向量。
在一些实施例中,目标特征向量获取模块1202用于:
获取对目标内容对应的内容语句进行分词得到的词序列,将词序列输入到文本特征提取模型中,输出词序列中各个词语对应的编码向量;
计算各个词语对应的编码向量与参考特征向量的相关度,根据相关度得到词语对应的编码向量的编码权重系数,参考特征向量为目标内容对应的音频特征向量或者图像特征向量中的至少一个;
根据各个词语对应的编码向量以及对应的编码权重系数得到文本特征向量。
在一些实施例中,装置还包括内容向量得到模块,用于获取第一分类模型的隐藏层输出的第一隐层输出向量或者第二分类模型的隐藏层输出的第二隐层输出向量中的至少一个,作为目标内容对应的内容向量。
图13示出了一些实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的分类服务器130。如图13所示,该计算机设备包括通过系统总线连接的处理器、存储器以及网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现内容分类方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行内容分类方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,本申请提供的内容分类装置可以实现为一种计算机程序的形式,计算机程序可在如图13所示的计算机设备上运行。计算机设备的存储器中可存储组成该内容分类装置的各个程序模块,比如,图12所示的目标特征向量获取模块1202、分类模型获取模块1204、第一内容类别得到模块1206、第一类别特征信息获取模块1208、第二内容类别得到模块1210以及分类结果得到模块1212。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的内容分类方法中的步骤。例如,图13所示的计算机设备可以通过如图12所示的内容分类装置中的目标特征向量获取模块1202,用于获取待分类的目标内容对应的目标特征向量;通过分类模型获取模块1204获取已训练得到的目标分类模型,目标分类模型包括第一分类模型以及第二分类模型;通过第一内容类别得到模块1206将目标特征向量输入到第一分类模型中,得到目标内容对应的第一内容类别,第一内容类别为第一分类层级对应的内容类别;通过第一类别特征信息获取模块1208获取第一分类层级对应的第一类别特征信息;通过第二内容类别得到模块1210将第一类别特征信息以及目标特征向量输入到第二分类模型中,得到目标内容对应的第二内容类别,第二内容类别为第二分类层级对应的内容类别,第二分类层级的级别低于第一分类层级的级别;通过分类结果得到模块1212将第一内容类别以及第二内容类别作为目标内容对应的分类结果。
在一些实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述内容分类方法的步骤。此处内容分类方法的步骤可以是上述各个实施例的内容分类方法中的步骤。
在一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述内容分类方法的步骤。此处内容分类方法的步骤可以是上述各个实施例的内容分类方法中的步骤。
应该理解的是,虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种内容分类方法,所述方法包括:
获取待分类的目标内容对应的目标特征向量;
获取已训练得到的目标分类模型,所述目标分类模型包括第一分类模型以及第二分类模型;
将所述目标特征向量输入到所述第一分类模型中,得到所述目标内容对应的第一内容类别,所述第一内容类别为第一分类层级对应的内容类别;
获取所述第一分类层级对应的第一类别特征信息;
将所述第一类别特征信息以及所述目标特征向量输入到所述第二分类模型中,得到所述目标内容对应的第二内容类别,所述第二内容类别为第二分类层级对应的内容类别,所述第二分类层级的级别低于所述第一分类层级的级别;
将所述第一内容类别以及所述第二内容类别作为所述目标内容对应的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第一分类层级对应的第一类别特征信息包括:
获取所述第一分类层级中各个候选内容类别对应的类别向量;
获取各个所述候选内容类别对应的类别权重系数;
根据所述候选内容类别对应的类别向量以及对应的类别权重系数计算得到所述第一分类层级对应的第一类别特征信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标特征向量输入到所述第一分类模型中,得到所述目标内容对应的第一内容类别包括:
将所述目标特征向量输入到所述第一分类模型中,得到各个所述候选内容类别对应的被选中率;
根据各个所述候选内容类别对应的被选中率确定所述目标内容对应的第一内容类别;
所述获取各个所述候选内容类别对应的类别权重系数包括:
根据所述第一分类模型输出的所述候选内容类别对应的被选中率,得到所述候选内容类别对应的类别权重系数。
4.根据权利要求2所述的方法,其特征在于,所述获取各个所述候选内容类别对应的类别权重系数包括:
计算所述候选内容类别对应的类别向量与所述目标内容的第一特征向量的相关度;
根据所述相关度得到所述候选内容类别对应的类别权重系数。
5.根据权利要求4所述的方法,其特征在于,所述目标内容为视频,所述计算所述候选内容类别对应的类别向量与所述目标内容的第一特征向量的相关度包括:
获取所述视频对应的第一特征向量,所述第一特征向量包括所述视频对应的图像特征向量或者所述视频对应的音频特征向量的至少一种;
计算所述候选内容类别对应的类别向量与所述第一特征向量的相关度。
6.根据权利要求1所述的方法,其特征在于,所述获取所述第一分类层级对应的第一类别特征信息包括:
获取所述第一内容类别对应的类别向量,根据所述第一内容类别对应的类别向量得到所述第一分类层级对应的第一类别特征信息。
7.根据权利要求1所述的方法,其特征在于,所述获取所述第一分类层级对应的第一类别特征信息包括:
获取所述第一分类模型的隐藏层输出的隐层输出向量,根据所述隐层输出向量得到所述第一分类层级对应的第一类别特征信息。
8.根据权利要求1所述的方法,其特征在于,所述目标分类模型还包括多个特征提取模型以及特征向量融合层,所述获取待分类的目标内容对应的目标特征向量包括:
获取各个所述特征提取模型输出的特征向量;
将各个所述特征提取模型输出的特征向量输入到所述特征向量融合层中进行融合,得到待分类的目标内容对应的目标特征向量。
9.根据权利要求1所述的方法,其特征在于,所述获取待分类的目标内容对应的目标特征向量包括:
获取对所述目标内容对应的内容语句进行分词得到的词序列,将所述词序列输入到文本特征提取模型中,输出所述词序列中各个词语对应的编码向量;
计算各个所述词语对应的编码向量与参考特征向量的相关度,根据所述相关度得到所述词语对应的编码向量的编码权重系数,所述参考特征向量为所述目标内容对应的音频特征向量或者图像特征向量中的至少一个;
根据各个所述词语对应的编码向量以及对应的编码权重系数得到文本特征向量。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述第一分类模型的隐藏层输出的第一隐层输出向量或者所述第二分类模型的隐藏层输出的第二隐层输出向量中的至少一个,作为所述目标内容对应的内容向量。
11.一种内容分类装置,所述装置包括:
目标特征向量获取模块,用于获取待分类的目标内容对应的目标特征向量;
分类模型获取模块,用于获取已训练得到的目标分类模型,所述目标分类模型包括第一分类模型以及第二分类模型;
第一内容类别得到模块,用于将所述目标特征向量输入到所述第一分类模型中,得到所述目标内容对应的第一内容类别,所述第一内容类别为第一分类层级对应的内容类别;
第一类别特征信息获取模块,用于获取所述第一分类层级对应的第一类别特征信息;
第二内容类别得到模块,用于将所述第一类别特征信息以及所述目标特征向量输入到所述第二分类模型中,得到所述目标内容对应的第二内容类别,所述第二内容类别为第二分类层级对应的内容类别,所述第二分类层级的级别低于所述第一分类层级的级别;
分类结果得到模块,用于将所述第一内容类别以及所述第二内容类别作为所述目标内容对应的分类结果。
12.根据权利要求11所述的装置,其特征在于,所述第一类别特征信息获取模块包括:
类别向量得到单元,用于获取所述第一分类层级中各个候选内容类别对应的类别向量;
类别权重系数获取单元,用于获取各个所述候选内容类别对应的类别权重系数;
第一类别特征信息得到单元,用于根据所述候选内容类别对应的类别向量以及对应的类别权重系数计算得到所述第一分类层级对应的第一类别特征信息。
13.根据权利要求12所述的装置,其特征在于,所述第一内容类别得到模块用于:
将所述目标特征向量输入到所述第一分类模型中,得到各个所述候选内容类别对应的被选中率;
根据各个所述候选内容类别对应的被选中率确定所述目标内容对应的第一内容类别;
所述类别权重系数获取单元用于:
根据所述第一分类模型输出的所述候选内容类别对应的被选中率,得到所述候选内容类别对应的类别权重系数。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至10中任一项权利要求所述内容分类方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至10中任一项权利要求所述内容分类方法的步骤。
CN201910975219.6A 2019-10-14 2019-10-14 内容分类方法、装置、计算机设备和存储介质 Active CN110737801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910975219.6A CN110737801B (zh) 2019-10-14 2019-10-14 内容分类方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910975219.6A CN110737801B (zh) 2019-10-14 2019-10-14 内容分类方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110737801A true CN110737801A (zh) 2020-01-31
CN110737801B CN110737801B (zh) 2024-01-02

Family

ID=69268917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910975219.6A Active CN110737801B (zh) 2019-10-14 2019-10-14 内容分类方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110737801B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339404A (zh) * 2020-02-14 2020-06-26 腾讯科技(深圳)有限公司 基于人工智能的内容热度预测方法、装置和计算机设备
CN111400517A (zh) * 2020-03-20 2020-07-10 北京字节跳动网络技术有限公司 信息推送、信息发布方法及装置
CN111400513A (zh) * 2020-03-11 2020-07-10 北京字节跳动网络技术有限公司 数据处理方法、装置、计算机设备和存储介质
CN111401428A (zh) * 2020-03-12 2020-07-10 Oppo广东移动通信有限公司 一种图像分类方法、装置、电子设备和存储介质
CN111522916A (zh) * 2020-04-20 2020-08-11 马上消费金融股份有限公司 一种语音服务质量检测方法、模型训练方法及装置
CN111581437A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 一种视频检索方法及装置
CN111582372A (zh) * 2020-05-09 2020-08-25 西交利物浦大学 图像分类方法、模型、存储介质及电子设备
CN111626889A (zh) * 2020-06-02 2020-09-04 小红书科技有限公司 社交内容对应的类目预测方法及装置
CN111680120A (zh) * 2020-04-30 2020-09-18 中国科学院信息工程研究所 新闻类别检测方法及系统
CN111737521A (zh) * 2020-08-04 2020-10-02 北京微播易科技股份有限公司 一种视频分类方法和装置
CN111859011A (zh) * 2020-07-16 2020-10-30 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、存储介质及电子设备
CN111858848A (zh) * 2020-05-22 2020-10-30 深圳创新奇智科技有限公司 一种语义的分类方法、装置、电子设备及存储介质
CN111915597A (zh) * 2020-08-07 2020-11-10 温州医科大学 一种病灶图像检测方法和装置
CN111930939A (zh) * 2020-07-08 2020-11-13 泰康保险集团股份有限公司 一种文本检测的方法及装置
CN112241493A (zh) * 2020-10-28 2021-01-19 浙江集享电子商务有限公司 商品检索方法、装置、计算机设备和存储介质
CN112598084A (zh) * 2021-03-02 2021-04-02 深圳金三立视频科技股份有限公司 一种基于图像处理的车辆类型识别方法及终端
CN113139542A (zh) * 2021-04-28 2021-07-20 北京百度网讯科技有限公司 目标检测方法、装置、设备和计算机可读存储介质
CN113761589A (zh) * 2021-04-21 2021-12-07 腾讯科技(北京)有限公司 视频检测的方法、装置及电子设备
CN113836992A (zh) * 2021-06-15 2021-12-24 腾讯科技(深圳)有限公司 识别标签的方法、训练标签识别模型的方法、装置及设备
WO2021258797A1 (zh) * 2020-06-24 2021-12-30 华为技术有限公司 图像信息输入方法、电子设备及计算机可读存储介质
CN115905584A (zh) * 2023-01-09 2023-04-04 共道网络科技有限公司 一种视频拆分方法及装置
EP4207771A4 (en) * 2020-12-22 2024-02-21 Shanghai Hode Information Tech Co Ltd VIDEO PROCESSING METHOD AND APPARATUS

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015185019A1 (zh) * 2014-06-06 2015-12-10 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN110110799A (zh) * 2019-05-13 2019-08-09 广州锟元方青医疗科技有限公司 细胞分类方法、装置、计算机设备和存储介质
CN110162669A (zh) * 2019-04-04 2019-08-23 腾讯科技(深圳)有限公司 视频分类处理方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015185019A1 (zh) * 2014-06-06 2015-12-10 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN110162669A (zh) * 2019-04-04 2019-08-23 腾讯科技(深圳)有限公司 视频分类处理方法、装置、计算机设备及存储介质
CN110110799A (zh) * 2019-05-13 2019-08-09 广州锟元方青医疗科技有限公司 细胞分类方法、装置、计算机设备和存储介质

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339404A (zh) * 2020-02-14 2020-06-26 腾讯科技(深圳)有限公司 基于人工智能的内容热度预测方法、装置和计算机设备
CN111400513B (zh) * 2020-03-11 2023-04-25 北京字节跳动网络技术有限公司 数据处理方法、装置、计算机设备和存储介质
CN111400513A (zh) * 2020-03-11 2020-07-10 北京字节跳动网络技术有限公司 数据处理方法、装置、计算机设备和存储介质
CN111401428A (zh) * 2020-03-12 2020-07-10 Oppo广东移动通信有限公司 一种图像分类方法、装置、电子设备和存储介质
CN111400517A (zh) * 2020-03-20 2020-07-10 北京字节跳动网络技术有限公司 信息推送、信息发布方法及装置
CN111522916A (zh) * 2020-04-20 2020-08-11 马上消费金融股份有限公司 一种语音服务质量检测方法、模型训练方法及装置
CN111680120B (zh) * 2020-04-30 2022-06-03 中国科学院信息工程研究所 新闻类别检测方法及系统
CN111680120A (zh) * 2020-04-30 2020-09-18 中国科学院信息工程研究所 新闻类别检测方法及系统
CN111581437A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 一种视频检索方法及装置
CN111582372A (zh) * 2020-05-09 2020-08-25 西交利物浦大学 图像分类方法、模型、存储介质及电子设备
CN111858848B (zh) * 2020-05-22 2024-03-15 青岛创新奇智科技集团股份有限公司 一种语义的分类方法、装置、电子设备及存储介质
CN111858848A (zh) * 2020-05-22 2020-10-30 深圳创新奇智科技有限公司 一种语义的分类方法、装置、电子设备及存储介质
CN111626889A (zh) * 2020-06-02 2020-09-04 小红书科技有限公司 社交内容对应的类目预测方法及装置
WO2021258797A1 (zh) * 2020-06-24 2021-12-30 华为技术有限公司 图像信息输入方法、电子设备及计算机可读存储介质
CN111930939A (zh) * 2020-07-08 2020-11-13 泰康保险集团股份有限公司 一种文本检测的方法及装置
CN111859011A (zh) * 2020-07-16 2020-10-30 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、存储介质及电子设备
CN111737521B (zh) * 2020-08-04 2020-11-24 北京微播易科技股份有限公司 一种视频分类方法和装置
CN111737521A (zh) * 2020-08-04 2020-10-02 北京微播易科技股份有限公司 一种视频分类方法和装置
CN111915597A (zh) * 2020-08-07 2020-11-10 温州医科大学 一种病灶图像检测方法和装置
CN112241493A (zh) * 2020-10-28 2021-01-19 浙江集享电子商务有限公司 商品检索方法、装置、计算机设备和存储介质
EP4207771A4 (en) * 2020-12-22 2024-02-21 Shanghai Hode Information Tech Co Ltd VIDEO PROCESSING METHOD AND APPARATUS
CN112598084A (zh) * 2021-03-02 2021-04-02 深圳金三立视频科技股份有限公司 一种基于图像处理的车辆类型识别方法及终端
CN112598084B (zh) * 2021-03-02 2021-06-29 深圳金三立视频科技股份有限公司 一种基于图像处理的车辆类型识别方法及终端
CN113761589A (zh) * 2021-04-21 2021-12-07 腾讯科技(北京)有限公司 视频检测的方法、装置及电子设备
CN113139542A (zh) * 2021-04-28 2021-07-20 北京百度网讯科技有限公司 目标检测方法、装置、设备和计算机可读存储介质
CN113139542B (zh) * 2021-04-28 2023-08-11 北京百度网讯科技有限公司 目标检测方法、装置、设备和计算机可读存储介质
CN113836992B (zh) * 2021-06-15 2023-07-25 腾讯科技(深圳)有限公司 识别标签的方法、训练标签识别模型的方法、装置及设备
CN113836992A (zh) * 2021-06-15 2021-12-24 腾讯科技(深圳)有限公司 识别标签的方法、训练标签识别模型的方法、装置及设备
CN115905584B (zh) * 2023-01-09 2023-08-11 共道网络科技有限公司 一种视频拆分方法及装置
CN115905584A (zh) * 2023-01-09 2023-04-04 共道网络科技有限公司 一种视频拆分方法及装置

Also Published As

Publication number Publication date
CN110737801B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
CN110737801A (zh) 内容分类方法、装置、计算机设备和存储介质
CN111246256B (zh) 基于多模态视频内容和多任务学习的视频推荐方法
CN110866184B (zh) 短视频数据标签推荐方法、装置、计算机设备和存储介质
CN109117777B (zh) 生成信息的方法和装置
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
US11741711B2 (en) Video classification method and server
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN111382361A (zh) 信息推送方法、装置、存储介质和计算机设备
CN114419509B (zh) 一种多模态情感分析方法、装置及电子设备
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN115329779A (zh) 一种多人对话情感识别方法
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN114339450A (zh) 视频评论生成方法、系统、设备及存储介质
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN115964560A (zh) 基于多模态预训练模型的资讯推荐方法及设备
Guo et al. Matching visual features to hierarchical semantic topics for image paragraph captioning
CN114491258A (zh) 基于多模态内容的关键词推荐系统及方法
Liu et al. A multimodal approach for multiple-relation extraction in videos
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116628345A (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN110851629A (zh) 一种图像检索的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40018772

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant