CN113254684A - 一种内容时效的确定方法、相关装置、设备以及存储介质 - Google Patents

一种内容时效的确定方法、相关装置、设备以及存储介质 Download PDF

Info

Publication number
CN113254684A
CN113254684A CN202110678752.3A CN202110678752A CN113254684A CN 113254684 A CN113254684 A CN 113254684A CN 202110678752 A CN202110678752 A CN 202110678752A CN 113254684 A CN113254684 A CN 113254684A
Authority
CN
China
Prior art keywords
modal
target
text
network
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110678752.3A
Other languages
English (en)
Other versions
CN113254684B (zh
Inventor
石磊
马连洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110678752.3A priority Critical patent/CN113254684B/zh
Publication of CN113254684A publication Critical patent/CN113254684A/zh
Application granted granted Critical
Publication of CN113254684B publication Critical patent/CN113254684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于人工智能技术实现的内容时效确定方法,包括:获取目标内容的多模态信息集合,其中,多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种;对多模态信息集合进行特征提取,得到多模态特征集合;基于多模态特征集合,通过时效分类网络获取目标概率分布向量,其中,所述目标概率分布向量包括P个概率值,所述P个概率值中的每个概率值对应于一个时效标签;根据目标概率分布向量,确定目标内容所对应的目标时效标签。本申请还公开了装置、设备以及存储介质。本申请能够充分利用内容中多路信号源的特征进行时效性预测,从而提升时效分类的准确性。

Description

一种内容时效的确定方法、相关装置、设备以及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种内容时效的确定方法、相关装置、设备以及存储介质。
背景技术
随着互联网技术的发展,人们获取信息的方式越来越丰富。在信息流推荐系统中,可以为用户提供持续更新的视频。不同于视频的主动搜索,信息流推荐系统推荐给用户的视频应当是不会让用户觉得有过期感的视频。即每个视频应有适合其分发的时效期,过了这段时效期后推荐系统应停止分发对应视频。
目前,对视频进行时效性分类的方法主要为,首先确定视频所属的视频类型(例如,电影类、财经类或者社会类等),然后根据预设的视频类型与默认时效之间映射关系,确定该视频所属视频类型所对应的默认时效。
然而,属于同一个视频类型的不同视频往往具有不同的时效,例如,同样属于社会类的视频A和视频B分别讲述了本周发生的事件以及上个月发生的事件,显然,两个视频的时效性并不相同。因此,现有方案中无法对视频进行有针对的时效性检测,从而降低了内容时效性分类的准确率。
发明内容
本申请实施例提供了一种内容时效的确定方法、相关装置、设备以及存储介质,能够充分利用内容中多路信号源的特征进行时效性预测,从而提升时效分类的准确性。
有鉴于此,本申请一方面提供一种内容时效的确定方法,包括:
获取目标内容的多模态信息集合,其中,多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种;
对多模态信息集合进行特征提取,得到多模态特征集合;
基于多模态特征集合,通过时效分类网络获取目标概率分布向量,其中,目标概率分布向量包括P个概率值,P个概率值中的每个概率值对应于一个时效标签,P为大于1的整数;
根据目标概率分布向量,确定目标内容所对应的目标时效标签。
本申请另一方面提供一种内容时效确定装置,包括:
获取模块,用于获取目标内容的多模态信息集合,其中,多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种;
处理模块,用于对多模态信息集合进行特征提取,得到多模态特征集合;
获取模块,还用于基于多模态特征集合,通过时效分类网络获取目标概率分布向量,其中,目标概率分布向量包括P个概率值,P个概率值中的每个概率值对应于一个时效标签,P为大于1的整数;
确定模块,用于根据目标概率分布向量,确定目标内容所对应的目标时效标签。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,多模态信息集合包括第一文本信息、图像信息以及附属文本信息;
处理模块,具体用于针对于第一文本信息,对第一文本信息进行分词处理,得到第一文本序列,其中,第一文本序列包括至少一个词语;
针对于图像信息,将图像信息转换为图像嵌入特征,其中,图像信息包括目标内容中的封面图信息和关键帧信息中的至少一种;
针对于附属文本信息,生成离散文本序列,其中,附属文本信息包括标签文本、链接地址、账号信息以及发布时间中的至少一种,离散文本序列包括至少一个文本序列;
基于目标文本序列、图像嵌入特征以及离散文本序列,通过特征提取网络获取多模态特征集合,其中,目标文本序列包括第一文本序列。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,多模态信息集合还包括音频信息;
获取模块,还用于针对于音频信息,通过语音识别网络获取音频信息所对应的目标文本信息;
处理模块,还用于对目标文本信息进行分词处理,得到第二文本序列,其中,第二文本序列包括至少一个词语;
处理模块,还用于对第一文本序列以及第二文本序列进行拼接处理,得到目标文本序列。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
处理模块,具体用于基于目标文本序列,通过第一特征提取子网络获取文本模态特征,其中,第一特征提取子网络属于特征提取网络,文本模态特征属于多模态特征集合;
基于图像嵌入特征,通过第二特征提取子网络获取图像模态特征,其中,第二特征提取子网络属于特征提取网络,图像模态特征属于多模态特征集合;
基于离散文本序列,通过第三特征提取子网络获取离散模态特征,其中,第三特征提取子网络属于特征提取网络,离散模态特征属于多模态特征集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
处理模块,具体用于基于目标文本序列,通过第一特征提取子网络所包括的词嵌入层,获取M个词嵌入向量,其中,目标文本序列包括M个词语,每个词语对应于一个词嵌入向量,M为大于或等于1的整数;
基于M个词嵌入向量,通过第一特征提取子网络所包括的文本特征提取网络,获取第一文本特征;
基于第一文本特征,通过第一特征提取子网络所包括的注意力网络,获取文本模态特征。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,目标文本序列包括至少两个句子序列,每个句子序列包括至少两个词语;
处理模块,具体用于针对于目标文本序列中的每个句子序列,通过词序列编码器对每个句子序列中的每个词语进行编码,得到每个句子序列中的每个词语的词编码状态;
针对于目标文本序列中的每个句子序列,基于每个句子序列中的每个词语的词编码状态,通过词级注意力层获取每个句子序列的句子特征向量;
针对于目标文本序列,通过句子编码器对每个句子序列的句子特征向量进行编码,得到每个句子序列的句子编码状态;
针对于目标文本序列,基于每个句子序列的句子编码状态,通过句子级注意力层获取文本模态特征。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
处理模块,具体用于基于图像嵌入特征,通过第二特征提取子网络所包括的入口流量网络,获取第一特征图;
基于第一特征图,通过第二特征提取子网络所包括的中间流量网络,获取第二特征图;
基于第二特征图,通过第二特征提取子网络所包括的出口流量网络,获取图像模态特征。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
处理模块,具体用于基于离散文本序列,通过第三特征提取子网络所包括的特征嵌入层,获取N个特征嵌入向量,其中,离散文本序列包括N个文本序列,每个文本序列对应于一个特征嵌入向量,N为大于或等于1的整数;
基于N个特征嵌入向量,通过第三特征提取子网络所包括的文本特征提取网络,获取离散模态特征。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
获取模块,具体用于若图像模态特征表现为矩阵形式,则将图像模态特征转换为目标图像模态特征,其中,目标图像模态特征表现为向量形式;
对文本模态特征、目标图像模态特征以及离散模态特征进行拼接处理,得到目标多模态特征;
基于目标多模态特征,通过时效分类网络获取目标概率分布向量。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
获取模块,具体用于若图像模态特征表现为矩阵形式,则将图像模态特征转换为目标图像模态特征,其中,目标图像模态特征表现为向量形式;
基于文本模态特征、目标图像模态特征以及离散模态特征,通过多模态融合模型获取融合多模态特征;
基于融合多模态特征,通过时效分类网络获取目标概率分布向量。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
获取模块,具体用于基于文本模态特征,通过第一时效分类子网络获取第一概率分布向量,其中,第一时效分类子网络属于时效分类网络;
基于图像模态特征,通过第二时效分类子网络获取第二概率分布向量,其中,第二时效分类子网络属于时效分类网络;
基于离散模态特征,通过第三时效分类子网络获取第三概率分布向量,其中,第三时效分类子网络属于时效分类网络;
根据第一概率分布向量、第一概率分布向量所对应的第一权重、第二概率分布向量、第二概率分布向量所对应的第二权重、第三概率分布向量以及第三概率分布向量所对应的第三权重,生成目标概率分布向量。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,内容时效确定装置还包括接收模块以及发送模块;
接收模块,用于在确定模块根据目标概率分布向量,确定目标内容所对应的目标时效标签之后,接收终端设备发送的内容推送请求;
发送模块,用于响应于内容推送请求,若目标时效标签满足内容推送条件,则向终端设备发送针对于目标内容的内容推送消息,以使终端设备展示内容推送消息。
本申请另一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种内容时效的确定方法,获取目标内容的多模态信息集合,多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种,然后对多模态信息集合进行特征提取,得到多模态特征集合,再基于多模态特征集合,通过时效分类网络获取目标概率分布向量,最后,可以根据目标概率分布向量,确定目标内容所对应的目标时效标签。通过上述方式,提取目标内容的多模态信息特征,采用训练好的深度神经网络模型对多模态信息特征进行分析,从而得到目标内容的目标时效标签。由此,本申请能够充分利用内容中多路信号源的特征进行时效性预测,从而提升时效分类的准确性。
附图说明
图1为本申请实施例中内容时效确定系统的一个环境示意图;
图2为本申请实施例中基于视频内容的一个多模态信息集合示意图;
图3为本申请实施例中内容时效确定方法的一个流程示意图;
图4为本申请实施例中提取多模态特征集合的一个网络结构示意图;
图5为本申请实施例中提取多模态特征集合的另一个网络结构示意图;
图6为本申请实施例中提取多模态特征集合的另一个网络结构示意图;
图7为本申请实施例中第一特征提取子网络的一个网络结构示意图;
图8为本申请实施例中文本特征提取网络的一个示意图;
图9为本申请实施例中第一特征提取子网络的另一个网络结构示意图;
图10为本申请实施例中第二特征提取子网络的一个网络结构示意图;
图11为本申请实施例中第三特征提取子网络的一个网络结构示意图;
图12为本申请实施例中对多模态特征集合进行拼接的一个示意图;
图13为本申请实施例中对多模态特征集合进行融合的一个示意图;
图14为本申请实施例中输出目标概率分布向量的一个网络结构示意图;
图15为本申请实施例中输出目标概率分布向量的另一个网络结构示意图;
图16为本申请实施例中向终端设备推送内容的一个场景示意图;
图17为本申请实施例中内容时效确定装置的一个示意图;
图18为本申请实施例中服务器的一个结构示意图;
图19为本申请实施例中终端设备的一个结构示意图。
具体实施方式
本申请实施例提供了一种内容时效的确定方法、装置、设备以及存储介质,能够充分利用内容中多路信号源的特征进行时效性预测,从而提升时效分类的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
包括视频或者图文等内容,都是具有生命周期的。内容有长有短,预测一个内容的时效性是具有重要的意义,其中,时效性是指推荐场景下一个内容(例如,视频或图文等)的过期时间。第一,短时效的内容不能得到及时曝光也不能快速地消失,给用户很强地迟滞感,看到的时候已经没有意义了。第二,短时效的内容错误推荐。譬如发布会预告的内容,不应该在发布会召开之后再给用户推荐。第三,长时效的内容被浪费,有些知识类和文学类内容日久弥新。第四,控制推荐有效池的量,能够提高推荐的效果并控制成本。因此,估计内容的生命周期能够给予内容有效的曝光量,不难看出,时效性对于内容推荐而言是非常重要的。过了内容的生命周期再给用户推荐,会给用户造成较差的体验。
为了提升标注内容时效性的效率以及提升内容时效分类的准确性,本申请提出了一种内容时效的确定方法,以提升信息流推荐场景下内容的时效性分类准确率,进而提升信息流推荐场景下关于时效性的用户侧体验。该方法应用于图1所示的内容时效确定系统,如图所示,内容时效确定系统包括服务器和终端设备,且客户端部署于终端设备上,其中,客户端可以通过浏览器的形式运行于终端设备上,也可以通过独立的应用程序(application,APP)的形式运行于终端设备上等,对于客户端的具体展现形式,此处不做限定。本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。服务器和终端设备的数量也不做限制。
如本申请所公开的内容时效确定方法或装置,其中多个服务器可组成为一区块链,而服务器为区块链上的节点。
示例性地,服务器可从内容库中获取内容(例如,视频),然后提取内容的文本信息、图像信息、附属文本信息以及音频信息中的至少两种,由此,对这些信息进行特征提取,从而得到多模态特征集合。于是调用训练好的时效分类网络,对多模态特征集合进行预测,最终生成内容的时效标签。基于此,根据内容的时效标签,进一步判断是否需要推送至终端设备A。可以理解的是,在该示例下,时效分类网络存储于服务器中。
示例性地,终端设备B可从内容库中获取内容(例如,视频),然后提取内容的文本信息、图像信息、附属文本信息以及音频信息中的至少两种,由此,对这些信息进行特征提取,从而得到多模态特征集合。于是调用训练好的时效分类网络,对多模态特征集合进行预测,最终生成内容的时效标签。基于此,根据内容的时效标签,进一步判断是否需要推送至终端设备A。可以理解的是,在该示例下,时效分类网络存储于终端设备B中。
需要说明的是,本申请采用机器学习(Machine Learning,ML)训练得到时效分类网络,其中,机器学习(是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。而机器学习属于人工智能(Artificial Intelligence,AI)技术的一个分支。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
基于上述介绍,对于内容而言,需要提取其对应的多模态信息集合。为了便于理解,请参阅图2,图2为本申请实施例中基于视频内容的一个多模态信息集合示意图,如图所示,以视频内容为例,多模态信息集合包含但不仅限于视频标题(例如,大海的奇迹)、视频简介(例如,“有一个古老的传说......”)、视频关键词(例如,“大自然”和“2020上映”等)、封面图、视频关键帧以及音频等。
本申请可实现推荐流主信息流场景下,在短视频内容的推荐过程中,采用多模态融合技术,将内容的多模态信息集合进行融合,用深层网络进行时效性分类,提升推荐侧有效内容的时效性结果的准确率,从而提升用户在时效场景 下的感知体验。其中,深度学习中的多模态融合技术(Multimodality Fusion Technology,MFT)是模型在完成分析和识别任务时处理不同形式的数据的过程。多模态信息的融合可以为模型决策提供更多的信息,从而提高了决策总体结果的准确率,目的是建立能够处理和关联来自多种模态信息的模型,是典型的多学科交叉领域。
可以理解的是,短视频内容具有标题、文本描述、封面图、视频关键帧以及音频等媒体信息。同时,一个短视频内容也不一定是独立存在的,它可能来自一个影视或者综艺片段等,它的上传者可能是一个垂直领域的内容贡献者,基于此,关联正片、视频来源以及上传者等信息对分类也有帮助。可以理解的是,本申请所涉及的内容不仅限于视频内容。
结合上述介绍,下面将对本申请中内容时效的确定方法进行介绍,请参阅图3,本申请实施例中内容时效确定方法的一个实施例包括:
101、获取目标内容的多模态信息集合,其中,多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种;
在一个或多个实施例中,内容时效确定装置获取目标内容的多模态信息集合,其中,目标内容包含但不仅限于视频内容、图文内容以及音频内容等,而多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种。
具体地,第一文本信息包含但不仅限于目标内容的简介信息和标题信息。图像信息包含但不仅限于目标内容的关键帧信息和封面图信息。附属文本信息包含但不仅限于统一资源定位系统(uniform resource locator,URL)链接地址、标签文本以及账号信息。音频信息包含目标内容的语音信息、背景音乐以及结束旁白。
需要说明的是,内容时效确定装置可部署于服务器,或者,部署于终端设备,又或者,可部署于由服务器和终端设备构成的内容时效确定系统,此处不做限定。
102、对多模态信息集合进行特征提取,得到多模态特征集合;
在一个或多个实施例中,内容时效确定装置对多模态信息集合中的各个多模态信息进行特征提取,由此得到多模态特征集合。
103、基于多模态特征集合,通过时效分类网络获取目标概率分布向量,其中,目标概率分布向量包括P个概率值,P个概率值中的每个概率值对应于一个时效标签,P为大于1的整数;
在一个或多个实施例中,内容时效确定装置将多模态特征集合输入至训练好的时效分类网络中,通过时效分类网络输出目标概率分布向量。其中,目标概率分布向量包括P个概率值,每个概率值对应于一个时效标签。
可以理解的是,P个时效标签可包括“当天内时效”、“三天内时效”、“七天内时效”、“半个月内时效”以及“一个月内时效”。需要说明的是,P个时效标签还可以包括其他类型的时效标签,此处不做限定。
104、根据目标概率分布向量,确定目标内容所对应的目标时效标签。
在一个或多个实施例中,内容时效确定装置根据目标概率分布向量,即可确定目标内容所对应的目标时效标签。
具体地,假设P个时效标签包括“当天内时效”、“三天内时效”、“七天内时效”、“半个月内时效”以及“一个月内时效”。基于此,假设目标概率分布向量为(0.1,0.7,0.2,0,0),其中,概率值“0.7”所对应的时效标签为“三天内时效”,因此,目标时效标签为“三天内时效”。
本申请实施例中,提供了一种内容时效的确定方法,通过上述方式,提取目标内容的多模态信息特征,采用训练好的深度神经网络模型对多模态信息特征进行分析,从而得到目标内容的目标时效标签。由此,本申请能够充分利用内容中多路信号源的特征进行时效性预测,从而提升时效分类的准确性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,多模态信息集合包括第一文本信息、图像信息以及附属文本信息;
对多模态信息集合进行特征提取,得到多模态特征集合,具体可以包括:
针对于第一文本信息,对第一文本信息进行分词处理,得到第一文本序列,其中,第一文本序列包括至少一个词语;
针对于图像信息,将图像信息转换为图像嵌入特征,其中,图像信息包括目标内容中的封面图信息和关键帧信息中的至少一种;
针对于附属文本信息,生成离散文本序列,其中,附属文本信息包括标签文本、链接地址、账号信息以及发布时间中的至少一种,离散文本序列包括至少一个文本序列;
基于目标文本序列、图像嵌入特征以及离散文本序列,通过特征提取网络获取多模态特征集合,其中,目标文本序列包括第一文本序列。
在一个或多个实施例中,介绍了一种对第一文本信息、图像信息和附属文本信息提取多模态特征的方式。由前述实施例可知,多模态信息集合包括第一文本信息、图像信息以及附属文本信息,基于此,可分别对这些信息进行预处理,然后通过特征提取网络提取相应的多模态特征。
具体地,为了便于理解,请参阅图4,图4为本申请实施例中提取多模态特征集合的一个网络结构示意图,如图所示,对于第一文本信息而言,可对第一文本信息进行分词处理,得到第一文本序列,第一文本序列包括T个词语,其中,第一文本序列表示为(w1,w2...wT)。对于图像信息而言,将图像信息转换为图像嵌入特征(Image Embedding),从将数据降维为固定大小的特征表示,以便于处理和计算。其中,图像信息可以是封面图信息和关键帧信息中的至少一种。对于附属文本信息而言,可生成离散文本序列,离散文本序列包括至少一个文本序列,至少一个文本序列包括但不仅限于标签文本对应的文本序列,链接地址对应的文本序列,账号信息对应的文本序列以及发布时间对应的文本序列。其中,离散文本序列表示为(L1,L2...LN)。
可以理解的是,第一文本序列包含于目标文本序列,目标文本序列还可以包括其他文本序列,此处不做限定。基于此,将目标文本序列、图像嵌入特征以及离散文本序列,通过特征提取网络获取多模态特征集合。
需要说明的是,本申请采用计算机视觉技术(Computer Vision,CV)对图像信息进行处理,其中,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学文字识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请采用自然语言处理(Nature Language processing,NLP)技术对文本信息进行处理,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其次,本申请实施例中,提供了一种对第一文本信息、图像信息和附属文本信息提取多模态特征的方式,通过上述方式,采用多路数据源实现基于深层网络特征融合的多模态技术,充分利用内容在时效性场景下的特征,有效提升复杂分类下的准确率结果。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,多模态信息集合还包括音频信息;
还可以包括:
针对于音频信息,通过语音识别网络获取音频信息所对应的目标文本信息;
对目标文本信息进行分词处理,得到第二文本序列,其中,第二文本序列包括至少一个词语;
对第一文本序列以及第二文本序列进行拼接处理,得到目标文本序列。
在一个或多个实施例中,介绍了一种对音频信息提取多模态特征的方式。由前述实施例可知,多模态信息集合还包括音频信息,基于此,可分别对这些信息进行预处理,然后通过特征提取网络提取相应的多模态特征。
具体地,为了便于理解,请参阅图5,图5为本申请实施例中提取多模态特征集合的另一个网络结构示意图,如图所示,采用自动语音识别技术(Automatic SpeechRecognition,ASR)对内容中的音频信息进行识别,具体可采用语音识别网络对音频信息进行编解码,由此输出相应的目标文本信息。于是,对于目标文本信息而言,可对目标文本信息进行分词处理,得到第二文本序列,第二文本序列包括X个词语,其中,第二文本序列表示为(w1,w2...wX)。
由于第一文本信息所对应的第一文本序列为(w1,w2...wT),因此,将第一文本序列和第二文本序列进行拼接后即可得到目标文本序列。基于此,将目标文本序列、图像嵌入特征以及离散文本序列,通过特征提取网络获取多模态特征集合。
需要说明的是,本申请采用语音技术(Speech Technology)技术对音频信息识别,以得到目标文本信息。语音技术的关键技术有自动语音识别技术和语音合成技术从文本到语音(Text To Speech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
再次,本申请实施例中,提供了一种对音频信息提取多模态特征的方式,通过上述方式,将内容中的音频信息作为一路数据源,从而实现基于深层网络特征融合的多模态技术,充分利用内容在时效性场景下的特征,有效提升复杂分类下的准确率结果。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于目标文本序列、图像嵌入特征以及离散文本序列,通过特征提取网络获取多模态特征集合,具体可以包括:
基于目标文本序列,通过第一特征提取子网络获取文本模态特征,其中,第一特征提取子网络属于特征提取网络,文本模态特征属于多模态特征集合;
基于图像嵌入特征,通过第二特征提取子网络获取图像模态特征,其中,第二特征提取子网络属于特征提取网络,图像模态特征属于多模态特征集合;
基于离散文本序列,通过第三特征提取子网络获取离散模态特征,其中,第三特征提取子网络属于特征提取网络,离散模态特征属于多模态特征集合。
在一个或多个实施例中,介绍了一种基于三个特征提取网络提取多模态特征集合的方式。由前述实施例可知,在得到目标文本序列、图像嵌入特征以及离散文本序列之后,还可以通过特征提取网络分别提取相应的模态特征。
具体地,为了便于理解,请参阅图6,图6为本申请实施例中提取多模态特征集合的另一个网络结构示意图,如图所示,特征提取网络可包括第一特征提取子网络、第二特征提取子网络和第三特征提取子网络。由此,将目标文本序列输入至第一特征提取子网络,通过第一特征提取子网络输出文本模态特征。类似地,将图像嵌入特征输入至第二特征提取子网络,通过第二特征提取子网络输出图像模态特征。将离散文本序列输入至第三特征提取子网络,通过第三特征提取子网络输出离散模态特征。
可以理解的是,特征提取网络也可以仅包括第一特征提取子网络和第二特征提取子网络,基于此,由此,将目标文本序列和离散文本序列共同输入至第一特征提取子网络,通过第一特征提取子网络输出文本模态特征。将图像嵌入特征输入至第二特征提取子网络,通过第二特征提取子网络输出图像模态特征。
需要说明的是,文本模态特征、图像模态特征和离散模态特征均属于多模态特征集合。
再次,本申请实施例中,提供了一种基于三个特征提取网络提取多模态特征集合的方式,通过上述方式,分别采用不同的特征提取子网络对目标文本序列、图像嵌入特征和离散文本序列分别进行特征提取,有利于提取到更具有针对性的特征,从而提升提取特征的可靠性。基于此,在训练特征提取子网络时,也采用相应的特征样本进行训练。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于目标文本序列,通过第一特征提取子网络获取文本模态特征,具体可以包括:
基于目标文本序列,通过第一特征提取子网络所包括的词嵌入层,获取M个词嵌入向量,其中,目标文本序列包括M个词语,每个词语对应于一个词嵌入向量,M为大于或等于1的整数;
基于M个词嵌入向量,通过第一特征提取子网络所包括的文本特征提取网络,获取第一文本特征;
基于第一文本特征,通过第一特征提取子网络所包括的注意力网络,获取文本模态特征。
在一个或多个实施例中,介绍了一种基于TextCNN网络提取文本模态特征的方式。目标内容通常都有代表其内容意义的简短标题和更为详细的描述信息,通过对这些人工抽象出的文本信息进行分类会比直接从目标内容中学习出分类更容易。本申请可采用“标题+关键词+账号内容”的拼接形式作为目标文本序列。
具体地,为了便于理解,请参阅图7,图7为本申请实施例中第一特征提取子网络的一个网络结构示意图,如图所示,首先将目标文本序列输入至词嵌入(word embedding)层,由此,输出每个词语的词嵌入向量,即得到M个词嵌入向量。于是,将M个词嵌入向量输入至文本特征提取网络,通过文本特征提取网络输出第一文本特征。最后,将第一文本特征输入至注意力(attention)网络,由此输出第一文本特征。
需要说明的是,第一特征提取子网络中的文本特征提取网络包含但不仅限于文本卷积神经网络(text convolutional neural networks,textCNN)、卷积神经网络(convolutional neural networks,CNN)、双向变形编码器(Bidirectional EncoderRepresentation from Transformers,BERT)以及词向量(word to vector,Word2vec)网络。
其中,textCNN主要考虑到内容场景(例如,短视频场景)下不需要很强的长距离共现信息整合能力,因此,以textCNN结构在速度和规模上显出了优势,并且效果较好。textCNN通过不同大小的滤波器(filter)对有序的词向量进行卷积操作,以期望模型能够从中学到不同大小的N个片段(Ngram)信息,并且通过池化(pooling)操作(通常是 最大池化操作)找到最强的信号,作为该文本的表示。为了便于理解,请参阅图8,图8为本申请实施例中文本特征提取网络的一个示意图,如图所示,对目标文本序列进行句子表征,然后将目标文本序列输入至具有多个滤波器宽度和特征图的卷积层,再进行采用操作,最后得到第一文本特征。
进一步地,本申请实施例中,提供了一种基于TextCNN网络提取文本模态特征的方式,通过上述方式,利用词嵌入层提取词嵌入向量,然后进一步通过文本特征提取网络提取这些词嵌入向量的特征,得到第一文本特征,最后采用注意力网络对第一文本特征进行注意力计算,从而学习到更准确的文本模态特征。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,目标文本序列包括至少两个句子序列,每个句子序列包括至少两个词语;
基于目标文本序列,通过第一特征提取子网络获取文本模态特征,具体可以包括:
针对于目标文本序列中的每个句子序列,通过词序列编码器对每个句子序列中的每个词语进行编码,得到每个句子序列中的每个词语的词编码状态;
针对于目标文本序列中的每个句子序列,基于每个句子序列中的每个词语的词编码状态,通过词级注意力层获取每个句子序列的句子特征向量;
针对于目标文本序列,通过句子编码器对每个句子序列的句子特征向量进行编码,得到每个句子序列的句子编码状态;
针对于目标文本序列,基于每个句子序列的句子编码状态,通过句子级注意力层获取文本模态特征。
在一个或多个实施例中,介绍了一种基于层级注意力网络(HierarchicalAttention Networks,HAN)提取文本模态特征的方式。第一特征提取子网络可采用HAN,即在得到目标文本序列之后,可以利用HAN将各层级分类的多个任务合并,以共享模型参数方式学习模型的层次结构,最终输出文本模态特征。其中,HAN包括词序列编码器、词级注意力层、句子编码器以及句子级注意力层。
具体地,为了便于介绍,请参阅图9,图9为本申请实施例中第一特征提取子网络的另一个网络结构示意图,如图所示,对于目标文本序列而言,给定一个句子的词语Wit,其中,i表示第i个句子,t表示第t个词语,通过一个词嵌入矩阵We将词语Wit转换成向量表示,即为:
xit=WeWit
其中,xit表示第i个句子中第t个词语所对应的向量表示,We表示词嵌入矩阵,Wit表示第i个句子中的第t个词语。
针对于目标文本序列中的每个句子序列,通过词序列编码器对每个句子序列中的每个词语进行编码,得到每个句子序列中的每个词语的词编码状态,即:
Figure 788632DEST_PATH_IMAGE001
其中,hit表示第i个句子中第t个词语的词编码状态,xit表示第i个句子中第t个词语所对应的向量表示,
Figure 440193DEST_PATH_IMAGE002
表示第i个句子中第t个词语的前向编码状态,
Figure 16668DEST_PATH_IMAGE003
表示第i个句子中第t个词语的后向编码状态。
接下来,针对于目标文本序列中的每个句子序列,基于每个句子序列中的每个词语的词编码状态,通过词级注意力层获取每个句子序列的句子特征向量,即:
Figure 146298DEST_PATH_IMAGE004
其中,uit表示第i个句子中第t个词语的词编码状态的隐层表示,Ww表示模型参数,hit表示第i个句子中第t个词语的词编码状态,bw表示模型参数,αit表示经过softmax函数处理后的归一化权重系数,uw表示一个随机初始化向量,si表示表示第i个句子的句子特征向量。
然后,针对于目标文本序列,通过句子编码器对每个句子序列的句子特征向量进行编码,得到每个句子序列的句子编码状态,即:
Figure 632774DEST_PATH_IMAGE005
其中,hi表示第i个句子序列的句子编码状态,
Figure 986395DEST_PATH_IMAGE006
表示第i个句子的前向编码状态,
Figure 987849DEST_PATH_IMAGE007
表示第i个句子的后向编码状态,L表示目标文本序列包括的句子总数,si表示表示第i个句子的句子特征向量。
最后,针对于目标文本序列,基于每个句子序列的句子编码状态,通过句子级注意力层获取文本模态特征,即:
Figure 858853DEST_PATH_IMAGE008
其中,ui表示第i个句子的句子编码状态的隐层表示,Ws表示模型参数,hi表示第i个句子序列的句子编码状态,bs表示模型参数,αi经过softmax函数处理后的归一化权重系数,us表示一个随机初始化向量,v表示文本模态特征。
进一步地,本申请实施例中,提供了一种基于HAN网络提取文本模态特征的方式,通过上述方式,采用HAN网络可利用网络将各层级分类的多个任务合并,以共享模型参数方式学习模型的层次结构,由此,共享样本信息和模型参数,使用合并的损失值驱动模型调整参数,完成层次结构信息的使用,并且借助网络中的词语和句子级别等分层注意力机制提升准确率。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于图像嵌入特征,通过第二特征提取子网络获取图像模态特征,具体可以包括:
基于图像嵌入特征,通过第二特征提取子网络所包括的入口流量网络,获取第一特征图;
基于第一特征图,通过第二特征提取子网络所包括的中间流量网络,获取第二特征图;
基于第二特征图,通过第二特征提取子网络所包括的出口流量网络,获取图像模态特征。
在一个或多个实施例中,介绍了一种基于极端开端(Extreme Inception,Xception)网络提取图像模态特征的方式。目标内容通常都有代表其内容意义的图像信息,通过对这些人工抽象出的图像信息进行分类会比直接从目标内容中学习出分类更容易。本申请可采用关键帧信息的特征或者封面信息的特征作为图像嵌入特征。示例性地,一般在时效性场景下,内容的封面会涵盖大量的时效性信息,例如,一个讲解实事的新闻播报类资讯视频内容,封面往往是固定的一些展示方式,有规律可循。因此,图像原始数据源部分可选择视频的封面作为输入。
具体地,请参阅图10,图10为本申请实施例中第二特征提取子网络的一个网络结构示意图,如图所示,第二特征提取子网络可采用Xception网络,Xception网络包括入口流量网络(entry flow)、中间流量网络(middle flow)以及出口流量网络(exit flow)。其中,入口流量网络包括4个模块(block),中间流量网络包括8个block,出口流量网络包括2个block。基于此,将图像嵌入特征输入至入口流量网络,通过入口流量网络输出第一特征图(feature map)。然后将第一特征图输入至中间流量网络,通过中间流量网络输出第二特征图。最后,将第二特征图输入至中间流量网络,通过中间流量网络输出图像模态特征。
需要说明的是,第二特征提取子网络包含但不仅限于Xception网络、视觉几何组网络(Visual Geometry Group Network,VGG)以及CNN网络。对于第二特征提取子网络而言,在初始训练阶段,可选择大型可视化数据库(ImageNet)并基于目标任务数据集进行调优(fine turning),然后将第二特征提取子网络的某一层或者某几层特征作为图像模态特征。由于训练目标一致,通常选择最后一层即可达到较好的效果。
进一步地,本申请实施例中,提供了一种基于Xception网络提取图像模态特征的方式,通过上述方式,Xception网络相比于普通的卷积操作具有更强的表达能力,且Xception网络结构是带有残差连接的深度可分卷积层的线性堆叠,这样的构容易定义和修改,具有较高的灵活性。此外,Xception网络采用的参数较少,从而提升处理效率。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于离散文本序列,通过第三特征提取子网络获取离散模态特征,具体可以包括:
基于离散文本序列,通过第三特征提取子网络所包括的特征嵌入层,获取N个特征嵌入向量,其中,离散文本序列包括N个文本序列,每个文本序列对应于一个特征嵌入向量,N为大于或等于1的整数;
基于N个特征嵌入向量,通过第三特征提取子网络所包括的文本特征提取网络,获取离散模态特征。
在一个或多个实施例中,介绍了一种基于第三特征提取子网络提取离散模态特征的方式,目标内容通常都有与其内容相关的附属文本信息,通过对这些人工抽象出的附属文本信息进行分类会比直接从目标内容中学习出分类更容易。本申请可采用“标签文本+链接地址+账号信息+发布时间”的拼接形式作为离散文本序列。
具体地,请参阅图11,图11为本申请实施例中第三特征提取子网络的一个网络结构示意图,如图所示,第三特征提取子网络包括特征嵌入向量以及文本特征提取网络,首先将离散文本序列中的N个文本序列(例如,标签文本序列、链接地址序列、账号信息序列以及发布时间等)输入至特征嵌入(feature embedding)层,由此,输出每个文本序列的特征嵌入向量,即得到N个特征嵌入向量。于是,将N个特征嵌入向量输入至文本特征提取网络,通过文本特征提取网络输出离散模态特征。其中,文本特征提取网络可以由若干个池化层组成,
进一步地,本申请实施例中,提供了一种基于第三特征提取子网络提取离散模态特征的方式,通过上述方式,利用词嵌入层提取词嵌入向量,然后进一步通过文本特征提取网络获取离散模态特征,从而提升方案的可行性和可操作性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
基于多模态特征集合,通过时效分类网络获取目标概率分布向量,具体可以包括:
若图像模态特征表现为矩阵形式,则将图像模态特征转换为目标图像模态特征,其中,目标图像模态特征表现为向量形式;
对文本模态特征、目标图像模态特征以及离散模态特征进行拼接处理,得到目标多模态特征;
基于目标多模态特征,通过时效分类网络获取目标概率分布向量。
在一个或多个实施例中,介绍了一种对多模态特征集合进行特征拼接的方式。由前述实施例可知,多模态特征集合可以包括文本模态特征、图像模态特征以及离散模态特征,对此,还可以将多模态特征集合进行拼接(concat)处理,从而得到目标多模态特征。得到目标多模态特征之后,能够为后续的多分类任务做特征准备。
具体地,为了便于理解,请参阅图12,图12为本申请实施例中对多模态特征集合进行拼接的一个示意图,如图所示,文本模态特征可以是向量形式的特征,离散模态特征也可以是向量形式的特征。但是图像模态特征可能是向量形式的特征,也可能是矩阵形式的特征,因此,对于矩阵形式的图像模态特征而言,还需要将其转换为目标图像模态特征。需要说明的是,在一种实现方式中,可一个或多个卷积层将矩阵形式的图像模态特征转换为向量形式的目标图像模态特征。在另一种实现方式中,可直接将矩阵形式的图像模态特征进行拉平(flatten)处理,以得到向量形式的目标图像模态特征。
基于此,可以将向量形式的文本模态特征、目标图像模态特征以及离散模态特征进行concat,由此得到目标多模态特征。最后,将目标多模态特征输入至时效分类网络,通过时效分类网络输出目标概率分布向量。
其次,本申请实施例中,提供了一种对多模态特征集合进行特征拼接的方式,通过上述方式,将多模态特征集合中的文本模态特征、图像模态特征以及离散模态特征直接进行拼接,以得到目标多模态特征。直接对特征进行拼接的操作较为简易,便于进行后续处理,从而能够更好地结合多模态特征集合,有利于整合多种多模态信息。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
基于多模态特征集合,通过时效分类网络获取目标概率分布向量,具体可以包括:
若图像模态特征表现为矩阵形式,则将图像模态特征转换为目标图像模态特征,其中,目标图像模态特征表现为向量形式;
基于文本模态特征、目标图像模态特征以及离散模态特征,通过多模态融合模型获取融合多模态特征;
基于融合多模态特征,通过时效分类网络获取目标概率分布向量。
在一个或多个实施例中,介绍了一种对多模态特征集合进行特征融合的方式。由前述实施例可知,多模态特征集合可以包括文本模态特征、图像模态特征以及离散模态特征,对此,还可以将多模态特征集合进行融合处理,从而得到融合多模态特征。得到融合多模态特征之后,能够为后续的多分类任务做特征准备。
具体地,为了便于理解,请参阅图13,图13为本申请实施例中对多模态特征集合进行融合的一个示意图,如图所示,文本模态特征可以是向量形式的特征,离散模态特征也可以是向量形式的特征。但是图像模态特征可能是向量形式的特征,也可能是矩阵形式的特征,因此,对于矩阵形式的图像模态特征而言,还需要将其转换为目标图像模态特征。需要说明的是,在一种实现方式中,可一个或多个卷积层将矩阵形式的图像模态特征转换为向量形式的目标图像模态特征。在另一种实现方式中,可直接将矩阵形式的图像模态特征进行拉平(flatten)处理,以得到向量形式的目标图像模态特征。
低秩多模态融合(Low-rank Multimodal Fusion,LMF)通过将多个模态的外积运算近似等价为内积和按位相乘的运算实现特征的全组合。首先分别将文本模态特征、目标图像模态特征以及离散模态特征转换为高维张量,然后将其映射回一个低维输出向量空间。为了能够用一个张量来模拟任意模态子集之间的相互作用,在进行外积之前,给每个表示z后面加一个1,因此,输入的张量Z通过单个模态的表示为:
Figure 262152DEST_PATH_IMAGE009
其中,Z表示输入的张量,zm表示第m个单个模态的编码信息,W表示权重,b表示偏移量,g(.)表示线性层,Rdm和Rdy分别表示不同的张量,M表示M阶张量,h表示融合多模态特征。
其次,本申请实施例中,提供了一种对多模态特征集合进行特征融合的方式,通过上述方式,将多模态特征集合中的文本模态特征、图像模态特征以及离散模态特征直接进行融合,以得到融合多模态特征。具体可基于LMF将特征分解为低秩因子,由此减少了模型中的参数数量。利用低秩权重张量和输入张量的并行分解来计算基于张量的融合,可以有效执行这种分解。此外,能够更好地融合多模态特征集合,有利于整合多种多模态信息。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
基于多模态特征集合,通过时效分类网络获取目标概率分布向量,具体可以包括:
基于文本模态特征,通过第一时效分类子网络获取第一概率分布向量,其中,第一时效分类子网络属于时效分类网络;
基于图像模态特征,通过第二时效分类子网络获取第二概率分布向量,其中,第二时效分类子网络属于时效分类网络;
基于离散模态特征,通过第三时效分类子网络获取第三概率分布向量,其中,第三时效分类子网络属于时效分类网络;
根据第一概率分布向量、第一概率分布向量所对应的第一权重、第二概率分布向量、第二概率分布向量所对应的第二权重、第三概率分布向量以及第三概率分布向量所对应的第三权重,生成目标概率分布向量。
在一个或多个实施例中,介绍了一种针对于多个概率分布向量确定目标时效标签的方式。由前述实施例可知,多模态特征集合可以包括文本模态特征、图像模态特征以及离散模态特征,基于此,将多模态特征集合输入至时效分类网络之后,以此得到相应的概率分布向量。
具体地,示例性地,假设P个时效标签包括“当天内时效”、“三天内时效”以及“七天内时效”,且假设多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征。为了便于介绍,请参阅图14,图14为本申请实施例中输出目标概率分布向量的一个网络结构示意图,如图所示,对第一文本信息、音频信息、图像信息和附属文本信息均进行预处理。接下来,根据预处理后的特征,将目标文本序列输入至第一特征提取子网络,由第一特征提取子网络输出文本模态特征。再将文本模态特征输入至时序分类网络所包括的第一时效分类子网络,以输出第一概率分布向量,例如,第一概率分布向量为(0.1,0.7,0.2)。类似地,将图像嵌入特征输入至第二特征提取子网络,由第二特征提取子网络输出图像模态特征。再将图像模态特征输入至时序分类网络所包括的第二时效分类子网络,以输出第二概率分布向量,例如,第二概率分布向量为(0.2,0.5,0.3)。类似地,将离散文本序列输入至第三特征提取子网络,由第三特征提取子网络输出离散模态特征。再将离散模态特征输入至时序分类网络所包括的第三时效分类子网络,以输出第三概率分布向量,例如,第三概率分布向量为(0.1,0.6,0.3)。
基于此,结合上述假设,并假设第一权重为1,第二权重为2,第三权重为1,那么根据第一概率分布向量以及第一概率分布向量所对应的第一权重,得到对应的概率分布向量为(0.1,0.7,0.2)。根据第二概率分布向量以及第二概率分布向量所对应的第二权重,得到对应的概率分布向量为(0.4,1,0.6)。根据第三概率分布向量以及第三概率分布向量所对应的第三权重,得到对应的概率分布向量为(0.1,0.6,0.3)。于是,将这些概率分布向量进行叠加,得到目标概率分布向量为(0.6,2.3,1.1),其中,概率值“2.3”所对应的时效标签为“三天内时效”,因此,目标时效标签为“三天内时效”。
具体地,示例性地,假设P个时效标签包括“当天内时效”、“三天内时效”以及“七天内时效”,且假设多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征。为了便于介绍,请参阅图15,图15为本申请实施例中输出目标概率分布向量的另一个网络结构示意图,如图所示,对第一文本信息、音频信息、图像信息和附属文本信息均进行预处理。接下来,根据预处理后的特征,将目标文本序列输入至第一特征提取子网络,由第一特征提取子网络输出文本模态特征。类似地,将图像嵌入特征输入至第二特征提取子网络,由第二特征提取子网络输出图像模态特征。将离散文本序列输入至第三特征提取子网络,由第三特征提取子网络输出离散模态特征。对文本模态特征、目标图像模态特征以及离散模态特征进行拼接或融合之后,即可得到融合多模态特征或目标多模态特征。于是,将融合多模态特征或目标多模态特征输入至时效分类网络,由此得到目标概率分布向量。
其次,本申请实施例中,提供了一种针对于多个概率分布向量确定目标时效标签的方式,通过上述方式,可以事先分配各个概率分布向量的权重值。如果需要更关注文本模态特征,则增加第一权重。如果需要更关注图像模态特征,则增加第二权重。如果需要更关注离散模态特征,则增加第三权重。由此,根据需求合理地调整每个概率分布向量的权重值,从而预测得的更符合内容类型的目标时效标签。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据目标概率分布向量,确定目标内容所对应的目标时效标签之后,还可以包括:
接收终端设备发送的内容推送请求;
响应于内容推送请求,若目标时效标签满足内容推送条件,则向终端设备发送针对于目标内容的内容推送消息,以使终端设备展示内容推送消息。
在一个或多个实施例中,介绍了一种基于目标时效标签输出推荐信息的方式。由前述实施例可知,内容时效确定装置可部署于服务器,因此,服务器还可以定期对内容库中存储的内容进行时效标签的估计,然后存储内容与时效标签之间的映射关系。之后服务器接收到终端设备发送的内容推送请求,根据内容与时效标签之间的映射关系,判定哪些内容满足内容推送条件,于是可以将这些内容推送至终端设备,由终端设备进行展示。
可以理解的是,本申请以目标内容为例进行说明,然而,对于其他内容而言,如果满足内容推送条件,也可直接向终端设备进行推送。在一个示例中,判断是否内容推送条件的方式为,首先获取内容的上线时间,然后确定内容上线时间距离当前时间的时长,如果该时长小于或等于时效标签对应的时长,则表示满足内容推送条件。反之,如果该时长大于时效标签对应的时长,则表示不满足内容推送条件。在另一个示例中,判断是否内容推送条件的方式为,如果内容的时效标签为“无时效要求”,则表示满足内容推送条件。反之,内容的时效标签为“有时效要求”,则表示不满足内容推送条件。在实际应用中,还可以设计其他的内容推送条件,此处不做限定。
具体地,请参阅16,图16为本申请实施例中向终端设备推送内容的一个场景示意图,如图所示,以内容为视频为例,当用户在终端设备上点击某个视频查看控件时,即向服务器发送内容推送请求。对于服务器而言,可定期对视频库中的视频进行时效标签的计算。为了便于说明,请参阅表1,表1为视频内容、上线时间与时效标签之间映射关系的一个示意。
表1
Figure 504784DEST_PATH_IMAGE010
假设终端设备在2021年6月5日向服务器发送的内容推送请求,基于此,由表1可知,视频A的时效标签为“1”天,不适合推送。视频B的时效标签为“7”天,适合推送。视频C的时效标签为“1”天,不适合推送。视频D的时效标签为“7”天,适合推送。视频E的时效标签为“3”天,不适合推送。视频F的时效标签为“7”天,适合推送。视频G的时效标签为“7”天,适合推送。视频H的时效标签为“1”天,不适合推送。
假设目标内容为视频A,且目标内容的目标时效标签不满足内容推送条件,即服务器不会向终端设备推送针对视频A的内容推送消息。假设目标内容为视频B,且目标内容的目标时效标签满足内容推送条件,即服务器会向终端设备推送针对视频A的内容推送消息。
其次,本申请实施例中,提供了一种基于目标时效标签输出推荐信息的方式,通过上述方式,响应终端设备的内容推送请求,结合预测得到的内容的时效标签,判定是否满足内容推送条件,对于满足内容推送条件的内容而言,可进行推送。由此,能够为用户推送时效性更高的内容,从而有利于增加针对于内容的点击率。
下面对本申请中的内容时效确定装置进行详细描述,请参阅图17,图17为本申请实施例中内容时效确定装置的一个实施例示意图,内容时效确定装置20包括:
获取模块201,用于获取目标内容的多模态信息集合,其中,多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种;
处理模块202,用于对多模态信息集合进行特征提取,得到多模态特征集合;
获取模块201,还用于基于多模态特征集合,通过时效分类网络获取目标概率分布向量,其中,目标概率分布向量包括P个概率值,P个概率值中的每个概率值对应于一个时效标签,P为大于1的整数;
确定模块203,用于根据目标概率分布向量,确定目标内容所对应的目标时效标签。
本申请实施例中,提供了一种内容时效确定装置。获取目标内容的多模态信息集合,多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种,然后对多模态信息集合进行特征提取,得到多模态特征集合,再基于多模态特征集合,通过时效分类网络获取目标概率分布向量,最后,可以根据目标概率分布向量,确定目标内容所对应的目标时效标签。采用上述装置,提取目标内容的多模态信息特征,采用训练好的深度神经网络模型对多模态信息特征进行分析,从而得到目标内容的目标时效标签。由此,本申请能够充分利用内容中多路信号源的特征进行时效性预测,从而提升时效分类的准确性。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的内容时效确定装置20的另一实施例中,多模态信息集合包括第一文本信息、图像信息以及附属文本信息;
处理模块202,具体用于针对于第一文本信息,对第一文本信息进行分词处理,得到第一文本序列,其中,第一文本序列包括至少一个词语;
针对于图像信息,将图像信息转换为图像嵌入特征,其中,图像信息包括目标内容中的封面图信息和关键帧信息中的至少一种;
针对于附属文本信息,生成离散文本序列,其中,附属文本信息包括标签文本、链接地址、账号信息以及发布时间中的至少一种,离散文本序列包括至少一个文本序列;
基于目标文本序列、图像嵌入特征以及离散文本序列,通过特征提取网络获取多模态特征集合,其中,目标文本序列包括第一文本序列。
本申请实施例中,提供了一种内容时效确定装置。采用上述装置,采用多路数据源实现基于深层网络特征融合的多模态技术,充分利用内容在时效性场景下的特征,有效提升复杂分类下的准确率结果。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的内容时效确定装置20的另一实施例中,多模态信息集合还包括音频信息;
获取模块201,还用于针对于音频信息,通过语音识别网络获取音频信息所对应的目标文本信息;
处理模块202,还用于对目标文本信息进行分词处理,得到第二文本序列,其中,第二文本序列包括至少一个词语;
处理模块202,还用于对第一文本序列以及第二文本序列进行拼接处理,得到目标文本序列。
本申请实施例中,提供了一种内容时效确定装置。采用上述装置,将内容中的音频信息作为一路数据源,从而实现基于深层网络特征融合的多模态技术,充分利用内容在时效性场景下的特征,有效提升复杂分类下的准确率结果。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的内容时效确定装置20的另一实施例中,
处理模块202,具体用于基于目标文本序列,通过第一特征提取子网络获取文本模态特征,其中,第一特征提取子网络属于特征提取网络,文本模态特征属于多模态特征集合;
基于图像嵌入特征,通过第二特征提取子网络获取图像模态特征,其中,第二特征提取子网络属于特征提取网络,图像模态特征属于多模态特征集合;
基于离散文本序列,通过第三特征提取子网络获取离散模态特征,其中,第三特征提取子网络属于特征提取网络,离散模态特征属于多模态特征集合。
本申请实施例中,提供了一种内容时效确定装置。采用上述装置,分别采用不同的特征提取子网络对目标文本序列、图像嵌入特征和离散文本序列分别进行特征提取,有利于提取到更具有针对性的特征,从而提升提取特征的可靠性。基于此,在训练特征提取子网络时,也采用相应的特征样本进行训练。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的内容时效确定装置20的另一实施例中,
处理模块202,具体用于基于目标文本序列,通过第一特征提取子网络所包括的词嵌入层,获取M个词嵌入向量,其中,目标文本序列包括M个词语,每个词语对应于一个词嵌入向量,M为大于或等于1的整数;
基于M个词嵌入向量,通过第一特征提取子网络所包括的文本特征提取网络,获取第一文本特征;
基于第一文本特征,通过第一特征提取子网络所包括的注意力网络,获取文本模态特征。
本申请实施例中,提供了一种内容时效确定装置。采用上述装置,利用词嵌入层提取词嵌入向量,然后进一步通过文本特征提取网络提取这些词嵌入向量的特征,得到第一文本特征,最后采用注意力网络对第一文本特征进行注意力计算,从而学习到更准确的文本模态特征。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的内容时效确定装置20的另一实施例中,目标文本序列包括至少两个句子序列,每个句子序列包括至少两个词语;
处理模块202,具体用于针对于目标文本序列中的每个句子序列,通过词序列编码器对每个句子序列中的每个词语进行编码,得到每个句子序列中的每个词语的词编码状态;
针对于目标文本序列中的每个句子序列,基于每个句子序列中的每个词语的词编码状态,通过词级注意力层获取每个句子序列的句子特征向量;
针对于目标文本序列,通过句子编码器对每个句子序列的句子特征向量进行编码,得到每个句子序列的句子编码状态;
针对于目标文本序列,基于每个句子序列的句子编码状态,通过句子级注意力层获取文本模态特征。
本申请实施例中,提供了一种内容时效确定装置。采用上述装置,采用HAN网络可利用网络将各层级分类的多个任务合并,以共享模型参数方式学习模型的层次结构,由此,共享样本信息和模型参数,使用合并的损失值驱动模型调整参数,完成层次结构信息的使用,并且借助网络中的词语和句子级别等分层注意力机制提升准确率。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的内容时效确定装置20的另一实施例中,
处理模块202,具体用于基于图像嵌入特征,通过第二特征提取子网络所包括的入口流量网络,获取第一特征图;
基于第一特征图,通过第二特征提取子网络所包括的中间流量网络,获取第二特征图;
基于第二特征图,通过第二特征提取子网络所包括的出口流量网络,获取图像模态特征。
本申请实施例中,提供了一种内容时效确定装置。采用上述装置,Xception网络相比于普通的卷积操作具有更强的表达能力,且Xception网络结构是带有残差连接的深度可分卷积层的线性堆叠,这样的构容易定义和修改,具有较高的灵活性。此外,Xception网络采用的参数较少,从而提升处理效率。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的内容时效确定装置20的另一实施例中,
处理模块202,具体用于基于离散文本序列,通过第三特征提取子网络所包括的特征嵌入层,获取N个特征嵌入向量,其中,离散文本序列包括N个文本序列,每个文本序列对应于一个特征嵌入向量,N为大于或等于1的整数;
基于N个特征嵌入向量,通过第三特征提取子网络所包括的文本特征提取网络,获取离散模态特征。
本申请实施例中,提供了一种内容时效确定装置。采用上述装置,利用词嵌入层提取词嵌入向量,然后进一步通过文本特征提取网络获取离散模态特征,从而提升方案的可行性和可操作性。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的内容时效确定装置20的另一实施例中,多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
获取模块201,具体用于若图像模态特征表现为矩阵形式,则将图像模态特征转换为目标图像模态特征,其中,目标图像模态特征表现为向量形式;
对文本模态特征、目标图像模态特征以及离散模态特征进行拼接处理,得到目标多模态特征;
基于目标多模态特征,通过时效分类网络获取目标概率分布向量。
本申请实施例中,提供了一种内容时效确定装置。采用上述装置,将多模态特征集合中的文本模态特征、图像模态特征以及离散模态特征直接进行拼接,以得到目标多模态特征。直接对特征进行拼接的操作较为简易,便于进行后续处理,从而能够更好地结合多模态特征集合,有利于整合多种多模态信息。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的内容时效确定装置20的另一实施例中,多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
获取模块201,具体用于若图像模态特征表现为矩阵形式,则将图像模态特征转换为目标图像模态特征,其中,目标图像模态特征表现为向量形式;
基于文本模态特征、目标图像模态特征以及离散模态特征,通过多模态融合模型获取融合多模态特征;
基于融合多模态特征,通过时效分类网络获取目标概率分布向量。
本申请实施例中,提供了一种内容时效确定装置。采用上述装置,将多模态特征集合中的文本模态特征、图像模态特征以及离散模态特征直接进行融合,以得到融合多模态特征。具体可基于LMF将特征分解为低秩因子,由此减少了模型中的参数数量。利用低秩权重张量和输入张量的并行分解来计算基于张量的融合,可以有效执行这种分解。此外,能够更好地融合多模态特征集合,有利于整合多种多模态信息。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的内容时效确定装置20的另一实施例中,多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
获取模块201,具体用于基于文本模态特征,通过第一时效分类子网络获取第一概率分布向量,其中,第一时效分类子网络属于时效分类网络;
基于图像模态特征,通过第二时效分类子网络获取第二概率分布向量,其中,第二时效分类子网络属于时效分类网络;
基于离散模态特征,通过第三时效分类子网络获取第三概率分布向量,其中,第三时效分类子网络属于时效分类网络;
根据第一概率分布向量、第一概率分布向量所对应的第一权重、第二概率分布向量、第二概率分布向量所对应的第二权重、第三概率分布向量以及第三概率分布向量所对应的第三权重,生成目标概率分布向量。
本申请实施例中,提供了一种内容时效确定装置。采用上述装置,可以事先分配各个概率分布向量的权重值。如果需要更关注文本模态特征,则增加第一权重。如果需要更关注图像模态特征,则增加第二权重。如果需要更关注离散模态特征,则增加第三权重。由此,根据需求合理地调整每个概率分布向量的权重值,从而预测得的更符合内容类型的目标时效标签。
可选地,在上述图17所对应的实施例的基础上,本申请实施例提供的内容时效确定装置20的另一实施例中,内容时效确定装置还包括接收模块204以及发送模块205;
接收模块204,用于在确定模块203根据目标概率分布向量,确定目标内容所对应的目标时效标签之后,接收终端设备发送的内容推送请求;
发送模块205,用于响应于内容推送请求,若目标时效标签满足内容推送条件,则向终端设备发送针对于目标内容的内容推送消息,以使终端设备展示内容推送消息。
本申请实施例中,提供了一种内容时效确定装置。采用上述装置,采响应终端设备的内容推送请求,结合预测得到的内容的时效标签,判定是否满足内容推送条件,对于满足内容推送条件的内容而言,可进行推送。由此,能够为用户推送时效性更高的内容,从而有利于增加针对于内容的点击率。
本申请提供了一种内容时效确定装置,该内容时效确定装置可部署于服务器。请参阅图18,图18是本申请实施例提供的一种服务器结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。
服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
本申请实施例中,CPU 322用于执行如下步骤:
获取目标内容的多模态信息集合,其中,多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种;
对多模态信息集合进行特征提取,得到多模态特征集合;
基于多模态特征集合,通过时效分类网络获取目标概率分布向量,其中,目标概率分布向量包括P个概率值,P个概率值中的每个概率值对应于一个时效标签,P为大于1的整数;
根据目标概率分布向量,确定目标内容所对应的目标时效标签。
上述实施例中由服务器所执行的步骤可以基于该图18所示的服务器结构。
本申请提供了一种内容时效确定装置,该内容时效确定装置可部署于终端设备。请参阅图19,请参阅图19,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端设备(Point of Sales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:
图19示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图19,手机包括:射频(Radio Frequency,RF)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(wireless fidelity,WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解,图19中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图19对手机的各个构成部件进行具体的介绍:
RF电路410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器480处理;另外,将设计上行的数据发送给基站。通常,RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统 (GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access, WCDMA)、长期演进 (Long TermEvolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器420可用于存储软件程序以及模块,处理器480通过运行存储在存储器420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元430可包括触控面板431以及其他输入设备432。触控面板431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器480,并能接收处理器480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431,输入单元430还可以包括其他输入设备432。具体地,其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元440可包括显示面板441,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板441。进一步的,触控面板431可覆盖显示面板441,当触控面板431检测到在其上或附近的触摸操作后,传送给处理器480以确定触摸事件的类型,随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图19中,触控面板431与显示面板441是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板431与显示面板441集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板441的亮度,接近传感器可在手机移动到耳边时,关闭显示面板441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路460、扬声器461,传声器462可提供用户与手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号,传输到扬声器461,由扬声器461转换为声音信号输出;另一方面,传声器462将收集的声音信号转换为电信号,由音频电路460接收后转换为音频数据,再将音频数据输出处理器480处理后,经RF电路410以发送给比如另一手机,或者将音频数据输出至存储器420以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图19示出了WiFi模块470,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器480可包括一个或多个处理单元;可选的,处理器480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器480中。
手机还包括给各个部件供电的电源490(比如电池),可选的,电源可以通过电源管理系统与处理器480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
本申请实施例中,处理器480用于执行如下步骤:
获取目标内容的多模态信息集合,其中,多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种;
对多模态信息集合进行特征提取,得到多模态特征集合;
基于多模态特征集合,通过时效分类网络获取目标概率分布向量,其中,目标概率分布向量包括P个概率值,P个概率值中的每个概率值对应于一个时效标签,P为大于1的整数;
根据目标概率分布向量,确定目标内容所对应的目标时效标签。
上述实施例中由终端设备所执行的步骤可以基于该图19所示的终端设备结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种内容时效的确定方法,其特征在于,包括:
获取目标内容的多模态信息集合,其中,所述多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种;
对所述多模态信息集合进行特征提取,得到多模态特征集合;
基于所述多模态特征集合,通过时效分类网络获取目标概率分布向量,其中,所述目标概率分布向量包括P个概率值,所述P个概率值中的每个概率值对应于一个时效标签,所述P为大于1的整数;
根据所述目标概率分布向量,确定所述目标内容所对应的目标时效标签。
2.根据权利要求1所述的确定方法,其特征在于,所述多模态信息集合包括所述第一文本信息、所述图像信息以及所述附属文本信息;
所述对所述多模态信息集合进行特征提取,得到多模态特征集合,包括:
针对于所述第一文本信息,对所述第一文本信息进行分词处理,得到第一文本序列,其中,所述第一文本序列包括至少一个词语;
针对于所述图像信息,将所述图像信息转换为图像嵌入特征,其中,所述图像信息包括所述目标内容中的封面图信息和关键帧信息中的至少一种;
针对于所述附属文本信息,生成离散文本序列,其中,所述附属文本信息包括标签文本、链接地址、账号信息以及发布时间中的至少一种,所述离散文本序列包括至少一个文本序列;
基于目标文本序列、所述图像嵌入特征以及所述离散文本序列,通过特征提取网络获取所述多模态特征集合,其中,所述目标文本序列包括所述第一文本序列。
3.根据权利要求2所述的确定方法,其特征在于,所述多模态信息集合还包括所述音频信息;
所述方法还包括:
针对于所述音频信息,通过语音识别网络获取所述音频信息所对应的目标文本信息;
对所述目标文本信息进行分词处理,得到第二文本序列,其中,所述第二文本序列包括至少一个词语;
对所述第一文本序列以及所述第二文本序列进行拼接处理,得到所述目标文本序列。
4.根据权利要求2所述的确定方法,其特征在于,所述基于目标文本序列、所述图像嵌入特征以及所述离散文本序列,通过特征提取网络获取所述多模态特征集合,包括:
基于所述目标文本序列,通过第一特征提取子网络获取文本模态特征,其中,所述第一特征提取子网络属于所述特征提取网络,所述文本模态特征属于所述多模态特征集合;
基于所述图像嵌入特征,通过第二特征提取子网络获取图像模态特征,其中,所述第二特征提取子网络属于所述特征提取网络,所述图像模态特征属于所述多模态特征集合;
基于所述离散文本序列,通过第三特征提取子网络获取离散模态特征,其中,所述第三特征提取子网络属于所述特征提取网络,所述离散模态特征属于所述多模态特征集合。
5.根据权利要求4所述的确定方法,其特征在于,所述基于所述目标文本序列,通过第一特征提取子网络获取文本模态特征,包括:
基于所述目标文本序列,通过所述第一特征提取子网络所包括的词嵌入层,获取M个词嵌入向量,其中,所述目标文本序列包括M个词语,每个词语对应于一个词嵌入向量,所述M为大于或等于1的整数;
基于所述M个词嵌入向量,通过所述第一特征提取子网络所包括的文本特征提取网络,获取第一文本特征;
基于所述第一文本特征,通过所述第一特征提取子网络所包括的注意力网络,获取所述文本模态特征。
6.根据权利要求4所述的确定方法,其特征在于,所述目标文本序列包括至少两个句子序列,每个句子序列包括至少两个词语;
所述基于所述目标文本序列,通过第一特征提取子网络获取文本模态特征,包括:
针对于所述目标文本序列中的每个句子序列,通过词序列编码器对所述每个句子序列中的每个词语进行编码,得到所述每个句子序列中的每个词语的词编码状态;
针对于所述目标文本序列中的每个句子序列,基于所述每个句子序列中的每个词语的词编码状态,通过词级注意力层获取所述每个句子序列的句子特征向量;
针对于所述目标文本序列,通过句子编码器对所述每个句子序列的句子特征向量进行编码,得到所述每个句子序列的句子编码状态;
针对于所述目标文本序列,基于所述每个句子序列的句子编码状态,通过句子级注意力层获取所述文本模态特征。
7.根据权利要求4所述的确定方法,其特征在于,所述基于所述图像嵌入特征,通过第二特征提取子网络获取图像模态特征,包括:
基于所述图像嵌入特征,通过所述第二特征提取子网络所包括的入口流量网络,获取第一特征图;
基于所述第一特征图,通过所述第二特征提取子网络所包括的中间流量网络,获取第二特征图;
基于所述第二特征图,通过所述第二特征提取子网络所包括的出口流量网络,获取所述图像模态特征。
8.根据权利要求4所述的确定方法,其特征在于,所述基于所述离散文本序列,通过第三特征提取子网络获取离散模态特征,包括:
基于所述离散文本序列,通过所述第三特征提取子网络所包括的特征嵌入层,获取N个特征嵌入向量,其中,所述离散文本序列包括N个文本序列,每个文本序列对应于一个特征嵌入向量,所述N为大于或等于1的整数;
基于所述N个特征嵌入向量,通过所述第三特征提取子网络所包括的文本特征提取网络,获取所述离散模态特征。
9.根据权利要求1至8中任一项所述的确定方法,其特征在于,所述多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
所述基于所述多模态特征集合,通过时效分类网络获取目标概率分布向量,包括:
若所述图像模态特征表现为矩阵形式,则将所述图像模态特征转换为目标图像模态特征,其中,所述目标图像模态特征表现为向量形式;
对所述文本模态特征、所述目标图像模态特征以及所述离散模态特征进行拼接处理,得到目标多模态特征;
基于所述目标多模态特征,通过所述时效分类网络获取所述目标概率分布向量。
10.根据权利要求1至8中任一项所述的确定方法,其特征在于,所述多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
所述基于所述多模态特征集合,通过时效分类网络获取目标概率分布向量,包括:
若所述图像模态特征表现为矩阵形式,则将所述图像模态特征转换为目标图像模态特征,其中,所述目标图像模态特征表现为向量形式;
基于所述文本模态特征、所述目标图像模态特征以及所述离散模态特征,通过多模态融合模型获取融合多模态特征;
基于所述融合多模态特征,通过所述时效分类网络获取所述目标概率分布向量。
11.根据权利要求1至8中任一项所述的确定方法,其特征在于,所述多模态特征集合包括文本模态特征、图像模态特征以及离散模态特征;
所述基于所述多模态特征集合,通过时效分类网络获取目标概率分布向量,包括:
基于所述文本模态特征,通过第一时效分类子网络获取第一概率分布向量,其中,所述第一时效分类子网络属于所述时效分类网络;
基于所述图像模态特征,通过第二时效分类子网络获取第二概率分布向量,其中,所述第二时效分类子网络属于所述时效分类网络;
基于所述离散模态特征,通过第三时效分类子网络获取第三概率分布向量,其中,所述第三时效分类子网络属于所述时效分类网络;
根据所述第一概率分布向量、所述第一概率分布向量所对应的第一权重、所述第二概率分布向量、所述第二概率分布向量所对应的第二权重、所述第三概率分布向量以及所述第三概率分布向量所对应的第三权重,生成所述目标概率分布向量。
12.根据权利要求1所述的确定方法,其特征在于,所述根据所述目标概率分布向量,确定所述目标内容所对应的目标时效标签之后,所述方法还包括:
接收终端设备发送的内容推送请求;
响应于所述内容推送请求,若所述目标时效标签满足内容推送条件,则向终端设备发送针对于所述目标内容的内容推送消息,以使所述终端设备展示所述内容推送消息。
13.一种内容时效确定装置,其特征在于,包括:
获取模块,用于获取目标内容的多模态信息集合,其中,所述多模态信息集合包括第一文本信息、图像信息、附属文本信息以及音频信息中的至少两种;
处理模块,用于对所述多模态信息集合进行特征提取,得到多模态特征集合;
所述获取模块,还用于基于所述多模态特征集合,通过时效分类网络获取目标概率分布向量,其中,所述目标概率分布向量包括P个概率值,所述P个概率值中的每个概率值对应于一个时效标签,所述P为大于1的整数;
确定模块,用于根据所述目标概率分布向量,确定所述目标内容所对应的目标时效标签。
14.一种计算机设备,其特征在于,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据程序代码中的指令执行权利要求1至12中任一项所述的确定方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至12中任一项所述的确定方法。
CN202110678752.3A 2021-06-18 2021-06-18 一种内容时效的确定方法、相关装置、设备以及存储介质 Active CN113254684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110678752.3A CN113254684B (zh) 2021-06-18 2021-06-18 一种内容时效的确定方法、相关装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110678752.3A CN113254684B (zh) 2021-06-18 2021-06-18 一种内容时效的确定方法、相关装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN113254684A true CN113254684A (zh) 2021-08-13
CN113254684B CN113254684B (zh) 2021-10-29

Family

ID=77188873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110678752.3A Active CN113254684B (zh) 2021-06-18 2021-06-18 一种内容时效的确定方法、相关装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113254684B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704502A (zh) * 2021-08-27 2021-11-26 电子科技大学 社交媒体中基于多模态信息融合账号位置识别方法
CN113704478A (zh) * 2021-09-07 2021-11-26 平安银行股份有限公司 文本要素提取方法、装置、电子设备及介质
CN113743522A (zh) * 2021-09-13 2021-12-03 五八同城信息技术有限公司 违规行为的检测方法及装置、电子设备
CN114329063A (zh) * 2021-10-29 2022-04-12 腾讯科技(深圳)有限公司 视频片段检测方法、装置以及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040099A1 (zh) * 2016-08-31 2018-03-08 深圳市唯特视科技有限公司 一种基于灰度和深度信息的三维人脸重建方法
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
US20190370316A1 (en) * 2017-06-22 2019-12-05 Tencent Technology (Shenzhen) Company Limited Information processing method and related device
CN110826315A (zh) * 2019-11-01 2020-02-21 智者四海(北京)技术有限公司 使用神经网络系统识别短文本时效性的方法
CN112396055A (zh) * 2020-11-30 2021-02-23 泰康保险集团股份有限公司 文本提取方法、装置、电子设备及存储介质
CN112434166A (zh) * 2020-12-17 2021-03-02 网易传媒科技(北京)有限公司 基于时效性的文本分类方法、装置、设备及存储介质
WO2021093449A1 (zh) * 2019-11-14 2021-05-20 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040099A1 (zh) * 2016-08-31 2018-03-08 深圳市唯特视科技有限公司 一种基于灰度和深度信息的三维人脸重建方法
US20190370316A1 (en) * 2017-06-22 2019-12-05 Tencent Technology (Shenzhen) Company Limited Information processing method and related device
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN110826315A (zh) * 2019-11-01 2020-02-21 智者四海(北京)技术有限公司 使用神经网络系统识别短文本时效性的方法
WO2021093449A1 (zh) * 2019-11-14 2021-05-20 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
CN112396055A (zh) * 2020-11-30 2021-02-23 泰康保险集团股份有限公司 文本提取方法、装置、电子设备及存储介质
CN112434166A (zh) * 2020-12-17 2021-03-02 网易传媒科技(北京)有限公司 基于时效性的文本分类方法、装置、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704502A (zh) * 2021-08-27 2021-11-26 电子科技大学 社交媒体中基于多模态信息融合账号位置识别方法
CN113704502B (zh) * 2021-08-27 2023-04-21 电子科技大学 社交媒体中基于多模态信息融合账号位置识别方法
CN113704478A (zh) * 2021-09-07 2021-11-26 平安银行股份有限公司 文本要素提取方法、装置、电子设备及介质
CN113704478B (zh) * 2021-09-07 2023-08-22 平安银行股份有限公司 文本要素提取方法、装置、电子设备及介质
CN113743522A (zh) * 2021-09-13 2021-12-03 五八同城信息技术有限公司 违规行为的检测方法及装置、电子设备
CN114329063A (zh) * 2021-10-29 2022-04-12 腾讯科技(深圳)有限公司 视频片段检测方法、装置以及设备
CN114329063B (zh) * 2021-10-29 2024-06-11 腾讯科技(深圳)有限公司 视频片段检测方法、装置以及设备

Also Published As

Publication number Publication date
CN113254684B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
JP7206288B2 (ja) 音楽推薦方法、装置、コンピューティング機器及び媒体
CN110599557B (zh) 图像描述生成方法、模型训练方法、设备和存储介质
CN113254684B (zh) 一种内容时效的确定方法、相关装置、设备以及存储介质
US12008810B2 (en) Video sequence selection method, computer device, and storage medium
WO2021238722A1 (zh) 资源推送方法、装置、设备及存储介质
CN113515942A (zh) 文本处理方法、装置、计算机设备及存储介质
CN113378556A (zh) 提取文本关键字的方法及装置
WO2022253061A1 (zh) 一种语音处理方法及相关设备
CN113723378B (zh) 一种模型训练的方法、装置、计算机设备和存储介质
CN111353299B (zh) 基于人工智能的对话场景确定方法和相关装置
CN114238690A (zh) 视频分类的方法、装置及存储介质
CN111738010B (zh) 用于生成语义匹配模型的方法和装置
CN113392687A (zh) 视频标题生成方法、装置、计算机设备及存储介质
CN113821720A (zh) 一种行为预测方法、装置及相关产品
CN115858826A (zh) 数据处理方法、装置、计算机设备及存储介质
CN114495916B (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN113269279B (zh) 一种多媒体内容分类方法和相关装置
CN112862021B (zh) 一种内容标注方法和相关装置
CN114281936A (zh) 分类方法、装置、计算机设备及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN113486260B (zh) 互动信息的生成方法、装置、计算机设备及存储介质
CN114462539A (zh) 一种内容分类模型的训练方法、内容分类的方法及装置
CN114510942A (zh) 获取实体词的方法、模型的训练方法、装置及设备
CN116453005A (zh) 一种视频封面的提取方法以及相关装置
CN113821609A (zh) 一种答案文本的获取方法及装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40050109

Country of ref document: HK