CN111767461A - 数据处理方法及装置 - Google Patents
数据处理方法及装置 Download PDFInfo
- Publication number
- CN111767461A CN111767461A CN202010588596.7A CN202010588596A CN111767461A CN 111767461 A CN111767461 A CN 111767461A CN 202010588596 A CN202010588596 A CN 202010588596A CN 111767461 A CN111767461 A CN 111767461A
- Authority
- CN
- China
- Prior art keywords
- embedding
- vector
- information
- word
- multimedia data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 479
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 62
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明实施例提供了一种数据处理方法及装置,其中方法包括:获取多媒体数据和用于对所述多媒体数据进行描述的文本信息;确定文本信息中每个分词的embedding词向量;对多媒体数据进行特征提取,得到多媒体数据对应的embedding图像向量;对embedding词向量和embedding图像向量进行特征融合,得到融合后embedding向量;将各个融合后embedding向量按照预设的加权策略进行整合,得到多模态embedding向量。通过本实施例中的方法,通过提取文本信息和多媒体数据对应的向量,进而得到具体内容中包括的信息,粒度很细,可以更加准确的反映出文本信息和多媒体数据的关键信息,以便于据此得到用户的兴趣点,能够在后期更加准确的对用户进行推荐。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种数据处理方法及装置。
背景技术
随着互联网的普及,越来越多的内容出现在各个网站中,为了对不同的视频内容或图文内容(例如漫画等等)进行分类,都会给对应的内容选择相应的标签进行标注,并且后期给用户进行内容推荐时,也会基于用户曾经点击过的内容的标签进行推荐。但是,通过标签对视频等进行标注时很多情况下无法体现出其有效的关键信息,在基于标签对用户进行推荐时容易出现推荐不准确的问题。
发明内容
本发明实施例的目的在于提供一种数据处理方法及装置,以实现抽取得到细粒度的信息的目的。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种数据处理方法,包括:
获取多媒体数据和用于对所述多媒体数据进行描述的文本信息;其中,所述多媒体数据包括:视频或图像;
确定所述文本信息中每个分词的embedding词向量;
对所述多媒体数据进行特征提取,得到所述多媒体数据对应的embedding图像向量;
对所述embedding词向量和所述embedding图像向量进行特征融合,得到融合后embedding向量;
将各个所述融合后embedding向量按照预设的加权策略进行整合,得到多模态embedding向量。
可选的,如前述的方法,所述确定所述文本信息中每个分词的embedding词向量,包括:
对所述文本信息进行分词处理,得到构成所述文本信息的所述分词;
根据所述分词以及预设的标签词得到对应的词表;
根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述embedding词向量。
可选的,如前述的方法,所述对所述多媒体数据进行特征提取,得到所述多媒体数据对应的embedding图像向量,包括:
将所述多媒体数据输入预设的深度神经网络中;
获取所述深度神经网络中的特征提取层对所述多媒体数据进行特征提取后得到的所述embedding图像向量。
可选的,如前述的方法,所述对所述embedding词向量和所述embedding图像向量进行特征融合,得到融合后embedding向量,包括:
对所述embedding词向量进行embedding向量维度调整得到调维embedding词向量,对所述embedding图像向量进行embedding向量维度调整得到所述调维embedding图像向量;
将各个所述调维embedding词向量与所述调维embedding图像向量进行拼接融合后,获得各个所述调维embedding词向量与所述调维embedding图像向量的对应的embedding向量信息;
通过自注意力机制得到各个所述embedding向量信息之间的全局联系;
根据所述全局联系对所述embedding向量信息进行调整,得到所述融合后embedding向量信息;
根据所述融合后embedding向量信息得到对应的所述融合后embedding向量。
可选的,如前述的方法,在得到所述融合后embedding向量信息之后,还包括:
确定将各个所述融合后embedding向量信息进行解码的次序信息;
按照所述次序信息确定所有所述融合后embedding向量信息中第一个进行解码的初始embedding向量信息,并对所述初始embedding向量信息进行解码得到初始embedding向量;
确定前一embedding向量信息对后一全局向量信息的影响权重;
按照所述影响权重,根据所述初始embedding向量信息对所述次序信息中的下一embedding向量信息进行调整,并解码得到调整后下一embedding向量;按此循环直至得到进过调整的调整后embedding向量;
确定所述词表中各个词语的候选词向量;
分别确定与所述调整后embedding向量的距离最近的所述候选词向量;
将所述距离最近的所述候选词向量对应的词语作为所述调整后embedding向量对应的内容标签。
可选的,如前述的方法,将所述embedding词向量和所述embedding图像向量按照预设的加权策略进行整合,得到多模态embedding向量,包括:
对所有所述embedding词向量和所述embedding图像向量进行平均值计算,得到平均embedding向量;
根据所述平均embedding向量得到所述多模态embedding向量。
在本发明实施的第二方面,还提供了一种数据处理方法,包括:
获取用于进行信息匹配的待匹配多媒体数据和待匹配文本信息;
确定所述待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量,所述待匹配多模态embedding向量通过如前任一项所述的方法生成;
从预设数据库获取与所述待匹配图文embedding向量相匹配的目标多模态embedding向量,所述预设数据库中的视频有对应的多模态embedding向量;将所述目标多模态embedding向量对应的视频推荐给用户。
在本发明实施的另一方面,还提供了一种数据处理装置,包括:
获取模块,用于获取多媒体数据和用于对所述多媒体数据进行描述的文本信息;其中,所述多媒体数据包括:视频或图像;
确定模块,用于确定所述文本信息中每个分词的embedding词向量;
特征提取模块,用于对所述多媒体数据进行特征提取,得到所述多媒体数据对应的embedding图像向量;
融合模块,用于对所述embedding词向量和所述embedding图像向量进行特征融合,得到融合后embedding向量;
整合模块,用于将各个所述融合后embedding向量按照预设的加权策略进行整合,得到多模态embedding向量。
可选的,如前述的装置,所述确定模块包括:
分词单元,用于对所述文本信息进行分词处理,得到构成所述文本信息的所述分词;
词表单元,用于根据所述分词以及预设的标签词得到对应的词表;
词向量单元,用于根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述embedding词向量。
可选的,如前述的装置,所述特征提取模块包括:
输入单元,用于将所述多媒体数据输入预设的深度神经网络中;
获取单元,用于获取所述深度神经网络中的特征提取层对所述多媒体数据进行特征提取后得到的所述embedding图像向量。
可选的,如前述的装置,所述融合模块包括:
调维单元,用于对所述embedding词向量进行embedding向量维度调整得到调维embedding词向量,对所述embedding图像向量进行embedding向量维度调整得到所述调维embedding图像向量;
融合单元,用于将各个所述调维embedding词向量与所述调维embedding图像向量进行拼接融合后,获得各个所述调维embedding词向量与所述调维embedding图像向量的对应的embedding向量信息;
自注意力单元,用于通过自注意力机制得到各个所述embedding向量信息之间的全局联系;
向量信息单元,用于根据所述全局联系对所述embedding向量信息进行调整,得到所述融合后embedding向量信息;
向量单元,用于根据所述融合后embedding向量信息得到对应的所述融合后embedding向量。
可选的,如前述的装置,还包括标签模块;所述标签模块包括:
次序单元,用于确定将各个所述融合后embedding向量信息进行解码的次序信息;
解码单元,用于按照所述次序信息确定所有所述融合后embedding向量信息中第一个进行解码的初始embedding向量信息,并对所述初始embedding向量信息进行解码得到初始embedding向量;
调整单元,用于确定所述初始embedding向量信息对下一进行解码的全局向量信息的影响权重;按照所述影响权重,根据所述初始embedding向量信息对所述下一进行解码的融合后embedding向量信息进行调整,并解码得到调整后embedding向量;按此循环直至对所有所述融合后embedding向量信息进行调整并得到所有所述调整后embedding向量;
第一确定单元,用于确定所述词表中各个词语的候选词向量;
第二确定单元,用于分别确定与所述调整后embedding向量的距离最近的所述候选词向量;
内容标签单元,用于将所述距离最近的所述候选词向量对应的词语作为所述调整后embedding向量对应的内容标签。
可选的,如前述的装置,所述整合模块包括:
平均单元,用于对所有所述embedding词向量和所述embedding图像向量进行平均值计算,得到平均embedding向量;
向量确定单元,用于根据所述平均embedding向量得到所述多模态embedding向量。
在本发明实施的又一方面,还提供了一种数据处理装置,包括:
接收模块,用于获取用于进行信息匹配的待匹配多媒体数据和待匹配文本信息;
确定模块,用于确定所述待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量,所述待匹配多模态embedding向量通过如前述的任一所述的方法生成;
查询模块,用于从预设数据库获取与所述待匹配图文embedding向量相匹配的目标多模态embedding向量,所述预设数据库中的视频有对应的多模态embedding向量;
发送模块,用于将所述目标多模态embedding向量对应的视频推荐给用户。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的方法。
本发明实施例提供的一种生成多模态embedding向量的数据处理方法及装置,其中方法包括:获取多媒体数据和用于对所述多媒体数据进行描述的文本信息;其中,所述多媒体数据包括:视频或图像;确定所述文本信息中每个分词的embedding词向量;对所述多媒体数据进行特征提取,得到所述多媒体数据对应的embedding图像向量;对所述embedding词向量和所述embedding图像向量进行特征融合,得到融合后embedding向量;将各个所述融合后embedding向量按照预设的加权策略进行整合,得到多模态embedding向量。通过本实施例中的方法,通过提取文本信息和多媒体数据对应的向量,进而得到具体内容中包括的信息,粒度很细,可以更加准确的反映出文本信息和多媒体数据的关键信息,以便于据此得到用户的兴趣点,能够在后期更加准确的对用户进行推荐。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中一种数据处理方法的流程图;
图2为本发明另一实施例中一种数据处理方法的流程图;
图3为本发明另一实施例中一种数据处理方法的流程图;
图4为本发明另一实施例中一种数据处理方法的流程图;
图5为本发明另一实施例中一种数据处理方法的流程图;
图6为本发明实施例中一种数据处理装置的框图;
图7为本发明另一实施例中一种数据处理装置的框图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
如图1所示为本申请一种实施例中数据处理方法,包括如下所述步骤S1至S4:
步骤S1.获取多媒体数据和用于对多媒体数据进行描述的文本信息;其中,所述多媒体数据包括:视频或图像。
具体的,多媒体数据可以包括但不限于:图片、视频或动图文件中的一种或多种;文本信息可以是:一个或多个关键词、长句或文章等等;由于本申请是用于对包含多媒体数据及文本信息的数据进行关键词提取,并进行打标签,因此文本信息与多媒体数据是属于同一个数据的信息;举例来说:当多媒体数据是一段视频时,则文本信息可以是用于对该段视频进行内容概述的文本内容。embedding向量是一种连续向量例如:[0.53,0.85,0.60,0.80,-0.78,-0.62]。
步骤S2.确定文本信息中每个分词的embedding词向量。
具体的,不管是机器学习还是深度学习本质上都是得到数据的相关性,embedding词向量做的事情就是将词语映射到向量空间里,并用向量来表示。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示单词出现的背景。
确定文本信息中每个分词的embedding词向量可以通过诸如word2vec、glove、ELMo、BERT等语言模型方法实现。
步骤S3.对多媒体数据进行特征提取,得到多媒体数据对应的embedding图像向量。
具体的,对多媒体数据进行特征提取,是用于识别得到该多媒体数据中的关键信息,且可以通过CNN等神经网络模型对多媒体数据进行特征提取,进而得到对应的图像特征信息。
步骤S4.对embedding词向量和embedding图像向量进行特征融合,得到融合后embedding向量。
将embedding词向量和embedding图像向量进行融合,用于使得通过embedding图像向量为表征方式的图像特征能够对embedding词向量产生影响,以及使embedding词向量对embedding图像向量产生影响;得到的融合后embedding向量即为根据受到相互影响后的embedding词向量和embedding图像向量。
步骤S5.将各个融合后embedding向量按照预设的加权策略进行整合,得到多模态embedding向量。
具体的,加权策略可以是对各个融合后embedding向量进行平均,也可以是对各个融合后embedding向量赋予不同的权重,再进行整合得到多模态embedding向量;此处的多模态embedding向量为:能够表征多种类型特征(即:能够表征词向量的特征以及图像特征)的embedding向量。
采用本实施例中的方法,解决相关技术中,基于文本,图像等融合后进行类型分类任务训练得到的多模态embedding,因此能够表达的类型也只是少量的有限集合,导致粒度很粗(能够进行表达的信息数量很少),对embedding的特征抽取能力不足,不能很好的反应用户的兴趣,本实施例能够使用基于词向量和图像向量生成的多模态embedding,是通过内容标签对相关信息进行表达,内容能够比类型标签更丰富;进而使最终得到的多模态embedding的粒度更细,可以更加准确地反映数据的关键信息以及用户的兴趣词,对下游的业务有更大的提升。其中一种应用效果为:通过本实施例方法来实现根据历史访问推荐关联相近的物品(例如:商品)或数据(例如:视频、图文信息等等),其能达到的效果为;整体:PV(Page View,访问量)增加21.18%,点击量增加12.45%。因而能够达到良好的推荐效果。
在一些实施例中,如前述的方法,确定文本信息中每个分词的embedding词向量,包括如下所述步骤P1至P3:
步骤P1.对文本信息进行分词处理,得到构成文本信息的分词;
步骤P2.根据分词以及预设的标签词得到对应的词表;
步骤P3.根据预先训练得到的词向量模型以及词表确定每个分词的词向量。
具体的,对文本信息进行分词处理是用于将一个文本拆分为多个分词,举例来说:当文本信息为“奇葩音效师坑惨演员为配合音效也是拼了演个戏容易吗”,对其进行分词处理后,得到的分词包括:“奇葩”、“音效”、“师”、“坑惨”、“演员”、“为”、“配合”、“音效”、“也”、“是”、“拼”、“了”、“演”、“个”、“戏”、“容易”、“吗”。
预设的标签词可以是预先选择得到的词组,且所述词表中的词包括标签词以及根据文本信息进行分词处理得到的分词。
其中,预先训练得到的词向量模型可以是word2vec模型(用于计算词向量的工具);因此得到每个分词的词向量可以通过训练得到的word2vec模型进行确定。进一步的,在训练时,可以对词表中的词分别进行随机初始化成512维的向量作为每个分词的初始词向量和初始标签向量(标签词的词向量),其中每一维的向量可以分配一浮点值(例如:0.96,0.53等等);具体的,在确定词表以及对词向量模型完成训练后之后,即可确定词表中每个分词的embedding词向量。
通过本实施例中的方法,可以通过词向量得到文本信息中各个分词之间的联系,可以有效获取每个分词在文本信息中的语义,进而可以有效提高标签结果的准确性。
如图2所示,在一些实施例中,如前述的方法,所述步骤S3对多媒体数据进行特征提取,得到多媒体数据对应的embedding图像向量,包括如下所述步骤S31和S32:
步骤S31.将多媒体数据输入预设的深度神经网络中;
步骤S32.获取深度神经网络中的特征提取层对多媒体数据进行特征提取后得到的embedding图像向量。
具体的,深度神经网络具有对多媒体数据进行特征提取的能力,因此将多媒体数据输入深度神经网络可以得到对应的embedding图像向量。
其中一种可选的实现方法为:将多媒体数据输入xception(深度可分离卷积)模型中,由于xception模型倒数第二层的提取的图像特征最为丰富,因此提取模型倒数第二层2048维的向量作为图像特征。
采用本实施例中的方法,通过深度神经网络中的特征提取层对视频信息进行特征提取可以提取得到丰富的视频特征向量,以得到视频提供的更多信息。
如图3所示,在一些实施例中,如前述的方法,所述步骤S4对所述embedding词向量和所述embedding图像向量进行特征融合,得到融合后embedding向量,包括如下所述步骤S41至S46:
步骤S41.对embedding词向量进行向量维度调整得到调维embedding词向量,对embedding图像向量进行向量维度调整得到调维embedding图像向量。
具体的,在前述实施例的基础上,由于分词的词向量为512维,而embedding图像向量为2048维;由于两者的维度各不相同,因此两者无法进行拼接融合,需要对两者的维度进行统一;可选的,由于embedding图像向量的维度更高,可以对其进行降维处理,一般可以通过全连接网络降维度的方法,将2048维的embedding图像向量降维得到512维的调维embedding图像向量。
步骤S42.将各个调维embedding词向量与调维embedding图像向量输入进行拼接融合后,获得各个调维embedding词向量与调维embedding图像向量的对应的embedding向量信息;
具体的,编码器可以对输入的数据进行编码,一般的,编码器为一种循环神经网络。之所以对调维词向量与调维embedding图像向量输入编码器进行拼接融合,是为了使其构成上下文关系,以便于找到各个调维词向量与调维embedding图像向量之间的全局联系,在实现时,可以将embedding图像向量看成一个词和其他词向量进行拼接;而向量信息即为调维词向量与调维embedding图像向量输入编码器即可快速实现拼接融合的目的。
拼接融合的方法可以是:将调维embedding图像向量作为一个词向量和各个调维词向量放到同一等级。
步骤S43.通过自注意力机制得到各个embedding向量信息之间的全局联系。
具体的,注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征,因而被广泛用于自然语言处理任务,特别是机器翻译。而自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。因此,通过自注意力机制,可以得到各个向量信息之间的全局联系。
为了准确的得到不同的embedding向量信息之间的全局联系,可以预先通过不同的多媒体数据以及关键词对自注意力机制对应的自注意力网络进行训练,在通过验证集数据(用于验证的多媒体数据以及关键词)对训练后的自注意力网络进行验证时,判定能够找到两者之间的全局联系时,判定其满足预设的使用条件,将其运用于进行不同的embedding向量信息之间的全局联系的关联。
步骤S44.根据全局联系对embedding向量信息进行调整,得到融合后embedding向量信息;举例的,当存在向量a,b,c;其中b对a的影响权重为a1,以及c对a的影响权重为a2,那么a对应的全局向量信息则为:a+a1*b+a2*c。向量b,c的全局向量信息可采用相似方法获得,在此不再进行赘述。
步骤S45.根据所述融合后embedding向量信息得到对应的所述融合后embedding向量。
具体的,根据向量信息得到对应的向量,可以通过解码器进行解码输出。
采用本实施例中的方法,可以对各个embedding向量进行融合,找到各个向量间的全局联系,可以更加准确地通过向量表征出不同图像以及文本的整体含义,能更好的反应用户的兴趣词,描述的更加精确。
在一些实施例中,如前述的方法,步骤S45将全局向量信息输入解码器得到输出向量,包括如下所述步骤S451至S455:
步骤S451.确定将各个所述融合后embedding向量信息进行解码的次序信息。
具体的,一般向量信息都是逐个输入解码器中进行解码的用于通过解码将向量信息转换成对应的向量,因此本实施例中的融合后embedding向量信息也可以通过输入解码器进行解码。
此外,次序信息可以根据文本信息中各个分词的次序得到,举例的:由于融合后embedding向量信息对应有特定的调维embedding词向量,而每个调维embedding词向量都有对应的embedding词向量,且每个embedding词向量对应有分词,因此,可以通过分词的次序确定embedding词向量对应的各个融合后embedding向量信息的次序,最后只需再确定调维embedding图像向量对应的次序(可以置于首位或末尾),即可得到次序信息。
步骤S452.按照次序信息确定所有融合后embedding向量信息中第一个进行解码的初始embedding向量信息,并对初始embedding向量信息进行解码得到初始embedding向量。
具体的,初始embedding向量信息即为所有融合后embedding向量信息中第一个输入解码器中进行解码的向量信息,一般的,在解码时,前一个进行解码的向量信息会对后一个进行解码的向量信息造成影响,以使解码得到的各个向量之间的相关性更强,由于初始embedding向量信息是第一个输入解码器中进行解码的向量信息,而解码器所执行的程序是固定的,因此会在接收初始embedding向量信息之前,预先输入一个信息“0”,也就是说,初始embedding向量信息在解码时是不存在对其产生影响的其它向量的,因此初始embedding向量信息解码得到的初始embedding向量表征的特征与初始embedding向量信息表征的特征是完全一致的。
步骤S453.确定初始embedding向量信息对下一进行解码的全局向量信息的影响权重;按照影响权重,根据所述初始embedding向量信息对所述下一进行解码的融合后embedding向量信息进行调整,并解码得到调整后embedding向量;按此循环直至对所有融合后embedding向量信息进行调整并得到所有调整后embedding向量。
具体的,可以通过序列解码的方式确定初始embedding向量信息对下一进行解码的全局向量信息的影响权重,以及按照影响权重,根据所述初始embedding向量信息对所述下一进行解码的融合后embedding向量信息进行调整,进一步的,可以通过seq2seq的解码器按序对各个embedding向量进行解码,以使输出的向量信息之间能够进一步相互关联。
步骤S454.确定所述词表中各个词语的候选词向量;
步骤S455.分别确定与所述调整后embedding向量的距离最近的所述候选词向量;
步骤S456.将所述距离最近的所述候选词向量对应的词语作为所述调整后embedding向量对应的内容标签。
具体的,步骤S454至步骤S456可以是:先确定词表中的每个词语对应的候选词向量;然后确定每一个输出向量与词表中各个候选词向量之间的第一距离(一般的,第一距离可以是余弦距离),并从中确定与每一个调整后embedding向量第一距离最近的候选词向量;最后,将与各个调整后embedding向量的第一距离最近的候选词向量对应的词语作为该输出向量对应的内容标签。
可选的,可以将embedding图像向量输入解码器作为第一输入,将其代替预先输入一个信息“0”;进而可以通过embedding图像向量指导接下来对所有融合后embedding向量信息的解码过程,使得多媒体数据能够进一步对最终标签的生成产生影响。
综上所述,采用本实施例中的方法,可以捕捉各个特征的内部相关性,进而更加准确地分析得到在当前数据中各个特征的具体含义,进而可以有效提高标签结果的准确性。
如图4所示,在一些实施例中,如前述的方法,步骤S5将embedding词向量和embedding图像向量按照预设的加权策略进行整合,得到多模态embedding向量,包括如下所述步骤S51和S52:
步骤S51.对所有embedding词向量和embedding图像向量进行平均值计算,得到平均embedding向量;
步骤S52.根据平均embedding向量得到多模态embedding向量。
具体的,由于所有embedding词向量和embedding图像向量都是维度相同的向量,因此,可以将各个向量相加,最后再计算平均值,即可得到平均embedding向量。最后,将该平均embedding向量作为最终用于表征文本信息和多媒体数据的综合含义的多模态embedding向量。
具体的,通过本实施例中的方法,可以使最终得到的embedding向量包括所有embedding词向量和embedding图像向量的特征,同时,可以有效避免少数无法准确表征文本信息或多媒体数据的综合含义的个别向量造成的偏差,保障最终得到的多模态embedding向量的准确性。
如图5所以,在本发明提供的又一实施例中,作为上述实施例的具体应用,本发明实施例还提供了一种数据处理方法,包括如下所述步骤A1至A4:
步骤A1.获取用于进行信息匹配的待匹配多媒体数据和待匹配文本信息。
在本发明提供的实施例中,例如可以根据用户的历史观看记录,通过该历史观看记录中的视频及其对该视频进行描述的文本信息,通过上述实施例提供的生成多模态embedding向量的数据处理方法,生成对应的多模态embedding向量,进而通过该多模态embedding向量与视频库中的各个视频对应的多模态embedding向量进行匹配,进而得到相匹配的视频,以便给用户推荐相应内容的视频。
这里的待匹配多媒体数据可以是用户的历史观看记录中的视频,该待匹配文本信息用于描述该视频。当然,本发明实施例还可以应用到其他场景中,例如,用户当前在观看一视频时,根据视频在播放即将结束时为用户推荐相关视频等,本发明实施例并不局限于此。
步骤A2.确定待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量,待匹配多模态embedding向量通过前述实施例中的方法生成。
具体的,在上传待匹配多媒体数据和待匹配文本信息之后,即可通过前述任一实施例中的方法确定待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量,而该待匹配多模态embedding向量能够表征待匹配多媒体数据和待匹配文本信息的综合含义。
步骤A3.从预设数据库获取与待匹配图文embedding向量相匹配的目标多模态embedding向量,预设数据库中的视频有对应的多模态embedding向量。
具体的,与待匹配图文embedding向量相匹配的目标多模态embedding向量,可以是获取与待匹配图文embedding向量相似度在预设范围内的目标多模态embedding向量在;其中一种可选的实现方式中,可以采用余弦值作为两个向量之间相似度,并进行向量的匹配;在预设数据库中可以预先存储与不同的图文信息对应的多模态embedding向量,以快速在已有数据中进行搜索。预设范围可以是一数值大小,可以根据匹配的精度进行调整,此外,在当前预设范围无法匹配得到对应的目标多模态embedding向量时,可以自动对该预设范围按照预设调整值进行一次或多次调整,以匹配到对应的目标多模态embedding向量,由于预设数据库中的每个多模态embedding向量都是根据一组合信息(包括:多媒体数据和文本信息)生成的,因此必然能够查询得到与目标多模态embedding向量对应的目标信息。
步骤A4.将所述目标多模态embedding向量对应的视频推荐给用户。
在得到目标信息之后,将其发送至该用户,即可达到进行推荐的目的。
综上所述,采用本实施例中的方法,由于多模态embedding向量中的粒度更细,因此可以对更多的维度的信息进行匹配,使最终匹配得到的目标信息与待匹配多媒体数据和待匹配文本信息之间的相似度更高,可以有效提升内容匹配的准确性,提升用户体验。
如图6所示,在本发明实施的第三方面,还提供了一种数据处理装置,包括:
获取模块11,用于获取多媒体数据和用于对多媒体数据进行描述的文本信息;多媒体数据包括:视频或图像
确定模块12,用于确定文本信息中每个分词的embedding词向量;
特征提取模块13,用于对多媒体数据进行特征提取,得到多媒体数据对应的embedding图像向量;
融合模块14,用于对embedding词向量和embedding图像向量进行特征融合,得到融合后embedding向量;
整合模块15,用于将各个融合后embedding向量按照预设的加权策略进行整合,得到多模态embedding向量。
在一些实施例中,如前述的装置,确定模块12包括:
分词单元,用于对文本信息进行分词处理,得到构成文本信息的分词;
词表单元,用于根据分词以及预设的标签词得到对应的词表;
词向量单元,用于根据预先训练得到的词向量模型以及词表确定每个分词的embedding词向量。
在一些实施例中,如前述的装置,特征提取模块包括:
输入单元,用于将多媒体数据输入预设的深度神经网络中;
获取单元,用于获取深度神经网络中的特征提取层对多媒体数据进行特征提取后得到的embedding图像向量。
在一些实施例中,如前述的装置,融合模块14包括:
调维单元,用于对embedding词向量进行embedding向量维度调整得到调维embedding词向量,对embedding图像向量进行embedding向量维度调整得到调维embedding图像向量;
融合单元,用于将各个调维embedding词向量与调维embedding图像向量进行拼接融合后,获得各个调维embedding词向量与调维embedding图像向量的对应的embedding向量信息;
自注意力单元,用于通过自注意力机制得到各个embedding向量信息之间的全局联系;
向量信息单元,用于根据全局联系对embedding向量信息进行调整,得到融合后embedding向量信息;
向量单元,用于根据融合后embedding向量信息得到对应的融合后embedding向量。
在一些实施例中,如前述的装置,还包括标签模块;标签模块包括:
次序单元,用于确定将各个融合后embedding向量信息进行解码的次序信息;
解码单元,用于按照次序信息确定所有融合后embedding向量信息中第一个进行解码的初始embedding向量信息,并对初始embedding向量信息进行解码得到初始embedding向量;
调整单元,用于确定初始embedding向量信息对下一进行解码的全局向量信息的影响权重;按照影响权重,根据初始embedding向量信息对下一进行解码的融合后embedding向量信息进行调整,并解码得到调整后embedding向量;按此循环直至对所有融合后embedding向量信息进行调整并得到所有调整后embedding向量;
第一确定单元,用于确定词表中各个词语的候选词向量;
第二确定单元,用于分别确定与调整后embedding向量的距离最近的候选词向量;
内容标签单元,用于将距离最近的候选词向量对应的词语作为调整后embedding向量对应的内容标签。
在一些实施例中,如前述的装置,整合模块15包括:
平均单元,用于对所有embedding词向量和embedding图像向量进行平均值计算,得到平均embedding向量;
向量确定单元,用于根据平均embedding向量得到多模态embedding向量。
如图7所示,在本发明实施的第四方面,还提供了一种生成内容标签的数据处理装置,包括:
接收模块21,用于获取用于进行信息匹配的待匹配多媒体数据和待匹配文本信息;
确定模块22,用于确定待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量,待匹配多模态embedding向量通过如前任一实施例的方法生成;
查询模块23,用于从预设数据库获取与待匹配图文embedding向量相匹配的目标多模态embedding向量,预设数据库中的视频有对应的多模态embedding向量;
发送模块24,用于将目标多模态embedding向量对应的视频推荐给用户。
本发明实施例还提供了一种电子设备,如图8所示,包括处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信,
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现如下步骤:
上述终端提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的生成内容标签的数据处理方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的生成内容标签的数据处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取多媒体数据和用于对所述多媒体数据进行描述的文本信息;其中,所述多媒体数据包括:视频或图像;
确定所述文本信息中每个分词的embedding词向量;
对所述多媒体数据进行特征提取,得到所述多媒体数据对应的embedding图像向量;
对所述embedding词向量和所述embedding图像向量进行特征融合,得到融合后embedding向量;
将各个所述融合后embedding向量按照预设的加权策略进行整合,得到多模态embedding向量。
2.根据权利要求1所述的方法,其特征在于,所述确定所述文本信息中每个分词的embedding词向量,包括:
对所述文本信息进行分词处理,得到构成所述文本信息的所述分词;
根据所述分词以及预设的标签词得到对应的词表;
根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述embedding词向量。
3.根据权利要求1所述的方法,其特征在于,所述对所述多媒体数据进行特征提取,得到所述多媒体数据对应的embedding图像向量,包括:
将所述多媒体数据输入预设的深度神经网络中;
获取所述深度神经网络中的特征提取层对所述多媒体数据进行特征提取后得到的所述embedding图像向量。
4.根据权利要求2所述的方法,其特征在于,所述对所述embedding词向量和所述embedding图像向量进行特征融合,得到融合后embedding向量,包括:
对所述embedding词向量进行embedding向量维度调整得到调维embedding词向量,对所述embedding图像向量进行embedding向量维度调整得到所述调维embedding图像向量;
将各个所述调维embedding词向量与所述调维embedding图像向量进行拼接融合后,获得各个所述调维embedding词向量与所述调维embedding图像向量的对应的embedding向量信息;
通过自注意力机制得到各个所述embedding向量信息之间的全局联系;
根据所述全局联系对所述embedding向量信息进行调整,得到所述融合后embedding向量信息;
根据所述融合后embedding向量信息得到对应的所述融合后embedding向量。
5.根据权利要求4所述的方法,其特征在于,在得到所述融合后embedding向量信息之后,还包括:
确定将各个所述融合后embedding向量信息进行解码的次序信息;
按照所述次序信息确定所有所述融合后embedding向量信息中第一个进行解码的初始embedding向量信息,并对所述初始embedding向量信息进行解码得到初始embedding向量;
确定所述初始embedding向量信息对下一进行解码的全局向量信息的影响权重;按照所述影响权重,根据所述初始embedding向量信息对所述下一进行解码的融合后embedding向量信息进行调整,并解码得到调整后embedding向量;按此循环直至对所有所述融合后embedding向量信息进行调整并得到所有所述调整后embedding向量;
确定所述词表中各个词语的候选词向量;
分别确定与所述调整后embedding向量的距离最近的所述候选词向量;
将所述距离最近的所述候选词向量对应的词语作为所述调整后embedding向量对应的内容标签。
6.根据权利要求1所述的方法,其特征在于,将所述embedding词向量和所述embedding图像向量按照预设的加权策略进行整合,得到多模态embedding向量,包括:
对所有所述embedding词向量和所述embedding图像向量进行平均值计算,得到平均embedding向量;
根据所述平均embedding向量得到所述多模态embedding向量。
7.一种数据处理方法,其特征在于,包括:
获取用于进行信息匹配的待匹配多媒体数据和待匹配文本信息;其中,所述多媒体数据包括:视频或图像;
确定所述待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量,所述待匹配多模态embedding向量通过权利要求1至6任一项所述的方法生成;
从预设数据库获取与所述待匹配图文embedding向量相匹配的目标多模态embedding向量,所述预设数据库中的视频有对应的多模态embedding向量;
将所述目标多模态embedding向量对应的视频推荐给用户。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取多媒体数据和用于对所述多媒体数据进行描述的文本信息;其中,所述多媒体数据包括:视频信息和/或图像信息;
确定模块,用于确定所述文本信息中每个分词的embedding词向量;
特征提取模块,用于对所述多媒体数据进行特征提取,得到所述多媒体数据对应的embedding图像向量;
融合模块,用于对所述embedding词向量和所述embedding图像向量进行特征融合,得到融合后embedding向量;
整合模块,用于将各个所述融合后embedding向量按照预设的加权策略进行整合,得到多模态embedding向量。
9.一种数据处理装置,其特征在于,包括:
接收模块,用于获取用于进行信息匹配的待匹配多媒体数据和待匹配文本信息;
确定模块,用于确定所述待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量,所述待匹配多模态embedding向量通过权利要求1至6任一项所述的方法生成;
查询模块,用于从预设数据库获取与所述待匹配图文embedding向量相匹配的目标多模态embedding向量,所述预设数据库中的视频有对应的多模态embedding向量;
发送模块,用于将所述目标多模态embedding向量对应的视频推荐给用户。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010588596.7A CN111767461B (zh) | 2020-06-24 | 2020-06-24 | 数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010588596.7A CN111767461B (zh) | 2020-06-24 | 2020-06-24 | 数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767461A true CN111767461A (zh) | 2020-10-13 |
CN111767461B CN111767461B (zh) | 2024-02-06 |
Family
ID=72722407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010588596.7A Active CN111767461B (zh) | 2020-06-24 | 2020-06-24 | 数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767461B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100442A (zh) * | 2020-11-13 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 用户倾向性识别方法、装置、设备及存储介质 |
CN112330408A (zh) * | 2020-11-13 | 2021-02-05 | 上海络昕信息科技有限公司 | 一种产品推荐方法、装置及电子设备 |
CN113987274A (zh) * | 2021-12-30 | 2022-01-28 | 智者四海(北京)技术有限公司 | 视频语义表示方法、装置、电子设备和存储介质 |
CN114357203A (zh) * | 2021-08-05 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 多媒体检索方法、装置及计算机设备 |
CN114398889A (zh) * | 2022-01-18 | 2022-04-26 | 平安科技(深圳)有限公司 | 基于多模态模型的视频文本摘要方法、设备及存储介质 |
CN114491272A (zh) * | 2022-02-14 | 2022-05-13 | 北京有竹居网络技术有限公司 | 一种多媒体内容推荐方法及装置 |
CN114625897A (zh) * | 2022-03-21 | 2022-06-14 | 腾讯科技(深圳)有限公司 | 多媒体资源处理方法、装置、电子设备及存储介质 |
WO2022188644A1 (zh) * | 2021-03-09 | 2022-09-15 | 腾讯科技(深圳)有限公司 | 词权重的生成方法、装置、设备及介质 |
CN115086709A (zh) * | 2021-03-10 | 2022-09-20 | 上海哔哩哔哩科技有限公司 | 动态封面设置方法和系统 |
CN115129976A (zh) * | 2022-05-25 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 一种资源召回方法、装置、设备及存储介质 |
CN116150704A (zh) * | 2023-04-21 | 2023-05-23 | 广东工业大学 | 基于语义相似度匹配的多模态融合表征方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170201562A1 (en) * | 2016-01-12 | 2017-07-13 | Electronics And Telecommunications Research Institute | System and method for automatically recreating personal media through fusion of multimodal features |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
CN107480206A (zh) * | 2017-07-25 | 2017-12-15 | 杭州电子科技大学 | 一种基于多模态低秩双线性池化的图像内容问答方法 |
US20180373787A1 (en) * | 2017-06-21 | 2018-12-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for recommending text content based on concern, and computer device |
CN109214470A (zh) * | 2018-10-25 | 2019-01-15 | 中国人民解放军国防科技大学 | 一种基于编码网络微调的图像能见度检测方法 |
CN109670576A (zh) * | 2018-11-29 | 2019-04-23 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
CN109766465A (zh) * | 2018-12-26 | 2019-05-17 | 中国矿业大学 | 一种基于机器学习的图文融合图书推荐方法 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
WO2019233421A1 (zh) * | 2018-06-04 | 2019-12-12 | 京东数字科技控股有限公司 | 图像处理方法及装置、电子设备、存储介质 |
CN110751208A (zh) * | 2018-10-29 | 2020-02-04 | 山东大学 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
CN110866184A (zh) * | 2019-11-11 | 2020-03-06 | 湖南大学 | 短视频数据标签推荐方法、装置、计算机设备和存储介质 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
-
2020
- 2020-06-24 CN CN202010588596.7A patent/CN111767461B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170201562A1 (en) * | 2016-01-12 | 2017-07-13 | Electronics And Telecommunications Research Institute | System and method for automatically recreating personal media through fusion of multimodal features |
US20180373787A1 (en) * | 2017-06-21 | 2018-12-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for recommending text content based on concern, and computer device |
CN107480206A (zh) * | 2017-07-25 | 2017-12-15 | 杭州电子科技大学 | 一种基于多模态低秩双线性池化的图像内容问答方法 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
WO2019233421A1 (zh) * | 2018-06-04 | 2019-12-12 | 京东数字科技控股有限公司 | 图像处理方法及装置、电子设备、存储介质 |
CN109214470A (zh) * | 2018-10-25 | 2019-01-15 | 中国人民解放军国防科技大学 | 一种基于编码网络微调的图像能见度检测方法 |
CN110751208A (zh) * | 2018-10-29 | 2020-02-04 | 山东大学 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
CN109670576A (zh) * | 2018-11-29 | 2019-04-23 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
CN109766465A (zh) * | 2018-12-26 | 2019-05-17 | 中国矿业大学 | 一种基于机器学习的图文融合图书推荐方法 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110866184A (zh) * | 2019-11-11 | 2020-03-06 | 湖南大学 | 短视频数据标签推荐方法、装置、计算机设备和存储介质 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
Non-Patent Citations (2)
Title |
---|
冯金慧;陶宏才;: "基于注意力的深度协同在线学习资源推荐模型", 成都信息工程大学学报, no. 02 * |
吴晓雨;顾超男;王生进;: "多模态特征融合与多任务学习的特种视频分类", 光学精密工程, no. 05 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330408A (zh) * | 2020-11-13 | 2021-02-05 | 上海络昕信息科技有限公司 | 一种产品推荐方法、装置及电子设备 |
CN112100442B (zh) * | 2020-11-13 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 用户倾向性识别方法、装置、设备及存储介质 |
CN112100442A (zh) * | 2020-11-13 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 用户倾向性识别方法、装置、设备及存储介质 |
WO2022188644A1 (zh) * | 2021-03-09 | 2022-09-15 | 腾讯科技(深圳)有限公司 | 词权重的生成方法、装置、设备及介质 |
US12111866B2 (en) | 2021-03-09 | 2024-10-08 | Tencent Technology (Shenzhen) Company Limited | Term weight generation method, apparatus, device and medium |
CN115086709A (zh) * | 2021-03-10 | 2022-09-20 | 上海哔哩哔哩科技有限公司 | 动态封面设置方法和系统 |
CN114357203A (zh) * | 2021-08-05 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 多媒体检索方法、装置及计算机设备 |
CN113987274A (zh) * | 2021-12-30 | 2022-01-28 | 智者四海(北京)技术有限公司 | 视频语义表示方法、装置、电子设备和存储介质 |
CN114398889A (zh) * | 2022-01-18 | 2022-04-26 | 平安科技(深圳)有限公司 | 基于多模态模型的视频文本摘要方法、设备及存储介质 |
CN114491272A (zh) * | 2022-02-14 | 2022-05-13 | 北京有竹居网络技术有限公司 | 一种多媒体内容推荐方法及装置 |
CN114491272B (zh) * | 2022-02-14 | 2023-09-12 | 北京有竹居网络技术有限公司 | 一种多媒体内容推荐方法及装置 |
CN114625897A (zh) * | 2022-03-21 | 2022-06-14 | 腾讯科技(深圳)有限公司 | 多媒体资源处理方法、装置、电子设备及存储介质 |
CN115129976A (zh) * | 2022-05-25 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 一种资源召回方法、装置、设备及存储介质 |
CN115129976B (zh) * | 2022-05-25 | 2024-06-14 | 腾讯科技(深圳)有限公司 | 一种资源召回方法、装置、设备及存储介质 |
CN116150704A (zh) * | 2023-04-21 | 2023-05-23 | 广东工业大学 | 基于语义相似度匹配的多模态融合表征方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111767461B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767461B (zh) | 数据处理方法及装置 | |
CN111324769B (zh) | 视频信息处理模型的训练方法、视频信息处理方法及装置 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
Kaur et al. | Comparative analysis on cross-modal information retrieval: A review | |
US11409791B2 (en) | Joint heterogeneous language-vision embeddings for video tagging and search | |
US8930288B2 (en) | Learning tags for video annotation using latent subtags | |
Dinkov et al. | Predicting the leading political ideology of YouTube channels using acoustic, textual, and metadata information | |
CN112163122A (zh) | 确定目标视频的标签的方法、装置、计算设备及存储介质 | |
CN113806588B (zh) | 搜索视频的方法和装置 | |
CN110287375B (zh) | 视频标签的确定方法、装置及服务器 | |
US20210064879A1 (en) | Automatically evaluating caption quality of rich media using context learning | |
CN112464100B (zh) | 信息推荐模型训练方法、信息推荐方法、装置及设备 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN117765450B (zh) | 一种视频语言理解方法、装置、设备及可读存储介质 | |
CN111767726B (zh) | 数据处理方法及装置 | |
CN114281948A (zh) | 一种纪要确定方法及其相关设备 | |
CN115640449A (zh) | 媒体对象推荐方法、装置、计算机设备和存储介质 | |
Koorathota et al. | Editing like humans: a contextual, multimodal framework for automated video editing | |
CN113407776A (zh) | 标签推荐方法、装置、标签推荐模型的训练方法和介质 | |
CN111767727B (zh) | 数据处理方法及装置 | |
CN116229313A (zh) | 标签构建模型的生成方法、装置、电子设备和存储介质 | |
CN114780757A (zh) | 短媒体标签抽取方法、装置、计算机设备和存储介质 | |
CN114626386A (zh) | 问答系统中的问题推荐方法、装置、电子设备及存储介质 | |
CN113987262A (zh) | 一种视频推荐信息确定方法、装置、电子设备及存储介质 | |
CN113704549A (zh) | 视频标签的确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |