CN109918539A - 一种基于用户点击行为的音、视频互相检索方法 - Google Patents
一种基于用户点击行为的音、视频互相检索方法 Download PDFInfo
- Publication number
- CN109918539A CN109918539A CN201910148705.0A CN201910148705A CN109918539A CN 109918539 A CN109918539 A CN 109918539A CN 201910148705 A CN201910148705 A CN 201910148705A CN 109918539 A CN109918539 A CN 109918539A
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- user
- sound
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 239000013604 expression vector Substances 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开了一种基于用户点击行为的音、视频互相检索方法,包括步骤:对输入的音频、视频数据进行预处理;将预处理的音频数据送入深度卷积神经网络中得到音频的表示向量及注意力权重分布;将预处理所得视频关键帧送入深度卷积神经网络中得到关键帧表示向量并依次送入基于注意力机制的时间序列处理网络中,得到视频的表示向量及注意力权重分布;计算音、视频表示向量的相似度并将音、视频按相似度进行排序;根据注意力权重分布进行标注为排序提供可解释的依据;损失函数通过用户点击行为进行计算并采用后向传播法进行模型训练;基于训练的模型对媒体库中的音、视频进行检索匹配。本发明可在给定视频、音频的情况下检索媒体库中匹配的音频、视频。
Description
技术领域
本发明涉及数据检索技术,尤其涉及一种基于用户点击行为的音、视频互相检索方法。
背景技术
随着互联网行业,尤其是移动互联网行业的快速发展,大量的音视频内容被产出,如何处理这些音视频内容成了迫切需要解决的问题。在以往,为视频寻找匹配的音频或者为音频寻找匹配的视频并将其编辑为完整的作品往往只是音视频行业从业人员的需求。对于专业人士,他们可以依靠对大量音视频内容的接触和专业理解,将音视频有机组合起来。但即使如此,人对于音视频内容的记忆依然是有限的,音视频侯选库的大小受到了人的记忆力限制,因而单凭人力很难从海量的音视频中筛选出合适的内容。
在短视频应用中,普通用户拍摄一段时长较短的视频,并配上合适的音乐,发布到网络上与其它网民进行分享。这里也对音视频检索技术提出了要求。普通用户接触的音视频内容数量与专业从业人员有较大差距,对音视频内容也缺乏专业的理解。即使选择的视频和音频都是优质内容,但是由于两者不匹配,普通用户产出的短视频往往对大众缺乏吸引力。
为了给专业人员提供有效的音视频编辑辅助,以及提升普通用户音视频编辑水平,多种音视频检索方法已经被提出。这些方法多数仅支持通过给定视频检索音频,不支持通过给定音频检索匹配的视频,这在很大程度上限制了方法的应用场景。且许多已有的方法使用的特征提取、检测算法往往较为陈旧,在机器学习技术迅速发展的今天,效率和效果均较为落后。有的方法虽然采用了新型的深度神经网络,提升了检索效果,但是可解释性较差,无法对检索结果给出匹配依据。还有方法简单地对音视频进行分类,比如利用情感分类技术对音视频内容进行分类(激昂、低沉和欢快等),然后进行匹配。这种方法虽然可解释性佳,但是只通过一种或多种分类结果进行匹配,依据较为单调,效果往往不佳。
发明内容
本发明旨在克服已有方法的不足和缺陷,提出一种新的基于用户点击行为的音、视频互相检索方法,在保证效率和效果的同时,给出一定的排序依据,为专业人员和普通用户提供音视频编辑上的帮助。
为了达到上述目的,本发明采用以下技术方案:
一种基于用户点击行为的音、视频互相检索方法,包括以下步骤:
S1、对输入的音频、视频数据进行预处理,获得音频数据的频谱图以及视频数据的关键帧;
S2、将预处理后的音频数据送入基于注意力机制的深度卷积神经网络组成的编码器中,得到输入音频的表示向量以及注意力权重分布;
S3、将预处理得到的视频关键帧送入深度卷积神经网络中,得到关键帧表示向量;依次将关键帧表示向量送入基于注意力机制的时间序列神经网络中,得到输入视频的表示向量以及注意力权重分布;
S4、计算步骤S2以及步骤S3得到的输入音、视频表示向量的相似度,对候选集中的视、音频按相似度进行排序;
S5、根据注意力权重分布,标注对排序结果影响最大的音、视频片段,为排序提供可解释的依据;
S6、损失函数通过用户点击行为进行计算,基于负对数似然函数以及softmax函数,采用后向传播算法进行模型训练;
S7、基于所训练的模型对媒体库中的音频、视频进行检索匹配。
进一步地,步骤S1中,所述对输入的音频数据进行预处理具体为:
对于输入的音频数据,先将音频数据绘制为频谱图;
然后对所述频谱图进行缩放操作,使其形成大小为Ha×Wa的二维图像Ia。
进一步地,步骤S1中,所述对输入的视频数据进行预处理具体为:
对于输入的视频数据,先使用关键帧抽取算法抽取出n张关键帧,作为输入视频的关键帧序列Sf=[f1,f2,…,fn];
再将关键帧序列中的每一张图片统一缩放成Hv×Wv的二维图像。
进一步地,所述的步骤S2具体为:
将步骤S1中得到的频谱图输入基于注意力机制的深度卷积神经网络编码器Ea中,得到长度为h的输入音频表示向量ha,以及大小为Ha×Wa的注意力权重分布矩阵Aa。
进一步地,所述的步骤S3具体为:
先将步骤S1中得到的关键帧序列[f1,f2,…,fn]逐帧输入深度卷积神经网络中,得到各帧的表示向量序列Sh=[h1,h1,…,hn];再将表示向量序列Sh中的元素按顺序输入到基于注意力机制的时间序列处理神经网络中,得到长度为h的输入视频表示向量hv以及长度为n的注意力权重分布数组Av。
进一步地,所述的步骤S4具体为:
当检索请求为视频时,遍历音频侯选库,对每一个请求视频、候选音频对,通过计算步骤S2得到的音频表示向量ha和步骤S3得到的视频表示向量hv的余弦相似度作为排序分数,即相似地,当检索请求为音频时,遍历视频侯选库,计算每一个请求音频、候选视频对的表示向量的余弦相似度,作为排序的分数;获得侯选库中所有候选音频、视频的分数后,按照分数从高到低排序,向用户推荐分数最高的k个候选音频、视频。
进一步地,所述的步骤S5具体为:
将注意力权重矩阵Aa与图像Ia逐元素相乘,得到输入音频的注意力分布热力图并向用户展示,热力图上亮度越高的区域,说明其对排序结果的影响越大;同时将注意力权重分布数组Av绘制为横坐标为关键帧编号、纵坐标为数组值的柱状图并向用户展示,数组值越大,说明该值对应的关键帧对排序结果的影响越大。
进一步地,所述的步骤S6具体为:
假设检索请求为q,那么p+代表用户点击过的候选音频、视频,作为正样本;而代表随机选择的t个用户未点击的候选音频、视频,作为负样本;损失通过以下公式计算:
其中,
其中,score(q,p)为模型在输入视频、音频为q,输入音频、视频为p时的输出值,代表q和p的相似性分数;
计算得到损失后,反向传播损失,更新模型参数,并反复迭代直至迭代次数超过预定值μ。
本发明相对于现有技术具有如下的优点及效果:
1、本发明可以同时应用于给定视频,检索匹配音频以及给定音频,检索匹配视频的场景。
2、本发明基于用户点击行为而非单调的数种类别训练模型,使得模型输出的检索结果更贴近用户的需求。
3、本发明为上述模型加入注意力机制,可以提高模型中的神经网络输出的可解释性,为用户选择检索结果提供依据。
附图说明
图1是本发明实施例的基于用户点击行为的音、视频互相检索方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,一种基于用户点击行为的音、视频互相检索方法,包括步骤:
S1、对输入的音频、视频数据进行预处理,获得音频数据的频谱图以及视频数据的关键帧;
步骤S1的具体实施方式为:对于输入的音频数据,先将音频数据绘制为频谱图。然后将对频谱图进行横向缩放操作,使其形成大小为128*128像素的二维图像Ia。对于输入的视频数据,使用帧平均法抽取出128张关键帧,作为输入视频的关键帧序列Sf=[f1,f2,…,fn]。将关键帧序列中的每一张图片统一缩放成高度为128*128像素的二维图像;
S2、将预处理后的音频数据送入基于注意力机制的深度卷积神经网络组成的编码器中。得到输入音频的表示向量以及注意力权重分布;
步骤S2的具体实施方式为:将步骤S1中得到的频谱图,输入基于注意力机制的深度卷积神经网络编码器Ea中。这里基于注意力机制的深度卷积神经网络使用Attention-56网络。得到长度为512的输入音频表示向量ha,以及大小为128*128像素的注意力权重分布矩阵Aa;
S3、将预处理得到的视频关键帧送入深度卷积神经网络中。依次将关键帧表示向量送入基于注意力机制的时间序列处理网络中,得到输入视频的表示向量以及注意力权重分布;
步骤S3的具体实施方式为:将步骤S1中得到的关键帧序列[f1,f2,…,fn]逐帧输入深度卷积神经网络中,这里的深度卷积神经网络使用Resnet-52。从每一帧关键帧得到长度为2048的关键帧表示向量。最终得到各帧的表示向量序列Sh=[h1,h1,…,hn]。将表示向量序列Sh中的元素按顺序输入到基于注意力机制的时间序列处理神经网络中。这里的基于注意力机制的时间序列处理网络使用Transformer网络。得到长度为512的输入视频表示向量hv以及长度为128的注意力权重分布向量Av;
S4、计算步骤S2以及步骤S3得到的音、视频表示向量的相似度,对候选集中的视、音频按相似度进行排序;
步骤S4的具体实施方式为:当检索请求为视频时,遍历音频侯选库,对每一个请求视频、候选音频对,通过计算步骤S2得到的音频表示向量ha和步骤S3得到的视频表示向量hv的余弦相似度作为排序分数,即相似地,当检索请求为音频时,遍历视频侯选库,计算每一个请求音频、候选视频对的表示向量的余弦相似度,作为排序的分数。获得侯选库中所有候选音频/视频的分数后,按照分数从高到低排序,向用户推荐分数最高的15个候选音频/视频;
S5、根据注意力权重分布,标注对排序结果影响最大的音、视频片段,为排序提供可解释的依据;
步骤S5的具体实施方式为:将注意力权重矩阵Aa与图像Ia逐元素相乘,得到输入音频的注意力分布热力图并向用户展示,热力图上亮度越高的区域,说明其对排序结果的影响越大。同时将注意力权重分布数组Av绘制为横坐标为关键帧编号1~128、纵坐标为数组值0.0~1.0的柱状图并向用户展示,数组值越大,说明该值对应的关键帧对排序结果的影响越大。
S6、损失函数通过用户点击行为进行计算,基于负对数似然函数以及softmax函数,采用后向传播算法进行训练。
步骤S6的具体实施方式为:假设检索请求为q,那么p+代表用户点击过的候选音频、视频,作为正样本;而代表随机选择的4个用户未点击的候选音频、视频,作为负样本;损失通过以下公式计算:
其中,
其中,score(q,p)为模型在输入视频、音频为q,输入音频、视频为p时的输出值,代表q和p的相似性分数;
计算得到损失后,反向传播损失,更新模型参数,并反复迭代直至迭代次数超过预定值200。
S7、基于所训练的模型对媒体库中的音频、视频进行检索匹配,提升了检索效果,解释性好,对检索结果给出了匹配依据。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种基于用户点击行为的音、视频互相检索方法,其特征在于,包括以下步骤:
S1、对输入的音频、视频数据进行预处理,获得音频数据的频谱图以及视频数据的关键帧;
S2、将预处理后的音频数据送入基于注意力机制的深度卷积神经网络组成的编码器中,得到输入音频的表示向量以及注意力权重分布;
S3、将预处理得到的视频关键帧送入深度卷积神经网络中,得到关键帧表示向量;依次将关键帧表示向量送入基于注意力机制的时间序列神经网络中,得到输入视频的表示向量以及注意力权重分布;
S4、计算步骤S2以及步骤S3得到的输入音、视频表示向量的相似度,对候选集中的视、音频按相似度进行排序;
S5、根据注意力权重分布,标注对排序结果影响最大的音、视频片段,为排序提供可解释的依据;
S6、损失函数通过用户点击行为进行计算,基于负对数似然函数以及softmax函数,采用后向传播算法进行模型训练;
S7、基于所训练的模型对媒体库中的音频、视频进行检索匹配。
2.根据权利要求1所述的基于用户点击行为的音、视频互相检索方法,其特征在于,步骤S1中,所述对输入的音频数据进行预处理具体为:
对于输入的音频数据,先将音频数据绘制为频谱图;
然后对所述频谱图进行缩放操作,使其形成大小为Ha×Wa的二维图像Ia。
3.根据权利要求1所述的基于用户点击行为的音、视频互相检索方法,其特征在于,步骤S1中,所述对输入的视频数据进行预处理具体为:
对于输入的视频数据,先使用关键帧抽取算法抽取出n张关键帧,作为输入视频的关键帧序列Sf=[f1,f2,...,fn];
再将关键帧序列中的每一张图片统一缩放成Hv×Wv的二维图像。
4.根据权利要求1所述的基于用户点击行为的音、视频互相检索方法,其特征在于,所述的步骤S2具体为:
将步骤S1中得到的频谱图输入基于注意力机制的深度卷积神经网络编码器Ea中,得到长度为h的输入音频表示向量ha,以及大小为Ha×Wa的注意力权重分布矩阵Aa。
5.根据权利要求1所述的基于用户点击行为的音、视频互相检索方法,其特征在于,所述的步骤S3具体为:
先将步骤S1中得到的关键帧序列[f1,f2,...,fn]逐帧输入深度卷积神经网络中,得到各帧的表示向量序列Sh=[h1,h1,...,hn];再将表示向量序列Sh中的元素按顺序输入到基于注意力机制的时间序列处理神经网络中,得到长度为h的输入视频表示向量hv以及长度为n的注意力权重分布数组Av。
6.根据权利要求5所述的基于用户点击行为的音、视频互相检索方法,其特征在于,所述的步骤S4具体为:
当检索请求为视频时,遍历音频侯选库,对每一个请求视频、候选音频对,通过计算步骤S2得到的音频表示向量ha和步骤S3得到的视频表示向量hv的余弦相似度作为排序分数,即相似地,当检索请求为音频时,遍历视频侯选库,计算每一个请求音频、候选视频对的表示向量的余弦相似度,作为排序的分数;获得侯选库中所有候选音频、视频的分数后,按照分数从高到低排序,向用户推荐分数最高的k个候选音频、视频。
7.根据权利要求6所述的基于用户点击行为的音、视频互相检索方法,其特征在于,所述的步骤S5具体为:
将注意力权重矩阵Aa与图像Ia逐元素相乘,得到输入音频的注意力分布热力图并向用户展示,热力图上亮度越高的区域,说明其对排序结果的影响越大;同时将注意力权重分布数组Av绘制为横坐标为关键帧编号、纵坐标为数组值的柱状图并向用户展示,数组值越大,说明该值对应的关键帧对排序结果的影响越大。
8.根据权利要求1所述的基于用户点击行为的音、视频互相检索方法,其特征在于,所述的步骤S6具体为:
假设检索请求为q,那么p+代表用户点击过的候选音频、视频,作为正样本;而代表随机选择的t个用户未点击的候选音频、视频,作为负样本;损失通过以下公式计算:
其中,
其中,score(q,p)为模型在输入视频、音频为q,输入音频、视频为p时的输出值,代表q和p的相似性分数;
计算得到损失后,反向传播损失,更新模型参数,并反复迭代直至迭代次数超过预定值μ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910148705.0A CN109918539B (zh) | 2019-02-28 | 2019-02-28 | 一种基于用户点击行为的音、视频互相检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910148705.0A CN109918539B (zh) | 2019-02-28 | 2019-02-28 | 一种基于用户点击行为的音、视频互相检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918539A true CN109918539A (zh) | 2019-06-21 |
CN109918539B CN109918539B (zh) | 2022-04-22 |
Family
ID=66962582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910148705.0A Expired - Fee Related CN109918539B (zh) | 2019-02-28 | 2019-02-28 | 一种基于用户点击行为的音、视频互相检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918539B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110931105A (zh) * | 2019-12-17 | 2020-03-27 | 中山大学 | 一种匹配多套肌肉协同模式的方法及系统 |
CN110941727A (zh) * | 2019-11-29 | 2020-03-31 | 北京达佳互联信息技术有限公司 | 一种资源推荐方法、装置、电子设备及存储介质 |
CN111241338A (zh) * | 2020-01-08 | 2020-06-05 | 成都三零凯天通信实业有限公司 | 一种基于注意力机制的深度特征融合视频拷贝检测方法 |
CN111428078A (zh) * | 2020-03-20 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 音频指纹编码方法、装置、计算机设备及存储介质 |
CN112420023A (zh) * | 2020-11-26 | 2021-02-26 | 杭州音度人工智能有限公司 | 一种音乐侵权检测方法 |
CN113011383A (zh) * | 2021-04-12 | 2021-06-22 | 北京明略软件系统有限公司 | 视频标签定义模型构建方法、系统、电子设备及存储介质 |
CN113140228A (zh) * | 2021-04-14 | 2021-07-20 | 广东工业大学 | 一种基于图神经网络的声乐打分方法 |
CN114238692A (zh) * | 2022-02-23 | 2022-03-25 | 北京嘉沐安科技有限公司 | 一种面向网络直播的视频大数据精准检索方法及系统 |
US11335096B2 (en) | 2020-03-31 | 2022-05-17 | Hefei University Of Technology | Method, system and electronic device for processing audio-visual data |
CN114579805A (zh) * | 2022-03-01 | 2022-06-03 | 北京赛思信安技术股份有限公司 | 一种基于注意力机制的卷积神经网络相似视频检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100166320A1 (en) * | 2008-12-26 | 2010-07-01 | Paquier Williams J F | Multi-stage image pattern recognizer |
CN102799684A (zh) * | 2012-07-27 | 2012-11-28 | 成都索贝数码科技股份有限公司 | 一种视音频文件编目标引、元数据存储索引与搜索方法 |
CN104796481A (zh) * | 2015-04-27 | 2015-07-22 | 孙岳铮 | 一种音频视频智能选择方法 |
CN108304506A (zh) * | 2018-01-18 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 检索方法、装置及设备 |
CN108932451A (zh) * | 2017-05-22 | 2018-12-04 | 北京金山云网络技术有限公司 | 音视频内容分析方法及装置 |
-
2019
- 2019-02-28 CN CN201910148705.0A patent/CN109918539B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100166320A1 (en) * | 2008-12-26 | 2010-07-01 | Paquier Williams J F | Multi-stage image pattern recognizer |
CN102799684A (zh) * | 2012-07-27 | 2012-11-28 | 成都索贝数码科技股份有限公司 | 一种视音频文件编目标引、元数据存储索引与搜索方法 |
CN104796481A (zh) * | 2015-04-27 | 2015-07-22 | 孙岳铮 | 一种音频视频智能选择方法 |
CN108932451A (zh) * | 2017-05-22 | 2018-12-04 | 北京金山云网络技术有限公司 | 音视频内容分析方法及装置 |
CN108304506A (zh) * | 2018-01-18 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 检索方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
PENG Y ET AL.: "Modality-specific cross-modal similarity measurement with recurrent attention network", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
綦金玮 等: "面向跨媒体检索的层级循环注意力网络模型", 《中国图象图形学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941727A (zh) * | 2019-11-29 | 2020-03-31 | 北京达佳互联信息技术有限公司 | 一种资源推荐方法、装置、电子设备及存储介质 |
CN110941727B (zh) * | 2019-11-29 | 2023-09-29 | 北京达佳互联信息技术有限公司 | 一种资源推荐方法、装置、电子设备及存储介质 |
CN110931105A (zh) * | 2019-12-17 | 2020-03-27 | 中山大学 | 一种匹配多套肌肉协同模式的方法及系统 |
CN110931105B (zh) * | 2019-12-17 | 2023-05-16 | 中山大学 | 一种匹配多套肌肉协同模式的方法及系统 |
CN111241338A (zh) * | 2020-01-08 | 2020-06-05 | 成都三零凯天通信实业有限公司 | 一种基于注意力机制的深度特征融合视频拷贝检测方法 |
CN111241338B (zh) * | 2020-01-08 | 2023-09-15 | 深圳市网联安瑞网络科技有限公司 | 一种基于注意力机制的深度特征融合视频拷贝检测方法 |
CN111428078A (zh) * | 2020-03-20 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 音频指纹编码方法、装置、计算机设备及存储介质 |
CN111428078B (zh) * | 2020-03-20 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 音频指纹编码方法、装置、计算机设备及存储介质 |
US11335096B2 (en) | 2020-03-31 | 2022-05-17 | Hefei University Of Technology | Method, system and electronic device for processing audio-visual data |
CN112420023B (zh) * | 2020-11-26 | 2022-03-25 | 杭州音度人工智能有限公司 | 一种音乐侵权检测方法 |
CN112420023A (zh) * | 2020-11-26 | 2021-02-26 | 杭州音度人工智能有限公司 | 一种音乐侵权检测方法 |
CN113011383A (zh) * | 2021-04-12 | 2021-06-22 | 北京明略软件系统有限公司 | 视频标签定义模型构建方法、系统、电子设备及存储介质 |
CN113140228A (zh) * | 2021-04-14 | 2021-07-20 | 广东工业大学 | 一种基于图神经网络的声乐打分方法 |
CN114238692A (zh) * | 2022-02-23 | 2022-03-25 | 北京嘉沐安科技有限公司 | 一种面向网络直播的视频大数据精准检索方法及系统 |
CN114579805A (zh) * | 2022-03-01 | 2022-06-03 | 北京赛思信安技术股份有限公司 | 一种基于注意力机制的卷积神经网络相似视频检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109918539B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918539A (zh) | 一种基于用户点击行为的音、视频互相检索方法 | |
CN108763362B (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN111177575A (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
CN110191357A (zh) | 视频片段精彩度评估、动态封面生成方法及装置 | |
CN108288067A (zh) | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 | |
CN110580500A (zh) | 一种面向人物交互的网络权重生成少样本图像分类方法 | |
CN109086439A (zh) | 信息推荐方法及装置 | |
CN113688167A (zh) | 基于深度兴趣网络的深度兴趣捕获模型构建方法及装置 | |
CN113709384A (zh) | 基于深度学习的视频剪辑方法、相关设备及存储介质 | |
CN106776528B (zh) | 一种信息处理方法及装置 | |
CN112926453B (zh) | 基于运动特征增强和长时时序建模的考场作弊行为分析方法 | |
CN103488787B (zh) | 一种基于视频搜索的在线播放入口对象的推送方法和装置 | |
US20230004608A1 (en) | Method for content recommendation and device | |
CN111461175B (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN112364168A (zh) | 一种基于多属性信息融合的舆情分类方法 | |
CN109885728A (zh) | 基于元学习的视频摘要方法 | |
CN104503988A (zh) | 搜索方法及装置 | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN112579822A (zh) | 一种视频数据的推送方法、装置、计算机设备和存储介质 | |
CN112364184A (zh) | 多媒体数据的排序方法、装置、服务器及存储介质 | |
CN111581435B (zh) | 一种视频封面图像生成方法、装置、电子设备及存储介质 | |
WO2020104590A2 (en) | Aligning sequences by generating encoded representations of data items | |
CN110516086B (zh) | 一种基于深度神经网络影视标签自动获取方法 | |
CN116010696A (zh) | 融合知识图谱和用户长短期兴趣的新闻推荐方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220422 |
|
CF01 | Termination of patent right due to non-payment of annual fee |