CN110956980A - 媒体数据处理方法、装置及存储介质 - Google Patents

媒体数据处理方法、装置及存储介质 Download PDF

Info

Publication number
CN110956980A
CN110956980A CN201911260594.9A CN201911260594A CN110956980A CN 110956980 A CN110956980 A CN 110956980A CN 201911260594 A CN201911260594 A CN 201911260594A CN 110956980 A CN110956980 A CN 110956980A
Authority
CN
China
Prior art keywords
media data
frequency domain
domain characteristic
time domain
characteristic vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911260594.9A
Other languages
English (en)
Other versions
CN110956980B (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911260594.9A priority Critical patent/CN110956980B/zh
Publication of CN110956980A publication Critical patent/CN110956980A/zh
Application granted granted Critical
Publication of CN110956980B publication Critical patent/CN110956980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本公开提供一种媒体数据处理方法、装置及存储介质。该方法包括:获取历史媒体数据集合的时域特性向量和频域特性向量;获取候选媒体数据的时域特性向量和频域特性向量;根据历史媒体数据集合的时域特性向量和候选媒体数据的时域特性向量,获取候选媒体数据的时域特性分类结果;根据历史媒体数据集合的频域特性向量和候选媒体数据的频域特性向量,获取候选媒体数据的频域特性分类结果;以及根据候选媒体数据的时域特性分类结果和频域特性分类结果,获取所述候选媒体数据的分类结果。采用本公开的方案,对媒体数据的时频域特性进行分析,了解用户对媒体数据在时频域上的偏好,提高了媒体数据的被选率。

Description

媒体数据处理方法、装置及存储介质
技术领域
本公开涉及媒体处理技术领域,尤其涉及一种媒体数据处理方法、装置及存储介质。
背景技术
现有的音乐推荐系统的优化目标主要包括:增加用户点击率、增加用户听歌时长、增加用户歌曲播放比例等。这些大多是来自传统音乐推荐系统的优化目标,而没有从音乐的特性出发做优化。
发明内容
本公开提供了一种媒体数据处理方法、装置及存储介质,以实现对媒体数据的时频域特性进行分析。
第一方面,提供了一种媒体数据处理方法,包括:
获取历史媒体数据集合的时域特性向量和频域特性向量;
获取候选媒体数据的时域特性向量和频域特性向量;
根据所述历史媒体数据集合的时域特性向量和所述候选媒体数据的时域特性向量,获取所述候选媒体数据的时域特性分类结果;
根据所述历史媒体数据集合的频域特性向量和所述候选媒体数据的频域特性向量,获取所述候选媒体数据的频域特性分类结果;
根据所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果。
在一个实现中,所述历史媒体数据集合包括一个或多个历史媒体数据,所述获取历史媒体数据集合的时域特性向量和频域特性向量,包括:
对所述历史媒体数据集合进行时域卷积操作,得到所述历史媒体数据集合的时域特性向量;
对所述历史媒体数据集合进行频域卷积操作,得到所述历史媒体数据集合的频域特性向量。
在又一个实现中,所述方法还包括:
对所述历史媒体数据集合进行分组,得到多个时间序列分组;
所述对所述历史媒体数据集合进行时域卷积操作,得到所述历史媒体数据集合的时域特性向量,包括:
利用时域卷积核与所述多个时间序列分组进行卷积操作,得到所述历史媒体数据集合的时域特性向量,其中,所述时域卷积向量包括多个元素,所述时域卷积向量的每个元素用于表示进行卷积前与一个时域卷积核大小对应的多个时间序列分组之间的关联关系,所述时域卷积核的行向量的大小与所述多个频域向量的大小相同,所述时域卷积核的列向量的大小为自定义的。
在又一个实现中,所述方法还包括:
将所述多个时间序列分组中的每个时间序列分组变换成频域序列,并对所述频域序列进行采样,得到多个频域向量;
所述对所述历史媒体数据集合进行频域卷积操作,得到所述历史媒体数据集合的频域特性向量,包括:
利用频域卷积核与所述多个频域向量进行卷积操作,得到所述历史媒体数据集合的频域特性向量,其中,所述频域卷积向量包括多个元素,所述频域卷积向量的每个元素用于表示进行卷积前与一个频域卷积核大小对应的多个频域向量之间的关联关系,所述频域卷积核的列向量的大小与所述多个频域向量的大小相同,所述频域卷积核的行向量的大小为自定义的。
在又一个实现中,所述获取历史媒体数据集合的时域特性向量和频域特性向量,还包括:
对所述历史媒体数据集合的时域特性向量进行最大池化操作,得到所述历史媒体数据集合的时域特性压缩向量;
对所述历史媒体数据集合的频域特性向量进行最大池化操作,得到所述历史媒体数据集合的频域特性压缩向量。
在又一个实现中,所述获取候选媒体数据的时域特性向量和频域特性向量,包括:
对所述候选媒体数据进行时域卷积操作,得到所述候选媒体数据的时域特性向量;
对所述候选媒体数据进行频域卷积操作,得到所述候选媒体数据的频域特性向量。
在又一个实现中,所述根据所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果,包括:
根据时域特性分类的权重和频域特性分类的权重,以及所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果。
在又一个实现中,所述方法还包括:
根据用户选择多个媒体数据的行为的关联性,对所述多个媒体数据进行分类,将选择所述多个媒体数据的行为的关联性大于设定值的多个媒体数据分类为所述历史媒体数据集合。
第二方面,提供了一种媒体数据处理装置,包括:
第一获取单元,用于获取历史媒体数据集合的时域特性向量和频域特性向量;
第二获取单元,用于获取候选媒体数据的时域特性向量和频域特性向量;
第三获取单元,用于根据所述历史媒体数据集合的时域特性向量和所述候选媒体数据的时域特性向量,获取所述候选媒体数据的时域特性分类结果;
第四获取单元,用于根据所述历史媒体数据集合的频域特性向量和所述候选媒体数据的频域特性向量,获取所述候选媒体数据的频域特性分类结果;
第五获取单元,用于根据所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果。
在一个实现中,所述历史媒体数据集合包括一个或多个历史媒体数据,所述第一获取单元包括:
第一时域卷积单元,用于对所述历史媒体数据集合进行时域卷积操作,得到所述历史媒体数据集合的时域特性向量;
第一频域卷积单元,用于对所述历史媒体数据集合进行频域卷积操作,得到所述历史媒体数据集合的频域特性向量。
在又一个实现中,所述第一获取单元还包括:
分组单元,用于对所述历史媒体数据集合进行分组,得到多个时间序列分组;
所述第一时域卷积单元,用于利用时域卷积核与所述多个时间序列分组进行卷积操作,得到所述历史媒体数据集合的时域特性向量,其中,所述时域卷积向量包括多个元素,所述时域卷积向量的每个元素用于表示进行卷积前与一个时域卷积核大小对应的多个时间序列分组之间的关联关系,所述时域卷积核的行向量的大小与所述多个频域向量的大小相同,所述时域卷积核的列向量的大小为自定义的。
在又一个实现中,所述第一获取单元还包括:
频域变换单元,用于将所述多个时间序列分组中的每个时间序列分组变换成频域序列;
采样单元,用于对所述频域序列进行采样,得到多个频域向量;
所述第一频域卷积单元,用于利用频域卷积核与所述多个频域向量进行卷积操作,得到所述历史媒体数据集合的频域特性向量,其中,所述频域卷积向量包括多个元素,所述频域卷积向量的每个元素用于表示进行卷积前与一个频域卷积核大小对应的多个频域向量之间的关联关系,所述频域卷积核的列向量的大小与所述多个频域向量的大小相同,所述频域卷积核的行向量的大小为自定义的。
在又一个实现中,所述装置还包括:
第一最大池化单元,用于对所述历史媒体数据集合的时域特性向量进行最大池化操作,得到所述历史媒体数据集合的时域特性压缩向量;
第二最大池化单元,用于对所述历史媒体数据集合的频域特性向量进行最大池化操作,得到所述历史媒体数据集合的频域特性压缩向量。
在又一个实现中,所述第二获取单元包括:
第二时域卷积单元,用于对所述候选媒体数据进行时域卷积操作,得到所述候选媒体数据的时域特性向量;
第二频域卷积单元,用于对所述候选媒体数据进行频域卷积操作,得到所述候选媒体数据的频域特性向量。
在又一个实现中,所述第五获取单元用于根据时域特性分类的权重和频域特性分类的权重,以及所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果。
在又一个实现中,所述装置还包括:
分类单元,用于根据用户选择多个媒体数据的行为的关联性,对所述多个媒体数据进行分类,将选择所述多个媒体数据的行为的关联性大于设定值的多个媒体数据分类为所述历史媒体数据集合。
第三方面,提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如第一方面或第一方面的任一个实现所述的方法。
采用本公开提供的方案,具有如下有益效果:
对媒体数据的时频域特性进行分析,了解用户对媒体数据在时频域上的偏好,提高了媒体数据的被选率。
附图说明
图1是示例的频谱图;
图2是本公开实施例提供的一种媒体数据处理方法的流程示意图;
图3是本公开实施例提供的一种对媒体数据进行卷积操作的模型示意图;
图4是本公开实施例提供的又一种媒体数据处理方法的流程示意图;
图5是图4所示的媒体数据处理的算法框架图;
图6是本公开实施例提供的一种媒体数据处理装置的结构示意图;
图7是本公开实施例提供的又一种媒体数据处理装置的结构示意图。
具体实施方式
本实施例中以音频信号的特性分析进行示例描述,该分析原理还可以应用在其它具有与音频信号具有相似特性的媒体数据的特性分析中。其中,音频信号有时域和频域这两种维度的表达,即音频信号既可以表达为一个时间序列,也可以表达为一个频率序列。具体地,先对音频信号进行时间维度的采样,比如每隔0.1s采样一个音频信号,得到离散的时间序列T1~Tn,每个值代表音频在该采样点上的大小,然后再按固定时间段(比如3s)进行组合,比如时间段长度为3s采样间隔0.1s,那每组序列就包含了3s/0.1s=30个值,比如T1~T30就是一组,称为G1,T31~T60为G2,依次类推。接着对每组时间序列做频域变换(包括但不限于FFT、MFCC、DFT等等),将得到频域信号,代表一组时间序列里面包含的不同频率的分布,对频率信号也进行采样,比如10hz,就得到一个离散的频率序列。假设频率的上下限是0~f,那么每个频率序列的个数是f/10,每个Gi都可以表示成这么多个频率序列,只不过区别在于不同Gi的同样频率的值大小不同。对应到音乐上,音乐的某些部分低音很重,那这些Gi的低频值就很大,有些部分高音很高,那这些Gi的高频值很大。所以Gi既可以表示为时间序列T1~T30,也可以表示为频率序列,统一起来就是一张频谱图。如图1示例的频谱图,是一个真实的音频分解之后的频谱图,横轴是时间,时间段大概是1.75s左右,也就是每隔1.75s切一个时间片段;每个时间片段对应的频率是竖轴,频率上下限110hz~3520hz,灰度的深浅代表不同频率对应的值的大小。
以音乐为例,用户听歌的喜好跟很多因素有关,本质上都是对歌曲的音频数据的交互,而音频数据包括两个方面:时域和频域,比如:有些人喜欢听前奏、有些人喜欢直接听高潮段落,这反映了对歌曲时间上的偏好;有些人喜欢听歌曲的器乐伴奏、有些人喜欢人声,这反映了用户对歌曲频率上的偏好。
可以将所谓的用户听歌时长,分解到频域和时域维度,然后采用多目标优化的方法,同时去满足用户在时域和频域上的喜好,从而最大化推荐的效果。
因此,本公开实施例提供一种媒体数据处理方案,改变传统的媒体数据推荐的优化目标,同时优化用户在时域频域上的喜好,从而从根本上提高媒体数据推荐的效果。
如图2所示,是本公开实施例提供的一种媒体数据处理方法的流程示意图,该方法可以包括:
S101、获取历史媒体数据集合的时域特性向量和频域特性向量。
历史媒体数据是指记录的用户之前选择的媒体数据。可以对用户之前选择的媒体数据进行分类,划分为一个或多个历史媒体数据集合。每个历史媒体数据集合包括一个或多个历史媒体数据。分类的依据可以是自定义的。
针对某一个历史媒体数据集合,可以分别获取该历史媒体数据集合的时域特性向量和频域特性向量。该历史媒体数据集合的时域特性向量可以是该历史媒体数据集合中每个历史媒体数据的时域特性向量,该历史媒体数据集合的频域特性向量也可以是该历史媒体数据集合中每个历史媒体数据的频域特性向量。如图3所示,是本公开实施例提供的一种对媒体数据进行卷积操作的模型示意图,本公开提出分别从时域、频域角度设计两种不同的卷积模式,从而获得媒体数据的实质特性。获得的媒体数据的实质特性可以应用于下游任务,包括音乐分类、音乐生成、个性化推荐等等。在图3中,对于该历史媒体数据集合s1~sT中的每个媒体数据si,首先获得其频谱图,然后分别通过时域卷积模型和频域卷积模型进行卷积操作,得到时域卷积向量t”i和频域卷积向量f”i。
该历史媒体数据集合的时域特性向量还可以是该历史媒体数据集合对应的时域特性向量,该历史媒体数据集合的频域特性向量也可以是该历史媒体数据集合对应的频域特性向量。也就是说,还可以对上述获得的该历史媒体数据集合中每个历史媒体数据的时域特性向量进一步处理,得到该历史媒体数据集合对应的时域特性向量;以及对上述获得的该历史媒体数据集合中每个历史媒体数据的频域特性向量进一步处理,得到该历史媒体数据集合对应的频域特性向量。
S102、获取候选媒体数据的时域特性向量和频域特性向量。
候选媒体数据是指供用户选择的媒体数据。该候选媒体数据可以包括一个或多个媒体数据。相应地,可以采用上述同样的方式,分别获取候选媒体数据的时域特性向量和频域特性向量。即对于第T+1个媒体数据,可以获取该媒体数据的时域特性向量t”T+1和频域特性向量f”T+1。
下面步骤S103~S104为分别从时域特性和频域特性角度,对候选媒体数据的特性进行分类处理:
S103、根据所述历史媒体数据集合的时域特性向量和所述候选媒体数据的时域特性向量,获取所述候选媒体数据的时域特性分类结果。
将上述获得的历史媒体数据集合的时域特性向量和候选媒体数据的时域特性向量输入分类模型,可以得到候选媒体数据的时域特性分类结果。也就是根据用户在时间维度上选择历史媒体数据的习惯,确定用户在时间维度上选择该候选媒体数据的概率。
S104、根据所述历史媒体数据集合的频域特性向量和所述候选媒体数据的频域特性向量,获取所述候选媒体数据的频域特性分类结果。
将上述获得的历史媒体数据集合的频域特性向量和候选媒体数据的频域特性向量输入分类模型,可以得到候选媒体数据的频域特性分类结果。也就是根据用户在频率维度上选择历史媒体数据的习惯,确定用户在频率维度上选择该候选媒体数据的概率。
S105、根据所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果。
综合上述候选媒体数据的时域特性分类结果和频域特性分类结果,获取所述候选媒体数据的分类结果。
根据本公开实施例提供的一种媒体数据处理方法,对媒体数据的时频域特性进行分析,了解用户对媒体数据在时频域上的偏好,提高了媒体数据的被选率。
如图4所示,是本公开实施例提供的又一种媒体数据处理方法的流程示意图,该方法可以包括:
S201、对历史媒体数据集合进行分组,得到多个时间序列分组。
在对历史媒体数据集合进行分组之前,可以先确定历史媒体数据集合。具体地,根据用户选择多个媒体数据的行为的关联性,对所述多个媒体数据进行分类,将选择所述多个媒体数据的行为的关联性大于设定值的多个媒体数据分类为所述历史媒体数据集合。即将用户之前选择的媒体数据中前后具有关联性的媒体数据划分为一类或一个集合,构成该历史媒体数据集合。历史媒体数据考虑了用户的历史选择行为,对用户选择候选媒体数据具有参考价值,可以得到更准确的分类结果。
获取历史媒体数据集合,例如音频信号。对音频信号进行时间维度的采样,比如每隔0.1s采样一个音频信号,得到离散的时间序列s1~sT,每个值代表音频在该采样点上的大小。然后再按固定时间段(比如3s)进行分组或组合,比如时间段长度为3s采样间隔0.1s,那每组序列就包含了3s/0.1s=30个值,比如T1~T30就是一组,称为t1,T31~T60为t2,依次类推,得到多个时间序列分组t1,t2…tT。
S202、利用时域卷积核与所述多个时间序列分组进行卷积操作,得到所述历史媒体数据集合的时域特性向量,其中,所述时域卷积向量包括多个元素,所述时域卷积向量的每个元素用于表示进行卷积前与一个时域卷积核大小对应的多个时间序列分组之间的关联关系,所述时域卷积核的行向量的大小与所述多个频域向量的大小相同,所述时域卷积核的列向量的大小为自定义的。
上述S202为对所述历史媒体数据集合进行时域卷积操作,得到所述历史媒体数据集合的时域特性向量。
进行时域卷积操作时,首先选取时域卷积核。时域卷积核的大小可以是a1xa2,a1的大小跟m一致,a2自由选择。例如,a2=1。
如图5所示,利用时域卷积核与上述多个时间序列分组t1,t2,…tT进行卷积操作,得到时域卷积向量t”1,t”2,…t”T。时域卷积的方向是沿着时间序列从0~T方向卷积。例如,选择卷积核的a2=1,也就是1个ti序列构成一个跟卷积核一样大小的矩阵,彼此相乘,得到的t'1是t1卷积后的结果,维度跟ti一致,仍然代表不同频率的频率值,只不过卷积操作是从时间维度上压缩成了新的向量。得到的时域卷积向量包括多个元素,该时域卷积向量的每个元素用于表示进行卷积前与一个时域卷积核大小对应的一个或多个时间序列分组之间的关联关系。
这么卷积的意义在于,每个卷积核作用过后,得到的t'i仍然是跟原来向量ti物理意义一致的新向量。该历史媒体数据集合的时域特性向量表示历史媒体数据集合沿时域卷积后得到的频率上的表示。
S203、将所述多个时间序列分组中的每个时间序列分组变换成频域序列,并对所述频域序列进行采样,得到多个频域向量。
对上述每组时间序列做频域变换(包括但不限于FFT、MFCC、DFT等等),得到频域序列,代表一组时间序列里面包含的不同频率的分布。然后对频域序列进行采样,得到一个离散的频率序列,该离散的频率序列也可以称为多个频域向量。
上述多个时间序列分组和多个频域向量构成一个二维矩阵,矩阵的一个轴代表时间,另一个轴代表频率。
S204、利用频域卷积核与所述多个频域向量进行卷积操作,得到所述历史媒体数据集合的频域特性向量,其中,所述频域卷积向量包括多个元素,所述频域卷积向量的每个元素用于表示进行卷积前与一个频域卷积核大小对应的多个频域向量之间的关联关系,所述频域卷积核的列向量的大小与所述多个频域向量的大小相同,所述频域卷积核的行向量的大小为自定义的。
上述S204为对所述历史媒体数据集合进行频域卷积操作,得到所述历史媒体数据集合的频域特性向量。
每个ti都可以分解到m个离散频率上,记为f1~fm。假设f1=0hz,频率采样间隔10hz,fm=1000hz,那m=1000/10=100。总共有T组时间序列,所以对于每个离散频率而言,都有T个值,对应不同ti在同一个频率上的不同值,所以fi可以用这T个值来表示,也就是,相比上面的时域卷积是从时间维度来看待mxT的二维频谱图,这里从频率维度来看待这个频谱图,把它看成m个T维向量。
进行频域卷积操作时,首先选取频域卷积核。频域卷积核的列向量的大小与多个频域向量的大小相同,频域卷积核的行向量的大小为自定义的。
如图5所示,卷积的时候沿着频率方向卷积,得到的新的向量f'i与fi维度一致,物理含义也相同,即代表了不同时间段上值的分布,区别在于f”i可以看成是上一轮几个fi在频率上压缩后的结果。得到的频域卷积向量f”1~f”m包括多个元素,该频域卷积向量的每个元素用于表示进行卷积前与一个频域卷积核大小对应的多个频域向量之间的关联关系。
该历史媒体数据集合的频域特性向量表示历史媒体数据集合沿频域卷积后得到的时间上的表示。
可以理解的是,上述时域卷积模型和频域卷积模型的结构可以相同,参数不同。
S205、对所述历史媒体数据集合的时域特性向量进行最大池化操作,得到所述历史媒体数据集合的时域特性压缩向量。
获得了历史媒体数据集合的时域特性向量t”1~t”T后,还可以对历史媒体数据集合的多个时域特性向量进一步浓缩,即进行最大池化操作(max pooling)。max pooling的目标是把卷积操作得到的时域特性向量进一步“挤压”出更有用的信息。具体地,maxpooling即取局部接受域中值最大的点。
如图5所示,对上述获得的历史媒体数据集合的时域特性向量t”1~t”T进行最大池化操作,得到历史媒体数据集合的时域特性压缩向量ut。ut的“u”表示用户,即该历史媒体数据集合的时域特性压缩向量表示提取了该用户选择历史媒体数据集合的最有用的信息。
S206、对所述历史媒体数据集合的频域特性向量进行最大池化操作,得到所述历史媒体数据集合的频域特性压缩向量。
同理,如图5所示,对上述获得的历史媒体数据集合的频域特性向量f”1~f”m进行最大池化操作,得到历史媒体数据集合的时域特性压缩向量uf。
S207、对候选媒体数据进行时域卷积操作,得到所述候选媒体数据的时域特性向量。
参考步骤S202,对候选媒体数据进行时域卷积操作,得到该候选媒体数据的时域特性向量。该候选媒体数据的时域特性向量表示候选媒体数据沿时域卷积后得到的频率上的表示。
S208、对候选媒体数据进行频域卷积操作,得到所述候选媒体数据的频域特性向量。
参考步骤S204,对候选媒体数据进行频域卷积操作,得到该候选媒体数据的频域特性向量。该候选媒体数据的频域特性向量表示候选媒体数据沿频域卷积后得到的时间上的表示。
S209、根据所述历史媒体数据集合的时域特性向量和所述候选媒体数据的时域特性向量,获取所述候选媒体数据的时域特性分类结果。
根据用户历史得到的媒体数据在频率上的表示ut和候选媒体数据在频率上的表示t”T+1,将上述表示输入到分类模型,获取所述候选媒体数据的时域特性分类结果L1。该分类模型用来衡量从时域角度分析用户选择该候选媒体数据的可能性。L1代表时域角度分析任务的损失。
S210、根据所述历史媒体数据集合的频域特性向量和所述候选媒体数据的频域特性向量,获取所述候选媒体数据的频域特性分类结果。
根据用户历史得到的媒体数据在时间上的表示uf和候选媒体数据在时间上的表示f”T+1,将上述表示输入到分类模型,获取候选媒体数据的频域特性分类结果L2。该分类模型用来衡量从频域角度分析用户选择该候选媒体数据的可能性。L2代表频域角度分析任务的损失。
S211、根据时域特性分类的权重和频域特性分类的权重,以及所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果。
获得了候选媒体数据的时域特性分类结果和频域特性分类结果后,根据时域特性分类的权重和频域特性分类的权重,获得用户选择该候选媒体数据的概率。时域特性分类的权重可以是a1,以及频域特性分类的权重可以是a2,a1和a2应满足a1+a2=1。从而得到用户选择所述候选媒体数据的概率为a1*L1+a2*L2。
S212、若用户选择所述候选媒体数据的概率大于或等于第一概率值,向所述用户推荐所述候选媒体数据。
经过上述基于用户历史选择行为特性和候选媒体数据本身的特性进行分类,准确地获得了用户选择候选媒体数据的概率,基于该概率,向用户推荐候选媒体数据,可以提高推荐的成功率。
根据本公开实施例提供的一种媒体数据处理方法,对媒体数据的时频域特性进行分析,了解用户对媒体数据在时频域上的偏好,提高了媒体数据的被选率;分别进行时域特性向量和频域特性向量的卷积操作,经过卷积操作后,使得得到的卷积向量仍然是跟原来的时域特性向量和频域特性向量具有相同的物理意义。
基于上述实施例中的媒体数据处理方法的同一构思,如图6所示,本公开实施例还提供一种媒体数据处理装置。该装置1000包括第一获取单元11、第二获取单元12、第三获取单元13、第四获取单元14和第五获取单元15,还可以包括第一最大池化单元16和第二最大池化单元17(图中以虚线表示)。其中:
第一获取单元11,用于获取历史媒体数据集合的时域特性向量和频域特性向量;
第二获取单元12,用于获取候选媒体数据的时域特性向量和频域特性向量;
第三获取单元13,用于根据所述历史媒体数据集合的时域特性向量和所述候选媒体数据的时域特性向量,获取所述候选媒体数据的时域特性分类结果;
第四获取单元14,用于根据所述历史媒体数据集合的频域特性向量和所述候选媒体数据的频域特性向量,获取所述候选媒体数据的频域特性分类结果;
第五获取单元15,用于根据所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果。
在一个实现中,所述历史媒体数据集合包括一个或多个历史媒体数据,所述第一获取单元11包括:
第一时域卷积单元112,用于对所述历史媒体数据集合进行时域卷积操作,得到所述历史媒体数据集合的时域特性向量;
第一频域卷积单元115,用于对所述历史媒体数据集合进行频域卷积操作,得到所述历史媒体数据集合的频域特性向量。
在又一个实现中,所述第一获取单元11还包括:
分组单元111,用于对所述历史媒体数据集合进行分组,得到多个时间序列分组;
所述第一时域卷积单元112,用于利用时域卷积核与所述多个时间序列分组进行卷积操作,得到所述历史媒体数据集合的时域特性向量,其中,所述时域卷积向量包括多个元素,所述时域卷积向量的每个元素用于表示进行卷积前与一个时域卷积核大小对应的多个时间序列分组之间的关联关系,所述时域卷积核的行向量的大小与所述多个频域向量的大小相同,所述时域卷积核的列向量的大小为自定义的。
在又一个实现中,所述第一获取单元11还包括:
频域变换单元113,用于将所述多个时间序列分组中的每个时间序列分组变换成频域序列;
采样单元114,用于对所述频域序列进行采样,得到多个频域向量;
所述第一频域卷积单元115,用于利用频域卷积核与所述多个频域向量进行卷积操作,得到所述历史媒体数据集合的频域特性向量,其中,所述频域卷积向量包括多个元素,所述频域卷积向量的每个元素用于表示进行卷积前与一个频域卷积核大小对应的多个频域向量之间的关联关系,所述频域卷积核的列向量的大小与所述多个频域向量的大小相同,所述频域卷积核的行向量的大小为自定义的。
在又一个实现中,第一最大池化单元16,用于对所述历史媒体数据集合的时域特性向量进行最大池化操作,得到所述历史媒体数据集合的时域特性压缩向量;
第二最大池化单元17,用于对所述历史媒体数据集合的频域特性向量进行最大池化操作,得到所述历史媒体数据集合的频域特性压缩向量。
在又一个实现中,所述第二获取单元12包括:
第二时域卷积单元121,用于对所述候选媒体数据进行时域卷积操作,得到所述候选媒体数据的时域特性向量;
第二频域卷积单元122,用于对所述候选媒体数据进行频域卷积操作,得到所述候选媒体数据的频域特性向量。
在又一个实现中,所述第五获取单元15用于根据时域特性分类的权重和频域特性分类的权重,以及所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果。
在又一个实现中,所述装置还包括:
分类单元,用于根据用户选择多个媒体数据的行为的关联性,对所述多个媒体数据进行分类,将选择所述多个媒体数据的行为的关联性大于设定值的多个媒体数据分类为所述历史媒体数据集合。
在又一个实现中,所述装置还包括:
推荐单元,用于若用户选择所述候选媒体数据的概率大于或等于第一概率值,向所述用户推荐所述候选媒体数据。
根据本公开实施例提供的一种媒体数据处理装置,对媒体数据的时频域特性进行分析,了解用户对媒体数据在时频域上的偏好,提高了媒体数据的被选率。
图7是本公开实施例提供的又一种媒体数据处理装置的结构示意图。在一个实施例中,该媒体数据处理装置可以对应于上述图2或图4所对应实施例中。如图7所示,该媒体数据处理装置可以包括:处理器,网络接口和存储器,此外,上述媒体数据处理装置还可以包括:用户接口,和至少一个通信总线。其中,通信总线用于实现这些组件之间的连接通信。其中,用户接口可以包括显示屏(display)、键盘(keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器可选的还可以是至少一个位于远离前述处理器的存储装置。如图7所示,作为一种计算机可读存储介质的存储器中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图7所示的媒体数据处理装置中,网络接口可提供网络通讯功能;而用户接口主要用于为用户提供输入的接口;而处理器可以用于调用存储器中存储的设备控制应用程序,以实现上述图2、图4任一个所对应实施例中对媒体数据处理方法的描述,这里不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
应当理解,本公开实施例中所描述的媒体数据处理装置可执行前文图2、图4任一个所对应实施例中对媒体数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本公开实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的媒体数据处理装置1000所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图2、图4任一个所对应实施例中对媒体数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本公开所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本公开方法实施例的描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。

Claims (10)

1.一种媒体数据处理方法,其特征在于,包括:
获取历史媒体数据集合的时域特性向量和频域特性向量;
获取候选媒体数据的时域特性向量和频域特性向量;
根据所述历史媒体数据集合的时域特性向量和所述候选媒体数据的时域特性向量,获取所述候选媒体数据的时域特性分类结果;
根据所述历史媒体数据集合的频域特性向量和所述候选媒体数据的频域特性向量,获取所述候选媒体数据的频域特性分类结果;
根据所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据用户选择多个媒体数据的行为的关联性,对所述多个媒体数据进行分类,将选择所述多个媒体数据的行为的关联性大于设定值的多个媒体数据分类为所述历史媒体数据集合。
3.根据权利要求1或2所述的方法,其特征在于,所述历史媒体数据集合包括一个或多个历史媒体数据,所述获取历史媒体数据集合的时域特性向量和频域特性向量,包括:
对所述历史媒体数据集合进行时域卷积操作,得到所述历史媒体数据集合的时域特性向量;
对所述历史媒体数据集合进行频域卷积操作,得到所述历史媒体数据集合的频域特性向量。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述历史媒体数据集合进行分组,得到多个时间序列分组;
所述对所述历史媒体数据集合进行时域卷积操作,得到所述历史媒体数据集合的时域特性向量,包括:
利用时域卷积核与所述多个时间序列分组进行卷积操作,得到所述历史媒体数据集合的时域特性向量,其中,所述时域卷积向量包括多个元素,所述时域卷积向量的每个元素用于表示进行卷积前与一个时域卷积核大小对应的多个时间序列分组之间的关联关系,所述时域卷积核的行向量的大小与所述多个频域向量的大小相同,所述时域卷积核的列向量的大小为自定义的。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述多个时间序列分组中的每个时间序列分组变换成频域序列,并对所述频域序列进行采样,得到多个频域向量;
所述对所述历史媒体数据集合进行频域卷积操作,得到所述历史媒体数据集合的频域特性向量,包括:
利用频域卷积核与所述多个频域向量进行卷积操作,得到所述历史媒体数据集合的频域特性向量,其中,所述频域卷积向量包括多个元素,所述频域卷积向量的每个元素用于表示进行卷积前与一个频域卷积核大小对应的多个频域向量之间的关联关系,所述频域卷积核的列向量的大小与所述多个频域向量的大小相同,所述频域卷积核的行向量的大小为自定义的。
6.根据权利要求3~5任一项所述的方法,其特征在于,所述获取历史媒体数据集合的时域特性向量和频域特性向量,还包括:
对所述历史媒体数据集合的时域特性向量进行最大池化操作,得到所述历史媒体数据集合的时域特性压缩向量;
对所述历史媒体数据集合的频域特性向量进行最大池化操作,得到所述历史媒体数据集合的频域特性压缩向量。
7.根据权利要求1所述的方法,其特征在于,所述获取候选媒体数据的时域特性向量和频域特性向量,包括:
对所述候选媒体数据进行时域卷积操作,得到所述候选媒体数据的时域特性向量;
对所述候选媒体数据进行频域卷积操作,得到所述候选媒体数据的频域特性向量。
8.根据权利要求1所述的方法,其特征在于,所述根据所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果,包括:
根据时域特性分类的权重和频域特性分类的权重,以及所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果。
9.一种媒体数据处理装置,其特征在于,包括:
第一获取单元,用于获取历史媒体数据集合的时域特性向量和频域特性向量;
第二获取单元,用于获取候选媒体数据的时域特性向量和频域特性向量;
第三获取单元,用于根据所述历史媒体数据集合的时域特性向量和所述候选媒体数据的时域特性向量,获取所述候选媒体数据的时域特性分类结果;
第四获取单元,用于根据所述历史媒体数据集合的频域特性向量和所述候选媒体数据的频域特性向量,获取所述候选媒体数据的频域特性分类结果;
第五获取单元,用于根据所述候选媒体数据的所述时域特性分类结果和所述频域特性分类结果,获取所述候选媒体数据的分类结果。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1~8任一项所述的方法。
CN201911260594.9A 2019-12-10 2019-12-10 媒体数据处理方法、装置及存储介质 Active CN110956980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911260594.9A CN110956980B (zh) 2019-12-10 2019-12-10 媒体数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911260594.9A CN110956980B (zh) 2019-12-10 2019-12-10 媒体数据处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110956980A true CN110956980A (zh) 2020-04-03
CN110956980B CN110956980B (zh) 2024-04-09

Family

ID=69980865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911260594.9A Active CN110956980B (zh) 2019-12-10 2019-12-10 媒体数据处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110956980B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546789A (zh) * 2013-08-23 2014-01-29 Tcl集团股份有限公司 一种电视节目推荐方法、系统及智能终端
JP2016194614A (ja) * 2015-03-31 2016-11-17 株式会社エクシング 楽曲推薦システム、プログラム及び楽曲推薦方法
CN108538311A (zh) * 2018-04-13 2018-09-14 腾讯音乐娱乐科技(深圳)有限公司 音频分类方法、装置及计算机可读存储介质
CN109558500A (zh) * 2018-11-21 2019-04-02 杭州网易云音乐科技有限公司 多媒体序列生成方法、介质、装置和计算设备
CN109712641A (zh) * 2018-12-24 2019-05-03 重庆第二师范学院 一种基于支持向量机的音频分类和分段的处理方法
CN110418200A (zh) * 2018-04-27 2019-11-05 Tcl集团股份有限公司 一种视频推荐方法、装置及终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546789A (zh) * 2013-08-23 2014-01-29 Tcl集团股份有限公司 一种电视节目推荐方法、系统及智能终端
JP2016194614A (ja) * 2015-03-31 2016-11-17 株式会社エクシング 楽曲推薦システム、プログラム及び楽曲推薦方法
CN108538311A (zh) * 2018-04-13 2018-09-14 腾讯音乐娱乐科技(深圳)有限公司 音频分类方法、装置及计算机可读存储介质
CN110418200A (zh) * 2018-04-27 2019-11-05 Tcl集团股份有限公司 一种视频推荐方法、装置及终端设备
CN109558500A (zh) * 2018-11-21 2019-04-02 杭州网易云音乐科技有限公司 多媒体序列生成方法、介质、装置和计算设备
CN109712641A (zh) * 2018-12-24 2019-05-03 重庆第二师范学院 一种基于支持向量机的音频分类和分段的处理方法

Also Published As

Publication number Publication date
CN110956980B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
JP6027087B2 (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
US11657798B2 (en) Methods and apparatus to segment audio and determine audio segment similarities
CN109147807B (zh) 一种基于深度学习的音域平衡方法、装置及系统
US8106284B2 (en) Playback apparatus and display method
CN111901626B (zh) 背景音频确定方法、视频剪辑方法、装置和计算机设备
CN111508508A (zh) 一种超分辨率音频生成方法及设备
CN109120983B (zh) 一种音频处理方法和装置
US8865993B2 (en) Musical composition processing system for processing musical composition for energy level and related methods
CN109922268B (zh) 视频的拍摄方法、装置、设备及存储介质
CN109857908A (zh) 用于匹配视频的方法和装置
US20140278415A1 (en) Voice Recognition Configuration Selector and Method of Operation Therefor
CN109147816B (zh) 对音乐进行音量调节的方法及设备
CN112333596A (zh) 一种耳机均衡器的调整方法、装置、服务器及介质
WO2016102738A1 (en) Similarity determination and selection of music
CN110909005A (zh) 一种模型特征分析方法、装置、设备及介质
CN111462775B (zh) 音频相似度确定方法、装置、服务器及介质
WO2016185091A1 (en) Media content selection
CN110955789B (zh) 一种多媒体数据处理方法以及设备
WO2023226572A1 (zh) 特征表示的提取方法、装置、设备、介质及程序产品
US20220238087A1 (en) Methods and systems for determining compact semantic representations of digital audio signals
CN113077815A (zh) 一种音频评估方法及组件
CN110956980B (zh) 媒体数据处理方法、装置及存储介质
EP3644306B1 (en) Methods for analyzing musical compositions, computer-based system and machine readable storage medium
CN110070891B (zh) 一种歌曲识别方法、装置以及存储介质
CN111444383A (zh) 一种音频数据处理方法、装置以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40023039

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant