CN109284412A - 给音频数据配图的方法和装置 - Google Patents

给音频数据配图的方法和装置 Download PDF

Info

Publication number
CN109284412A
CN109284412A CN201811103156.7A CN201811103156A CN109284412A CN 109284412 A CN109284412 A CN 109284412A CN 201811103156 A CN201811103156 A CN 201811103156A CN 109284412 A CN109284412 A CN 109284412A
Authority
CN
China
Prior art keywords
image data
feature vector
target
audio data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811103156.7A
Other languages
English (en)
Other versions
CN109284412B (zh
Inventor
黄安麒
刘彦彬
李深远
董治
代玥
陈莉
范恒远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN201811103156.7A priority Critical patent/CN109284412B/zh
Publication of CN109284412A publication Critical patent/CN109284412A/zh
Application granted granted Critical
Publication of CN109284412B publication Critical patent/CN109284412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种给音频数据配图的方法和装置,属于互联网技术领域。将多个图像数据分别输入指定的特征提取模型,得到每个图像数据对应的特征信息,进行存储,其中,所述特征信息包括音频类型信息和图像特征信息;获取目标音频数据,并获取目标音频数据的多个相关联图像数据;将多个相关联图像数据输入所述特征提取模型,得到每个相关联图像数据对应的特征信息;基于每个相关联图像数据对应的特征信息,确定目标音频数据对应的目标特征信息;确定目标特征信息分别与存储的每个图像数据对应的特征信息的相似度;在所述多个图像数据中选取对应相似度最大的图像数据,作为所述目标音频数据的配图。采用本发明,可以提高给音频数据配图的灵活性。

Description

给音频数据配图的方法和装置
技术领域
本发明涉及互联网技术领域,特别涉及一种给音频数据配图的方法和装置。
背景技术
随着互联网技术的发展,终端上的应用程序的种类越来越多、功能越来越丰富,音乐播放应用程序即是一种很常用的应用程序。
技术人员可以为音乐播放应用程序中的歌曲和歌单配图。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
技术人员在为歌曲或者歌单配图时,通常是手动添加本地储存的图片,而当技术人员所用终端本地没有储存图片时便不能为新建的歌曲或者歌单配图,导致给音频数据配图的灵活性较差。
发明内容
本发明实施例提供了一种给音频数据配图的方法和装置,以解决相关技术的问题。所述技术方案如下:
根据本发明实施例,提供一种给音频数据配图的方法,所述方法包括:
将多个图像数据分别输入指定的特征提取模型,得到每个图像数据对应的特征信息,进行存储,其中,所述特征信息包括音频类型信息和图像特征信息;
获取目标音频数据,并获取所述目标音频数据的多个相关联图像数据;
将所述多个相关联图像数据输入所述特征提取模型,得到每个所述相关联图像数据对应的特征信息;
基于每个所述相关联图像数据对应的特征信息,确定所述目标音频数据对应的目标特征信息;
确定所述目标特征信息分别与存储的每个图像数据对应的特征信息的相似度;
在所述多个图像数据中选取对应相似度最大的图像数据,作为所述目标音频数据的配图。
可选的,所述特征信息为特征向量,所述特征向量中的每个元素分别对应所述图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述图像数据中的存在概率值。
可选的,所述特征提取模型为预先训练的特征提取模型;
所述方法还包括:
获取多个样本音频数据的相关联图像数据的图像元素和音乐类型;
基于每个样本音频数据的音乐类型和每个相关联图像数据的图像元素,生成每个样本音频数据的相关联图像数据对应的特征向量;
将每个样本音频数据的相关联图像数据和对应的特征向量,作为训练样本,对初始特征提取模型进行训练,得到所述特征提取模型。
可选的,所述特征信息为特征向量,所述目标特征信息为目标特征向量。
可选的,所述确定所述目标特征信息分别与存储的每个图像数据对应的特征信息的相似度,包括:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度ρ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
可选的,所述确定所述目标特征信息分别与存储的每个图像数据对应的特征信息的相似度,包括:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度cosθ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
可选的,所述方法还包括:
接收至少一个终端发送的携带有图像数据的对应所述目标音频数据的配图请求;
分别将多个所述配图请求携带的图像数据输入所述特征提取模型,得到每个所述图像数据对应的特征信息;
确定所述目标特征信息分别与每个图像数据对应的特征信息的相似度;
基于每个图像数据对应的相似度,确定图像数据排名列表;
将所述图像数据排名列表分别发送给所述至少一个终端。
可选的,所述目标音频数据的相关联图像数据为所述目标音频数据所属的音频数据表单的封面图。
根据本发明实施例,还提供了一种给音频数据配图的装置,所述装置包括:
储存模块,用于将多个图像数据分别输入指定的特征提取模型,得到每个图像数据对应的特征信息,进行存储,其中,所述特征信息包括音频类型信息和图像特征信息;
第一确定模块,用于获取目标音频数据,并获取所述目标音频数据的多个相关联图像数据,将所述多个相关联图像数据输入所述特征提取模型,得到每个所述相关联图像数据对应的特征信息,基于每个所述相关联图像数据对应的特征信息,确定所述目标音频数据对应的目标特征信息;
第二确定模块,用于确定所述目标特征信息分别与存储的每个图像数据对应的特征信息的相似度;
配图模块,用于在所述多个图像数据中选取对应相似度最大的图像数据,作为所述目标音频数据的配图。
可选的,所述特征信息为特征向量,所述特征向量中的每个元素分别对应所述图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述图像数据中的存在概率值。
可选的,所述特征提取模型为预先训练的特征提取模型;
所述装置还包括:
获取模块,用于获取多个样本音频数据的相关联图像数据的图像元素和音乐类型;
生成模块,用于基于每个样本音频数据的音乐类型和每个相关联图像数据的图像元素,生成每个样本音频数据的相关联图像数据对应的特征向量;
训练模块,用于将每个样本音频数据的相关联图像数据和对应的特征向量,作为训练样本,对初始特征提取模型进行训练,得到所述特征提取模型。
可选的,所述特征信息为特征向量,所述目标特征信息为目标特征向量。
可选的,所述第二确定模块,用于:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度ρ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
可选的,所述第二确定模块,用于:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度cosθ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
可选的,所述装置还包括:
接收模块,用于接收至少一个终端发送的携带有图像数据的对应所述目标音频数据的配图请求;
第三确定模块,用于分别将多个所述配图请求携带的图像数据输入所述特征提取模型,得到每个所述图像数据对应的特征信息;
第四确定模块,用于确定所述目标特征信息分别与每个图像数据对应的特征信息的相似度;
确定排名模块,用于基于每个图像数据对应的相似度,确定图像数据排名列表;
发送模块,用于将所述图像数据排名列表分别发送给所述至少一个终端。
可选的,所述目标音频数据的相关联图像数据为所述目标音频数据所属的音频数据表单的封面图。
根据本发明实施例,还提供了一种给音频数据配图的装置,所述装置包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上述所述的给音频数据配图的方法。
根据本发明实施例,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述所述的给音频数据配图的方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,技术人员在使用上述方法为音频数据配图时,只需将待配图的目标音频数据发送给服务器,服务器可以根据目标音频数据的目标特征信息以及储存的多个图像数据的特征信息,在多个图像数据中选取对应相似度最大的图像数据,作为目标音频数据的配图。这样,技术人员在为音频数据配图时,无需手动添加本地储存的图片,进而可以提高给音频数据配图的灵活性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种给音频数据配图的方法的流程图;
图2是本发明实施例提供的一种给音频数据配图的方法的流程图;
图3是本发明实施例提供的一种歌单的示意图;
图4是本发明实施例提供的一种给音频数据配图的方法的流程图;
图5是本发明实施例提供的一种给音频数据配图的应用场景图;
图6是本发明实施例提供的一种给音频数据配图的装置的结构示意图;
图7是本发明实施例提供的一种给音频数据配图的装置的结构示意图;
图8是本发明实施例提供的一种给音频数据配图的装置的结构示意图;
图9是本发明实施例提供的一种给音频数据配图的装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种给音频数据配图的方法,该方法可以由服务器执行。其中,服务器可以是音乐播放应用程序的后台服务器。
服务器可以包括收发器、处理器、存储器等部件。其中,收发器用于与终端进行数据传输,例如可以接收多个终端发送的携带有图像数据的对应所述目标音频数据的配图请求,收发器可以包括WiFi(Wireless-Fidelity,无线高保真技术)部件、天线、匹配电路、调制解调器等。处理器,可以为CPU(Central Processing Unit,中央处理单元)等,可以用于确定目标特征信息分别与存储的每个图像数据对应的特征信息的相似度等。存储器,可以为RAM(Random Access Memory,随机存取存储器),Flash(闪存)等,可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等,如可以存储图像数据库中每个图像数据的特征信息等。
如图1所示,该方法的处理流程可以如下:
在步骤101中,服务器将多个图像数据分别输入指定的特征提取模型,得到每个图像数据对应的特征信息,进行存储,其中,特征信息包括音频类型信息。
其中,特征提取模型可以是通过机器学习的算法预先训练的,其训练过程下文将会详细介绍。向该特征提取模型中输入图像数据可以得到与该图像数据相对应的特征信息,该特征信息可以包括音频类型信息和图像特征信息,音频类型信息可以用特征向量表示。特征向量中的每个元素分别对应图像数据与一种预设音乐类型的关联概率值,如该图像数据与经典音乐的关联概率值、该图像数据与嘻哈音乐的关联概率值等。特征向量中的多个元素中还可以既包括表示图像特征信息的元素又包括表示音频类型信息的元素,例如,特征向量中的元素要么对应一种预设图像元素在该图像数据中的存在概率值,要么对应该相关联图像数据与一种预设音乐类型的关联概率值。可见,图像数据对应的特征信息可以包括音频类型信息,还可以包括图像特征信息。
例如,图像数据M对应的特征向量M(P1,P2,P3,P4,P5……)中P1表示图像数据M与经典音乐类型的关联概率值,P2表示图像数据M与嘻哈音乐类型的关联概率值,P3表示图像数据M与安静音乐类型的关联概率值,P4表示歌手王菲的图像元素在图像数据M中的存在概率值,P5表示歌手那英的图像元素在图像数据M中的存在概率值。
这样,服务器可以通过预先训练的特征提取模型得到图像数据库中每一个图像数据的特征向量,并对这些特征向量进行存储。
由上述可知,特征提取模型是通过机器学习的算法预先训练的,其训练过程可以按照如图2所示的流程进行:
在步骤201中,服务器获取多个样本音频数据的相关联图像数据的图像元素和音乐类型。
其中,在解释样本音频数据的相关联图像数据之前,首先解释一下音频数据的相关联图像数据。音频数据可以是音乐数据,如一首歌曲。多个音频数据可以形成一个音频数据表单,如多个相关的歌曲可以组成一个歌单,每一个歌单如图3所示,都包括一张用来表示该歌单风格或者类型的图像,该图像可以称为该歌单的封面图,而通常一首歌曲可以出现在多个歌单里面,例如,歌曲A可以出现经典类型的歌单中,还可以出现在安静类型的歌单中,还可以出现在伤感类型的歌单中等等,那么这些歌单都会有一张封面图,这些封面图可以统称为歌曲A的相关联图像数据,当然,相关联图像数据还可以包括该歌曲A的宣传海报,所属专辑的封面图等。
所以,样本音频数据的相关联图像数据可以是与样本音频数据相关的图像数据,例如,样本音频数据所属样本音频数据表单的封面图对应的图像数据,样本音频数据的宣传海报对应的图像数据等。样本音频数据的音乐类型顾名思义是该样本音频数据所属的音乐类型,如经典类型、嘻哈类型、安静类型等等。这样,技术人员可以将多个样本音频数据的相关联图像数据和音乐类型输入到服务器对应的终端中,进而,服务器可以获取多个样本音频数据的相关联图像数据和音乐类型。
在步骤202中,服务器基于每个样本音频数据的图像元素和音乐类型,生成每个样本音频数据的相关联图像数据对应的特征向量。
在一种可能的实施例中,服务器获取到多个样本音频数据的相关联图像数据的图像元素和音乐类型之后,可以基于每个样本音频数据的图像元素和音乐类型,生成每个样本音频数据的相关联图像数据对应的特征向量。
其中,如果特征信息包括图像特征信息和音频类型信息,相应的,服务器基于每个样本音频数据的音乐类型,以及每个样本音频数据的相关联图像数据的图像元素,生成每个样本音频数据的相关联图像数据对应的特征向量。
在步骤203中,服务器将每个样本音频数据的相关联图像数据和对应的特征向量,作为训练样本,对初始特征提取模型进行训练,得到特征提取模型。
在一种可能的实施例中,技术人员可以将每个样本音频数据的相关联图像数据和对应的特征向量,作为训练样本,输入到初始特征提取模型中,进而服务器对训练样本进行训练,得到特征提取模型。
在步骤102中,服务器获取目标音频数据,并获取目标音频数据的多个相关联图像数据。
其中,目标音频数据为待配图的音频数据,该目标音频数据可以是用户上传的,请求服务器为其配图的音频数据,还可以是,服务器公开的一首音频数据。服务器可以获取一个目标音频数据,还可以获取多个目标音频数据,一个目标音频数据或者多个目标音频数据都可以放在一个目标音频数据表单中。
在实施中,当服务器获取到待配图的目标音频数据之后,进一步,获取目标音频数据的多个相关联图像数据,多个相关联图像数据也即是所有与目标音频数据相关的图像数据,例如,目标音频数据所有的所属音频数据表单的封面图,目标音频数据的宣传海报,以及目标音频数据所属专辑的封面图等。
在步骤103中,服务器将多个相关联图像数据输入特征提取模型,得到每个相关联图像数据对应的特征信息。
在步骤104中,服务器基于每个相关联图像数据对应的特征信息,确定目标音频数据对应的目标特征信息。
在实施中,服务器获取上述所有的对应目标音频数据的相关联图像数据之后,基于多个相关联图像数据和特征提取模型,确定目标音频数据对应的目标特征信息。具体的可以如下:
服务器首先分别将上述所有的多个相关联图像数据输入特征提取模型,得到每个相关联图像数据对应的特征信息。然后,基于每个相关联图像数据对应的特征信息,确定目标音频数据对应的目标特征信息,例如,如上述所述,特征信息为特征向量,目标特征信息为目标特征向量,那么服务器可以计算所有相关联图像数据对应的特征向量的平均特征向量,将平均特征向量作为目标音频数据对应的目标特征信息,例如,特征向量的数量为两个,那么这两个特征向量的平均特征向量为由这两个特征向量中各个元素的平均值组成的特征向量。当然,服务器还可以利用加权计算公式计算目标特征向量,例如,服务器给每一个相关联图像数据一个相对应的权重系数,然后这些相关联图像数据的特征向量乘以各自的权重系数,之后累加便可以得到,由所有特征向量加权之后的特征向量,加权之后的特征向量即为目标音频数据对应的目标特征信息。
在步骤105中,服务器确定目标特征信息分别与存储的每个图像数据对应的特征信息的相似度。
其中,相似度表示两个数据的相似程度。
在实施中,服务器将目标图像数据输入特征提取模型得到对应的目标特征信息之后,进一步确定目标特征信息分别与存储的每个图像数据对应的特征信息的相似度。其中,如上述所述,目标特征信息是服务器获取到的目标图像数据对应的特征信息,目标特征信息是目标特征向量,存储的特征信息是服务器的图像数据库每个图像数据对应的特征信息,特征信息是特征向量。这样,可以确定目标特征向量分别与存储的每个特征向量的相似度。
在步骤106中,服务器在多个图像数据中选取对应相似度最大的图像数据,作为目标音频数据的配图。
在一种实施例中,服务器确定在多个图像数据中选取对应相似度最大的图像数据之后,便将与目标音频数据的相似度最大的图像数据作为该目标音频数据的配图。
这样,在一个实施例中,技术人员在为音乐播放应用程序中的歌曲或者歌单配图时,只需将待配图的目标音频数据发送给服务器,服务器可以根据目标音频数据的目标特征信息以及储存的多个图像数据的特征信息,在多个图像数据中选取对应相似度最大的图像数据,作为目标音频数据的配图。这样,技术人员在为音频数据配图时,无需手动添加本地储存的图片,进而可以提高给音频数据配图的灵活性。
在另一个可能的实施例中,使用上述音乐播放应用程序播放音乐的用户也可以使用上述方法为歌单配图。例如,用户登入上述音乐播放应用程序之后,可以使用上述方法为新建的歌单配图,具体的,用户只需将目标音频数据移到歌单中,服务器可以根据目标音频数据的目标特征信息以及储存的多个图像数据的特征信息,在多个图像数据中选取对应相似度最大的图像数据,作为目标音频数据的配图。这样,用户在为音频数据配图时,无需手动添加本地储存的图片,进而可以提高给音频数据配图的灵活性。
可选的,由上述可知,特征信息为特征向量,目标特征信息为目标特征向量,那么可以利用两个向量之间的闵式距离来比较两者之间的相似度,具体的,将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定目标特征向量分别与每个特征向量的相似度ρ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
其中,相似度ρ越大,两个特征向量越相似。
可选的,向量具有方向性服务器还可以利用两个向量之间的夹角余弦值来比较两者的相似度,相应的,将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定目标特征向量分别与每个特征向量的相似度cosθ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
其中,相似度cosθ的取值范围在-1至+1之间,那么,相似度cosθ越接近于1,两个特征向量越相似。
需要指出的是,上述的特征向量可以是一个特征向量还可以是一组特征向量,例如,如果是一组特征向量,如特征向量组E和特征向量组F比较相似度,则在利用上述的相似度公式计算时,可以将特征向量组E中的每一个特征向量首尾相连组成一个特征向量E’,将特征向量组F中的每一个特征向量首尾相连组成一个特征向量F’,然后,计算特征向量E’与特征向量F’之间的相似度,特征向量E’与特征向量F’之间的相似度即为特征向量组E和特征向量组F之间的相似度。又例如,如果是一组特征向量,还以特征向量组E和特征向量组F比较相似度示例,也可以先计算特征向量组E中的第i个特征向量Ei与特征向量组F中的第i个特征向量Fi之间的相似度,这样可以得到多个相似度,之后,再由这些相似度计算一个平均的相似度,这个平均的相似度即为特征向量组E和特征向量组F之间的相似度。
这样,服务器基于上述闵式距离的算法或者夹角余弦值的算法计算出目标特征向量与多个特征向量之间的相似度之后,确定一个与目标音频数据相似度最大的图像数据,将该图像数据作为目标音频数据的配图。
可选的,服务器不仅可以为目标音频数据配图,还可以基于目标音频数据为用户上传的图像数据进行排名,提高用户使用音频播放应用程序的趣味性,相应的,如图4所示,该方法还可以包括如下步骤:
在步骤401中,服务器接收至少一个终端发送的携带有图像数据的对应目标音频数据的配图请求。
在实施中,用户登录音频播放应用程序之后,进入如图5所示的界面,可以点击某一首歌曲试听,例如,点击目标音频数据,听完之后,用户可以点击“拍照上传照片”选项,从终端本地选择一张图像数据,向服务器发送携带有图像数据的对应目标音频数据的配图请求。这样,服务器可以接收多个终端发送的携带有图像数据的对应目标音频数据的配图请求。需要说明的是,在该对应目标音频数据的配图请求中,包括目标音频数据的标识以及终端的登录账户,其中,登录账户可以是用户在音频播放应用程序中登录的账户。
在步骤402中,服务器分别将多个配图请求携带的图像数据输入特征提取模型,得到每个图像数据对应的特征信息。
服务器接收到多个终端发送的携带有图像数据的对应目标音频数据的配图请求之后,分别将多个配图请求携带的图像数据输入特征提取模型,得到每个图像数据对应的特征信息。
在步骤403中,服务器确定目标特征信息分别与每个图像数据对应的特征信息的相似度。
由上述所述,特征信息为特征向量,目标特征信息为目标特征向量,则服务器进一步将目标音频数据对应的目标特征向量分别与每个图像数据对应的特征向量,利用闵式距离或者夹角余弦值算法,确定目标特征向量分别与每个特征向量的相似度。
在步骤404中,服务器基于每个图像数据对应的相似度,确定图像数据排名列表。
服务器计算出每个图像数据对应的特征向量与目标音频数据对应的目标特征向量之后,进一步,根据相似度的大小,对这些图像数据进行排序,确定由这些图像数据组成的图像数据排名列表。
在步骤405中,服务器将图像数据排名列表分别发送给至少一个终端。
服务器确定图像数据排名列表之后,将图像数据排名列表分别发送给多个终端。终端接收到图像数据排名列表之后,可以查看自己为目标音频数据配的图所处的名次,并不断提升自己的排名,进而可以提升用户使用音频播放应用程序的趣味性,进一步可以激励用户使用该音频播放应用程序,从而可以提高该音频播放应用程序的存留率。
可选的,服务器确定图像数据排名列表之后,还可以进一步确定第一名的图像数据对应的用户,进而可以将第一名的图像数据对应的用户评为“最懂目标音频数据的用户”。
本发明实施例中,技术人员在使用上述方法为音频数据配图时,只需将待配图的目标音频数据发送给服务器,服务器可以根据目标音频数据的目标特征信息以及储存的多个图像数据的特征信息,在多个图像数据中选取对应相似度最大的图像数据,作为目标音频数据的配图。这样,技术人员在为音频数据配图时,无需手动添加本地储存的图片,进而可以提高给音频数据配图的灵活性。
根据本发明实施例,还提供了一种给音频数据配图的装置,如图6所示,所述装置包括:
储存模块610,用于将多个图像数据分别输入指定的特征提取模型,得到每个图像数据对应的特征信息,进行存储,其中,所述特征信息包括音频类型信息和图像特征信息;
第一确定模块620,用于获取目标音频数据,并获取所述目标音频数据的多个相关联图像数据,将所述多个相关联图像数据输入所述特征提取模型,得到每个所述相关联图像数据对应的特征信息,基于每个所述相关联图像数据对应的特征信息,确定所述目标音频数据对应的目标特征信息;
第二确定模块630,用于确定所述目标特征信息分别与存储的每个图像数据对应的特征信息的相似度;
配图模块640,用于在所述多个图像数据中选取对应相似度最大的图像数据,作为所述目标音频数据的配图。
可选的,所述特征信息为特征向量,所述特征向量中的每个元素分别对应所述图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述图像数据中的存在概率值。
可选的,如图7所示,所述特征提取模型为预先训练的特征提取模型;
所述装置还包括:
获取模块710,用于获取多个样本音频数据的相关联图像数据的图像元素和音乐类型;
生成模块720,用于基于每个样本音频数据的音乐类型和每个相关联图像数据的图像元素,生成每个样本音频数据的相关联图像数据对应的特征向量;
训练模块730,用于将每个样本音频数据的相关联图像数据和对应的特征向量,作为训练样本,对初始特征提取模型进行训练,得到所述特征提取模型。
可选的,所述特征信息为特征向量,所述目标特征信息为目标特征向量。
可选的,第二确定模块630,用于:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度ρ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
可选的,第二确定模块630,用于:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度cosθ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
可选的,如图8所示,所述装置还包括:
接收模块810,用于接收至少一个终端发送的携带有图像数据的对应所述目标音频数据的配图请求;
第三确定模块820,用于分别将多个所述配图请求携带的图像数据输入所述特征提取模型,得到每个所述图像数据对应的特征信息;
第四确定模块830,用于确定所述目标特征信息分别与每个图像数据对应的特征信息的相似度;
确定排名模块840,用于基于每个图像数据对应的相似度,确定图像数据排名列表;
发送模块850,用于将所述图像数据排名列表分别发送给所述至少一个终端。
可选的,所述目标音频数据的相关联图像数据为所述目标音频数据所属的音频数据表单的封面图。
需要说明的是:上述实施例提供的给音频数据配图的装置在给音频数据配图时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的给音频数据配图的装置与给音频数据配图的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9是本发明实施例提供的一种计算机设备的结构示意图,该计算机设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)901和一个或一个以上的存储器902,其中,所述存储器902中存储有至少一条指令,所述至少一条指令由所述处理器901加载并执行以实现下述确定用户特征数据的方法步骤:
将多个图像数据分别输入指定的特征提取模型,得到每个图像数据对应的特征信息,进行存储,其中,所述特征信息包括音频类型信息和图像特征信息;
获取目标音频数据,并获取所述目标音频数据的多个相关联图像数据;
将所述多个相关联图像数据输入所述特征提取模型,得到每个所述相关联图像数据对应的特征信息;
基于每个所述相关联图像数据对应的特征信息,确定所述目标音频数据对应的目标特征信息;
确定所述目标特征信息分别与存储的每个图像数据对应的特征信息的相似度;
在所述多个图像数据中选取对应相似度最大的图像数据,作为所述目标音频数据的配图。
可选的,所述特征信息为特征向量,所述特征向量中的每个元素分别对应所述图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述图像数据中的存在概率值。
可选的,所述特征提取模型为预先训练的特征提取模型;
所述至少一条指令由所述处理器901加载并执行以实现下述方法步骤:
获取多个样本音频数据的相关联图像数据的图像元素和音乐类型;
基于每个样本音频数据的音乐类型和每个相关联图像数据的图像元素,生成每个样本音频数据的相关联图像数据对应的特征向量;
将每个样本音频数据的相关联图像数据和对应的特征向量,作为训练样本,对初始特征提取模型进行训练,得到所述特征提取模型。
可选的,所述特征信息为特征向量,所述目标特征信息为目标特征向量。
可选的,所述至少一条指令由所述处理器901加载并执行以实现下述方法步骤:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度ρ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
可选的,所述至少一条指令由所述处理器901加载并执行以实现下述方法步骤:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度cosθ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
可选的,所述至少一条指令由所述处理器901加载并执行以实现下述方法步骤:
接收至少一个终端发送的携带有图像数据的对应所述目标音频数据的配图请求;
分别将多个所述配图请求携带的图像数据输入所述特征提取模型,得到每个所述图像数据对应的特征信息;
确定所述目标特征信息分别与每个图像数据对应的特征信息的相似度;
基于每个图像数据对应的相似度,确定图像数据排名列表;
将所述图像数据排名列表分别发送给所述至少一个终端。
可选的,所述目标音频数据的相关联图像数据为所述目标音频数据所属的音频数据表单的封面图。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种给音频数据配图的方法,其特征在于,所述方法包括:
将多个图像数据分别输入指定的特征提取模型,得到每个图像数据对应的特征信息,进行存储,其中,所述特征信息包括音频类型信息和图像特征信息;
获取目标音频数据,并获取所述目标音频数据的多个相关联图像数据;
将所述多个相关联图像数据输入所述特征提取模型,得到每个所述相关联图像数据对应的特征信息;
基于每个所述相关联图像数据对应的特征信息,确定所述目标音频数据对应的目标特征信息;
确定所述目标特征信息分别与存储的每个图像数据对应的特征信息的相似度;
在所述多个图像数据中选取对应相似度最大的图像数据,作为所述目标音频数据的配图。
2.根据权利要求1所述的方法,其特征在于,所述特征信息为特征向量,所述特征向量中的每个元素分别对应所述图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述图像数据中的存在概率值。
3.根据权利要求2所述的方法,其特征在于,所述特征提取模型为预先训练的特征提取模型;
所述方法还包括:
获取多个样本音频数据的相关联图像数据的图像元素和音乐类型;
基于每个样本音频数据的音乐类型和每个相关联图像数据的图像元素,生成每个样本音频数据的相关联图像数据对应的特征向量;
将每个样本音频数据的相关联图像数据和对应的特征向量,作为训练样本,对初始特征提取模型进行训练,得到所述特征提取模型。
4.根据权利要求1所述的方法,其特征在于,所述特征信息为特征向量,所述目标特征信息为目标特征向量。
5.根据权利要求4所述的方法,其特征在于,所述确定所述目标特征信息分别与存储的每个图像数据对应的特征信息的相似度,包括:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度ρ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
6.根据权利要求4所述的方法,其特征在于,所述确定所述目标特征信息分别与存储的每个图像数据对应的特征信息的相似度,包括:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度cosθ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收至少一个终端发送的携带有图像数据的对应所述目标音频数据的配图请求;
分别将多个所述配图请求携带的图像数据输入所述特征提取模型,得到每个所述图像数据对应的特征信息;
确定所述目标特征信息分别与每个图像数据对应的特征信息的相似度;
基于每个图像数据对应的相似度,确定图像数据排名列表;
将所述图像数据排名列表分别发送给所述至少一个终端。
8.根据权利要求1所述的方法,其特征在于,所述目标音频数据的相关联图像数据为所述目标音频数据所属的音频数据表单的封面图。
9.一种给音频数据配图的装置,其特征在于,所述装置包括:
储存模块,用于将多个图像数据分别输入指定的特征提取模型,得到每个图像数据对应的特征信息,进行存储,其中,所述特征信息包括音频类型信息和图像特征信息;
第一确定模块,用于获取目标音频数据,并获取所述目标音频数据的多个相关联图像数据,将所述多个相关联图像数据输入所述特征提取模型,得到每个所述相关联图像数据对应的特征信息,基于每个所述相关联图像数据对应的特征信息,确定所述目标音频数据对应的目标特征信息;
第二确定模块,用于确定所述目标特征信息分别与存储的每个图像数据对应的特征信息的相似度;
配图模块,用于在所述多个图像数据中选取对应相似度最大的图像数据,作为所述目标音频数据的配图。
10.根据权利要求9所述的装置,其特征在于,所述特征信息为特征向量,所述特征向量中的每个元素分别对应所述图像数据与一种预设音乐类型的关联概率值或者对应一种预设图像元素在所述图像数据中的存在概率值。
11.根据权利要求10所述的装置,其特征在于,所述特征提取模型为预先训练的特征提取模型;
所述装置还包括:
获取模块,用于获取多个样本音频数据的相关联图像数据的图像元素和音乐类型;
生成模块,用于基于每个样本音频数据的音乐类型和每个相关联图像数据的图像元素,生成每个样本音频数据的相关联图像数据对应的特征向量;
训练模块,用于将每个样本音频数据的相关联图像数据和对应的特征向量,作为训练样本,对初始特征提取模型进行训练,得到所述特征提取模型。
12.根据权利要求9所述的装置,其特征在于,所述特征信息为特征向量,所述目标特征信息为目标特征向量。
13.根据权利要求12所述的装置,其特征在于,所述第二确定模块,用于:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度ρ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
14.根据权利要求12所述的装置,其特征在于,所述第二确定模块,用于:
将目标特征向量A分别与每个特征向量B,输入相似度计算公式确定所述目标特征向量分别与每个所述特征向量的相似度cosθ,其中,ai为特征向量A中第i个元素,bi为特征向量B中第i个元素。
15.根据权利要求9所述的装置,其特征在于,所述装置还包括:
接收模块,用于接收至少一个终端发送的携带有图像数据的对应所述目标音频数据的配图请求;
第三确定模块,用于分别将多个所述配图请求携带的图像数据输入所述特征提取模型,得到每个所述图像数据对应的特征信息;
第四确定模块,用于确定所述目标特征信息分别与每个图像数据对应的特征信息的相似度;
确定排名模块,用于基于每个图像数据对应的相似度,确定图像数据排名列表;
发送模块,用于将所述图像数据排名列表分别发送给所述至少一个终端。
16.根据权利要求9所述的装置,其特征在于,所述目标音频数据的相关联图像数据为所述目标音频数据所属的音频数据表单的封面图。
17.一种给音频数据配图的装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1-8任一所述的给音频数据配图的方法。
18.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1-8任一所述的给音频数据配图的方法。
CN201811103156.7A 2018-09-20 2018-09-20 给音频数据配图的方法和装置 Active CN109284412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811103156.7A CN109284412B (zh) 2018-09-20 2018-09-20 给音频数据配图的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811103156.7A CN109284412B (zh) 2018-09-20 2018-09-20 给音频数据配图的方法和装置

Publications (2)

Publication Number Publication Date
CN109284412A true CN109284412A (zh) 2019-01-29
CN109284412B CN109284412B (zh) 2021-12-24

Family

ID=65181249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811103156.7A Active CN109284412B (zh) 2018-09-20 2018-09-20 给音频数据配图的方法和装置

Country Status (1)

Country Link
CN (1) CN109284412B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209844A (zh) * 2019-05-17 2019-09-06 腾讯音乐娱乐科技(深圳)有限公司 多媒体数据匹配方法、装置和存储介质
CN112685575A (zh) * 2020-12-04 2021-04-20 联想(北京)有限公司 一种信息识别方法及设备
CN113241198A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 用户数据处理方法、装置、设备及存储介质
CN114025235A (zh) * 2021-11-12 2022-02-08 北京捷通华声科技股份有限公司 视频生成方法、装置、电子设备及存储介质
CN114154003A (zh) * 2021-11-11 2022-03-08 北京达佳互联信息技术有限公司 图片的获取方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100241525A1 (en) * 2009-03-18 2010-09-23 Microsoft Corporation Immersive virtual commerce
CN101950302A (zh) * 2010-09-29 2011-01-19 李晓耕 基于移动设备的海量音乐库管理方法
CN103457946A (zh) * 2013-08-29 2013-12-18 小米科技有限责任公司 封面匹配方法、装置和终端设备
CN103793447A (zh) * 2012-10-26 2014-05-14 汤晓鸥 音乐与图像间语义相识度的估计方法和估计系统
CN105159639A (zh) * 2015-08-21 2015-12-16 小米科技有限责任公司 音频封面显示方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100241525A1 (en) * 2009-03-18 2010-09-23 Microsoft Corporation Immersive virtual commerce
CN101950302A (zh) * 2010-09-29 2011-01-19 李晓耕 基于移动设备的海量音乐库管理方法
CN103793447A (zh) * 2012-10-26 2014-05-14 汤晓鸥 音乐与图像间语义相识度的估计方法和估计系统
CN103457946A (zh) * 2013-08-29 2013-12-18 小米科技有限责任公司 封面匹配方法、装置和终端设备
CN105159639A (zh) * 2015-08-21 2015-12-16 小米科技有限责任公司 音频封面显示方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209844A (zh) * 2019-05-17 2019-09-06 腾讯音乐娱乐科技(深圳)有限公司 多媒体数据匹配方法、装置和存储介质
CN110209844B (zh) * 2019-05-17 2021-08-31 腾讯音乐娱乐科技(深圳)有限公司 多媒体数据匹配方法、装置和存储介质
CN112685575A (zh) * 2020-12-04 2021-04-20 联想(北京)有限公司 一种信息识别方法及设备
CN113241198A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 用户数据处理方法、装置、设备及存储介质
CN113241198B (zh) * 2021-05-31 2023-08-08 平安科技(深圳)有限公司 用户数据处理方法、装置、设备及存储介质
CN114154003A (zh) * 2021-11-11 2022-03-08 北京达佳互联信息技术有限公司 图片的获取方法、装置及电子设备
CN114025235A (zh) * 2021-11-12 2022-02-08 北京捷通华声科技股份有限公司 视频生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109284412B (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN109284412A (zh) 给音频数据配图的方法和装置
CN108197532B (zh) 人脸识别的方法、装置及计算机装置
CN110278388A (zh) 展示视频的生成方法、装置、设备及存储介质
CN108595628A (zh) 用于推送信息的方法和装置
CN109086719A (zh) 用于输出数据的方法和装置
CN110135850A (zh) 一种信息处理方法和相关装置
CN110199348A (zh) 口音转化
CN109255036A (zh) 用于输出信息的方法和装置
CN109919244A (zh) 用于生成场景识别模型的方法和装置
CN105959207A (zh) 音视频分享方法及装置
CN109189976A (zh) 搜索音频数据的方法和装置
CN109446442A (zh) 用于处理信息的方法和装置
CN109117758A (zh) 用于生成信息的方法和装置
CN110414593A (zh) 图像处理方法及装置、处理器、电子设备及存储介质
CN109582825A (zh) 用于生成信息的方法和装置
US11373057B2 (en) Artificial intelligence driven image retrieval
CN111405314B (zh) 一种信息处理方法、装置、设备及存储介质
CN109640176A (zh) 用于生成信息的方法和装置
WO2015148420A1 (en) User inactivity aware recommendation system
CN109413056A (zh) 用于处理信息的方法和装置
CN111859970B (zh) 用于处理信息的方法、装置、设备和介质
US8818337B2 (en) Application of community-defined descriptors to mobile content
CN111782933A (zh) 用于推荐书单的方法和装置
CN116431915A (zh) 一种基于联邦学习和注意力机制的跨域推荐方法与装置
CN109271397A (zh) 用于处理信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant