CN112287160B - 一种音频数据的排序方法、装置、计算机设备和存储介质 - Google Patents
一种音频数据的排序方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112287160B CN112287160B CN202011170097.2A CN202011170097A CN112287160B CN 112287160 B CN112287160 B CN 112287160B CN 202011170097 A CN202011170097 A CN 202011170097A CN 112287160 B CN112287160 B CN 112287160B
- Authority
- CN
- China
- Prior art keywords
- vector
- audio data
- user
- entity
- preference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 393
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000005065 mining Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Abstract
本发明实施例提供了一种音频数据的排序方法、装置、计算机设备和存储介质,该方法包括:对用户播放的音频数据生成播放列表,音频数据中具有实体,对播放列表进行编码,获得表征音频数据的第一向量、表征实体的第二向量,根据第一向量生成表征用户的第三向量,根据第一向量生成表征用户对音频数据偏好的第四向量,根据第二向量生成表征用户对音频数据偏好的第五向量,至少将第一向量、第二向量、第三向量、第四向量与第五向量输入提升树模型进行训练,以对音频数据进行排序,自动抽取特征,避免了人工特征工程,大大降低了技术门槛,降低了成本,再者,引入用户播放音频数据的播放列表可以捕捉用户的兴趣变化。
Description
技术领域
本发明实施例涉及计算机处理的技术领域,尤其涉及一种音频数据的排序方法、装置、计算机设备和存储介质。
背景技术
随着媒体娱乐的快速发展,尤其是移动终端的普及使得音频数据的制作成本大幅下降,用户可以随时随地制作音频数据并大量上传至媒体平台进行公开,使得各个媒体平台中聚合了大量的音频数据。
对于海量的音频数据,媒体平台会筛选用户用户可能感兴趣的音频数据,按照一定的方式排序并推送给用户,使得用户更加便捷地获取到可能感兴趣的音频数据。
目前,对音频数据排序的方式主要包括如下三种:
1、LR(Logistic Regression,逻辑回归)模型
在此方式中,通过人工特征工程抽取大量特征,将这些特征输入LR模型中对媒体节目进行排序。
但是,LR模型抽取特征需要依赖较多的业务知识,技术门槛高,成本高,并且,LR模型是一个线性模型,学习能力弱,处理高维特征的能力较低,导致排序的精确度较低。
2、Wide&Deep(宽度和深度)模型
Wide&Deep模型的核心思想是结合广义线性模型的记忆能力(memorization)和深度前馈神经网络模型的泛化能力(generalization)。利用广义线性模型从历史数据中学习特征相关性,利用深度前馈神经网络揭示隐式特征之间的相互作用。
但是,Wide模型的输入,依旧依赖人工特征工程,需要依赖较多的业务知识,技术门槛高,成本高。
发明内容
本发明实施例提出了一种音频数据的排序方法、装置、计算机设备和存储介质,以解决如何降低对音频数据排序的成本的问题。
第一方面,本发明实施例提供了一种音频数据的排序方法,包括:
对用户播放的音频数据生成播放列表,所述音频数据中具有实体;
对所述播放列表进行编码,获得表征所述音频数据的第一向量、表征所述实体的第二向量;
根据所述第一向量生成表征所述用户的第三向量;
根据所述第一向量生成表征所述用户对音频数据偏好的第四向量;
根据所述第二向量生成表征所述用户对音频数据偏好的第五向量;
至少将所述第一向量、所述第二向量、所述第三向量、所述第四向量与所述第五向量输入提升树模型进行训练,以对所述音频数据进行排序。
可选地,所述对用户播放的音频数据生成播放列表,包括:
若用户播放音频数据,则记录播放所述音频数据的时间戳、播放所述音频数据的时长;
依次将所述音频数据按照所述时间戳排列,形成播放列表;
若播放所述音频数据的时长小于预设的第一阈值,则在所述播放列表中滤除所述音频数据;
若相邻两个所述音频数据的所述时间戳之间的差值大于预设的第二阈值,则在相邻两个所述音频数据之间切断所述播放列表。
可选地,所述对所述播放列表进行编码,获得表征所述音频数据的第一向量、表征所述实体的第二向量,包括:
将所述实体写入所述播放列表中、所述音频数据的信息之前;
若写入完成,则将所述播放列表输入词向量模型进行训练,以输出表征所述音频数据的第一向量、表征所述实体的第二向量。
可选地,所述根据所述第一向量生成表征所述用户的第三向量,包括:
提取所述用户最新的所述播放列表,作为目标列表;
对所述目标列表中的各个所述第一向量配置权重;
对已配置所述权重的所述第一向量计算平均值,作为表征所述用户的第三向量。
可选地,所述根据所述第一向量生成表征所述用户对音频数据偏好的第四向量,包括:
提取所述用户最新的所述播放列表,作为目标列表;
在所述目标列表中提取最新的多个所述第一向量,作为目标向量;
计算所述目标向量与属于所述用户的其他所述第一向量计算相似度,作为表征所述用户对音频数据偏好的第四向量。
可选地,所述根据所述第二向量生成表征所述用户对音频数据偏好的第五向量,包括:
查找所述用户的实体画像,所述实体画像中具有实体、所述用户对所述实体画像中实体的偏好度;
计算第一候选向量与所述第一候选向量对应的偏好度之间的乘积,作为第一参考向量,所述第一候选向量为所述实体画像中与所述音频数据均具有的实体对应的第二向量;
从第二候选向量与第三候选向量的乘积、所述第一候选向量与所述第三候选向量的乘积中取最大值,作为第二参考向量,所述第二候选向量为所述实体画像中除所述第一候选向量之外的其他实体对应的第二向量,所述第三候选向量为所述音频数据中除所述第一候选向量之外的其他实体对应的第二向量;
计算所述第二参考向量与所述第三候选向量之间的乘积,作为第四参考向量;
计算所述第一参考向量与所述第四参考向量之间的和值,作为表征所述用户对音频数据偏好的第五向量。
可选地,在所述对用户播放的音频数据生成播放列表之后,还包括:
从所有所述用户的所述播放列表中挖掘频繁子图;
将所述频繁子图中的所述音频数据随机打乱,以针对所有所述用户生成新的播放列表。
第二方面,本发明实施例还提供了一种音频数据的排序装置,包括:
播放列表生成模块,用于对用户播放的音频数据生成播放列表,所述音频数据中具有实体;
播放列表编码模块,用于对所述播放列表进行编码,获得表征所述音频数据的第一向量、表征所述实体的第二向量;
用户向量生成模块,用于根据所述第一向量生成表征所述用户的第三向量;
音频偏好向量生成模块,用于根据所述第一向量生成表征所述用户对音频数据偏好的第四向量;
实体偏好向量生成模块,用于根据所述第二向量生成表征所述用户对音频数据偏好的第五向量;
音频排序模块,用于至少将所述第一向量、所述第二向量、所述第三向量、所述第四向量与所述第五向量输入提升树模型进行训练,以对所述音频数据进行排序。
可选地,所述播放列表生成模块还用于:
若用户播放音频数据,则记录播放所述音频数据的时间戳、播放所述音频数据的时长;
依次将所述音频数据按照所述时间戳排列,形成播放列表;
若播放所述音频数据的时长小于预设的第一阈值,则在所述播放列表中滤除所述音频数据;
若相邻两个所述音频数据的所述时间戳之间的差值大于预设的第二阈值,则在相邻两个所述音频数据之间切断所述播放列表。
可选地,所述播放列表编码模块还用于:
将所述实体写入所述播放列表中、所述音频数据的信息之前;
若写入完成,则将所述播放列表输入词向量模型进行训练,以输出表征所述音频数据的第一向量、表征所述实体的第二向量。
可选地,所述用户向量生成模块还用于:
提取所述用户最新的所述播放列表,作为目标列表;
对所述目标列表中的各个所述第一向量配置权重;
对已配置所述权重的所述第一向量计算平均值,作为表征所述用户的第三向量。
可选地,所述音频偏好向量生成模块还用于:
提取所述用户最新的所述播放列表,作为目标列表;
在所述目标列表中提取最新的多个所述第一向量,作为目标向量;
计算所述目标向量与属于所述用户的其他所述第一向量计算相似度,作为表征所述用户对音频数据偏好的第四向量。
可选地,所述实体偏好向量生成模块还用于:
查找所述用户的实体画像,所述实体画像中具有实体、所述用户对所述实体画像中实体的偏好度;
计算第一候选向量与所述第一候选向量对应的偏好度之间的乘积,作为第一参考向量,所述第一候选向量为所述实体画像中与所述音频数据均具有的实体对应的第二向量;
从第二候选向量与第三候选向量的乘积、所述第一候选向量与所述第三候选向量的乘积中取最大值,作为第二参考向量,所述第二候选向量为所述实体画像中除所述第一候选向量之外的其他实体对应的第二向量,所述第三候选向量为所述音频数据中除所述第一候选向量之外的其他实体对应的第二向量;
计算所述第二参考向量与所述第三候选向量之间的乘积,作为第四参考向量;
计算所述第一参考向量与所述第四参考向量之间的和值,作为表征所述用户对音频数据偏好的第五向量。
可选地,还包括:
频繁子图挖掘模块,用于从所有所述用户的所述播放列表中挖掘频繁子图;
频繁子图乱序模块,用于将所述频繁子图中的所述音频数据随机打乱,以针对所有所述用户生成新的播放列表。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的音频数据的排序方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方中任一项所述的音频数据的排序方法。
在本实施例中,对用户播放的音频数据生成播放列表,音频数据中具有实体,对播放列表进行编码,获得表征音频数据的第一向量、表征实体的第二向量,根据第一向量生成表征用户的第三向量,根据第一向量生成表征用户对音频数据偏好的第四向量,根据第二向量生成表征用户对音频数据偏好的第五向量,至少将第一向量、第二向量、第三向量、第四向量与第五向量输入提升树模型进行训练,以对音频数据进行排序,自动抽取特征,避免了人工特征工程,大大降低了技术门槛,降低了成本,再者,引入用户播放音频数据的播放列表可以捕捉用户的兴趣变化,此外,提升树模型支持高维度特征的训练,将多个模态的特征在提升树模型中融合,可以提高排序的精确度。
附图说明
图1为本发明实施例一提供的一种音频数据的排序方法的流程图;
图2为本发明实施例一提供的一种播放列表的示例图;
图3为本发明实施例二提供的一种音频数据的排序装置的结构示意图;
图4为本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种音频数据的排序方法的流程图,该方法可以由音频数据的排序装置来执行,该音频数据的排序装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,服务器、个人电脑,等等,具体包括如下步骤:
步骤101、对用户播放的音频数据生成播放列表。
在本实施例中,用户(以ID等数据表示)访问媒体平台时,媒体平台可使用日志文件记录用户的行为,包括记录用户播放音频数据的行为。
其中,音频数据中具有实体,针对不同类型的音频数据,实体的形式也有所不同,例如,若音频数据的类型为歌曲,则该实体可以演唱该歌曲的歌手、歌曲的名称、歌词中出现的物体,等等,又例如,若音频数据的类型为有声小说,则该实体可以演说该有声小说的播音、小说的名称、小说中出现的角色,等等。
将用户已播放的音频数据按照时间顺序进行排列,可生成播放列表session,播放列表session的引入可以实时的捕捉用户的兴趣变化。
在本发明的一个实施例中,若用户播放音频数据,则可以在日志文件中记录播放音频数据的时间戳、播放音频数据的时长。
依次将音频数据按照时间戳排列,形成原始的播放列表session。
将播放音频数据的时长与预设的第一阈值(如20秒)进行比较。
若播放音频数据的时长大于或等于预设的第一阈值,则表示用户播放该音频数据的时间较长,可认为用户播放该音频数据的行为有效,在播放列表session中保留该音频数据。
若播放音频数据的时长小于预设的第一阈值,则表示用户播放该音频数据的时间较短,可认为用户观看该音频数据的行为无效,在播放列表session中滤除该音频数据。
在原始列表中,计算相邻两个音频数据的时间戳之间的差值,以及,将相邻两个音频数据的时间戳之间的差值与预设的第二阈值(如20分钟)进行比较。
若相邻两个音频数据的时间戳之间的差值小于或等于预设的第二阈值,则可以认为用户连续播放音频数据,维持相邻两个音频数据之间在同一播放列表session中。
若相邻两个音频数据的时间戳之间的差值大于预设的第二阈值,则可以认为用户并非连续播放音频数据,在相邻两个音频数据之间切断播放列表session,从而生成新的播放列表session。
例如,如图2所示,针对用户U1生成原始的播放列表session,音频数据按照播放的时间戳依次排列为I1、I3、I8、I2、I6、I5,其中,I8的时间戳与I2的时间戳之间的差值大于20分钟,则可以在I8与I2之间(虚线处)切断,生成两个播放列表session,其中一个播放列表session为I1、I3、I8,另一个播放列表session为I2、I6、I5。
针对用户U2生成原始的播放列表session,音频数据按照播放的时间戳依次排列为I1、I3、I8、I2、I7、I6,任意相邻两个音频数据之间的差值均小于20分钟,则维持该播放列表session。
在本实施例中,通过播放音频数据的时长过滤有效的音频数据,通过播放音频数据之间的时间差剪切原始列表,可以保证播放列表中有效、连续的播放行为,提高播放列表的准确性,从而提高排序的精确度。
在某些情况下,用户播放音频数据较少,使得播放列表session稀疏,在本发明的一个实施例中,可对播放列表session进行扩充,提高播放列表session的丰富性,从而提高排序的精确度。
在具体实现中,将播放列表session看作一个graph(图),则可以使用Gaston、FSG、gSpan等算法对所有用户的播放列表session进行挖掘,从所有用户的播放列表中挖掘频繁子图,将频繁子图中的音频数据随机打乱,以针对所有用户生成新的播放列表。
其中,频繁子图是至少在播放列表session中出现minsup次的子图,minsup为最小支持阈值。
例如,假设最小支持阈值minsup为2,则通过图2所示的三个播放列表session,则可以找出频繁子图,该频繁子图中的音频数据包括I1、I3、I8,将I1、I3、I8的顺序随机打乱,生成两个新的播放列表session,如I1、I8、I3,I8、I3、I1。
步骤102、对播放列表进行编码,获得表征音频数据的第一向量、表征实体的第二向量。
针对用户而言,可以对该用户下的播放列表session进行编码,分别获取该播放列表session中音频数据的向量表示,记为第一向量,获取该播放列表session中实体的向量表示,记为第二向量。
在具体实现中,在用户播放音频数据的行为中,用户首先看到了音频数据的标题中包含的实体,若用户对该实体感兴趣,则播放该音频数据,即,用户先有了对实体感兴趣,才播放音频数据,这是有先后的顺序关系的,因此,可以将实体写入播放列表session中、音频数据的信息(如ID)之前。
若写入完成,则将播放列表session输入词向量模型(如word2vec)进行训练,以输出表征音频数据的第一向量、表征实体的第二向量。
当然,上述生成表征音频数据的第一向量、表征实体的第二向量的方法只是作为示例,在实施本发明实施例时,可以根据实际情况设置其它生成表征音频数据的第一向量、表征实体的第二向量的方法,例如,将音频数据的信息(如ID)直接输入词向量模型进行训练,以输出表征音频数据的第一向量,将实体直接输入词向量模型进行训练,以输出表征实体的第二向量,等等,本发明实施例对此不加以限制。另外,除了上述生成表征音频数据的第一向量、表征实体的第二向量的方法外,本领域技术人员还可以根据实际需要采用其它生成表征音频数据的第一向量、表征实体的第二向量的方法,本发明实施例对此也不加以限制。
步骤103、根据第一向量生成表征用户的第三向量。
用户所播放的音频数据的行为可以在一定程度上反映出用户的个性化特征,因此,可以参照表征音频数据的第一向量,生成用户的向量,记为第三向量。
在具体实现中,可提取用户最新的播放列表session(即最近的一个播放列表session),作为目标列表session。
对目标列表session中的各个第一向量配置权重,对已配置权重的第一向量计算平均值,作为表征用户的第三向量,即用户的第三向量为目标列表session中每个第一向量的加权平均。
当然,上述生成表征用户的第三向量的方法只是作为示例,在实施本发明实施例时,可以根据实际情况设置其它生成表征用户的第三向量的方法,例如,将第一向量直接相加得到表征用户的第三向量,等等,本发明实施例对此不加以限制。另外,除了上述生成表征用户的第三向量的方法外,本领域技术人员还可以根据实际需要采用其它生成表征用户的第三向量的方法,本发明实施例对此也不加以限制。
步骤104、根据第一向量生成表征用户对音频数据偏好的第四向量。
用户所播放的音频数据可以在一定程度上反映出用户对音频数据的偏好,因此,可以参照表征音频数据的第一向量,生成用户对音频数据偏好的向量,记为第四向量。
在具体实现中,可提取用户最新的播放列表session(即最近的一个播放列表session),作为目标列表session。
在目标列表session中提取最新的多个第一向量(即最近的多个第一向量,如最近的3个第一向量),作为目标向量。
计算目标向量与属于用户的其他第一向量计算相似度(如余弦值),作为表征用户对音频数据偏好的第四向量。
当然,上述生成表征用户对音频数据偏好的第四向量的方法只是作为示例,在实施本发明实施例时,可以根据实际情况设置其它生成表征用户对音频数据偏好的第四向量的方法,例如,将播放列表中的第一向量进行分组,对同一个分组中第一向量计算平均值,作为表征用户对音频数据偏好的第四向量,等等,本发明实施例对此不加以限制。另外,除了上述生成表征用户对音频数据偏好的第四向量的方法外,本领域技术人员还可以根据实际需要采用其它生成表征用户对音频数据偏好的第四向量的方法,本发明实施例对此也不加以限制。
步骤105、根据第二向量生成表征用户对音频数据偏好的第五向量。
用户所播放的音频数据中包含的实体可以在一定程度上反映出用户对实体的偏好,因此,可以参照表征实体的第二向量,生成用户对实体偏好的向量,记为第五向量。
在具体实现中,查找用户的实体画像,该实体画像中具有实体、用户对实体画像中实体的偏好度。
此时,可计算第一候选向量与第一候选向量对应的偏好度之间的乘积,作为第一参考向量,第一候选向量为实体画像中与音频数据均具有的实体对应的第二向量。
从第二候选向量与第三候选向量的乘积、第一候选向量与第三候选向量的乘积中取最大值,作为第二参考向量,第二候选向量为实体画像中除第一候选向量之外的其他实体对应的第二向量,第三候选向量为音频数据中除第一候选向量之外的其他实体对应的第二向量。
计算第二参考向量与第三候选向量之间的乘积,作为第四参考向量;
计算第一参考向量与第四参考向量之间的和值,作为表征用户对音频数据偏好的第五向量。
例如,某一用户的实体画像为{歌星A:0.6,歌星B:0.3},某一音频数据包括的实体为{歌星B,歌曲C},则该用户对该音频数据的偏好的第五向量表示为:
0.3*Vec歌星B+max(Vec歌星A·Vec歌曲C,Vec歌星B·Vec歌曲C)*Vec歌曲C
当然,上述生成表征用户对音频数据偏好的第五向量的方法只是作为示例,在实施本发明实施例时,可以根据实际情况设置其它生成表征用户对音频数据偏好的第五向量的方法,例如,将第二向量加权求和,等等,本发明实施例对此不加以限制。另外,除了上述生成表征用户对音频数据偏好的第五向量的方法外,本领域技术人员还可以根据实际需要采用其它生成表征用户对音频数据偏好的第五向量的方法,本发明实施例对此也不加以限制。
步骤106、至少将第一向量、第二向量、第三向量、第四向量与第五向量输入提升树模型进行训练,以对音频数据进行排序。
在本实施例中,可以将将第一向量、第二向量、第三向量、第四向量与第五向量作为样本输入提升树模型(eXtreme Gradient Boosting,XGBoost)进行多模态学习,实现多种模态特征的充分融合,并据此对音频数据进行排序,在客户端访问媒体平台时,可以按照排序的顺序将音频数据的信息(如封面、名称等)推送至该客户端进行显示。
多模态特征在XGBoost融合,对于媒体平台有较为明显的效果,经测试,音频数据的有效播放率提升1.06%,完播率提升1.71%,人均播放时长提升4.17%。
其中,XGBoost将许多树模型集成在一起,形成一个强分类器,即XGBoost不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。
当训练完成得到k棵树,预测一个样本的分数,则根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,将每棵树对应的分数加起来就是该样本的预测值,使用该预测值进行排序。
除了第一向量、第二向量、第三向量、第四向量与第五向量之外,还可以添加其他特征到XGBoost进行训练,例如,用户的基本信息(如性别、年龄、地区等),音频数据的统计特征(如时长、风格、播放次数、完播次数等),制作音频数据的作者的特征(如评分、播放次数、标签等),用户与制作音频数据的作者之间的交互特征(如点赞、赠送虚拟礼物、订阅、用户对该作者的播放次数等),等等,本实施例对此不加以限制。
在本实施例中,对用户播放的音频数据生成播放列表,音频数据中具有实体,对播放列表进行编码,获得表征音频数据的第一向量、表征实体的第二向量,根据第一向量生成表征用户的第三向量,根据第一向量生成表征用户对音频数据偏好的第四向量,根据第二向量生成表征用户对音频数据偏好的第五向量,至少将第一向量、第二向量、第三向量、第四向量与第五向量输入提升树模型进行训练,以对音频数据进行排序,自动抽取特征,避免了人工特征工程,大大降低了技术门槛,降低了成本,再者,引入用户播放音频数据的播放列表可以捕捉用户的兴趣变化,此外,提升树模型支持高维度特征的训练,将多个模态的特征在提升树模型中融合,可以提高排序的精确度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例二
图3为本发明实施例二提供的一种音频数据的排序装置的结构框图,具体可以包括如下模块:
播放列表生成模块301,用于对用户播放的音频数据生成播放列表,所述音频数据中具有实体;
播放列表编码模块302,用于对所述播放列表进行编码,获得表征所述音频数据的第一向量、表征所述实体的第二向量;
用户向量生成模块303,用于根据所述第一向量生成表征所述用户的第三向量;
音频偏好向量生成模块304,用于根据所述第一向量生成表征所述用户对音频数据偏好的第四向量;
实体偏好向量生成模块305,用于根据所述第二向量生成表征所述用户对音频数据偏好的第五向量;
音频排序模块306,用于至少将所述第一向量、所述第二向量、所述第三向量、所述第四向量与所述第五向量输入提升树模型进行训练,以对所述音频数据进行排序。
在本发明的一个实施例中,所述播放列表生成模块301还用于:
若用户播放音频数据,则记录播放所述音频数据的时间戳、播放所述音频数据的时长;
依次将所述音频数据按照所述时间戳排列,形成播放列表;
若播放所述音频数据的时长小于预设的第一阈值,则在所述播放列表中滤除所述音频数据;
若相邻两个所述音频数据的所述时间戳之间的差值大于预设的第二阈值,则在相邻两个所述音频数据之间切断所述播放列表。
在本发明的一个实施例中,所述播放列表编码模块302还用于:
将所述实体写入所述播放列表中、所述音频数据的信息之前;
若写入完成,则将所述播放列表输入词向量模型进行训练,以输出表征所述音频数据的第一向量、表征所述实体的第二向量。
在本发明的一个实施例中,所述用户向量生成模块303还用于:
提取所述用户最新的所述播放列表,作为目标列表;
对所述目标列表中的各个所述第一向量配置权重;
对已配置所述权重的所述第一向量计算平均值,作为表征所述用户的第三向量。
在本发明的一个实施例中,所述音频偏好向量生成模块304还用于:
提取所述用户最新的所述播放列表,作为目标列表;
在所述目标列表中提取最新的多个所述第一向量,作为目标向量;
计算所述目标向量与属于所述用户的其他所述第一向量计算相似度,作为表征所述用户对音频数据偏好的第四向量。
在本发明的一个实施例中,所述实体偏好向量生成模块305还用于:
查找所述用户的实体画像,所述实体画像中具有实体、所述用户对所述实体画像中实体的偏好度;
计算第一候选向量与所述第一候选向量对应的偏好度之间的乘积,作为第一参考向量,所述第一候选向量为所述实体画像中与所述音频数据均具有的实体对应的第二向量;
从第二候选向量与第三候选向量的乘积、所述第一候选向量与所述第三候选向量的乘积中取最大值,作为第二参考向量,所述第二候选向量为所述实体画像中除所述第一候选向量之外的其他实体对应的第二向量,所述第三候选向量为所述音频数据中除所述第一候选向量之外的其他实体对应的第二向量;
计算所述第二参考向量与所述第三候选向量之间的乘积,作为第四参考向量;
计算所述第一参考向量与所述第四参考向量之间的和值,作为表征所述用户对音频数据偏好的第五向量。
在本发明的一个实施例中,还包括:
频繁子图挖掘模块,用于从所有所述用户的所述播放列表中挖掘频繁子图;
频繁子图乱序模块,用于将所述频繁子图中的所述音频数据随机打乱,以针对所有所述用户生成新的播放列表。
本发明实施例所提供的音频数据的排序装置可执行本发明任意实施例所提供的音频数据的排序方法,具备执行方法相应的功能模块和有益效果。
实施例三
图4为本发明实施例三提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的音频数据的排序方法。
实施例四
本发明实施例四还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述音频数据的排序方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (7)
1.一种音频数据的排序方法,其特征在于,包括:
对用户播放的音频数据生成播放列表,所述音频数据中具有实体;
对所述播放列表进行编码,获得表征所述音频数据的第一向量、表征所述实体的第二向量;
根据所述第一向量生成表征所述用户的第三向量;
根据所述第一向量生成表征所述用户对音频数据偏好的第四向量;
根据所述第二向量生成表征所述用户对音频数据偏好的第五向量;
至少将所述第一向量、所述第二向量、所述第三向量、所述第四向量与所述第五向量输入提升树模型进行训练,以对所述音频数据进行排序;
所述根据所述第一向量生成表征所述用户的第三向量,包括:
提取所述用户最新的所述播放列表,作为目标列表;
对所述目标列表中的各个所述第一向量配置权重;
对已配置所述权重的所述第一向量计算平均值,作为表征所述用户的第三向量;
所述根据所述第一向量生成表征所述用户对音频数据偏好的第四向量,包括:
提取所述用户最新的所述播放列表,作为目标列表;
在所述目标列表中提取最新的多个所述第一向量,作为目标向量;
计算所述目标向量与属于所述用户的其他所述第一向量计算相似度,作为表征所述用户对音频数据偏好的第四向量;
所述根据所述第二向量生成表征所述用户对音频数据偏好的第五向量,包括:
查找所述用户的实体画像,所述实体画像中具有实体、所述用户对所述实体画像中实体的偏好度;
计算第一候选向量与所述第一候选向量对应的偏好度之间的乘积,作为第一参考向量,所述第一候选向量为所述实体画像中与所述音频数据均具有的实体对应的第二向量;
从第二候选向量与第三候选向量的乘积、所述第一候选向量与所述第三候选向量的乘积中取最大值,作为第二参考向量,所述第二候选向量为所述实体画像中除所述第一候选向量之外的其他实体对应的第二向量,所述第三候选向量为所述音频数据中除所述第一候选向量之外的其他实体对应的第二向量;
计算所述第二参考向量与所述第三候选向量之间的乘积,作为第四参考向量;
计算所述第一参考向量与所述第四参考向量之间的和值,作为表征所述用户对音频数据偏好的第五向量。
2.根据权利要求1所述的方法,其特征在于,所述对用户播放的音频数据生成播放列表,包括:
若用户播放音频数据,则记录播放所述音频数据的时间戳、播放所述音频数据的时长;
依次将所述音频数据按照所述时间戳排列,形成播放列表;
若播放所述音频数据的时长小于预设的第一阈值,则在所述播放列表中滤除所述音频数据;
若相邻两个所述音频数据的所述时间戳之间的差值大于预设的第二阈值,则在相邻两个所述音频数据之间切断所述播放列表。
3.根据权利要求1所述的方法,其特征在于,所述对所述播放列表进行编码,获得表征所述音频数据的第一向量、表征所述实体的第二向量,包括:
将所述实体写入所述播放列表中、所述音频数据的信息之前;
若写入完成,则将所述播放列表输入词向量模型进行训练,以输出表征所述音频数据的第一向量、表征所述实体的第二向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述对用户播放的音频数据生成播放列表之后,还包括:
从所有所述用户的所述播放列表中挖掘频繁子图;
将所述频繁子图中的所述音频数据随机打乱,以针对所有所述用户生成新的播放列表。
5.一种音频数据的排序装置,其特征在于,包括:
播放列表生成模块,用于对用户播放的音频数据生成播放列表,所述音频数据中具有实体;
播放列表编码模块,用于对所述播放列表进行编码,获得表征所述音频数据的第一向量、表征所述实体的第二向量;
用户向量生成模块,用于根据所述第一向量生成表征所述用户的第三向量;
音频偏好向量生成模块,用于根据所述第一向量生成表征所述用户对音频数据偏好的第四向量;
实体偏好向量生成模块,用于根据所述第二向量生成表征所述用户对音频数据偏好的第五向量;
音频排序模块,用于至少将所述第一向量、所述第二向量、所述第三向量、所述第四向量与所述第五向量输入提升树模型进行训练,以对所述音频数据进行排序;
所述用户向量生成模块还用于:
提取所述用户最新的所述播放列表,作为目标列表;
对所述目标列表中的各个所述第一向量配置权重;
对已配置所述权重的所述第一向量计算平均值,作为表征所述用户的第三向量;
所述音频偏好向量生成模块还用于:
提取所述用户最新的所述播放列表,作为目标列表;
在所述目标列表中提取最新的多个所述第一向量,作为目标向量;
计算所述目标向量与属于所述用户的其他所述第一向量计算相似度,作为表征所述用户对音频数据偏好的第四向量;
所述实体偏好向量生成模块还用于:
查找所述用户的实体画像,所述实体画像中具有实体、所述用户对所述实体画像中实体的偏好度;
计算第一候选向量与所述第一候选向量对应的偏好度之间的乘积,作为第一参考向量,所述第一候选向量为所述实体画像中与所述音频数据均具有的实体对应的第二向量;
从第二候选向量与第三候选向量的乘积、所述第一候选向量与所述第三候选向量的乘积中取最大值,作为第二参考向量,所述第二候选向量为所述实体画像中除所述第一候选向量之外的其他实体对应的第二向量,所述第三候选向量为所述音频数据中除所述第一候选向量之外的其他实体对应的第二向量;
计算所述第二参考向量与所述第三候选向量之间的乘积,作为第四参考向量;
计算所述第一参考向量与所述第四参考向量之间的和值,作为表征所述用户对音频数据偏好的第五向量。
6.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的音频数据的排序方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的音频数据的排序方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011170097.2A CN112287160B (zh) | 2020-10-28 | 2020-10-28 | 一种音频数据的排序方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011170097.2A CN112287160B (zh) | 2020-10-28 | 2020-10-28 | 一种音频数据的排序方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287160A CN112287160A (zh) | 2021-01-29 |
CN112287160B true CN112287160B (zh) | 2023-12-12 |
Family
ID=74373545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011170097.2A Active CN112287160B (zh) | 2020-10-28 | 2020-10-28 | 一种音频数据的排序方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287160B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114567811B (zh) * | 2022-02-28 | 2024-02-09 | 广州欢聊网络科技有限公司 | 用于声音排序的多模态模型训练方法、系统及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509534A (zh) * | 2018-03-15 | 2018-09-07 | 华南理工大学 | 基于深度学习的个性化音乐推荐系统及其实现方法 |
CN109147807A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 一种基于深度学习的音域平衡方法、装置及系统 |
CN110717064A (zh) * | 2019-08-19 | 2020-01-21 | 广州荔支网络技术有限公司 | 个性化音频播单生成方法、装置及可读存储介质 |
CN111259192A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 音频推荐方法和装置 |
CN111552831A (zh) * | 2020-04-21 | 2020-08-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音乐推荐的方法及服务器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9076148B2 (en) * | 2006-12-22 | 2015-07-07 | Yahoo! Inc. | Dynamic pricing models for digital content |
-
2020
- 2020-10-28 CN CN202011170097.2A patent/CN112287160B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509534A (zh) * | 2018-03-15 | 2018-09-07 | 华南理工大学 | 基于深度学习的个性化音乐推荐系统及其实现方法 |
CN109147807A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 一种基于深度学习的音域平衡方法、装置及系统 |
CN110717064A (zh) * | 2019-08-19 | 2020-01-21 | 广州荔支网络技术有限公司 | 个性化音频播单生成方法、装置及可读存储介质 |
CN111259192A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 音频推荐方法和装置 |
CN111552831A (zh) * | 2020-04-21 | 2020-08-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音乐推荐的方法及服务器 |
Non-Patent Citations (4)
Title |
---|
A Real-time Emotion Recognition from Speech using Gradient Boosting;Iqbal, A et al.;《2019 International Conference on Electrical, Computer and Communication Engineering》;1-5 * |
基于会话记录的Word2Vec音乐推荐算法研究;周航帆 等;《通信技术》(第04期);84-87 * |
基于回声状态网络的古典音乐分类模型;徐溶泽;《现代电子技术》(第17期);84-91 * |
基于深度学习的推荐系统研究综述;黄立威 等;《计算机学报》(第07期);191-219 * |
Also Published As
Publication number | Publication date |
---|---|
CN112287160A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263150B (zh) | 文本生成方法、装置、计算机设备及存储介质 | |
CN111444967B (zh) | 生成对抗网络的训练方法、生成方法、装置、设备及介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN108288468A (zh) | 语音识别方法及装置 | |
US20140032471A1 (en) | Artificial intelligence script tool | |
CN116702737B (zh) | 文案生成方法、装置、设备、存储介质及产品 | |
CN113283238B (zh) | 文本数据处理的方法和装置、电子设备和存储介质 | |
CN112418011A (zh) | 视频内容的完整度识别方法、装置、设备及存储介质 | |
CN111414513A (zh) | 音乐流派的分类方法、装置及存储介质 | |
CN111428074A (zh) | 音频样本生成方法、装置、计算机设备及存储介质 | |
WO2024066920A1 (zh) | 虚拟场景的对话方法、装置、电子设备、计算机程序产品及计算机存储介质 | |
JP2023536103A (ja) | 制御可能なテキスト要約化のためのシステムおよび方法 | |
KR20170136200A (ko) | 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템 | |
CN112287160B (zh) | 一种音频数据的排序方法、装置、计算机设备和存储介质 | |
CN117216185A (zh) | 分发内容的评论生成方法、装置、设备及存储介质 | |
CN111445922A (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
Yang et al. | Lecture video browsing using multimodal information resources | |
CN112446206A (zh) | 一种菜谱标题的生成方法及装置 | |
CN110598040B (zh) | 专辑召回方法、装置、设备及存储介质 | |
US11170044B2 (en) | Personalized video and memories creation based on enriched images | |
JP7109004B2 (ja) | 推定装置、推定方法、及びプログラム | |
Balzano et al. | Lectures Retrieval: Improving Students’ E-learning Process with a Search Engine Based on ASR Model | |
Zheng et al. | A Storage Method of Online Educational Resources for College Courses Based on Artificial Intelligence Technology | |
CN114661941A (zh) | 一种点击率预测模型构建方法、装置、计算机设备和存储介质 | |
Chand | Lecture video segmentation using speech content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |