CN113946712A - 片段推荐方法、片段推荐装置、电子设备和可读存储介质 - Google Patents

片段推荐方法、片段推荐装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN113946712A
CN113946712A CN202111214700.7A CN202111214700A CN113946712A CN 113946712 A CN113946712 A CN 113946712A CN 202111214700 A CN202111214700 A CN 202111214700A CN 113946712 A CN113946712 A CN 113946712A
Authority
CN
China
Prior art keywords
time
segment
multimedia file
subtitle
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111214700.7A
Other languages
English (en)
Inventor
潘翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202111214700.7A priority Critical patent/CN113946712A/zh
Publication of CN113946712A publication Critical patent/CN113946712A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种片段推荐方法、片段推荐装置、电子设备和可读存储介质,属于电子设备技术领域。其中,片段推荐方法包括:对应用程序对应的用户信息和应用程序的目标多媒体文件进行转换处理,确定目标特征;将目标特征输入应用程序对应的推荐模型,推荐模型包括多个专家网络、门控网络和融合网络;基于多个专家网络,对目标特征进行分析处理,得到多个样本时刻信息;基于门控网络,确定多个专家网络对应的权重信息;基于融合网络,对多个样本时刻信息和权重信息进行加权运算,得到目标多媒体文件的推荐时刻信息;按照推荐时刻信息输出目标多媒体文件的推荐片段。

Description

片段推荐方法、片段推荐装置、电子设备和可读存储介质
技术领域
本申请涉及电子设备技术领域,具体而言,涉及一种片段推荐方法、一种片段推荐装置、一种电子设备和一种可读存储介质。
背景技术
目前的播放器除了提供歌曲库或视频库给用户搜索之外,一般都会向用户推荐视频或音频,以提高播放器的用户粘性。然而,在用户听音频或观看视频的时候,现阶段的播放器一般都是向用户推荐音频或视频的片段,用户需要试听或试看一段时间,由于每个歌曲或视频能够引起用户共鸣的部分不尽相同,使得用户在欣赏推荐片段时,容易因为初听不是自己喜欢的部分而跳过该歌曲或视频,这样反而在信息流推荐里不利于用户快速探索和判断,导致用户难以快速找到自己喜欢的歌曲或视频。
发明内容
本申请实施例提供了一种片段推荐方法、片段推荐装置、电子设备和可读存储介质,能够精准的为用户推荐试听或试看的片段,便于用户快速找到自己喜欢的多媒体文件。
第一方面,本申请实施例提供了一种片段推荐方法,包括:
对应用程序对应的用户信息和应用程序的目标多媒体文件进行转换处理,确定目标特征;
将目标特征输入应用程序对应的推荐模型,推荐模型包括多个专家网络、门控网络和融合网络;
基于多个专家网络,对目标特征进行分析处理,得到多个样本时刻信息;
基于门控网络,确定多个专家网络对应的权重信息;
基于融合网络,对多个样本时刻信息和权重信息进行加权运算,得到目标多媒体文件的推荐时刻信息;
按照推荐时刻信息输出目标多媒体文件的推荐片段。
第二方面,本申请实施例提供了一种片段推荐装置,包括:
第一处理模块,用于对应用程序对应的用户信息和应用程序的目标多媒体文件进行转换处理,确定目标特征;
推荐模块,用于将目标特征输入应用程序对应的推荐模型,推荐模型包括多个专家网络、门控网络和融合网络;
基于多个专家网络,对目标特征进行分析处理,得到多个样本时刻信息;
基于门控网络,确定多个专家网络对应的权重信息;
基于融合网络,对多个样本时刻信息和权重信息进行加权运算,得到目标多媒体文件的推荐时刻信息;
输出模块,用于按照推荐时刻信息输出目标多媒体文件的推荐片段。
第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器及存储在该存储器上并在处理器上运行的程序或指令,该程序或指令被处理器执行时实现如第一方面提供的片段推荐方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面提供的片段推荐方法的步骤。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面提供的片段推荐方法的步骤。
在本申请实施例中,对应用程序对应的用户信息和应用程序的目标多媒体文件进行转换处理,确定目标特征;将目标特征输入应用程序对应的推荐模型,推荐模型包括多个专家网络、门控网络和融合网络;基于多个专家网络,对目标特征进行分析处理,得到多个样本时刻信息;基于门控网络,确定多个专家网络对应的权重信息;基于融合网络,对多个样本时刻信息和权重信息进行加权运算,得到目标多媒体文件的推荐时刻信息;按照推荐时刻信息输出目标多媒体文件的推荐片段。从而分析出与用户信息相关的个性化推荐时刻信息,也即目标多媒体文件中推荐片段所处的片段起始时刻和片段终止时刻。按照推荐时刻信息向用户推荐目标多媒体文件的片段。一方面,基于深度学习算法来生成个性化的推荐片段,减少链路逻辑,有利于提高推荐效率。另一方面,推荐模型不受限于用户历史行为和标记片段的数据,即使用户历史行为和标记片段稀疏,也可以生成个性化的推荐片段,准确性更高,而且使推荐片段更加符合用户喜好,便于减少用户探索多媒体文件所需的时间成本。
附图说明
图1示出了根据本申请的一个实施例的片段推荐方法的流程图之一;
图2示出了根据本申请的一个实施例的片段推荐方法的流程图之二;
图3示出了根据本申请的一个实施例的片段推荐方法的流程图之三;
图4示出了根据本申请的一个实施例的片段推荐方法的流程图之四;
图5示出了根据本申请的一个实施例的片段推荐方法的流程图之五;
图6示出了根据本申请的一个实施例的片段推荐方法的流程图之六;
图7示出了根据本申请的一个实施例的片段推荐方法的流程图之七;
图8示出了根据本申请的一个实施例的片段推荐方法的流程图之八;
图9示出了根据本申请一个实施例的推荐模型的结构示意图;
图10示出了根据本申请一个实施例的多媒体文件的时间轴示意图之一;
图11示出了根据本申请一个实施例的多媒体文件的时间轴示意图之二;
图12示出了根据本申请一个实施例的多媒体文件的时间轴示意图之三;
图13示出了根据本申请的一个实施例的片段推荐装置的结构框图;
图14示出了根据本申请的一个实施例的电子设备的结构框图;
图15示出了根据本申请的一个实施例的电子设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面参照图1至图15描述根据本申请一些实施例片段推荐方法、片段推荐装置、电子设备和可读存储介质。
在本申请的一个实施例中,图1示出了本申请实施例的片段推荐方法的流程图之一,包括:
步骤102,对应用程序对应的用户信息和应用程序的目标多媒体文件进行转换处理,确定目标特征;
其中,目标多媒体文件可以是应用程序中用户选择的多媒体文件,还可以是应用程序主动向用户推荐的多媒体文件,目标多媒体文件包括音频和/或视频,当然也可以是其它类别的文件。例如,音乐、歌曲MV、电影或短视频。应用程序对应的用户信息可以是登录该应用程序的帐号的相关信息,例如,用户名、用户性别、用户喜好标签等,还可以是代表电子设备使用者的信息,例如,通过电子设备的硬件信息作为用户信息,如MAC地址或国际移动设备身份码IEMI码。
在该实施例中,先获取应用程序对应的用户信息和需要向用户推荐的目标多媒体文件,并对其进行转换处理,以将用户信息和目标多媒体文件embedding(嵌入)化,形成推荐模型能够识别的向量内容,也即目标特征。从而便于通过推荐模型输出针对于该用户信息的个性化的推荐片段。
具体地,目标特征包括但不限于以下至少一种:用户画像特征、用户序列特征、用户统计特征和用户类别特征,以及多媒体文件的画像特征、embedding特征、序列特征和统计特征。
步骤104,将目标特征输入应用程序对应的推荐模型;
其中,推荐模型具有多任务学习(Multi-gate Mixture-of-Experts,MMOE)模型的结构。推荐模型包括多个专家(Expert)网络、门控(Gate)网络和融合(Tower)网络。
步骤106,基于多个专家网络,对目标特征进行分析处理,得到多个样本时刻信息;
步骤108,基于门控网络,确定多个专家网络对应的权重信息;
步骤110,基于融合网络,对多个样本时刻信息和权重信息进行加权运算,得到目标多媒体文件的推荐时刻信息;
其中,推荐时刻信息包括片段起始时刻和片段终止时刻。
在该实施例中,每个专家网络用于从一个维度对输入至多任务推荐模型的目标特征进行特征提取并分析计算出一个样本时刻信息,一个样本时刻信息包括样本起始时刻和样本终止时刻。门控网络用于输出不同维度下多个专家网络的权重信息,每个专家网络的权重信息可能相同也可能不同。融合网络用于利用每个专家网络的权重,对多个专家网络输出的在多个不同维度下样本时刻信息进行融合,也即将多个样本时刻信息和权重信息进行加权运算,以计算出片段起始时刻和片段终止时刻。
具体举例来说,如图9所示,推荐模型包括两个门控网络Gate-01和Gate-02,三个专家网络Expert-01、Expert-02、Expert-03,两个融合网络Tower-A、Tower-B。其中,Gate-01负责分配与起始时刻的权重信息,Gate-02负责分配与终止时刻的权重信息;Expert-01、Expert-02、Expert-03分别输出一个样本时刻信息,也即Tower-A、Tower-B均能得到3个样本时刻信息,门控网络Gate-01与三个Expert的输出结果进行内积后得到Tower-A的输入值,同理Gate-02与三个Expert输出结果内积后得到Tower-B的输入值,Tower-A负责预测输出推荐片段的片段起始时刻,Tower-B负责预测推荐片段的片段终止时刻,最后输出用户对目标多媒体文件的片段起始时刻start-T和片段终止时刻end-T。具体地,门控网络、专家网络和融合网络都是深度神经网络(Deep Neural Networks,DNN)结构。
通过用户信息生成用户基本特征(Input),并简单统计类别特征,通过用户历史听歌行为生成用户复杂统计特征和序列特征,通过目标多媒体文件获取多媒体特征和统计特征,并通过图网络或者EGES(Enhanced Graph Embedding with Side Information)算法等技术生成embedding特征,最后将与用户信息和目标多媒体文件相关的这些特征拼接在一起得到目标特征。将目标特征分别输入到两个门控网络和三个专家网络,两个门控网络分别输出三个权重值,并与三个专家网络的输出值(样本时刻信息)进行内积,即可得到Tower-A、Tower-B的输入值,最后再分别在Tower-A、Tower-B中进行前向推理,Tower-A输出51s,Tower-B输出86s,表示预测出的用户P对预测歌曲喜欢的片段是{51s,86s},即预测歌曲第51秒至第86秒直接之间的片段。
步骤112,按照推荐时刻信息输出目标多媒体文件的推荐片段。
其中,推荐片段即目标多媒体文件中片段起始时刻和片段终止时刻之间的内容。
在该实施例中,在应用程序需要向用户推荐片段时,将用户信息和作为推荐片段母文件的目标多媒体文件的目标特征输入至预先训练的推荐模型。推荐模型基于深度学习技术,分析出与用户信息相关的个性化的推荐时刻信息,也即目标多媒体文件中推荐片段所处的片段起始时刻和片段终止时刻。按照推荐时刻信息向用户推荐目标多媒体文件的片段。一方面,基于深度学习算法来生成个性化的推荐片段,减少链路逻辑,有利于提高推荐效率。另一方面,推荐模型不受限于用户历史行为和标记片段的数据,即使用户历史行为和标记片段稀疏,也可以生成个性化的推荐片段,准确性更高,而且使推荐片段更加符合用户喜好,便于减少用户探索多媒体文件所需的时间成本。
在本申请的一个实施例中,图2示出了本申请实施例的片段推荐方法的流程图之二,包括:
步骤202,获取目标多媒体文件的第一字幕信息;
其中,第一字幕信息包括多条第一字幕,以及每条第一字幕的字幕起始时刻和字幕终止时刻。
步骤204,在片段起始时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,基于至少一条第一字幕的字幕起始时刻或字幕终止时刻更新片段起始时刻;
其中,更新片段起始时刻包括将片段起始时刻更新为第一字幕的字幕起始时刻,以补足位于片段起始时刻的不完整的第一字幕,或将片段起始时刻更新为第一字幕的字幕终止时刻,以去除位于片段起始时刻的不完整的第一字幕。
步骤206,在片段终止时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,基于至少一条第一字幕的字幕起始时刻或字幕终止时刻更新片段终止时刻;
其中,更新片段终止时刻包括将片段终止时刻更新为第一字幕的字幕起始时刻,以去除位于片段终止时刻的不完整的第一字幕,或将片段终止时刻更新为第一字幕的字幕终止时刻,以补足位于片段终止时刻的不完整的第一字幕。
步骤208,按照更新后的片段起始时刻和片段终止时刻,输出目标多媒体文件的推荐片段。
在该实施例中,考虑到对于不同的目标多媒体文件,推荐模型输出的片段起始时刻和片段终止时刻可能并不是目标多媒体文件中一句话的完整节点,也即推荐的片段不是完整的一句话,这样会使用户推荐片段听起来很突兀,不利于用户感受。为此,在输出推荐片段之前先获取目标多媒体文件的第一字幕信息。在片段起始时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,说明当前的片段起始时刻位于一句话的中间,会出现推荐片段的字幕不完整的问题,则利用第一字幕的字幕起始时刻或字幕终止时刻对片段起始时刻进行补充或删减,以使片段起始时刻能够与字幕自适应对齐,从而对模型生成的推荐片段进行自适应平滑,让推荐片段听起来不会突兀,更加自然,有利于增强片段输出的流畅度。同理,在片段终止时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,利用第一字幕的字幕起始时刻或字幕终止时刻对片段终止时刻进行补充或删减。
具体举例来说,如图10所示,以目标多媒体文件为歌曲为例,通过片段起始时刻T1和片段终止时刻T2得到的推荐片段{T1,T2}不是完整片段,即推荐片段的开始或结束阶段不是一句歌词的开始或者结束。此时,对推荐片段的片段起始时刻T1和片段终止时刻T2与歌词进行对齐。具体地,首先记录一首歌曲每一句歌词的歌词起始和终止时刻(时刻以秒为单位),得到一首歌曲歌词起始时刻列表C={t1,…,tm,…}和歌词终止时刻列表
D={t1,…,tn,…}。歌曲片段起始时刻T1则在歌词起始时刻列表C中寻找比
T1小的最大值,片段终止时刻T2在歌词终止时刻列表D中寻找比T2大
的最小值,并更新歌曲片段起止时刻{tm,tn}。
值得一提的是,考虑到对于存在多语音音轨的多媒体文件,例如合唱的歌曲,可能出现同一时刻对应多条第一字幕的情况,为了保证片段起止时刻能够与第一字幕对齐,在需要补足字幕的场景下,将多条第一字幕的字幕起始时刻中的最小值确定为更新后的片段起止时刻;在需要去除字幕的场景下,将多条第一字幕的字幕终止时刻中的最大值确定为更新后的片段起始时刻。同理,在需要补足字幕的场景下,将多条第一字幕的字幕终止时刻中的最大值确定为更新后的片段终止时刻;在需要去除字幕的场景下,将多条第一字幕的字幕终止时刻中的最小值确定为更新后的片段终止时刻。从而保证了更新后的片段起止时刻能够同时满足多条第一字幕的字幕对齐需求,使得推荐片段的片段起止时刻能够处于无人声的部分,进而提升用户的视听感受。
可以理解的是,当生成的推荐片段对应位置存在字幕时,则采用推荐片段自适应对齐字幕技术,以输出完整的推荐片段,否则,不需要。例如纯音乐或片段起止时刻正好处在两句字幕之间,则无需进行字幕对齐。
在本申请的一个实施例中,图3示出了本申请实施例的片段推荐方法的流程图之三,包括:
步骤302,在片段起始时刻位于目标多媒体文件的预设时刻范围内的情况下,按照第一预设偏移量调整片段起始时刻,以形成输出起始时刻;
步骤304,在片段终止时刻位于目标多媒体文件的预设时刻范围内的情况下,按照第二预设偏移量调整片段终止时刻,以形成输出终止时刻;
其中,预设时刻范围用于表示目标多媒体文件中可能存在高潮、播放响度较大或存在字幕的部分。预设时刻范围可由用户预先设定,或通过数据库自动识别出目标多媒体文件的预设时刻范围。第一预设偏移量和第二预设偏移量可按照用户需求或预设时刻范围的临界值合理设置,例如,第一预设偏移量为片段起始时刻和预设时刻范围的临界值之间的差值,或用户设定第二预设偏移量为2s、4s、7s或10s。
步骤306,按照输出起始时刻和输出终止时刻,对目标多媒体文件进行截取处理,以形成推荐片段;
步骤308,输出推荐片段。
在该实施例中,当用户指示输出推荐片段后,若推荐片段是属于目标多媒体文件的高潮或歌词等部分,那么用户听起来会很突兀,甚至会受到惊吓。为了防止这一点,在输出推荐片段之前,若检测到片段起始时刻位于目标多媒体文件的预设时刻范围内,说明播放推荐片段可能会造成不适的视听感受,则按照第一预设偏移量调整片段起始时刻,以形成输出起始时刻。同样的,若检测到片段终止时刻位于目标多媒体文件的预设时刻范围内,按照第二预设偏移量调整片段终止时刻,以形成输出终止时刻。然后截取出目标多媒体文件中处于输出起始时刻和输出终止时刻之间的内容,得到推荐片段,并向用户推荐该推荐片段。从而通过在推荐片段两端根据原来对应的位置分别延长一定的偏移量,进行伴奏补充或缩减,使得输出的推荐片段听起来不会很突兀,更加自然,提升用户的使用体验。
可以理解的是,在片段起始时刻或片段终止时刻未位于目标多媒体文件的预设时刻范围内的情况下,则可以直接将由推荐模型输出的片段起始时刻或片段终止时刻作为截取推荐片段的基础。
具体地,输出包括播放或者显示播放控件,也即按照推荐时刻信息输出目标多媒体文件的推荐片段包括以下方式:
方式一,播放推荐片段。其中,在目标多媒体文件为视频的情况下,即播放视频推荐片段的画面和声音。例如,在用户先择出需要试听的目标多媒体文件的情况下,直接播放出分析得到的推荐片段。
方式二,显示播放控件,播放控件用于播放推荐片段。此时,用户能够通过对播放控件的操作输入控制电子设备是否对推荐片段进行播放。
进一步地,在按照第一预设偏移量减小片段起始时刻,以形成输出起始时刻或按照第二预设偏移量增大片段终止时刻的情况下,说明系统指示了通过预设偏移量延长输出起止时刻。为了进一步减小推荐片段的听取突兀感,在延长输出起止时刻后,确定目标多媒体文件中位于输出起始时刻和片段起始时刻之间的第一片段,也即以片段起始时刻为基础额外延长的部分,在第一片段存在人声信号的情况下,说明延长的部分同样可能造成突兀感,则对第一片段进行人声消除,已将第一片段转换为纯伴奏的旋律,从而保证用户听取推荐片段时不会收到惊吓,提升用户的使用体验。同样的,还可以对目标多媒体文件中位于片段终止时刻和输出终止时刻之间的第二片段,进行人声消除。
具体举例来说,如图12所示,同样以歌曲为例,假设原歌曲推荐片段{T1,T2},如果T1时刻前5秒(第一预设偏移量)内存在非人声伴奏,则直接前置T1时刻到T1’时刻,如果存在的是有人声部分(歌词部分),则过滤人声部分,再前置T1时刻到T1’时刻。同理,对于T2时刻,如果后5秒(第二预设偏移量)存在非人声伴奏,则延长T2时刻至T2’时刻,如果存在的是人声,则过滤再延长。由于播放该歌曲后,该歌曲可能作为推荐模型所需的历史多媒体文件,为了保证模型的准确性,伴奏延长部分不落入样本。
需要说明的是,人声消除可采用常规的信号过滤技术或其它现有的声道消除技术,本申请不做具体限定。
在本申请的一个实施例中,图4示出了本申请实施例的片段推荐方法的流程图之二,包括:
步骤402,获取用户信息对应的历史输出列表;
其中,历史输出列表包括至少一个用户信息对应的曾经输出的历史多媒体文件和每个历史多媒体文件的用户行为日志。用户行为日志记录了用户对历史多媒体文件的操作行为,例如,对于一首歌曲,用户12:23.02播放歌曲,12:24.00暂停播放,15:45.12继续播放歌曲,15:46.15下载该歌曲,15:47.36歌曲播放结束。
步骤404,在检测到用户行为日志中存在第一目标行为的情况下,确定用户行为日志对应的历史多媒体文件的样本片段;
其中,第一目标行为包括但不限于以下至少一种:点赞行为、收藏行为、分享行为、评论行为和下载行为,也即能够表示用户喜欢多媒体文件的正向行为。样本片段包括第一目标行为的第一触发时刻。点赞行为是指用户曾经触发过预设的点赞按钮以对该多媒体文件点赞过,在音乐类应用程序中点赞按钮通常显示为红心按钮。收藏行为是指用户曾经将该多媒体文件收藏至收藏夹或某个自建的列表。分享行为是指用户曾经将该多媒体文件分享至社交媒体或直接发送给例如即时通讯平台好友、邮件联系人等。下载行为是指用户曾经将该多媒体文件从网络终端下载至本地的行为。
步骤406,根据至少一个历史多媒体文件的样本片段和用户信息,对预设模型进行训练,形成推荐模型。
在该实施例中,若用户行为日志中存在第一目标行为,说明用户在查看或播放历史多媒体文件时通过行为表现出对该历史多媒体文件的喜爱。此时,该历史多媒体文件可作为样本文件,并截取出历史多媒体文件中存在第一目标行为的样本片段,以通过样本片段表示用户喜好的片段。然后将样本片段和用户信息作为模型训练数据对预设模型进行训练,得到针对该用户信息的个性化片段推荐模型。从而样本文件的片段特征和用户样本特征通过自动学习特征的方式对模型进行训练,通过减少预测误差的方式拟合模型中的网络参数,解决大数据分析问题,以便于对不同层级用户的偏好的目标多媒体文件的片段进行预测,提高了推荐片段预测的精准度,增强了用户体验。
在一些可能的设计中,预设模型采用多任务学习(Multi-gate Mixture-of-Experts,MMOE)模型,利用MMOE模型处理海量用户数据,具有高可扩展性和较高的处理效率。
在本申请的一个实施例中,图5示出了本申请实施例的片段推荐方法的流程图之五,包括:
步骤502,确定用户行为日志中第二目标行为的第二触发时刻,以及第三目标行为的第三触发时刻;
其中,第二目标行为用于触发输出用户行为日志对应的历史多媒体文件,第三目标行为用于触发停止输出用户行为日志对应的历史多媒体文件。停止输出历史多媒体文件可以是暂停输出、输出结束或切换至其它多媒体文件。
步骤504,按照第二触发时刻和第三触发时刻对用户行为日志对应的历史多媒体文件进行截取处理,以形成样本片段。
在该实施例中,在筛选出存在有第一目标行为的样本文件后,通过相邻的输出历史多媒体文件的第二触发时刻和触发停止输出历史多媒体文件的第三触发时刻,截取出样本片段。从而通过样本片段表示用户可能喜好的片段,以便于后续将样本片段和用户信息作为模型训练数据对预设模型进行训练,得到针对该用户信息的个性化片段推荐模型。
具体举例来说,以历史多媒体文件为音乐为例,该音乐的用户行为日志的时间轴如图11所示,通过用户行为日志确定该音乐存在用户主动正向行为(收藏、评论、点赞、下载或分享)。图11中,T3表示用户指示第一次播放该音乐的时刻,T4表示用户指示第一次停止播放该音乐的时刻,T5表示用户指示第二次播放该音乐的时刻,T6表示用户出现正向行为的时刻(第一触发时刻),T7表示用户指示第二次停止播放该音乐的时刻。可见,在T5到T7时刻间,用户在T6时刻收藏音乐,则片段{T5,T7}设置为用户喜欢该歌曲的样本片段。
在一些可能的设计中,考虑到按照用户行为的第二触发时刻和第三触发时刻截取出的样本片段可能并不是多媒体文件中一句话的完整节点。在使用以不完整的样本片段训练出的推荐模型进行片段推荐时,也可能出现推荐的片段不是完整的一句话,这样会使用户推荐片段听起来很突兀,不利于用户感受。为此,与上述推荐片段的字幕对齐方式相同,在按照第二触发时刻和第三触发时刻对用户行为日志对应的历史多媒体文件进行截取处理之前,先获取用户行为日志对应的历史多媒体文件的第二字幕信息,其中,第二字幕信息包括多条第二字幕,以及每条第二字幕的字幕起始时刻和字幕终止时刻;在第二触发时刻位于任一条第二字幕的字幕起始时刻和字幕终止时刻之间的情况下,说明当前的第二触发时刻位于一句话的中间,会出现样本片段不完整的问题,则将第二触发时刻更新为任一条第二字幕的字幕起始时刻。同理,在第三触发时刻位于任一条第二字幕的字幕起始时刻和字幕终止时刻之间的情况下,将第三触发时刻更新为任一条第二字幕的字幕终止时刻。使得样本片段的起止时刻能够与字幕对齐。
在本申请的一个实施例中,在确定历史多媒体文件的样本片段之后,按照预设条件和预设样本数量对样本片段进行筛选,以剔除质量较低或无法体现用户喜好片段的样本。
在该实施例中,在一个历史多媒体文件中识别出多个样本片段的情况下,为了避免模型训练混乱,通过预设条件从多个样本片段中选取预设样本数量的样本片段。从而能够为训练推荐模型提供高质量的样本片段,进而保证了训练出的推荐模型的分析准确度。
其中,预设条件包括以下至少一种:样本片段中存在第一目标行为的次数、样本片段的播放次数和样本片段的时长。例如,认定第一目标行为次数最多的片段即为用户对于该首歌最喜欢的一个片段。再例如,在任一历史多媒体文件的样本片段的时长超出预设时长范围,则删除任一历史多媒体文件的样本片段,也即仅保留时长在预设时长范围内的样本片段作为模型训练所需的数据,从而防止由于过长的样本片段难以体现用户部分文件内容的偏好,过短的样本片段数据量不足而难以无法作为模型训练的基础的问题,为训练推荐模型提供高质量的样本片段,进而保证了训练出的推荐模型的分析准确度。
值得一提的是,考虑到完整输出多媒体文件的第二触发时刻和第三触发时刻分别为多媒体文件的起点和终点。那么即使完整输出多媒体文件存在第一目标行为,但通过分析识别后得到的样本片段也必然存在时长过长的问题。所以,在获取历史多媒体文件后,可以直接将用户行为日志中记录了完整输出的历史多媒体文件删除,从而减少用于分析样本片段的样本文件的数量,有利于减少处理器的运算压力,提高数据分析效率。
在本申请的一个实施例中,图6示出了本申请实施例的片段推荐方法的流程图之六,包括:
步骤602,确定至少一个历史多媒体文件的特征信息;
其中,特征信息包括以下至少一种:风格信息(如摇滚风格或民谣风格等)、类别信息、作者信息、时长信息、点击率信息和地域信息。
步骤604,根据特征信息更新推荐模型;
步骤606,将多个目标多媒体文件中每个目标多媒体文件分别和用户信息进行转换处理,确定多个目标特征;
步骤608,将多个目标特征输入更新后的推荐模型,得到多个推荐时刻信息和多个推荐时刻信息的推荐度。
其中,模型输出的多个推荐时刻信息按照推荐度排列。例如,将一个电影输入更新推荐模型,得到3个电影片段的推荐时刻信息,3个推荐时刻信息具有第一顺序,第一顺序为推荐度由高到底排列。在电子设备的程序界面上显示3个电影片段的播放控件时,3个播放控件按照第一顺序进行显示。
在该实施例中,将历史多媒体文件的特征信息也作为模型训练数据对推荐模型进行再次训练学习,使得更新后的推荐模型的能够结合目标多媒体文件的特征信息进一步对用户偏好的内容进行推荐,并输出多个推荐时刻信息和多个推荐时刻信息的推荐度,推荐度越高表示该推荐时刻信息对应的推荐片段可能更符合用户喜好。同时,模型输出的多个推荐时刻信息按照推荐度进行排列,以便于用户快速找到喜欢的片段,减小文件探索消费成本。
具体举例来说,在MMOE模型设置三个融合网络(Tower),第一个Tower负责片段起始时刻,第二个Tower片段终止时刻,第三个Tower负责排序分数ctr(点击率),在通过模型进行分析时,可直接生成排序结果,以及每一首歌曲的个性化推荐片段。
在本申请的一个实施例中,图7示出了本申请实施例的片段推荐方法的流程图之七,包括:
步骤702,接收对应用程序的第一输入;
其中,第一输入包括但不限于点击输入、按键输入、指纹输入、滑动输入、按压输入。按键输入包括但不限于对电子设备的电源键、音量键、主菜单键的单击输入、双击输入、长按输入、组合按键输入等。当然第一输入还可以是用户对电子设备的其它操作,本申请实施例对操作的方式不作具体限定,可为任一可实现的方式。
步骤704,响应于第一输入,显示用户信息对应的多个推荐多媒体文件;
步骤706,将至少一个推荐多媒体文件作为目标多媒体文件。
在该实施例中,用户可通过第一输入触发应用程序的推荐功能。在应用程序的推荐功能启动后,直接显示系统分析出的用户可能喜欢的多个推荐多媒体文件,直接将所有推荐多媒体文件作为目标多媒体文件或者由用户手动选择喜欢的推荐多媒体文件作为目标多媒体文件。从而省略了用户选择想要试听或试看的目标多媒体文件,由电子设备会根据用户的主动需求自动按照用户喜好自动为用户进行推荐,使得用户能够听到更多可能没播放过的多媒体文件或用户可能喜欢的多媒体文件,提高应用程序的用户粘性。
具体举例来说,音乐播放器被安装至手机上,音乐播放器的界面设置有预设的推荐按钮,用户可以主动点击该推荐按钮来进入音乐推荐界面。同时,音乐播放器会生成推荐请求,手机通过网络将推荐请求发送至网络终端(数据库)。作为另一个例子,音乐播放器还可以在启动时自动生成推荐请求,或者根据预设好的时间点自动生成推荐请求,手机仍可以通过网络将推荐请求发送至网络终端。
可以理解的是,由于更新后的推荐模型在训练时参考了历史多媒体文件的风格、点击率等信息,也即更新后的推荐模型还能够分析出用户喜好的多媒体文件。在应用程序的推荐功能启动后,还可以将用户信息输入更新后的推荐模型,以通过推荐模型得出目标特征信息。按照目标特征信息从数据库查找要想向用户推荐的推荐多媒体文件。
在本申请的一个实施例中,图8示出了本申请实施例的片段推荐方法的流程图之八,包括:
步骤802,在目标多媒体文件的数量为多个的情况下,对多个推荐片段进行拼接处理,生成片段拼接文件;
步骤804,输出片段拼接文件。
在该实施例中,若存在多个目标多媒体文件,为了便于用户一次性播放全部推荐片段,将多个目标多媒体文件对应的多个推荐片段合成拼接为片段拼接文件,以形成多媒体文件串烧,并输出该片段拼接文件。从而将用户可能干兴趣的多媒体文件进行拼接,实现了个性化的多媒体文件串烧,提升用户的使用体验。
在本申请的一个实施例中,如图13所示,片段推荐装置1300包括:第一处理模块1302,第一处理模块1302用于对应用程序对应的用户信息和应用程序的目标多媒体文件进行转换处理,确定目标特征;推荐模块1304,推荐模块1304用于将目标特征输入应用程序对应的推荐模型,推荐模型包括多个专家网络、门控网络和融合网络;基于多个专家网络,对目标特征进行分析处理,得到多个样本时刻信息;基于门控网络,确定多个专家网络对应的权重信息;基于融合网络,对多个样本时刻信息和权重信息进行加权运算,得到目标多媒体文件的推荐时刻信息;输出模块1306,输出模块1306用于按照推荐时刻信息输出目标多媒体文件的推荐片段。
在该实施例中,在应用程序需要向用户推荐片段时,将用户信息和作为推荐片段母文件的目标多媒体文件的目标特征输入至预先训练的推荐模型。推荐模型基于深度学习技术,分析出与用户信息相关的个性化的推荐时刻信息,也即目标多媒体文件中推荐片段所处的片段起始时刻和片段终止时刻。按照推荐时刻信息向用户推荐目标多媒体文件的片段。一方面,基于深度学习算法来生成个性化的推荐片段,减少链路逻辑,有利于提高推荐效率。另一方面,推荐模型不受限于用户历史行为和标记片段的数据,即使用户历史行为和标记片段稀疏,也可以生成个性化的推荐片段,准确性更高,而且使推荐片段更加符合用户喜好,便于减少用户探索多媒体文件所需的时间成本。
可选的,片段推荐装置1300还包括:第一获取模块(图中未示出),第一获取模块用于获取目标多媒体文件的第一字幕信息,第一字幕信息包括多条第一字幕,以及每条第一字幕的字幕起始时刻和字幕终止时刻;片段推荐装置1300还包括:更新模块(图中未示出),更新模块用于在片段起始时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,基于至少一条第一字幕的字幕起始时刻或字幕终止时刻更新片段起始时刻;以及在片段终止时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,基于至少一条第一字幕的字幕起始时刻或字幕终止时刻更新片段终止时刻;输出模块1306,还用于按照更新后的片段起始时刻和片段终止时刻,输出目标多媒体文件的推荐片段。
可选的,片段推荐装置1300还包括:调整模块(图中未示出),调整模块用于在片段起始时刻位于目标多媒体文件的预设时刻范围内的情况下,按照第一预设偏移量调整片段起始时刻,以形成输出起始时刻;以及在片段终止时刻位于目标多媒体文件的预设时刻范围内的情况下,按照第二预设偏移量调整片段终止时刻,以形成输出终止时刻;第二处理模块(图中未示出),第二处理模块用于按照输出起始时刻和输出终止时刻,对目标多媒体文件进行截取处理,以形成推荐片段;输出模块1306还用于输出推荐片段,输出包括播放或者显示播放控件。
可选的,片段推荐装置1300还包括:第二获取模块(图中未示出),第二获取模块用于获取用户信息对应的历史输出列表,历史输出列表包括至少一个历史多媒体文件和每个历史多媒体文件的用户行为日志;确定模块(图中未示出),确定模块用于在检测到用户行为日志中存在第一目标行为的情况下,确定用户行为日志对应的历史多媒体文件的样本片段,样本片段包括第一目标行为的第一触发时刻;训练模块(图中未示出),训练模块用于根据至少一个历史多媒体文件的样本片段和用户信息,对预设模型进行训练,形成推荐模型;其中,第一目标行为包括以下至少一种:点赞行为、收藏行为、分享行为、评论行为和下载行为。
可选的,确定模块还用于确定用户行为日志中第二目标行为的第二触发时刻,以及第三目标行为的第三触发时刻,第二目标行为用于触发输出用户行为日志对应的历史多媒体文件,第三目标行为用于触发停止输出用户行为日志对应的历史多媒体文件;片段推荐装置1300还包括:第三处理模块(图中未示出),第三处理模块用于按照第二触发时刻和第三触发时刻对用户行为日志对应的历史多媒体文件进行截取处理,以形成样本片段。
在该实施例中,片段推荐装置1300的各模块执行各自功能时实现第一方面的任一实施例中的片段推荐方法的步骤,因此,片段推荐装置1300同时也包括第一方面任一实施例中的片段推荐方法的全部有益效果,在此不再赘述。
本申请实施例中的片段推荐装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、智能摄像设备、穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)或者自助机等,本申请实施例不作具体限定。
本申请实施例中的片段推荐装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他能的操作系统,本申请实施例不作具体限定。
在本申请的一个实施例中,如图14所示,提供了一种电子设备1400,包括:处理器1401,存储器1402及存储在存储器1402上并在处理器1401上运行的程序或指令,程序或指令被处理器1401执行时实现如上述任一实施例中提供的片段推荐方法的步骤,因此,该电子设备1400包括如上述任一实施例中提供的片段推荐方法的全部有益效果,在此不再赘述。
在本申请的一个实施例中,提供了一种电子设备,包括上述任一实施例中提供的片段推荐装置,因此,该电子设备包括如上述任一实施例中提供的装置的全部有益效果,在此不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图15为实现本申请实施例的一种电子设备1500的硬件结构示意图。该电子设备1500包括但不限于:射频单元1501、网络模块1502、音频输出单元1503、输入单元1504、传感器1505、显示单元1506、用户输入单元1507、接口单元1508、存储器1509、以及处理器1510等部件。
本领域技术人员可以理解,电子设备1500还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图15中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器1510用于对应用程序对应的用户信息和应用程序的目标多媒体文件进行转换处理,确定目标特征;将目标特征输入应用程序对应的推荐模型,推荐模型包括多个专家网络、门控网络和融合网络;基于多个专家网络,对目标特征进行分析处理,得到多个样本时刻信息;基于门控网络,确定多个专家网络对应的权重信息;基于融合网络,对多个样本时刻信息和权重信息进行加权运算,得到目标多媒体文件的推荐时刻信息;音频输出单元1503和/或显示单元1506用于按照推荐时刻信息输出目标多媒体文件的推荐片段。
在该实施例中,在应用程序需要向用户推荐片段时,将用户信息和作为推荐片段母文件的目标多媒体文件的目标特征输入至预先训练的推荐模型。推荐模型基于深度学习技术,分析出与用户信息相关的个性化的推荐时刻信息,也即目标多媒体文件中推荐片段所处的片段起始时刻和片段终止时刻。按照推荐时刻信息向用户推荐目标多媒体文件的片段。一方面,基于深度学习算法来生成个性化的推荐片段,减少链路逻辑,有利于提高推荐效率。另一方面,推荐模型不受限于用户历史行为和标记片段的数据,即使用户历史行为和标记片段稀疏,也可以生成个性化的推荐片段,准确性更高,而且使推荐片段更加符合用户喜好,便于减少用户探索多媒体文件所需的时间成本。
进一步地,推荐时刻信息包括片段起始时刻和片段终止时刻,处理器1510还用于获取目标多媒体文件的第一字幕信息,第一字幕信息包括多条第一字幕,以及每条第一字幕的字幕起始时刻和字幕终止时刻;在片段起始时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,基于至少一条第一字幕的字幕起始时刻或字幕终止时刻更新片段起始时刻;在片段终止时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,基于至少一条第一字幕的字幕起始时刻或字幕终止时刻更新片段终止时刻;音频输出单元1503和/或显示单元1506还用于按照更新后的片段起始时刻和片段终止时刻,输出目标多媒体文件的推荐片段。
进一步地,处理器1510还用于在片段起始时刻位于目标多媒体文件的预设时刻范围内的情况下,按照第一预设偏移量调整片段起始时刻,以形成输出起始时刻;在片段终止时刻位于目标多媒体文件的预设时刻范围内的情况下,按照第二预设偏移量调整片段终止时刻,以形成输出终止时刻;按照输出起始时刻和输出终止时刻,对目标多媒体文件进行截取处理,以形成推荐片段;音频输出单元1503和/或显示单元1506还用于输出推荐片段,输出包括播放或者显示播放控件。
进一步地,处理器1510还用于获取用户信息对应的历史输出列表,历史输出列表包括至少一个历史多媒体文件和每个历史多媒体文件的用户行为日志;在检测到用户行为日志中存在第一目标行为的情况下,确定用户行为日志对应的历史多媒体文件的样本片段,样本片段包括第一目标行为的第一触发时刻;根据至少一个历史多媒体文件的样本片段和用户信息,对预设模型进行训练,形成推荐模型;其中,第一目标行为包括以下至少一种:点赞行为、收藏行为、分享行为、评论行为和下载行为。
进一步地,处理器1510还用于确定用户行为日志中第二目标行为的第二触发时刻,以及第三目标行为的第三触发时刻,第二目标行为用于触发输出用户行为日志对应的历史多媒体文件,第三目标行为用于触发停止输出用户行为日志对应的历史多媒体文件;按照第二触发时刻和第三触发时刻对用户行为日志对应的历史多媒体文件进行截取处理,以形成样本片段。
应理解的是,本申请实施例中,输入单元1504可以包括图形处理器(GraphicsProcessing Unit,GPU)1541和麦克风1542,图形处理器1541对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1506可包括显示面板1561,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1561。用户输入单元1507包括触控面板1571以及其他输入设备1572。触控面板1571,也称为触摸屏。触控面板1571可包括触摸检测装置和触摸控制器两个部分。其他输入设备1572可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1509可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器1510可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1510中。
在本申请的一个实施例中,提供了一种读存储介质,其上存储有程序或指令,该程序或指令被处理器执行时实现如上述任一实施例中提供的片段推荐方法的步骤。
在该实施例中,读存储介质能够实现本申请的实施例提供的片段推荐方法的各个过程,并能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的通信设备中的处理器。读存储介质,包括计算机读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等。
本申请实施例还提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述片段推荐方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (12)

1.一种片段推荐方法,其特征在于,包括:
对应用程序对应的用户信息和所述应用程序的目标多媒体文件进行转换处理,确定目标特征;
将所述目标特征输入所述应用程序对应的推荐模型,所述推荐模型包括多个专家网络、门控网络和融合网络;
基于所述多个专家网络,对所述目标特征进行分析处理,得到多个样本时刻信息;
基于所述门控网络,确定所述多个专家网络对应的权重信息;
基于所述融合网络,对所述多个样本时刻信息和所述权重信息进行加权运算,得到所述目标多媒体文件的推荐时刻信息;
按照所述推荐时刻信息输出所述目标多媒体文件的推荐片段。
2.根据权利要求1所述的片段推荐方法,其特征在于,所述推荐时刻信息包括片段起始时刻和片段终止时刻,所述按照所述推荐时刻信息输出所述目标多媒体文件的推荐片段,包括:
获取所述目标多媒体文件的第一字幕信息,所述第一字幕信息包括多条第一字幕,以及每条第一字幕的字幕起始时刻和字幕终止时刻;
在所述片段起始时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,基于所述至少一条第一字幕的字幕起始时刻或字幕终止时刻更新所述片段起始时刻;
在所述片段终止时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,基于所述至少一条第一字幕的字幕起始时刻或字幕终止时刻更新所述片段终止时刻;
按照更新后的所述片段起始时刻和所述片段终止时刻,输出所述目标多媒体文件的推荐片段。
3.根据权利要求1所述的片段推荐方法,其特征在于,所述按照所述推荐时刻信息输出所述目标多媒体文件的推荐片段,包括:
在所述片段起始时刻位于所述目标多媒体文件的预设时刻范围内的情况下,按照第一预设偏移量调整所述片段起始时刻,以形成输出起始时刻;
在所述片段终止时刻位于所述目标多媒体文件的预设时刻范围内的情况下,按照第二预设偏移量调整所述片段终止时刻,以形成输出终止时刻;
按照所述输出起始时刻和所述输出终止时刻,对所述目标多媒体文件进行截取处理,以形成所述推荐片段;
输出所述推荐片段,所述输出包括播放或者显示播放控件。
4.根据权利要求1所述的片段推荐方法,其特征在于,还包括:
获取所述用户信息对应的历史输出列表,所述历史输出列表包括至少一个历史多媒体文件和每个历史多媒体文件的用户行为日志;
在检测到所述用户行为日志中存在第一目标行为的情况下,确定所述用户行为日志对应的历史多媒体文件的样本片段,所述样本片段包括所述第一目标行为的第一触发时刻;
根据所述至少一个历史多媒体文件的样本片段和所述用户信息,对预设模型进行训练,形成所述推荐模型;
其中,所述第一目标行为包括以下至少一种:点赞行为、收藏行为、分享行为、评论行为和下载行为。
5.根据权利要求4所述的片段推荐方法,其特征在于,所述确定所述用户行为日志对应的历史多媒体文件的样本片段,包括:
确定所述用户行为日志中第二目标行为的第二触发时刻,以及第三目标行为的第三触发时刻,所述第二目标行为用于触发输出所述用户行为日志对应的历史多媒体文件,所述第三目标行为用于触发停止输出所述用户行为日志对应的历史多媒体文件;
按照所述第二触发时刻和所述第三触发时刻对所述用户行为日志对应的历史多媒体文件进行截取处理,以形成所述样本片段。
6.一种片段推荐装置,其特征在于,包括:
第一处理模块,用于对应用程序对应的用户信息和所述应用程序的目标多媒体文件进行转换处理,确定目标特征;
推荐模块,用于将所述目标特征输入所述应用程序对应的推荐模型,所述推荐模型包括多个专家网络、门控网络和融合网络;
基于所述多个专家网络,对所述目标特征进行分析处理,得到多个样本时刻信息;
基于所述门控网络,确定所述多个专家网络对应的权重信息;
基于所述融合网络,对所述多个样本时刻信息和所述权重信息进行加权运算,得到所述目标多媒体文件的推荐时刻信息;
输出模块,用于按照所述推荐时刻信息输出所述目标多媒体文件的推荐片段。
7.根据权利要求6所述的片段推荐装置,其特征在于,所述推荐时刻信息包括片段起始时刻和片段终止时刻,所述片段推荐装置还包括:
第一获取模块,用于获取所述目标多媒体文件的第一字幕信息,所述第一字幕信息包括多条第一字幕,以及每条第一字幕的字幕起始时刻和字幕终止时刻;
更新模块,用于在所述片段起始时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,基于所述至少一条第一字幕的字幕起始时刻或字幕终止时刻更新所述片段起始时刻;以及
在所述片段终止时刻位于至少一条第一字幕的字幕起始时刻和字幕终止时刻之间的情况下,基于所述至少一条第一字幕的字幕起始时刻或字幕终止时刻更新所述片段终止时刻更新;
所述输出模块,还用于按照更新后的所述片段起始时刻和所述片段终止时刻,输出所述目标多媒体文件的推荐片段。
8.根据权利要求6所述的片段推荐装置,其特征在于,还包括:
调整模块,用于在所述片段起始时刻位于所述目标多媒体文件的预设时刻范围内的情况下,按照第一预设偏移量调整所述片段起始时刻,以形成输出起始时刻;以及
在所述片段终止时刻位于所述目标多媒体文件的预设时刻范围内的情况下,按照第二预设偏移量调整所述片段终止时刻,以形成输出终止时刻;
第二处理模块,用于按照所述输出起始时刻和所述输出终止时刻,对所述目标多媒体文件进行截取处理,以形成所述推荐片段;
所述输出模块,还用于输出所述推荐片段,所述输出包括播放或者显示播放控件。
9.根据权利要求6所述的片段推荐装置,其特征在于,还包括:
第二获取模块,用于获取所述用户信息对应的历史输出列表,所述历史输出列表包括至少一个历史多媒体文件和每个历史多媒体文件的用户行为日志;
确定模块,用于在检测到所述用户行为日志中存在第一目标行为的情况下,确定所述用户行为日志对应的历史多媒体文件的样本片段,所述样本片段包括所述第一目标行为的第一触发时刻;
训练模块,用于根据所述至少一个历史多媒体文件的样本片段和所述用户信息,对预设模型进行训练,形成所述推荐模型;
其中,所述第一目标行为包括以下至少一种:点赞行为、收藏行为、分享行为、评论行为和下载行为。
10.根据权利要求9所述的片段推荐装置,其特征在于,
所述确定模块,还用于确定所述用户行为日志中第二目标行为的第二触发时刻,以及第三目标行为的第三触发时刻,所述第二目标行为用于触发输出所述用户行为日志对应的历史多媒体文件,所述第三目标行为用于触发停止输出所述用户行为日志对应的历史多媒体文件;
所述片段推荐装置还包括:
第三处理模块,用于按照所述第二触发时刻和所述第三触发时刻对所述用户行为日志对应的历史多媒体文件进行截取处理,以形成所述样本片段。
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的片段推荐方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的片段推荐方法的步骤。
CN202111214700.7A 2021-10-19 2021-10-19 片段推荐方法、片段推荐装置、电子设备和可读存储介质 Pending CN113946712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111214700.7A CN113946712A (zh) 2021-10-19 2021-10-19 片段推荐方法、片段推荐装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111214700.7A CN113946712A (zh) 2021-10-19 2021-10-19 片段推荐方法、片段推荐装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN113946712A true CN113946712A (zh) 2022-01-18

Family

ID=79331267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111214700.7A Pending CN113946712A (zh) 2021-10-19 2021-10-19 片段推荐方法、片段推荐装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN113946712A (zh)

Similar Documents

Publication Publication Date Title
CN107918653B (zh) 一种基于喜好反馈的智能播放方法和装置
US20210020182A1 (en) Personalization of experiences with digital assistants in communal settings through voice and query processing
US10650861B2 (en) Video summarization and collaboration systems and methods
US9542489B2 (en) Estimating social interest in time-based media
US20160055245A1 (en) Systems and methods for providing information discovery and retrieval
KR20170100067A (ko) 미디어 환경에서 지능형 자동화 어시스턴트
US12086503B2 (en) Audio segment recommendation
CN107241622A (zh) 视频定位处理方法、终端设备及云端服务器
CN109165302A (zh) 多媒体文件推荐方法及装置
CN111209437B (zh) 一种标签处理方法、装置、存储介质和电子设备
JP2010097249A (ja) 電子機器、コンテンツ推薦方法及びプログラム
CN101444092A (zh) 视频播放装置,视频播放方法,以及视频播放程序
US11511200B2 (en) Game playing method and system based on a multimedia file
US20080096174A1 (en) Tutorial generation unit, multimedia management system, portable apparatus, method of explanation of multimedia management behavior, computer program product
CN113194346A (zh) 一种显示设备
US20240121451A1 (en) Video processing method and apparatus, storage medium, and device
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
US20220147558A1 (en) Methods and systems for automatically matching audio content with visual input
CN111414512A (zh) 一种基于语音搜索的资源推荐方法、装置及电子设备
EP2720155A1 (en) Information processing device, information processing method and program
CN113407775B (zh) 视频搜索方法、装置及电子设备
CN113688260A (zh) 视频推荐方法和装置
CN112261470A (zh) 音频处理方法及装置
CN116049490A (zh) 素材搜索方法、装置和电子设备
CN113946712A (zh) 片段推荐方法、片段推荐装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination