CN113495969A - 数字指纹生成、媒体数据推荐方法、装置和计算机设备 - Google Patents

数字指纹生成、媒体数据推荐方法、装置和计算机设备 Download PDF

Info

Publication number
CN113495969A
CN113495969A CN202111051312.1A CN202111051312A CN113495969A CN 113495969 A CN113495969 A CN 113495969A CN 202111051312 A CN202111051312 A CN 202111051312A CN 113495969 A CN113495969 A CN 113495969A
Authority
CN
China
Prior art keywords
media data
target
digital fingerprint
historical
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111051312.1A
Other languages
English (en)
Other versions
CN113495969B (zh
Inventor
赵文哲
田上萱
孔伟杰
蔡成飞
刘威
王红法
蒋杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111051312.1A priority Critical patent/CN113495969B/zh
Publication of CN113495969A publication Critical patent/CN113495969A/zh
Application granted granted Critical
Publication of CN113495969B publication Critical patent/CN113495969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数字指纹生成方法、装置、计算机设备和存储介质。该方法包括:获取目标媒体数据,并对目标媒体数据进行特征提取并进行编码,得到目标媒体数据特征和编码特征,基于目标媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集;基于编码特征从待筛选媒体数据集中进行相似编码筛选,得到目标媒体数据对应的初始筛选媒体数据集,基于目标媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的目标筛选媒体数据;获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹。采用本方法能够提高多媒体数字指纹生成效率。

Description

数字指纹生成、媒体数据推荐方法、装置和计算机设备
技术领域
本申请涉及互联网技术领域,特别是涉及一种数字指纹生成、媒体数据推荐方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,出现了数字指纹技术,数字指纹是一种安全措施,用于保护多媒体文件和信息。目前,当需要对大量媒体数据进行数字指纹生成时,都会为每个媒体数据生成唯一的数字指纹。然而,为每个媒体数据都生成唯一的数字指纹,当存在大量重复或者相似的媒体数据,会使得数字指纹生成的效率低下。比如,当需要对大量的视频生成数字指纹时,且该大量的视频中存在较多重复或者相似的视频,此时,对每个视频都生成唯一的数字指纹会使得视频数字指纹生成的效率降低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高媒体数据数字指纹生成效率进而提高媒体数据推荐效率的数字指纹生成、媒体数据推荐方法、装置、计算机设备和存储介质。
一种数字指纹生成方法,所述方法包括:
获取数字指纹生成指令,数字指纹生成指令携带有目标媒体数据,并对目标媒体数据进行特征提取,得到目标媒体数据特征;
将目标媒体数据特征进行编码,得到目标媒体数据对应的编码特征;
获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集;
基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到目标媒体数据对应的初始筛选媒体数据集,并基于目标媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的目标筛选媒体数据;
获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹。
一种数字指纹生成装置,所述装置包括:
特征提取模块,用于获取数字指纹生成指令,数字指纹生成指令携带有目标媒体数据,并对目标媒体数据进行特征提取,得到目标媒体数据特征;
编码模块,用于将目标媒体数据特征进行编码,得到目标媒体数据对应的编码特征;
搜索模块,用于获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集;
筛选模块,用于基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到目标媒体数据对应的初始筛选媒体数据集,并基于目标媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的目标筛选媒体数据;
数字指纹得到模块,用于获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取数字指纹生成指令,数字指纹生成指令携带有目标媒体数据,并对目标媒体数据进行特征提取,得到目标媒体数据特征;
将目标媒体数据特征进行编码,得到目标媒体数据对应的编码特征;
获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集;
基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到目标媒体数据对应的初始筛选媒体数据集,并基于目标媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的目标筛选媒体数据;
获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取数字指纹生成指令,数字指纹生成指令携带有目标媒体数据,并对目标媒体数据进行特征提取,得到目标媒体数据特征;
将目标媒体数据特征进行编码,得到目标媒体数据对应的编码特征;
获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集;
基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到目标媒体数据对应的初始筛选媒体数据集,并基于目标媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的目标筛选媒体数据;
获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹。
上述数字指纹生成方法、装置、计算机设备和存储介质,通过对目标媒体数据进行特征提取,得到目标媒体数据特征,将目标媒体数据特征进行编码,得到目标媒体数据对应的编码特征,然后基于目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集,从待筛选媒体数据集中进行相似编码筛选,得到目标媒体数据对应的初始筛选媒体数据集,从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的目标筛选媒体数据,最后获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹,即通过使用目标媒体数据特征进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集,提高了得到的待筛选媒体数据集的效率,然后再进行相似编码筛选,提高了得到初始筛选媒体数据集的效率,然后进行相似特征筛选,保证了筛选得到的目标筛选媒体数据的准确性,最后获取到目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹,从而在保证目标数字指纹准确性的基础上提高了数字指纹生成的效率。
一种媒体数据推荐方法,所述方法包括:
获取待推荐媒体数据和已推荐媒体数据数字指纹队列;
获取待推荐媒体数据对应的数字指纹,其中,通过对待推荐媒体数据进行特征提取,得到待推荐媒体数据特征,将待推荐媒体数据特征进行编码,得到待推荐媒体数据对应的编码特征,获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于待推荐媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到待推荐媒体数据对应的待筛选媒体数据集,基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到待推荐媒体数据对应的初始筛选媒体数据集,并基于待推荐媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到待推荐媒体数据对应的目标筛选媒体数据,获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为待推荐媒体数据对应的数字指纹;
计算待推荐媒体数据对应的数字指纹与已推荐媒体数据数字指纹队列中已推荐媒体数据数字指纹的相似程度;
当相似程度均未超过预设媒体数据重复阈值时,将待推荐媒体数据向对应的用户终端进行推荐。
一种媒体数据推荐装置,所述装置包括:
数据获取模块,用于获取待推荐媒体数据和已推荐媒体数据数字指纹队列;
数字指纹获取模块,用于获取待推荐媒体数据对应的数字指纹,其中,通过对待推荐媒体数据进行特征提取,得到待推荐媒体数据特征,将待推荐媒体数据特征进行编码,得到待推荐媒体数据对应的编码特征,获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于待推荐媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个的历史媒体数据中进行相似媒体数据搜索,得到待推荐媒体数据对应的待筛选媒体数据集,基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到待推荐媒体数据对应的初始筛选媒体数据集,并基于待推荐媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到待推荐媒体数据对应的目标筛选媒体数据,获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为待推荐媒体数据对应的数字指纹;
相似计算模块,用于计算待推荐媒体数据对应的数字指纹与已推荐媒体数据数字指纹队列中已推荐媒体数据数字指纹的相似程度;
推荐模块,用于当相似程度均未超过预设媒体数据重复阈值时,将待推荐媒体数据向对应的用户终端进行推荐。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待推荐媒体数据和已推荐媒体数据数字指纹队列;
获取待推荐媒体数据对应的数字指纹,其中,通过对待推荐媒体数据进行特征提取,得到待推荐媒体数据特征,将待推荐媒体数据特征进行编码,得到待推荐媒体数据对应的编码特征,获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于待推荐媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到待推荐媒体数据对应的待筛选媒体数据集,基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到待推荐媒体数据对应的初始筛选媒体数据集,并基于待推荐媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到待推荐媒体数据对应的目标筛选媒体数据,获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为待推荐媒体数据对应的数字指纹;
计算待推荐媒体数据对应的数字指纹与已推荐媒体数据数字指纹队列中已推荐媒体数据数字指纹的相似程度;
当相似程度均未超过预设媒体数据重复阈值时,将待推荐媒体数据向对应的用户终端进行推荐。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待推荐媒体数据和已推荐媒体数据数字指纹队列;
获取待推荐媒体数据对应的数字指纹,其中,通过对待推荐媒体数据进行特征提取,得到待推荐媒体数据特征,将待推荐媒体数据特征进行编码,得到待推荐媒体数据对应的编码特征,获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于待推荐媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到待推荐媒体数据对应的待筛选媒体数据集,基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到待推荐媒体数据对应的初始筛选媒体数据集,并基于待推荐媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到待推荐媒体数据对应的目标筛选媒体数据,获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为待推荐媒体数据对应的数字指纹;
计算待推荐媒体数据对应的数字指纹与已推荐媒体数据数字指纹队列中已推荐媒体数据数字指纹的相似程度;
当相似程度均未超过预设媒体数据重复阈值时,将待推荐媒体数据向对应的用户终端进行推荐。
上述媒体数据推荐方法、装置、计算机设备和存储介质,通过获取待推荐媒体数据和已推荐媒体数据数字指纹队列,然后获取待推荐媒体数据对应的数字指纹,再计算待推荐媒体数据对应的数字指纹与已推荐媒体数据数字指纹队列中已推荐媒体数据数字指纹的相似程度;当相似程度均未超过预设媒体数据重复阈值时,将待推荐媒体数据向对应的用户终端进行推荐,由于提高了生成数字指纹的效率,进而能够快速获取到待推荐媒体数据对应的数字指纹,然后计算相似程度,当相似程度均未超过预设媒体数据重复阈值时,将待推荐媒体数据向对应的用户终端进行推荐,从而可以避免向用户终端推荐重复的媒体数据并且提高了媒体数据的推荐效率。
附图说明
图1为一个实施例中数字指纹生成方法的应用环境图;
图2为一个实施例中数字指纹生成方法的流程示意图;
图3为另一个实施例中数字指纹生成方法的流程示意图;
图4为一个实施例中得到目标媒体数据组的流程示意图;
图5为一个实施例中聚类分组的示意图;
图6为一个实施例中得到代表媒体数据的流程示意图;
图7为一个实施例中得到数字指纹的流程示意图;
图8为一个实施例中得到待筛选媒体数据集的流程示意图;
图9为一个实施例中得到目标筛选媒体数据的流程示意图;
图10为一个实施例中媒体数据推荐方法的流程示意图;
图11为一个具体实施例中数字指纹生成方法的流程示意图;
图12为一个具体实施例中视频指纹生成的框架示意图;
图13为一个具体实施例中特征提取模型的训练架构示意图;
图14为一个具体实施例中相似人脸图像的示意图;
图15为一个实施例中数字指纹生成装置的结构框图;
图16为一个实施例中媒体数据推荐装置的结构框图;
图17为一个实施例中计算机设备的内部结构图;
图18为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的深度学习等技术,具体通过如下实施例进行说明:
本申请提供的数字指纹生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取到终端102发送的数字指纹生成指令,数字指纹生成指令携带有目标媒体数据,并对目标媒体数据进行特征提取,得到目标媒体数据特征;服务器104将目标媒体数据特征进行编码,得到目标媒体数据对应的编码特征;服务器104从数据库106中获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集;服务器104基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到目标媒体数据对应的初始筛选媒体数据集,并基于目标媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的目标筛选媒体数据;服务器104获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备、智能语音交互设备、智能家电、车载终端等,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数字指纹生成方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用在终端中,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。在本实施例中,包括以下步骤:
步骤202,获取数字指纹生成指令,数字指纹生成指令携带有目标媒体数据,并对目标媒体数据进行特征提取,得到目标媒体数据特征。
其中,目标媒体数据是指要生成数字指纹的媒体数据,媒体数据是指通过互联网信息传播平台进行信息传播的媒介,可以是视频、图像、文本等等。目标媒体数据特征是高维的浮点型多模态特征。
具体地,服务器可以获取到终端发送的数字指纹生成指令,该数字指纹生成指令携带有目标媒体数据。服务器也可以在获取到终端发送的数字指纹生成指令后,从数据库中获取到保存的目标媒体数据。服务器也可以获取到业务服务器中目标媒体数据。然后服务器对目标媒体数据使用特征提取模型进行特征提取,得到目标媒体数据特征。该特征提取模型可以是通过深度学习神经网络建立的模型。其中,可以通过视频特征提取模型对视频数据进行特征提取,可以通过文本特征提取模型对文本数据进行特征提取,可以通过图像特征提取模型对图像数据进行特征提取。
步骤204,将目标媒体数据特征进行编码,得到目标媒体数据对应的编码特征。
其中,编码特征是将目标媒体数据特征进行二进制哈希编码得到的。
具体地,服务器需要将目标媒体数据特征进行二进制哈希编码,得到目标媒体数据对应的编码特征。其中,可以通过哈希函数得到目标媒体数据对应的低维紧凑的二进制哈希编码,即可以将一个高维的目标媒体数据特征编码成地位的哈希码。其中,哈希函数可以是无监督哈希算法,也可以是监督哈希算法。
步骤206,获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集。
其中,历史媒体数据是指已经生成有数字指纹的媒体数据。历史媒体数据特征是指对历史媒体数据进行特征提取得到的媒体数据特征。历史编码特征是指对历史媒体数据特征进行编码后得到的编码特征。待筛选媒体数据集是指通过相似媒体数据搜索召回的历史媒体数据的集合,该待筛选媒体数据集是需要进一步进行筛选的。相似媒体数据搜索可以是通过最近邻检索算法在各个已生成数字指纹的历史媒体数据中进行检索并召回。其中,最近邻检索算法是指在一个确定的距离度量和一个搜索空间内寻找与给定查询项距离最小的元素。
具体地,服务器可以从数据库中获取到获取各个已生成数字指纹的历史媒体数据、每个历史媒体数据对应的历史媒体数据特征和每个历史媒体数据对应的历史编码特征。也可以从提供数据服务的服务方获取到各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征。服务器使用目标媒体数据特征和各个历史媒体数据对应的历史媒体数据特征进行相似距离度量计算,根据得到的各个历史媒体数据特征对应的相似距离度量从各个已生成数字指纹的历史媒体数据中召回超过预先设置好的距离度量的历史媒体数据,得到目标媒体数据对应的待筛选媒体数据集。
步骤208,基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到目标媒体数据对应的初始筛选媒体数据集,并基于目标媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的目标筛选媒体数据。
其中,相似编码筛选是指从待筛选媒体数据集使用编码特征进行筛选。初始筛选媒体数据集是指通过编码特征对待筛选媒体数据集中的历史媒体数据进行筛选后得到的历史媒体数据集合。相似特征筛选是指使用目标媒体数据特征从初始筛选媒体数据集中进行筛选后得到的历史媒体数据集合。目标筛选媒体数据是指筛选得到的与目标媒体数据最相似的历史媒体数据。
具体地,服务器可以使用相似度算法计算编码特征与待筛选媒体数据集中各个历史媒体数据对应的历史编码特征之间的相似距离,根据各个历史媒体数据对应的相似距离从待筛选媒体数据集中进行筛选,可以将超过预先设置好的编码特征之间的相似距离阈值的历史媒体数据作为目标媒体数据对应的初始筛选媒体数据集。服务器也可以根据各个历史媒体数据对应的相似距离将各个历史媒体数据进行排序,选取排序前列的历史媒体数据得到目标媒体数据对应的初始筛选媒体数据集。进一步,服务器使用相似度算法计算目标媒体数据特征与初始筛选媒体数据集中历史媒体数据对应的历史媒体数据特征之间的特征相似距离,然后根据各个特征相似距离从初始筛选媒体数据集中进行筛选,得到目标媒体数据对应的目标筛选媒体数据,可以选取超过预先设置好的特征之间相似阈值的各个历史媒体数据,也可以根据各个特征相似距离将初始筛选媒体数据集中各个历史媒体数据进行排序,然后选取排序最前列的历史媒体数据,得到目标筛选媒体数据。其中,相似度算法可以是欧式距离算法、汉明距离算法、余弦相似度算法等等。并且在进行相似编码筛选和相似特征筛选时可以使用相同的相似度算法,也可以使用不同的相似度算法。其中,服务器也可以从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的至少两个目标筛选媒体数据。
步骤210,获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹。
其中,目标数字指纹是指目标筛选媒体数据对应的数字指纹,该数字指纹是已经生成的。
具体地,服务器从数据库中获取到目标筛选媒体数据对应的目标数字指纹,然后直接将目标数字指纹作为目标媒体数据对应的数字指纹。即将相似的媒体数据使生成的数字指纹相同,从而避免为每个相同或者相似的媒体数据都生成对应的数字指纹,提高了数字指纹的生成效率,并且进一步节省了数字指纹的存储空间,节省的存储资源。
上述数字指纹生成方法中,通过对目标媒体数据进行特征提取,得到目标媒体数据特征,将目标媒体数据特征进行编码,得到目标媒体数据对应的编码特征,然后基于目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集,从待筛选媒体数据集中进行相似编码筛选,得到目标媒体数据对应的初始筛选媒体数据集,从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的目标筛选媒体数据,最后获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹,即通过使用目标媒体数据特征进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集,提高了得到的待筛选媒体数据集的效率,然后再进行相似编码筛选,提高了得到初始筛选媒体数据集的效率,然后进行相似特征筛选,保证了筛选得到的目标筛选媒体数据的准确性,最后获取到目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹,从而在保证目标数字指纹准确性的基础上提高了数字指纹生成的效率。
在一个实施例中,数字指纹生成指令携带有至少两个目标媒体数据,如图3所示,该方法还包括:
步骤302,分别对至少两个目标媒体数据进行特征提取,得到至少两个目标媒体数据特征。
步骤304,将至少两个目标媒体数据特征进行编码,得到至少两个目标媒体数据对应的编码特征。
具体地,服务器也可以同时对一批次的媒体数据进行指纹生成,此时,服务器要获取到该批次的媒体数据,可以解析得到数字指纹生成指令中携带的至少两个目标媒体数据,也可以从数据库中直接获取到至少两个目标媒体数据。还可以从互联网获取到至少两个目标媒体数据等等。然后使用特征提取模型分别对至少两个目标媒体数据进行特征提取,得到每个目标媒体数据对应的目标媒体数据特征,然后对每个目标媒体数据特征进行二进制哈希编码,得到每个目标媒体数据特征对应的编码特征。
步骤306,基于至少两个目标媒体数据特征对至少两个目标媒体数据进行聚类,得到至少两个目标媒体数据组,并从至少两个目标媒体数据组中进行代表性媒体数据选取,得到至少两个目标媒体数据组对应的代表媒体数据。
其中,目标媒体数据组是指同类的目标媒体数据的集合。不同类的目标媒体数据组属于不同的目标媒体数据组。代表媒体数据是指目标媒体数据组中最具有代表性的目标媒体数据,该代表媒体数据与目标媒体数据组中其他目标媒体数据之间的距离和最小。
具体地,服务器可以使用聚类算法通过至少两个目标媒体数据特征对至少两个目标媒体数据进行聚类,其中,聚类算法可以是K-Means(K均值)聚类算法、基于密度的聚类算法以及模型算法等等。聚类完成后,得到不同的类别,每个类别都有对应的目标媒体数据,即得到至少两个目标媒体数据组。然后从每个目标媒体数据组中进行代表性媒体数据选取,得到每个目标媒体数据组对应的代表媒体数据。
步骤308,基于代表媒体数据对应的目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到代表媒体数据对应的目标待筛选媒体数据集。
其中,目标待筛选媒体数据集是指使用代表媒体数据对应的目标媒体数据特征筛选得到的待筛选媒体数据集。每个代表媒体数据都会得到对应的目标待筛选媒体数据集。
具体地,服务器在得到每个目标媒体数据组对应的代表媒体数据之后,然后对所有的代表媒体数据进行并行处理,即使用代表媒体数据对应的目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征进行相似距离计算,根据相似距离从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到代表媒体数据对应的目标待筛选媒体数据集。即从各个已生成数字指纹的历史媒体数据选取超过相似距离阈值的历史媒体数据,得到该代表媒体数据对应的目标待筛选媒体数据集。
步骤310,基于代表媒体数据对应的编码特征与目标待筛选媒体数据集对应的历史编码特征从目标待筛选媒体数据集中进行相似编码筛选,得到代表媒体数据对应的目标初始筛选媒体数据集,并基于代表媒体数据对应的目标媒体数据特征与目标初始筛选媒体数据集对应的历史媒体数据特征从目标初始筛选媒体数据集中进行相似特征筛选,得到代表媒体数据对应的代表筛选媒体数据。
其中,目标初始筛选媒体数据集是指使用代表媒体数据对应的编码特征进行相似编码筛选得到的初始筛选媒体数据集。代表筛选媒体数据是指与代表媒体数据最相似的历史媒体数据。
具体地,服务器继续进行相似编码筛选和相似特征筛选,即使用代表媒体数据对应的编码特征与目标待筛选媒体数据集中各个历史媒体数据对应的历史编码特征进行编码相似距离计算,然后根据各个编码相似距离将目标待筛选媒体数据集中的各个历史媒体数据进行排序,然后选取排序前列的历史媒体数据就得到了代表媒体数据对应的目标初始筛选媒体数据集。然后再使用代表媒体数据对应的目标媒体数据特征与目标初始筛选媒体数据集中历史媒体数据对应的历史媒体数据特征进行特征相似距离计算,然后根据各个特征相似距离将目标初始筛选媒体数据集各个历史媒体数据进行排序,然后选取排序最前列的历史媒体数据就得到了代表媒体数据对应的代表筛选媒体数据。
步骤312,获取代表筛选媒体数据对应的代表数字指纹,将代表数字指纹作为代表媒体数据对应的目标媒体数据组中目标媒体数据对应的数字指纹。
其中,代表数字指纹是指代表筛选媒体数据已经生成的数字指纹。
具体地,服务器从数据库获取到代表筛选媒体数据对应的代表数字指纹,然后将代表数字指纹作为代表媒体数据对应的目标媒体数据组中每个目标媒体数据对应的数字指纹。即目标媒体数据组中每个目标媒体数据的数字指纹都为代表数字指纹。
在上述实施例中,在获取到至少两个目标媒体数据时,通过将目标媒体数据进行聚类,并选取代表媒体数据,然后筛选得到代表媒体数据对应的代表筛选媒体数据,从而得到该代表媒体数据对应的目标媒体数据组中每个目标媒体数据对应的数字指纹,可以快速得到目标媒体数据组中每个目标媒体数据对应的数字指纹,提高了数字指纹的生成效率。
在一个实施例中,如图4所示,步骤306,基于至少两个目标媒体数据特征对至少两个目标媒体数据进行聚类,得到至少两个目标媒体数据组,包括:
步骤402,获取聚类距离范围和聚类数量阈值。
步骤404,从至少两个目标媒体数据特征中随机选取,得到当前媒体数据特征,计算当前媒体数据特征和至少两个目标媒体数据特征的距离,并统计距离在聚类距离范围内的目标媒体数据特征数量。
其中,聚类距离范围是指聚类时进行同类目标媒体数据确实时使用的相似距离范围。即需要将聚类距离范围内的目标媒体数据作为同类目标媒体数据。聚类数量阈值是指聚类后每个类别中目标媒体数据的最少数量阈值。当前媒体数据特征是指当前需要进行聚类计算的目标媒体数据特征。
具体地,服务器可以从数据库中获取到聚类距离范围和聚类数量阈值。服务器也可以获取到终端上传的聚类距离范围和聚类数量阈值。然后服务器遍历每个目标媒体数据特征,即先从至少两个目标媒体数据特征中随机选取,得到当前媒体数据特征,然后使用距离相似度算法计算当前媒体数据特征与至少两个目标媒体数据特征中除当前媒体数据特征以外的目标媒体数据特征之间的相似距离,并统计相似距离在聚类距离范围内的目标媒体数据特征数量。
步骤406,当目标媒体数据特征数量超过聚类数量阈值时,基于当前媒体数据特征从至少两个目标媒体数据特征中确定密度相连的目标媒体数据特征。
具体地,服务器判断当目标媒体数据特征数量超过聚类数量阈值时,说明当前媒体数据特征为核心数据对象。然后使用当前媒体数据特征通过密度可达关系从至少两个目标媒体数据特征中确定密度相连的目标媒体数据特征。服务器判断当目标媒体数据特征数量未超过聚类数量阈值时,说明该当前媒体数据特征为边缘数据对象,此时,从至少两个目标媒体数据特征中选取任意一个除当前媒体数据特征以外的目标媒体数据特征作为当前媒体数据特征重新进行计算。
步骤408,基于当前媒体数据特征对应的目标媒体数据和密度相连的目标媒体数据特征对应的目标媒体数据得到目标媒体数据组。
具体地,服务器根据当前媒体数据特征对应的目标媒体数据和所有密度相连的目标媒体数据特征对应的目标媒体数据就得到了目标媒体数据组。即服务器找到所有从核心数据对象密度可达的数据对象,得到一个簇,即目标媒体数据组。
步骤410,基于目标媒体数据组从至少两个目标媒体数据特征中确定各个待聚类媒体数据特征,并从各个待聚类媒体数据特征中随机选取目标待聚类媒体数据特征。
其中,待聚类媒体数据特征是指除已经聚类完成的目标媒体数据特征之外的目标媒体数据特征。
具体地,服务器将目标媒体数据组中各个目标媒体数据对应的目标媒体数据特征从至少两个目标媒体数据特征中删除,得到剩余的目标媒体数据特征,即得到各个待聚类媒体数据特征。并从各个待聚类媒体数据特征中随机选取目标待聚类媒体数据特征。
步骤412,将目标待聚类媒体数据特征作为当前媒体数据特征,并返回计算当前媒体数据特征和至少两个目标媒体数据特征的距离的步骤执行,直到至少两个目标媒体数据全部聚类完成时,得到至少两个目标媒体数据组。
具体地,服务器将目标待聚类媒体数据特征作为当前媒体数据特征,并返回计算当前媒体数据特征和至少两个目标媒体数据特征的距离的步骤进行循环迭代执行,直到将所有的目标媒体数据全部聚类完成时,得到至少两个目标媒体数据组。
在一个具体的实施例中,如图5所示,为聚类分组的示意图,其中,使用DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)算法进行聚类分组,DBSCAN算法是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。具体来说,聚类距离范围为预先设置好的欧式距离度量,聚类数量阈值为3,然后进行聚类得到的聚类结果。
在上述实施例中,通过获取聚类距离范围和聚类数量阈值,然后使用聚类距离范围和聚类数量阈值进行聚类计算,直到将所有的目标媒体数据全部聚类完成时,得到至少两个目标媒体数据组,从而可以避免对相似的媒体数据生成不同的数字指纹从而出现指纹冲突的情况,提高了数字指纹生成的准确性。
在一个实施例中,如图6所示,步骤306,即从至少两个目标媒体数据组中进行代表性媒体数据选取,得到至少两个目标媒体数据组对应的代表媒体数据,包括:
步骤602,从目标媒体数据组中确定当前目标媒体数据和除当前目标媒体数据以外的目标媒体数据,得到各个剩余目标媒体数据。
步骤604,基于当前目标媒体数据对应的目标媒体数据特征和各个剩余目标媒体数据对应的目标媒体数据特征计算当前目标媒体数据与各个剩余目标媒体数据的距离和,得到当前目标距离。
其中,当前目标媒体数据是指当前需要确实是否为代表媒体数据的目标媒体数据。剩余目标媒体数据是指目标媒体数据组中与当前目标媒体数据不同的目标媒体数据。当前目标距离是指当前目标媒体数据对应的目标距离,该目标距离是与目标媒体数据组中其他目标媒体数据之间的距离之和。
具体地,服务器从目标媒体数据组中确定当前目标媒体数据和除当前目标媒体数据以外的目标媒体数据,得到各个剩余目标媒体数据。然后使用欧式距离算法计算当前目标媒体数据对应的目标媒体数据特征与每个剩余目标媒体数据对应的目标媒体数据特征之间的欧式距离,然后在计算所有距离的和,得到当前目标媒体数据对应的当前目标距离。
步骤606,遍历目标媒体数据组中各个目标媒体数据,得到各个目标媒体数据对应的当前目标距离。
具体地,服务器可以并行计算目标媒体数据组中每个目标媒体数据对应的当前目标距离。
步骤608,比较各个目标媒体数据对应的当前目标距离,并将最小当前目标距离对应的目标媒体数据作为目标媒体数据组对应的代表媒体数据。
具体地,服务器可以比较各个目标媒体数据对应的当前目标距离,从当前目标距离中确定最小的当前目标距离,然后将最小当前目标距离对应的目标媒体数据作为目标媒体数据组对应的代表媒体数据。
在上述实施例中,通过计算目标媒体数据组中各个目标媒体数据对应的当前目标距离,然后选取最小当前目标距离对应的目标媒体数据作为目标媒体数据组对应的代表媒体数据,从而使选取的代表媒体数据更加准确。
在一个实施例中,步骤202,即对目标媒体数据进行特征提取,得到目标媒体数据特征,包括步骤:
将目标媒体数据输入特征提取模型中进行特征提取,得到目标媒体数据特征,特征提取模型是基于深度神经网络使用训练媒体数据样本进行训练得到的。
具体地,服务器预先使用训练媒体数据样本通过深度神经网络进行训练,得到特征提取模型,然后将特征提取模型进行部署并使用。当需要使用时,服务器将目标媒体数据输入特征提取模型中,特征提取模型进行特征提取,得到输入的目标媒体数据特征。该目标媒体数据特征可以是512维的特征向量。在一个实施例中,当目标媒体数据为视频或者图像时,可以使用Transformer(一种基于编码-解码结构的模型)特征提取模型进行提取特征,当目标媒体数据为文本时,可以使用Bert(Bidirectional Encoder Representation fromTransformers,基于转换器的双向编码表征)模型进行提取特征,得到输出的目标媒体数据特征,能够提高目标媒体数据特征的准确性。
在一个实施例中,步骤204,即将目标媒体数据特征进行编码,得到目标媒体数据对应的编码特征,包括步骤:
对目标媒体数据特征进行降维,得到降维特征;基于降维特征计算最优旋转矩阵下对应的二进制编码,得到目标媒体数据对应的编码特征。
具体地,服务器可以使用ITQ(Iterative Quantization,迭代量化)算法对目标媒体数据特征进行编码,即先使用降维算法对目标媒体数据特征进行降维,得到降维特征,其中降维算法可以是PCA(principal component analysis ,主成分分析)算法。然后使用降维特征计算最优旋转矩阵下对应的二进制编码,得到目标媒体数据对应的编码特征,即将一个D维的目标媒体数据特征
Figure 559341DEST_PATH_IMAGE002
表示编码成r维的哈希码
Figure 990323DEST_PATH_IMAGE004
,其中,
Figure 87592DEST_PATH_IMAGE006
表示第i个目标媒体数据特征,R表示实数,
Figure 654839DEST_PATH_IMAGE008
表示第i个哈希码。通过对目标媒体数据特征进行降维,得到降维特征,基于降维特征计算最优旋转矩阵下对应的二进制编码,得到目标媒体数据对应的编码特征,使得到的编码特征更加的准确。
在一个实施例中,如图7所示,数字指纹生成方法,还包括:
步骤702,当未获取到各个已生成数字指纹的历史媒体数据时,获取全局数字指纹,全局数字指纹为整型序号编码。
其中,全局数字指纹是全局变量,初始时全局数字指纹为0,通过zookeeper(一个分布式的,开放源码的分布式应用程序协调服务)实现,保证全局数字指纹是唯一的,并且全局数字指纹可以实现自增。全局数字指纹为整型序号编码,即是整型类型,并且一般不超过16维,存储占用空间较小。
具体地,服务器当未获取到各个已生成数字指纹的历史媒体数据时,说明此时,刚开始进行数字指纹的生成,所有的媒体数据都未有对应的数字指纹。此时,服务器获取到保存的全局数字指纹,全局数字指纹为整型序号编码。
步骤704,基于全局数字指纹进行自增,得到第一目标全局数字指纹。
具体地,服务器将全局数字指纹对应的编码进行自增操作,比如,可以进行加1操作,得到自增后的全局数字指纹,即第一目标全局数字指纹。
步骤706,将第一目标全局数字指纹作为目标媒体数据对应的数字指纹。
具体地,服务器将第一目标全局数字指纹保存并将第一目标全局数字指纹作为目标媒体数据对应的数字指纹。
在一个实施例中,当媒体数据进行相似媒体搜索时,未搜索到待筛选媒体数据集时,说明历史媒体数据中未存在相似的历史媒体数据,此时服务器获取到全局数字指纹,并基于全局数字指纹进行自增,得到目标全局数字指纹,将目标全局数字指纹作为该媒体数据对应的数字指纹。
在上述实施例中,服务器使用全局数字指纹来生成媒体数据对应的数字指纹,使生成的数字指纹占用存储空间小,节省了存储资源。
在一个实施例中,如图8所示,步骤206,基于目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集,包括:
步骤802,将目标媒体数据特征进行降维,得到目标降维特征。
步骤804,从各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征中确定各个聚类中心特征,并计算目标降维特征与各个聚类中心特征的中心相似距离,基于中心相似距离从各个聚类中心特征中确定待搜索聚类中心特征。
其中,聚类中心特征是指各个历史媒体数据特征所属于的类别的中心对应的特征。待搜索聚类中心特征是指与目标降维特征最相似的类别对应的聚类中心特征。中心相似距离是指使用距离相似度算法计算得到的距离,比如,使用欧式距离算法计算得到的距离。
具体地,服务器进行粗糙的召回,即服务器使用降维算法将目标媒体数据特征进行降维,得到目标降维特征,其中,降维算法可以使用PCA算法。然后预先使用各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征进行聚类计算,得到聚类结果,然后在计算出各个聚类中心特征。当需要使用时,服务器获取到各个聚类中心特征,并计算目标降维特征与各个聚类中心特征的中心相似距离,然后从各个中心相似距离选取最小中心相似距离,将最小中心相似距离对应的聚类中心特征作为待搜索聚类中心特征。
步骤806,获取待搜索聚类中心特征对应的各个同类历史媒体数据特征,计算目标降维特征与各个同类历史媒体数据特征的特征相似距离。
其中,同类历史媒体数据特征是指与待搜索聚类中心特征是同类的历史媒体数据特征。特征相似距离是指目标降维特征与历史媒体数据特征之间的距离,距离越小,相似程度越高,距离越大,相似程度越小。
具体地,服务器再从数据库中获取到待搜索聚类中心特征对应的各个同类历史媒体数据特征,然后再使用距离相似度算法计算目标降维特征与各个同类历史媒体数据特征之间的特征相似距离。
步骤808,基于特征相似距离从各个同类历史媒体数据特征中选取未超过预设搜索距离阈值的同类历史媒体数据特征,将未超过预设搜索距离阈值的同类历史媒体数据特征对应的历史媒体数据作为目标媒体数据对应的待筛选媒体数据集。
具体地,服务器将每个特征相似距离与预设搜索距离阈值进行比较,预设搜索距离阈值是预先设置好在搜索时特征相似距离的最大值。然后选取特征相似距离未超过预设搜索距离阈值的同类历史媒体数据特征对应的历史媒体数据作为目标媒体数据对应的待筛选媒体数据集。
在一个实施例中,服务器可以通过Faiss(是一款稠密向量检索工具)检索引擎召回与目标媒体数据一般相似的历史媒体数据列表。该召回列表数量可以达到几千条历史媒体数据。
在上述实施例中,通过先从各个聚类中心特征中确定待搜索聚类中心特征,然后再从各个同类历史媒体数据特征中确定未超过预设搜索距离阈值的同类历史媒体数据特征对应的历史媒体数据作为目标媒体数据对应的待筛选媒体数据集,提高了搜索得到待筛选媒体数据集的效率。
在一个实施例中,步骤208,即基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到目标媒体数据对应的初始筛选媒体数据集,包括步骤:
计算编码特征分别与待筛选媒体数据集中各个待筛选媒体数据对应的历史编码特征的相似距离,得到各个待筛选媒体数据对应的编码相似距离;基于各个待筛选媒体数据对应的编码相似距离和预设编码相似距离阈值对各个待筛选媒体数据进行筛选,得到目标媒体数据对应的初始筛选媒体数据集。
其中,编码相似距离是指使用编码特征计算得到的距离,用于表征编码特征之间的相似程度,距离越小,相似程度越高,距离越大,相似程度越小。预设编码相似距离阈值是指预先设置好的进行编码特征筛选时的最小距离。
具体地,服务器使用汉明距离算法计算编码特征分别与待筛选媒体数据集中每个待筛选媒体数据对应的历史编码特征的相似距离,得到各个待筛选媒体数据对应的编码相似距离,然后将每个编码相似距离与预设编码相似距离阈值进行比较,将编码相似距离小于预设编码相似距离的待筛选媒体数据作为初始筛选媒体数据集中的历史媒体数据。在一个实施例中,服务器也可以将各个编码相似距离从小到大依次进行排序,然后选取排序前列的编码相似距离对应的待筛选媒体数据作为初始筛选媒体数据集中的历史媒体数据。
在一个具体的实施例汇总,可以使用如下所示的公式(1)计算得到编码相似距离。
Figure 562883DEST_PATH_IMAGE010
公式(1)
其中,x是指编码特征,y是指历史编码特征。x[i]表示第i个编码特征,y[i]表示第i个历史编码特征。
Figure 684423DEST_PATH_IMAGE012
表示异或。
在一个实施例中,步骤208,即基于目标媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的目标筛选媒体数据,包括步骤:
计算目标媒体数据特征分别与初始筛选媒体数据集中各个初始筛选媒体数据对应的历史媒体数据特征的相似距离,得到各个初始筛选媒体数据对应的特征相似距离;从各个初始筛选媒体数据对应的特征相似距离中确定最小特征相似距离,将最小特征相似距离对应的初始筛选媒体数据作为目标媒体数据对应的目标筛选媒体数据。
其中,特征相似距离是指使用媒体数据特征计算得到的距离,用于表征媒体数据特征之间的相似程度,距离越小,相似程度越高,距离越大,相似程度越小。
具体地,服务器使用欧式距离算法计算目标媒体数据特征分别与初始筛选媒体数据集中各个初始筛选媒体数据对应的历史媒体数据特征的相似距离,得到各个初始筛选媒体数据对应的特征相似距离。然后将各个特征相似距离依次从小到大进行排序,并选取最小特征相似距离对应的初始筛选媒体数据作为目标媒体数据对应的目标筛选媒体数据。
在一个具体的实施例汇总,可以使用如下所示的公式(2)计算得到编码相似距离。
Figure 585383DEST_PATH_IMAGE014
公式(2)
其中,x是指编码特征,y是指历史编码特征。x[i]表示第i个编码特征,y[i]表示第i个历史编码特征。
Figure 272716DEST_PATH_IMAGE012
表示异或。
在上述实施例中,通过计算编码相似距离,然后使用编码距离对各个待筛选媒体数据进行筛选,得到初始筛选媒体数据集。然后在通过时间特征相似距离,使用特征相似距离从初始筛选媒体数据集中确定目标筛选媒体数据,提高了得到目标筛选媒体数据的效率。
在一个实施例中,数字指纹生成方法,还包括步骤:
当最小特征相似距离超过预设特征相似距离阈值时,获取全局数字指纹;基于全局数字指纹进行自增,得到第二目标全局数字指纹并保存;将第二目标全局数字指纹作为目标媒体数据对应的数字指纹。
其中,预设特征相似距离阈值是指预先设置好的最小特征相似距离,用于表征历史媒体数据和目标媒体数据相似时的最小距离,超过预设特征相似距离阈值,说明历史媒体数据和目标媒体数据不相似,当未超过预设特征相似距离阈值,说明历史媒体数据和目标媒体数据相似。
具体地,当最小特征相似距离超过预设特征相似距离阈值时,说明该最小特征相似距离对应的历史媒体数据未与目标媒体数据相似,此时,服务器获取保存的全局数字指纹,该全局数字指纹是上一次进行自增后保存的。此时使用该全局数字指纹进行自增,得到第二目标全局数字指纹并保存,将第二目标全局数字指纹作为目标媒体数据对应的数字指纹。
在上述实施例中,当目标筛选媒体数据的特征相似距离超过预设特征相似距离阈值时,获取全局数字指纹;基于全局数字指纹进行自增,得到第二目标全局数字指纹,将第二目标全局数字指纹作为目标媒体数据对应的数字指纹。提高了数字指纹生成的准确性。
在一个实施例中,如图9所示,从各个初始筛选媒体数据对应的特征相似距离中确定最小特征相似距离,将最小特征相似距离对应的初始筛选媒体数据作为目标媒体数据对应的目标筛选媒体数据,包括:
步骤902,将各个初始筛选媒体数据对应的特征相似距离从小到大进行排序,得到特征相似距离序列。
步骤904,依次从特征相似距离序列中选取至少两个特征相似距离,并得到至少两个特征相似距离对应的目标初始筛选媒体数据。
具体地,服务器也可以根据各个初始筛选媒体数据对应的特征相似距离按照从小到大的顺序将各个初始筛选媒体数据进行排序,得到初始筛选媒体数据的排序结果,然后从初始筛选媒体数据的排序结果中选取排序前列的初始筛选媒体数据,得到至少两个目标初始筛选媒体数据。
步骤906,获取各个目标初始筛选媒体数据分别对应的历史数字指纹,统计各个目标初始筛选媒体数据分别对应的历史数字指纹中相同历史数字指纹对应的目标初始筛选媒体数据数量。
具体地,服务器获取到每个目标初始筛选媒体数据对应的历史数字指纹,然后将每个目标初始筛选媒体数据对应的历史数字指纹进行匹配,得到匹配一致的目标初始筛选媒体数据,然后统计相同历史数字指纹的目标初始筛选媒体数据的数量,得到所有相同历史数字指纹对应的目标初始筛选媒体数据数量。
步骤908,比较相同历史数字指纹对应的目标初始筛选媒体数据数量,并将最大目标筛选媒体数据数量对应的初始筛选媒体数据作为目标媒体数据对应的目标筛选媒体数据。
具体地,服务器选取最大目标初始筛选媒体数据数量对应的初始筛选媒体数据作为目标媒体数据对应的目标筛选媒体数据。比如,选取了5个目标初始筛选媒体数据,其中,具有相同历史数字指纹的目标初始筛选媒体数据有三个,剩余的两个初始筛选媒体数据为相同历史数字指纹,此时,将有三个的相同历史数字指纹的初始筛选媒体数据作为目标媒体数据对应的目标筛选媒体数据。即通过投票的方式选取目标筛选媒体数据,进而将相同历史数字指纹作为目标媒体数据的数字指纹,提高了数字指纹生成的准确性。
在一个实施例中,在步骤210之后,即在获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹之后,还包括:
将目标媒体数据、目标媒体数据对应的目标媒体数据特征、目标媒体数据对应的编码特征和目标媒体数据对应的数字指纹关联保存。
具体地,服务器将目标媒体数据、目标媒体数据对应的目标媒体数据特征、目标媒体数据对应的编码特征和目标媒体数据对应的数字指纹关联保存到数据库中,将目标媒体数据作为历史媒体数据继续进行使用,提高了便利性。
在一个实施例中,如图10所示,提供了一种媒体数据推荐方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用在终端中,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。在本实施例中,包括以下步骤:
步骤1002,获取待推荐媒体数据和已推荐媒体数据数字指纹队列.
其中,待推荐媒体数据是指需要确定是否进行推荐的媒体数据,该媒体数据可以是视频、图像、文本等媒体元素。已推荐媒体数据是指已经推荐过的媒体数据。已推荐媒体数据数字指纹队列中包括至少两个已推荐媒体数据数字指纹,已推荐媒体数据数字指纹是指已推荐媒体数据对应的数字指纹。
具体地,服务器可以从数据库中获取到待推荐媒体数据和已推荐媒体数据数字指纹队列,也可以获取到终端上传的待推荐媒体数据,然后从数据库中获取到已推荐媒体数据数字指纹队列。服务器还可以从业务服务器获取到待推荐媒体数据和已推荐媒体数据数字指纹队列。
步骤1004,获取待推荐媒体数据对应的数字指纹,其中,通过对待推荐媒体数据进行特征提取,得到待推荐媒体数据特征,将待推荐媒体数据特征进行编码,得到待推荐媒体数据对应的编码特征,获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于待推荐媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到待推荐媒体数据对应的待筛选媒体数据集,基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到待推荐媒体数据对应的初始筛选媒体数据集,并基于待推荐媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到待推荐媒体数据对应的目标筛选媒体数据,获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为待推荐媒体数据对应的数字指纹。
具体地,服务器获取到待推荐媒体数据对应的数字指纹,可以是从数据库中获取到保存的数字指纹,该数字指纹是预先生成好的。服务器也可以在获取到待推荐媒体数据,生成待推荐媒体数据对应的数字指纹,即可以使用上述数字指纹生成方法中任意一实施例生成数字指纹。比如,服务器可以通过对待推荐媒体数据进行特征提取,得到待推荐媒体数据特征,将待推荐媒体数据特征进行编码,得到待推荐媒体数据对应的编码特征,获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于待推荐媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到待推荐媒体数据对应的待筛选媒体数据集,基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到待推荐媒体数据对应的初始筛选媒体数据集,并基于待推荐媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到待推荐媒体数据对应的目标筛选媒体数据,获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为待推荐媒体数据对应的数字指纹。
步骤1006,计算待推荐媒体数据对应的数字指纹与已推荐媒体数据数字指纹队列中已推荐媒体数据数字指纹的相似程度。
具体地,服务器使用相似距离算法计算待推荐媒体数据对应的数字指纹与推荐媒体数据数字指纹队列中每个已推荐媒体数据数字指纹的相似程度,得到各个数字指纹相似程度。其中,相似距离算法可以是使用欧式距离算法,也可以是使用汉明距离算法。已推荐媒体数据数字指纹队列是向用户终端已经推荐过的媒体数据对应的数字指纹形成的队列。
步骤1008,当相似程度均未超过预设媒体数据重复阈值时,将待推荐媒体数据向对应的用户终端进行推荐。
具体地,预设媒体数据重复阈值是指预先设置好的用于表征待推荐媒体数据与已推荐媒体数据相似的阈值。如果待推荐媒体数据与已推荐媒体数据相似时,是没必要待推荐媒体数据进行推荐的。即当所有的相似程度中任意一个相似程度超过预设媒体数据重复阈值时,服务器就不将待推荐媒体数据进行推荐,避免将已经推荐过的媒体数据再次推荐给用户。只有当所有的相似程度均未超过预设媒体数据重复阈值,说明该待推荐媒体数据是未推荐过的媒体数据,此时,将服务器可以将待推荐媒体数据向对应的用户终端进行推荐,用户终端接收到待推荐媒体数据时进行展示。
上述媒体数据推荐方法、装置、计算机设备和存储介质,通过获取待推荐媒体数据和已推荐媒体数据数字指纹队列,然后获取待推荐媒体数据对应的数字指纹,再计算待推荐媒体数据对应的数字指纹与已推荐媒体数据数字指纹队列中已推荐媒体数据数字指纹的相似程度;当相似程度均未超过预设媒体数据重复阈值时,将待推荐媒体数据向对应的用户终端进行推荐,由于提高了生成数字指纹的效率,进而能够快速获取到待推荐媒体数据对应的数字指纹,然后计算相似程度,当相似程度均未超过预设媒体数据重复阈值时,将待推荐媒体数据向对应的用户终端进行推荐,从而可以避免向用户终端推荐重复的媒体数据并且提高了媒体数据的推荐效率。
在一个实施例中,提供一种异常媒体数据的检测方法,具体来说:
获取待审核媒体数据和异常媒体数据的异常数字指纹队列,并生成待审核媒体数据的待审核数字指纹,其中,通过对待审核媒体数据进行特征提取,得到待审核媒体数据特征,将数字指纹媒体数据特征进行编码,得到数字指纹媒体数据对应的编码特征,获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于数字指纹媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到数字指纹媒体数据对应的待筛选媒体数据集,基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到数字指纹媒体数据对应的初始筛选媒体数据集,并基于数字指纹媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到数字指纹媒体数据对应的目标筛选媒体数据,获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为待审核媒体数据对应的待审核数字指纹;
计算待审核数字指纹和异常数字指纹队列的汉明距离,得到异常相似程度,当存在异常相似程度超过预设异常阈值时,确定待审核媒体数据为异常媒体数据。
其中,待审核媒体数据是指需要进行是否异常审核的媒体数据,该媒体数据可以是视频、图像、文本等等。异常媒体数据是指存在异常的媒体数据,该异常是指包含了黄赌毒等违反法律法规内容的媒体数据。异常数字指纹是指预先生成的异常媒体数据的数字指纹。异常数字指纹队列中包括有各个异常数字指纹。异常相似程度用于表征待审核媒体数据与异常媒体数据的相似程度,相似程度越高,说明待审核媒体数据为异常媒体数据的可能性就越大。
具体地,服务器在对待审核媒体数据进行审核时,可以获取待审核媒体数据和异常媒体数据的异常数字指纹队列,并生成待审核媒体数据的待审核数字指纹,然后计算待审核数字指纹和异常数字指纹队列的汉明距离,得到异常相似程度,当存在异常相似程度超过预设异常阈值时,确定待审核媒体数据为异常媒体数据。当所有的异常相似程度均未超过预设异常阈值时,确定该待审核媒体数据为正常媒体数据。由于数字指纹为整型序号编码,即是整型类型,并且一般不超过16维。在进行异常相似程度计算时,可以快速计算出与异常数字指纹队列中所有异常数字指纹的异常相似程度,从而能够提高异常媒体数据审核的效率。
在一个具体的实施例中,如图11所示,提供一种数字指纹生成方法,具体包括以下步骤:
步骤1102,获取至少两个目标媒体数据,并行将至少两个目标媒体数据输入特征提取模型中进行特征提取,得到至少两个目标媒体数据特征。
步骤1104,将至少两个目标媒体数据特征进行降维,得到降维特征,基于降维特征计算最优旋转矩阵下对应的二进制编码,得到至少两个目标媒体数据对应的编码特征。
步骤1106,基于至少两个目标媒体数据特征对至少两个目标媒体数据进行聚类,得到至少两个目标媒体数据组,并从至少两个目标媒体数据组中进行代表性媒体数据选取,得到至少两个目标媒体数据组对应的代表媒体数据。
步骤1108,基于代表媒体数据对应的目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到代表媒体数据对应的目标待筛选媒体数据集。
步骤1110,基于代表媒体数据对应的编码特征与目标待筛选媒体数据集对应的历史编码特征从目标待筛选媒体数据集中进行相似编码筛选,得到代表媒体数据对应的目标初始筛选媒体数据集,并基于代表媒体数据对应的目标媒体数据特征与目标初始筛选媒体数据集对应的历史媒体数据特征从目标初始筛选媒体数据集中进行相似特征筛选,得到代表媒体数据对应的代表筛选媒体数据。
步骤1112,获取代表筛选媒体数据对应的代表数字指纹,将代表数字指纹作为代表媒体数据对应的目标媒体数据组中目标媒体数据对应的数字指纹。
其中,并行执行步骤1108到步骤1112,得到每个代表媒体数据对应的目标媒体数据组中目标媒体数据对应的数字指纹,进一步提高了数字指纹生成效率。
本申请还提供一种应用场景,该应用场景应用上述的数字指纹生成方法和媒体数据推荐方法。具体来说,应用在广告平台中,如图12所示,为视频数字指纹生成的框架示意图。其中,服务器获取到广告流水并进行解析,然后提取到广告中的视频元素,得到各个视频,包括视频1、视频2、视频3和视频4。然后使用特征提取模型对各个视频进行特征提取得到视频特征,其中,特征提取模型的训练架构示意图如图13所示,服务器获取到训练视频数据和训练标签,将训练视频数据输入到初始化的特征提取模型中,得到输出的训练特征向量,然后使用训练特征向量与训练标签通过损失函数进行损失计算,得到损失值,使用损失值反向更新初始化的特征提取模型中的参数,并返回将训练视频数据输入到初始化的特征提取模型中的步骤循环迭代执行,直到达到预设训练完成条件时得到特征提取模型。然后服务器通过哈希函数得到视频特征对应的低维紧凑的二进制哈希编码。使用各个视频特征通过DBSCAN聚类算法进行分组,得到三个视频组,其中,组1包括视频1和视频2,组2包括视频3,组3包括视频4。然后从每个视频组选取代表性视频,比如,从组1中选取视频1作为代表性视频,此时使用代表视频对应的视频特征通过Faiss检索引擎召回与该代表视频一般相似的历史视频列表。然后进行编码筛选,即使用汉明距离算法计算代表视频对应的哈希编码与历史视频对应的哈希编码的汉明距离,选取汉明距离小于指定汉明距离阈值的历史视频,得到粗选历史视频列表。然后进行特征精排,即将粗选历史视频列表中历史视频特征与代表视频的特征使用欧式距离进行计算,得到各个欧式距离,然后使用欧式距离对各个粗选历史视频进行排序,排序完成后,选取top1的目标历史视频,并获取到该目标历史视频的历史数字指纹作为视频组中视频1和视频2的数字指纹。服务器可以并行计算每个视频组,得到视频3和视频4对应的数字指纹。
服务器可以使用视频的数字指纹进行异常视频审核,即获取到异常视频数字指纹队列,使用汉明距离算法计算视频1、视频2、视频3和视频4分别与异常视频数字指纹队列中异常视频数字指纹的距离,当距离未超过预设异常阈值时,说明视频为异常视频,当距离均超规格预设异常阈值时,说明视频为正常视频。
服务器还可以将正常视频即广告视频向用户推荐,可以先进行重复推荐检测,即获取到已推荐广告视频的数字指纹,然后计算已推荐广告视频的数字指纹和正常视频的数字指纹的相似程度,当相似程度超过预设重复阈值时,说明该正常视频已经被推荐过了,此时就不需要再进行推荐。当相似程度未超过预设重复阈值时,将该正常视频项对应的用户终端进行推荐。上述视频指纹生成方式在千万级广告流水中可以达到秒级生成视频指纹。低维度整型数字指纹存储空间小,在广告视频审核、广告视频推荐使用时非常方便快速。
本申请还另外提供一种应用场景,该应用场景应用上述的数字指纹生成方法。如图14所示,为相似人脸图像的示意图,该人脸图像a和人脸图像b具有相同的数字指纹。具体来说:服务器需要对左边的人脸图像a进行数字指纹的生成,通过获取人脸图像a,并对人脸图像a进行特征提取,得到人脸图像a特征,将人脸图像a特征进行编码,得到人脸图像a对应的编码特征,获取各个已生成数字指纹的历史人脸图像、对应的历史人脸图像特征和对应的历史编码特征,该各个历史人脸图像中包括历史人脸图像b所示,该历史人脸图像b存在对应的数字指纹。此时服务器使用人脸图像a特征和各个历史人脸图像特征从各个历史人脸图像中进行相似人脸图像搜索,得到人脸图像a对应的待筛选历史人脸图像集,该待筛选历史人脸图像集中包括有人脸图像b。基于编码特征与待筛选历史人脸图像集对应的历史编码特征从待筛选历史人脸图像集中进行相似编码筛选,得到人脸图像a对应的初始筛选人脸图像集,并基于人脸图像a与初始筛选人脸图集对应的历史人脸图特征从初始筛选人脸图集中进行相似特征筛选,得到人脸图像a对应的历史人脸图像b,获取历史人脸图像b对应的目标数字指纹,将目标数字指纹作为人脸图像a对应的数字指纹。
应该理解的是,虽然图2至11的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至11中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图15所示,提供了一种数字指纹生成装置1500,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:特征提取模块1502、编码模块1504、搜索模块1506、筛选模块1508和数字指纹得到模块1510,其中:
特征提取模块1502,用于获取数字指纹生成指令,数字指纹生成指令携带有目标媒体数据,并对目标媒体数据进行特征提取,得到目标媒体数据特征;
编码模块1504,用于将目标媒体数据特征进行编码,得到目标媒体数据对应的编码特征;
搜索模块1506,用于获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到目标媒体数据对应的待筛选媒体数据集;
筛选模块1508,用于基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到目标媒体数据对应的初始筛选媒体数据集,并基于目标媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到目标媒体数据对应的目标筛选媒体数据;
数字指纹得到模块1510,用于获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为目标媒体数据对应的数字指纹。
在一个实施例中,数字指纹生成指令携带有至少两个目标媒体数据;数字指纹生成装置1500还包括:
批处理模块,用于分别对至少两个目标媒体数据进行特征提取,得到至少两个目标媒体数据特征;将至少两个目标媒体数据特征进行编码,得到至少两个目标媒体数据对应的编码特征;基于至少两个目标媒体数据特征对至少两个目标媒体数据进行聚类,得到至少两个目标媒体数据组,并从至少两个目标媒体数据组中进行代表性媒体数据选取,得到至少两个目标媒体数据组对应的代表媒体数据;基于代表媒体数据对应的目标媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到代表媒体数据对应的目标待筛选媒体数据集;基于代表媒体数据对应的编码特征与目标待筛选媒体数据集对应的历史编码特征从目标待筛选媒体数据集中进行相似编码筛选,得到代表媒体数据对应的目标初始筛选媒体数据集,并基于代表媒体数据对应的目标媒体数据特征与目标初始筛选媒体数据集对应的历史媒体数据特征从目标初始筛选媒体数据集中进行相似特征筛选,得到代表媒体数据对应的代表筛选媒体数据;获取代表筛选媒体数据对应的代表数字指纹,将代表数字指纹作为代表媒体数据对应的目标媒体数据组中目标媒体数据对应的数字指纹。
在一个实施例中,批处理模块还用于获取聚类距离范围和聚类数量阈值;从至少两个目标媒体数据特征中随机选取,得到当前媒体数据特征,计算当前媒体数据特征和至少两个目标媒体数据特征的距离,并统计距离在聚类距离范围内的目标媒体数据特征数量;当目标媒体数据特征数量超过聚类数量阈值时,基于当前媒体数据特征从至少两个目标媒体数据特征中确定密度相连的目标媒体数据特征;基于当前媒体数据特征对应的目标媒体数据和密度相连的目标媒体数据特征对应的目标媒体数据得到目标媒体数据组;基于目标媒体数据组从至少两个目标媒体数据特征中确定各个待聚类媒体数据特征,并从各个待聚类媒体数据特征中随机选取目标待聚类媒体数据特征;将目标待聚类媒体数据特征作为当前媒体数据特征,并返回计算当前媒体数据特征和至少两个目标媒体数据特征的距离的步骤执行,直到至少两个目标媒体数据全部聚类完成时,得到至少两个目标媒体数据组。
在一个实施例中,批处理模块还用于从目标媒体数据组中确定当前目标媒体数据和除当前目标媒体数据以外的目标媒体数据,得到各个剩余目标媒体数据;基于当前目标媒体数据对应的目标媒体数据特征和各个剩余目标媒体数据对应的目标媒体数据特征计算当前目标媒体数据与各个剩余目标媒体数据的距离和,得到当前目标距离;遍历目标媒体数据组中各个目标媒体数据,得到各个目标媒体数据对应的当前目标距离;比较各个目标媒体数据对应的当前目标距离,并将最小当前目标距离对应的目标媒体数据作为目标媒体数据组对应的代表媒体数据。
在一个实施例中,特征提取模块1502还用于将目标媒体数据输入特征提取模型中进行特征提取,得到目标媒体数据特征,特征提取模型是基于深度神经网络使用训练媒体数据样本进行训练得到的。
在一个实施例中,编码模块1504还用于对目标媒体数据特征进行降维,得到降维特征;基于降维特征计算最优旋转矩阵下对应的二进制编码,得到目标媒体数据对应的编码特征。
在一个实施例中,数字指纹生成装置1500,还包括:
第一全局指纹生成模块,用于当未获取到各个已生成数字指纹的历史媒体数据时,获取全局数字指纹,全局数字指纹为整型序号编码;基于全局数字指纹进行自增,得到第一目标全局数字指纹;将第一目标全局数字指纹作为目标媒体数据对应的数字指纹。
在一个实施例中,搜索模块1506还用于将目标媒体数据特征进行降维,得到目标降维特征;从各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征中确定各个聚类中心特征,并计算目标降维特征与各个聚类中心特征的中心相似距离,基于中心相似距离从各个聚类中心特征中确定待搜索聚类中心特征;获取待搜索聚类中心特征对应的各个同类历史媒体数据特征,计算目标降维特征与各个同类历史媒体数据特征的特征相似距离;基于特征相似距离从各个同类历史媒体数据特征中选取超过预设搜索距离阈值的同类历史媒体数据特征,将未超过预设搜索距离阈值的同类历史媒体数据特征对应的历史媒体数据作为目标媒体数据对应的待筛选媒体数据集。
在一个实施例中,筛选模块1508还用于计算编码特征分别与待筛选媒体数据集中各个待筛选媒体数据对应的历史编码特征的相似距离,得到各个待筛选媒体数据对应的编码相似距离;基于各个待筛选媒体数据对应的编码相似距离和预设编码相似距离阈值对各个待筛选媒体数据进行筛选,得到目标媒体数据对应的初始筛选媒体数据集。
在一个实施例中,筛选模块1508还用于计算目标媒体数据特征分别与初始筛选媒体数据集中各个初始筛选媒体数据对应的历史媒体数据特征的相似距离,得到各个初始筛选媒体数据对应的特征相似距离;从各个初始筛选媒体数据对应的特征相似距离中确定最小特征相似距离,将最小特征相似距离对应的初始筛选媒体数据作为目标媒体数据对应的目标筛选媒体数据。
在一个实施例中,数字指纹生成装置1500,还包括:
第二全局指纹生成模块,用于当最小特征相似距离超过预设特征相似距离阈值时,获取全局数字指纹;基于全局数字指纹进行自增,得到第二目标全局数字指纹并保存;将第二目标全局数字指纹作为目标媒体数据对应的数字指纹。
在一个实施例中,筛选模块1508还用于将各个初始筛选媒体数据对应的特征相似距离从小到大进行排序,得到特征相似距离序列;依次从特征相似距离序列中选取至少两个特征相似距离,并得到至少两个特征相似距离对应的目标初始筛选媒体数据;获取各个目标初始筛选媒体数据分别对应的历史数字指纹,统计各个目标初始筛选媒体数据分别对应的历史数字指纹中相同历史数字指纹对应的目标初始筛选媒体数据数量;比较相同历史数字指纹对应的目标初始筛选媒体数据数量,并将最大目标筛选媒体数据数量对应的初始筛选媒体数据作为目标媒体数据对应的目标筛选媒体数据。
在一个实施例中,数字指纹生成装置1500,还包括:
保存模块,用于将目标媒体数据、目标媒体数据对应的目标媒体数据特征、目标媒体数据对应的编码特征和目标媒体数据对应的数字指纹关联保存。
在一个实施例中,如图16所示,提供了一种媒体数据推荐装置1600,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:数据获取模块1602、数字指纹获取模块1604、相似计算模块1606和推荐模块1608,其中:
数据获取模块1602,用于获取待推荐媒体数据和已推荐媒体数据数字指纹队列;
数字指纹获取模块1604,用于获取待推荐媒体数据对应的数字指纹,其中,通过对待推荐媒体数据进行特征提取,得到待推荐媒体数据特征,将待推荐媒体数据特征进行编码,得到待推荐媒体数据对应的编码特征,获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于待推荐媒体数据特征和各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到待推荐媒体数据对应的待筛选媒体数据集,基于编码特征与待筛选媒体数据集对应的历史编码特征从待筛选媒体数据集中进行相似编码筛选,得到待推荐媒体数据对应的初始筛选媒体数据集,并基于待推荐媒体数据特征与初始筛选媒体数据集对应的历史媒体数据特征从初始筛选媒体数据集中进行相似特征筛选,得到待推荐媒体数据对应的目标筛选媒体数据,获取目标筛选媒体数据对应的目标数字指纹,将目标数字指纹作为待推荐媒体数据对应的数字指纹;
相似计算模块1606,用于计算待推荐媒体数据对应的数字指纹与已推荐媒体数据数字指纹队列中已推荐媒体数据数字指纹的相似程度;
推荐模块1608,用于当相似程度均未超过预设媒体数据重复阈值时,将待推荐媒体数据向对应的用户终端进行推荐。
关于数字指纹生成装置和媒体数据推荐装置的具体限定可以参见上文中对于数字指纹生成方法和媒体数据推荐方法的限定,在此不再赘述。上述数字指纹生成装置和媒体数据推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图17所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史媒体数据或者已推荐媒体数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数字指纹生成方法或者媒体数据推荐方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图18所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数字指纹生成方法和媒体数据推荐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图17和图18中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (19)

1.一种数字指纹生成方法,其特征在于,所述方法包括:
获取数字指纹生成指令,所述数字指纹生成指令携带有目标媒体数据,并对所述目标媒体数据进行特征提取,得到目标媒体数据特征;
将所述目标媒体数据特征进行编码,得到所述目标媒体数据对应的编码特征;
获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于所述目标媒体数据特征和所述各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从所述各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到所述目标媒体数据对应的待筛选媒体数据集;
基于所述编码特征与所述待筛选媒体数据集对应的历史编码特征从所述待筛选媒体数据集中进行相似编码筛选,得到所述目标媒体数据对应的初始筛选媒体数据集,并基于所述目标媒体数据特征与所述初始筛选媒体数据集对应的历史媒体数据特征从所述初始筛选媒体数据集中进行相似特征筛选,得到所述目标媒体数据对应的目标筛选媒体数据;
获取所述目标筛选媒体数据对应的目标数字指纹,将所述目标数字指纹作为所述目标媒体数据对应的数字指纹。
2.根据权利要求1所述的方法,其特征在于,所述数字指纹生成指令携带有至少两个目标媒体数据;所述方法还包括:
分别对所述至少两个目标媒体数据进行特征提取,得到至少两个目标媒体数据特征;
将所述至少两个目标媒体数据特征进行编码,得到所述至少两个目标媒体数据对应的编码特征;
基于所述至少两个目标媒体数据特征对所述至少两个目标媒体数据进行聚类,得到至少两个目标媒体数据组,并从所述至少两个目标媒体数据组中进行代表性媒体数据选取,得到所述至少两个目标媒体数据组对应的代表媒体数据;
基于所述代表媒体数据对应的目标媒体数据特征和所述各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从所述各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到所述代表媒体数据对应的目标待筛选媒体数据集;
基于所述代表媒体数据对应的编码特征与所述目标待筛选媒体数据集对应的历史编码特征从所述目标待筛选媒体数据集中进行相似编码筛选,得到所述代表媒体数据对应的目标初始筛选媒体数据集,并基于所述代表媒体数据对应的目标媒体数据特征与所述目标初始筛选媒体数据集对应的历史媒体数据特征从所述目标初始筛选媒体数据集中进行相似特征筛选,得到所述代表媒体数据对应的代表筛选媒体数据;
获取所述代表筛选媒体数据对应的代表数字指纹,将所述代表数字指纹作为所述代表媒体数据对应的目标媒体数据组中目标媒体数据对应的数字指纹。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少两个目标媒体数据特征对所述至少两个目标媒体数据进行聚类,得到至少两个目标媒体数据组,包括:
获取聚类距离范围和聚类数量阈值;
从所述至少两个目标媒体数据特征中随机选取,得到当前媒体数据特征,计算所述当前媒体数据特征和所述至少两个目标媒体数据特征的距离,并统计所述距离在所述聚类距离范围内的目标媒体数据特征数量;
当所述目标媒体数据特征数量超过所述聚类数量阈值时,基于所述当前媒体数据特征从所述至少两个目标媒体数据特征中确定密度相连的目标媒体数据特征;
基于所述当前媒体数据特征对应的目标媒体数据和所述密度相连的目标媒体数据特征对应的目标媒体数据得到目标媒体数据组;
基于所述目标媒体数据组从所述至少两个目标媒体数据特征中确定各个待聚类媒体数据特征,并从所述各个待聚类媒体数据特征中随机选取目标待聚类媒体数据特征;
将所述目标待聚类媒体数据特征作为所述当前媒体数据特征,并返回计算所述当前媒体数据特征和所述至少两个目标媒体数据特征的距离的步骤执行,直到所述至少两个目标媒体数据全部聚类完成时,得到所述至少两个目标媒体数据组。
4.根据权利要求2所述的方法,其特征在于,所述从所述至少两个目标媒体数据组中进行代表性媒体数据选取,得到所述至少两个目标媒体数据组对应的代表媒体数据,包括:
从所述目标媒体数据组中确定当前目标媒体数据和除所述当前目标媒体数据以外的目标媒体数据,得到各个剩余目标媒体数据;
基于所述当前目标媒体数据对应的目标媒体数据特征和所述各个剩余目标媒体数据对应的目标媒体数据特征计算所述当前目标媒体数据与所述各个剩余目标媒体数据的距离和,得到当前目标距离;
遍历所述目标媒体数据组中各个目标媒体数据,得到所述各个目标媒体数据对应的当前目标距离;
比较所述各个目标媒体数据对应的当前目标距离,并将最小当前目标距离对应的目标媒体数据作为所述目标媒体数据组对应的代表媒体数据。
5.根据权利要求1所述的方法,其特征在于,所述对所述目标媒体数据进行特征提取,得到目标媒体数据特征,包括:
将所述目标媒体数据输入特征提取模型中进行特征提取,得到所述目标媒体数据特征,所述特征提取模型是基于深度神经网络使用训练媒体数据样本进行训练得到的。
6.根据权利要求1所述的方法,其特征在于,所述将所述目标媒体数据特征进行编码,得到所述目标媒体数据对应的编码特征,包括:
对所述目标媒体数据特征进行降维,得到降维特征;
基于所述降维特征计算最优旋转矩阵下对应的二进制编码,得到所述目标媒体数据对应的编码特征。
7.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
当未获取到所述各个已生成数字指纹的历史媒体数据时,获取全局数字指纹,所述全局数字指纹为整型序号编码;
基于所述全局数字指纹进行自增,得到第一目标全局数字指纹;
将所述第一目标全局数字指纹作为所述目标媒体数据对应的数字指纹。
8.根据权利要求1所述的方法,其特征在于,所述基于所述目标媒体数据特征和所述各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从所述各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到所述目标媒体数据对应的待筛选媒体数据集,包括:
将所述目标媒体数据特征进行降维,得到目标降维特征;
从所述各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征中确定各个聚类中心特征,并计算所述目标降维特征与各个聚类中心特征的中心相似距离,基于所述中心相似距离从所述各个聚类中心特征中确定待搜索聚类中心特征;
获取所述待搜索聚类中心特征对应的各个同类历史媒体数据特征,计算所述目标降维特征与所述各个同类历史媒体数据特征的特征相似距离;
基于所述特征相似距离从所述各个同类历史媒体数据特征中选取未超过预设搜索距离阈值的同类历史媒体数据特征,将所述未超过预设搜索距离阈值的同类历史媒体数据特征对应的历史媒体数据作为所述目标媒体数据对应的待筛选媒体数据集。
9.根据权利要求1所述的方法,其特征在于,所述基于所述编码特征与所述待筛选媒体数据集对应的历史编码特征从所述待筛选媒体数据集中进行相似编码筛选,得到所述目标媒体数据对应的初始筛选媒体数据集,包括:
计算所述编码特征分别与所述待筛选媒体数据集中各个待筛选媒体数据对应的历史编码特征的相似距离,得到各个待筛选媒体数据对应的编码相似距离;
基于所述各个待筛选媒体数据对应的编码相似距离和预设编码相似距离阈值对所述各个待筛选媒体数据进行筛选,得到所述目标媒体数据对应的初始筛选媒体数据集。
10.根据权利要求1所述的方法,其特征在于,所述基于所述目标媒体数据特征与所述初始筛选媒体数据集对应的历史媒体数据特征从所述初始筛选媒体数据集中进行相似特征筛选,得到所述目标媒体数据对应的目标筛选媒体数据,包括:
计算所述目标媒体数据特征分别与所述初始筛选媒体数据集中各个初始筛选媒体数据对应的历史媒体数据特征的相似距离,得到各个初始筛选媒体数据对应的特征相似距离;
从所述各个初始筛选媒体数据对应的特征相似距离中确定最小特征相似距离,将所述最小特征相似距离对应的初始筛选媒体数据作为目标媒体数据对应的目标筛选媒体数据。
11.根据权利要求10所述的方法,其特征在于,所述方法,还包括:
当所述最小特征相似距离超过预设特征相似距离阈值时,获取全局数字指纹;
基于所述全局数字指纹进行自增,得到第二目标全局数字指纹并保存;
将所述第二目标全局数字指纹作为所述目标媒体数据对应的数字指纹。
12.根据权利要求10所述的方法,其特征在于,所述从所述各个初始筛选媒体数据对应的特征相似距离中确定最小特征相似距离,将所述最小特征相似距离对应的初始筛选媒体数据作为所述目标媒体数据对应的目标筛选媒体数据,包括:
将所述各个初始筛选媒体数据对应的特征相似距离从小到大进行排序,得到特征相似距离序列;
依次从所述特征相似距离序列中选取至少两个特征相似距离,并得到所述至少两个特征相似距离对应的目标初始筛选媒体数据;
获取各个目标初始筛选媒体数据分别对应的历史数字指纹,统计所述各个目标初始筛选媒体数据分别对应的历史数字指纹中相同历史数字指纹对应的目标初始筛选媒体数据数量;
比较所述相同历史数字指纹对应的目标初始筛选媒体数据数量,并将最大目标筛选媒体数据数量对应的初始筛选媒体数据作为所述目标媒体数据对应的目标筛选媒体数据。
13.根据权利要求1所述的方法,其特征在于,在所述获取所述目标筛选媒体数据对应的目标数字指纹,将所述目标数字指纹作为所述目标媒体数据对应的数字指纹之后,还包括:
将所述目标媒体数据、所述目标媒体数据对应的目标媒体数据特征、所述目标媒体数据对应的编码特征和所述目标媒体数据对应的数字指纹关联保存。
14.一种媒体数据推荐方法,其特征在于,所述方法包括:
获取待推荐媒体数据和已推荐媒体数据数字指纹队列;
获取所述待推荐媒体数据对应的数字指纹,其中,通过对所述待推荐媒体数据进行特征提取,得到待推荐媒体数据特征,将所述待推荐媒体数据特征进行编码,得到所述待推荐媒体数据对应的编码特征,获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于所述待推荐媒体数据特征和所述各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从所述各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到所述待推荐媒体数据对应的待筛选媒体数据集,基于所述编码特征与所述待筛选媒体数据集对应的历史编码特征从所述待筛选媒体数据集中进行相似编码筛选,得到所述待推荐媒体数据对应的初始筛选媒体数据集,并基于所述待推荐媒体数据特征与所述初始筛选媒体数据集对应的历史媒体数据特征从所述初始筛选媒体数据集中进行相似特征筛选,得到所述待推荐媒体数据对应的目标筛选媒体数据;获取所述目标筛选媒体数据对应的目标数字指纹,将所述目标数字指纹作为所述待推荐媒体数据对应的数字指纹;
计算所述待推荐媒体数据对应的数字指纹与所述已推荐媒体数据数字指纹队列中已推荐媒体数据数字指纹的相似程度;
当所述相似程度均未超过预设媒体数据重复阈值时,将所述待推荐媒体数据向对应的用户终端进行推荐。
15.一种数字指纹生成装置,其特征在于,所述装置包括:
特征提取模块,用于获取数字指纹生成指令,所述数字指纹生成指令携带有目标媒体数据,并对所述目标媒体数据进行特征提取,得到目标媒体数据特征;
编码模块,用于将所述目标媒体数据特征进行编码,得到所述目标媒体数据对应的编码特征;
搜索模块,用于获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于所述目标媒体数据特征和所述各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从所述各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到所述目标媒体数据对应的待筛选媒体数据集;
筛选模块,用于基于所述编码特征与所述待筛选媒体数据集对应的历史编码特征从所述待筛选媒体数据集中进行相似编码筛选,得到所述目标媒体数据对应的初始筛选媒体数据集,并基于所述目标媒体数据特征与所述初始筛选媒体数据集对应的历史媒体数据特征从所述初始筛选媒体数据集中进行相似特征筛选,得到所述目标媒体数据对应的目标筛选媒体数据;
数字指纹得到模块,用于获取所述目标筛选媒体数据对应的目标数字指纹,将所述目标数字指纹作为所述目标媒体数据对应的数字指纹。
16.一种媒体数据推荐装置,其特征在于,所述装置包括:
数据获取模块,用于获取待推荐媒体数据和已推荐媒体数据数字指纹队列;
数字指纹获取模块,用于获取所述待推荐媒体数据对应的数字指纹,其中,通过对所述待推荐媒体数据进行特征提取,得到待推荐媒体数据特征,将所述待推荐媒体数据特征进行编码,得到所述待推荐媒体数据对应的编码特征,获取各个已生成数字指纹的历史媒体数据、对应的历史媒体数据特征和对应的历史编码特征,并基于所述待推荐媒体数据特征和所述各个已生成数字指纹的历史媒体数据对应的历史媒体数据特征从所述各个已生成数字指纹的历史媒体数据中进行相似媒体数据搜索,得到所述待推荐媒体数据对应的待筛选媒体数据集;基于所述编码特征与所述待筛选媒体数据集对应的历史编码特征从所述待筛选媒体数据集中进行相似编码筛选,得到所述待推荐媒体数据对应的初始筛选媒体数据集,并基于所述待推荐媒体数据特征与所述初始筛选媒体数据集对应的历史媒体数据特征从所述初始筛选媒体数据集中进行相似特征筛选,得到所述待推荐媒体数据对应的目标筛选媒体数据;获取所述目标筛选媒体数据对应的目标数字指纹,将所述目标数字指纹作为所述待推荐媒体数据对应的数字指纹;
相似计算模块,用于计算所述待推荐媒体数据对应的数字指纹与所述已推荐媒体数据数字指纹队列中已推荐媒体数据数字指纹的相似程度;
推荐模块,用于当所述相似程度均未超过预设媒体数据重复阈值时,将所述待推荐媒体数据向对应的用户终端进行推荐。
17.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤。
18.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。
19.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至14任一项所述方法的步骤。
CN202111051312.1A 2021-09-08 2021-09-08 数字指纹生成、媒体数据推荐方法、装置和计算机设备 Active CN113495969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111051312.1A CN113495969B (zh) 2021-09-08 2021-09-08 数字指纹生成、媒体数据推荐方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111051312.1A CN113495969B (zh) 2021-09-08 2021-09-08 数字指纹生成、媒体数据推荐方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN113495969A true CN113495969A (zh) 2021-10-12
CN113495969B CN113495969B (zh) 2022-02-08

Family

ID=77997174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111051312.1A Active CN113495969B (zh) 2021-09-08 2021-09-08 数字指纹生成、媒体数据推荐方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN113495969B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063706A (zh) * 2014-06-27 2014-09-24 电子科技大学 一种基于surf算法的视频指纹提取方法
US9619854B1 (en) * 2014-01-21 2017-04-11 Google Inc. Fingerprint matching for recommending media content within a viewing session
CN107679575A (zh) * 2017-10-10 2018-02-09 小花互联网金融服务(深圳)有限公司 一种基于用户的实时设备指纹获取装置
CN108460098A (zh) * 2018-02-01 2018-08-28 北京百度网讯科技有限公司 信息推荐方法、装置和计算机设备
US20190028766A1 (en) * 2017-07-18 2019-01-24 Audible Magic Corporation Media classification for media identification and licensing
CN110222594A (zh) * 2019-05-20 2019-09-10 厦门能见易判信息科技有限公司 盗版视频识别方法及系统
CN111428078A (zh) * 2020-03-20 2020-07-17 腾讯科技(深圳)有限公司 音频指纹编码方法、装置、计算机设备及存储介质
CN112434553A (zh) * 2020-10-15 2021-03-02 北京工业大学 一种基于深度字典学习的视频鉴别方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9619854B1 (en) * 2014-01-21 2017-04-11 Google Inc. Fingerprint matching for recommending media content within a viewing session
CN104063706A (zh) * 2014-06-27 2014-09-24 电子科技大学 一种基于surf算法的视频指纹提取方法
US20190028766A1 (en) * 2017-07-18 2019-01-24 Audible Magic Corporation Media classification for media identification and licensing
CN107679575A (zh) * 2017-10-10 2018-02-09 小花互联网金融服务(深圳)有限公司 一种基于用户的实时设备指纹获取装置
CN108460098A (zh) * 2018-02-01 2018-08-28 北京百度网讯科技有限公司 信息推荐方法、装置和计算机设备
CN110222594A (zh) * 2019-05-20 2019-09-10 厦门能见易判信息科技有限公司 盗版视频识别方法及系统
CN111428078A (zh) * 2020-03-20 2020-07-17 腾讯科技(深圳)有限公司 音频指纹编码方法、装置、计算机设备及存储介质
CN112434553A (zh) * 2020-10-15 2021-03-02 北京工业大学 一种基于深度字典学习的视频鉴别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中国科学技术信息研究: "《信息资源管理研究前沿聚焦》", 31 December 2017, 北京:科学技术文献出版社 *

Also Published As

Publication number Publication date
CN113495969B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN109190023B (zh) 协同推荐的方法、装置及终端设备
Liu et al. Query-adaptive reciprocal hash tables for nearest neighbor search
CN111461637A (zh) 简历筛选方法、装置、计算机设备和存储介质
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN112307332B (zh) 基于用户画像聚类的协同过滤推荐方法、系统及存储介质
Oliveira et al. Is rank aggregation effective in recommender systems? an experimental analysis
CN112395500A (zh) 内容数据推荐方法、装置、计算机设备及存储介质
Silvestre et al. Feature selection for clustering categorical data with an embedded modelling approach
CN111275492A (zh) 用户画像生成方法、装置、存储介质及设备
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
Althbiti et al. Addressing data sparsity in collaborative filtering based recommender systems using clustering and artificial neural network
CN114329004A (zh) 数字指纹生成、数据推送方法、装置和存储介质
CN113495969B (zh) 数字指纹生成、媒体数据推荐方法、装置和计算机设备
Spiegel et al. Pattern recognition in multivariate time series: dissertation proposal
CN116958622A (zh) 数据的分类方法、装置、设备、介质及程序产品
Zheng et al. Deep learning hash for wireless multimedia image content security
CN113627514A (zh) 知识图谱的数据处理方法、装置、电子设备和存储介质
Arulmozhi et al. Generation of Visual Patterns from BoVW for Image Retrieval using modified Similarity Score Fusion.
Balfaqih et al. An Intelligent Movies Recommendation System Based Facial Attributes Using Machine Learning
CN116302042B (zh) 协议要素内容推荐方法、装置和计算机设备
CN113918753B (zh) 基于人工智能的图像检索方法及相关设备
Zhang et al. A structure-transfer-driven temporal subspace clustering for video summarization
CN113901223B (zh) 企业分类模型的生成方法、装置、计算机设备、存储介质
Konar et al. Learning structures in an economic time-series for forecasting applications
CN117932103A (zh) 一种目标检索方法、终端及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40052853

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant