CN114428867A - 数据挖掘方法、装置、存储介质及电子设备 - Google Patents

数据挖掘方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114428867A
CN114428867A CN202210068513.0A CN202210068513A CN114428867A CN 114428867 A CN114428867 A CN 114428867A CN 202210068513 A CN202210068513 A CN 202210068513A CN 114428867 A CN114428867 A CN 114428867A
Authority
CN
China
Prior art keywords
data
feature
multimedia data
queried
multimedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210068513.0A
Other languages
English (en)
Inventor
吉梁
黄凯
周杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202210068513.0A priority Critical patent/CN114428867A/zh
Publication of CN114428867A publication Critical patent/CN114428867A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据挖掘方法、装置、存储介质及电子设备,该方法包括:对待查询多媒体数据进行特征提取处理,得到待查询多媒体数据的特征集合,特征集合包括多个特征维度上的特征;根据待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,关联数据样本是根据至少一个特征维度上的特征,被划分为与待查询多媒体数据同一类的数据样本;根据待查询多媒体数据的特征集合和关联数据样本的特征集合,确定待查询多媒体数据和关联数据样本之间的相似得分;如果待查询多媒体数据与关联数据样本之间的相似得分满足预设得分要求,则将关联数据确定为目标数据;将目标数据作为挖掘结果进行输出。本公开能够提高数据挖掘的准确性。

Description

数据挖掘方法、装置、存储介质及电子设备
技术领域
本公开涉及数据处理技术领域,具体地,涉及一种数据挖掘方法、装置、存储介质及电子设备。
背景技术
随着移动互联网的普及,互联网已经成为人们日常生活、工作中必不可少的部分,也因如此,在互联网上,每时每刻都有新的互联网数据产生。
对于庞大的互联网数据,通常需要对其进行数据挖掘,以得到用户所需要的数据。然而,当前互联网数据不仅存在自身的内容信息,也存在用户在使用互联网时产生的多种信息,数据类型繁多,所以还没有较好的数据挖掘方法能准确挖掘到用户需要的数据。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种数据挖掘方法,该方法包括:
对待查询多媒体数据进行特征提取处理,得到所述待查询多媒体数据的特征集合,所述特征集合包括多个特征维度上的特征;
根据所述待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,所述关联数据样本是根据至少一个特征维度上的特征,被划分为与所述待查询多媒体数据同一类的数据样本;
根据所述待查询多媒体数据的特征集合和所述关联数据样本的特征集合,确定所述待查询多媒体数据和所述关联数据样本之间的相似得分;
如果所述待查询多媒体数据与所述关联数据样本之间的相似得分满足预设得分要求,则将所述关联数据确定为目标数据;
将所述目标数据作为挖掘结果进行输出。
第二方面,本公开提供一种数据挖掘装置,包括:
特征提取模块,用于对待查询多媒体数据进行特征提取处理,得到所述待查询多媒体数据的特征集合,所述特征集合包括多个特征维度上的特征;
关联数据样本确定模块,用于根据所述待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,所述关联数据样本是根据至少一个特征维度上的特征,被划分为与所述待查询多媒体数据同一类的数据样本;
相似度确定模块,用于根据所述待查询多媒体数据的特征集合和所述关联数据样本的特征集合,确定所述待查询多媒体数据和所述关联数据样本之间的相似得分;
目标数据确定模块,用于如果所述待查询多媒体数据与所述关联数据样本之间的相似得分满足预设得分要求,则将所述关联数据确定为目标数据;
输出模块,用于将所述目标数据作为挖掘结果进行输出。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面所述方法的步骤。
本公开提供的数据挖掘方法、装置、存储介质及电子设备,通过对待查询多媒体数据进行特征提取处理,得到待查询多媒体数据的特征集合,特征集合包括多个特征维度上的特征,然后根据待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,关联数据样本是根据至少一个特征维度上的特征,被划分为与待查询多媒体数据同一类的数据样本,从而能够找到在单独的特征维度上与待查询多媒体数据相似度的关联数据样本。再根据待查询多媒体数据的特征集合和关联数据样本的特征集合,确定待查询多媒体数据和关联数据样本之间的相似得分,如果待查询多媒体数据与关联数据样本之间的相似得分满足预设得分要求,则将关联数据确定为目标数据,从而能够在筛选得到的关联数据中,找到与待查询多媒体数据在所有特征维度上都较为相似度目标数据,最后,将目标数据作为挖掘结果进行输出,能够保证输出的挖掘结果在多个特征维度上都能够与待查询多媒体数据性相近,保证了挖掘的全面性和准确性。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据一示例性实施例示出的一种数据挖掘方法的流程图。
图2是根据另一示例性实施例示出的一种数据挖掘方法的流程图。
图3是根据图2实施例示出的一种邻接关系图。
图4是根据图2实施例示出的另一种邻接关系图。
图5是根据图2实施例示出的又一种邻接关系图。
图6是根据一示例性实施例示出的一种数据挖掘装置的框图。
图7是根据一示例性实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
随着移动互联网的普及,人们可以随时随地地将自己制作的内容上传至网络,以此来分享自己的生活中的点滴,也因如此,网络上会具有越来越多的因用户而产生的多媒体数据,这些多媒体数据包括内容图像、声音、互动文本、视频等数据。
对于管理如此庞大的数据的平台,需要合理地对这些多媒体数据进行聚类,以便后续能够更好管理这些数据。在相关技术中,只能在单一特征维度上的对数据进行挖掘,例如,单一地从内容图像维度上从数据库中挖掘与待查询多媒体数据相似的数据。
然而,目前用户上传的内容往往具有多个特征维度上的数据,例如用户上传的多媒体数据同时包括了图像数据、文本数据等。所以相关技术中的数据挖掘方法无法全面地对该多媒体数据进行合理地挖掘,挖掘结果也不能保证准确性。
针对上述问题,本公开提供了一种数据挖掘方法、装置、存储介质及电子设备,能够有效提升对数据的挖掘准确性。
图1是根据一示例性实施例示出的一种数挖掘方法的流程图,如图1所示,该方法可以包括以下步骤:
110、对待查询多媒体数据进行特征提取处理,得到上述待查询多媒体数据的特征集合,上述特征集合包括多个特征维度上的特征。
示例性地,本实施例的数据挖掘方法的执行主体可以是电子设备、或者终端设备、或者可以执行数据处理装置或设备、或者其他可以执行本实施例的装置或设备,在此不做限制。本实施例以执行主体为电子设备进行说明。
其中,上述特征维度可以包括:内容图像特征维度、互动文本特征维度、互动统计特征维度、语音特征维度中的至少一种。可选地,内容图像特征维度上的数据对应的数据可以包括但不限于:用户在网络平台上传的图片、视频、动态图片等。互动文本特征维度上的数据可以包括但不限于:用于发表的文本数据、与其他用户的聊天记录等。互动统计特征维度上的数据包括但不限于:用户的浏览对象、浏览时长、点评记录、收藏记录等。
在一些实施方式中,对于具有图像内容、语音内容、文本内容中至少一种内容的待查询多媒体数据,电子设备可以将待查询多媒体数据输入至预先训练好的特征提取模型,并获取特征提取模型输出的待查询多媒体数据的图像特征、语音特征、文本特征,并将这些特征确定为待查询多媒体数据的特征,如果待查询多媒体数据的特征的数量为多个,则可以将该多个特征确定为待查询多媒体数据的特征集合。可选地,图像特征可以包括但不限于:亮度、边缘、纹理和色彩等,语音特征可以包括但不限于:音调、响度、音色等。文本特征可以包括但不限于:字数、情感分类结果等。
示例性地,电子设备可以将多个数据样本中一个数据样本分别输入至特征提取模型的不同子模型中,然后得到每个子模型输出的相应维度上的特征。例如,将待查询多媒体数据输入至内容图像特征提取子模型,内容图像特征提取子模型可以输出待查询多媒体数据在图像维度上的特征(如图像特征a);将待查询多媒体数据输入至语音特征提取子模型,语音特征提取子模型可以输出待查询多媒体数据在语音维度上的特征(如语音特征b),其中,如果待查询多媒体数据输入互动文本特征提取子模型后,没有输出相应的特征,则可以表明待查询多媒体数据中不包括互动文本内容。在将待查询多媒体数据分别输入至每个子模型后,可以将得到的待查询多媒体数据的所有特征,如图像特征a、语音特征b,作为待查询多媒体数据的特征集合。
在一些实施方式中,对于只包含数字记录的待查询多媒体数据(如浏览量、信息发布时间等),电子设备可以对该类待查询多媒体数据进行统计处理,例如计算该类待查询多媒体数据的均值、方差、中位数、最大值、最小值、四分位值等统计值,并将这些统计值中的一种或多种统计值,确定为待查询多媒体数据的特征。
可以理解的是,在实际应该用中,上述各个维度中的特征还可以采用预先设定好的特征表示进行表示,例如图像特征可以使用一串浮点数进行表示。
120、根据上述待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,上述关联数据样本是根据至少一个特征维度上的特征,被划分为与上述待查询多媒体数据同一类的数据样本。
在一些实施方式中,电子设备可以预先设置有数据库,数据库中存储有多个数据样本,且数据库中的数据样本可以根据互联网上的新上传的内容实时更新。
然后,电子设备可以针对待查询多媒体数据的每一特征维度,根据待查询多媒体数据的特征集合和多个数据样本的特征集合,对待查询多媒体数据和多个数据样本件相似度聚合,得到每一特征维度的聚合结果。其中,多个数据样本的特征结合可以预先获取,获取方式可以参考电子设备获取待查询多媒体数据的特征集合的方式。
示例性地,例如待查询多媒体数据包括内容图像特征维度、互动文本特征维度、语音特征维度,在内容图像特征维度上的聚合结果为:[待查询多媒体数据、数据样本A],在互动文本特征维度上的聚合结果为[待查询多媒体数据],在语音特征维度上的聚合结果为[待查询多媒体数据、数据样本A、数据样本B],由于数据样本A与待查询多媒体数据在语音特征维度上、内容图像特征维度上被划分为同一类,那么电子设备可以将数据样本A确定为待查询多媒体数据的关联数据样本。由于数据样本B与待查询多媒体数据在语音特征维度上被划分为同一类,那么电子设备也可以将数据样本B确定为待查询多媒体数据的关联数据样本。
130、根据上述待查询多媒体数据的特征集合和上述关联数据样本的特征集合,确定上述待查询多媒体数据和上述关联数据样本之间的相似得分。
在一些实施方式中,电子设备可以计算上述待查询多媒体数据的特征集合与关联数据样本在每一特征维度上的特征相似度。然后将每一特征维度上的相似度按照预设算法进行计算的,得到相似度得分。可选的,预设算法可以是累加算法、也可以是按照预设权重将每一特征维度上的相似度进行累加,具体采用哪种算法,在此不做限定。可以理解的是,电子设备可以采用余弦相似度的计算方式来计算查询数据的特征集合与关联数据样本之间的在相同特征维度上的相似度,也可以采用其它的相似度计算方式,在此不做限定。
示例性的,例如电子设备计算待查询多媒体数据与关联数据样本在内容图像特征维度上的特征相似度为0.5,在语音特征维度上的特征为0.8,内容图像特征维度预先对应的权重值为0.5,语音特征维度预先对应的权重值为0.5,则待查询多媒体数据与关联数据样本之间的相似度得分为0.5*0.5+0.8*0.5=0.65。
140、如果上述待查询多媒体数据与上述关联数据样本之间的相似得分满足预设得分要求,则将上述关联数据确定为目标数据。
在一些实施方式中,电子设备如果检测到上述待查询多媒体数据与上述关联数据样本之间的相似得分大于或等于相似度得分阈值,则可以将上述关联数据确定为目标数据。
150、将上述目标数据作为挖掘结果进行输出。
在一些实施方式中,电子设备可以以图标的形式在电子设备的显示器上显示该目标数据,也可以将目标数据发送到用户的终端设备上,还可以通过语音方式播放该目标数据,以向用户更好地展示针对待查询多媒体数据进行挖掘的挖掘结果。
可见,在本实施例中,通过对待查询多媒体数据进行特征提取处理,得到待查询多媒体数据的特征集合,特征集合包括多个特征维度上的特征,然后根据待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,关联数据样本是根据至少一个特征维度上的特征,被划分为与待查询多媒体数据同一类的数据样本,从而能够找到在单独的特征维度上与待查询多媒体数据相似度的关联数据样本。再根据待查询多媒体数据的特征集合和关联数据样本的特征集合,确定待查询多媒体数据和关联数据样本之间的相似得分,如果待查询多媒体数据与关联数据样本之间的相似得分满足预设得分要求,则将关联数据确定为目标数据,从而能够在筛选得到的关联数据中,找到与待查询多媒体数据在所有特征维度上都较为相似度目标数据,最后,将目标数据作为挖掘结果进行输出,能够保证输出的挖掘结果在多个特征维度上都能够与待查询多媒体数据性相近,保证了挖掘的全面性和准确性。另外,先筛选出关联数据样本,再从关联数据样本中查询满足预设得分要求目标数据作为挖掘结果,避免了直接比对多个数据样本中每一数据样本与待查询多媒体数据之间的相似度的过程,提高了挖掘效率。
图2是根据另一示例性实施例示出的一种数挖掘方法的流程图,如图2所示,该方法可以包括以下步骤:
210、针对待查询多媒体数据中的每一数据类型的多媒体数据,根据上述多媒体数据的数据类型对应的特征维度,对上述多媒体数据进行特征提取,得到上述待查询数据的特征集合。
其中,上述待查询多媒体数据包括多个数据类型的多媒体数据,每一数据类型对应至少一个特征维度。
在一些实施方式中,电子设备可以对每一条待查询多媒体数据进来都会进行多个数据类型的多媒体数据进行特征提取,由于每个数据类型的多媒体数据对应不同的特征维度,所以每个数据类型的多媒体数据可以又可以提取出不同特征维度的特征。具体地,电子设备可以查看待查询多媒体数据的来源记录,并根据来源记录确定待查询多媒体数据是否包含用户上传的创作内容的数据(例如用户上传导网络并发布的视频、文字、图片、录音等数据),或者是用户在使用一些平台时,平台自动生成的数据(例如用户在点击、浏览平台中一些短视频时所产生的数据等)。示例性地,电子设备可以检测待查询中是否包含指定内容的数据。其中,指定内容可以是用户在网络中上传的创作内容,也可以是其它与用户行为紧密相关的深层次内容。将包含指定内容的数据划分为一类,将不包含指定内容的数据划分为另一类。
在一些实施方式中,步骤210的具体实施方式可以包括:
如果上述多媒体数据的数据类型为第一类型,则对上述多媒体数据进行预设计算处理,并将计算结果作为特征进行提取,其中,上述预设计算处理包括计算均值、方差、中位值、最大值、最小值、四分值中的至少一种,其中,上述第一类型的多媒体数据不包含用户在网络中上传的创作内容,上述第一类型对应的特征维度包括:数据统计特征维度。可以理解的是,第一类型的多媒体数据可以理解为不包含内容本身的统计数据信息,例如:浏览量、收藏量、发布时间等。
示例性地,对于不包含创作内容的待查询多媒体数据,如浏览量、收藏量、发布时间等数据,电子设备可以对上述的多种数据在展示数据层面进行聚合统计,例如计算上述多种数据的均值、方差、中位数、最大值、最小值、四分位值等统计值,并将这些统计值中的一种或多种确定为待查询多媒体数据的特征。
在另一些实施方式中,步骤210的具体实施方式可以包括:
如果上述多媒体数据的数据类型为第二类型,则将上述多媒体数据输入至预先训练好的特征提取模型,并获取上述特征提取模型输出的特征,其中,上述特征提取模型包括基于标注信息训练的第一模型和/或基于自监督方式训练的第二模型,其中,上述第二类型的多媒体数据包含用户在网络中上传的创作内容,上述第二类型对应的特征维度包括:内容图像特征维度、内容文本特征维度、以及内容语音特征维度。可以理解的是,
示例性地,对于含有创作内容的待查询多媒体数据,如含有与用户行为相关的文本、图像和语音等丰富内容的待查询多媒体数据,电子设备可以根据已有模型能力对多媒体数据的图像、文本、语音等内容进行特征提取。
其中,模型可以是在标注数据上训练的通用或特定分类任务,也可以是在无标注数据上训练的自监督模型。如果没有现成的模型能力,也可以收集大量数据进行标注,针对内容的情感分成正面情感,中性情感,负向情感三种类别,并选择合适的模型对不同类型的数据训练分类模型,如ResNet(Residual Neural Network)与BERT(BidirectionalEncoder Representation from Transformers),得到互动内容的情感三分类结果与置信度,从而训练得到特征提取模型。另外,对于创作内容本身,电子设备可以基于自监督模型提取图像与文本特征作为内容表征。
在一些实施方式中,上述数据类型包括第三类型,上述第三类型的多媒体数据包括用户在互动过程中生成的多媒体数据,上述第三类型对应的特征维度包括:互动文本特征维度、互动统计特征维度、互动图像特征维度以及互动语音特征维度。
可选地,对于第三类型的数据,可以通过上述实施例中对第一类型的多媒体数据进行特征提取的方式提取出互动统计特征维度的特征,并通过上述实施例中对第二类型的多媒体数据进行特征提取的方式提取出互动文本特征维度、互动图像特征维度以及互动语音特征维度的特征。
可选地,对于长度不固定的互动行为内容,在数据量过大时进行下采样,分别提取图像与文本等维度得embedding后采用mean和max池化的方式得到长度固定的特征向量,以保证得到的特征能够在后续的相似度比较中正常使用。
可选地,对于互动行为的统计信息,如各浏览者的浏览时长、点赞数量、评论数量等,在展示数据层面进行聚合统计,因为同一展示数据下可能对应多个互动信息。计算均值、方差、中位数、最大值、最小值、四分位值等。并对数值归一化到[0,1]区间,再进行离散化,区间内设置n个bin来划分连续区间,统计位于各个bin内的数目构成长度为n的特征,以保证得到的特征能够在后续的相似度比较中正常使用。
220、根据上述待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,上述关联数据样本是根据至少一个特征维度上的特征,被划分为与上述待查询多媒体数据同一类的数据样本。
在一些实施方式中,步骤220的具体实施方式包括:
首先,根据上述待查询多媒体数据的特征集合,在上述多个数据样本中确定上述待查询多媒体数据对应每一特征维度的KNN结果。
示例性地,电子设备可以将待查询多媒体数据输入至预先训练好的KNN(K-Nearest Neighbor)模型中,并获取KNN模型输出的KNN结果,其中,KNN结果可以是待查询多媒体数据对应每一特征维度上的分类。KNN模型可以是基于上述多个数据样本训练得到。
可以理解的是,KNN可以通过测量不同特征值之间的距离来进行分类。KNN算法是一种非常特别的机器学习算法,因为它没有一般意义上的学习过程。它的工作原理是利用训练数据对特征向量空间进行划分,并将划分结果作为最终算法模型。存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。
输入没有标签的数据后,将这个没有标签的数据的每个特征与样本集中的数据对应的特征进行比较,然后提取样本中特征最相近的数据(最近邻)的分类标签。
一般而言,只选择样本数据集中前k个最相似的数据,这就是KNN算法中k的由来,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的类别,作为新数据的分类。
其中,KNN模型可以包括针对不同特征维度的KNN子模型,每个KNN子模型可以根据输入的数据样本输出对应特征维度的KNN结果。
然后,根据上述待查询多媒体数据对应每一特征维度的KNN结果,确定在至少一个特征维度上与上述待查询多媒体数据为同一类的数据样本,确定为上述关联数据样本。
示例性地,如果根据待查询多媒体数据在内容图像维度上的KNN结果,确定在内容图像特征维度上,待查询多媒体数据与数据样本A、数据样本B为第一类;根据待查询多媒体数据在互动文本特征维度上的KNN结果,确定在互动文本特征维度上,待查询多媒体数据与数据样本B为第二类;根据待查询多媒体数据在语音特征维度上的KNN结果,确定在语音特征维度上,待查询多媒体数据单独为第三类。则可以确定数据样本A、数据样本B为待查询多媒体数据的关联数据样本。
230、根据上述待查询多媒体数据的特征集合和上述关联数据样本的特征集合,确定上述待查询多媒体数据和上述关联数据样本之间的相似得分。
在一些实施方式中,步骤230的具体实施方式可以包括:
首先,针对不同的特征维度,计算上述待查询多媒体数据和上述关联数据样本之间的对应每一特征维度的特征相似度。然后,分别计算上述待查询多媒体数据和上述关联数据样本之间的对应每一特征维度的特征相似度与上述每一特征维度对应的权重值的积,得到多个积。最后,计算上述多个积的和,并将上述多个积的和作为上述相似度得分。
示例性地,关联数据样本之间的相似度得分可以通过如下公式计算得到:
Figure BDA0003481150500000131
其中,s为相似度得分,p为待查询多媒体数据与关联数据样本之间在一个特征维度上的相似度,w为该特征维度对应的权重值,Ⅱ为指示函数。
其中,不同特征维度对应的权重值可以相同也可以不同在此不做限定,具体地,每一特征维度对应的权重值可以根据用户的实际需求自定义设置。
240、如果上述待查询多媒体数据与上述关联数据样本之间的相似得分满足预设得分要求,则将上述关联数据确定为目标数据。
示例性地,如果电子设备检测到待查询多媒体数据与关联数据样本之间的相似得分s大于相似度阈值s0,则可以确定待查询多媒体数据与关联数据样本之间的相似得分满足预设得分要求,并将关联数据确定为目标数据。
250、将上述目标数据作为挖掘结果进行输出。
其中,步骤250的具体实施方式可以参考步骤150,故不在此赘述。
在实际应用中,电子设备可以构建待查询多媒体数据和数据样本的邻接关系图,在邻接关系图中,可以将待查询多媒体数据作为一个节点,数据样本作为其它的节点,用边连接存在邻近关系的节点,其中,边的属性包括特征维度和对应特征维度的特征相似度。示例性地,如图3所示,例如邻接关系图包括:待查询多媒体数据和数据样本A、数据样本B以及数据样本D,当电子设备通过上述实施例的方式确定待查询多媒体数据、数据样本B、数据样本D互为关联数据样本时,可以用边将待查询多媒体数据、数据样本B、数据样本D连接。如图3所示,将待查询多媒体数据、数据样本B之间具有内容图像维度上的边以及互动文本维度上的边,内容图像维度上的相似度为0.9,互动文本维度上的相似度为0.5。数据样本B和数据样本D之间具有内容图像维度上的边,其内容图像维度上的相似度为0.7。而数据样本A的节点和其它节点之间不存在连接关系,因此不具有边。
然后,电子设备可以检测每条边对应的相似度得分是否满足预设得分要求,若满足,表明相似度得分较高,则可以保留该条边,保持节点之间的连接关系。如果不满足则删除该条边,以删除节点之间的连接关系。如图4所示,当数据样本B和数据样本D之间的相似度得分不满足预设得分要求时,表明相似度得分较低,则可以将数据样本B和数据样本D之间的边删除。具体地,如果两节点间存在某些特征维度的邻近关系,则采用加权方式计算邻接得分s。当邻接得分s大于设定阈值时,保留节点间的连接关系,否则删除节点间的连接。
最后,电子设备可以在邻接关系图中求解包含待查询多媒体数据的节点的极大连通子图,如图4中,可以得到极大连通子图[待查询样本、数据样本B],并将极大连通子图中除了待查询样本以外的所有节点都作为待查询样本的挖掘结果即目标数据样本。
在一些实施方式中,该数据挖掘方法还可以包括如下步骤:
如果上述多个数据样本中存在与上述目标数据之间的相似得分满足上述预设得分要求的相似数据样本,则将上述相似数据样本作为挖掘结果进行输出。
示例性的,如图5所示,如果在邻接关系图中,待查询多媒体数据与数据样本B之间具有边连接,且数据样本B与数据样本D之间也存在边,那么可以将数据样本D也作为待查询多媒体数据的挖掘结果。
需要说明的是,上述实施例中所涉及的用户信息或用户数据均是经过用户授权后获取到的。在得到用户的同意/确认后,才会根据相应权限获取并使用。
在本实施例中,通过确定上述待查询多媒体数据的数据类型,并通过与上述数据类型对应的特征提取策略,对上述待查询多媒体数据进行特征提取处理,从而能够根据待查询多媒体数据的数据类型对待查询多媒体数据进行针对性的特征提取处理,提升了特征提取的效率和准确性,进而提升了数据挖掘的效率和准确性。
图6是根据一示例性实施例示出的一种数挖掘装置的框图,如图6所示,该装置300可以包括:特征提取模块310、关联数据样本确定模块320、相似度确定模块330、目标数据确定模块340以及输出模块350。其中:
特征提取模块310,用于对待查询多媒体数据进行特征提取处理,得到上述待查询多媒体数据的特征集合,上述特征集合包括多个特征维度上的特征。
关联数据样本确定模块320,用于根据上述待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,上述关联数据样本是根据至少一个特征维度上的特征,被划分为与上述待查询多媒体数据同一类的数据样本。
相似度确定模块330,用于根据上述待查询多媒体数据的特征集合和上述关联数据样本的特征集合,确定上述待查询多媒体数据和上述关联数据样本之间的相似得分。
目标数据确定模块340,用于如果上述待查询多媒体数据与上述关联数据样本之间的相似得分满足预设得分要求,则将上述关联数据确定为目标数据。
输出模块350,用于将上述目标数据作为挖掘结果进行输出。
在一些实施方式中,该相似度确定模块330包括:
特征相似度确定子模块,用于针对不同的特征维度,计算上述待查询多媒体数据和上述关联数据样本之间的对应每一特征维度的特征相似度。
计算子模块,用于分别计算上述待查询多媒体数据和上述关联数据样本之间的对应每一特征维度的特征相似度与上述每一特征维度对应的权重值的积,得到多个积。
相似度得分计算子模块,用于计算上述多个积的和,并将上述多个积的和作为上述相似度得分。
在一些实施方式中,关联数据样本确定模块320具体用于:根据上述待查询多媒体数据的特征集合,在上述多个数据样本中确定上述待查询多媒体数据对应每一特征维度的KNN结果;根据上述待查询多媒体数据对应每一特征维度的KNN结果,确定在至少一个特征维度上与上述待查询多媒体数据为同一类的数据样本,确定为上述关联数据样本。
在一些实施方式中,上述待查询多媒体数据包括多个数据类型的多媒体数据,每一数据类型对应至少一个特征维度,特征提取模块310,包括:
特征提取子模块,用于针对上述待查询多媒体数据中的每一数据类型的多媒体数据,根据上述多媒体数据的数据类型对应的特征维度,对上述多媒体数据进行特征提取。
在一些实施方式中,特征提取子模块,具体用于:如果上述多媒体数据的数据类型为第一类型,则对上述多媒体数据进行预设计算处理,并将计算结果作为特征进行提取,其中,上述预设计算处理包括计算均值、方差、中位值、最大值、最小值、四分值中的至少一种,其中,上述第一类型的多媒体数据不包含用户在网络中上传的创作内容,上述第一类型对应的特征维度包括:数据统计特征维度。
在一些实施方式中,特征提取子模块,具体还用于:如果上述多媒体数据的数据类型为第二类型,则将上述多媒体数据输入至预先训练好的特征提取模型,并获取上述特征提取模型输出的特征,其中,上述特征提取模型包括基于标注信息训练的第一模型和/或基于自监督方式训练的第二模型,其中,上述第二类型的多媒体数据包含用户在网络中上传的创作内容,上述第二类型对应的特征维度包括:内容图像特征维度、内容文本特征维度、以及内容语音特征维度。
在一些实施方式中,上述数据类型包括第三类型,上述第三类型的多媒体数据包括用户在互动过程中生成的多媒体数据,上述第三类型对应的特征维度包括:互动文本特征维度、互动统计特征维度、互动图像特征维度以及互动语音特征维度。
在一些实施方式中,上述输出模块350还用于如果上述多个数据样本中存在与上述目标数据之间的相似得分满足上述预设得分要求的相似数据样本,则将上述相似数据样本作为挖掘结果进行输出。
在一些实施方式中,上述特征维度包括:内容图像特征维度、互动文本特征维度、互动统计特征维度、语音特征维度中的至少一种。
下面参考图7,其示出了适于用来实现本公开实施例的电子设备(终端设备或服务器)600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:对待查询多媒体数据进行特征提取处理,得到上述待查询多媒体数据的特征集合,上述特征集合包括多个特征维度上的特征;根据上述待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,上述关联数据样本是根据至少一个特征维度上的特征,被划分为与上述待查询多媒体数据同一类的数据样本;根据上述待查询多媒体数据的特征集合和上述关联数据样本的特征集合,确定上述待查询多媒体数据和上述关联数据样本之间的相似得分;如果上述待查询多媒体数据与上述关联数据样本之间的相似得分满足预设得分要求,则将上述关联数据确定为目标数据;将上述目标数据作为挖掘结果进行输出。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

Claims (11)

1.一种数据挖掘方法,其特征在于,包括:
对待查询多媒体数据进行特征提取处理,得到所述待查询多媒体数据的特征集合,所述特征集合包括多个特征维度上的特征;
根据所述待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,所述关联数据样本是根据至少一个特征维度上的特征,被划分为与所述待查询多媒体数据同一类的数据样本;
根据所述待查询多媒体数据的特征集合和所述关联数据样本的特征集合,确定所述待查询多媒体数据和所述关联数据样本之间的相似得分;
如果所述待查询多媒体数据与所述关联数据样本之间的相似得分满足预设得分要求,则将所述关联数据确定为目标数据;
将所述目标数据作为挖掘结果进行输出。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待查询多媒体数据的特征集合和所述关联数据样本的特征集合,确定所述待查询多媒体数据和所述关联数据样本之间的相似得分,包括:
针对不同的特征维度,计算所述待查询多媒体数据和所述关联数据样本之间的对应每一特征维度的特征相似度;
分别计算所述待查询多媒体数据和所述关联数据样本之间的对应每一特征维度的特征相似度与所述每一特征维度对应的权重值的积,得到多个积;
计算所述多个积的和,并将所述多个积的和作为所述相似度得分。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,包括:
根据所述待查询多媒体数据的特征集合,在所述多个数据样本中确定所述待查询多媒体数据对应每一特征维度的KNN结果;
根据所述待查询多媒体数据对应每一特征维度的KNN结果,确定在至少一个特征维度上与所述待查询多媒体数据为同一类的数据样本,确定为所述关联数据样本。
4.根据权利要求1所述的方法,其特征在于,所述待查询多媒体数据包括多个数据类型的多媒体数据,每一数据类型对应至少一个特征维度,所述对待查询多媒体数据进行特征提取处理,包括:
针对所述待查询多媒体数据中的每一数据类型的多媒体数据,根据所述多媒体数据的数据类型对应的特征维度,对所述多媒体数据进行特征提取。
5.根据权利要求4所述的方法,其特征在于,所述根据所述多媒体数据的数据类型对应的特征维度,对所述多媒体数据进行特征提取,包括:
如果所述多媒体数据的数据类型为第一类型,则对所述多媒体数据进行预设计算处理,并将计算结果作为特征进行提取,其中,所述预设计算处理包括计算均值、方差、中位值、最大值、最小值、四分值中的至少一种,其中,所述第一类型的多媒体数据不包含用户在网络中上传的创作内容,所述第一类型对应的特征维度包括:数据统计特征维度。
6.根据权利要求4所述的方法,其特征在于,所述根据所述多媒体数据的数据类型对应的特征维度,对所述多媒体数据进行特征提取,包括:
如果所述多媒体数据的数据类型为第二类型,则将所述多媒体数据输入至预先训练好的特征提取模型,并获取所述特征提取模型输出的特征,其中,所述特征提取模型包括基于标注信息训练的第一模型和/或基于自监督方式训练的第二模型,其中,所述第二类型的多媒体数据包含用户在网络中上传的创作内容,所述第二类型对应的特征维度包括:内容图像特征维度、内容文本特征维度、以及内容语音特征维度。
7.根据权利要求4所述的方法,其特征在于,所述数据类型包括第三类型,所述第三类型的多媒体数据包括用户在互动过程中生成的多媒体数据,所述第三类型对应的特征维度包括:互动文本特征维度、互动统计特征维度、互动图像特征维度以及互动语音特征维度。
8.根据权利要求1-7任一项中所述的方法,其特征在于,所述方法还包括:
如果所述多个数据样本中存在与所述目标数据之间的相似得分满足所述预设得分要求的相似数据样本,则将所述相似数据样本作为挖掘结果进行输出。
9.一种数据挖掘装置,其特征在于,包括:
特征提取模块,用于对待查询多媒体数据进行特征提取处理,得到所述待查询多媒体数据的特征集合,所述特征集合包括多个特征维度上的特征;
关联数据样本确定模块,用于根据所述待查询多媒体数据的特征集合,从多个数据样本中确定关联数据样本,所述关联数据样本是根据至少一个特征维度上的特征,被划分为与所述待查询多媒体数据同一类的数据样本;
相似度确定模块,用于根据所述待查询多媒体数据的特征集合和所述关联数据样本的特征集合,确定所述待查询多媒体数据和所述关联数据样本之间的相似得分;
目标数据确定模块,用于如果所述待查询多媒体数据与所述关联数据样本之间的相似得分满足预设得分要求,则将所述关联数据确定为目标数据;
输出模块,用于将所述目标数据作为挖掘结果进行输出。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-8中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
CN202210068513.0A 2022-01-20 2022-01-20 数据挖掘方法、装置、存储介质及电子设备 Pending CN114428867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210068513.0A CN114428867A (zh) 2022-01-20 2022-01-20 数据挖掘方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210068513.0A CN114428867A (zh) 2022-01-20 2022-01-20 数据挖掘方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114428867A true CN114428867A (zh) 2022-05-03

Family

ID=81314025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210068513.0A Pending CN114428867A (zh) 2022-01-20 2022-01-20 数据挖掘方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114428867A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115190356A (zh) * 2022-06-10 2022-10-14 北京达佳互联信息技术有限公司 一种多媒体数据处理方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115190356A (zh) * 2022-06-10 2022-10-14 北京达佳互联信息技术有限公司 一种多媒体数据处理方法、装置、电子设备及存储介质
CN115190356B (zh) * 2022-06-10 2023-12-19 北京达佳互联信息技术有限公司 一种多媒体数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110598157B (zh) 目标信息识别方法、装置、设备及存储介质
CN110633423B (zh) 目标账号识别方法、装置、设备及存储介质
WO2022121801A1 (zh) 信息处理方法、装置和电子设备
CN110674349B (zh) 视频poi识别方法、装置及电子设备
KR20210091076A (ko) 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램
CN111582360B (zh) 用于标注数据的方法、装置、设备和介质
CN113033682B (zh) 视频分类方法、装置、可读介质、电子设备
CN111738316B (zh) 零样本学习的图像分类方法、装置及电子设备
CN111460288B (zh) 用于检测新闻事件的方法和装置
CN110475158B (zh) 视频学习素材的提供方法、装置、电子设备及可读介质
CN113140012A (zh) 图像处理方法、装置、介质及电子设备
CN111461967A (zh) 图片处理方法、装置、设备和计算机可读介质
US20230315990A1 (en) Text detection method and apparatus, electronic device, and storage medium
CN109446324B (zh) 样本数据的处理方法、装置、存储介质及电子设备
US11437038B2 (en) Recognition and restructuring of previously presented materials
CN114298007A (zh) 一种文本相似度确定方法、装置、设备及介质
CN114428867A (zh) 数据挖掘方法、装置、存储介质及电子设备
CN113033707A (zh) 视频分类方法、装置、可读介质及电子设备
CN113343069A (zh) 用户信息的处理方法、装置、介质及电子设备
CN111767259A (zh) 内容分享的方法、装置、可读介质和电子设备
CN112685996B (zh) 文本标点预测方法、装置、可读介质和电子设备
CN111666449B (zh) 视频检索方法、装置、电子设备和计算机可读介质
CN113051400A (zh) 标注数据确定方法、装置、可读介质及电子设备
CN113779370A (zh) 一种地址检索方法和装置
CN110287371A (zh) 端到端的视频推送方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination