CN111475666B - 一种基于稠密向量的媒体精准匹配方法及系统 - Google Patents
一种基于稠密向量的媒体精准匹配方法及系统 Download PDFInfo
- Publication number
- CN111475666B CN111475666B CN202010228115.1A CN202010228115A CN111475666B CN 111475666 B CN111475666 B CN 111475666B CN 202010228115 A CN202010228115 A CN 202010228115A CN 111475666 B CN111475666 B CN 111475666B
- Authority
- CN
- China
- Prior art keywords
- media
- interference
- library
- algorithm
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于稠密向量的媒体精准匹配方法,其包括如下步骤:步骤S1,利用预设模型对目标媒体进行特征提取;步骤S2,构建对稠密向量提供相似度搜索和聚类的框架;步骤S3,利用所述框架对预设媒体库中的海量特征向量进行相似性搜索,得到相似媒体集;步骤S4,从所述媒体库中抽取干扰媒体,得到干扰媒体集;步骤S5,将所述相似媒体集和所述干扰媒体集同步输入至预设的检索引擎,将所述干扰媒体集中的干扰媒体混入所述相似媒体集,从而降低所述相似媒体集中非匹配媒体与所述目标媒体的近似度。本发明能够在媒体检索过程中减少过拟合现象,进而提高检索精度。
Description
技术领域
本发明涉及图片、视频等媒体的匹配检索方法,尤其涉及一种基于稠密向量的媒体精准匹配方法及系统。
背景技术
目前,随着计算机视觉技术的不断发展,媒体检索技术也得到一定程度的进步,以图片检索为例,从海量图片库中检索与目标图片相近图片的方法越来越多,此类检索方法所依托的机器学习算法和深度学习算法也随之得到了发展。
传统的图像检索方法中,首先需要对目标图片进行特征提取,常用的方法有SIFT特征和SURF特征等。在对图像进行特征提取和编码处理后,再利用特征或编码进行相似度计算,根据所需要的鲁棒性,设定阈值,筛选最佳匹配图片或是精确匹配的图片。其中,相似度匹配有很多的算法研究,对在一定范围内的缩放、旋转、裁剪、修改的图片,由于特征匹配经常存在误匹配,即非匹配点误匹配成匹配点,导致出现过拟合的现象,匹配精度和准确度较低。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种能够在媒体检索过程中减少过拟合现象,进而提高检索精度的基于稠密向量的媒体精准匹配方法及系统。
为解决上述技术问题,本发明采用如下技术方案。
一种基于稠密向量的媒体精准匹配方法,其包括如下步骤:步骤S1,利用预设模型对目标媒体进行特征提取;步骤S2,构建对稠密向量提供相似度搜索和聚类的框架;步骤S3,利用所述框架对预设媒体库中的海量特征向量进行相似性搜索,得到相似媒体集;步骤S4,从所述媒体库中抽取干扰媒体,得到干扰媒体集;步骤S5,将所述相似媒体集和所述干扰媒体集同步输入至预设的检索引擎,将所述干扰媒体集中的干扰媒体混入所述相似媒体集,从而降低所述相似媒体集中非匹配媒体与所述目标媒体的近似度。
优选地,所述媒体库为图片库、视频库、音频库或者文字库,所述目标媒体为图片、视频、音频或者文字。
优选地,所述步骤S1中,对目标媒体进行特征提取的方法为HOG算法、SIFT算法、SURF算法、ORB算法、LBP算法、HAAR算法和哈希码算法中的任意一种。
优选地,所述媒体库包括但不限于ImageNet数据库和IMDB-WIKI-500k-face数据库。
优选地,还包括对所述干扰媒体集进行动态调整的步骤。
一种基于稠密向量的媒体精准匹配系统,所述系统用于实现上述方法。
本发明公开的基于稠密向量的媒体精准匹配方法中,在搜索得到相似媒体集之后,抽取了干扰媒体集,该干扰媒体集针对媒体集库做了泛类型的媒体集抽取,在固化干扰媒体集后,把相似媒体集与干扰媒体集的特征一并输入检索引擎,由于整个输入媒体集中混入了干扰媒体,使得极度相似而非匹配的媒体特征得到一定范围的弱化,其等同于拉开非匹配媒体了与目标媒体的相似程度,有效降低了算法的过拟合现象,使模型的检索精度大大提高。
附图说明
图1为本发明媒体精准匹配方法的流程图;
图2为本发明第一实施例中引入干扰媒体集后的效果示意图。
具体实施方式
下面结合附图和实施例对本发明作更加详细的描述。
本发明公开了一种基于稠密向量的媒体精准匹配方法,请参见图1,其包括如下步骤:
步骤S1,利用预设模型对目标媒体进行特征提取;
步骤S2,构建对稠密向量提供相似度搜索和聚类的框架;
步骤S3,利用所述框架对预设媒体库中的海量特征向量进行相似性搜索,得到相似媒体集;
步骤S4,从所述媒体库中抽取干扰媒体,得到干扰媒体集;
步骤S5,将所述相似媒体集和所述干扰媒体集同步输入至预设的检索引擎,将所述干扰媒体集中的干扰媒体混入所述相似媒体集,从而降低所述相似媒体集中非匹配媒体与所述目标媒体的近似度。
上述方法中,以检索图片媒体为例,首先使用模型抽取图像特征,然后使用对稠密向量提供高效相似度搜索和聚类的框架,该框架的特点是能够针对海量特征向量的相似性进行快速搜索。在搜索过程中,要检索出与目标原图绝对匹配的图片具有一定难度,原因是海量图库里可能包含大量与原图极度相似而非匹配图的图片,在使用算法去检索匹配图时,容易出现过拟合的情况,难以寻找到一个适合的求得一个高鲁棒性的匹配阈值。对此,本发明抽取了干扰图集,该干扰图集针对图库做了泛类型的图片抽取,在固化了干扰图集后,把相似图集与干扰图集的特征一并输入检索引擎,由于整个输入图集中混入了干扰图,使得极度相似图而非匹配的图片特征得到一定范围的弱化,其等同于拉开非匹配图片了与原图的相似程度,有效降低了算法的过拟合现象,使模型的检索精度大大提高。
本发明可以针对多种媒体进行检索,通过引用上述干扰媒体集,挤除一些相似而非匹配的媒体特征点,从而实现更精准的匹配,因此,在实际应用中,所述媒体库可以是图片库、视频库、音频库或者文字库,所述目标媒体可以是图片、视频、音频或者文字。
作为一种优选方式,所述步骤S1中,对目标媒体进行特征提取的方法为HOG算法、SIFT算法、SURF算法、ORB算法、LBP算法、HAAR算法和哈希码算法中的任意一种。
本实施例中,所述媒体库包括但不限于ImageNet数据库和IMDB-WIKI-500k-face数据库。
为了满足实时调整的灵活性要求,本实施例还包括对所述干扰媒体集进行动态调整的步骤。
在实际应用中,本实施例还涉及一种基于稠密向量的媒体精准匹配系统,所述系统用于实现上述方法。
本发明公开的基于稠密向量的媒体精准匹配方法及系统,其实际处理过程可以参考如下实施例。
实施例一
请参见图2,在一个包含图集(A、B、C、D、E、F)中检索原图的任务里,图片A的特征为[A1 A2 A3 A4…],在没有加入干扰图的情况下,先把图集的特征输入稠密向量检索引擎,在设置好阈值N(对匹配度最高的前N点敏感)的情况下,检索结果为A、C、D、E,假设只有A、C是真正与原图匹配的,而D、E被检索出来,是因为D、E是跟原图非常相似,与原图的特征点达到了匹配标准,这种情况下整个模型是存在过拟合现象。
针对上述过拟合现象问题,本实施例引入干扰图集(G、H、I、J、K…),如图2所示,在引入干扰图集后,同样是设置对匹配度最高的前N点特征敏感,干扰图集的特征点能对敏感的特征点起到一定的缓冲作用,在上面的例子里,由于干扰图集的参与,D、E的匹配特征点被排挤了部分,导致最终结果D、E与原图达不到匹配程度,而被剔除在外,在一定程度上解决了模型过拟合现象,提高了模型的精度。
进一步地,在提取过程中,如果干扰集为1万张,分类有1000种(譬如人脸、家具、交通工具、动物、生物之类),每种分类可按比例抽取10张,从而完成提取。对于调整过程,可根据检索效果,增删个别类型的图像。
实际应用中,当干扰图集固化后,能节省大量的特征提取时间,有效提高了算法的运行效率,此外,根据任务需要,也可以动态调整干扰图集,从而提高应用灵活性。
本发明公开的基于稠密向量的媒体精准匹配方法及系统,其相比现有技术而言的有益效果在于,本发明能消减过拟合现象,同时可以把计算时间控制在可应用范围内,大大提高了媒体匹配的准确度。
以上所述只是本发明较佳的实施例,并不用于限制本发明,凡在本发明的技术范围内所做的修改、等同替换或者改进等,均应包含在本发明所保护的范围内。
Claims (2)
1.一种基于稠密向量的媒体精准匹配方法,其特征在于,包括如下步骤:
步骤S1,利用预设模型对目标媒体进行特征提取;
步骤S2,构建对稠密向量提供相似度搜索和聚类的框架;
步骤S3,利用所述框架对预设媒体库中的海量特征向量进行相似性搜索,得到相似媒体集;
步骤S4,从所述媒体库中抽取干扰媒体,得到干扰媒体集;
步骤S5,将所述相似媒体集和所述干扰媒体集同步输入至预设的检索引擎,将所述干扰媒体集中的干扰媒体混入所述相似媒体集,从而降低所述相似媒体集中非匹配媒体与所述目标媒体的近似度;
所述媒体库为图片库、视频库、音频库或者文字库,所述目标媒体为图片、视频、音频或者文字;
所述步骤S1中,对目标媒体进行特征提取的方法为HOG算法、SIFT算法、SURF算法、ORB算法、LBP算法、HAAR算法和哈希码算法中的任意一种;
所述媒体库包括但不限于ImageNet数据库和IMDB-WIKI-500k-face数据库;
还包括对所述干扰媒体集进行动态调整的步骤。
2.一种基于稠密向量的媒体精准匹配系统,其特征在于,所述系统用于实现权利要求1所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010228115.1A CN111475666B (zh) | 2020-03-27 | 2020-03-27 | 一种基于稠密向量的媒体精准匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010228115.1A CN111475666B (zh) | 2020-03-27 | 2020-03-27 | 一种基于稠密向量的媒体精准匹配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475666A CN111475666A (zh) | 2020-07-31 |
CN111475666B true CN111475666B (zh) | 2023-10-10 |
Family
ID=71750371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010228115.1A Active CN111475666B (zh) | 2020-03-27 | 2020-03-27 | 一种基于稠密向量的媒体精准匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475666B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080020257A (ko) * | 2006-08-31 | 2008-03-05 | 계명대학교 산학협력단 | 에지 히스토그램 디스크립터의 특징적 에지 블록을 이용한바이오 영상 검색 방법 및 장치 |
CN103390063A (zh) * | 2013-07-31 | 2013-11-13 | 南京大学 | 一种基于蚁群算法和概率超图的相关反馈图像检索方法 |
CN104331513A (zh) * | 2014-11-24 | 2015-02-04 | 中国科学技术大学 | 一种高效的图像检索性能预测方法 |
CN105808732A (zh) * | 2016-03-10 | 2016-07-27 | 北京大学 | 一种基于深度度量学习的一体化目标属性识别与精确检索方法 |
CN106156750A (zh) * | 2016-07-26 | 2016-11-23 | 浙江捷尚视觉科技股份有限公司 | 一种基于卷积神经网络的以图搜车方法 |
CN109871490A (zh) * | 2019-03-08 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 媒体资源匹配方法、装置、存储介质和计算机设备 |
CN110188225A (zh) * | 2019-04-04 | 2019-08-30 | 吉林大学 | 一种基于排序学习和多元损失的图像检索方法 |
CN110866140A (zh) * | 2019-11-26 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 图像特征提取模型训练方法、图像搜索方法及计算机设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7809722B2 (en) * | 2005-05-09 | 2010-10-05 | Like.Com | System and method for enabling search and retrieval from image files based on recognized information |
CN103838864B (zh) * | 2014-03-20 | 2017-02-22 | 北京工业大学 | 一种视觉显著性与短语相结合的图像检索方法 |
-
2020
- 2020-03-27 CN CN202010228115.1A patent/CN111475666B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080020257A (ko) * | 2006-08-31 | 2008-03-05 | 계명대학교 산학협력단 | 에지 히스토그램 디스크립터의 특징적 에지 블록을 이용한바이오 영상 검색 방법 및 장치 |
CN103390063A (zh) * | 2013-07-31 | 2013-11-13 | 南京大学 | 一种基于蚁群算法和概率超图的相关反馈图像检索方法 |
CN104331513A (zh) * | 2014-11-24 | 2015-02-04 | 中国科学技术大学 | 一种高效的图像检索性能预测方法 |
CN105808732A (zh) * | 2016-03-10 | 2016-07-27 | 北京大学 | 一种基于深度度量学习的一体化目标属性识别与精确检索方法 |
CN106156750A (zh) * | 2016-07-26 | 2016-11-23 | 浙江捷尚视觉科技股份有限公司 | 一种基于卷积神经网络的以图搜车方法 |
CN109871490A (zh) * | 2019-03-08 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 媒体资源匹配方法、装置、存储介质和计算机设备 |
CN110188225A (zh) * | 2019-04-04 | 2019-08-30 | 吉林大学 | 一种基于排序学习和多元损失的图像检索方法 |
CN110866140A (zh) * | 2019-11-26 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 图像特征提取模型训练方法、图像搜索方法及计算机设备 |
Non-Patent Citations (2)
Title |
---|
Bo Lu 等.Towards large scale cross-media retrieval via modeling heterogeneous information and exploring an efficient indexing scheme.ACM.2012,第202-209页. * |
李振东 ; 钟勇 ; 张博言 ; 曹冬平 ; .基于深度特征聚类的海量人脸图像检索.哈尔滨工业大学学报.2018,(11),第101-109页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111475666A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3477506B1 (en) | Video detection method, server and storage medium | |
US10949702B2 (en) | System and a method for semantic level image retrieval | |
Wiliem et al. | Automatic classification of human epithelial type 2 cell indirect immunofluorescence images using cell pyramid matching | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN106951551B (zh) | 联合gist特征的多重索引图像检索方法 | |
CN113033438B (zh) | 一种面向模态非完全对齐的数据特征学习方法 | |
CN111860046B (zh) | 一种改进MobileNet模型的人脸表情识别方法 | |
CN111046732A (zh) | 一种基于多粒度语义解析的行人重识别方法及存储介质 | |
CN114357206A (zh) | 基于语义分析的教育类视频彩色字幕生成方法及系统 | |
CN110991554B (zh) | 一种基于改进pca的深度网络图像分类方法 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN111475666B (zh) | 一种基于稠密向量的媒体精准匹配方法及系统 | |
Hoxha et al. | Remote sensing image captioning with SVM-based decoding | |
CN112241470A (zh) | 一种视频分类方法及系统 | |
CN116644228A (zh) | 多模态全文信息检索方法、系统及存储介质 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
Shaikh et al. | Contemporary integration of content based image retrieval | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 | |
CN114241380A (zh) | 一种基于类别标签和属性注释的多任务属性场景识别方法 | |
CN110674342B (zh) | 查询目标图像的方法和装置 | |
CN116630726B (zh) | 基于多模态的鸟类分类方法及系统 | |
CN110851633A (zh) | 一种实现同时定位和哈希的细粒度图像检索方法 | |
Shruthi et al. | Dominant frame extraction for video indexing | |
Zumer et al. | Color-independent classification of animation video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |