CN117591685A - 一种内容检索方法、装置、电子设备和存储介质 - Google Patents
一种内容检索方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117591685A CN117591685A CN202311466332.4A CN202311466332A CN117591685A CN 117591685 A CN117591685 A CN 117591685A CN 202311466332 A CN202311466332 A CN 202311466332A CN 117591685 A CN117591685 A CN 117591685A
- Authority
- CN
- China
- Prior art keywords
- mapping
- feature
- initial
- hash
- mapping rules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 155
- 238000003860 storage Methods 0.000 title claims abstract description 32
- 238000013507 mapping Methods 0.000 claims abstract description 568
- 230000008569 process Effects 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 67
- 238000005457 optimization Methods 0.000 claims abstract description 63
- 238000011282 treatment Methods 0.000 claims abstract description 7
- 238000009396 hybridization Methods 0.000 claims description 43
- 230000015654 memory Effects 0.000 claims description 40
- 238000004590 computer program Methods 0.000 claims description 39
- 238000013139 quantization Methods 0.000 claims description 33
- 230000035772 mutation Effects 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 abstract description 23
- 230000000694 effects Effects 0.000 abstract description 14
- 238000007667 floating Methods 0.000 description 59
- 239000011159 matrix material Substances 0.000 description 41
- 238000010586 diagram Methods 0.000 description 22
- 238000013473 artificial intelligence Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 7
- 230000002068 genetic effect Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Library & Information Science (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理技术领域,尤其涉及一种内容检索方法、装置、电子设备和存储介质。其中,方法包括:提取目标多媒体内容的目标多媒体特征;获得预设映射规则,预设映射规则是基于样本多媒体特征集,对多个初始映射规则执行多轮迭代优化过程后获得的;基于预设映射规则,将目标多媒体特征进行多次映射处理,获得初始哈希特征;其中,每次映射处理执行以下操作:将多个第一特征元素中的部分第一特征元素,映射为初始哈希特征中的一个第二特征元素;基于初始哈希特征,在多媒体库中进行检索,获得目标多媒体内容对应的检索结果。本申请实施例可以降低哈希映射的计算量,从而提高检索的效率,同时可以保证映射效果,从而保证检索的准确性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种内容检索方法、装置、电子设备和存储介质。
背景技术
随着深度学习技术的突破,在多媒体检索领域也获得了诸多的成效。目前,通常利用深度学习技术获得多媒体库中的多媒体内容的浮点特征,在检索过程中,针对给定的查询多媒体内容,从多媒体库中选出与查询多媒体内容的浮点特征相似的浮点特征,从而将相似的浮点特征对应的多媒体内容作为检索结果。
相关技术中,为了便于对浮点特征进行检索,通常采用哈希映射方法将浮点特征映射为二值化的哈希特征。传统的哈希映射方法大多使用全连接的方式,即哈希特征的每一个元素和浮点特征的所有元素均具有权重连接,全连接的权重可以采用梯度下降的方式进行优化。基于上述全连接方式将浮点特征映射为初始哈希特征后,将初始哈希特征采用阈值量化(超过某一阈值的数值置为1,其余置为0)的方式转换为二值化的哈希特征。
但是,上述哈希映射方法由于采用全连接的方式,计算量较大。为了降低计算量,另一些哈希映射方法采用稀疏的随机连接方式,即哈希特征的每一个元素随机和浮点特征的若干个元素进行连接,但是,随机连接方式的映射效果不可控,无法保证初始哈希特征能够最大程度的保留浮点特征的表达能力,使得映射效果较差,从而降低了检索的准确性。
因此,如何降低哈希映射的计算量,同时保证映射效果,是需要解决的问题。
发明内容
本申请实施例提供一种内容检索方法、装置、电子设备和存储介质,用以降低哈希映射的计算量,从而提高检索的效率,同时可以保证映射效果,从而保证检索的准确性。
一方面,本申请实施例提供的一种内容检索方法,所述方法包括:
提取目标多媒体内容的目标多媒体特征;其中,所述目标多媒体特征包括多个第一特征元素;
获得预设映射规则,所述预设映射规则是基于多个初始映射规则执行多轮迭代优化过程,直至达到停止条件后,从最新获得的多个优化映射规则中选取的;其中,在每轮迭代优化过程中,基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得多个优化映射规则,若未达到所述停止条件,则将所述多个优化映射规则作为下一轮的多个初始映射规则;
基于所述预设映射规则,将所述目标多媒体特征进行多次映射处理,获得初始哈希特征;其中,每次映射处理执行以下操作:将所述多个第一特征元素中的部分第一特征元素,映射为所述初始哈希特征中的一个第二特征元素;
基于所述初始哈希特征,在多媒体库中进行检索,获得所述目标多媒体内容对应的检索结果。
一方面,本申请实施例提供一种内容检索装置,所述装置包括:
特征提取单元,用于提取目标多媒体内容的目标多媒体特征;其中,所述目标多媒体特征包括多个第一特征元素;
规则获取单元,用于获得预设映射规则,所述预设映射规则是基于多个初始映射规则执行多轮迭代优化过程,直至达到停止条件后,从最新获得的多个优化映射规则中选取的;其中,在每轮迭代优化过程中,基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得多个优化映射规则,若未达到所述停止条件,则将所述多个优化映射规则作为下一轮的多个初始映射规则;
映射单元,用于基于所述预设映射规则,将所述目标多媒体特征进行多次映射处理,获得初始哈希特征;其中,每次映射处理执行以下操作:将所述多个第一特征元素中的部分第一特征元素,映射为所述初始哈希特征中的一个第二特征元素;
检索单元,用于基于所述初始哈希特征,在多媒体库中进行检索,获得所述目标多媒体内容对应的检索结果。
可选的,所述基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得多个优化映射规则时,所述规则获取单元具体用于:
针对所述多个初始映射规则,分别执行以下操作:基于一个初始映射规则,将所述样本多媒体特征集中的各样本多媒体特征,分别映射为相应的样本哈希特征,并基于获得的各样本哈希特征,确定所述一个初始映射规则对应的适应度;
基于所述多个初始映射规则各自对应的适应度,确定所述多个初始映射规则各自对应的选择概率;
基于所述多个初始映射规则各自对应的选择概率,从所述多个初始映射规则中重复选择多次,获得多个候选映射规则;其中,每次从所述多个初始映射规则中,选择一个初始映射规则作为候选映射规则;
将所述多个候选映射规则进行更新处理,获得所述多个优化映射规则。
可选的,所述基于获得的各样本哈希特征,确定所述一个初始映射规则对应的适应度时,所述规则获取单元具体用于:
将所述各样本哈希特征分别进行量化处理,获得各二值化哈希特征,并将所述各二值化哈希特征分中的一部分二值化哈希特征作为查询特征集合,另一部分二值化哈希特征作为数据库特征集合;
针对各查询特征,分别执行以下操作:基于一个查询特征,从所述数据库特征集合中执行检索处理,获得相应的检索结果;
基于所述各查询特征各自对应的标签信息,确定获得的各检索结果的评估指标,将所述评估指标作为所述一个初始映射规则的适应度。
可选的,所述基于所述各查询特征各自对应的标签信息,确定获得的各检索结果的评估指标时,所述规则获取单元具体用于:
针对所述各查询特征,分别执行以下操作:基于一个查询特征的标签信息,确定所述一个查询特征对应的检索结果的检索准确率;
基于所述各查询特征各自对应的检索结果的检索准确率,获得所述评估指标。
可选的,所述基于所述多个初始映射规则各自对应的适应度,确定所述多个初始映射规则各自对应的选择概率时,所述规则获取单元具体用于:
针对所述多个初始映射规则,分别执行以下操作:将一个初始映射规则对应的适应度,与所述多个初始映射规则各自对应的适应度之和的比值,作为所述一个初始映射规则对应的选择概率。
可选的,所述将所述多个候选映射规则进行更新处理,获得所述多个优化映射规则时,所述规则获取单元具体用于:
将所述多个候选映射规则划分为多个样本对,每个样本对包含两个候选映射规则;
针对所述多个样本对,分别执行以下操作:当基于预设杂交概率,随机确定对一个样本对进行杂交处理时,对于所述一个样本对包含的两个候选映射规则,将一个候选映射规则中的部分映射参数,与另一个候选映射规则中相应的部分映射参数进行交换,获得杂交后的两个候选映射规则;
基于杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,获得所述多个优化映射规则。
可选的,基于杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,获得所述多个优化映射规则时,所述规则获取单元具体用于:
针对杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,分别执行以下操作:对于一个候选映射规则中的每个映射元素,当基于预设变异概率,随机确定对所述映射参数进行变异处理时,将所述映射参数由第一数值替换为第二数值,获得变异后的候选映射规则;
将变异后的多个候选映射规则以及未进行变异处理的多个候选映射规则,作为所述多个优化映射规则。
可选的,所述装置还包括映射量化单元,用于:
针对所述多媒体库中包含的各候选多媒体内容,分别执行以下操作:
提取一个候选多媒体内容的候选多媒体特征;
基于所述预设映射规则,将所述候选多媒体特征映射为相应的候选哈希特征;
将所述候选哈希特征进行量化处理,获得所述一个候选多媒体内容对应的二值化哈希特征。
可选的,所述检索单元具体用于:
将所述初始哈希特征进行量化处理,获得所述目标多媒体内容对应的二值化哈希特征;
基于所述目标多媒体内容对应的二值化哈希特征,与所述多媒体库中包含的各候选多媒体内容各自对应的二值化哈希特征进行匹配,获得所述多媒体内容对应的检索结果。
可选的,所述将所述初始哈希特征进行量化处理,获得所述目标多媒体内容对应的二值化哈希特征时,所述检索单元具体用于:
针对所述初始哈希特征中的多个第二特征元素,分别执行以下操作:
当一个第二特征元素满足预设条件时,将所述一个第二特征元素设置为第一设定值;
当所述一个第二特征元素不满足所述预设条件时,将所述一个第二特征元素设置为第二设定值。
可选的,所述一个第二特征元素满足预设条件,包括以下任意一种情况:
所述一个第二特征元素的数值从高到低排在前N个;其中,N为大于等于1的整数;
所述一个第二特征元素的数值达到预设阈值。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一种内容检索方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任意一种内容检索方法的步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行上述任意一种内容检索方法的步骤。
本申请至少具有以下有益效果:
本申请实施例提供了一种内容检索方法、装置、电子设备和存储介质,针对需要进行检索的目标多媒体内容,在提取其目标多媒体特征后,基于预设映射规则,将目标多媒体特征映射为初始哈希特征,相比于全连接的哈希映射方式,为了降低哈希映射的计算量,使初始哈希特征中的每个第二特征元素,与目标多媒体特征中的部分第一特征元素连接。
同时,本申请实施例为了保证预设映射规则的哈希映射的效果,在确定预设映射规则时,基于多个初始映射规则执行多轮迭代优化过程,在每轮迭代优化过程中,基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得的多个优化映射规则,最终在迭代结束后,从最新获得的多个优化映射规则中选取上述预设映射规则。
通过上述迭代优化过程获得的预设映射规则,可以使哈希映射后的初始哈希特征,最大程度的保留目标多媒体特征的表达能力,因此,基于该初始哈希特征,在多媒体库中进行检索时,可以保证检索结果的准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中的一种内容检索方法的应用场景示意图;
图2为本申请实施例中的一种内容检索方法的流程图;
图3为本申请实施例中的一种稀疏的二值化特征映射示意图;
图4为本申请实施例中的一种哈希特征量化示意图;
图5为本申请实施例中的另一种哈希特征量化示意图;
图6为本申请实施例中的一种候选映射规则的杂交处理过程示意图;
图7为本申请实施例中的一种候选映射规则的变异处理过程示意图;
图8为本申请实施例中的一种预设映射规则的优化过程示意图;
图9为本申请实施例中的一种内容检索方法的逻辑示意图;
图10为本申请实施例中的一种哈希映射过程示意图;
图11为本申请实施例中的一种基于映射矩阵的特征映射示意图;
图12为本申请实施例中的一种基于遗传算法的映射矩阵优化过程示意图;
图13为本申请实施例中的一种内容检索装置的组成结构示意图;
图14为本申请实施例中的一种电子设备的组成结构示意图;
图15为本申请实施例中的一种电子设备的组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
1、哈希编码:只由0和1组成的特征向量。由于仅由0和1组成,哈希编码存储占用空间小,计算特证间相似性或距离时,可以通过位运算快速得到。哈希编码是海量数据索引、检索的常用工具。
2、哈希映射:将浮点特征向量,映射为由0和1组成的哈希编码的过程。本申请实施例中,目标多媒体特征为浮点特征向量,将目标多媒体特征经过哈希映射,先获得初始哈希特征,再将初始哈希特征量化为由0和1组成的二值化哈希特征。
3、遗传算法:模拟生物进化过程的优化算法。将待优化变量表示为0和1的DNA编码,通过模拟生物种群进化过程中的自然选择、DNA杂交、DNA变异,从而搜索出变量的最优取值。本申请实施例中,在优化多个初始映射规则过程中,可以模拟遗传算法的处理过程。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,可以通过由深度学习技术训练的特征提取模型,提取多媒体内容的多媒体特征,具体通过如下实施例进行说明。
下面对本申请实施例的设计思想进行简要介绍。
相关技术中,为了便于对浮点特征进行检索,通常采用哈希映射方法将浮点特征映射为二值化的哈希特征。传统的哈希映射方法大多使用全连接的方式,即哈希特征的每一个元素和浮点特征的所有元素均具有权重连接,使得计算量较大。为了降低计算量,另一些哈希映射方法采用稀疏的随机连接方式,即哈希特征的每一个元素随机和浮点特征的若干个元素进行连接,但是,随机连接方式的映射效果不可控,无法保证初始哈希特征能够最大程度的保留浮点特征的表达能力,使得映射效果较差,从而降低了检索的准确性。
有鉴于此,本申请实施例提供了一种内容检索方法、装置、电子设备和存储介质,在提取目标多媒体内容的目标多媒体特征后,基于预设映射规则,将目标多媒体特征映射为初始哈希特征,在映射过程中,使初始哈希特征中的每个第二特征元素,与目标多媒体特征中的部分第一特征元素连接,从而降低哈希映射的计算量,以保证后续检索的效率。同时,本申请实施例为了保证预设映射规则的哈希映射效果,在确定预设映射规则时,基于多个初始映射规则执行多轮迭代优化过程,在每轮迭代优化过程中,基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得的多个优化映射规则,最终在迭代结束后,从最新获得的多个优化映射规则中选取上述预设映射规则。通过上述迭代优化过程获得的预设映射规则,可以使哈希映射后的初始哈希特征,最大程度的保留目标多媒体特征的表达能力,因此,基于该初始哈希特征,在多媒体库中进行检索时,可以保证检索结果的准确性。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本申请实施例的应用场景示意图。该应用场景图中包括终端设备110和服务器120。
在本申请实施例中,终端设备110包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备;终端设备上可以安装有内容检索客户端,该客户端可以是软件,也可以是网页、小程序等,服务器120可以是与软件或是网页、小程序等相对应的后台服务器,也可以是专门用于进行内容检索的服务器,本申请不做具体限定。服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一种可选的实施方式中,终端设备110与服务器120之间可以通过通信网络进行通信。其中,通信网络可以是有线网络或无线网络。
需要说明的是,本申请各实施例中的内容检索方法可以由电子设备执行,该电子设备可以为终端设备110或者服务器120,即,该方法可以由终端设备110或者服务器120单独执行,也可以由终端设备110和服务器120共同执行。下面以服务器120单独执行为例进行说明。
在一种可选的实施方式中,用户通过终端设备110中的内容检索客户端输入需要进行检索的目标多媒体内容,终端设备110将该目标多媒体内容上传至服务器120,服务器120提取目标多媒体内容的目标多媒体特征后,基于预设映射规则,将该目标多媒体特征映射为初始哈希特征,然后基于该初始哈希特征,在多媒体库中进行检索,获得相应的检索结果。
需要说明的是,图1所示只是举例说明,实际上终端设备和服务器的数量不受限制,在本申请实施例中不做具体限定。
本申请实施例的内容检索方法可以用于多媒体内容的检索任务,可以提升检索速度和准确率,下面举例介绍几种具体的检索任务。
在一些实施例中,目标多媒体内容可以是图像,对图像的图像特征进行哈希映射,可以实现快速的图像检索任务。例如,以图搜图检索任务,可以服务于以图搜图引擎,以供用户使用图片搜索想要查找的地点、人物、商品等。又例如,对图像集合进行快速索引、聚类、去重等,具体的,当图像集合是社交软件中的电子相册时,可以对电子相册中的相似图像进行聚类等。
在另一些实施例中,目标多媒体内容可以是文本,对文本的文本特征进行哈希映射,可以实现快速的文本检索任务。例如,可以实现从海量文章中快速高效地搜索相似的文章,用于相似文章或段落的检索查重,以辅助网站审核人员过滤相同内容的发表,又例如,可以对程序报错返回信息的文本特征进行哈希映射,可以在海量的上报错误中对同类错误实例快速检索和聚类,辅助开发人员优先解决出现次数更多的报错问题等。
在另一些实施例中,目标多媒体内容可以是音频,对音频的音频特征进行哈希映射,可以实现快速的音频检索任务。例如,在智能家居场景下,针对用户输入的音频指令,可以从预设的大量音频指令中快速高效地搜索相似的音频指令,用于根据音频指令控制智能家居。
需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的内容检索方法。
参阅图2所示,为本申请实施例提供的一种内容检索方法的实施流程图,以服务器为执行主体为例,该方法的具体实施流程包括以下S21-S24:
S21:提取目标多媒体内容的目标多媒体特征;其中,目标多媒体特征包括多个第一特征元素。
其中,目标多媒体内容包括但不限于图像、文本、音频等。具体的,可以采用特征提取模型提取目标多媒体内容的目标多媒体特征,该特征提取模型可以是基于深度学习技术训练获得的,例如深度卷积模型等。目标多媒体特征为向量的形式,包括多个第一特征元素,每个第一特征元素的数值为浮点值。
S22:获得预设映射规则,预设映射规则是基于多个初始映射规则执行多轮迭代优化过程,直至达到停止条件后,从最新获得的多个优化映射规则中选取的;其中,在每轮迭代优化过程中,基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得多个优化映射规则,若未达到停止条件,则将多个优化映射规则作为下一轮的多个初始映射规则。
上述目标多媒体特征属于浮点特征,为了便于后续进行检索,可以将上述目标多媒体特征映射为初始哈希特征,该哈希映射过程可以通过该步骤中的预设映射规则实现,然后再将初始哈希特征量化为二值化哈希特征(即由0和1组成)。
基于该步骤中的预设映射规则,可以获得初始哈希特征的每个第二特征元素,与目标多媒体特征的部分第一特征元素的映射关系,相比于全连接的方式,本申请采用稀疏的二值化连接方式(即每个第二特征元素与部分第一特征元素连接),从而降低哈希映射的计算量,具体的,每个第二特征元素分别与部分第一特征元素的连接权重可以均为1。
同时,本申请实施例为了保证预设映射规则的哈希映射效果,使得映射后的初始哈希特征能够最大程度的保留原始浮点特征(如上述目标多媒体特征)的表达能力,可以基于样本多媒体特征集,对多个初始映射规则执行多轮迭代优化过程,直至达到停止条件后,从最终获得的多个优化映射规则中选取预设映射规则,其中,停止条件可以是:最新一轮获得的多个优化映射规则中,存在满足收敛条件的优化映射规则,还可以是:迭代次数达到设定次数。本申请下面实施例中将详细介绍预设映射规则的迭代优化过程。
S23:基于预设映射规则,将目标多媒体特征进行多次映射处理,获得初始哈希特征;其中,每次映射处理执行以下操作:将多个第一特征元素中的部分第一特征元素,映射为初始哈希特征中的一个第二特征元素。
具体的,在每次映射处理中,可以将部分第一特征元素的数值进行求和,获得初始哈希特征中的一个第二特征元素的数值。
示例性的,如图3所示,目标多媒体特征的多个第一特征元素的数值分别为:0.5、0.2、0.1、0.1、0.0、0.1,初始哈希特征的多个第二特征元素分别为0.7......0.2、0.1,其中,初始哈希特征中的第一位0.7是目标多媒体特征中第一位的(0.5)和第二位的(0.2)之和,初始哈希特征中的倒数第二位(0.2)是目标多媒体特征中的第四位(0.1)和第六位(0.1)之和,初始哈希特征中的倒数第一位(0.1)是目标多媒体特征中的第五位(0.0)和第六位(0.1)之和。
本申请实施例中的特征映射过程采用稀疏的二值化映射方式,也就是说,初始哈希特征中的每个第二特征元素与原始浮点特征(如上述目标多媒体特征)中的每个一特征元素的连接权重为1或者0。
可以理解的是,本申请实施例的预设映射规则可以包括:初始哈希特征中的每个第二特征元素与原始浮点特征中的每个第一特征元素的连接权重,具体可以为映射矩阵的形式,矩阵的每一行为初始哈希特征中的一个第二特征元素与原始浮点特征中的所有第一特征元素的连接权重。示例性的,假设预设映射规则表示为以下式(1)的映射矩阵W,则原始浮点特征包括含6个第一特征元素,初始哈希特征中包含3个第二特征元素,映射矩阵W的每一行表示一个第二特征元素与6个第一特征元素的连接权重。
S24:基于初始哈希特征,在多媒体库中进行检索,获得目标多媒体内容对应的检索结果。
其中,在获得目标多媒体特征映射后的初始哈希特征后,在进行检索之前,可以将初始哈希特征量化为二值化哈希特征(即二进制哈希编码),以便于快速在多媒体库中进行检索。具体的,可以将目标多媒体内容对应的二值化哈希特征,与多媒体库中包含的各候选多媒体内容对应的二值化哈希特征进行相似度计算,获得相似度较高的候选多媒体内容,作为检索结果。
本申请实施例中,基于预设映射规则,将目标多媒体特征映射为初始哈希特征,在映射过程中,使初始哈希特征中的每个第二特征元素,与目标多媒体特征中的部分第一特征元素连接,从而降低哈希映射的计算量,以保证后续检索的效率。同时,本申请实施例为了保证预设映射规则的哈希映射效果,在确定预设映射规则时,基于样本多媒体特征集对多个初始映射规则执行多轮迭代优化过程,最终优化后的预设映射规则,可以使哈希映射后的初始哈希特征最大程度的保留目标多媒体特征的表达能力,因此,基于该初始哈希特征,在多媒体库中进行检索时,可以保证检索结果的准确性。
在一些实施例中,上述S24具体可以包括以下步骤A1-A2:
A1、可以将初始哈希特征进行量化处理,获得目标多媒体内容对应的二值化哈希特征。
其中,可以采用预设的量化方式对初始哈希特征进行量化处理,下面对预设的量化方式进行示例性介绍。
在一种可选的实施方式中,对初始哈希特征进行量化处理时,可以针对初始哈希特征中的多个第二特征元素,分别执行以下操作:当一个第二特征元素满足预设条件时,将一个第二特征元素设置为第一设定值;当一个第二特征元素不满足预设条件时,将一个第二特征元素设置为第二设定值。
其中,预设条件可以根据需要进行设置。第一设定值可以是1,第二设定值可以是0。也就是说,将初始哈希特征中满足预设条件的第二特征元素置为1,不满足预设条件的第二特征元素置为0,从而获得二值化哈希特征。下面对上述预设条件进行示例性介绍。
在一些可选的实施方式中,一个第二特征元素满足预设条件,可以包括以下任意一种情况:
第一种情况:一个第二特征元素的数值从高到低排在前N个;其中,N为大于等于1的整数。
该情况下,采用赢者通吃的量化方式对初始哈希特征进行量化处理,获得二值化哈希特征。具体来讲,对于初始哈希特征中的多个第二特征元素,仅保留响应最高的前N个第二特征元素,将其置为1,其余第二特征元素置为0。
示例性的,如图4所示,假设初始哈希特征的多个第二特征元素分别为:0.7、0.2、0.9、0.6、0.2、0.1,采用赢者通吃的量化方式,将数值最高的两个第二特征元素置为1,其余第二特征元素置为0,获得二值化哈希特征:[1,0,1,0,0,0]。
第二种情况:一个第二特征元素的数值达到预设阈值,其中,预设阈值可以根据需要进行设置。
该情况下,采用阈值量化的方式对初始哈希特征进行量化处理,获得二值化哈希特征。具体来讲,对初始哈希特征中的多个第二特征元素,将数值达到预设阈值的第二特征元素置为1,数值未达到预设阈值的第二特征元素置为0。
示例性的,如图5所示,沿用上述初始哈希特征的多个第二特征元素:0.7、0.2、0.9、0.6、0.2、0.1,采用阈值量化的方式,将数值达到0.5的第二特征元素置为1,其余第二特征元素置为0,获得二值化哈希特征:[1,0,1,1,0,0]。
本申请实施例中,可以采用赢者通吃的量化方式或者阈值量化方式,可以快速便捷地对初始哈希特征进行量化处理,获得二值化哈希特征,以便后续基于该二值化哈希特征进行内容检索。
A2、基于目标多媒体内容对应的二值化哈希特征,与多媒体库中包含的各候选多媒体内容各自对应的二值化哈希特征进行匹配,获得目标多媒体内容对应的检索结果。
在执行上述步骤A2之前,可以针对多媒体库中包含的各候选多媒体内容,分别执行以下操作:提取一个候选多媒体内容的候选多媒体特征;基于预设映射规则,将候选多媒体特征映射为相应的候选哈希特征;将候选哈希特征进行量化处理,获得一个候选多媒体内容对应的二值化哈希特征。
其中,候选多媒体内容与目标多媒体内容的类型相同,提取候选多媒体内容的特征提取方式,与本申请上述实施例的S21中的目标多媒体内容的特征提取方式类似,在此不再赘述。
基于预设映射规则,将候选多媒体特征映射为候选哈希特征的方式,与本申请上述实施例的S23中将目标多媒体特征映射为初始哈希特征的方式类似,在此不再赘述。此外,将候选哈希特征进行量化处理的方式,与本申请上述实施例的步骤A1中将初始哈希特征进行量化处理的方式类似,在此不再赘述。
采用上述预设映射规则,将多媒体库中的各候选多媒体特征映射为相应的候选哈希特征,可以大大降低哈希映射的计算量,同时保证映射效果,使得候选哈希特征最大程度的保留相应的候选多媒体特征的表达能力,从而保证检索准确性。
接下来,在执行上述步骤A2时,可以计算目标多媒体内容对应的二值化哈希特征,与每个候选多媒体内容对应的二值化哈希特征的相似度,例如,可以采用汉明距离两个二值化哈希特征的相似度。最后,选择相似度较高的几个候选多媒体内容,作为目标多媒体内容对应的检索结果。
本申请实施例中,由于二值化哈希特征为二进制哈希编码,占用的存储空间小,因此,将目标多媒体特征对应的初始哈希特征量化为二值化哈希特征,并且,基于二值化哈希特征可以快速进行检索,提高检索效率。
下面对本申请上述实施例中的预设映射规则的多轮迭代优化过程进行介绍。
在一些实施例中,在上述S22中的每轮迭代优化过程中,基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得多个优化映射规则,可以包括以下步骤B1-B4:
B1、针对多个初始映射规则,分别执行以下操作:基于一个初始映射规则,将样本多媒体特征集中的各样本多媒体特征,分别映射为相应的样本哈希特征,并基于获得的各样本哈希特征,确定一个初始映射规则对应的适应度。
在执行步骤B1之前,可以获取样本多媒体内容集,分别提取其中的各样本多媒体内容的样本多媒体特征,获得样本多媒体特征集,该样本多媒体特征的提取方式与本申请上述实施例中的目标多媒体特征的提取方式类似,在此不再赘述。
需要说明的是,在第一轮迭代优化过程中,可以随机生成多个初始映射规则,随机生成的初始映射规则的数量可以根据需要设置,例如为20~100。第一轮之后的每一轮的多个初始映射规则,是上一轮获得的多个优化映射规则。对于每一轮的多个初始映射规则,基于样本多媒体特征集计算每个初始映射规则的适应度。
具体的,针对每个初始映射规则,采用采初始映射规则将样本多媒体特征集中的各样本多媒体特征,分别映射为相应的样本哈希特征,该特征映射过程与本申请上述实施例的S23中的特征映射过程类似,然后,基于获得的各样本哈希特征,确定一个初始映射规则对应的适应度。
在一种可选的实施方式中,上述步骤B1中基于获得的各样本哈希特征,确定一个初始映射规则对应的适应度,可以包括以下步骤B11-B13:
B11、将各样本哈希特征分别进行量化处理,获得各二值化哈希特征,并将各二值化哈希特征分中的一部分二值化哈希特征作为查询特征集合,另一部分二值化哈希特征作为数据库特征集合。
其中,将各样本哈希特征进行量化处理的方式,与本申请上述实施例的步骤B1中将初始哈希特征进行量化处理的方式类似,在此不再赘述。
B12、针对各查询特征,分别执行以下操作:基于一个查询特征,从数据库特征集合中执行检索处理,获得相应的检索结果。
该步骤中,针对每个查询特征,可以计算该查询特征与数据库特征集合中的每个数据库特征的相似度,例如,可以采用汉明距离计算查询特征和数据库特征的相似度。最后,选择相似度较高的几个数据库特征对应的样本多媒体内容,作为该查询特征对应的检索结果。
B13、基于各查询特征各自对应的标签信息,确定获得的各检索结果的评估指标,将评估指标作为一个初始映射规则的适应度。
其中,每个查询特征对应的标签信息,由该查询特征对应的样本多媒体内容确定。例如,样本多媒体内容为图像时,标签信息可以是图像标签,该图像标签可以表示图像中包含的人、物或者地点等。
基于每个查询特征的标签信息,可以计算该查询特征对应的检索结果的检索指标,从而获得各检索结果各自的检索指标,基于这些检索指标可以获得各检索结果的评估指标。其中,检索指标可以根据需要进行选择,下面以检索指标为检索准确率为例进行说明。
在一种可选的实施方式中,上述步骤B13中基于各查询特征各自对应的标签信息,确定获得的各检索结果的评估指标时,可以针对各查询特征,分别执行以下操作:基于一个查询特征的标签信息,确定一个查询特征对应的检索结果的检索准确率;然后,基于各查询特征各自对应的检索结果的检索准确率,获得评估指标。
具体的,针对每个查询特征,基于该查询特征对应的标签信息,可以确定检索结果中与查询特征相关的样本多媒体内容的第一数量,基于第一数量与检索结果中的样本多媒体内容的总数量,可以计算出检索准确率。
可选的,在获得各查询特征各自对应的检索结果的检索准确率后,可以将各检索准确率取平均值,即将平均检索准确率作为评估指标。
本申请上述实施方式中,针对每个初始映射规则,通过计算各查询特征各自对应的检索结果的检索准确率,可以准确获得各检索结果的评估指标,以便准确地度量每个初始映射规则的适应度。
需要说明的是,上述检索指标除了检索准确率,还可以是其它指标,例如检索查全率,基于上述第一数量,以及数据库特征集合对应的样本多媒体内容集中,与查询特征相关的样本多媒体内容的总数量,可以计算出检索查全率。
B2、基于多个初始映射规则各自对应的适应度,确定多个初始映射规则各自对应的选择概率。
其中,初始映射规则在样本多媒体特征集上的适应度越高,表示该初始映射规则被选择的概率越高。
在一种可选的实施方式中,在执行步骤B2时,可以针对多个初始映射规则,分别执行以下操作:将一个初始映射规则对应的适应度,与多个初始映射规则各自对应的适应度之和的比值,作为一个初始映射规则对应的选择概率。
示例性的,多个初始映射规则所对应的适应度记为:{s1,s2,…,sn},每个初始映射规则的选择概率,可以通过以下式(1)计算获得。
其中,pi表示第i个初始映射规则的选择概率,n为初始映射规则的数量,基于上述式(1)获得多个初始映射规则各自的选择概率,例如表示为:{p1,…,pn}。
本申请上述实施方式中,在获得多个初始映射规则各自对应的适应度后,将每个初始映射规则的适应度除以所有适应度之和,可以准确获得每个初始映射规则的选择概率。
B3、基于多个初始映射规则各自对应的选择概率,从多个初始映射规则中重复选择多次,获得多个候选映射规则;其中,每次从多个初始映射规则中,选择一个初始映射规则作为候选映射规则。
在每次选择中,基于多个初始映射规则各自的选择概率,从多个初始映射规则中随机选择一个初始映射规则,可以理解的是,选择概率越高的初始映射规则,越容易被选择。重复选择多次后,一个初始映射规则可能被选择多次,具体由选择概率确定。
其中,重复选择的次数可以根据需要设置,对此不作限定。可选的,多个初始映射规则的数量为n,可以重复选择n次。
B4、将多个候选映射规则进行更新处理,获得多个优化映射规则。
基于上述步骤B1-B3,从多个初始映射规则中选择出多个候选映射规则后,可以进一步对多个候选映射规则进行更新处理,具体的更新方式可以根据需要设置,下面实施例中将对更新方式进行示例性介绍。
本申请上述实施例中,先对多个初始映射规则进行选择处理,基于选择概率从多个初始映射规则中选择出多个候选映射规则,选择处理的目的是选择较优的初始映射规则。然后,再对多个候选映射规则进行更新处理,以提升多个候选映射规则的多样性,以实现对每一轮的多个初始映射规则的优化处理。
在一些实施例中,为了提升多个候选映射规则的多样性,可以将多个候选映射规则进行杂交处理,即将两个候选映射规则中的映射参数进行交换。此时,上述步骤B4中将多个候选映射规则进行更新处理,获得多个优化映射规则,可以包括以下步骤B41-B43:
B41、将多个候选映射规则划分为多个样本对,每个样本对包含两个候选映射规则。
其中,每个候选映射规则对应一个配对的候选映射规则。例如,多个候选映射规则的数量为20个,可以获得10个样本对。
B42、针对多个样本对,分别执行以下操作:当基于预设杂交概率,随机确定对一个样本对进行杂交处理时,对于一个样本对包含的两个候选映射规则,将一个候选映射规则中的部分映射参数,与另一个候选映射规则中相应的部分映射参数进行交换,获得杂交后的两个候选映射规则。
其中,预设杂交概率可以根据需要设置,例如可以设置为0.4~0.99之间的数值等,对此不作限定。
具体的,基于预设杂交概率,随机确定是否对一个样本对进行杂交处理时,可以随机生成一个概率值,如果该概率值大于等于预设杂交概率,则对样本对进行杂交处理,如果该概率值小于预设杂交概率,则不对样本对进行杂交处理。示例性的,假设预设杂交概率为0.5,针对某个样本对,随机生成的概率值为0.8,则对该样本对进行杂交处理。上述随机方式只是示例性的,也可以采用其它方式,对此不作限定。
在步骤B42中,当确定对一个样本对进行杂交处理时,对于该样本对包含的两个候选映射规则,可以采用预设交换方式,将一个候选映射规则中的部分映射参数,与另一个候选映射规则中相应的部分映射参数进行交换。其中,每个候选映射规则包含:样本哈希特征中的每个特征元素,与相应的样本多媒体特征中的所有特征元素的连接权重(即为映射参数),该连接权重为1或0。
每个候选映射规则可以看作一个映射矩阵,可以随机选择两个映射矩阵中需要进行交换的元素(对应映射参数)的位置。在一种可选的实施方式中,随机选择映射矩阵中的一个位置,交换两个映射矩阵中,该位置之后的所有位置的元素,从而得到两个新的映射矩阵,即杂交后的两个候选映射规则。
示例性的,如图6所示,一个样本对中的两个候选映射规则分别表示为映射矩阵1和映射矩阵2,交换映射矩阵1和映射矩阵2中,第二行第四列的元素之后的所有位置的元素,获得映射矩阵3和映射矩阵4,即为杂交后的两个候选映射规则。
B43、基于杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,获得多个优化映射规则。
本申请上述实施例中,基于预设杂交概率,随机对多个候选映射规则中的两两候选映射规则进行杂交处理,从而增加多个候选映射规则的多样性,获得多样化的新的多个候选映射规则,可以加速多轮迭代优化过程的收敛,有利于得到最优的预设映射规则。
在一些实施例中,基于上述步骤B41-B43获得新的多个候选映射规则(包含杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则)后,为了进一步增加新的多个候选映射规则的广度,提升多轮迭代优化过程的全局搜索能力,可以继续对新的多个候选映射规则进行变异处理,即改变每个候选映射规则中的映射参数,下面具体介绍变异处理的过程。
上述步骤B43中,基于杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,获得多个优化映射规则,可以包括以下步骤B431-B432:
B431、针对杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,分别执行以下操作:对于一个候选映射规则中的每个映射元素,当基于预设变异概率,随机确定对映射参数进行变异处理时,将映射参数由第一数值替换为第二数值,获得变异后的候选映射规则。
其中,预设变异概率可以根据需要设置,例如可以设置为0.0001到0.1之间的数值等,对此不作限定。
具体的,基于预设变异概率,随机确定是否对一个映射参数进行变异处理时,可以随机生成一个概率值,如果该概率值大于等于预设变异概率,则对映射参数进行变异处理,如果该概率值小于预设变异概率,则不对映射参数进行变异处理。示例性的,假设预设变异概率为0.01,针对一个候选映射规则中的某个映射参数,随机生成的概率值为0.05,则对该映射参数进行变异处理。上述随机方式只是示例性的,也可以采用其它方式,对此不作限定。
当确定对一个映射参数进行变异处理时,将映射参数由第一数值替换为第二数值,该第二数值可以根据需要设置,例如:第二数值=1-第一数值,即当第一数值为1时,第二数值为0,当第一数值为0时,第二数值为1。
示例性的,如图7所示,一个候选映射规则可以表示为上述映射矩阵3,基于预设变异概率,确定将映射矩阵3中的第一行第二列的元素由“0”替换为“1”,以及将映射矩阵3中的第三行第一列的元素由“0”替换为“1”,从而获得映射矩阵5,即为变异后的候选映射规则。
B432、将变异后的多个候选映射规则以及未进行变异处理的多个候选映射规则,作为多个优化映射规则。
本申请实施例中,针对杂交处理后的多个候选映射规则,基于预设变异概率,随机对每个候选映射规则中的每个映射参数进行变异处理,从而增加了新的多个候选映射规则的广度,获得多个优化映射规则,以提升多轮迭代优化过程的全局搜索能力,有利于得到最优的预设映射规则。
本申请上述实施例中,对多个候选映射规则执行杂交处理后,继续对杂交处理后的多个候选映射规则进行变异处理,此外,也可以对多个候选映射规则执行变异处理后,继续对变异处理后的多个候选映射规则进行杂交处理,对此不作限定。
下面结合图8对本申请实施例的预设映射规则的优化过程进行整体介绍。
本申请实施例通过对多个初始映射规则进行多轮迭代优化,获得预设映射规则。如图8所示,在每轮迭代优化过程中,基于样本多媒体特征集,对本轮的多个初始映射规则进行选择处理,获得多个候选映射规则;之后,对多个候选映射规则进行杂交处理,获得杂交后的多个候选映射规则(包含进行杂交处理的和未进行杂交处理的候选映射规则);接着,将杂交后的多个候选映射规则进行变异处理,获得多个优化映射规则,如果不满足停止条件,则将多个优化映射规则作为下一轮的多个初始映射规则,继续进行下一轮迭代优化过程,如果满足停止条件,则从多个优化映射规则中选择预设映射规则。
下面结合图9对本申请实施例的内容检索方法的整体流程进行示例性介绍。
如图9所示,以目标多媒体内容是包含小狗的查询图像为例,对该查询图像进行特征提取,获得图像浮点特征(对应本申请上述实施例中的目标多媒体特征),基于预设映射规则,将该图像浮点特征映射为初始哈希特征,该初始哈希特征中的每个元素为图像浮点特征中的部分元素之和,之后,将初始哈希特征进行量化处理,获得二值化哈希特征,基于该二值化哈希特征在图像库(对应本申请上述实施例中的多媒体库)中进行检索,获得与查询图像相似的各检索图像。
需要说明的是,本申请实施例的内容检索方法可以应用于多媒体内容的检索任务,包括但不限于图像检索任务、文本检索任务、音频检索任务等,可以提升检索速度和准确率。
本申请下面实施例中以预设映射规则为映射矩阵,多媒体内容为图像为例,对预设映射矩阵的优化过程进行示例性介绍。
本申请实施例使用稀疏的二值化连接方式(即每一个哈希特征的元素仅和若干个浮点特征的元素相连),将图像浮点特征映射为初始哈希特征,且连接没有权重差异(每一个哈希特征的元素为所连接的浮点特征的元素之和),稀疏的二值化连接方式,大大降低了哈希映射所需要的计算量,有利于在海量数据的落地应用。并且,使用迭代优化算法对稀疏的二值化连接方式进行优化,提升了哈希映射的稳定性和哈希特征的性能。
在实际应用中,对于高维的图像浮点特征,使用优化后的稀疏的二值化连接方式,将其映射为初始哈希特征后,可以进一步将初始哈希特征量化为二值化哈希特征。
下面首先介绍基于稀疏的二值化连接方式的哈希映射过程,随后介绍对稀疏的二值化连接方式的优化过程。
一、哈希映射过程
如图10所示,本申请实施例首先使用深度卷积模型提取图像的图像浮点特征(对应本申请上述实施例中的目标多媒体特征),然后将图像浮点特征,经过哈希映射,获得初始哈希特征,再经过量化处理,得到二值化哈希特征。
其中,哈希映射采用稀疏的二值化连接方式,即一个图像的初始哈希特征中的每一个元素(对应本申请上述实施例中的第二特征元素),仅与少量的图像浮点特征中的元素(对应本申请上述实施例中的第一特征元素)连接,初始哈希特征的每个元素的数值为:所连接的图像浮点特征的各元素的数值之和,这种连接具有稀疏性和二值性,具体参见下述解释说明。
稀疏性:在图像的初始哈希特征中,每个元素与随机的若干个图像浮点特征的元素相连,连接数量远少于图像浮点特征的维度,例如,图像浮点特征包含6个元素,初始哈希特征中的每个元素仅与图像浮点特征中的两个元素连接。稀疏的连接方式,降低了连接数量,也降低了哈希映射所需要的计算量。
二值性:本申请实施例中初始哈希特征的每个元素的数值为:与其相连的图像浮点特征的元素的数值之和,省去了连接权重,从而省去了乘法运算,进一步降低了哈希映射的计算量。
将图像浮点特征映射为初始哈希特征后,本申请实施例可以采用赢者通吃的量化方式,将初始哈希特征量化为二值化哈希特征。具体来讲,对初始哈希特征中的多个元素,仅保留响应最高的前几个特征,将其输出置为1,其余元素输出置为0。此外,也可以采用阈值量化方式将初始哈希特征量化为二值化哈希特征。
二、利用遗传算法优化哈希映射过程
本申请实施例使用样本图像集优化哈希映射过程,对样本图像集中的各样本图像,分别提取其图像浮点特征,这些图像浮点特征记为{v1,v2,…},稀疏的二值化连接方式可以表示为以下式(2):
x=Wv (2)
其中,x表示映射后的初始哈希特征(尚未经过量化),记为{x1,x2,…},W表示稀疏的二值化的映射矩阵,v表示图像浮点特征。
图11展示了一个映射矩阵的样例。其中,图像浮点特征v=[0.5,0.2,0.1,0.1,0.0,0.1]T,映射后的初始哈希特征为x=[0.7,0.2,0.1]T,映射矩阵为
将映射过程形式化为映射矩阵后,本申请实施例采用遗传算法对映射矩阵进行优化,下面结合图12对具体的优化过程进行介绍。
如图12所示,映射矩阵的优化过程包括以下步骤:
S121:随机生成n个映射矩阵作为初始样本集合。
假设n个映射矩阵表示为:{W1,W2,…,Wn},n是随机产生的样本个数,通常取20到100。
遗传算法包括样本自然选择、样本杂交、样本变异三个步骤,这三个步骤循环实施直到满足停止条件,例如:循环了足够的次数(例如为100次),或者样本中的最大适应度已经满足要求。下面的S122-S124中对样本自然选择、样本杂交、样本变异分别进行介绍。
S122:样本自然选择。
该步骤对应本申请上述实施例中的步骤B1-B3。具体的,针对初始样本集合中的每个映射矩阵,将样本图像集中的所有样本图像的图像浮点特征映射为初始哈希特征,如以下式(3)所示:
随后,使用赢者通吃的量化方式,将所有样本图像的初始哈希特征量化为二值化哈希特征,并分别针对每个映射矩阵,基于所有二值化哈希特征计算图像检索准确率,作为对应的映射矩阵的适应度s。
图像检索准确率的计算方法为:使用样本图像集中部分样本图像的二值化哈希特征作为查询特征,使用其余样本图像的二值化哈希特征作为数据库特征,针对每个查询特征,将该查询特征与各数据库特征一一计算汉明距离,按照汉明距离从小到大排序作为检索结果,并根据查询特征对应的样本图像的图像标签,计算此检索结果的检索准确率。最后,将各查询特征各自对应的检索准确率取平均值,获得平均检索准确率。
获得所有映射矩阵所对应的适应度(即图像检索结果的平均检索准确率)记为:{s1,s2,…,sn}。
之后,针对每个映射矩阵,将该映射矩阵对应的适应度除以所有映射矩阵的适应度之和,得到该映射矩阵对应的自然选择概率(即本申请上述实施例中的选择概率),所有映射矩阵的自然选择概率记为:{p1,…,pn}
随后,依据所有映射矩阵的自然选择概率,从所有映射矩阵中随机选择出一个映射矩阵。上述随机选择过程重复n次,得到新的n个映射矩阵。
S123:判断是否满足停止条件,如果是,则执行S126,如果否,则继续执行S124。
S124:样本杂交。
该步骤对应本申请上述实施例中的步骤B41-B42。具体的,针对样本自然选择后获得的n个映射矩阵,随机地将n个映射矩阵两两进行配对,获得多个样本对。对于每一个样本对,依照预设杂交概率Pc,随机决定是否对该样本对进行杂交处理。例如,杂交概率Pc可以取0.4到0.99之间。
对于确定需要进行杂交处理的一个样本对,将该样本对中的两个映射矩阵中的相应元素进行交换,需要进行交换的元素可以根据需要进行选择。例如,随机选择一个映射矩阵中一个元素,交换两个映射矩阵中,该元素之后的所有元素,从而得到两个新的映射矩阵。
S125:样本变异。
该步骤对应本申请上述实施例中的步骤B431和步骤B432。具体的,针对样本杂交后获得的n个映射矩阵,对每个映射矩阵中的所有元素,分别根据预设变异概率Pm,随机决定是否对每个元素进行变异处理。
对于确定需要进行变异处理的一个元素,将该元素的数值替换为1减去原数值的差值,即原数值为1的替换为0,原数值为0的替换为1。其中,预设变异概率Pm可以取0.0001到0.1之间。
S126:结束:返回适应度最高的映射矩阵。
本申请上述实施例中,S122-S125迭代执行多次,直到满足一定的停止条件,例如循环次数达到最大或者样本中最大的适应度已经满足条件。停止优化后,选择样本中适应度最高的映射矩阵,作为优化后的映射矩阵,用于将图像浮点特征映射为初始哈希特征,进而量化得到二值化哈希特征。
需要说明的是,上述实施例中以图像浮点特征为例进行示例性介绍,图像浮点特征还可以替换为文本浮点特征、音频浮点特征等不同类型的浮点特征,对初始哈希特征进行量化的方式也可以采用阈值量化等不同的方式。并且,上述实施例采用平均检索准确率作为遗传算法中的适应度,也可以采用其它的检索指标计算适应度,对此不作限定。
本申请实施例使用上述样本图像集,对多个映射矩阵进行多次迭代优化,获得优化后的映射矩阵后,使用公开的CIFAR10图像集作为测试图像集,对上述优化后的映射矩阵验证。
具体的,使用AlexNet(深度卷积神经网络)模型提取所有测试图像各自的12维的图像浮点特征。通过优化后的映射矩阵,将每个12维的图像浮点特征映射为128维的初始哈希特征,初始哈希特征中的每个元素与图像浮点特征中的4个元素连接,在对初始哈希特征进行量化时,保留前16个数值最高的元素,置为1,其余置为0,获得128维的二值化哈希特征。
12维的图像浮点特征在测试图像集上的平均检索准确率为66.2%。经过优化后的映射矩阵获得的128维的二值化哈希特征,在测试数据上的平均检索准确率为68.2%,相较于图像浮点特征,提升了2%,这表明二值化哈希特征取得了更高的检索准确率。同时,由于二值化哈希特征仅由0和1组成,128维的二值化哈希特征仅占用很少量的空间,而12维的图像浮点特征则需要占用较大空间,因此采用二值化哈希特征进行检索,大大节省了存储空间。
基于相同的发明构思,本申请实施例还提供一种内容检索装置。如图13所示,其为内容检索装置1300的结构示意图,可以包括:
特征提取单元1301,用于提取目标多媒体内容的目标多媒体特征;其中,目标多媒体特征包括多个第一特征元素;
规则获取单元1302,用于获得预设映射规则,预设映射规则是基于多个初始映射规则执行多轮迭代优化过程,直至达到停止条件后,从最新获得的多个优化映射规则中选取的;其中,在每轮迭代优化过程中,基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得多个优化映射规则,若未达到停止条件,则将多个优化映射规则作为下一轮的多个初始映射规则;
映射单元1303,用于基于预设映射规则,将目标多媒体特征进行多次映射处理,获得初始哈希特征;其中,每次映射处理执行以下操作:将多个第一特征元素中的部分第一特征元素,映射为初始哈希特征中的一个第二特征元素;
检索单元1304,用于基于初始哈希特征,在多媒体库中进行检索,获得目标多媒体内容对应的检索结果。
本申请实施例中,基于预设映射规则,将目标多媒体特征映射为初始哈希特征,在映射过程中,使初始哈希特征中的每个第二特征元素,与目标多媒体特征中的部分第一特征元素连接,从而降低哈希映射的计算量,以保证后续检索的效率。同时,本申请实施例为了保证预设映射规则的哈希映射效果,在确定预设映射规则时,基于样本多媒体特征集对多个初始映射规则执行多轮迭代优化过程,最终优化后的预设映射规则,可以使哈希映射后的初始哈希特征最大程度的保留目标多媒体特征的表达能力,因此,基于该初始哈希特征,在多媒体库中进行检索时,可以保证检索结果的准确性。
可选的,基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得多个优化映射规则时,规则获取单元1302具体用于:
针对多个初始映射规则,分别执行以下操作:基于一个初始映射规则,将样本多媒体特征集中的各样本多媒体特征,分别映射为相应的样本哈希特征,并基于获得的各样本哈希特征,确定一个初始映射规则对应的适应度;
基于多个初始映射规则各自对应的适应度,确定多个初始映射规则各自对应的选择概率;
基于多个初始映射规则各自对应的选择概率,从多个初始映射规则中重复选择多次,获得多个候选映射规则;其中,每次从多个初始映射规则中,选择一个初始映射规则作为候选映射规则;
将多个候选映射规则进行更新处理,获得多个优化映射规则。
可选的,基于获得的各样本哈希特征,确定一个初始映射规则对应的适应度时,规则获取单元1302具体用于:
将各样本哈希特征分别进行量化处理,获得各二值化哈希特征,并将各二值化哈希特征分中的一部分二值化哈希特征作为查询特征集合,另一部分二值化哈希特征作为数据库特征集合;
针对各查询特征,分别执行以下操作:基于一个查询特征,从数据库特征集合中执行检索处理,获得相应的检索结果;
基于各查询特征各自对应的标签信息,确定获得的各检索结果的评估指标,将评估指标作为一个初始映射规则的适应度。
可选的,基于各查询特征各自对应的标签信息,确定获得的各检索结果的评估指标时,规则获取单元1302具体用于:
针对各查询特征,分别执行以下操作:基于一个查询特征的标签信息,确定一个查询特征对应的检索结果的检索准确率;
基于各查询特征各自对应的检索结果的检索准确率,获得评估指标。
可选的,基于多个初始映射规则各自对应的适应度,确定多个初始映射规则各自对应的选择概率时,规则获取单元1302具体用于:
针对多个初始映射规则,分别执行以下操作:将一个初始映射规则对应的适应度,与多个初始映射规则各自对应的适应度之和的比值,作为一个初始映射规则对应的选择概率。
可选的,将多个候选映射规则进行更新处理,获得多个优化映射规则时,规则获取单元1302具体用于:
将多个候选映射规则划分为多个样本对,每个样本对包含两个候选映射规则;
针对多个样本对,分别执行以下操作:当基于预设杂交概率,随机确定对一个样本对进行杂交处理时,对于一个样本对包含的两个候选映射规则,将一个候选映射规则中的部分映射参数,与另一个候选映射规则中相应的部分映射参数进行交换,获得杂交后的两个候选映射规则;
基于杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,获得多个优化映射规则。
可选的,基于杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,获得多个优化映射规则时,规则获取单元1302具体用于:
针对杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,分别执行以下操作:对于一个候选映射规则中的每个映射元素,当基于预设变异概率,随机确定对映射参数进行变异处理时,将映射参数由第一数值替换为第二数值,获得变异后的候选映射规则;
将变异后的多个候选映射规则以及未进行变异处理的多个候选映射规则,作为多个优化映射规则。
可选的,装置还包括映射量化单元,用于:
针对多媒体库中包含的各候选多媒体内容,分别执行以下操作:
提取一个候选多媒体内容的候选多媒体特征;
基于预设映射规则,将候选多媒体特征映射为相应的候选哈希特征;
将候选哈希特征进行量化处理,获得一个候选多媒体内容对应的二值化哈希特征。
可选的,检索单元1304具体用于:
将初始哈希特征进行量化处理,获得目标多媒体内容对应的二值化哈希特征;
基于目标多媒体内容对应的二值化哈希特征,与多媒体库中包含的各候选多媒体内容各自对应的二值化哈希特征进行匹配,获得多媒体内容对应的检索结果。
可选的,将初始哈希特征进行量化处理,获得目标多媒体内容对应的二值化哈希特征时,检索单元1304具体用于:
针对初始哈希特征中的多个第二特征元素,分别执行以下操作:
当一个第二特征元素满足预设条件时,将一个第二特征元素设置为第一设定值;
当一个第二特征元素不满足预设条件时,将一个第二特征元素设置为第二设定值。
可选的,一个第二特征元素满足预设条件,包括以下任意一种情况:
一个第二特征元素的数值从高到低排在前N个;其中,N为大于等于1的整数;
一个第二特征元素的数值达到预设阈值。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的内容检索方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。在一种实施例中,该电子设备可以是服务器,如图1所示的服务器120。在该实施例中,电子设备的结构可以如图14所示,包括存储器1401,通讯模块1403以及一个或多个处理器1402。
存储器1401,用于存储处理器1402执行的计算机程序。存储器1401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1401可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1401也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1401是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器1401可以是上述存储器的组合。
处理器1402,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1402,用于调用存储器1401中存储的计算机程序时实现上述内容检索方法。
通讯模块1403用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1401、通讯模块1403和处理器1402之间的具体连接介质。本申请实施例在图14中以存储器1401和处理器1402之间通过总线1404连接,总线1404在图14中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1404可以分为地址总线、数据总线、控制总线等。为便于描述,图14中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器1401中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的内容检索方法。处理器1402用于执行上述的内容检索方法,如图2所示。
在另一种实施例中,电子设备也可以是其他电子设备,如图1所示的终端设备110。在该实施例中,电子设备的结构可以如图15所示,包括:通信组件1510、存储器1520、显示单元1530、摄像头1540、传感器1550、音频电路1560、蓝牙模块1570、处理器1580等部件。
通信组件1510用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,电子设备通过WiFi模块可以帮助用户收发信息。
存储器1520可用于存储软件程序及数据。处理器1580通过运行存储在存储器1520的软件程序或数据,从而执行终端设备110的各种功能以及数据处理。存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1520存储有使得终端设备110能运行的操作系统。本申请中存储器1520可以存储操作系统及各种应用程序,还可以存储执行本申请实施例内容检索方法的计算机程序。
显示单元1530还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元1530可以包括设置在终端设备110正面的显示屏1532。其中,显示屏1532可以采用液晶显示器、发光二极管等形式来配置。显示单元1530可以用于显示本申请实施例中的内容检索客户端的界面等。
显示单元1530还可用于接收输入的数字或字符信息,产生与终端设备110的用户设置以及功能控制有关的信号输入,具体地,显示单元1530可以包括设置在终端设备110正面的触控屏1531,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触控屏1531可以覆盖在显示屏1532之上,也可以将触控屏1531与显示屏1532集成而实现终端设备110的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元1530可以显示应用程序以及对应的操作步骤。
摄像头1540可用于捕获静态图像,用户可以将摄像头1540拍摄的图像通过应用发布。摄像头1540可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1580转换成数字图像信号。
终端设备还可以包括至少一种传感器1550,比如加速度传感器1551、距离传感器1552、指纹传感器1553、温度传感器1554。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路1560、扬声器1561、传声器1562可提供用户与终端设备110之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出。终端设备110还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出至通信组件1510以发送给比如另一终端设备110,或者将音频数据输出至存储器1520以便进一步处理。
蓝牙模块1570用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块1570与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器1580是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1520内的软件程序,以及调用存储在存储器1520内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1580可包括一个或多个处理单元;处理器1580还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1580中。本申请中处理器1580可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的内容检索方法。另外,处理器1580与显示单元1530耦接。
在一些可能的实施方式中,本申请提供的内容检索方法的各个方面还可以实现为一种计算机程序产品的形式,其包括计算机程序,当计算机程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的内容检索方法中的步骤,例如,电子设备可以执行如2中所示的步骤。
计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的计算机程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品,该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种内容检索方法,其特征在于,所述方法包括:
提取目标多媒体内容的目标多媒体特征;其中,所述目标多媒体特征包括多个第一特征元素;
获得预设映射规则,所述预设映射规则是基于多个初始映射规则执行多轮迭代优化过程,直至达到停止条件后,从最新获得的多个优化映射规则中选取的;其中,在每轮迭代优化过程中,基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得多个优化映射规则,若未达到所述停止条件,则将所述多个优化映射规则作为下一轮的多个初始映射规则;
基于所述预设映射规则,将所述目标多媒体特征进行多次映射处理,获得初始哈希特征;其中,每次映射处理执行以下操作:将所述多个第一特征元素中的部分第一特征元素,映射为所述初始哈希特征中的一个第二特征元素;
基于所述初始哈希特征,在多媒体库中进行检索,获得所述目标多媒体内容对应的检索结果。
2.根据权利要求1所述的方法,其特征在于,所述基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得多个优化映射规则,包括:
针对所述多个初始映射规则,分别执行以下操作:基于一个初始映射规则,将所述样本多媒体特征集中的各样本多媒体特征,分别映射为相应的样本哈希特征,并基于获得的各样本哈希特征,确定所述一个初始映射规则对应的适应度;
基于所述多个初始映射规则各自对应的适应度,确定所述多个初始映射规则各自对应的选择概率;
基于所述多个初始映射规则各自对应的选择概率,从所述多个初始映射规则中重复选择多次,获得多个候选映射规则;其中,每次从所述多个初始映射规则中,选择一个初始映射规则作为候选映射规则;
将所述多个候选映射规则进行更新处理,获得所述多个优化映射规则。
3.根据权利要求2所述的方法,其特征在于,所述基于获得的各样本哈希特征,确定所述一个初始映射规则对应的适应度,包括:
将所述各样本哈希特征分别进行量化处理,获得各二值化哈希特征,并将所述各二值化哈希特征分中的一部分二值化哈希特征作为查询特征集合,另一部分二值化哈希特征作为数据库特征集合;
针对各查询特征,分别执行以下操作:基于一个查询特征,从所述数据库特征集合中执行检索处理,获得相应的检索结果;
基于所述各查询特征各自对应的标签信息,确定获得的各检索结果的评估指标,将所述评估指标作为所述一个初始映射规则的适应度。
4.根据权利要求3所述的方法,其特征在于,所述基于所述各查询特征各自对应的标签信息,确定获得的各检索结果的评估指标,包括:
针对所述各查询特征,分别执行以下操作:基于一个查询特征的标签信息,确定所述一个查询特征对应的检索结果的检索准确率;
基于所述各查询特征各自对应的检索结果的检索准确率,获得所述评估指标。
5.根据权利要求2所述的方法,其特征在于,所述基于所述多个初始映射规则各自对应的适应度,确定所述多个初始映射规则各自对应的选择概率,包括:
针对所述多个初始映射规则,分别执行以下操作:将一个初始映射规则对应的适应度,与所述多个初始映射规则各自对应的适应度之和的比值,作为所述一个初始映射规则对应的选择概率。
6.根据权利要求2-5任一项所述的方法,其特征在于,所述将所述多个候选映射规则进行更新处理,获得所述多个优化映射规则,包括:
将所述多个候选映射规则划分为多个样本对,每个样本对包含两个候选映射规则;
针对所述多个样本对,分别执行以下操作:当基于预设杂交概率,随机确定对一个样本对进行杂交处理时,对于所述一个样本对包含的两个候选映射规则,将一个候选映射规则中的部分映射参数,与另一个候选映射规则中相应的部分映射参数进行交换,获得杂交后的两个候选映射规则;
基于杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,获得所述多个优化映射规则。
7.根据权利要求6所述的方法,其特征在于,基于杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,获得所述多个优化映射规则,包括:
针对杂交后的多个候选映射规则以及未进行杂交处理的多个候选映射规则,分别执行以下操作:对于一个候选映射规则中的每个映射元素,当基于预设变异概率,随机确定对所述映射参数进行变异处理时,将所述映射参数由第一数值替换为第二数值,获得变异后的候选映射规则;
将变异后的多个候选映射规则以及未进行变异处理的多个候选映射规则,作为所述多个优化映射规则。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
针对所述多媒体库中包含的各候选多媒体内容,分别执行以下操作:
提取一个候选多媒体内容的候选多媒体特征;
基于所述预设映射规则,将所述候选多媒体特征映射为相应的候选哈希特征;
将所述候选哈希特征进行量化处理,获得所述一个候选多媒体内容对应的二值化哈希特征。
9.根据权利要求8所述的方法,其特征在于,所述基于所述初始哈希特征,在多媒体库中进行检索,获得所述目标多媒体内容对应的检索结果,包括:
将所述初始哈希特征进行量化处理,获得所述目标多媒体内容对应的二值化哈希特征;
基于所述目标多媒体内容对应的二值化哈希特征,与所述多媒体库中包含的各候选多媒体内容各自对应的二值化哈希特征进行匹配,获得所述多媒体内容对应的检索结果。
10.根据权利要求9所述的方法,其特征在于,所述将所述初始哈希特征进行量化处理,获得所述目标多媒体内容对应的二值化哈希特征,包括:
针对所述初始哈希特征中的多个第二特征元素,分别执行以下操作:
当一个第二特征元素满足预设条件时,将所述一个第二特征元素设置为第一设定值;
当所述一个第二特征元素不满足所述预设条件时,将所述一个第二特征元素设置为第二设定值。
11.根据权利要求10所述的方法,其特征在于,所述一个第二特征元素满足预设条件,包括以下任意一种情况:
所述一个第二特征元素的数值从高到低排在前N个;其中,N为大于等于1的整数;
所述一个第二特征元素的数值达到预设阈值。
12.一种内容检索装置,其特征在于,所述装置包括:
特征提取单元,用于提取目标多媒体内容的目标多媒体特征;其中,所述目标多媒体特征包括多个第一特征元素;
规则获取单元,用于获得预设映射规则,所述预设映射规则是基于多个初始映射规则执行多轮迭代优化过程,直至达到停止条件后,从最新获得的多个优化映射规则中选取的;其中,在每轮迭代优化过程中,基于样本多媒体特征集,对本轮的多个初始映射规则进行优化处理,获得多个优化映射规则,若未达到所述停止条件,则将所述多个优化映射规则作为下一轮的多个初始映射规则;
特征映射单元,用于基于所述预设映射规则,将所述目标多媒体特征进行多次映射处理,获得初始哈希特征;其中,每次映射处理执行以下操作:将所述多个第一特征元素中的部分第一特征元素,映射为所述初始哈希特征中的一个第二特征元素;
检索单元,用于基于所述初始哈希特征,在多媒体库中进行检索,获得所述目标多媒体内容对应的检索结果。
13.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~11中任一所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~11中任一所述方法的步骤。
15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行权利要求1~11中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311466332.4A CN117591685A (zh) | 2023-11-06 | 2023-11-06 | 一种内容检索方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311466332.4A CN117591685A (zh) | 2023-11-06 | 2023-11-06 | 一种内容检索方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117591685A true CN117591685A (zh) | 2024-02-23 |
Family
ID=89919230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311466332.4A Pending CN117591685A (zh) | 2023-11-06 | 2023-11-06 | 一种内容检索方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117591685A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118395347A (zh) * | 2024-06-21 | 2024-07-26 | 中国船舶集团有限公司第七〇七研究所 | 一种基于多源数据的无人艇任务决策方法及系统 |
-
2023
- 2023-11-06 CN CN202311466332.4A patent/CN117591685A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118395347A (zh) * | 2024-06-21 | 2024-07-26 | 中国船舶集团有限公司第七〇七研究所 | 一种基于多源数据的无人艇任务决策方法及系统 |
CN118395347B (zh) * | 2024-06-21 | 2024-10-15 | 中国船舶集团有限公司第七〇七研究所 | 一种基于多源数据的无人艇任务决策方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021233199A1 (zh) | 搜索推荐模型的训练方法、搜索结果排序的方法及装置 | |
WO2020228376A1 (zh) | 文本处理方法、模型训练方法和装置 | |
US20210256403A1 (en) | Recommendation method and apparatus | |
WO2022016556A1 (zh) | 一种神经网络蒸馏方法以及装置 | |
CN111667022A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN112801265A (zh) | 一种机器学习方法以及装置 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN114283316A (zh) | 一种图像识别方法、装置、电子设备和存储介质 | |
CN114298122B (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN111143684A (zh) | 基于人工智能的泛化模型的训练方法及装置 | |
CN114329029B (zh) | 对象检索方法、装置、设备及计算机存储介质 | |
WO2021136058A1 (zh) | 一种处理视频的方法及装置 | |
CN117591685A (zh) | 一种内容检索方法、装置、电子设备和存储介质 | |
CN114358109A (zh) | 特征提取模型训练、样本检索方法、装置和计算机设备 | |
CN115879508A (zh) | 一种数据处理方法及相关装置 | |
CN115600017A (zh) | 特征编码模型训练方法及装置、媒体对象推荐方法及装置 | |
CN117009650A (zh) | 一种推荐方法以及装置 | |
CN118246537A (zh) | 基于大模型的问答方法、装置、设备及存储介质 | |
KR20220018633A (ko) | 이미지 검색 방법 및 장치 | |
CN112800253B (zh) | 数据聚类方法、相关设备及存储介质 | |
WO2024114659A1 (zh) | 一种摘要生成方法及其相关设备 | |
CN113343020A (zh) | 基于人工智能的图像处理方法、装置及电子设备 | |
CN116361643A (zh) | 实现对象推荐的模型训练方法及对象推荐方法及相关装置 | |
CN115905680A (zh) | 一种推荐方法及相关装置 | |
CN114610922A (zh) | 图像处理方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |