CN112650863A - 跨媒介数据融合的方法、装置及存储介质 - Google Patents

跨媒介数据融合的方法、装置及存储介质 Download PDF

Info

Publication number
CN112650863A
CN112650863A CN202011392057.2A CN202011392057A CN112650863A CN 112650863 A CN112650863 A CN 112650863A CN 202011392057 A CN202011392057 A CN 202011392057A CN 112650863 A CN112650863 A CN 112650863A
Authority
CN
China
Prior art keywords
quantization
point type
range
vector set
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011392057.2A
Other languages
English (en)
Inventor
徐�明
刘强
何潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen ZNV Technology Co Ltd
Original Assignee
Shenzhen ZNV Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen ZNV Technology Co Ltd filed Critical Shenzhen ZNV Technology Co Ltd
Priority to CN202011392057.2A priority Critical patent/CN112650863A/zh
Publication of CN112650863A publication Critical patent/CN112650863A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种跨媒介数据融合的方法、装置以及存储介质,包括:获取跨媒介数据集;对跨媒介数据集中的数据进行深度学习,得到浮点型特征向量集合;获取浮点型特征向量集合中数值的取值范围,根据取值范围,确定量化范围,其中量化范围小于等于浮点型特征向量集合中数值的取值范围;根据量化范围,采用非均匀量化的方式将浮点型特征向量集合量化为整数型特征向量集合;确定整数型特征向量集合中特征向量之间的相似度,根据相似度对特征向量进行融合,通过采用非均匀量化的方式将浮点型特征向量集合量化为整数型特征向量集合,用更高分辨率去表示聚集了更多的数值的中间区域,使量化后的结果更加精确。

Description

跨媒介数据融合的方法、装置及存储介质
技术领域
本发明涉及跨媒体智能技术领域,具体涉及一种跨媒介数据融合的方法、装置及存储介质。
背景技术
跨媒介数据是由不同系统与设备采集,用于不同应用场景的数据,例如在智能安防及社会治理等行业,各种物联网信息采集设备采集了大量视频、音频、图片、文本等数据,这些多种形态、来源和属性的跨媒介数据在语义层面上存在很强的关联性,可形象地表达事物的综合性知识,反映各物理世界的行为,是一种新的媒介表现形式。
在使用这些大量跨媒介数据时,需要对数据进行高效关联与计算,以挖掘及推理出隐藏在其背后的知识。现有技术常通过对大量跨媒介数据进行深度学习得到高维特征向量,并通过相似度计算将这些高维特征向量进行融合来实现数据的关联。
由于跨媒介数据学习得到的高维特征向量的数值类型为浮点型,维度从数百维到数千维不等,为了减小计算量,在计算高维特征向量相似度之前,需先将浮点型的高维特征向量量化为整数型的高维特征向量,现有的量化方法是通过把浮点型高维特征向量的数值范围通过线性变换的方式直接映射为整数型高维特征向量,这种方法并没有考虑到高维特征向量的分布情况,而是事先假设其为均匀分布,这样的量化方式存在较大精确度损失。通过大量的工程实践发现大部分跨媒介数据深度学习后得到的高维特征向量的分布如图1所示,图1为通过对人脸图像进行深度学习后生成的特征向量统计图,其与正态分布较为接近,由于这些高维特征向量的值服从类正态分布,在一个方差内的数值占比往往达到70%~90%左右,若使用同样的量化分辨率对浮点型高维特征向量的数值范围中的“长尾”数据与1个方差内的数据进行量化,会造成量化准确度降低的问题。
发明内容
本发明主要解决的技术问题是如何高准确率地将浮点型特征向量量化为整数型特征向量。
根据第一方面,一种实施例中提供一种跨媒介数据融合的方法,包括:
获取跨媒介数据集;
对跨媒介数据集中的数据进行深度学习,得到浮点型特征向量集合;
获取浮点型特征向量集合中数值的取值范围,根据取值范围,确定量化范围,其中量化范围小于等于浮点型特征向量集合中数值的取值范围;
根据量化范围,采用非均匀量化的方式将浮点型特征向量集合量化为整数型特征向量集合;
确定整数型特征向量集合中特征向量之间的相似度,根据相似度对特征向量进行融合。
优选地,获取浮点型特征向量集合中数值的取值范围包括:
从浮点型特征向量集合中选取至少部分特征向量组成校准数据集合;
确定校准数据集合中数值的取值范围,将校准数据集合中数值的取值范围作为浮点型特征向量集合中数值的取值范围。
优选地,根据取值范围,确定量化范围包括:
步骤1,根据取值范围,将校准数据集合中的浮点型特征向量中的数值统计为第一分布直方图,第一分布直方图通过第一分布函数P进行表示;
步骤2,设置阈值t,将第一分布直方图中数值大小的绝对值超过阈值t的数值替换为阈值t,以非均匀量化的方式统计为第二分布直方图,第二分布直方图通过第二分布函数Qt表示;其中阈值t的取值包含在校准数据集合中浮点型特征向量中数值的取值范围内;计算第二分布函数Qt与第一分布函数P的相对熵;
步骤3,重复步骤2,得到多个相对熵,将多个相对熵中最小相对熵对应的阈值t作为截断阈值T;
步骤4,采用截断阈值T对浮点型特征向量集合中数值的取值范围进行截取,得到量化范围[-|T|,|T|]。
优选地,根据量化范围,采用非均匀量化的方式将浮点型特征向量集合量
化为整数型特征向量集合包括:
根据量化范围,采用22b曲线对浮点型特征向量集合进行非均匀量化,得到整数型特征向量集合;其中,b为预设的量化比特数。
优选地,将多个相对熵中最小相对熵对应的阈值t作为截断阈值T之后,还
包括:
根据所述截断阈值T确定非均匀量化的量化缩放因子a。
优选地,采用非均匀量化的方式将浮点型特征向量集合量化为整数型特征向量集合包括:
通过以下公式将浮点型特征向量集合量化为整数型特征向量集合:
Figure BDA0002811216850000031
其中,Qp(a,b)为量化函数,a为量化缩放因子,b为量化比特数。
优选地,通过以下公式得到量化缩放因子a:
Figure BDA0002811216850000032
优选地,b=4。
根据第二方面,一种实施例中提供一种跨媒介数据融合的装置,包括:
获取模块,用于获取跨媒介数据集;
学习模块,用于对跨媒介数据集中的数据进行深度学习,得到浮点型特征向量集合;
获取量化范围模块,用于获取浮点型特征向量集合中数值的取值范围,根据取值范围,确定量化范围,其中量化范围小于等于浮点型特征向量集合中数值的取值范围;
非均匀量化模块,用于根据量化范围,采用非均匀量化的方式将浮点型特征向量集合量化为整数型特征向量集合;
数据融合模块,用于确定整数型特征向量集合中特征向量之间的相似度,根据相似度对特征向量进行融合。
根据第二方面,一种实施例中提供一种计算机可读存储介质,包括程序,程序能够被处理器执行以实现上述第一方面任一项方法。
依据上述实施例的跨媒介数据融合方法、装置和存储介质,由于采用非均匀量化的方式将浮点型特征向量集合量化为整数型特征向量集合,用更高分辨率去表示聚集了更多的数值的中间区域,用较低的分辨率去表示“长尾”数据,使量化后的准确度更高。
附图说明
图1为一实施例提供的特征向量统计图;
图2为本发明一实施例提供的跨媒介数据融合方法的流程图;
图3为本发明一实施例提供的确定量化范围的方法流程图;
图4为本发明一实施例提供的非均匀量化函数图;
图5为本发明一实施例提供的量化范围示意图;
图6为本发明另一实施例提供的量化范围示意图;
图7为本发明一实施例提供的跨媒介数据融合装置的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
跨媒介数据,又称跨媒体数据,是指不同传感设备所采集的数据,例如相机所采集的图像数据、麦克风所采集的音频数据、传感器所采集的电压或电流波形数据等,通过不同传感设备所获取的跨媒介数据数量非常大,计算这些海量跨媒介数量之间的关联,将关联度高的跨媒介数据归为一个语义类别的过程为跨媒介数据的融合,这样可方便人们对海量跨媒介数据的语义内容进行分析、存储和检索。
跨媒介数据在多个领域均有涉及,尤其在智能安防及社会治理领域中,需大量依赖摄像头捕捉视频、抓怕图像数据以及射频设备捕捉手机的相关信息数据,在智能安防及社会治理中跨媒介数据的融合过程在后台服务器中进行,本实施例以智能安防及社会治理领域中后台服务器对跨媒介数据融合的过程为例进行说明。
量化,量化是指将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程。按照量化级的划分方式分,有均匀量化和非均匀量化。非均匀量化的输入动态范围的划分不均匀,一般用类似指数的曲线进行量化。
实施例一:
请参考图2,图2为本实施例提供的跨媒介数据融合方法的流程图,包括以下步骤:
S201,获取跨媒介数据集。
服务器从摄像头、射频设备和传感器等传感采集设备中获取其所采集的大量跨媒介数据,跨媒介数据包括但不限于视频、图像、音频、波形和文本等数据,这些大量的跨媒介数据组成跨媒介数据集,其中视频、图像数据可通过摄像头、相机等设备进行采集,音频数据可通过麦克风等音频采集设备进行获取,波形数据可通过传感设备来采集,文本数据则可通过手机、个人电脑等设备进行获取。
跨媒介数据集中的数据被人们所利用需要先对数据进行关联分类,将同属于一个语义类别的数据归为一个类别,并对该语义类别打上对应的语义标签,以方便数据维护人员对大量的跨媒介数据进行分析、存储,建立对应类别的检索索引,方便用户对大量的跨媒介数据进行检索。
S202,进行深度学习得到浮点型特征向量集合。
服务器对所获取的大量跨媒介数据进行深度学习,以产生大量的高维特征向量,该特征向量中的数值类型为浮点型,维数多为数百维到数千维的高维数,这些大量的特征向量组成了浮点型特征向量集合,例如常见的由跨媒介数据产生的特征向量中的数值类型为Float32。
需要说明的是,在对跨媒介数据进行融合时,需要先计算这些浮点型特征向量之间的相似度,以确定跨媒介数据之间的关联性,由于跨媒介数据的数量非常多,导致其产生的特征向量的数量也非常多,为了减小计算量,更有利于服务器的硬件性能,在计算特征向量之间相似度之前,应先将浮点型特征向量进行量化,转换为整数型特征向量。
S203,获取浮点型特征向量集合中数值的取值范围,确定量化范围。
服务器获取浮点型特征向量集合中数值的取值范围,根据取值范围,确定量化范围,其中,量化范围可以小于浮点型特征向量集合中数值的取值范围,也可以等于浮点型特征向量集合中数值的取值范围,本实施例以前者为例进行说明。
本实施例中,量化范围缩小了浮点型特征向量量化为整数型特征向量的数值范围。量化范围与量化精度(分辨率)成反比,因此,缩小浮点型特征向量集合中数值的取值范围可以提高量化精度。
由于从各种传感设备获取的跨媒介数据的数量非常大,因此通过对其深度学习生成的浮点型特征向量的数量也非常大,为了简化计算,本实施例从浮点型特征向量集合中选取部分特征向量组成校准数据集合;确定校准数据集合中数值的取值范围,将校准数据集合中数值的取值范围作为浮点型特征向量集合中数值的取值范围。
本实施例中校准数据集合中浮点型特征向量的数量为浮点型特征向量集合中特征向量数量的20%,也就是随机抽取20%的特征向量作为校准数据集。
在其他实施例中,也可以随机抽取其他任意比例(可以是100%)的特征向量作为校准数据集。
请参考图3,图3为本实施例提供的确定量化范围的方法流程图,包括以下步骤:
S2031,从浮点型特征向量集合中选取至少部分特征向量组成校准数据集合。
从大量浮点型特征向量组成的浮点型特征向量集合中选取至少部分浮点型特征向量作为校准数据集合,即,可以选择将大量浮点型特征向量组成的浮点型特征向量集合作为校准数据集合;也可以选择从大量浮点型特征向量组成的浮点型特征向量集合中选取部分浮点型特征向量作为校准数据集合。
S2032,确定校准数据集合中的数值范围,生成第一分布直方图。
确定校准数据集合中浮点型特征向量中数值的取值范围,例如取值范围为[-|Max|,|Max|],根据该取值范围将校准数据集合中的浮点型特征向量中的数值统计为第一分布直方图,第一分布直方图通过第一分布函数P进行表示。
本实施例中的第一分布直方图的横坐标用于表示浮点型特征向量中数值的大小,横坐标x的取值范围为校准数据集合中浮点型特征向量中数值的取值范围[-|Max|,|Max|],横坐标的取值范围可被分为N个量化级(如217个量化级),每个量化级均表示一个整数型的数值大小,第一分布直方图的竖坐标用于表示每个量化级上浮点型特征向量中数值的数量,该第一分布直方图可通过第一分布函数P进行表示,即P(x)表示x量化级上浮点型特征向量中数值的数量。
S2033,设置阈值t,将第一分布直方图中数值大小的绝对值超过阈值t的数值替换为阈值t,以非均匀量化的方式统计为第二分布直方图,计算第二分布函数与第一分布函数的相对熵。
随机设置多个阈值t,阈值t的取值包含在校准数据集合中浮点型特征向量中数值的取值范围内,也就是t∈[-|Max|,|Max|],在一种实施方式下可在取值范围[-|Max|,|Max|]中遍历阈值t,将第一分布直方图中横坐标上数值大小的绝对值超过阈值t的量化级的数值替换为阈值t,这样就缩小了第一分布直方图中横坐标的取值范围,也缩小了量化范围,即,可得到第二分布直方图,第二分布直方图中横坐标的范围为[-|t|,|t|],第二分布直方图与第一分布直方图相同,其横坐标也用于表示浮点型特征向量中数值的大小,横坐标的取值范围可被分为M个量化级(如16个量化级),每个量化级均表示一个整数型的数值大小,第二分布直方图的竖坐标用于表示每个量化级上浮点型特征向量中数值的数量,该第二分布直方图可通过第二分布函数Qt进行表示,即Qt(x)表示x量化级上浮点型特征向量中数值的数量。计算第二分布函数Qt与第一分布函数P的相对熵。
参考图4,图4为一实施例提供的非均匀量化函数图。本实施例中,采用22b曲线对该浮点型特征向量集合进行非均匀量化,以统计为第二分布直方图,其中,b为预设的量化比特数,例如,b为4。非均匀量化中,直方图的桶的长度(直方图的bin大小)对应着分辨率,最小bin对应着最小分辨率。
分辨率的计算公式可以如下式所示:
bin_len[0]=t>>(2b-1)
bin_len[n]=bin_len[0]<<n
其中,b=4,bin_len[0]为最小桶的长度,t为阈值,n为横坐标取值范围的量化级的排序,bin_len[n]为第n个量化级的桶的长度,上述公式中,量化分辨率按照2的倍数递减,符合图4的非均匀量化函数。
S2034,若阈值t满足相对熵最小,则将相对熵最小对应的阈值t作为截断阈值T。
根据设置的多个阈值t所得到多个相对熵,即重复步骤S2033,将多个相对熵中最小相对熵对应的阈值t作为截断阈值T。
本实施例中,通过以下公式计算第二分布函数Qt与第一分布函数P的相对熵:
Figure BDA0002811216850000071
其中,KL(P||Qt)为第二分布函数Qt与第一分布函数P的相对熵。
由于第一分布直方图和第二分布直方图横坐标的长度不同,在本实施例计算第二分布函数Qt与第一分布函数P的相对熵前,需先将第二分布直方图横坐标的长度扩展到与第一分布直方图横坐标长度相同,并且,本实施例中,以非均匀量化的方式统计为第二分布直方图。
S2035,截断阈值T对浮点型特征向量集合中数值的取值范围进行截取,得到量化范围[-|T|,|T|]。
S204,采用非均匀量化的方式将该浮点型特征向量集合量化为整数型特征向量集合。
本实施例中,根据量化范围[-|T|,|T|],采用非均匀量化的方式将该浮点型特征向量集合量化为整数型特征向量集合。
现有技术中的量化范围是根据所有浮点型特征向量中数值的绝对值最大值来获取量化范围的,例如浮点型特征向量中数值的最大值为Max,则量化范围为[-|Max|,|Max|],如图5所示,浮点型特征向量呈现“长尾”或“振铃”现象,在这些大量浮点型特征向量中很大可能存在极个别数值大小非常大的数值,而大部分数值的大小都远远小于量化范围[-|Max|,|Max|],由于量化时量化范围与量化精度是成反比的,量化范围越大,量化精度越低,因此上述这种大的量化范围[-|Max|,|Max|]会造成量化精度较低,通过分析可知,在大量浮点型特征向量中只有极个别数值的大小处于较大值,大部分数值的大小均在一个较小范围内,因此本实施例通过确定截断阈值T将这些极个别的较大数值替换为截断阈值T,如图6所示,将量化范围缩小到[-|T|,|T|],减小了量化范围,同时提高了量化的精度。
又由于所获取的高维特征向量的值服从类正太分布,正太分布在一个方差内的数值占比往往达到70%~90%左右,因此,用同样的量化分辨率对“长尾”数据与1个方差内的数据进行均匀量化不是最优方案,所以,本实施例采用非均匀量化的方式,用更高分辨率去表示聚集了更多的数值的中间区域,使量化后的结果更加精确。
本实施例通过以下公式,将浮点型特征向量集合量化为整数型特征向量集合:
Figure BDA0002811216850000081
其中,Qp(a,b)为量化函数,a为量化缩放因子,b为量化比特数。
需要说明的是,上述量化函数公式的比特操作表示方法包括:
Figure BDA0002811216850000082
这里,x为INT4类型,r为将要进行移位的对象(本实施例中,r即是量化缩放因子a),需要说明的是,选取非均匀22b的量化方法,也就是22b(可以理解为x为2b)和一个数r相乘,因为2的x次方和r相乘实际上是对r做位移,其可以在一个时钟周期结束运算。
其中,非均匀量化的比特数b=4,方便于现有处理器运算。
其中,量化缩放因子a通过截断阈值T得到,该量化缩放因子可用于浮点型特征向量和整数型特征向量之间的量化和反量化,公式为:
Figure BDA0002811216850000091
例如本实施例中b=4,量化后的整数型特征向量的数值类型为INT4,
Figure BDA0002811216850000092
S205,确定相似度,对特征向量进行融合。
在服务器中确定整数型特征向量集合中特征向量之间的相似度,根据相似度对特征向量进行融合。本实施例通过现有的相似度计算方法来计算特征向量之间的相似度,例如欧式距离、余弦距离等,通过设置相似度阈值,若特征向量之间的相似度大于相似度阈值,则属于同一语义类别,将同一语义类别的特征向量进行特征融合,得到了同一语义类别中各个特征之间的关联关系,也就是各个跨媒介数据之间的关联关系,推理出隐藏在其背后的信息,以实现后期对跨媒介数据的分析、存储和检索。语义类别指的是按语义关系划分的语言表达式的类,如,同一个人的语义表达的高维特征向量表示了同一个人在不同媒体形态下获取的信息。例如,一个目标实体有多种数据表现形式,如人这一实体,其表现形式包括视频中的人体、图片中的人脸、音频中的声音以及数据库中的身份信息等不同媒体形态所获取的数据信息,这些数据都是非结构数据,通过对这些非结构数据采用上述跨媒介数据融合的方法,进行了融合,得到了属于同一目标实体也就是属于同一个人的视频、图像、音频、波形和文本等跨媒介数据,也就是得到同一语义类别的高维特征数据,即可构建出物理世界的同一语义表达,实现了跨数据融合,进而可将融合后的数据显示、输出、存储等,用户即可得到目标实体的各个跨媒介数据。可见,上述方法可应用在多源异构大数据的融合等领域,可很好的适应电信、泛在电力物联网、智能安防等行业的需求。例如,特征向量进行融合之后,可接收目标实体的一跨媒介数据(如图像),在融合后的数据中查找与该图像关联的其他跨媒介数据并将查找到的关联的跨媒介数据显示出来,如此极大的提高了对目标实体信息的获取速度。
本实施例通过采用
Figure BDA0002811216850000093
这一非均匀的量化函数将高维特征向量量化为整数型特征向量,由于分辨率是由量化比特决定的,其量化比特b为4,使得用更少的比特(4比特)表述了高维特征向量(4比特的整数类型,其优点相对与Float32类型,其存储单元大小只有其八分之一,针对于GPU运行并行度更高),并且在量化过程中,通过移位即可实现量化分辨率以倍数递增或递减,使得量化过程在硬件上非常高效,因此,通过本申请的非均匀量化方法不仅用更少的比特精确的表示特征向量的数值,同时也能极大的提升计算与存储效率。
实施例二:
请参考图7,图7为本实施例提供的跨媒介数据融合装置的结构示意图,包括:获取模块701、学习模块702、获取量化范围模块703、非均匀量化模块704以及数据融合模块705。
获取模块701,用于获取跨媒介数据集。
本实施例中的获取模块701从摄像头、射频设备和传感器等传感采集设备中获取其所采集的大量跨媒介数据,该跨媒介数据包括但不限于视频、图像、音频、波形和文本等数据。
学习模块702,用于对该跨媒介数据集中的数据进行深度学习,得到浮点型特征向量集合。跨媒介数据经过深度学习后产生实体属性和高维特征向量,该高维特征向量的数值类型为浮点型,维数多为数百维到数千维的高维数,例如常见的浮点型特征向量的数值类型为Float32。
无论是对跨媒介数据进行分类或是融合,都需要计算特征向量之间的相似度,由于浮点型特征向量在计算相似度时,计算量过大,会占据较大服务器硬件资源,因此需先将浮点型特征向量量化为整数型特征向量。
获取量化范围模块703,用于获取浮点型特征向量集合中数值的取值范围,根据该取值范围,确定量化范围,其中量化范围小于等于浮点型特征向量集合中数值的取值范围。
非均匀量化模块704,用于根据该量化范围,采用非均匀量化的方式将该浮点型特征向量集合量化为整数型特征向量集合。
由于所获取的高维特征向量的值服从类正太分布,正太分布在一个方差内的数值占比往往达到70%~90%左右,因此,用同样的量化分辨率对“长尾”数据与1个方差内的数据进行均匀量化不是最优方案,所以,本实施例采用非均匀量化方式,用更高分辨率去表示聚集了更多的数值的中间区域,使量化后的结果更加精确。
数据融合模块705,用于确定整数型特征向量集合中特征向量之间的相似度,根据相似度对特征向量进行融合。
本实施例提供的跨媒介数据融合装置可用于执行图2对应的方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在一种实施例中,该获取浮点型特征向量集合中数值的取值范围包括:从浮点型特征向量集合中选取至少部分特征向量组成校准数据集合;确定校准数据集合中数值的取值范围,将校准数据集合中数值的取值范围作为浮点型特征向量集合中数值的取值范围。
在一种实施例中,该获取量化范围模块703包括:
根据该取值范围,将校准数据集合中的浮点型特征向量中的数值统计为第一分布直方图,该第一分布直方图通过第一分布函数P进行表示;
设置阈值t,将第一分布直方图中数值大小的绝对值超过阈值t的数值替换为阈值t,以非均匀量化的方式统计为第二分布直方图,该第二分布直方图通过第二分布函数Qt表示;其中阈值t的取值包含在校准数据集合中浮点型特征向量中数值的取值范围内;计算第二分布函数Qt与第一分布函数P的相对熵;
重复步骤2,得到多个相对熵,将多个相对熵中最小相对熵对应的阈值t作为截断阈值T;
采用截断阈值T对浮点型特征向量集合中数值的取值范围进行截取,得到量化范围[-|T|,|T|]。
在一种实施例中,非均匀量化模块704包括:根据该量化范围,采用曲线对该浮点型特征向量集合进行非均匀量化,得到整数型特征向量集合;其中,b为预设的量化比特数。
在一种实施例中,非均匀量化模块704还包括:根据截断阈值T确定非均匀量化的量化缩放因子。
在一种实施例中,非均匀量化模块704包括:通过以下公式将该浮点型特征向量集合量化为整数型特征向量集合:
Figure BDA0002811216850000111
其中,Qp(a,b)为量化函数,a为量化缩放因子,b为量化比特数。
在一种实施例中,通过以下公式得到量化缩放因子a:
Figure BDA0002811216850000112
在一种实施例中,b=4。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (10)

1.一种跨媒介数据融合的方法,其特征在于,包括:
获取跨媒介数据集;
对所述跨媒介数据集中的数据进行深度学习,得到浮点型特征向量集合;
获取浮点型特征向量集合中数值的取值范围,根据所述取值范围,确定量化范围,其中量化范围小于等于浮点型特征向量集合中数值的取值范围;
根据所述量化范围,采用非均匀量化的方式将所述浮点型特征向量集合量化为整数型特征向量集合;
确定所述整数型特征向量集合中特征向量之间的相似度,根据相似度对特征向量进行融合。
2.如权利要求1所述的方法,其特征在于,所述获取浮点型特征向量集合中数值的取值范围包括:
从浮点型特征向量集合中选取至少部分特征向量组成校准数据集合;
确定所述校准数据集合中数值的取值范围,将所述校准数据集合中数值的取值范围作为浮点型特征向量集合中数值的取值范围。
3.如权利要求2所述的方法,其特征在于,所述根据所述取值范围,确定量化范围包括:
步骤1,根据所述取值范围,将所述校准数据集合中的浮点型特征向量中的数值统计为第一分布直方图,所述第一分布直方图通过第一分布函数P进行表示;
步骤2,设置阈值t,将所述第一分布直方图中数值大小的绝对值超过阈值t的数值替换为阈值t,以非均匀量化的方式统计为第二分布直方图,所述第二分布直方图通过第二分布函数Qt表示;其中阈值t的取值包含在校准数据集合中浮点型特征向量中数值的取值范围内;计算第二分布函数Qt与第一分布函数P的相对熵;
步骤3,重复步骤2,得到多个相对熵,将多个相对熵中最小相对熵对应的阈值t作为截断阈值T;
步骤4,采用截断阈值T对浮点型特征向量集合中数值的取值范围进行截取,得到量化范围[-|T|,|T|]。
4.如权利要求3所述的方法,其特征在于,所述根据所述量化范围,采用非均匀量化的方式将所述浮点型特征向量集合量化为整数型特征向量集合包括:
根据所述量化范围,采用
Figure FDA0002811216840000011
曲线对所述浮点型特征向量集合进行非均匀量化,得到整数型特征向量集合;其中,b为预设的量化比特数。
5.如权利要求3所述的方法,其特征在于,根据所述将多个相对熵中最小相对熵对应的阈值t作为截断阈值T之后,还包括:
根据所述截断阈值T确定非均匀量化的量化缩放因子a。
6.如权利要求5所述的方法,其特征在于,所述采用非均匀量化的方式将所述浮点型特征向量集合量化为整数型特征向量集合包括:
通过以下公式将所述浮点型特征向量集合量化为整数型特征向量集合:
Figure FDA0002811216840000021
其中,Qp(a,b)为量化函数,a为量化缩放因子,b为量化比特数。
7.如权利要求6所述的方法,其特征在于,通过以下公式得到量化缩放因子a:
Figure FDA0002811216840000022
8.如权利要求4或6所述的方法,其特征在于,所述b=4。
9.一种跨媒介数据融合的装置,其特征在于,包括:
获取模块,用于获取跨媒介数据集;
学习模块,用于对所述跨媒介数据集中的数据进行深度学习,得到浮点型特征向量集合;
获取量化范围模块,用于获取浮点型特征向量集合中数值的取值范围,根据所述取值范围,确定量化范围,其中量化范围小于等于浮点型特征向量集合中数值的取值范围;
非均匀量化模块,用于根据所述量化范围,采用非均匀量化的方式将所述浮点型特征向量集合量化为整数型特征向量集合;
数据融合模块,用于确定整数型特征向量集合中特征向量之间的相似度,根据相似度对特征向量进行融合。
10.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1-8中任一项所述的方法。
CN202011392057.2A 2020-12-01 2020-12-01 跨媒介数据融合的方法、装置及存储介质 Pending CN112650863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011392057.2A CN112650863A (zh) 2020-12-01 2020-12-01 跨媒介数据融合的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011392057.2A CN112650863A (zh) 2020-12-01 2020-12-01 跨媒介数据融合的方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112650863A true CN112650863A (zh) 2021-04-13

Family

ID=75350360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011392057.2A Pending CN112650863A (zh) 2020-12-01 2020-12-01 跨媒介数据融合的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112650863A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647649A (zh) * 2019-09-29 2020-01-03 腾讯云计算(北京)有限责任公司 特征检索方法、装置及存储介质
CN110799994A (zh) * 2017-08-14 2020-02-14 美的集团股份有限公司 神经网络的自适应位宽缩减
CN111384975A (zh) * 2018-12-29 2020-07-07 泰斗微电子科技有限公司 多进制ldpc解码算法的优化方法、装置及解码器
CN111384974A (zh) * 2018-12-29 2020-07-07 泰斗微电子科技有限公司 多进制ldpc码的置信度量化方法、装置及解码器
CN111611450A (zh) * 2020-05-12 2020-09-01 深圳力维智联技术有限公司 跨媒介数据融合方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110799994A (zh) * 2017-08-14 2020-02-14 美的集团股份有限公司 神经网络的自适应位宽缩减
CN111384975A (zh) * 2018-12-29 2020-07-07 泰斗微电子科技有限公司 多进制ldpc解码算法的优化方法、装置及解码器
CN111384974A (zh) * 2018-12-29 2020-07-07 泰斗微电子科技有限公司 多进制ldpc码的置信度量化方法、装置及解码器
CN110647649A (zh) * 2019-09-29 2020-01-03 腾讯云计算(北京)有限责任公司 特征检索方法、装置及存储介质
CN111611450A (zh) * 2020-05-12 2020-09-01 深圳力维智联技术有限公司 跨媒介数据融合方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Duan et al. Overview of the MPEG-CDVS standard
CN111460153B (zh) 热点话题提取方法、装置、终端设备及存储介质
CN103678702A (zh) 视频去重方法及装置
CN104050247A (zh) 实现海量视频快速检索的方法
JP2014505313A (ja) 類似画像を識別する方法および装置
CN111683274B (zh) 弹幕广告展示方法、装置、设备及计算机可读存储介质
CN111382620B (zh) 视频标签添加方法、计算机存储介质和电子设备
CN112667979B (zh) 密码生成方法及装置、密码识别方法及装置、电子设备
CN112580805A (zh) 神经网络模型的量化方法和量化神经网络模型的装置
CN115391578A (zh) 一种跨模态图文检索模型训练方法及系统
CN115168537B (zh) 语义检索模型的训练方法、装置、电子设备及存储介质
CN111611450A (zh) 跨媒介数据融合方法、装置及存储介质
Tan et al. Beyond visual retargeting: A feature retargeting approach for visual recognition and its applications
CN111767419A (zh) 图片搜索方法、装置、设备及计算机可读存储介质
WO2021103594A1 (zh) 一种默契度检测方法、设备、服务器及可读存储介质
Yang et al. Approaching optimal embedding in audio steganography with GAN
CN110135465B (zh) 模型参数表示空间大小估计方法及装置、推荐方法
CN117113174A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN112650863A (zh) 跨媒介数据融合的方法、装置及存储介质
CN116226533A (zh) 基于关联性预测模型的新闻关联推荐方法、装置及介质
KR102526263B1 (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
CN112100412B (zh) 图片检索方法、装置、计算机设备和存储介质
CN104850600A (zh) 一种用于搜索包含人脸的图片的方法和装置
CN111090743B (zh) 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
JP2017054438A (ja) 画像認識装置、方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination