CN111611450B

CN111611450B - 跨媒介数据融合方法、装置及存储介质

Info

Publication number: CN111611450B
Application number: CN202010397202.XA
Authority: CN
Inventors: 刘强; 朱金华; 吕长宝; 邵新庆; 徐�明
Original assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2023-06-13
Anticipated expiration: 2040-05-12
Also published as: CN111611450A

Abstract

本发明公开了一种跨媒介数据融合方法、装置及存储介质，包括：获取跨媒介数据集，并对跨媒介数据集中的数据进行深度学习，得到浮点型特征向量集合；获取浮点型特征向量集合中数值的取值范围，根据取值范围，确定量化范围，其中量化范围小于等于浮点型特征向量集合中数值的取值范围；根据量化范围，将浮点型特征向量集合量化为整数型特征向量集合；确定整数型特征向量集合中特征向量之间的相似度，根据相似度对特征向量进行融合。通过对跨媒介数据进行学习得到浮点型特征向量，在将浮点型特征向量量化为整数型特征向量时，通过选取合适的截断阈值T，缩小量化时特征向量的数值范围，提高了量化的精度。

Description

跨媒介数据融合方法、装置及存储介质

技术领域

本发明涉及跨媒体智能技术领域，具体涉及一种跨媒介数据融合方法、装置及存储介质。

背景技术

跨媒介数据是由不同系统与设备采集，用于不同应用场景的数据，例如在智能安防及社会治理等行业，各种物联网信息采集设备采集了大量视频、音频、图片、文本等数据，这些多种形态、来源和属性的跨媒介数据在语义层面上存在很强的关联性，可形象地表达事物的综合性知识，反映各物理世界的行为，是一种新的媒介表现形式。

在使用这些大量跨媒介数据时，需要对数据进行高效关联与计算，以挖掘及推理出隐藏在其背后的知识。现有技术常通过对大量跨媒介数据进行深度学习得到高维特征向量，并通过相似度计算将这些高维特征向量进行融合来实现数据的关联。

由于跨媒介数据学习得到的高维特征向量的数值类型为浮点型，维度从数百维到数千维不等，为了减小计算量，在计算高维特征向量相似度之前，需先将浮点型的高维特征向量量化为整数型的高维特征向量，现有的量化方法是通过把浮点型高维特征向量的数值范围通过线性变换的方式直接映射为整数型高维特征向量，这种方法并没有考虑到高维特征向量的分布情况，事先假设其为均匀分布，这样的量化方式存在较大精度损失。通过大量的工程实践发现大部分跨媒介数据学习得到的高维特征向量的分布往往呈现“长尾”或“振铃”现象，如图7所示为通过对人脸图像进行深度学习后生成的特征向量统计图，其与正态分布较为接近，也就是说，若按照浮点型高维特征向量的数值范围直接进行量化，会存在少数异常的最大值数值增大数值范围，造成量化精度降低的问题。

发明内容

本发明主要解决的技术问题是如何高精度地将浮点型特征向量量化为整数型特征向量。

根据第一方面，一种实施例中提供一种跨媒介数据融合方法,包括：

获取跨媒介数据集，并对所述跨媒介数据集中的数据进行深度学习，得到浮点型特征向量集合；

获取浮点型特征向量集合中数值的取值范围，根据取值范围，确定量化范围，其中量化范围小于等于浮点型特征向量集合中数值的取值范围；

根据量化范围，将所述浮点型特征向量集合量化为整数型特征向量集合；

确定整数型特征向量集合中特征向量之间的相似度，根据相似度对特征向量进行融合。

进一步地，所述跨媒介数据集中的数据为视频、图像、音频、波形和文本中的至少一种。

进一步地，所述获取浮点型特征向量集合中数值的取值范围包括：

从浮点型特征向量集合中选取部分特征向量组成校准数据集合；

确定校准数据集合中数值的取值范围，将校准数据集合中数值的取值范围作为浮点型特征向量集合中数值的取值范围。

进一步地，所述校准数据集合中特征向量数量的最优值为浮点型特征向量集合中特征向量数量的20％。

进一步地，所述根据取值范围，确定量化范围包括：

确定截断阈值T；

将截断阈值T对取值范围进行截取，得到量化范围[-|T|,|T|]。

进一步地，所述确定截断阈值T包括：

步骤1，根据取值范围，将校准数据集合中的浮点型特征向量中的数值统计为第一分布直方图，所述第一分布直方图通过第一分布函数P进行表示；

步骤2，设置阈值t，将第一分布直方图中数值大小的绝对值超过阈值t的数值替换为阈值t，得到第二分布直方图，所述第二分布直方图通过第二分布函数Qt表示，其中阈值t的取值包含在校准数据集合中浮点型特征向量中数值的取值范围内；确定第二分布函数Qt与第一分布函数P的相对熵

步骤3，重复步骤2，得到多个相对熵，将多个相对熵中最小相对熵对应的阈值t作为截断阈值T。

进一步地，根据量化范围，将所述浮点型特征向量集合量化为整数型特征向量集合包括：

根据截断阈值T，得到量化缩放因子；

根据量化缩放因子，将所述浮点型特征向量集合量化为整数型特征向量集合。

进一步地，通过以下公式得到量化缩放因子：

其中，factor为量化缩放因子，n为整数型特征向量的位数，T为截断阈值。

根据第二方面，一种实施例中提供一种跨媒介数据融合装置，包括：

数据集获取模块，用于获取跨媒介数据集；

学习模块，用于对所述跨媒介数据集中的数据进行深度学习，得到浮点型特征向量集合；

量化范围获取模块，获取浮点型特征向量集合中数值的取值范围，根据取值范围，确定量化范围，其中量化范围小于等于浮点型特征向量集合中数值的取值范围；

量化模块，用于根据量化范围，将所述浮点型特征向量集合量化为整数型特征向量集合；

数据融合模块，用于确定整数型特征向量集合中特征向量之间的相似度，根据相似度对特征向量进行融合。

根据第三方面，一种实施例中提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现上述实施例所述的方法。

依据上述实施例的一种跨媒介数据融合方法、装置及存储介质，通过对跨媒介数据进行学习得到浮点型特征向量，在将浮点型特征向量量化为整数型特征向量时，通过选取合适的截断阈值T，缩小量化时特征向量的数值范围，提高了量化的精度。

附图说明

图1为一种实施例的跨媒介数据融合方法的流程图；

图2为一种实施例的确定量化范围的流程图；

图3为一种实施例的将浮点型特征向量量化为整数型特征向量的流程图；

图4为一种实施例的跨媒介数据融合装置的结构示意图；

图5为一种实施例的量化范围示意图；

图6为另一种实施例的量化范围示意图；

图7为一种实施例的特征向量统计图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

跨媒介数据，又称跨媒体数据，是指不同传感设备所采集的数据，例如相机所采集的图像数据、麦克风所采集的音频数据、传感器所采集的电压或电流波形数据等，通过不同传感设备所获取的跨媒介数据数量非常大，计算这些海量跨媒介数量之间的关联，将关联度高的跨媒介数据归为一个语义类别的过程为跨媒介数据的融合，这样可方便人们对海量跨媒介数据的语义内容进行分析、存储和检索。

跨媒介数据在多个领域均有涉及，尤其在智能安防及社会治理领域中，需大量依赖摄像头捕捉视频、抓怕图像数据以及射频设备捕捉手机的相关信息数据,在智能安防及社会治理中跨媒介数据的融合过程在后台服务器中进行，本实施例以智能安防及社会治理领域中后台服务器对跨媒介数据融合的过程为例进行说明。

实施例一：

请参考图1，图1为一种实施例的跨媒介数据融合方法的流程图，包括以下步骤：

S10，服务器从摄像头、射频设备和传感器等传感采集设备中获取其所采集的大量跨媒介数据，所述的跨媒介数据包括但不限于视频、图像、音频、波形和文本等数据，这些大量的跨媒介数据组成跨媒介数据集，其中视频、图像数据可通过摄像头、相机等设备进行采集，音频数据可通过麦克风等音频采集设备进行获取，波形数据可通过传感设备来采集，文本数据则可通过手机、个人电脑等设备进行获取。

跨媒介数据集中的数据被人们所利用需要先对数据进行关联分类，将同属于一个语义类别的数据归为一个类别，并对该语义类别打上对应的语义标签，以方便数据维护人员对大量的跨媒介数据进行分析、存储，建立对应类别的检索索引，方便用户对大量的跨媒介数据进行检索。

S20，服务器对所获取的大量跨媒介数据进行深度学习，以产生大量的高维特征向量，该特征向量中的数值类型为浮点型，维数多为数百维到数千维的高纬数，这些大量的特征向量组成了浮点型特征向量集合，例如常见的由跨媒介数据产生的特征向量中的数值类型为Float32。

在对跨媒介数据进行融合时，需要先计算这些浮点型特征向量之间的相似度，以确定跨媒介数据之间的关联性，由于跨媒介数据的数量非常多，导致其产生的特征向量的数量也非常多，为了减小计算量，更有利于服务器的硬件性能，在计算特征向量之间相似度之前，应先将浮点型特征向量进行量化，转换为整数型特征向量。

S30,服务器获取浮点型特征向量集合中数值的取值范围，根据取值范围，确定量化范围，其中量化范围小于等于浮点型特征向量集合中数值的取值范围，所述的量化范围缩小了浮点型特征向量量化为整数型特征向量的数值范围，由于量化范围与量化精度(分辨率)成反比，因此本实施例所确定的量化范围通过缩小浮点型特征向量集合中数值的取值范围来提高量化精度。由于从各种传感设备获取的跨媒介数据的数量非常大，因此通过对其深度学习生成的浮点型特征向量的数量也非常大，为了简化计算，本实施例从浮点型特征向量集合中选取部分特征向量组成校准数据集合；确定校准数据集合中数值的取值范围，将校准数据集合中数值的取值范围作为浮点型特征向量集合中数值的取值范围。本实施例中校准数据集合中浮点型特征向量的数量越接近浮点型特征向量集合中特征向量的数量，量化的精度越高，然而特征向量数量越多，计算量也相应增大，因此校准数据集合中特征向量的数量最少应保证1000个，最多可与浮点型特征向量集合中特征向量的数量相同，本实施例为了既保证量化精度，又提高计算效率，校准数据集合中浮点型特征向量的数量最优值为浮点型特征向量集合中特征向量数量的20％，也就是随机抽取20％的特征向量作为校准数据集。

请参考图2，图2为一种实施例的确定量化范围的流程图，包括以下步骤：

S3011，从大量浮点型特征向量组成的浮点型特征向量集合中选取部分浮点型特征向量组成校准数据集合。

S3012，确定校准数据集合中浮点型特征向量中数值的取值范围，例如取值范围为[-|Max|,|Max|]，根据该取值范围将校准数据集合中的浮点型特征向量中的数值统计为第一分布直方图，第一分布直方图通过第一分布函数P进行表示。本实施例中的第一分布直方图的横坐标用于表示浮点型特征向量中数值的大小，横坐标x的取值范围为校准数据集合中浮点型特征向量中数值的取值范围[-|Max|,|Max|]，横坐标的取值范围可被分为N个量化级(如2048个量化级)，每个量化级均表示一个整数型的数值大小，第一分布直方图的竖坐标用于表示每个量化级上浮点型特征向量中数值的数量，该第一分布直方图可通过第一分布函数P进行表示，即P(x)表示x量化级上浮点型特征向量中数值的数量。

S3013，随机设置多个阈值t，阈值t的取值包含在校准数据集合中浮点型特征向量中数值的取值范围内，也就是t∈[-|Max|,|Max|]，在一种实施方式下可在取值范围[-|Max|,|Max|]中遍历阈值t，将第一分布直方图中横坐标上数值大小的绝对值超过阈值t的量化级的数值替换为阈值t，这样就缩小了第一分布直方图中横坐标的取值范围，也缩小了量化范围，即可得到第二分布直方图，第二分布直方图中横坐标的范围为[-|t|,|t|]，第二分布直方图与第一分布直方图相同，横坐标用于表示浮点型特征向量中数值的大小，横坐标的取值范围可被分为M个量化级(如256个量化级)，每个量化级均表示一个整数型的数值大小，第二分布直方图的竖坐标用于表示每个量化级上浮点型特征向量中数值的数量，该第二分布直方图可通过第二分布函数Qt进行表示，即Qt(x)表示x量化级上浮点型特征向量中数值的数量。计算第二分布函数Qt与第一分布函数P的相对熵。

S3014，重复S3013，得到多个相对熵，将多个相对熵中最小相对熵对应的阈值t作为截断阈值T。此时，量化范围为[-|T|,|T|]。

本实施例通过以下公式计算第二分布函数Qt与第一分布函数P的相对熵：

其中，KL(P||Qt)为第二分布函数Qt与第一分布函数P的相对熵。

由于第一分布直方图和第二分布直方图横坐标的长度不同，在本实施例计算第二分布函数Qt与第一分布函数P的相对熵前，需先将第二分布直方图横坐标的长度扩展到与第一分布直方图横坐标长度相同。

S40，根据量化范围，将所述浮点型特征向量集合量化为整数型特征向量集合。请参考图3，图3为一种实施例的将浮点型特征向量量化为整数型特征向量的流程图，包括以下步骤：

S401，获取量化缩放因子。本实施例中的量化缩放因子用于浮点型特征向量和整数型特征向量之间进行量化和反量化。

根据截断阈值T,得到量化缩放因子。本实施例通过以下公式得到量化缩放因子：

其中，factor为量化缩放因子，n为整数型特征向量的位数。例如量化后的整数型特征向量的数值类型为INT8，

S402，根据量化缩放因子将浮点型特征向量量化为整数型特征向量，以得到整数型特征向量集合。

现有技术中的量化范围是根据所有浮点型特征向量中数值的绝对值最大值来获取量化范围的，例如浮点型特征向量中数值的最大值为Max，则量化范围为[-|Max|,|Max|],如图5所示，浮点型特征向量呈现“长尾”或“振铃”现象，在这些大量浮点型特征向量中很大可能存在极个别数值大小非常大的数值，而大部分数值的大小都远远小于量化范围[-|Max|,|Max|]，由于量化时量化范围与量化精度是成反比的，量化范围越大，量化精度越低，因此上述这种大的量化范围[-|Max|,|Max|]会造成量化精度较低，通过分析可知，在大量浮点型特征向量中只有极个别数值的大小处于较大值，大部分数值的大小均在一个较小范围内，因此本实施例通过确定截断阈值T将这些极个别的较大数值替换为截断阈值T，如图6所示，将量化范围缩小到[-|T|,|T|]，减小了量化范围，同时提高了量化的精度。

S50，在服务器中确定整数型特征向量集合中特征向量之间的相似度，根据相似度对特征向量进行融合。本实施例通过现有的相似度计算方法来计算特征向量之间的相似度，例如欧式距离、余弦距离等，通过设置相似度阈值，若特征向量之间的相似度大于相似度阈值，则属于同一语义类别，将同一语义类别的特征向量进行特征融合，以实现后期对跨媒介数据的分析、存储和检索。

实施例二：

请参考图4，图4为一种实施例的跨媒介数据融合装置的结构示意图，包括：

数据集获取模块10，用于获取跨媒介数据集。本实施例中的获取模块10从摄像头、射频设备和传感器等传感采集设备中获取其所采集的大量跨媒介数据，所述的跨媒介数据包括但不限于视频、图像、音频、波形和文本等数据。

学习模块20，用于对所述跨媒介数据集中的数据进行深度学习，得到浮点型特征向量集合。跨媒介数据经过深度学习后产生实体属性和高维特征向量，该高维特征向量的数值类型为浮点型，维数多为数百维到数千维的高维数，例如常见的浮点型特征向量的数值类型为F l oat32。

无论是对跨媒介数据进行分类或是融合，都需要计算特征向量之间的相似度，由于浮点型特征向量在计算相似度时，计算量过大，会占据较大服务器硬件资源，因此需先将浮点型特征向量量化为整数型特征向量。

量化范围获取模块30，获取浮点型特征向量集合中数值的取值范围，根据取值范围，确定量化范围，其中量化范围小于等于浮点型特征向量集合中数值的取值范围。

量化模块40，用于将所述浮点型特征向量集合量化为整数型特征向量集合。量化模块40具体包括：获取量化缩放因子；本实施例中的量化缩放因子用于浮点型特征向量和整数型特征向量之间进行量化和反量化。例如Vector[]＝factor×array[]，其中array[]为整数型特征向量，Vector[]为浮点型特征向量，factor为量化缩放因子。

其中获取量化缩放因子包括：从大量浮点型特征向量组成的浮点型特征向量集合中选取部分浮点型特征向量组成校准数据集合。本实施例中校准数据集合中浮点型特征向量的数量为浮点型特征向量集合中特征向量数量的20％，也就是随机抽取20％的特征向量作为校准数据集。确定校准数据集合中浮点型特征向量中数值的取值范围，例如取值范围为[-|Max|,|Max|]，根据该取值范围将校准数据集合中的浮点型特征向量中的数值统计为第一分布直方图，第一分布直方图通过第一分布函数P进行表示。随机设置阈值t，t∈[-|Max|,|Max|]，将第一分布直方图中横坐标上数值大小的绝对值超过阈值t的量化级的数值替换为阈值t，这样就缩小了第一分布直方图中横坐标的取值范围，也缩小了量化范围，即可得到第二分布直方图第二分布直方图可通过第二分布函数Qt进行表示，即Qt(x)表示x量化级上浮点型特征向量中数值的数量。重复设置阈值t，直至找到一个阈值t，满足第二分布函数Qt与第一分布函数P的相对熵最小，则将该阈值t作为截断阈值T。根据截断阈值T,得到量化缩放因子。确定量化缩放因子后，再根据量化缩放因子将浮点型特征向量集合量化为整数型特征向量集合。

数据融合模块50，用于确定整数型特征向量集合中特征向量之间的相似度，根据相似度对特征向量进行融合。本实施例通过现有的相似度计算方法来计算特征向量之间的相似度，例如欧式距离、余弦距离等，通过设置相似度阈值，若特征向量之间的相似度大于相似度阈值，则属于同一语义类别，将同一语义类别的特征向量进行特征融合，以实现后期对跨媒介数据的分析、存储和检索。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。