CN117113281B

CN117113281B - 多模态数据的处理方法、设备、智能体和介质

Info

Publication number: CN117113281B
Application number: CN202311361735.2A
Authority: CN
Inventors: 李龙辉; 杨健; 陈铭; 胡泽宇; 谢晨; 杨海波
Original assignee: Guanglun Intelligent Beijing Technology Co ltd
Current assignee: Guanglun Intelligent Beijing Technology Co ltd
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-01-26
Anticipated expiration: 2043-10-20
Also published as: CN117113281A

Abstract

本发明提供了一种多模态数据的处理方法、设备、智能体和介质，包括对多模态数据集中每种模态数据进行语义转换，得到每种所述模态数据对应的语言描述信息；对所述语言描述信息进行编码，得到编码向量；根据所述编码向量和数据挖掘需求，对所述多模态数据集进行挖掘，得到所述数据挖掘需求对应的挖掘结果，实现了按需对多模态数据集中各种模态数据的挖掘，避免得到大量与需求无关的数据等，提高了多模态数据集中各种模态数据的使用效率。

Description

多模态数据的处理方法、设备、智能体和介质

技术领域

本发明涉及数据处理技术领域，具体提供一种多模态数据的处理方法、设备、智能体和介质。

背景技术

随着人工智能技术的不断发展，利用各种传感器采集庞大的多模态数据，例如图像、语音、文本等，以便利用多模态数据对人工智能算法进行算法训练与测试，为人们提供智能化服，已在人们生活中越来越普遍。例如，在自动驾驶领域，通过摄像机、雷达等可以获取到大量的多模态数据，并利用这些多模态数据能够为车辆提供如车辆变道提醒、交叉口提醒、事故提醒、全天候路况分析、主动自动驾驶等服务，在加强行车安全的基础上，减轻道路拥堵。

然而，这些多模态数据中可能存在大量的与需求无关的数据等，导致无法高效的利用多模态数据。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决多模态数据中可能存在大量的错误数据、冗余数据等，导致无法高效的利用多模态数据的技术问题的多模态数据的处理方法、设备、智能体和介质。

在第一方面，本发明提供一种多模态数据的处理方法，该多模态数据的处理方法包括：

对多模态数据集中每种模态数据进行语义转换，得到每种所述模态数据对应的语言描述信息；

对所述语言描述信息进行编码，得到编码向量；

根据所述编码向量和数据挖掘需求，对所述多模态数据集进行挖掘，得到所述数据挖掘需求对应的挖掘结果。

进一步地，上述所述的多模态数据的处理方法中，所述数据挖掘需求包括搜索相似场景数据；

根据所述编码向量和所述数据挖掘需求，对所述多模态数据集进行挖掘，得到所述数据挖掘需求对应的挖掘结果，包括：

确定两两编码向量之间的距离；

将距离小于预设距离的两个编码向量对应的两种模态数据作为相似场景数据，直到遍历所有模态数据后，得到所述相似场景数据的搜索结果。

进一步地，上述所述的多模态数据的处理方法，还包括：

从所述相似场景数据对应的至少两种模态数据中选取一种模态数据，并将选取的模态数据和所述选取的模态数据对应的编码向量进行保存。

进一步地，上述所述的多模态数据的处理方法中，所述数据挖掘需求包括检测覆盖程度；

确定所述编码向量的分布信息，根据所述编码向量的分布信息，确定所述多模态数据集对应的覆盖程度；或者

将所述编码向量与预设编码向量集合中的预设编码向量进行比对，得到所述预设编码向量集合的填充程度，根据所述填充程度，确定所述多模态数据集对应的覆盖程度。

进一步地，上述所述的多模态数据的处理方法中，确定所述编码向量的分布信息，根据所述编码向量的分布信息，确定所述多模态数据集对应的覆盖程度，包括：

确定所述编码向量的密集程度和/或相邻两个编码向量的间距；

根据所述编码向量的密集程度和/或相邻两个编码向量的间距，确定所述多模态数据集对应的覆盖程度；

其中，所述多模态数据集对应的覆盖程度与所述编码向量的密集程度成正比，所述多模态数据集对应的覆盖程度与所述相邻两个编码向量的间距成反比。

进一步地，上述所述的多模态数据的处理方法中，所述数据挖掘需求包括确定场景事件的关键影响因素；

统计与所述场景事件相关的每个影响因素的编码向量的数目；

将数目最多的编码向量对应的影响因素作为所述关键影响因素。

进一步地，上述所述的多模态数据的处理方法中，对多模态数据集中每种模态数据进行语义转换，得到每种所述模态数据对应的语言描述信息，包括：

基于所述多模态数据集对应的目标场景的多个场景维度，提取每种模态数据在每个场景维度下的数据特征；

对所述数据特征进行语义转换，得到每个场景维度下的文本信息；

将所述文本信息进行融合，得到每种模态数据对应的语言描述信息。

在第二方面，本发明提供一种多模态数据的处理设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述任一项所述的多模态数据的处理方法。

在第三方面，提供一种智能体，包括上述所述的多模态数据的处理设备。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行上述任一项所述的多模态数据的处理方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明的技术方案中，通过对多模态数据集中每种模态数据进行语义转换，得到每种所述模态数据对应的语言描述信息后，对所述语言描述信息进行编码，得到编码向量，然后根据所述编码向量和数据挖掘需求，对所述多模态数据集进行挖掘，得到所述数据挖掘需求对应的挖掘结果，实现了按需对多模态数据集中各种模态数据的挖掘，避免得到大量与需求无关的数据等，提高了多模态数据集中各种模态数据的使用效率。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：

图1是根据本发明的一个实施例的多模态数据的处理方法的主要步骤流程示意图；

图2是图1中步骤101的实现流程图；

图3是根据本发明的一个实施例的多模态数据的处理设备的主要结构框图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

然而，这些多模态数据中可能存在大量的错误数据、冗余数据等，导致无法高效的利用多模态数据。

因此，为了解决上述技术问题，本发明提供了以下技术方案：

参阅附图1，图1是根据本发明的一个实施例的多模态数据的处理方法的主要步骤流程示意图。如图1所示，本发明实施例中的多模态数据的处理方法主要包括下列步骤101-步骤103。

步骤101、对多模态数据集中每种模态数据进行语义转换，得到每种所述模态数据对应的语言描述信息；

在一个具体实现过程中，可以利用但不限制于摄像机、雷达等采集对应的模态数据，并做成多模态数据集。例如，可以利用摄像机获取当前场景的视频、图片等，以及，利用雷达获取当前场景的点云数据。在得到多模态数据集后，可以对多模态数据集中每种模态数据进行语义转换，得到每种所述模态数据对应的语言描述信息。

具体地，图2是图1中步骤101的实现流程图。如图2所示，可以根据步骤201至步骤203实现步骤101。

步骤201、基于所述多模态数据集对应的目标场景的多个场景维度，提取每种模态数据在每个场景维度下的数据特征；

在一个具体实现过程中，不同场景下具有不同的场景维度，这里可以基于所述多模态数据集对应的目标场景的多个场景维度，提取每种模态数据在每个场景维度下的数据特征。

在一个具体实现过程中，以车辆形式的道路作为目标场景为例进行说明。在该目标场景下，其可以具有但不限制于如下尝尽维度：场景风格(中国, 欧洲等)、道路形式(直道, 弯道)、车道线条数、车道线颜色、车道线类型、限速、对手车或人位置、动作风格、手车或人类型、交通状态、时间、天气、特殊元素(井盖, 交通锥)。可以基于上述场景维度，从图像、视频、点云数据中提取到与每个场景维度相对应的数据特征。

具体地，可以将图像、视频、点云数据等各模态数据输入到预先训练的目标识别模型，从而可以提取到每个场景维度相对应的数据特征。

步骤202、对所述数据特征进行语义转换，得到每个场景维度下的文本信息；

可以将得到每个场景维度相对应的数据特征输入预先训练的大语言模型，利用预先训练的大语言模型对每个场景维度相对应的数据特征进行语义转换，得到每个场景维度下的文本信息。例如，一个鬼探头的视频，如果得到的车道线条数的数据特征为三个车道的检测框，则可以转换成文本为：三车道，在此不再一一举例说明。

步骤203、将所述文本信息进行融合，得到每种模态数据对应的语言描述信息。

在一个具体实现过程中，大语音模型得到每个场景维度下的文本信息后，会根据常用的语法、用户说话习惯等，将所述文本信息进行融合，得到每种模态数据对应的语言描述信息。例如，针对一个鬼探头的视频。其对应的语言描述信息为: 在中国市区的一个三车道十字路口，同向道路相邻为白色虚线，车道很宽，限速为50km/h，主车右侧有一排私家车和一辆公交车，有一个男性行人从右侧跑步忽然横穿，造成主车与行人发生碰撞。

步骤102、对所述语言描述信息进行编码，得到编码向量；

在一个具体实现过程中，可以利用编码器对语言描述信息进行编码，得到编码向量。

步骤103、根据所述编码向量和数据挖掘需求，对所述多模态数据集进行挖掘，得到所述数据挖掘需求对应的挖掘结果。

在一个具体实现过程中，可以根据对目标场景所需要的数据设定数据挖掘需求，并根据所述编码向量和数据挖掘需求，对所述多模态数据集进行挖掘，得到所述数据挖掘需求对应的挖掘结果。

具体地，该数据挖掘需求可以包括搜索相似场景数据、检测覆盖程度、确定场景事件的关键影响因素中的至少一种。

在一个具体实现过程中，当数据挖掘需求包括搜索相似场景数据时，可以按照如下方式实现步骤103：

（1）确定两两编码向量之间的距离；

在一个具体实现过程中，对于任意两个编码向量而言，可以计算出任意两个编码向量之间的距离。例如，该距离可以为欧式距离。

（2）将距离小于预设距离的两个编码向量对应的两种模态数据作为相似场景数据，直到遍历所有模态数据后，得到所述相似场景数据搜索的搜索结果。

在一个具体实现过程中，在得到两两编码向量之间的距离后，可以从所有距离中选取距离小于预设距离的两个编码向量对应的两种模态数据，并将选取的两种模态数据作为相似场景数据，直到遍历所有模态数据后，得到所述相似场景数据的搜索结果。

在一个具体实现过程中，从所述相似场景数据对应的至少两种模态数据中选取一种模态数据，并将选取的模态数据和所述选取的模态数据对应的编码向量进行保存，这样，在存在多个相似的模态数据时，只需要保存其中一个模态数据即可，避免重复数据的保存，降低了保存数据成本，提高内存利用率。

在一个具体实现过程中，当数据挖掘需求包括检测覆盖程度时，可以按照如下但不限制于两种方式种的一种实现步骤103：

第一种：确定所述编码向量的分布信息，根据所述编码向量的分布信息，确定所述多模态数据集对应的覆盖程度，以实现对人工智能机器的测试场景的覆盖度的数字度量；

在一个具体实现过程中，可以在数学上的向量空间内统计编码向量的分布信息，根据所述编码向量的分布信息，确定所述多模态数据集对应的覆盖程度。

具体地，可以确定所述编码向量的密集程度和/或相邻两个编码向量的间距；根据所述编码向量的密集程度和/或相邻两个编码向量的间距，确定所述多模态数据集对应的覆盖程度；其中，所述多模态数据集对应的覆盖程度与所述编码向量的密集程度成正比，所述多模态数据集对应的覆盖程度与所述相邻两个编码向量的间距成反比。也就是说，如果编码向量的分布信息表现为密集，则覆盖程度高，反之，如果编码向量的分布信息表现为疏松，则覆盖程度低。和/或，如果大部分编码向量中或者全部向量中相邻两个编码向量的间距越小，则覆盖程度高，反之，如果大部分编码向量中或者全部向量中相邻两个编码向量的间距越大，则覆盖程度低。

第二种：将所述编码向量与预设编码向量集合中的预设编码向量进行比对，得到所述预设编码向量集合的填充程度，根据所述填充程度，确定所述多模态数据集对应的覆盖程度，以实现对人工智能机器的测试场景的覆盖度的数字度量。

在一个具体实现过程中，可以针对目标场景所需要的数据进行预先编码，得到预设编码向量集合，然后每次得到一个编码向量后，与预设编码向量集合中的预设编码向量进行相似度检测，当相似时，将该编码向量填充到预设编码向量集合，并统计预设编码向量集合的填充程度，如果预设编码向量集合的填充程度越高，则说明多模态数据集对应的覆盖程度越高，反之，如果预设编码向量集合的填充程度越低，则说明多模态数据集对应的覆盖程度越低。

需要说明的是，如果预设编码向量集合中没有与某一个编码向量相似的预设编码向量，可以将该编码向量对应的模态数据输出，以便用户确定该编码向量对应的模态数据是否为需要的数据，如果接收到表示是的反馈信息，则将对预设编码向量集合进行更新，并将该编码向量填充至更新的编码向量集合中。

在一个具体实现过程中，当数据挖掘需求包括覆盖程度检测时，可以按照但不限制于如下方式实现步骤103：

（11）统计与所述场景事件相关的每个影响因素的编码向量的数目；

（12）将数目最多的编码向量对应的影响因素作为所述关键影响因素。

在一个具体实现过程中，可以统计与所述场景事件相关的每个影响因素的编码向量的数目，并将数目最多的编码向量对应的影响因素作为所述关键影响因素。例如，可该场景事件可以为追尾事件。有3种模态数据时，两种模态数据得到发生追尾事件的影响因素为前车变道。一种模态数据得到发生追尾事件的影响因素为后车速度快，则可以得到前车变道为此次追尾事件的关键影响因素。在此不再一一举例说明。

本实施例的多模态数据的处理方法，通过对多模态数据集中每种模态数据进行语义转换，得到每种所述模态数据对应的语言描述信息；对所述语言描述信息进行编码，得到编码向量；根据所述编码向量和数据挖掘需求，对所述多模态数据集进行挖掘，得到所述数据挖掘需求对应的挖掘结果，实现了按需对多模态数据集中各种模态数据的挖掘，避免得到大量与需求无关的数据等等，提高了多模态数据集中各种模态数据的使用效率。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时（并行）执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种多模态数据的处理设备。

参阅附图3，图3是根据本发明的一个实施例的多模态数据的处理设备的主要结构框图。如图3所示，本发明实施例中的多模态数据的处理设备可以包括处理器31和存储装置32。

存储装置32可以被配置成存储执行上述方法实施例的多模态数据的处理方法的程序，处理器31可以被配置成用于执行存储装置32中的程序，该程序包括但不限于执行上述方法实施例的多模态数据的处理方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该多模态数据的处理设备可以是包括各种电子设备形成的控制设备。

在一个具体实现过程中，该存储装置32和处理器31的数目均可以为多个。而执行上述方法实施例的多模态数据的处理方法的程序可以被分割成多段子程序，每段子程序分别可以由处理器31加载并运行以执行上述方法实施例的多模态数据的处理方法的不同步骤。具体地，每段子程序可以分别存储在不同的存储装置32中，每个处理器31可以被配置成用于执行一个或多个存储装置32中的程序，以共同实现上述方法实施例的多模态数据的处理方法，即每个处理器31分别执行上述方法实施例的多模态数据的处理方法的不同步骤，来共同实现上述方法实施例的多模态数据的处理方法。

上述多个处理器31可以是部署于同一个设备上的处理器，例如上述设备可以是由多个处理器组成的高性能设备，上述多个处理器31可以是该高性能设备上配置的处理器。此外，上述多个处理器31也可以是部署于不同设备上的处理器，例如上述设备可以是服务器集群，上述多个处理器31可以是服务器集群中不同服务器上的处理器。

进一步，本发明还提供了一种智能体，该智能体包括上述实施例的多模态数据的处理设备。其中，该智能体具体可以为基于机器学习等数据驱动的输出决策结果以实现自动控制的设备，如机器人或智能驾驶设备这些人工智能控制的设备。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的多模态数据的处理方法的程序，该程序可以由处理器加载并运行以实现上述多模态数据的处理方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

需要说明的是，本申请各实施例中可能涉及的相关用户个人信息，均为严格按照法律法规的要求，遵循合法、正当、必要的原则，基于业务场景的合理目的，处理用户在使用产品/服务过程中主动提供或因使用产品/服务而产生的，以及经用户授权获取的个人信息。

本申请处理的用户个人信息会因具体产品/服务场景而有所不同，需以用户使用产品/服务的具体场景为准，可能会涉及用户的账号信息、设备信息、行驶信息、车辆信息或其他相关信息。本申请会以高度的勤勉义务对待用户的个人信息及其处理。

本申请非常重视用户个人信息的安全，已采取符合业界标准、合理可行的安全防护措施保护用户的信息，防止个人信息遭到未经授权访问、公开披露、使用、修改、损坏或丢失。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种多模态数据的处理方法，其特征在于，包括：

对所述语言描述信息进行编码，得到编码向量；

根据所述编码向量和数据挖掘需求，对所述多模态数据集进行挖掘，得到所述数据挖掘需求对应的挖掘结果；

其中，根据所述编码向量和数据挖掘需求，对所述多模态数据集进行挖掘，得到所述数据挖掘需求对应的挖掘结果，包括：

若所述数据挖掘需求包括搜索相似场景数据，确定两两编码向量之间的距离；将距离小于预设距离的两个编码向量对应的两种模态数据作为相似场景数据，直到遍历所有模态数据后，得到所述相似场景数据的搜索结果；

若所述数据挖掘需求包括检测覆盖程度，确定所述编码向量的分布信息，根据所述编码向量的分布信息，确定所述多模态数据集对应的覆盖程度；或者

将所述编码向量与预设编码向量集合中的预设编码向量进行比对，得到所述预设编码向量集合的填充程度，根据所述填充程度，确定所述多模态数据集对应的覆盖程度；

若所述数据挖掘需求包括确定场景事件的关键影响因素，统计与所述场景事件相关的每个影响因素的编码向量的数目；

2.根据权利要求1所述的多模态数据的处理方法，其特征在于，还包括：

3.根据权利要求1所述的多模态数据的处理方法，其特征在于，确定所述编码向量的分布信息，根据所述编码向量的分布信息，确定所述多模态数据集对应的覆盖程度，包括：

4.根据权利要求1所述的多模态数据的处理方法，其特征在于，对多模态数据集中每种模态数据进行语义转换，得到每种所述模态数据对应的语言描述信息，包括：

5.一种多模态数据的处理设备，其特征在于，包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行权利要求1至4中任一项所述的多模态数据的处理方法。

6.一种人工智能控制的设备，其特征在于，包括如权利要求5所述的多模态数据的处理设备。

7.一种计算机可读存储介质，其特征在于，存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至4中任一项所述的多模态数据的处理方法。