CN116805353B - 跨行业通用的智能机器视觉感知方法 - Google Patents

跨行业通用的智能机器视觉感知方法 Download PDF

Info

Publication number
CN116805353B
CN116805353B CN202311049573.9A CN202311049573A CN116805353B CN 116805353 B CN116805353 B CN 116805353B CN 202311049573 A CN202311049573 A CN 202311049573A CN 116805353 B CN116805353 B CN 116805353B
Authority
CN
China
Prior art keywords
matrix
image
network
value
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311049573.9A
Other languages
English (en)
Other versions
CN116805353A (zh
Inventor
廖峪
唐泰可
罗颖达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhonggui Track Equipment Co ltd
Original Assignee
Chengdu Zhonggui Track Equipment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhonggui Track Equipment Co ltd filed Critical Chengdu Zhonggui Track Equipment Co ltd
Priority to CN202311049573.9A priority Critical patent/CN116805353B/zh
Publication of CN116805353A publication Critical patent/CN116805353A/zh
Application granted granted Critical
Publication of CN116805353B publication Critical patent/CN116805353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,具体涉及跨行业通用的智能机器视觉感知方法。所述方法包括:步骤1:使用通用图像获取装置获取行业待处理图像,将行业待处理图像进行标准化处理;步骤2:将扩张图像作为原始图像输入到3D图像重构模型中;步骤3:对得到的三维结构进行特征抽取;步骤4:使用强化学习的目标跟踪算法对特征图进行分析,以得到目标网络;步骤5:使用目标网络对新的特征图进行处理,以输出视觉感知的结果。通过3D图像重构、自注意力机制和强化学习等技术,实现了精细化的图像处理、自适应的决策和智能化的目标跟踪,从而提高了系统的准确性、鲁棒性和适应性。

Description

跨行业通用的智能机器视觉感知方法
技术领域
本发明属于图像处理技术领域,具体涉及跨行业通用的智能机器视觉感知方法。
背景技术
随着人工智能和机器视觉领域的快速发展,智能机器视觉感知在许多领域中扮演着重要的角色,如工业自动化、智能交通、医疗影像等。智能机器视觉感知能够对图像进行分析和理解,从而实现目标检测、跟踪、识别等任务。然而,由于不同行业的差异和特殊需求,现有的机器视觉方法往往局限于特定的行业和任务,缺乏通用性和灵活性。
在过去的几十年中,许多机器视觉技术已经被提出并取得了显著的进展。传统的机器视觉方法通常采用特征提取、模式匹配和分类等技术来实现目标检测和识别。这些方法通常需要手工设计特征和规则,并且对于不同的行业和任务需要进行重新调整和优化。此外,这些方法在处理复杂场景和变化环境时表现不佳,容易受到光照、遮挡和尺度变化等因素的影响。
近年来,深度学习和神经网络的兴起为机器视觉带来了革命性的变化。深度学习的出现使得计算机能够从海量数据中自动学习和提取特征,极大地提升了机器视觉的性能和准确度。卷积神经网络(CNN)在图像处理和分析中取得了巨大成功,通过层层堆叠的卷积和池化操作,能够自动学习图像的特征表示。这种端到端的学习方式避免了手工设计特征和规则的繁琐过程,大大简化了机器视觉的任务。
然而,尽管深度学习和卷积神经网络在图像处理方面取得了巨大的突破,但现有的机器视觉方法仍然存在一些问题。首先,大多数方法都是针对特定行业和任务设计的,缺乏通用性和灵活性。这导致在不同行业中需要重新开发和优化算法,增加了研发和部署的成本和时间。其次,传统的机器视觉方法在处理复杂场景和变化环境时表现不佳,容易受到光照、遮挡和尺度变化等因素的干扰。这限制了机器视觉在现实应用中的可靠性和鲁棒性。
发明内容
本发明的主要目的在于提供跨行业通用的智能机器视觉感知方法,通过3D图像重构、自注意力机制和强化学习等技术,实现了精细化的图像处理、自适应的决策和智能化的目标跟踪,从而提高了系统的准确性、鲁棒性和适应性。
为了解决上述问题,本发明的技术方案是这样实现的:
跨行业通用的智能机器视觉感知方法,所述方法包括:
步骤1:使用通用图像获取装置获取行业待处理图像,将行业待处理图像进行标准化处理,具体包括:将行业待处理图像按照设定进行图像分割,以得到多个面积大小为的分割图像;再将每个分割图像进行图像周围区域填充,以得到面积大小为/>的扩张图像;
步骤2:将扩张图像作为原始图像输入到3D图像重构模型中;所述3D图像重构模型从原始图像中提取出特征点,然后根据特征点和通用图像获取装置的固定参数,计算深度信息,基于深度信息重建出原始图像的三维结构;
步骤3:对得到的三维结构进行特征抽取,具体包括:将得到的三维结构通过全连接层计算出三维结构的查询矩阵、键矩阵和值矩阵,再基于查询矩阵、键矩阵和值矩阵计算得到自注意力矩阵;再计算自注意矩阵的注意力权重矩阵;将注意力权重矩阵与值矩阵相乘得到输出的特征图,作为特征抽取的结果;
步骤4:使用强化学习的目标跟踪算法对特征图进行分析,以得到目标网络,具体包括:初始化一个深度Q网络,然后使用深度Q网络接收特征图和通用图像获取装置获取行业待处理图像时采取的行动,将所有特征图视为环境,每个特征图视为状态,将行动视为动作;执行深度Q网络的目标函数的计算,具体包括:计算出每个动作的Q值,选择Q值最大的动作进行执行,并从环境中获取新的状态和奖励;奖励表征了反映目标追踪成功的程度,将当前的状态、动作、奖励和新的状态存储到经验回放池中;从经验回放池中随机抽取经验,计算目标Q值和预测Q值之间的差距,然后根据差距更新深度Q网络的参数;将更新后的深度Q网络作为目标网络进行输出;
步骤5:使用目标网络对新的特征图进行处理,以输出视觉感知的结果。
进一步的,所述通用图像获取装置为相机;所述通用图像获取装置的固定参数至少包括:焦距、基线长度和视差值。
进一步的,所述步骤2具体包括:将扩张图像表示为,输入到3D图像重构模型中,其中/>、/>和/>分别表示图像的高度、宽度和通道数;3D图像重构模型使用特征点提取算法从扩张图像中提取关键点,得到关键点集合为/>,其中表示第/>个关键点的坐标;根据关键点/>的坐标,通过以下公式计算每个关键点的深度值/>
其中,是相机的焦距,/>是相机的基线长度,/>是关键点/>的视差值;/>为扩张图像的像素个数;根据得到的关键点的坐标/>和对应的深度值/>,构建三维点云,得到三维点云的集合为/>,其中每个点/>表示一个三维点的坐标,得到原始图像的三维结构。
进一步的,所述步骤3具体包括:使用卷积神经网络对三维点云集合进行特征提取,得到提取的特征;再将提取的特征经过卷积神经网络提取的全连接层进行线性变换,得到变换后的特征,其中/>是点云中点的数量,/>是特征的维度;根据变换后的特征/>,计算得到查询矩阵/>、键矩阵/>和值矩阵/>;再使用如下公式,基于查询矩阵/>、键矩阵/>和值矩阵/>计算得到自注意力矩阵/>
其中,是自注意力矩阵,表示每个点与其他点之间的注意力权重;是softmax函数,用于归一化注意力权重;/>为查询矩阵/>、键矩阵/>和值矩阵/>的特征维度;再使用如下公式计算自注意力矩阵的注意力权重矩阵:
其中,表示求矩阵自注意力矩阵/>的行列式运算;/>为自注意力矩阵的注意力权重矩阵;||为求绝对值运算;将注意力权重矩阵与值矩阵相乘得到输出的特征图,作为特征抽取的结果为:
其中,是特征抽取后的结果,为输入的特征图。
进一步的,所述查询矩阵、键矩阵/>和值矩阵/>的计算,使用如下公式:
其中,、/>、/>是全连接层的权重矩阵,/>是查询矩阵/>、键矩阵/>和值矩阵/>的特征维度。
进一步的,所述将提取的特征经过卷积神经网络提取的全连接层进行线性变换,得到变换后的特征的方法包括:将提取的特征/>展平为一个二维矩阵,得到/>的形状为/>,将其首先进行展平,变换为形状为/>的矩阵/>,其中/>是展平后的特征维度;使用如下公式对展平后的矩阵/>进行线性变换:
其中,是权重矩阵,/>是变换后的特征维度;/>是偏置向量。
进一步的,所述通用图像获取装置获取行业待处理图像时采取的行动包括:通用图像获取装置的移动、通用图像获取装置的焦距的改变、通用图像获取装置的曝光系数的改变。
进一步的,所述步骤4具体包括:初始化一个深度Q网络,得到深度Q网络的表达式为:
其中,其中是深度Q网络的行动价值函数,/>是当前状态,/>是当前行动,/>是当前奖励,/>是新的奖励的折扣因子,/>是下一个状态,/>是下一个行动;然后使用深度Q网络接收特征图和通用图像获取装置获取行业待处理图像时采取的行动,将所有特征图视为环境,每个特征图视为状态,将行动视为动作;执行深度Q网络的目标函数的计算,具体包括:计算出每个动作的Q值,选择Q值最大的动作进行执行,并从环境中获取新的状态和奖励;奖励表征了反映目标追踪成功的程度,将当前的状态、动作、奖励和新的状态存储到经验回放池中;从经验回放池中随机抽取经验,计算目标Q值和预测Q值之间的差距,然后根据差距更新深度Q网络的参数;将更新后的深度Q网络作为目标网络进行输出;/>表示表示在下一个状态/>中,选择能够最大化/>值的动作/>
进一步的,使用如下公式,根据差距更新深度Q网络的参数:
其中,为深度Q网络的参数,/>为学习率,/>为为差距。
进一步的,所述深度Q网络的目标函数的梯度公式使用如下公式进行表示:
其中,是目标函数,/>是期望值,其中的/>表示状态s和动作a是根据策略/>选取的;这个期望值是在所有可能的状态和动作上的平均值;/>是Q值关于网络参数/>的梯度;/>是目标Q值,表示在状态/>下执行动作/>后获得的即时奖励/>,以及执行最佳动作/>后预期得到的新的奖励;其中,/>是新的奖励的折扣因子;/>是预测的Q值,表示网络当前预测在状态/>下执行动作/>能得到的总奖励。
本发明的跨行业通用的智能机器视觉感知方法,具有以下有益效果:
本发明的方法具有广泛的适用性和通用性。传统的机器视觉方法往往针对特定行业和任务进行设计,缺乏通用性和灵活性。相反,本发明提出的方法适用于不同行业和领域,如工业自动化、智能交通、医疗影像等。这意味着同一个智能机器视觉系统可以在多个行业中使用,无需重新开发和优化算法,大大降低了研发和部署的成本和时间。例如,在工业自动化领域,该方法可以用于生产线上的质量控制和物体识别;在智能交通领域,可以用于交通监控和车辆识别;在医疗影像领域,可以用于疾病检测和影像分析等。
其次,本发明利用3D图像重构模型实现了更准确和精细的图像处理。通过从原始图像中提取特征点并计算深度信息,可以重建出原始图像的三维结构。相比传统的二维图像处理方法,这种基于3D重构的方法能够提供更丰富的图像信息。例如,在目标检测和跟踪任务中,通过获取物体的三维结构信息,可以更准确地定位和跟踪目标对象,提高系统的准确性和鲁棒性。
本发明采用自注意力机制进行特征抽取,能够自动捕捉特征点之间的关系和上下文信息。自注意力机制通过计算特征点之间的相关性来加权特征,使得系统能够更好地理解图像中的重要信息。这种注意力机制的应用在机器视觉中具有重要意义,能够提升系统的感知和分析能力。例如,在目标识别任务中,通过自注意力机制,系统可以自动关注目标的关键特征,并准确识别出目标对象。这种自适应的特征选择和加权能力提高了系统的鲁棒性和适应性,使其在复杂场景和变化环境下仍能表现出色。
本发明还引入了强化学习的目标跟踪算法,通过深度Q网络实现目标的跟踪和追踪。强化学习的应用使得系统能够根据不同的场景和任务,通过与环境的交互学习到最优的决策策略。这种智能化的决策能力使得系统能够自动调整参数和行为,并在复杂的目标跟踪任务中取得良好的效果。
附图说明
图1为本发明实施例提供的跨行业通用的智能机器视觉感知方法的方法流程示意图;
图2为本发明实施例提供的跨行业通用的智能机器视觉感知方法的进行图像分割的原理示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例1:参考图1和图2,跨行业通用的智能机器视觉感知方法,所述方法包括:
步骤1:使用通用图像获取装置获取行业待处理图像,将行业待处理图像进行标准化处理,具体包括:将行业待处理图像按照设定进行图像分割,以得到多个面积大小为的分割图像;再将每个分割图像进行图像周围区域填充,以得到面积大小为/>的扩张图像;
相对于传统的行业特定机器视觉方法,该方法具有跨行业通用性。传统方法通常针对特定行业的特定任务进行设计和优化,而该方法通过通用图像获取装置获取行业待处理图像,并对其进行标准化处理,从而使得同一种方法可以适用于多个行业。这种通用性使得技术更加灵活和可扩展,并且可以在不同的行业和应用领域中进行广泛应用。
步骤2:将扩张图像作为原始图像输入到3D图像重构模型中;所述3D图像重构模型从原始图像中提取出特征点,然后根据特征点和通用图像获取装置的固定参数,计算深度信息,基于深度信息重建出原始图像的三维结构;
3D图像重构模型是基于计算机视觉和图像处理技术的,它利用图像中的特征点和深度信息来还原出图像的三维结构。具体而言,模型通过提取图像中的特征点,可以获取到图像中的空间位置信息。然后,结合通用图像获取装置的固定参数,可以将这些特征点映射到真实世界的三维坐标系中,从而得到图像的深度信息。通过将这些深度信息应用于原始图像,可以进行三维重建,恢复出原始图像的几何结构和形状。
传统方法通常是基于2D图像处理和分析,而该方法通过重建图像的三维结构,提供了更丰富和准确的空间信息。这使得技术能够更好地理解和处理图像中的物体形状、位置和尺寸等信息,为后续的处理步骤提供更准确的输入。
步骤3:对得到的三维结构进行特征抽取,具体包括:将得到的三维结构通过全连接层计算出三维结构的查询矩阵、键矩阵和值矩阵,再基于查询矩阵、键矩阵和值矩阵计算得到自注意力矩阵;再计算自注意矩阵的注意力权重矩阵;将注意力权重矩阵与值矩阵相乘得到输出的特征图,作为特征抽取的结果;
特征抽取是通过计算查询矩阵、键矩阵和值矩阵,并应用自注意力机制来实现的。自注意力机制是一种注意力机制的变体,它允许模型在计算特征时自动关注输入中的不同位置。具体而言,通过将三维结构的查询、键和值分别映射到查询矩阵、键矩阵和值矩阵中,可以计算出自注意力矩阵。该矩阵用于计算注意力权重矩阵,该矩阵确定了每个位置对特征抽取的贡献程度。最后,通过将注意力权重矩阵与值矩阵相乘,可以得到输出的特征图。
步骤4:使用强化学习的目标跟踪算法对特征图进行分析,以得到目标网络,具体包括:初始化一个深度Q网络,然后使用深度Q网络接收特征图和通用图像获取装置获取行业待处理图像时采取的行动,将所有特征图视为环境,每个特征图视为状态,将行动视为动作;执行深度Q网络的目标函数的计算,具体包括:计算出每个动作的Q值,选择Q值最大的动作进行执行,并从环境中获取新的状态和奖励;奖励表征了反映目标追踪成功的程度,将当前的状态、动作、奖励和新的状态存储到经验回放池中;从经验回放池中随机抽取经验,计算目标Q值和预测Q值之间的差距,然后根据差距更新深度Q网络的参数;将更新后的深度Q网络作为目标网络进行输出;
将强化学习与机器视觉相结合,实现了目标跟踪的自动化。与传统的目标跟踪方法相比,该方法利用深度Q网络和经验回放池的机制,可以更好地学习和优化目标跟踪的策略。这种方法具有灵活性和适应性,可以适用于不同行业和应用场景中的目标跟踪任务。通过结合机器视觉和强化学习的优势,该方法具有更高的鲁棒性、准确性和自动化程度,从而提供了一种创新的智能机器视觉感知方法。
步骤5:使用目标网络对新的特征图进行处理,以输出视觉感知的结果。
具体的,参考图2,图像分割的目的是将行业待处理图像划分为多个区域或子图像。这样做的好处是可以更好地关注和处理每个区域的图像内容,提取特定区域的特征或进行针对性的处理。分割可以基于像素级别的信息,如颜色、纹理、边缘等进行划分,也可以利用机器学习和深度学习的方法进行语义分割,将图像中不同的物体或区域分离出来。
接着,对每个分割图像进行图像周围区域的填充。填充的目的是为了扩大图像的尺寸,增加周围的上下文信息。通过在图像周围添加额外的像素,可以避免边界信息的丢失,保留更多与目标或物体相关的上下文信息。这样做可以提供更全面的视觉感知,从而更好地理解图像内容。
最后,通过图像分割和图像周围区域的填充,可以得到扩张图像。扩张图像是在原始图像基础上进行了区域划分和边界填充的图像。扩张图像保留了原始图像的信息,同时提供了更丰富的上下文信息,为后续的处理步骤提供了更全面的输入。这样可以改善图像处理和分析的效果,提高机器视觉感知的准确性和鲁棒性。
实施例2:所述通用图像获取装置为相机;所述通用图像获取装置的固定参数至少包括:焦距、基线长度和视差值。
具体的,焦距是指相机光学系统中的焦距距离,通常以毫米(mm)为单位表示。焦距决定了相机的视场范围和图像的视角大小。较短的焦距会产生宽广的视野,而较长的焦距则会产生较窄的视野。在图像重构和深度计算中,焦距的准确知识对于计算物体距离和尺寸至关重要。基线长度是指相机成像时两个视点(摄像头)之间的距离。在双目或多目视觉系统中,通过将不同位置的图像进行比较和匹配,可以计算出深度信息。基线长度是用于计算图像中物体深度的关键参数,较大的基线长度可以提供更大的视差差异,从而增强深度计算的精度。视差是指在双目或多目视觉系统中,同一物体在两个视点(摄像头)中的图像位置差异。通过分析这些视差差异,可以推断出物体的深度信息。视差值是视差差异的具体数值表示,通常以像素为单位。视差值与物体距离成反比关系,即视差越大,物体距离越近;视差越小,物体距离越远。在图像重构和深度计算过程中,通过准确测量视差值,可以计算出物体的深度信息。
实施例3:所述步骤2具体包括:将扩张图像表示为,输入到3D图像重构模型中,其中/>、/>和/>分别表示图像的高度、宽度和通道数;3D图像重构模型使用特征点提取算法从扩张图像中提取关键点,得到关键点集合为/>,其中表示第/>个关键点的坐标;根据关键点/>的坐标,通过以下公式计算每个关键点的深度值/>
其中,是相机的焦距,/>是相机的基线长度,/>是关键点/>的视差值;/>为扩张图像的像素个数;根据得到的关键点的坐标/>和对应的深度值/>,构建三维点云,得到三维点云的集合为/>,其中每个点/>表示一个三维点的坐标,得到原始图像的三维结构。
具体的,在步骤2中,通过3D图像重构模型从扩张图像中提取关键点,并计算关键点的深度值。这些关键点的深度值基于相机的焦距、基线长度和关键点的视差值来计算。首先,使用特征点提取算法从扩张图像中提取关键点。这些关键点通常是图像中具有显著特征的点,可以用于表示物体的位置和形状。然后,根据关键点的坐标和相机的固定参数,包括焦距/>、基线长度/>以及关键点的视差值/>,使用给定的公式计算每个关键点的深度值/>。这个公式中的指数项是基于相机的视差效应和图像像素数量进行的缩放和归一化处理。这样可以根据关键点的视差值和相机参数,估计出该点在相机坐标系中的深度信息。
最后,根据计算得到的关键点的坐标和对应的深度值/>,构建三维点云/>。每个点/>表示一个三维点的坐标,由关键点的像素坐标和深度值组成。通过这些三维点,可以恢复出原始图像的三维结构,包括物体的位置、形状和相对深度关系。
在该方法中,通过使用相机的固定参数和特征点提取算法,将扩张图像转化为具有三维结构信息的点云。这种方法利用了相机的固定参数,并通过计算深度值来实现对图像的三维重建。相对于传统的基于双目或多目视觉系统的方法,该方法具有更高的通用性和灵活性。它不依赖于特定的硬件配置和视差计算算法,而是利用通用图像获取装置和简单的公式进行深度计算。这使得方法更易于实现和推广,可以在各种行业和应用场景中应用,从而提供了一种创新的智能机器视觉感知方法。
实施例4:所述步骤3具体包括:使用卷积神经网络对三维点云集合进行特征提取,得到提取的特征;再将提取的特征经过卷积神经网络提取的全连接层进行线性变换,得到变换后的特征,其中/>是点云中点的数量,/>是特征的维度;根据变换后的特征/>,计算得到查询矩阵/>、键矩阵/>和值矩阵/>;再使用如下公式,基于查询矩阵/>、键矩阵和值矩阵/>计算得到自注意力矩阵/>
其中,是自注意力矩阵,表示每个点与其他点之间的注意力权重;是softmax函数,用于归一化注意力权重;/>为查询矩阵/>、键矩阵/>和值矩阵/>的特征维度;再使用如下公式计算自注意力矩阵的注意力权重矩阵:
其中,表示求矩阵自注意力矩阵/>的行列式运算;/>为自注意力矩阵的注意力权重矩阵;||为求绝对值运算;将注意力权重矩阵与值矩阵相乘得到输出的特征图,作为特征抽取的结果为:
其中,是特征抽取后的结果,为输入的特征图。
具体的,在步骤3中,首先使用卷积神经网络对三维点云集合进行特征提取,并通过全连接层进行线性变换,得到变换后的特征。然后,基于变换后的特征/>计算得到查询矩阵/>、键矩阵/>和值矩阵/>。使用查询矩阵/>和键矩阵/>计算自注意力矩阵/>,其中通过对结果进行softmax操作,归一化每个点与其他点之间的注意力权重。接着,根据自注意力矩阵/>计算注意力权重矩阵/>,其中通过对自注意力矩阵的行列式进行操作,用于求取注意力权重。最后,将注意力权重矩阵/>与值矩阵/>相乘,得到输出的特征图/>作为特征抽取的结果。
这个步骤中的自注意力机制可以捕捉到点云中点与点之间的关系,并根据关系的重要性分配不同的注意力权重。通过自注意力矩阵的计算和注意力权重的应用,可以对特征进行重要性加权和信息交互,从而提取更具有代表性的特征。这样的特征抽取方法能够捕捉到点云中的空间结构和关联信息,为后续的目标跟踪和视觉感知任务提供更丰富的特征表示。
引入了自注意力机制,能够对点云中的点进行交互和关联,从而提取更全面的特征信息。相较于传统的卷积操作,自注意力机制能够对点云中的全局关系进行建模,具有更强的表示能力。因此,该方法在跨行业通用的智能机器视觉中具有创造性,并能够提升视觉感知的准确性和鲁棒性。
实施例5:所述查询矩阵、键矩阵/>和值矩阵/>的计算,使用如下公式:
其中,、/>、/>是全连接层的权重矩阵,/>是查询矩阵/>、键矩阵/>和值矩阵/>的特征维度。
具体的,先通过卷积神经网络对三维点云集合进行特征提取,得到提取的特征,其中/>是点云中点的数量,/>是特征的维度。
将特征与全连接层的权重矩阵/>、/>和/>相乘,得到查询矩阵/>、键矩阵/>和值矩阵/>。矩阵乘法的结果可以理解为对特征进行线性变换和投影。
其中,的维度是/>,表示将特征/>投影到查询矩阵/>的维度空间;/>的维度也是/>,表示将特征/>投影到键矩阵/>的维度空间;/>的维度同样是/>,表示将特征/>投影到值矩阵/>的维度空间。
通过这样的线性变换,可以对特征进行降维或者映射到更具有表达能力的特征空间,以适应后续的自注意力机制计算。
这样的计算方式能够将特征通过权重矩阵的线性变换映射到不同的空间,从而在自注意力机制中进行更加灵活和有针对性的特征交互。通过查询矩阵、键矩阵/>和值矩阵的计算,能够捕捉点云中不同点之间的关联和相似性,为后续的自注意力机制的计算提供基础。这种计算方式在提取特征的同时引入了线性变换,为后续的自注意力机制提供了适当的特征表示。
实施例6:所述将提取的特征经过卷积神经网络提取的全连接层进行线性变换,得到变换后的特征的方法包括:将提取的特征/>展平为一个二维矩阵,得到/>的形状为/>,将其首先进行展平,变换为形状为/>的矩阵/>,其中/>是展平后的特征维度;使用如下公式对展平后的矩阵/>进行线性变换:
其中,是权重矩阵,/>是变换后的特征维度;/>是偏置向量。
具体的,通过矩阵乘法和偏置项的加法,可以将展平后的特征矩阵映射到更高维度的特征空间,并通过线性变换引入非线性关系。权重矩阵/>控制特征的映射关系,偏置向量/>则引入了偏置项,用于调整变换后的特征。
这样的线性变换过程能够通过全连接层对提取的特征进行更复杂的映射和变换,从而获得更丰富和具有表达能力的特征表示。通过调整权重矩阵和偏置向量/>,可以控制线性变换的性质,以适应不同的数据和任务需求。
通过卷积神经网络提取特征后,通过全连接层的线性变换,能够将特征映射到更高维度的特征空间,并引入非线性关系。这样的线性变换操作可以增强特征的表达能力和区分度,提升模型的性能和泛化能力。
提取特征:在卷积神经网络中,输入图像经过卷积、激活函数和池化等操作后,得到一系列特征图,即卷积层的输出。这些特征图在空间维度上保留了图像中不同抽象层次的特征信息。
展平操作:为了将这些特征图转换为全连接层可以接受的形式,需要将每个特征图展平为一个向量。假设有个特征图,每个特征图的尺寸为/>(高度乘以宽度),则展平后的矩阵/>的形状为/>
线性变换:展平后的矩阵进行线性变换,将其映射到一个新的特征空间。这个映射由权重矩阵/>和偏置向量/>定义。/>是一个大小为/>的矩阵,其中/>是展平后的特征维度,/>是变换后的特征维度。/>是一个长度为/>的偏置向量。
变换后的特征:通过矩阵乘法和偏置相加,得到变换后的特征/>。/>的形状为,其中每行表示一个特征图经过线性变换后得到的新的特征表示。
实施例7:所述通用图像获取装置获取行业待处理图像时采取的行动包括:通用图像获取装置的移动、通用图像获取装置的焦距的改变、通用图像获取装置的曝光系数的改变。
具体的,通用图像获取装置的移动:通过移动通用图像获取装置的位置和角度,可以改变拍摄视角和视野范围。这对于捕捉不同角度和距离下的目标或场景是非常有用的。通过改变获取装置的位置,可以获得多个视角的图像,从而增加图像数据的多样性和信息量。
通用图像获取装置的焦距的改变:通过调整通用图像获取装置的焦距,可以改变图像的聚焦效果和景深范围。较小的焦距可以使得更多的场景保持清晰,而较大的焦距则可以突出目标并模糊背景。通过调整焦距,可以根据具体需求在图像中突出或模糊特定元素,从而实现更精确的视觉感知。
通用图像获取装置的曝光系数的改变:曝光系数控制着图像的亮度和对比度。通过改变通用图像获取装置的曝光系数,可以调整图像的明暗程度和细节显示。较高的曝光系数可以增加图像的亮度,适用于光线较暗的场景,而较低的曝光系数则可以保留高光细节,适用于光线较亮的场景。调整曝光系数可以优化图像的质量和对待处理内容的捕捉。
实施例8:所述步骤4具体包括:初始化一个深度Q网络,得到深度Q网络的表达式为:
其中,其中是深度Q网络的行动价值函数,/>是当前状态,/>是当前行动,/>是当前奖励,/>是新的奖励的折扣因子,/>是下一个状态,/>是下一个行动;然后使用深度Q网络接收特征图和通用图像获取装置获取行业待处理图像时采取的行动,将所有特征图视为环境,每个特征图视为状态,将行动视为动作;执行深度Q网络的目标函数的计算,具体包括:计算出每个动作的Q值,选择Q值最大的动作进行执行,并从环境中获取新的状态和奖励;奖励表征了反映目标追踪成功的程度,将当前的状态、动作、奖励和新的状态存储到经验回放池中;从经验回放池中随机抽取经验,计算目标Q值和预测Q值之间的差距,然后根据差距更新深度Q网络的参数;将更新后的深度Q网络作为目标网络进行输出;/>表示表示在下一个状态/>中,选择能够最大化/>值的动作/>
具体的,使用深度Q网络进行目标跟踪:将特征图和通用图像获取装置获取的行业待处理图像作为输入,将所有特征图视为环境中的状态,每个特征图视为一个状态,将行动视为动作。根据当前状态,使用深度Q网络计算目标函数。
目标函数计算:对于给定的状态,深度Q网络计算出每个动作的Q值,并选择具有最大Q值的动作进行执行。从环境中获取新的状态和奖励,其中奖励反映了目标追踪成功的程度。当前状态、动作、奖励以及新的状态被存储到经验回放池中,用于后续的训练过程。
经验回放和更新网络参数:从经验回放池中随机抽取经验,计算目标Q值和预测Q值之间的差距,然后根据差距更新深度Q网络的参数。这个过程使用反向传播算法和优化方法(如梯度下降)来调整网络的权重,以使预测的Q值逼近目标Q值。
更新后的深度Q网络作为目标网络输出:经过一定的训练迭代后,深度Q网络的参数被更新,形成了更新后的网络模型。这个更新后的深度Q网络被用作目标网络,用于在后续的目标跟踪任务中进行决策和行动选择。
通过使用深度Q网络和经验回放技术,可以实现目标跟踪算法的训练和优化。深度Q网络能够学习到最优的行动策略,并通过不断更新网络参数来提升算法的性能。经验回放池的使用可以提高样本的利用效率和训练的稳定性,同时避免对连续样本的依赖。这种基于强化学习的目标跟踪算法可以有效地进行视觉感知和目标追踪任务。
当前状态下,执行动作/>所获得的/>值等于当前奖励/>加上下一个状态/>中能够获得的最大/>值,乘以折扣因子/>。这个公式描述了DQN的基本思想,即通过不断迭代更新/>值,使得/>值逼近最优的动作价值函数,从而实现智能体在MDP中的决策策略。
在训练过程中,DQN使用经验回放和目标网络等技术来提高稳定性和收敛性。目标网络就是公式中所描述的部分的/>网络,它是一份冻结的网络,用于生成目标/>值,以减少训练中的波动。经验回放则是为了减小样本之间的相关性,从经验池中随机抽取样本用于训练,提高了训练的效率和稳定性。
实施例9:使用如下公式,根据差距更新深度Q网络的参数:
其中,为深度Q网络的参数,/>为学习率,/>为为差距。
具体的,这个更新规则使用了梯度下降法来更新深度Q网络的参数。通过计算目标Q值与预测Q值之间的差距,并将其乘以学习率/>和参数的梯度/>,可以得到参数的调整量。然后,将调整量与当前参数/>相加,得到更新后的参数/>
这个更新过程的目的是使得深度Q网络的预测Q值逐渐逼近目标Q值,从而提高深度Q网络的性能和准确度。学习率决定了参数更新的步长,梯度/>指示了参数更新的方向。通过不断迭代这个更新过程,深度Q网络可以逐渐学习到更准确的Q值函数,从而改善目标跟踪算法的性能。
这种更新深度Q网络参数的方法结合了强化学习中的梯度下降法和Q-learning算法。通过使用梯度下降法来优化网络参数,使得预测Q值与目标Q值之间的差距减小。这种参数更新方法在强化学习中被广泛应用,能够提高算法的收敛性和学习效率。通过将这种方法应用于深度Q网络的训练中,可以有效地提升目标跟踪算法的性能和稳定性。
实施例10:所述深度Q网络的目标函数的梯度公式使用如下公式进行表示:
其中,是目标函数,/>是期望值,其中的/>表示状态s和动作a是根据策略/>选取的;这个期望值是在所有可能的状态和动作上的平均值;/>是Q值关于网络参数/>的梯度;/>是目标Q值,表示在状态/>下执行动作/>后获得的即时奖励/>,以及执行最佳动作/>后预期得到的新的奖励;其中,/>是新的奖励的折扣因子;/>是预测的Q值,表示网络当前预测在状态/>下执行动作/>能得到的总奖励。
具体的,公式中的表示Q值关于网络参数/>的梯度。它表示目标函数对网络参数的变化率,用于指导参数的更新。
是目标Q值,它表示在状态/>下执行动作/>后获得的即时奖励/>,以及执行最佳动作/>后预期得到的新奖励。其中,/>是新奖励的折扣因子。通过计算目标Q值与预测Q值之间的差距,可以获得梯度更新的方向和大小。
这个梯度公式的作用是根据目标Q值和预测Q值之间的差距来计算目标函数对网络参数的梯度。通过计算这个梯度,可以指导深度Q网络的参数更新,使得预测的Q值逐渐逼近目标Q值,从而提高目标跟踪算法的性能。
这个梯度公式的创造性在于将目标Q值与预测Q值之间的差距与网络参数的梯度相乘,得到目标函数的梯度。通过这种方式,可以将差距信息反馈到参数更新中,引导网络向着更准确的Q值函数逼近。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.跨行业通用的智能机器视觉感知方法,其特征在于,所述方法包括:
步骤1:使用通用图像获取装置获取行业待处理图像,将行业待处理图像进行标准化处理,具体包括:将行业待处理图像按照设定进行图像分割,以得到多个面积大小为的分割图像;再将每个分割图像进行图像周围区域填充,以得到面积大小为/>的扩张图像;
步骤2:将扩张图像作为原始图像输入到3D图像重构模型中;所述3D图像重构模型从原始图像中提取出特征点,然后根据特征点和通用图像获取装置的固定参数,计算深度信息,基于深度信息重建出原始图像的三维结构;
步骤3:对得到的三维结构进行特征抽取,具体包括:将得到的三维结构通过全连接层计算出三维结构的查询矩阵、键矩阵和值矩阵,再基于查询矩阵、键矩阵和值矩阵计算得到自注意力矩阵;再计算自注意矩阵的注意力权重矩阵;将注意力权重矩阵与值矩阵相乘得到输出的特征图,作为特征抽取的结果;
步骤4:使用强化学习的目标跟踪算法对特征图进行分析,以得到目标网络,具体包括:初始化一个深度Q网络,然后使用深度Q网络接收特征图和通用图像获取装置获取行业待处理图像时采取的行动,将所有特征图视为环境,每个特征图视为状态,将行动视为动作;执行深度Q网络的目标函数的计算,具体包括:计算出每个动作的Q值,选择Q值最大的动作进行执行,并从环境中获取新的状态和奖励;奖励表征了反映目标追踪成功的程度,将当前的状态、动作、奖励和新的状态存储到经验回放池中;从经验回放池中随机抽取经验,计算目标Q值和预测Q值之间的差距,然后根据差距更新深度Q网络的参数;将更新后的深度Q网络作为目标网络进行输出;
步骤5:使用目标网络对新的特征图进行处理,以输出视觉感知的结果。
2.如权利要求1所述的跨行业通用的智能机器视觉感知方法,其特征在于,所述通用图像获取装置为相机;所述通用图像获取装置的固定参数至少包括:焦距、基线长度和视差值。
3.如权利要求2所述的跨行业通用的智能机器视觉感知方法,其特征在于,所述步骤2具体包括:将扩张图像表示为,输入到3D图像重构模型中,其中/>、/>和/>分别表示图像的高度、宽度和通道数;3D图像重构模型使用特征点提取算法从扩张图像中提取关键点,得到关键点集合为/>,其中/>表示第/>个关键点的坐标;根据关键点/>的坐标,通过以下公式计算每个关键点的深度值/>
其中,是相机的焦距,/>是相机的基线长度,/>是关键点/>的视差值;/>为扩张图像的像素个数;根据得到的关键点的坐标/>和对应的深度值/>,构建三维点云,得到三维点云的集合为/>,其中每个点/>表示一个三维点的坐标,得到原始图像的三维结构。
4.如权利要求3所述的跨行业通用的智能机器视觉感知方法,其特征在于,所述步骤3具体包括:使用卷积神经网络对三维点云集合进行特征提取,得到提取的特征;再将提取的特征经过卷积神经网络提取的全连接层进行线性变换,得到变换后的特征,其中/>是点云中点的数量,/>是特征的维度;根据变换后的特征/>,计算得到查询矩阵/>、键矩阵/>和值矩阵/>;再使用如下公式,基于查询矩阵/>、键矩阵/>和值矩阵/>计算得到自注意力矩阵/>
其中,是自注意力矩阵,表示每个点与其他点之间的注意力权重;/>是softmax函数,用于归一化注意力权重;/>为查询矩阵/>、键矩阵/>和值矩阵/>的特征维度;再使用如下公式计算自注意力矩阵的注意力权重矩阵:
其中,表示求矩阵自注意力矩阵/>的行列式运算;/>为自注意力矩阵的注意力权重矩阵;||为求绝对值运算;将注意力权重矩阵与值矩阵相乘得到输出的特征图,作为特征抽取的结果为:
其中,是特征抽取后的结果,为输入的特征图。
5.如权利要求4所述的跨行业通用的智能机器视觉感知方法,其特征在于,所述查询矩阵、键矩阵/>和值矩阵/>的计算,使用如下公式:
其中,、/>、/>是全连接层的权重矩阵,/>是查询矩阵/>、键矩阵/>和值矩阵/>的特征维度。
6.如权利要求5所述的跨行业通用的智能机器视觉感知方法,其特征在于,所述将提取的特征经过卷积神经网络提取的全连接层进行线性变换,得到变换后的特征的方法包括:将提取的特征/>展平为一个二维矩阵,得到/>的形状为/>,将其首先进行展平,变换为形状为/>的矩阵/>,其中/>是展平后的特征维度;使用如下公式对展平后的矩阵/>进行线性变换:
其中,是权重矩阵,/>是变换后的特征维度;/>是偏置向量。
7.如权利要求6所述的跨行业通用的智能机器视觉感知方法,其特征在于,所述通用图像获取装置获取行业待处理图像时采取的行动包括:通用图像获取装置的移动、通用图像获取装置的焦距的改变、通用图像获取装置的曝光系数的改变。
8.如权利要求7所述的跨行业通用的智能机器视觉感知方法,其特征在于,所述步骤4具体包括:初始化一个深度Q网络,得到深度Q网络的表达式为:
其中,其中是深度Q网络的行动价值函数,/>是当前状态,/>是当前行动,/>是当前奖励,/>是新的奖励的折扣因子,/>是下一个状态,/>是下一个行动;然后使用深度Q网络接收特征图和通用图像获取装置获取行业待处理图像时采取的行动,将所有特征图视为环境,每个特征图视为状态,将行动视为动作;执行深度Q网络的目标函数的计算,具体包括:计算出每个动作的Q值,选择Q值最大的动作进行执行,并从环境中获取新的状态和奖励;奖励表征了反映目标追踪成功的程度,将当前的状态、动作、奖励和新的状态存储到经验回放池中;从经验回放池中随机抽取经验,计算目标Q值和预测Q值之间的差距,然后根据差距更新深度Q网络的参数;将更新后的深度Q网络作为目标网络进行输出;/>表示在下一个状态/>中,选择能够最大化/>值的动作/>
9.如权利要求8所述的跨行业通用的智能机器视觉感知方法,其特征在于,使用如下公式,根据差距更新深度Q网络的参数:
其中,为深度Q网络的参数,/>为学习率,/>为为差距。
10.如权利要求9所述的跨行业通用的智能机器视觉感知方法,其特征在于,所述深度Q网络的目标函数的梯度公式使用如下公式进行表示:
其中,是目标函数,/>是期望值,其中的/>表示状态s和动作a是根据策略/>选取的;这个期望值是在所有可能的状态和动作上的平均值;/>是Q值关于网络参数/>的梯度;/>是目标Q值,表示在状态/>下执行动作/>后获得的即时奖励/>,以及执行最佳动作/>后预期得到的新的奖励;其中,/>是新的奖励的折扣因子;/>是预测的Q值,表示网络当前预测在状态/>下执行动作/>能得到的总奖励。
CN202311049573.9A 2023-08-21 2023-08-21 跨行业通用的智能机器视觉感知方法 Active CN116805353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311049573.9A CN116805353B (zh) 2023-08-21 2023-08-21 跨行业通用的智能机器视觉感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311049573.9A CN116805353B (zh) 2023-08-21 2023-08-21 跨行业通用的智能机器视觉感知方法

Publications (2)

Publication Number Publication Date
CN116805353A CN116805353A (zh) 2023-09-26
CN116805353B true CN116805353B (zh) 2023-10-31

Family

ID=88080839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311049573.9A Active CN116805353B (zh) 2023-08-21 2023-08-21 跨行业通用的智能机器视觉感知方法

Country Status (1)

Country Link
CN (1) CN116805353B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117221736B (zh) * 2023-11-09 2024-01-26 成都中轨轨道设备有限公司 低照度亮清采集的自动调节ai相机系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190720A (zh) * 2018-07-28 2019-01-11 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN111738964A (zh) * 2020-08-17 2020-10-02 成都中轨轨道设备有限公司 一种基于建模的图像数据增强的方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190720A (zh) * 2018-07-28 2019-01-11 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN111738964A (zh) * 2020-08-17 2020-10-02 成都中轨轨道设备有限公司 一种基于建模的图像数据增强的方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Making History Matter: History-Advantage Sequence Training for Visual Dialog;Yang, TH等;《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV 2019) 》;2561-2569 *
基于深度学习的图像描述算法研究;朱欣鑫;《中国博士学位论文全文数据库》(第8期);1-113 *

Also Published As

Publication number Publication date
CN116805353A (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
Chiang et al. Stylizing 3d scene via implicit representation and hypernetwork
CN111598998B (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
Yan et al. Ddrnet: Depth map denoising and refinement for consumer depth cameras using cascaded cnns
Fischer et al. Flownet: Learning optical flow with convolutional networks
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
CN110381268B (zh) 生成视频的方法,装置,存储介质及电子设备
CN111325851A (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
CN112837344B (zh) 一种基于条件对抗生成孪生网络的目标跟踪方法
CN116805353B (zh) 跨行业通用的智能机器视觉感知方法
CN111489394B (zh) 物体姿态估计模型训练方法、系统、装置及介质
US20230169677A1 (en) Pose Estimation Method and Apparatus
CN113822993B (zh) 一种基于3d模型匹配的数字孪生方法和系统
CN113065546A (zh) 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统
US12026892B2 (en) Figure-ground neural radiance fields for three-dimensional object category modelling
CN114429555A (zh) 由粗到细的图像稠密匹配方法、系统、设备及存储介质
KR20230137991A (ko) 잠재 변수들에 따라 조절된 지오메트리 인식 신경 네트워크를 사용하여 장면들의 새로운 이미지 렌더링
BR102020027013A2 (pt) Método para gerar uma imagem multiplano adaptativa a partir de uma única imagem de alta resolução
CN112419191A (zh) 基于卷积神经网络的图像运动模糊去除方法
CN111739064A (zh) 用于视频中目标跟踪的方法及存储设备和控制设备
CN114170290A (zh) 图像的处理方法及相关设备
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN116993947B (zh) 一种三维场景可视化展示方法及系统
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
KR20230083212A (ko) 객체 자세 추정 장치 및 방법
Li et al. Image reflection removal using the wasserstein generative adversarial network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant