CN115188378A - 一种基于语音交互的目标识别视觉测距方法及系统 - Google Patents
一种基于语音交互的目标识别视觉测距方法及系统 Download PDFInfo
- Publication number
- CN115188378A CN115188378A CN202210789741.7A CN202210789741A CN115188378A CN 115188378 A CN115188378 A CN 115188378A CN 202210789741 A CN202210789741 A CN 202210789741A CN 115188378 A CN115188378 A CN 115188378A
- Authority
- CN
- China
- Prior art keywords
- camera
- target object
- target
- distortion
- coordinate system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000000007 visual effect Effects 0.000 title claims abstract description 37
- 230000003993 interaction Effects 0.000 title claims abstract description 26
- 238000005259 measurement Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 11
- 230000010354 integration Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语音交互的目标识别视觉测距方法及系统,首先对摄像头进行标定以获得摄像头的各种参数,获取的参数存入系统供测距部分使用,然后将输入的语音识别为文字,再与实时视频一并送入目标检测网络中进行特定目标的识别与标识,最后对物体进行测距以明确摄像头与物体之间的距离从而为实现居家机器人抓取目标提供一种系统上的辅助。该系统综合了语音和计算机视觉在各自领域的优势,以图像识别为基础,融合语音以及测距技术实现对场景内目标物的精确判断和位置信息的获取。通过语音图像之间的交叉互补,能够减少系统的时间复杂度,能有效地提高居家机器人的实用性,为人机交互领域的指令识别与执行提供了一种新的集成方法和系统。
Description
技术领域
本发明属于语音识别与计算机视觉领域,涉及一种基于语音交互的目标识别视觉测距方法及系统。
背景技术
语言是人类交流的桥梁,在传达信息方面起着至关重要的作用。同样,能够听懂并作出回应实现某种目的也是人们交流的原因。随着科学技术和人类社会的不断进步,人们对美好生活的需求日益增长,人们越来越需要从繁杂琐碎的任务中解脱出来。于是智能机器应运而生,其在家庭中的应用已形成了稳定正常的市场。人们不仅仅是需要一个靠按钮实现某些简单特定的功能,而是希望机器能像“人”一样听懂指令并完成目标的寻找与定位。这很大程度上减轻了老人的负担以及家庭中子女照顾老人的压力。
图像识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。简单来说,图像识别就是计算机如何像人一样读懂图片的内容。借助图像识别技术,我们不仅可以通过图片搜索更快的获取信息,还可以产生一种新的与外部世界交互的方式,甚至会让外部世界更加智能的运行。现在随着图形识别技术的不断进步,越来越多的科技公司开始涉及图形识别领域,这标志着读图时代正式到来,并且将引领我们进入更加智能的未来。
机器视觉测距作为人工智能的一个分支,近些年由于图像识别技术的兴起正在得到飞速高且高效的发展。在图像测量过程以及机器视觉应用中,为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系,必须建立相机成像的几何模型,这些几何模型参数就是相机参数。在大多数条件下这些参数必须通过实验与计算才能得到,这个求解参数的过程就称之为相机标定(或摄像头标定)。无论是在图像测量或者机器视觉应用中,相机参数的标定都是非常关键的环节,其标定结果的精度及算法的稳定性直接影响相机工作产生结果的准确性。因此,做好相机标定是做好后续工作的前提,提高标定精度是科研工作的重点所在。计算机视觉技术广泛地应用于机器人控制、无人驾驶、非接触测量以及航天探测等诸多领域,因而计算机视觉技术已成为国内外高校和科研院所的研究热点。机器视觉,本质上是用机器的识别方式来代替人眼功能的一种方式,对前方物体做出识别和测量。基于机器视觉的测距算法,机器视觉测距所采集数据的方式为动态测距,与现如今市面上的测距仪器数据采集的类别相比,例如微波雷达、激光雷达、超声波雷达相比,其采集信息的方式相对是不可侵犯的,对外界环境信号传播相对保守,该测距方式采用类似人眼感知的视觉方式,便于视觉化、立体化,也更方便快捷,同时该测距方式应用范围广,特别是智能家居系统中。除此之外,计算机视觉系统中的主要传感器为价格相对较低的摄像头,因此研究计算机视觉技术不仅存在理论价值,更具备广阔的产业化和商业化前景。
目前,人工智能领域得到了飞速的发展,如何让机器快速地理解人类表达的意思并执行立体空间的物体捕获是学术界的一项热门课题。然而现今还只停留在单模态如语音或图像的识别上,能综合各种模态的语音视觉测距系统还有待发展,人类在日常生活中寻找某一物体往往是先在场景中寻找并直接判断出物体的大致方位,但是机器不一样,它们首先需要识别指令,然后再识别目标,但是对于方位的判断受于维度限制无法准确判断。因此一种能让机器听取指令并视觉测距的系统显得尤为重要且节省操作时间。本发明针对开发人机交互系统的需求,提出一种基于语音识别、图像检测与视觉测距的多模态融合系统。
发明内容
技术问题:针对开发人机交互系统的需求,提出一种基于语音交互的目标识别及视觉测距方法及系统,解决居家场景下语言指定目标测距的问题,为居家服务机器人领域的实际应用提出一种新方法。
技术方案:一种基于语音交互的目标识别及视觉测距方法:
通过麦克风采集说话者语音,所述语音包含指定的目标物;
对语音进行识别并将其转换为文本;
通过摄像头采集包含目标物的场景下实时视频;
通过预先构建的摄像头标定模型获取摄像头各参数;
将识别好的语音文本以及实时视频送入预先构建的目标检测网络;
目标检测网络基于识别好的语音文本对实时视频中的目标物进行标注并显示;
将摄像头各参数和目标物的标注输入预先构建的测距模型,测距模型计算目标物到摄像头的距离;
识别出说话者语音中指定的目标物并附有目标物与摄像头的距离。
进一步地,所述摄像头标定模型的构建过程为:
选取棋盘格作为标定物,然后在世界坐标系下固定摄像头的位置,在距摄像头已知距离处放置棋盘格,通过调整棋盘格平面的位置、方向和角度,用摄像头拍摄不同位置、方向和角度的棋盘格照片;接着从照片中提取棋盘格角点并计算,再计算理想无畸变的情况下由世界坐标系到像素坐标系的各变换矩阵参数;如果有畸变应用最小二乘法计算实际存在径向畸变下的畸变系数;摄像头的畸变为径向畸变和切向畸变,应用最小二乘法计算实际存在径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2;根据实际的像素坐标和计算得到的像素坐标计算重投影误差;利用LM算法进行最小值优化重投影误差,反复迭代摄像头的内外参数和畸变系数,直至收敛;最后将计算得到的内参矩阵、外参矩阵、畸变系数、旋转矩阵、平移矩阵作为摄像头各参数输出。
进一步地,说话者的语音送入基于Transformer的语音识别网络中进行识别并将其转换为文本。
进一步地,目标检测网络对符合条件的目标物进行标注的过程为:
使用视觉编码器从视频中抽取每一帧的特征,同时采用文本编码器获得文本描述的语言特征,语言特征进行平均池化后获得的向量即为句特征;
再用Transformer编码器进一步建模视频帧的多尺度特征;在解码器部分,定义了N个可学习特征作为query,且为所有帧共享;同时,对上述句特征复制N次,query和句特征共同作为解码器的输入;所有query都会在语言的指引下仅仅关注于目标对象,通过在解码器中进行query和视觉特征的交互,每一帧上均获得含有目标信息的N个表征,对于整个视频,则共有Nq个表征;
然后再进行跨模态FPN;视觉特征与文本特征以互注意力的形式进行多尺度、细粒度交互;
对于每一帧上获得的N个表征,分别通过class head,box head,mask head生成其对应的二分类概率,边界框以及动态卷积核参数;边界框作为relative coordinate特征添加至FPN的输出特征中,获得每个query对应的卷积特征图,目标mask的生成通过动态卷积得到;
每一帧上对应位置的query追踪的是同一实例,将相对应的query进行连接,获得属于同一实例的序列;
由于视频中仅含有一个目标物体,对于每个真实物体,只有最小代价的一个样本被标记为正样本,其余为负样本;因此采用最小代价匹配进行正样本分配,损失函数包括二分类损失,边界框损失以及掩码损失:
其中为二分类损失函数,为边界框损失函数,为掩码损失函数,λcls、λbox、λmask分别为分类损失函数、边界框损失函数、掩码损失函数对应的系数;计算每个实例序列在所有帧上的平均得分,选择分数最高的实例序列,其索引为σ,σ=argmaxi∈{1,2,3,...,N}Pi;
输出其对应的mask序列,即为目标物的标注。
进一步地,测距模型计算目标物到摄像头的距离的过程为:
通过摄像头的外参矩阵R、T,径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2以及内参矩阵
通过目标物的标注,提取目标物所在区域,计算出该区域像素坐标纵坐标最大值,及其对应的横坐标的平均值,将组合得到的坐标作为像素坐标系下的观测点;
由观测点的像素坐标(u,v)获得观测点在世界坐标系下的三维坐标值Pw(Xw,Yw,Zw),计算出观测点的距离:
将像素坐标系转换到图像坐标系,其关系如下:
图像坐标系的目标宽度w′由像素坐标(u,v)与图像坐标(x,y)的关系式基于两个像素坐标点(u1,v1)和(u2,v2)计算得到两个图像坐标系下的坐标点(x1,y1)和(x2,y2),再通过欧式距离计算得到w′;
图像坐标系与世界坐标系之间的关系如下:
根据如下公式计算距离:
其中D表示目标物到摄像头的距离,f表示焦距,W表示世界坐标系下的目标宽度,w′表示图像坐标系下的目标宽度。
相应地,一种基于语音交互的目标识别及视觉测距系统,包括:
麦克风:用于采集说话者语音,所述语音包含指定的目标物;
语音识别模块:用于对语音进行识别并将其转换为文本;
摄像头:用于采集包含目标物的场景下实时视频;
摄像头标定模块:用于输出摄像头各参数;
目标检测网络:用于基于识别好的语音文本对实时视频中的目标物进行标注并显示;
测距模型:用于基于摄像头各参数和目标物的标注计算目标物到摄像头的距离;
输出模块:用于识别出说话者语音中指定的目标物并附有目标物与摄像头的距离。
进一步地,所述摄像头标定模块输出摄像头各参数的过程为:
选取棋盘格作为标定物,然后在世界坐标系下固定摄像头的位置,在距摄像头已知距离处放置棋盘格,通过调整棋盘格平面的位置、方向和角度,用摄像头拍摄不同位置、方向和角度的棋盘格照片;接着从照片中提取棋盘格角点并计算,再计算理想无畸变的情况下由世界坐标系到像素坐标系的各变换矩阵参数;如果有畸变应用最小二乘法计算实际存在径向畸变下的畸变系数;摄像头的畸变为径向畸变和切向畸变,应用最小二乘法计算实际存在径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2;根据实际的像素坐标和计算得到的像素坐标计算重投影误差;利用LM算法进行最小值优化重投影误差,反复迭代摄像头的内外参数和畸变系数,直至收敛;最后将计算得到的内参矩阵、外参矩阵、畸变系数、旋转矩阵、平移矩阵作为摄像头各参数输出。
进一步地,所述语音识别模块采用基于Transformer的语音识别网络识别说话者的语音并将其转换为文本。
进一步地,所述目标检测网络对实时视频中的目标物进行标注的过程为:
使用视觉编码器从视频中抽取每一帧的特征,同时采用文本编码器获得文本描述的语言特征,语言特征进行平均池化后获得的向量即为句特征;
再用Transformer编码器进一步建模视频帧的多尺度特征;在解码器部分,定义了N个可学习特征作为query,且为所有帧共享;同时,对上述句特征复制N次,query和句特征共同作为解码器的输入;所有query都会在语言的指引下仅仅关注于目标对象,通过在解码器中进行query和视觉特征的交互,每一帧上均获得含有目标信息的N个表征,对于整个视频,则共有Nq个表征;
然后再进行跨模态FPN;视觉特征与文本特征以互注意力的形式进行多尺度、细粒度交互;
对于每一帧上获得的N个表征,分别通过class head,box head,mask head生成其对应的二分类概率,边界框以及动态卷积核参数;边界框作为relative coordinate特征添加至FPN的输出特征中,获得每个query对应的卷积特征图,目标mask的生成通过动态卷积得到;
每一帧上对应位置的query追踪的是同一实例,将相对应的query进行连接,获得属于同一实例的序列;
由于视频中仅含有一个目标物体,对于每个真实物体,只有最小代价的一个样本被标记为正样本,其余为负样本;因此采用最小代价匹配进行正样本分配,损失函数包括二分类损失,边界框损失以及掩码损失:
其中为二分类损失函数,为边界框损失函数,为掩码损失函数,λcls、λbox、λmask分别为分类损失函数、边界框损失函数、掩码损失函数对应的系数;计算每个实例序列在所有帧上的平均得分,选择分数最高的实例序列,其索引为σ,σ=argmaxi∈{1,2,3,...,}Pi;
输出其对应的mask序列,即为目标物的标注。
进一步地,所述测距模型计算目标物到摄像头的距离的过程为:
通过摄像头的外参矩阵R、T,径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2以及内参矩阵
通过目标物的标注,提取目标物所在区域,计算出该区域像素坐标纵坐标最大值,及其对应的横坐标的平均值,将组合得到的坐标作为像素坐标系下的观测点;
由观测点的像素坐标(u,v)获得观测点在世界坐标系下的三维坐标值Pw(Xw,Yw,Zw),计算出观测点的距离:
将像素坐标系转换到图像坐标系,其关系如下:
图像坐标系的目标宽度w′由像素坐标(u,v)与图像坐标(x,y)的关系式基于两个像素坐标点(u1,v1)和(u2,v2)计算得到两个图像坐标系下的坐标点(x1,y1)和(x2,y2),再通过欧式距离计算得到w′;
图像坐标系与世界坐标系之间的关系如下:
根据如下公式计算距离:
其中D表示目标物到摄像头的距离,f表示焦距,W表示世界坐标系下的目标宽度,w′表示图像坐标系下的目标宽度。
有益效果:本发明通过语音识别与图像识别的深度融合及视觉测距技术的应用,减少了操作步骤的冗余性并节省了系统反应时间,加强了语音图像之间的关联性,在目标识别过程中,能有效地对目标物进行识别标注,增强了目标的空间定位特性,为人机交互领域的情感交流系统提供了一种新的方法和途径。
与现有的方法相比,本发明的优点在于:
(1)居家服务机器人现有技术依靠各类距离传感器来实现居家场景下机器人的测距移动,这样的技术成本高、系统复杂,一旦传感器被干扰便会出现故障。本发明只需利用摄像头就能进行距离测量,提供了一种融合语音、计算机视觉、距离计算的集成系统。具有成本低、操作简便、系统集成度高的优点。
(2)在目标检测阶段,将语言描述作为查询条件,在视频中仅仅关注于参考目标,且通过连接不同帧上相对应的查询即可完成目标的追踪,无需进行后处理。语音与图像和视觉测距融合方法的应用,加深了数据之间的关联性,增强了系统的集成性。
附图说明
图1是本发明的一种基于语音交互的目标识别视觉测距方法流程示意图;
图2是像素坐标系与图像坐标系示意图;
图3是相机的针孔成像模型示意图;
图4是四个坐标系之间的关系示意图;
图5是相机标定需要用到的棋盘格图案的标定靶示意图。
具体实施方式
如图1-5所示,本发明的基于语音交互的目标识别视觉测距方法包含以下步骤:
A、相机标定的目的是确定相机的一些参数。这些参数可以建立世界坐标系到像素坐标系的映射关系,然后在测距部分就可以利用这个映射关系反推物体世界坐标系。标定中首先定义四个坐标系,即像素坐标系(u,v)、图像物理坐标系(x,y)、摄像头坐标系(Xc,Yc,Zc)和世界坐标系(Xw,Yw,Zw)。然后在世界坐标系下固定摄像头的位置,在距摄像头已知距离处放置一张棋盘格纸,通过调整棋盘格的位置、方向和角度,用摄像头拍摄一系列不同位置、方向和角度的棋盘格照片。接着从照片中提取棋盘格角点,再估算理想无畸变的情况下,由世界坐标系到像素坐标系的各变换矩阵参数。简单来说是从世界坐标系变换到图像坐标系的过程,也就是求最终的投影矩阵的过程。如果有畸变应用最小二乘法估算实际存在径向畸变下的畸变系数。最后将计算得到的内参矩阵、外参矩阵、畸变系数、旋转矩阵、平移矩阵等参数存入系统供后续的测距系统使用。包括以下三个部分:
A1、打印一张棋盘格,把它贴在一个平面上,作为标定物。通过调整标定物或摄像头的方向,为标定物拍摄一些不同位置、方向和角度的照片(15张左右)。从每张照片中提取棋盘格角点并计算。这里的角点专指的是标定板上的内角点,这些角点与标定板的边缘不接触。棋盘格行列规格为5×7,尺寸为14cm×10cm,每个方格大小为2cm×2cm。见说明书附录图5。
A2、计算过程中由于棋盘格纸是一个平面,只有二维坐标,因此ZW为0。根据几何光学约束关系,求解摄像头各参数,迭代已求解参数。根据像素坐标系与世界坐标系的关系求解各参数:
其中R为3*3的旋转矩阵(R3为0,因为标定板平面落在世界坐标系Z=0的平面上),将旋转矩阵R的前两列记为R1和R2,T为3*1的平移矢量,Zc为三维点在相机坐标系中深度值,f为摄像头的焦距,(u0,v0)为图像中心点的像素坐标,dx和dy分别表示每个像素在横轴x和纵轴y的物理尺寸。A为摄像头内参矩阵。
式中H为非满秩的齐次矩阵,独立的未知元素为8个。由于每个角点都可以提供两个约束方程,当一张图片上角点数量大于或等于4时,通过最小二乘线性求解可得对应的齐次矩阵H。
由于R1和R2满足单位正交的关系,则
根据H和R的关系可知:
R1=A-1H1,R2=A-1H2 (6)
将等式(6)带入等式(4)和等式(5)可得:
令A-TA-1=B,可得
由上式可知,B是一个对称阵,六维向量表示为:
b==[B11B12B13B22B23B33]T (10)
式中vij=[Hi1Hj1Hi1Hj2+Hi2Hj1Hi2Hj2Hi3Hj1+Hi1Hj3Hi3Hj2+Hi2Hj3Hi3Hj3]
摄像头内参的基本约束等式可重写为:
由于齐次矩阵H已知,矩阵v由H元素组成,因此矩阵v可以被求得。每张标定图像会提供两个约束方程,b有6个未知数,因此三张标定样张可求出b。当标定样张数多于三张时,采用最小二乘求解最优值。摄像头内部参数可表示为
求得摄像头的内参,接下来进行外参求取。根据A·(R1R2|T)=H,求得每一张样张对应的(R1R2|T)。根据R1、R2和R3的空间方位关系,可得:
R3=R1×R2=0 (14)
此时R1、R2、T均可根据矩阵运算求出。完成内参和外参求取后,接下来标定镜头畸变。摄像头一般都有畸变(径向畸变和切向畸变)畸变还有其他类型的畸变,但是没有径向畸变、切向畸变显著。径向变形会导致直线出现弯曲。距图像中心越远,径向畸变越大。径向畸变可以表示成如下:
同样,由于摄像镜头未完全平行于成像平面对齐,因此也会发生切向畸变,造成图像中的某些区域看起来可能比预期的要近。切向畸变可以表示为:
其中,k1和k2是径向畸变系数,p1和p2是切向畸变系数,r2=x2+y2。应用最小二乘法估算实际存在径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2。然后再用极大似然法,优化估计,提升估计精度。
A3、摄像头的内参、外参和畸变系数等被求出后只能作为初值,接下来根据实际的像素坐标和计算得到的像素坐标计算重投影误差。利用LM(Levenberg-Marquarelt)算法进行最小值优化重投影误差,反复迭代摄像头的内外参数和畸变系数,直至收敛。
B、对于每一个输入的语音向量,首先我们需要根据输入向量生成三个新的向量:Q(Query)、K(Key)、V(Value),其中Query向量表示为了编码当前词需要去注意(attend to)的其他词(包括当前词语本身),Key向量表示当前词用于被检索的关键信息,而Value向量是真正的内容。三个向量都是以当前词的Embedding向量为输入,经过不同的线性层变换得到的。
然后需要对它们做Word Embedding,得到对应的词向量表示x1,x2再将对应的词向量分别通过三个不同的矩阵进行线性变换,得到对应的向量q1,k1,v1和q2,k2,v2。为了使得Query和Key向量能够做内积,模型要求WK、WQ的大小是一样的,而对WV的大小并没有要求。
q1=x1*W1 0,k1=x1*W1 K,v1=x1*W1 V (18》
q2=x2*W2 Q,k2=x2*W2 K,v2=x2*W2 V (20)
在得到所有的输入对应的qi、ki、vi向量后,对其进行线性变换得到Query向量矩阵、Key向量矩阵和Value向量矩阵。接下来再利用Q、K、V计算Score矩阵,通过将Score矩阵除以进行Scale操作,再对结果按行进行Softmax,利用得到的概率分布得到最后的编码矩阵。
C、将识别的文字文本与场景视频或者实时视频送入检测网络,再对其进行处理。步骤如下:
C1、使用视觉编码器从视频中抽取每一帧的特征,同时采用文本编码器获得文本描述的语言特征,该特征进行平均池化后获得的向量即为句特征。
C2、用Transformer编码器进一步建模视频帧的多尺度特征;在解码器部分,定义了N个可学习特征作为query,且为所有帧共享。同时,对上述句特征复制N次,query和句特征共同作为解码器的输入。在这种方式下,所有query都会在语言的指引下仅仅关注于目标对象,因此本文将此查询称为“条件查询(conditional query)”。得益于该设计,模型采用很少数量(默认为5)的query即可获得很好的效果。最终,通过在解码器中进行query和视觉特征的交互,每一帧上均获得含有目标信息的N个表征,对于整个视频,则共有Nq个表征。
C3、再进行跨模态FPN。在这一部分,视觉特征与文本特征以互注意力的形式进行多尺度、细粒度交互,可以获得更好的分割效果。这一过程中,FPN产生了语义丰富、高分辨率的特征图送入后续分割模块。
C4、在实例分割生成这一步骤,对于前述每一帧上获得的N个表征,首先分别通过class head,box head,mask head生成其对应的二分类概率,边界框以及动态卷积核参数。边界框作为relative coordinate特征添加至FPN的输出特征中,获得每个query对应的卷积特征图,目标mask的生成通过动态卷积得到:
C5、最后进行训练和预测。每一帧上对应位置的query追踪的是同一实例,将相对应的query进行连接,即可获得属于同一实例的序列,从而自然地对目标进行各种而无需后处理。在训练和预测阶段,均以实例序列视为整体进行监督和输出。
在训练阶段,由于视频中仅含有一个目标物体,对于每个真实物体,只有最小代价的一个样本被标记为正样本,其余为负样本。因此采用最小代价匹配进行正样本分配,损失函数包括二分类损失,边界框损失以及掩码损失:
其中为二分类损失函数,为边界框损失函数,为掩码损失函数,λcls、λbox、λmask分别为分类损失函数、边界框损失函数、掩码损失函数对应的系数。在预测阶段,输入为一整段视频。首先计算每个实例序列在所有帧上的平均得分,选择分数最高的实例序列,其索引为σ,输出其对应的mask序列即可。
σ=argmaXi∈{1,2,3,...,N}Pi (24)
D、对于测距部分,首先根据摄像头标定原理,获得摄像头的内参矩阵;然后,采集含有目标的单帧图像,并根据步骤C图像中识别出的目标所在区域,计算出该区域像素坐标纵坐标最大值,及其对应的横坐标的平均值,将得到的坐标作为观测点;最后,基于图像像素点获得观测点在世界坐标系下的三维信息,根据观测点在世界坐标系下的三维信息计算观测点的距离。包括以下步骤:
D1、通过步骤A单目摄像头的标定,获取摄像头的外参矩阵R、T,径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2以及内参矩阵
D2、通过已标定的单目摄像头拍摄含有目标的单帧图像,并对获得的图像进行处理,提取目标区域,计算出该区域像素坐标纵坐标最大值,及其对应的横坐标的平均值,将组合得到的坐标作为像素坐标系下的观测点;
D3、根据摄像头标定原理,由观测点的像素坐标(u,v)可以获得观测点在世界坐标系下的三维坐标值Pw(Xw,Yw,Zw),进而可以计算出观测点的距离。包括以下步骤:
1)由步骤D1可以获得摄像头的内参矩阵,由步骤D2可以获得观测点的像素点,进一步将像素坐标系转换到图像坐标系,其关系如下:
图像坐标系的目标宽度w′可由像素坐标(u,v)与图像坐标(x,y)的关系式基于两个像素坐标点(u1,v1)和(u2,v2)计算得到两个图像坐标系下的坐标点(x1,y1)和(x2,y2),再通过欧式距离计算得到w′。
2)由于图像坐标系与世界坐标系之间的关系:
3)根据如下公式计算距离:
其中D表示测量目标与相机的距离,f表示焦距,W表示世界坐标系下的目标宽度,w′表示图像坐标系下的目标宽度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行一种基于语音交互的目标识别视觉测距方法。
一种计算设备,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行一种基于语音交互的目标识别视觉测距方法的指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (10)
1.一种基于语音交互的目标识别及视觉测距方法,其特征在于:
通过麦克风采集说话者语音,所述语音包含指定的目标物;
对语音进行识别并将其转换为文本;
通过摄像头采集包含目标物的场景下实时视频;
通过预先构建的摄像头标定模型获取摄像头各参数;
将识别好的语音文本以及实时视频送入预先构建的目标检测网络;
目标检测网络基于识别好的语音文本对实时视频中的目标物进行标注并显示;
将摄像头各参数和目标物的标注输入预先构建的测距模型,测距模型计算目标物到摄像头的距离;
识别出说话者语音中指定的目标物并附有目标物与摄像头的距离。
2.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法,其特征在于:所述摄像头标定模型的构建过程为:
选取棋盘格作为标定物,然后在世界坐标系下固定摄像头的位置,在距摄像头已知距离处放置棋盘格,通过调整棋盘格平面的位置、方向和角度,用摄像头拍摄不同位置、方向和角度的棋盘格照片;接着从照片中提取棋盘格角点并计算,再计算理想无畸变的情况下由世界坐标系到像素坐标系的各变换矩阵参数;如果有畸变应用最小二乘法计算实际存在径向畸变下的畸变系数;摄像头的畸变为径向畸变和切向畸变,应用最小二乘法计算实际存在径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2;根据实际的像素坐标和计算得到的像素坐标计算重投影误差;利用LM算法进行最小值优化重投影误差,反复迭代摄像头的内外参数和畸变系数,直至收敛;最后将计算得到的内参矩阵、外参矩阵、畸变系数、旋转矩阵、平移矩阵作为摄像头各参数输出。
3.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法,其特征在于:说话者的语音送入基于Transformer的语音识别网络中进行识别并将其转换为文本。
4.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法,其特征在于:目标检测网络对符合条件的目标物进行标注的过程为:
使用视觉编码器从视频中抽取每一帧的特征,同时采用文本编码器获得文本描述的语言特征,语言特征进行平均池化后获得的向量即为句特征;
再用Transformer编码器进一步建模视频帧的多尺度特征;在解码器部分,定义了N个可学习特征作为query,且为所有帧共享;同时,对上述句特征复制N次,query和句特征共同作为解码器的输入;所有query都会在语言的指引下仅仅关注于目标对象,通过在解码器中进行query和视觉特征的交互,每一帧上均获得含有目标信息的N个表征,对于整个视频,则共有Nq个表征;
然后再进行跨模态FPN;视觉特征与文本特征以互注意力的形式进行多尺度、细粒度交互;
对于每一帧上获得的N个表征,分别通过class head,box head,mask head生成其对应的二分类概率,边界框以及动态卷积核参数;边界框作为relative coordinate特征添加至FPN的输出特征中,获得每个query对应的卷积特征图,目标mask的生成通过动态卷积得到;
每一帧上对应位置的query追踪的是同一实例,将相对应的query进行连接,获得属于同一实例的序列;
由于视频中仅含有一个目标物体,对于每个真实物体,只有最小代价的一个样本被标记为正样本,其余为负样本;因此采用最小代价匹配进行正样本分配,损失函数包括二分类损失,边界框损失以及掩码损失:
其中为二分类损失函数,为边界框损失函数,为掩码损失函数,λcls、λbox、λmask分别为分类损失函数、边界框损失函数、掩码损失函数对应的系数;计算每个实例序列在所有帧上的平均得分,选择分数最高的实例序列,其索引为σ,σ=argmaxi∈{1,2,3,...,N}Pi;
输出其对应的mask序列,即为目标物的标注。
5.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法,其特征在于:测距模型计算目标物到摄像头的距离的过程为:
通过摄像头的外参矩阵R、T,径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2以及内参矩阵
通过目标物的标注,提取目标物所在区域,计算出该区域像素坐标纵坐标最大值,及其对应的横坐标的平均值,将组合得到的坐标作为像素坐标系下的观测点;
由观测点的像素坐标(u,v)获得观测点在世界坐标系下的三维坐标值Pw(Xw,Yw,Zw),计算出观测点的距离:
将像素坐标系转换到图像坐标系,其关系如下:
图像坐标系的目标宽度w′由像素坐标(u,v)与图像坐标(x,y)的关系式基于两个像素坐标点(u1,v1)和(u2,v2)计算得到两个图像坐标系下的坐标点(x1,y1)和(x2,y2),再通过欧式距离计算得到w′;
图像坐标系与世界坐标系之间的关系如下:
根据如下公式计算距离:
其中D表示目标物到摄像头的距离,f表示焦距,W表示世界坐标系下的目标宽度,w′表示图像坐标系下的目标宽度。
6.一种基于语音交互的目标识别及视觉测距系统,其特征在于,包括:
麦克风:用于采集说话者语音,所述语音包含指定的目标物;
语音识别模块:用于对语音进行识别并将其转换为文本;
摄像头:用于采集包含目标物的场景下实时视频;
摄像头标定模块:用于输出摄像头各参数;
目标检测网络:用于基于识别好的语音文本对实时视频中的目标物进行标注并显示;
测距模型:用于基于摄像头各参数和目标物的标注计算目标物到摄像头的距离;
输出模块:用于识别出说话者语音中指定的目标物并附有目标物与摄像头的距离。
7.根据权利要求6所述的一种基于语音交互的目标识别及视觉测距系统,其特征在于:所述摄像头标定模块输出摄像头各参数的过程为:
选取棋盘格作为标定物,然后在世界坐标系下固定摄像头的位置,在距摄像头已知距离处放置棋盘格,通过调整棋盘格平面的位置、方向和角度,用摄像头拍摄不同位置、方向和角度的棋盘格照片;接着从照片中提取棋盘格角点并计算,再计算理想无畸变的情况下由世界坐标系到像素坐标系的各变换矩阵参数;如果有畸变应用最小二乘法计算实际存在径向畸变下的畸变系数;摄像头的畸变为径向畸变和切向畸变,应用最小二乘法计算实际存在径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2;根据实际的像素坐标和计算得到的像素坐标计算重投影误差;利用LM算法进行最小值优化重投影误差,反复迭代摄像头的内外参数和畸变系数,直至收敛;最后将计算得到的内参矩阵、外参矩阵、畸变系数、旋转矩阵、平移矩阵作为摄像头各参数输出。
8.根据权利要求6所述的一种基于语音交互的目标识别及视觉测距系统,其特征在于:所述语音识别模块采用基于Transformer的语音识别网络识别说话者的语音并将其转换为文本。
9.根据权利要求6所述的一种基于语音交互的目标识别及视觉测距系统,其特征在于:所述目标检测网络对实时视频中的目标物进行标注的过程为:
使用视觉编码器从视频中抽取每一帧的特征,同时采用文本编码器获得文本描述的语言特征,语言特征进行平均池化后获得的向量即为句特征;
再用Transformer编码器进一步建模视频帧的多尺度特征;在解码器部分,定义了N个可学习特征作为query,且为所有帧共享;同时,对上述句特征复制N次,query和句特征共同作为解码器的输入;所有query都会在语言的指引下仅仅关注于目标对象,通过在解码器中进行query和视觉特征的交互,每一帧上均获得含有目标信息的N个表征,对于整个视频,则共有Nq个表征;
然后再进行跨模态FPN;视觉特征与文本特征以互注意力的形式进行多尺度、细粒度交互;
对于每一帧上获得的N个表征,分别通过class head,box head,mask head生成其对应的二分类概率,边界框以及动态卷积核参数;边界框作为relative coordinate特征添加至FPN的输出特征中,获得每个query对应的卷积特征图,目标mask的生成通过动态卷积得到;
每一帧上对应位置的query追踪的是同一实例,将相对应的query进行连接,获得属于同一实例的序列;
由于视频中仅含有一个目标物体,对于每个真实物体,只有最小代价的一个样本被标记为正样本,其余为负样本;因此采用最小代价匹配进行正样本分配,损失函数包括二分类损失,边界框损失以及掩码损失:
其中为二分类损失函数,为边界框损失函数,为掩码损失函数,λcls、λbox、λmask分别为分类损失函数、边界框损失函数、掩码损失函数对应的系数;计算每个实例序列在所有帧上的平均得分,选择分数最高的实例序列,其索引为σ,σ=argmaxi∈{1,2,3,...,N}Pi;
输出其对应的mask序列,即为目标物的标注。
10.根据权利要求6所述的一种基于语音交互的目标识别及视觉测距系统,其特征在于:所述测距模型计算目标物到摄像头的距离的过程为:
通过摄像头的外参矩阵R、T,径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2以及内参矩阵
通过目标物的标注,提取目标物所在区域,计算出该区域像素坐标纵坐标最大值,及其对应的横坐标的平均值,将组合得到的坐标作为像素坐标系下的观测点;
由观测点的像素坐标(u,v)获得观测点在世界坐标系下的三维坐标值Pw(Xw,Yw,Zw),计算出观测点的距离:
将像素坐标系转换到图像坐标系,其关系如下:
图像坐标系的目标宽度w′由像素坐标(u,v)与图像坐标(x,y)的关系式基于两个像素坐标点(u1,v1)和(u2,v2)计算得到两个图像坐标系下的坐标点(x1,y1)和(x2,y2),再通过欧式距离计算得到w′;
图像坐标系与世界坐标系之间的关系如下:
根据如下公式计算距离:
其中D表示目标物到摄像头的距离,f表示焦距,W表示世界坐标系下的目标宽度,w′表示图像坐标系下的目标宽度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210789741.7A CN115188378A (zh) | 2022-07-06 | 2022-07-06 | 一种基于语音交互的目标识别视觉测距方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210789741.7A CN115188378A (zh) | 2022-07-06 | 2022-07-06 | 一种基于语音交互的目标识别视觉测距方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115188378A true CN115188378A (zh) | 2022-10-14 |
Family
ID=83517610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210789741.7A Pending CN115188378A (zh) | 2022-07-06 | 2022-07-06 | 一种基于语音交互的目标识别视觉测距方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115188378A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116372954A (zh) * | 2023-05-26 | 2023-07-04 | 苏州融萃特种机器人有限公司 | Ar沉浸式遥操作排爆机器人系统、控制方法和存储介质 |
CN116503491A (zh) * | 2023-06-26 | 2023-07-28 | 安徽大学 | 一种基于相机标定和视觉的机器狗障碍物测距和避障方法 |
-
2022
- 2022-07-06 CN CN202210789741.7A patent/CN115188378A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116372954A (zh) * | 2023-05-26 | 2023-07-04 | 苏州融萃特种机器人有限公司 | Ar沉浸式遥操作排爆机器人系统、控制方法和存储介质 |
CN116503491A (zh) * | 2023-06-26 | 2023-07-28 | 安徽大学 | 一种基于相机标定和视觉的机器狗障碍物测距和避障方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10949649B2 (en) | Real-time tracking of facial features in unconstrained video | |
Zeng et al. | 3dmatch: Learning local geometric descriptors from rgb-d reconstructions | |
CN113673425B (zh) | 一种基于Transformer的多视角目标检测方法及系统 | |
CN109753875A (zh) | 基于人脸属性感知损失的人脸识别方法、装置与电子设备 | |
CN115188378A (zh) | 一种基于语音交互的目标识别视觉测距方法及系统 | |
Rekik et al. | An adaptive approach for lip-reading using image and depth data | |
Hoang et al. | Voting and attention-based pose relation learning for object pose estimation from 3D point clouds | |
CN111239684A (zh) | 一种基于YoloV3深度学习的双目快速距离测量方法 | |
Shi et al. | An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds | |
CN111368733B (zh) | 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端 | |
Mo et al. | PVDet: Towards pedestrian and vehicle detection on gigapixel-level images | |
CN117173775A (zh) | 一种基于卷积神经网络和自注意力模型的视线估计方法及系统 | |
Billings et al. | SilhoNet-fisheye: Adaptation of a ROI based object pose estimation network to monocular fisheye images | |
CN113160315B (zh) | 一种基于对偶二次曲面数学模型的语义环境地图表征方法 | |
Kanaujia et al. | Part segmentation of visual hull for 3d human pose estimation | |
Wang et al. | Learning dense correspondences for non-rigid point clouds with two-stage regression | |
Jang et al. | Two-Phase Approach for Monocular Object Detection and 6-DoF Pose Estimation | |
Lin et al. | 6D object pose estimation with pairwise compatible geometric features | |
Wang et al. | Facilitating 3D object tracking in point clouds with image semantics and geometry | |
Song et al. | Image matching and localization based on fusion of handcrafted and deep features | |
CN116704587B (zh) | 融合纹理信息和深度信息的多人头部姿态估计方法及系统 | |
CN118155196B (zh) | 一种用于仪表盘识别的跨尺度检索算法 | |
CN118673465B (zh) | 一种开放词汇目标检测方法、系统、设备及介质 | |
Gour et al. | An Exploration of Deep Learning in Recognizing Household Objects. | |
Zhang | Perception System: Object and Landmark Detection for Visually Impaired Users |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |