KR20210027380A

KR20210027380A - 다수의 센서들 및 감소된 복잡도 신경망들을 사용한 오브젝트 검출

Info

Publication number: KR20210027380A
Application number: KR1020217001815A
Authority: KR
Inventors: 세이빈 다니엘 이안쿠; 존 글로스너; 베이난 왕
Original assignee: 옵티멈 세미컨덕터 테크놀로지스 인코포레이티드
Priority date: 2018-07-05
Filing date: 2019-06-20
Publication date: 2021-03-10
Also published as: US20210232871A1; EP3818474A1; WO2020009806A1; CN112639819A; EP3818474A4

Abstract

다수의 센서 디바이스들을 사용한 오브젝트 검출에 관한 시스템 및 방법은 복수의 지점들을 포함한 범위 데이터를 수신하는 단계로서, 복수의 지점들 각각은 세기 값 및 깊이 값과 연관되는, 상기 수신하는 단계, 복수의 지점들의 세기 값들 및 깊이 값들에 기초하여, 복수의 지점들 중에서 지점들의 클러스터를 둘러싼 경계 박스를 결정하는 단계, 픽셀 어레이를 포함한 비디오 이미지를 수신하는 단계, 경계 박스에 대응하는 비디오 이미지에서의 영역을 결정하는 단계, 및 범위 데이터 및 비디오 이미지에 의해 캡처된 오브젝트를 결정하기 위해 영역에 제 1 신경망을 적용하는 단계를 포함한다.

Description

다수의 센서들 및 감소된 복잡도 신경망들을 사용한 오브젝트 검출

관련 출원에 대한 상호-참조

본 출원은 그 내용이 전체적으로 참조로서 통합되는, 2018년 7월 5일에 출원된, 미국 가 출원 제62/694,096호에 대한 우선권을 주장한다.

기술 분야

본 개시는 센서 데이터로부터 오브젝트들을 검출하는 것에 관한 것이며, 특히 다수의 센서들 및 감소된 복잡도 신경망들을 사용한 오브젝트 검출을 위한 시스템 및 방법에 관한 것이다.

환경에서 오브젝트들을 검출하도록 프로그램된 하드웨어 프로세서들을 포함한 시스템들은 광범위한 산업용 애플리케이션들을 갖는다. 예를 들어, 자동차는 차량을 둘러싼 센서 데이터를 캡처하기 위해 센서들(예컨대, 광 검출 및 거리측정(Lidar) 센서 및 비디오 카메라들)을 구비할 수 있다. 뿐만 아니라, 자동차는 센서 데이터에 기초하여 차량을 둘러싼 오브젝트들을 검출하도록 실행 가능 코드를 실행하기 위해 프로세싱 디바이스를 구비할 수 있다.

신경망들은 환경에서 오브젝트들을 검출하기 위해 이용될 수 있다. 본 개시에서 언급된 신경망들은 입력 데이터에 기초하여 판단들을 하기 위해 전기 회로들 상에 구현될 수 있는 인공 신경망들이다. 신경망은 노드들의 하나 이상의 층들을 포함할 수 있으며, 여기에서 각각의 노드는 산출들을 수행하기 위해 산출 회로 요소로서 하드웨어에 구현될 수 있다. 입력 층에서 노드들은 신경 망으로의 입력 데이터를 수신할 수 있다. 층에서의 노드들은 이전 층에서의 노드들에 의해 생성된 출력 데이터를 수신할 수 있다. 뿐만 아니라, 층에서의 노드들은 특정한 산출들을 수행하며 뒤이은 층의 노드들을 위한 출력 데이터를 생성할 수 있다. 출력 층의 노드들은 신경망을 위한 출력 데이터를 생성할 수 있다. 따라서, 신경망은 입력 층으로부터 출력 층으로 앞으로 전파된 산출들을 수행하기 위해 다수의 층들의 노드들을 포함할 수 있다. 신경망들은 오브젝트 검출에서 널리 사용된다.

본 개시는 이하에서 제공된 상세한 설명으로부터 및 본 개시의 다양한 실시예들의 수반된 도면들로부터 더 완전하게 이해될 것이다. 그러나, 도면들은 본 개시를 특정한 실시예들에 제한하기 위해 취해져서는 안되며, 단지 설명 및 이해를 위한 것이다.
도 1은 본 개시의 구현예에 따른 다수의 센서 데이터 및 신경망들을 사용하여 오브젝트들을 검출하기 위한 시스템을 예시한다.
도 2는 본 개시의 구현예에 따른 오브젝트들을 검출하기 위해 신경망들을 사용하여 라이다 센서 및 이미지 센서들을 조합하는 시스템을 예시한다.
도 3은 대표적인 컨볼루션 신경망을 예시한다.
도 4는 본 개시의 구현예에 따라 이미지들에서 오브젝트들을 검출하기 위해 퓨전-넷을 사용하기 위한 방법의 흐름도를 묘사한다.
도 5는 본 개시의 구현예에 따라 오브젝트들을 검출하기 위해 다수의 센서 디바이스들을 사용하는 방법의 흐름도이다.
도 6은 본 개시의 하나 이상의 양상들에 따라 동작하는 컴퓨터 시스템의 블록도를 묘사한다.

신경망은 입력 층, 출력 층, 및 입력 층과 출력 층 사이에서의 은닉 층들을 포함한 노드들의 다수의 층들을 포함할 수 있다. 각각의 층은 현재 층과 이전 층 사이에서의 노드들을 연결하는 에지들을 통해 이전 층으로부터 산출된 노드 값들과 연관된 노드들을 포함할 수 있다. 산출들은 입력 층으로부터 은닉 층들을 통해 출력 층으로 전파된다. 에지들은 층에서의 노드들을 인접 층에서의 노드들에 연결할 수 있다. 인접 층은 이전 층 또는 다음 층일 수 있다. 각각의 에지는 가중 값과 연관될 수 있다. 그러므로, 현재 층의 노드들과 연관된 노드 값들은 이전 층의 노드 값들의 가중 합산일 수 있다.

신경망들의 일 유형은 은닉 층들에서 수행된 산출이 이전 층과 연관된 노드 값들 및 에지들과 연관된 가중 값들의 컨볼루션들일 수 있는 컨볼루션 신경망(convolutional neural network; CNN)이다. 예를 들어, 프로세싱 디바이스는, 산출이 출력 층에 이를 때까지 입력 층에 컨볼루션 동작들을 적용하고 에지들을 통해 입력 층에 연결된 제 1 은닉 층에 대한 노드 값들을 생성하며, 제 2 은닉 층에 대한 노드 값들을 생성하기 위해 제 1 은닉 층에 컨볼루션 동작들을 적용할 수 있다. 프로세싱 디바이스는 출력 데이터에 소프트 조합 동작을 적용하며 검출 결과를 생성할 수 있다. 검출 결과는 검출된 오브젝트들의 아이덴티티들 및 그것들의 위치들을 포함할 수 있다.

토폴로지 및 에지들과 연관된 가중 값들은 신경망 트레이닝 상에서 결정된다. 트레이닝 상 동안, 트레이닝 입력 데이터는 전방향 전파(입력 층에서 출력 층으로)에서 CNN으로 공급될 수 있다. CNN의 출력 데이터는 에러 데이터를 산출하기 위해 트레이닝 출력 데이터에 비교될 수 있다. 에러 데이터에 기초하여, 프로세싱 디바이스는 에지들과 연관된 가중 값들이 판별 분석에 따라 조정되는 역방향 전파를 수행할 수 있다. 이러한 전방향 전파 및 역방향 전파의 프로세스는 에러 데이터가 검증 프로세스에서 특정한 성능 요건들을 충족시킬 때까지 반복될 수 있다. CNN은 그 후 오브젝트 검출을 위해 사용될 수 있다. CNN은 오브젝트들의 특정한 클래스(예컨대, 인간 오브젝트들) 또는 오브젝트들의 다수의 클래스들(예컨대, 자동차들, 보행자들, 및 나무들)에 대해 트레이닝될 수 있다.

CNN의 동작들은 입력 데이터에 대해 필터 동작들을 수행하는 것을 포함한다. CNN의 성능은 피크가 입력 데이터와 필터 파라미터들에 의해 표현된 패턴 사이에서의 매칭을 나타내는 피크 에너지 대 잡음 비(PNR)를 사용하여 측정될 수 있다. 필터 파라미터들이 오브젝트들의 하나 이상의 클래스들을 포함한 트레이닝 데이터를 사용하여 트레이닝되므로, 피크 에너지는 오브젝트의 검출을 나타낼 수 있다. 잡음 에너지는 환경에서 잡음 구성요소의 측정치일 수 있다. 잡음은 주변 잡음일 수 있다. 더 높은 PNR은 더 양호한 성능을 가진 CNN을 나타낼 수 있다. CNN이 오브젝트들의 다수의 클래스들에 대해 트레이닝되고 CNN이 오브젝트들의 특정한 클래스를 검출하기 위한 것일 때, 잡음 구성요소는 주변 잡음뿐만 아니라 타겟 클래스가 아닌 다른 클래스들에 속하는 오브젝트들을 포함하여, PNR이 잡음 에너지 및 다른 클래스들의 에너지의 합에 대한 피크 에너지의 비를 포함하는 것을 발생시킬 수 있다. 오브젝트들의 다른 클래스들의 존재는 PNR 및 CNN의 성능의 열화를 야기할 수 있다.

예를 들어, 프로세싱 디바이스는 이미지들에서 오브젝트들을 검출하기 위해 고-분해능 비디오 카메라들에 의해 캡처된 이미지들에 CNN(오브젝트들의 다수의 클래스들에 대해 트레이닝된 복잡한 것)을 적용할 수 있다. 비디오 카메라들은 3,840×2,160 픽셀 어레이를 가진 이미지들을 포함한 4K 분해능을 가질 수 있다. 입력 데이터는 고-분해능 이미지들일 수 있으며, 오브젝트들의 다수의 클래스들(예컨대, 보행자들, 자동차들, 나무들 등)을 추가로 포함할 수 있다. 입력 데이터로서 고-분해능 이미지들을 수용하기 위해, CNN은 노드들의 복잡한 네트워크 및 다수의 층들(예컨대, 100개 층 이상)을 포함할 수 있다. CNN의 복잡도 및 입력 데이터에서 오브젝트들의 다수의 클래스들의 존재는 PNR에 부정적인 영향을 주며, 그에 따라 CNN의 성능에 부정적인 영향을 줄 수 있다.

복잡한 CNN의 상기 식별된 및 다른 결점들을 극복하기 위해, 본 개시의 구현예들은 센서 데이터에 기초하여 오브젝트들을 검출하기 위해, 다수의, 구체적으로-트레이닝된, 콤팩트형 CNN들을 사용할 수 있는 시스템 및 방법을 제공한다. 일 구현예에서, 시스템은 라이다(Lidar) 센서 및 비디오 카메라를 포함할 수 있다. 라이다 센서에서 감지 요소들(예컨대, 펄싱 레이저 검출 감지 요소들)은 라이다에 의해 캡처된 라이다 이미지에서 각각의 픽셀이 비디오 카메라에 의해 캡처된 비디오 이미지에서의 대응하는 픽셀에 고유하게 매핑될 수 있도록 비디오 카메라의 이미지 감지 요소들을 갖고 교정될 수 있다. 매핑은 두 개의 매핑된 픽셀들이 물리적 세계의 주변 환경에서 동일한 지점으로부터 도출될 수 있음을 나타낸다. 라이다 센서 및 비디오 카메라에 결합된, 프로세싱 디바이스는 라이다 센서 및 비디오 카메라에 의해 캡처된 센서 데이터의 추가 프로세싱을 수행할 수 있다.

일 구현예에서, 프로세싱 디바이스는 원(raw) 라이다 센서 데이터로부터 지점들의 클라우드를 산출할 수 있다. 지점들의 클라우드는 라이다 센서의 좌표계에서 3D 위치들을 나타낸다. 지점들의 클라우드에서 각각의 지점은 라이다 센서에 의해 검출된 주변 환경에서의 물리적 지점에 대응할 수 있다. 지점들의 클라우드에서 지점들은 상이한 클러스터들로 그룹핑될 수 있다. 지점들의 클러스터는 환경에서 하나의 오브젝트에 대응할 수 있다. 프로세싱 디바이스는 라이다 센서에 의해 캡처된 2D 라이다 이미지상에서 클러스터를 둘러싼 경계 박스를 결정하기 위해 지점들의 클라우드에 필터 동작들 및 클러스터 동작들을 적용할 수 있다. 프로세싱 디바이스는 라이다 이미지에서 경계 박스에 대응하는 비디오 카메라의 이미지 어레이 상에서의 면적을 추가로 결정할 수 있다. 프로세싱 디바이스는 전체 이미지 어레이의 크기보다 훨씬 더 작을 수 있는 관심 영역(ROI)으로서 면적을 추출할 수 있다. 프로세싱 디바이스는 그 후 관심 영역이 오브젝트를 포함하는지를 결정하기 위해 관심 영역을 CNN으로 공급할 수 있다. 관심 영역이 전체 이미지 어레이보다 훨씬 작으므로, CNN은 전체 비디오 이미지에 대해 트레이닝된 CNN과 비교하여 훨씬 더 적은 복잡도를 가진 콤팩트형 신경망일 수 있다. 뿐만 아니라, 콤팩트형 CNN이 하나의 오브젝트를 포함한 관심 영역을 프로세싱하기 때문에, 콤팩트형 CNN의 PNR은 다른 클래스들에 속하는 오브젝트들을 간섭함으로써 저하될 가능성이 더 적다. 따라서, 본 개시의 구현예들은 오브젝트 검출의 정확도를 개선할 수 있다.

도 1은 본 개시의 구현예에 따른 다수의 센서 데이터 및 신경망들을 사용하여 오브젝트들을 검출하기 위한 시스템(100)을 예시한다. 도 1에 도시된 바와 같이, 시스템(100)은 프로세싱 디바이스(102), 가속기 회로(104), 및 메모리 디바이스(106)를 포함할 수 있다. 시스템(100)은, 예를 들어, 라이다 센서들 및 비디오 카메라들과 같은 센서들을 선택적으로 포함할 수 있다. 시스템(100)은 컴퓨팅 시스템(예컨대, 자동차들에 탑재된 컴퓨팅 시스템) 또는 시스템-온-칩(SoC)일 수 있다. 프로세싱 디바이스(102)는 중앙 프로세싱 유닛(CPU), 그래픽 프로세싱 유닛(GPU), 또는 범용 프로세싱 유닛과 같은 하드웨어 프로세서일 수 있다. 일 구현예에서, 프로세싱 디바이스(102)는 계산-집약적 태스크들의 가속기 회로(104)로의 위임을 포함한 특정한 태스크들을 수행하도록 프로그램될 수 있다.

가속기 회로(104)는 그 안에서 특수-목적 회로들을 사용하여 계산-집약적 태스크들을 수행하기 위해 프로세싱 디바이스(102)에 통신적으로 결합될 수 있다. 특수-목적 회로들은 애플리케이션 특정 집적 회로(ASIC), 필드 프로그램 가능한 게이트 어레이(FPGA), 디지털 신호 프로세서(DSP), 네트워크 프로세서 등일 수 있다. 일 구현예에서, 가속기 회로(104)는 특정한 유형들의 산출들을 수행하도록 프로그램될 수 있는 회로들의 유닛들인 다수의 산출 회로 요소들(CCE들)을 포함할 수 있다. 예를 들어, 신경망을 구현하기 위해, CCE는 프로세싱 디바이스(102)의 지시 시, 예를 들어, 가중 합산 및 컨볼루션과 같은 동작들을 수행하도록 프로그램될 수 있다. 따라서, 각각의 CCE는 신경망의 노드와 연관된 산출을 수행하도록 프로그램될 수 있고; 가속기 회로(104)의 CCE들의 그룹은 신경망에서 노드들의 층(가시 또는 은닉 층)으로서 프로그램될 수 있고; 가속기 회로(104)의 CCE들의 다수의 그룹들은 신경망들의 노드들의 층들로서 작용하도록 프로그램될 수 있다. 일 구현예에서, 산출들을 수행하는 것 외에, CCE들은 또한 산출들에서 사용된 파라미터들(예컨대, 시냅스 가중치들)을 저장하기 위해 로컬 저장 디바이스(예컨대, 레지스터들)(도시되지 않음)를 포함할 수 있다. 따라서, 설명의 간결성 및 단순성을 위해, 본 개시에서 각각의 CCE는 신경망의 노드와 연관된 파라미터들의 산출을 구현한 회로 요소에 대응한다. 프로세싱 디바이스(102)는 신경망의 아키텍처를 구성하고 특정 태스크를 위한 신경망을 트레이닝하기 위해 인스트럭션들을 이용해서 프로그램될 수 있다.

메모리 디바이스(106)는 프로세싱 디바이스(102) 및 가속기 회로(104)에 통신적으로 결합된 저장 디바이스를 포함할 수 있다. 일 구현예에서, 메모리 디바이스(106)는 프로세싱 디바이스(102)에 의해 실행된 퓨전-넷(108)으로의 입력 데이터(116) 및 퓨전-넷에 의해 생성된 출력 데이터(118)를 저장할 수 있다. 입력 데이터(116)는 예를 들어, 라이다 센서(120) 및 비디오 카메라들(122)과 같은 센서들에 의해 캡처된 센서 데이터일 수 있다. 출력 데이터는 퓨전-넷(108)에 의해 이루어진 오브젝트 검출 결과들일 수 있다. 오브젝트 검출 결과들은 센서들(120, 122)에 의해 캡처된 오브젝트의 분류일 수 있다.

일 구현예에서, 프로세싱 디바이스(102)는 실행될 때, 라이다 데이터 및 비디오 이미지 양쪽 모두를 포함한 입력 데이터(116)에 기초하여 오브젝트들을 검출할 수 있는 퓨전-넷 코드(108)를 실행하도록 프로그램될 수 있다. 비디오 카메라들(122)에 의해 캡처된 전체-사이징된 전체-분해능 이미지들에 기초하여 오브젝트들을 검출하는 신경망을 이용하는 대신에, 퓨전-넷(108)의 구현예들은 여러 감소-복잡도 신경망들의 조합을 이용할 수 있으며, 여기에서 감소-복잡도 신경망들의 각각은 오브젝트 검출을 달성하기 위해 전체-사이징된 전체-분해능 이미지 내에서의 영역을 타게팅한다. 일 구현예에서, 퓨전-넷(108)은 잠재적인 오브젝트들의 영역들을 둘러싼 경계 박스들을 검출하기 위해 라이다 센서 데이터에 컨볼루션 신경망(CNN)(110)을 적용하고, 경계 박스들에 기초하여 비디오 이미지로부터 관심 영역들을 추출하며, 그 후 경계 박스들 내에서의 오브젝트들을 검출하기 위해 관심 영역들에 하나 이상의 CNN들(112, 114)을 적용할 수 있다. CNN(110)이 경계 박스들을 결정하도록 트레이닝되기 때문에, CNN(110)의 계산 복잡도는 오브젝트 검출을 위해 설계된 이들 CNN들보다 훨씬 적을 수 있다. 뿐만 아니라, 경계 박스들의 사이즈는 통상적으로 전체 분해능 비디오 이미지보다 훨씬 작기 때문에, CNN들(112, 114)은 잡음 및 이들 클래스들의 오브젝트들에 의해 덜 영향을 받을 수 있고, 그에 따라 오브젝트 검출을 위한 더 양호한 PNR을 달성할 수 있다. 뿐만 아니라, CNN(112, 114)을 적용하기 전 관심 영역들의 분할화는 검출 정확도를 추가로 개선할 수 있다.

도 2는 본 개시의 구현예에 따른 오브젝트들을 검출하기 위해 다수의 감소-복잡도 신경망들을 사용하는 퓨전-넷(200)을 예시한다. 퓨전-넷(200)은 프로세싱 디바이스(102) 및 가속기 회로(104) 상에서 소프트웨어 및 하드웨어의 조합으로서 구현될 수 있다. 예를 들어, 퓨전-넷(200)은 오브젝트 검출을 수행하기 위해 가속기 회로(104) 상에 구현된 다수의 감소-복잡도 CNN들을 이용할 수 있는 프로세싱 디바이스(102)에 의해 실행 가능한 코드를 포함할 수 있다. 도 2에 도시된 바와 같이, 퓨전-넷(200)은 라이다 센서들에 의해 캡처된 라이다 센서 데이터(202)를 수신하며 비디오 카메라들에 의해 캡처된 비디오 이미지들(204)을 수신할 수 있다. 라이다 센서는 레이저 빔들(예컨대, 적외선 광 빔들)을 내보낼 수 있다. 레이저 빔들은 환경에서 오브젝트들의 표면들로부터 다시 산란될 수 있다. 라이다는 오브젝트들의 표면들로부터 다시 산란된 레이저 빔들과 연관된 세기 값들 및 깊이 값들을 측정할 수 있다. 세기 값들은 복귀 레이저 빔들의 강도들을 반영하며, 여기에서 강도들은, 부분적으로, 오브젝트의 표면의 반사율에 의해 결정된다. 반사율은 레이저 빔들의 파장 및 표면 재료들의 조성과 관계가 있다. 깊이 값들은 표면 지점들로부터 라이다 센서까지의 거리들을 반영한다. 깊이 값들은 입사 및 반사된 레이저 빔들 간의 위상 차에 기초하여 산출될 수 있다. 따라서, 원 라이다 센서 데이터는 3-차원 물리 공간에 분포된 지점들을 포함할 수 있으며, 여기에서 각각의 지점은 값들의 쌍(세기, 깊이)과 연관된다. 레이저 빔들은 그것들이 라이다 센서에 의해 수신되기 전에 다수의 표면들에서 산란함으로써 편향될 수 있다. 편향들은 원 라이다 센서 데이터에서 잡음 구성요소들을 구성할 수 있다.

퓨전-넷(200)은 원 라이다 센서 데이터에서 잡음 구성요소를 걸러 내기 위해 라이다 이미지 프로세싱(206)을 추가로 포함할 수 있다. 원 라이다 센서 데이터에 적용된 필터는 예를 들어, 저역-통과 필터들, 중간 값 필터들 등과 같은 적절한 유형들의 평탄 필터들일 수 있다. 이들 필터들은 세기 값들 및/또는 깊이 값들에 적용될 수 있다. 필터들은 또한 레이저 빔들의 잔향감들을 제거할 수 있는 빔성형기들을 포함할 수 있다.

필터링된 라이다 센서 데이터는 지점들의 클라우드들을 생성하기 위해 추가로 프로세싱될 수 있다. 지점들의 클라우드들은 물리 공간에서 3D 지점들의 클러스터들이다. 지점들의 클러스터들은 물리 공간에서 오브젝트들의 형태들을 나타낼 수 있다. 각각의 클러스터는 오브젝트의 표면에 대응할 수 있다. 따라서, 지점들의 각각의 클러스터는 오브젝트에 대한 잠재적인 후보일 수 있다. 일 구현예에서, 라이다 센서 데이터는 깊이 값(또는 "Z" 값들)에 따라 서브범위들로 나뉠 수 있다. 오브젝트들이 분리되며 상이한 거리들의 범위들에 위치된다고 가정하면, 각각의 서브범위는 지점들의 각각의 클라우드에 대응할 수 있다. 각각의 서브범위에 대해, 퓨전-넷(200)은 서브범위 내에서 지점들과 연관된 세기 값들(또는 "I" 값들)을 추출할 수 있다. 추출은 다수의 2-차원 라이다 세기 이미지들을 야기할 수 있으며, 각각의 라이다 세기 이미지는 특정한 깊이 서브범위에 대응한다. 세기 이미지들은 세기들을 나타내는 값들을 가진 픽셀 어레이를 포함할 수 있다. 일 구현예에서, 세기 값들은 미리 결정된 수의 세기 레벨들로 양자화될 수 있다. 예를 들어, 각각의 픽셀은 256개 레벨의 세기 값들을 나타내기 위해 8비트들을 사용할 수 있다.

퓨전-넷(200)은 문턱치 처리에 의해 라이다 세기 이미지들의 각각을 각각의 2-레벨 세기 이미지(이진 이미지)로 추가로 변환할 수 있으며, 여기에서 라이다 세기 이미지들의 각각은 특정한 깊이 서브범위에 대응할 수 있다. 이러한 프로세스는 라이다 세기 이미지들을 이진화하는 것으로 불리운다. 예를 들어, 퓨전-넷(200)은 임계 값을 결정할 수 있다. 임계 값은 오브젝트가 가져야 하는 최소 세기 값을 나타낼 수 있다. 퓨전-넷(200)은 임계 값에 세기 이미지들의 세기 값들을 비교하며, 임계 값을 초과한(또는 그것과 같은) 임의의 세기 값들을 "1"로 및 임계값 미만의 임의의 세기 값들을 "0"으로 설정할 수 있다. 이와 같이, 높은 세기 값들의 각각의 클러스터들은 이진화된 라이다 이미지에서 높은 값의 블랍에 대응할 수 있다.

퓨전-넷(200)은 라이다 세기 이미지의 각각에서 지점들의 각각의 클러스터를 둘러싼 2-차원 경계 박스를 검출하기 위해 컨볼루션 신경망(CNN)(208)을 사용할 수 있다. CNN들의 구조는 나중 섹션들에서 상세하게 논의된다. 일 구현예에서, CNN(208)은 알려진 위치들에 오브젝트들을 포함하는 트레이닝 데이터에 대해 트레이닝되었다. 트레이닝 후 CNN(208)은 잠재적인 오브젝트들을 둘러싼 경계 박스들을 식별할 수 있다.

이들 경계 박스들은 오브젝트 검출을 위한 영역들로서 작용될 수 있는 비디오 이미지들에서의 대응 영역들에 매핑될 수 있다. 라이다 센서의 센서 어레이와 비디오 카메라의 이미지 어레이 간의 매핑 관계는 라이다 센서와 비디오 센서 간의 기하학적 관계들에 기초하여 미리 결정되었다. 도 2에 도시된 바와 같이, 퓨전-넷(200)은 비디오 카메라들에 의해 캡처된 비디오 이미지들(204)을 수신할 수 있다. 비디오 카메라들은 특정한 매핑 관계를 가진 라이다 센서를 갖고 교정되었으며, 그러므로 비디오 이미지들 상에서 픽셀 위치들은 라이다 센서 데이터의 세기 이미지들에 고유하게 매핑될 수 있다. 일 구현예에서, 비디오 이미지는 N×M 픽셀 어레이를 포함할 수 있으며, 여기에서 N 및 M은 정수 값들이다. HDTV 표준 비디오 포맷에서, 각각의 픽셀은 휘도 값(L) 및 컬러 값들(U 및 V)(L, 및 청색과 적색 값들 간의 스케일링된 값들)과 연관된다. 다른 구현예들에서, 비디오 이미지들의 픽셀들은 예를 들어, RGB(적색, 녹색, 청색)와 같은 다른 컬러 표현 기법들에서 정의된 값들을 갖고 표현될 수 있다. 이들 컬러 표현 기법들은 선형 또는 비-선형 변환들을 사용하여 LUV 표현에 매핑될 수 있다. 따라서, 임의의 적절한 컬러 표현 포맷들은 본 개시에서 픽셀 값들을 나타내기 위해 사용될 수 있다. 설명의 간결성을 위해, LUV 표현은 본 개시의 구현예들을 설명하기 위해 사용된다.

일 구현예에서, 전체 분해능 비디오 이미지(N×M 픽셀들)로부터의 오브젝트들을 검출하는 대신에, 퓨전-넷(200)은 라이다 센서 데이터에 기초하여 CNN(208)에 의해 식별된 경계 박스들로 오브젝트 검출을 위한 면적을 제한할 수 있다. 경계 박스들은 일반적으로 전체 분해능 비디오 이미지보다 훨씬 작을 수 있다. 있음 직한 각각의 경계 박스는 하나의 오브젝트에 대한 하나의 후보를 포함한다.

퓨전-넷(200)은 먼저 LUV 비디오 이미지(210)에 대한 이미지 프로세싱을 수행할 수 있다. 이미지 프로세싱은 LUV 비디오 이미지에 대해 저역-통과 필터를 수행하며 그 후 저역-통과된 비디오 이미지를 데시메이트하는 것을 포함할 수 있다. 저역-통과된 비디오 이미지의 데시메이션은 x 및 y 방향들 모두에서 인수(예컨대, 4, 8, 또는 16)만큼 비디오 이미지의 분해능을 감소시킬 수 있다. 퓨전-넷(200)은 오브젝트들이 존재할 수 있는 관심 영역들을 식별하기 위해 프로세싱된 비디오 이미지에 경계 박스들을 적용할 수 있다. 각각의 식별된 관심 영역에 대해, 퓨전-넷(200)은 관심 영역이 오브젝트를 포함하는지를 결정하기 위해 CNN(212)을 적용할 수 있다. CNN(212)은 비디오 이미지들에서 오브젝트들을 검출하기 위해 트레이닝 데이터에 대해 트레이닝되었다. 트레이닝 데이터는 오브젝트들의 상이한 클래스들로서 라벨링된 이미지들을 포함할 수 있다. 트레이닝 결과들은 오브젝트를 나타내는 특징들의 세트이다.

비디오 이미지에서 관심 영역들에 CNN(212)을 적용할 때, CNN(212)은 관심 영역의 특징들과 오브젝트들의 알려진 클래스를 나타내는 특징들 사이에서의 상관관계들을 나타내는 출력을 산출할 수 있다. 상관관계에서의 피크는 클래스에 속하는 오브젝트의 식별을 나타낼 수 있다. 일 구현예에서, CNN(212)은 콤팩트형 신경망들의 세트를 포함할 수 있으며, 각각의 콤팩트형 신경망은 특정한 오브젝트에 대해 트레이닝된다. 관심 영역은 오브젝트들의 상이한 클래스들을 식별하기 위해 CNN(212)의 상이한 콤팩트형 신경망들로 공급될 수 있다. CNN(212)이 작은 영역 내에서 오브젝트들의 특정한 클래스들을 검출하도록 트레이닝되기 때문에, CNN(212)의 PNR은 클래스 간 오브젝트 간섭들에 의해 영향을 받을 가능성이 적다.

입력으로서 LUV 비디오 이미지들을 사용하는 대신에, 본 개시의 구현예들은 입력으로서 비디오 이미지의 휘도(L) 값들을 사용할 수 있다. L 값들을 단독으로 사용하는 것은 산출을 추가로 단순화할 수 있다. 도 2에 도시된 바와 같이, 퓨전-넷(200)은 L 이미지 프로세싱(214)을 포함할 수 있다. LUV 이미지 프로세싱(210)과 유사하게, L 이미지 프로세싱(214)은 또한 저역-통과 필터링 및 L 이미지를 데시메이트하는 것을 포함할 수 있다. 퓨전-넷(200)은 오브젝트들이 존재할 수 있는 관심 영역들을 식별하기 위해 프로세싱된 L 이미지에 경계 박스들을 적용할 수 있다. L 이미지에서 각각의 식별된 관심 영역에 대해, 퓨전-넷(200)은 히스토그램 방향성 기울기들(histogram oriented gradients; HOG) 필터를 적용할 수 있다. HOG 필터는 관심 영역 내에서 기울기 방향성들의 발생들을 카운트할 수 있다. 상이한 방향성들에서 기울기들의 카운트들은 이들 기울기들의 히스토그램을 형성한다. HOG 필터가 국소 관심 영역에서 동작하므로, 그것은 기하학 및 광도 변환들에 대해 불변일 수 있다. 따라서, HOG 필터에 의해 추출된 특징들은 기하학 및 광도 변환들의 존재 시 대체로 불변일 수 있다. HOG 필터의 적용은 검출 결과들을 추가로 개선할 수 있다.

퓨전-넷(200)은 HOG 특징들에 기초하여 CNN(216)을 트레이닝할 수 있다. 일 구현예에서, CNN(216)은 콤팩트형 신경망들의 세트를 포함할 수 있으며, 각각의 콤팩트형 신경망은 HOG 특징들에 기초하여 오브젝트들의 특정한 클래스에 대해 트레이닝된다. CNN(216)에서 각각의 신경망은 오브젝트들의 특정한 클래스에 대해 트레이닝되기 때문에, 이들 콤팩트형 신경망은 높은 PNR을 가진 오브젝트들의 클래스들을 검출할 수 있다.

퓨전-넷(200)은 CNN(208, 212, 216)으로부터의 결과들을 조합할 수 있는 소프트 조합 층(218)을 추가로 포함할 수 있다. 소프트 조합 층(218)은 소프트맥스(softmax) 함수를 포함할 수 있다. 퓨전-넷(200)은 CNN(208, 212, 216)으로부터의 결과들에 기초하여 오브젝트의 클래스를 결정하기 위해 소프트맥스 함수를 사용할 수 있다. 소프트맥스는 오브젝트 검출의 더 높은 가능성과 연관된 네트워크의 결과를 택할 수 있다.

본 개시의 구현예들은 오브젝트 검출을 위해 컨볼루션 신경망(CNN) 또는 임의의 적절한 형태들의 신경망들을 사용할 수 있다. 도 3은 대표적인 컨볼루션 신경망(300)을 예시한다. 도 3에 도시된 바와 같이, CNN(300)은 입력 층(302)을 포함할 수 있다. 입력 층(02)은 예를 들어, 라이다 센서 데이터 및/또는 비디오 이미지와 같은 입력 센서 데이터를 수신할 수 있다. CNN(300)은 은닉 층들(304, 306), 및 출력 층(308)을 추가로 포함할 수 있다. 은닉 층들(304, 306)은 특징 값들(A₁₁, A₁₂, ..., A_1n, ..., A₂₁, A₂₂, ..., A_2m)과 연관된 노드들을 포함할 수 있다. 층(예컨대, 304)에서의 노드들은 에지들에 의해 인접 층(예컨대, 306)에서의 노드들에 연결될 수 있다. 각각의 에지는 가중 값과 연관될 수 있다. 예를 들어, 입력 층(302)과 제 1 은닉 층(304) 간의 에지들은 가중 값들(F₁₁, F₁₂, ..., F_1n)과 연관되고; 제 1 은닉 층(304)과 제 2 은닉 층(306) 간의 에지들은 가중 값들(F⁽¹¹⁾ ₁₁, F⁽¹²⁾ ₁₁, ..., F⁽¹ⁿ⁾ ₁₁)과 연관되며; 은닉 층(306)과 출력 층 가의 에지들은 가중 값들(F⁽¹¹⁾ _m1, F⁽¹²⁾ _m2, ..., F⁽¹ⁿ⁾ _m1)과 연관된다. 제 2 은닉 층(306)에서의 특징 값들(A₂₁, A₂₂, ..., A_2m)은 다음과 같이 산출될 수 있다:

여기에서 A는 입력 이미지를 나타내며, *은 컨볼루션 연산자이다. 따라서, 제 2 층에서의 특징 맵은 제 1 층으로부터 산출된 상관관계들의 합이며, 각각의 층에 대한 특징 맵은 유사하게 산출될 수 있다. 마지막 층은 큰 벡터로 연쇄된 모든 로우들의 스트링으로서 또는 텐서들의 어레이로서 표현될 수 있다. 마지막 층은 다음과 같이 산출될 수 있다:

여기에서 M_i는 마지막 층의 특징들이며,

은 트레이닝 후 모든 특징들의 리스트이다. 입력 이미지 A는 모든 특징들의 리스트와 상관된다. 일 구현예에서, 다수의 콤팩트형 신경망은 오브젝트 검출을 위해 사용된다. 콤팩트형 신경망들의 각각은 오브젝트들의 하나의 대응 클래스에 대응한다. 오브젝트 국소화는 라이다 센서 데이터의 분석을 통해 달성될 수 있으며, 오브젝트 검출은 관심 영역들로 국한된다.

도 4는 본 개시의 구현예에 따라 이미지들에서 오브젝트들을 검출하기 위해 퓨전-넷을 사용하기 위한 방법(400)의 흐름도를 묘사한다. 방법(400)은 하드웨어(예컨대, 회로부, 전용 로직), 컴퓨터 판독 가능한 인스트럭션들(예컨대, 범용 컴퓨터 시스템 또는 전용 기계 상에서 실행되는), 또는 양쪽 모두의 조합을 포함할 수 있는 프로세싱 디바이스들에 의해 수행될 수 있다. 방법(400) 및 그 개개의 함수들, 루틴들, 서브루틴들, 또는 동작들의 각각은 방법을 실행하는 컴퓨터 디바이스의 하나 이상의 프로세서들에 의해 수행될 수 있다. 특정한 구현예들에서, 방법(400)은 단일 프로세싱 스레드에 의해 수행될 수 있다. 대안적으로, 방법(400)은 둘 이상의 프로세싱 스레드들에 의해 수행될 수 있으며, 각각의 스레드는 방법의 하나 이상의 개개의 함수들, 루틴들, 서브루틴들, 또는 동작들을 실행한다.

설명의 단순성을 위해, 본 개시의 방법들은 일련의 동작들로서 묘사되고 설명된다. 그러나, 본 개시에 따른 동작들은 다양한 순서들로 및/또는 동시에, 및 여기에서 제공되고 설명되지 않은 다른 동작들과 함께 발생할 수 있다. 더욱이, 모든 예시된 동작들이 개시된 주제에 따른 방법들을 구현하도록 요구되지는 않는다. 또한, 이 기술분야의 숙련자들은 방법들이 대안적으로 상태도 또는 이벤트들을 통해 일련의 서로 관계가 있는 상태들로서 표현될 수 있다는 것을 이해하고 인정할 것이다. 부가적으로, 본 명세서에서 개시된 방법들은 이러한 방법들을 컴퓨팅 디바이스들로 수송하고 전달하는 것을 가능하게 하기 위해 제조 물품 상에 저장될 수 있다는 것이 이해되어야 한다. 여기에서 사용된 바와 같이, 용어 "제조 물품"은 임의의 컴퓨터-판독 가능한 디바이스 또는 저장 미디어로부터 액세스 가능한 컴퓨터 프로그램을 포함하도록 의도된다. 일 구현예에서, 방법(400)은 도 1에 도시된 바와 같이 CNN들을 지원하는 가속기 회로(104) 및 퓨전-넷(108)을 실행하는 프로세싱 디바이스(102)에 의해 수행될 수 있다.

도 4를 참조하면, 402에서, 라이다 센서는 환경에서 오브젝트들의 정보를 포함하는 라이다 센서 데이터를 캡처할 수 있다. 404에서, 비디오 카메라들은 환경의 비디오 이미지들을 캡처할 수 있다. 라이다 센서 및 비디오 카메라들은 라이다 센서 어레이 상에서의 위치가 비디오 이미지 어레이 상에서의 위치에 고유하게 매핑될 수 있도록 미리 교정될 수 있다.

406에서, 프로세싱 디바이스는 각각의 지점이 세기 값 및 깊이 값과 연관될 수 있는 지점들의 클라우드들에 대한 라이다 센서 데이터를 프로세싱할 수 있다. 각각의 클라우드는 환경에서 오브젝트에 대응할 수 있다. 410에서, 프로세싱 디바이스는 깊이 값들에 기초하여 클라우드들을 분리하기 위해 지점들의 클라우드들에 대한 제 1 필터 동작을 수행할 수 있다. 412에서, 상기 논의된 바와 같이, 깊이 값들은 서브범위들로 나뉠 수 있으며 클라우드들은 상이한 서브범위들에서 지점들을 클러스터링함으로써 분리될 수 있다. 414에서, 프로세싱 디바이스는 제 2 필터 동작을 수행할 수 있다. 제 2 필터 동작은 상이한 서브범위들에 대한 세기 값들을 이진화하는 것을 포함할 수 있다. 각각의 깊이 서브범위 내에서, 임계 값 이상의 세기 값은 "1"로 설정되며, 임계 값 미만의 세기 값은 "0"으로 설정된다.

416에서, 프로세싱 디바이스는 클러스터들에 대한 경계 값들을 결정하기 위해 이진화된 세기 라이다 이미지들을 추가로 프로세싱할 수 있다. 각각의 경계 박스는 잠재적인 오브젝트의 영역을 둘러쌀 수 있다. 일 구현예에서, 제 1 CNN은 상기 논의된 바와 같이 경계 박스들을 결정하기 위해 사용될 수 있다.

408에서, 프로세싱 디바이스는 비디오 카메라들로부터 전체 분해능 이미지를 수신할 수 있다. 418에서, 프로세싱 디바이스는 라이다 센서와 비디오 카메라 사이에서의 미리 결정된 매핑 관계에 기초하여 416에서 결정된 경계 박스들을 비디오 이미지로 투사할 수 있다. 이들 경계 박스들은 비디오 이미지에서 오브젝트들의 잠재적인 영역들을 특정할 수 있다.

420에서, 프로세싱 디바이스는 경계 박스들에 기초하여 이들 관심 영역들을 추출할 수 있다. 이들 관심 영역들은 각각이 오브젝트들의 특정한 클래스를 검출하기 위해 트레이닝되는 콤팩트형 CNN들의 세트로 입력될 수 있다. 422에서, 프로세싱 디바이스는 영역에 특정한 클래스의 오브젝트가 있는지를 검출하기 위해 이들 관심 영역들에 이들 클래스-특정 CNN들을 적용할 수 있다. 424에서, 프로세싱 디바이스는 영역이 오브젝트를 포함하는지를 결정하기 위해 소프트 조합(예컨대, 소프트맥스 함수)에 기초하여 결정할 수 있다. 방법(400)이 영역 당 하나의 오브젝트를 포함한 국소화된 관심 영역들을 사용하며 클래스-특정 콤팩트형 CNN들을 사용하기 때문에, 검출 레이트는 개선된 PNR로 인해 더 높다.

도 5는 본 개시의 구현예에 따라 오브젝트들을 검출하기 위해 다수의 센서 디바이스들을 사용하는 방법(500)의 흐름도를 묘사한다.

502에서, 프로세싱 디바이스는 복수의 지점들을 포함한 범위 데이터를 수신할 수 있으며, 복수의 지점들의 각각은 세기 값 및 깊이 값과 연관된다.

504에서, 프로세싱 디바이스는 복수의 지점들의 세기 값들 및 깊이 값들에 기초하여, 지점들의 클러스터를 둘러싼 경계 박스를 결정할 수 있다.

506에서, 프로세싱 디바이스는 픽셀 어레이를 포함한 비디오 이미지를 수신할 수 있다.

508에서, 프로세싱 디바이스는 경계 박스에 대응하는 비디오 이미지에서의 영역을 결정할 수 있다.

510에서, 프로세싱 디바이스는 범위 데이터 및 비디오 이미지에 의해 캡처된 오브젝트를 결정하기 위해 영역에 제 1 신경망을 적용할 수 있다.

도 6은 본 개시의 하나 이상의 양상들에 따라 동작하는 컴퓨터 시스템의 블록도를 묘사한다. 다양한 예시적인 예들에서, 컴퓨터 시스템(600)은 도 1의 시스템(100)에 대응할 수 있다.

특정한 구현예들에서, 컴퓨터 시스템(600)은 다른 컴퓨터 시스템들에 연결될 수 있다(예컨대, 근거리 네트워크(LAN), 인트라넷, 엑스트라넷, 또는 인터넷과 같은 네트워크를 통해). 컴퓨터 시스템(600)은 클라이언트-서버 환경에서 서버 또는 클라이언트 컴퓨터의 용량에서, 또는 피어-투-피어 또는 분산형 네트워크 환경에서 피어 컴퓨터로서 동작할 수 있다. 컴퓨터 시스템(600)은 개인용 컴퓨터(PC), 태블릿 PC, 셋-탑 박스(STB), 개인용 디지털 보조기(PDA), 휴대 전화, 웹 기기, 서버, 네트워크 라우터, 스위치 또는 브릿지, 또는 상기 디바이스에 의해 취해질 동작들을 특정하는 인스트럭션 세트(순차적 또는 그 외)를 실행할 수 있는 임의의 디바이스에 의해 제공될 수 있다. 뿐만 아니라, 용어 "컴퓨터"는 여기에서 설명된 방법들 중 임의의 하나 이상을 수행하기 위해 인스트럭션 세트(또는 다수의 세트들)를 개별적으로 또는 공동으로 실행하는 컴퓨터들의 모든 모음을 포함할 것이다.

추가 양상에서, 컴퓨터 시스템(600)은 프로세싱 디바이스(602), 휘발성 메모리(604)(예컨대, 랜덤 액세스 메모리(RAM)), 비-휘발성 메모리(606)(예컨대, 판독-전용 메모리(ROM) 또는 전기적으로-삭제 가능한 프로그램 가능 ROM(EEPROM)), 및 데이터 저장 디바이스(616)를 포함할 수 있으며, 이는 버스(608)를 통해 서로 통신할 수 있다.

프로세싱 디바이스(602)는 범용 프로세서(예를 들어, 복합 지시 세트 컴퓨팅(CISC) 마이크로프로세서, 축소 지시 세트 컴퓨팅(RISC) 마이크로프로세서, 매우 긴 지시 워드(VLIW) 마이크로프로세서, 다른 유형들의 지시 세트들을 구현한 마이크로프로세서, 또는 지시 세트들의 유형들의 조합을 구현한 마이크로프로세서와 같은) 또는 특수화된 프로세서(예를 들어, 애플리케이션 특정 집적 회로(ASIC), 필드 프로그램 가능한 게이트 어레이(FPGA), 디지털 신호 프로세서(DSP), 또는 네트워크 프로세서와 같은)와 같은 하나 이상의 프로세서들에 의해 제공될 수 있다.

컴퓨터 시스템(600)은 네트워크 인터페이스 디바이스(622)를 추가로 포함할 수 있다. 컴퓨터 시스템(600)은 또한 비디오 디스플레이 유닛(610)(예컨대, LCD), 영숫자 입력 디바이스(612)(예컨대, 키보드), 커서 제어 디바이스(614)(예컨대, 마우스), 및 신호 생성 디바이스(620)를 포함할 수 있다.

데이터 저장 디바이스(616)는 방법(400) 또는 방법(500)을 구현하기 위해 도 1의 퓨전-넷(108)의 구성기의 인스트럭션들을 포함하여, 여기에서 설명된 방법들 또는 기능들 중 임의의 하나 이상을 인코딩한 인스트럭션들(626)을 저장할 수 있는 비-일시적 컴퓨터-판독 가능한 저장 매체(624)를 포함할 수 있다.

인스트럭션들(626)은 또한 컴퓨터 시스템(600)에 의해 그것의 실행 동안 완전히 또는 부분적으로, 휘발성 메모리(604) 내에 및/또는 프로세싱 디바이스(602) 내에 존재할 수 있으며, 그러므로 휘발성 메모리(604) 및 프로세싱 디바이스(602)는 또한 기계-판독 가능한 저장 미디어를 구성할 수 있다.

컴퓨터-판독 가능한 저장 매체(624)는 예시적인 예들에서 단일 매체로서 도시되지만, 용어 "컴퓨터-판독 가능한 저장 매체"는 실행 가능한 하나 이상의 인스트럭션 세트들을 저장하는 단일 매체 또는 다수의 미디어(예컨대, 집중형 또는 분산형 데이터베이스, 및/또는 연관된 캐시들 및 서버들)를 포함할 것이다. 용어 "컴퓨터-판독 가능한 저장 매체"는 또한 컴퓨터가 여기에서 설명된 방법들 중 임의의 하나 이상을 수행하게 하는 컴퓨터에 의한 실행을 위한 인스트럭션 세트를 저장하거나 또는 인코딩할 수 있는 임의의 유형의 매체를 포함할 것이다. 용어 "컴퓨터-판독 가능한 저장 매체"는 이에 제한되지 않지만, 고체-상태 메모리들, 광학 미디어, 및 자기 미디어를 포함할 것이다.

여기에서 설명된 방법들, 구성요소들, 및 특징들은 별개의 하드웨어 구성요소들에 의해 구현될 수 있거나 또는 ASIC들, FPGA들, DSP들 또는 유사한 디바이스들과 같은 다른 하드웨어 구성요소들의 기능에 통합될 수 있다. 또한, 방법들, 구성요소들, 및 특징들은 하드웨어 디바이스들 내에서의 펌웨어 모듈들 또는 기능 회로부에 의해 구현될 수 있다. 뿐만 아니라, 방법들, 구성요소들, 및 특징들은 하드웨어 디바이스들 및 컴퓨터 프로그램 구성요소들의 임의의 조합으로, 또는 컴퓨터 프로그램들에 구현될 수 있다.

달리 구체적으로 서술되지 않는다면, "수신하는", "연관하는", "결정하는", "업데이트하는" 등과 같은 용어들은 컴퓨터 시스템 레지스터들 및 메모리들 내에서의 물리적 (전자) 양들로서 표현된 데이터를 조작하고 컴퓨터 시스템 메모리들 또는 레지스터들 또는 다른 이러한 정보 저장, 송신 또는 디스플레이 디바이스들 내에서의 물리적 양들로서 유사하게 표현된 다른 데이터로 변환하는 컴퓨터 시스템들에 의해 수행되거나 또는 구현된 동작들 및 프로세스들을 나타낸다. 또한, 여기에서 사용된 바와 같이, 용어들 "제 1", "제 2", "제 3", "제 4" 등은 상이한 요소들을 구별하기 위한 라벨들로서 의도되며 그것들의 수치 지정에 따른 서수 의미를 갖지 않을 수 있다.

여기에서 설명된 예들은 또한 여기에서 설명된 방법들을 수행하기 위한 장치와 관련된다. 이러한 장치는 여기에서 설명된 방법들을 수행하기 위해 특별하게 구성될 수 있거나, 또는 그것은 컴퓨터 시스템에 저장된 컴퓨터 프로그램에 의해 선택적으로 프로그램된 범용 컴퓨터 시스템을 포함할 수 있다. 이러한 컴퓨터 프로그램은 컴퓨터-판독 가능한 유형의 저장 매체에 저장될 수 있다.

여기에서 설명된 방법들 및 예시적인 예들은 본질적으로 임의의 특정한 컴퓨터 또는 다른 장치와 연관되지 않는다. 다양한 범용 시스템들은 여기에서 설명된 교시들에 따라 사용될 수 있거나, 또는 그것은 방법(300) 및/또는 그 개개의 함수들, 루틴들, 서브루틴들, 또는 동작들의 각각을 수행하기 위해 더 특수화된 장치를 구성하는 것이 편리하다고 증명할 수 있다. 다양한 이들 시스템들에 대한 구조의 예들은 상기 설명에서 제시된다.

상기 설명은 제한적이 아닌, 예시적이도록 의도된다. 본 개시는 특정 예시적인 예들 및 구현예들을 참조하여 설명되었지만, 본 개시는 설명된 예들 및 구현예들에 제한되지 않는다는 것이 인지될 것이다. 본 개시의 범위는 청구항들이 자격을 부여받은 등가물들의 전체 범위와 함께, 다음의 청구항들을 참조하여 결정되어야 한다.

Claims

다수의 센서 디바이스들을 사용하여 오브젝트들을 검출하기 위한 방법에 있어서,
프로세싱 디바이스에 의해, 복수의 지점들을 포함한 범위 데이터를 수신하는 단계로서, 상기 복수의 지점들 각각은 세기 값 및 깊이 값과 연관되는, 상기 수신하는 단계;
상기 프로세싱 디바이스에 의해, 상기 복수의 지점들의 상기 세기 값들 및 깊이 값들에 기초하여, 상기 복수의 지점들 중에서 지점들의 클러스터를 둘러싼 경계 박스를 결정하는 단계;
상기 프로세싱 디바이스에 의해, 픽셀 어레이를 포함한 비디오 이미지를 수신하는 단계;
상기 프로세싱 디바이스에 의해, 상기 경계 박스에 대응하는 상기 비디오 이미지에서의 영역을 결정하는 단계; 및
상기 프로세싱 디바이스에 의해, 상기 범위 데이터 및 상기 비디오 이미지에 의해 캡처된 오브젝트를 결정하기 위해 상기 영역에 제 1 신경망을 적용하는 단계를 포함하는, 방법.
청구항 1에 있어서, 상기 다수의 센서 디바이스들은 상기 범위 데이터를 캡처하기 위한 범위 센서 및 상기 비디오 이미지를 캡처하기 위한 비디오 카메라를 포함하는, 방법.
청구항 1 또는 청구항 2에 있어서, 상기 프로세싱 디바이스에 의해 상기 복수의 지점들의 상기 세기 값들 및 깊이 값들에 기초하여, 지점들의 클러스터를 둘러싼 경계 박스를 결정하는 단계는,
상기 복수의 지점들과 연관된 깊이 값들에 따라 상기 복수의 지점들을 층들로 분리하는 단계; 및
상기 층들 각각에 대해,
미리 결정된 임계 값에 기초하여 상기 복수의 지점들과 연관된 세기 값들을 이진 값들로 변환하는 단계; 및
상기 경계 박스를 결정하기 위해 상기 이진 값들에 제 2 신경망을 적용하는 단계를 더 포함하는, 방법.
청구항 3에 있어서, 상기 제 1 신경망 또는 상기 제 2 신경망 중 적어도 하나는 컨볼루션 신경망인, 방법.
청구항 3에 있어서, 상기 픽셀 어레이 각각은 휘도 값(L) 및 두 개의 컬러 값들(U, V)과 연관되는, 방법.
청구항 5에 있어서, 상기 프로세싱 디바이스에 의해, 상기 경계 박스에 대응하는 상기 비디오 이미지에서의 영역을 결정하는 단계는,
상기 범위 센서의 센서 어레이를 특정한 제 1 좌표계 및 상기 비디오 카메라의 이미지 어레이를 특정한 제 2 좌표계 간의 매핑 관계를 결정하는 단계; 및
상기 경계 박스 및 상기 매핑 관계에 기초하여 상기 비디오 이미지에서의 상기 영역을 결정하는 단계로서, 상기 영역은 전체 분해능에서 상기 비디오 이미지보다 작은, 상기 비디오 이미지에서의 상기 영역을 결정하는 단계를 더 포함하는, 방법.
청구항 5에 있어서, 상기 범위 데이터 및 상기 비디오 이미지에 의해 캡처된 오브젝트를 결정하기 위해 상기 영역에 제 1 신경망을 적용하는 단계는:
상기 영역에서의 픽셀들과 연관된 상기 휘도 값들(I) 및 두 개의 컬러 값들(U, V)에 상기 제 1 신경망을 적용하는 단계를 포함하는, 방법.
청구항 5에 있어서, 상기 범위 데이터 및 상기 비디오 이미지에 의해 캡처된 오브젝트를 결정하기 위해 상기 영역에 제 1 신경망을 적용하는 단계는,
상기 영역에서의 픽셀들과 연관된 휘도 값들에 히스토그램 방향성 기울기(HOG) 필터를 적용하는 단계; 및
상기 영역에서의 상기 픽셀들과 연관된 상기 HOG-필터링된 휘도 값들에 상기 제 1 신경망을 적용하는 단계를 포함하는, 방법.
시스템에 있어서,
센서 디바이스들;
인스트럭션들을 저장하기 위한 저장 디바이스;
상기 센서 디바이스들 및 상기 저장 디바이스에 통신 가능하게 결합된 프로세싱 디바이스로서,
복수의 지점들을 포함한 범위 데이터를 수신하되, 상기 복수의 지점들 각각은 세기 값 및 깊이 값과 연관되고;
상기 복수의 지점들의 상기 세기 값들 및 깊이 값들에 기초하여, 상기 복수의 지점들 중에서 지점들의 클러스터를 둘러싼 경계 박스를 결정하고;
픽셀 어레이를 포함한 비디오 이미지를 수신하고;
상기 경계 박스에 대응하는 상기 비디오 이미지에서의 영역을 결정하고;
상기 범위 데이터 및 상기 비디오 이미지에 의해 캡처된 오브젝트를 결정하기 위해 상기 영역에 제 1 신경망을 적용하도록 하는 인스트럭션들을 실행하기 위한, 상기 프로세싱 디바이스를 포함하는, 시스템.
청구항 9에 있어서, 상기 센서 디바이스들은 상기 범위 데이터를 캡처하기 위한 범위 센서 및 상기 비디오 이미지를 캡처하기 위한 비디오 카메라를 포함하는, 시스템.
청구항 9 또는 청구항 10에 있어서, 상기 복수의 지점들의 상기 세기 값들 및 깊이 값들에 기초하여, 지점들의 클러스터를 둘러싼 경계 박스를 결정하기 위해, 상기 프로세싱 디바이스는 추가로,
상기 복수의 지점들과 연관된 깊이 값들에 따라 상기 복수의 지점들을 층들로 분리하고;
상기 층들 각각에 대해,
미리 결정된 임계 값에 기초하여 상기 복수의 지점들과 연관된 세기 값들을 이진 값들로 변환하고;
상기 경계 박스를 결정하기 위해 상기 이진 값들에 제 2 신경망을 적용하도록 하는, 시스템.
청구항 11에 있어서, 상기 제 1 신경망 또는 상기 제 2 신경망 중 적어도 하나는 컨볼루션 신경망인, 시스템.
청구항 11에 있어서, 상기 픽셀 어레이 각각은 휘도 값(L) 및 두 개의 컬러 값들(U, V)과 연관되는, 시스템.
청구항 13에 있어서, 상기 경계 박스에 대응하는 상기 비디오 이미지에서의 영역을 결정하기 위해, 상기 프로세싱 디바이스는 추가로,
상기 범위 센서의 센서 어레이를 특정한 제 1 좌표계 및 상기 비디오 카메라의 이미지 어레이를 특정한 제 2 좌표계 간의 매핑 관계를 결정하고;
상기 경계 박스 및 상기 매핑 관계에 기초하여 상기 비디오 이미지에서의 상기 영역을 결정하도록 하되, 상기 영역은 전체 분해능에서 상기 비디오 이미지보다 작은, 시스템.
청구항 13에 있어서, 상기 범위 데이터 및 상기 비디오 이미지에 의해 캡처된 오브젝트를 결정하도록 상기 영역에 제 1 신경망을 적용하기 위해, 상기 프로세싱 디바이스는,
상기 영역에서의 픽셀들과 연관된 상기 휘도 값들(I) 및 두 개의 컬러 값들(U, V)에 상기 제 1 신경망을 적용하도록 하는, 시스템.
청구항 15에 있어서, 상기 범위 데이터 및 상기 비디오 이미지에 의해 캡처된 오브젝트를 결정하도록 상기 영역에 제 1 신경망을 적용하기 위해, 상기 프로세싱 디바이스는,
상기 영역에서의 픽셀들과 연관된 휘도 값들에 히스토그램 방향성 기울기(HOG) 필터를 적용하고;
상기 영역에서의 상기 픽셀들과 연관된 HOG-필터링된 휘도 값들에 상기 제 1 신경망을 적용하도록 하는, 시스템.
비-일시적 기계-판독 가능한 저장 매체로서, 실행 시, 프로세싱 디바이스가 다수의 센서 디바이스들을 사용하여 오브젝트들을 검출하기 위한 동작들을 수행하게 하는 인스트럭션들을 저장하는, 상기 비-일시적 기계-판독 가능한 저장 매체에 있어서, 상기 동작들은,
상기 프로세싱 디바이스에 의해, 복수의 지점들을 포함한 범위 데이터를 수신하는 동작으로서, 상기 복수의 지점들 각각은 세기 값 및 깊이 값과 연관되는, 상기 수신하는 동작;
상기 프로세싱 디바이스에 의해, 상기 복수의 지점들의 상기 세기 값들 및 깊이 값들에 기초하여, 상기 복수의 지점들 중에서 지점들의 클러스터를 둘러싼 경계 박스를 결정하는 동작;
상기 프로세싱 디바이스에 의해, 픽셀 어레이를 포함한 비디오 이미지를 수신하는 동작;
상기 프로세싱 디바이스에 의해, 상기 경계 박스에 대응하는 상기 비디오 이미지에서의 영역을 결정하는 동작; 및
상기 프로세싱 디바이스에 의해, 상기 범위 데이터 및 상기 비디오 이미지에 의해 캡처된 오브젝트를 결정하기 위해 상기 영역에 제 1 신경망을 적용하는 동작을 포함하는, 비-일시적 기계-판독 가능한 저장 매체.
청구항 17에 있어서, 상기 다수의 센서 디바이스들은 상기 범위 데이터를 캡처하기 위한 범위 센서 및 상기 비디오 이미지를 캡처하기 위한 비디오 카메라를 포함하는, 비-일시적 기계-판독 가능한 저장 매체.
청구항 17 또는 청구항 18에 있어서, 상기 프로세싱 디바이스에 의해 상기 복수의 지점들의 상기 세기 값들 및 깊이 값들에 기초하여, 지점들의 클러스터를 둘러싼 경계 박스를 결정하는 동작은,
상기 복수의 지점들과 연관된 깊이 값들에 따라 상기 복수의 지점들을 층들로 분리하는 동작; 및
상기 층들 각각에 대해,
미리 결정된 임계 값에 기초하여 상기 복수의 지점들과 연관된 세기 값들을 이진 값들로 변환하는 동작; 및
상기 경계 박스를 결정하기 위해 상기 이진 값들에 제 2 신경망을 적용하는 동작을 더 포함하는, 비-일시적 기계-판독 가능한 저장 매체.
청구항 18에 있어서, 상기 제 1 신경망 또는 상기 제 2 신경망 중 적어도 하나는 컨볼루션 신경망인, 비-일시적 기계-판독 가능한 저장 매체.