KR102261754B1 - 박쥐를 모방한 3차원 초음파 이미징 방법 및 장치 - Google Patents

박쥐를 모방한 3차원 초음파 이미징 방법 및 장치 Download PDF

Info

Publication number
KR102261754B1
KR102261754B1 KR1020200056513A KR20200056513A KR102261754B1 KR 102261754 B1 KR102261754 B1 KR 102261754B1 KR 1020200056513 A KR1020200056513 A KR 1020200056513A KR 20200056513 A KR20200056513 A KR 20200056513A KR 102261754 B1 KR102261754 B1 KR 102261754B1
Authority
KR
South Korea
Prior art keywords
ultrasound
echo
feature map
ultrasonic
attention
Prior art date
Application number
KR1020200056513A
Other languages
English (en)
Inventor
배현민
김서현
황건필
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020200056513A priority Critical patent/KR102261754B1/ko
Application granted granted Critical
Publication of KR102261754B1 publication Critical patent/KR102261754B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/04Analysing solids
    • G01N29/041Analysing solids on the surface of the material, e.g. using Lamb, Rayleigh or shear waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/04Analysing solids
    • G01N29/06Visualisation of the interior, e.g. acoustic microscopy
    • G01N29/0654Imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2291/00Indexing codes associated with group G01N29/00
    • G01N2291/04Wave modes and trajectories
    • G01N2291/045External reflections, e.g. on reflectors

Landscapes

  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

3차원 초음파 이미징 장치의 동작 방법으로서, 방사된 초음파 신호를 입력받는 단계, 상기 방사된 초음파 신호가 물체에서 반사되어 수신된 초음파 에코들을 입력받는 단계, 상기 방사된 초음파 신호를 이용하여 각 초음파 에코에 포함된 정보의 위치를 가이드하여, 각 초음파 에코의 가이드된 특징 맵을 생성하는 단계, 각 초음파 에코의 가이드된 특징 맵을 컨볼루션 연산하여 상기 초음파 에코들의 스펙트럼 특징들(spectral features)과 시간 특징들(temporal features)이 인코딩된 특징 맵을 추출하는 단계, 그리고 상기 인코딩된 특징 맵을 디컨볼루션 연산하여 3차원 이미지를 생성하는 단계를 포함한다.

Description

박쥐를 모방한 3차원 초음파 이미징 방법 및 장치{BAT-INSPIRED THREE DIMENSIONAL IMAGING METHOD AND APPARATUS}
본 개시는 3차원 이미징 기술에 관한 것이다.
자율주행차(Autonomous Vehicle)는 주행 환경을 인식해 위험을 판단하고, 주행경로를 계획하여 스스로 안전 운행하는 자동차이다. 자율주행 기술은 자율화된 수준에 따라 단계가 나누어져 있는데, 현재 구현된 첨단운전자보조시스템(Advanced Driver Assistance system, ADAS)은 고속도로와 같이 차선 구분이 확실한 도로에서 작동하도록 제한되는 레벨2에 머물러 있는 상황이다. 앞으로, 자율주행 기술이 '운전자가 차량 제어에 개입하지 못하는 상황'에서 주행이 가능한 레벨4와, '운전자의 개입이 완전히 중단된 상황'에서 주행이 가능한 레벨5로 발전하기 위해서는, 악천후를 비롯한 다양한 환경에서도 센서가 주변 물체에 대한 정보를 정확히 수집하는 것이 중요하다.
자율주행용 센서로서, RGB-D(RGB-Depth) 카메라, Lidar(Light detection and ranging) 센서, Radar(Radio detection and ranging) 센서, 초음파 센서 등이 있다.
RGB-D 카메라와 Lidar 센서는 고해상도 이미지 정보를 제공하는데, 특히 자율주행차에 가장 많이 쓰이는 Lidar 센서는 100-120m의 범위(range)와 ±2cm의 정확도(accuracy), 수평 0.35˚, 수직 0.4˚의 해상도(resolution)을 가진다. 하지만 RGB-D 카메라와 Lidar 센서는 어둡거나, 눈, 안개, 비 등의 악천후에서 성능이 크게 낮아서, 주행 환경에 무관하게 성능이 보장되어야 하는 자율주행에 사용하는데 문제가 있고, Lidar 센서는 가격이 비싸다.
Radar 센서와 초음파 센서는 날씨에 의한 성능 저하가 거의 없어 대부분의 환경 시나리오에서 균일하고 우수한 성능을 보여준다. 하지만, Radar 센서는 350m의 범위(range)와 10cm의 정확도, 1˚ 정도의 해상도를 가지므로, Lidar 센서에 비해 해상도가 낮다. 초음파 센서는 비행 시간(Time of Flight, TOF)으로 거리를 획득하는데, 공기에서의 감쇠로 인해 최대 15m 정도의 가까운 거리만을 측정할 수 있고, 단일 주파수 펄스(single frequency pulse)를 송신하므로 교차 상관(cross-correlation)으로 측정할 수 있는 범위-해상도(range-resolution)가 주파수 변조 펄스(frequency-modulated pulse)보다 좋지 못하다.
해결하고자 하는 과제는 박쥐의 청각 신경망(auditory neural network)을 모방한 초음파 이미징 신경망에서, 물체에서 반사된 초음파 에코들(Ultrasonic echoes)과 방사된 초음파 신호(Radiated Ultrasonic Call, RUC)를 함께 입력받아 고해상도 3차원 이미지를 생성하는 3차원 초음파 이미징 방법 및 장치를 제공하는 것이다.
해결하고자 하는 과제는, 방사된 초음파 신호(RUC)를 이용하여, 물체의 형상(shape)/위치(position) 복원에 필요한 정보(cues)가 비지엽적(non-local)으로 분포된 초음파 에코 스펙트로그램을 가이드하는 어텐션 맵을 생성하고, 어텐션 맵을 이용하여 방사된 초음파 신호(RUC)에 의해 가이드된 초음파 에코의 특징맵을 생성하는 초음파 이미징 신경망을 제공하는 것이다.
해결하고자 하는 과제는, 초음파 에코가 가지는 비지엽적(non-local) 특징을 방사된 초음파 신호(RUC)로 가이드하는 어텐션 방법을 이용하여, 초음파 이미징 신경망을 학습시키고, 학습된 초음파 이미징 신경망을 이용한 3차원 이미징 방법 및 장치를 제공하는 것이다.
한 실시예에 따른 3차원 초음파 이미징 장치의 동작 방법으로서, 방사된 초음파 신호를 입력받는 단계, 상기 방사된 초음파 신호가 물체에서 반사되어 수신된 초음파 에코들을 입력받는 단계, 상기 방사된 초음파 신호를 이용하여 각 초음파 에코에 포함된 정보의 위치를 가이드하여, 각 초음파 에코의 가이드된 특징 맵을 생성하는 단계, 각 초음파 에코의 가이드된 특징 맵을 컨볼루션 연산하여 상기 초음파 에코들의 스펙트럼 특징들(spectral features)과 시간 특징들(temporal features)이 인코딩된 특징 맵을 추출하는 단계, 그리고 상기 인코딩된 특징 맵을 디컨볼루션 연산하여 3차원 이미지를 생성하는 단계를 포함한다.
상기 가이드된 특징 맵을 생성하는 단계는 상기 방사된 초음파 신호의 스펙트로그램과 각 초음파 에코의 스펙트로그램의 어텐션 연산을 통해 물체의 형상/위치 복원에 필요한 정보의 위치를 강조하는 어텐션 맵을 생성하고, 상기 어텐션 맵을 해당 초음파 에코의 스펙트로그램에 적용하여 초음파 에코별 가이드된 특징 맵을 생성할 수 있다.
상기 어텐션 연산은 두 스펙트로그램 간의 픽셀별 가중 합으로 계산될 수 있다.
상기 어텐션 맵은 소프트맥스 함수(softmax function)일 수 있다.
상기 가이드된 특징 맵을 생성하는 단계는 상기 방사된 초음파 신호의 스펙트로그램과 각 초음파 에코의 스펙트로그램을 서브 픽셀 샘플링으로 다운 스케일링하여 상기 어텐션 맵을 생성하고, 상기 어텐션 맵을 다운 스케일링된 해당 초음파 에코의 스펙트로그램에 적용한 후 업 스케일링하여 상기 가이드된 특징 맵을 출력할 수 있다.
상기 초음파 에코들의 주파수 특징들과 시간 특징들이 인코딩된 특징 맵을 추출하는 단계는 분리된 경로를 통해 상기 초음파 에코들의 주파수 특징들과 시간 특징들을 추출하고, 상기 분리된 경로에서 추출된 주파수 특징들과 시간 특징들을 통합하여 상기 인코딩된 특징 맵을 추출할 수 있다.
상기 3차원 이미지를 생성하는 단계는 상기 인코딩된 특징 맵을 디컨볼루션 연산하여 2차원 깊이 이미지를 생성하고, 상기 2차원 깊이 이미지를 투영하여 상기 3차원 이미지를 생성할 수 있다.
다른 실시예에 따른 적어도 하나의 프로세서에 의해 동작하는 3차원 초음파 이미징 장치로서, 초음파 신호를 방사하는 송신기, 물체에서 반사된 초음파 에코들을 수신하는 복수의 수신기들, 그리고 방사된 초음파 신호와 복수 채널을 통해 수신된 상기 초음파 에코들을 입력받고, 상기 방사된 초음파 신호를 이용하여 상기 채널별 초음파 에코에 포함된 정보의 위치를 가이드하여, 상기 채널별 초음파 에코의 특징 맵을 생성하고, 인코더와 디코더로 구성된 초음파 이미징 신경망을 이용하여 상기 채널별 초음파 에코의 특징 맵을 처리하여 상기 물체의 3차원 이미지를 생성하는 프로세서를 포함한다.
상기 프로세서는 컨볼루션 레이어들을 이용하여 상기 초음파 에코들의 주파수 특성들과 시간 특성들을 추출하도록 구성된 상기 인코더를 이용하여, 채널별 초음파 에코의 특징 맵으로부터 초음파 에코들의 주파수 특성과 시간 특성이 인코딩된 특징 맵을 추출하고, 디컨볼루션 레이어들을 이용하여 입력 특징 맵을 디코딩하도록 구성된 상기 디코더를 이용하여, 상기 인코딩된 특징 맵으로부터 상기 3차원 이미지를 생성할 수 있다.
상기 초음파 이미징 신경망은 학습용 초음파 에코들로부터 물체 형상을 출력하도록 학습된 인공 신경망일 수 있다.
상기 인코더는 채널별로 상기 채널별 초음파 에코의 특징 맵을 생성하는 어텐션 모듈을 포함하고, 상기 어텐션 모듈은 상기 방사된 초음파 신호와 해당 채널의 초음파 에코를 입력받고, 입력된 상기 방사된 초음파 신호와 초음파 에코의 어텐션 연산을 통해 물체의 형상/위치 복원에 필요한 정보의 위치를 강조하는 어텐션 맵을 생성하고, 상기 어텐션 맵을 입력 초음파 에코에 적용하여 상기 입력 초음파 에코의 특징 맵을 생성할 수 있다.
상기 어텐션 모듈은 상기 방사된 초음파 신호와 초음파 에코 각각의 스펙트로그램을 서브 픽셀 샘플링하여 저차원 특징 맵으로 변환하고, 저차원 특징 맵들을 어텐션 연산하여 저차원 어텐션 맵을 생성하고, 상기 저차원 어텐션 맵이 적용된 입력 초음파 에코의 저차원 특징 맵을 업 스케일링하여 상기 입력 초음파 에코의 특징 맵을 생성할 수 있다.
상기 인코더는 분리된 경로를 통해 상기 초음파 에코들의 주파수 특성들과 시간 특성들을 추출하고, 상기 분리된 경로에서 추출된 주파수 특성들과 시간 특성들을 통합하는 레이어들로 구성될 수 있다.
또 다른 실시예에 따른 컴퓨터 판독 가능한 저장매체에 저장되는 초음파 이미징 신경망 프로그램으로서, 컨볼루션 레이어들을 이용하여 초음파 에코들의 주파수 영역에 포함된 스펙트럼 특징들(spectral features)을 추출하는 제1 인코더 모델, 컨볼루션 레이어들을 이용하여 상기 초음파 에코들의 시간 영역에 포함된 시간 특징들(Temporal features)을 추출하는 제2 인코더 모델, 그리고 디컨볼루션 레이어들을 이용하여 상기 제1 인코더 및 상기 제2 인코더에서 출력된 특징들을 역변환하여 3차원 이미지를 출력하는 디코더 모델을 실행하는 명령어들을 포함한다. 상기 제1 인코더 모델과 상기 제 2 인코더 모델 각각은 초음파 에코별 어텐션 모듈을 포함하고, 상기 어텐션 모듈은 방사된 초음파 신호에 의해 물체의 형상/위치 복원에 필요한 정보가 강조된 해당 초음파 에코의 특징 맵을 추출하는 명령어들을 포함한다.
상기 어텐션 모듈은 상기 방사된 초음파 신호와 해당 초음파 에코를 입력받고, 입력된 상기 방사된 초음파 신호와 초음파 에코의 어텐션 연산을 통해 물체의 형상/위치 복원에 필요한 정보의 위치를 강조하는 어텐션 맵을 생성하고, 상기 어텐션 맵을 입력 초음파 에코에 적용하여 상기 입력 초음파 에코의 특징 맵을 생성하는 명령어들을 포함할 수 있다.
상기 어텐션 모듈은 입력된 상기 방사된 초음파 신호와 초음파 에코 각각의 스펙트로그램을 서브 픽셀 샘플링하여 저차원 특징 맵으로 변환하고, 저차원 특징 맵들을 어텐션 연산하여 저차원 어텐션 맵을 생성하고, 상기 저차원 어텐션 맵이 적용된 입력 초음파 에코의 저차원 특징 맵을 업 스케일링하여 상기 입력 초음파 에코의 특징 맵을 생성하는 명령어들을 포함할 수 있다.
상기 제1 인코더 모델은 상기 방사된 초음파 신호와 상기 초음파 에코들 각각을 롱 윈도우로 푸리에 변환한 스펙트로그램들로부터 상기 스펙트럼 특징들을 추출하는 명령어들을 포함할 수 있다. 상기 제2 인코더 모델은 상기 방사된 초음파 신호와 상기 초음파 에코들 각각을 숏 윈도우로 푸리에 변환한 스펙트로그램들로부터 상기 시간 특징들을 추출하는 명령어들을 포함할 수 있다.
상기 디코더 모델은 상기 제1 인코더 및 상기 제2 인코더에서 출력된 특징들로부터 3차원 이미지를 생성하는 명령어들을 포함할 수 있다.
본 개시에 따르면, 초음파 에코들과 상관관계가 높으면서 신호대잡음비가 우수한 방사된 초음파 신호(RUC)를 사전 지식으로 이용하므로, 악천후나 주변 간섭에 의해 노이즈가 매우 심한 환경에서 초음파 에코들이 수신되더라도, 초음파 에코들로부터 고해상도 이미지를 생성할 수 있다.
본 개시에 따르면, 노이즈에 강인한 3차원 이미징 장치를 제공할 수 있고, 악천후나 야간에 자율주행자동차에서 요구되는 센싱 성능을 제공할 수 있다.
도 1은 한 실시예에 따른 3차원 초음파 이미징 장치의 블록도이다.
도 2는 박쥐의 에코로케이션을 모방한 3차원 초음파 이미징 장치의 개념도이다.
도 3은 한 실시예에 따른 초음파 이미징 신경망의 구조이다.
도 4는 한 실시예에 따른 어텐션 모듈(GAM, Guided non-local Attention Modul)의 구조이다.
도 5는 한 실시예에 따른 서브 픽셀 샘플링을 설명하는 도면이다.
도 6은 다양한 노이즈 레벨의 초음파 에코로부터 3차원 이미지를 복원한 본개시의 성능 결과이다.
도 7은 다양한 노이즈 레벨의 초음파 에코를 방사된 초음파 신호로 가이드한 본 개시의 성능결과이다.
도 8은 한 실시예에 따른 3차원 초음파 이미징 방법의 흐름도이다.
도 9는 다른 실시예에 따른 3차원 초음파 이미징 방법의 흐름도이다.
도 10은 한 실시예에 따른 초음파 이미징 신경망의 동작 방법을 설명하는 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
박쥐는 광대역의 주파수 변조된 초음파 첩(chirp) 신호를 방사하고, 물체들에서 반사되어 돌아오는 에코 신호들을 수신한다. 에코 신호에 물체 형상에 따른 고유의 패턴이 입혀져서 있어서, 박쥐는 에코 신호의 패턴을 분석하여 장애물을 회피하고 먹이를 사냥할 수 있다. 이와 같이, 박쥐가 물체에서 반사된 초음파 에코들(Ultrasonic echoes)로부터 먹이를 구분하고 장애물의 위치를 파악하는 것을 에코로케이션(echolocation)이라고 한다. 다음에서, 박쥐의 에코로케이션을 모방하여 구현된 인공 신경망을 이용하여, 물체를 이미징하는 장치 및 방법에 대해 설명한다.
도 1은 한 실시예에 따른 3차원 초음파 이미징 장치의 블록도이다.
도 1을 참고하면, 3차원 초음파 이미징 장치(간단히, '이미징 장치'하고 한다)(100)는 박쥐의 청각 신경망(auditory neural network)을 모방한 초음파 이미징 신경망을 이용하여, 고해상도 3차원 이미지를 생성하는 컴퓨팅 장치이다. 이미징 장치(100)는 초음파 이미징 센서일 수 있고, 자율주행차와 같이, 물체 인식이 요구되는 장치에 탑재될 수 있다. 3차원 이미지는 3차원 복셀(voxel)들로 구성된 이미지를 포함할 수 있다. 3차원 이미지는 깊이(depth) 정보를 포함하는 픽셀(pixel)들로 구성된 2차원 이미지를 포함할 수 있다.
구체적으로, 이미징 장치(100)는, 초음파 신호를 방사하는 송신기(110), 물체에서 반사된 초음파 에코들(Ultrasonic echoes)을 수신하는 복수의 수신기들(120, 121, 122, 123), 초음파 이미징 신경망을 이용하여 초음파 에코들로부터 물체의 3차원 이미지를 생성하는 프로세서(130), 그리고 프로세서(130)에 의해 실행되는 프로그램을 저장하는 메모리(140)를 포함할 수 있다.
프로세서(130)는 이미징 장치(100)의 동작을 제어하는 장치로서, 프로그램에 포함된 명령들을 처리하는 다양한 형태의 프로세서일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 등 일 수 있다. 메모리(140)는 프로세서(130)에 의해 실행되는 프로그램을 저장하고, 예를 들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다. 프로그램은 본 발명의 동작을 실행하도록 기술된 명령들(instructions)을 포함한다.
초음파 이미징 신경망은 적어도 하나의 태스크를 학습한 인공지능 모델로서, 프로세서(130)에 의해 실행되는 소프트웨어/프로그램으로 구현될 수 있다. 초음파 이미징 신경망을 비롯한 프로그램은 네트워크를 통해 다운로드되거나, 제품 형태로 판매될 수 있다. 이외에도, 이미징 장치(100)는, 본 발명의 동작에 필요한 하드웨어들을 더 포함할 수 있다. 한편, 이미징 장치(100)에서, 송신기(110) 및 복수의 수신기들(120, 121, 122, 123)은 프로세서(130) 및 메모리(140)와, 유무선 네트워크로 연결될 수 있다.
이미징 장치(100)는 초음파 이미징 신경망을 탑재하는데, 이미징 장치(100)가 물체 형태/위치의 초음파 에코 특징(패턴)을 학습하는 태스크를 이용하여, 초음파 이미징 신경망을 학습시킬 수 있다. 이미징 장치(100)는 학습용 초음파 에코들의 스펙트로그램들에 대해 그라운드 트루스(ground-truth)용 이미지들이 레이블(label)로 매핑된 학습 데이터를 이용하여, 초음파 이미징 신경망을 지도 학습시킬 수 있다. 도 3에서 설명하는 초음파 이미징 신경망을 학습시키기 위해, 학습 데이터는 스펙트로그램들(256x256 grayscale image)과 3차원 이미지로부터 투사된 2차원 그라운드 트루스 레이블(64x64 pixels)로 구성될 수 있다. 학습 데이터는 다양한 방식으로 획득될 수 있는데, 예를 들면, 송신기(110) 및 복수의 수신기들(120, 121, 122, 123)이 탑재된 장치(에코 스캐너)가 물체 주변을 회전하면서 물체로 초음파 신호를 방사하고, 물체에서 반사된 초음파 신호들을 4채널에서 측정할 수 있다.
한편, 초음파 이미징 신경망은 별도 장치에서 학습 완료되고, 이미징 장치(100)는 학습된 초음파 이미징 신경망을 저장할 수 있다. 이 경우, 이미징 장치(100)는 서버(미도시)와 연동하여 초음파 이미징 신경망을 업데이트할 수 있고, 서버로 측정 데이터를 송신할 수 있다. 다음에서는, 이미징 장치(100)가 학습 데이터를 이용하여 초음파 이미징 신경망을 학습시키고, 학습된 초음파 이미징 신경망을 이용하여 물체의 3차원 이미지를 생성하는 것으로 설명한다.
송신기(110)는 초음파 신호를 방사하는 출력 장치로서, 스피커일 수 있다. 방사된 초음파 신호(Radiated Ultrasonic Call, RUC)는 프로세서(130)로 전달된다. 송신기(110)는 박쥐가 방사하는 주파수 변조된 첩(frequency-modulated chirp) 신호를 모방한 초음파 첩 신호를 방사할 수 있다. 송신기(110)는 예를 들면, 20~120 kHz 대역의 초음파 신호를 출력할 수 있다. 송신기(100)에서 방사되는 초음파 첩 신호의 특성은 프로세서(130)에 의해 제어될 수 있다. 첩 신호의 특성은 첩의 길이, 첩의 선형성(linearity), 첩의 고조파 밴드의 수, 첩의 출력 주기를 포함할 수 있다. 프로세서(130)는 첩의 길이를 제어함으로써 다양한 거리에 대한 이미징을 할 수 있다. 예를 들어, 프로세서(130)는 첩의 길이를 늘려 근거리에서 원거리까지 전체적으로 이미징하고, 자세하게 측정하고자 하는 근거리 물체가 나타날 경우 첩의 길이를 줄여 근거리를 이미징할 수 있다.
복수의 수신기들(120, 121, 122, 123)은 물체에서 반사되어 되돌아온 초음파 신호들을 수신하는 입력 장치로서, 사운드 신호를 수신하는 마이크들일 수 있다. 방사된 초음파 신호와 물체에서 반사된 초음파 신호를 구분하기 위해, 반사된 초음파 신호를 초음파 에코라고 부른다. 수신한 초음파 에코들은 프로세서(130)로 전달된다. 수신기의 개수는 다양하게 조절될 수 있는데, 설명에서는 4개의 수신기들로 4채널의 초음파 에코들을 수신하는 것으로 가정한다. 수신기들의 배치는 다양하게 설계될 수 있는데, 예를 들면, 왼쪽 채널, 오른쪽 채널, 위 채널, 아래 채널의 신호를 수신하도록 배치될 수 있다.
프로세서(130)는 물체에서 반사된 초음파 에코들의 특징들을 인코딩하고, 인코딩된 특징들을 디코딩하여 시각화하는 초음파 이미징 신경망을 이용하여, 물체의 3차원 이미지를 생성한다.
프로세서(130)는 초음파 이미징 신경망을 이용하여, 초음파 에코들에 포함된 스펙트럼 특징들(Spectral features)과 시간 특징들(Temporal features)을 분리해서 추출하고, 이를 이용하여 물체의 3차원 이미지를 생성할 수 있다. 이때, 프로세서(130)는 초음파 에코들과 함께, 송신기(110)에서 방사된 초음파 신호(RUC)를 입력받고, 상관관계가 높은 방사 초음파 신호(RUC)로 초음파 에코를 가이드하여, 초음파 에코의 특징들을 추출할 수 있다. 스펙트럼 특징들/시간 특징들은 주파수 도메인/시간 도메인에서 나타나는 신호의 고유 정보(패턴)을 포함한다.
이를 위한 초음파 이미징 신경망은 초음파 에코들의 특징들을 추출하는 인코더와 특징들을 디코딩하여 시각화하는 디코더의 구조를 가진다. 특히, 주파수 성분과 시간 성분 각각에 민감도가 높은 뉴런들이 별도로 존재하는 박쥐의 청각 신경망을 모방하여, 초음파 이미징 신경망의 인코더는 초음파 에코들의 주파수 영역에 포함된 스펙트럼 특징들을 추출하는 인코더, 그리고 초음파 에코들의 시간 영역에 포함된 시간 특징들을 추출하는 인코더로 분리될 수 있다. 그리고 초음파 이미징 신경망의 디코더는, 스펙트럼 특징들과 시간 특징들을 통합하고, 통합된 특징들을 디코딩하여 물체의 3차원 이미지를 복원할 수 있다.
이렇게, 박쥐의 에코로케이션을 모방하여 구현된 초음파 이미징 신경망은 (a)와 같은 초음파 에코에서 물체의 형상/위치 특징을 추출하고, 물체의 3차원 이미지를 출력할 수 있다. 하지만, 초음파 이미징 신경망이 (b)와 같이 낮은 신호대잡음비(Signal to Noise Ratio, SNR)의 초음파 에코를 입력받으면, 초음파 에코와 노이즈를 잘 구분하지 못해, 물체의 3차원 이미지를 정확히 생성하지 못할 수 있다. 자율주행 환경에서는 높은 신호잡음비의 초음파 에코만을 획득하기 어려우므로, 안정적인 3D 이미징을 위해서, 수신 신호에서 초음파 에코와 노이즈를 잘 구별하는 기술이 매우 중요하다.
이를 위해, 초음파 이미징 신경망은 초음파 에코들의 특징들을 추출할 때, 초음파 에코들과 상관관계가 높은 방사 초음파 신호(RUC)를 가이드 신호로 사용하는 구조를 가진다. 이를 통해, 초음파 에코에 물체의 형상(shape)/위치(position) 복원에 필요한 정보가 비지엽적(non-local)으로 분포되어 있더라도, 초음파 에코에 존재하는 비지엽적 정보는 방사된 초음파 신호(RUC)로 가이드 및 강조(attention)될 수 있다. 초음파 이미징 신경망의 구조에 대해서는 다음에서 자세히 설명한다.
도 2는 박쥐의 에코로케이션을 모방한 3차원 초음파 이미징 장치의 개념도이다.
도 2의 (a)는 박쥐의 에코로케이션을 모델링한 도면이다. 박쥐는 초음파 신호를 방사하고, 양쪽 귀로 물체에서 반사된 초음파 에코들을 수신한다. 이때, 박쥐는 양쪽 귀로 수신된 2채널의 초음파 에코들과 함께, 자신이 방사한 초음파 신호(RUC)를 사전 지식으로 이용하여, 초음파 에코로부터 물체를 인식한다.
실제로 수십 마리의 박쥐들은 동시에 초음파 신호를 방사하기 때문에 간섭과 노이즈가 매우 심한 환경에서 초음파 에코를 수신하지만, 이러한 환경에서도 뛰어난 에코로케이션 능력을 가진다. 이렇게 박쥐가 노이즈 환경에서 강인한 것은 초음파 에코를 분석할 때, 방사된 초음파 신호(RUC)를 사전 지식으로 이용하기 때문이다.
도 2의 (b)는 박쥐의 에코로케이션을 모방한 이미징 장치(100)의 개념도이다. 프로세서(130)는 복수의 수신기들(120, 121, 122, 123)에서 수신된 초음파 에코들과, 송신기(110)에서 방사된 초음파 신호(RUC)를 입력받는다. 그리고, 프로세서(130)는 높은 신호대잡음비를 가지는 방사 초음파 신호(RUC)를 가이드 신호로 사용하여, 채널별 초음파 에코의 특징을 추출한다. 프로세서(130)는 초음파 이미징 신경망을 이용하여, 물체에서 반사된 초음파 에코들로부터 3차원 이미지를 생성한다.
이처럼, 이미징 장치(100)는 박쥐의 에코로케이션에 대응하도록 초음파 이미징 신경망을 구성하고, 이를 이용하여 물체의 3차원 이미지를 생성하므로, 낮은 신호대잡음비를 가진 초음파 에코에 대해서도 고해상도 이미지를 생성할 수 있다.
도 2의 (c)를 참고하면, 방사된 초음파 신호(RUC)와 4채널의 초음파 에코들의 스펙트로그램을 살펴보면, 물체에서 반사된 초음파 에코는, 방사된 초음파 신호(RUC)에 비해, 낮은 신호대잡음비를 가진다.
초음파 에코의 스펙트로그램을 살펴보면, 물체 형상/위치 복원에 필요한 스펙트럼/시간 정보가, 스펙트로그램의 주파수 및 시간 도메인에서 비지엽적(non-local)으로 분포되어 있다. 여기서, 스펙트럼/시간 정보는 큐(cues)라고 부르는 신호 패턴일 수 있다. 이렇게 비지엽적(non-local)으로 분포된 정보를 낮은 신호대잡음비를 가지는 수신 신호로부터 추출하기 위해, 초음파 이미징 신경망은 방사된 초음파 신호(RUC)의 가이드를 통해 초음파 에코의 특징을 추출한다.
구체적으로, 초음파 이미징 신경망은 방사된 초음파 신호(RUC)를 통해 초음파 에코에 비지엽적으로 존재하는 정보의 위치(location)를 강조하는 어텐션 맵(attention map)을 생성하고, 어텐션 맵을 초음파 에코의 스펙트로그램에 적용하여 방사된 초음파 신호(RUC)에 의해 가이드된 특징 맵(feature map)을 추출하는 모듈을 포함한다. 이 모듈은 “가이드된 비지엽 어텐션 모듈”(Guided non-local Attention Module, GAM)이라고 부를 수 있고, 간단히 “어텐션 모듈”이라고 부를 수 있다. 이에 대해서는 다음에서 자세히 설명한다.
도 3은 한 실시예에 따른 초음파 이미징 신경망의 구조이다.
도 3을 참고하면, 초음파 이미징 신경망(200)은 적어도 하나의 태스크를 학습할 수 있는 인공지능 모델로서, 컴퓨팅 장치에서 실행되는 소프트웨어/프로그램으로 구현될 수 있다. 초음파 이미징 신경망(200)은 입력 이미지의 특징들을 인코딩하는 인코더(encoder)(210), 그리고 인코더에서 생성한 특징 맵을 디코딩(역 렌더링)하여 이미지를 생성하는 디코더(decoder)(250)를 포함한다. 인코더(210)는 주파수 성분과 시간 성분 각각에 민감도가 높은 뉴런들이 별도로 존재하는 박쥐의 청각 신경망을 모방하여, 초음파 에코의 스펙트로그램으로부터 스펙트럼 특징들(spectral features)과 시간 특징들(Temporal features)을 추출하는 두 개의 분리된 경로들(pathways)로 구현된다.
초음파 이미징 신경망(200)은 초음파 에코들의 주파수 영역에 포함된 스펙트럼 특징들(Spectral features)을 추출하는 스펙트럼 인코더(220), 그리고 초음파 에코들의 시간 영역에 포함된 시간 특징들(Temporal features)을 추출하는 시간 인코더(230)를 포함하는 인코더(210), 그리고 인코더(210)에서 출력된 특징들을 역변환하여 생성된 2차원 깊이 이미지를 투사(projection)하여 3차원 이미지(3D Volumetric image)를 출력하는 디코더(250)로 구성된다. 스펙트럼 인코더(220)와 시간 인코더(230)는 서로 대응되는 구조를 가진다.
스펙트럼 인코더(220)와 시간 인코더(230) 각각은, 복수의 수신기들(120, 121, 122, 123)에 해당하는 복수의 채널들(ch1, ch2, ch3, ch4)에서 수신한 초음파 에코들, 그리고 송신기(110)에서 방사된 초음파 신호(RUC)의 스펙트로그램들을 획득한다. 초음파 에코들, 그리고 방사된 초음파 신호는 푸리에 변환을 통해 스펙트로그램으로 변환된다. 예를 들면, 스펙트럼 인코더(220)와 시간 인코더(230) 각각은, 서로 다른 윈도우로 입력 신호들을 푸리에 변환하여 스펙트로그램들을 생성하는 STFT(Short-time Fourier transform) 블록(221, 231)을 포함할 수 있다. STFT 블록(221)은 롱 윈도우(long window)로, 복수의 채널들(ch1, ch2, ch3, ch4)에서 수신한 초음파 에코들, 그리고 방사된 초음파 신호(RUC)을 푸리에 변환하여, 스펙트로그램들(RUCL, Echoch1.L, Echoch2.L, Echoch3.L, Echoch4.L)을 생성한다. 마찬가지로, STFT 블록(213)은 숏 윈도우(short window)로, 복수의 채널들(ch1, ch2, ch3, ch4)에서 수신한 초음파 에코들, 그리고 방사된 초음파 신호(RUC)을 푸리에 변환하여, 스펙트로그램들(RUCS, Echoch1.S, Echoch2.S, Echoch3.S, Echoch4.S)을 생성한다. 각 스펙트로그램은 수신 신호에 대해 256x256 픽셀로 인코딩된 특징 맵(1x256x256)에 해당한다.
스펙트럼 인코더(220)는 수신 채널별로, 방사된 초음파 신호(RUC)에 의해 가이드된 수신 초음파 에코의 스펙트로그램(특징 맵)을 추출하는 어텐션 모듈(GAM)(300), 그리고 어텐션 모듈(300)에서 출력된 수신 초음파 에코의 스펙트로그램을 입력받고, 입력 스펙트로그램에서 스펙트럼/시간 정보(cues)를 추출하는 잔차 블록(Residual Block, RB)(223)을 가질 수 있다. 특징 맵에 포함된 시맨틱 정보(semantic information)는 레이어 깊이(layer depth)가 증가할수록 심화되지만, 공간 정보는 밋밋해진다(flatten). 따라서, 어텐션 모듈(GAM)(300)을 잔차 블록(223)의 앞에 위치시켜, 컨볼루션 레이어에 의해 차원이 축소되기 전에, 스펙트럼/시간 정보가 강조되도록 한다. 즉, 수신 초음파 에코는 물체 형상/위치 복원에 필요한 스펙트럼/시간 정보를 포함하지만 이러한 정보가 스펙트로그램에서 비지엽적으로 분포되어 있다. 그래서, 수신 초음파 스펙트로그램에 대해 지엽적 연산(local operation)인 컨볼루션 연산을 곧장 적용하면, 비지엽적으로 존재하는 스펙트럼/시간 정보(특징들)가 제대로 추출되기 어렵다. 따라서, 스펙트럼 인코더(220)는 방사된 초음파 신호(RUC)를 이용하여 초음파 에코에 비지엽적으로 존재하는 스펙트럼/시간 정보의 위치를 가이드하고, 가이드를 통해 스펙트럼/시간 정보가 강조된 수신 초음파 스펙트로그램을 출력하는 어텐션 모듈(GAM)(300)을 포함한다.
어텐션 모듈(GAM)(300)은 해당 채널에서 수신한 초음파 에코의 스펙트로그램과, 방사된 초음파 신호(RUC)의 스펙트로그램을 입력받는다. 어텐션 모듈(GAM)(300)은 방사된 초음파 신호(RUC)의 스펙트로그램과 해당 채널에서 수신한 초음파 에코의 스펙트로그램을 이용하여 공간에 비지엽적으로 분포된 정보들의 위치를 강조하는 어텐션 맵(attention map)을 생성하고, 어텐션 맵을 초음파 에코의 스펙트로그램에 적용해서 스펙트럼/시간 정보(특징들)가 강조된 초음파 에코의 스펙트로그램(특징 맵)을 출력한다. 어텐션 모듈(GAM)(300)에서 출력된 특징 맵은 잔차 블록(223)으로 입력된다.
잔차 블록(223)은 컨볼루션 경로(convolution path)와 잔차 경로(residual path)로 구성될 수 있다. 컨볼루션 경로는 예를 들면, 2x2 맥스풀링 레이어(max pooling layer), 그리고 3개의 3x3 2D 컨볼루션 레이어들(convolution layers)로 구성될 수 있다. 잔차 경로는 예를 들면, 2x2 맥스풀링 레이어, 그리고 1개의 1x1 2D 컨볼루션 레이어들로 구성될 수 있다. 잔차 블록(223)은 입력 특징 맵에서, 물체의 형상/위치의 복원에 필요한 스펙트럼/시간 정보(cues)를 추출한다. 잔차 블록(223)에서 출력된 특징 맵은 128x128 픽셀로 인코딩된 64개의 맵들로 구성될 수 있다(64x128x128).
스펙트럼 인코더(220)에서, 수신 채널별 잔차 블록(223)에서 출력된 특징 맵들은 통합되고, 통합된 특징 맵은 1x1 컨볼루션 레이어(224)와 잔차 블록(225)을 통과한다. 잔차 블록(225)에서 출력된 특징 맵은 32x32 픽셀로 인코딩된 256개의 맵들로 구성될 수 있고(256x32x32), 물체 형상/위치에 관련된 스펙트럼 특징들을 포함한다. 이때, 통합된 특징 맵이 잔차 블록(225)을 통과하면서, 물체와의 거리(깊이)에 관계된 숨겨진 정보(hidden cues)가 추출되고, 출력 특징 맵의 픽셀들에 깊이 정보가 인코딩될 수 있다.
시간 특징들을 추출하는 시간 인코더(230)는 스펙트럼 인코더(220)와 대응되는 STFT 블록(231), GAM(300), 잔차 블록(233), 1x1 컨볼루션 레이어(234), 잔차 블록(235)의 구조를 가진다. 시간 인코더(230)의 잔차 블록(235)에서 물체 형상/위치에 관련된 시간 특징들을 포함하는 특징 맵이 출력된다.
스펙트럼 인코더(220)의 잔차 블록(225)에서 출력된 특징 맵과 시간 인코더(230)의 잔차 블록(235)에서 출력된 특징 맵은 통합되고, 통합된 특징 맵은 디코더(230)의 입력에 적합한 형태로 변환된다. 디코더(250)로 입력되는 특징 맵은 4x4 픽셀로 인코딩된 512개의 맵들로 구성될 수 있다.
디코더(250)는 역 렌더링 디코더(inverse rendering decoder)로 동작할 수 있고, 스펙트럼 인코더(220) 및 시간 인코더(230)에서 출력된 특징 맵을 디컨볼루션하여 R64×64 벡터 공간의 2차원 깊이 이미지로 변환한다. 디코더(250)는 2차원 깊이 이미지를 투사(projection)하여 3차원 이미지(3D Volumetric image)를 출력한다.
디코더(250)를 구성하는 블록들은 다양하게 설계될 수 있는데, 예를 들면, 디코더(250)는 3개의 잔차 블록들(251, 252, 253)로 구성될 수 있다. 각 잔차블록은 하나의 컨볼루션 트랜스포즈(transpose)/디컨벌루션(deconvolution) 레이어와 두 개의 컨볼루션 레이어들로 구성될 수 있다. 컨볼루션 트랜스포즈 레이어는 스트라이드 2의 2×2 커널들 또는 스트라이드 4의 4×4 커널들을 가질 수 있다. 컨볼루션 레이어는 3×3 커널들을 가지고, 패딩(padding), 배치 정규화(Batch normalization), ReLU 활성 함수를 포함할 수 있다.
디코더(250)에서, 3개의 잔차 블록들(251, 252, 253)을 통과하여 출력된 특징 맵은 256개의 맵들로 구성될 수 있다. 잔차 블록에서 출력된 특징 맵을 2차원 깊이 이미지로 표현하기 위해, 마지막 잔차 블록(253)의 다음에 3x3 컨볼루션 레이어(254)가 추가된다. 3x3 컨볼루션 레이어(254)에서 64x64 픽셀의 2차원 이미지가 추출된다. 디코더(250)는 픽셀에 깊이 정보가 포함된 2차원 깊이 이미지를 투사하여 3차원 이미지를 생성할 수 있다.
도 4는 한 실시예에 따른 어텐션 모듈(GAM)의 구조이고, 도 5는 한 실시예에 따른 서브 픽셀 샘플링을 설명하는 도면이다.
도 4를 참고하면, 어텐션 모듈(GAM)(300)은 초음파 에코의 스펙트로그램에서 비지엽적(non-local)으로 분포되어 있는 스펙트럼/시간 정보가 효과적으로 추출되도록, 방사된 초음파 신호(RUC)를 가이드 신호로 이용하여 초음파 에코의 스펙트로그램에 포함된 스펙트럼/시간 정보를 강조한다.
어텐션 모듈(GAM)(300)은 해당 채널에서 수신한 초음파 에코의 스펙트로그램 Fe, 그리고 방사된 초음파 신호(RUC)의 스펙트로그램 Fr을 입력받는다. 어텐션 모듈(GAM)(300)은 스펙트로그램 Fe와 스펙트로그램 Fr의 픽셀별 가중 합으로서, 스펙트럼/시간 정보의 위치를 가이드하는 어텐션 맵을 생성한다. 이때, 스펙트로그램의 크기(H x W)가 커서, 픽셀별 가중 합으로 계산되는 어텐션 맵을 생성하는데 컴퓨팅 자원이 많이 필요하게 된다. 따라서, 어텐션 모듈(GAM)(300)은 도 5와 같이 동작하는 서브 픽셀 샘플링(sub-pixel sampling) 레이어들을 이용할 수 있고, 다운 픽셀-셔플(down pixel-shuffle) 블록(310)과 업 픽셀-셔플(up pixel-shuffle) 블록(350)을 포함할 수 있다.
어텐션 모듈(GAM)(300)은 다운 픽셀-셔플 블록(310)을 통해, 입력 특징 맵 Fr Fe을 저차원의 특징 맵 Fr D 및 Fe D로 변환한다. 다운 픽셀-셔플 블록(310)은 H x W크기의 특징 맵 Fr Fe을 1/r로 다운 스케일링하여, H/r x W/r 크기의 맵들로 구성된 특징 맵 Fr D 및 Fe D을 출력한다. 다운 스케일링된 특징 맵 Fr D Fe D 은 컨볼루션 레이어 f,g를 통해 저차원 매니폴드 f(Fr D), g(Fe D)로 임베딩된다.
어텐션 모듈(GAM)(300)은 f(Fr D)과 g(Fe D)의 픽셀별 가중 합으로서, 어텐션 맵(330)을 생성한다. 예를 들면, 어텐션 맵은 수학식 1과 같이, C(f(Fr D),g(Fe D))로 정규화된 가우시안 함수로 구현될 수 있다. 수학식 1에서, i는 특징 맵의 위치 인덱스이고, j는 모든 가능한 위치들의 인덱스이다. 어텐션 맵은 소프트맥스 함수(softmax function)일 수 있다.
Figure 112020047816529-pat00001
Figure 112020047816529-pat00002
어텐션 모듈(GAM)(300)은 초음파 에코의 특징 맵 Fe D를 컨볼루션 레이어 h로 임베딩하고, 임베딩된 h(Fe D)에 어텐션 맵(330)을 적용한다. 그리고, 어텐션 모듈(GAM)(300)은 학습 효율을 위해, 초음파 에코의 특징 맵에 어텐션 맵(330)이 적용된 결과에, 초음파 에코의 특징 맵 Fe D을 identity mapping한다. 어텐션 모듈(GAM)(300)은 수학식 2와 같이, 방사된 초음파 신호(RUC)에 의해 가이드된 초음파 에코(RUC-guided echo)의 특징 맵 Fre D를 생성한다.
Figure 112020047816529-pat00003
어텐션 모듈(GAM)(300)은 업 픽셀-셔플 블록(350)을 통해, 특징 맵 Fre D를 업 스케일링하여, 크기(H x W)의 특징 맵 Fre를 출력한다. 어텐션 모듈(GAM)(300)은 수학식 3과 같이, 방사된 초음파 신호(RUC)에 의해 가이드된 초음파 에코(RUC-guided echo)의 특징 맵 Fre를 생성한다.
Figure 112020047816529-pat00004
이와 같이, 어텐션 모듈(GAM)(300)에서 출력된 초음파 에코의 특징 맵 Fre는 초음파 이미징 신경망(200)의 컨볼루션 레이어들로 입력되고, 특징 맵 Fre로부터 물체 형상/위치의 특징이 추출된다. 따라서, 초음파 이미징 신경망(200)은 단지 초음파 에코의 특징 맵 Fe으로부터 특징을 추출하는 것에 비해 노이즈에 강인하고, 고해상도 이미지를 복원할 수 있다.
도 6은 다양한 노이즈 레벨의 초음파 에코로부터 3차원 이미지를 복원한 본개시의 성능 결과이고, 도 7은 다양한 노이즈 레벨의 초음파 에코를 방사된 초음파 신호로 가이드한 본 개시의 성능 결과이다.
도 6을 참고하면, 본 개시의 초음파 이미징 신경망(“Bat-G2”)과 비교 대상 신경망(“baseline”)이 다양한 노이즈 레벨 (a) σN = 0.21, (b) σN = 0.29, (c) σN = 0.37에서 입력된 에코 신호부터 목표 물체(target object)를 복원한 결과이다. “Bat-G2 Result”는 에코 신호를 방사된 초음파 신호(RUC)로 가이드한 초음파 이미징 신경망(200)이 복원한 3차원 이미지이다. “Baseline Result”는 방사된 초음파 신호(RUC)에 의해 가이드되지 않은 에코 신호로부터 복원된 3차원 이미지이다. “Bat-G2 Result”가 노이즈 레벨이 높은 에코 신호에 대해서도 “Baseline Result”보다 더 안정적으로 3차원 이미지를 복원하는 것을 확인할 수 있다.
도 7은 grad-CAM의 시각화 결과이다. grad-CAM은 신경망이 결과를 얻기 위해 특정 레이어의 어떤 위치에 있는 특징들을 이용했는지 확인할 수 있는 시각화 방법으로서, 그래디언트(gradients)를 사용하여 컨볼루션 레이어들에서 활성화된 공간 영역(spatial region)을 나타낸다. 컨볼루션 레이어들에서 활성화된 공간 영역은 신경망에서 중요하게 고려하는 영역으로 볼 수 있다.
도 7을 참고하면, 본 개시의 초음파 이미징 신경망(“Bat-G2”)과 비교 대상 신경망(“baseline”)이 다양한 노이즈 레벨 (a) σN = 0.171, (b) σN = 0.248, (c) σN = 0.367에서 입력된 스펙트로그램에서 중요하게 고려한 영역을 나타내는 시각화 결과이다. 본 개시의 초음파 이미징 신경망(“Bat-G2”)은 방사된 초음파 신호(RUC)로 가이드된 초음파 에코로부터 특징을 추출하고, 비교 대상 신경망(“baseline”)은 방사된 초음파 신호(RUC)에 의해 가이드되지 않은 에코 신호로부터 특징을 추출한다. 노이즈 레벨이 낮은 이미지(a)에 대해서는, baseline과 Bat-G2 모두 하이퍼볼릭 주파수 변조 첩에 활성화된 공간 영역이 집중된다. 점차 노이즈 레벨이 높아지더라도, 방사된 초음파 신호(RUC)에 의해 가이드된 초음파 이미징 신경망(200)(Bat-G2)은 노이즈로부터 하이퍼볼릭 주파수 변조 첩을 구분할 수 있다. 반면, 점차 노이즈 레벨이 높아지면, 방사된 초음파 신호(RUC)에 의해 가이드되지 않은 신경망(baseline)은 노이즈로부터 하이퍼볼릭 주파수 변조 첩을 구분하지 못하는 것을 확인할 수 있다.
도 8은 한 실시예에 따른 3차원 초음파 이미징 방법의 흐름도이다.
도 8을 참고하면, 이미징 장치(100)는 초음파 신호를 방사한다(S110). 초음파 신호는 주파수 변조된 첩(frequency-modulated chirp) 신호일 수 있고, 첩 신호의 특성은 이미징 거리(range)에 따라 가변될 수 있다.
이미징 장치(100)는 방사된 초음파 신호가 물체에 반사된 초음파 에코들을 복수의 채널들을 통해 수신한다(S120).
이미징 장치(100)는 방사된 초음파 신호를 이용하여 각 채널의 초음파 에코에 포함된 특징들이 강조된 특징 맵(Fre)을 추출하고, 채널별 특징 맵(Fre)을 컨볼루션 연산하여 초음파 에코들의 스펙트럼 특성들과 시간 특성들이 인코딩된 특징 맵을 추출한다(S130). 물체의 형상/위치 복원에 사용되는 정보(스펙트럼/시간 정보)가 초음파 에코 스펙트로그램에 비지엽적으로 분포되어 있으므로, 이미징 장치(100)는 복원에 필요한 정보의 위치를 방사된 초음파 신호로 가이드함으로써 초음파 에코에 포함된 특징들이 강조된 특징 맵을 추출할 수 있다. 이때, 이미징 장치(100)는 방사된 초음파 신호(RUC)의 스펙트로그램 Fr을 이용하여 초음파 에코의 스펙트로그램 Fe를 가이드하는 어텐션 맵을 생성하고, 어텐션 맵을 이용하여 초음파 에코의 스펙트로그램 Fe에 분포된 비지엽적(non-local) 정보가 강조된 스펙트로그램 Fre을 추출할 수 있다. 이미징 장치(100)는 컴퓨팅 자원을 고려하여, 방사된 초음파 신호(RUC)의 스펙트로그램 Fr과 초음파 에코의 스펙트로그램 Fe을 서브 픽셀 샘플링으로 다운 스케일링하고, 저차원의 특징 맵 Fr D 및 Fe D을 어텐션 연산한 후, 어텐션된 특징 맵 Fre D를 업 스케일링하여, 특징 맵 Fre를 출력할 수 있다. 또한, 이미징 장치(100)는 각 초음파 에코의 스펙트럼 특징들과 시간 특징들을 두 경로로 분리해서 추출할 수 있다. 이미징 장치(100)는 어텐션 모듈(GAM)(300)을 포함하는 초음파 이미징 신경망(200)을 이용하여 복수의 채널들을 통해 수신한 초음파 에코들을 인코딩할 수 있다.
이미징 장치(100)는 인코딩된 특징 맵을 디컨볼루션 연산하여 2차원 깊이 이미지를 추출한다(S140).
이미징 장치(100)는 2차원 깊이 이미지를 투사하여 3차원 이미지를 생성한다(S150).
도 9는 다른 실시예에 따른 3차원 초음파 이미징 방법의 흐름도이다.
도 9를 참고하면, 이미징 장치(100)는 방사된 초음파 신호(RUC), 그리고 방사된 초음파 신호가 물체에 반사되어 되돌아온 초음파 에코들을 복수의 채널들을 통해 입력받는다(S210).
이미징 장치(100)는 입력 신호들에 대해, 스펙트럼 특징들을 추출하기 위한 푸리에 변환과 시간 특징들을 추출하기 위한 푸리에 변환을 하여 입력 신호별로 두 개의 특징 맵을 생성한다(S220). 이미징 장치(100)는 예를 들면, 롱 윈도우의 STFT와 숏 윈도우의 STFT를 통해 입력 신호에 대한 두 개의 스펙트로그램을 생성할 수 있다.
이미징 장치(100)는 방사된 초음파 신호의 특징 맵과 각 채널의 초음파 에코의 특징 맵에 대해 비지엽적 어텐션 연산하여, 방사된 초음파 신호의 특징 맵으로 가이드된 채널별 초음파 에코의 특징 맵을 생성한다(S230).
이미징 장치(100)는 초음파 에코들의 주파수 특성들과 시간 특성들을 분리 추출하도록 구성된 인코더를 이용하여 가이드된 특징 맵을 컨볼루션 연산해서, 채널별 초음파 에코의 특징 맵을 컨볼루션 연산하여 초음파 에코들의 주파수 특성과 시간 특성이 인코딩된 특징 맵을 추출한다(S240).
이미징 장치(100)는 입력 특징 맵을 디코딩하도록 구성된 디코더를 이용하여, 인코딩된 특징 맵을 디컨볼루션 연산하여 2차원 깊이 이미지를 추출한다(S250).
이미징 장치(100)는 2차원 깊이 이미지를 투사하여 3차원 이미지를 생성한다(S260).
도 10은 한 실시예에 따른 초음파 이미징 신경망의 동작 방법을 설명하는 흐름도이다.
도 10을 참고하면, 컴퓨터 판독 가능한 저장매체에 저장되는 초음파 이미징 신경망(200)은 프로세서에 의해 구동된다.
초음파 이미징 신경망(200)은 방사된 초음파 신호(RUC) 그리고 채널별 초음파 에코를 입력받고, 입력 신호들 각각을 롱 윈도우와 숏 윈도우로 푸리에 변환하여 스펙트로그램들을 생성하며, 스펙트로그램들을 스펙트럼 특징들과 시간 특징들을 추출하는 두 개의 분리된 경로들(pathways)로 입력한다(S310).
초음파 이미징 신경망(200)은 각 경로에서, 채널별 초음파 에코 스펙트로그램과 방사된 초음파 신호 스펙트로그램의 어텐션 연산을 통해 해당 채널의 어텐션 맵을 생성하고, 어텐션 맵이 적용된 초음파 에코 특징맵을 채널별로 출력한다(S320). 이때, 초음파 이미징 신경망(200)은 입력 스펙트로그램을 서브 픽셀 샘플링한 후, 어텐션 연산을 할 수 있다.
초음파 이미징 신경망(200)은 각 경로에서 추출된 채널별 특징 맵을 컨볼루션 연산 및 통합해서 해당 경로의 특징 맵을 출력한다(S330). 초음파 이미징 신경망(200)은 예를 들면, 컨볼루션 경로와 잔차 경로로 구성된 잔차 블록을 이용하여 특징 맵을 추출할 수 있다.
초음파 이미징 신경망(200)은 두 경로에서 출력된 특징 맵들을 통합하고, 통합된 특징 맵을 디코더 입력에 맞게 변환한 특징 맵을 디코더로 입력한다(S340).
초음파 이미징 신경망(200)은 디코더로 입력된 특징 맵을 디컨볼루션 연산하여, 2차원 깊이 이미지를 생성한다(S350).
초음파 이미징 신경망(200)은 2차원 깊이 이미지를 투사(projection)하여 3차원 이미지를 출력한다(S360).
이와 같이, 이미징 장치(100)는 초음파 에코들과 상관관계가 높으면서 신호대잡음비가 우수한 방사된 초음파 신호(RUC)를 사전 지식으로 이용하므로, 악천후나 주변 간섭에 의해 노이즈가 매우 심한 환경에서 초음파 에코들이 수신되더라도, 초음파 에코들로부터 고해상도 이미지를 생성할 수 있다. 따라서, 노이즈에 강인한 이미징 장치(100)는 악천후나 야간에 자율주행자동차에서 요구되는 센싱 성능을 제공할 수 있다.
Lidar 센서는 매우 많은 펄스들을 방사하여 획득한 점군(point cloud) 데이터를 이용하여 3차원 이미지를 복원하지만, 본 발명의 이미징 장치(100)는 단일 펄스(single pulse)로 방사된 초음파 신호의 에코 패턴(echo pattern)을 인코더-디코더 구조의 인공 신경망을 통해 학습 및 추정할 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (18)

  1. 3차원 초음파 이미징 장치의 동작 방법으로서,
    방사된 초음파 신호를 입력받는 단계,
    상기 방사된 초음파 신호가 물체에서 반사되어 수신된 초음파 에코들을 입력받는 단계,
    상기 방사된 초음파 신호를 이용하여 각 초음파 에코에 포함된 정보의 위치를 가이드하여, 각 초음파 에코의 가이드된 특징 맵을 생성하는 단계,
    각 초음파 에코의 가이드된 특징 맵을 컨볼루션 연산하여 상기 초음파 에코들의 스펙트럼 특징들(spectral features)과 시간 특징들(temporal features)이 인코딩된 특징 맵을 추출하는 단계, 그리고
    상기 인코딩된 특징 맵을 디컨볼루션 연산하여 3차원 이미지를 생성하는 단계
    를 포함하는 동작 방법.
  2. 제1항에서,
    상기 가이드된 특징 맵을 생성하는 단계는
    상기 방사된 초음파 신호의 스펙트로그램과 각 초음파 에코의 스펙트로그램의 어텐션 연산을 통해 물체의 형상/위치 복원에 필요한 정보의 위치를 강조하는 어텐션 맵을 생성하고, 상기 어텐션 맵을 해당 초음파 에코의 스펙트로그램에 적용하여 초음파 에코별 가이드된 특징 맵을 생성하는, 동작 방법.
  3. 제2항에서,
    상기 어텐션 연산은 두 스펙트로그램 간의 픽셀별 가중 합으로 계산되는, 동작 방법.
  4. 제2항에서,
    상기 어텐션 맵은 소프트맥스 함수(softmax function)인, 동작 방법.
  5. 제2항에서,
    상기 가이드된 특징 맵을 생성하는 단계는
    상기 방사된 초음파 신호의 스펙트로그램과 각 초음파 에코의 스펙트로그램을 서브 픽셀 샘플링으로 다운 스케일링하여 상기 어텐션 맵을 생성하고, 상기 어텐션 맵을 다운 스케일링된 해당 초음파 에코의 스펙트로그램에 적용한 후 업 스케일링하여 상기 가이드된 특징 맵을 출력하는, 동작 방법.
  6. 제1항에서,
    상기 초음파 에코들의 주파수 특징들과 시간 특징들이 인코딩된 특징 맵을 추출하는 단계는
    분리된 경로를 통해 상기 초음파 에코들의 주파수 특징들과 시간 특징들을 추출하고, 상기 분리된 경로에서 추출된 주파수 특징들과 시간 특징들을 통합하여 상기 인코딩된 특징 맵을 추출하는, 동작 방법.
  7. 제1항에서,
    상기 3차원 이미지를 생성하는 단계는
    상기 인코딩된 특징 맵을 디컨볼루션 연산하여 2차원 깊이 이미지를 생성하고, 상기 2차원 깊이 이미지를 투영하여 상기 3차원 이미지를 생성하는, 동작 방법.
  8. 적어도 하나의 프로세서에 의해 동작하는 3차원 초음파 이미징 장치로서,
    초음파 신호를 방사하는 송신기,
    물체에서 반사된 초음파 에코들을 수신하는 복수의 수신기들, 그리고
    방사된 초음파 신호와 복수 채널을 통해 수신된 상기 초음파 에코들을 입력받고, 상기 방사된 초음파 신호를 이용하여 상기 채널별 초음파 에코에 포함된 정보의 위치를 가이드하여, 상기 채널별 초음파 에코의 특징 맵을 생성하고, 인코더와 디코더로 구성된 초음파 이미징 신경망을 이용하여 상기 채널별 초음파 에코의 특징 맵을 처리하여 상기 물체의 3차원 이미지를 생성하는 프로세서
    를 포함하는 3차원 초음파 이미징 장치.
  9. 제8항에서,
    상기 프로세서는
    컨볼루션 레이어들을 이용하여 상기 초음파 에코들의 주파수 특성들과 시간 특성들을 추출하도록 구성된 상기 인코더를 이용하여, 채널별 초음파 에코의 특징 맵으로부터 초음파 에코들의 주파수 특성과 시간 특성이 인코딩된 특징 맵을 추출하고, 디컨볼루션 레이어들을 이용하여 입력 특징 맵을 디코딩하도록 구성된 상기 디코더를 이용하여, 상기 인코딩된 특징 맵으로부터 상기 3차원 이미지를 생성하는, 3차원 초음파 이미징 장치.
  10. 제8항에서,
    상기 초음파 이미징 신경망은 학습용 초음파 에코들로부터 물체 형상을 출력하도록 학습된 인공 신경망인, 3차원 초음파 이미징 장치.
  11. 제8항에서,
    상기 인코더는 채널별로 상기 채널별 초음파 에코의 특징 맵을 생성하는 어텐션 모듈을 포함하고,
    상기 어텐션 모듈은
    상기 방사된 초음파 신호와 해당 채널의 초음파 에코를 입력받고, 입력된 상기 방사된 초음파 신호와 초음파 에코의 어텐션 연산을 통해 물체의 형상/위치 복원에 필요한 정보의 위치를 강조하는 어텐션 맵을 생성하고, 상기 어텐션 맵을 입력 초음파 에코에 적용하여 상기 입력 초음파 에코의 특징 맵을 생성하는, 3차원 초음파 이미징 장치.
  12. 제11항에서,
    상기 어텐션 모듈은
    상기 방사된 초음파 신호와 초음파 에코 각각의 스펙트로그램을 서브 픽셀 샘플링하여 저차원 특징 맵으로 변환하고, 저차원 특징 맵들을 어텐션 연산하여 저차원 어텐션 맵을 생성하고, 상기 저차원 어텐션 맵이 적용된 입력 초음파 에코의 저차원 특징 맵을 업 스케일링하여 상기 입력 초음파 에코의 특징 맵을 생성하는, 3차원 초음파 이미징 장치.
  13. 제8항에서,
    상기 인코더는
    분리된 경로를 통해 상기 초음파 에코들의 주파수 특성들과 시간 특성들을 추출하고, 상기 분리된 경로에서 추출된 주파수 특성들과 시간 특성들을 통합하는 레이어들로 구성되는, 3차원 초음파 이미징 장치.
  14. 컴퓨터 판독 가능한 저장매체에 저장되는 초음파 이미징 신경망 프로그램으로서
    컨볼루션 레이어들을 이용하여 초음파 에코들의 주파수 영역에 포함된 스펙트럼 특징들(spectral features)을 추출하는 제1 인코더 모델,
    컨볼루션 레이어들을 이용하여 상기 초음파 에코들의 시간 영역에 포함된 시간 특징들(Temporal features)을 추출하는 제2 인코더 모델, 그리고
    디컨볼루션 레이어들을 이용하여 상기 제1 인코더 및 상기 제2 인코더에서 출력된 특징들을 역변환하여 3차원 이미지를 출력하는 디코더 모델을 실행하는 명령어들을 포함하고,
    상기 제1 인코더 모델과 상기 제 2 인코더 모델 각각은 초음파 에코별 어텐션 모듈을 포함하고,
    상기 어텐션 모듈은 방사된 초음파 신호에 의해 물체의 형상/위치 복원에 필요한 정보가 강조된 해당 초음파 에코의 특징 맵을 추출하는 명령어들을 포함하는, 초음파 이미징 신경망 프로그램.
  15. 제14항에서,
    상기 어텐션 모듈은
    상기 방사된 초음파 신호와 해당 초음파 에코를 입력받고, 입력된 상기 방사된 초음파 신호와 초음파 에코의 어텐션 연산을 통해 물체의 형상/위치 복원에 필요한 정보의 위치를 강조하는 어텐션 맵을 생성하고, 상기 어텐션 맵을 입력 초음파 에코에 적용하여 상기 입력 초음파 에코의 특징 맵을 생성하는 명령어들을 포함하는, 초음파 이미징 신경망 프로그램.
  16. 제14항에서,
    상기 어텐션 모듈은
    입력된 상기 방사된 초음파 신호와 초음파 에코 각각의 스펙트로그램을 서브 픽셀 샘플링하여 저차원 특징 맵으로 변환하고, 저차원 특징 맵들을 어텐션 연산하여 저차원 어텐션 맵을 생성하고, 상기 저차원 어텐션 맵이 적용된 입력 초음파 에코의 저차원 특징 맵을 업 스케일링하여 상기 입력 초음파 에코의 특징 맵을 생성하는 명령어들을 포함하는, 초음파 이미징 신경망 프로그램.
  17. 제14항에서,
    상기 제1 인코더 모델은
    상기 방사된 초음파 신호와 상기 초음파 에코들 각각을 롱 윈도우로 푸리에 변환한 스펙트로그램들로부터 상기 스펙트럼 특징들을 추출하는 명령어들을 포함하고,
    상기 제2 인코더 모델은
    상기 방사된 초음파 신호와 상기 초음파 에코들 각각을 숏 윈도우로 푸리에 변환한 스펙트로그램들로부터 상기 시간 특징들을 추출하는 명령어들을 포함하는, 초음파 이미징 신경망 프로그램.
  18. 제14항에서,
    상기 디코더 모델은
    상기 제1 인코더 및 상기 제2 인코더에서 출력된 특징들로부터 3차원 이미지를 생성하는 명령어들을 포함하는, 초음파 이미징 신경망 프로그램.
KR1020200056513A 2020-05-12 2020-05-12 박쥐를 모방한 3차원 초음파 이미징 방법 및 장치 KR102261754B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200056513A KR102261754B1 (ko) 2020-05-12 2020-05-12 박쥐를 모방한 3차원 초음파 이미징 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200056513A KR102261754B1 (ko) 2020-05-12 2020-05-12 박쥐를 모방한 3차원 초음파 이미징 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102261754B1 true KR102261754B1 (ko) 2021-06-07

Family

ID=76374028

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200056513A KR102261754B1 (ko) 2020-05-12 2020-05-12 박쥐를 모방한 3차원 초음파 이미징 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102261754B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230024265A1 (en) * 2021-07-22 2023-01-26 Toyota Motor Engineering & Manufacturing North America, Inc. Deep cooperative feature sharing among connected vehicles
KR20230120506A (ko) 2022-02-09 2023-08-17 한국과학기술원 3차원 시청각 융합 센서 장치 및 이의 동작 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101529333B1 (ko) * 2007-01-19 2015-06-16 써니브룩 헬스 사이언시즈 센터 초음파와 광학 영상 진단 수단이 결합된 영상 탐침 장치
KR20180058511A (ko) * 2016-11-24 2018-06-01 엘지전자 주식회사 이동 로봇 및 그 제어방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101529333B1 (ko) * 2007-01-19 2015-06-16 써니브룩 헬스 사이언시즈 센터 초음파와 광학 영상 진단 수단이 결합된 영상 탐침 장치
KR20180058511A (ko) * 2016-11-24 2018-06-01 엘지전자 주식회사 이동 로봇 및 그 제어방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Lindell, David B., Gordon Wetzstein, and Vladlen Koltun. "Acoustic non-line-of-sight imaging." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. *
황건필, "박쥐를 모방한 3차원 초음파 이미징 시스템", 한국과학기술원 박사학위논문, (2020. 02). *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230024265A1 (en) * 2021-07-22 2023-01-26 Toyota Motor Engineering & Manufacturing North America, Inc. Deep cooperative feature sharing among connected vehicles
US11943760B2 (en) * 2021-07-22 2024-03-26 Toyota Motor Engineering & Manufacturing North America, Inc. Deep cooperative feature sharing among connected vehicles
KR20230120506A (ko) 2022-02-09 2023-08-17 한국과학기술원 3차원 시청각 융합 센서 장치 및 이의 동작 방법

Similar Documents

Publication Publication Date Title
US11487288B2 (en) Data synthesis for autonomous control systems
US11927668B2 (en) Radar deep learning
US11836852B2 (en) Neural network-based millimeter-wave imaging system
US20230289599A1 (en) Optimizing neural network structures for embedded systems
US20220043449A1 (en) Multi-channel sensor simulation for autonomous control systems
CN110147706B (zh) 障碍物的识别方法和装置、存储介质、电子装置
Christensen et al. Batvision: Learning to see 3d spatial layout with two ears
KR102261754B1 (ko) 박쥐를 모방한 3차원 초음파 이미징 방법 및 장치
KR101362631B1 (ko) 머리 인식 방법
CN106033601B (zh) 检测异常情形的方法和装置
KR20200144862A (ko) 레이더의 해상도 향상 방법 및 장치
CN111079652B (zh) 一种基于点云数据简易编码的3d目标检测方法
CN115244586A (zh) 微波识别方法及系统
US11783538B2 (en) Three dimensional image generating method and apparatus
Roberts et al. Multiview, broadband acoustic classification of marine fish: a machine learning framework and comparative analysis
WO2021131953A1 (ja) 情報処理装置、情報処理システム、情報処理プログラムおよび情報処理方法
Xie et al. Inferring depth contours from sidescan sonar using convolutional neural nets
Sung et al. Realistic sonar image simulation using generative adversarial network
CN117808689A (zh) 基于毫米波雷达与摄像头融合的深度补全方法
Hwang et al. Bat-g net: Bat-inspired high-resolution 3d image reconstruction using ultrasonic echoes
CN115131756A (zh) 一种目标检测方法及装置
CN112651405B (zh) 目标检测方法及装置
Liang et al. Deep fusion of heterogeneous sensor modalities for the advancements of ADAS to autonomous vehicles
Armanious et al. Towards adversarial denoising of radar micro-doppler signatures
KR20230120506A (ko) 3차원 시청각 융합 센서 장치 및 이의 동작 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant