KR20200138021A

KR20200138021A - 미디어 캡처 및 보유를 위한 비디오 분석 및 관리 기술

Info

Publication number: KR20200138021A
Application number: KR1020200062081A
Authority: KR
Inventors: 슈앙 가오; 바실리오스 이. 안톤; 로버트 에이. 베일리; 에밀리 킴; 비그네쉬 자가데쉬; 폴 슈나이더; 피오트르 스탠크직; 아르웬 브래들리; 제이슨 클리빙턴; 자크 가슬린 드 리셰부르그; 조 트리스카리; 세바스티엔 베이세리; 양 양; 아프신 데간; 루돌프 반 더 메르웨
Original assignee: 애플 인크.
Priority date: 2019-05-31
Filing date: 2020-05-25
Publication date: 2020-12-09
Also published as: KR102452054B1; US11196943B2; US20200382725A1

Abstract

캡처 동작들 동안 발생할 수 있는 동작 상의 어려움들을 극복하기 위해 캡처된 미디어를 편집하기 위한 기술들이 개시된다. 이러한 기술들에 따르면, 한 쌍의 카메라들로 콘텐츠가 캡처될 수 있고, 제1 카메라는 제2 카메라보다 더 넓은 시야를 갖는다. 객체(들)는 더 넓은 시야의 카메라로부터의 캡처된 콘텐츠로부터 검출될 수 있다. 캡처된 콘텐츠는 적어도 하나의 검출된 객체의 위치에서 더 넓은 시야의 카메라로부터 프로세싱될 수 있다. 전형적으로, 조작자들은 더 좁은 시야의 카메라로부터의 콘텐츠를 이용하여 콘텐츠를 프레이밍하려고 시도할 수 있다. 그 결과, 조작자들은 제2의 더 넓은 시야의 카메라를 사용하여 원하는 콘텐츠가 캡처된다는 것을 알지 못할 수 있다. 프로세싱된 더 넓은 시야의 데이터로부터의 결과들은 검토 및, 원하는 경우, 보유를 위해 조작자들에게 제안될 수 있다.

Description

미디어 캡처 및 보유를 위한 비디오 분석 및 관리 기술{VIDEO ANALYSIS AND MANAGEMENT TECHNIQUES FOR MEDIA CAPTURE AND RETENTION}

관련 출원들에 대한 상호 참조

본 출원은, 2019년 10월 15일자로 출원된 미국 특허 출원 제16/653,704호, 및 2019년 5월 31일자로 출원된 미국 가특허 출원 제62/855,874호에 대한 우선권을 주장하며, 이들은 그 전체가 본 명세서에 참조로서 포함되어 있다.

본 개시는 소비자 전자 디바이스들을 사용하는 미디어 캡처에 관한 것이다.

소비자 디바이스들은 일상적으로, 조작자들이 그들의 일상 생활들의 이미지들 및 비디오를 캡처하게 하는 하나 이상의 카메라 시스템들을 갖는다. 그러한 디바이스들이 그러한 사용자들에게 편리한 도구들을 제공하지만, 조작자들은 캡처 이벤트들 동안 어려움을 가질 수 있다. 그러한 카메라 시스템들은 통상적으로 다중 사용 디바이스들에 통합되는데, 이는 또한, 예를 들어, 전화들, 웹 브라우저들, 미디어 플레이어들, 개인 정보 관리자들로서의 역할을 한다. 이들 디바이스는 전형적으로 이러한 경쟁 용도들을 제공하는 폼 팩터들을 가지며, 이는 조작자들이 이미지 및/또는 비디오 캡처 이벤트들 동안 디바이스를 안정적으로 유지하는 것을 어렵게 할 수 있다. 실제로, 이들 디바이스들의 폼 팩터들은 겉보기에는 작은 조작자 모션 아티팩트들이 캡처된 이미지들 및/또는 비디오에서 큰 모션을 유도할 수 있는 정도로 감소되었다.

이들 디바이스들 중 다수는 몇몇 이미지 캡처 시스템들을 갖는다. 예를 들어, 단일 디바이스는, 각각 그들 자신의 광학 시스템들을 갖는, 공통 방향으로 향하는 몇몇 카메라 시스템들을 가질 수 있다. 실제적인 사항으로서, 조작자가 캡처 이벤트 동안에 이미지 콘텐츠를 프레이밍함에 따라 이들 카메라들 중 단지 하나로부터의 콘텐츠를 조작자에게 디스플레이하는 것이 가능하다. 실제로, 디바이스 상의 다른 카메라가 원하는 콘텐츠를 캡처했을 때, 하나의 카메라로부터의 데이터의 조작자의 관찰로 인해, 조작자가 원하는 콘텐츠를 캡처하는 것을 실패한 것으로 캡처 이벤트를 인지할 수 있는 것이 가능하다.

도 1은 본 개시의 일 양태에 따른 시스템의 기능적 블록도이다.
도 2a는 좁은 FOV 카메라에 의해 생성될 수 있는 예시적인 프레임들을 예시하고, 도 2b는 넓은 FOV 카메라에 의해 생성될 수 있는 예시적인 프레임들을 예시한다.
도 3은 본 개시의 다른 양태에 따른 시스템의 기능적 블록도이다.
도 4는 본 개시의 일 양태에 따라 함께 사용하기에 적합한 프레임들의 예시적인 시퀀스를 예시한다.
도 5는 본 개시의 일 양태에 따른 예시적인 검출된 객체들 및 조성 동작들을 예시한다.
도 6은 본 개시의 일 양태에 따른 컴포지터(compositor)로부터 생성될 수 있는 예시적인 프레임들을 예시한다.
도 7은 본 개시의 일 양태와 함께 사용하기에 적합한 프로세싱 시스템을 예시한다.
도 8은 본 개시의 일 양태에 따른 특징부 검출 및 특징부 매칭의 동작을 예시한다.
도 9는 본 개시의 일 양태에 따른 트리포드(tripod) 안정화를 예시한다.
도 10은 본 개시의 일 양태에 따른 균일한 패닝(panning)을 예시한다.
도 11은 본 개시의 일 양태에 따른 평활화된 가속도를 예시한다.
도 12는 본 개시의 일 양태에 따른 다중 모드 평활화를 예시한다.

본 개시의 양태들은 캡처 동작들 동안 발생할 수 있는 동작 상의 어려움들을 극복하기 위해 캡처된 미디어를 편집하기 위한 기술들을 제공한다. 이러한 양태들에 따르면, 한 쌍의 카메라들로 콘텐츠가 캡처될 수 있고, 제1 카메라는 제2 카메라보다 더 넓은 시야를 갖는다. 객체(들)는 더 넓은 시야의 카메라로부터의 캡처된 콘텐츠로부터 검출될 수 있다. 캡처된 콘텐츠는 적어도 하나의 검출된 객체의 위치에서 더 넓은 시야의 카메라로부터 프로세싱될 수 있다. 프로세싱된 더 넓은 시야의 데이터로부터의 결과들은 검토 및, 원하는 경우, 보유를 위해 조작자들에게 제안될 수 있다.

도 1은 본 개시의 일 양태에 따른 시스템(100)의 기능적 블록도이다. 시스템(100)은 한 쌍의 카메라들(110, 115), 한 쌍의 비디오 캡처 시스템들(120, 125), 디스플레이(130), 객체 추적기(135), 컴포지터(140), 및 저장 시스템(145)(145.1, 145.2, 145.3으로 도시됨)을 포함할 수 있다. 이러한 컴포넌트들은 제어기(150)의 제어 하에서 동작할 수 있다.

카메라들(110, 115)은, 하나가 다른 하나보다 더 넓은, 서로에 대해 상이한 시야들(통상적으로, "FOV")을 가질 수 있다. 편의상, 제1 카메라(110)는 본 명세서에서 "좁은" 시야를 갖는 것으로 기술되고, 제2 카메라(115)는 "넓은" 시야를 갖는 것으로 기술된다. 따라서, 비디오 데이터가 2개의 카메라들에 의해 캡처될 때, 넓은 FOV 카메라(115)에 의해 출력된 비디오의 콘텐츠는 좁은 FOV 카메라(110)에 의해 출력되는 비디오의 콘텐츠 및 좁은 FOV 카메라(110)에 의해 출력되는 비디오 출력에서 발견되지 않는 추가적인 콘텐츠를 포함할 것이다. 도 2는 좁은 FOV 카메라(도 2a) 및 넓은 FOV 카메라(도 2b)로부터 각각 획득될 수 있는 예시적인 프레임들(210, 220)을 예시한다. 도 2b에 예시된 바와 같이, 좁은 FOV 카메라의 비디오 콘텐츠는 넓은 FOV 카메라의 비디오 콘텐츠 내에 포함될 수 있다. 실제로, 좁은 FOV 카메라의 비디오 콘텐츠 및 넓은 FOV 카메라의 대응하는 비디오 콘텐츠는 서로 동일하지 않을 것이고; 카메라 시스템들 사이의 동작 차이들(예컨대, 센서 해상도, 센서 시스템들의 광학 응답, 렌즈 속성들, 자동 초점 및 자동 노출 능력들, 및 카메라 장착 위치들)은 이들 영역들 내의 콘텐츠 사이에 콘텐츠 차이들이 존재하게 할 수 있다. 그럼에도 불구하고, 이들 영역들의 콘텐츠는 분석 목적을 위해 서로 양호한 상관관계를 가질 수 있다.

각각의 카메라(110, 115)의 비디오 캡처 시스템들(120, 125)은 카메라들에 의해 수행되는 비디오 캡처 동작들을 제어할 수 있다. 예를 들어, 제어기(150)로부터의 제어 커맨드들을 캡처하는 것에 응답하여, 비디오 캡처 시스템들은 각자의 카메라 시스템들(110, 115)에 의해 캡처된 비디오가 저장되게 할 수 있다. 제어기(150)는 디바이스의 사용자 인터페이스(도시되지 않음)에 입력된 조작자 커맨드들에 응답하여 캡처 커맨드들을 발행할 수 있다. 이러한 방식으로, 시스템(100)은 조작자에 의한 캡처를 위해 지정된 비디오를 표현하는 비디오 파일들을 생성할 수 있다. 사용자 커맨드들은 비디오 캡처, 예를 들어, 풀-레이트 비디오 캡처 또는 "슬로우 모션" 비디오 캡처 및 카메라들(110, 115)로부터의 비디오가 어떻게 기록되어야 하는지를 감독하는 다른 속성들을 지정할 수 있다. 비디오 캡처 시스템들(120, 125)은 그들의 캡처 시스템들에 의해 생성된 비디오들을 저장할 때 그러한 캡처 모드들을 적용할 수 있다. 각각 "비디오 1" 및 "비디오 2"로 도시된, 캡처 시스템들(120, 125)에 의해 생성된 비디오들은 시스템(100) 상의 저장소에 저장될 수 있다.

동작 동안, 시스템(100)은 디스플레이(130) 상에 좁은 FOV 카메라(110)로부터의 카메라 출력을 디스플레이할 수 있으며, 이는 조작자가 비디오를 적절히 프레이밍하고 시스템의 다른 동작들을 제어하는 것(예를 들어, 비디오 캡처 동작들의 시작들 및 종료들을 선택하는 것)을 보조할 수 있다.

객체 추적기(135)는 넓은 FOV 카메라(115)로부터 비디오 출력을 수신하고 비디오의 콘텐츠에 객체 추적을 적용할 수 있다. 객체 추적기(135)는 비디오, 예를 들어 인간 얼굴 인식, 인체 인식, 동물 인식 등에 대한 다양한 객체 인식 프로세스들을 수행할 수 있다. 객체 추적기(135)는 비디오 콘텐츠 내의 미리 결정된 유형들의 객체들을 인식하도록 훈련된 기계 학습 시스템(예를 들어, 신경망(도시되지 않음))을 포함할 수 있다. 객체 추적기가 이미지 콘텐츠 내의 객체(들)를 인식할 때, 추적기(135)는 객체(들) 및 이미지 콘텐츠 내의 그들의 공간 위치(들)를 식별하는 데이터를 생성할 수 있다.

컴포지터(140)는 객체 추적기(135)의 출력에 기초하여 넓은 FOV 비디오 콘텐츠로부터 비디오를 생성할 수 있다. 예를 들어, 컴포지터(140)는 객체 추적기(135)에 의해 식별된 객체(들) 및 비디오 콘텐츠 내의 그들의 위치(들)에 기초하여 비디오에 대한 크로핑 윈도우들을 생성하고 그에 따라 넓은 FOV 비디오를 크로핑할 수 있다. 이러한 방식으로, 시스템(100)은 조작자에 의해 도입되는 프레이밍 불일치들을 극복할 수 있다. 컴포지터(140)로부터의 프로세싱된 비디오는 저장소(145.3)에 저장될 수 있다("비디오 3"으로 도시됨).

일 양태에서, 시스템(100)은 캡처 동작들 동안 발생하는 시스템(100)의 모션 활동을 표현하는 데이터를 생성하는 모션 센서(155)를 포함할 수 있다. 모션 데이터는 컴포지터(140)로 출력될 수 있는데, 이는 컴포지터(140)가 이미지 안정화를 수행하는 데 사용할 수 있다. 예를 들어, 컴포지터(140)는 매칭된 특징부들 사이의 특징부 검출, 특징부 매칭 및 추정된 상동관계에 따라 비디오 콘텐츠의 프레임간 모션을 추정할 수 있다. 컴포지터(140)는 모션 센서 데이터로부터 프레임간 모션을 추정할 수 있다. 컴포지터(140)는 또한 비디오 콘텐츠의 프레임들 내의 특징부들을 식별할 수 있고, 검출된 특징부들을 정렬시키기 위해 등록 동작을 수행할 수 있다. 모션 센서(155)는 가속도계 또는 자이로스코프로서 제공될 수 있다.

도 8은 본 개시의 일 양태에 따른 특징부 검출 및 특징부 매칭의 동작을 예시한다. 도 8은 예시적인 비디오 시퀀스로부터의 인접 프레임들(810 및 820)을 예시한다. 이미지 분석은 프레임(810) 내의 특징부들(830.1 내지 830.8) 및 프레임(820) 내의 특징부들(840.1 내지 840.8)로 도시된 복수의 콘텐츠 특징부들을 검출할 수 있다. 모션 센서 데이터는 프레임(810) 내의 많은 특징부들(830.1 내지 830.8)을 프레임(820) 내의 그들의 대응부들(840.1 내지 840.8)에 정렬시키기 위한 대략적인 기초를 제공할 수 있다. 실제로, 주어진 프레임들에서 특징부들의 경쟁 상동관계 평면들, 블러 효과들, 가려짐들 및 구별 손실과 같은 효과들로 인해, 주어진 프레임들의 쌍의 모든 특징부들에 대해 특징부 매칭이 발생하지는 않을 것이라는 것이 발생할 수 있다. 또한, 일부 특징부들은 시야에서 이동하는 객체들(예컨대, 특징부들(830.7, 830.8))로부터 도출될 수 있으며, 이는 다른 특징부들(830.1 내지 830.6)이 매칭될 때, 아웃라이어(outlier)들이 된다.

안정화 동작들은, 검출된 특징부들이 비디오의 시야 내에서 제어된 변환을 나타내게 하도록 크로핑 윈도우들을 제어할 수 있다. 도 9에 표현된 제1 양태에서, 크로핑 윈도우들은 시야 내에서의 매칭된 특징부들의 모션을 널 아웃(null out)하도록 정의될 수 있다. 예시된 바와 같이, 매칭된 특징부들은 모션 데이터에서 표현된 바와 같이 0이 아닌 모션에도 불구하고 어떤 모션도 갖지 않는다. 그러한 제어들은 "트리포드(tripod)" 안정화 모드로 라벨링되는데, 그 이유는, 이들이 비디오 캡처 동안 비디오가 트리포드 상에 장착된 것처럼 비디오에 효과를 부여하기 때문이다.

도 10에 표현된 다른 양태에서, 크로핑 윈도우들은 모션 데이터에 표현된 바와 같이 불균일한 모션에도 불구하고 시야 내의 매칭된 특징부들에 균일한 모션을 부여하도록 정의될 수 있다. 그러한 제어들은 "패닝(panning)" 안정화 모드로 라벨링되는데, 그 이유는, 이들이 비디오 캡처 동안 비디오가 트리포드 상에 장착된 것처럼 비디오에 효과를 부여하기 때문이다.

도 11에 표현된 추가적 양태에서, 크로핑 윈도우들은 결정된 모션 데이터에 기초하여 가속도 모델링된 궤적을 시야 내의 매칭된 특징부들에 적용하도록 정의될 수 있다. 예를 들어, 가속 궤적은 위치, 속도 및 가속도에 의한 것과 같은 카메라 위치의 도함수들을 최소화하는 L1-놈(norm) 최소화 기술들에 따라 선택될 수 있다. 이러한 방식으로 평활화된 비디오는 그의 소스 비디오보다 더 큰 안정성을 갖는 것으로 인지되는 비디오를 제공할 것으로 예상된다.

또한, 도 12의 양태에 예시된 바와 같이, 안정화 동작들은 모션 데이터에 기초하여 상이한 모드들 - 트리포드, 패닝, 및 가속도 모델링된 평활화 - 사이에서 토글(toggle)할 수 있다. 안정화 동작들은 비디오의 세그먼트들 상에 적용될 수 있고, 모드 선택은 검출된 모션 데이터와 추정된 특징부 궤적(들) 사이의 축적된 편차를 최소화하도록 이루어진다.

도 3은 본 개시의 일 양태에 따른 시스템(300)의 기능적 블록도이다. 시스템(300)은 한 쌍의 카메라들(310, 315), 한 쌍의 이미지 캡처 시스템들(320, 325), 디스플레이(330), 객체 검출기(335), 컴포지터(340), 및 저장 시스템(345)(345.1, 345.2, 345.3으로 도시됨)을 포함할 수 있다. 이러한 컴포넌트들은 제어기(350)의 제어 하에서 동작할 수 있다.

도 1에 예시된 양태에서와 같이, 카메라들(310, 315)은 서로에 대해 상이한 시야들, 즉 하나의 "좁은" 및 다른 "넓은" 시야를 가질 수 있다. 따라서, 이미지 데이터가 2개의 카메라들에 의해 캡처될 때, 넓은 FOV 카메라(315)에 의해 출력된 이미지(이미지 1)의 콘텐츠는 좁은 FOV 카메라(310)에 의해 출력되는 이미지의 콘텐츠 및 좁은 FOV 카메라(310)에 의해 출력되는 이미지 출력에서 발견되지 않는 추가적인 콘텐츠를 포함할 것이다. 다시, 도 2는 2개의 카메라들(310, 315) 사이에 존재할 수 있는 시야들 사이의 예시적인 관계들을 예시한다. 실제로, 좁은 FOV 카메라(310)의 이미지 콘텐츠 및 넓은 FOV 카메라(320)의 대응하는 이미지 콘텐츠는 서로 동일하지 않을 것이고; 카메라 시스템들 사이의 동작 차이들(예컨대, 센서 해상도, 센서 시스템들의 광학 응답, 렌즈 속성들, 자동 초점 및 자동 노출 능력들, 및 카메라 장착 위치들)은 이들 영역들 내의 콘텐츠 사이에 콘텐츠 차이들이 존재하게 할 수 있다. 그럼에도 불구하고, 이들 영역들의 콘텐츠는 분석 목적을 위해 서로 양호한 상관관계를 가질 수 있다.

각각의 카메라(310, 315)의 이미지 캡처 시스템들(320, 325)은 카메라들에 의해 수행되는 이미지 캡처 동작들을 제어할 수 있다. 예를 들어, 제어기(350)로부터의 제어 커맨드들을 캡처하는 것에 응답하여, 이미지 캡처 시스템들은 각자의 카메라 시스템들(310, 315)에 의해 캡처된 이미지가 저장되게 할 수 있다. 제어기(350)는 시스템(300)의 사용자 인터페이스(도시되지 않음)에 입력된 조작자 커맨드들에 응답하여 캡처 커맨드들을 발행할 수 있다. 이러한 방식으로, 시스템(300)은 조작자에 의한 캡처를 위해 지정된 이미지를 표현하는 이미지 파일들을 생성할 수 있다. 사용자 커맨드들은 이미지 캡처, 예를 들어, 이미지 캡처 모드(예컨대, HDR 또는 SDR, 단일 샷 이미지 캡처 대 다중 샷 이미지 캡처 등), 및 카메라들(310, 315)로부터의 이미지들이 어떻게 생성되어야 하는지를 감독하는 다른 속성들을 지정할 수 있다. 이미지 캡처 시스템들(320, 325)은 그들의 캡처 시스템들에 의해 생성된 이미지들을 저장할 때 그러한 캡처 모드들을 적용할 수 있다. 각각 "이미지 1" 및 "이미지 2"로 도시된, 캡처 시스템들(320, 325)에 의해 생성된 이미지들은 시스템(300) 상의 저장소에 저장될 수 있다.

일 양태에서, 시스템(300)은 좁은 FOV 카메라(310) 및 넓은 FOV 카메라(315)에 의해 생성된 이미지 사이의 이미지 융합을 수행하는 이미지 병합기 유닛(355)을 이용할 수 있다. 적용 시에, 좁은 FOV 카메라(310)가 넓은 FOV 카메라(315)로부터의 대응하는 이미지 콘텐츠보다 그의 시야에서 더 높은 해상도 이미지 콘텐츠를 생성하는 것이 발생할 수 있다. 이미지 병합기 유닛(355)은 2개의 이미지들로부터의 콘텐츠를 함께 융합하기 위해 이미지 스티칭을 수행하여, 좁은 FOV 카메라의 시야에 대응하는 영역(들)에서 더 높은 해상도 이미지를 도출할 수 있다. 전형적으로, 그러한 이미지 융합은 중첩되는 시야들 내의 객체들을 식별하는 것, 콘텐츠를 정렬하는 것, 및 콘텐츠를 블렌딩하는 것을 수반한다.

동작 동안, 시스템(300)은 디스플레이(330) 상에 좁은 FOV 카메라(310)로부터의 카메라 출력을 디스플레이할 수 있으며, 이는 조작자가 이미지를 적절히 프레이밍하고 시스템의 다른 동작들을 제어하는 것(예를 들어, 이미지 캡처 동작들의 시작들 및 종료들을 선택하는 것)을 보조할 수 있다.

객체 검출기(335)는 넓은 FOV 카메라(315)로부터 이미지 출력을 수신하고 이미지의 콘텐츠에 객체 검출을 적용할 수 있다. 객체 검출기(335)는 이미지, 예를 들어 인간 얼굴 인식, 인체 인식, 동물 인식에 대한 다양한 객체 검출 프로세스들을 수행할 수 있다. 객체 검출기(335)는 이미지 콘텐츠 내의 미리 결정된 유형들의 객체들을 인식하도록 훈련된 기계 학습 시스템(예를 들어, 신경망(도시되지 않음))을 포함할 수 있다. 객체 검출기가 이미지 콘텐츠 내의 객체(들)를 인식할 때, 검출기(335)는 객체(들) 및 이미지 콘텐츠 내의 그들의 공간 위치(들)를 식별하는 데이터를 생성할 수 있다. 일 양태에서, 객체 및 위치 데이터는 추후 프로세싱을 위해 넓은 FOV 이미지 데이터와 함께 저장될 수 있다.

다른 양태에서, 컴포지터(340)은 객체 검출기(335)의 출력에 기초하여 넓은 FOV 이미지 콘텐츠로부터 새로운 이미지를 생성할 수 있다. 예를 들어, 컴포지터(340)는 객체 검출기(335)에 의해 식별된 객체(들) 및 이미지 콘텐츠 내의 그들의 위치(들)에 기초하여 이미지를 크로핑할 수 있다. 이러한 방식으로, 시스템(300)은 조작자에 의해 도입되는 프레이밍 불일치들을 극복할 수 있다. 컴포지터(340)로부터의 프로세싱된 이미지는 저장소(345.3)에 저장될 수 있다("이미지 3"으로 도시됨). 다수의 객체들이 넓은 FOV 이미지의 별개의 위치들에서 식별되는 경우, 컴포지터(340)는 각자의 객체에 대해 생성된 크로핑 윈도우로부터 각각 전개되는 공통의 넓은 FOV 이미지로부터 다수의 이미지를 도출할 수 있다.

도 4 내지 도 6은 비디오/이미지 데이터의 모크 업(mock up)들을 참조하여, 컴포지터(140(도 1), 340(도 3))의 예시적인 동작을 예시한다. 하기 논의는 비디오 데이터에 대한 콤포지터의 적용을 설명하지만, 논의의 원리들은 또한 이미지 데이터에 적용된다. 도 4는 좁은 FOV 카메라(110)(도 1)로부터 생성될 수 있는 예시적인 데이터를 표현하는 프레임들(410 내지 440)의 시퀀스를 예시한다. 도 5는 넓은 FOV 카메라(115)로부터 생성될 수 있는 예시적인 데이터를 표현하는 프레임들(510 내지 540)의 시퀀스를 예시한다. 도 4 및 도 5에 예시된 예에서, 좁은 FOV 카메라로부터의 프레임들(410 내지 440)의 콘텐츠가 프레임들(510 내지 540)의 중앙 영역에 나타나도록 카메라들 둘 모두의 시야들 사이에 고정된 관계가 있다.

도 1과 관련하여 논의된 바와 같이, 객체 추적기(130)는 좁은 FOV 비디오의 콘텐츠로부터 다양한 객체들을 인식할 수 있다. 도 5의 예는 프레임들(510 내지 540) 각각 내에서 인식되는 한 쌍의 객체들(OBJ1, OBJ2)을 예시한다. 도 4에 예시된 바와 같이, 객체들(OBJ1, OBJ2)의 콘텐츠는 프레임(410) 내에 존재하지 않고, 이들은 프레임(420) 내에 단지 부분적으로 존재하고, 그들은 상이한 크기들로 프레임들(430, 440) 내에 존재한다.

또한 도 1과 관련하여 논의된 바와 같이, 컴포지터(140)는 넓은 시야 FOV에서 인식되는 객체들의 유형(들) 및 위치(들)에 기초하여 넓은 FOV 비디오로부터 새로운 비디오를 도출할 수 있다. 도 5의 예에서, 컴포지터(140)는 프레임들(510 내지 540)에서 검출되는 객체들(OBJ1, OBJ2)을 둘러싸는 크로핑 윈도우(CW)를 정의할 수 있다. 컴포지터(140)는 그들 프레임들(510 내지 540)에 대해 정의된 크로핑 윈도우에 따라 넓은 FOV 비디오 시퀀스를 크로핑하여, 그로부터 새로운 프레임들(610-640)(도 6)을 생성할 수 있다. 따라서, 좁은 FOV 카메라(110)로부터 생성된 프레임들(410 내지 440)과 비교하여, 컴포지터(140)에 의해 생성된 프레임들(610 내지 640)은 검출된 객체(들)를 비디오 콘텐츠 내에 보유한다. 그러한 동작들은, 객체들이 비디오 콘텐츠 내에 보유될 것이기 때문에, 빠른-이동 콘텐츠를 프레이밍하는 데 있어서의 어려움들에도 불구하고, 더 높은 인지된 품질을 갖는 비디오를 생성할 것으로 예상된다.

콤포지터(140)(도 1)는 다양한 비디오 조성 기술들을 수행할 수 있다. 먼저, 도 5의 프레임들(510 내지 530)에 예시된 바와 같이, 컴포지터(140)는 넓은 FOV 비디오에서 검출된 객체(들)를 둘러싸는 크로핑 윈도우(CW)를 정의할 수 있다. 간단한 적용에서, 크로핑 윈도우(CW)는 고정된 크기를 가질 수 있고, 비디오 내에서 검출된 객체(들)의 위치에 대응하여 넓은 FOV 비디오 시퀀스의 프레임들(510 내지 530)에 걸쳐 변화하는 위치를 가질 수 있다.

다른 양태에서, 컴포지터(140)는 프레임들(510 내지 540)에 예시된 바와 같이, 크로핑 및 디지털 줌 동작들을 블렌딩할 수 있다. 도 5의 예에서, 크로핑 윈도우(CW)는 프레임들(510 내지 530)에서 공통 크기 및 프레임(540)에서 더 큰 크기를 갖는 것으로 예시되어 있다. 이 예에서, 객체들(OBJ1, OBJ2)은 프레임들(510 내지 530)에서보다 프레임(540)에서 더 큰 것으로 예시되어 있다. 따라서, 컴포지터(140)는 크로핑 윈도우(CW)의 크기를 변경함으로써 비디오 내의 객체들의 크기들을 변경하여 크로핑된 비디오에 매칭시키고, 이어서 이를 공통 크기로 재스케일링하는 것으로 응답할 수 있다. 도 6의 예에서, 프레임들(510 내지 530)에 적용되는 크로핑 윈도우들보다 프레임(540)에 적용되는 더 큰 크로핑 윈도우(CW)로부터 프레임(640)이 도출되었더라도 프레임(640)은 프레임들(610 내지 630)의 크기에 매칭하는 크기로 재스케일링되는 것으로 도시되어 있다.

본 개시의 원리들은 크로핑 윈도우들을 정의하기 위한 다양한 사용 사례들을 수용한다. 제1 양태에서, 컴포지터(140)는 검출된 객체들에 의해 점유되는 비디오 콘텐츠 내의 총 영역을 결정할 수 있고, 이러한 영역을 둘러싸는 크로핑 윈도우를 정의할 수 있다. 비디오 시퀀스의 각각의 프레임에 대해 크로핑 윈도우를 정의하였으면, 컴포지터(140)는 다양한 프레임들의 크로핑 윈도우들 사이에 존재할 수 있는 프레임간 디스패리티를 감소시키기 위해 크로핑 윈도우들에 평활화 동작을 적용할 수 있다.

다른 양태에서, 시스템(100)은 객체를 크로핑 목적들을 위한 1차 객체인 것으로 선택하는 객체 선택기(140)를 포함할 수 있다. 상이한 객체들이 비디오 시퀀스 내의 상이한 위치들로 이동하여, 모든 그러한 객체들을 포함하는 단일 크로핑 윈도우를 정의하는 것을 어렵게 하는 것이 발생할 수 있다. 객체 선택기(140)는 검출된 객체들 중 하나를 1차 객체로서 지정할 수 있는데, 이는 컴포지터(140)가 크로핑 윈도우들을 정의하기 위해 사용할 수 있다. 이러한 방식으로, 컴포지터(140)는 1차 객체 (및, 선택적으로, 이미지 콘텐츠 내의 1차 객체 근처에 있을 수 있는 다른 2차 객체들)를 둘러싸는 크로핑 윈도우를 정의할 수 있다.

1차 객체들은 다양한 방식들로 정의될 수 있다. 첫째, 좁은 FOV 카메라들의 시야와 중첩되는 넓은 FOV 비디오 콘텐츠의 영역에 나타나는 객체는 1차 객체로서 선택될 수 있다. 대안적으로, 넓은 FOV 비디오 콘텐츠 내의 가장 큰 전체 크기를 갖는 객체는 1차 객체로서 선택될 수 있다. 또 다른 양태에서, 시스템(100)은 이미지 콘텐츠(전형적으로, 좁은 FOV 비디오 콘텐츠)에서 검출된 객체들을 식별하는 표시자들을 사용자에게 디스플레이할 수 있고, 1차 객체의 사용자 선택을 허용할 수 있다.

일 양태에서, 크로핑 윈도우들은 검출된 객체들에 의해 점유되는 것보다 비디오 콘텐츠의 더 큰 영역을 둘러싸도록 정의될 수 있다. 많은 객체 추적기들은, 인간 관찰자들이 볼 때 관심 객체의 일부분을 표현하는 콘텐츠를 인식하도록 훈련된다. 예를 들어, 인체들을 인식하도록 훈련된 물체 추적기는, 인간 관찰자들이 인체의 일부를 고려할 손 또는 발을 포함하지 않는 위치 데이터를 생성할 수 있다. 유사하게, 인간 얼굴 검출기들 및 동물 검출기들은, 인간 관찰자들이 이러한 객체들과 연관시킬 콘텐츠의 특정 부분(들)을 생략한 위치 데이터를 생성할 수 있다. 일 양태에서, 크로핑 윈도우들은 객체 추적기(135)에 의해 식별된 위치들보다 더 크게 정의될 수 있는데, 이는 컴포지터(140)에 의해 생성될 때 객체의 추가적인 부분(들)이 비디오 데이터 내에 포함되게 할 수 있다.

유사하게, 컴포지터(140)는 비디오 콘텐츠 내에 포함된 콘텐츠의 프레임간 모션을 추정할 수 있다. 크로핑 윈도우들은 객체에 속하는 것으로 인식되지 않지만 객체(들)에 근접하게 위치되고 객체 모션에 상관되는 모션을 나타내는 콘텐츠 요소들을 포함하도록 정의될 수 있다. 이와 관련하여, 검출된 객체들이 상호작용하는 콘텐츠 요소들(예컨대, 검출된 객체들에 의해 유지되고 있는 콘텐츠 요소들, 검출된 객체들에 의해 당겨지거나 밀리는 콘텐츠 요소들 등)을 포함하는 크로핑 윈도우들이 정의될 수 있다.

그리고, 위에서 논의된 바와 같이, 컴포지터(140)는 모션 센서(155)(도 1)에 의해 제공되는 모션 데이터를 사용하여 비디오 안정화를 수행할 수 있다.

다른 양태에서, 컴포지터(140)는 비디오 데이터에 대해 관점 교정을 수행하여, 카메라들로부터의 대상(들)의 거리의 결과로서 발생할 수 있는 이미지 왜곡을 보정할 수 있다. 그러한 동작들에서, 객체 추적기(130)는 객체들의 검출된 크기들에 기초하여 카메라로부터 물체(들)의 거리들을 추정할 수 있다. 컴포지터(140)는 콘텐츠 추정 거리들에 기초하여 이미지 콘텐츠를 크기조정함으로써 콘텐츠 보정들을 도입할 수 있다. 또한, 컴포지터(140)는 비-객체 콘텐츠(예를 들어, 배경 요소들, 비디오 콘텐츠의 아키텍처 요소들)의 거리들을 추정하고, 이러한 추정들로부터 비디오 프레임들의 보정들을 도출할 수 있다.

다른 양태에서, 컴포지터(140)는 비디오 데이터에 대해 수평선 보정을 수행하여, 비디오 캡처 동안 디바이스 스큐(skew)로 인해 콘텐츠에 나타날 수 있는 기울기에 대해 비디오 콘텐츠를 보정할 수 있다.

전술한 양태들은 인간 에러를 겪기 쉬운 이미지/비디오 캡처 시스템들에 대한 미디어 리뷰/편집 서비스에서 적용을 발견할 것으로 예상된다. 조작자들은 종종 캡처 동작들 동안, 특히 높은 동적 대상들의 데이터를 캡처할 때, 이미지들 및 비디오들을 프레이밍할 때 어려움을 갖는다. 많은 소비자 애플리케이션들에서, 조작자들은 좁은 FOV 카메라의 콘텐츠에 기초하여 콘텐츠를 프레이밍하려고 시도한다. 대상의 원하는 콘텐츠가 다른 카메라를 통해 시스템에 의해 캡처되었지만, 조작자가 캡처 이벤트 자체 동안에 캡처 동작을 인식하지 못하는 것이 발생할 수 있다. 위에서 설명된 기술들의 제공을 통해, 시스템은 검출된 객체들을 표현하는 새로운 미디어 항목들(이미지들 및/또는 비디오)을 생성할 수 있고, 리뷰 동작 동안 새로운 미디어 항목들을 조작자에게 제안할 수 있다. 조작자가 새로운 미디어 항목을 승인하면, 시스템(100, 300)은 새로운 미디어 항목을 "사진들" 또는 "비디오들" 저장 위치에 지속적 미디어 항목으로서 저장할 수 있거나, 또는 그것은 캡처 시스템들 중 하나에 의해 생성된 대응하는 항목에 대한 새로운 미디어 항목을 대체할 수 있다. 이와 관련하여, 시스템(100, 300)의 동작은 캡처 동작들 동안 그들 자신의 어려움들에도 불구하고 조작자들에 대한 더 높은 품질의 미디어 항목들을 도출할 것으로 예상된다.

전술한 실시예들은 이미지 캡처, 객체 추적 및 조성을 수행하는 시스템들에서 동작하는 것으로서 본 개시의 원리들을 기술하였다. 이러한 시스템들은 컴퓨터 서버들, 개인용 컴퓨터들, 노트북 컴퓨터들, 태블릿 컴퓨터들, 스마트폰들, 미디어 플레이어들 등과 같은 프로세싱 디바이스들에 의해 구현될 수 있다. 그러한 동작들은 단일 독립형 컴퓨터 시스템에서 이용될 수 있거나, 다수의 네트워크화된 디바이스들에 걸쳐 분포된 프로세싱 기능성을 가질 수 있다. 구현예들이 변하지만, 그러한 시스템들은 프로세서(들)(710) 및 메모리 시스템(720)(도 7)을 포함할 수 있다. 메모리 시스템(720)은 시스템 및 애플리케이션 프로그램들(724)의 운영 체제(722)를 표현하는 프로그램 명령어들을 저장할 수 있다. 프로그램 명령어들은 프로세싱 디바이스(들)(720)에 의해 실행될 수 있다. 메모리 시스템은 또한 전술한 도면들에서 논의된 미디어 항목들에 대한 저장소(145(도 1), 345(도 3))를 표현할 수 있다.

본 명세서에 기술된 비디오 안정화 프로세스들은 사용 사례들에서 매우 다양한 적용들에서의 적용을 발견한다. 그러한 기술들은 단일 카메라 비디오 캡처 시스템들에 적용되고, 비디오의 단일 스트림에 안정화 동작들을 수행할 수 있다. 그러한 기술들은 독립적인 객체 검출 또는 사용 컴포지터들을 수행하지 않는 비디오 캡처 시스템들에서 수행될 수 있다. 예를 들어, 그러한 기술들은 스마트폰들, 태블릿 컴퓨터들, 및 디지털 카메라들과 같은 통상의 소비자 전자 디바이스들에서의 적용을 발견한다.

본 개시의 여러 실시예가 본 명세서에 구체적으로 예시 및/또는 기술된다. 그러나, 본 개시의 수정 및 변형이 본 개시의 사상 및 의도된 범주로부터 벗어남이 없이 상기의 교시에 의해 그리고 첨부한 특허청구범위의 범위 내에 포함된다는 것이 인지될 것이다.

개인적으로 식별가능한 정보의 사용은 사용자들의 프라이버시를 유지하기 위한 산업 또는 정부 요건들을 충족하거나 초과하는 것으로 일반적으로 인식되는 프라이버시 정책들 및 관례들을 따라야 하는 것이 잘 이해된다. 특히, 개인적으로 식별가능한 정보 데이터는 의도하지 않은 또는 허가되지 않은 액세스 또는 사용의 위험성들을 최소화하도록 관리되고 처리되어야 하며, 허가된 사용의 성질은 사용자들에게 명확히 표시되어야 한다.

Claims

시스템으로서,
제1 시야에 의해 특징지어지는 제1 카메라,
상기 제1 시야보다 넓은 제2 시야에 의해 특징지어지는 제2 카메라,
상기 제2 카메라의 출력에 결합된 입력을 갖는 객체 추적기,
상기 제2 카메라에 의해 캡처된 콘텐츠에 대한 입력 및 상기 제2 카메라의 상기 출력으로부터 상기 객체 추적기에 의해 검출된 객체(들)의 위치(들)를 표현하는 상기 객체 추적기에 의해 출력된 데이터에 대한 입력을 갖고 적어도 하나의 검출된 객체의 위치에서 프로세싱된 상기 제2 카메라의 콘텐츠에 대한 출력을 갖는 컴포지터(compositor)를 포함하는, 시스템.
제1항에 있어서, 상기 컴포지터 출력은 상기 제2 카메라에 의해 출력된 콘텐츠의 크로핑된(cropped) 표현인, 시스템.
제2항에 있어서, 상기 크로핑된 표현은 상기 검출된 객체의 위치를 추적하는 위치를 갖는 크로핑 윈도우(cropping window)에 의해 발생하는, 시스템.
제1항에 있어서, 상기 검출된 객체는 상기 제2 카메라에 의해 출력된 상기 콘텐츠의 중앙 영역으로부터 선택된 객체인, 시스템.
제1항에 있어서, 상기 검출된 객체는 상기 제2 카메라에 의해 출력되는 상기 콘텐츠의 최대 크기 객체인, 시스템.
제1항에 있어서, 상기 검출된 객체는 조작자-선택 객체인, 시스템.
제1항에 있어서, 상기 컴포지터 출력은 상기 제2 카메라에 의해 출력된 콘텐츠의 크로핑되고 줌된(zoomed) 표현인, 시스템.
제1항에 있어서, 모션 센서를 추가로 포함하고, 상기 컴포지터 출력은 상기 제2 카메라에 의해 출력된 콘텐츠의 모션 안정화된 표현인, 시스템.
제1항에 있어서, 상기 컴포지터 출력은 상기 제2 카메라에 의해 출력된 콘텐츠의 관점-보정된 표현인, 시스템.
제1항에 있어서, 상기 컴포지터 출력은 상기 제2 카메라에 의해 출력된 콘텐츠의 수평선-보정된 표현인, 시스템.
제1항에 있어서, 미디어 항목으로서 상기 컴포지터로부터의 상기 출력을 저장하기 위한 저장 시스템을 추가로 포함하는, 시스템.
제11항에 있어서, 상기 저장 시스템은 상기 제2 카메라로부터의 출력을 상기 컴포지터로부터 출력되는 상기 미디어 항목과는 구별되는 미디어 항목으로서 저장하는, 시스템.
제11항에 있어서, 상기 저장 시스템은 상기 제1 카메라로부터의 출력을 상기 컴포지터로부터 출력되는 상기 미디어 항목과는 구별되는 미디어 항목으로서 저장하는, 시스템.
제11항에 있어서, 상기 미디어 항목은 비디오인, 시스템.
제11항에 있어서, 상기 미디어 항목은 스틸 비디오인, 시스템.
제1항에 있어서, 캡처 동작 동안 상기 제1 카메라에 의해 캡처된 콘텐츠를 디스플레이하기 위한 디스플레이를 추가로 포함하는, 시스템.
방법으로서,
한 쌍의 카메라들로 콘텐츠를 캡처하는 단계 - 제1 카메라는 제2 카메라보다 더 넓은 시야를 가짐 -,
상기 더 넓은 시야의 카메라로부터의 캡처된 콘텐츠로부터 객체(들)를 검출하는 단계,
상기 더 넓은 시야의 카메라로부터의 상기 캡처된 콘텐츠를 적어도 하나의 검출된 객체의 위치에서 프로세싱하는 단계를 포함하는, 방법.
제17항에 있어서, 상기 프로세싱하는 단계는 상기 더 넓은 시야의 카메라의 상기 캡처된 콘텐츠를 크로핑하는, 방법.
제17항에 있어서, 상기 검출된 객체는 상기 더 넓은 시야의 카메라에 의해 출력된 상기 콘텐츠의 중앙 영역으로부터 선택된 객체인, 방법.
제17항에 있어서, 상기 검출된 객체는 상기 더 넓은 시야의 카메라에 의해 출력되는 상기 콘텐츠의 최대 크기 객체인, 방법.
제17항에 있어서, 상기 검출된 객체는 조작자-선택 객체인, 방법.
제17항에 있어서, 상기 프로세싱하는 단계는 상기 더 넓은 시야의 카메라의 상기 캡처된 콘텐츠를 줌하는, 방법.
제17항에 있어서, 상기 프로세싱하는 단계는 모션 센서로부터의 모션 데이터에 기초하여 상기 더 넓은 시야의 카메라에 의해 출력되는 모션 안정화 콘텐츠를 수행하는, 방법.
제17항에 있어서, 상기 프로세싱하는 단계는 상기 더 넓은 시야의 카메라에 의해 출력되는 콘텐츠의 관점을 보정하는, 방법.
프로그램 명령어들을 저장하는 컴퓨터 판독가능 매체로서, 상기 프로그램 명령어들은 프로세싱 디바이스에 의해 실행될 때, 상기 디바이스로 하여금:
캡처 동작 동안 제1 카메라에 의해 캡처된 콘텐츠를 디스플레이하게 하고,
상기 제1 카메라보다 넓은 시야를 갖는 제2 카메라에 의해 캡처된 콘텐츠에 응답하여, 상기 제2 카메라로부터의 상기 캡처된 콘텐츠로부터 객체(들)를 검출하게 하고,
상기 더 넓은 시야의 카메라로부터의 상기 캡처된 콘텐츠를 적어도 하나의 검출된 객체의 위치에서 프로세싱하게 하는, 매체.