KR101661269B1

KR101661269B1 - 휴대용 디바이스 상의 이미지 주석

Info

Publication number: KR101661269B1
Application number: KR1020117004958A
Authority: KR
Inventors: 루치아노 스바이즈; 마틴 베털리
Original assignee: 에꼴 뽈리떼끄닉 뻬데랄 드 로잔느 (으뻬에프엘)
Priority date: 2008-09-02
Filing date: 2009-09-02
Publication date: 2016-09-29
Also published as: US9953438B2; JP5436559B2; JP2012507761A; CN102204238B; CN102204238A; WO2010026170A1; EP2321953A1; EP2321953B1; US20120300089A1; KR20110066133A

Abstract

본 발명에 따르면, 이미지 및 비디오의 자동 주석을 위한 시스템이 빌딩 또는 풍경 장면과 같이 관심 대상을 향해 모바일 디바이스를 가리키고, 디바이스가 대상에 대한 설명이 있는 장면의 이미지를 디스플레이한다. 주석은 이름, 역사적 정보, 및 이미지, 비디오 및 음성파일의 데이터베이스 링크를 포함할 수 있다. 주석의 위치적 배치를 결정하는데 다른 기술들이 사용될 수 있고, 다수의 기술들을 이용함으로써, 위치가 더 정확해지고 신뢰할 수 있을 수 있다. 주석 정보의 상세 레벨은 사용된 기술의 정확도에 따라 조절될 수 있다. 필요한 계산은 모바일 디바이스, 서버, 및 상호연결 네트워크를 포함한 주석 시스템에 분포될 수 있어, 주석 이미지들이 복잡도가 다른 레벨의 모바일 디바이스에 맞추어지게 한다. 주석 정확도와, 통신 비용, 지연 및/또는 소비전력 간에 상쇄가 고려될 수 있다. 주석 데이터베이스는 자가조직방식으로 업데이트될 수 있다. 웹에 이용가능한 대중 정보가 주석 데이터로 변환될 수 있다.

Description

휴대용 디바이스 상의 이미지 주석{Image Annotation on Portable Devices}

본 발명은 휴대용 디스플레이 및, 보다 상세하게는, 무선통신 네트워크에서 이런 디바이스 상에 이미지 및 비디오에 주석을 다는 방법에 관한 것이다.

스마트폰, 팜탑 컵퓨터, 휴대용 미디어 디스플레이, 개인용 휴대정보단말기(PDA) 디바이스 등과 같이 손에 드는 휴대용 디바이스의 발전에 있어 급격한 진보로 이미지 처리를 수반한 신규 특징 및 애플리케이션의 포함을 꾀하게 하였다. 이런 애플리케이션, 즉, 이미지 설명 또는 캡션에서, 사용자가 한 장면, 예컨대, 고산(高山) 풍경, 빌딩, 또는 미술관 내 그림으로 휴대용 디바이스를 가리키면, 디스플레이는 그 장면에 대해 겹치는 정보들과 함께 그 이미지를 나타낸다. 이런 정보는 이름, 예컨대, 산과 주소, 빌딩에 대한 역사적 정보, 및 광고, 예를 들면, 식당 메뉴와 같은 상업 정보를 포함할 수 있다.

주석 정보는 무선통신 네트워크에서 서버에 의해 휴대용 디바이스로 제공될 수 있다. 본 명세서에서 서버 및 휴대용 디바이스와 함께 통신 네트워크의 해당 기능 형태는 주석 시스템으로 지정된다.

또 다른 시스템에서, 특정 관심은 주석 위치의 정확도와 로버스트성(robustness)에 대한 것이다. 정확도는 센서 및 이미지 기반의 기술과 같은 다른 기술들의 동시 사용에 의해 강화될 수 있고, 로버스트성은 주석 위치를 결정하기 위한 기술의 선택에 의해 강화될 수 있다. 일단 이미지가 모바일 디바이스에 의해 획득된 후, 이미지내 주석의 배치를 결정하기 위해 다른 기술들이 사용될 수 있다. 이미지에 주석을 달기 위한 다른 기술들을 이용한 방법과 시스템의 예가 다른 것들 가운데 US6208353 및 EP1246080에 기술되어 있다.

EP1246080는 비디오 이미지에 포함된 대상을 인식하고 이 대상에 주석을 달기 위한 비디오 대상 인식 디바이스를 기술하고 있다. 후보검색수단은 대상 인식 디바이스와 데이터베이스에 저장된 지리적 후보대상의 위치 정보를 읽는다. 그런 후 이 디바이스는 아마도 이미지된 지리적 대상에 대해 검색하고 이들 후보대상들과 이미지 간에 시각 비교를 수행한다. 존재확률 계산수단이 후보대상의 이미지가 캡쳐될 확률을 계산하고 유사성 계산수단이 후보대상과 비디오 이미지의 시각 특징 간에 유사성을 계산한다. 그런 후 존재확률과 유사성은 대상 이미지가 잡혔는지 여부를 결정하는데 사용된다. 이 방법은 특정 대상이 주석이 달아져야 하는지 여부를 결정하는데 유용하지만, 현저한 지점의 가장 가능한 위치 또는 주석이 추가되어야 하는 이미지의 위치를 나타내지는 않는다.

WO05114476는 모바일폰과 원격 인식 서버를 포함한 모바일 이미지 기반의 정보 검색 시스템을 기술하고 있다. 이 시스템에서, 모바일폰의 카메라가 찍은 이미지가 원격 서버로 전송되고 서버에서 인식처리가 수행된다. 이는 이미지 전송을 위한 고대역 필요성과 서버에 설명을 계산하는 것과 상기 설명을 다시 모바일폰으로 전송하는데 지연이 초래된다. 다시, 이 시스템은 대상이 이미지에 보여 질 수 있는지 여부를 결정하기 위해 기정의된 임계치와 비교되는 유사성 점수를 전달하나, 이미지에서 이 물체의 가장 유사한 위치를 나타내지는 않는다.
WO2007/108200은 이미지의 적절한 위치에 삽입 이미지를 삽입하기 위한 이미지 처리 프로그램과 카메라를 기술하고 있다. 이는 추가된 주석에 의해 가려지지 않아야 하는 장면의 중요 대상들에서 식별과 관계 있다. 이미지면은 25(5×5)개의 작은 면적들로 나누어져 있다. 이 삽입 이미지의 위치는 안면 분포 평가치, 콘트라스트 분포 평가치 및 가중치를 이용해 카메라의 CPU에 의해 계산된 대상 분포 평가치와 관계 있다. 삽입 위치는 최소 대상 분포 평가치를 갖는 제 1 행과 제 5 행에 포함된 이미지면의 작은 면적들 가운데 선택된다.

본 발명의 목적은 디바이스와 이미지 대상의 위치와 방향을 결정하기 위한 모바일 주석 디바이스에 이용될 수 있는 다른 센서들과 방법들의 더 나은 사용을 하기 위한 것이다.

또 다른 목적은 특히, 다른 위치들이 고려될 수 있을 때 또는 이미지에서 최적 위치에 대해 애매함이 있을 때 이미지내 주석의 배치를 향상시키는 것이다.

본 발명에 따르면, 이 목적들은
장면 이미지에 대한 주석을 배치하는 계산 방법으로서,
(a) 카메라로 상기 장면의 원본 이미지를 얻는 단계와,
(b) 상기 이미지에 표현된 상기 장면의 특징에 대한 주석을 얻는 단계와,
(c) 상기 이미지내 복수의 위치들의 각 위치에 대해, 상기 위치에 상기 특징을 가질 확률을 결정하는 단계와,
(d) 상기 확률이 가장 높은 상기 이미지내 주석 위치에 상기 주석을 포함함으로써 주석이 달린 이미지를 형성하는 단계를 포함하고,
(e) 위치 센서로 상기 카메라의 위치를 결정하는 단계와,
(f) 상기 특징과 상기 특징의 기준 이미지들 또는 모델들 간에 유사성을 결정하기 위해 컴퓨터 비전 수단을 이용하는 단계와,
(g) 상기 위치 센서로부터의 정보와 상기 컴퓨터 비전 수단으로부터의 정보를 바탕으로, 상기 이미지내 각각의 상기 위치에서 상기 특징을 가질 확률을 나타내는 확률분포함수를 계산하는 단계를 더 포함하는 장면 이미지에 대한 주석을 배치하는 계산 방법에 의해 달성된다.
본 발명은 또한 제 11 항에 따른 장면 이미지에 대한 주석을 배치하는 주석 디바이스와 제 12 항에 따른 장면 이미지에 대한 주석을 배치하는 주석 시스템에 관한 것이다.
바람직한 방법은 지정된 대상이 이미지의 각 지점에 나타내지는 확률을 나타내는, 본 명세서에서 확률 마스크라고 하는, 2D 또는 3D 확률분포를 결정한다. 이 확률은 이미지내 현저한 대상의 위치를 결정하는데 사용되는 방법에 따른다. 예컨대, 컴퓨터 비전을 이용한 이미지 특징들과 기준후보대상 간에 유사성을 계산하는 이미지 기반의 방법은 정상적인 조명조건 하에서 고정확도로 대상의 위치를 결정할 수 있다. 그러나, 조명이 너무 낮거나 유사한 모습들의 대상들이 같은 장면에 많이 있을 때, 상기 방법은 다수의 후보들, 즉, 후보대상을 나타내는 0이 아닌 확률을 갖는 여러 지역들을 나타낼 수 있다. 다른 상황에서, 컴퓨터 비전 방법은 이미지에 있는 후보대상을 인식할 수 없고, 0 또는 상당히 균일한 확률분포를 전달한다.

확률 마스크는 또한 위치 센서들에 의해 전달된 정보를 기초로 발생될 수 있다. 예컨대, GPS와 같은 위치 시스템이 나침반과 3개 축상에 경사계들과 함께 주석 디바이스에서 이용가능할 경우, 디바이스의 위치와 방향은 고정확도로 계산될 수 있고 확률 마스크의 높은 확률값이 소정 이미지점 주위에 분포된다. 0이 아닌 영역의 크기는 위치와 방향 각도의 정확도로 결정된다. 다른 휴대용 디바이스들로는 다른 세트의 센서들을 포함할 수 있어, 다른 형태와 크기를 갖는 확률 마스크를 산출한다. 예컨대, 주석 디바이스가 GPS 및 경사계를 갖지만 나침반이 없는 경우, 방향이 아니라 디바이스의 요(yaw)와 롤(roll) 각도만 결정될 수 있다. 이 경우는 줄무늬 형태 또는 3D에서 디스크 형태를 갖는 확률 마스크의 0이 아닌 영역에 해당한다.

주석 디바이스에 부착되거나 포함될 수 있는 다른 센서들로는 다축 가속계 및/또는 자이로스코프를 포함하며, 이로부터 디바이스의 과거 경로뿐만 아니라 수직 방향이 결정될 수 있다.

다른 센서들도 또한 설명하기 위해 대상에 붙으며 이미지 획득 디바이스에 의해 수신된 신호를 방출할 수 있다. 이들 센서들은 RFID 태그, 비콘, 또는 예컨대, 블루투스, WIFI 또는 지그비 센더(ZigBee sender)와 같은 무선 방출기를 포함할 수 있다. 주석 디바이스는 예컨대, 비행시간(time-of-flight) 및/또는 진폭 측정을 바탕으로 이 센서에 대한 방향과 아마도 거리를 결정하고, 대상을 식별하기 위한 무선 신호에 포함된 정보를 사용할 수 있다. 이 경우, 확률 마스크의 0이 아닌 영역은 각각 원, 비교적 직경이 큰 구일 수 있다.

또한 이미지 기반 방법 및/또는 센서를 이용하기 위해, 모바일 디바이스의 위치와 방향은 통신 네트워크의 기지국 또는 구성요소들에 가용한 정보를 이용함으로써 결정될 수 있다. 예컨대, 주석 디바이스의 위치는 다른 위치에서 네트워크 기지국에 의해 송수신되는 비행시간(time-of-flight) 및/또는 진폭에 의해 삼각측량으로 계산될 수 있다.

또 다른 가능성은 다수의 모바일 디바이스들의 위치와 방향을 동시에 결정하는 것이다. 디바이스들 중 몇몇은 한가지 타입 또는 또 다른 타입의 센서들을 가질 수 있어, 네트워크에서 다른 주석 디바이스들에 또한 도움될 수 있는 향상된 정확도로 결정하게 한다. 예컨대, 디바이스는 GPS를 가질 수 있고 탑재되지 않은 제 2 디바이스 부근에 있을 수 있다. 두 디바이스들이 예컨대 근거리 무선 인터페이스를 통해 통신될 수 있으면, 그들 사이의 거리를 결정하는 측정기술이 사용될 수 있고, 제 2 디바이스의 위치에 대한 평가가 제 1 디바이스로 제공될 수 있다.

위치 및 방향을 결정하는데 사용되는 기술에 무관하게, 그 결과는 현저한 대상을 이미지면으로 맵핑하는 것과 같으며, 정확도는 확률 마스크로 표현된다.

각 기술의 정확도와는 별개로, 몇몇 기술들은 다른 기술보다 더 신뢰할 수 있다. 예컨대, 센서 기반의 기술들은 주로 맞는 것을 틀렸다거나 틀린 것을 맞다고 말할 수 있는 이미지 기반의 기술보다 더 신뢰할 수 있다. 특정 기술의 신뢰도는 선험적으로 알 수 있고, 알고리즘에 의해 검색된 기정의된 값으로 저장될 수 있다. 또는 이미지 및/또는 조건에 따를 수 있으며, 다른 기술들에 의해 사용된 해당 센서 또는 알고리즘에 의해 언도될 수 있다. 예컨대, 이미지 기반의 방법의 신뢰도는 컴퓨터 비전 알고리즘의 출력으로 말해질 수 있고, 이미지 획득 조건에 따를 수 있다. 또 다른 예에서, 위성 기반의 위치 센서의 신뢰도는 GPS 칩셋과 알고리즘에 의해 출력될 수 있고, 다른 것들 중에 수신된 GPS 신호의 개수와 위성들의 위치에 따를 수 있다.

더욱이, 이미지의 다른 부분들과 다른 후보대상들에 대한 신뢰도는 다를 수 있다; 이미지는 예컨대 컴퓨터 비전 알고리즘이 신뢰할 수 있는 결과를 전할 수 있는 매우 밝은 부분과, 어두운 또는 과도 노출되거나 촛점이 잘 맞지 않고 그 방법의 신뢰도가 더 문제되는 다른 부분들을 포함할 수 있다. 게다가, 몇몇 대상들은 다른 불명확한 대상들보다 높은 신뢰도로 인식하기가 더 쉽다. 또 다른 예들로, 설명될 물체와 주석 디바이스 간에 무선 경로를 바탕으로 한 방법의 신뢰도는 다른 것들 중에 거리, 장애물 및 투영(reflexions)에 의존할 수 있다. 따라서, 이미지의 각 지점에서 측정의 신뢰도를 나타내는 신뢰도 분포함수가 계산될 수 있다.

또한, 위치의 정확도는 다른 측정들, 및 아마도 각 후보대상 및 이미지의 각 지점에 따른다. 예컨대, 선명한 가장자리를 갖는 후보대상은 흐릿한 가장자리를 갖는 또 다른 대상보다 기준 이미지 위에 높은 정확도로 위치시키기가 더 쉬울 수 있다. 같은 방식으로, GPS 위치 시스템의 정확도는 일정한 것과는 거리가 멀다. 따라서, 정확도(또는 평균 위치 에러)는 각 이미지, 각 후보대상 및/또는 이미지의 각 지점에 대한 것일 수 있다.

로버스트성과 정확도는 확률 마스크와 가능하게는 신뢰도 마스크를 고려해 다른 기술들에 의해 산출된 평가들을 결합함으로써 극대화될 수 있다. 로버스트성을 높이는 한가지 방법은 다른 기술들의 확률 마스크들 간에 교차점을 계산하는 것이다. 교차점이 없거나 두 기술들에 의해 산출된 높은 확률 영역들이 겹치지 않으면, 두 기술들은 일관적이지 않다. 이 경우, 신뢰가 떨어지는 기술, 예컨대, 이미지 기반의 기술의 결과는 폐기되거나 적어도 가중치가 덜 주어져야 한다.

보다 일반적으로, 신뢰도의 계층은 다른 기술들에 대해 정의될 수 있다. 기술들의 결과가 일관적이지 않으면, 즉, 확률 마스크의 교차점이 없다면, 적어도 신뢰할 수 있는 기술(또는 다른 기술들에 의해 나타내진 높은 확률 영역에 대해 신뢰도가 떨어지는 기술)은 폐기되어야 하고 절차는 나머지 기술들의 세트로 적용된 것처럼 반복되어야 한다. 일단 한 세트의 일관적인 기술들이 결정된 후, 상기 세트의 기술들에 의해 발생된 측정들을 조합함으로써 현저한 대상 위치의 정확한 투사가 결정될 수 있다. 예컨대, 측정들을 조합하는 간단한 방법은 가중치 평균에 의한 것이고, 가중치는 확률 마스크로부터 산출된다.

현저한 대상들을 입력 이미지에 맵핑하는 최종 정확도는 주석의 상세 레벨을 결정하는데 사용될 수 있다. 예컨대, 대상 그룹의 위치가 각각 개개의 대상을 설명하는 대신에 낮은 정확도로만 결정될 수 있으면, 그룹은 하나의 유닛으로 주석을 달 수 있다. 이는 대상의 다중 해상도(multi-resolution) 표현을 이용해 달성될 수 있다. 예컨대, 역사적 건물이 가령 건물 그 자체와는 별도로 주석 달아 질 수 있는 조각상, 건축 요소들 등 다른 부차적 부분들을 가질 수 있다. 이들 부차적인 부분들은 전체 건물에 대한 주석과 결부해 하나의 대상으로 그룹화될 수 있다. 또는 건물의 그룹은 예컨대 도시의 일부에 해당하는 하나의 주석으로 연결될 수 있다. 주석에서, 주석의 설명 레벨은 각 해상도 레벨에 대한 대상 위치의 정확도를 확정함으로써 결정될 수 있다. 선택된 레벨은 최대 해상도를 제공하는 수준이지만, 설명된 대상 위치의 혼동영역이 겹치지 않게 하는 수준이다.

요약하면, 상기 방법의 각각 또는 몇몇은 다른 값들을 제공할 수 있다:

1) 특정 위치 및/또는 전체 이미지에서 특정 대상을 갖는 확률. 이 값은 전체 이미지에 대해 및/또는 이미지의 각 지점 또는 3D 장면에 대해 계산될 수 있다. 각 지점에 대해 계산된 확률의 경우, 특정 위치에서 대상을 가질 확률을 나타내는 확률밀도함수(또는 확률 마스크)가 계산된다. 이 확률밀도함수는 이미지면에서 2차원으로 및/또는 장면 또는 장면에 있는 대상들의 3차원 모델이 이용될 수 있다면 3차원으로 계산될 수 있다. 이 확률은 실제 값으로, 예컨대, 퍼센트로 나타낼 수 있다. 특정 후보를 가질 확률이 0이 아닌 지점 또는 임계치보다 적어도 더 큰 지점들이 함께 소위 혼동영역을 이룬다.

2) 신뢰도, 즉, 이미지 또는 이미지의 지점에 대한 현저한 대상이 있는대 없다고 하지 않고 이 대상이 정말 있을 확률. 다시, 이 신뢰도는 선험적으로 알려지거나 전체 이미지, 이미지의 다른 지점들, 및/또는 소정의 후보대상에 대해 계산될 수 있다. 신뢰도는 실제 값, 예컨대, 퍼센트로 나타내 질 수 있다.

3) 정확도, 즉, 위치에 대한 에러의 표준편차. 이 정확도는 전체 이미지, 이미지내 영역들, 이미지내 각 지점, 또는 소정의 후보에 대해 다시 계산되거나 선험적으로 알려질 수 있다.

이들 다른 값들은 또한 예컨대 비디오 이미지의 주석의 경우에 시간에 따라 변할 수 있다.

현저한 대상을 이미지에 맵핑하기 위한 다른 기술들을 적용하고, 완전한 주석 시스템의 다른 구성요소들에 분포될 수 있는 최종 결과를 만들기 위해 이미지 주석 디바이스의 위치 및 방향을 결정하는데 필요한 계산들. 이런 분포는 모바일 디바이스와 시스템의 다른 구성요소들, 즉, 서버와 다른 모바일 디바이스들의 계산능력을 고려해 최적화될 수 있다. 최적화는 예컨대 주석달린 이미지를 얻는데 있어 지연을 최소화하거나 계산 비용(cost)을 최소화하기 위한 것일 수 있다. 간단한 경우, 매우 제한된 처리 능력을 갖는 모바일 디바이스는 센서 정보와 함께 서버들 중 하나로 획득된 이미지를 단순히 보낼 수 있고, 서버는 결과적으로 최종 이미지를 만들고 다시 모바일 디바이스로 보낸다. 더 많은 능력의 모바일 디바이스의 경우, 디바이스 부근에 있는 주석달린 대상들에 대한 모델이 다운로드될 수 있어, 서버에 의한 처리 자원 없이도 모든 과정이 모바일 디바이스에 의해 수행된다. 첫번째 대안은 서버가 오버로드될 수 있기 때문에 두번째 대안보다 더 느릴 수 있다. 두번째 대안은 다운로드된 모델들의 대부분이 사용되지 않기 때문에 통신 비용 면에서 더 고가이나, 주석이 매우 빨리 수행될 수 있다. 어떤 의미에서, 2개의 대안들을 매개로, 계산 부하가 서버들과 모바일 디바이스들 간에 분산될 수 있다.

주석 위치의 정확도 및 지연, 통신 비용, 소비 에너지와 같은 비용 간에 상쇄를 결정하는 것이 더 이점적이다. 실제로, 다수의 기술들을 결합함으로써 정확도가 높아질 수 있으나, 총 비용이 높아진다. 상쇄는 각 기술과 해당 정확도의 비용을 계산하고 그런 후 기술들 간에 이용가능한 예산의 최적 할당을 발견함으로써 결정될 수 있다.

주석 시스템의 상업적 생존력은 사용자에 이용될 수 있는 주석달린 대상의 개수에 따른다. 데이터베이스에 주석달린 대상을 제공하기 위해, 다음과 같이 3가지 예시적인 기술들이 있다. 첫번째는 사용자가 주석달린 이미지 또는 3D 모델을 업로드하게 한다. 이는 모바일 디바이스로부터 또는 월드와이드웹(World-Wide-Web)을 통해 직접 행해질 수 있다. 자가조직되는 이 기술은 잠재적으로 매우 많은 주석달린 대상들을 제공할 수 있으나 서비스의 품질을 보장하기가 어려울 수 있다. 두번째 기술로, 중앙기관이 지역, 예컨대, 도시에 대한 주석달린 대상들의 세트를 생성하고, 일치와 컨텐트 품질을 보장하는 것이다. 세번째 예시적인 기술은 기존의 이미지와 월드와이드웹과 같은 비디오 데이터베이스로부터 검색된 이미지와 데이터의 사용을 포함한다. 이들은 종종 위치 정보, 키워드, 웹사이트 링크와 연결되는 것이 발견된다. 이런 정보는 모바일 디바이스들에 대한 주석달린 대상들을 발생하기 위해 자동적으로 접속될 수 있다. 발생은 장면 또는 대상 영역에 대한 요청시 실시간으로 이루어질 수 있고 데이터 복제를 막고 주석의 간단한 업데이트를 하게 한다.

본 발명의 내용에 포함됨.

도 1은 예시적인 주석 시스템의 개략도이다.
도 2는 빌딩에 위치된 주석 시스템의 설명 모바일 디바이스의 도면이다.
도 3은 현저한 대상에 대한 엔트리들을 포함한 데이터베이스의 표로 산출된 도면이다.
도 4a는 지형의 등고를 도시한 등고선 지도이다.
도 4b는 한 장면의 대상들에 대한 개략도이다.
도 5는 모바일 디바이스 이미지면에 현저한 지점의 맵핑을 나타내는 개략도이다.
도 6a는 도 6b의 현저한 대상 지점(P)에 대한 확률 마스크 또는 "혼동지역"의 그래프이다.
도 6b는 현저한 위치를 포함한 장면의 스케치이다.
도 7a는 나침반 정보가 이용될 수 없는 후보대상에 대한 예시적인 확률 마스크 도면이다.
도 7b는 도 7a에 도시된 대상의 가능한 위치들을 도시한 스케치이다.
도 8a는 다른 유사한 대상들이 있는 장면에서 후보대상의 이미지 기반의 검출을 위한 3개의 국소 최대값을 갖는 확률 마스크 도면이다.
도 8b는 도 8a의 확률 마스크에 해당하는 유사한 모습을 갖는 3개 대상을 포함한 장면의 도면이다.
도 9a 내지 도 9c는 여러 가지 기술들을 이용한 현저한 대상의 검출 도면이다.
도 10a는 단일후보 센서 기반의 방법 및 3개 후보 이미지 기반의 방법에 대한 확률 마스크의 비교 도면이다.
도 10b는 상단 행에 주석 데이터베이스에 저장된 이미지의 획득 도면이고, 도 10b는 하단 행에 다른 방향들에서 찍은 이미지의 설명이다.
도 11은, 표 1에 대응해, 현저한 대상의 해상도의 3개 레벨들에 대한 설명 도이다.
도 12는 비용(cost) 함수로서 설명의 최종 위치 오차의 그래프이다.

이미지/비디오 주석 시스템에서 이미지 획득을 위한 다른 기술들이 사용될 수 있다. 한 기술은 휴대용 주석 디바이스 상의 센서의 사용을 기초로, 예컨대, 센서가 디바이스 위치와 방향에 대한 정보를 제공하도록 될 수 있다. 이용가능한 센서는 정확도와 신뢰도를 다르게 함으로써 특징된다. 예컨대, GPS 시스템은 시각 위성의 개수에 따른 정확도로 위치를 결정하게 한다. 그러나, 디바이스가 내부에 있으면 빌딩 GPS 결정은 신뢰할 수 없고 필요한 위치가 아마도 모바일폰 네트워크 기반구조로부터 위치의 결정과 같이 다른 덜 정확한 타입의 센서를 이용해 획득되어야 한다.

센서 정보로부터, 주석 시스템은 주석 디바이스에 의해 관찰된 장면을 추정하고 시각적으로 현저한 한 세트의 대상들과 이들의 주석을 데이터베이스로부터 검색할 수 있다. 센서 정보는 현저한 대상에 해당하는 위치들에서 장면의 이미지에 대한 주석을 중첩시키기 위해 한 세트의 현저한 대상 위치들을 이미지 좌표로 맵핑하기 위해 더 사용될 수 있다.

다른 센서들이 주석을 달기 위해 대상에 배속될 수 있고 주석 디바이스에 의해 수신된 신호를 방출한다. 예컨대, 장면은 이미지 주석 디바이스에 의해 수신될 수 있고 이들 대상을 식별 및/또는 획득된 이미지내 대상 위치를 결정하는데 사용될 수 있는 RFID, 블루투스, 또는 지그비 센더(ZigBee sender) 또는 무선주파수, 적외선 또는 음성/초음파 신호를 방출하는 임의의 센더(sender) 또는 비콘(beacon)이 마크되거나 갖추어진 (사람을 포함한) 대상을 포함할 수 있다. 이 기술은 예컨대 무선 이동장비를 갖는 차량 및 사용자를 식별 및 위치 파악하는데 사용될 수 있다.

센서 사용에 대한 대안으로, (안면인식 알고리즘을 포함한) 이미지 처리 및 컴퓨터 비전 기술이 기준 이미지 또는 모델 및 이미지의 특징들 간의 유사성을 계산하기 위해 사용될 수 있다. 설명 장치에 의해 획득된 이미지는 각 이미지가 피설명 대상에 해당하는 데이터베이스에 저장된 기준 이미지와 비교된다. 실제 보기각도와 조명조건이 데이터베이스에 저장된 이미지에 대해 다를 수 있기 때문에, 비교 알고리즘은 이들 파라미터의 영향을 제거해야 한다. 대안으로, 다른 보기 각도와 조명조건에 해당하는 다수의 이미지들이 저장될 수 있다.

다른 더 최신 이미지 설명 기술들은 3D 기준 모델을 이용한다. 이 기술은 특히 휴대용 디바이스가 피대상 부근에 있는 경우, 즉, 시차(parallax)가 중요한 경우에 유리하다. 가령, 빌딩의 경우, 대상의 구조가 설명된 상세 내용과 함께 데이터베이스에 저장되어 있다. 휴대용 디바이스에 의해 획득된 이미지는 3D 대상의 가능한 보기들과 비교되고, 보기들 중 하나에 대해 일치가 있으면, 대상은 인식되고 해당 설명들이 이미지에 중첩된다.

센서 및 이미지 기반의 기술들 간에 선택에 더해, 휴대용 디바이스와 서버 디바이스 간에 계산 과제를 나누고 분배하는 것에 관해 선택들이 제공된다. 휴대용 디바이스가 낮은 계산력을 가지면, 주석은 전적으로 서버 측에 수행된다. 반대로, 휴대용 디바이스가 주석 과제를 수행할 수 있으면, 주석 정보의 데이터베이스 모두 또는 일부가 서버 측에 처리를 요구하지 않고도 디바이스로부터 다운로드될 수 있다. 이 첫번째의 경우, 서버와 데이터 교환에 있어 지연 형태로 비용(cost)과 서버에 더 큰 계산 부하가 발생한다. 두번째의 경우, 서버로부터 다운로드되는 대량의 정보로 인해 비용이 발생된다.

도 1은 (하나 또는 다수의 주석 디바이스들, 예컨대, 설명 소프트웨어와 하드웨어 능력을 가진 모바일폰을 포함한) 4개의 모바일 디바이스(1)와 4개의 기지국(2)을 포함한 주석 시스템을 도시한 것이다. 각각의 기지국은 모바일 디바이스(1)와 통신하기 위한 안테나(20)를 갖는다. 기지국 중 2개는 통신을 중계하고 예컨대, 위성위치 확인시스템(GPS)을 이용해 모바일 디바이스의 위치를 파악하는데 이용될 수 있는 위성들(4)과 통신하기 위한 위성통신 접시 안테나(21)와 같은 또 다른 안테나(21)가 각각 더 설비된다. 몇몇 모바일 디바이스는 또한 자신의 위성 위치파악 시스템, 예컨대, 자신의 GPS 수신기를 포함할 수 있다. 기지국은 통신 링크, 예컨대, 유선전화 연결에 의해 서로 연결된다. 기지국은 예컨대 인터넷을 통해 서버(3)와 관련된 데이터베이스(30)에 연결된다. 모바일 디바이스(1)는 자신의 위치, 대상의 위치를 결정하기 위해 그리고 설명되는 이미지를 생성하기 위해 기지국(2), 서버(3) 및 가능하게는 서로 간에 통신할 수 있다.

도 2는 적어도 하나의 현저한 대상(40), 여기서 스위스 로잔의 대성당을 포함한 장면(4)의 화면(10)이 획득되고 디스플레이된 설명 모바일 디바이스(1)를 도시한 것으로, 디스플레이 화면(10)은 여기서 "대성당(로잔)"으로 읽히는 텍스트(11)로 설명된다. 이미지에 추가된 다른 설명들로는 링크, 비트맵 이미지, 또는 지리적 요소들, 예컨대, 화살표, 아이콘, 피토그램, 하이라이트 요소들 등을 포함할 수 있다.

먼저, 모바일 디바이스(1)에 의해 획득된 보기(10)를 설명하기 위해, 현저한 대상(40)이 화면에서 식별된다. 기본적 실행으로, 현저한 대상은 예컨대 데이터베이스에서 설명이 될 수 있는 위치들에서 2 또는 3차원 좌표 시스템의 점들로 나타내진다. 또는, 현저한 대상들은 표면 패치들과 영역들로 표시될 수 있어, 주석을 획득하기 위해 사용자가 한 영역을 클릭하게 한다. 양자의 경우, 현저한 대상들에 대한 주요 정보는 해당 주석과 함께 하나 또는 다수의 데이터베이스로부터 얻을 수 있는 위치이다. 식별을 용이하게 하기 위해, 현저한 지점들의 다수의 표현들이 사용될 수 있다.

도 3은 서버(3) 및/또는 주석 디바이스(1)에 저장될 수 있는 예시적인 주석 데이터베이스(30)의 일부를 예시한 것이다. 각각의 기준 대상에 대해, 데이터베이스 엔트리는 횡도, 경도, 및 고도를 이용한 지리적 위치, 대상의 하나 이상의 이미지들, 3D 모델(선택적), 및 바라는 설명, 예컨대, 본 명세서에 도시된 바와 같이 텍스트 가운데 하나 또는 다수를 포함한다. 공통 이미지 및/또는 3D 모델은 또한 다수의 대상들과 연관될 수 있다. 또한, 이미지를 획득한 카메라의 위치와 방향, 시간, 및 사진 찍은 날짜, 카메라의 설정 등과 같이 소정의 부가 정보가 저장된다. 현저한 대상이 점이라기보다 표면 패치인 경우, 각 이미지에 대한 표면의 투사도 또한 저장된다. 다른 표현으로, 현저한 대상을 디스플레이하는 한 세트의 이미지들도 포함될 수 있다.

예컨대 건물의 다른 표현은 3D 모델 형태를 취할 수 있다. 3D 모델을 나타내기 위한 한가지 방법은 실제 대상 표면에 가까운 한 와이어 프레임(wire frame)을 이용하는 것이다. 추가로, 질감도 또한 참조로 저장될 수 있다. 현저한 대상은 3D 모델에서 3차원으로 위치된다. 2D 이미지의 경우에서와 같이, 위치는 점 또는 3D 표면 패치 또는 공간으로 표시될 수 있다. 표면 패치 또는 공간으로 표시되는 경우, 패치는 현저한 대상의 영역을 결정하기 위해 이미지에 투사될 수 있다.

몇몇 경우에 유리하도록, 대상들이 소정 위치로부터 보여 질 수 있음을 결정하는데 용이하게 하기 위해 추가 데이터베이스 또는 데이터베이스 엔트리가 사용될 수 있다. 이런 데이터베이스는 바람직하게는 모바일 디바이스를 둘러싼 표면들의 고도를 포함한다. 고도는 도 4a에 예로 든 바와 같이 지형도로 또는 도 4b에서처럼 한 장면의 대상물(40)의 기하학적 근사로 표현될 수 있다. 특정 실행에서, 효율 향상을 위해 2개의 데이터베이스들이 다르게 조직될 수 있다. 실제로, 이미지와 3D 모델들은 다수의 현저한 대상들을 포함할 수 있기 때문에, 3D 주석 위치, 이미지 및 3D 모델에 대한 다른 데이터베이스를 갖는 것이 이점적일 수 있다. 각 데이터베이스의 엔트리는 설명에 해당하는 하나 또는 다수의 식별자들과 연결된다.

센서 기반의 설명의 경우, 지리적 위치들은 모바일 주석 디바이스의 위치 및 방향의 결정을 포함하여 디바이스에 의해 대상이 보여질 수 있고 대상들이 숨겨진 것을 결정하는데 사용될 수 있다. 예컨대, 이는 GPS, 나침반, 및 경사계를 이용해 얻어질 수 있다. 디바이스에 의해 보여질 수 있는 현저한 대상들은 도 5에 도시된 바와 같이 모바일 디바이스 카메라의 화면(41) 피사계에 포함된 대상들(41)을 데이터베이스에서 선택함으로써 얻어진다. 화면 피사계에 있고 다른 대상들에 의해 가려지지 않은 대상들에 대해, 획득된 이미지에 대한 투사가 결정될 수 있다. 이 투사는 대상에 대한 설명이 배치되어야 하는 위치에 해당한다.

각 센서의 정확도는 투사의 위치에 대한 정확도에 영향을 준다. 예컨대, 도 6b에서, 점(P)은 피설명 대상들 중 하나에 해당한다. 점(P)에 대한 불확실도는 도 6a에 도시된 확률분포로 표현되며, 검은색은 물체가 이 위치에 있을 높은 확률분포에 해당하고 흰색은 낮은 확률분포에 해당한다. 확률분포는 정확한 위치가 포함되고, 후보대상(P)을 갖는 확률이 그 영역에 있는 각 지점에 대해 0보다 큰 혼동영역(42)에 해당한다.

센서의 개수 및/또는 정확도가 애매함이 없이 대상의 위치를 결정하기에 충분하지 않을 경우도, 여전히 대상이 놓여 있는 영역과 해당 확률분포를 결정할 수 있다. 예컨대, GPS와 경사계가 이용가능하나 나침반이 없으면, 대상이 놓여 있는 수평면에 평행한 선-형태의 혼동영역을 결정할 수 있다. 이것이 도 7a 및 도 7b에 도시되어 있다. 따라서, 확률 값은 선들의 영역에서 0이 아니다. 대상의 위치가 정확히 결정되지 않더라도, 이 확률 마스크는 센서 기술 및 이미지 기반의 기술들과 같이 다른 기술들에 의해 산출된 확률 마스크와 결합되어 더 높은 정확도와 신뢰도로 최종 주석 위치를 얻을 수 있다.

이미지 기반의 기술에서, 획득된 이미지는 한 세트의 2D 기준 이미지 및/또는 후보대상의 3D 모델의 투사와 된다. 예컨대, 도 3에 도시된 데이터베이스에서, 샘플 이미지와 3D 모델들이 현저한 대상들 중 적어도 일부에 연결된다. 후보대상의 이미지 또는 투사가 입력 이미지내 소정 위치에서 발견되면, 상기 위치는 고려되는 현저한 대상의 설명을 위한 가능한 후보로 기록된다. 이미지에서 현저한 대상의 위치를 찾는데 사용되는 알고리즘은 예컨대 선명도, 조명조건, 대상 자체 및 샘플 이미지의 개수와 품질에 따라 상기 위치에 대한 소정의 정확도로 특징된다. 후보대상에 대한 검색은 예컨대 하나 또는 다수의 센서들로부터의 정보를 바탕으로 화면 피사계의 대략적 추정에 따라 장면에서 가장 있을 법한 대상들에 국한될 수 있다.

컴퓨터 비전 알고리즘은 동일한 현저한 대사에 대한 다수의 후보 위치들을 결정할 수 있다. 예컨대, 도 8b에서, 하나의 후보대상에 대한 3개의 가능한 위치들(A, B, 및 C로 표시됨)이 결정된다. 센서 기반의 기술의 경우에서와 같이, 각 후보의 위치에 대한 정확도는 확률분포로 표시된다. 예컨대, 도 8a에서, 하나의 후보에 대한 확률분포가 도시되어 있다. 이 확률분포는 후보의 기준 이미지와 유사한 이미지의 3개의 모습들 A, B, 및 C에 해당하는 3개의 국소적 최대값을 갖는다.

이 대상이 장면에 있더라도, 컴퓨터 비전 알고리즘이 후보대상에 대해 전혀 일치 및 전혀 유사한 위치를 찾지 못하는 경우에 다른 상황들이 발생할 수 있다. 이미지 기반 기술의 신뢰도는 특히, 이미지 획득 상황이 어려울 경우 또는 유사한 형태의 다수의 이미지들이 동일한 장면에 있을 경우 다른 기술에 대해 낮은 경향이 있다.

상술한 바와 같이, 후보 위치는 주석 시스템에서 이용가능한 모든 정보를 이용함으로써 현저한 대상에 대한 후보 위치들이 결정될 수 있다. 예컨대, 설명 모바일 디바이스(1)의 위치파악과 최종적으로 현저한 대상(P)의 식별 및 위치를 추정하기 위해 기지국(2)에 의해 수신된 신호에 대한 측정이 사용될 수 있다. 고려되는 한 디바이스 부근에 있는 모바일 디바이스들(1)에 의해 추가 측정이 이루어질 수 있다. 시스템의 구성과 적용 알고리즘에 따라, 다른 확률분포로 각 후보 위치가 특징될 수 있다.

더욱이, 특정 신뢰도는 상기 방법과 연관있고, 상기 방법은 얼마나 가능하게 알고리즘이 의미 있는 결과를 주는지를 나타낸다. 신뢰도는 센서 기반의 기술들, 즉, 피설명 대상이 자신의 식별 및 위치를 나타낼 수 있을 때 매우 높고, 모바일 디바이스의 GPS 및 네트워크 기반의 지오로컬리제이션(geolocalisation)과 같은 기술들에 대해서는 중간이며, 및 이미지 기반 기술에 대해서는 낮다.

다른 기술들, 센서 기반(도 9a), 지오로컬리제이션 기반(도 9b), 및 이미지 기반의 기술(도 9c)들에 의해 주어진 결과의 예가 도 9에 도시되어 있다. 각 기술에 대해, 대표적인 형태의 불확실 영역(즉, 후보대상을 갖는 확률이 임계치보다 더 높은 이미지 부분)이 도시되어 있다.

첫번째 방법(도 9a)은 모바일 디바이스 및/또는 설명된 대상(40)에 설치된 센서를 이용한다: 그 결과는 매우 신뢰할 수 있으나, 대상의 수직 좌표만 계산되고, 불확실 영역은 줄무늬 형태이다. 두번째 기술(도 9b)은 모바일 네트워크의 기지국(2)에 송수신되는 신호의 측정을 기초로 한다. 이 경우, 모바일 주석 디바이스(1) 및 대상의 위치가 완전히 계산되나, 정확도가 낮다. 즉, 혼동영역이 크다. 신뢰도는 중간인데, 이는 몇몇 드문 경우로 다중 경로로 인해 모바일 디바이스의 부정확한 국소화를 초래할 수 있다. 세번째 기술(도 9c)은 이미지 기반이며 동일한 대상에 대한 다수의 후보를 생성한다. 각 후보의 위치는 높은 정확도로 계산되나, 신뢰도는 낮은데, 이는 상기 방법이 이미지 획득 조건에 따르기 때문이다.

각 방법에 대해, 신뢰도는 조건에 따르며, 각 이미지 또는 심지어 이미지의 각 점에 대해 결정될 수 있다. 예컨대, 상술한 바와 같이, 컴퓨터 비전 기반 기술의 신뢰도는 조명조건, 초점 및 시계(視界)에 있는 후보들이 개수에 크게 따른다. GPS 기반 기술의 신뢰도는 다른 위성들 사이에 신호가 수신되는 위성의 개수에 따른다. 따라서, 새로운 신뢰도 지수는 설명을 위한 각 이미지와 각 기술에 대해 계산되고, 이 기술이 유용한 결과를 제공하는지 결정하기 위해 임계치와 비교될 수 있다.

사진에서 현저한 대상을 식별하고 위치파악하는 다른 방법들의 후보들은 가장 신뢰할 수 있는 후보들과 긴밀히 결부되지 않은 후보들을 제거하도록 분석될 수 있다. 이미지에서 후보대상을 배치하는 첫번째 가능한 절차는 다음과 같다:

1. 높은 신뢰도 순서로 각 방법(M)을 고려한다.

2. 대상에 대해 M에 의해 주어진 각각의 가능한 위치를 고려하고, 다른 방법들에 의해 주어진 위치들과 모순이 없는지 검사한다. 모순되면, 이 위치는 제거된다.

3. M을 위해 남아 있는 가능한 위치들이 있는가? 없다면, 방법(M)을 버린다.

4. 분석되지 않은 방법이 있다면, 단계 1로 돌아간다.

예컨대, 도 10a에서, 이미지 기반 알고리즘의 원형의 불확실성 영역(42)이 센서 기반 방법에 의해 전달된 줄무늬 형태의 불확실 영역(42')과 비교된다. 이미지 기반 기술의 후보(A)만이 센서 기반 기술의 불확실 영역과 호환될 수 있는데, 이는 모두 확률 마스크가 0이 아닌 영역이 있기 때문이다. 이 경우, 이미지 기반 기술의 후보(B 및 C)는 폐기된다. 2개의 불확실 영역의 중첩 부분 내에서, 알고리즘은 결합된 확률 또는 가중화된 결합 확률이 가장 높은 지점에서 현저한 대상을 위치파악한다.

이미지에서 후보대상을 배치하는 또 다른 가능한 절차는 다음과 같다:

1. 각 방법(M)을 고려한다.

2. 현재 이미지에 대한 신뢰도 지수가 기정의된 임계치 미만인 모든 방법들을 제거한다.

3. 시계(視界)에서 식별된 각각의 현저한 대상에 대해, 이미지에서 가장 가능한 위치를 결정한다. 이 가장 가능한 위치는 바람직하게는 다른 나머지 기술들에 의해 산출된 확률분포 함수를 기초로 한다. 이는 각 점에 대해 각 기술로 산출된 확률을 평균하는 단계 및 각 확률과 관련된 가중치들이 각 기술의 신뢰도에 따르는 가중치 평균을 포함할 수 있다.

특히 각 점에서 각 방법 또는 몇몇 방법들의 신뢰도를 나타내는 신뢰도 분포함수가 이용가능한 경우 세번째 방법이 사용될 수 있다:

1. 이미지의 각 점을 연이어 고려한다.

2. 상기 점에서 신뢰도가 기정의된 임계치 미만인 각 방법을 제거한다.

3. 상기 점에서 하나의 현저한 후보대상을 갖는 나머지 방법들에 의해 주어진 확률들의 평균을 계산한다.

4. 이미지에서 3 이상의 점들이 있는가: 있다면, 단계 1로 돌아간다.

5. 이 평균 확률이 소정의 임계치보다 더 크면 가장 큰 평균 확률의 지점에 따라 설명에 대한 위치를 선택하고 그렇지 않으면 설명을 폐기한다.

따라서, 모든 방법들에서, 후보대상은 가장 높은 확률 지점, 즉, 후보에 대해 가장 가능한 위치를 나타내는 지점에 위치되어 있다. 가장 높은 이 확률 지점은, 예컨대, 확률분포함수를 평균함으로써 다른 센서들에 연결된 확률 마스크를 바탕으로 한다. 충분히 신뢰할 수 없거나 특정 지점에서 신뢰할 수 없는 방법은 폐기된다. 상기 방법은 장면에서 발견될 수 있는 모든 후보대상들에 대해 반복된다.

보다 일반적으로, 일단 한 세트의 적합한 후보들이 결정되면, 다른 방법들에 의해 주어진 위치들을 결합함으로써 설명의 최종 위치가 계산된다.

일실시예에서, 가장 가능한 위치의 계산은 각 방법의 정확도를 고려한다. 예컨대, 다음과 같이 가중화 평균이 사용될 수 있다:

여기서, (xi,yi)는 후보위치(i)의 위치이고, (x,y)는 주석의 최종 위치이다.파라미터(σxi,σyi)는 후보(i)의 위치에 대한 오차의 표준편차이고 이들은 혼동영역의 크기에 대한 것이다; 이들 편차는 각 방법과, 종종 각 측정에 따른다. 최종 위치에 대한 정확도는 적절한 후보의 확률분포로부터 계산될 수 있다. 예컨대, 이는 최종 위치의 표준편차에 대한 추정을 계산함으로써 이루어질 수 있다.

최종 주석 위치의 정확도와 로버스트성을 높이는 또 다른 방법은 별도로 하지 말고 다수의 기술들을 함께 적용하는 것이다. 이런 식으로, 예컨대 센서 측정과 이미지 기반의 기술들을 결합할 수 있다. 실제로, 상술한 바와 같이, 이미지 기반의 기술들은 관찰자의 위치에 민감할 수 있다. 예컨대, 입력 이미지의 소정 영역과 기준 이미지 간에 일치를 결정하기 위해 2D 모델이 사용되는 경우, 모바일 디바이스의 3D 회전으로 일치가 부정확하거나 빗나갈 수 있다. 이것이 도 10b에 도시되어 있다. 위쪽 이미지들은 주석 데이터베이스(30)에 저장된 기준 이미지의 획득을 나타낸다. 주석이 달리는 대상(40)이 카메라(1)의 이미지면에 나란한 평평면에 있어, 데이터 베이스에 저장된 기준 이미지(45)를 만들고 이는 특정한 보기 각도에서 보여지는 설명되는 대상의 2D 스케일 표현이다. 대신, 아래쪽 이미지에 도시된 바와 같이, 모바일 디바이스(1)가 설명되는 이미지를 만드는데 사용될 경우, 카메라 평면은 기준 이미지의 생성 동안 사용된 평면에 그리고 설명되는 대상에 반드시 나란할 필요가 없고, 또 다른 대상(47)에 평행할 수 있다. 다른 방향으로, 데이터 베이스와 획득된 이미지 간에 일치가 원근 투사를 고려하지 않는 경우, 예컨대, 2D 전환이 사용되는 경우, 올바른 대상(40)이 빗나갈 수 있거나 또 다른 대상(47)과 맞지 않는 일치가 발생할 수 있다.

이런 위험을 제거하기 위해, 획득된 이미지와 주석 데이터베이스에 있는 이미지 간의 정확한 일치를 검출할 확률을 높이기 위해 보상이 이용될 수 있다. 이 보상은 예컨대 다른 보기 각도, 다른 조명조건(명도/컬러 온도/음영 등) 및 이미지 획득을 위한 더 일반적인 조건들에 대해 주석 디바이스(1)에 의해 획득된 이미지의 전처리를 포함할 수 있다. 이 보상은 위치 센서, 시간 및 데이터 정보 등을 포함한 다른 센서들에 의해 제공된 데이터 및 기준 이미지 또는 3D 모델에 대한 해당 정보를 기반으로 할 수 있다. 예컨대, 데이터와 날짜 시간을 아는 것이 조명 및 광컬러 보상을 위해 사용될 수 있고, GPS 및 나침반으로부터 위치 및 방향을 아는 것이 보기 각도를 바꿈으로써 유발된 기하학적 변형 및 시차(parallax)를 보상하기 위해 사용될 수 있다. 일반적으로, 이 보상의 목적은 일치 과정을 더 쉽게, 더 빨리, 그리고 더 강건하게 하기 위해 획득된 이미지로부터 또 다른 이미지 또는 데이터, 예컨대, 기준 이미지 또는 모델의 이미지 획득의 조건에 해당하는 이미지를 계산하는 것이다. 따라서 보상은 획득된 이미지와 주석 데이터베이스의 이미지 간에 정확한 일치를 검출할 확률을 높인다.

위치와 방향은 보상된 이미지를 계산하는 방법에 대한 불확실성을 일으키는 소정의 오차로 결정된다. 이를 위해, 가능한 위치와 방향의 공간이 샘플화될 수 있다. 각 샘플에 대해, 보상된 이미지가 계산되고 이미지 기반의 기술이 적용된다. 최종 후보의 개수를 줄이기 위해, 다수의 기술들이 다음과 같이 이용될 수 있다:

- 가장 가능한 위치들과 카메라의 방향들에 해당하는 보상 이미지에 대한 후보(들)을 유지하는 것;

- 데이터베이스 이미지와 최상의 일치를 제공한 후보(들), 예컨대, 최소평균자승오차를 제공한 후보들을 유지하는 것;

- 모든 후보들을 유지하고 다른 상술한 기술들, 예컨대, 다른 센서 기반의 기술들 또는 3D 이미지 기반의 기술들과 결과들을 비교하는 것.

현저한 대상의 위치들에 대한 정확도는 주석이 최종 이미지에 디스플레이되어야 하는 것을 결정하는데 사용될 수 있다. 실제로, 위치에 대한 정확도가 매우 높지 않으면, 주석의 상세 레벨을 줄이는 것이 더 적절하다. 그렇게 하는 한가지 방식은 다른 해상도에 해당하는 한 세트의 계층적 레벨로 현저한 대상들을 조직하는 것이다.

3개 레벨들에 대한 일예가 표 1에 도시되어 있다. 현저한 대상들은 각 노드가 자식노드의 전반적 주석에 해당하는 트리 형태로 조직되어 있다. 트리의 각 대상에 대한 각 대상의 혼동영역을 계산하고 영역들이 중첩되지 않는 가장 높은 레벨을 찾음으로써 적절한 레벨의 선택이 결정된다. 각 레벨에 대해, 도 11은 확률분포와 최종 주석을 도시한 것이다. 레벨(2)은 획득한 정확도에 대해 너무 높은 상세 레벨을 제공하는 것이 명백하다. 즉, 다른 대상들에 대한 불확실 영역들이 중첩되고 따라서 주석들이 그림에서 잘못된 대상과 연결될 수 있다. 레벨 0은 너무 듬성한데, 이는 많은 현저한 대상들이 설명되지 않기 때문이다. 레벨 1은 최적 절충안을 나타낸다. 상세 레벨의 결정은 또한 사용자에 의해 영향받을 수 있다. 예컨대, 사용자는 현저한 대상의 계층에서 고려되는 레벨 범위를 결정할 수 있다. 대안은 주석 위치들에 대한 국소적 정확도에 따라 이미지의 다른 부분들에 대한 다른 상세 레벨들을 허용하는 것이다. 더욱이, 상세 레벨은 또한 중복 주석을 방지하기 위해 주석들의 크기, 주석들 간의 거리 및/또는 원상복귀 동안 주밍인자(zooming facotr)에 따를 수 있다.

레벨 0	로잔
레벨 1	시내			우시
레벨 2	호텔 드 빌	대성당	성	마리나	오시 성

여기서 주석 텍스트로 표현되고 3개 레벨의 해상도로 조직된 현저한 대상의 계층적 조직.

모바일 주석 디바이스(1), 서버(3) 및 데이터베이스(30)로 구성된 주석 시스템은 계산, 주석 데이터, 고도 데이터, 통신, 및 감지능력이 시스템의 다른 구성요소들에 분포될 수 있는 단일 실체(unitary entity)로 간주될 수 있다. 각 자원의 접근 및 사용은 통신비용, 자원을 획득하는데 있어 지연, 및 소비된 에너지 중 일부 또는 모두를 포함할 수 있는 비용을 초래한다. 예컨대, 비용(c)은 다음과 같이 계산될 수 있다:

c = K_c * C + K_d * t_d,

여기서, C는 통신 비용이고, t_d는 지연이며, K_c, K_d는 각 항의 가중치를 제어하는 상수이다.

비용은 소정 전략에 따라 각 휴대용 디바이스에 의해 다른 식으로 할당될 수 있다. 예컨대, 표 2는 다른 모바일 디바이스들, 다른 기지국들 및 다른 서버들에 대한 비용을 나타낸 것이다.

요소	계산	통신	감지위치	감지방향	요소1에 대한 데이터 주석	요소2에 대한 데이터 주석
모바일1	100	-	∞	1	1	∞
모바일2	∞	10	10	10	1	1
모바일3	∞	10	15	5	1	∞
기지국1	∞	1	20	20	∞	∞
기지국2	∞	1	20	20	∞	∞
서버1	10	1	∞	∞	1	1

표에서, 무한대 심볼은 소정 디바이스에 이용 불가한 자원들에 사용된다. 이 예에서, 비용은 통신 비용, 지연, 및 소비전력을 고려한다. 비용은 소정 자원이 이용불가할 경우 무한대로 설정된다. 예컨대, "모바일1"은 GPS가 없다; 따라서, 위치를 결정하는 것과 관련된 비용은 이 자원에 대해 무한대로 설정된다. 그러나, 이 디바이스의 위치는 지연 및 통신 면에서 값을 지불함으로써 "모바일2"와 같이 근처의 또 다른 모바일 디바이스로부터 획득될 수 있다.

대상을 설명하기 위해 요구되는 정보도 또한 시스템의 구성요소들에 분포되어 있다. 예컨대, 표 2에서, 2개의 현저한 요소들이 고려된다. 주석 요소(1)에 대한 데이터가 "모바일1"에 이용될 수 있다; 따라서, 낮은 값을 지불함으로써 접속될 수 있다. 제 2 요소를 설명하기 위한 데이터는 이 모바일에 이용불가하며, 비용은 무한대이다. 이 주석 데이터가 필요하면, 통신 비용과 지연을 지불함으로써 "모바일2" 또는 "서버1"로부터 검색될 수 있다.

이미지를 설명하기 위해, 모바일 디바이스는 많은 파라미터를 필요로 한다. 예컨대, 센서 기반의 주석을 위해, 위치와 방향이 필요하다. 이 정보를 얻기 위한 여러가지 방법들이 있을 수 있다. 정보는 센서에 의해 다바이스에 직접 이용될 수 있거나, 부근에 있는 디바이스로부터 수신될 수 있거나, 통신 네트워크로부터 수신될 수 있다. 모든 선택은 상술한 비용 및 소정의 성능 파라미터와 연관있다. 이 파라미터는 예컨대 표준편차처럼 연관된 신뢰도의 표시 및/또는 에러 크기의 측정일 수 있다. "모바일1"의 위치 및 방향 계산에 대한 예시적인 성능 파라미터가 표 3에 도시되어 있다. 성능은 예컨대 에러 표준편차를 이용해 측정될 수 있다. 무한대로 설정된 값은 디바이스가 소정의 양을 만들 수 없는 것을 나타낸다.

요소	감지위치	감지방향
모바일1	∞	10
모바일2	20	20
모바일3	30	30
기지국1	15	15
기지국2	25	25
서버1	∞	∞

다른 자원들에 의한 몇몇 파라미터들의 계산과 연관된 성능 파라미터.

몇몇 경우, 성능은 다른 자원들을 조합함으로써 향상될 수 있다. 예컨대, 상술한 바와 같이 센서 기반 및 이미지 기반 기술의 조합으로 표준편차 및 다른 파라미터들이 향상될 수 있다. 이는 더 높은 총 비용을 지불함으로써 행해질 수 있다.

주어진 총 비용에 대해, 성능을 극대화하는 자원들의 최적 할당을 결정할 수 있다. 주석 위치에 대한 결과적으로 발생한 최종 에러는 총 비용의 함수이다. 총 비용의 함수로서 최종 에로를 나타내는 예가 도 12에 도시되어 있다. 할당된 자원과 최종 에러에 대한 최종 결정은 전체 주석 시스템의 레벨에서 각 주석 모바일 디바이스에 의해 동적으로 취해질 수 있다. 결정은 각 주석 디바이스 및 심지어 설명하기 위한 각 이미지에 대해 달라질 수 있다.

따라서, 다른 모바일 디바이스 및 서버들 간에 계산 분배는 주석의 정확도, 통신 비용, 지연 및/또는 소비전력 간에 상쇄를 향상시키기 위해 각 사진 또는 각 이미지 주석 세션에 대 동적으로 그리고 자동으로 조절될 수 있다.

일실시예에서, 시스템의 한 디바이스 또는 서버들 중 하나로부터 나머지 다비아스로 소정 자원의 분배에 대한 비용이 계산된다. 도 12에 도시된 함수와 유사한 함수가 주어진 비용에서 대안을 분석하고 최소 에러로 선택함으로써 시스템의 각 노드에 대해 결정될 수 있다. 절차는 시스템의 디바이스 이동 또는 변경을 고려해 정규적으로 반복될 수 있다. 간단한 형태의 알고리즘을 적용함으로써, 예컨대, 유사한 비용과 성능을 갖는 자원 또는 디바이스를 그룹화함으로써 복잡도가 줄어들 수 있다.

상술한 바와 같이, 주석 시스템은 도 3 및 도 4에 도시된 것처럼 현저한 대상 데이터베이스와 고도 데이터베이스에 저장된 정보를 기반으로 한다. 이들 데이터베이스들은 서버 제공자 또는 주석 시스템의 사용자에 의해 생성될 수 있다. 또한, 사용자가 해당 주석들을 갖는 새로운 현저한 대상들을 추가할 수 있다. 더욱이, 사용자는 소정의 현저한 대상에 새로운 이미지 및 3D 모델을 연결시키고 이들 이미지와 모델을 중앙 서버에 저장해 장래 이미지 기반의 주석의 정확도와 로버스트성을 향상시킬 수 있다. 이 동작은 주석이 달린 이미지 또는 특히 이 목적으로 설계된 디바이스들을 만드는데 사용된 동일한 휴대용 디바이스들을 이용해 구현될 수 있다. 사용자는 현저한 대상의 방향으로 디바이스를 가리키고 시스템은 이미지 또는 비디오 시퀀스를 획득한다. 디바이스의 위치 및 방향은 상술한 기술들을 이용해 계산되고, 이는 디바이스가 가리킨 영역을 식별한다. 동일 영역의 다른 화면들이 동일 사용자 또는 다른 사용자들에 의해 시간에 걸쳐 수집될 수 있다. 이들 화면들은 시스템이 장면의 3D 구조를 재구성하는데 사용될 수 있다. 그렇게 하기 위한 한가지 방식은 다른 화면들의 해당 지점들에 대한 삼각측량을 이용하는 것이다. 재구성된 3D 구조는 고도 데이터베이스를 만들거나 업데이트하는데 사용된다. 더욱이, 기존의 현저한 대상이 화면에 포함되어 있는 경우, 이미지 및 3D 모델을 추가함으로써 현저한 대상 데이터베이스에서 해당 엔트리가 업데이트될 수 있다. 사용자가 새로운 현저한 대상을 선택하고 해당 주석을 기입하면, 새로운 엔트리가 데이터베이스에 생성된다. 이는 추후 새로운 화면들이 수집되었을 때 업데이트된다. 이는 또한 주석을 위해 정규적으로 획득된 이미지들을 이용해 구현될 수 있음이 주목된다.

가능한 대안들로는 계산 회수 또는 데이터베이스의 크기를 줄이기 위해 본 방법의 간략화를 포함한다. 특히 관심 있는 형태는 휴대용 디바이스로부터 거리를 기초로 이미지를 주석 다는데 있다. 각 사용자는 주변 대상들의 주석 이미지를 수신하고 기존 주석을 변경하거나 새로운 주석 이미지를 업데이트할 가능성을 갖는다. 도 3에 도시된 데이터베이스에 대해, 단지 주식이 달린 이미지들의 수집과 해당 화면 위치만 저장될 필요가 있다. 고도 데이터베이스는 필요가 없다.

컨텐트, 위치 및 로버스트성 면에서 주석의 질을 높이기 위해, 지형 데이터, 지오테그된(geotagged) 고품질의 비디오 및 이미지, 3D 카메라와 같은 추가 정보원들이 사용될 수 있다. 이 데이터는 업데이트되거나 주석 시스템에 연결될 수 있고 기존 데이터베이스에 통합되거나 이용될 수 있다.

주석 데이터베이스용 컨텐트를 생성하기 위한 심오한 방법은 웹에 이용가능한 정보를 이용하는 것이다. 그렇게 하기 위한 첫번째 방법은 지리적 위치에 대한 이미지 데이터베이스를 이용하는 것이다. 이런 데이터베이스의 예로는 "파노라미오(Panoramio)", "스트리트뷰(street view)", 및 "플리커(flickr)"를 포함한다. 이들 데이터베이스는 현저한 대상 데이터베이스에 대한 엔트리를 만들기 위해 분석될 수 있다. 엔트리는 주석 텍스트로서 이미지 및 이미지 기반의 주석을 위한 모델로서 이미지에 대한 색인을 이용해 생성/업데이트될 수 있다.

또 다른 가능성은 주석 정보 및 지리적 위치에 대한 이미지들을 찾기 위해 웹을 스캔하는 프로그램을 이용하는 것이다. 이들 프로그램들은 예컨대 주요 도시들의 웹사이트를 분석하고 역사적 건물, 공공기관, 박물관, 상점 등에 대한 주석 데이터를 만들 수 있다.

상기 방법 및 시스템은 또한 예컨대 사람의 개인용 디바이스가 방출한 블루투스 및 다른 신호들의 검출과 결합된 안면 인식 알고리즘을 이용해 사람을 설명하는데 사용될 수 있다. 이 경우, 주석 데이터와 기준 이미지는 예컨대 소셜 네트워크 플랫폼으로부터 검색될 수 있다.

Claims

장면 이미지에 대한 주석을 배치하는 계산 방법으로서,
(a) 카메라로 상기 장면의 원본 이미지를 얻는 단계와,
(b) 상기 이미지에 표현된 상기 장면의 특징에 대한 주석을 얻는 단계와,
(c) 상기 이미지내 복수의 위치들의 각 위치에 대해, 상기 위치에 상기 특징을 가질 확률을 결정하는 단계와,
(d) 상기 확률이 가장 높은 상기 이미지내 주석 위치에 상기 주석을 포함함으로써 주석이 달린 이미지를 형성하는 단계를 포함하고,
(e) 위치 센서로 상기 카메라의 위치를 결정하는 단계와,
(f) 상기 특징과 상기 특징의 기준 이미지들 또는 모델들 간에 유사성을 결정하기 위해 컴퓨터 비전 수단을 이용하는 단계와,
(g) 상기 위치 센서로부터의 정보와 상기 컴퓨터 비전 수단으로부터의 정보를 바탕으로, 상기 이미지내 각각의 상기 위치에서 상기 특징을 가질 확률을 나타내는 확률분포함수를 계산하는 단계를 더 포함하는 장면 이미지에 대한 주석을 배치하는 계산 방법.
제 1 항에 있어서,
상기 주석 위치는 복수의 방법들에 의해 결정되며,
상기 방법들 각각은 상기 복수의 방법들 각각에 따른 확률분포함수를 산출하고, 상기 복수의 방법들 각각에 의해 주어진 복수의 상기 확률분포함수를 조합함으로써 결정되는 주석 위치에 주석이 포함되는 장면 이미지에 대한 주석을 배치하는 계산 방법.
제 1 항에 있어서,
상기 주석 위치는 복수의 방법들에 의해 결정되며,
상기 복수의 방법들 각각에 대해 상기 주석 위치의 정확도들이 다르며, 상기 주석 위치의 계산은 상기 복수의 방법들 중 가장 정확한 방법을 기초로 하는 장면 이미지에 대한 주석을 배치하는 계산 방법.
제 3 항에 있어서,
상기 이미지의 다른 지점들에서 적어도 하나의 방법에 의해 주어진 위치 정확도를 나타내기 위해 정확도 분포함수가 결정되는 장면 이미지에 대한 주석을 배치하는 계산 방법.
제 1 항에 있어서,
상기 주석 위치는 복수의 방법들에 의해 결정되며,
상기 복수의 방법들 각각에 대해 상기 주석 위치의 신뢰도들이 다르고, 상기 주석 위치의 계산은 상기 복수의 방법들 중 가장 신뢰할 수 있는 방법을 기초로 하는 장면 이미지에 대한 주석을 배치하는 계산 방법.
제 5 항에 있어서,
상기 이미지의 다른 지점들에서 적어도 하나의 방법의 신뢰도를 나타내기 위해 신뢰도 분포함수가 결정되는 장면 이미지에 대한 주석을 배치하는 계산 방법.
제 1 항에 있어서,
상기 주석 위치는 복수의 방법들에 의해 결정되며,
모바일 디바이스(1)와 서버(3) 간의 통신 비용 및 상기 모바일 디바이스(1)와 상기 서버(3) 간의 통신 지연 면에서 각 방법에 대한 비용이 계산되고, 상기 위치의 계산은 상기 복수의 방법들 중에서 선택되는 비용이 덜 드는 방법들을 기초로 하는 장면 이미지에 대한 주석을 배치하는 계산 방법.
제 1 항에 있어서,
상기 이미지의 기하학적 변형을 보상하기 위해 상기 카메라의 상기 위치와 방향을 기반으로 상기 이미지를 사전처리하는 단계를 더 포함하는 장면 이미지에 대한 주석을 배치하는 계산 방법.
제 1 항에 있어서,
상기 특징의 위치 정확도가 결정되고,
상기 정확도에 따라 상기 주석의 해상도 레벨이 조절되는 장면 이미지에 대한 주석을 배치하는 계산 방법.
장면 이미지에 주석을 배치하기 위한 주석 디바이스로서,
(a) 상기 장면의 원본 이미지를 얻기 위한 카메라와,
(b) 상기 이미지에 표현된 상기 장면의 특징에 대한 주석을 얻기 위한 계산 수단과,
(c) 상기 이미지내 복수의 위치들의 각 위치에 상기 특징이 배치될 확률을 결정하고, 상기 확률이 가장 높은 주석 위치에 상기 주석을 포함함으로써 주석 이미지를 형성하기 위한 계산 수단을 구비하고,
(d) 상기 주석 디바이스의 위치를 결정하기 위한 위치 센서와,
(e) 상기 특징 및 상기 특징의 기준 이미지들 또는 모델들 간에 유사성을 결정하기 위한 컴퓨터 비전 수단과,
(f) 상기 위치 센서로부터의 정보와 상기 컴퓨터 비전 수단으로부터의 정보를 바탕으로, 상기 특징이 상기 이미지내 각각의 상기 위치에 있을 확률을 나타내는 확률분포함수를 계산하기 위한 계산 수단을 구비하는 주석 디바이스.
(a) 장면 이미지상에 주석을 배치하기 위한 적어도 하나의 주석 디바이스(1)와,
(b) 적어도 하나의 서버(3)를 구비하고,
상기 주석 디바이스는
상기 장면의 원본 이미지를 얻기 위한 카메라와,
상기 이미지에 표현된 상기 장면의 특징에 대한 주석을 얻기 위한 계산 수단과,
상기 이미지내 복수의 위치들의 각 위치에 상기 주석이 배치될 확률을 결정하고, 상기 확률이 가장 높은 주석 위치에 상기 주석을 포함함으로써 주석 이미지를 형성하기 위한 계산 수단을 구비하고,
상기 주석 디바이스의 위치를 결정하기 위한 위치 센서와,
상기 특징과 상기 특징의 기준 이미지들 또는 모델들 간의 유사성을 결정하기 위한 컴퓨터 비전 수단과,
상기 위치 센서로부터의 정보와 상기 컴퓨터 비전 수단으로부터의 정보를 바탕으로, 상기 특징이 상기 이미지내 각각의 상기 위치에 결합될 확률을 나타내는 확률분포함수를 계산하기 위한 계산 수단을 더 구비하는 주석 시스템.
제 11 항에 있어서,
상기 주석의 계산은 상기 디바이스(1)와 상기 서버(3) 간에 분배되고,
상기 분배는: 주석의 정확도; 상기 디바이스(1)와 상기 서버(3) 간의 통신 비용; 상기 디바이스(1)와 상기 서버(3) 간의 통신 지연; 및 상기 디바이스(1)의 소비전력 중 적어도 하나를 고려해 자동으로 그리고 동적으로 조절되는 주석 시스템.
내장된 컴퓨터 프로그램을 갖는 컴퓨터 판독가능한 저장매체로서,
상기 컴퓨터 프로그램이 데이터 처리수단에 의해 실행될 때 제 1 항에 따른 단계들을 상기 데이터 처리수단이 수행하도록 상기 컴퓨터 프로그램이 갖추어져 있는 컴퓨터 판독가능한 저장매체.
삭제
삭제
삭제
삭제