KR20190025549A

KR20190025549A - 정신 장애들의 치료를 위한 이동 및 착용 가능한 비디오 캡처 및 피드백 플랫-폼들

Info

Publication number: KR20190025549A
Application number: KR1020187035497A
Authority: KR
Inventors: 카탈린 보스; 니콜라스 요셉 하버; 데니스 파울 월; 아론 스코트 클라인; 테리 앨렌 위노그라드
Original assignee: 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티; 카탈린 보스
Priority date: 2016-05-06
Filing date: 2017-05-08
Publication date: 2019-03-11
Also published as: US20210022657A1; CA3023241A1; US10835167B2; JP2019522300A; EP3452935B1; CN109475294B; JP6815486B2; ES2964705T3; EP4296935A2; US11089985B2; US11937929B2; EP3452935A1; CN109475294A; JP2021057057A; US20170319123A1; EP4296935A3; WO2017213780A1; US20220202330A1; EP3452935A4

Abstract

본 발명의 여러 실시예들에 따른 행동 및 정신 건강 치료 시스템들은 적어도 하나의 카메라에 의해 캡처된 이미지들로부터 사회적 신호들을 자동으로 인식하며 (이에 제한되지 않지만) 이미지를 디스플레이하는 것, 홀로그램 오버레이를 디스플레이하는 것, 가청 신호를 발생시키는 것, 및/또는 진동을 발생시키는 것과 같은 하나 이상의 출력들을 통해 착용자에게 이러한 정보를 제공하기 위해 디스플레이, 오디오 출력, 홀로그램 출력, 및/또는 진동 촉각 출력을 포함한 컴퓨팅 시스템에 연결된 다양한 센서들(다양한 다른 것 중에서, 가속도계, 마이크로폰) 및/또는 착용 가능한 카메라를 포함한다.

Description

정신 장애들의 치료를 위한 이동 및 착용 가능한 비디오 캡처 및 피드백 플랫-폼들

본 발명은 행동 장애들을 위한 치료를 제공하기 위해 이동 및 착용 가능한 비디오 캡처 시스템들을 사용하기 위한 시스템들 및 방법들에 관한 것이다. 특히, 컴퓨팅 시스템은 시스템에 의해 캡처된 이미지들 내에서 가시적인 얼굴들에서의 표정들을 검출하기 위해 분류기들을 이용하며 사용자에게 그들의 치료법의 부분으로서 피드백을 제공하는 소프트웨어 시스템을 구동한다.

자폐증, 불안, 우울증, 조울증들, 조현병, 외상성 뇌손상, 알츠하이머, 및 파킨슨 병과 같은 정신 장애들은 사회적 상호 작용들에 부정적인 영향을 주는 것으로 알려져 있다. 예를 들면, 68명의 아이들에서 대략 한 명 및 46명의 소년들에서 한 명이 자폐증을 가지며 그들의 상태로 인해 얼굴 표정들을 인지하고, 눈맞춤을 하며, 사회적 상호 작용들에 참여하느라 애쓴다.

이러한 사회적 기술들을 쌓거나 또는 회복하는 것은 종종 값비싸며, 접근하기 어려우며, 일관성 없이 관리되는 집중적인 행동 개입을 요구할 수 있다. 예를 들면, 자폐증 및 몇몇 다른 장애들을 돌보는 현재 표준은 얼굴 감정들의 공들인 기억화를 수반하는 "플래시카드 치료"를 수반한다. 그 결과, 자폐증을 가진 많은 아이들은 핵심적인 사회적 기술들을 형성하는데 실패하며 그들의 증상들을 악화시키는 고립의 길로 빠르게 퇴행할 수 있다.

본 발명의 다양한 실시예들에 따른 행동 및 정신 건강 장애들을 위한 치료를 제공하기 위해 이동 및 착용 가능한 비디오 캡처 시스템들을 사용하기 위한 시스템들 및 방법들이 개시된다. 일 실시예에서, 이미지 처리 시스템은: 주변 환경의 이미지들을 캡처하기 위한 적어도 하나의 카메라; 소프트웨어를 포함한 메모리 및 적어도 하나의 프로세서를 포함하고; 상기 소프트웨어는 상기 적어도 하나의 프로세서로: 상기 적어도 하나의 카메라에 의해 캡처된 이미지들의 시퀀스를 포함한 데이터를 획득하고; 상기 이미지들의 시퀀스에서의 여러 이미지들 내에서 적어도 하나의 사람에 대한 얼굴을 검출하고; 상기 여러 이미지들의 각각에서의 상기 적어도 하나의 사람의 검출된 얼굴에 대해 및 상기 여러 이미지들에 기초하여 상기 얼굴에서 적어도 하나의 감정을 검출하기 위해 분류기를 사용하여 중립 특징 추정 및 차감을 수행하고; 상기 감정 신호에 기초하여 적어도 하나의 감정을 식별하며; 치료적 피드백을 제공하기 위해 실시간으로 적어도 하나의 감정 표시자 라벨을 디스플레이하도록 지시한다.

추가 실시예에서, 상기 시스템은 적어도 하나의 외향 카메라를 포함하는 착용 가능한 비디오 캡처 시스템을 포함한다.

추가 실시예에서, 상기 착용 가능한 비디오 캡처 시스템은 그룹: 가상 현실 헤드셋, 혼합-현실 헤드셋, 증강 현실 헤드셋, 및 헤드-업(heads-up) 디스플레이를 포함하는 안경으로부터 선택된다.

또 다른 실시예에서, 상기 착용 가능한 비디오 캡처 시스템은 적어도 하나의 이동 디바이스와 통신하며, 상기 적어도 하나의 프로세서는 적어도 하나의 이동 디바이스 상에서 실행한다.

계속해서 추가 실시예에서, 소프트웨어는 상기 적어도 하나의 프로세서로 그룹: 마이크로폰, 가속도계, 자이로스코프, 눈 추적 센서, 머리-추적 센서, 체온 센서, 심박수 센서, 혈압 센서, 및 피부 전도도 센서로부터 선택된 적어도 하나의 센서로부터 캡처된 데이터를 포함하는 보조 데이터를 획득하도록 지시한다.

계속해서 또 다른 실시예에서, 상기 소프트웨어는 상기 적어도 하나의 프로세서로 헤드-업 디스플레이 내에서 라벨을 디스플레이하는 것, 가청 신호를 발생시키는 것, 진동을 발생시키는 것, 홀로그램 오버레이를 디스플레이하는 것, 및 이미지를 디스플레이하는 것 중 적어도 하나를 수행함으로써 치료 피드백을 제공하기 위해 실시간으로 적어도 하나의 감정 표시자를 디스플레이하도록 지시한다.

또 다른 실시예에서, 상기 소프트웨어는 상기 적어도 하나의 프로세서로 이미지 내에서의 검출된 얼굴에 관련된 관심 영역 내에서 보다 높은 분해능으로 이미지 데이터를 처리하도록 지시한다.

계속해서 다시 또 다른 실시예에서, 상기 관심 영역은 검출된 얼굴 주위의 경계 영역이고, 여기에서 데이터를 처리하는 것은 관심 경계 영역을 평탄화하기 위해 이동 평균 필터를 사용한다.

다시 추가 실시예에서, 상기 소프트웨어는 상기 적어도 하나의 프로세서로: 얼굴 검출을 수행하는 것; 기준점(fiducial point) 얼굴 추적을 수행하는 것; 정준(canonical) 크기 및 자세로 얼굴의 등록을 수행하는 것; 조명 정규화 전처리를 수행하는 것; 상기 얼굴에 대하여 관심 영역에서 기울기 특징 추출의 히스토그램을 생성하는 것; 및 로지스틱 회귀 분류기를 통해 얼굴의 표정의 분류를 수행하는 것에 의해 상기 적어도 하나의 사람에 대한 중립 특징 추정 및 차감; 및 상기 결과적인 분류의 필터링을 수행하도록 지시한다.

다시 또 다른 실시예에서, 상기 표정 신호는 얼굴 표정들, 얼굴 근육 움직임들, 몸짓 언어, 제스처들, 신체 자세, 눈맞춤 이벤트들, 머리 자세, 대화의 특징들, 손장난(fidgeting), 및 불안 정보로 이루어진 그룹으로부터 선택된 정보를 포함한다.

다시 추가 실시예에서, 상기 분류기는 통계적으로 대표적인 사회적 표현 데이터의 트레이닝 데이터 세트를 사용하여 트레이닝되며 그것은 이벤트-기반 사회적 신호들을 제공한다.

계속해서 또 다른 부가적인 실시예에서, 상기 소프트웨어는 상기 적어도 하나의 프로세서로 타겟 개인들의 사용자-라벨링 데이터로 상기 트레이닝 세트를 보충하도록 지시한다.

다시 계속해서 추가 실시예에서, 상기 소프트웨어는 상기 적어도 하나의 프로세서로, 상기 분류기가 상기 트레이닝 데이터에서 다른 개인들의 얼굴에서 적어도 하나의 감정 신호를 검출하는 분류기의 성능과 비교하여 상기 타겟 개인들의 얼굴에서의 적어도 하나의 감정 신호를 검출하는 보다 높은 성능을 달성하도록 타겟 개인들의 사용자-라벨링 데이터 및 상기 트레이닝 데이터를 사용하여 상기 분류기를 트레이닝하도록 지시한다.

다시 또 다른 실시예에서, 상기 소프트웨어는 상기 적어도 하나의 프로세서로: 적어도 하나의 감정 신호 라벨을 갖고 타겟 개인에 대한 데이터를 라벨링하도록 사용자를 촉구하며; 상기 타겟 개인에 대한 사용자-라벨링 데이터를 메모리에 저장하도록 지시한다.

다시 계속해서 또 다른 실시예에서, 상기 소프트웨어는 상기 적어도 하나의 프로세서로 사회적 상호작용 데이터를 저장하며 상기 사회적 상호작용 데이터의 리뷰를 위해 사용자 인터페이스를 제공하도록 지시한다.

계속해서 추가 부가적인 실시예에서, 상기 분류기는 연속적인 사회적 신호들을 제공하는 회귀 기계이다.

계속해서 또 다른 부가적인 실시예에서, 상기 분류기는 표준 얼굴 표정들의 비디오 데이터를 사용하여 및 표현적 말하기 시퀀스들을 갖고 시각적인 시간-의존적 분류기들로서 트레이닝된다.

다시 계속해서 또 다른 실시예에서, 상기 소프트웨어는 상기 적어도 하나의 프로세서로 외향 비디오 데이터와 함께 적어도 하나의 내향 눈 추적 데이터를 사용하여 시선 이벤트들을 검출하도록 지시한다.

다시 추가의 부가적인 실시예에서, 상기 소프트웨어는 상기 적어도 하나의 프로세서로 기록된 활동들의 리뷰를 제공하며 상기 기록된 활동들에 대한 반응으로서 생성된 사용자 행동 데이터를 제공하도록 지시한다.

또 다른 추가 실시예에서, 적어도 하나의 사람의 얼굴에 대한 중립 특징 추정 및 감산을 수행하는 것은 중립-차감 특징들에 대해 트레이닝된 제 1 표정 분류기 및 가공되지 않은(중립-차감되지 않은) 특징들에 대해 트레이닝된 제 2 2-클래스 중립/표현적 분류기의 출력들에 기초하여 중립 표정 차감을 수행하는 것을 포함한다.

일 실시예에서, 행동 치료 시스템은: 주변 환경의 이미지들을 캡처하기 위한 적어도 하나의 카메라; 소프트웨어를 포함한 메모리 및 적어도 하나의 프로세서를 포함하고; 상기 소프트웨어는 상기 적어도 하나의 프로세서로, 상기 시스템의 메모리 내에 이전 저장된 여러 이미지들의 각각에 대해, 특정 감정을 표현하는 사람의 얼굴의 이미지를 디스플레이하는 것으로서, 상기 이미지는 상기 특정 감정과 연관되는, 상기 디스플레이하기; 상기 사람의 얼굴에 의해 나타내어지는 감정을 예시하는 것으로서 사용자가 선택한 감정에 관한 이미지를 보이는 사용자로부터 입력을 수신하고; 상기 사용자로부터 수신된 입력이 상기 특정한 이미지와 연관된 특정 감정과 일치하는지를 결정하고; 그의 선택들에 기초하여 상기 사용자에게 피드백을 제공하도록 지시한다.

또 다른 실시예에서, 행동 치료 시스템은: 주변 환경의 이미지들을 캡처하기 위한 적어도 하나의 카메라; 소프트웨어를 포함한 메모리 및 적어도 하나의 프로세서를 포함하고; 상기 소프트웨어는 상기 적어도 하나의 프로세서로: 실시간으로 사람의 비디오를 캡처하고; 적어도 하나의 분류기를 사용하여 상기 사람의 얼굴에 대한 감정을 검출하고; 현재 검출되지 않은 사람에서 유발되어야 하는 상이한 감정에 관한 표시를 제공하며; 상기 감정이 특정한 시간 기간 내에 끌어내어 졌는지를 결정하고; 상기 감정을 끌어내기 위한 그의 능력에 관한 피드백을 상기 시스템의 사용자에게 제공하도록 지시한다.

본 발명은 행동 장애들의 치료뿐만 아니라 의학적 또는 비의학적 사회적 인식 태스크들의 다른 유사한 무대들에서 유용할 수 있는 다양한 신규 방법들로서 이동 및 착용 가능한 비디오 캡처 접근법들을 사용하기 위한 시스템들을 개시한다.

설명은 다음의 도면들 및 데이터 그래프들을 참조하여 보다 완전하게 이해될 것이며, 이것은 본 개시의 다양한 실시예들로서 제공되고 본 개시의 범위의 완전한 설명으로서 해석되지 않아야 한다.
도 1은 본 발명의 일 실시예에 따른 행동 치료 시스템을 예시한다.
도 2는 본 발명의 일 실시예에 따라 착용 가능한 캡처 디바이스가 자기 중심적 비디오 및 다른 감각 데이터를 컴퓨팅 디바이스로 제공하는 행동 시스템의 개략적인 개요를 도시한다.
도 3은 본 발명의 일 실시예에 따라 자기 중심적 비디오 및 다른 감각 데이터를 이동 컴퓨팅 디바이스로 제공하는 하나의 스마트 안경인 착용 가능한 캡처 디바이스를 예시한다.
도 4는 본 발명의 일 실시예에 따라 감각 데이터로부터 사회적 신호들을 생성할 수 있는 사회적 동작 인식 시스템을 예시한다.
도 5는 본 발명의 일 실시예에 따라 이용된 얼굴 추적기 및 얼굴 표정/동작 유닛 인식 프로세스들의 상호 작용에 대한 줌 인된 뷰를 제공한다.
도 6은 본 발명의 일 실시예에 따라 사회적 신호들을 야기할 수 있는 상호 시선 또는 단-방향 시선 이벤트들을 검출하기 위해 외향 비디오 데이터 및 가능하게는 내향 눈 추적 데이터를 통합하기 위한 프로세스를 예시한다.
도 7은 본 발명의 일 실시예에 따라 사회적 신호들을 야기할 수 있는 상호 시선 또는 단-방향 시선 이벤트들을 검출하기 위해 외향 비디오 데이터 및 가능하게는 내향 눈 추적 데이터를 통합하기 위한 프로세스를 예시한다.
도 8은 본 발명의 일 실시예에 따라 디바이스의 착용자 및 다른 사용자들에게 제공될 사회적 정보 또는 신호를 생성하는 시스템을 예시한다.
도 9는 본 발명의 일 실시예에 따라 분류기들을 트레이닝할 때 사용하기 위한 트레이닝 데이터의 라벨 정정을 위한 프로세스를 예시한다.
도 10은 본 발명의 일 실시예에 따른 고차원 기계 학습 시스템의 예를 예시한다.
도 11은 본 발명의 일 실시예에 따라 착용 가능한 안경 및 이동 전화 사이에서의 프레임들의 패킷 스트림이 "전체" 얼굴 프레임 및 "줌 인된" 프레임을 포함하는 것 사이에서 교번할 수 있는 프로세스를 예시한다.
도 12는 본 발명의 일 실시예에 따른 헤드-업 디스플레이에서 디스플레이될 수 있는 다양한 유형들의 시각적 피드백을 예시한다.
도 13은 본 발명의 일 실시예에 따라 사람에 대해 검출되는 감정의 표시를 제공하는 이동 디바이스 상에서 실행하는 애플리케이션을 예시한다.
도 14는 본 발명의 일 실시예에 따라 연대순으로 이전 세션 기록들의 뉴스피드-형 뷰를 포함할 수 있는 리뷰 시스템을 예시한다.
도 15는 본 발명의 일 실시예에 따른 애플리케이션의 다양한 설정들을 선택하기 위한 여러 개의 UI들을 예시한다.
도 16은 본 발명의 일 실시예에 따라 사람에 대해 검출되는 감정의 표시를 제공하는 이동 디바이스 상에서 실행하는 애플리케이션을 예시한다.
도 17은 본 발명의 일 실시예에 따라 행동 치료 시스템을 실행하는 이동 디바이스의 다양한 UI들을 예시한다.
도 18은 본 발명의 일 실시예에 따라 리뷰 애플리케이션이 사용자들 및 간병인들로 하여금 온종일 기록된 활동들을 리뷰하도록 허용하는 UI를 예시한다.
도 19는 본 발명의 일 실시예에 따른 중립 차감을 위한 알고리즘을 예시한다.
도 20은 받아들임으로부터 결론까지 SRS 스코어들을 도시한 특정한 연구로부터의 결과들을 예시한다.
도 21은 받아들임으로부터 결론까지 SRS 스코어들에서의 변화를 도시하는 특정한 연구에 대한 그래프를 예시한다.

이제 도면들로 가면, 본 발명의 다양한 실시예들에 따라 행동 및 정신 건강 장애들을 위한 치료를 제공하기 위해 이동 및 착용 가능한 비디오 캡처 시스템들을 사용하기 위한 시스템들 및 방법들이 예시된다. 이동 및 착용 가능한 디바이스들, Google Glass와 같은 스마트 안경 및 Microsoft Hololens와 유사한 혼합 현실 디스플레이들을 포함하는 디바이스들과 같은)의 도입은 예를 들면, 착용 가능한 시스템상에서 실시간으로 최소로 눈에 띄는 사회적 신호들을 제공함으로써, (이에 제한되지 않지만) 눈맞춤의 양 및 유형과 같은 특정한 관찰 가능하고 측정 가능한 행동 진도를 검토함으로써, 또는 주어진 상황에서 잘하거나 또는 저조한 것을 식별하기 위해 감정적 상호 작용의 비디오 기록들을 검토함으로써, 환자들의 가정으로 사회적 학습 경험을 가져가는 애플리케이션들을 개발하기 위한 기회를 제공한다. 다음의 상세한 설명에서, 행동 장애들의 치료뿐만 아니라 이러한 시스템에서 가능하며 의학적 또는 비의학적 사회적 인식 태스크들의 다른 유사한 무대들에서 유용할 수 있는 다양한 신규 방법들로서 이동 및 착용 가능한 비디오 캡처 접근법들을 사용하기 위한 시스템들이 개시된다.

본 발명의 여러 실시예들에 따른 행동 치료 시스템들은 착용 가능한 카메라 및/또는 적어도 하나의 카메라에 의해 캡처된 이미지들로부터 사회적 신호들을 자동으로 인식하며 (이에 제한되지 않지만) 이미지를 디스플레이하는 것, 홀로그램 오버레이를 디스플레이하는 것, 가청 신호를 발생시키는 것, 및/또는 진동을 발생시키는 것과 같은 하나 이상의 출력들을 통해 착용자에게 이러한 정보를 제공하기 위해 디스플레이, 오디오 출력, 홀로그램 출력, 및/또는 진동 촉각 출력을 포함한 컴퓨팅 시스템에 연결된 다양한 센서들(다양한 다른 것들 중에서, 가속도계, 마이크로폰)을 포함한다. 다수의 실시예들에서, 착용 가능한 행동 치료 시스템은 카메라를 통합하며 이미지 데이터를 처리하고 디스플레이들을 생성하기 위해 유선 및/또는 무선 데이터 연결을 통해 헤드셋과 통신하는 이동 전화 핸드셋에서의 프로세서(들) 및/또는 헤드셋 내에서의 프로세서들에 의존하는 증강 현실, 혼합 현실, 또는 가상 현실 헤드셋의 형태를 취한다. 특정한 실시예들에서, 대상(정신 장애를 가진 개인)은 다른 생리적(예로서, 체온, 심박수) 및 행동/감각 데이터(예로서, 오디오 신호들, 눈 추적, 머리-추적 등)와 함께 외향 카메라를 통해 비디오 프레임들을 캡처하며 이들 데이터를 이동 전화상에서 구동하는 애플리케이션으로 실시간으로 전송하는 헤드셋을 착용한다. 여러 실시예들에서, 컴퓨팅 시스템은 카메라에 의해 캡처된 이미지들 내에서 가시적인 얼굴들 및/또는 얼굴들에서의 표현적 이벤트들을 검출하기 위해 분류기들을 이용하는 소프트웨어 시스템을 구동한다. 다수의 실시예들에서, 컴퓨팅 시스템은 또한 캡처된 이미지 및/또는 다른 센서 데이터로부터 다른 사회적 신호들을 식별할 수 있다. 특정한 실시예들에서, 기계 학습 시스템은 통계적으로 대표적인 사회적 표현 데이터의 트레이닝 데이터 세트에 기초하여 하나 이상의 분류기들을 트레이닝하기 위해 이용된다. 컴퓨팅 시스템은 특정 사회적 신호들(예로서, 대상이 상호 작용하는 사람들의 감정들에 대한)의 가능성을 식별하고 및/또는 계산하기 위해 분류기들을 이용할 수 있으며 오디오 및/또는 시각적 피드백을 통해 착용자에게 검출된 얼굴들 및/또는 검출된 사회적 신호들의 존재를 전달할 수 있다. 뿐만 아니라, 컴퓨팅 시스템은 국소적으로 또는 원격 저장 서비스를 통해 사회적 상호 작용 데이터를 저장할 수 있으며 이들 데이터의 큐레이팅된 리뷰를 위해 사용자 인터페이스를 제공할 수 있다.

다음은, 본 발명의 많은 실시예들에 따라, 시스템 및 시스템의 다양한 구성요소들을 가능하게 하기 위해 사용된 다수의 방법들에 대해 이루어질 수 있는 다수의 수정들, 특정한 참여자들 및 그들의 간병인들에 대해 잘 작동할 시스템의 기계 학습 구성요소들의 교정, 이들 사람들에 대한 성능을 개선하기 위해 시스템을 능동적으로 트레이닝하는 것, 기계 학습 구성요소들의 능력들을 확대하는 것, 및 공통 행동 치료의 맥락으로 제안된 시스템을 통합하는 것을 설명한다.

높은 레벨에서, 많은 실시예들에서 착용 가능한 행동 치료 시스템은 (이에 제한되지 않지만) 다음의 임의의 조합을 포함한 다양한 기능들을 수행할 수 있다:

1. 환자의 일상 생활(예로서, 식사)의 부분인 구조화되지 않은 사회적 상호 작용들 동안, 착용 가능한 디바이스는 실시간 사회적 상호 작용 보조기로서 사용될 수 있다.

2. 상호 작용의 보다 참여적 모드들을 제공하기 위해, 시스템은 시스템을 가장 잘 이용하며 및/또는 적절한 치료 값을 제공하는 방식으로 행동 보강을 장려하는 특정 게임화된 활동들을 포함할 수 있다. 이러한 활동의 일 예는 아이들의 그룹이 감정을 포함한 얼굴을 만드는 또 다른 사람(예로서, 성인, 형제자매)에서 그것들을 유발함으로써, 예로서 행복한 얼굴을 유발하도록 칭찬을 함으로써 특정한 수의 선택된 감정들을 "캡처"하도록 도전되는 게임이다. 또 다른 예는 다른 사람들의 표정들을 흉내내는 것에 대해 환자들에게 보상하는 것이다.

3. 사용 기간들 후, 환자들 및 그들의 간병인들은 환자의 관점으로부터 기록된 활동들(서로와 및 환자를 향한 다른 사람의 상호 작용들을 나타내는)뿐만 아니라 행동 및 생리적 데이터(예를 들면 이루어진 눈맞춤, 흉내낸 표정들 등)의 형태로 이들 상황들에 대한 환자 반응들을 리뷰할 수 있다.

4. 시스템의 사용에 이어서, 결과 데이터는 몇몇 사용자-지시 라벨링(예로서, 표정 인식의 애플리케이션에서, 사용자는 비디오에서 "부정확하게" 분류된 시퀀스들을 정정할 수 있다)으로 보충될 수 있다. (아마도 재라벨링된) 데이터는 그 후 주어진 태스크에 대한 인식 정확도를 개선하거나 또는 주어진 태스크를 넘어 사회적 상호 작용 이벤트들을 인식하도록 학습하기 위해 시스템의 기계 학습 구성요소들을 개선하도록 사용될 수 있다.

물론, 이들 특징들의 임의의 조합은 조건들, 나이들, 가족들 등이 상이한 사용자들에게 적절할 수 있다.

다음은 본 발명의 많은 실시예들에서 이들 특징들을 가능하게 하기 위해 사용된 다양한 시스템 구성요소들 및 그것들이 어떻게 높은 레벨에서 상호 작용하는지를 설명하고, 그 후 그것이 어떻게 특징 1 내지 특징 4를 구체적으로 구현할 수 있는지를 설명하며, 그 후 유사한 치료 목적들 후 여전히 계속되는 동안 시스템이 어떻게 상이하게 구조화될 수 있는지에 대한 몇몇 확장들을 설명한다.

행동 치료 기술 시스템

도면들을 참조하면, 도 1은 여기에서 설명된 것들과 유사한 데이터 처리 및 사용자 인터페이스 방법들의 수행을 가능하게 하는 컴퓨팅 디바이스(107)를 포함하는 본 발명의 실시예에 따른 행동 치료 기술 시스템을 예시한다. 컴퓨팅 디바이스는 예를 들면, 스마트폰, 데스크탑 컴퓨터, 랩탑, 스마트 TV, 스마트 워치, 스마트 안경, 및 다른 일반적으로 설명된 컴퓨터들일 수 있다. 컴퓨팅 디바이스의 프로세서(105)는 메모리(106)에 기록된 컴퓨터 프로그램들을 실행한다. 프로세서는 데이터를 메모리 또는 원격 저장 장치로 향하게 하며 메모리 또는 원격 저장 장치로부터 처리를 위한 프로세서로 또는 통신 네트워크로 데이터를 전송하기 위해 I/O 디바이스(101)와 함께 작동한다. 프로세서는, 예를 들면, 사용자 컴퓨터(예로서, Intel® Xeon® 다중코어 프로세서들, Intel® 마이크로-아키텍처 Nehalem, AMD Opteron™ 다중코어 프로세서들 등)에서의 사용을 위해 적응된, 임의의 상업적으로 이용 가능한 프로세서, 또는 복수의 프로세서들일 수 있다. 이 기술분야의 숙련자가 이해할 바와 같이, 프로세서는 또한 컴퓨팅 디바이스가 카메라, 뿐만 아니라 디스플레이, 키보드, 마우스, 트랙볼, 트랙패드 및/또는 임의의 다른 사용자 입력/출력 디바이스(도시되지 않음)와 같은 센서들에 연결되거나 또는 콘텐트(예로서, 그래픽스 또는 비디오 카드)를 보도록 허용하는 구성요소들을 포함할 수 있다.

메모리는 본 발명의 컴퓨터 지시들 및 데이터(예로서, 원 데이터, 분석된 데이터, 비디오 콘텐트 등)를 저장할 수 있다. 이와 같이, 메모리는, 본 발명의 다양한 실시예들에 의해 요구된 바와 같이, 하드 디스크들, 플래시 메모리, 광 디스크들 등과 같은 비-휘발성 메모리, 및 SRAM, DRAM, SDRAM 등과 같은 휘발성 메모리 양쪽 모두를 포함할 수 있다. 이 기술분야의 숙련자가 이해할 바와 같이, 메모리는 단일 구성요소로서 묘사되지만, 다수의 상이한 유형들의 메모리가 존재할 수 있으며 메모리는 또한 사용자 컴퓨터(예로서, 원격 저장 장치로서)에 연결된 또는 그것과 통신하는 별개의 구성요소 또는 디바이스일 수 있다. 이와 같이, 몇몇 실시예들에서, 메모리 저장 데이터의 부분들은, 예를 들면, 다수의 하드 디스크 드라이브들을 포함하여, 네트워크 접속 저장 장치(NAS), 저장 영역 네트워크(SAN), 직접 액세스 저장 장치(DAS), 또는 그것의 임의의 조합으로서 구현될 수 있다. 게다가, 이러한 데이터는 하나 이상의 데이터베이스들, 테이블들 또는 필드들에 저장될 수 있다. 쉽게 이해될 수 있는 바와 같이, 이용된 특정 저장 장치는 대체로 특정 애플리케이션의 데이터 요건들에 의존한다.

예시된 시스템에서, 하나 이상의 이러한 컴퓨팅 디바이스들은, 다양한 감각 데이터(103)를 처리하며 몇몇 상황 정보(얼굴이 존재하는지, 이루어진 눈맞춤의 양 등과 같은) 및/또는 행동 데이터에 기록된 사회적 상호 작용에 대한 정보를 포함한, 사회적 신호를, 실시간으로 디스플레이, 진동 촉각 디바이스, 오디오 디바이스, 또는 몇몇 다른 디바이스(104)와 같은 출력으로 출력하기 위해 컴퓨팅 시스템의 메모리에 저장된 애플리케이션으로서 구현될 수 있는 행동 처리 프로그램(108)을 구동한다. 사회적 신호는 상황-의존적이며 다수의 센서들에 기초할 수 있다. 예를 들면, 외향 카메라로부터의 비디오 데이터는 착용자의 관점에서 사람들의 얼굴 감정들을 인식하기 위해 기계 학습 모듈(이하에서 특징 (1)의 설명에서 추가로 상세하게 설명되는)을 사용하여 처리될 수 있다. 물론, 비디오 데이터는 RGB, 그레이스케일 등과 같은 임의의 적절한 포맷으로 그것의 프레임 레이트로부터 독립적인 움직이는 이미지 데이터를 나타낼 수 있으며 이들 데이터는 카메라들 또는 적외선 카메라들의 단안용 또는 다중뷰(예로서, 스테레오) 어레이와 같은 다양한 디바이스들로부터 캡처될 수 있다. 시스템의 일 실시예에서, 가속도계로부터의 환자의 머리 자세 및/또는 눈 시선 및/또는 눈 추적 데이터는 환자 및 다른 사람 사이에서 발생하는 상호 시선 이벤트들을 발견하며 이들 데이터에 기초하여 사회적 신호를 적응시키기 위해 사용된다. 본 발명의 다양한 실시예들에서 이용될 수 있는 방법들의 세부사항들은 도 4 내지 도 10을 참조하여 이하에서 논의된다. 상이한 감각 데이터의 조합을 예시한 일 예에서, 외향 카메라로부터 수신된 비디오 데이터에서의 얼굴 표정 인식, 마이크로폰으로부터 수신된 사운드에서의 오디오 데이터 처리, 및 적외선 눈 추적 카메라로부터 수신된 비디오 데이터에서의 눈 추적을 사용하여, 행동 처리 엔진은, 환자가 그 또는 그녀의 대화 파트너가 더 이상 관심 있어 하지 않을 수 있는 토픽에 대해 길게 얘기하여, 점점 더 적은 상호 시선 및 부정적인 표정을 야기하는 것을 인식할 수 있다. 여기에서의 시스템에 의해 계산된 적절한 사회적 신호는, "일시 중지: 질문을 하라"일 수 있다. 다른 실시예들에서, 다양한 피드백 신호들 중 임의의 것은 특정 애플리케이션의 요건들에 적절한 경우 행동 치료 시스템에 의해 생성될 수 있다.

도 2는 착용 가능한 캡처 디바이스(201)가, 환자와 상호 작용하는 사람들의 사회적 동작들(얼굴 표정들과 같은)뿐만 아니라 이들 동작들에 대한 환자의 응답을 인식하기 위해 데이터를 처리하며 결과적으로 하나 이상의 출력 디바이스들(204)을 통해 환자로 다시 전달되는 적절한 사회적 신호들(예를 들면, 감정들에 대한)을 계산하는, 컴퓨팅 디바이스(203)로 자기 중심적 비디오 및 다른 감각 데이터(202)를 제공하는 행동 보조 시스템의 특정 실시예의 개략적인 개요를 도시한다.

일반적으로, 본 발명의 많은 실시예들에서, 착용 가능한 디바이스는 비디오 데이터 캡처(상기 정의된 의미로) 중 적어도 하나 및/또는 사용자에게 피드백을 제공하는 것(예를 들면, 시각적, 헤드-업 디스플레이 또는 오디오를 통해, 골-전도 스피커 또는 이어피스를 통해)을 허용한다. 피드백 및 비디오 캡처 양쪽 모두를 지원하는 일반적인 상업적 예들은 구글 글래스, Vuzix M100, Epson BT-200, ODG R6, 및 마이크로소프트 Hololens를 포함한다. 단지 피드백만을 전달할 수 있는(및 아마도 오디오 또는 생리적 데이터를 캡처할 수 있는) 디바이스들은, 예를 들면, 모토로라 Moto Hint를 포함한다. 착용 가능한 디바이스는 그 자체가 상기 도 1을 갖고 설명된 의미에서 컴퓨팅 디바이스이거나 또는 아닐 수 있다.

도 2의 실시예로 돌아가면, 환자는 그 또는 그녀의 관점으로부터 자기 중심적 비디오를 캡처하는 방식으로 착용 가능한 컴퓨팅 디바이스를 착용한다(예를 들면, 가슴 또는 머리 장착). 환자(또는 "착용자", "사용자", 또는 "대상"으로 불리우는)는 일반적으로 몇몇 형태의 관리된 치료의 부분으로서, 행동 개입으로서, 또는 학습 보조기로서 시스템을 사용하여 자폐증, 불안, 조울증들, 우울증, 조현병, 알츠하이머, 및 파킨슨 병과 같은 하나 이상의 행동 도전들 또는 정신 장애들을 가진 개인이다. 몇몇 형태들의 치료에서, 착용자는, 그러나, 장신 장애를 가진 개인보다는 간병인일 수 있다. 착용자는 예를 들면, 눈 추적기 또는 환자의 얼굴을 통해 심박수, 혈압, 피부 전도도, 에칭 측정들, 및/또는 환자의 눈들의 부가적인 데이터와 같은, 생리적 데이터에 대한 비디오 및 다른 감각 데이터(202)를 획득한다. 일반적으로, "눈 추적기"는 하나 이상의 카메라들, 깊이 센서들, 적외선 광원들, 및 통상적으로 동공 위치 및/또는 시선 방향을 식별하는 것을 목표로 하는 이러한 디바이스들에서 발견된 다른 구성요소들을 사용할 수 있는 시스템과 상호 작용하는 사람의 눈 움직임들을 모니터링하기 위해 사용된 하드웨어 디바이스일 수 있다. 눈 추적기는 Tobii Pro Glasses 또는 SMI Eye Tracking Glasses 2와 같은, 임의의 상업적으로 이용 가능한 시스템일 수 있거나, 또는 단순히 단안용 카메라(아마도 적외선-방출 광원에 의해 보충된)일 수 있다. 눈 추적기는 눈 추적기(Pupil Labs Project 눈 추적기의 경우에서처럼)를 통합한 보다 큰 시스템에 의해 소프트웨어에서 후-처리될 수 있는 비디오 데이터를 단독으로 생성하거나 또는 이러한 처리는 눈 추적 하드웨어 자체(Tobii 또는 SMI 눈 추적 시스템들의 경우에서처럼)에서 구현될 수 있다.

다양한 소스들로부터의 부가적 감각 데이터는 외향 비디오 데이터와 함께 컴퓨팅 디바이스(203)로 송신된다. 행동 추적 프로그램의 단계들을 실행할 때, 계산된 사회적 신호는 그 후 하나 이상의 출력 디바이스들(컴퓨팅 디바이스(203) 및 착용 가능한 디바이스(201) 자체를 포함할 수 있는, 그것들은 출력이 가능해야 한다)로 송신되며 환자 및 그 또는 그녀의 간병인에게 실시간 피드백을 제공하기 위해 출력된다.

도 2의 시스템의 일 특정 실시예에서, 자기 중심적 카메라(WiFi 또는 블루투스와 같은 와이어 또는 네트워킹 연결을 통해 연결된)는 입력 디바이스로서 작용할 수 있지만, 이어피스(WiFi 또는 블루투스와 같은 와이어 또는 네트워킹 연결을 통해 또한 연결된)는 오디오 출력 디바이스로서 작용할 수 있다. 이 경우에, 이동 처리는 적절한 출력을 이어피스에서의 스피커로 바로 전송한다.

많은 실시예들에서, 착용 가능한 캡처 디바이스는 캡처되는 이미지들을 처리하기 위해 계산 리소스들을 제공하는 이동 디바이스와 쌍을 이룰 수 있다. 도 3은 착용 가능한 캡처 디바이스가 환자와 상호 작용하는 사람들의 사회적 동작들(얼굴 표정들과 같은)뿐만 아니라 이들 동작들에 대한 환자의 반응을 인식하기 위해 데이터를 처리하며 결과적으로 스마트 안경(302) 및/또는 이동 디바이스(303)의 헤드-업 디스플레이 또는 오디오 출력을 통해 환자로 다시 전달되는 적절한 사회적 신호들(예를 들면, 감정들에 대한)을 계산하는, 이동 컴퓨팅 디바이스(303)로 자기 중심적 비디오 및 다른 감각 데이터(202)를 제공하는 하나의 스마트 안경(302)인 실시예를 설명한다.

이러한 피드백은 다른 사람들(간병인들 또는 환자들)이 치료 목적들에 의존하여 그것을 알아채거나 또는 알아챌 수 없는 방식으로 설계될 수 있다. 도 12를 참조하면, 시각적 피드백은 예를 들면, 텍스트(201), 컬러(202), 이모티콘(203) 또는 헤드-업 디스플레이에 디스플레이된 이러한 것의 임의의 조합으로 이루어질 수 있다. 이러한 피드백은 이산적거나(즉, 특정 이벤트에 유익한) 또는 시간에 따라 변할 수 있다(예로서, 그 또는 그녀의 대화 파트너(204)의 관심 레벨을 환자에게 표시하는 "현재 관심 레벨" 스코어와 같은 스코어). 오디오 피드백은 이름 감정을 독출하거나 또는 특정 신호들을 독출하는 나레이터, 뿐만 아니라 감정들 또는 다른 사회적 신호들과 연관된 다양한 장난기 있는 사운드 효과들을 포함한다. 착용 가능한 디바이스로서 선택된 하드웨어 플랫폼에 의존하여, 시각적 피드백은 홀로그램 투사를 통해 세상의 뷰에 대한 정보를 오버레이하도록 확장될 수 있다(예로서, 구글 Glass와 대조적으로 마이크로소프트 Hololens와 같은 혼합 현실 시스템을 사용할 때). 그것의 가장 단순한 형태로, 이것은 도 12로부터 피드백 "스크린-구동" 인터페이스들을 취하며 그것들을 사회적 신호가 참조하는 사람들에게 근접하여 투사한다. 이러한 접근법의 보다 복잡한 실시예에서, 사회적 신호들에 대한 피드백은 국소화될 수 있다. 예를 들면, "행복"과 같은 감정 신호는 사람의 입에 도형을 오버레이하고 표현의 집약성에 대해 사용자에게 알림으로써 개인의 표정을 강조할 수 있다. 피드백은 또한 시각적, 오디오 또는 진동 신호들을 통해, 착용자가 현재 보고 있으며 얼굴과 맞물린다는 확인을 포함할 수 있다. 이것은 범위가 얼굴이 검출되는지 여부 및/또는 장소를 간단히 디스플레이하는 것으로부터, 사용자의 시야 내에 있는 누군가와의 관계를 나타내는 보다 시간적으로 민감한 측정치까지, 시야 밖의 사용자가 참여될 수 있는 방향성, 국소화된, 또는 비-국소화된 피드백까지 이를 수 있다. 상기 피드백은 참여에 대한 보상을 암묵적으로 또는 명시적으로 전달할 수 있다. 피드백은 또한 그것들이 발생할 때 특정한 사회적 신호들 또는 상황들에 어떻게 응답할지에 대한 착용자로의 제안들을 포함할 수 있다.

도 3으로 돌아가면, 실시간 사회적 피드백 외에, 상황 정보가, 이하에서 추가로 설명되는 바와 같이, 게임화된 활동을 수반하는 인터페이스에서의 사용을 위해 착용 가능한 디바이스로 다시 송신될 수 있다.

도 2 및 도 3 양쪽 모두에서, 비디오 및 다른 감각 데이터는 실시간으로 송신될 수 있거나(압축이 저-대기시간 애플리케이션들을 위해 생략되기를 원할 수 있는 동안, 적절한 송신 및 아마도 압축 모델을 사용하여) 또는 미래 처리를 위해 캐싱될 수 있다. 뿐만 아니라, 비디오의 보다 높은 정보 밀도(즉, 컬러 또는 분해능)를 포함한 임의의 비디오 데이터의 버전은 실시간 목적들을 위해 보다 낮은-분해능 프레임들을 스트리밍하는 것 외에 미래 송신을 위해 착용 가능한 것 상에 캐싱될 수 있다.

많은 실시예들에서, 착용 가능한 디바이스는, 안쪽 및 바깥쪽 카메라들, 가속도계들, 자이로스코프들, 헤드-업 디스플레이, 및 마이크로폰을 포함한, 다양한 센서들 중 임의의 것을 포함할 수 있다. 본 발명의 실시예들에 따른 외향 카메라, 가속도계, 헤드-업 디스플레이, 및 마이크로폰을 포함하는 착용 가능한 안경(301)은 도 3에 예시된다. 눈 추적기는 와이어를 통해 착용 가능한 안경 또는 이동 디바이스에 연결되는 기구를 사용하여 이러한 디바이스에 부착될 수 있다. 시스템의 특정한 실시예들에서, 행동 보조 "유닛"은 하나의 착용 가능한 안경(안드로이드 운영 시스템을 구동하는 구글 글래스와 같은) 및 이동 전화(Nexus 6과 같은)를 포함하며, 이것은 무선 네트워크를 통해 연결된다. 착용 가능한 안경은 비디오 및 머리 자세 데이터를 위한 감각 입력 디바이스뿐만 아니라 골-전도 스피커, 선택적 이어피스, 및 헤드-업 디스플레이를 통한 출력 디바이스로서 동작할 수 있다. 안경에 제한된 배터리 수명 및 처리 전력을 내어주기 위해, 프레임 처리, 비디오 인코딩, 및 데이터 저장과 같은 계산-집중적 태스크들 중 많은 것이 전화상에서 핸들링될 수 있다. 사용자들이 새로운 활동을 시작하거나 또는 종료하기를 원할 때, 그들은 모바일 앱을 사용할 수 있으며, 이것은 착용 가능한 안경 상에서 정확한 활동을 트리거하기 위해 경량 통신 프로토콜을 사용할 수 있으며 UDP 패킷 스트림을 사용하여 초당 대략 30프레임들의 레이트로 카메라 프레임들을 캡처하기 시작하도록 안경에 촉구한다. 이것은 전화상에서 핫스팟을 유발하며 클라이언트로서 착용 가능한 안경을 WiFi 네트워크에 연결함으로써 배터리-효율적 방식으로 구현될 수 있다. 새로운 프레임이 캡처될 때, 전체 프레임 및 다른 센서 데이터뿐만 아니라 얼굴 영역의 고-분해능 이미지는 처리를 위해 전화로 송신될 수 있다. 전화는 병렬화 방식으로 비디오 데이터를 인코딩하고 저장하며 및/또는 표정 인식 파이프라인을 통해 프레임을 구동할 수 있다. 그것은 그 후 추적된 얼굴(들) 및 표정들에 대한 메타데이터를 포함한 결과 패킷을 안경으로 송신할 수 있다. 안경은 결과를 해석하며 적절한 사회적 신호를 보여줄 수 있다(디스플레이상에 또는 오디오로서). 이러한 프로세스는 50ms 미만의 대기 시간을 갖고 실시간으로 일어날 수 있다.

도 11에 설명된 프로세스를 참조하면, 착용 가능한 안경 및 이동 전화 사이에서의 프레임들의 패킷 스트림은 "전체" 얼굴 프레임 및 보다 세분화된 처리를 위해 보다 높은 분해능에서 특정한 관심 영역(예를 들면, 얼굴)을 나타내는 "줌 인된" 프레임을 포함하는 것 사이에서 번갈아 나올 수 있다. 행동 처리 엔진(1101)으로부터 입력된 상황 정보에 대해, 프로세스(도 3의 특정 실시예에서 착용 가능한 카메라 캡처 시스템상에서 또는 도 1과 일치하는 다른 실시예들에서의 시스템에서 임의의 다른 컴퓨팅 디바이스에서 가장 쉽게 구현되는), 관심 영역(예를 들면, 얼굴에서 추적된 기준점들에 의해 또는 사람의 신체 주위에서 경계 직사각형 또는 다른 형태에 의해 주어진)이 식별된다. 이들 영역들의 시간적 스트림 및 가능하게는 착용 가능한 디바이스로부터의 다른 연관된 데이터에 기초하여, 새로운 추정된 관심 영역이 계산되고, 필터링되며, 이러한 영역에 대한 고-분해능 크롭이 행동 처리 엔진으로 되돌려 보내어진다. 이러한 방법의 단순화한 실시예에서, 전송된 상황 정보는 추적된 얼굴의 경계들을 포함한다. 이들 경계들에 기초하여, 고정된 프레임 크기의 초기 크롭은 얼굴 경계들이 프레임에서 가장 중심에 포함되도록 계산될 수 있다. 이것은 "현재 추정치"로서 유지되며 모든 프레임들은 상황 정보가 원래 프레임에서 현재 추정치의 밖에 있는 관심 면적을 포함하거나 또는 몇몇 고정된 수의 프레임들에 대한 관심 면적을 포함하지 않을 때까지 이러한 추정치에 대해 크롭된다. 시스템의 또 다른 보다 복잡한 실시예에서, 이동 평균 또는 칼만 필터는 모든 프레임에 대해 업데이트되는 현재 얼굴 추정치 주위에서 관심 경계 영역을 "평탄화하기" 위해 사용된다. 쉽게 이해될 수 있는 바와 같이, 다양한 프로세스들 중 임의의 것은 본 발명의 다양한 실시예들에 따라 특정 애플리케이션의 요건들에 적절한 경우 이용될 수 있다.

전체 시스템 아키텍처로 돌아가면, 하나의 고-레벨 셋업의 기능적으로 유사한 수정들을 가진 다양한 실시예들이 이 기술분야의 숙련자가 이들 셋업들을 구현할 수 있게 하는 방법들과 함께 설명되었다. 물론, 이것들은 더 확장될 수 있으며 제한적인 것으로 보여져서는 안된다. 도 2 및 도 3의 다양한 실시예들에서, 시스템의 다양한 구성요소들은 확장되거나 또는 생략될 수 있다. 도 2에서, 예를 들면, 착용 가능한 캡처 디바이스 및 이동 처리 유닛은 네트워크 연결을 통해 연결된 두 개의 별개의 엔티티들과 대조적으로 동일한 디바이스일 수 있다(예를 들면, 그것은 통합된 카메라를 가진 스마트폰을 생각할 수 있다). 이것은 어떤 네트워킹도 두 개의 별개의 애플리케이션들 사이에서 통신하기 위해 요구되지 않으므로 연관되어 설명된 시스템의 아키텍처를 심하게 단순화한다. 그러나, 그것은 이하에서 설명된 특징들(의 적어도 서브세트)을 구현하기 위해 요구된 처리를 실행하는 것이 가능한, 착용 가능한 컴퓨팅 디바이스의 사용을 요구한다. 또 다른 실시예에서, 도 1 내지 도 3의 시스템들은 1차 캡처 및 실시간-피드백 시스템으로부터 수집된 데이터 및 통찰들(예를 들면, 비디오 및 행동 통계들)을 리뷰하기 위해 단지 "리뷰 스테이션"으로서 사용되는 컴퓨팅 디바이스를 갖고 확장될 수 있다. 요약하면, 다양한 상업적으로 이용 가능한 하드웨어 시스템들(상기 논의된 바와 같이)은, 예를 들면, 행동 치료에서, 본 발명의 특정한 특정 애플리케이션들에 대해 적절할 수 있는, 비용, 기능, 및 강요에서의 트레이드오프들을 갖고, 이들 실시예들에서 이용될 수 있다.

(1) 사회적 동작 인식 시스템 및 구조화되지 않은 사회적 신호들:

이전 섹션은 이러한 엔진을 우리의 시스템으로 연결하는 방법을 설명하였지만, 이 섹션은 유용한 사회적 신호들에 도달하기 위해 사용될 수 있는 기계 학습 및 데이터 처리 시스템을 생성하는데 초점을 맞춘다.

도 4를 참조하면, 감각 데이터로부터 사회적 신호들을 생성할 수 있는 본 발명의 실시예에 따른 사회적 동작 인식 시스템이 예시된다. 예시된 실시예는 전달된 데이터에 관련된 사회적 정보(408)(얼굴 표정, 얼굴 근육 움직임들, 몸짓 언어, 제스처들, 신체 자세, 눈 맞춤 이벤트들, 머리 자세, 대화의 특징들, 손장난 또는 불안의 다른 모습 등)를 출력하는 처리 시스템으로 공급되고, 데이터 스트림 상에서 실시간으로 또는 데이터의 세트에 대해 오프라인으로 실행되는 데이터 캡처 메커니즘(오디오, 비디오, 가속도계 등)(407)에 의존한다.

높은 레벨에서, 사회적 동작 인식 시스템은 인공 지능 시스템 및 하드와이어드 규칙들의 세트를 포함한다. 인공 지능(AI) 시스템은 통상적으로 일련의 전-처리 단계들, 기계 학습 분류기, 및 후-처리 단계를 포함할 수 있다. AI 시스템으로부터의 출력은 규칙들의 세트를 구현할 수 있으며 최종 사회적 신호를 출력하는 "하드와이어드" 시스템(여기에서 행동 처리 엔진(406)의 부분으로서)으로 전달될 수 있다.

이들 기계 학습 시스템 구성요소들은 일반적으로 회귀 또는 분류 기계로서 구현될 수 있다. 회귀 경우에서, AI 시스템은 가장 일반적으로 연속적인 사회적 신호들(예를 들면, "행복" 스코어)을 산출한다. 분류 경우에서, 그것은 통상적으로 이벤트-기반 신호(예를 들면, "화난" 순간)를 산출한다. 기계 학습에서 숙련자들에게 알려진 바와 같이, 분류기들의 구현에 의존하여, 시스템은 보통 쉽게 이들 두 개의 유형들의 신호들 사이에서 변환하도록 구성될 수 있다. 출력된 이산 및 연속적 신호들은 종종, 이전 섹션에서 논의된 바와 같이, 그의 피드백 인터페이스들에서 상이하게 처리된다.

사회적 상호 작용 시스템의 여러 실시예들은, 도면에서 묘사된 바와 같이 연결된, 얼굴 추적 모듈(403), 표정 인식 모듈(401), 시선 추적 모듈(402), 오디오 처리 모듈(404), 가속도계 데이터 처리 모듈(405) 및 최종 출력을 계산하는 행동 처리 엔진과 같은 다양한 서브-시스템들을 이용할 수 있다. 물론, 이들 모듈들의 임의의 조합은 시스템의 애플리케이션에 의존하여 사용될 수 있다.

적절히 상세하게 이들 모듈들을 설명하기 위해, 그것들의 입력들 및 프로세스들을 별도로 고려하는 것이 도움이 된다. 첫 번째로 부분들(403 및 401)의 상호 작용을 고려하면, 도 5는 본 발명의 다수의 실시예들에서 이용된 얼굴 추적기 및 얼굴 표정/동작 유닛 인식 프로세스들의 상호 작용에 대해 줌 인된 뷰(508)를 제공한다. 비디오 데이터에 대한 관심을 제한할 때, 프로세스로의 입력은, 각각의 프레임에 관련된 사회적 정보를 출력하는 목표를 갖고, 한 번에 하나의 이미지를 제공받는다. 여기에서 설명된 방법들은 주로 단안용 카메라로부터의 입력을 처리하는 것에 초점을 두지만, 이 기술분야의 숙련자가 이해할 바와 같이, 제안된 신규 시스템은 부가적인 센서 입력을 처리하고 여전히 처리, 기록, 및 여기에서 설명된 리뷰 구조를 유지함으로써 스스로 확장될 수 있다.

얼굴 표정 또는 얼굴 동작을 식별하기 위한 프로세스는 다음의 조각들: (1) 얼굴 검출(501) 및/또는 (2) 기준점 얼굴 추적(502), (3) 정준 크기 및 자세로의 얼굴의 등록(503), (4) 조명 정규화 전처리 기술들(504), (5) 얼굴에 대한 관심 영역에서 기울기 특징 추출의 히스토그램(505), (6) 이미지 데이터(506) 상에서 트레이닝된 로지스틱 회귀 분류기를 통해 얼굴의 표정의 분류(506), 및 (7) 결과적인 분류의 필터링(507)을 포함할 수 있다. 하나의 이러한 처리 파이프라인은 2016년, 컴퓨터 비전의 애플리케이션들에 대한 IEEE Winter 컨퍼런스(WACV)에서 제공된, Nick Haber, Catalin Voss, Dennis Wall, Azar Fazel, 및 Terry Winograd에 의한 논문 "얼굴 표정 인식을 위한 실시간 중립 차감에 대한 실질적인 접근법"에서 설명되며, 그로부터의 관련 있는 개시는 여기에서 전체적으로 참조로서 통합된다. 도 5는 이들 동작들의 각각의 것이 어떻게 문헌에서 알려진 접근법들을 사용하여 성취될 수 있는지에 대한 예들을 제공한다. 예를 들면, 단계(3)에서 등록은 분명한 기하학적 절차이며, 단계(4)에서의 조명 정규화는, 그 개시가 여기에서 전체적으로 참조로서 통합되는, 19.6 (2010)에 대한 IEEE 트랜잭션들: 1635-1650, 이미지 처리, Tan, Xiaoyang, 및 Bill Triggs의 "상이한 조명 조건들하에서의 얼굴 인식을 위한 강화된 로컬 텍스처 특징 세트들"의 방법을 사용하여 성취될 수 있다. 전체 파이프라인(508)을 대체할 수 있는 얼굴 표정 인식을 위한 대안적인 후보 알고리즘들의 조사는 그 개시가 여기에서 전체적으로 참조로서 통합되는, 2011년, 런던 스프링어, 인간들의 시각적 분석, 페이지 377 내지 409, 에디터들, T. B. Moeslund, A. Hilton, V. Krger, 및 L. Sigal에서 논문 F. Dela Torre 및 J. Cohn: "얼굴 표정 분석"에서 주어진다.

여기에서 설명된 시스템의 맥락에서 이들 접근법들을 실시간 상황들에서 현실적이게 하기 위한 다수의 방법들이 설명된다.

이하에서 상세하게 설명되며, 논문 "얼굴 표정 인식을 위한 실시간 중립 차감에 대한 실질적은 접근법"에서 또한 설명된, 제 1, 명명 중립 차감은 실시간으로 대상의 중립 얼굴 특징들의 추정치를 학습하며 추출된 특징들로부터 감한다. 이것은 조명 및 대상-간 변화에 걸쳐 시스템의 강건성을 강화할 목적을 가진다.

제 2는 표정 인식 시스템의 프레임 단위 분류 결과들을 취하고 시간에 걸쳐 그것들을 평탄화하는 것으로 이루어진다: 분류는 본질적으로 시간에 걸쳐 몇몇 연속성을 가정함으로써 완화될 수 있고, 그에 따라 보다 양호한 사용자 경험을 야기하는, 시간에 걸친 잡음을 가진다. 시간(t)에서, 입력으로서, 시간(t)까지 위쪽을 본 모든 프레임들을 취하며, 시간(t) 동안 예측을 하기 위해 이들 데이터를 사용하는 임의의 알고리즘이 이용될 수 있다. 이것의 많은 실시예들은 단순히 프레임들의 가장 최근의 시퀀스를 유지하는 고정-크기 버퍼를 유지하는 것 및 단지 프레임들의 고정된 부분이 표정인 것으로 분류될 때만 사용자 출력을 제공하는 것을 수반한다. 여러 실시예들에서, 시간 의존성은, 그 개시가 여기에서 전체적으로 참조로서 통합되는, 은닉 마르코프 모델(예를 들면, 2014, 스톡홀름, 2014년 22회 국제 컨퍼런스, 패턴 인식(ICPR), 페이지 4594 내지 4599, J. Wang, S. Wang 및 Q. Ji의, "은닉 마르코프 모델들을 사용한 조기 얼굴 표정 인식" 참조), 또는 조건부 랜덤 필드(예를 들면, 그 개시가 여기에서 전체적으로 참조로서 통합되는, 2015년, Ljubljana, 2015 11회 IEEE 국제 컨퍼런스 및 워크샵, 자동 얼굴 및 제스처 인식(FG), 페이지 1 내지 8, R. Walecki, O. Rudovic, V. Pavlovic 및 M. Pantic, "얼굴 표정 인식 및 동작 유닛 검출을 위한 가변-상태 잠재적 조건부 랜덤 필드들" 참조)를 통해 모델에 명시적으로 부가되며 모델에 의해 제공된 평탄화된 출력을 사용자에게 공급한다. 여러 실시예들에서, 피드-포워드 컨볼루션 신경망들이 LSTM들(그 개시가 여기에서 전체적으로 참조로서 통합되는, Sepp Hochreiter 및 Jurgen Schmidhuber (1997). 긴 단기 메모리. 중립 계산 9(8): 1735 내지 1780) 및 GRU들(그 개시가 여기에서 전체적으로 참조로서 통합되는, K. Cho, B. van Merrienboer, D. Bahdanau, 및 Y. Bengio. 중립 기계 번역의 속성들에 대해: 인코더-디코더 접근법들. arXiv preprint arXiv: 1409.1259, 2014), HMM들 및 CRF들을 일반화하는 학습 관계들과 같은 순환 신경망들과 함께 사용된다. 특히, 데이터의 공간적 의존성을 고려해볼 때, 일 실시예는 이들 컨볼루션 수환 방법들을 프레임들의 시퀀스들로부터 표정 인식의 태스크에 직접 적응시키는, 컨볼루션 LSTM 또는 GRU 게이트들(그 개시가 여기에서 전체적으로 참조로서 통합되는, Choy, Christopher B.; Xu, Danfei; Gwak, JunYoung; Chen, Kevin; Savarese, Silvio. 3D-R2N2: 단일 및 다중 뷰 3D 오브젝트 재구성을 위한 통합된 접근법. Eprint arXiv:1604.00449, 04/2016에서 보여진 것들과 같은)을 이용할 수 있다. 적절한 모델을 학습하는 것은 예상된 보다 특정적 사용자 상호 작용들에 의존하며, 이와 같이, 이러한 실시예들은 이들 치료적 사용 경우들에서 모은 데이터를 통해 학습된 특정한 모델들을 요구할 것이다.

본 발명의 많은 실시예들에 따른 하나의 특정한 평탄화 이슈 시스템들은 말하는 동안의 표정 인식의 것을 다룰 수 있다: 표준 알고리즘들은 말하는 동안 표정에서의 작고, 빠른 변화들로 인해 대상이 말할 때 바람직하지 않은 피드백을 제공한다. 많은 것은 상기 평탄화 노력들에 의해 완화될 수 있지만, 시스템의 여러 실시예들은 대상이 말하는 것으로 인식될 때 명시적인 스크리닝(주어진 어떤 출력도 없음)을 수반한다. 이것은 대상이 말하는 비디오 시퀀스들을 인식하는 것을 목표로 한 시각적 시간-의존적 분류기들을 명시적으로 트레이닝함으로써 성취될 수 있다. 여러 실시예들은 대상이 말하고 있을 때를 말하기 위해 오디오 신호들을 사용하는 것을 수반한다. 특정한 실시예들은 표준 얼굴 표정들뿐만 아니라 "중립 대화", "행복한 대화", "슬픈 대화" 등을 또한 인식하기 위해 시간-의존적 분류기들(예로서, 조건부 랜덤 필드들, 또는 순환 신경망들)을 트레이닝하는 것에 의존한다. 이러한 맥락에서 시간 의존적 모델들은, 데이터를 핸들링할 때 1차 이슈로서 도움이 될 수 있으며 여기에서 대상이 말하는 것은 임의의 주어진 프레임에서, 대상이 그것이 보다 긴 시간 기간 동안 유지될 때 상이하게 해석될 표정을 가질 수 있다는 것이다. 이러한 시간-의존적 모델들은 표현적 말하기 시퀀스들과 함께 표준 얼굴 표정들의 비디오 데이터를 갖고 트레이닝될 수 있다.

광범위하게, 보다 양호한 사용자 경험은 시스템이 확실하지 않을 때 중립 표정(및 예를 들면, 피드백을 제공하지 않는다)을 예측하기 위해 바이어싱될 때 가질 것이며, 상기 알고리즘들은 내장된 "중립 바이어스"를 가질 수 있고, 이것은 분류기들의 표준 파라미터들을 조정함으로써 달성될 수 있다.

많은 실시예들은 외향 비디오 데이터와 함께 하나 이상의 내향 눈 추적 데이터를 사용하여 시선 이벤트들을 검출한다. 모듈(402)로 이동하면, 도 6 및 도 7은 본 발명의 실시예에 따라 사회적 신호들을 야기할 수 있는 상호 시선 또는 단-방향 시선 이벤트들을 검출하기 위해 외향 비디오 데이터 및 가능하게는 내향 눈 추적 데이터를 통합하기 위한 두 개의 방법들을 제공한다. 얼굴 표정 인식과 마찬가지로, 양쪽 방법들 모두는 얼굴 이미지 데이터를 검출하고, 추적하고, 등록하며, 전처리하는 것을 수반한다. 도 6의 방법은 기하학적 접근법에 의존하며, 여기에서 착용자의 및 착용자의 앞에 있는 추적된 대상의 시선은, 또한 추정되는, 그들의 위치들의 각각에 대해, 동시에 추정된다. 이것은 상호 시선 이벤트들의 예측을 생성하기 위해 이러한 데이터를 조합한다. 도 7의 방법은 기계 학습 분류기를 직접 사용하여, 이들 이벤트들에 대해 예측기를 학습하기 위해 (상호) 시선 이벤트들의 실제 값들과 함께 착용자로부터의 특징들(눈 추적, 가속도계 측정들)과 함께 바깥쪽 대상으로부터의 추출된 특징들(기준 점들, 텍스처 특징들, 신경망 출력)의 데이터를 조합할 수 있다. 동공 추적은 실시간으로 다양한 방식들로 행해질 수 있다: 예를 들면, (그 개시가 여기에서 전체적으로 참조되는, 2011년 3월 5-7일, 포르투갈, 빌라모우라, 알가르베, VISAPP 2011 - 컴퓨터 비전 이론 및 애플리케이션들에 대한 6회 국제 컨퍼런스의 회보들. Timm, Fabian, 및 Erhardt Barth. 기울기들에 의한 정확한 눈 중심 국소화) 뿐만 아니라 개방 소스 프로젝트(Pupil Labs. https://pupil-labs.com/pupil/. 2016년 5월 2일 액세스됨)를 참조하자.

모듈(404)로 이동하면, 시스템의 많은 실시예들은 오디오 신호들을 통합할 수 있으며, 시스템은 예를 들면, 그 개시가 여기에서 전체적으로 참조로서 통합되는 2012년 교토, 2012 IEEE 국제 컨퍼런스, 음향, 스피치 및 신호 처리(ICASSP), 페이지 4157 내지 4160, M. Wollmer, A. Metallinou, N. Katsamanis, B. Schuller 및 S. Narayanan의, "양자간 구어 상호작용들에서 강화된 감정 분류를 위한 BLSTM 신경망들의 메모리를 분석하는 것"에서 탐구된 성공적인 시간-의존적 모델들을 사용하여, 표현적 콘텐트를 분석한 후 피드백을 제공할 수 있다. 이것의 하나의 버전은 단지 톤에 기초하여 표정 인식 신호들을 간단히 제공할 수 있는 반면, 또 다른 것은 몇몇 제한된 정도로, 대화의 내용에 주목함으로써 이것을 증대시킬 수 있다. 모든 경우들에서, 오디오 신호들은 구성 디바이스들 중 임의의 것에 의해 기록되고 시각적 정보와 스트리밍/동기화되며 분류 디바이스로 공급될 수 있다.

모듈(405)로 이동하면, 다양한 위치들(머리-장착, 팔-장착 등)로부터의 가속도계 데이터는 강박적 행동(흔들기, 반복된 움직임들 등) 또는 제스처들(머리 흔들기, 머리 끄덕임, 머리 전진 등)과 같은 특정 사회적으로 관련 있는 이벤트들을 검출함으로써 사회적 상호 작용 인식 프로세스로 통합될 수 있다. 많은 착용 가능한 시스템들은 이러한 목적들에 적합한 "제스처 인식 API들"을 제공하지만, 보다 복잡한 기계 학습 시스템들이 이러한 유형의 인식을 가능하게 하기 위해 사용될 수 있다. 제스처 분류들로 시간적 가속도계 데이터를 조정하기 위한 다양한 적절한 접근법들이 학술적 문헌에서 설명되며 이용된 특정 프로세스들은 주어진 애플리케이션의 요건들에 크게 의존적이다. 뿐만 아니라, 가속도계 데이터는 직접 또는 다른 센서들과 함께 심박수 측정들과 같은 생리적 데이터를 추출하기 위해 사용될 수 있다. 논문(그 개시가 여기에서 전체적으로 참조로서 통합되는, 2014년, 아테네, 2014 EAI 4회 국제 컨터런스, 무선 이동 통신 및 건강 관리(Mobihealth), 페이지 55 내지 58, J. Hernandez, Y. Li, J. M. Rehg 및 R. W. Picard, "바이오글래스: 머리-장착 착용 가능한 디바이스를 사용한 생리적 파라미터 추정")은 이것을 어떻게 할지를 예시하며, 실제 상황들에서 이러한 시스템이 강력하게 수행할 수 있음을 도시하는, 개념의 증거를 제공한다. 이들 데이터는 게임을 플레이하거나(예로서, 머리 끄덕임과 같은 표현들을 흉내내는 거에 대해 사용자에게 보상하는) 또는 사회적 신호 출력을 변경(예로서, 감각적 오버로드/강박적 흔들기의 시간 동안 너무 많은 사회적 신호들을 전송하는 것을 피하는)할 수 있게 하기 위해 다른 데이터와 함께 행동 처리 엔진(406)에 의해 사용될 수 있다.

최종적으로, 이것의 모두는 행동 처리 엔진(406)에서 통합될 수 있다. 도 8에 묘사될 때, 시스템은 상기 시스템들 모두의 결과들을 조합하며 디바이스의 착용자 및 다른 사용자들에게 제공될 사회적 정보 또는 신호를 생성할 수 있다. 시스템은 다음의 구성요소들 중 하나 이상을 사용할 수 있다: (1) 입력 비디오 데이터(시각적 및/또는 오디오)로서 취하는 분류기 및 회귀 효과 모델들의 형태에서의, 얼굴 표정 인식(동작 유닛들의, 일반적인 표정들, 및/또는 보다 복잡한 표정들), (2) 차별적 행동 규칙들, (3) 사회적 상호 작용을 가능하게 하는 게임의 구현(이하에서의 게임 애플리케이션들에서 설명된), (4) 시선 추적, (5) 머리 자세/가속도계 데이터, (6) 상호 눈 시선 모델들, 및 (7) 시간에 걸친 평탄한 출력들의 생성을 위한 상기의 필터들. 시스템은 그 후 착용자 또는 다른 사용자들에게 제공하기 위해 관련 있는 사회적 정보 또는 신호들에 대해 결정한다(일 실시예는 게임의 형태에 있으며, 여기에서 다수의 물리적 구성요소들은 사용자들로의 동시 인터페이스들이다).

보다 넓은 사회적 동작 인식으로 다시 주의를 향할 때, 얼굴 표정 인식에 대해 설명된 시스템들 중 많은 것이 얼굴들에서의 기본 감정들보다 더 복잡한 동작 인식으로 확대될 수 있다.

얼굴 및 오디오를 넘어, 시스템은 또한, 우리 자신의 분류 시스템들뿐만 아니라 활동 인식에 대한 고도로 개발된 작업에 의존하는, 사회적 신호들을 제공하기 위해 몸짓 언어 및 자세 정보를 통합할 수 있다. 이것은, 얼굴 표정 인식을 위해 사용된 동일한 비디오 스트림을 사용하여, 그 개시가 여기에서 전체적으로 참조로서 통합되는, 2013년, 오리건, 포틀랜드, 2013 IEEE 컨퍼런스, 컴퓨터 비전 및 패턴 인식(CVPR), 페이지 3041 내지 3048, 논문 M. Dantone, J. Gall, C. Leistner 및 L. Van Gool의, "신체 부분 의존적 공동 회귀 계수들"과 같은 자세를 추적하는 데 있어 최근의 진보들을 이용할 수 있다. 비디오 피드를 통해 얻은 자세 정보 및 다른 신호들을 사용하여, 시스템은 활동 인식을 위한 다양한 고도로 개발된 시스템들로 데이터를 공급할 수 있다(예를 들면, 그 개시가 여기에서 전체적으로 참조로서 통합되는, 2003년 6월, 제어 및 자동화에 대한, 11회 지중해 컨퍼런스의 회보에서, R. Bodor, B. Jackson, 및 N. Papanikolopoulos. 비전-기반 인간 추적 및 활동 인식, 뿐만 아니라, 그 개시가 여기에서 전체적으로 참조로서 통합되는, 2010년 말레이시아, 쿠알라룸푸르, 2010 국제 컨퍼런스, 지능형 및 개선된 시스템들(ICIAS), 페이지 1 내지 5, M. K. Fiaz 및 B. Ijaz의, "인공 신경망들을 사용한 비전 기반 인간 활동 추적" 참조). 시스템은 또한 보다 긴 시간 기간들에 걸쳐, 불안, 지루함, 또는 조심성과 같은, 보다 복잡한 감정 상태들을 추론하기 위해(예를 들면, 그 개시가 여기에서 전체적으로 참조로서 통합되는, 2004년, 헤이그, 2004 IEEE 국제 컨퍼런스, 시스템들, 사람 및 사이버네틱스, 페이지 682 내지 688 vol 1, R. EI Kaliouby 및 P. Robinson, "마음 판독 기계들: 비디오로부터 인식의 정신 상태들의 자동화된 추론"에서 커버된 알고리즘을 사용하여) 상기 비디오 데이터 및 상기 언급된 표정 인식을 취하여, 보다 긴 시간 기간에 걸쳐 그것이 이러한 상태를 알아챈 후 사회적 신호들을 전달할 수 있다. 이것들은, 그에 따라 피드백을 맞추기 위해 착용자의 지식을 갖고 주변 세계의 지식을 조합하도록, 이에 제한되지 않지만, 시선 추적 및 가속도계를 포함한, 다른 센서들과 조합될 수 있다.

도 4의 사회적 상호 작용 인식 시스템으로 돌아가면, 많은 실시예들에서, 이러한 시스템의 다양한 서브-구성요소들은 단일 등록 및 전처리가 없는, 고-차원 기계 학습 시스템으로 대체될 수 있다. 본 발명의 실시예에 따른 고차원 기계 학습 시스템의 예는 도 10에 예시되며, 여기에서 입력(1001) 시, 단일 기계 학습 시스템은 다양한 입력 데이터의 연쇄로부터 직접 사회적 정보 및/또는 신호들을 예측할 수 있다. 양쪽 모두가 널리 이용 가능한 아키텍처인, AlexNet(그 개시가 여기에서 전체적으로 참조로서 통합되는, 2012년, 신경 정보 처리 시스템 25에서의 개선들. 페이지들: 1106 내지 1114, Alex Krizhevsky, Ilya Sutskever 및 Geoffrey E. Hinton의, 깊은 컨볼루션 신경망들을 가진 ImageNet 분류) 및 보다 최근의 GoogLeNet(그 개시가 여기에서 전체적으로 참조로서 통합되는, 2015년 컴퓨터 비전 및 패턴 인식(CVPR), 페이지 1-9. Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanchoucke, Andrew Rabinovich. 컨볼루션들을 갖고 더 깊이 들어간다)로 시작하는, 다양한 깊은 컨볼루션 신경망 아키텍처들은 임의의 등록 또는 이미지 전처리 없이 오브젝트 인식, 분할, 및 국소화 태스크들을 수행하기 위한 능력을 보여주어 왔다. 이전 학습은 그 후 작은 양의 데이터를 갖고 감성 컴퓨팅의 도메인에 적용될 수 있다. 이들 아키텍처들은 그 후 미세-조정되며 상기 순환 신경망(con-LSTM 또는 GRU뿐만 아니라 일반 LSTM 및 GRU) 아키텍처들 중 임의의 것에서 사용될 수 있는 특징들을 생성하기 위해 취해질 수 있다. 또 다른 실시예는 산란 컨볼루션 신경망들(그 개시가 여기에서 전체적으로 참조로서 통합되는, 2012년 arxiv.org/pdf/1203.1513, Joan Bruna 및 Stephane Mallat. 불변 산란 컨볼루션 네트워크들 참조)을 사용한다.

많은 실시예들에서, 시스템은 또한 대상-간 차이들을 감안하기 위해 표정 인식을 교정하는 것을 포함하여, 사용자들에 대한 사회적 동작 인식을 교정하기 위해 다양한 전략들을 이용할 수 있다. 이것은 교정 목적을 위한 데이터 캡처 이벤트들 및 사회적 동작 인식 시스템의 실행 시 이전 캡처된 데이터를 포함하여, 여러 모드들을 통해 얻을 수 있는, 특정 개인들에 대한 데이터의 캡처를 수반할 수 있다. 많은 실시예들에서, 시스템은 그 후 실측 자료들(ground truths)을 결정하기 위해 한 명 이상의 사용자들에게 질의할 수 있다. 이것은 특정 개인들(환자의 가족 또는 간병인들의 그룹과 같은)에 대해 최신의 레이트들을 능가하도록 사회적 동작 인식 시스템에서 일반 분류기의 정확도 레이트를 개선하는데 핵심적인 구성요소일 수 있다. 일단 라벨링되거나 또는 라벨링되지 않은, 데이터가 타겟 가족에 대해 모여졌다면, 시스템은 광범위하게 도메인 적응화 방법들을 이용할 수 있다 - 타겟 분포로부터 적은 데이터 및 소스 분포로부터 많은 데이터(다른 모든 사람)를 제공받은 데이터의 타겟 분포(타겟 가족)에 대한 정확도를 증가시키는 것을 목표로 한다. 이들 기술들 중 임의의 것을 통해 이루어질 신중한 균형은 모델이 간병인들의 타겟 그룹(예로서, 사용자의 가족) 상에 모은 데이터에 대해 잘 수행해야 한다는 것이지만 또한, 하나의 주어진 가족에 대한 임의의 데이터 수집 노력은 모든 조명들, 모습에서의 변화들, 및 시스템을 갖고 활동들에서 다른 개인들의 포함을 고려할 수 없으므로, 일반적으로 강력하다. 많은 실시예들은 학습된 일반 모델에 대한 스토캐스틱 기울기 하강을 통해 가중 파라미터들의 간단한 조정을 제공한다 - 도메인 특정적이며 데이터를 통해 도달되는 알고리즘 파라미터들(학습 레이트 및 규칙화 기간과 같은)의 신중한 선택을 이용할 수 있다. 여러 실시예들은 계층적 베이지안 접근법을 사용하며, 여기에서 상이한 가족들은 상이한 가중들을 갖고 트레이닝된 모델들을 갖지만, 각각의 가족의 가중들이 공통 분포로부터 얻어지는 조건의 대상이 될 수 있다. 이것은 다른 모두의 데이터로부터의 지식을 갖고 하나의 가족의 데이터로부터의 지식을 자동으로 보충하는 효과를 가진다. 이들 접근법들 양쪽 모두는 타겟 가족에 대한 데이터의 캡처 시, 모델이 모든 디바이스들 상에 빽빽하게 저장될 수 있는, 일반 모델을 넘어 임의의 리소스들 없이 디바이스 상에 적응될 수 있다는 개별 이점을 가질 수 있다. 이것은 빠른 교정을 허용할 수 있다. 시스템의 특정한 실시예들은 일반 모델을 트레이닝하기 위해 사용된 모든 데이터의 보다 큰 리소스를 이용할 수 있으며, 그러므로 모든 데이터는 국소적으로 유지될 수 있거나, 또는 계산은 로컬 디바이스 및 바깥쪽 컴퓨팅 리소스 사이에서의 협력 시 행해질 수 있다(바깥쪽 컴퓨팅 리소스로 데이터를 업로드하거나 또는 규칙적 통신과 동시에 계산들을 행함으로써와 같은). 이러한 실시예는 가중된 소스 데이터(SVM들 및 로지스틱 회귀들과 같은, 대부분의 규격품 기계 학습 알고리즘들이 데이터 가중을 지원하며 임의의 알고리즘은 가중들에 비례하여 데이터를 재샘플링함으로써 그렇게 행하도록 만들어질 수 있다)로 타겟 데이터를 보충하는, 모든 데이터를 사용할 수 있으며, 가중들은 소스 데이터 및 타겟 데이터 사이에서의 유관성 기준에 의해 결정될 수 있다. 하나의 이러한 유관성 기준은, 그 개시가 여기에서 전체적으로 참조로서 통합되는, 2012년, 플로리다, 보카 레이턴, 2012년 11회 국제 컨퍼런스, 기계 학습 및 애플리케이션들(ICMLA), 페이지 326 내지 332, Y. Q. Miao, R. Araujo 및 M. S. Kamel, “지도식 커널 평균 매칭을 사용한 크로스-도메인 얼굴 표정 인식”에서 발견될 수 있다.

많은 실시예들에서, 기계-학습 분류 및 사회적 신호에 이를 때, 다양한 후처리 기술들이 최소로 위양성들의 수를 유지하며 오분류들로부터 발생할 수 있는 잠재적인 치료 피해를 감소시키기 위해 사용될 수 있다.

먼저, 제공된 신호들의 수는, 가능하게는 많은 수의 신호 경보들과 연관된 감각 오버로드를 감소시키기 위해, 이동 평균 필터, 저역-통과 시간-도메인 필터, 또는 다른 적절한 모델과 같은, 필터링 알고리즘을 사용하여 최소로 유지될 수 있다.

뿐만 아니라, 행동 처리 엔진으로부터 온 잡음의 도전들을 다루기 위해, 본 발명의 여러 실시예들에 따른 시스템들은 환자가 잠재적인 거짓-음성 신호로부터의 신호의 부족을 말할 수 있도록, 행동 처리 엔진으로부터의 신뢰 스코어를 획득하는 것에 기초하여 시스템이 적절하게 기능할 때를 환자에게 표시하기 위해 착용 가능한 디바이스 상에서 시각적 표시자를 사용한다. 혼합 현실 시스템에서, 사회적 신호는, 특정한 얼굴, 예를 들면, 얼굴을 나타내는 화살표 또는 얼굴 또는 그것의 특정한 부분 주위의 원으로 국소화될 수 있다.

(2) 게임 애플리케이션들:

많은 실시예들에 따른 시스템의 부분(1) 및 대단히 중요한 아키텍처 설명을 고려해볼 때, 이 기술분야의 숙련자는 어떻게 부분(2)이 착용 가능한 이동 허브 디바이스에 걸쳐 구현될 수 있으며 부분(3)이 이동 디바이스 상에서 단독으로 구현될 수 있는지를 쉽게 이해할 수 있다.

많은 실시예들에서, 사회적 동작 인식 시스템 및 통신 기반시설을 고려해볼 때, 이동-착용 가능한 시스템은 사회적 상호 작용을 가능하게 하는 다양한 게임들에 대한 플랫폼으로서 작용할 수 있다. 시스템의 많은 실시예들에서, 이러한 게임들은 이동 디바이스 상에서 간병인에 의해 트리거되며 그 후 착용 가능한 디바이스 상에서 시작된다. 착용 가능한 디바이스는 상기 설명된 바와 같이 이동 디바이스로 데이터 프레임들을 스트리밍하며 게임 플레이 로직을 유도하기 위해 이동 디바이스로부터 다시 스트리밍된 행동 처리으로부터 추출된 “상황 정보”를 사용할 수 있다. 게임플레이 프롬프트들은 상기 논의된 다른 사회적 신호들처럼 다양한 피드백 메커니즘들(오디오, 시각적 등)을 통해 전달될 수 있다. 예를 들면, 착용 가능한 디바이스를 착용한 환자들은 다른 사람들과 눈맞춤하는데 참여한 것에 대해 보상받는다. 보다 높은 스코어 또는 몇몇 다른 종류의 보상은 사회적 동작 인식 시스템이 높은 확률을 갖고 대면 눈 접촉을 인식할 때 달성될 수 있다. 또 다른 예에서, 환자는 머리 끄덕임과 같은, 특정한 사회적 동작을 흉내내는 것에 대해 보상받을 수 있다.

또 다른 예에서, 간병인은 재현할 감정들을 고를 수 있으며, 착용자는 그것들을 정확하게 추측하는 것에 대해 보상받는다. 점점 더 복잡한 또는 미묘한 감정들의 스코어 추적 및 레벨들은 재현에 대한 그들의 인식이 개선됨에 따라 착용자의 참여를 확대하기 위해 사용될 수 있다. 다른 예들에서, 게임들은 트랙패드 입력, 음성 명령, 또는 다른 방법들에 의해, 간병인과 대조적으로 착용자에 의해, 트리거될 수 있다. 예를 들면, 착용자는 확대된 시간 기간에 걸쳐 착용 가능한 것을 착용하고 그들이 그것들을 볼 수 있을 때마다 얼굴들 또는 감정들을 “수집”하도록 권장될 수 있어서, 착용자에게 게임플레이에 대한 증가된 제어를 제공한다. 여러 실시예들에서, 플랫폼상에서 사용된 게임들은 보물 찾기 형 방식으로 특정한 위치들에서 관심 있는 아이템들을 두거나 또는 이것을 찾기 위해 다양한 위치 검출 기술들(이에 제한되지 않지만, GPS 기술을 포함한)의 사용을 수반할 수 있다. 제공된 다양한 게임들은 착용자 및 간병인이 게임들에 걸쳐 스코어들을 수집하며 시간에 걸쳐 그것들의 전체 진도를 추적할 수 있는 방법들을 또한 포함할 수 있다. 착용자 및/또는 간병인은 또한 제공된 다양한 게임들의 다수의 세션들의 완료에 대해 보상 시스템으로서 시스템의 사용자 인터페이스를 개인화하기 위한 기회를 제공받을 수 있다.

(3) 리뷰 애플리케이션:

본 발명의 많은 실시예들에 따른 데이터 리뷰 애플리케이션은 (1)의 참여를 통해 모은 데이터를 취하며 (1)의 참여를 통해 착용자와 상호 작용하는 것들 및 착용자에 의해 리뷰될 수 있는 방식으로 그것을 제공한다.

도 18을 참조하면, 특정한 실시예들에서, 리뷰 애플리케이션은 사용자들 및 간병인들이 온종일 기록된 활동들을 검토하도록 허용한다. 비디오들은 사용자들로 하여금 비디오들(인식된 사회적 동작의 유형에 대한 정보를 포함한)에서 그것들의 모습을 시각화하며 리뷰를 위해 그것들로 점프하도록 허용하는 인터페이스에서 자동-큐레이팅되고 하이라이트 표시된 "감정적 순간들"을 제공받을 수 있다. 감정적 하이라이트들은 상기 설명된 방법들을 사용하여 추출될 수 있다. 일 예시적인 치료 설정에서, 간병인들은 그들의 환자들과 이들 순간들을 리뷰하도록 권장된다(및 그들이 잠재적으로, 행동 치료사들 및/또는 다른 간병인들을 고른다면).

특정한 실시예들에서, 부모 리뷰 시스템은 계산 집중적 감정 인식을 수행하는 사회적 행동 처리 프로그램과 동일한 전화상에서 구동하는 모바일 애플리케이션이다. 도 13 및 도 16은 본 발명의 실시예에 따라 사람에 대해 검출되는 감정(302)의 표시를 제공하는, 이동 디바이스(301) 상에서 실행하는 애플리케이션을 예시한다. 도 14에 묘사된 바와 같이, 리뷰 시스템은 연대순으로 이전 세션 기록들의 뉴스피드(newsfeed)-형 뷰를 포함할 수 있다. 리뷰 시스템의 사용자들은 언제라도 뉴스피드로부터 비디오들을 보고, 은닉하거나, 또는 영구적으로 삭제하기 위한 능력을 가진다. 도 15는 본 발명의 실시예에 따라 애플리케이션의 다양한 설정들을 선택하기 위한 여러 개의 UI 인터페이스들을 예시한다.

특정한 실시예들에서, 리뷰 시스템은 비디오 세션 직후 짧은 비디오 클립들을 제공하고, 단지 자동-큐레이팅된 “감정적 순간”만을 나타내며, 세션을 끝내는 부분으로서 그것들을 리뷰하도록 착용자 및/또는 간병인에 요청하는 형태를 취할 수 있다. 이것은 (4) 온라인 및 능동 학습에서 설명된 태스크들을 추가로 통합하며 이를 가능하게 할 수 있다. 감정적 순간들은 또한 사진 롤-형 뷰를 통해 언제라도 아이 또는 간병인에 의해 재방문되고 재라벨링될 수 있어서, 시간에 걸쳐 부가적인 라벨링 데이터에 대한 기회를 허용한다.

비디오 및 감각 출력들로부터 추출된 통계 데이터는 이러한 애플리케이션에 저장될 수 있으며 오프-로딩된 처리를 위해 부가적인 서버로 송신될 수 있다. 이러한 데이터 및 결과적인 통계들(원격으로 또는 이동 디바이스 상에서 계산될 수 있는)은 진도 측정들 및/또는 달성들로서 다양한 시각화들(파이 차트들, 그래프들 등과 같은)에서 제공될 수 있다.

(4) 온라인 및 능동 학습

도 7 및 도 9를 참조하면, 본 발명의 많은 실시예들에 따른 시스템들에 의해 일반적으로 이용된 기계 학습 시스템들은 모델을 더 좋게 하도록 다양한 방식들로 사용자들에게 질의하기 위해 셋 업될 수 있다. 여러 실시예들에서 이러한 질의는 디바이스의 치료적 사용 후, 다양한 인스턴스들이 정확하게 분류되었는지를 사용자에게 묻는 것이다 - 이것은 또한, 사용자를 위한 학습 툴로서 작용하도록 두 배로 될 수 있다. 이러한 방식으로, 표정을 캡처한 이미지들 및/또는 비디오 시퀀스들은 실측 자료 정보로 주석이 달리며 업데이트된 분류기들을 트레이닝하기 위해 의존될 수 있다. 이러한 질의의 여러 실시예들은 데이터세트 라벨들을 정정하도록 사용자들 또는 보조원에게 요청하는 것이다. 양쪽 경우들 모두에서, 질의들은 시스템의 임의의 조각 또는 별개의 콘솔 상에서 단순한 그래픽 디스플레이를 통해 관리될 수 있으며, 여기에서 이미지들 또는 이미지들의 시퀀스는, 예측으로부터 표정을 변경하기 위한 옵션을 갖고 형태(“현재 표정 ___________인가”)의 질문과 함께, 정지 또는 비디오 포맷으로 디스플레이된다. 양쪽 경우들 모두에서, 프레임 단위로 라벨들을 수동으로 정정하도록 인간들에게 요청하는 것은 실현 가능하지 않으며, 따라서 이들 실시예들은, 이들 질의들에서 사용될 데이터를 선택하기 위해 다양한 휴리스틱에 의존하는, 능동 학습 관점(그 개시가 여기에서 전체적으로 참조로서 통합되는, 2012년, Morgan & Claypool, Burr Settles, 능동 학습 참조)을 취할 수 있다. 이들 휴리스틱은 최대 사후 엔트로피(확률적 분류기를 고려해볼 때) 또는 불일치에 의한 질의(query-by-disagreement)를 갖고 데이터를 선택하는 것을 포함하며, 여기에서 여러 개의 분류기들은 동시에 사용되며 사용자들은 충분한 불일치를 가질 때 질의된다. 데이터가 시간-의존성을 갖고 구조화됨에 따라, 질의들은 종종 시간에 걸쳐 연속성 또는 평탄성의 몇몇 의미를 취한다. 특정한 실시예들에서, 이러한 프로세스는 동일한 라벨을 갖기 위해 연속적인 데이터 포인트들의 작은 블록들을 간단히 시행하는 것이다. 여러 실시예들은 텍스트 정보 추출로부터 기술들의 적응화를 수반하며 - 세부사항들을 위해, 그 개시가 여기에서 전체적으로 참조로서 통합되는, 2006년 10월, 인공 지능, 볼륨 170 14-15호, 페이지들 1101 내지 1122, Aron Culotta, Trausti Kristjansson, Andrew McCallum, 및 Paul Viola. 정보 추출을 위한 정정 피드백 및 영구적 학습을 참조하자. 많은 프로세스들은 시간-의존적 데이터를 사용하여 조건부 랜덤 필드 모델을 트레이닝하며, 그것들의 “제한된 순방향-역방향” 알고리즘에 의해 얻은 신뢰 추정치를 사용하여 사용자에게 질의하고, 라벨 정정들은 그것들의 “제한된 비터비” 알고리즘을 통해 시간 도메인에 걸쳐 전파될 수 있다. 라벨들을 정정할 때, 모델은 새로운 라벨들을 갖고 이들 데이터를 사용하여 업데이트될 수 있다. 이것은 두 개의 취향들에 관여하며: 사용자로의 질의들을 만든 디바이스에 의해 사용된 모델의 국소적 업데이트(최종 사용자가 질의들에 대답한 경우에), 및 국소적 모델들이 적응시키는 전역적 모델. 국소적 경우에, 다양한 휴리스틱 기준들(예를 들면, 엔트로피에서의 변화, 잘못된 시간의 부분) 중 임의의 것이, (1)에서 커버된 도메인 적응화 방법들 중 임의의 것을 사용하여, 국소적으로 또는 전역적으로 모델을 리트레이닝하거나 또는 업데이트하도록 결정하기 위해 사용될 수 있다. 전역적 경우에, 배치된 시스템들은 정정을 본 데이터를 중앙 컴퓨팅 리소스로 주기적으로 송신할 수 있으며, 데이터는 전역적 모델에 대한 일반 트레이닝 데이터를 증대시킨다. 전역적 모델을 업데이트할 때, 새로운 모델 파라미터들이 배치된 시스템들로 송신될 수 있다. 이것은 순환 신경망들을 포함하여, 표정 인식의 많은 시간-의존적 모델들에 적용하기 위해 조건부 랜덤 필드들을 넘어 확대될 수 있다.

이전 단락에서 언급된 데이터 라벨링/피드백 메커니즘은 이러한 기술의 측정으로서 표정들을 인식하기 위해 사용자들에게 질의하는 게임/결과 측정치와의 통합일 수 있다. 도 17을 참조하면, 컴퓨터 또는 전화 인터페이스를 통해 전달될 때, 결과 측정치는 데이터에서 발견된 표정들을 식별하도록 사용자 및 간병인들에게 요청할 수 있다 - 질의된 프레임들은 알고리즘이 꽤 확신하는 얼굴들(사용자들이 평가하기 위한 모호하지 않은 예들을 제공하는) 및 알고리즘이 꽤 확실하지 않은 얼굴들의 혼합일 수 있다 - 예를 들면, 상기 언급된 엔트로피 또는 불일치에 의한 질의 전략들에 의해 측정된 바와 같이 - 표정 인식 분류기들의 개선에 유용한 데이터 포인트들을 제공하기 위해. 여러 개의 신호들을 제공하는 다수의 라벨러들(아이 및 간병인들)의 사용은 오류를 감소시킬 수 있으며, 라벨들의 합리성을 측정하는 모듈(기계 학습된 알고리즘들과 함께 인간 라벨러들의 동의의 레벨을 사용하여)은 추가의 전문가 라벨러가 표정의 실제 값을 결정해야 하는지를 결정할 수 있고, 인간 입력은 실제 값으로서 취해져야 하거나, 또는 데이터는 폐기되어야 한다.

중립 특징 차감

행복함, 슬픔, 화남 등으로서 얼굴들을 식별하는 - 자동 얼굴 표정 인식을 위한 방법들은 통상적으로 이미지들로부터 추출된 특징들의 분류에 의존한다. 형태 및 텍스처 정보를 인코딩하도록 설계된, 이들 특징들은 (1) 개인이 만들어내는 표정, 및 (2) 개인의 물리적 특성들 및 이미지의 조명 조건들 양쪽 모두에 의존할 수 있다. (2)의 효과를 감소시키기 위해, 몇몇 접근법들은 개인에 대한 “기준선”을 수립하며 이러한 개인의 기준선 중립 특징을 감한다. 이러한 추가의 중립 특징 정보는 종종, 특히, 이전에 보여지지 않은 대상의 자연 그대로의, 실시간 분류에 대해, 이용 가능하지 않다. 따라서, “중립 차감”을 구현하기 위해, 많은 실시예들은 개인의 중립 특징들을 추정한다. 더욱이, 많은 실시예들은 얼굴-간 및 조명 분산에 대해 정정하기 위한 방법으로서 상이한 컴퓨터 비전 특징 공간들로 중립 차감을 확대시킨다. 많은 실시예들은 클래스 불균형들에 강력하며 원칙적으로 넓은 클래스의 특징 선택들에 걸쳐 작동하는 단순한, 실시간 방법을 추가로 제공한다.

많은 실시예들은 복잡한 대상-특정 모델의 트레이닝을 요구하지 않는 접근법을 이용하며, 따라서 실시간으로 새로운 대상에 적응할 수 있다. 특히, x_s를 대상 특징 랜덤 변수라고 하며, V_s를 대상의 중립 (비-표현적 얼굴)의 (은닉된) 특징이라고 하자.

(1)

δ_e는 현재 표정(e)에 대신 의존하는 대상-독립적 변수이며, 그 후 표정 인식은 (1) 대상에 대해 v_s를 추정하는 것 및 (2) 분류 모델(

)을 학습하는 것으로 감소될 수 있다. 특히, 단순화한 가정이 다음인 것으로 이루어지면,

(2)

그 후, v_s에 대한 추정치들(

)이 있다고 가정하며, 중립 차감된 특징들에 대해 트레이닝하고 테스트한다.

(3)

식(2)은 일반적으로 선형 근사이다. 전처리 처리 하에 많은 모습 특징들에 대한 양호한 근사가 되는 것으로 이를 믿기 위한 이유가 있다(이하에서 논의된 섹션 “기준선: 특징 추출”, 먼저, 조명 정규화, 몇몇 실시예들은 배경 차감을 위한 표준 인수들이 적용되도록 허용하는 동조된 이미지들에 대한 특징들을 계산할 수 있다. 따라서, HOG 및 SIFT와 같은 특징들이 잘 수행할 수 있다. 이것은 기하학적 특징들을 직관적으로 이해한다: 특징 공간의 몇몇 서브공간이 눈썹들 및 코 사이에 거리를 제공한다면, 이것은 양이 아니라, 현재 거리 양 및 중립 상태에서의 양 사이에서의 차이가 놀람과 같은 표정과 가장 잘 연관시킬 수 있다. 동일한 직관은 다양한 특징 공간들에 적용될 수 있다. SIFT 및 HOG와 같은 모습-기반 특징들은 이마 상에서의 라인들의 모습에 주목하는 분류기를 산출할 수 있으며, 이러한 분류기는 주름들을 가진 대상이 끊임없이 화가 난 것으로 결정할 수 있다. 중립 차감은 이를 정정하는 것을 허용한다. 그것은 조명, 피부 톤, 및 어느 정도까지, 얼굴 털을 포함한 다양한 변화들을 갖고 모습-기반 특징들을 도울 수 있다고 예상하는 것이 합리적이다.

기여

많은 실시예들은 각각의 대상(s)에 대한 추정치(v_s)로 단순한 프로세스를 제공하며 표정들로 프레임들을 분류하여, 실시간으로 표정 분류를 전달한다. 많은 실시예들에서, 프로세스는 모든 프레임들의 원래 특징들(x_s)에 대해 트레이닝된, 중립/표현적(2-클래스) 분류기, 뿐만 아니라 중립-차감된 특징들에 대한 표정 분류기(중립, 그러므로 7- 또는 8-클래스를 포함한)를 입력으로서 취하며, 여기에서 v_s는 실제 값으로서 중립을 가진 모든 특징들의 평균으로서 추정된다. 런타임 시, 2-클래스 분류기는 프로세스가 중립 특징의 초기 추정치를 얻으며 계속해서 상기 추정치를 업데이트하도록 허용할 수 있다.

많은 실시예들에서, 이러한 프로세스는 다수의 이점들을 가진다. 먼저, 그것은 트레이닝될 어떤 복잡한 대상-특정 모델도 요구하지 않는, 적은 처리 지연을 갖고 실시간으로 출력들을 제공할 수 있다. 성능은 달라질 수 있지만, 그것은 사용된 입력 분류기 유형들에 독립적일 수 있으며 분류기들로부터 어떤 확률론적 출력도 요구하지 않을 수 있다. 그것은 또한 원칙적으로 매우 다양한 기하학적 및 모습 특징들에 불가지론적일 수 있다. 더욱이, 이하에서 설명되는 바와 같이, 많은 실시예들에서, 그것은 HOG 특징들을 갖고 잘 수행하는 것으로 도시된다. 트레이닝 및 평가는 프레임 단위 기반으로 행해지며 입력 분류기들의 요구들 이상의 데이터에 대한 요구들을 하지 않을 수 있다(및 모든 트레이닝 대상들은 모든 클래스들의 예들을 갖도록 요구하지 않을 수 있다). 마지막으로, 그것은 테스트 시간에서 클래스 불균형이 중립 특징 추정치에 영향을 주는 정도를 제한할 수 있다.

분류 태스크에서의 클래스로서 “중립”을 포함하는 것이 중립 차감 모델이 가진 정확성들을 신장시킬 수 있다는 것에 이의가 제기될 수 있다: 중립-차감된 특징의 놈(norm)에 대한 단순한 문턱 처리는 중립 또는 비-중립으로서 예를 분류하기 위해 잘 작동한다. 그러나, (1) 실시간 표정 인식에서, 중립 얼굴을 인식하는 것은, 대상이 종종 균등한 대화 설정들에서 표현적이지 않을 것이므로, 중요할 수 있으며 (2) 행해진 실험들은 보다 어려운 분류 태스크들에 대한 것을 드러내며, 중립 차감에 대한 전체 효과는 분류 태스크가 “중립”을 포함하지 않을 때에도 상당할 수 있다. 실험 결과들과 함께 실시간 중립 특징 추정 및 차감에 대한 제안된 프로세스는 이하에서 설명된다.

실시간 중립 특징 추정 및 차감

표정의 라벨들(Y)에 이미지들을 매핑시키는 분류 태스크를 고려해보자. 클래스들의 수를 K라고 하자. 많은 실시예들에서, 프로세스는 중립-차감된 특징들에 대해 트레이닝된 K-클래스 표정 분류기(F), 뿐만 아니라 원래(중립-차감되지 않은) 특징들에 대해 트레이닝된 2-클래스 중립/표현적 분류기(G_e)를 입력으로서 취한다. 보다 정확하도록, 대상(s)의 프레임들에 대한 s 파라미터화 대상들 및 I_s 인덱스들을 갖고 트레이닝 데이터(

)를 고려해보자. 트레이닝 시간에, 각각의 대상에 대해, 프로세스는 평균 중립 특징을 계산할 수 있다

(4)

여기에서

는 대상(s)에 대한 중립 특징들의 수이다. 많은 실시예들은 그 후 각각의 프레임에 대해

를 계산할 수 있다. F는 알고리즘의 임의의 선택을 갖고, 전처리된 데이터(

)에 대해 트레이닝될 수 있다. 일반적인 표현적 분류기(G_e)를 트레이닝하기 위해, 많은 실시예들은 이용 가능한 모든 s 및 i에 대해 원래 특징들(x_s,i)을 사용하며, y_s,i가 중립이면 중립이며, 그렇지 않으며 표현적이도록 라벨들을 변경한다. 이들 분류기들을 트레이닝할 때, 사용된 학습 방법에 의존하여, 많은 실시예들은 하나 이상의 다수의 클래스들을 밸런싱하며 언더샘플링/언더샘플링/가중하는데 관심을 가질 필요가 있을 수 있다.

테스트 시간에, 많은 실시예들은 연대순으로, 대상(s)에 대해 특징들의 스트림(

)을 제공받는다. 많은 실시예들은 버퍼 기간을 허용할 수 있으며, 그 동안 어떤 예측들도 이루어지지 않으며 대신에 모든 프레임들은 G_e를 갖고 분류될 수 있어서, v_s의 제 1 추정치로서 중립으로서 라벨링된 모든 프레임들의 평균을 취한다. 이러한 버퍼 기간은 여러 방식들로 선택될 수 있다 - 예를 들면, 중립으로서 라벨링된 특징들의 설정된 수가 보여진 후, 또는 중립으로서 라벨링된 특징들의 평균이 특정한 임계값보다 작은 변화를 보인 후. 많은 실시예들에서, 수 초에 대응하는, 버퍼 기간이 끝나기 전에 보여질 프레임들의 수를 단순히 설정하는 것은 높은 정확성을 달성할 수 있다. 도 19에 예시된 알고리즘에서, 많은 실시예들은

에 의해 이러한 결정을 요약하며, 여기에서 j는 현재 프레임이고, 프로세스가 버퍼 기간에 여전히 있다면 참을 리턴하며 버퍼 기간이 종료할 수 있다면 거짓을 리턴한다.

버퍼 기간 후 - 즉 프레임(j_buff)에서 - 많은 실시예들에서 프로세스는 돌아가며 추정치(

)를 사용하여 프레임들(1 내지 j_buff)에 대한 예측들을 한다:

는 이들 예측들을 제공한다. 이후, 보여지는 모든 특징(x_s,j)에 대해, 프로세스는 중립 특징의 추정치를 업데이트할 수 있다. 이것은 다수의 방식들로 행해질 수 있다. 많은 실시예들에서, 가장 단순한 버전은 간단히 평균(

)을 업데이트하는 것이다: k_n이 x_s,j 이전에 보여진 중립 특징들의 수이며, 프로세스가 중립 특징에 대해 추정된

를 가진다면, G_e는 중립으로서 x_s,j를 분류하고, 프로세스는 간단히 업데이트할 수 있으며,

(5)

1만큼 k_n을 증분시키고; x_s,j가 중립으로서 분류되지 않는다면, 업데이트는 이루어지지 않는다. G_e가 확률론적 출력을 제공하면, 많은 실시예들은 v_s의 예상을 취하여, 각각이 중립인 확률에 의해 보여진 모든 특징들을 가중할 수 있다.

확률론적 출력들 없이, 많은 실시예들은 여전히 다수의 업데이트 선택들을 가진다. 예를 들면,

에 대한 x_s,j의 업데이트는 현재 추정치로부터 그것의 거리에 의존할 수 있다: 많은 실시예들은 이상점들에 대해 걱정한다면(예를 들면, 얼굴 추적기가 신뢰 가능하지 않다면) 유용한, 식(5)에 대해 추정치에 대한 그것의 기여를 감소시킬 수 있다. 또는, 많은 실시예들에서, v_s가 런타임시 변할 것이라고 예상된다면 - 예를 들면, 조명이 상당히 변할 것으로 예상된다면 - 많은 실시예들은 그것이 식(5)에 대해 더 빠르게 v_s의 추정치를 업데이트하게 할 수 있다. 보다 일반적으로, 많은 실시예들은 G_e의 결정들을 포함하여, 한정된 수의 통계들이 이제까지 보여진 모든 프레임들(

)로부터 수집되도록 허용하며, 추정치(v_s)에 필터를 적용할 수 있다. 도 19에서, 행해진 업데이트의 선택은 다음으로서 불리우며,

,

여기에서 “한정된”은 특징들의 스트림으로부터 수집된 한정된 수의 통계들에 대한 제한을 나타낸다(메모리 목적들을 위해, 많은 실시예들은 그것들 모두를 캐싱하길 원하지 않는다).

지수적 이동 평균과 같은 저역-통과 필터는 변화하는 v_s에 적응시킬 수 있는 것 및 잡음을 감안하는 것 사이에서의 단순한 매체를 제공할 수 있다. 식(5)에 대한 수정은 간단할 수 있다: 동일하게 G_e에 의해 중립으로 분류된 모든 예들을 가중시키는 대신에, 많은 실시예들은 가중에서의 지수적 하락을 갖고, 가장 최근의 것들에 최고로 가중시킬 수 있다.

(6)

칼만 필터는 보다 강력함을 입증할 수 있지만, 그것의 업데이트들은 큰 상태 치수들에 대해 계산적으로 값비쌀 수 있으며, 프로세스의 많은 실시예들은 함께 작동할 필요가 있을 것이다.

많은 실시예들에서, 지수적 이동 평균은 잡음에 대해 보호하며 변화하는 vs에 빠르게 적응하고, 이것은 조명이 변할 때(이를 완화시키도록 의도된 조명 정규화 기술들에도 불구하고), 또는 보다 극적으로, 하나의 사용자가 또 다른 사용자로 분류기를 “핸드 오프"할 때 예상될 수 있다. 조명에서의 적절한 변화들을 가진 데이터베이스들의 부족으로 인해(룸에서 조명이 켜지는 것과 같은; 많은 실시예들은 다중-파이 데이터베이스에서 발견될 수 있는 것보다 더 일관된 조명에서의 변화들을 요구한다).

추정치(

)의 업데이트 후, 많은 실시예들은 예측을 한다(

). 알고리즘은 중립 추정 및 차감(NES) 알고리즘으로서 불리운다. 상기는 중립 추정 및 차감을 수행하기 위한 특정한 프로세스를 설명하지만, 다양한 메커니즘들 중 임의의 것은 본 발명의 많은 실시예들에 따른 특정 애플리케이션들의 요건들에 적절한 경우 중립 추정 및 차감을 수행하기 위해 이용될 수 있다.

디바이스 교정

자연스러운 사회적 대화의 특징들을 모델링하고 인식하는 감성 컴퓨팅은 자연스러운 사회적 상호작용 데이터를 요구한다. 특히, 자연스러운 사회적 대화를 진정으로 모델링하기 위한 유일한 방식은 자연스러운 사회적 상호작용 데이터로부터 학습하는 것이다. 그러나, 이것은 그것의 심각한 라벨링 어려움들이 수반된다. 특히, 시간적으로-민감한 및 정확한 방식으로 소위 일반적인 표정들(예로서, 행복, 슬픔, 화남, 놀람, 공포, 및 혐오)만큼 단순한 것들에 대한 데이터를 라벨링하는 것은 매우 노동 집약적이다. 따라서, 많은 실시예들은 라벨링의 프로세스의 가치를 크게 떨어뜨리는 자율 및 능동 학습 사전-주석 기술들을 이용한다.

요컨대, 자율 기술들 및 잡음이 있는 예측들은 인간 전문가들에게 질의하기 위해 사용될 수 있어서, 그들에게 데이터의 작은 부분을 라벨링하도록 요청하며 데이터의 형태를 통해 데이터의 나머지에 대한 라벨들을 추론한다. 이를 위해, 많은 실시예들은 텍스트의 문법적 주석에서의 성공을 찾은 시스템들과 함께 다양한 일반적인 능동 학습 기술들을 적응시킨다. 첫 번째로, 많은 실시예들은 통상적으로 개발 참여자들과 실험실 세션들에서 구조화되지 않은 대화 비디오 데이터를 모으며 전문가 라벨러들을 갖고 실험식에서 이러한 사전-주석 기법을 개선한다. 전문가 라벨러들을 갖고 연구실에서 이러한 사전-주석 기법을 개선한 후, 많은 실시예들은 치료 시스템의 사용자들(n=100)로 그것을 배치하여, 그들 자신의 데이터를 보다 양호하게 라벨링하는 것을 돕도록 사용자들에게 질의하며, 인간 참여형(human-in-the-loop) 학습을 통해 데이터의 라벨링을 효과적으로 크라우드-소싱한다.

개인화된 표정 인식

상기 노력들과 잘 맞게, 많은 실시예들은 특정한 사용자들에게 표정 인식 시스템들을 맞추기 위해 도메인 적응화 기술들을 제공한다. 도메인 적응화는 하나 또는 많은 관련되지만 별개의 소스 분배들로부터 인출된 보다 풍부한 데이터가 있다는 것을 고려해볼 때, 적게 라벨링되거나 또는 라벨링되지 않은 데이터가 있는 몇몇 타겟 분배로부터 인출된 데이터에 대해 잘 수행하도록 시도하는 기계 학습 태스크이다. 특히, 다른 개인들로 이루어진 데이터의 대부분을 갖고, 몇몇 타겟 세트의 개인들(치료법이 맞춰진 가족)에 대한 자연스러운 사회적 상호 작용 데이터에 대해 잘 수행하는 태스크는, 종종, 인공 실험실, 제기된 설정들에서 캡처된다. 일반 모델은 대부분의 개인들에 대해 잘 수행할 수 있지만, 사람들에 걸친 표정에서의 자연스러운 변화로 인해, 대상들에 걸쳐 정확성에서의 상당한 변화가 있다. 치료적 맥락에서, 치료에 관련된 개인들에 대해 취약하게 수행하는 인식 시스템은 실패한 노력을 나타낸다. 그러므로, 개인화된 표정 인식의 개발은 반드시 해야 할 수 있다. 이것은 자율 온라인 및 지도식 도메인 적응화의 조합을 통해 달성될 수 있다.

자율 온라인 도메인 적응화에서, 라벨링되지 않은 데이터는 타겟 분배에 대해 제공되며 모든 데이터에 대한 모델을 리트레이닝하지 않고 적응되고, 다양한 기술들(예로서, 다양한 다른 것들 중에서, online_cascade, online_multi_object)이 이를 이용하기 위해 존재한다. 이것은 수동형 교정 이벤트로서 여겨질 수 있다: 시스템은 뷰에서 대상에 대한 데이터를 포함할 수 있으며 실시간으로 모델을 적응시킨다. 시스템의 많은 실시예들은 이것(예로서, 중립 차감)의 애드 혹 버전을 이용하여, 현재 사용자의 중립(비-표현적) 얼굴의 추정치를 구성하며 현재 얼굴로부터 그것을 감한다. 시스템의 많은 실시예들은 이러한 프로세스를 최적화하여, 대략 최적의 적응화를 발견하기 위해 hier_bayes와 같은 방법들을 이용한다.

지도식 도메인 적응화에서, 시스템의 많은 실시예들은 타겟 개인들에 대한 라벨링된 데이터를 모으며 그것들에 대해 더 잘 수행하도록 일반 모델을 적응시킬 수 있어서, 보다 철저한 리트레이닝(반드시 실시간인 것은 아닌)을 허용한다. 이것은 두 개의 형태들로 일어날 수 있다: 표정들을 실연해 보이기 위해 시스템의 사용자들에게 질의하는 것, 및 그것들에 대해 모은 자연스러운 사회적 상호작용 데이터에 대한 라벨들을 확인/정정하도록 그들에게 요청하는 것. 이들 양쪽 모두는, 변화하는 정도들로, 진동 부족의 잠재적으로 심각한 이슈에 직면하며, 여기에서 사용자에 대해 모은 데이터는, 부족한 것을 제외하고, 내장된 특정한 종류들의 중요한 변화를 가질 수 없다. 시스템의 많은 실시예는 따라서 이러한 변화에 대해 일반 모델이 가져야 하는 강건성을 손상시키지 않으면서 사용자에게 적응할 수 있다.

시스템의 많은 실시예들은 모델들을 적응시키기 위해 계층적 베이지안 기술들(예로서, hier_bayes)을 사용하여, 자율 온라인 및 지도식 맥락들 양쪽 모두에서 매우 빠르며 계산적으로 저렴한 적응화를 허용한다. 이것은 두 개의 스테이지들에서 행해질 수 있다. 제 1 스테이지에서, 시스템은 상기 서브-목표에서 모은 자연주의적 비디오 데이터를 취하며 LOSO(leave-one-subject-out) 방식으로 교차-검증할 수 있고: 모든 다른 대상들 및 타겟 대상 데이터의 몇몇 작은 서브세트의 타겟 트레이닝 데이터와 조합된 앞서 언급된 학술적 데이터세트들로서 소스 데이터를 갖고, 시스템은 상기 목표의 결과들을 통해 라벨링된, 타겟의 자연스러운 사회적 상호작용 데이터의 나머지에 대해 모델을 검증할 수 있다. 제 2 스테이지에서, 시스템은 참여자들(n=100)로 치료 시스템을 배치하여, 상기 논의된 두 개의 패러다임들을 통해 데이터를 라벨링한다. 상기는 모델들을 적응시키기 위해 계층적 베이지안 기술을 사용하여 설명하지만, 다양한 기술들 중 임의의 것은 본 발명의 많은 실시예들에 따른 특정 애플리케이션들의 요건들에 대해 적절한 경우 이용될 수 있다.

컨볼루션 및 순환 신경망들

컨볼루션 신경망들은 이미지 인식 태스크들에서 특히 강한 것으로 입증되었지만, 특정한 순환 신경망 아키텍처들은 순차적 데이터(예로서, 자막 넣기, 친필)를 다루는데 유용한 것으로 입증한다. 많은 실시예들은 시간-의존적 비디오 표정 인식 태스크들에 대해 이들 기술들을 이용한다. 특히, 네트워크 깊이는 도메인 적응화를 특히 잘 받아들일 수 있으며, 상기 논의된 계층적 베이지안 방법들은 특히 학습자들의 이러한 클래스에 대해 특히 유익함을 증명할 수 있다고 믿어진다. 시스템의 많은 실시예들은 상기 논의된 도메인 적응화 개발을 위한 1차 모델 아키텍처로서 이것을 이용하며, 선형 분류기들은 기준선으로서 HOG 특징들 상에서 구동한다.

다양한 연구들로부터의 실험 결과들

여러 연구들은 행동 시스템의 다양한 양상들에 대해 행해져 왔다. 예를 들면, 글래스의 외향 카메라 및 높은 정확도(~90%)를 갖고 8개의 감정들을 검출하는 표정 데이터의 800,000개 이상 샘플들에 대해 트레이닝된 기계 학습 시스템을 사용하여 얼굴들에서 표현적 이벤트들을 자동으로 추적하는 구글 글래스 프로토타입이 구성되어 왔다. 프로토타입 모델은 감정 표현들과 연관된 얼굴 근육 움직임들에서 기인한 동작 유닛들 상에서 계산하며 얼굴들, 머리 위치/자세, 및 광 조건들의 넓은 변화에 걸쳐 실시간으로 작동하도록 설계되었다. 그것은 그 후 20명의 자폐증 및 20명의 제어 참여자들에 대해 테스트되었다. 표준 자폐증 배터리(예로서, SRS)를 사용한 동의 및 표현형에 이어서, 40명의 참여자들(평균 6세)의 각각은 컴퓨터 스크린의 앞에 앉는 동안 자폐증 안경 및 머리-장착 동공 추적기에 맞춰졌다. 스크린은 “고 자폐증 흥미” 데이터베이스로부터 두 개의 교번하는 사회적 및 비-사회적 표준화된 “방해 자극” 이미지들과 함께 6초 동안 얼굴 변화(예로서, 인종/민족성)에 대해 균형화된 얼굴들의 3개의 배치들을 디스플레이하였다. 대상들은 감정 피드백 없이 스크린상에서 얼굴들의 감정을 식별하려고 시도하였고(배치 1), 피드백은 글래스 유닛의 “헤드-업” 디스플레이를 통해 제공되었으며(배치 2), 다시 피드백이 없다(배치 3). 결과들은 아이들이 디바이스(몇몇은 그것을 “수퍼 파워”라 부름)를 착용하는데 빨리 적응하였으며 피드백 인터페이스를 조정하기 위해 요구된 예비 데이터를 산출하였음을 보여주었고; 보다 낮게 기능하며 보다 어린 참여자들은 시각적 사회적 피드백보다 오디오를 선호하여서, 모드들을 스위칭하기 위해 새로운 소프트웨어의 구축을 강요한다. 자폐증을 가진 모든 참여자들은 신경전형적인 아이들보다 표정 분류 태스크에서 낮은 기준선 스코어들을 보였다. 그러나, 그들은 배치 3에 의한 스코어들에서 및 대략 15분 내에 상당한 개선들을 보였으며, 스코어들은 신경전형적인 제어들에 의해 보여진 것들과 동일한 레벨에 도달하였다(제출에서). 이러한 연구에서 수집된 눈 추적 데이터의 분석은 자폐증을 가진 아이들이 얼굴을 볼 때 눈과 대조적으로 입에 그들의 시선을 집중시킨다는 결과에 동의하였으며, 부분적으로 글래스 피드백 이전에 감정의 오분류를 설명한다. 이러한 데이터는 고르게 제한된 사용이 측정 가능한 이득들을 산출하며 집에서 및 임상 실험실 환경들의 밖에서의 사용을 위한 상태로 기술을 진전시키기 위한 계획에 동기를 부여한다는 가설을 지지한다.

또 다른 연구에서, 자폐증 글래스의 실시예는 14개의 가족들(평균 나이 = 9.57세, SD = 3.37; n=3 여성들)을 집으로 보냈으며 변화들은, 주로 사회적 응답성 스케일 제 2 에디션(SRS-2), 아이들이 감정들을 얼마나 잘 정확하게 라벨링하였는지(40개 질문들 중에서)를 평가하기 위한 “감정 추측 게임”(EGG), 및 부모 질적 보고들에 의해, 평가들 및 가족 관찰들을 통한 판단(글래스를 사용하여 수개월 후)으로의 받아들임으로부터 평가되었다. 반복된 측정치들은 SRS-2 및 EGG 스코어들 양쪽 모두에서의 변화들을 분석하기 위해 단-방향 ANOVA를 위해 사용되었다. 참여자들은 또한 모바일 앱 인터페이스상에 피드백을 제공하도록 요청받았다. 다음의 결과들은, 도 20 및 도 21에 예시된 바와 같이 달성되었다. 7.14 포인트들의 평균에 의해 SRS-2 총 스코어들에서 시간에 걸친 상당한 감소가 있었다(F(1,13)=33.20, p=<.001, 보다 높은 스코어들은 보다 높은 ASD 심각도를 나타낸다). EGG 스코어들은 또한 시간에 걸쳐 9.55 정확한 응답들의 평균만큼 상당히 증가되었다(F(1,10)=11.89, p=<.01). 5000분 이상의 비디오 데이터가 기록되었으며 분석되었다. 부모들은 눈 맞춤에서의 증가들 및 보다 큰 사회적 예리함을 보고하였다. 또한, 참여자들은 모바일 앱 상에서의 사용자 경험 설계 변화들을 야기한 혁신적 피드백을 공유하였다.

본 발명의 앞서 말한 설명은 예시 및 설명의 목적들을 위해 제공되었다. 그것은 철저하거나 또는 개시된 정확한 형태로 본 발명을 제한하도록 의도되지 않는다. 다른 수정들 및 변화들은 상기 교시들을 고려하여 가능할 수 있다. 실시예들은 본 발명 및 그것의 실질적인 적용의 원리들을 가장 잘 설명하기 위해, 및 그에 의해 이 기술분야의 다른 숙련자들이 고려된 특정한 용도에 맞는 것으로 다양한 실시예들 및 다양한 수정들에서 본 발명을 가장 잘 이용할 수 있게 하기 위해 선택되고 설명되었다. 첨부된 청구항들은, 동등한 구조들, 구성요소들, 방법들, 및 수단들을 포함하여, 본 발명의 다른 대안적인 실시예들을 포함하는 것으로 해석된다는 것이 의도된다.

본 개시를 판독할 때 이 기술분야의 숙련자들에게 명백할 바와 같이, 여기에서 설명되고 예시된 개개의 실시예들의 각각은 본 발명의 범위 또는 사상으로부터 벗어나지 않고 다른 여러 실시예들 중 임의의 것의 특징들로부터 쉽게 분리되거나 또는 그것과 조합될 수 있는 별개의 구성요소들 및 특징들을 가진다. 임의의 나열된 방법은 나열된 이벤트들의 순서로 또는 논리적으로 가능한 임의의 다른 순서로 실행될 수 있다. 뿐만 아니라, 제공된 각각의 시스템 구성요소 및/또는 방법 단계는 상기 시스템 구성요소 및/또는 방법 단계에 대해 설명된 기능을 수행하기 “위한 수단” 또는 “위한 단계”로 고려되어야 한다. 이와 같이, 나열된 기능을 수행하기 “위한 수단” 또는 “위한 단계”에 관한 임의의 청구항 언어는 나열된 기능을 수행하는 명세서에서의 시스템 구성요소 및/또는 방법 단계, 뿐만 아니라 그것의 등가물들을 나타낸다.

101: I/O 디바이스 105: 프로세서
106: 메모리 107: 컴퓨팅 디바이스
201: 착용 가능한 디바이스 203: 컴퓨팅 디바이스
204: 출력 디바이스 210: 착용 가능한 캡처 디바이스
302: 스마트 안경 303: 이동 디바이스
401: 표정 인식 모듈 402: 시선 추적 모듈
403: 얼굴 추적 모듈 406: 행동 처리 엔진
404: 오디오 처리 모듈 405: 가속도계 데이터 처리 모듈
407: 데이터 캡처 메커니즘

Claims

이미지 처리 시스템에 있어서,
주변 환경의 이미지들을 캡처하기 위한 적어도 하나의 카메라; 및
소프트웨어를 포함한 메모리 및 적어도 하나의 프로세서를 포함하고;
상기 소프트웨어는:
상기 적어도 하나의 카메라에 의해 캡처된 이미지들의 시퀀스를 포함한 데이터를 획득하고;
상기 이미지들의 시퀀스에서 복수의 이미지들 내의 적어도 하나의 사람에 대한 얼굴을 검출하고;
상기 복수의 이미지들에 기초하여 상기 얼굴에서 적어도 하나의 감정 신호(emotional cue)를 검출하기 위해 상기 복수의 이미지들 각각에서 상기 적어도 하나의 사람의 검출된 얼굴에 대해 분류기를 사용하여 중립 특징 추정 및 차감을 수행하고;
상기 감정 신호에 기초하여 적어도 하나의 감정을 식별하고;
치료적 피드백을 제공하기 위해 적어도 하나의 감정 표시자 라벨을 실시간으로 디스플레이하도록 상기 적어도 하나의 프로세서에 지시하는, 이미지 처리 시스템.
제 1 항에 있어서,
상기 시스템은 적어도 하나의 외향 카메라를 포함한 착용 가능한 비디오 캡처 시스템을 포함하는, 이미지 처리 시스템.
제 2 항에 있어서,
상기 착용 가능한 비디오 캡처 시스템은 가상 현실 헤드셋, 혼합-현실 헤드셋, 증강 현실 헤드셋, 및 헤드-업 디스플레이를 포함한 안경으로 이루어진 그룹으로부터 선택되는, 이미지 처리 시스템.
제 2 항에 있어서,
상기 착용 가능한 비디오 캡처 시스템은 적어도 하나의 이동 디바이스와 통신하고, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 이동 디바이스 상에서 실행하는, 이미지 처리 시스템.
제 1 항에 있어서,
상기 소프트웨어는 마이크로폰, 가속도계, 자이로스코프, 눈 추적 센서, 머리-추적 센서, 체온 센서, 심박수 센서, 혈압 센서, 및 피부 전도도 센서로 이루어진 그룹으로부터 선택된 적어도 하나의 센서로부터 캡처된 데이터를 포함한 보조 데이터를 획득하도록 상기 적어도 하나의 프로세서에 지시하는, 이미지 처리 시스템.
제 1 항에 있어서,
상기 치료적 피드백을 제공하기 위해 적어도 하나의 감정 표시자 라벨을 실시간으로 디스플레이하는 것은 헤드-업 디스플레이 내에서 라벨을 디스플레이하는 것, 가청 신호를 발생시키는 것, 진동을 발생시키는 것, 홀로그램 오버레이를 디스플레이하는 것, 및 이미지를 디스플레이하는 것 중 적어도 하나를 수행하는 것을 더 포함하는, 이미지 처리 시스템.
제 1 항에 있어서,
상기 소프트웨어는 이미지 내에서 검출된 얼굴에 관련된 관심 영역 내에서 보다 높은 분해능으로 이미지 데이터를 처리하도록 상기 적어도 하나의 프로세서에 지시하는, 이미지 처리 시스템.
제 7 항에 있어서,
상기 관심 영역은 상기 검출된 얼굴 주위의 경계 영역이고, 상기 이미지 데이터를 처리하는 것은 관심 경계 영역을 평탄화하기 위해 이동 평균 필터를 사용하는 것을 더 포함하는, 이미지 처리 시스템.
제 8 항에 있어서,
상기 소프트웨어는:
얼굴 검출을 수행하는 것;
기준점 얼굴 추적을 수행하는 것;
정준 크기 및 자세로 상기 얼굴의 등록을 수행하는 것;
조명 정규화 전처리를 수행하는 것;
상기 얼굴에 대한 관심 영역에서 기울기 특징 추출의 히스토그램을 생성하는 것;
로지스틱 회귀 분류기(logistic regression classifier)를 통해 상기 얼굴의 표정의 분류를 수행하는 것; 및
상기 결과적인 분류의 필터링에 의해 상기 적어도 하나의 사람에 대한 중립 특징 추정 및 차감을 수행하도록 상기 적어도 하나의 프로세서에 지시하는, 이미지 처리 시스템.
제 1 항에 있어서,
상기 표정 신호는 얼굴 표정들, 얼굴 근육 움직임들, 몸짓 언어, 제스처들, 신체 자세, 눈맞춤 이벤트들, 머리 자세, 대화의 특징들, 손장난, 및 불안 정보로 이루어진 그룹으로부터 선택된 정보를 포함하는, 이미지 처리 시스템.
제 1 항에 있어서,
상기 분류기는 이벤트-기반 사회적 신호들을 제공하는 통계적으로 대표적인 사회적 표현 데이터의 트레이닝 데이터 세트를 사용하여 트레이닝되는, 이미지 처리 시스템.
제 11 항에 있어서,
상기 소프트웨어는 타겟 개인들의 사용자-라벨링된 데이터로 상기 트레이닝 세트를 추가로 보충하도록 상기 적어도 하나의 프로세서에 지시하는, 이미지 처리 시스템.
제 12 항에 있어서,
상기 소프트웨어는 상기 분류기가 상기 트레이닝 데이터에서 다른 개인들의 얼굴에서 적어도 하나의 감정 신호를 검출하는 상기 분류기의 성능과 비교하여 타겟 개인들의 얼굴에서 적어도 하나의 감정 신호를 검출하는 보다 높은 성능을 달성하도록 상기 트레이닝 데이터 및 상기 타겟 개인들의 사용자-라벨링된 데이터를 사용하여 상기 분류기를 트레이닝하도록 상기 적어도 하나의 프로세서에 지시하는, 이미지 처리 시스템.
제 13 항에 있어서,
상기 소프트웨어는:
적어도 하나의 감정 신호 라벨을 갖고 타겟 개인에 대한 데이터를 라벨링하도록 사용자를 촉구하고;
상기 타겟 개인에 대한 상기 사용자-라벨링된 데이터를 메모리에 저장하도록 상기 적어도 하나의 프로세서에 지시하는, 이미지 처리 시스템.
제 1 항에 있어서,
상기 소프트웨어는 사회적 상호작용 데이터를 저장하고 상기 사회적 상호작용 데이터의 리뷰를 위해 사용자 인터페이스를 제공하도록 상기 적어도 하나의 프로세서에 지시하는, 이미지 처리 시스템.
제 1 항에 있어서,
상기 분류기는 연속적인 사회적 신호들을 제공하는 회귀 기계인, 이미지 처리 시스템.
제 1 항에 있어서,
상기 분류기는 표준 얼굴 표정들의 비디오 데이터를 사용하여 및 표현적 말하기 시퀀스들을 갖고 시각적 시간-의존적 분류기들로서 트레이닝되는, 이미지 처리 시스템.
제 1 항에 있어서,
상기 소프트웨어는 외향 비디오 데이터와 함께 적어도 하나의 내향 눈 추적 데이터를 사용하여 시선 이벤트들을 검출하도록 상기 적어도 하나의 프로세서에 지시하는, 이미지 처리 시스템.
제 1 항에 있어서,
상기 소프트웨어는 기록된 활동들의 리뷰를 제공하고 상기 기록된 활동들에 대한 반응으로서 생성된 사용자 행동 데이터를 제공하도록 상기 적어도 하나의 프로세서에 지시하는, 이미지 처리 시스템.
제 1 항에 있어서,
상기 적어도 하나의 사람의 얼굴에 대한 중립 특징 추정 및 차감을 수행하는 것은 중립-차감된 특징들에 대해 트레이닝된 제 1 표정 분류기 및 원래(중립-차감되지 않은) 특징들에 대해 트레이닝된 제 2 2-클래스 중립/표현적 분류기의 출력들에 기초하여 중립 표정 차감을 수행하는 것을 포함하는, 이미지 처리 시스템.
행동 치료 시스템에 있어서,
주변 환경의 이미지들을 캡처하기 위한 적어도 하나의 카메라; 및
소프트웨어를 포함한 메모리 및 적어도 하나의 프로세서를 포함하고;
상기 소프트웨어는,
상기 시스템의 상기 메모리 내에 이전 저장된 복수의 이미지들의 각각에 대해, 특정 감정을 표현하는 사람의 얼굴의 이미지를 디스플레이하는 것으로서, 상기 이미지는 상기 특정 감정과 연관되는, 상기 디스플레이하고;
상기 사람의 얼굴에 의해 보여지는 상기 감정을 예시한 것으로서 상기 사용자가 선택한 감정에 관한 이미지를 보는 사용자로부터 입력을 수신하고;
상기 사용자로부터의 수신된 입력이 상기 특정한 이미지와 연관된 특정 감정과 일치하는지를 결정하고;
그의 선택들에 기초하여 상기 사용자에게 피드백을 제공하도록 상기 적어도 하나의 프로세서에 지시하는, 행동 치료 시스템.
행동 치료 시스템에 있어서:
주변 환경의 이미지들을 캡처하기 위한 적어도 하나의 카메라; 및
소프트웨어를 포함한 메모리 및 적어도 하나의 프로세서를 포함하고;
상기 소프트웨어는:
실시간으로 사람의 비디오를 캡처하고;
적어도 하나의 분류기를 사용하여 상기 사람의 얼굴에 대한 감정을 검출하고;
현재 검출되지 않은 상기 사람에서 유발되어야 하는 상이한 감정에 관한 표시를 제공하고;
상기 감정이 특정한 시간 기간 내에 끌어내어졌는지를 결정하고;
상기 감정을 끌어내기 위한 그들의 능력에 관한 피드백을 상기 시스템의 사용자에게 제공하도록 상기 적어도 하나의 프로세서에 지시하는, 행동 치료 시스템.