KR101502671B1

KR101502671B1 - 상관된 정보의 온라인 분석 및 디스플레이

Info

Publication number: KR101502671B1
Application number: KR1020127023167A
Authority: KR
Inventors: 라민 오. 아사돌라히
Original assignee: 이엑스비 에셋 매니지먼트 게엠베하
Priority date: 2010-02-09
Filing date: 2011-02-09
Publication date: 2015-03-13
Also published as: WO2011098259A1; US20130055076A1; EP2354976A1; US9195662B2; KR20130029045A

Abstract

본 발명은 컴퓨팅 디바이스들에 대한 사용자 인터페이스의 분야에 관한 것이다. 특히, 본 발명은 워크스테이션, 데스크탑 컴퓨터, 태블릿 PC, 랩탑 컴퓨터 및/또는 모바일 디바이스와 같은 컴퓨팅 디바이스상에서 텍스트 문서에 연관되는 정보 엔터티들을 분석하는 디스플레이하는 방법 및 시스템에 관한 것이다. 텍스트 문서를 처리할 때 컴퓨팅 디바이스상에서 연관된 정보 엔터티를 디스플레이하는 방법이 설명된다. 이 방법은 컴퓨팅 디바이스의 디바이스상에 텍스트 문서의 텍스트를 디스플레이하는 단계, 디스플레이된 텍스트의 제 1 부분과 연관되는 제 1 정보 엔터티를 자동으로 결정하는 단계, 및 디스플레이상에 제 1 정보 엔터티를 자동으로 디스플레이하는 단계를 포함한다.

Description

상관된 정보의 온라인 분석 및 디스플레이{ONLINE ANALYSIS AND DISPLAY OF CORRELATED INFORMATION}

본 발명은 컴퓨팅 디바이스들에 대한 사용자 인터페이스들의 분야에 관한 것이다. 특히, 본 발명은 텍스트 문서와 연관된 정보 엔터티들을 분석하여 워크 스테이션, 데스크탑 컴퓨터, 태블릿 PC, 랩탑 컴퓨터 및/또는 모바일 디바이스와 같은 컴퓨팅 디바이스상에 디스플레이하는 방법 및 시스템에 관한 것이다.

컴퓨터 또는 모바일 디바이스상에서 정보를 검색하고 정보를 통해 네비게이팅하는 것은 번거로울 수 있다. 사용자는 특정한 애플리케이션의 상세들, 즉, 사용자 인터페이스 개념, 윈도우 레이아웃 및 메뉴 구조를 학습해야 할 뿐만 아니라 애플리케이션내의 어디에 의도하는 정보가 저장되어 있는지, 즉, 애플리케이션 및 데이터 모델내의 정보의 구성을 학습해야 한다. 유용성 양태로부터, 처리되는 정보의 유형이 고려될 경우에 상황은 훨씬 더 복잡하게 된다. 예로써, 사진들을 구성하는 애플리케이션들, 연락처들을 구성하는 애플리케이션들, 음악을 구성하는 애플리케이션들, 및 다수의 다른 유형들의 정보 엔터티들을 처리하는 다수의 다른 애플리케이션들이 존재한다. 이는, 사용자가 이들 사용자 인터페이스들 및 그 각각의 데이터 모델들 모두를 학습하고 그 모두에 익숙하게 되어야 함을 의미한다. 또한, 사용자는 상이한 정보 엔터티를 검색하기 위해 상이한 애플리케이션을 사용해야 한다.

특히, 고객 컴퓨터들 및 모바일 디바이스들에 있어서, 이용의 용이성을 향상시키고 또한 사용자가 시스템상의 상이한 애플리케이션들을 이용하는 방법을 학습하는 "정신적 비용들"을 경감시키기 위해 데이터를 구성하고 네비게이팅하는 하나의 통합된 접근법을 갖는 것이 명백히 바람직하다. 특히, 사용자에 의해 판독되거나 편집되는 텍스트 문서와 연관되는 정보 엔터티를 자동으로 결정하고 디스플레이하는 사용자 인터페이스를 제공하는 것이 바람직하다.

일 양태에 따르면, 전자 텍스트를 프로세싱시에, 특히, 생성시에, 컴퓨팅 디바이스상에 연관된 정보 엔터티를 디스플레이하는 방법이 설명된다. 컴퓨팅 디바이스는 예를 들어, 워크스테이션, 데스크탑 컴퓨터, 랩탑 또는 태블릿 PC, 또는 모바일 폰 또는 PDA와 같은 핸드헬드 또는 무선 디바이스일 수도 있다. 가능한 정보 엔터티들은 연락처 데이터베이스로부터의 연락처들; 지리적 데이터베이스로부터의 도시 또는 특별한 관심 장소들과 같은 장소들; 파일 저장 애플리케이션으로부터의 문서 파일들, 사진 파일들, 음악 파일들 및 비디오 파일들과 같은 것들; 웹 브라우저 애플리케이션으로부터의 웹 사이트들 또는 이메일 애플리케이션으로부터의 이메일들일 수도 있다. 더욱 일반적으로, 정보 엔터티들 또는 아이템들로 또한 칭하는 엔터티들은 식별 목적을 위한 네임 태그를 포함하는 데이터 유닛들 및 데이터 유닛의 추가의 정보 또는 속성을 포함하는 복수의 콘텐츠 엘리먼트일 수도 있다. 예로써, 엔터티는 인명에 대응하는 네임 태그, 및 사람의 주소, 전화번호, 이메일 주소 등과 같은 복수의 콘텐츠 엘리먼트들 또는 속성들을 갖는 연락처 데이터뱅크에 있어서의 연락처 데이터 유닛일 수도 있다. 다른 예에서, 정보 엔터티는 데이터 파일, 예를 들어, 음악 파일, 사진 파일, 연락처 데이터 파일, 시점을 나타내는 파일, 위치를 나타내는 파일, 이메일 파일, 문서 파일일 수도 있다.

텍스트 문서는 특정한 정보 엔터티일 수도 있다. 예로써, 텍스트 문서는 컴퓨팅 디바이스의 사용자에 의해 구성되거나 생성된 전자 메일일 수도 있다. 디스플레이된 텍스트는 전자 메일의 "제목"란 또는 본문으로부터의 텍스트일 수도 있다. 다른 예에서, 텍스트 문서는 컴퓨팅 디바이스상에 수신되고 열린 문서일 수도 있다. 텍스트의 상이한 부분들이 텍스트 문서를 통해 스크롤할 때 스크린상에 디스플레이된다. 이와 같이, 텍스트 문서의 텍스트는 정보 엔터티의 패시브 텍스트 섹션들, 즉, 특정한 기능과 관련되지 않는 텍스트 섹션들에 관한 것이다. 또한, 텍스트 문서의 텍스트는 프리 텍스트 섹션들, 즉, 특정한 세만틱 제약에 제출되지 않은 텍스트 섹션들에 관한 것이다. 예로써, 텍스트는 유효 커맨드들의 입력을 요구하는 특정한 이메일 주소 포맷 또는 커맨드 라인의 입력을 요구하는 제약된 이메일 "to"필드에 대응하지 않는다.

방법은 컴퓨팅 디바이스의 디스플레이상에 텍스트 문서의 텍스트를 디스플레이하는 단계를 포함한다. 텍스트는 예를 들어, 텍스트를 기록하거나 텍스트를 통해 스크롤하면서 디스플레이될 수도 있다. 상기 나타낸 바와 같이, 텍스트는 통상적으로 세만틱 및/또는 포맷 및/또는 기능 제약에 종속되지 않는다.

방법은 디스플레이된 텍스트의 제 1 부분과 연관되는 제 1 정보 엔터티를 자동으로 결정하는 단계를 포함할 수도 있다. 디스플레이된 텍스트의 제 1 부분은 단어들, 예를 들어, 1개, 2개, 3개, 4개 또는 5개의 단어들의 세트, 또는 디스플레이된 텍스트로부터의 문장일 수도 있다. 제 1 엔터티를 결정하는 단계는 컴퓨팅 디바이스의 사용자에 의해 이슈된 명백한 "탐색" 커맨드에 종속되지 않는다. 자동 결정 단계는 컴퓨팅 디바이스상에 저장된 정보 엔터티들의 세트의 정보 엔터티 중 적어도 2개에 대한 관련성 스코어를 결정하는 단계; 및 제 1 정보 엔터티를 가장 높은 관련성 스코어를 갖는 정보 엔터티로서 결정하는 단계를 포함할 수도 있다. 특히, 자동 결정 단계는 디스플레이된 텍스트의 제 1 부분으로부터 높은 빈도의 단어들을 제거하여 나머지 텍스트를 산출하는 단계; 및/또는 나머지 텍스트와 컴퓨팅 디바이스상에 저장된 정보 엔터티들의 세트의 엔터티들 사이의 오버랩의 정도로서 관련성 스코어를 결정하는 단계; 및/또는 제 1 정보 엔터티를 가장 높은 오버랩의 정도를 갖는 엔터티로서 결정하는 단계를 포함할 수도 있다. 다시 말해, 제 1 엔터티는 제 1 부분과 컴퓨팅 디바이스상에 저장된 엔터티들의 세트 사이의 "유사성" 조사에 기초하여 결정될 수도 있다. 이러한 유사성 조사는 다른 텍스트 문서들의 초록과 키워드들 사이의 정확한 매칭의 결정에 제한되는 순수한 키워드 탐색과는 상이하다.

방법은 디스플레이상에 제 1 정보 엔터티를 자동으로 디스플레이하는 단계를 포함할 수도 있다. 다시 말해, 텍스트 문서의 텍스트에 따라, 제 1 엔터티 또는 제 1 엔터티를 표현하는 인디시아(indicia)가 컴퓨팅 디바이스의 스크린상에 디스플레이될 수도 있다. 이것은 별개의 윈도우에서 행해질 수도 있다. 따라서, 컴퓨팅 디바이스의 사용자는 예를 들어, 디스플레이된 인디시아를 클릭함으로써 제 1 엔터티에 쉽게 액세스할 수도 있다.

방법은 특히, 컴퓨팅 디바이스상에 저장된 정보 엔터티들의 네트워크의 컨텍스트에서 유용하다. 이러한 경우들에서, 정보 엔터티들의 세트는 대응하는 복수의 연관 기록으로 저장될 수도 있다. 제 1 엔터티에 대응하는 연관 기록은 제 1 엔터티와 다른 엔터티 사이의 연관 및/또는 연관 강도를 표시할 수도 있다. 연관된 엔터티들의 네트워크는 제 1 엔터티에 연관된 다른 엔터티를 결정하고/하거나 다른 엔터티를 디스플레이하기 위해 사용될 수도 있다. 다시 말해, 정보 엔터티들 사이의 연관에 대한 저장된 지식은 디스플레이된 텍스트의 제 1 부분에 상관되는 엔터티들을 결정하는데 사용될 수도 있다.

또한, 대응하는 복수의 빈도 표시자들이 저장될 수도 있고, 여기서, 제 1 엔터티에 대응하는 빈도 표시자는 엔터티에 대한 액세스 빈도를 표시한다. 빈도 표시자들은 통상적으로, 대응하는 엔터티가 액세스될 때마다 증가된다. 즉, 방법은 대응하는 제 1 엔터티가 액세스될 때, 제 1 빈도 표시자를 제 1 값만큼 증가시키는 단계를 포함할 수도 있다. 그러나, 엔터티들 사이의 가능한 연관들의 관점에서, 제 1 엔터티에 대한 이러한 액세스는 그것의 연관된 엔터티들의 액세스 빈도들에 또한 영향을 주어야 한다. 다시 말해, 증가된 빈도는 연관 엔터티들에 발산되어야 한다. 이와 같이, 방법은 제 2 엔터티의 제 2 빈도 표시자를 제 2 값만큼 증가시키는 단계를 포함할 수도 있고, 여기서, 제 2 엔터티는 제 1 엔터티와 연관된다. 제 2 값은 제 1 엔터티와 제 2 엔터티 사이의 연관 강도에 의존할 수도 있고/있거나, 제 2 값은 제 1 값에 기초할 수도 있다. 통상적으로, 제 2 값은 제 1 엔터티와 제 2 엔터티 사이의 연관의 감소 정도에 따라 감소해야 한다.

이와 같이, 제 1 엔터티가 텍스트 문헌의 텍스트의 제 1 부분으로부터 결정되었으면, 정보 엔터티들의 네트워크에 저장된 연관들은 컴퓨팅 디바이스의 디스플레이상에 디스플레이될 수도 있는 다른 관련 엔터티들을 결정하기 위해 사용될 수도 있다. 다른 관련 엔터티들의 선택은 각각의 엔터티에 대한 연관 강도 및/또는 각각의 엔터티의 액세스 빈도에 의존할 수도 있다.

상기 약술한 바와 같이, 제 1 엔터티를 결정하는 단계는 텍스트의 제 1 부분으로부터의 높은 빈도의 단어들의 제거를 포함할 수도 있다. 이들 높은 빈도의 단어들은 컴퓨터 디바이스상의 높은 빈도의 단어들의 리스트에 저장될 수도 있다. 또한, 높은 빈도의 단어들의 리스트는 통상적으로, 소정의 언어의 텍스트 자료내에서 높은 발생 빈도를 갖는 소정의 언어내의 단어들을 포함한다. 예로써, 높은 빈도의 단어들의 리스트는 텍스트 자료로부터 10%, 20%, 30%, 40% 또는 50%의 가장 빈번하게 사용된 단어들을 포함할 수도 있다.

나머지 텍스트와 저장된 엔터티 사이의 오버랩의 정도를 결정하는 단계는, 저장된 엔터티로부터 높은 빈도의 단어들을 제거하여 나머지 저장된 엔터티를 산출하는 단계 및/또는 나머지 저장된 엔터티에서 나머지 텍스트의 발생의 수를 결정하는 단계를 포함할 수도 있다. 또한, 나머지 저장된 엔터티내의 나머지 텍스트의 발생의 절대 수는 나머지 저장된 엔터티의 길이에 의해 정규화될 수도 있다. 이러한 목적을 위해, 방법은 나머지 저장된 엔터티의 길이를 결정하는 단계 및/또는 길이에 의해 나눠진 발생의 수로서 발생의 상대 수를 결정하여 오버랩의 정도를 산출하는 단계를 포함할 수도 있다.

오버랩의 정도를 평가할 때, 나머지 텍스트의 프랙션만이 나머지 저장된 엔터티에서 나타난다는 것이 고려될 수도 있다. 예로써, 나머지 텍스트의 발생의 수는 나머지 텍스트의 프랙션, 예를 들어, 제 1 쿼터의 발생의 수를 결정함으로써 결정될 수도 있다. 프랙션의 이러한 발생의 수는 나머지 텍스트의 프랙션, 예를 들어, 쿼터의 길이에 의해 가중될 수도 있다. 일 실시예에서, 나머지 텍스트의 발생의 수는 프랙션의 각각의 길이에 의해 가중된 나머지 텍스트의 다양한 프랙션의 발생의 수의 합으로서 결정될 수도 있다.

나머지 텍스트와 저장된 엔터티 사이의 오버랩의 정도를 결정하는 단계는 나머지 텍스트를 포함하는 엔터티들의 저장된 리스트내의 엔터티들의 수를 결정하는 단계; 및/또는 발생의 상대 수를 나머지 텍스트를 포함하는 엔터티들의 저장된 리스트내의 엔터티들의 수로 나누어 오버랩의 정도를 산출하는 단계를 더 포함할 수도 있다. 그 결과, 저장된 엔터티들내에서 일반적으로 발견되는 나머지 텍스트는 상대적으로 고유한 나머지 텍스트에 비하여 벌점이 부과된다(penalized).

제 1 정보 엔터티를 결정하는 단계는 컴퓨팅 디바이스상에 저장된 정보 엔터티들의 세트의 엔터티를 세그먼트화하는 단계; 및/또는 컴퓨팅 디바이스상에 저장된 정보 엔터티의 세트의 엔터티의 세그먼트와 나머지 텍스트 사이의 오버랩의 정도를 결정하는 단계를 포함할 수도 있다. 다시 말해, 방법은 디스플레이된 텍스트의 제 1 부분과 상관하는 저장된 엔터티내의 특정 세그먼트들을 식별하기 위해 더 개선될 수도 있다.

제 1 정보 엔터티를 결정하는 단계는 컴퓨팅 디바이스상에 저장된 정보 엔터티의 세트의 엔터티에 대한 액세스 빈도를 결정하는 단계; 및/또는 엔터티의 오버랩의 정도를 액세스 빈도로 가중하는 단계를 더 포함할 수도 있다. 엔터티에 대한 액세스는 사용자 또는 프로세서에 의해 엔터티의 "열기" 또는 "사용"을 포함할 수도 있다. 예로써, 사진 파일은 그 사진 파일을 열어서 사진을 스크린상에 디스플레이함으로써 액세스될 수도 있다. 액세스 빈도는 각각의 엔터티에 대한 각 액세스시에 증가되는 카운터일 수도 있다. 또한, 액세스 빈도는 과거의 액세스 보다 최근의 액세스를 강조하기 위해, 시간에 따라 약해진다. 또한, 액세스 빈도는 기간내에서 정보 엔터티에 대한 모든 액세스에 걸쳐 정규화된 상대적 액세스 빈도일 수도 있다.

방법은 제 1 복수의 연관된 엔터티들을 결정하는 단계; 및/또는 오버랩의 순서에 의해 제 1 복수의 연관된 엔터티들을 디스플레이하는 단계를 포함할 수도 있다. 다시 말해, 제 1 복수의 연관된 엔터티들이 디스플레이되고, 즉, 그들의 대응하는 인디시아가 디스플레이되어, 더 높은 오버랩의 정도를 갖는 엔터티가 더 낮은 오버랩의 정도를 갖는 엔터티 보다 더 높은 시각적 두드러짐을 갖는다.

방법은 디스플레이된 텍스트의 제 2 부분과 연관되는 제 2 복수의 엔터티들을 결정하는 단계로서, 제 2 부분은 디스플레이된 텍스트의 제 1 부분과는 상이한, 상기 제 2 복수의 엔터티들을 결정하는 단계; 및/또는 제 1 복수의 연관된 엔터티들 및 제 2 복수의 연관된 엔터티들의 컷 세트(cut set)를 결정하는 단계를 포함할 수도 있다. 컷 세트의 사이즈가 임계값 보다 작으면, 제 1 복수의 연관된 엔터티들을 디스플레이하는 것이 바람직하다. 컷 세트의 사이즈가 임계값 보다 크면, 컷 세트내에 포함된 엔터티들을 디스플레이하는 것이 바람직하다. 다시 말해, 방법은 텍스트의 제 1 부분 및 텍스트의 제 2 부분이 상이한 개별 토픽들과 관련되는지를 결정할 수도 있어서, 연관된 엔터티들의 세트들이 분리된다. 세트들이 분리되면, 바람직하게는 세트들 모두가 스크린상에 디스플레이된다. 그렇지 않으면, 2개의 세트들이 분리되지 않으면, 바람직하게는, 2개의 세트들의 컷-세트가 디스플레이된다.

유사한 방식으로, 제 1 정보 엔터티를 결정하는 단계는 연관된 엔터티를 결정하기 위해 사용된 디스플레이된 텍스트의 제 1 부분을 점진적으로 연장하여, 제 1 엔터티의 결정을 개량하는 단계를 포함할 수도 있다. 즉, 제 1 부분에 포함된 워드들의 수가 연장되어, 유사한 정보 엔터티들에 대한 탐색을 한정한다.

일 실시예에서, 정보 엔터티들의 세트의 엔터티는 유니버설 카테고리들의 리스트의 유니버설 카테고리에 할당되거나 그와 연관된다. 유니버설 카테고리들의 리스트는 "사람"과 연관된 카테고리, "장소"와 연관된 카테고리, "시간"과 연관된 카테고리, 및 "사물"과 연관된 카테고리를 포함할 수도 있다. 이와 같이, 정보 엔터티들은 유니버설 카테고리들에 의해 제공된 구조에 따라 표현될 수도 있다. 그 결과, 결정된 엔터티들, 즉, 특히, 제 1 엔터티 및 다른 엔터티는 할당된 유니버설 카테고리에 따라 디스플레이될 수도 있다. 예로써, 디스플레이된 텍스트에 연관된 엔터티들은 별개의 윈도우들에 디스플레이될 수도 있고, 각 윈도우는 유니버설 카테고리에 전용된다.

다른 예에 따르면, 컴퓨팅 디바이스가 설명된다. 컴퓨팅 디바이스는 텍스트 문서의 텍스트를 디스플레이하도록 구성된 디스플레이; 및/또는 디스플레이된 텍스트의 부분과 연관된 정보 엔터티를 자동으로 결정하도록 구성된 프로세서를 포함할 수도 있다. 프로세서에 의해 수행된 결정은 디스플레이된 텍스트의 부분으로부터 높은 빈도의 단어들을 제거하여 나머지 텍스트를 산출하고, 나머지 텍스트와 컴퓨팅 디바이스상에 저장된 정보 엔터티들의 세트의 엔터티들 사이의 오버랩의 정도를 결정하고/하거나 연관된 정보 엔터티를 가장 높은 오버랩의 정도를 갖는 엔터티로서 결정하는 것을 포함할 수도 있다. 디스플레이는 디스플레이상에 연관된 정보 엔터티를 자동으로 디스플레이하도록 또한 구성될 수도 있다.

본 발명의 목적들 및 특징들은 바람직한 실시예들의 아래의 설명으로부터 명백해질 것이다. 본 발명은 첨부한 도면들에 개략적으로 예시된 예시적인 실시예들을 참조함으로써 아래에 설명된다.

도 1은 종래의 파일 구조를 예시한다.
도 2는 네트워킹된 파일 구조를 예시한다.
도 3은 네트워킹된 파일 구조를 사용하는 사용자 인터페이스를 예시한다.

컴퓨터 운영 시스템들에서 종래의 파일 시스템들(122)은 일반적으로, 파일들(예를 들어, 도 1의 참조 부호 106) 및 폴더들(예를 들어, 도 1의 참조 부호 100)을 갖는다. 파일들은 통상적으로, 하나의 애플리케이션 또는 일종의 애플리케이션들, 예를 들어, "jpg" 파일들에 대해 종종 특정한 어떤 데이터를 포함한다. 이들 파일들을 열 때, 일반적으로, 운영 시스템은 파일명의 확장자 또는 유사한 (외부) 정보를 찾아 이들을 프로세싱하는데 어떤 애플리케이션을 사용할지를 추론한다. 예를 들어, 확장자 ".jpg"를 갖는 파일은 사진들을 디스플레이할 수 있거나 사진들을 구성할 수 있는 소프트웨어와 연관된다.

종래의 파일 시스템들에서, 파일들은 일반적으로, 파일들(106, 108, 110, 112, 116)을 함께 그룹화하는 폴더들(118, 100, 102, 104, 114)에 보관된다. 일반적으로, 파일은 하나의 장소, 즉, 정확하게는 하나의 폴더내에 단지 보관된다. 폴더는 어떤 파일들 및 다른 폴더들이 그 안에 저장되는지의 기록을 보관하는 메모리에 저장된 데이터 구조(120)이다. 폴더들이 다른 폴더들(예를 들어, 폴더(118)내의 폴더(100))을 포함하지만, 파일들은 폴더들을 포함하지 않는다. 일반적으로, 파일 시스템은 모든 폴더들의 "마더(mother)"인 소위 루트 폴더(118)를 갖는다. 따라서, 종래의 파일 시스템들은 계층적 방식으로 구성된다. 루트 폴더(118)가 파일들 및 다른 폴더들(100, 102)을 포함하고, 이들 다른 폴더들(100)이 폴더들(104), 파일들(106, 108)을 다시 포함한다. 이것은 도 1에 예시된 바와 같은 트리형 구조(122)를 필연적으로 야기한다.

설명된 종래의 파일 시스템들의 적어도 3개의 양태들은 문제점이 있는 것으로 보인다.

1) 파일은 하나의 장소에만 보관될 수 있다. 이것은 컴퓨터 사용자, 예를 들어, 프로젝트 관리자가 다중의 프로젝트들에 이용가능한 하나의 파일을 갖기를 원하는 경우에 문제일 수도 있다. 이러한 문제점을 다루기 위한 종래의 방식은 파일의 다중의 카피들을 생성하여 이들을 상이한 폴더들에 저장하는 것이다. 그러나, 이것은 데이터 무결성 문제들 뿐만 아니라 필요한 저장 공간의 증가를 초래한다.

2) 계층적 트리형 구성의 개념은 상이한 파일들 사이에서 복잡한 상호의존을 나타낼 때 적절하지 않을 수도 있다. 이러한 상호의존은 컴퓨팅 디바이스의 사용자의 패시브 또는 액티브 지식을 반영할 수도 있다. 파일들의 하나의 계층이 토픽의 특정한 양태를 표현하는데 적합할 수도 있고, 파일들의 상이한 계층이 상이한 양태를 표현하는데 적합할 수도 있다. 따라서, 사용자가 적합한 계층에 관하여 사전에 생각하는 것은 복잡해지고 심지어 이것은 추후의 스테이지에서 부적절한 것으로 나타날 수도 있다. 종래의 파일 시스템이 파일들의 콘텐츠에 관한 많은 통찰력을 갖지 않아서, 파일 내에 포함된 정보의 검색이 문제가 있을 수도 있다는 것이 추가되어야 한다. 다시 말해, 데이터의 계층적 트리형 구성은 파일들 및 그 파일들내에 포함된 정보의 목표로 하는 검색에 적절한 것으로 보이지 않는다.

3) 폴더들 및 파일들의 트리형 구성은 사용자가 파일/폴더 트리의 계층들을 통해 길게 이동하게 한다. 마이크로소프트 익스플로러와 같은 종래의 파일 브라우저들은 폴더의 콘텐츠를 나타내기 위해 사용자가 폴더를 더블 클릭할 것을 요구한다. 따라서, 프로젝트들이 깊은 계층적 파일 시스템에서 구성되면, 원하는 파일을 얻기 위해서는 사용자가 다수의 클릭을 수행할 것을 요구한다.

폴더 계층을 가로질러 문서들을 찾기 위해, 즉, 사용자가 파일 구조내의 저장 위치를 알지 못하는 문서들을 사용자가 찾는 것을 지원하기 위해, 종래의 컴퓨터 운영 시스템들(OS)은 탐색 인디시아들을 보유하는 배경에서 구동하는 프로그램들을 제공한다. 이들 탐색 엔진들은 탐색 인디시아들의 리스트를 보유하기 위해 파일들을 "조사"한다. 사용자에 의해 인보크될 때, 탐색 엔진들은 문서들이 하나 이상의 소정의 탐색 워드들(키 워드들이라 또한 칭함)을 포함하는지에 기초하여 문서들의 리스트를 작성한다. 종래의 탐색 엔진들은 어휘에서의 각 워드에 대해 그 워드가 발생한 문서들을 저장하는 단순한 "역방향 룩업 인덱스(reverse lookup index; RLI)"를 보유한다. 사용자가 탐색 엔지에 워드를 입력할 때, 워드가 룩업되고 특정한 워드를 포함하는 문서들이 사용자에게 제공된다. RLI를 보유하기 위해, 모든 문서는 인덱싱되어야 한다. 이것은 문서가 시스템에 추가될 때 마다 트리거될 수 있다. 그러나, RLI는 문서들의 전체 유사성에 관하여 어떠한 정보도 제공하지 않는다는 것에 유의해야 한다. RLI는 단지 키 워드들의 식별에 기초한다.

종래의 파일 시스템들의 상기 언급한 취약점은 데이터를 표현하는 연관적 네트워킹된 방식을 도입하고 저장된 데이터 사이의 연관성을 자동으로 생성함으로써 본 명세서에서 다루어진다. 파일들의 이러한 네트워킹된 표현(218) 및 파일들 사이의 연관성이 도 2에 예시되어 있다. 네트워킹된 표현(218)을 사용할 때, 파일(202)은 다른 파일들(206, 208, 210, 204)에 임의적으로 연관될 수 있고, 그 반대의 경우도 가능하다. 파일들 사이의 연관성이 도 2에서 라인들(120)을 연결함으로써 도시된다. 따라서, 파일들 사이에는 더 이상 계층이 없다. 사용자는 206을 통해 파일(202)로부터 파일(208)로 또는 파일(206)로부터 파일(208)로 네비게이팅할 수 있다. 이와 같이, 네트워킹된 표현(218)은 네트워크내의 모든 파일들 사이의 연관성을 플렉시블하게 설명하여 데이터 검색의 플렉시블한 수단을 가능하게 하기 위해 사용될 수도 있다.

종래의 파일 시스템으로부터 네트워킹된 파일 시스템으로의 변환 프로세스가 이하 더 상세히 설명될 것이다. 이러한 변환 프로세스는 종래의 파일 시스템에서의 폴더들에 대응하는 새로운 파일들의 생성을 수반할 수도 있다. 이러한 방식으로, 네트워킹된 파일 표현의 이점들을 추가하면서 파일들 및 폴더들의 이전의 계층적 구성이 보존될 수 있다. 예로써, 파일(202)은 계층적 파일 시스템으로부터 네트워킹된 파일 시스템으로의 변환 이전에 폴더이었을 수도 있다. 이전의 폴더(202)는 서브-폴더로서 파일(212)을 포함하는 서브-폴더로서(파일로 또한 변환된) 이전의 폴더(210) 뿐만 아니라 파일들(206 및 208)을 포함할 수도 있다.

지식의 네트워크, 즉, 파일들 사이의 연관성의 네트워크의 자동 생성은 파일들의 콘텐츠의 분석에 의존하고, 콘텐츠에 관하여 유사한 파일들을 서로에 연관시키는 것을 허용한다. 따라서, 네트워킹된 파일 시스템은 파일과 연관되는 파일들에 관한 각 파일을 갖는 추가의 정보를 보유한다. 따라서, 하나의 문서 또는 파일의 검색은 검색된 문서 또는 파일과 연관되는 유사한 콘텐츠의 다른 문서들 또는 파일들의 "공동 활성화"를 초래할 수 있다.

파일 시스템의 네트워킹된 표현(218)이 파일 시스템의 필수부 또는 상이하게 구성된 파일 시스템상의 추가의 액세스 층으로서 사용될 수도 있다는 것에 유의해야 한다.

상기 나타낸 바와 같이, 다중의 문서들의 콘텐츠가 분석될 수도 있고 유사한 콘텐츠를 갖는 상이한 문서들이 서로 연관될 수도 있다. RLI에 추가하여, 기록이 각 문서 또는 파일, 또는 더욱 일반적으로는, 각 정보 엔터티에 대해 보유될 수도 있다. 기록은 특정한 문서 또는 파일에 연관된 문서들 또는 파일들의 리스트를 포함한다.

문서들 사이의 관계의 검출 및 표시는 문서들 사이의 관계의 정도를 나타내는 스코어(214)에 기초할 수도 있다. 예를 들어, 스코어(234)가 제로이면, (파일(202)과 파일(232) 사이의 점선으로 나타낸 바와 같이) 2개의 문서들 사이에 연관성은 없다. 더 높은 스코어가 문서들 또는 파일들 사이의 더 강한 연관성을 나타낸다. 2개의 파일들 사이의 (실선들(120)에 의해 표시된) 모든 연관성은 연관성의 강도를 나타내는 스코어를 갖는다.

스코어는 사용자 정의될 수 있거나 자동으로 계산될 수 있다. 일 실시예에서, 사용자는 파일들을 서로 수동으로 연관시키고 자동 연관의 도움없이 문서들의 네트워크를 구축하도록 인에이블된다. 이러한 수동 연관은 2개 이상의 정보 엔터티들, 예를 들어, 문서들 또는 파일들 사이의 연관을 용이하게 하고, 소코어들 또는 연관성 강도들의 세팅을 용이하게 하는 그래픽 사용자 인터페이스에 의해 지원될 수도 있다. 그러나, 대형 문서 수집에 대해서는, 문서들이 자동으로 연관되고 그들의 스코어들이 그에 따라 설정되는 것이 바람직하다.

연관성 강도를 나타내는 스코어는 예를 들어, 문서 유사성의 결과일 수도 있다. 즉, 스코어는 2개의 문서들이 그들의 콘텐츠의 소정의 양태에 관하여 얼마나 유사한지에 의존할 수도 있다. 2개의 문서들이 유사하지 않으면, 문서 유사성 계산은 제로의 스코어(참조 부호 234)를 발생시킬 수도 있고, 2개의 문서들은 연관되지 않을 수도 있다(예를 들어, 파일(202) 및 파일(232)).

사용자가 특정한 문서를 검색할 때 마다, 네트워킹된 파일 시스템은 검색된 문서에 대한 유사한, 즉, 강하게 연관된 문서들, 즉, 검색된 문서와 연관되는 문서들을 또한 리스트할 수도 있다. 문서 유사성은 동일한 키 워드들의 단순한 공유와는 상이하다는 것에 유의해야 한다. 예로써, 검색된 문서는 탐색 워드에 따라 선택되었을 수도 있지만, 검색된 문서와 함께 리스트된 연관된 문서들은 탐색 워드를 포함할 필요가 없을 수도 있다. 이것은 플레인 RLI 기반 탐색 엔지에 비하여 우수한 성능을 초래할 수도 있다.

문서 유사성은 상이한 방식들로 계산될 수도 있다. 문서 유사성은 텍스트 또는 다른 정보를 포함하는 2개의 정보 엔터티가 연관성을 증명하는데 충분히 유사한지 여부 및 또한 이러한 연관성이 얼마나 강해야 하는지를 결정하기 위해 사용될 수도 있다.

일 구현에서, 2개의 텍스트들의 유사성은 높은 빈도의 워드들, 즉, "a", "the", "and" 등과 같은 텍스트 자료들에서 매우 종종 발생하는 워드들을 먼저 필터링함으로써 액세스될 수도 있다. 통상적으로, 높은 빈도의 워드들은 너무 많은 세만틱 포커스를 갖지 않는다. 다음 단계에서, 문제의 2개의 텍스트들 각각에 대한 고유 워드들의 리스트가 상기 언급한 빈도 필터링의 리마인더에 기초하여 구축될 수도 있다. 다음으로, 2개의 문서들의 워드들의 컷 세트는 나머지 워드들의 오버랩의 범위를 평가하기 위해 계산될 수도 있다. 이것은 2개의 문서들 또는 텍스트들이 유사하지 여부를 결정하기 위한 초기 방식일 수도 있다.

개선은 일부 스코어에 따라 컷 세트에서 워드들의 가중일 수도 있다. 통계적인 자연 언어 프로세싱(참조로 포함된 C. D. Schutze 및 H. Manning에 의한 "Foundations of statistical natural language processing")에 대한 텍스트 북은 "역방향 문서 빈도"에 의해 승산된 "워드 빈도, 즉, 워드가 발생하는 문서 수집에서 문서들의 상대 수로 나눈 하나의 문서내의 워드의 발생의 빈도에 의해 제공된 가중을 제안하는 "td.idf"라 칭하는 가중 방식을 설명한다. 그 결과, 하나의 문서내에서 종종 발생하지만 다른 문서들에서는 거의 사용되지 않는 워드들이 중요한 것으로 고려될 것이다. 워드에 대한 최상의 스코어는, 워드가 문서 수집에서는 거의 발생하지 않을 뿐만 아니라 단일 문서에서 매우 자주 발생할 때 달성될 것이다.

네트워킹된 파일 시스템의 생성의 컨텍스트에서 이러한 가중의 문제점은, 문서 수집, 즉, 파일 시스템이 스크래치로부터 구축된다는 것이다.

그 결과, 문서들이 파일 시스템의 구축의 초기 스테이지에서 분석되고 비교될 때, 워드들의 가중은 추후 스테이지에서 분석되는 문서들에 비교하여 다를 것이다. 이것은 일반적으로 바람직하지 않다.

이러한 문제점은 문서 빈도와는 대조적으로 일반 워드 빈도를 사용함으로써 다루어질 수도 있다. 이것은, 분석 시스템이 언어가 사용자에게 전달될 때 빈도와 함께 언어의 워드들을 포함하는 사전로딩된 사전을 사용한다는 것을 암시한다. 제 2 가능은 통상의 사용자 데이터를 반영하는 자료로부터 획득된 문서 빈도들과 함께 이러한 사전로딩된 사전을 갖는 것이다. 양자의 경우들에서, 워드의 개인적인 주관적 중요성은 사용자의 문서들 자체에서 볼 때 보다 덜 중요하다. 다른 가능성은 파일 시스템에 저장된 문서들의 전체 세트를 분석하고, 제 1 런(run)에서 워드 빈도들을 수집하여 제 2 런에서 이러한 워드 빈도들을 사용하여 문서들을 연관시키는 것이다.

또한, 문서들의 유사성을 분석할 때 고려될 수도 있는 팩터들이 텍스트의 길이(또는 텍스트들에서 상이한 수의 고유 워드들)이다. 2개의 문서들을 연관시키는 것을 고려하기 위해, 2개의 문서들은 거의 동일한 수의 고유 워드들을 가질 필요가 있다는 규칙이 적용될 수도 있다.

또한, 단일 워드들의 리스트 뿐만 아니라 2개의 이상의 워드들의 어구들이 텍스트의 유사성을 결정하기 위해 사용될 수도 있다. 이것은 결정의 정밀도에 영향을 미칠 수도 있다. 2개의 문장들 "자동차가 고장났다(The car is broken)" 대 "자동차가 고장나지 않았다(The car is not broken)"를 고려한다. 먼저, 높은 빈도의 워드들인 "The" 및 "is"가 필터링될 수도 있다. 그 후, 문장은 2/3의 오버랩을 갖는다("car" 및 "broken"이 공유되고 "not"은 공유되지 않는다). 이것은 연관될 텍스트들을 한정할 수도 있다. 단지 2개의 워드들만의 어구들을 이용할 때, 오버랩은 감소되고, 즉, "car broken" 대 "car not" & "not broken". 그 결과, 유사성에 대한 분석의 품질은 비교될 어구들의 길이를 증가시킴으로써 증가될 수도 있다.

문서들 사이의 연관성을 구축하는 방법은 선택된 세그먼트들에 다른 문서들을 연관시키기 이전에 문서들을 세그먼트함으로써 더 연장될 수도 있다. 예를 들어, 책이 챕터들로 분할될 수도 있거나 제품의 설명은 제품의 상이한 양태들(사진들, 설치, 처리, 클리닝 또는 기술적 사양)로 분해될 수도 있다. 이러한 세그먼트는 연관된 문서들의 정확도를 증가시킨다. 그 후, 문서들 사이의 연관성을 보유하는 기록들이 문서들의 세그먼트들 사이의 연관성을 보유하는 기록들로 연장된다.

네트워크 표현(218)내의 문서들은 문서가 사용자에 의해 액세스된 빈도를 나타내는 카운터와 더 연관될 수도 있다. 예로써, 도 2에서의 파일(204)은 카운터(220)에 나타낸 바와 같이 12회 액세스되었다. 일 양태에 따르면, 검색된 문서와 연관된 문서들은 이들이 사용자에 의해 액세스되지 않았더라도 그들의 빈도를 또한 증가시킬 수도 있다. 이러한 빈도 증가는 실제로 검색된 문서의 빈도 증가 이하일 수도 있다. 예를 들어, 검색된 문서(202)가 10의 사용 빈도에서의 증가를 초래하면, 사용자에 의해 액세스될 때, 그것의 연관된 문서들(204, 210, 208, 206)은 5의 증가를 초래할 수도 있다. 이러한 공동 활성화 기반 증가는 네트워크에서 제 2 순서의 문서들(예를 들어, 원래 파일(202)이 활성화/액세스될 때의 파일(212) 내지 파일(210)의 빈도 증가)까지 연장할 수도 있다. 증가의 강도는 가우시안 곡선의 분포를 취할 수도 있거나 전승된 빈도 증가는 중간 파일들, 즉, 중간 정보 엔터티들의 수와 지수적으로 감소할 수도 있다. 또한, 증가의 강도는 연관 강도, 즉, 스코어에 의존할 수도 있거나 스코어에 의해 가중될 수도 있다. 이러한 가중치는 모든 직접 연관된 연결들의 연관 강도를 가산하고 이들 각각을 0.0과 1.0 사이의 가중치를 산출하는 이러한 합으로 나눔으로써 계산될 수도 있다.

문서 액세스 빈도들은 선택된 파일들의 세트의 파일들 또는 엔터티들을 가장 높은 액세스 빈도들을 갖는 사용자에게 제공하기 위해 사용될 수도 있다는 것에 유의해야 한다. 예로써, 사용자가 파일(202)을 검색하면, 연관된 파일들(206, 208, 210 및 204)은 그들의 카운터들에 의해 랭크된, 즉, 사용 빈도들에 의해 랭크된 사용자에게 제공될 수도 있다. 그 결과, 파일들은 순서 204(카운트 12, 220), 210 (카운트 9, 228), 208 (카운트 4, 226), 및 206 (카운트 2, 224)에 디스플레이된다.

파일들의 네트워킹된 표현(218)이 루트 파일 또는 폴더를 갖지 않기 때문에, 문서를 검색하는 개시(예를 들어, Microsoft Windows의 "익스플로러"의 열기 또는 Mac OS에서의 "Finder"의 열기 또는 Unix shells에서 "Is" 타이핑)는 네트워킹된 표현을 사용하는 파일 시스템에서 상이해야 한다. 사용자가 상이한 "액세스 포인트들"로부터 데이터 네트워크의 네비게이팅을 시작할 수 있도록 사용자에게 일부 초기 문서들을 제공하는 것이 명백하게 바람직하다. 이러한 액세스 포인트들은 이하 약술하는 바와 같이 문서 클러스터들에 의해 정의될 수도 있다. 또한, 액세스 포인트들은 상이한 정보 엔터티들의 카테고리화를 수행함으로써 정의될 수도 있다. 추후 스테이지에서 약술되는 바와 같이, 네트워크내의 상이한 정보 엔터티들은 유니버셜 카테고리들 및 서브-카테고리들에 할당될 수도 있어서, 적절한 액세스 포인트들을 제공하기 위해 사용될 수도 있는 계층적 오버레이 표현을 생성한다.

문서들의 클러스터들은 서로에 강하게 상호연결되지만 다른 클러스터들에는 강하게 연결되지 않는 문서들의 그룹들이다. 따라서, 검색 세션의 개시에서, 사용자는 모든 하나의 클러스터를 지칭하는 제공된 한 쌍의 문서들을 얻을 수도 있다. 제공된 문서들은 통상적으로, 그들의 클러스터들에 대해 가장 높은 액세스 빈도를 갖는다. 도 2에 제공된 예에 있어서, 2개의 클러스터들, 서로 연관되지 않은 파일(202) 및 파일(232) 주위의 네트워크가 있다. 사용자는 문서(202)를 검색할 수도 있고 제공되는 연관된 파일들(204, 210, 208 및 206)을 얻을 수도 있다.

요약하면, 문서들 또는 정보 엔터티들의 네트워킹된 표현이 설명되었다. 네트워킹된 표현을 사용하여, 상이한 문서들이 연관될 수도 있고 문서들 사이의 연관성은 연관 강도에 의해 특징될 수도 있다. 또한, 상이한 문서들에 대한 액세스의 빈도를 나타내는 기록이 보유될 수도 있다. 연관 강도에 의존하여, 하나의 정보 엔터티에 대한 액세스의 빈도는 연관된 정보 엔터티에 부분적으로 전승될 수도 있다. 이것은 특정한 최소 액세스 빈도를 갖는 문서들만이 사용자에게 제공되거나 문서의 검색시에, 특정한 최소 액세스 빈도를 갖는 연관된 문서들만이 사용자에게 제공되는 파일 시스템에 대한 뷰를 초래할 수도 있다.

또한, 정보 엔터티들은 개인 또는 회사에 대한 데이터를 갖는 엔터티들을 포함하는 "사람" 카테고리, 음악 파일, 사진, 이메일 등에 대한 엔터티를 포함하는 "사물" 카테고리, 국가, 도시, 빌딩 등에 대한 엔터티들을 포함하는 "장소" 카테고리, 및 시점에 대한 엔터티들을 포함하는 "시간 라인" 카테고리와 같은 유니버셜 카테고리들에서 구성될 수도 있다. 유니버셜 카테고리들은 서브-카테고리들에서 구성될 수도 있고 네트워킹된 파일 시스템에 대한 액세스 포인트들을 제공할 수도 있다. 그러나, 카테고리들 및 서브-카테고리들로 정보 엔터티들을 구성하는 것에 관계없이, 정보 엔터티들은 서로 자유롭게 연관될 수도 있다. 예로써, "음악 파일"에 대한 엔터티는 "사람"에 대한 엔터티와 연관될 수도 있고, "사진 파일"에 대한 엔터티는 "시점" 및/또는 "장소"와 연관될 수도 있다.

상기 언급한 엔터티들의 네트워킹된 표현은 임의의 종류의 엔터티들 사이의 임의의 연관을 허용한다. 엔터티들 사이의 연관은 각 엔터티와의 연관 기록을 정의함으로써 구현될 수도 있고, 여기서 연관 기록은 각각의 엔터티와 연관되는 엔터티들에 대한 링크를 포함한다. 또한, 연관 기록은 연관된 엔터티들 사이의 연관의 강도를 나타낼 수도 있다. 또한, 빈도 표시자가 정보가 사용자에 의해 액세스되는 빈도를 표시할 수도 있어서, 가장 빈번하게 사용된 엔터티의 검색 및 디스플레이를 용이하게 한다.

정보 엔터티들의 네트워킹된 표현은 네트워크내에 관련 지식을 저장하기 위해 사용될 수도 있다. 특히, 지식은 상이한 정보 엔터티들 사이의 연관 뿐만 아니라 연관 강도 및 액세스 빈도에 의해 저장된다. 이러한 지식은 새로운 연관을 생성하고 연관 강도 및 빈도 표시자들을 업데이트함으로써 지속적으로 업데이트되고 확장될 수도 있다.

또한, 정보 엔터티의 네트워킹된 표현내에 저장된 지식은 예를 들어, 현재 사용되는 정보 엔터티들을 연관된 엔터티들과 상관시킴으로써 지식 작업자의 작업을 지원하기 위해 사용될 수도 있다. 일 실시예에서, 문서의 인지된 콘텐츠, 즉, 정보 엔터티는 실시간으로 분석될 수도 있고, 인지된 콘텐츠와 상관되는 정보가 디스플레이될 수도 있다. 아래에서, 엔터티들의 네트워킹된 표현의 이러한 사용의 일례가 약술된다.

현대의 컴퓨터 시스템들은 정보를 소비하고 생성하는데 대부분 사용된다. 지식 작업자들은 문서를 리뷰해야 하고, 기사를 읽어야 하고, 인터넷상에서 연구를 해야 하고, 그 후, 가능하면, 새롭게 획득한 지식을 모아 지적으로 처리한 결과인 새로운 문서로 그 수집한 지식을 통합 정리해야 한다. 상기 나타낸 바와 같이, 사용자의 문서들은 통상적으로 특정한 계층들(예를 들어, 프로젝트 또는 클라이언트)에서 구성된 폴더 구조에 저장된다. 다른 정보는 인터넷상에서 입수가능하거나 추후에 이메일 애플리케이션내에 저장되는 이메일에 저장된다.

그 결과, 종래의 운영 시스템들에서는, 사용자는 소정의 분야의 지식을 수집하기 위해 다중의 메뉴 및 조직 구조를 학습하는 다중의 애플리케이션들에 대해 작업해야 한다. 더욱 나쁘게는, 지식이 쉽게 액세스될 수 없는 경우에, 사용자는 읽을 관련 문서를 찾기 위해 로컬 또는 인터넷 기반 탐색 엔진들을 이용해야 한다.

이와 같이, 상이한 소스들로부터 상이한 종류의 정보를 수집하기 위한 부담 및 노력을 감소시키는 것이 바람직하다. 특히, 사용자가 정보의 소스를 소비할 때와 동시에 적절한 관련 정보를 제공하여 하나의 문서를 읽기로부터 적절한 문서들을 찾기까지의 경로를 단축시키는 것이 바람직하다.

예시적인 경우에서, 사용자는 웹-브라우저에서 페이지를 열고 예를 들어, 개별 윈도우에 제공된 연관된 개인 지식을 얻는다. 제 2 예에서, 사용자는 이메일을 수신하여 디스플레이된 연관된 지식을 얻는다. 다시 말해, 사용자는 문서, 예를 들어, 워드 파일, 이메일 또는 웹사이트를 보고, 소프트웨어는 그 문서의 콘텐츠를 분석하여, 사용자의 디바이스에 이미 저장된 유사한 문서들을 즉시 나타낸다. 그 결과, 사용자에게는 그가 소비하는 새로운 데이터에 관한 개인 컨텍스트가 제공될 수 있다. 사용자가 특정한 토픽에 관한 기사를 읽을 때, 현재의 기사와 사용자의 문서 수집 사이의 문서 유사성이 계산될 수 있다. 이러한 분석의 결과로서, 상위 n개의 문서들, 즉, n개의 가장 적절한 관련 문서들이 사용자에게 보여질 수 있다.

다시 말해, 사용자가 다른 문서 또는 미디어를 소비하는 동안 관련 정보 엔터티들, 예를 들어, 문서들, 파일들 등의 리스트를 사용자에게 제공하는 것이 제안된다.

이와 같이, 미디어의 소비는 이미 저장된 개인 데이터에 의해 수반되어서, 사용자는 이러한 개인 컨텍스트에 새로운 지식을 쉽게 수록할 수 있다. 연관된 지식에 대한 사용자의 액세스는 이러한 개념에 의해 매우 단순화되고, 이미 입수한 지식이 제공된 새로운 데이터를 이해하기 위해 사용되는 가능성이 증가된다.

종래의 기술은 사용자에 의해 명시적으로 인보크되어야 하는 시스템-와이드(system-wide) 탐색 엔진들을 사용하고, 그 후, 사용자는 문서들의 수집을 획득하기 위해 일부 키워드들을 입력해야 한다. 이러한 종래의 접근방식은 몇몇 문제점을 갖는다. 1) 사용자는 탐색 엔진을 인보크해야 하고, 이것은 이미 추가의 인지 노력이고; 2) 사용자는 정확한 키워드를 선택해야 하며; 3) 사용자는 결과에서의 문서들을 능동적으로 리뷰해야 한다.

사용자에게 연관된 지식을 자동으로 제공하는 개념은 매칭 결과의 품질을 향상시키면서 연관된 지식을 얻는 절차의 복잡도를 감소시키려는 것이다. 매칭 결과의 향상된 품질은 단지 키워드 매칭 보다는 오히려 문서 유사성의 계산에 의해 달성될 수도 있다. 또한, 정보 엔터티들의 네트워크내에 상이한 문서들의 저장은 적절한 관련 문서들을 결정하는데 사용될 수도 있는 연관의 플렉시블한 생성 및 검색을 허용한다.

일 실시예에서, 시스템은 사용자가 실제로 볼 수 있는 문서의 일부를 분석하고, 매칭하는 문서들에 대한 텍스트의 이러한 부분만을 사용한다. 현재의 컴퓨터 환경에서는, 문서는 물리적 디스플레이가 제공할 수 있는 것 보다 길 수도 있다. 유사한 방식으로, 복수의 윈도우를 사용하는 컴퓨터 데스크탑은 볼 텍스트의 일부만을 디스플레이할 수도 있다. 일반적으로, 사용자는 스크롤바 또는 업/다운 키들을 사용하여 볼 수 없는 부분들을 보기 위해 문서를 통해 네비게이팅할 수 있다. 관련 문서들에 대한 탐색은 문서들의 선택된 부분들, 예를 들어, 문서의 디스플레이된 부분으로 제한될 수도 있다. 예로써, 탐색은 현재의 커서 위치의 특정한 주위로 한정될 수도 있다. 자동 문서 매칭을 제공된 새로운 정보의 일부만으로 제약하는 것은, 매칭 품질을 더 향상시킬 수 있어서, 사용자에게 더욱 적절한 연관된 문서들을 제공할 수 있다.

다른 실시예에서, 사용자의 컴퓨터상에 이미 상주하는 사용자의 문서들은 더 큰 텍스트들이 상이한 콘텐츠를 갖는 더 작은 부분으로 분리되는 방식으로 세그먼트화될 수 있다. 예로써, 책은 챕터들로 세그먼트화될 수도 있다. 그 후, 사용자는 그가 보고 있는 현재의 데이터에 실제로 매칭하는 이들 텍스트들의 이들 부분들만을 본다. 그 결과, 조합된 실시예에서, 보여진 문서의 세그먼트들은 사용자의 컴퓨터상에 저장된 문서들의 세그먼트들과 자동으로 매칭될 수도 있어서, 문서 매칭에 관련하여 높은 정확도를 제공한다.

더욱 일반적으로, 특정한 정보 엔터티를 소비할 때, 예를 들어, 보거나 들을 때, 사용자에게 연관된 정보 엔터티들을 제공하는 것이 제안된다. 더욱더 일반적으로, 사용자에게는 현재 소비하고 있는 정보 엔터티의 일부와 연관되는 정보 엔터티들의 일부가 제공된다. 적절한 연관된 정보를 식별하기 위해, 상술한 정보 엔터티들의 네트워킹된 표현이 사용될 수도 있다. 새로운 정보 엔터티, 즉, 네트워크내의 다른 엔터티들과 아직 연관되지 않은 엔터티를 소비할 때, 다양한 연관 수단이 적절한 연관된 정보 엔터티들을 자동으로 식별하기 위해 사용될 수도 있다. 그 후, 이들 연관은 엔터티들의 네트워크에 저장될 수도 있어서, 네트워크내에 새로운 정보 엔터티를 포함하고 새로운 지식을 생성하고 저장한다.

연관 수단은 바람직하게는, 정보 엔터티들의 유사성을 분석한다. 그러나, 연관 수단은 또한 RLI 및/또는 키워드 매칭 방법을 사용할 수도 있다. 또한, 연관 수단은 사용자와의 수동 상호작용에 의존할 수도 있다.

다른 실시예에서, 정보 엔터티들 사이의 연관은 새로운 문서를 작성하면서 보충 데이터의 온라인 제안을 제공하기 위해 사용될 수도 있다. 사용자가 수신자, 제목란, 본문 및 첨부를 포함하는 이메일과 같은 새로운 문서를 구성할 때, 사용자는 일반적으로, 적절한 정보를 찾고 어셈블링하기 위해, 상이한 애플리케이션들, 예를 들어, 연락처 데이터베이스 또는 파일 브라우저에 액세스해야 한다. 이러한 문서를 구성하는 노력은 문서가 구성되는 순차적 순서를 재배열함으로써 감소될 수도 있다. 제안된 모드에서, 사용자는 텍스트의 쓰기를 실제로 시작하고, 시스템은 텍스트를 분석하여 새로운 문서에 대한 적합한 다른 컴포넌트들에 대한 제안들을 작성한다. 다시 말해, 편집된 텍스트가 텍스트의 구성을 위해 적절할 수도 있는 적절한 정보 엔터티들을 식별하기 위해 분석된다. 그 결과, 사용자는 계층적 파일 시스템에서 상이한 애플리케이션들 또는 폴더 구조들을 통해 작업하는 대신에, 제공된 리스트로부터 적절한 엔터티, 예를 들어, 사용자가 다루는 사람의 이메일 주소를 단순히 선택하도록 인에이블된다.

예를 들어, 사용자가 "Hey John"으로 이메일을 시작하면, 시스템은 연락처 데이터베이스 또는 유사한 것으로부터 적합한 수신자를 제안한다. 사용자가 누가 수신자일 수 있는지에 관하여 텍스트에서 추가의 힌트를 제공하면, 시스템은 가능한 수신자 리스트에 대한 추가의 제안을 더 강제하거나 제공할 수 있다. 단순한 예는, 수신자의 성(last name)이 또한 제공되어서, 제공된 정보 엔터티들, 예를 들어, 연락처 아이템들을 기록된 성을 갖는 사람으로 제한하는 것이다.

그러나, 더욱 복잡한 배경 지식이 제안의 리스트를 더 강제하거나 다른 적절한 연관된 정보 엔터티들을 식별하기 위해 사용될 수도 있다. 예를 들어, 텍스트는 "how is Jane?"을 읽을 수도 있고, 시스템은 데이터 베이스에서 성 "John"을 갖는 사람 중 하나가 "Jane"에 결합된다는 표현을 가질 수도 있다. 이러한 경우들에서, "John" 및 "Jane"의 엔터티들은 사용자에게 제공될 수도 있다. 정보 엔터티들 사이의 이러한 관계는 상술한 바와 같은 정보 엔터티들의 네트워킹된 표현에 저장되고 보유될 수도 있다. 이러한 간접적으로 연관된 엔터티에 대한 추가의 예가 수신자 "John"이 일하는 회사의 네임일 수도 있다. 그 결과, 회사를 표현하는 엔터티가 이메일을 구성할 때 사용자에게 디스플레이될 수 있다.

일반적으로, 모든 종류의 연관된 정보는 랭크된 후보들의 리스트를 생성하기 위해 사용될 수도 있다. 새로운 정보 엔터티를 편집하면서 제공되어야 하는 적절한 정보 엔터티를 식별하기 위해, 상술한 연관 수단이 사용될 수도 있다. 또한, 정보 엔터티의 네트워크내에 저장된 지식이 사용될 수도 있다. 특히, 엔터티들 사이의 연관, 각각의 연관 강도 및 각각의 빈도 표시자가 적절한 정보 엔터티를 선택하고 랭크하기 위해 사용될 수도 있다.

상기 예에서, 사용자가 "Did you know that Michael Jackson is dead?"를 기록하면, 시스템은 음악가 "마이클 잭슨(Michael Jackson)"의 표현 및 음악 수집에서 그의 "노래들"의 표현을 자동으로 연다. 사용자가 "I love the song 'Dirty Diana'"를 기록하면, 데이터의 제안된 세트는 마이클 잭슨의 음악의 서브세트, 특히 노래 "Dirty Diana" 또는 특정한 노래가 나오는 앨범들의 노래들로 더 제약된다.

그 결과, 구성된 문서내의 구문 정보는 적절한 연관된 엔터티의 리스트를 개선시키기 위해 사용될 수도 있다.

또한, 제안된 시스템이 구성된 문서의 별개의 부분들을 식별하기 위해 구성된다는 것이 예상된다. 예로써, 시스템은 "hey John, how is Jane?"의 콘텐츠가 "Did you know Michael Jackson is dead?"에 관련되지 않는다는 것을 계산할 수 있다. 이것은 상기 나타낸 바와 같이 연관된 정보의 클러스터들을 식별함으로써 행해질 수 있다. 본 예에서, 콘텐츠 "hey John, how is Jane?"이 콘텐츠 "Did you know Michael Jackson is dead?"의 연관된 엔터티들의 리스트에 단지 매우 느슨하게 관련되는 연관된 엔터티들의 리스트를 트리거한다는 것이 식별될 수 있다. 이러한 경우들에서, 시스템은 연관된 엔터티들의 리스트들 모두를 보유하고, 연관된 엔터티들의 리스트들 모두를 개별적으로 관리허간, 리스트들 모두의 통합을 보유하도록 구성될 수도 있다. 시스템은 연관된 콘텐츠를 지속적으로 모으고 사용자의 텍스트 작성 동안 이들 제안들을 개선시킨다. 그러나, 이러한 개선은 상이한 리스트들 또는 클러스터들에 대해 개별적으로 수행된다.

상술한 바와 같이, 시스템은 사용자가 작성하는 텍스트의 일부에 매칭할 수 있는 파이들의 표현을 식별 및 디스플레이할 수도 있다. 이들 파일들은 사용자가 그의 메인 문서에서 작업하고 있는 동안 제공될 수 있다. 그 결과, (수신자, 제목, 본문 및 첨부로 구성된) 이메일과 같은 복잡한 문서들의 구성은, 사용자가 (수신자에 대한 연락처 및 첨부를 위한 파일 브라우저와 같은) 다른 데이터베이스로부터 이들 컴포넌트들의 콘텐츠를 선택하지 않아도 되어 메인 문서의 작성에 집중할 수 있다는 점에서 단순화된다. 이상적인 경우에서, 메인 문서의 콘텐츠에 기초하여 제공되는 추가의 정보는, 사용자가 보충 데이터의 이러한 제안된 리스트로부터 단순히 선택할 수 있도록, 즉, 다른 애플리케이션들로부터 데이터의 검색이 더 이상 요구되지 않도록 적절하다.

일반적으로, 새로운 정보 엔터티의 생성을 지원하는 방법 및 시스템이 설명된다. 새로운 정보 엔터티를 생성하는 동안 사용자에 의해 제공된 데이터에 기초하여, 연관된 정보 엔터티들의 리스트가 사용자에게 제공되고, 예를 들어, 스크린상에 디스플레이된다. 사용자는 임의의 연관된 엔터티들을 선택할 수도 있고, 새로운 정보 엔터티의 생성을 위해 연관된 엔터티들의 리스트내에 포함된 정보를 사용할 수 있다.

연관된 엔터티들의 리스트를 생성하기 위해, 방법 및 시스템은 본 명세서에 설명된 연관 수단을 사용할 수도 있다. 또한, 정보 엔터티들의 네트워크내에 포함된 지식, 예를 들어, 연관, 연관 강도 및 빈도 표시자가 사용될 수도 있다.

정보 엔터티들의 네트워킹된 표현을 상술하였다. 아래에서, 정보 엔터티들 사이의 연관을 생성하고 보유하는 방법 및 시스템이 설명된다. 또한, 네트워킹된 파일 시스템에 대한 직관적 액세스 포인트들을 제공하는 정보 엔터티들의 일반적 표현이 제공된다.

현재의 운영 시스템들에서, 사용자는 문서들이 사용자의 검색 필요성으로 항상 주문제작되지 않은 트리형 파일 계층에 저장된다는 문제점을 갖는다. 일반적으로, 사용자는 폴더 구조, 예를 들어, 서브-폴더들로서 "클라이언트" 폴더들을 갖는 "작업" 폴더 및 차례로, 그들의 서브-폴더들로서 "프로젝트" 폴더들을 셋업한다. 하나의 서브-폴더에 저장되는 정보는 일반적으로, 사용자가 트리의 상이한 부분을 브라우징할 때는 사용자가 볼 수 없다. 상기 나타낸 바와 같이, 종래의 시스템들은 파일 계층들에 걸쳐 문서들을 찾기 위해 탐색 엔진을 이용한다. 이러한 탐색 엔진의 결과는 종종, 일반적으로 파일들의 리스트에 사용자가 입력한 하나 이상의 키워드들을 포함하는 파일들이 제공될 때 사용자에게 도움이 안된다.

이들 단점들을 극복하기 위해, 사용자의 컴퓨팅 시스템상에 저장된 파일들에 대한 추가의 표현층을 제공하는 것이 제안된다. 이러한 추가의 표현층은 본 명세서에 설명된 정보 엔터티들의 네트워크와 결합될 수도 있다. 추가의 표현층은 모든 물리 도메인들에 적용가능한 유니버셜 구조를 의존한다. 여기서, 4개의 유니버셜 커테고리들 또는 차원들이 제안되고, "사람", "사물", "장소" 및 "시간"으로 지칭한다. 정보 엔터티, 예를 들어, 문서는 이들 4개의 유니버셜 카테고리들에 관하여 분석된다.

문서를 분석하기 위해, 표현층의 유니버셜 카테고리에 문서에서의 워드들의 특정한 스트링을 매칭시킬 수 있는 검출기(이하, "세만틱 센서")가 사용된다. 분석 이외의 아이디어는, 문서의 상이한 초록이 상기 언급한 4개의 유니버셜 클래스 또는 카테고리에 연관으로서 제공되는 것이다. 따라서, 예를 들어, "Sven"이라 불리는 사람이 문서에 언급되면, 세만틱 센서는 정보 엔터티 "Sven"에 대한 카테고리 "사람" 사이의 연관 및 엔터티 "Sven"으로부터 그 네임을 포함하는 문서까지의 연관을 생성하기 위해 사용될 수 있다.

이러한 방식으로, 사용자는 이러한 정보 엔터티에 대한 연관을 브라우징할 때 사람 "Sven"을 모니터링하는 문서를 용이하게 검색할 수 있다. 문서, 즉, 그 문서를 포함하는 정보 엔터티가 1개 보다 많은 연관된 엔터티들을 가질 수 있기 때문에, 사용자는 다중의 엔터티를 염두할 때 문서들을 검색할 수 있다. 또한, 문서는 상기 언급한 차원들에 대한 연관을 가질 수 있어서, 사용자는 예를 들어, 카테고리 "장소" 및 "사람"내에 포함된 엔터티들을 사용하여 문서들을 검색할 수 있다.

문서에 연관될 수도 있는 적절한 정보 엔터티를 생성하기 위해, 분석 시스템은 세상에 관한 패시브 지식을 사용할 수도 있다. 분석 시스템은 예를 들어, "Sven"이 남성의 성이고, "노키아(Nokia)"가 회사이다는 것을 인식할 수도 있다. 이러한 패시브 지식은 네임, 회사 등의 리스팅을 통해 제공될 수도 있다. 그 결과, 패시브 지식으로부터의 적절한 엘리먼트들이 각각의 유니버셜 카테고리내에 정보 엔터티들로서 저장될 수 있다. 또한, 문서의 분석은 문서의 콘텐츠와 각각의 엔터티들 사이의 연관의 자동 생성을 초래한다. 예를 들어, 인커밍 문서에 대해 그리고 사용자가 카테고리 "사람"하에서 (또는 사용자의 연락처 애플리케이션에서) 회사로서 저장된 엔터티 "노키아"를 갖지 않으면, 분석 시스템은 회사 네임에 대해 패시브 지식을 사용하여, 인커밍 문서에 연관되는 엔터티 "노키아"를 생성한다. 또한, 유명인사들, 도시들, 나라들, 스포츠 등의 리스트와 같은 패시브 지식의 다른 소스들이 있을 수 있다. 이와 같이, 분석 시스템은 문서들의 자동 카테고리화 및 문서들의 구성요소들의 구상적 계층들의 생성을 수행한다.

엔터티들 사이의 연관 및 구상적 계층들의 생성은 사용자가 문서의 콘텐츠에 따라 문서들을 찾는 것을 돕는다. 이것은 문서에서 실제로는 발생하지 않는 워드들에 대해서도 달성될 수도 있다. 일례로서, 워드 "노키아"를 포함하는 문서가 분석된다. 또한, 노키아가 회사이라는 것, 즉, 노키아가 정보 엔터티 "회사"와 연관된다는 것을 설명하는 패시브 지식으로부터 유도된 세만틱 센서들이 있을 수도 있다. 정보 엔터티 "회사"는 유니버셜 카테고리 (또는 정보 엔터티) "사람"과 연관될 수도 있고/있거나 그 아래에 저장될 수도 있다. 따라서, 세만틱 센서를 사용하여, 분석 시스템은 사람 -> 회사 -> 노키아의 계층을 생성하고, 즉, 분석 시스템은 문서와 엔터티 "노키아" 사이 뿐만 아니라 "노키아"와 엔터티 "회사" 사이의 연관을 생성한다. 따라서, 문서는 엔터티 "회사"를 선택하고 연관된 엔터티를 탐색함으로써 검색될 수 있다. 상기 예에서, 제 2 문서가 "삼성(Samsung)"을 포함하고, 세만틱 센서가 삼성을 회사인 것으로서 포함하면, 이러한 문서는 엔터티 "삼성"을 통해, 그리고 엔터티 "회사"를 통해 또한 액세스가능하다. 엔터티 "회사"와 연관되는 엔터티들을 볼 때, 문서들 양자는 문서들 양자가 엔터티 "회사"와 어느 정도 연관될 때 디스플레이된다는 것에 유의해야 한다.

상기 분석을 수행하기 위해, 소위 명칭 엔터티 인식(Named Entity Recognition)이 문서들로부터의 네임들의 추출을 위해 사용될 수 있다. 또한, 구상적 엔터티들 사이의 "is-a" 관계와 같은 세만틱 관계가 정의될 수도 있다. 상기 예들에서, "노키아는 회사이다(Nokia is-a Company)" 및 "삼성은 회사이다(Samsung is-a Company)"라고 말할 수 있어서, 2개의 엔터티들 사이의 계층적 관계를 표현한다. 인식된 네임 엔터티들과 세만틱 관계들의 조합은, 이들 엔터티들의 계층들을 나타내는 구상적 엔터티들을 확립하는 규칙에 의해 더 보충될 수 있다. 이러한 규칙은 세만틱 "is-a" 관계의 우측이 좌측에 비하여 계층적으로 우세하다고 말할 수 있다. 따라서, 규칙은 이러한 구상적 계층을 생성하기 위해 사용될 수 있다.

문서가 하나 보다 많은 세만틱 센서에 의해 분석될 수도 있다는 것에 유의하고, 즉, 패시브 지식의 다양한 소소들의 사용될 수도 있다. 예를 들어, 나라들의 도시들에 대한 센서들이 있을 수도 있다.

다중의 구상적 계층들, 예를 들어, 상이한 유니버셜 카테고리들에 대한 상이한 구상적 계층들의 조합은 상이한 액세스 포인트들을 사용함으로써 문서 선택을 통한 네비게이션을 허용한다. 따라서, 사용자에게는 문서 자체에서는 발생하지 않는 워드를 부분적으로라도 사용하여 특정한 문서를 얻기 위해 동적 범위의 계층들로부터의 충분한 가능성이 제공된다.

세만틱 센서는 또한, 문서의 스트링에 매칭시키기 위해 정보 엔터티에 대한 대안들이 있을 수도 있다는 점에서 더욱 복잡한 구조를 가질 수도 있다. 따라서, 도시 뮌헨(Munich)에 대한 세만틱 센서가 "(Munich | Munich OR Munchen OR Muenchen OR Monaco) is-a City"로서 기재될 수도 있다. 이러한 경우에서, 세만틱 센서는 파이프 부호가 텍스트에서의 스트링에 매칭될 때마다 Munich(파이프 부호(|) 이전의 워드)을 생성할 수도 있다.

설명한 분석 시스템은, 일반적으로 문서의 저자 또는 소유자가 텍스트에 태그 또는 키워드를 추가하여 검색가능하게 하는 것을 의미하는 "태깅 텍스트(tagging text)"로서 지칭되는 기술과는 상이하다는 것에 유의한다. 특히, 설명한 분석 시스템은, 각각의 세만틱 센서에 대해 사전에 존재한 데이터베이스에 대한 텍스트의 일부에 매칭한다는 점에서, 즉, 사전에 존재하는 패시브 지식에 대한 문서의 세그먼트들에 매칭한다는 점에서 상이하다. 또한, 세만틱 센서들은 엔터티들을 생성하여 서브카테고리들과 연관시키기 위해, 예를 들어, 엔터티 "Munich"을 서브-카테고리 "도시"와 연관시키기 위해 사용되는 세만틱 규칙을 적용한다. 최종으로, 서브-카테고리들 및/또는 엔터티들은 4개의 유니버셜 카테고리들, "사람", "사물", "장소" 또는 "시간" 중 하나와 연관된다.

이것은, 사용자가 가장 쉽게 기억할 수 있은 엔터티의 본질적인 세만틱에 따라 문서를 검색할 수 있다는 것을 의미한다. 이들 액세스 포인트들은 구상적 계층의 상이한 레벨들, 예를 들어, 유니버셜 카테고리 레벨 "사람", 또는 "도시"와 같은 서브 레벨들 또는 "Sven"과 같은 실제 인스턴스상에 있을 수 있다.

전반적으로, 세만틱 센서들을 사용한 인커밍 문서들의 상기 언급한 분석 및 구상적 계층에 걸친 연관의 생성은 사용자가 검색의 몇 개의 단계들만으로 더욱 쉽게 문서를 찾는 것을 돕는다.

이제, 상술한 네트워킹된 파일 구조를 사용하는 그래픽 사용자 인터페이스를 예시하는 도 3을 참조한다. 예로써, 네트워킹된 파일 구조는 음악, 사진, 비디오, 이메일, 연락처, 예약 및 웹사이트와 같은 다양한 타입의 정보의 사용 및 구성을 허용하는 터치 스크린을 갖는 소비자 컴퓨터를 구현하기 위해 사용될 수 있다. 모든 이러한 데이터는 윈도우, 파일, 폴더, 계층 및 애플리케이션과 같은 종래의 개념으로부터 벗어나 시너지 방식으로 본 발명에 의해 구성되고 표현될 수 있다. 소비자 컴퓨터에 대해, 통상적으로, 사용자가 유지하고 있는 데이터에 대한 사용자 직접 액세스를 제공하는 것이 바람직하다. 동시에, 가능한 한 단순하게 사용자 인터페이스를 유지하는 것이 또한 바람직하다. 이미 언급한 바와 같이, 종래의 컴퓨터 사용자 인터페이스들의 단점은, 상이한 타입의 데이터에 대해 상이한 타입의 애플리케이션들, 예를 들어, 음악 파일에 대한 음악 플레이어, 사진들에 대한 사진 뷰어, 이메일에 대한 이메일 애플리케이션, 웹 사이트에 대한 브라우저 등이 있다는 것이다. 모든 이들 애플리케이션들은 사용자가 학습하고 익숙해져야 하는 특정한 인터페이스들 및 메뉴들을 갖는다. 동시에, 컴퓨터는 그 안에 저장된 데이터의 능력을 사용자가 완전하게 활용하도록 돕지 않는다. 예를 들어, 특정한 연락처 중 누가 친구이거나 선호하는 연락처인지, 또는 특정한 도시에 그 밖의 누가 사는지, 또는 그 도시가 어떻게 보이는지, 또는 컴퓨터의 사용자가 그 도시를 마지막으로 언제 방문하였는지를 알아내는 것은 간단하지 않다. 다시 말해, 애플리케이션들과 그들의 로컬 데이터 사이의 시너지가 종래 기술의 사용자 인터페이스를 사용할 때는 충족할 방식으로 레버리징될 수 없다.

그래픽 사용자 인터페이스는 특히, 키보드를 요구하지 않는 인간-기계 또는 사용자 인터페이스에 매우 적합하다는 것에 유의해야 한다. 예로써, 이 방법들은 사용자의 손가락 또는 펜으로 전체적으로 동작될 수 있는 태블릿 PC의 사용자 인터페이스로서 구현될 수 있다. 사용자 입력은 스크린상의 엔터티를 표현하는 인디시아에서의 포인팅 또는 인디시아상의 클릭킹 및 이들 인디시아의 이동을 또한 포함한다. 인디시아를 서로에 인접하게 함으로써, 상이한 관련 엔터티들 사이의 연관이 이루어질 수 있고, 이것은 사용자가 태블릿 PC상에 저장된 대량의 데이터로부터 특정한 엔터티를 쉽고 직관적으로 검색할 수 있게 한다. 특정한 엔터티의 선택시에, 이메일 쓰기와 같은 원하는 세트의 기능들이 수행될 수도 있다.

예시한 바와 같이, 사용자 인터페이스는 4개의 유니버셜 카테고리들, 즉, 시간(660), 사람(600), 사물(650) 및 장소(640)를 디스플레이할 수 있다. 정보 엔터티들로서 구현되는 모든 이들 카테고리들은 손가락의 터치 또는 사용자의 마우스 클릭에서 그들의 연관된 데이터를 나타낼 수도 있다. 예시적인 예에서, "시간" 카테고리(660)는 회의, 이메일 도착, 음악 등과 같은 시간 의존형 이벤트들이 배열되고 디스플레이되는 시간 바에 표현된다. 이러한 프리젠테이션이 표현의 단지 하나의 가능한 방식이고, 연관된 정보 엔터티들이 다양한 다른 방식들로 제공될 수도 있다는 것에 유의해야 한다. 다양한 시간 의존형 엔터티들을 나타낼 수도 있는 시간 바의 이러한 고유 프리젠테이션의 시너지는 단지 하나의 시간 라인이 이용가능하고 전체 시스템에 대해 요구된다는 사실로부터 발생한다.

사용자는 시간 라인상에 이벤트들을 배치할 뿐만 아니라 다른 카테고리들에서 데이터의 선택을 제약하기 위해 시간 라인으로부터 날짜를 드래그할 수 있다. 이렇게 함으로써, 특정한 시간 간격의 특정한 날짜가 다른 활성화된 엔터티에 대한 영향을 미치는 엔터티가 될 수도 있다. 또한, 시간 라인은 상이한 분해능으로 구성될 수도 있어서, 사용자는 "일"(664), "주"(663), "월"(662), "년"(661) 등 사이에서 전환할 수 있다는 것에 유의해야 한다. 또한, 엔터티 "현재"(665)를 클릭함으로써, 사용자는 현재일 및 시간으로 시간 레이(time ray)를 설정하도록 인에이블될 수도 있다.

도 3은 사용자에 알려진 연락처에 관한 모든 정보를 포함할 수 있는 추가 카테고리 "사람"(600)을 도시한다. 이러한 연락처는 회사, 호텔, 레스토랑 등과 같은 조직 뿐만 아니라 디바이스 사용자에게 알려진 사람일 수도 있다. 다시 말해, 엔터티 "사람"(600)은 연락처 데이터를 표현하는 연관된 엔터티의 리스트를 포함할 수 있다. 예시된 사용자 인터페이스는 사용자가 연관된 엔터티들의 리스트로부터 하나의 특정한 사람을 드래그하고 그 사람과 연관된 다른 사람을 보게 할 뿐만 아니라 사용자가 회사 네임을 나타내는 엔터티를 드래그하고 연관된 엔터티들의 리스트로서 그 회사에 근무하는 모든 사람을 보게 한다. 또한, 사용자는 선택된 사람 및 선택된 순간 양자와의 관계를 갖는 연관된 엔터티의 리스트를 획득하기 위해, 시간 바(660)상의 특정한 순간에 사람을 나타내는 엔터티를 드래그할 수 있다.

또한, 도 3은 이메일, 사진 및 음악과 같은 사용자 저장하는 모든 종류의 데이터를 포함할 수 있는 "사물" 카테고리(650)를 도시한다. 다른 카테고리들과 유사하게, "사물" 카테고리(650)도, 추가의 연관, 즉, 사용자가 선택하면 스크린상에 나타나는 추가의 연관된 엔터티들을 가질 수도 있는 정보 엔터티이다. 예로써, 엔터티 "사물"(650)을 클릭하는 것은 이메일, 비디오, 음악, 사진, 웹사이트와 같은 연관된 엔터티의 리스트의 디스플레이를 트리거할 수도 있다. 이들 연관된 엔터티들은 다시, 연관된 엔터티들의 리스트 등을 각각 포함할 수도 있다. 임의의 시간에, 영향을 미치는 엔터티의 이러한 활성화된 엔터티의 근처로의 드래깅은 연관된 엔터티들의 리스트의 범위, 콘텐츠 및/또는 표현에 영향을 미칠 것이다.

최종으로, 도 3은 또한, 연락처의 주소, 사용자가 방문하였거나, 이메일 또는 사용자가 본 웹사이트에 인용된 도시와 같은 사용자에게 알려진 장소들에 관한 정보와 연관될 수 있는 "장소" 카테고리(640)를 도시한다. 본 명세서에 설명한 방법들을 사용하여, 사용자는 특정한 도시와 연관된 엔터티를 활성화된 "사람" 엔터티(600)의 근처로 가져옴으로써, 어떤 사람이 특정한 도시에 사는지를 쉽게 찾을 수 있다. 그 후, 그 특정한 도시에 대해 특정한 관계를 갖는 사람이 연관된 엔터티(610)의 리스트로서 디스플레이된다. 다른 예로서, 사용자는 또한, 이러한 도시에서 촬영된 "사물" 카테고리(650)로부터의 사진을 검색하기 위해 특정한 도시에 관한 엔터티를 사용할 수 있다. 이것은 특히, 사진들이 글로벌 포지셔닝 시스템(GPS) 인에이블된 카메라를 사용하여 촬영되고, 그 사진이 촬영된 위치의 위도 및 경로 정보를 포함하는 경우에 유용하다.

상기 나타낸 바와 같이, 유니버셜 카테고리들(600, 640, 650 및 660)은 또한, 그들과 연관된 서브-카테고리들을 가질 수 있어서, 이메일이 서브-카테고리들에서 구성될 수 있고 음악 파일이 장르, 음악가 및 앨범 타이틀에 따라 구성될 수 있다.

그래픽 사용자 인터페이스는 연관된 정보 엔터티들의 네트워크에 저장된 지식을 용이하게 활용하도록 사용될 수 있다. 특히, 그래픽 사용자 인터페이스는 몇몇 엔터티들 및 그들 각각의 연관된 엔터티들에 대해 세트 동작들(예를 들어, 컷-세트 또는 연합-세트 동작들)을 수행하기 위해 사용될 수 있다.

제 1 예에서, 사용자는 "사람" 카테고리(600)로부터 소정의 사람을 드래그하여 카테고리 "장소"(640) 근처에 배치한다. 카테고리 "장소"(640)를 활성화시키는 것은, 그 사람의 주소를 나타내고, 즉, 사람에 연관된 엔터티들과 엔터티 "장소"에 연관된 엔터티들 사이의 컷-세트가 디스플레이된다. 즉, 엔터티를 다른 엔터티 근처로 가져오면, 즉, 엔터티들 양자 사이의 거리가 임계값 아래이면, 엔터티들 양자는 서로에 영향을 미칠 수도 있고, 세트 동작은 엔터티들 양자와 연관된 엔터티들의 특정한 서브세트를 결정하기 위해 수행될 수도 있다.

다른 예에서, 활성화된 엔터티 "사진"은 시간에 의해 분류된 사진들을 나타내기 위해 시간 라인(660)으로 드래그될 수 있다. 또한, 특정한 사람과 연관된 엔터티가 시간 라인(660)으로 드래그되면, 이 사람과 연관된 사진들만이 나타난다. 사진들과 특정한 사람 사이의 이러한 연관은 예를 들어, 사진의 GPS 데이터를 사람의 자택 주소의 GPS 데이터와 연관시킴으로써 그 사람의 자택 주소에 기초하여 확립될 수 있다. 이러한 연관은 또한, 사람이 사진과 연관되는 스케줄링된 회의, 여행 또는 파티에 존재하였다는 사실로 인해 확립될 수 있다. 어느 경우에서나, 이러한 연관은 정보 엔터티들의 네트워크내에 저장된 연관을 통해 반영될 수 있다.

또 다른 예에서, 활성화된 엔터티 "사물 -> 이메일"의 시간 라인(660)으로의 드래깅은 선택된 시간점에서 수신되고 전송된 이메일을 나타낸다. 또한, 사람과 연관된 엔터티를 시간 라인으로 드래그함으로써, 이메일의 리스트는 그 특정한 사람에게 전송되고 그로부터 수신된 이메일로 더 제한될 수 있다.

설명한 방법들 및 시스템들은 워크 스테이션, 데스크탑 PC, 랩탑, 태블릿 PC와 같은 컴퓨터 시스템, 및 모바일폰, 스마트폰, PDA 등과 같은 핸드헬드 또는 무선 디바이스상에서 구현될 수도 있다. 이들은 이러한 시스템 및 디바이스의 운영 시스템에 대한 사용자 인터페이스에 관련하여 사용될 수 있어서, 사용자와 디바이스들 사이의 상호작용을 용이하게 하고, 디바이스의 메모리로부터 데이터의 직관적이고, 단순하며 빠른 검색을 허용한다. 이와 같이, 설명한 방법 및 시스템은 특히, 데이터-마이닝(data-mining)에 유용하다.

본 발명은 개시된 예시적인 시나리오들로 한정되지 않는다. 다른 이용 케이스들이 본 발명으로부터 또한 이득을 얻을 수 있다. 이러한 기재된 설명은 최상의 형태를 포함한 본 발명을 개시하기 위한, 그리고 또한 당업자로 하여금 본 발명을 제조 및 이용할 수 있게 하기 위한 실시예들을 이용한다. 본 발명이 특정 실시예들의 관점에서 설명되었지만, 당업자는 본 발명이 청구항들의 사상 및 범위 내에서의 변형으로 실시될 수 있음을 인식할 것이다. 특히, 상기 설명된 실시예들의 상호 비-배타적인 특징들은 서로 결합될 수도 있다. 본 발명의 특허가능한 범위는 청구항들에 의해 정의되며, 당업자에게 착상되는 다른 실시예들을 포함할 수도 있다.

Claims

텍스트 문서를 작성할 때 컴퓨팅 디바이스상에 연관된 정보 엔터티를 디스플레이하는 방법으로서,
정보 엔터티들의 세트가 상기 컴퓨팅 디바이스상에 저장되고, 대응하는 복수의 연관 기록들을 갖는 상기 정보 엔터티들의 세트가 저장되고, 제 1 정보 엔터티에 대응하는 상기 연관 기록은 상기 제 1 정보 엔터티와 다른 정보 엔터티 사이의 연관 및 연관 강도를 나타내고,
상기 방법은,
상기 컴퓨팅 디바이스상에서 상기 텍스트 문서의 텍스트를 편집하는 단계;
상기 편집된 텍스트의 제 1 부분과 연관되는 상기 제 1 정보 엔터티를 자동으로 결정하는 단계; 및
상기 제 1 정보 엔터티에 대한 인디시아를 디스플레이상에 자동으로 디스플레이하는 단계를 포함하고,
상기 제 1 정보 엔터티를 결정하는 단계는,
상기 컴퓨팅 디바이스상에 저장된 상기 정보 엔터티들의 세트의 상기 정보 엔터티들 중 적어도 2개에 대한 관련 스코어를 결정하는 단계; 및
상기 제 1 정보 엔터티를 가장 높은 관련 스코어를 갖는 상기 정보 엔터티로서 결정하는 단계를 포함하고,
상기 제 1 정보 엔터티를 결정하는 단계는,
연관된 정보 엔터티를 결정하기 위해 사용된 상기 디스플레이된 텍스트의 상기 제 1 부분을 점진적으로 연장하여, 상기 제 1 정보 엔터티의 결정을 개선시키는 단계를 더 포함하는, 정보 엔터티를 디스플레이하는 방법.
제 1 항에 있어서,
상기 제 1 정보 엔터티를 결정하는 단계는,
상기 디스플레이된 텍스트의 제 1 부분으로부터 높은 빈도의 워드들을 제거하여, 나머지 텍스트를 산출하는 단계;
상기 컴퓨팅 디바이스상에 저장된 상기 정보 엔터티들의 세트의 복수의 정보 엔터티와 상기 나머지 텍스트 사이의 오버랩의 정도로서 상기 관련 스코어를 결정하는 단계; 및
가장 높은 가중된 오버랩의 정도를 갖는 상기 정보 엔터티로서 상기 제 1 정보 엔터티를 결정하는 단계를 포함하는, 정보 엔터티를 디스플레이하는 방법.
제 2 항에 있어서,
상기 높은 빈도의 워드들은 상기 컴퓨팅 디바이스상의 높은 빈도의 워드들의 리스트에 저장되고/되거나,
상기 높은 빈도의 워드들의 리스트는 소정의 언어의 텍스트 자료내에서 높은 발생 빈도를 갖는 소정의 언어에서의 워드들을 포함하는, 정보 엔터티를 디스플레이하는 방법.
제 2 항 또는 제 3 항에 있어서,
상기 나머지 텍스트와 저장된 정보 엔터티 사이의 오버랩의 정도를 결정하는 단계는,
상기 저장된 정보 엔터티로부터 높은 빈도의 워드들을 제거하여, 나머지 저장된 정보 엔터티를 산출하는 단계;
상기 나머지 저장된 정보 엔터티에서 상기 나머지 텍스트의 발생의 수를 결정하는 단계;
상기 나머지 저장된 정보 엔터티의 길이를 결정하는 단계; 및
상기 길이에 의해 나눠진 상기 발생의 수로서 상대적 발생의 수를 결정하여 상기 오버랩의 정도를 산출하는 단계를 포함하는, 정보 엔터티를 디스플레이하는 방법.
제 4 항에 있어서,
상기 나머지 텍스트와 상기 저장된 정보 엔터티 사이의 오버랩의 정도를 결정하는 단계는,
상기 나머지 텍스트를 포함하는 저장된 정보 엔터티들의 리스트내의 정보 엔터티들의 수를 결정하는 단계; 및
상기 나머지 텍스트를 포함하는 상기 저장된 정보 엔터티들의 리스트내의 상기 정보 엔터티들의 수로 상기 상대적 발생의 수를 나누어서, 상기 오버랩의 정도를 산출하는 단계를 더 포함하는, 정보 엔터티를 디스플레이하는 방법.
제 2 항에 있어서,
상기 제 1 정보 엔터티를 결정하는 단계는,
상기 컴퓨팅 디바이스상에 저장된 상기 정보 엔터티들의 세트의 정보 엔터티를 세그먼트화하는 단계; 및
상기 컴퓨팅 디바이스상에 저장된 상기 정보 엔터티들의 세트의 상기 정보 엔터티의 세그먼트와 상기 나머지 텍스트 사이의 오버랩의 정도를 결정하는 단계를 더 포함하는, 정보 엔터티를 디스플레이하는 방법.
제 1 항에 있어서,
상기 제 1 정보 엔터티를 결정하는 단계는,
상기 컴퓨팅 디바이스상에 저장된 상기 정보 엔터티의 세트의 정보 엔터티에 대한 액세스 빈도를 결정하는 단계; 및
상기 액세스 빈도에 의해 상기 정보 엔터티의 오버랩의 정도를 가중시키는 단계를 더 포함하는, 정보 엔터티를 디스플레이하는 방법.
제 1 항에 있어서,
제 1 복수의 연관된 정보 엔터티들을 결정하는 단계; 및
상기 제 1 복수의 연관된 정보 엔터티들에 대한 인디시아를 상기 제 1 복수의 연관된 정보 엔터티들의 오버랩의 정도의 순서로 디스플레이하는 단계를 더 포함하는, 정보 엔터티를 디스플레이하는 방법.
제 8 항에 있어서,
상기 디스플레이된 텍스트의 제 2 부분과 연관되는 제 2 복수의 정보 엔터티를 결정하는 단계로서, 상기 제 2 부분은 상기 디스플레이된 텍스트의 상기 제 1 부분과는 상이한, 상기 제 2 복수의 정보 엔터티를 결정하는 단계;
상기 제 1 복수의 연관된 정보 엔터티들 및 상기 제 2 복수의 연관된 정보 엔터티들의 컷 세트(cut set)를 결정하는 단계;
상기 컷 세트의 사이즈가 임계값 보다 작으면, 상기 제 2 복수의 연관된 정보 엔터티들을 디스플레이하는 단계; 및
상기 컷 세트의 사이즈가 상기 임계값 보다 크면, 상기 컷 세트내에 포함된 정보 엔터티들을 디스플레이하는 단계를 더 포함하는, 정보 엔터티를 디스플레이하는 방법.
삭제
제 1 항에 있어서,
상기 정보 엔터티들의 세트의 정보 엔터티는 유니버셜 카테고리들의 리스트의 유니버셜 카테고리에 할당되고,
상기 유니버셜 카테고리들의 리스트는 "사람"과 연관된 카테고리, "장소"와 연관된 카테고리, "시간"과 연관된 카테고리, 및 "사물"과 연관된 카테고리를 포함하며,
상기 제 1 정보 엔터티 및 상기 제 2 정보 엔터티는 할당된 유니버셜 카테고리에 따라 디스플레이되는, 정보 엔터티를 디스플레이하는 방법.
제 1 항에 있어서,
상기 텍스트 문서는 상기 컴퓨팅 디바이스의 사용자에 의해 구성되는 전자 메일이며,
상기 디스플레이된 텍스트는 상기 전자 메일의 "제목"란 또는 본문부로부터의 텍스트인, 정보 엔터티를 디스플레이하는 방법.
제 1 항에 있어서,
상기 컴퓨팅 디바이스상에서 상기 텍스트 문서를 수신하는 단계;
상기 텍스트 문서를 여는 단계; 및
상기 텍스트 문서를 통해 스크롤링하여, 상기 텍스트 문서의 상기 텍스트를 디스플레이하는 단계를 더 포함하는, 정보 엔터티를 디스플레이하는 방법.
제 1 항에 있어서,
정보 엔터티는 음악 파일, 사진 파일, 연락처 데이터 파일, 시점을 나타내는 파일, 위치를 나타내는 파일, 이메일 파일, 또는 문서 파일을 포함하는 데이터 파일인, 정보 엔터티를 디스플레이하는 방법.
컴퓨팅 디바이스로서,
텍스트 문서의 텍스트를 디스플레이하도록 구성된 디스플레이;
상기 텍스트 문서의 텍스트를 편집하도록 구성된 사용자 인터페이스;
정보 엔터티들의 세트 및 대응하는 복수의 연관 기록들을 저장하도록 구성된 저장 매체로서, 제 1 정보 엔터티에 대응하는 상기 연관 기록은 상기 제 1 정보 엔터티와 다른 정보 엔터티 사이의 연관 및 연관 강도를 나타내는, 상기 저장 매체; 및
상기 편집된 텍스트의 일부와 연관되는 상기 제 1 정보 엔터티를 자동으로 결정하도록 구성된 프로세서를 포함하고,
제 1 정보 엔터티를 결정하는 것은,
상기 컴퓨팅 디바이스상에 저장된 상기 정보 엔터티들의 세트의 상기 정보 엔터티들 중 적어도 2개에 대한 관련 스코어를 결정하는 것;
상기 제 1 정보 엔터티를 가장 높은 관련 스코어를 갖는 상기 정보 엔터티로서 결정하는 것; 및
연관된 정보 엔터티를 결정하기 위해 사용된 상기 디스플레이된 텍스트의 상기 제 1 부분을 점진적으로 연장하여, 상기 제 1 정보 엔터티의 결정을 개선시키는 것을 포함하고,
상기 디스플레이는 상기 디스플레이상에 상기 제 1 정보 엔터티에 대한 인디시아를 자동으로 디스플레이하도록 또한 구성되는, 컴퓨팅 디바이스.