KR101670700B1 - 도메인 상태, 목적 및 범주 - Google Patents

도메인 상태, 목적 및 범주 Download PDF

Info

Publication number
KR101670700B1
KR101670700B1 KR1020117026116A KR20117026116A KR101670700B1 KR 101670700 B1 KR101670700 B1 KR 101670700B1 KR 1020117026116 A KR1020117026116 A KR 1020117026116A KR 20117026116 A KR20117026116 A KR 20117026116A KR 101670700 B1 KR101670700 B1 KR 101670700B1
Authority
KR
South Korea
Prior art keywords
domain
content
determining
sub
web page
Prior art date
Application number
KR1020117026116A
Other languages
English (en)
Other versions
KR20120005012A (ko
Inventor
레오나드 오렌타스
마크 코스터스
데이브 모스톤
카르틱 시암선더
스리니바스 선카라
에두아르도 지메네즈
파니 파따푸
알렉스 홀메스
앤드류 심슨
Original Assignee
베리사인 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/428,208 external-priority patent/US9292612B2/en
Application filed by 베리사인 인코포레이티드 filed Critical 베리사인 인코포레이티드
Publication of KR20120005012A publication Critical patent/KR20120005012A/ko
Application granted granted Critical
Publication of KR101670700B1 publication Critical patent/KR101670700B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)

Abstract

도메인 프로파일을 생성하고 사용하는 시스템들 및 방법들은 도메인에 연관된 첫 번째 페이지의 상태를 확인하는 것을 포함한다. 첫 번째 페이지가 검색되고, 도메인으로부터 추가적 페이지는 첫 번째 페이지로부터 하이퍼링크들에 기초하여 확인된다. 추가적 페이지의 상태가 확인되고 상태 및/또는 미리 결정된 데이터와의 비교에 기초하여 하이퍼링크들에 우선 순위가 정해진다. 콘텐츠는 첫 번째 페이지 및 추가적 페이지 중에서 선택된 페이지로부터 추출된다. 특정의 추가적 페이지는 우선 순위에 기초하여 선택될 수 있다. 검색된 콘텐츠는 문맥상 일치를 결정하기 위해 시그내처 마커 세트를 통해 처리될 수 있다. 도메인의 목적은 첫 번째 페이지의 상태, 추가적 페이지의 상태 및 콘텐츠의 처리의 결과들에 따라 결정된다. 도메인 프로파일은 웹 사이트들 혹은 관심 속성들을 확인하기 위해 디스플레이, 저장, 송부 및/또는 탐색될 수 있다.

Description

도메인 상태, 목적 및 범주 {DOMAIN STATUS, PURPOSE AND CATEGORIES}
인터넷 상에 활동하는 웹 사이트들의 수가 늘어남에 따라, 가용한 콘텐츠를 구성하고 평가하는 수요가 증가하고 있다. 탐색 엔진들은 가용한 정보를 개개인의 사용자들이 찾아 접근하는 것을 더 쉬어지게 하였다. 전형적인 탐색 엔진들은 사용자의 탐색 용어들에 기초하여 관련 콘텐츠를 확인하는데 도움을 주는 알고리즘들을 포함할 수 있다. 이들은 예를 들면, 웹 트래픽에 기초하여, 요청된 콘텐츠를 가진 특정 페이지의 분명한 인기도를 고려하는 것을 포함할 수 있다. 그러나, 전형적으로 웹 사이트로부터 콘텐츠를 다운로드하고, 이를 색인하고 이어서 다운로드된 콘텐츠에 기초하여 사용자들이 탐색할 수 있게 하는 종래의 서비스들의 능력들엔 한계가 있다.
인터넷이 내재적으로 구성되는 방법들을 이해하는 것은 인터넷을 통해 접근될 수 있는 전 범위의 정보를 효율적으로 이용하는 것에 관계된 문제들을 이해하는데 도움이 될 수 있다. 도메인 명칭 시스템.(DNS)은 사람이 읽을 수 있는 도메인 명칭들을 인터넷을 통해 TCP/IP 통신을 설정하는데 필요한 인터넷 프로토콜(IP) 숫자들로 바꾸는 인터넷 기반구조의 부분이다. 즉, DNS는 인터넷 상에 컴퓨터들에 할당되는 "123.4.56.78"과 같은 숫자로 된 IP 어드레스들보다는, "www.example.com"같은 기억하기 쉬운 도메인 명칭들을 사용하여 사용자들이 웹 사이트들, 및 다른 자원들을 참조할 수 있게 한다. 각각의 도메인 명칭은 점들에 의해 분리된 일련의 문자 스트링들(라벨들)로 구성된다. 도메인 명칭에서 맨 우측 라벨은 "탑-레벨 도메인"(TLD)로서 알려져 있다. 공지된 TLD들의 예들은 ".com"; ".net"; ".org." 등이다. 각각의 TLD는 예를 들면 "www.example.com"에서 "example" 레벨과 같이, TLD의 바로 좌측에 열거된, 두 번째-레벨 도메인들을 지원한다. 각각의 두 번째-레벨 도메인은 예를 들면 "www.example.com"에서 "www" 레벨과 같이, 두 번째-레벨 도메인의 바로 좌측에 위치된 다수의 제 3 레벨 도메인들을 포함할 수 있다. 실질적으로 아무 제한이 없는 또 다른 레벨 도메인들도 있을 수 있다. 예를 들면, 추가적인 도메인 레벨들을 가진 도메인은 "www.photos.example.com"일 수도 있을 것이다.
또한, 단일 IP 어드레스, 예를 들면, 단일 서버가 수많은 도메인 명칭들을 지원할 수 있음에 유의한다. 즉, 서로 다른 도메인 명칭들은 요청된 도메인 명칭 및/또는 추가적인 비-도메인 정보에 기초하여 어떤 콘텐츠를 제공할지를 결정할 수 있는 동일 서버에 리졸브(resolve)될 수 있다. 이것을 때로는 가상 호스팅이라고도 한다.
추가적인 비-도메인 정보는 도메인 명칭을 포함하는 URI(Uniform Resource Identifier) 구조에 포함될 수 있다. 예를 들면, "경로" 부분은 사선("/")에 의해 분리되는 일련의 세그먼트들(반드시 디렉토리들을 나타내는 것은 아닐지라도, 개념적으로 이들과 유사하다)이다. 이 정보는 "www.example.com/blog"에서 "blog"와 같이, 도메인 명칭의 바로 우측에 포함될 수 있고, 특정한 콘텐츠를 확인하여 전달하거나 특정 코드를 실행하기 위해 서버 또는 다른 수신 디바이스에 의해 사용될 수 있다. 비-도메인 정보의 다른 예들은 질의(query)들 및 프래그먼트들을 포함할 수 있는데, 이들의 상세는 당업자들이 알고 있는 것으로 여기에서는 상세히 다루지 않는다. 이 정보의 조합들은 사용자를 동일 페이지의 또 다른 부분에 혹은 동일, 혹은 다른 도메인의 부분일 수 있는 또 다른 웹 페이지에 내비게이트하는 웹 페이지 하이퍼링크들에 포함될 수 있다.
관계된 도메인 명칭들, 및 콘텐츠는 "www.example.com"; "www.blog.example.com"; "www.example.com/blog"; 또는 "blog.example.com" 등과 같이 각각이 다른 중요도를 갖는 계층적, 혹은 네스트(nest)되는 방식으로 구성될 수 있다. 이러한 관계된 도메인들은 다양한 도메인 명칭들을 리졸브하는 실제 IP 어드레스에서 유사성들을 공유할 필요가 없다. 이에 관하여, 도메인 명칭의 부분은 요망되는 한 특정한 서버를 의미할 수 있는데, 예를 들면, "mail.example.com" 및 www.example.com"은 동일한 두 번째-레벨 도메인에 대해서, 다른 기능들을 가진, 서로 다른 서버들에 리졸브할 수 있다.
각각의 TLD를 동작시키는(TLD 내에 두 번째-레벨 도메인들의 레지스트리를 유지관리하는 것을 포함한) 임무는 도메인 명칭 레지스트리("registry")로서 알려진 한 특정한 기관에 위임된다. 레지스트리는 주로, 이러한 정보를 큰 데이터베이스들에 유지관리하는 DNS 서버들을 통해 도메인 명칭들을 IP 어드레스들로 변환하고("리졸빙") 이의 탑-레벨 도메인을 운영하는 임무를 맡는다.
본 발명은 도메인에 관계된 콘텐츠의 접근성 및 의미를 개선함에 있어 장점을 제공할 수 있다. 체계적으로 인식되지 않았던 도메인 특징들을 고려함으로써, 사용자들은 도메인의 속성들에 관해 탐색할 수 있고, 넓은 응용에서, DNS 서버들 및 웹 사이트들을 통해 공개적으로 입수될 수 있는 정보를 사용하여 도메인의 웹 사이트에 관한 프로파일이 구축될 수 있다. 여기에서 사용되는 바와 같이, 도메인 특징들은 웹 페이지의 부분인 데이터 콘텐츠, 웹 페이지에 링크되는 데이터 콘텐츠, 웹 페이지의 DNS 분해(resolution) 지원 아키텍처의 부분인 데이터 콘텐츠, 등을 포함할 있는데, 그러나 이들로 한정되는 것은 아니다. 따라서, 도메인 명칭이 주어졌을 때, 웹 사이트의 속성들 및 특징들과 같은 연관된 정보는 도메인 명칭에 기초한 확장된 탐색에 기초하여 제공될 수 있다. 연관된 정보는 도메인을 기술하는 속성들 및/또는 도메인의 콘텐츠에 기초하여 개선된 탐색 결과들을 제공할 수 있다. 이들 프로파일들로부터, 개개의 사용자들의 효율 및 생산성, 비지니스 활동들, 및 일반적으로 웹 콘텐츠 지원 서비스들을 개선하기 위해 사용될 수 있는 인터넷 상에 일부 가용한 콘텐츠의 개선된 분석이 행해질 수 있다.
본 발명의 실시예들은 도메인을 분석하기 위한 시스템들 및 방법들에 관계된다. 실시예들은 도메인에 연관된 첫 번째 페이지의 상태를 확인하는 것을 포함할 수 있다. 상태를 확인하는 것은 첫 번째 페이지의 도메인 명칭을 리졸브하려는 시도를 포함할 수 있고, 도메인 명칭을 리졸브할 수 없다면, 도메인의 상태를 비-기능으로서 확인한다. 도메인 명칭이 리졸브되지만 콘텐츠가 접근될 수 없다면, 상태는 접근 불가로서 확인될 수 있다.
첫 번째 페이지가 접근될 수 있다면, 첫 번째 페이지의 콘텐츠가 검색될 수 있다. 도메인의 복수의 추가적 페이지는 첫 번째 페이지로부터 하이퍼링크들에 기초하여 확인될 수 있다. 추가적 페이지의 상태는 첫 번째 페이지의 상태였던 대로 확인될 수 있다. 즉, 추가적 페이지의 상태를 확인하는 것은 첫 번째 추가적 페이지의 도메인 명칭 또는 네트워크 어드레스를 리졸브하려는 시도를 포함할 수 있고, 도메인 명칭 또는 네트워크 어드레스가 리졸브될 수 없다면, 첫 번째 추가적 페이지의 상태는 비-기능으로서 확인될 수 있다. 도메인 명칭이 리졸브되거나 콘텐츠가 접근될 수 없다면, 첫 번째 추가적 페이지의 상태는 접근 불가로서 확인될 수 있고, 다른 페이지에 대해서도 그러하다.
또한, 하이퍼링크들은 상태 및/또는 미리 결정된 데이터와의 비교에 기초하여 우선 순위가 정해질 수 있다. 예를 들면, URI 내에 문자열들은 특히 고 혹은 저 중요도를 갖는 것으로서 사전에 결정될 수 있다. 따라서, 이러한 문자열들을 내포하는 하이퍼링크들은 그에 따라 우선 순위가 정해질 수 있다. 콘텐츠는 첫 번째 페이지 및 복수의 추가적 페이지의 선택된 페이지로부터 추출될 수 있다. 콘텐츠는 여기에서 설명되는 도메인 특징들의 전체 범위를 포함할 수 있다. 추가적 페이지 중에서 특정 페이지의 선택은 이들의 우선 순위에 기초할 수 있다.
첫 번째 페이지 및 추가적 페이지의 콘텐츠는 콘텐츠 간의 문맥상 일치들을 결정하기 위해 한 세트의 미리 결정된 혹은 발생된 데이터를 통해 처리될 수 있다. 미리 결정된 혹은 발생된 데이터를 시그내처 마커 세트(signature marker set)라 칭할 것이다. 시그내처 마커 세트는 알려진 요소들을 이외 어떤 다른 주제에 상관시키는 한 테이블의 데이터로서 이해되어야 한다. 예를 들면, 알려진 용어들은 도메인 명칭들의 샘플링 상에 용어가 나타나는 빈도에 연관될 수 있다. 용어의 도메인 빈도에 대해 페이지 상에서 발견되는 용어의 비교는 시그내처 마커 세트를 통해 용어를 처리하는데 있어 첫 번째 단계일 수 있다. 실시예들에서, 이것은 낮은 도메인 빈도를 가진 용어들에 집중하게 함으로써 도메인 프로파일을 더 정확하게 결정할 수 있게 하는데, 이것은 고 도메인 빈도를 가진 용어들보다 더 구별될 수 있다. 또한, 시그내처 마커 세트는 잠재적 용어 모호성을 감소시키는 기술들을 사용할 수 있다. 예를 들면, 콘텐츠는 다수의 데이터 콘텐츠의 알려진 연관들을 나타내는 미리 결정된 데이터와 비교될 수 있다. 이것은 알려진 텍스트의 연관들, 알려진 데이터-유형의 연관들, 및 도메인 특징들 내 포함된 유사 데이터의 다양한 조합들을 포함할 수 있다. 그러므로, 첫 번째 대상의 중요도는 도메인 특징들에서 두 번째 연관된 대상의 확인에 의해 더 정확하게 결정될 수 있다. 위에 언급한 바와 같이, 도메인 특징들은 웹 페이지 자체로부터, 혹은 이에 링크된 데이터, 혹은 IP 어드레스 또는 URL와 같은 DNS 정보를 포함할 수 있다.
문맥상 일치들, 첫 번째 페이지의 상태, 및 추가적 페이지의 상태에 기초하여, 도메인의 목적이 결정될 수 있다. 실시예들은 콘텐츠가 첫 번째 페이지 또는 추가적 페이지 내 내포된 실행가능 코드를 포함하며, 실행가능 코드 내에 문맥상 일치를 결정하기 위해 시그내처 마커 세트가 구성되는 것을 포함할 수 있다. 또한, 실시예들은 콘텐츠가 첫 번째 페이지 또는 추가적 페이지에 내포된 이미지, 비디오 및 오디오 정보를 포함하며, 이미지, 비디오 및 오디오 정보 내에 문맥상 일치를 결정하기 위해서 시그내처 마커 세트가 구성되는 것을 포함할 수 있다.
일단 결정되면, 도메인 목적은 도메인의 결정된 목적을 탐색, 디스플레이, 저장 및/또는 송부를 포함한 다수의 서로 다른 방법들로 사용될 수 있다. 실시예들은 도메인의 결정된 상태 및 목적에 기초하여 관계된 도메인들을 확인하고 검색(retrieving)하는 단계를 포함할 수 있다.
실시예들은 콘텐츠에서, 결정된 도메인 명칭, 등록된 판매 마커, 특정 데이터 유형의 부재, 페이지의 대안적 발행자, 지역사회 식별자, 및 데이터 유형 중 적어도 하나에 기초하여 도메인의 목적을 결정하는 것을 포함할 수 있다.
또한, 실시예들은 하나 이상의 도메인들의 목적들에 기초하여 이들을 확인하는 것을 포함할 수 있다. 확인된 도메인들의 범주는 도메인들의 각각의 목적들로부터 구별되는 것으로 결정될 수 있다. 관계된 도메인들은 도메인의 결정된 목적 및 범주들에 기초하여 확인되고 검색될 수 있다.
실시예들은 웹 페이지의 https 버전으로 리다이렉트(redirect)들을 트래버싱(traversing)함으로써 첫 번째 페이지로부터 하이퍼링크들을 따라는 것을 포함할 수 있다.
실시예들은 사용자로부터 입력된 한 세트의 목적들을 수신하는 단계; 문맥상으로 일치되는 콘텐츠 중에서 입력된 도메인들 간에 공통되는 속성들을 확인하는 단계; 및 확인된 도메인들을 사용자에게 출력하는 단계를 포함할 수 있다.
실시예들은 사용자로부터 입력된 한 세트의 목적들 및/또는 범주들을 수신하는 단계; 입력된 한 세트의 목적들 및/또는 범주들에 대응하는 도메인들을 확인하는 단계; 및 확인된 도메인들을 사용자에게 출력하는 단계를 포함할 수 있다.
실시예들은 일 범위의 도메인들에 대해 기술된 방법들을 반복적으로 수행하고 관계된 도메인 공간의 이력 분석의 결과들을 컴파일하는 것을 포함할 수 있다.
본 발명의 실시예들은 컴퓨터로 하여금 기술된 방법들을 실행하게 하기 위한 명령들이 부호화된 컴퓨터-판독가능 저장 매체뿐만 아니라, 기술된 방법들을 구현하는 시스템들을 포함할 수 있다. 예를 들면, 프로세서, 메모리 및 전자 통신 디바이스를 포함하는 전자 시스템은, 전자 통신 디바이스를 통해 도메인에 연관된 첫 번째 페이지의 상태를 확인하고 첫 번째 페이지를 검색하고; 첫 번째 페이지로부터 하이퍼링크들에 기초하여 도메인으로부터 복수의 추가적 페이지를 확인하고; 전자 통신 디바이스를 통해 추가적 페이지의 상태를 확인하고; 미리 결정된 데이터와의 비교에 기초하여 하이퍼링크들에 우선 순위를 정하고; 전자 통신 디바이스를 통해 첫 번째 페이지 및 복수의 추가적 페이지 중 적어도 하나의 페이지로부터 콘텐츠를 추출하고, 복수의 추가적 페이지의 적어도 하나의 페이지는 우선 순위에 기초하여 선택되며; 문맥상 일치를 결정하기 위해 시그내처 마커 세트를 통해 콘텐츠를 처리하고; 첫 번째 페이지의 상태, 추가적 페이지의 상태 및 콘텐츠의 처리 결과들에 따라 도메인의 목적을 결정하고; 도메인의 결정된 목적을 디스플레이, 저장 및 송부하는 것들 중 적어도 하나를 수행하도록 구성될 수 있다.
본 발명의 다른 장점들은 바람직한 실시예들의 다음 상세한 설명을 읽고 이해했을 때 당업자들에게 명백하게 될 것이다.
도 1은 본 발명의 실시예에 따른 예시적 시스템을 도시한 것이다.
도 2는 본 발명의 실시예에 따른 예시적 방법을 도시한 것이다.
도 3은 본 발명의 실시예에 따라, 예시적 웹 페이지, 및 관계된 콘텐츠를 도시한 것이다.
도 4는 본 발명의 실시예에 따라, 예시적인 층상 데이터 분해(resolution)를 그래픽적으로 도시한 것이다.
도 5는 본 발명의 실시예에 따라 예시적인 프로세스 흐름을 그래픽적으로 도시한 것이다.
도 6는 본 발명의 실시예에 따른 예시적 방법의 측면들을 도시한 것이다.
본 발명의 실시예들은 도메인 명칭들을 어떻게 타겟으로 하는가를 사용자, 웹 콘텐츠 제공자 및/또는 레지스트리가 이해하는데 도움을 줄 수 있다. 온라인 환경의 이해를 향상시키고 다른 미시적 분석 도구들을 보완하기 위해 업종부분에 의한 온라인 활동의 전체론적 관점이 구축될 수 있다. 따라서, 여기에 기술된 시스템들 및 방법들은 도메인 사이트-목적의 데이터를 제공할 수 있는 결과들을 발생할 수 있다.
도메인 명칭이 주어졌을 때, 기술된 시스템들 및 방법들은 도메인 명칭을 통해 접근될 수 있는 웹 사이트에 관한 속성들/특성들을 도출할 수 있다. 또한, 서비스는 도메인 또는 도메인 상에 콘텐츠를 기술하는 몇가지 속성들을 포함할 수 있는 기준에 기초하여 사용자들이 도메인들을 탐색할 수 있게 한다. 실시예들은 도메인의 웹 사이트에 관한 프로파일을 구축하기 위해서 공개적으로 입수될 수 있는 DNS 서버들에 내포된 정보 및 공개적으로 입수될 수 있는 웹사이트들 내 가용한 콘텐츠를 사용할 수 있다.
실시예들은 예를 들면 도 1에 도시된 바와 같이, 층구조 형태로 도메인에 연관된 서로 다른 유형들의 데이터를 수집하여 제공할 수 있다. 실시예들은 웹 페이지를 로딩하는 것을 시도하고, 도메인 목적 및 도메인 범주들을 웹사이트로부터 텍스트, 혹은 그외의 데이터를 수집함으로써 결정하고, 이를 시그내처 마커 세트를 거치게 함으로써 도메인 상태를 결정할 수 있다.
시스템들 및 방법들은 도메인의 웹사이트들에 관한 예시적 속성들로서, 도메인 상태; 도메인 목적; 도메인 범주들; 도메인 트래픽, 도메인 키 용어들, 도메인 특성/특징들/기능, 및 도메인 콘텐츠에 관한 정보를 수집하기를 시도한다. 이들 속성들을 이하 더 기술한다. 기술된 데이터 수집 및 분석을 통해, 본 발명의 실시예들은 .com 및 .net TLD들과 같은 TLD들의 개선된 디렉토리 및 웹사이트 호스팅을 위한 이들의 사용의 개요를 제공할 수 있다. 예를 들면, TLD 내에 모든, 혹은 일부 도메인들에 대한 도메인 프로파일들을 결정함으로써, 개개의 웹 페이지 콘텐츠에 따라 결정되고 적용되는 범주들보다는 도메인-공간 전 범위에 걸쳐 존재하는 패턴들에 따라 관련 도메인들을 분류하는 개선된 디렉토리가 생성될 수 있다. 이것은 인터넷 아키텍처 및 서비스들의 여러 레벨들을 관리함에 있어 전에는 인식하지 못했던 장점들을 제공할 수 있다. 예를 들면, 개개의 웹 페이지 단독보다는 도메인의 상태, 목적 및 범주들을 결정함으로써, 개개의 사용자들, 콘텐츠 제공자들 및 레지스트리들은 콘텐츠의 관련성을 더 잘 알 수 있게 되고 인터넷의 각종 사용들의 마케팅 및 그외 중요한 면들에 직접 관계된 패턴들을 더 잘 인식할 수 있게 된다.
다음 예시적 방법을 도 2 및 도 3을 참조하여 기술한다. 도 2에 도시된 바와 같이, 방법은 첫 번째 페이지의 상태를 결정하는 단계(S1000)로 시작할 수 있다. 도메인 상태는 일반적으로 도메인을 리졸브할지 여부와 어떻게 리졸브할지에 관계된다. 예를 들면, 도메인에 연관된 웹 서버가 있는지, 만약 그러하다면, 웹 서버가 연결될 수 있는지가 결정될 수 있다. 또 다른 정보는 임의의 특정하게 확인된 웹 서버 오류들이 있는지를 포함할 수 있다. 예를 들면, 도메인 명칭을 리졸브 하도록 시도하기 위해 도메인 명칭이 DNS 서버에 입력되고 전송된다. 도메인 명칭을 리졸브 할 수 없다면, 도메인의 상태는 비-기능인 것으로 결정될 수 있다. 도메인 명칭이 리졸브되지만 콘텐츠에 접근할 수 없다면, 상태는 접근 불가로서 식별될 수 있다. 이외 다른 상태 식별자들도 가능하다.
도메인 상태는 연관된 웹사이트의 동작 상태, 예를 들면, 활성, HTTP 오류, 등을 나타낼 수 있다. 도메인 상태는 웹사이트가 특정 도메인으로부터 접근될 수 있는지 여부와, 그렇지 않다면, 어떤 단계에서 이 웹사이트에 접근하려는 것을 하지 못하였는지를 나타낼 수 있다. 접근 실패는 표 1에 나타낸 것들과 같은 도메인 웹 사이트에 할당된 오류 코드들을 포함할 수 있다.
도메인 상태
상태 타이틀 상태 설명
존재하지 않음 명칭 서버들이 발견되지 않는다.
명칭 서버 오류 명칭 서버는 도메인 요청을 인터넷(IP) 어드레스로 전환할 수 없다.
명칭 서버 타임아웃 명칭 서버는 지정된 기간 내에, 혹은 지정된 횟수의 시도 후에 응답하지 않는다.
HTTP 오류 4XX 웹서버들이 콘텐츠 오류로 응답한다.
HTTP 오류 5XX 웹서버들이 서버 오류로 응답한다.
로봇들 불허 서버가 크롤러 접근을 거절한다.
호스트 접촉불가 웹서버들이 응답하지 않는다.
알 수 없는 웹 오류 서버들이 알수 없는 오류 메시지로 응답한다.
OK 서버가 콘텐츠에 도달할 수 있고 응답한다.
도메인의 하나 이상의 질의들이 비-기능 또는 아니면 접근 불가 오류인 것으로 드러난다면, 방법은 단계(S1010)에서 단계(S1700)로 가서, 결정된 상태에 기초하여 도메인의 목적이 결정된다. 예를 들면, 오류 코드에 관계된 일반적인 비-기능 목적, 혹은 보다 특정한 비-기능 목적을 결정하기 위해 명칭 서버 오류와 같은 상태 코드가 사용될 수 있다.
도메인 명칭이 리졸브되지만 리다이렉트 결과를 초래한다면, 이것은 도메인의 상태를 결정하는데 포함될 수 있다. 예를 들면, 상태는 활성 콘텐츠없이, "리다이렉트" 도메인인 것으로 결정될 수 있다.
도메인 명칭에 대한 웹 서버가 성공적으로 연결되고 리다이렉트되는 결과를 초래하지 않는다면, 도 3에 도시된 예의 첫 번째 페이지(500)의 콘텐츠가 단계(S1100)에서 검색될 수 있다.
단계(S1100)에서, 첫 번째 페이지로부터 콘텐츠, 예를 들면, 요소들(502, 504, 506, 508)이 검색된다. 이 콘텐츠는 예를 들면, 텍스트, 멀티미디어, 하이퍼링크, 혹은 그외 실행가능 코드를 포함한, 당업자들에게 공지된 다양한 형태들로 되어 있을 수 있다. 예로서, 요소들(502, 504, 506)은 각각 웹 페이지(510, 520, 530)에의 하이퍼링크들을 활성화시키는 웹 페이지 버튼들일 수 있다. 요소(508)는 텍스트, 이미지, 혹은 그외 멀티미디어 데이터 콘텐츠일 수도 있다. 콘텐츠는 여기에 기술된 적어도 2가지 목적들을 위해 사용될 수 있다. 한 목적은 첫 번째 페이지에 연관된, 예를 들면, 첫 번째 페이지에 내포된 하이퍼링크들로서 예를 들면, 요소들(502, 504, 506)에 기초하여, 첫 번째 페이지를 통해 접근될 수 있는 임의의 다른 페이지를 확인하는 것일 수 있다. 이 기능은 단계(S1200)에서 수행될 수 있다. 즉, 복수의 추가적 페이지, 예를 들면, 510, 520, 530은 첫 번째 페이지에서 검출된 하이퍼링크들에 기초하여 확인될 수 있다. 예시된 페이지(510, 520, 530)이 동일 두 번째 레벨 도메인을 공유할지라도, 페이지(500)에 연관된, 예를 들면, 이로부터 하이퍼링크되는 다른 페이지는 반드시 동일 도메인을 공유할 필요는 없다. 콘텐츠의 또 다른 목적은 이하 더 설명되는 도메인의 목적을 결정하는데 도움을 주는 것일 수 있다. 방법은 단계(S1300)에서 계속된다.
단계(S1300)에서, 추가적 페이지, 예를 들면, 510, 520, 530의 상태가 확인될 수 있다. 추가적 페이지의 상태를 확인하는 것은 첫 번째 추가적 페이지의 도메인 명칭 또는 네트워크 어드레스를 리졸브하는 것을 시도하는 것을 포함할 수 있고, 도메인 명칭 또는 네트워크 어드레스가 리졸브할 수 없다면, 첫 번째 추가적 페이지의 상태는 비-기능인 것으로서 확인될 수 있다. 도메인 명칭이 리졸브되지만 접근될 수 없다면, 첫 번째 추가적 페이지의 상태는 기능하지만 접근 불가로서 식별될 수 있다. 첫 번째 페이지(500)의 상태를 결정하는 것에 관하여 위에 논의된 바와 같이, 다른 상태 식별자들도 가능하다. 방법은 단계(S1400)에서 계속된다.
단계(S1400)에서, 확인된 하이퍼링크들 및 연관된 추가적 웹 페이지는 미리 결정된 데이터와의 비교에 기초하여 우선 순위가 정해질 수 있다. 예를 들면, 도메인, 및 비-도메인 URI 정보를 포함한, 하이퍼링크 데이터는 희망하는 콘텐츠를 제시하는 유의한 키워드들, 스트링들 또는 그외 값들의 리스트들과 같은, 미리 결정된 마커들과 비교될 수 있다. 하이퍼링크 데이터의 구조는 정보의 패턴들, 예를 들면, 특정 네스트 형식들 등을 인식하기 위한 프로세스의 부분으로서 분석될 수 있다. 결국, 확인된 하이퍼링크들의 우선 순위가 정해진 리스트가 생성될 수 있다.
사용자는 우선순위를 커스터마이즈하기 위해서 사용할 특정 마커들을 선택할 수 있다. 이것은 확인된 하이퍼링크 데이터에서 인식되었던 마커들의 리스트를 사용자에게 제시하고, 사용자가 이들 마커들 중에서 선택하게 하는 것을 포함할 수 있다. 사용자를 더욱 돕기 위해서, 사용자에게는 인식된 마커들에 관계된 선택적 추가 정보가 제공될 수 있다. 예를 들면, 인식된 마커들 각각에는 사용자 또는 관련 도메인에게 어떤 마커들이 가장 큰 중요도를 갖는지를 평가함에 있어 사용자를 돕는 정량적 혹은 정성적 값이 주어질 수 있다. 예를 들면, 사용자는 어떤 확인된 마커들에 특별히 관심이 있을 수 있거나, 한 세트의 마커들은 하이퍼링크 데이터 내 마커의 존재의 정량적 값에 기초하여 더 관계가 있는 것으로 보일 수도 있다. 따라서, 사용자는 사용자에게 제시되는 특정 마커들에 관계된 추가적 미리 결정된 정보에 기초하여 마커들로부터 선택할 수 있다. 이것은 도메인 프로파일링의 부분으로서 콘텐츠를 추출해 낼 더 관련있는 웹페이지를 확인하는 데 있어 장점들을 제공할 수 있다. 방법은 단계(S1500)에서 계속된다.
단계(S1500)에서, 추가적 콘텐츠가, 필요하다면, 콘텐츠(508)와 같은 첫 번째 페이지(500)로부터 추출될 수 있고, 콘텐츠는 복수의 추가적 페이지 중 선택된 페이지로부터 추출될 수 있다. 추가적 페이지 중에서 특정 페이지의 선택은 이들의 우선화에 기초할 수 있다. 예를 들면, 페이지(530)가 우선 순위에서 가장 낮게 추가적 페이지(510, 520, 530)에 우선 순위가 정해진다면, 콘텐츠는 페이지(510, 520)로부터만 수집될 수 있다. 실시예들에서, 페이지(530)는 도메인 명칭 내에 텍스트 스트링 "mail"에 기초하여 저 우선 순위로서 설계될 수도 있을 것이다. 이것은 자원들을 절약할 수 있고 가장 관련있는 추가적 페이지 및 콘텐츠를 확인함으로써 나중 단계들에서 더 정확한 결과들에 이르게 할 수 있다. 이하 더 논의되는 수집된 콘텐츠의 유형은 시그내처 마커 세트의 파라미터들에 기초하여 결정될 수 있다. 예를 들면, 텍스트 콘텐츠는 시그내처 마커 세트가 텍스트만을 위해 구성된다면 필요하게 되는 모든 데이터일 수 있다. 이 판별은 대규모 데이터 수집 및 분석에서 효율을 제공할 수도 있다. 시그내처 마커 세트가 다수의 데이터 유형들을 처리하게 구성된다면, 이것은 분석의 전체적인 정확성을 개선할 수 있다.
첫 번째 페이지로부터 하이퍼링크 데이터를 따라가는 것은 리다이렉트를 트래버싱하는 것을 포함할 수도 있다. 예를 들면, 하이퍼링크 데이터는 다른 웹 페이지에 직접 리졸브하는 것이 아니라, 대신에 적어도 하나의 리다이렉트를 요구할 수도 있다. 따라서, "추가적 페이지"은 간접적으로 링크되거나 첫 번째 페이지에 연관될 수 있다. 이것은 웹 페이지의 https 버전으로 리다이렉트를 트래버싱하는 것을 포함할 수 있다. 방법은 단계(S1600)에서 계속된다.
단계(S1600)에서, 첫 번째 페이지 및 추가적 페이지로부터 수집된 콘텐츠는 콘텐츠 간에 문맥상 일치하는 것들을 결정하기 위해 시그내처 마커 세트를 통해 처리될 수 있다. 위에 설명된 바와 같이, 시그내처 마커 세트는 데이터 요소들 중 하나에 대해서, 문맥상 일치, 또는 중요도를 제공하는 링크된 데이터 요소들을 포함할 수 있다. 수집된 콘텐츠의 문맥상 일치들을 확인함으로써, 콘텐츠의 여러 부분들의 중요도에 적합한 가중치가 주어질 수 있다. 예를 들면, "Ford" 용어가 자동차 제조업체이지만, 이것은 일반적인 이름의 성이기도 하며, 이것만으로는, 불확실한 중요도를 갖는다. 이것은 이 용어를 웹 페이지 콘텐츠의 부분으로서 부적절하게 고려하거나 무시하게 되는 결과를 초래할 수 있다. 용어의 모호성을 없애는 것은 용어 "Ford"의 사용이 자동차 분류에 관계된 것으로 간주되게 하기 위해서 "Ford" 및 다른 확인된 자동차 용어들이 서로 근접하여 있을 것을 요구할 수 있다. N-그램(gram) 모델들은 시퀀스에서 다음 항목을 예측하는 유형의 확률적 모델이다. N-그램들은 통계적 자연 언어 처리 및 유전 서열 분석의 다양한 분야들에서 사용되며, 여기에 기술된 콘텐츠 처리를 정제하기 위해 본 발명에 적용될 수 있다. 예를 들면, n-그램 모델은 xi-1, xi-2,..., xi-n에 기초하여 xi를 예측한다. 하이퍼링크 데이터 및 추가적 페이지를 우선화하기 위해 사용되는 마커들에 관하여 위에 기술된 바와 같이, 방법은 확인된 연관들 중에서 희망하는 연관을 사용자게 선택할 수 있게 한다. 예를 들면, 사용자는 어떤 확인된 문맥상 일치들을 유효한 것으로서, 그리고 다른 문맥상 일치들을 무효한 것으로서, 혹은 무시될 것으로서 식별할 수 있다. 또한, 방법들은 문맥상 일치들에 관련하여 추가적 정량적 또는 정성적 정보를 제공함으로써 문맥상 일치들의 중요도를 확인하는데 있어 사용자를 도울 수 있다. 따라서, 자동화된 방법들은 추출된 콘텐츠에 자동으로 적용되는 미리 결정된 시그내처 마커 세트들의 경우에서와 같이, 문맥상 일치들에 주어진 가중치를 평가하기 위해 사용될 수 있고, 혹은 이와 같이 행함에 있어, 확인된 문맥상 일치들을 사용자가 수락, 가중, 또는 거절할 수 있게 하는 경우들에서와 같이, 사용자를 도울 수 있다.
시그내처 마커 세트에 관련하여, 콘텐츠로부터 처리되는 특정 유형들의 데이터는 텍스트 또는 그외 특정한 데이터로 제한되지 않는다. 예를 들면, 실시예들은 콘텐츠가 첫 번째 페이지 또는 추가적 페이지에 내포된 실행가능 코드를 포함하고 실행가능 코드 내에서, 혹은 실행가능 코드의 결과들 내에서 문맥상 일치를 결정하도록 시그내처 마커 세트가 구성되는 것을 포함할 수 있다. 또한, 실시예들은 콘텐츠가 첫 번째 페이지 또는 추가적 페이지에 내포된 이미지, 비디오 및/또는 오디오 정보를 포함하고 이미지, 비디오 및 오디오 정보 중 어느 한 정보 내에 문맥상 일치를 결정하기 위해 시그내처 마커 세트가 구성되는 것을 포함할 수 있다. 예를 들면, 패턴 인식 결과들, 오디오 유형, 오디오 길이, 또는 임의의 다수의 관계된 속성들과 같은 다양한 오디오 데이터 간에 문맥상 일치들이 있을 수도 있다. 많은 수의 유사하게 패터닝된 오디오 정보는 예를 들면, 특정한 음악 아티스트의 콘텐츠를 지정하는 특정 유형의 웹 페이지의 확실한 표시자일 수 있고, 따라서 특별한 중요도를 가질 수 있다.
하이퍼링크 마커들 및 시그내처 마커 세트 둘 다의 경우에, 개선된 성능을 제공하기 위해 마커 성능 보고가 포함될 수 있다. 예를 들면, 사용자에게는 개개의 마커들의 성능의 정성적 평가가 제공될 수 있다. 대안적으로, 또는 자동화된 평가에 관련하여, 사용자는 마커들의 유효성을 독립적으로 평가하고 랭크할 수 있다. 그러므로, 시스템은 마커 성능에 관한 보고를 제공하고 마커들의 사용에서 변화될 수 있게 함으로써, 사용되는 마커들이 유효함을 보장할 수 있다. 보고는 사용자에게 제공되어 사용자가 변경들을 이행할 수 있으며, 또는 시스템은 어떤 임계값 미만에 속하는 마커들과 같은 열악하게 수행하는 마커들을 폐기하도록 자동화될 수 있다. 콘텐츠를 처리한 후에, 방법은 단계(S1700)에서 계속된다.
단계(S1700)에서, 도메인의 목적은 첫 번째 페이지의 상태, 임의의 추가적 페이지의 상태들, 및 문맥상 일치의 임의의 결과들에 기초하여 결정될 수 있다. 도메인 목적은 주체 또는 전체적 의미 또는 도메인에 연관된 콘텐츠의 의도된 사용 또는 사용들에 관계될 수 있다. 목적은 도메인이 사용되는 명백한 이유을 반영할 수 있다. 리졸브할 수 없는 혹은 그외 접근 오류들을 보내오는 도메인들의 경우, 목적은 도메인이 사용되고 있지 않거나 제한된 것일 수 있다. 그외 확인된 목적들은 이하 표 2에 상세한 바와 같이, 클릭당 지불(Pay Per Click; PPC), 파킹, 목적, 마스크된 리다이렉션, 리다이렉션, 블로깅, 등을 포함할 수 있다.
문맥상 일치들의 결과들은 활성 도메인들의 특별화된 목적들을 결정함에 있어 특히 효과적일 수 있다. 이 평가의 정확성은 우선화된 추가적 페이지의 추가적 분석에 의해 개선된다. 따라서, 기능하는 웹 사이트들에는 표 2에서 확인되는 것들과 같은 비-배타적 목적 코드들 및 그외 목적들을 지정하기 위한 임의의 다른 적합한 코드들이 할당될 수 있다.
목적
타이틀 설명
블록 도메인은 로봇들이 크롤하지 않게 한다.
PPC 목적 단지 광고 트래픽을 구동하려 의도로(도메인의 운영자 혹은 등록자에 의한) 등록된 메인 명칭
PPC 파크 말단 사용자 등록자 및 등록처에 의해 셋업되지 않은 기존 도메인 명칭은 수익 트래픽을 구동하기 위해 파크(parked) 명칭을 다른 목적에 맞게 만들었다.
파크 도메인 명칭은 광고 링크들이 없이 통상의 등록된 파크를 사용한다.
제작중 도메인 명칭이 광고 링크없이 제작중에 있다.
리다이렉트 도메인이 다른 도메인으로 리다이렉트한다.
마스크된
리다이렉트
도메인이 다른 사이트로부터의 콘텐츠만을 표시한다.
성인 도메인이 성인용 콘텐츠를 표시한다.
회사/기관 도메인 명칭이 회사 또는 기관에 관한 정보를 제공하기 위해 사용된다.
블로그 도메인 명칭이 주로 블로그를 위해 사용된다.
뉴스 도메인이 뉴스를 모아 표시한다.
이-커머스 도메인이 온라인으로 제품을 팔기 위해 사용된다.
포럼 도메인은 주로 사용자의한 다양한 관계된 토픽을 토론하기 위해 사용된다.
소셜 네트워킹 도메인은 주로 생각이 비슷한 개개인들이 쉽게 어울릴 수 있게 하는데 사용된다.
추가적 정보는 목적 결정에 포함될 수 있다. 예를 들면, 주로 DNS 트래픽 프로세서로부터의 통계들과 같은 도메인 트래픽의 측정들은 웹 사이트가 실제 소매 사이트인지 여부를 평가하기 위해 포함될 수 있다. 제목, 타이틀 및 설명과 같은, 도메인 키 용어들에는 위에 기술된 문맥상 일치 가중치 외에도 특정한 가중치들이 주어질 수 있다. 도메인 특성들, 특징들, 및/또는 기능들은 공통의 특징들이 웹사이트 상에 있는지를 나타내며, 블로그, 소매, 등과 같은 목적을 결정함에 있어 추가적 페이지가 사용될 수도 있다.
또한, 목적을 결정함에 있어 콘텐츠의 기술적 상세를 고려하는 것이 장점이 있을 수 있다. 예를 들면, 웹사이트들이 어떤 유형의 기술, 예를 들면, 도메인에 연관된 메일 서버들, 쿠키들, 멀티미디어, 데이터를 보안하는 SSL 증명서들, 등을 사용하는지를 확인하는 것은 소매 대 개인과 같은 목적, 혹은 그외 목적의 표시들을 제공할 수 있다. 특정한 콘텐츠 이외의 이를테면 관계된 페이지 상에 콘텐츠를 표시하는 평균 시간, 웹 서버의 지리적 위치, 등과 같은 추가적 기술적 데이터가 표시될 수도 있다.
실시예들은 콘텐츠에서, 결정된 도메인 명칭, 등록된 판매 마커, 지정된 데이터 유형의 부재, 페이지의 대안적 발행자, 지역사회 식별자, 및 데이터 유형 중 적어도 하나에 기초하여 도메인의 목적을 결정하는 것을 포함할 수 있다. 즉, 위에 나열된 것과 같이 특정한 콘텐츠의 유 또는 무는 도메인의 전체적인 목적을 확정하는데 있어 독립적 중요도를 가질 수 있다. 예들은 광고주 정보의 표시들, 또는 이들의 부재, 혹은 이미지 데이터와 같은 데이터 유형들, 또는 이들의 부재를 포함할 수 있다. 일단 도메인 목적이 결정되면, 방법은 단계(S1800)에서 계속된다.
단계(S1800)에서, 도메인의 각각의 목적들과는 다른 도메인의 범주가 결정될 수 있다. 도메인 범주는 사이트 상에 콘텐츠에 관계된 사업부문에 연관된 범주를 반영할 수 있다. 이것은 첫 번째 페이지 및 추가적 페이지로부터 콘텐츠가 어떤 범주들에 속하는지를 결정하는 것을 포함할 수 있다. 예를 들면, 도메인 범주는 북미 산업 분류 시스템을 준수하여 도메인을 비즈니스 유별 분류 시스템에 넣을 수 있다. 표 3은 범주 코드 내에 범주들의 할당된 우선화를 포함할 수 있는 예시적 범주들의 부분적인 리스트이다.
범주 코드 일반 범주 범주 세그먼트에서 상세 용어들
1 제약
1A 약국들
1B 약들/약품
1C 조제
2 피트니스
2A 운동 요가
2B 다이어트 및 영양 다이어트 식사
2C 봉사
2D 리뷰 사이트
도메인 범주를 결정하기 위해 사용되는 정보는 첫 번째 페이지 및 추가적 페이지로부터 얻어진 콘텐츠를 포함할 수 있고, 심지어 도메인 목적을 결정하기 위해 사용되는 동일 콘텐츠일 수도 있다. 그러나, 여러 정보에 기인한 중요도는 각각의 프로세스에서 서로 다를 수도 있다. 예를 들면, 위에서 논의된 바와 같이, 다른 문맥상 기업 관련 정보와 함께 "Ford"의 존재는 웹 페이지의 회사/기관(COMPANY/ORGANIZATION) 목적을 결정하기 위해 사용될 수 있다. 다른 자동차 정보와 함께 동일 정보 "Ford"의 존재는 자동차 기술들에서 도메인 범주을 결정하기 위해 사용될 수도 있다.
도메인 목적의 결정에서와 같이, 도메인 분류는 특정 웹 페이지의 콘텐츠로 제한되지 않는다. 그보다는, 도메인 분류는 도메인의 포괄적인 분류에 도달하기 위해서, 첫 번째 페이지의 콘텐츠 및 우선화된 추가적 페이지로부터 도출될 수 있다. 실시예들은 도메인들의 분류를 수행하기 전에 하나 이상의 도메인들의 목적들에 기초하여 이들 도메인들을 확인하는 것을 포함할 수 있다. 이것은 사용자 상호작용과 함께 혹은 없이, 이러한 도메인들을 분류에 정확하게 범주화하는데 있어 장점들을 제공할 수 있다.
본 발명의 논의된 실시예들로서, 도메인 목적 및 도메인 범주들의 특징들은 서로 다를 수 있다. 즉, 도메인 목적은 도메인에 연관된 웹사이트의 목적, 예를 들면, 뉴스, 블로그, 파크, 등을 포함할 수 있다. 도메인 목적은 도메인의 웹사이트의 주 목적일 수 있다. 이 목적은 특정 웹사이트의 콘텐츠에 관계될 수 있고 반드시 이를 소유하는 회사에 관계되는 것은 아닐 수 있다. 즉, 주어진 회사의 기업 웹사이트는 예를 들면 회사를 위한 홍보 블로그 사이트와는 다른 목적을 가질 수 있다.
도메인 범주들가 결정된 후에, 예시적 방법은 단계(S1900)에서 결과들을 컴퓨터-판독가능 저장매체에 저장하거나, 결과들을 사용자에게 표시하거나, 아니면 결과들을 전자 통신 네트워크를 통해 요청자에게 전자적으로 전달하는 것 중 적어도 하나를 진행할 수 있다. 실시예들은 저장된 데이터 내에서 목표로 하는 탐색들을 수행하고, 및/또는 기술된 방법들을 일 범위의 도메인들 상에서 반복적으로 수행하고, 이하 더 설명되는 바와 같이, 관계된 도메인 공간의 이력 분석에 대해 결과들을 컴파일하는 것을 더 포함할 수 있다.
도 4는 본 발명의 실시예들에 따라 월마다 반복적인 사이클에 대한 고-레벨 프로세스 흐름의 예를 도시한 것이다. 이것은 일반적으로 입력들(610), 성분들(620), 및 출력들(630)로 구성된다. 추가적 도구들(690)이 포함될 수도 있다. 이러한 추가적 도구들은 여러 선택들/입력들(610)을 수행하는데 있어, 예를 들면, 확인된 하이퍼링크들, 용어들, 등의 우선 순위를 정함에 있어 사용자를 도울 수 있다. 입력들은 예를 들면, 존 파일(612), 시그내처 마커 세트(614) 및 훈련 세트(618)를 포함할 수 있다. 실시예들에서, 사용자는 시그내처 마커 세트(614) 및/또는 훈련 세트(618) 내에서 항목들을 입력, 또는 선택할 수 있다. 성분들은 웹 크롤러(622) 및 분석기(624)를 포함할 수 있다. 분석기는 기능적으로 범주화(626) 및 분류(628) 부분들로 분할될 수 있다. 레지스트리(616)는 여러 프로세스들(입력들, 성분들 및 출력)을 유지관리하고, 이들을 업종부분에 의한 관계된 온라인 활동을 더 잘 이해하기 위해 웹 공간(650)의 지정된 부분 상에서 구현할 수 있다. 예를 들면, 레지스트리는 주어진 서버로부터 모든 DNS 트래픽을 수집할 수 있다. TLD에 대해서 모든 서브-도메인 명칭들에 대한 데이터가 주기적으로 수집되어 일정 기간동안 파일 저장소(632)에 유지될 수 있다. 보고들(634)은 웹 공간(650)의 지정된 부분으로부터 정보를 처리하기 위해 추가적 도구들(690)과 공조하여 작업하는 훈련 세트(616)를 포함한 방법에 기초하여 생성될 수 있다. 이것은 일정기간 동안 DNS 트래픽 값, 및 도메인 상태, 각각의 도메인 명칭에 대한 목적 및 범주들을 제공할 수 있고 과거에 입수될 수 없었던 정보에 접근을 제공할 수 있다.
또한, 실시예들은 단계(S2000)에서 질의의 부분으로서 분석을 위해 사용자로부터 입력된 한 세트의 도메인들을 수신하는 것을 포함할 수 있다. 시스템은 입력 도메인들 간에 공통되는 속성들을 자동으로 확인할 수 있다. 이들 속성들은 문맥상으로 일치되는 콘텐츠 또는 다른 수집된 정보로부터 올 수 있다. 이 분석의 결과들은 단계(S2100)에서 확인된 공통의 속성들을 사용자에게 출력하는 것을 포함할 수 있다. 이 능력은 추가적 확인된 페이지를 포함하여, 도메인들의 공통의 목적-관련 속성들을 자동으로 확인할 수 있는 등의 장점들을 제공할 수 있다.
또한, 실시예들은 단계(S2000)에서 질의의 부분으로서 예를 들면, 사용자로부터 입력된 한 세트의 목적들 및/또는 범주들을 수신하는 것을 포함할 수 있다. 기술된 방법들에 기초하여, 입력된 한 세트의 목적들 및/또는 범주들에 대응하는 도메인들이 확인될 수 있고, 확인된 도메인들이 단계(S2100)에서 사용자에게 출력될 수 있다. 이 능력은 웹 페이지 콘텐츠를 분석하는 종래의 방법들로부터 단순히 가능하지 않았을 관련 정보 및/또는 도메인들의 개선된 분류 및 확인을 제공함에 있어 장점이 있을 수 있다. 기술된 방법들은 다운로드된 콘텐츠에 우선 순위를 정하고 이 콘텐츠를 분할하는 것을 제공하며, 직접 및 간접 콘텐츠의 다양한 범주화를 포함하여, 도메인에 관한 유의한 속성들을 확인하여 수집하고, 사용자들 또는 관리자들이 도메인의 속성들에 기초하여 탐색하게 할 수 있다.
예시적 프로세스 흐름에 관한 추가적 상세가 도 6에 제공되었다. 도 6에 도시된 바와 같이, 프로세스는 S600에서 시작하고 S610로 진행하고 여기에서 타겟 존 파일이 얻어진다. 예를 들면, 타겟 존은 여기에서 설명되는 바와 같이 지정된 도메인일 수 있다. 방법은 S620으로 진행한다.
S620에서, 프로세스는 지정된 도메인일 수 있는 타겟 존에 연결을 시도한다. 서로 다른 유형들의 오류들은 타겟 존에 연결하려는 시도에 기초하여 야기될 수 있다. 예를 들면, DNS 서버가 실행할 수 없은 레임 델리게이션(lame delegation)이 있을 수 있다. 어떠한 DNS도 확인되지 않거나, 위에 기술된 것들과 유사한 다른 오류들이 S620에서 일어난다면, 방법은 "DNS 없음" 오류라 하는 S624로 진행한다. 이 결정에 기초하여, 상태는 S680에서 보고될 수 있다.
타겟 존에 연결하려는 시도가 성공적이면, 방법은 S630으로 계속된다. 성공적인 시도는 요청된 도메인 명칭이 DNS 서버에 의해 IP 어드레스로 리졸브되는 것을 포함할 수 있다. 그러나, 요청된 어드레스로부터 콘텐츠를 얻는 것을 금지할 수 있는 웹 서버 레벨에서 발생할 수 있는 오류들이 있다. 예를 들면, S634에서, 명칭 서버 타임아웃, 아니면 IP 어드레스에 연결하라는 요청에 응하여 서버에 연관된 오류를 나타내는 것과 같은 서버 오류가 확인될 수 있다. S634에서 서버 오류가 표시된다면, 방법은 오류가 보고될 수 있는 S680로 진행할 수 있다.
S630 동안 서버가 서버에 의해 발견된다면, 방법은 S640 ~ 648로 진행하여, 여기에서 지정된 웹 사이트 또는 어드레스를 크롤하려는 시도에 기초하여 다양한 응답들이 수신될 수 있다. 이것은 S640에서처럼, 요청된 도메인이 활성 웹 사이트를 갖고 있지 않다는 표시를 포함할 수 있다. 또한, S642에서와 같이, 서버가 발견된 후에 표시되는 웹사이트를 담당하는 웹 서버에 오류가 있을 수도 있다. 또한, 서버 또는 웹사이트는 S644에서와 같이, 웹 크롤러가 콘텐츠를 검색해 내는 능력을 제한하거나, S646에서와 같이 웹 크롤러를 또 다른 사이트로 리다이렉트할 수 있다. 웹 사이트의 콘텐츠에 최대 미만의 접근을 나타내는 이들, 및 그외 응답들이 S680에서 보고될 수도 있다.
웹 사이트가 접근되고 콘텐츠가 가용하다면, 방법은 S648로 진행하여 웹 사이트로부터 콘텐츠가 발견된 것으로 인식된다. 여기에서 더욱 기술되는 바와 같이, 일단 웹 사이트, 혹은 타겟 도메인으로부터 콘텐츠가 발견된다면, 방법은 S660에서와 같이, 발견된 콘텐츠를 접근하여 분석함으로써 계속될 수 있다. 콘텐츠 검색 및/또는 분석의 결과들은 S680에서 보고될 수 있다.
따라서, 도 6에 도시된 방법은 방법이 타겟 존에 접근하려고 시도라는 단계들을 진행해 가는 정도에 따라 S680에서 다수의 각종 보고들을 나타나게 할 수 있다. 이들 중 일부는 DNS 또는 웹 서버 오류들의 경우에서와 같이, 도메인의 비-기능 상태, 혹은 프로세스 동안 얻어지는, 콘텐츠를 포함한, 정보의 량 및 유형에 따른 추가적 상태, 목적 및 범주들을 반영할 수 있다.
본 발명의 실시예들은 컴퓨터로 하여금 기술된 방법들을 실행하게 하기 위한 명령들이 부호화된 컴퓨터-판독가능 저장 매체뿐만 아니라, 기술된 방법들을 구현하는 시스템들을 포함할 수 있다. 예를 들면, 도 5에 도시된 바와 같이, 프로세서, 메모리 및 전자 통신 디바이스를 포함하는 전자 시스템(100)은 DNS 서버(140)에 연관된 첫 번째 페이지의 상태를 확인하게 구성될 수 있다. 시스템(100)은 사용자 컴퓨터 시스템, 120, 170과 같은 무선 통신 디바이스들, 130, 190과 같은 서브네트워크들, 서버, 혹은 필수 기능 능력들을 갖춘 그외 어떤 다른 네트워크 가능 디바이스를 나타낼 수 있다. 시스템(100)은 레지스트리에 연관된 DNS 서버의 부분으로서, 혹은 이와는 별도로 동작할 수 있다.
첫 번째 페이지는 인터넷과 같은 전자 통신 네트워크(170)FMF 통해 서버(150)로부터 시스템(100)에 의해 수신될 수 있다. 시스템(100)은 첫 번째 페이지로부터 하이퍼링크들에 기초하여 도메인으로부터 복수의 추가적 페이지를 확인할 수 있다. 이어서 시스템(100)은 DNS 서버(140)를 통해 추가적 페이지의 상태를 확인할 수 있다. 시스템(100)은 위에서 설명한 바와 같이, 미리 결정된 데이터와의 비교에 기초하여 하이퍼링크들에 우선 순위를 정할 수도 있다. 첫 번째 페이지 및 복수의 추가적 페이지 중 적어도 하나의 페이지로부터의 콘텐츠는 서버들(150, 160), 예를 들면 웹-호스팅 서버들을 통해 추출될 수 있다. 시스템(100)은 문맥상 일치를 결정하기 위해, 시스템(100) 상에 저장되거나, 아니면 전자적으로 이에 의해 접근되는 시그내처 마커 세트를 통해 콘텐츠를 처리할 수 있다.
또한, 시스템(100)은 첫 번째 페이지의 상태, 추가적 페이지의 상태 및 콘텐츠 처리 결과들에 따라 도메인의 목적을 결정할 수 있다. 시스템(100)은 이를테면 데이터 콘텐츠를 추출할 확인된 웹 페이지를 선택하고, 용어들을 선택하는 등의 위에 기술된 다양한 사용자 입력들을 수신할 수 있고, 시스템(100)에 의해 수행되는 기술된 처리의 결과들은 공지된 기술들에 따라 디스플레이, 저장 및/또는 보내질 수 있다.
시스템(100)은 첫 번째 저장장치(도시되지 않았지만, 전형적으로 랜덤 액세스 메모리, 또는 "RAM"), 두 번째 저장장치(도시되지 않았지만, 전형적으로 판독전용 메모리, 또는"ROM")를 포함하는 저장 디바이스들에 결합되는 임의의 수의 프로세서들(도시되지 않음)을 포함한다. 이들 저장 디바이스들 둘 다는 위에 기술된 및/또는 언급된 임의의 적합한 유형의 컴퓨터-판독가능 매체를 포함할 수 있다. 대량 저장 디바이스(도시되지 않음)는 프로그램들, 데이터, 등을 저장하기 위해 사용될 수 있고, 전형적으로 주 저장장치보다는 느린 하드디스크와 같은 2차 저장 매체이다. 대량 저장 디바이스 내에 보유된 정보는 적합한 경우들에 주 저장장치의 부분으로서 표준적인 방법으로 가상 메모리로서 포함될 수 있음을 알 것이다. CD-ROM과 같은 특정한 대량 저장 디바이스는 프로세서에 일방향으로 데이터를 전달할 수도 있다.
시스템(100)은 다른 컴퓨터들(110)을 포함해서, 이를테면 비디오 모니터들, 트랙 볼들, 마우스들(104), 키보드들, 마이크로폰들, 터치-감응 디스플레이들, 트랜스듀서 카드 리더기들, 자기 또는 종이 테이프 리더기, 타블렛, 스타일러스, 음성 또는 친필 인식기, 또는 그외 공지된 입력 디바이스들과 같은 하나 이상의 입력/출력 디바이스들을 포함하는 인터페이스를 포함할 수 있다. 시스템(100)은 전체적으로 (101)로 나타낸 바와 같이 네트워크 연결을 사용하여 컴퓨터 또는 다른 전자 통신 네트워크(170, 180)에 결합될 수 있다. 네트워크는 컴퓨터들(110), 서버들(160), 무선 통신 디바이스들(120, 170) 및 서브-네트워크들(190, 130) 간에 정보를 서로 교환하기 위해 다양한 유선, 광학, 전자 및 그외 공지된 네트워크들을 연결할 수 있다. 이러한 네트워크 연결로, 시스템(100) 및 이 내에 프로세서는 네트워크로부터 정보를 수신할 수 있거나, 위에 기술된 방법의 단계들을 수행하는 과정에서 네트워크에 정보를 출력할 수 있을 것이다. 위에 기술된 디바이스들 및 자료들은 컴퓨터 하드웨어 및 소프트웨어 당업자들에겐 익숙할 것이며 당업자들에 이해하게 개별적으로 속속들이 도시될 필요는 없을 것이다. 위에 기술된 하드웨어 요소들은 위에 기술된 동작들을 수행하기 위한 하나 이상의 모듈들로서 작용하게 구성될 수 있다(일반적으로 일시적으로).
또한, 본 발명의 실시예들은 각종의 컴퓨터로 구현되는 동작들을 수행하기 위한 프로그램 명령들을 포함하는 컴퓨터-판독가능 저장매체를 더 포함한다. 또한, 매체는 단독으로, 혹은 프로그램 명령들, 데이터 파일들, 데이터 구조들, 테이블들, 등과 조합하여 포함할 수 있다. 매체 및 프로그램 명령들은 본 발명의 목적을 위해 특별히 설계되고 구성된 것들일 수 있고, 혹은 이들은 컴퓨터 소프트웨어 기술에 당업자들이 사용할 수 있는 종류의 것일 수 있다. 컴퓨터-판독가능 저장매체의 예들은 하드디스크들, 플로피 디스크들, 및 자기 테이프와 같은 자기 매체; CD-ROM 디스크들과 같은 광학매체; 플로옵티컬 디스크들과 같은 자기-광학 매체; 및 프로그램 명령들을 저장하고 수행하게 특별하게 구성된, 판독-전용 메모리 디바이스들(ROM) 및 랜덤 액세스 메모리(RAM)와 같은 하드웨어 디바이스들을 포함한다. 프로그램 명령들의 예들은 이를테면 컴파일러에 의해 생성되는 기계 코드, 및 해석기를 사용하여 컴퓨터에 의해 실행될 수 있는 고 레벨의 코드가 포함된 파일들을 포함한다.
발명은 예시적 실시예들을 참조하여 기술되었다. 이 명세서를 읽고 이해하였을 때 기술된 실시예들의 수정들 및 변경들이 당업자들에게 명백할 수 있다. 본 발명은 모든 이러한 수정들 및 변경들이 첨부된 청구항들의 범위 혹은 이들의 등가물들 내에 포함되는 한 이들을 포함한다.

Claims (39)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. (1) 첫 번째 도메인을 리졸브하고 첫 번째 웹페이지에 접속함으로써 콘텐츠를 입수할 수 있는지 여부를 결정하는 단계;
    콘텐츠가 입수 가능하다고 결정되면, 첫 번째 웹페이지로부터 리디렉션이 결과적으로 초래(result in)되는지 여부를 결정하는 단계;
    첫 번째 웹페이지로부터 리디렉션이 결과적으로 초래되지 않는다고 결정되면, 검색된 첫 번째 웹페이지의 콘텐츠를 추가적 웹페이지로부터 입수 가능한지 여부를 결정하는 단계;
    문맥상의 일치를 결정하기 위해 검색된 콘텐츠를 이미 결정된 데이터와 비교하는 단계;
    검색된 콘텐츠가 추가적 웹페이지로부터 입수 가능한 콘텐츠가 아니라고 결정되면, 문맥상 일치에 근거하여 첫 번째 도메인에 관련된 목적이 광고 트래픽을 수령할 수 있는지 여부를 결정하는 단계; 및
    첫 번째 도메인의 목적이 광고 트래픽을 수령할 수 없는 것이라고 결정되면, 문맥상 일치에 근거하여 첫 번째 도메인의 목적이 비즈니스인지 여부를 결정하는 단계;
    를 포함하는 첫 번째 도메인과 관련된 첫 번째 웹페이지를 접속하는 방법에 의해 첫 번째 도메인과 관련된 목적을 프로세서 내에서 결정하는 단계;
    (2) 첫 번째 도메인과 관련된 카테고리를 첫 번째 도메인과 관련된 목적과 구별되게 문맥상 일치시켜 첫 번째 도메인의 비즈니스 분야로 한정하여 첫 번째 도메인과 관련된 카테고리를 결정하는 단계; 및
    (3) 메모리 내에 첫 번째 도메인과 관련된 목적과 첫 번째 도메인과 관련된 카테고리를 저장하는 단계;
    로 이루어진 도메인 프로파일을 생성시키기 위한 컴퓨터 수행 방법.
  23. 제 22항에 있어서, 상기 컴퓨터 수행 방법은
    a) 첫 번째 웹페이지로부터 하나 또는 그 이상의 후속하는(subsequent) 웹페이지에 상응하는 적어도 하나의 하이퍼링크를 검색하는 단계;
    b) 하나 또는 그 이상의 후속하는 웹페이지의 목적을 결정하는 단계;
    c) 첫 번째 웹페이지로부터 콘텐츠와 하나 또는 그 이상의 후속하는 웹페이지로부터 콘텐츠를 추출하는 단계;
    d) 미리 결정된 데이터 요소 관련 기준을 통해 첫 번째 웹페이지로부터 추출된 콘텐츠와 하나 또는 그 이상의 후속하는 웹페이지로부터 추출된 콘텐츠 내에 존재하는 문맥상 일치를 확인하는 단계;
    e) 첫 번째 웹페이지의 목적, 하나 또는 그 이상의 후속하는 웹페이지의 목적 및 확인된 문맥상 일치에 근거하여 첫 번째 도메인의 두 번째 목적을 결정하는 단계;
    f) 확인된 문맥상 일치에 근거하여 첫 번째 도메인과 관련된 두 번째 카테고리를 결정하는 단계; 및
    g) 메모리 내에 첫 번째 도메인과 관련된 두 번째 카테고리가 첫 번째 카테고리와 상이한 경우 두 번째 목적과 카테고리를 저장하는 단계;
    를 더욱 포함함을 특징으로 하는 컴퓨터 수행 방법.
  24. 제 23항에 있어서, 상기 컴퓨터 수행 방법은
    a) 첫 번째 웹페이지로부터 적어도 하나의 검색된 하이퍼링크와 미리 결정된 데이터를 비교하는 단계;
    b) 비교에 근거하여 적어도 하나의 하이퍼링크에 우선순위를 부여하는 단계; 및
    c) 적어도 하나의 하이퍼링크에 부여된 우선순위에 근거하여 하나 또는 그 이상의 후속하는 웹페이지 내의 웹페이지를 선별하는 단계;
    를 더욱 포함함을 특징으로 하는 컴퓨터 수행 방법.
  25. 제 22항에 있어서, 상기 컴퓨터 수행 방법은
    a) 첫 번째 도메인의 목적에 근거하여 하나 또는 그 이상의 서브-도메인을 확인하는 단계;
    b) 하나 또는 그 이상의 서브-도메인에 관련된 각각의 목적을 결정하는 단계;
    c) 하나 또는 그 이상의 서브-도메인에 관련된 카테고리를 결정하는 단계; 및
    d) 메모리 내에 하나 또는 그 이상의 서브-도메인과 관련된 각각의 목적과 하나 또는 그 이상의 서브-도메인과 관련된 카테고리를 저장하는 단계;
    를 더욱 포함함을 특징으로 하는 컴퓨터 수행 방법.
  26. 제 25항에 있어서, 하나 또는 그 이상의 서브-도메인과 관련된 카테고리를 결정하는 단계는
    a) 하나 또는 그 이상의 서브-도메인과 관련된 하나 또는 그 이상의 서브-도메인 웹페이지를 확인하는 단계;
    b) 하나 또는 그 이상의 서브-도메인 웹페이지의 각각에 상응하는 각각의 목적을 결정하는 단계; 및
    c) 하나 또는 그 이상의 서브-도메인 웹페이지 각각에 상응하는 각각의 목적을 근거로 하나 또는 그 이상의 서브-도메인과 관련된 카테고리를 결정하는 단계;
    를 더욱 포함함을 특징으로 하는 컴퓨터 수행 방법.
  27. 제 22항에 있어서, 상기 컴퓨터 수행 방법은
    a) 사용자로부터 적어도 하나의 목적과 카테고리를 수령하는 단계;
    b) 사용자로부터 적어도 하나의 목적과 카테고리가 첫 번째 도메인과 관련된 적어도 하나의 목적과 카테고리에 상응한다는 결정에 근거하여 확인된 도메인 리스트에 첫 번째 도메인을 추가하는 단계; 및
    c) 사용자에게 확인된 도메인 리스트를 제공하는 단계;
    를 더욱 포함함을 특징으로 하는 컴퓨터 수행 방법.
  28. (1) 첫 번째 도메인을 리졸브하고 첫 번째 웹페이지에 접속함으로써 콘텐츠를 입수할 수 있는지 여부를 결정하는 단계;
    콘텐츠가 입수 가능하다고 결정되면, 첫 번째 웹페이지로부터 리디렉션이 결과적으로 초래되는지 여부를 결정하는 단계;
    첫 번째 웹페이지로부터 리디렉션이 결과적으로 초래되지 않는다고 결정되면, 검색된 첫 번째 웹페이지의 콘텐츠를 또 다른 웹페이지로부터 입수 가능한지 여부를 결정하는 단계;
    문맥상의 일치를 결정하기 위해 검색된 콘텐츠를 이미 결정된 데이터와 비교하는 단계;
    검색된 콘텐츠가 또 다른 웹페이지로부터 입수 가능한 콘텐츠가 아니라고 결정되면, 문맥상 일치에 근거하여 첫 번째 도메인에 관련된 목적이 광고 트래픽을 수령할 수 있는지 여부를 결정하는 단계; 및
    첫 번째 도메인의 목적이 광고 트래픽을 수령할 수 없는 것이라고 결정되면, 문맥상 일치에 근거하여 첫 번째 도메인의 목적이 비즈니스인지 여부를 결정하는 단계;
    를 포함하는 첫 번째 도메인과 관련된 첫 번째 웹페이지를 접속하는 방법에 의해 첫 번째 도메인과 관련된 목적을 프로세서 내에서 결정하는 단계;
    (2) 첫 번째 도메인과 관련된 카테고리를 첫 번째 도메인과 관련된 목적과 구별되게 문맥상 일치시켜 첫 번째 도메인의 비즈니스 분야로 한정하여 첫 번째 도메인과 관련된 카테고리를 결정하는 단계; 및
    (3) 메모리 내에 첫 번째 도메인과 관련된 목적과 첫 번째 도메인과 관련된 카테고리를 저장하는 단계;
    로 이루어진 도메인 프로파일을 생성시키기 위한 컴퓨터 수행 방법을 컴퓨터에 의해 수행시킬 수 있도록 명령어를 저장시킨 비-일시적 컴퓨터 판독 저장 매체.
  29. 제 28항에 있어서, 상기 컴퓨터 판독 저장 매체는
    a) 첫 번째 웹페이지로부터 하나 또는 그 이상의 후속하는(subsequent) 웹페이지에 상응하는 적어도 하나의 하이퍼링크를 검색하는 단계;
    b) 하나 또는 그 이상의 후속하는 웹페이지의 목적을 결정하는 단계;
    c) 첫 번째 웹페이지로부터 콘텐츠와 하나 또는 그 이상의 후속하는 웹페이지로부터 콘텐츠를 추출하는 단계;
    d) 미리 결정된 데이터 요소 관련 기준을 통해 첫 번째 웹페이지로부터 추출된 콘텐츠와 하나 또는 그 이상의 후속하는 웹페이지로부터 추출된 콘텐츠 내에 존재하는 문맥상 일치를 확인하는 단계;
    e) 첫 번째 웹페이지의 목적, 하나 또는 그 이상의 후속하는 웹페이지의 목적 및 확인된 문맥상 일치에 근거하여 첫 번째 도메인의 두 번째 목적을 결정하는 단계;
    f) 확인된 문맥상 일치에 근거하여 첫 번째 도메인과 관련된 두 번째 카테고리를 결정하는 단계; 및
    g) 메모리 내에 첫 번째 도메인과 관련된 두 번째 카테고리가 첫 번째 카테고리와 상이한 경우 두 번째 목적과 카테고리를 저장하는 단계;
    를 수행할 수 있도록 명령어를 더욱 포함함을 특징으로 하는 비-일시적 컴퓨터 판독 저장 매체.
  30. 제 29항에 있어서, 상기 컴퓨터 판독 저장 매체는
    a) 첫 번째 웹페이지로부터 적어도 하나의 검색된 하이퍼링크와 미리 결정된 데이터를 비교하는 단계;
    b) 비교에 근거하여 적어도 하나의 하이퍼링크에 우선순위를 부여하는 단계; 및
    c) 적어도 하나의 하이퍼링크에 부여된 우선순위에 근거하여 하나 또는 그 이상의 후속하는 웹페이지 내의 웹페이지를 선별하는 단계;
    를 수행할 수 있도록 명령어를 더욱 포함함을 특징으로 하는 비-일시적 컴퓨터 판독 저장 매체.
  31. 제 28항에 있어서, 상기 컴퓨터 판독 저장 매체는
    a) 첫 번째 도메인의 목적에 근거하여 하나 또는 그 이상의 서브-도메인을 확인하는 단계;
    b) 하나 또는 그 이상의 서브-도메인에 관련된 각각의 목적을 결정하는 단계;
    c) 하나 또는 그 이상의 서브-도메인에 관련된 카테고리를 결정하는 단계; 및
    d) 메모리 내에 하나 또는 그 이상의 서브-도메인과 관련된 각각의 목적과 하나 또는 그 이상의 서브-도메인과 관련된 카테고리를 저장하는 단계;
    를 수행할 수 있도록 명령어를 더욱 포함함을 특징으로 하는 비-일시적 컴퓨터 판독 저장 매체.
  32. 제 31항에 있어서, 하나 또는 그 이상의 서브-도메인과 관련된 카테고리를 결정하는 단계는
    a) 하나 또는 그 이상의 서브-도메인과 관련된 하나 또는 그 이상의 서브-도메인 웹페이지를 확인하는 단계;
    b) 하나 또는 그 이상의 서브-도메인 웹페이지의 각각에 상응하는 각각의 목적을 결정하는 단계; 및
    c) 하나 또는 그 이상의 서브-도메인 웹페이지 각각에 상응하는 각각의 목적을 근거로 하나 또는 그 이상의 서브-도메인과 관련된 카테고리를 결정하는 단계;
    를 수행할 수 있도록 명령어를 더욱 포함함을 특징으로 하는 비-일시적 컴퓨터 판독 저장 매체.
  33. 제 28항에 있어서, 상기 컴퓨터 판독 저장 매체는
    a) 사용자로부터 적어도 하나의 목적과 카테고리를 수령하는 단계;
    b) 사용자로부터 적어도 하나의 목적과 카테고리가 첫 번째 도메인과 관련된 적어도 하나의 목적과 카테고리에 상응한다는 결정에 근거하여 확인된 도메인 리스트에 첫 번째 도메인을 추가하는 단계; 및
    c) 사용자에게 확인된 도메인 리스트를 제공하는 단계;
    를 수행할 수 있도록 명령어를 더욱 포함함을 특징으로 하는 비-일시적 컴퓨터 판독 저장 매체.
  34. (1) 데이터와 명령어를 저장하는 메모리; 및
    (2) 메모리에 접속되어 명령어를 실행할 수 있도록 설정된 프로세서;
    로 이루어진 장치에 있어서,
    상기 프로세서는 도메인 프로파일을 생성시키기 위하여
    a) 첫 번째 도메인을 리졸브하고 첫 번째 웹페이지에 접속함으로써 콘텐츠를 입수할 수 있는지 여부를 결정하는 단계;
    콘텐츠가 입수 가능하다고 결정되면, 첫 번째 웹페이지로부터 리디렉션이 결과적으로 초래되는지 여부를 결정하는 단계;
    첫 번째 웹페이지로부터 리디렉션이 결과적으로 초래되지 않는다고 결정되면, 검색된 첫 번째 웹페이지의 콘텐츠를 또 다른 웹페이지로부터 입수 가능한지 여부를 결정하는 단계;
    문맥상의 일치를 결정하기 위해 검색된 콘텐츠를 이미 결정된 데이터와 비교하는 단계;
    검색된 콘텐츠가 또 다른 웹페이지로부터 입수 가능한 콘텐츠가 아니라고 결정되면, 문맥상 일치에 근거하여 첫 번째 도메인에 관련된 목적이 광고 트래픽을 수령할 수 있는지 여부를 결정하는 단계; 및
    첫 번째 도메인의 목적이 광고 트래픽을 수령할 수 없는 것이라고 결정되면, 문맥상 일치에 근거하여 첫 번째 도메인의 목적이 비즈니스인지 여부를 결정하는 단계;
    를 포함하는 첫 번째 도메인과 관련된 첫 번째 웹페이지를 접속하는 방법에 의해 첫 번째 도메인과 관련된 목적을 프로세서 내에서 결정하는 단계;
    b) 첫 번째 도메인과 관련된 카테고리를 첫 번째 도메인과 관련된 목적과 구별되게 문맥상 일치시켜 첫 번째 도메인의 비즈니스 분야로 한정하여 첫 번째 도메인과 관련된 카테고리를 결정하는 단계; 및
    c) 메모리 내에 첫 번째 도메인과 관련된 목적과 첫 번째 도메인과 관련된 카테고리를 저장하는 단계;
    를 수행할 수 있도록 설정됨을 특징으로 하는 장치.
  35. 제 34항에 있어서, 상기 프로세서는
    a) 첫 번째 웹페이지로부터 하나 또는 그 이상의 후속하는(subsequent) 웹페이지에 상응하는 적어도 하나의 하이퍼링크를 검색하는 단계;
    b) 하나 또는 그 이상의 후속하는 웹페이지의 목적을 결정하는 단계;
    c) 첫 번째 웹페이지로부터 콘텐츠와 하나 또는 그 이상의 후속하는 웹페이지로부터 콘텐츠를 추출하는 단계;
    d) 미리 결정된 데이터 요소 관련 기준을 통해 첫 번째 웹페이지로부터 추출된 콘텐츠와 하나 또는 그 이상의 후속하는 웹페이지로부터 추출된 콘텐츠 내에 존재하는 문맥상 일치를 확인하는 단계;
    e) 첫 번째 웹페이지의 목적, 하나 또는 그 이상의 후속하는 웹페이지의 목적 및 확인된 문맥상 일치에 근거하여 첫 번째 도메인의 두 번째 목적을 결정하는 단계;
    f) 확인된 문맥상 일치에 근거하여 첫 번째 도메인과 관련된 두 번째 카테고리를 결정하는 단계; 및
    g) 메모리 내에 첫 번째 도메인과 관련된 두 번째 카테고리가 첫 번째 카테고리와 상이한 경우 두 번째 목적과 카테고리를 저장하는 단계;
    를 더욱 수행할 수 있도록 설정됨을 특징으로 하는 장치.
  36. 제 35항에 있어서, 상기 프로세서는
    a) 첫 번째 웹페이지로부터 적어도 하나의 검색된 하이퍼링크와 미리 결정된 데이터를 비교하는 단계;
    b) 비교에 근거하여 적어도 하나의 하이퍼링크에 우선순위를 부여하는 단계; 및
    c) 적어도 하나의 하이퍼링크에 부여된 우선순위에 근거하여 하나 또는 그 이상의 후속하는 웹페이지 내의 웹페이지를 선별하는 단계;
    를 더욱 수행할 수 있도록 설정됨을 특징으로 하는 장치.
  37. 제 34항에 있어서, 상기 프로세서는
    a) 첫 번째 도메인의 목적에 근거하여 하나 또는 그 이상의 서브-도메인을 확인하는 단계;
    b) 하나 또는 그 이상의 서브-도메인에 관련된 각각의 목적을 결정하는 단계;
    c) 하나 또는 그 이상의 서브-도메인에 관련된 카테고리를 결정하는 단계; 및
    d) 메모리 내에 하나 또는 그 이상의 서브-도메인과 관련된 각각의 목적과 하나 또는 그 이상의 서브-도메인과 관련된 카테고리를 저장하는 단계;
    를 더욱 수행할 수 있도록 설정됨을 특징으로 하는 장치.
  38. 제 37항에 있어서, 하나 또는 그 이상의 서브-도메인과 관련된 카테고리를 결정하는 단계는
    a) 하나 또는 그 이상의 서브-도메인과 관련된 하나 또는 그 이상의 서브-도메인 웹페이지를 확인하는 단계;
    b) 하나 또는 그 이상의 서브-도메인 웹페이지의 각각에 상응하는 각각의 목적을 결정하는 단계; 및
    c) 하나 또는 그 이상의 서브-도메인 웹페이지 각각에 상응하는 각각의 목적을 근거로 하나 또는 그 이상의 서브-도메인과 관련된 카테고리를 결정하는 단계;
    를 더욱 수행할 수 있도록 설정됨을 특징으로 하는 장치.
  39. 제 34항에 있어서, 상기 프로세서는
    a) 사용자로부터 적어도 하나의 목적과 카테고리를 수령하는 단계;
    b) 사용자로부터 적어도 하나의 목적과 카테고리가 첫 번째 도메인과 관련된 적어도 하나의 목적과 카테고리에 상응한다는 결정에 근거하여 확인된 도메인 리스트에 첫 번째 도메인을 추가하는 단계; 및
    c) 사용자에게 확인된 도메인 리스트를 제공하는 단계;
    를 더욱 수행할 수 있도록 설정됨을 특징으로 하는 장치.
KR1020117026116A 2009-04-07 2010-04-07 도메인 상태, 목적 및 범주 KR101670700B1 (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US16752309P 2009-04-07 2009-04-07
US16752809P 2009-04-07 2009-04-07
US16752109P 2009-04-07 2009-04-07
US61/167,521 2009-04-07
US61/167,528 2009-04-07
US61/167,523 2009-04-07
US12/428,208 US9292612B2 (en) 2009-04-22 2009-04-22 Internet profile service
US12/428,208 2009-04-22
PCT/US2010/030211 WO2010118115A1 (en) 2009-04-07 2010-04-07 Domain status, purpose and categories

Publications (2)

Publication Number Publication Date
KR20120005012A KR20120005012A (ko) 2012-01-13
KR101670700B1 true KR101670700B1 (ko) 2016-10-31

Family

ID=42936554

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117026116A KR101670700B1 (ko) 2009-04-07 2010-04-07 도메인 상태, 목적 및 범주

Country Status (9)

Country Link
EP (1) EP2417536A4 (ko)
JP (1) JP2012523626A (ko)
KR (1) KR101670700B1 (ko)
CN (1) CN102460417B (ko)
AU (1) AU2010234488B2 (ko)
BR (1) BRPI1014177A2 (ko)
CA (1) CA2757833C (ko)
RU (1) RU2011144859A (ko)
WO (1) WO2010118115A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104104556B (zh) 2013-04-12 2018-09-28 腾讯科技(北京)有限公司 进行推荐信息展现的方法及系统
CN105243073A (zh) * 2014-07-11 2016-01-13 北京金山安全软件有限公司 一种书签访问方法、装置及终端
US10606821B1 (en) 2016-08-23 2020-03-31 Microsoft Technology Licensing, Llc Applicant tracking system integration
CN111291284A (zh) * 2018-12-10 2020-06-16 北京京东金融科技控股有限公司 一种多级页面的重定向方法和装置
CN110211581B (zh) * 2019-05-16 2021-04-20 济南市疾病预防控制中心 一种实验室自动语音识别记录标识系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030225876A1 (en) * 2002-05-31 2003-12-04 Peter Oliver Method and apparatus for graphically depicting network performance and connectivity

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7114177B2 (en) * 2001-03-28 2006-09-26 Geotrust, Inc. Web site identity assurance
US7565402B2 (en) * 2002-01-05 2009-07-21 Eric Schneider Sitemap access method, product, and apparatus
US7461257B2 (en) * 2003-09-22 2008-12-02 Proofpoint, Inc. System for detecting spoofed hyperlinks
US20080028443A1 (en) * 2004-10-29 2008-01-31 The Go Daddy Group, Inc. Domain name related reputation and secure certificates
CN100432996C (zh) * 2004-12-07 2008-11-12 国际商业机器公司 基于网页页面布局提取网页核心内容的系统、方法
US7475069B2 (en) * 2006-03-29 2009-01-06 International Business Machines Corporation System and method for prioritizing websites during a webcrawling process
US20080082662A1 (en) * 2006-05-19 2008-04-03 Richard Dandliker Method and apparatus for controlling access to network resources based on reputation
US20080163369A1 (en) * 2006-12-28 2008-07-03 Ming-Tai Allen Chang Dynamic phishing detection methods and apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030225876A1 (en) * 2002-05-31 2003-12-04 Peter Oliver Method and apparatus for graphically depicting network performance and connectivity

Also Published As

Publication number Publication date
CN102460417A (zh) 2012-05-16
RU2011144859A (ru) 2013-05-20
CA2757833C (en) 2018-09-18
AU2010234488B2 (en) 2015-01-22
WO2010118115A1 (en) 2010-10-14
EP2417536A1 (en) 2012-02-15
CA2757833A1 (en) 2010-10-14
BRPI1014177A2 (pt) 2016-04-05
JP2012523626A (ja) 2012-10-04
KR20120005012A (ko) 2012-01-13
CN102460417B (zh) 2015-07-29
AU2010234488A1 (en) 2011-11-17
EP2417536A4 (en) 2016-08-31

Similar Documents

Publication Publication Date Title
US9742723B2 (en) Internet profile service
KR100478019B1 (ko) 지역 정보 검색 결과 제공 방법 및 시스템
CN101454748B (zh) 用于改进对网页的信息检索的系统和方法
US8949251B2 (en) System for and method of identifying closely matching textual identifiers, such as domain names
US9262767B2 (en) Systems and methods for generating statistics from search engine query logs
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
Ortiz‐Cordova et al. Classifying web search queries to identify high revenue generating customers
US20110314011A1 (en) Automatically generating training data
US20070112777A1 (en) Identification and automatic propagation of geo-location associations to un-located documents
US20120311434A1 (en) System and method for automating categorization and aggregation of content from network sites
JP2004510257A (ja) 使用者の検索を容易にするインターネット検索システム及びその方法
US20070266024A1 (en) Facilitated Search Systems and Methods for Domains
US20150058712A1 (en) Method for assisting website design using keywords
KR101344913B1 (ko) 지역별 자동완성 질의어 제공 시스템 및 방법
US20090222440A1 (en) Search engine for carrying out a location-dependent search
KR101670700B1 (ko) 도메인 상태, 목적 및 범주
US20150058339A1 (en) Method for automating search engine optimization for websites
JP2011515754A (ja) 新規広告可能なurl提供方法およびシステム
WO2014059851A1 (zh) 一种搜索服务器及搜索方法
WO2005106714A1 (en) Method and system for providing popular information on area
WO2009054611A1 (en) System and method for managing information map
KR101020895B1 (ko) 지역 정보 검색 결과 제공 방법 및 시스템
KR100909561B1 (ko) 지역 정보 검색 결과 제공 시스템
KR20040103444A (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
CN101099150A (zh) 用于瞄准用户行为的内容管理系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant