KR20120005012A - Domain status, purpose and categories - Google Patents

Domain status, purpose and categories Download PDF

Info

Publication number
KR20120005012A
KR20120005012A KR1020117026116A KR20117026116A KR20120005012A KR 20120005012 A KR20120005012 A KR 20120005012A KR 1020117026116 A KR1020117026116 A KR 1020117026116A KR 20117026116 A KR20117026116 A KR 20117026116A KR 20120005012 A KR20120005012 A KR 20120005012A
Authority
KR
South Korea
Prior art keywords
page
domain
content
additional
status
Prior art date
Application number
KR1020117026116A
Other languages
Korean (ko)
Other versions
KR101670700B1 (en
Inventor
레오나드 오렌타스
마크 코스터스
데이브 모스톤
카르틱 시암선더
스리니바스 선카라
에두아르도 지메네즈
파니 파따푸
알렉스 홀메스
앤드류 심슨
Original Assignee
베리사인 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/428,208 external-priority patent/US9292612B2/en
Application filed by 베리사인 인코포레이티드 filed Critical 베리사인 인코포레이티드
Publication of KR20120005012A publication Critical patent/KR20120005012A/en
Application granted granted Critical
Publication of KR101670700B1 publication Critical patent/KR101670700B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Abstract

도메인 프로파일을 생성하고 사용하는 시스템들 및 방법들은 도메인에 연관된 첫 번째 페이지의 상태를 확인하는 것을 포함한다. 첫 번째 페이지가 검색되고, 도메인으로부터 추가적 페이지는 첫 번째 페이지로부터 하이퍼링크들에 기초하여 확인된다. 추가적 페이지의 상태가 확인되고 상태 및/또는 미리 결정된 데이터와의 비교에 기초하여 하이퍼링크들에 우선 순위가 정해진다. 콘텐츠는 첫 번째 페이지 및 추가적 페이지 중에서 선택된 페이지로부터 추출된다. 특정의 추가적 페이지는 우선 순위에 기초하여 선택될 수 있다. 검색된 콘텐츠는 문맥상 일치를 결정하기 위해 시그내처 마커 세트를 통해 처리될 수 있다. 도메인의 목적은 첫 번째 페이지의 상태, 추가적 페이지의 상태 및 콘텐츠의 처리의 결과들에 따라 결정된다. 도메인 프로파일은 웹 사이트들 혹은 관심 속성들을 확인하기 위해 디스플레이, 저장, 송부 및/또는 탐색될 수 있다.Systems and methods of creating and using a domain profile include checking the status of the first page associated with a domain. The first page is retrieved, and additional pages from the domain are identified based on hyperlinks from the first page. The status of the additional page is identified and the hyperlinks are prioritized based on the status and / or comparison with predetermined data. The content is extracted from the page selected among the first page and the additional page. Certain additional pages may be selected based on their priority. The retrieved content may be processed through a set of signature markers to determine contextual matches. The purpose of the domain is determined by the state of the first page, the state of the additional page and the results of the processing of the content. The domain profile can be displayed, stored, sent and / or searched to identify web sites or attributes of interest.

Description

도메인 상태, 목적 및 범주 {DOMAIN STATUS, PURPOSE AND CATEGORIES}Domain status, purpose and category {DOMAIN STATUS, PURPOSE AND CATEGORIES}

인터넷 상에 활동하는 웹 사이트들의 수가 늘어남에 따라, 가용한 콘텐츠를 구성하고 평가하는 수요가 증가하고 있다. 탐색 엔진들은 가용한 정보를 개개인의 사용자들이 찾아 접근하는 것을 더 쉬어지게 하였다. 전형적인 탐색 엔진들은 사용자의 탐색 용어들에 기초하여 관련 콘텐츠를 확인하는데 도움을 주는 알고리즘들을 포함할 수 있다. 이들은 예를 들면, 웹 트래픽에 기초하여, 요청된 콘텐츠를 가진 특정 페이지의 분명한 인기도를 고려하는 것을 포함할 수 있다. 그러나, 전형적으로 웹 사이트로부터 콘텐츠를 다운로드하고, 이를 색인하고 이어서 다운로드된 콘텐츠에 기초하여 사용자들이 탐색할 수 있게 하는 종래의 서비스들의 능력들엔 한계가 있다.As the number of web sites operating on the Internet increases, the demand for organizing and evaluating available content is increasing. Search engines have made it easier for individual users to find and access available information. Typical search engines may include algorithms that help identify relevant content based on a user's search terms. These may include, for example, considering the apparent popularity of a particular page with the requested content based on web traffic. However, there are typically limitations on the capabilities of conventional services to download content from a web site, index it, and then allow users to browse based on the downloaded content.

인터넷이 내재적으로 구성되는 방법들을 이해하는 것은 인터넷을 통해 접근될 수 있는 전 범위의 정보를 효율적으로 이용하는 것에 관계된 문제들을 이해하는데 도움이 될 수 있다. 도메인 명칭 시스템.(DNS)은 사람이 읽을 수 있는 도메인 명칭들을 인터넷을 통해 TCP/IP 통신을 설정하는데 필요한 인터넷 프로토콜(IP) 숫자들로 바꾸는 인터넷 기반구조의 부분이다. 즉, DNS는 인터넷 상에 컴퓨터들에 할당되는 "123.4.56.78"과 같은 숫자로 된 IP 어드레스들보다는, "www.example.com"같은 기억하기 쉬운 도메인 명칭들을 사용하여 사용자들이 웹 사이트들, 및 다른 자원들을 참조할 수 있게 한다. 각각의 도메인 명칭은 점들에 의해 분리된 일련의 문자 스트링들(라벨들)로 구성된다. 도메인 명칭에서 맨 우측 라벨은 "탑-레벨 도메인"(TLD)로서 알려져 있다. 공지된 TLD들의 예들은 ".com"; ".net"; ".org." 등이다. 각각의 TLD는 예를 들면 "www.example.com"에서 "example" 레벨과 같이, TLD의 바로 좌측에 열거된, 두 번째-레벨 도메인들을 지원한다. 각각의 두 번째-레벨 도메인은 예를 들면 "www.example.com"에서 "www" 레벨과 같이, 두 번째-레벨 도메인의 바로 좌측에 위치된 다수의 제 3 레벨 도메인들을 포함할 수 있다. 실질적으로 아무 제한이 없는 또 다른 레벨 도메인들도 있을 수 있다. 예를 들면, 추가적인 도메인 레벨들을 가진 도메인은 "www.photos.example.com"일 수도 있을 것이다.Understanding how the Internet is inherently organized can help you understand the problems associated with the efficient use of the full range of information that can be accessed through the Internet. Domain Name System. (DNS) is part of the Internet infrastructure that translates human-readable domain names into Internet Protocol (IP) numbers needed to establish TCP / IP communications over the Internet. That is, DNS uses Web sites, and user-friendly domain names such as "www.example.com" rather than numerical IP addresses such as "123.4.56.78" assigned to computers on the Internet. Allows you to reference other resources. Each domain name consists of a series of character strings (labels) separated by dots. The rightmost label in the domain name is known as the "top-level domain" (TLD). Examples of known TLDs are ".com"; ".net"; ".org." And so on. Each TLD supports second-level domains, listed just to the left of the TLD, such as the "example" level at "www.example.com". Each second-level domain may include a number of third level domains located just to the left of the second-level domain, such as, for example, the "www" level at "www.example.com". There may be other level domains with virtually no restrictions. For example, a domain with additional domain levels may be "www.photos.example.com".

또한, 단일 IP 어드레스, 예를 들면, 단일 서버가 수많은 도메인 명칭들을 지원할 수 있음에 유의한다. 즉, 서로 다른 도메인 명칭들은 요청된 도메인 명칭 및/또는 추가적인 비-도메인 정보에 기초하여 어떤 콘텐츠를 제공할지를 결정할 수 있는 동일 서버에 리졸브(resolve)될 수 있다. 이것을 때로는 가상 호스팅이라고도 한다.It is also noted that a single IP address, for example a single server, can support numerous domain names. In other words, different domain names may be resolved to the same server, which may determine what content to provide based on the requested domain name and / or additional non-domain information. This is sometimes called virtual hosting.

추가적인 비-도메인 정보는 도메인 명칭을 포함하는 URI(Uniform Resource Identifier) 구조에 포함될 수 있다. 예를 들면, "경로" 부분은 사선("/")에 의해 분리되는 일련의 세그먼트들(반드시 디렉토리들을 나타내는 것은 아닐지라도, 개념적으로 이들과 유사하다)이다. 이 정보는 "www.example.com/blog"에서 "blog"와 같이, 도메인 명칭의 바로 우측에 포함될 수 있고, 특정한 콘텐츠를 확인하여 전달하거나 특정 코드를 실행하기 위해 서버 또는 다른 수신 디바이스에 의해 사용될 수 있다. 비-도메인 정보의 다른 예들은 질의(query)들 및 프래그먼트들을 포함할 수 있는데, 이들의 상세는 당업자들이 알고 있는 것으로 여기에서는 상세히 다루지 않는다. 이 정보의 조합들은 사용자를 동일 페이지의 또 다른 부분에 혹은 동일, 혹은 다른 도메인의 부분일 수 있는 또 다른 웹 페이지에 내비게이트하는 웹 페이지 하이퍼링크들에 포함될 수 있다.Additional non-domain information may be included in a Uniform Resource Identifier (URI) structure that includes a domain name. For example, the "path" part is a series of segments (not necessarily representing directories, but conceptually similar), separated by diagonal lines ("/"). This information may be included just to the right of the domain name, such as "blog" at "www.example.com/blog" and may be used by a server or other receiving device to identify and deliver specific content or to execute specific code. Can be. Other examples of non-domain information may include queries and fragments, the details of which are known to those skilled in the art and are not discussed in detail herein. Combinations of this information may be included in web page hyperlinks that navigate the user to another part of the same page or to another web page that may be part of the same or different domains.

관계된 도메인 명칭들, 및 콘텐츠는 "www.example.com"; "www.blog.example.com"; "www.example.com/blog"; 또는 "blog.example.com" 등과 같이 각각이 다른 중요도를 갖는 계층적, 혹은 네스트(nest)되는 방식으로 구성될 수 있다. 이러한 관계된 도메인들은 다양한 도메인 명칭들을 리졸브하는 실제 IP 어드레스에서 유사성들을 공유할 필요가 없다. 이에 관하여, 도메인 명칭의 부분은 요망되는 한 특정한 서버를 의미할 수 있는데, 예를 들면, "mail.example.com" 및 www.example.com"은 동일한 두 번째-레벨 도메인에 대해서, 다른 기능들을 가진, 서로 다른 서버들에 리졸브할 수 있다.Relevant domain names, and content are "www.example.com"; "www.blog.example.com"; "www.example.com/blog"; Or "blog.example.com" and the like, each of which may be configured in a hierarchical or nested manner with different importance. These related domains do not need to share similarities in the actual IP address that resolves the various domain names. In this regard, part of the domain name may mean a particular server as desired, for example, "mail.example.com" and www.example.com "may be used to describe different functions for the same second-level domain. Can resolve to different servers.

각각의 TLD를 동작시키는(TLD 내에 두 번째-레벨 도메인들의 레지스트리를 유지관리하는 것을 포함한) 임무는 도메인 명칭 레지스트리("registry")로서 알려진 한 특정한 기관에 위임된다. 레지스트리는 주로, 이러한 정보를 큰 데이터베이스들에 유지관리하는 DNS 서버들을 통해 도메인 명칭들을 IP 어드레스들로 변환하고("리졸빙") 이의 탑-레벨 도메인을 운영하는 임무를 맡는다.
The task of operating each TLD (including maintaining a registry of second-level domains in the TLD) is delegated to a particular organization known as a domain name registry ("registry"). The registry is primarily responsible for translating domain names into IP addresses ("resolving") and running its top-level domains via DNS servers that maintain this information in large databases.

본 발명은 도메인에 관계된 콘텐츠의 접근성 및 의미를 개선함에 있어 장점을 제공할 수 있다. 체계적으로 인식되지 않았던 도메인 특징들을 고려함으로써, 사용자들은 도메인의 속성들에 관해 탐색할 수 있고, 넓은 응용에서, DNS 서버들 및 웹 사이트들을 통해 공개적으로 입수될 수 있는 정보를 사용하여 도메인의 웹 사이트에 관한 프로파일이 구축될 수 있다. 여기에서 사용되는 바와 같이, 도메인 특징들은 웹 페이지의 부분인 데이터 콘텐츠, 웹 페이지에 링크되는 데이터 콘텐츠, 웹 페이지의 DNS 분해(resolution) 지원 아키텍처의 부분인 데이터 콘텐츠, 등을 포함할 있는데, 그러나 이들로 한정되는 것은 아니다. 따라서, 도메인 명칭이 주어졌을 때, 웹 사이트의 속성들 및 특징들과 같은 연관된 정보는 도메인 명칭에 기초한 확장된 탐색에 기초하여 제공될 수 있다. 연관된 정보는 도메인을 기술하는 속성들 및/또는 도메인의 콘텐츠에 기초하여 개선된 탐색 결과들을 제공할 수 있다. 이들 프로파일들로부터, 개개의 사용자들의 효율 및 생산성, 비지니스 활동들, 및 일반적으로 웹 콘텐츠 지원 서비스들을 개선하기 위해 사용될 수 있는 인터넷 상에 일부 가용한 콘텐츠의 개선된 분석이 행해질 수 있다. The present invention can provide advantages in improving accessibility and meaning of content related to domains. By taking into account domain features that were not systematically recognized, users can search for properties of a domain and, in a wider application, use a domain's web site using information publicly available through DNS servers and web sites. A profile may be built for. As used herein, domain features include data content that is part of a web page, data content that is linked to a web page, data content that is part of a web page's DNS resolution support architecture, and the like, but these It is not limited to. Thus, given a domain name, associated information such as attributes and features of the web site may be provided based on an expanded search based on the domain name. The associated information may provide improved search results based on the attributes describing the domain and / or the content of the domain. From these profiles, improved analysis of some available content on the Internet can be done that can be used to improve the efficiency and productivity of individual users, business activities, and generally web content support services.

본 발명의 실시예들은 도메인을 분석하기 위한 시스템들 및 방법들에 관계된다. 실시예들은 도메인에 연관된 첫 번째 페이지의 상태를 확인하는 것을 포함할 수 있다. 상태를 확인하는 것은 첫 번째 페이지의 도메인 명칭을 리졸브하려는 시도를 포함할 수 있고, 도메인 명칭을 리졸브할 수 없다면, 도메인의 상태를 비-기능으로서 확인한다. 도메인 명칭이 리졸브되지만 콘텐츠가 접근될 수 없다면, 상태는 접근 불가로서 확인될 수 있다.Embodiments of the invention relate to systems and methods for analyzing a domain. Embodiments may include checking the status of the first page associated with the domain. Checking the status may include attempting to resolve the domain name of the first page, and if it is unable to resolve the domain name, check the status of the domain as non-functional. If the domain name resolves but the content is inaccessible, the status can be verified as inaccessible.

첫 번째 페이지가 접근될 수 있다면, 첫 번째 페이지의 콘텐츠가 검색될 수 있다. 도메인의 복수의 추가적 페이지는 첫 번째 페이지로부터 하이퍼링크들에 기초하여 확인될 수 있다. 추가적 페이지의 상태는 첫 번째 페이지의 상태였던 대로 확인될 수 있다. 즉, 추가적 페이지의 상태를 확인하는 것은 첫 번째 추가적 페이지의 도메인 명칭 또는 네트워크 어드레스를 리졸브하려는 시도를 포함할 수 있고, 도메인 명칭 또는 네트워크 어드레스가 리졸브될 수 없다면, 첫 번째 추가적 페이지의 상태는 비-기능으로서 확인될 수 있다. 도메인 명칭이 리졸브되거나 콘텐츠가 접근될 수 없다면, 첫 번째 추가적 페이지의 상태는 접근 불가로서 확인될 수 있고, 다른 페이지에 대해서도 그러하다.If the first page can be accessed, the content of the first page can be retrieved. Multiple additional pages of the domain may be identified based on hyperlinks from the first page. The state of the additional page can be checked as it was in the first page. That is, checking the status of additional pages may include attempting to resolve the domain name or network address of the first additional page, and if the domain name or network address cannot be resolved, the status of the first additional page is It can be identified as non-functional. If the domain name is not resolved or the content is inaccessible, then the status of the first additional page may be identified as inaccessible, and so on for other pages.

또한, 하이퍼링크들은 상태 및/또는 미리 결정된 데이터와의 비교에 기초하여 우선 순위가 정해질 수 있다. 예를 들면, URI 내에 문자열들은 특히 고 혹은 저 중요도를 갖는 것으로서 사전에 결정될 수 있다. 따라서, 이러한 문자열들을 내포하는 하이퍼링크들은 그에 따라 우선 순위가 정해질 수 있다. 콘텐츠는 첫 번째 페이지 및 복수의 추가적 페이지의 선택된 페이지로부터 추출될 수 있다. 콘텐츠는 여기에서 설명되는 도메인 특징들의 전체 범위를 포함할 수 있다. 추가적 페이지 중에서 특정 페이지의 선택은 이들의 우선 순위에 기초할 수 있다.In addition, hyperlinks may be prioritized based on status and / or comparison with predetermined data. For example, the strings in a URI may be determined in advance as having a particularly high or low importance. Thus, hyperlinks containing such strings may be prioritized accordingly. The content may be extracted from selected pages of the first page and a plurality of additional pages. The content may include the full range of domain features described herein. The selection of specific pages among the additional pages may be based on their priority.

첫 번째 페이지 및 추가적 페이지의 콘텐츠는 콘텐츠 간의 문맥상 일치들을 결정하기 위해 한 세트의 미리 결정된 혹은 발생된 데이터를 통해 처리될 수 있다. 미리 결정된 혹은 발생된 데이터를 시그내처 마커 세트(signature marker set)라 칭할 것이다. 시그내처 마커 세트는 알려진 요소들을 이외 어떤 다른 주제에 상관시키는 한 테이블의 데이터로서 이해되어야 한다. 예를 들면, 알려진 용어들은 도메인 명칭들의 샘플링 상에 용어가 나타나는 빈도에 연관될 수 있다. 용어의 도메인 빈도에 대해 페이지 상에서 발견되는 용어의 비교는 시그내처 마커 세트를 통해 용어를 처리하는데 있어 첫 번째 단계일 수 있다. 실시예들에서, 이것은 낮은 도메인 빈도를 가진 용어들에 집중하게 함으로써 도메인 프로파일을 더 정확하게 결정할 수 있게 하는데, 이것은 고 도메인 빈도를 가진 용어들보다 더 구별될 수 있다. 또한, 시그내처 마커 세트는 잠재적 용어 모호성을 감소시키는 기술들을 사용할 수 있다. 예를 들면, 콘텐츠는 다수의 데이터 콘텐츠의 알려진 연관들을 나타내는 미리 결정된 데이터와 비교될 수 있다. 이것은 알려진 텍스트의 연관들, 알려진 데이터-유형의 연관들, 및 도메인 특징들 내 포함된 유사 데이터의 다양한 조합들을 포함할 수 있다. 그러므로, 첫 번째 대상의 중요도는 도메인 특징들에서 두 번째 연관된 대상의 확인에 의해 더 정확하게 결정될 수 있다. 위에 언급한 바와 같이, 도메인 특징들은 웹 페이지 자체로부터, 혹은 이에 링크된 데이터, 혹은 IP 어드레스 또는 URL와 같은 DNS 정보를 포함할 수 있다.The content of the first page and the additional page may be processed through a set of predetermined or generated data to determine contextual matches between the content. The predetermined or generated data will be referred to as signature marker set. The signature marker set should be understood as data in one table that correlates known elements to some other subject. For example, known terms may be associated with the frequency with which terms appear on a sampling of domain names. The comparison of terms found on the page to the domain frequency of terms may be the first step in processing the term through the signature marker set. In embodiments, this allows for a more accurate determination of domain profile by focusing on terms with low domain frequency, which may be more distinct than terms with high domain frequency. In addition, the signature marker set may use techniques to reduce potential term ambiguity. For example, the content may be compared with predetermined data representing known associations of multiple data content. This may include known text associations, known data-type associations, and various combinations of similar data contained within domain features. Therefore, the importance of the first subject can be determined more accurately by the identification of the second associated subject in the domain features. As mentioned above, domain features may include data from or linked to the web page itself, or DNS information such as an IP address or URL.

문맥상 일치들, 첫 번째 페이지의 상태, 및 추가적 페이지의 상태에 기초하여, 도메인의 목적이 결정될 수 있다. 실시예들은 콘텐츠가 첫 번째 페이지 또는 추가적 페이지 내 내포된 실행가능 코드를 포함하며, 실행가능 코드 내에 문맥상 일치를 결정하기 위해 시그내처 마커 세트가 구성되는 것을 포함할 수 있다. 또한, 실시예들은 콘텐츠가 첫 번째 페이지 또는 추가적 페이지에 내포된 이미지, 비디오 및 오디오 정보를 포함하며, 이미지, 비디오 및 오디오 정보 내에 문맥상 일치를 결정하기 위해서 시그내처 마커 세트가 구성되는 것을 포함할 수 있다.Based on contextual matches, the state of the first page, and the state of the additional page, the purpose of the domain can be determined. Embodiments may include executable code whose content is nested within a first page or additional page, and a set of signature markers configured to determine contextual matches within the executable code. Also, embodiments may include image, video, and audio information whose content is embedded in a first page or additional page, and wherein a set of signature markers is configured to determine a contextual match within the image, video, and audio information. Can be.

일단 결정되면, 도메인 목적은 도메인의 결정된 목적을 탐색, 디스플레이, 저장 및/또는 송부를 포함한 다수의 서로 다른 방법들로 사용될 수 있다. 실시예들은 도메인의 결정된 상태 및 목적에 기초하여 관계된 도메인들을 확인하고 검색(retrieving)하는 단계를 포함할 수 있다.Once determined, the domain purpose can be used in a number of different ways, including searching, displaying, storing and / or sending the determined purpose of the domain. Embodiments may include identifying and retrieving related domains based on the determined state and purpose of the domain.

실시예들은 콘텐츠에서, 결정된 도메인 명칭, 등록된 판매 마커, 특정 데이터 유형의 부재, 페이지의 대안적 발행자, 지역사회 식별자, 및 데이터 유형 중 적어도 하나에 기초하여 도메인의 목적을 결정하는 것을 포함할 수 있다. Embodiments may include determining the purpose of the domain in the content based on at least one of a determined domain name, a registered sales marker, the absence of a particular data type, an alternative publisher of the page, a community identifier, and a data type. have.

또한, 실시예들은 하나 이상의 도메인들의 목적들에 기초하여 이들을 확인하는 것을 포함할 수 있다. 확인된 도메인들의 범주는 도메인들의 각각의 목적들로부터 구별되는 것으로 결정될 수 있다. 관계된 도메인들은 도메인의 결정된 목적 및 범주들에 기초하여 확인되고 검색될 수 있다.In addition, embodiments may include identifying these based on the purposes of one or more domains. The category of identified domains can be determined to be distinct from the respective purposes of the domains. Related domains can be identified and searched based on the domain's determined purpose and categories.

실시예들은 웹 페이지의 https 버전으로 리다이렉트(redirect)들을 트래버싱(traversing)함으로써 첫 번째 페이지로부터 하이퍼링크들을 따라는 것을 포함할 수 있다.Embodiments may include following hyperlinks from the first page by traversing redirects to the https version of the web page.

실시예들은 사용자로부터 입력된 한 세트의 목적들을 수신하는 단계; 문맥상으로 일치되는 콘텐츠 중에서 입력된 도메인들 간에 공통되는 속성들을 확인하는 단계; 및 확인된 도메인들을 사용자에게 출력하는 단계를 포함할 수 있다.Embodiments include receiving a set of purposes input from a user; Identifying attributes common to input domains among contextually matched content; And outputting the verified domains to the user.

실시예들은 사용자로부터 입력된 한 세트의 목적들 및/또는 범주들을 수신하는 단계; 입력된 한 세트의 목적들 및/또는 범주들에 대응하는 도메인들을 확인하는 단계; 및 확인된 도메인들을 사용자에게 출력하는 단계를 포함할 수 있다.Embodiments include receiving a set of purposes and / or categories input from a user; Identifying domains corresponding to the entered set of purposes and / or categories; And outputting the verified domains to the user.

실시예들은 일 범위의 도메인들에 대해 기술된 방법들을 반복적으로 수행하고 관계된 도메인 공간의 이력 분석의 결과들을 컴파일하는 것을 포함할 수 있다.Embodiments may include iteratively performing the methods described for a range of domains and compiling the results of a historical analysis of the domain domain involved.

본 발명의 실시예들은 컴퓨터로 하여금 기술된 방법들을 실행하게 하기 위한 명령들이 부호화된 컴퓨터-판독가능 저장 매체뿐만 아니라, 기술된 방법들을 구현하는 시스템들을 포함할 수 있다. 예를 들면, 프로세서, 메모리 및 전자 통신 디바이스를 포함하는 전자 시스템은, 전자 통신 디바이스를 통해 도메인에 연관된 첫 번째 페이지의 상태를 확인하고 첫 번째 페이지를 검색하고; 첫 번째 페이지로부터 하이퍼링크들에 기초하여 도메인으로부터 복수의 추가적 페이지를 확인하고; 전자 통신 디바이스를 통해 추가적 페이지의 상태를 확인하고; 미리 결정된 데이터와의 비교에 기초하여 하이퍼링크들에 우선 순위를 정하고; 전자 통신 디바이스를 통해 첫 번째 페이지 및 복수의 추가적 페이지 중 적어도 하나의 페이지로부터 콘텐츠를 추출하고, 복수의 추가적 페이지의 적어도 하나의 페이지는 우선 순위에 기초하여 선택되며; 문맥상 일치를 결정하기 위해 시그내처 마커 세트를 통해 콘텐츠를 처리하고; 첫 번째 페이지의 상태, 추가적 페이지의 상태 및 콘텐츠의 처리 결과들에 따라 도메인의 목적을 결정하고; 도메인의 결정된 목적을 디스플레이, 저장 및 송부하는 것들 중 적어도 하나를 수행하도록 구성될 수 있다.Embodiments of the present invention may include systems implementing the described methods as well as computer-readable storage media encoded with instructions for causing a computer to execute the described methods. For example, an electronic system including a processor, a memory, and an electronic communication device may, via the electronic communication device, identify the status of the first page associated with the domain and retrieve the first page; Identify a plurality of additional pages from the domain based on the hyperlinks from the first page; Confirm the status of the additional page via the electronic communication device; Prioritize the hyperlinks based on a comparison with the predetermined data; Extract content from at least one of the first page and the plurality of additional pages via the electronic communication device, wherein at least one page of the plurality of additional pages is selected based on priority; Process the content through the signature marker set to determine a contextual match; Determine the purpose of the domain according to the status of the first page, the status of the additional page, and the processing results of the content; And configured to perform at least one of those that display, store, and send the determined purpose of the domain.

본 발명의 다른 장점들은 바람직한 실시예들의 다음 상세한 설명을 읽고 이해했을 때 당업자들에게 명백하게 될 것이다.
Other advantages of the present invention will become apparent to those skilled in the art upon reading and understanding the following detailed description of the preferred embodiments.

도 1은 본 발명의 실시예에 따른 예시적 시스템을 도시한 것이다.
도 2는 본 발명의 실시예에 따른 예시적 방법을 도시한 것이다.
도 3은 본 발명의 실시예에 따라, 예시적 웹 페이지, 및 관계된 콘텐츠를 도시한 것이다.
도 4는 본 발명의 실시예에 따라, 예시적인 층상 데이터 분해(resolution)를 그래픽적으로 도시한 것이다.
도 5는 본 발명의 실시예에 따라 예시적인 프로세스 흐름을 그래픽적으로 도시한 것이다.
도 6는 본 발명의 실시예에 따른 예시적 방법의 측면들을 도시한 것이다.
1 illustrates an exemplary system according to an embodiment of the invention.
2 illustrates an exemplary method according to an embodiment of the invention.
3 illustrates an exemplary web page, and associated content, in accordance with an embodiment of the invention.
4 graphically illustrates an exemplary layered data resolution, in accordance with an embodiment of the invention.
5 graphically illustrates an example process flow in accordance with an embodiment of the invention.
6 illustrates aspects of an exemplary method according to an embodiment of the invention.

본 발명의 실시예들은 도메인 명칭들을 어떻게 타겟으로 하는가를 사용자, 웹 콘텐츠 제공자 및/또는 레지스트리가 이해하는데 도움을 줄 수 있다. 온라인 환경의 이해를 향상시키고 다른 미시적 분석 도구들을 보완하기 위해 업종부분에 의한 온라인 활동의 전체론적 관점이 구축될 수 있다. 따라서, 여기에 기술된 시스템들 및 방법들은 도메인 사이트-목적의 데이터를 제공할 수 있는 결과들을 발생할 수 있다.
Embodiments of the present invention may help a user, web content provider, and / or registry understand how to target domain names. A holistic view of online activity by industry sector can be built to improve understanding of the online environment and to complement other microanalytic tools. Thus, the systems and methods described herein may produce results that can provide domain site-purpose data.

도메인 명칭이 주어졌을 때, 기술된 시스템들 및 방법들은 도메인 명칭을 통해 접근될 수 있는 웹 사이트에 관한 속성들/특성들을 도출할 수 있다. 또한, 서비스는 도메인 또는 도메인 상에 콘텐츠를 기술하는 몇가지 속성들을 포함할 수 있는 기준에 기초하여 사용자들이 도메인들을 탐색할 수 있게 한다. 실시예들은 도메인의 웹 사이트에 관한 프로파일을 구축하기 위해서 공개적으로 입수될 수 있는 DNS 서버들에 내포된 정보 및 공개적으로 입수될 수 있는 웹사이트들 내 가용한 콘텐츠를 사용할 수 있다.
Given a domain name, the described systems and methods can derive attributes / characteristics about a web site that can be accessed via the domain name. In addition, the service allows users to search domains based on criteria that may include a domain or some attributes describing content on the domain. Embodiments may use information contained in publicly available DNS servers and content available in publicly available websites to build a profile about the domain's website.

실시예들은 예를 들면 도 1에 도시된 바와 같이, 층구조 형태로 도메인에 연관된 서로 다른 유형들의 데이터를 수집하여 제공할 수 있다. 실시예들은 웹 페이지를 로딩하는 것을 시도하고, 도메인 목적 및 도메인 범주들을 웹사이트로부터 텍스트, 혹은 그외의 데이터를 수집함으로써 결정하고, 이를 시그내처 마커 세트를 거치게 함으로써 도메인 상태를 결정할 수 있다.
Embodiments may collect and provide different types of data associated with a domain in a hierarchical form, for example, as shown in FIG. 1. Embodiments may determine domain status by attempting to load a web page, determining domain purpose and domain categories by gathering text or other data from the website, and passing it through a set of signature markers.

시스템들 및 방법들은 도메인의 웹사이트들에 관한 예시적 속성들로서, 도메인 상태; 도메인 목적; 도메인 범주들; 도메인 트래픽, 도메인 키 용어들, 도메인 특성/특징들/기능, 및 도메인 콘텐츠에 관한 정보를 수집하기를 시도한다. 이들 속성들을 이하 더 기술한다. 기술된 데이터 수집 및 분석을 통해, 본 발명의 실시예들은 .com 및 .net TLD들과 같은 TLD들의 개선된 디렉토리 및 웹사이트 호스팅을 위한 이들의 사용의 개요를 제공할 수 있다. 예를 들면, TLD 내에 모든, 혹은 일부 도메인들에 대한 도메인 프로파일들을 결정함으로써, 개개의 웹 페이지 콘텐츠에 따라 결정되고 적용되는 범주들보다는 도메인-공간 전 범위에 걸쳐 존재하는 패턴들에 따라 관련 도메인들을 분류하는 개선된 디렉토리가 생성될 수 있다. 이것은 인터넷 아키텍처 및 서비스들의 여러 레벨들을 관리함에 있어 전에는 인식하지 못했던 장점들을 제공할 수 있다. 예를 들면, 개개의 웹 페이지 단독보다는 도메인의 상태, 목적 및 범주들을 결정함으로써, 개개의 사용자들, 콘텐츠 제공자들 및 레지스트리들은 콘텐츠의 관련성을 더 잘 알 수 있게 되고 인터넷의 각종 사용들의 마케팅 및 그외 중요한 면들에 직접 관계된 패턴들을 더 잘 인식할 수 있게 된다.The systems and methods include example attributes regarding websites of a domain, including domain status; Domain purpose; Domain categories; Attempts to gather information about domain traffic, domain key terms, domain characteristics / features / functions, and domain content. These attributes are further described below. Through the described data collection and analysis, embodiments of the present invention can provide an overview of their use for improved directory and website hosting of TLDs, such as .com and .net TLDs. For example, by determining domain profiles for all or some domains within a TLD, related domains may be identified according to patterns that exist across domain-space-wide rather than categories determined and applied to individual web page content. An improved directory for sorting can be created. This can provide advantages not previously recognized in managing the various levels of Internet architecture and services. For example, by determining the status, purpose, and categories of domains rather than individual web pages alone, individual users, content providers, and registries may be better aware of the relevance of the content and the marketing and other aspects of the various uses of the Internet. Be able to better recognize patterns directly related to important aspects.

다음 예시적 방법을 도 2 및 도 3을 참조하여 기술한다. 도 2에 도시된 바와 같이, 방법은 첫 번째 페이지의 상태를 결정하는 단계(S1000)로 시작할 수 있다. 도메인 상태는 일반적으로 도메인을 리졸브할지 여부와 어떻게 리졸브할지에 관계된다. 예를 들면, 도메인에 연관된 웹 서버가 있는지, 만약 그러하다면, 웹 서버가 연결될 수 있는지가 결정될 수 있다. 또 다른 정보는 임의의 특정하게 확인된 웹 서버 오류들이 있는지를 포함할 수 있다. 예를 들면, 도메인 명칭을 리졸브 하도록 시도하기 위해 도메인 명칭이 DNS 서버에 입력되고 전송된다. 도메인 명칭을 리졸브 할 수 없다면, 도메인의 상태는 비-기능인 것으로 결정될 수 있다. 도메인 명칭이 리졸브되지만 콘텐츠에 접근할 수 없다면, 상태는 접근 불가로서 식별될 수 있다. 이외 다른 상태 식별자들도 가능하다.
The following example method is described with reference to FIGS. 2 and 3. As shown in FIG. 2, the method may begin with determining a state of a first page (S1000). Domain status generally relates to whether and how to resolve a domain. For example, it may be determined whether there is a web server associated with the domain, and if so, whether the web server can connect. Another information may include whether there are any specifically identified web server errors. For example, a domain name is entered and sent to a DNS server to attempt to resolve the domain name. If the domain name cannot be resolved, the state of the domain may be determined to be non-functional. If the domain name resolves but the content is inaccessible, the status may be identified as inaccessible. Other state identifiers are possible.

도메인 상태는 연관된 웹사이트의 동작 상태, 예를 들면, 활성, HTTP 오류, 등을 나타낼 수 있다. 도메인 상태는 웹사이트가 특정 도메인으로부터 접근될 수 있는지 여부와, 그렇지 않다면, 어떤 단계에서 이 웹사이트에 접근하려는 것을 하지 못하였는지를 나타낼 수 있다. 접근 실패는 표 1에 나타낸 것들과 같은 도메인 웹 사이트에 할당된 오류 코드들을 포함할 수 있다.
Domain status may indicate the operational status of an associated website, eg, active, HTTP errors, and so forth. The domain status can indicate whether a website can be accessed from a particular domain, and if not, at what stage did not attempt to access this website. Access failures may include error codes assigned to domain web sites such as those shown in Table 1.

도메인 상태Domain status 상태 타이틀Status title 상태 설명State Description 존재하지 않음it does not exist 명칭 서버들이 발견되지 않는다.No name servers found. 명칭 서버 오류Name Server Error 명칭 서버는 도메인 요청을 인터넷(IP) 어드레스로 전환할 수 없다.The name server cannot translate domain requests to Internet (IP) addresses. 명칭 서버 타임아웃Name Server Timeout 명칭 서버는 지정된 기간 내에, 혹은 지정된 횟수의 시도 후에 응답하지 않는다.The name server does not respond within the specified time period or after the specified number of attempts. HTTP 오류 4XXHTTP Error 4XX 웹서버들이 콘텐츠 오류로 응답한다.Web servers respond with content errors. HTTP 오류 5XXHTTP Error 5XX 웹서버들이 서버 오류로 응답한다.Web servers respond with a server error 로봇들 불허No robots allowed 서버가 크롤러 접근을 거절한다.The server refuses to access the crawler. 호스트 접촉불가Host not reachable 웹서버들이 응답하지 않는다.Web servers do not respond 알 수 없는 웹 오류Unknown web error 서버들이 알수 없는 오류 메시지로 응답한다.The servers respond with an unknown error message. OKOK 서버가 콘텐츠에 도달할 수 있고 응답한다.The server can reach the content and respond.

도메인의 하나 이상의 질의들이 비-기능 또는 아니면 접근 불가 오류인 것으로 드러난다면, 방법은 단계(S1010)에서 단계(S1700)로 가서, 결정된 상태에 기초하여 도메인의 목적이 결정된다. 예를 들면, 오류 코드에 관계된 일반적인 비-기능 목적, 혹은 보다 특정한 비-기능 목적을 결정하기 위해 명칭 서버 오류와 같은 상태 코드가 사용될 수 있다.
If one or more queries in the domain are found to be non-functional or otherwise inaccessible errors, the method proceeds from step S1010 to step S1700, where the purpose of the domain is determined based on the determined state. For example, a status code, such as a name server error, may be used to determine a general non-functional purpose related to an error code, or a more specific non-functional purpose.

도메인 명칭이 리졸브되지만 리다이렉트 결과를 초래한다면, 이것은 도메인의 상태를 결정하는데 포함될 수 있다. 예를 들면, 상태는 활성 콘텐츠없이, "리다이렉트" 도메인인 것으로 결정될 수 있다.
If the domain name resolves but results in a redirect, it can be included in determining the state of the domain. For example, the status can be determined to be a "redirect" domain, with no active content.

도메인 명칭에 대한 웹 서버가 성공적으로 연결되고 리다이렉트되는 결과를 초래하지 않는다면, 도 3에 도시된 예의 첫 번째 페이지(500)의 콘텐츠가 단계(S1100)에서 검색될 수 있다.
If the web server for the domain name does not result in a successful connection and redirect, the content of the first page 500 of the example shown in FIG. 3 may be retrieved in step S1100.

단계(S1100)에서, 첫 번째 페이지로부터 콘텐츠, 예를 들면, 요소들(502, 504, 506, 508)이 검색된다. 이 콘텐츠는 예를 들면, 텍스트, 멀티미디어, 하이퍼링크, 혹은 그외 실행가능 코드를 포함한, 당업자들에게 공지된 다양한 형태들로 되어 있을 수 있다. 예로서, 요소들(502, 504, 506)은 각각 웹 페이지(510, 520, 530)에의 하이퍼링크들을 활성화시키는 웹 페이지 버튼들일 수 있다. 요소(508)는 텍스트, 이미지, 혹은 그외 멀티미디어 데이터 콘텐츠일 수도 있다. 콘텐츠는 여기에 기술된 적어도 2가지 목적들을 위해 사용될 수 있다. 한 목적은 첫 번째 페이지에 연관된, 예를 들면, 첫 번째 페이지에 내포된 하이퍼링크들로서 예를 들면, 요소들(502, 504, 506)에 기초하여, 첫 번째 페이지를 통해 접근될 수 있는 임의의 다른 페이지를 확인하는 것일 수 있다. 이 기능은 단계(S1200)에서 수행될 수 있다. 즉, 복수의 추가적 페이지, 예를 들면, 510, 520, 530은 첫 번째 페이지에서 검출된 하이퍼링크들에 기초하여 확인될 수 있다. 예시된 페이지(510, 520, 530)이 동일 두 번째 레벨 도메인을 공유할지라도, 페이지(500)에 연관된, 예를 들면, 이로부터 하이퍼링크되는 다른 페이지는 반드시 동일 도메인을 공유할 필요는 없다. 콘텐츠의 또 다른 목적은 이하 더 설명되는 도메인의 목적을 결정하는데 도움을 주는 것일 수 있다. 방법은 단계(S1300)에서 계속된다.
In step S1100, content, for example elements 502, 504, 506, 508, are retrieved from the first page. This content may be in various forms known to those skilled in the art, including, for example, text, multimedia, hyperlinks, or other executable code. By way of example, elements 502, 504, 506 may be web page buttons that activate hyperlinks to web page 510, 520, 530, respectively. Element 508 may be text, image, or other multimedia data content. The content may be used for at least two purposes described herein. One purpose is any hyperlinks associated with the first page, for example as hyperlinks embedded in the first page, for example, based on elements 502, 504, 506 that can be accessed through the first page. It may be to check another page. This function may be performed in step S1200. That is, a plurality of additional pages, for example, 510, 520, and 530, may be identified based on the hyperlinks detected in the first page. Although the illustrated pages 510, 520, 530 share the same second level domain, other pages associated with, for example, hyperlinked from, page 500 do not necessarily share the same domain. Another purpose of the content may be to help determine the purpose of the domain, which is further described below. The method continues with step S1300.

단계(S1300)에서, 추가적 페이지, 예를 들면, 510, 520, 530의 상태가 확인될 수 있다. 추가적 페이지의 상태를 확인하는 것은 첫 번째 추가적 페이지의 도메인 명칭 또는 네트워크 어드레스를 리졸브하는 것을 시도하는 것을 포함할 수 있고, 도메인 명칭 또는 네트워크 어드레스가 리졸브할 수 없다면, 첫 번째 추가적 페이지의 상태는 비-기능인 것으로서 확인될 수 있다. 도메인 명칭이 리졸브되지만 접근될 수 없다면, 첫 번째 추가적 페이지의 상태는 기능하지만 접근 불가로서 식별될 수 있다. 첫 번째 페이지(500)의 상태를 결정하는 것에 관하여 위에 논의된 바와 같이, 다른 상태 식별자들도 가능하다. 방법은 단계(S1400)에서 계속된다.
In operation S1300, additional pages, for example, states of 510, 520, and 530 may be checked. Checking the status of additional pages may include attempting to resolve the domain name or network address of the first additional page, and if the domain name or network address cannot resolve, the status of the first additional page may be It can be identified as non-functional. If the domain name resolves but cannot be accessed, the state of the first additional page may be identified as functional but inaccessible. As discussed above with regard to determining the state of the first page 500, other state identifiers are possible. The method continues with step S1400.

단계(S1400)에서, 확인된 하이퍼링크들 및 연관된 추가적 웹 페이지는 미리 결정된 데이터와의 비교에 기초하여 우선 순위가 정해질 수 있다. 예를 들면, 도메인, 및 비-도메인 URI 정보를 포함한, 하이퍼링크 데이터는 희망하는 콘텐츠를 제시하는 유의한 키워드들, 스트링들 또는 그외 값들의 리스트들과 같은, 미리 결정된 마커들과 비교될 수 있다. 하이퍼링크 데이터의 구조는 정보의 패턴들, 예를 들면, 특정 네스트 형식들 등을 인식하기 위한 프로세스의 부분으로서 분석될 수 있다. 결국, 확인된 하이퍼링크들의 우선 순위가 정해진 리스트가 생성될 수 있다.
In step S1400, the identified hyperlinks and associated additional web pages may be prioritized based on comparison with predetermined data. For example, hyperlink data, including domain, and non-domain URI information, can be compared to predetermined markers, such as lists of significant keywords, strings or other values that present the desired content. . The structure of the hyperlink data can be analyzed as part of the process for recognizing patterns of information, eg, particular nested forms and the like. As a result, a prioritized list of identified hyperlinks may be generated.

사용자는 우선순위를 커스터마이즈하기 위해서 사용할 특정 마커들을 선택할 수 있다. 이것은 확인된 하이퍼링크 데이터에서 인식되었던 마커들의 리스트를 사용자에게 제시하고, 사용자가 이들 마커들 중에서 선택하게 하는 것을 포함할 수 있다. 사용자를 더욱 돕기 위해서, 사용자에게는 인식된 마커들에 관계된 선택적 추가 정보가 제공될 수 있다. 예를 들면, 인식된 마커들 각각에는 사용자 또는 관련 도메인에게 어떤 마커들이 가장 큰 중요도를 갖는지를 평가함에 있어 사용자를 돕는 정량적 혹은 정성적 값이 주어질 수 있다. 예를 들면, 사용자는 어떤 확인된 마커들에 특별히 관심이 있을 수 있거나, 한 세트의 마커들은 하이퍼링크 데이터 내 마커의 존재의 정량적 값에 기초하여 더 관계가 있는 것으로 보일 수도 있다. 따라서, 사용자는 사용자에게 제시되는 특정 마커들에 관계된 추가적 미리 결정된 정보에 기초하여 마커들로부터 선택할 수 있다. 이것은 도메인 프로파일링의 부분으로서 콘텐츠를 추출해 낼 더 관련있는 웹페이지를 확인하는 데 있어 장점들을 제공할 수 있다. 방법은 단계(S1500)에서 계속된다.
The user can select specific markers to use to customize the priority. This may include presenting to the user a list of markers that have been recognized in the identified hyperlink data and allowing the user to select among these markers. To further assist the user, the user may be provided with optional additional information related to the recognized markers. For example, each of the recognized markers may be given a quantitative or qualitative value to assist the user in evaluating which markers have the greatest importance to the user or related domain. For example, a user may be particularly interested in certain identified markers, or a set of markers may appear to be more relevant based on the quantitative value of the presence of a marker in the hyperlink data. Thus, the user can select from the markers based on additional predetermined information related to the particular markers presented to the user. This can provide advantages in identifying more relevant web pages from which to extract content as part of domain profiling. The method continues with step S1500.

단계(S1500)에서, 추가적 콘텐츠가, 필요하다면, 콘텐츠(508)와 같은 첫 번째 페이지(500)로부터 추출될 수 있고, 콘텐츠는 복수의 추가적 페이지 중 선택된 페이지로부터 추출될 수 있다. 추가적 페이지 중에서 특정 페이지의 선택은 이들의 우선화에 기초할 수 있다. 예를 들면, 페이지(530)가 우선 순위에서 가장 낮게 추가적 페이지(510, 520, 530)에 우선 순위가 정해진다면, 콘텐츠는 페이지(510, 520)로부터만 수집될 수 있다. 실시예들에서, 페이지(530)는 도메인 명칭 내에 텍스트 스트링 "mail"에 기초하여 저 우선 순위로서 설계될 수도 있을 것이다. 이것은 자원들을 절약할 수 있고 가장 관련있는 추가적 페이지 및 콘텐츠를 확인함으로써 나중 단계들에서 더 정확한 결과들에 이르게 할 수 있다. 이하 더 논의되는 수집된 콘텐츠의 유형은 시그내처 마커 세트의 파라미터들에 기초하여 결정될 수 있다. 예를 들면, 텍스트 콘텐츠는 시그내처 마커 세트가 텍스트만을 위해 구성된다면 필요하게 되는 모든 데이터일 수 있다. 이 판별은 대규모 데이터 수집 및 분석에서 효율을 제공할 수도 있다. 시그내처 마커 세트가 다수의 데이터 유형들을 처리하게 구성된다면, 이것은 분석의 전체적인 정확성을 개선할 수 있다.
In step S1500, additional content may be extracted from the first page 500, such as content 508, if necessary, and the content may be extracted from a selected page of the plurality of additional pages. The selection of specific pages among the additional pages may be based on their priorities. For example, if page 530 is prioritized to additional pages 510, 520, 530 at the lowest priority, content may only be collected from pages 510, 520. In embodiments, page 530 may be designed as a low priority based on the text string "mail" in the domain name. This can save resources and lead to more accurate results in later steps by identifying the most relevant additional pages and content. The type of collected content, discussed further below, may be determined based on the parameters of the signature marker set. For example, the text content may be all the data needed if the signature marker set is configured for text only. This determination may provide efficiency in large data collection and analysis. If the signature marker set is configured to handle multiple data types, this may improve the overall accuracy of the analysis.

첫 번째 페이지로부터 하이퍼링크 데이터를 따라가는 것은 리다이렉트를 트래버싱하는 것을 포함할 수도 있다. 예를 들면, 하이퍼링크 데이터는 다른 웹 페이지에 직접 리졸브하는 것이 아니라, 대신에 적어도 하나의 리다이렉트를 요구할 수도 있다. 따라서, "추가적 페이지"은 간접적으로 링크되거나 첫 번째 페이지에 연관될 수 있다. 이것은 웹 페이지의 https 버전으로 리다이렉트를 트래버싱하는 것을 포함할 수 있다. 방법은 단계(S1600)에서 계속된다.
Following the hyperlink data from the first page may include traversing the redirect. For example, the hyperlink data may not resolve directly to another web page, but may instead require at least one redirect. Thus, additional pages may be indirectly linked or associated with the first page. This may include traversing the redirect to the https version of the web page. The method continues with step S1600.

단계(S1600)에서, 첫 번째 페이지 및 추가적 페이지로부터 수집된 콘텐츠는 콘텐츠 간에 문맥상 일치하는 것들을 결정하기 위해 시그내처 마커 세트를 통해 처리될 수 있다. 위에 설명된 바와 같이, 시그내처 마커 세트는 데이터 요소들 중 하나에 대해서, 문맥상 일치, 또는 중요도를 제공하는 링크된 데이터 요소들을 포함할 수 있다. 수집된 콘텐츠의 문맥상 일치들을 확인함으로써, 콘텐츠의 여러 부분들의 중요도에 적합한 가중치가 주어질 수 있다. 예를 들면, "Ford" 용어가 자동차 제조업체이지만, 이것은 일반적인 이름의 성이기도 하며, 이것만으로는, 불확실한 중요도를 갖는다. 이것은 이 용어를 웹 페이지 콘텐츠의 부분으로서 부적절하게 고려하거나 무시하게 되는 결과를 초래할 수 있다. 용어의 모호성을 없애는 것은 용어 "Ford"의 사용이 자동차 분류에 관계된 것으로 간주되게 하기 위해서 "Ford" 및 다른 확인된 자동차 용어들이 서로 근접하여 있을 것을 요구할 수 있다. N-그램(gram) 모델들은 시퀀스에서 다음 항목을 예측하는 유형의 확률적 모델이다. N-그램들은 통계적 자연 언어 처리 및 유전 서열 분석의 다양한 분야들에서 사용되며, 여기에 기술된 콘텐츠 처리를 정제하기 위해 본 발명에 적용될 수 있다. 예를 들면, n-그램 모델은 xi-1, xi-2,..., xi-n에 기초하여 xi를 예측한다. 하이퍼링크 데이터 및 추가적 페이지를 우선화하기 위해 사용되는 마커들에 관하여 위에 기술된 바와 같이, 방법은 확인된 연관들 중에서 희망하는 연관을 사용자게 선택할 수 있게 한다. 예를 들면, 사용자는 어떤 확인된 문맥상 일치들을 유효한 것으로서, 그리고 다른 문맥상 일치들을 무효한 것으로서, 혹은 무시될 것으로서 식별할 수 있다. 또한, 방법들은 문맥상 일치들에 관련하여 추가적 정량적 또는 정성적 정보를 제공함으로써 문맥상 일치들의 중요도를 확인하는데 있어 사용자를 도울 수 있다. 따라서, 자동화된 방법들은 추출된 콘텐츠에 자동으로 적용되는 미리 결정된 시그내처 마커 세트들의 경우에서와 같이, 문맥상 일치들에 주어진 가중치를 평가하기 위해 사용될 수 있고, 혹은 이와 같이 행함에 있어, 확인된 문맥상 일치들을 사용자가 수락, 가중, 또는 거절할 수 있게 하는 경우들에서와 같이, 사용자를 도울 수 있다.
In step S1600, content collected from the first page and the additional page may be processed through a set of signature markers to determine contextual matches between the content. As described above, the signature marker set may include linked data elements that provide contextual match, or importance, to one of the data elements. By identifying the contextual matches of the collected content, weights can be given that are appropriate for the importance of the various parts of the content. For example, the term "Ford" is a car manufacturer, but this is also the last name of a common name, which alone has an uncertain importance. This may result in improperly considering or ignoring this term as part of web page content. Eliminating the term ambiguity may require that "Ford" and other identified automotive terms be in close proximity to each other in order for the use of the term "Ford" to be considered relevant to the classification of the vehicle. N-gram models are a type of probabilistic model that predicts the next item in a sequence. N-grams are used in various fields of statistical natural language processing and genetic sequence analysis and can be applied to the present invention to refine the content processing described herein. For example, the n-gram model predicts xi based on xi-1, xi-2, ..., xi-n. As described above with respect to markers used to prioritize hyperlink data and additional pages, the method allows the user to select the desired association among the identified associations. For example, a user may identify certain identified contextual matches as valid and other contextual matches as invalid or to be ignored. In addition, the methods may assist the user in identifying the importance of contextual matches by providing additional quantitative or qualitative information regarding contextual matches. Thus, automated methods can be used to evaluate the weight given to contextual matches, as in the case of predetermined signature marker sets that are automatically applied to the extracted content, or in doing so, It can help the user, such as in cases where the user can accept, weight, or reject contextual matches.

시그내처 마커 세트에 관련하여, 콘텐츠로부터 처리되는 특정 유형들의 데이터는 텍스트 또는 그외 특정한 데이터로 제한되지 않는다. 예를 들면, 실시예들은 콘텐츠가 첫 번째 페이지 또는 추가적 페이지에 내포된 실행가능 코드를 포함하고 실행가능 코드 내에서, 혹은 실행가능 코드의 결과들 내에서 문맥상 일치를 결정하도록 시그내처 마커 세트가 구성되는 것을 포함할 수 있다. 또한, 실시예들은 콘텐츠가 첫 번째 페이지 또는 추가적 페이지에 내포된 이미지, 비디오 및/또는 오디오 정보를 포함하고 이미지, 비디오 및 오디오 정보 중 어느 한 정보 내에 문맥상 일치를 결정하기 위해 시그내처 마커 세트가 구성되는 것을 포함할 수 있다. 예를 들면, 패턴 인식 결과들, 오디오 유형, 오디오 길이, 또는 임의의 다수의 관계된 속성들과 같은 다양한 오디오 데이터 간에 문맥상 일치들이 있을 수도 있다. 많은 수의 유사하게 패터닝된 오디오 정보는 예를 들면, 특정한 음악 아티스트의 콘텐츠를 지정하는 특정 유형의 웹 페이지의 확실한 표시자일 수 있고, 따라서 특별한 중요도를 가질 수 있다.
Regarding the signature marker set, the particular types of data processed from the content are not limited to text or other specific data. For example, embodiments may include a set of signature markers such that the content includes executable code embedded in a first page or additional page and determines a contextual match within the executable code or within the results of the executable code. It may include being configured. In addition, embodiments include image, video and / or audio information whose content is embedded in a first page or additional page, and a set of signature markers may be set to determine contextual matching within any of the image, video and audio information. It may include being configured. For example, there may be contextual matches between various audio data, such as pattern recognition results, audio type, audio length, or any of a number of related attributes. A large number of similarly patterned audio information can be, for example, certain indicators of a particular type of web page that specifies the content of a particular music artist, and can therefore have particular importance.

하이퍼링크 마커들 및 시그내처 마커 세트 둘 다의 경우에, 개선된 성능을 제공하기 위해 마커 성능 보고가 포함될 수 있다. 예를 들면, 사용자에게는 개개의 마커들의 성능의 정성적 평가가 제공될 수 있다. 대안적으로, 또는 자동화된 평가에 관련하여, 사용자는 마커들의 유효성을 독립적으로 평가하고 랭크할 수 있다. 그러므로, 시스템은 마커 성능에 관한 보고를 제공하고 마커들의 사용에서 변화될 수 있게 함으로써, 사용되는 마커들이 유효함을 보장할 수 있다. 보고는 사용자에게 제공되어 사용자가 변경들을 이행할 수 있으며, 또는 시스템은 어떤 임계값 미만에 속하는 마커들과 같은 열악하게 수행하는 마커들을 폐기하도록 자동화될 수 있다. 콘텐츠를 처리한 후에, 방법은 단계(S1700)에서 계속된다.
In the case of both hyperlink markers and signature marker sets, marker performance reporting may be included to provide improved performance. For example, a user may be provided with a qualitative assessment of the performance of individual markers. Alternatively, or in connection with automated assessment, a user can independently evaluate and rank the effectiveness of the markers. Therefore, the system can ensure that the markers used are valid by providing a report on marker performance and allowing it to be varied in use of the markers. The report can be provided to the user so that the user can implement the changes, or the system can be automated to discard poorly performing markers, such as markers that fall below some threshold. After processing the content, the method continues at step S1700.

단계(S1700)에서, 도메인의 목적은 첫 번째 페이지의 상태, 임의의 추가적 페이지의 상태들, 및 문맥상 일치의 임의의 결과들에 기초하여 결정될 수 있다. 도메인 목적은 주체 또는 전체적 의미 또는 도메인에 연관된 콘텐츠의 의도된 사용 또는 사용들에 관계될 수 있다. 목적은 도메인이 사용되는 명백한 이유을 반영할 수 있다. 리졸브할 수 없는 혹은 그외 접근 오류들을 보내오는 도메인들의 경우, 목적은 도메인이 사용되고 있지 않거나 제한된 것일 수 있다. 그외 확인된 목적들은 이하 표 2에 상세한 바와 같이, 클릭당 지불(Pay Per Click; PPC), 파킹, 목적, 마스크된 리다이렉션, 리다이렉션, 블로깅, 등을 포함할 수 있다.
In step S1700, the purpose of the domain may be determined based on the state of the first page, the states of any additional page, and any results of the contextual match. Domain purposes may relate to the intended use or uses of subject or overall meaning or content associated with a domain. The purpose may reflect the obvious reason why the domain is used. For domains that cannot resolve or send other access errors, the purpose may be that the domain is not in use or restricted. Other identified objectives may include Pay Per Click (PPC), parking, purpose, masked redirection, redirection, blogging, and the like, as detailed in Table 2 below.

문맥상 일치들의 결과들은 활성 도메인들의 특별화된 목적들을 결정함에 있어 특히 효과적일 수 있다. 이 평가의 정확성은 우선화된 추가적 페이지의 추가적 분석에 의해 개선된다. 따라서, 기능하는 웹 사이트들에는 표 2에서 확인되는 것들과 같은 비-배타적 목적 코드들 및 그외 목적들을 지정하기 위한 임의의 다른 적합한 코드들이 할당될 수 있다.
The results of contextual matches can be particularly effective in determining the specialized purposes of the active domains. The accuracy of this assessment is improved by further analysis of prioritized additional pages. Thus, functional web sites may be assigned non-exclusive object codes, such as those identified in Table 2, and any other suitable code for specifying other purposes.

목적purpose 타이틀title 설명Explanation 블록block 도메인은 로봇들이 크롤하지 않게 한다.The domain keeps robots from crawling. PPC 목적PPC Purpose 단지 광고 트래픽을 구동하려 의도로(도메인의 운영자 혹은 등록자에 의한) 등록된 메인 명칭Main name registered (by the operator or registrar of the domain) only to drive advertising traffic PPC 파크PPC Park 말단 사용자 등록자 및 등록처에 의해 셋업되지 않은 기존 도메인 명칭은 수익 트래픽을 구동하기 위해 파크(parked) 명칭을 다른 목적에 맞게 만들었다.Existing domain names not set up by end user registrants and registrars have created parked names for other purposes to drive revenue traffic. 파크Park 도메인 명칭은 광고 링크들이 없이 통상의 등록된 파크를 사용한다.The domain name uses a conventional registered park without advertising links. 제작중In production 도메인 명칭이 광고 링크없이 제작중에 있다.Domain name is being produced without advertising links. 리다이렉트Redirect 도메인이 다른 도메인으로 리다이렉트한다.The domain redirects to another domain. 마스크된
리다이렉트
Masked
Redirect
도메인이 다른 사이트로부터의 콘텐츠만을 표시한다.Display only content from sites with different domains.
성인adult 도메인이 성인용 콘텐츠를 표시한다.The domain displays adult content. 회사/기관Company / Institution 도메인 명칭이 회사 또는 기관에 관한 정보를 제공하기 위해 사용된다. Domain names are used to provide information about a company or organization. 블로그blog 도메인 명칭이 주로 블로그를 위해 사용된다.Domain names are mainly used for blogs. 뉴스news 도메인이 뉴스를 모아 표시한다.The domain gathers and displays news. 이-커머스E-commerce 도메인이 온라인으로 제품을 팔기 위해 사용된다.Domains are used to sell products online. 포럼forum 도메인은 주로 사용자의한 다양한 관계된 토픽을 토론하기 위해 사용된다.Domains are primarily used by users to discuss various related topics. 소셜 네트워킹Social networking 도메인은 주로 생각이 비슷한 개개인들이 쉽게 어울릴 수 있게 하는데 사용된다.Domains are often used to make it easier for individuals with similar ideas to get along.

추가적 정보는 목적 결정에 포함될 수 있다. 예를 들면, 주로 DNS 트래픽 프로세서로부터의 통계들과 같은 도메인 트래픽의 측정들은 웹 사이트가 실제 소매 사이트인지 여부를 평가하기 위해 포함될 수 있다. 제목, 타이틀 및 설명과 같은, 도메인 키 용어들에는 위에 기술된 문맥상 일치 가중치 외에도 특정한 가중치들이 주어질 수 있다. 도메인 특성들, 특징들, 및/또는 기능들은 공통의 특징들이 웹사이트 상에 있는지를 나타내며, 블로그, 소매, 등과 같은 목적을 결정함에 있어 추가적 페이지가 사용될 수도 있다.
Additional information may be included in the purpose decision. For example, measurements of domain traffic, such as statistics primarily from DNS traffic processors, may be included to evaluate whether a web site is a real retail site. Domain key terms, such as title, title and description, may be given specific weights in addition to the contextual match weights described above. Domain characteristics, features, and / or functions indicate whether common features are on a website, and additional pages may be used in determining purposes such as blogs, retail, and the like.

또한, 목적을 결정함에 있어 콘텐츠의 기술적 상세를 고려하는 것이 장점이 있을 수 있다. 예를 들면, 웹사이트들이 어떤 유형의 기술, 예를 들면, 도메인에 연관된 메일 서버들, 쿠키들, 멀티미디어, 데이터를 보안하는 SSL 증명서들, 등을 사용하는지를 확인하는 것은 소매 대 개인과 같은 목적, 혹은 그외 목적의 표시들을 제공할 수 있다. 특정한 콘텐츠 이외의 이를테면 관계된 페이지 상에 콘텐츠를 표시하는 평균 시간, 웹 서버의 지리적 위치, 등과 같은 추가적 기술적 데이터가 표시될 수도 있다.
In addition, in determining the purpose, it may be advantageous to consider the technical details of the content. For example, identifying what types of technologies websites use, for example, mail servers, cookies, multimedia, SSL certificates for securing data, etc., associated with a domain may be used for purposes such as retail-to-person, Or other indications may be provided. Additional technical data may be displayed other than the specific content, such as the average time of displaying the content on the associated page, the geographic location of the web server, and the like.

실시예들은 콘텐츠에서, 결정된 도메인 명칭, 등록된 판매 마커, 지정된 데이터 유형의 부재, 페이지의 대안적 발행자, 지역사회 식별자, 및 데이터 유형 중 적어도 하나에 기초하여 도메인의 목적을 결정하는 것을 포함할 수 있다. 즉, 위에 나열된 것과 같이 특정한 콘텐츠의 유 또는 무는 도메인의 전체적인 목적을 확정하는데 있어 독립적 중요도를 가질 수 있다. 예들은 광고주 정보의 표시들, 또는 이들의 부재, 혹은 이미지 데이터와 같은 데이터 유형들, 또는 이들의 부재를 포함할 수 있다. 일단 도메인 목적이 결정되면, 방법은 단계(S1800)에서 계속된다.
Embodiments may include determining the purpose of a domain in the content based on at least one of a determined domain name, a registered sales marker, the absence of a specified data type, an alternative publisher of the page, a community identifier, and a data type. have. That is, the presence or absence of specific content, as listed above, may have independent importance in determining the overall purpose of the domain. Examples may include indications of advertiser information, or absence thereof, or data types such as image data, or absence thereof. Once the domain purpose is determined, the method continues at step S1800.

단계(S1800)에서, 도메인의 각각의 목적들과는 다른 도메인의 범주가 결정될 수 있다. 도메인 범주는 사이트 상에 콘텐츠에 관계된 사업부문에 연관된 범주를 반영할 수 있다. 이것은 첫 번째 페이지 및 추가적 페이지로부터 콘텐츠가 어떤 범주들에 속하는지를 결정하는 것을 포함할 수 있다. 예를 들면, 도메인 범주는 북미 산업 분류 시스템을 준수하여 도메인을 비즈니스 유별 분류 시스템에 넣을 수 있다. 표 3은 범주 코드 내에 범주들의 할당된 우선화를 포함할 수 있는 예시적 범주들의 부분적인 리스트이다.
In step S1800, a category of a domain different from the respective purposes of the domain may be determined. Domain categories may reflect categories associated with the business units related to the content on the site. This may include determining which categories the content belongs to from the first page and the additional page. For example, domain categories can conform to the North American industry classification system to put domains into business classification systems. Table 3 is a partial list of example categories that may include an assigned prioritization of categories within a category code.

범주 코드Category code 일반 범주General category 범주 세그먼트에서 상세 용어들Terminology in Category Segments 1One 제약Restrictions 1A1A 약국들Pharmacies 1B1B 약들/약품Drugs / Drugs 1C1C 조제pharmacy 22 피트니스fitness 2A2A 운동Exercise 요가yoga 2B2B 다이어트 및 영양Diet and Nutrition 다이어트Diet 식사meal 2C2C 봉사volunteer 2D2D 리뷰 사이트Review site

도메인 범주를 결정하기 위해 사용되는 정보는 첫 번째 페이지 및 추가적 페이지로부터 얻어진 콘텐츠를 포함할 수 있고, 심지어 도메인 목적을 결정하기 위해 사용되는 동일 콘텐츠일 수도 있다. 그러나, 여러 정보에 기인한 중요도는 각각의 프로세스에서 서로 다를 수도 있다. 예를 들면, 위에서 논의된 바와 같이, 다른 문맥상 기업 관련 정보와 함께 "Ford"의 존재는 웹 페이지의 회사/기관(COMPANY/ORGANIZATION) 목적을 결정하기 위해 사용될 수 있다. 다른 자동차 정보와 함께 동일 정보 "Ford"의 존재는 자동차 기술들에서 도메인 범주을 결정하기 위해 사용될 수도 있다.
The information used to determine the domain category may include content obtained from the first page and additional pages, or may even be the same content used to determine domain purpose. However, the importance attributed to the various information may be different in each process. For example, as discussed above, the presence of "Ford" along with other contextually relevant company information may be used to determine the COMPANY / ORGANIZATION purpose of the web page. The presence of the same information "Ford" along with other car information may be used to determine domain categories in car technologies.

도메인 목적의 결정에서와 같이, 도메인 분류는 특정 웹 페이지의 콘텐츠로 제한되지 않는다. 그보다는, 도메인 분류는 도메인의 포괄적인 분류에 도달하기 위해서, 첫 번째 페이지의 콘텐츠 및 우선화된 추가적 페이지로부터 도출될 수 있다. 실시예들은 도메인들의 분류를 수행하기 전에 하나 이상의 도메인들의 목적들에 기초하여 이들 도메인들을 확인하는 것을 포함할 수 있다. 이것은 사용자 상호작용과 함께 혹은 없이, 이러한 도메인들을 분류에 정확하게 범주화하는데 있어 장점들을 제공할 수 있다.
As in the determination of domain purpose, domain classification is not limited to the content of a particular web page. Rather, the domain classification may be derived from the content of the first page and additional pages prioritized in order to reach a comprehensive classification of the domain. Embodiments may include identifying these domains based on the purposes of one or more domains prior to performing classification of the domains. This can provide advantages in accurately categorizing these domains into classifications, with or without user interaction.

본 발명의 논의된 실시예들로서, 도메인 목적 및 도메인 범주들의 특징들은 서로 다를 수 있다. 즉, 도메인 목적은 도메인에 연관된 웹사이트의 목적, 예를 들면, 뉴스, 블로그, 파크, 등을 포함할 수 있다. 도메인 목적은 도메인의 웹사이트의 주 목적일 수 있다. 이 목적은 특정 웹사이트의 콘텐츠에 관계될 수 있고 반드시 이를 소유하는 회사에 관계되는 것은 아닐 수 있다. 즉, 주어진 회사의 기업 웹사이트는 예를 들면 회사를 위한 홍보 블로그 사이트와는 다른 목적을 가질 수 있다.
As discussed embodiments of the present invention, features of domain purpose and domain categories may differ. That is, the domain purpose may include the purpose of a website associated with the domain, such as news, blogs, parks, and the like. The domain purpose may be the main purpose of the domain's website. This purpose may relate to the content of a particular website and may not necessarily pertain to the company that owns it. That is, the corporate website of a given company may have a different purpose than, for example, a promotional blog site for the company.

도메인 범주들가 결정된 후에, 예시적 방법은 단계(S1900)에서 결과들을 컴퓨터-판독가능 저장매체에 저장하거나, 결과들을 사용자에게 표시하거나, 아니면 결과들을 전자 통신 네트워크를 통해 요청자에게 전자적으로 전달하는 것 중 적어도 하나를 진행할 수 있다. 실시예들은 저장된 데이터 내에서 목표로 하는 탐색들을 수행하고, 및/또는 기술된 방법들을 일 범위의 도메인들 상에서 반복적으로 수행하고, 이하 더 설명되는 바와 같이, 관계된 도메인 공간의 이력 분석에 대해 결과들을 컴파일하는 것을 더 포함할 수 있다.
After the domain categories have been determined, the exemplary method includes storing the results on a computer-readable storage medium, displaying the results to a user, or electronically delivering the results to the requestor via an electronic communication network in step S1900. At least one may proceed. Embodiments perform targeted searches within stored data, and / or repeatedly perform the described methods on a range of domains, and provide results for historical analysis of the domain domain involved, as further described below. It may further include compiling.

도 4는 본 발명의 실시예들에 따라 월마다 반복적인 사이클에 대한 고-레벨 프로세스 흐름의 예를 도시한 것이다. 이것은 일반적으로 입력들(610), 성분들(620), 및 출력들(630)로 구성된다. 추가적 도구들(690)이 포함될 수도 있다. 이러한 추가적 도구들은 여러 선택들/입력들(610)을 수행하는데 있어, 예를 들면, 확인된 하이퍼링크들, 용어들, 등의 우선 순위를 정함에 있어 사용자를 도울 수 있다. 입력들은 예를 들면, 존 파일(612), 시그내처 마커 세트(614) 및 훈련 세트(618)를 포함할 수 있다. 실시예들에서, 사용자는 시그내처 마커 세트(614) 및/또는 훈련 세트(618) 내에서 항목들을 입력, 또는 선택할 수 있다. 성분들은 웹 크롤러(622) 및 분석기(624)를 포함할 수 있다. 분석기는 기능적으로 범주화(626) 및 분류(628) 부분들로 분할될 수 있다. 레지스트리(616)는 여러 프로세스들(입력들, 성분들 및 출력)을 유지관리하고, 이들을 업종부분에 의한 관계된 온라인 활동을 더 잘 이해하기 위해 웹 공간(650)의 지정된 부분 상에서 구현할 수 있다. 예를 들면, 레지스트리는 주어진 서버로부터 모든 DNS 트래픽을 수집할 수 있다. TLD에 대해서 모든 서브-도메인 명칭들에 대한 데이터가 주기적으로 수집되어 일정 기간동안 파일 저장소(632)에 유지될 수 있다. 보고들(634)은 웹 공간(650)의 지정된 부분으로부터 정보를 처리하기 위해 추가적 도구들(690)과 공조하여 작업하는 훈련 세트(616)를 포함한 방법에 기초하여 생성될 수 있다. 이것은 일정기간 동안 DNS 트래픽 값, 및 도메인 상태, 각각의 도메인 명칭에 대한 목적 및 범주들을 제공할 수 있고 과거에 입수될 수 없었던 정보에 접근을 제공할 수 있다.
4 shows an example of a high-level process flow for a monthly recurring cycle in accordance with embodiments of the present invention. This generally consists of inputs 610, components 620, and outputs 630. Additional tools 690 may be included. These additional tools may assist the user in performing various selections / inputs 610, for example, in prioritizing identified hyperlinks, terms, and the like. The inputs may include, for example, zone file 612, signature marker set 614, and training set 618. In embodiments, the user may enter or select items within signature marker set 614 and / or training set 618. The components can include a web crawler 622 and an analyzer 624. The analyzer can be functionally divided into categorization 626 and classification 628 portions. The registry 616 can maintain various processes (inputs, components, and outputs) and implement them on designated portions of the web space 650 to better understand the related online activities by the industry. For example, the registry can collect all DNS traffic from a given server. For the TLD, data for all sub-domain names may be collected periodically and maintained in the file store 632 for a period of time. Reports 634 may be generated based on a method including a training set 616 working in conjunction with additional tools 690 to process information from a designated portion of web space 650. This can provide DNS traffic values, domain status, objectives and categories for each domain name for a period of time, and provide access to information that was previously unavailable.

또한, 실시예들은 단계(S2000)에서 질의의 부분으로서 분석을 위해 사용자로부터 입력된 한 세트의 도메인들을 수신하는 것을 포함할 수 있다. 시스템은 입력 도메인들 간에 공통되는 속성들을 자동으로 확인할 수 있다. 이들 속성들은 문맥상으로 일치되는 콘텐츠 또는 다른 수집된 정보로부터 올 수 있다. 이 분석의 결과들은 단계(S2100)에서 확인된 공통의 속성들을 사용자에게 출력하는 것을 포함할 수 있다. 이 능력은 추가적 확인된 페이지를 포함하여, 도메인들의 공통의 목적-관련 속성들을 자동으로 확인할 수 있는 등의 장점들을 제공할 수 있다.
Also, embodiments may include receiving a set of domains input from a user for analysis as part of the query at step S2000. The system can automatically identify the attributes that are common between the input domains. These attributes may come from contextually matched content or other collected information. The results of this analysis may include outputting the common attributes identified in step S2100 to the user. This capability can provide advantages such as automatically identifying common purpose-related attributes of domains, including additional verified pages.

또한, 실시예들은 단계(S2000)에서 질의의 부분으로서 예를 들면, 사용자로부터 입력된 한 세트의 목적들 및/또는 범주들을 수신하는 것을 포함할 수 있다. 기술된 방법들에 기초하여, 입력된 한 세트의 목적들 및/또는 범주들에 대응하는 도메인들이 확인될 수 있고, 확인된 도메인들이 단계(S2100)에서 사용자에게 출력될 수 있다. 이 능력은 웹 페이지 콘텐츠를 분석하는 종래의 방법들로부터 단순히 가능하지 않았을 관련 정보 및/또는 도메인들의 개선된 분류 및 확인을 제공함에 있어 장점이 있을 수 있다. 기술된 방법들은 다운로드된 콘텐츠에 우선 순위를 정하고 이 콘텐츠를 분할하는 것을 제공하며, 직접 및 간접 콘텐츠의 다양한 범주화를 포함하여, 도메인에 관한 유의한 속성들을 확인하여 수집하고, 사용자들 또는 관리자들이 도메인의 속성들에 기초하여 탐색하게 할 수 있다.
Also, embodiments may include receiving a set of purposes and / or categories, for example, entered from a user as part of a query in step S2000. Based on the described methods, domains corresponding to the entered set of purposes and / or categories can be identified, and the identified domains can be output to the user in step S2100. This capability may be advantageous in providing improved classification and identification of relevant information and / or domains that would not simply be possible from conventional methods of analyzing web page content. The described methods provide for prioritizing and dividing downloaded content, identifying and collecting significant attributes about the domain, including various categorization of direct and indirect content, and allowing users or administrators to Can be searched based on the attributes of.

예시적 프로세스 흐름에 관한 추가적 상세가 도 6에 제공되었다. 도 6에 도시된 바와 같이, 프로세스는 S600에서 시작하고 S610로 진행하고 여기에서 타겟 존 파일이 얻어진다. 예를 들면, 타겟 존은 여기에서 설명되는 바와 같이 지정된 도메인일 수 있다. 방법은 S620으로 진행한다.
Further details regarding the example process flow are provided in FIG. 6. As shown in FIG. 6, the process starts at S600 and proceeds to S610 where a target zone file is obtained. For example, the target zone can be a designated domain as described herein. The method proceeds to S620.

S620에서, 프로세스는 지정된 도메인일 수 있는 타겟 존에 연결을 시도한다. 서로 다른 유형들의 오류들은 타겟 존에 연결하려는 시도에 기초하여 야기될 수 있다. 예를 들면, DNS 서버가 실행할 수 없은 레임 델리게이션(lame delegation)이 있을 수 있다. 어떠한 DNS도 확인되지 않거나, 위에 기술된 것들과 유사한 다른 오류들이 S620에서 일어난다면, 방법은 "DNS 없음" 오류라 하는 S624로 진행한다. 이 결정에 기초하여, 상태는 S680에서 보고될 수 있다.
In S620, the process attempts to connect to the target zone, which may be the designated domain. Different types of errors can be caused based on attempts to connect to the target zone. For example, there may be lame delegation that the DNS server cannot run. If no DNS is resolved or other errors similar to those described above occur at S620, the method proceeds to S624, which is referred to as a "no DNS" error. Based on this determination, the status can be reported at S680.

타겟 존에 연결하려는 시도가 성공적이면, 방법은 S630으로 계속된다. 성공적인 시도는 요청된 도메인 명칭이 DNS 서버에 의해 IP 어드레스로 리졸브되는 것을 포함할 수 있다. 그러나, 요청된 어드레스로부터 콘텐츠를 얻는 것을 금지할 수 있는 웹 서버 레벨에서 발생할 수 있는 오류들이 있다. 예를 들면, S634에서, 명칭 서버 타임아웃, 아니면 IP 어드레스에 연결하라는 요청에 응하여 서버에 연관된 오류를 나타내는 것과 같은 서버 오류가 확인될 수 있다. S634에서 서버 오류가 표시된다면, 방법은 오류가 보고될 수 있는 S680로 진행할 수 있다.
If the attempt to connect to the target zone is successful, the method continues to S630. Successful attempts may include resolving the requested domain name to an IP address by a DNS server. However, there are errors that can occur at the web server level that can prohibit getting content from the requested address. For example, in S634, a server error may be identified, such as indicating a name server timeout or an error associated with the server in response to a request to connect to an IP address. If a server error is indicated at S634, the method may proceed to S680 where an error may be reported.

S630 동안 서버가 서버에 의해 발견된다면, 방법은 S640 ~ 648로 진행하여, 여기에서 지정된 웹 사이트 또는 어드레스를 크롤하려는 시도에 기초하여 다양한 응답들이 수신될 수 있다. 이것은 S640에서처럼, 요청된 도메인이 활성 웹 사이트를 갖고 있지 않다는 표시를 포함할 수 있다. 또한, S642에서와 같이, 서버가 발견된 후에 표시되는 웹사이트를 담당하는 웹 서버에 오류가 있을 수도 있다. 또한, 서버 또는 웹사이트는 S644에서와 같이, 웹 크롤러가 콘텐츠를 검색해 내는 능력을 제한하거나, S646에서와 같이 웹 크롤러를 또 다른 사이트로 리다이렉트할 수 있다. 웹 사이트의 콘텐츠에 최대 미만의 접근을 나타내는 이들, 및 그외 응답들이 S680에서 보고될 수도 있다.
If the server is found by the server during S630, the method proceeds to S640-648 where various responses may be received based on an attempt to crawl the web site or address specified herein. This may include an indication that the requested domain does not have an active web site, as in S640. Also, as in S642, there may be an error in the web server responsible for the website displayed after the server is found. In addition, the server or website may limit the ability of the web crawler to retrieve content, as in S644, or redirect the web crawler to another site, as in S646. These, and other responses indicating less than maximum access to the content of the web site, may be reported in S680.

웹 사이트가 접근되고 콘텐츠가 가용하다면, 방법은 S648로 진행하여 웹 사이트로부터 콘텐츠가 발견된 것으로 인식된다. 여기에서 더욱 기술되는 바와 같이, 일단 웹 사이트, 혹은 타겟 도메인으로부터 콘텐츠가 발견된다면, 방법은 S660에서와 같이, 발견된 콘텐츠를 접근하여 분석함으로써 계속될 수 있다. 콘텐츠 검색 및/또는 분석의 결과들은 S680에서 보고될 수 있다.
If the web site is accessed and the content is available, the method proceeds to S648 where it is recognized that the content has been found from the web site. As further described herein, once content is found from a web site, or from a target domain, the method may continue by accessing and analyzing the found content, as in S660. The results of the content search and / or analysis may be reported at S680.

따라서, 도 6에 도시된 방법은 방법이 타겟 존에 접근하려고 시도라는 단계들을 진행해 가는 정도에 따라 S680에서 다수의 각종 보고들을 나타나게 할 수 있다. 이들 중 일부는 DNS 또는 웹 서버 오류들의 경우에서와 같이, 도메인의 비-기능 상태, 혹은 프로세스 동안 얻어지는, 콘텐츠를 포함한, 정보의 량 및 유형에 따른 추가적 상태, 목적 및 범주들을 반영할 수 있다.Thus, the method shown in FIG. 6 may cause a number of various reports to appear in S680 depending on the degree to which the method proceeds to attempt to access the target zone. Some of these may reflect additional states, purposes, and categories depending on the amount and type of information, including content, obtained during the process, or non-functional state of the domain, such as in the case of DNS or web server errors.

본 발명의 실시예들은 컴퓨터로 하여금 기술된 방법들을 실행하게 하기 위한 명령들이 부호화된 컴퓨터-판독가능 저장 매체뿐만 아니라, 기술된 방법들을 구현하는 시스템들을 포함할 수 있다. 예를 들면, 도 5에 도시된 바와 같이, 프로세서, 메모리 및 전자 통신 디바이스를 포함하는 전자 시스템(100)은 DNS 서버(140)에 연관된 첫 번째 페이지의 상태를 확인하게 구성될 수 있다. 시스템(100)은 사용자 컴퓨터 시스템, 120, 170과 같은 무선 통신 디바이스들, 130, 190과 같은 서브네트워크들, 서버, 혹은 필수 기능 능력들을 갖춘 그외 어떤 다른 네트워크 가능 디바이스를 나타낼 수 있다. 시스템(100)은 레지스트리에 연관된 DNS 서버의 부분으로서, 혹은 이와는 별도로 동작할 수 있다.
Embodiments of the present invention may include systems implementing the described methods as well as computer-readable storage media encoded with instructions for causing a computer to execute the described methods. For example, as shown in FIG. 5, the electronic system 100, including the processor, memory, and electronic communication device, may be configured to check the status of the first page associated with the DNS server 140. System 100 may represent a user computer system, wireless communication devices such as 120 and 170, subnetworks such as 130 and 190, a server, or any other network capable device with the necessary functional capabilities. System 100 may operate as part of, or separate from, a DNS server associated with a registry.

첫 번째 페이지는 인터넷과 같은 전자 통신 네트워크(170)FMF 통해 서버(150)로부터 시스템(100)에 의해 수신될 수 있다. 시스템(100)은 첫 번째 페이지로부터 하이퍼링크들에 기초하여 도메인으로부터 복수의 추가적 페이지를 확인할 수 있다. 이어서 시스템(100)은 DNS 서버(140)를 통해 추가적 페이지의 상태를 확인할 수 있다. 시스템(100)은 위에서 설명한 바와 같이, 미리 결정된 데이터와의 비교에 기초하여 하이퍼링크들에 우선 순위를 정할 수도 있다. 첫 번째 페이지 및 복수의 추가적 페이지 중 적어도 하나의 페이지로부터의 콘텐츠는 서버들(150, 160), 예를 들면 웹-호스팅 서버들을 통해 추출될 수 있다. 시스템(100)은 문맥상 일치를 결정하기 위해, 시스템(100) 상에 저장되거나, 아니면 전자적으로 이에 의해 접근되는 시그내처 마커 세트를 통해 콘텐츠를 처리할 수 있다.
The first page may be received by the system 100 from the server 150 via an electronic communications network 170 FMF, such as the Internet. System 100 can identify a plurality of additional pages from the domain based on hyperlinks from the first page. System 100 may then check the status of additional pages via DNS server 140. The system 100 may prioritize hyperlinks based on comparison with predetermined data, as described above. Content from at least one of the first page and the plurality of additional pages may be extracted via servers 150, 160, for example web-hosting servers. The system 100 may process the content via a set of signature markers stored on or otherwise accessed by the system 100 to determine a contextual match.

또한, 시스템(100)은 첫 번째 페이지의 상태, 추가적 페이지의 상태 및 콘텐츠 처리 결과들에 따라 도메인의 목적을 결정할 수 있다. 시스템(100)은 이를테면 데이터 콘텐츠를 추출할 확인된 웹 페이지를 선택하고, 용어들을 선택하는 등의 위에 기술된 다양한 사용자 입력들을 수신할 수 있고, 시스템(100)에 의해 수행되는 기술된 처리의 결과들은 공지된 기술들에 따라 디스플레이, 저장 및/또는 보내질 수 있다.
In addition, the system 100 may determine the purpose of the domain according to the state of the first page, the state of the additional page, and the content processing results. System 100 may receive various user inputs as described above, such as selecting a verified web page from which to extract data content, selecting terms, and the like, and as a result of the described processing performed by system 100. These can be displayed, stored and / or sent in accordance with known techniques.

시스템(100)은 첫 번째 저장장치(도시되지 않았지만, 전형적으로 랜덤 액세스 메모리, 또는 "RAM"), 두 번째 저장장치(도시되지 않았지만, 전형적으로 판독전용 메모리, 또는"ROM")를 포함하는 저장 디바이스들에 결합되는 임의의 수의 프로세서들(도시되지 않음)을 포함한다. 이들 저장 디바이스들 둘 다는 위에 기술된 및/또는 언급된 임의의 적합한 유형의 컴퓨터-판독가능 매체를 포함할 수 있다. 대량 저장 디바이스(도시되지 않음)는 프로그램들, 데이터, 등을 저장하기 위해 사용될 수 있고, 전형적으로 주 저장장치보다는 느린 하드디스크와 같은 2차 저장 매체이다. 대량 저장 디바이스 내에 보유된 정보는 적합한 경우들에 주 저장장치의 부분으로서 표준적인 방법으로 가상 메모리로서 포함될 수 있음을 알 것이다. CD-ROM과 같은 특정한 대량 저장 디바이스는 프로세서에 일방향으로 데이터를 전달할 수도 있다.
System 100 includes storage that includes first storage (not shown, typically random access memory, or "RAM"), second storage (not shown, typically read-only memory, or "ROM"). Any number of processors (not shown) coupled to the devices. Both of these storage devices can include any suitable type of computer-readable media described and / or mentioned above. Mass storage devices (not shown) may be used to store programs, data, and the like, and are typically secondary storage media such as hard disks that are slower than primary storage. It will be appreciated that the information retained in the mass storage device may be included as virtual memory in a standard manner as part of main storage, where appropriate. Certain mass storage devices, such as CD-ROMs, may pass data in one direction to the processor.

시스템(100)은 다른 컴퓨터들(110)을 포함해서, 이를테면 비디오 모니터들, 트랙 볼들, 마우스들(104), 키보드들, 마이크로폰들, 터치-감응 디스플레이들, 트랜스듀서 카드 리더기들, 자기 또는 종이 테이프 리더기, 타블렛, 스타일러스, 음성 또는 친필 인식기, 또는 그외 공지된 입력 디바이스들과 같은 하나 이상의 입력/출력 디바이스들을 포함하는 인터페이스를 포함할 수 있다. 시스템(100)은 전체적으로 (101)로 나타낸 바와 같이 네트워크 연결을 사용하여 컴퓨터 또는 다른 전자 통신 네트워크(170, 180)에 결합될 수 있다. 네트워크는 컴퓨터들(110), 서버들(160), 무선 통신 디바이스들(120, 170) 및 서브-네트워크들(190, 130) 간에 정보를 서로 교환하기 위해 다양한 유선, 광학, 전자 및 그외 공지된 네트워크들을 연결할 수 있다. 이러한 네트워크 연결로, 시스템(100) 및 이 내에 프로세서는 네트워크로부터 정보를 수신할 수 있거나, 위에 기술된 방법의 단계들을 수행하는 과정에서 네트워크에 정보를 출력할 수 있을 것이다. 위에 기술된 디바이스들 및 자료들은 컴퓨터 하드웨어 및 소프트웨어 당업자들에겐 익숙할 것이며 당업자들에 이해하게 개별적으로 속속들이 도시될 필요는 없을 것이다. 위에 기술된 하드웨어 요소들은 위에 기술된 동작들을 수행하기 위한 하나 이상의 모듈들로서 작용하게 구성될 수 있다(일반적으로 일시적으로).
System 100 includes other computers 110, such as video monitors, track balls, mice 104, keyboards, microphones, touch-sensitive displays, transducer card readers, magnetic or paper. It may include an interface that includes one or more input / output devices, such as a tape reader, a tablet, a stylus, a voice or handwriting recognizer, or other known input devices. System 100 may be coupled to a computer or other telecommunications network 170, 180 using a network connection as shown generally at 101. The network is a variety of wired, optical, electronic, and other known technologies for exchanging information between computers 110, servers 160, wireless communication devices 120, 170, and sub-networks 190, 130. You can connect networks. With this network connection, the system 100 and the processor therein may receive information from the network or may output information to the network in the course of performing the steps of the method described above. The devices and materials described above will be familiar to those skilled in computer hardware and software and need not be individually depicted one after another to those skilled in the art. The hardware elements described above may be configured to act as one or more modules to perform the operations described above (generally temporarily).

또한, 본 발명의 실시예들은 각종의 컴퓨터로 구현되는 동작들을 수행하기 위한 프로그램 명령들을 포함하는 컴퓨터-판독가능 저장매체를 더 포함한다. 또한, 매체는 단독으로, 혹은 프로그램 명령들, 데이터 파일들, 데이터 구조들, 테이블들, 등과 조합하여 포함할 수 있다. 매체 및 프로그램 명령들은 본 발명의 목적을 위해 특별히 설계되고 구성된 것들일 수 있고, 혹은 이들은 컴퓨터 소프트웨어 기술에 당업자들이 사용할 수 있는 종류의 것일 수 있다. 컴퓨터-판독가능 저장매체의 예들은 하드디스크들, 플로피 디스크들, 및 자기 테이프와 같은 자기 매체; CD-ROM 디스크들과 같은 광학매체; 플로옵티컬 디스크들과 같은 자기-광학 매체; 및 프로그램 명령들을 저장하고 수행하게 특별하게 구성된, 판독-전용 메모리 디바이스들(ROM) 및 랜덤 액세스 메모리(RAM)와 같은 하드웨어 디바이스들을 포함한다. 프로그램 명령들의 예들은 이를테면 컴파일러에 의해 생성되는 기계 코드, 및 해석기를 사용하여 컴퓨터에 의해 실행될 수 있는 고 레벨의 코드가 포함된 파일들을 포함한다.
In addition, embodiments of the present invention further include a computer-readable storage medium including program instructions for performing various computer-implemented operations. In addition, the medium may include alone or in combination with program instructions, data files, data structures, tables, and the like. The media and program instructions may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind available to those skilled in the computer software arts. Examples of computer-readable storage media include magnetic media such as hard disks, floppy disks, and magnetic tape; Optical media such as CD-ROM disks; Magneto-optical media such as flow optical disks; And hardware devices, such as read-only memory devices (ROM) and random access memory (RAM), specially configured to store and execute program instructions. Examples of program instructions include, for example, machine code generated by a compiler, and files containing high level code that can be executed by a computer using an interpreter.

발명은 예시적 실시예들을 참조하여 기술되었다. 이 명세서를 읽고 이해하였을 때 기술된 실시예들의 수정들 및 변경들이 당업자들에게 명백할 수 있다. 본 발명은 모든 이러한 수정들 및 변경들이 첨부된 청구항들의 범위 혹은 이들의 등가물들 내에 포함되는 한 이들을 포함한다.The invention has been described with reference to exemplary embodiments. Modifications and variations of the described embodiments may be apparent to those skilled in the art upon reading and understanding this specification. The present invention includes all such modifications and changes as long as they fall within the scope of the appended claims or their equivalents.

Claims (21)

(a) 첫 번째 웹 페이지의 리졸브를 위한 시도에 의해 도메인 명칭에 관련된 첫 번째 웹 페이지의 상태를 확인하는 단계;
(b) 첫 번째 웹 페이지의 리졸브를 위한 시도가 오류를 야기한다면 상기 첫 번째 웹 페이지의 상태에 기초하여 상기 도메인 명칭의 목적을 결정하는 단계;
(c) 첫 번째 웹 페이지의 리졸브를 위한 시도가 성공적인 경우에는 단계 (d) ~ 단계 (j)로 진행하는 단계;
(d) 상기 도메인 명칭의 첫 번째 웹 페이지를 컴퓨터 통신 네트워크를 통해 검색하는 단계;
(e) 첫 번째 웹 페이지로부터 검색된 하이퍼링크들에 기초하여 상기 도메인 명칭에 관련된 다수의 추가적 웹 페이지를 확인하는 단계;
(f) 추가적 웹 페이지의 리졸브를 위한 시도를 통해 추가적 페이지의 상태를 확인하는 단계;
(g) 미리 결정된 데이터와의 비교를 통해 상기 첫 번째 웹 페이지로부터 검색된 상기 하이퍼링크들에 우선 순위를 결정하는 단계;
(h) 컴퓨터 통신 네트워크를 통해 상기 첫 번째 페이지로부터 또는 추가적 페이지 중 적어도 하나의 페이지가 우선 순위에 의해 선택된 다수의 추가적 페이지 중 적어도 하나의 페이지로부터 콘텐츠를 추출하는 단계;
(i) 콘텐츠 내 존재하는 문맥상의 일치를 결정하기 위해 미리 결정된 관련된 데이터 요소의 테이블을 통해 콘텐츠를 처리하는 단계;
(j) 첫 번째 웹 페이지의 상태, 추가적 웹 페이지의 상태 및 상기 콘텐츠 처리를 통해 확인된 문맥상 일치에 의해 도메인 명칭의 목적을 결정하는 단계; 및
(k) 도메인의 결정된 목적을 디스플레이, 저장 및 송신 중 적어도 하나를 수행하는 단계;
를 포함하는 도메인 명칭 프로파일의 자동화 결정 방법
(a) checking the status of the first web page associated with the domain name in an attempt to resolve the first web page;
(b) determining the purpose of the domain name based on the state of the first web page if the attempt to resolve the first web page causes an error;
(c) proceeding to steps (d) through (j) if the attempt to resolve the first web page is successful;
(d) retrieving a first web page of the domain name through a computer communication network;
(e) identifying a number of additional web pages related to the domain name based on hyperlinks retrieved from the first web page;
(f) identifying the status of the additional page in an attempt to resolve the additional web page;
(g) prioritizing the hyperlinks retrieved from the first web page through comparison with predetermined data;
(h) extracting content from the first page or from at least one of the plurality of additional pages, the priority of which is selected by priority of the additional pages over a computer communication network;
(i) processing the content through a predetermined table of related data elements to determine contextual matches present in the content;
(j) determining the purpose of the domain name by the status of the first web page, the status of the additional web page, and the contextual match identified through the content processing; And
(k) performing at least one of displaying, storing and transmitting the determined purpose of the domain;
Method for automating domain name profiles, including
도메인에 관련된 첫 번째 페이지의 상태를 확인하는 단계;
첫 번째 페이지를 검색하는 단계;
첫 번째 페이지로부터 하이퍼링크들에 기초하여 도메인으로부터 다수의 추가적 페이지를 확인하는 단계;
추가적 페이지의 상태를 확인하는 단계;
미리 결정된 데이터와의 비교를 통해 상기 하이퍼링크들에 우선 순위를 결정하는 단계;
상기 첫 번째 페이지로부터 또는 추가적 페이지 중 적어도 하나의 페이지가 우선 순위에 의해 선택된 다수의 추가적 페이지 중 적어도 하나의 페이지로부터 콘텐츠를 추출하는 단계;
문맥상 일치를 결정하기 위해 시그내처 마커 세트를 통해 상기 콘텐츠를 처리하는 단계;
첫 번째 페이지의 상태, 추가적 페이지의 상태 및 콘텐츠 처리 결과에 따라 도메인 명칭의 목적을 결정하는 단계; 및
도메인의 결정된 목적을 디스플레이, 저장 및 송신 중 하나를 수행하는 단계;
를 포함하는 도메인 명칭 프로파일의 자동화 분석 방법
Checking the status of the first page associated with the domain;
Retrieving the first page;
Identifying a number of additional pages from the domain based on the hyperlinks from the first page;
Checking the status of additional pages;
Prioritizing the hyperlinks by comparison with predetermined data;
Extracting content from the first page or from at least one of the plurality of additional pages, at least one of the additional pages being selected by priority;
Processing the content through a set of signature markers to determine a contextual match;
Determining the purpose of the domain name according to the state of the first page, the state of the additional page, and the content processing result; And
Performing one of displaying, storing and transmitting the determined purpose of the domain;
Automatic analysis method of domain name profiles including
제 2 항에 있어서, 상기 도메인의 목적을 결정하는 단계는 콘텐츠에서 결정된 도메인 명칭, 등록된 판매 마커, 특정 데이터 타입의 부재, 페이지의 또 다른 발행자, 사회적 집단 식별자 및 데이터 유형 중 적어도 하나에 더욱 근거함을 특징으로 하는 방법
3. The method of claim 2, wherein determining the purpose of the domain is further based on at least one of a domain name determined in the content, a registered sales marker, the absence of a particular data type, another publisher of the page, a social group identifier, and a data type. Method characterized by
제 2 항에 있어서, 상기 목적에 근거하여 하나 이상의 도메인을 식별하는 단계; 및
도메인의 개별 범주를 도메인의 개별 목적에 의해 확인하고 식별된 도메인의 범주를 결정하는 단계;
를 더욱 포함함을 특징으로 하는 방법
3. The method of claim 2, further comprising: identifying one or more domains based on the purpose; And
Identifying individual categories of domains by their respective purposes and determining the categories of identified domains;
Method characterized in that it further comprises
제 4 항에 있어서, 도메인의 결정된 범주 및 우선적 목적에 근거하여 관련된 도메인을 확인 검색하는 단계를 더욱 포함함을 특징으로 하는 방법
5. The method of claim 4, further comprising identifying and searching related domains based on the determined category and preferred purpose of the domain.
제 2 항에 있어서, 도메인의 결정된 상태 및 목적에 근거하여 관련된 도메인을 확인 검색하는 단계를 더욱 포함함을 특징으로 하는 방법
3. The method of claim 2, further comprising verifying and searching for related domains based on the determined status and purpose of the domain.
제 2 항에 있어서, 상기 콘텐츠는 첫 번째 페이지 또는 추가적 페이지에서 내재된 문맥상의 일치를 결정하기 위해 형상화된 시그내처 마커 세트를 포함하는 실행가능 코드를 포함함을 특징으로 하는 방법
3. The method of claim 2, wherein the content comprises executable code that includes a set of signature markers shaped to determine contextual conformance inherent in the first page or additional pages.
제 2 항에 있어서, 상기 콘텐츠는 첫 번째 페이지 또는 추가적 페이지에서 내재된 문맥상의 일치를 결정하기 위해 형상화된 시그내처 마커 세트를 포함하는 이미지, 비디오 및 오디오 정보를 포함함을 특징으로 하는 방법
3. The method of claim 2, wherein the content comprises image, video and audio information comprising a set of signature markers shaped to determine contextual inherent in the first page or additional page.
제 2 항에 있어서, 상기 첫 번째 페이지로부터의 하이퍼링크들을 따라가는 것은 상기 웹 페이지의 https 버전으로 되돌리는 트래버싱 방법을 포함함을 특징으로 하는 방법
3. The method of claim 2, wherein following the hyperlinks from the first page includes a traversing method that returns to the https version of the web page.
제 2 항에 있어서, 사용자로부터 한 세트의 도메인 입력을 수신하는 단계;
문맥상으로 일치되는 콘텐츠 중에서 상기 입력된 도메인들 간에 공통된 속성들을 확인하는 단계; 및
상기 확인된 속성들을 상기 사용자에게 출력하는 단계;
를 더욱 포함함을 특징으로 하는 방법
3. The method of claim 2, further comprising: receiving a set of domain inputs from a user;
Identifying attributes common to the input domains among contextually matched content; And
Outputting the identified attributes to the user;
Method characterized in that it further comprises
제 2 항에 있어서, 사용자로부터 한 세트의 목적 입력을 수신하는 단계;
입력된 한 세트의 목적에 상응하는 도메인을 확인하는 단계; 및
확인된 도메인을 상기 사용자에게 출력하는 단계;
를 더욱 포함함을 특징으로 하는 방법
3. The method of claim 2, further comprising: receiving a set of purpose inputs from a user;
Identifying a domain corresponding to the set of purposes entered; And
Outputting the verified domain to the user;
Method characterized in that it further comprises
제 4 항에 있어서, 사용자로부터 한 세트의 목적 및 범주 입력을 수신하는 단계;
입력된 한 세트의 목적 및 범주에 상응하는 도메인들을 확인하는 단계; 및
확인된 도메인을 상기 사용자에게 출력하는 단계;
를 더욱 포함함을 특징으로 하는 방법
5. The method of claim 4, further comprising: receiving a set of purpose and category inputs from a user;
Identifying domains corresponding to a set of purposes and categories entered; And
Outputting the verified domain to the user;
Method characterized in that it further comprises
제 2 항에 있어서,
ⅰ) 상기 첫 번째 페이지의 도메인 명칭을 리졸브 시도하는 단계;
상기 도메인 명칭의 리졸브에 실패한다면, 상기 도메인의 상태를 기능 불가로 확인하는 단계;
상기 도메인 명칭이 리졸브는 되지만 콘텐츠에 접근할 수 없다면, 상기 상태를 접근 불가 상태로 확인하는 단계로 이루어진 첫 번째 페이지의 상태를 확인하는 단계; 및
ⅱ) 첫 번째 추가적 페이지의 도메인 명칭 또는 네트워크 어드레스를 리졸브 시도하는 단계;
상기 도메인 명칭 또는 네트워크 어드레스의 리졸브에 실패한다면, 상기 첫 번째 추가적 페이지의 상태를 기능 불가로 확인하는 단계;
상기 도메인 명칭이 리졸브는 되지만 콘텐츠에 접근할 수 없다면, 상기 첫 번째 추가적 페이지의 상태를 접근 불가로 확인하는 단계로 이루어진 상기 추가적 페이지의 상태를 확인하는 단계;
를 더욱 포함함을 특징으로 하는 방법

The method of claim 2,
Iii) attempting to resolve the domain name of the first page;
If the domain name resolution fails, confirming the state of the domain as inoperable;
If the domain name is resolved but the content is inaccessible, checking the status of the first page comprising the step of checking the status as inaccessible; And
Ii) attempting to resolve the domain name or network address of the first additional page;
If the resolution of the domain name or network address fails, verifying the status of the first additional page as non-functional;
If the domain name resolves but the content is inaccessible, confirming the status of the additional page comprising the step of verifying that the status of the first additional page is inaccessible;
Method characterized in that it further comprises

도메인에 관련된 첫 번째 페이지의 상태를 확인하는 단계;
첫 번째 페이지를 검색하는 단계;
첫 번째 페이지로부터 하이퍼링크들에 기초하여 상기 도메인으로부터 다수의 추가적 페이지를 확인하는 단계;
추가적 페이지의 상태를 확인하는 단계;
미리 결정된 데이터와의 비교에 의해 하이퍼링크들에 우선 순위를 결정하는 단계;
상기 첫 번째 페이지로부터 또는 추가적 페이지 중 적어도 하나의 페이지가 우선 순위에 의해 선택된 다수의 추가적 페이지 중 적어도 하나의 페이지로부터 콘텐츠를 추출하는 단계;
문맥상 일치를 결정하기 위해 시그내처 마커 세트를 통해 상기 콘텐츠를 처리하는 단계;
첫 번째 페이지의 상태, 추가적 페이지의 상태 및 콘텐츠 처리 결과에 따라 도메인 명칭의 목적을 결정하는 단계; 및
도메인의 결정된 목적을 디스플레이, 저장 및 송신 중 하나를 수행하는 단계;
를 수행하기 위한 컴퓨터에 의해 실행될 수 있는 적합한 명령을 저장하는 컴퓨터-판독가능 저장 매체
Checking the status of the first page associated with the domain;
Retrieving the first page;
Identifying a number of additional pages from the domain based on hyperlinks from the first page;
Checking the status of additional pages;
Prioritizing the hyperlinks by comparison with predetermined data;
Extracting content from the first page or from at least one of the plurality of additional pages, at least one of the additional pages being selected by priority;
Processing the content through a set of signature markers to determine a contextual match;
Determining the purpose of the domain name according to the state of the first page, the state of the additional page, and the content processing result; And
Performing one of displaying, storing and transmitting the determined purpose of the domain;
A computer-readable storage medium storing suitable instructions executable by a computer for performing a
제 14 항에 있어서, 상기 도메인의 목적을 결정하는 단계는 콘텐츠에서 결정된 도메인 명칭, 등록된 판매 마커, 특정 데이터 타입의 부재, 페이지의 또 다른 발행자, 사회적 집단 식별자 및 데이터 유형 중 적어도 하나에 더욱 근거함을 특징으로 하는 컴퓨터-판독가능 저장 매체
15. The method of claim 14, wherein determining the purpose of the domain is further based on at least one of a domain name determined in the content, a registered sales marker, the absence of a particular data type, another publisher of the page, a social group identifier, and a data type. Computer-readable storage medium characterized by
제 14 항에 있어서, 상기 명령은 상기 목적에 근거하여 하나 이상의 도메인을 식별하는 단계; 및
도메인의 개별 범주를 도메인의 개별 목적에 의해 확인하고 식별된 도메인의 범주를 결정하는 단계;
를 더욱 포함함을 특징으로 하는 컴퓨터-판독가능 저장 매체
15. The method of claim 14, wherein the command further comprises: identifying one or more domains based on the purpose; And
Identifying individual categories of domains by their respective purposes and determining the categories of identified domains;
And a computer-readable storage medium further comprising
제 14 항에 있어서, 상기 콘텐츠는 첫 번째 페이지 또는 추가적 페이지에서 내재된 문맥상의 일치를 결정하기 위해 형상화된 시그내처 마커 세트를 포함하는 실행가능 코드를 포함함을 특징으로 하는 컴퓨터-판독가능 저장 매체
15. The computer-readable storage medium of claim 14, wherein the content comprises executable code comprising a set of signature markers shaped to determine a contextual match inherent in a first page or additional page.
제 14 항에 있어서, 상기 콘텐츠는 첫 번째 페이지 또는 추가적 페이지에서 내재된 문맥상의 일치를 결정하기 위해 형상화된 시그내처 마커 세트를 포함하는 이미지, 비디오 및 오디오 정보를 포함함을 특징으로 하는 컴퓨터-판독가능 저장 매체
15. The computer-readable medium of claim 14, wherein the content includes image, video, and audio information comprising a set of signature markers shaped to determine contextual inherent in the first page or additional page. Storage media
제 16 항에 있어서, 상기 명령들은,
사용자로부터 한 세트의 도메인 입력을 수신하는 단계;
문맥상으로 일치되는 콘텐츠 중에서 상기 입력된 도메인들 간에 공통된 속성들을 확인하는 단계; 및
상기 확인된 속성들을 상기 사용자에게 출력하는 단계;
를 더욱 포함함을 특징으로 하는 컴퓨터-판독가능 저장 매체
The method of claim 16, wherein the instructions are:
Receiving a set of domain inputs from a user;
Identifying attributes common to the input domains among contextually matched content; And
Outputting the identified attributes to the user;
And a computer-readable storage medium further comprising
제 14 항에 있어서,
ⅰ) 상기 첫 번째 페이지의 도메인 명칭을 리졸브 시도하는 단계;
상기 도메인 명칭의 리졸브에 실패한다면, 상기 도메인의 상태를 기능 불가로 확인하는 단계;
상기 도메인 명칭이 리졸브는 되지만 콘텐츠에 접근할 수 없다면, 상기 상태를 접근 불가 상태로 확인하는 단계로 이루어진 첫 번째 페이지의 상태를 확인하는 단계; 및
ⅱ) 첫 번째 추가적 페이지의 도메인 명칭 또는 네트워크 어드레스를 리졸브 시도하는 단계;
상기 도메인 명칭 또는 네트워크 어드레스의 리졸브에 실패한다면, 상기 첫 번째 추가적 페이지의 상태를 기능 불가로 확인하는 단계;
상기 도메인 명칭이 리졸브는 되지만 콘텐츠에 접근할 수 없다면, 상기 첫 번째 추가적 페이지의 상태를 접근 불가로 확인하는 단계로 이루어진 상기 추가적 페이지의 상태를 확인하는 단계;
를 더욱 포함함을 특징으로 하는 컴퓨터-판독가능 저장 매체
The method of claim 14,
Iii) attempting to resolve the domain name of the first page;
If the domain name resolution fails, confirming the state of the domain as inoperable;
If the domain name is resolved but the content is inaccessible, checking the status of the first page comprising the step of checking the status as inaccessible; And
Ii) attempting to resolve the domain name or network address of the first additional page;
If the resolution of the domain name or network address fails, verifying the status of the first additional page as non-functional;
If the domain name resolves but the content is inaccessible, confirming the status of the additional page comprising the step of verifying that the status of the first additional page is inaccessible;
And a computer-readable storage medium further comprising
전자 네트워크를 통해 데이터를 교환하도록 구성된 전자 통신 유니트;
도메인에 관련된 첫 번째 페이지의 상태를 확인하는 수단;
상기 첫 번째 페이지를 검색하는 수단;
상기 첫 번째 페이지로부터 하이퍼링크들에 기초하여 도메인으로부터 다수의 추가적 페이지를 확인하기 위한 수단;
상기 추가적 페이지의 상태를 확인하기 위한 수단;
미리 결정된 데이터와의 비교에 기초하여 상기 하이퍼링크들에 우선 순위를 결정하는 수단;
상기 첫 번째 페이지로부터 또는 추가적 페이지 중 적어도 하나의 페이지가 우선 순위에 의해 선택된 다수의 추가적 페이지 중 적어도 하나의 페이지로부터 콘텐츠를 추출하는 수단;
문맥상 일치들을 결정하기 위해 시그내처 마커 세트를 통해 상기 콘텐츠를 처리하는 수단;
상기 첫 번째 페이지의 상태, 추가적 페이지의 상태 및 상기 콘텐츠 처리 결과에 따라 상기 도메인의 목적을 결정하는 수단; 및
상기 도메인의 결정된 목적을 디스플레이 또는 저장하는 디스플레이 및 저장장치 중 적어도 하나를 포함하는 장치
An electronic communication unit configured to exchange data via an electronic network;
Means for checking the status of a first page related to the domain;
Means for retrieving the first page;
Means for identifying a number of additional pages from a domain based on hyperlinks from the first page;
Means for checking the status of the additional page;
Means for prioritizing the hyperlinks based on a comparison with predetermined data;
Means for extracting content from the first page or from at least one of the plurality of additional pages in which at least one of the additional pages is selected by priority;
Means for processing the content via a signature marker set to determine contextual matches;
Means for determining the purpose of the domain according to the state of the first page, the state of additional pages, and the content processing result; And
At least one of a display and a storage device for displaying or storing the determined purpose of the domain.
KR1020117026116A 2009-04-07 2010-04-07 Domain status, purpose and categories KR101670700B1 (en)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US16752109P 2009-04-07 2009-04-07
US16752809P 2009-04-07 2009-04-07
US16752309P 2009-04-07 2009-04-07
US61/167,521 2009-04-07
US61/167,528 2009-04-07
US61/167,523 2009-04-07
US12/428,208 US9292612B2 (en) 2009-04-22 2009-04-22 Internet profile service
US12/428,208 2009-04-22
PCT/US2010/030211 WO2010118115A1 (en) 2009-04-07 2010-04-07 Domain status, purpose and categories

Publications (2)

Publication Number Publication Date
KR20120005012A true KR20120005012A (en) 2012-01-13
KR101670700B1 KR101670700B1 (en) 2016-10-31

Family

ID=42936554

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117026116A KR101670700B1 (en) 2009-04-07 2010-04-07 Domain status, purpose and categories

Country Status (9)

Country Link
EP (1) EP2417536A4 (en)
JP (1) JP2012523626A (en)
KR (1) KR101670700B1 (en)
CN (1) CN102460417B (en)
AU (1) AU2010234488B2 (en)
BR (1) BRPI1014177A2 (en)
CA (1) CA2757833C (en)
RU (1) RU2011144859A (en)
WO (1) WO2010118115A1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104104556B (en) 2013-04-12 2018-09-28 腾讯科技(北京)有限公司 Carry out the method and system that recommendation information shows
CN105243073A (en) * 2014-07-11 2016-01-13 北京金山安全软件有限公司 Bookmark access method and device and terminal
US10606821B1 (en) 2016-08-23 2020-03-31 Microsoft Technology Licensing, Llc Applicant tracking system integration
CN111291284A (en) * 2018-12-10 2020-06-16 北京京东金融科技控股有限公司 Method and device for redirecting multi-level page
CN110211581B (en) * 2019-05-16 2021-04-20 济南市疾病预防控制中心 Laboratory automatic voice recognition recording identification system and method

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7114177B2 (en) * 2001-03-28 2006-09-26 Geotrust, Inc. Web site identity assurance
US7565402B2 (en) * 2002-01-05 2009-07-21 Eric Schneider Sitemap access method, product, and apparatus
US20030225876A1 (en) * 2002-05-31 2003-12-04 Peter Oliver Method and apparatus for graphically depicting network performance and connectivity
US7457958B2 (en) * 2003-09-22 2008-11-25 Proofprint, Inc. System for detecting authentic e-mail messages
US20080028443A1 (en) * 2004-10-29 2008-01-31 The Go Daddy Group, Inc. Domain name related reputation and secure certificates
CN100432996C (en) * 2004-12-07 2008-11-12 国际商业机器公司 System, method and program for extracting web page core content based on web page layout
US7475069B2 (en) * 2006-03-29 2009-01-06 International Business Machines Corporation System and method for prioritizing websites during a webcrawling process
US20080082662A1 (en) * 2006-05-19 2008-04-03 Richard Dandliker Method and apparatus for controlling access to network resources based on reputation
US20080163369A1 (en) * 2006-12-28 2008-07-03 Ming-Tai Allen Chang Dynamic phishing detection methods and apparatus

Also Published As

Publication number Publication date
KR101670700B1 (en) 2016-10-31
CA2757833A1 (en) 2010-10-14
EP2417536A1 (en) 2012-02-15
CN102460417A (en) 2012-05-16
JP2012523626A (en) 2012-10-04
BRPI1014177A2 (en) 2016-04-05
CN102460417B (en) 2015-07-29
CA2757833C (en) 2018-09-18
WO2010118115A1 (en) 2010-10-14
EP2417536A4 (en) 2016-08-31
AU2010234488A1 (en) 2011-11-17
AU2010234488B2 (en) 2015-01-22
RU2011144859A (en) 2013-05-20

Similar Documents

Publication Publication Date Title
US9742723B2 (en) Internet profile service
KR100478019B1 (en) Method and system for generating a search result list based on local information
US9965561B2 (en) Auto-refinement of search results based on monitored search activities of users
Baglioni et al. Preprocessing and mining web log data for web personalization
US8949251B2 (en) System for and method of identifying closely matching textual identifiers, such as domain names
Ortiz‐Cordova et al. Classifying web search queries to identify high revenue generating customers
US8768954B2 (en) Relevancy-based domain classification
US8768772B2 (en) System and method for selecting advertising in a social bookmarking system
US20110040733A1 (en) Systems and methods for generating statistics from search engine query logs
JP5292250B2 (en) Document search apparatus, document search method, and document search program
CN102037464A (en) Search results with most clicked next objects
KR20020025142A (en) A Keyword Recommend System and Method for Keyword Advertise Service
JP5511782B2 (en) New advertisement capable URL providing system and new advertisement capable URL providing method
KR101670700B1 (en) Domain status, purpose and categories
US20150058339A1 (en) Method for automating search engine optimization for websites
WO2001055909A1 (en) System and method for bookmark management and analysis
WO2009054611A1 (en) System and method for managing information map
KR20090119532A (en) Method and system for recommending advertisement keyword by analyzing log
KR20080027494A (en) Method and system for generating a search result list based on local information
KR101048590B1 (en) A method of managing web sites registered in search engine and a system thereof
KR20040086731A (en) Method and system for generating a search result list based on local information
KR20230126048A (en) Big data-based artificial intelligence digital marketing method
KR20040103763A (en) A method of managing web sites registered in search engine
KR20020017177A (en) Method and apparatus for analyzing integrated logs in hub and spoke structure based on network

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant