KR100954842B1 - 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 - Google Patents

카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 Download PDF

Info

Publication number
KR100954842B1
KR100954842B1 KR1020080082503A KR20080082503A KR100954842B1 KR 100954842 B1 KR100954842 B1 KR 100954842B1 KR 1020080082503 A KR1020080082503 A KR 1020080082503A KR 20080082503 A KR20080082503 A KR 20080082503A KR 100954842 B1 KR100954842 B1 KR 100954842B1
Authority
KR
South Korea
Prior art keywords
web page
node
relative distance
category tag
tag information
Prior art date
Application number
KR1020080082503A
Other languages
English (en)
Other versions
KR20100023630A (ko
Inventor
이상근
이정진
이정현
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020080082503A priority Critical patent/KR100954842B1/ko
Publication of KR20100023630A publication Critical patent/KR20100023630A/ko
Application granted granted Critical
Publication of KR100954842B1 publication Critical patent/KR100954842B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체가 개시된다.
본 발명에 따른 카테고리 태그 정보를 이용한 웹 페이지 분류 방법은,
분류하고자 하는 웹 페이지로부터 상기 웹 페이지의 구조 정보를 포함하는 카테고리 태그 정보를 추출하는 단계; 상기 추출된 카테고리 태그 정보 및 상기 웹 페이지의 각각의 섹션에 관리자에 의해 미리 설정된 가중치를 부여하는 단계; 상기 부여된 가중치에 따라 상기 웹 페이지를 구성하는 구(phrase)를 이용하여 상기 웹 페이지의 다큐먼트 벡터(document vector)를 생성하는 단계; 상기 웹 페이지의 다큐먼트 벡터와 데이터베이스에 미리 저장된 트리 형태의 자료 구조인 분류 트리(Taxonomy tree)의 각 노드를 구성하는 구를 이용하여 생성된 각 노드의 센트로이드 벡터(centroid vector)의 코사인 유사도(Cosine Similarity) 함수값을 연산함으로써, 상기 웹 페이지와 유사한 복수 개의 노드들을 추출하는 단계; 상기 추출된 복수 개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 단계; 상기 연산된 상대 거리를 이용하여 상대 거리 스코어를 추출하고, 최소 상대 거리 스코어를 가지는 상기 웹 페이지와 가장 유사한 노드를 선정하는 단계; 및 상기 선정된 가장 유사한 노드에 상기 웹 페이지를 부착함으로써 상기 웹 페이지를 분류하는 단계를 포함한다.
본 발명에 의하면, 카테고리 태그의 구조적인 정보를 효과적으로 이용하여 웹 페이지 분류에 적용할 수 있으며, 이와 동시에 추가적인 프로세스를 최소화하는 알고리즘을 제안함으로써, 웹 페이지 분류의 품질 향상을 도모함과 동시에 웹 페이지 분류의 연산 프로세스를 최소화하여 효율적인 웹 페이지 검색에 관한 시스템 구동을 실현할 수 있도록 하는 효과가 있다.

Description

카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체{Method and System of classifying web page using category tag information and Recording medium using by the same}
본 발명은 웹 페이지 기반의 데이터 마이닝에 관한 것으로서, 특히 웹 페이지가 포함하고 있는 카테고리 태그 정보를 사용하고, 최소 상대 거리 스코어를 사용하여 효과적인 웹 페이지의 분류를 수행할 수 있는 카테고리 정보를 이용한 웹 페이지 분류 방법 및 그 시스템을 제공하는 것이다.
현재, 월드와이드웹 (World Wide Web:WWW)은 전세계적으로 사용되고 있다. 이는 인터넷망에서 정보를 쉽게 찾을 수 있도록 고안된 방법 또는 세계적인 인터넷망으로, 유럽 입자 물리 연구소(CERN:European Organization for Nuclear Research)에서 얻어지는 엄청난 양의 연구결과 및 자료의 효율적인 공유를 목적으로 1989년 3월 Tim Berners의 제안으로 연구가 시작되어 개발되었으며, 월드와이드웹 개발 이후 인터넷이 급속도로 발전하였다. 이는 메뉴 방식으로 서비스를 하던 기존의 인터넷 서비스에 견줘 하이퍼 텍스트를 기반으로 이루어진 웹은 문서 활용에 엄청난 편리성을 제공하기 때문이다.
첫째, 일관된 사용자 인터페이스를 들 수 있다. 기존의 인터넷 사용 도구의 단점이라면 사용하기가 어렵고 불편할 뿐만 아니라, 각종 인터넷 이용 도구마다 그 사용법이 다르다는 것이다. 반면에 웹은 인터넷상에서 제공되는 많은 서비스의 통합된 접속도구의 역할을 하여 기존 프로토콜과 서비스를 제공한다.
둘째, 문서는 하이퍼 텍스트(Hyper Text)로 구성되기 때문에 특정 단어에 대해 관련된 다른 문서를 지정하는 포인터(Pointer)가 존재한다. 사용자는 하이퍼텍스트를 이용하여 한 정보와 연결된 다른 자세한 정보를 쉽게 접근할 수 있다.
셋째, 인터넷상에서 생겨나는 가상의 조직체나 공동체에서 능동적 참여를 꾀할 수 있다. 웹 이전의 인터넷은 사용자들에게 단지 방대한 데이터의 창고 역할을 하는 것으로만 생각되었다. 아울러 서비스는 정보 제공자(연구소, 학교, 기업 등)만이 하는 것이고, 자신들은 단지 사용하기만 하면 된다는 것으로 여겨지고 있었다. 그러나 웹의 보급으로 자신의 홈페이지를 가질 수 있게 됨으로써 홈페이지에 자신의 정보뿐만 아니라, 다른 여러 정보를 공유할 수 있게 되었다.
넷째, 웹은 인터넷에서의 분산된 정보의 저장소 역할을 한다. 웹 이전의 인터넷은 중앙 집중식 서비스였다. 서비스를 제공하는 서버에 모든 데이터가 집중됨으로 말미암아 서버의 부담이 증가하고, 많은 사용자가 동시에 서버에 접근할 수가 없었다. 그러나 웹은 각종 정보들이 기본적으로 분산 저장되어 관리되고 있다. 이렇게 함으로써, 정보 제공 서버의 과중한 부하를 방지할 수 있는 것이다.
다섯째, 웹은 인터넷에 존재하는 일반 텍스트 형태의 문서, 그림, 음성, 그리고 동화상 등의 각종 자료들을 인터넷 주소(URL)를 이용해서 하나의 문서 형태로 통합적으로 관리, 제공해 주는 역할을 한다.
한편, 이와 같은 월드와이드웹에서 웹 광고는 웹의 컨텐츠를 수익화 함에 있어서 가장 효과적인 방법으로 인식되고 있다.
이러한 웹 광고는 두 가지의 형태로 나누어지는데, 인터넷 검색 엔진의 검색 결과에 광고를 배치하는 스폰서 광고, 키워드 광고와 웹 사이트가 포함하고 있는 웹 페이지에 그 컨텐츠와 관련있는 광고를 배치하는 문맥 매칭 광고가 그것이다.
이 중에서, 문맥 매칭 광고는 크게 두 번의 정보처리 과정을 통하여 이루어진다. 첫 번째 단계는 웹 페이지를 분류하는 것이고, 두 번째 단계는 분류된 웹 페이지의 내용과 관련이 있는 광고를 부착하는 것이다.
기존의 기법에서 웹 페이지를 분류하여 광고를 웹 페이지에 부착하는 방법은 다음과 같은 순서를 따른다.
첫 번째 단계로, 웹 페이지를 분류하기 위한 분류 트리(taxonomy tree)를 구성한다.
도 1은 분류 트리(taxonomy tree)의 구조를 도시한 것이다. 분류 트리는 상업적인 용도로 사용하기 위해서 구축한 트리 형태의 자료 구조로 웹 페이지를 분류하기에 충분한 정도의 추상화가 이루어져 있는 노드들의 집합으로 구성되며, 각각의 노드들은 자기 자신의 특성을 표현할 수 있는 단어(word)와 구(phrase)로 구성되어 있다. 이렇게 분류 트리를 구성한 다음 두 번째 단계를 수행한다.
두 번째 단계에서는 분류 트리를 구성하는 각각의 노드와 광고를 부착하고자 하는 웹 페이지와의 문서 유사도를 측정하는 코사인 유사도(cosine similarity) 함 수값을 이용하여 문서 유사도를 연산함으로써 이들 간의 유사도를 측정하는 방법이다.
이 단계에서 노드를 구성하는 단어(word)와 구(phrase)를 이용하여 생성한 벡터 값과 웹 페이지를 구성하는 텍스트 정보를 이용하여 생성한 벡터 값, 이 둘 사이의 문서 유사도를 상기 코사인 유사도를 이용하여 측정하게 되는데, 이로서 웹 페이지가 분류 트리 상의 어느 노드와 가장 유사성이 높은지를 연산할 수 있게 된다.
이러한 과정을 통하여 가장 유사성이 높은 노드가 선정되면 해당하는 페이지를 분류 트리의 해당 노드에 부착한다.
이 때, 기존의 시스템에서는 웹 페이지를 구성하는 각각의 섹션에 가중치를 주어 최적의 가중치를 각각의 섹션에 부여하여 웹 페이지 분류 성능의 향상을 꾀하였다.
웹 페이지 분류를 위한 카테고리 태그를 채택하기 위하여, 우선 제목, 본문을 이용하여 각 섹션의 가중치 최적화를 수행한다.
주어진 가중치는 카테고리 태그의 섹션 사이의 우선순위를 결정한다. 구체적으로는 하기의 수평 구조형 카테고리 태그와 계층 구조형 카테고리 태그의 특성에 대한 상술에 의해 뒷받침된다.
수평 구조형 카테고리 태그에서는 카테고리 태그 사이에서의 우선순위가 없다. 따라서, 수평 구조형 카테고리 태그를 적용할 경우에는 섹션 마다 서로 다른 가중치를 적용하지 않는다. 수평 구조형 카테고리 태그가 카테고리 태그의 섹션 사 이에 의미론적 우선 순위가 있다 하더라도 그 우선 순위는 수평 구조형 카테고리 태그의 구조로 채택되지 않는다.
한편, 계층 구조형 카테고리 태그에서는 계층적으로 각각의 섹션에 우선순위가 매겨지게 된다.
이와 같이, 기존의 시스템에서는 웹 페이지를 구성하는 각각의 섹션에 가중치를 주어 최적의 가중치를 각각의 섹션에 부여하여 웹 페이지 분류의 성능 향상을 꾀한다.
이와 같이, 상기 두 번째 단계가 종료되면, 세 번째 단계로, 웹 페이지를 분류했던 방법과 동일한 방법을 사용하여 광고 또한 분류 트리에 부착하게 된다.
그 다음은 네 번째 단계로 도 2와 같이, 분류 트리에 웹 페이지와 광고 모두가 부착되게 된다.
그 다음은 마지막 단계로, 이와 같이 분류 트리의 노드에 부착된 웹 페이지와 광고 중에서 가장 적합한 광고를 부착하게 되는데, 이러한 결과물로 도 3과 같이 유사도가 높은 광고가 부착된 웹 페이지가 생성된다.
이 때, 웹 페이지를 분류 트리에 부착하기 위해 수행하는 두 번째 단계에서, 문제점이 발생 되는데, 그것은 바로 웹 페이지를 분석할 때 기존의 방법에서는 텍스트 정보를 주로 이용하여 분석하게 된다는 것이다.
한편, 웹 페이지의 카테고리 정보를 활용할 경우, 웹 페이지가 포함하고 있는 카테고리 태그 정보 또한 단순히 하나의 텍스트 정보로써만 사용된다.
카테고리 태그 정보는 해당 웹 페이지를 소유 혹은 보유하고 있는 웹 사이트 의 소유주 혹은 해당 웹 페이지를 작성한 작성자가 웹 페이지를 효율적으로 관리하기 위해 효과적으로 분류한 구조 정보이다.
이러한 측면에서, 카테고리 태그 정보는 웹 페이지가 포함된 웹 사이트 자체적으로 구축한 분류 트리로 간주할 수 있고, 이러한 정보는 웹 광고를 위하여 분류 트리를 구성할 때 효과적으로 사용될 수 있다.
그러나, 기존의 방법에서는 이러한 구조화된 것으로 카테고리 태그 정보를 인식하지 않고, 단순히 웹 페이지에 포함된 단어(word) 혹은 구(phrase)로 취급하여 정보 처리를 수행하였다.
그럼으로써 카테고리 태그의 구조적인 정보를 활용하여 웹 페이지 분류의 품질을 향상시킬 수 있는 방법을 간과함으로써 상대적으로 낮은 품질의 웹 페이지 분류 결과를 출력하게 되는 문제가 있다.
이와 같이, 종래의 웹 페이지 분류 기법은 웹 페이지를 구성하고 있는 여러 구성요소들을 텍스트 정보로 활용하여 웹 페이지 분류를 수행하였고, 이러한 텍스트 정보를 효과적으로 이용하기 위하여 텍스트 정보를 요약하는 기술을 웹 페이지 분류에 도입함으로써 품질 향상을 도모하였다.
그러나, 이러한 종래의 웹 페이지 분류 방법은 웹 페이지가 포함하고 있는 구조 정보로서의 특성이 있는 카테고리 태그 정보마저 일반적인 텍스트로 포함시켜 시스템에 적용함으로써 구조적인 정보를 전혀 활용하지 못하는 문제점이 있다.
본 발명이 해결하고자 하는 첫 번째 과제는 웹 페이지의 구조 정보를 웹 페이지의 분류에 적용함으로써 웹 페이지 분류의 정확성과 분류의 연산 속도를 향상시킬 수 있는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 두 번째 과제는 상기 카테고리 태그 정보를 이용한 웹 페이지 분류 방법을 적용한 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템을 제공하는 것이다.
본 발명이 해결하고자 하는 세 번째 과제는 상기 카테고리 태그 정보를 이용한 웹 페이지 분류 방법을 컴퓨터에서 수행할 수 있도록 프로그램으로 기록된 기록매체를 제공하는 것이다.
상기 첫 번째 과제를 해결하기 위하여 본 발명은,
분류하고자 하는 웹 페이지로부터 상기 웹 페이지의 구조 정보를 포함하는 카테고리 태그 정보를 추출하는 단계; 상기 추출된 카테고리 태그 정보 및 상기 웹 페이지의 각각의 섹션에 관리자에 의해 미리 설정된 가중치를 부여하는 단계; 상기 부여된 가중치에 따라 상기 웹 페이지를 구성하는 구(phrase)를 이용하여 상기 웹 페이지의 다큐먼트 벡터(document vector)를 생성하는 단계; 상기 웹 페이지의 다큐먼트 벡터와 데이터베이스에 미리 저장된 트리 형태의 자료 구조인 분류 트 리(Taxonomy tree)의 각 노드를 구성하는 구를 이용하여 생성된 각 노드의 센트로이드 벡터(centroid vector)의 코사인 유사도(Cosine Similarity) 함수값을 연산함으로써, 상기 웹 페이지와 유사한 복수 개의 노드들을 추출하는 단계; 상기 추출된 복수 개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 단계; 상기 연산된 상대 거리를 이용하여 상대 거리 스코어를 추출하고, 최소 상대 거리 스코어를 가지는 상기 웹 페이지와 가장 유사한 노드를 선정하는 단계; 및 상기 선정된 가장 유사한 노드에 상기 웹 페이지를 부착함으로써 상기 웹 페이지를 분류하는 단계를 포함하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법을 제공한다.
여기서, 상기 웹 페이지의 각각의 섹션은 제목(title) 및 본문(body)으로 이루어지는 것을 특징으로 한다.
그리고, 상기 분류 트리 상의 상대 거리를 연산하는 단계는 상기 추출된 복수 개의 노드들 중 상기 관리자에 의해 미리 설정된 갯수로 상기 코사인 유사도 함수값이 큰 상위 n개의 노드를 선정하는 단계; 및 상기 상위 n개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 단계를 포함하는 것을 특징으로 한다.
아울러, 상기 웹 페이지의 다큐먼트 벡터는 상기 웹 페이지의 구(phrase), 상기 웹 페이지의 구의 빈도 수 및 상기 미리 부여된 가중치에 의해 구성되는 것을 특징으로 한다.
또한, 상기 분류 트리 상의 상대 거리를 연산하는 단계는 하나의 노드와 비교하려는 비교 대상 노드가 상기 분류 트리에서 조상-후손 노드 관계인지의 판단하고, 조상-후손 노드 관계가 성립하면 상기 하나의 노드와 상기 비교 대상 노드의 뎁스 차이를 상기 상대 거리로 설정하는 단계, 및 상기 조상-후손 노드 관계가 성립하지 않으면, 상기 하나의 노드와 상기 비교 대상 노드의 공통 부모 노드를 탐색하고, 상기 하나의 노드에서 상기 공통 부모 노드까지의 뎁스 차이, 및 상기 비교 대상 노드에서 상기 공통 부모 노드까지의 뎁이 차이를 합한 값을 상기 상대 거리로 설정하는 단계를 포함할 수 있다.
그리고, 상기 상대 거리 스코어는 상기 연산된 상대 거리의 제곱합의 제곱근 값으로 설정되는 것을 특징으로 한다.
상기 두 번째 과제를 해결하기 위하여 본 발명은,
분류하고자 하는 웹 페이지로부터 상기 웹 페이지의 구조 정보를 포함하는 카테고리 태그 정보를 추출하는 카테고리 태그 정보 추출부; 상기 추출된 카테고리 태그 정보 및 상기 웹 페이지의 각각의 섹션에 관리자에 의해 미리 설정된 가중치를 부여하고, 상기 부여된 가중치에 따라 상기 웹 페이지를 구성하는 구(phrase)를 이용하여 상기 웹 페이지의 다큐먼트 벡터(document vector)를 생성하는 다큐먼트 벡터 생성부; 데이터베이스에 미리 저장된 트리 형태의 자료 구조인 분류 트리(Taxonomy tree)의 각 노드를 구성하는 구를 이용하여 각 노드의 센트로이드 벡터(centroid vector)를 생성하는 센트로이드 벡터 생성부; 상기 웹 페이지의 다큐먼트 벡터와 상기 분류 트리의 각 노드의 센트로이드 벡터(centroid vector)의 코사인 유사도(Cosine Similarity) 함수값을 연산함으로써 상기 웹 페이지와 유사한 복수 개의 노드들을 추출하는 유사 노드 추출부; 상기 추출된 복수 개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 상대 거리 연산부; 및 상기 연산된 상대 거리를 이용하여 상대 거리 스코어를 추출하며, 최소 상대 거리 스코어를 가지는 상기 웹 페이지와 가장 유사한 노드를 선정하고, 상기 선정된 가장 유사한 노드에 상기 웹 페이지를 부착함으로써 상기 웹 페이지를 분류하는 웹 페이지 분류부를 포함하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템을 제공한다.
여기서, 상기 웹 페이지의 각각의 섹션은 제목(title) 및 본문(body)으로 이루어지는 것을 특징으로 한다.
그리고, 상기 상대 거리 연산부는 상기 추출된 복수 개의 노드들 중 상기 관리자에 의해 미리 설정된 갯수로 상기 코사인 유사도 함수값이 큰 상위 n개의 노드를 선정하고, 상기 상위 n개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 것을 특징으로 한다.
아울러, 상기 웹 페이지의 다큐먼트 벡터는 상기 웹 페이지의 구(phrase), 상기 웹 페이지의 구의 빈도 수 및 상기 미리 부여된 가중치에 의해 구성되는 것을 특징으로 한다.
한편, 상기 상대 거리 연산부는 하나의 노드와 비교하려는 비교 대상 노드가 상기 분류 트리에서 조상-후손 노드 관계인지의 판단하고, 조상-후손 노드 관계가 성립하면 상기 하나의 노드와 상기 비교 대상 노드의 뎁스 차이를 상기 상대 거리로 설정하고, 상기 조상-후손 노드 관계가 성립하지 않으면, 상기 하나의 노드와 상기 비교 대상 노드의 공통 부모 노드를 탐색하고, 상기 하나의 노드에서 상기 공통 부모 노드까지의 뎁스 차이, 및 상기 비교 대상 노드에서 상기 공통 부모 노드까지의 뎁이 차이를 합한 값을 상기 상대 거리로 설정할 수 있다.
또한, 상기 상대 거리 스코어는 상기 연산된 상대 거리의 제곱합의 제곱근 값으로 설정되는 것을 특징으로 한다.
상기 세 번째 과제를 해결하기 위하여 본 발명은,
카테고리 태그 정보를 이용한 웹 페이지 분류 방법을 컴퓨터에서 수행할 수 있도록 프로그램으로 기록된 기록매체를 제공한다.
본 발명에 의하면, 카테고리 태그의 구조적인 정보를 효과적으로 이용하여 웹 페이지 분류에 적용할 수 있으며, 이와 동시에 추가적인 프로세스를 최소화하는 알고리즘을 제안함으로써, 웹 페이지 분류의 품질 향상을 도모함과 동시에 웹 페이지 분류의 연산 프로세스를 최소화하여 효율적인 웹 페이지 검색에 관한 시스템 구동을 실현할 수 있도록 하는 효과가 있다.
본 발명은 웹 페이지가 포함하고 있는 정보의 처리를 통하여, 웹 페이지를 분류하는 웹 페이지의 데이터 마이닝 기술에 관한 것이다.
특히, 더욱 세부적이고 정확한 웹 광고 시스템을 구축하기 위하여 웹 페이지를 정확하게 분류할 수 있어야 하고, 이를 통하여 웹 페이지의 내용에 적합한 광고를 매칭하게 된다.
본 발명에서는 웹 페이지가 포함하고 있는 카테고리 태그 정보를 웹 페이지의 분류에 사용함으로써 웹 페이지 분류의 품질을 향상시킬 수 있고, 이를 통하여 웹 페이지 검색에 대한 빠른 프로세싱을 수행할 수 있도록 한다.
즉, 본 발명은 카테고리 태그의 구조적인 정보를 효과적으로 이용하여 웹 페이지 분류에 적용할 수 있는 방법을 제안하며, 이와 동시에 추가적인 프로세스를 최소화하는 알고리즘을 제안함으로써, 웹 페이지 분류의 품질 향상을 도모함과 동시에 프로세스를 최소화하여 효율적인 웹 페이지 검색에 관한 시스템 구동을 실현할 수 있도록 한다.
이와 같이, 본 발명의 핵심은 웹 페이지를 분류함에 있어서, 카테고리 태그 정보를 적용하여 웹 페이지 분류의 수행에 따른 프로세스를 최소화할 수 있는 효율적인 알고리즘을 적용하는 것이다.
한편, 하기에 상술되는 본 발명의 구(phrase)는 하나의 의미를 가지는 단일 단어(term) 또는 하나의 완성된 의미를 가지는 복수 개의 단어의 집합으로 통일하기로 한다.
기존의 웹 페이지 분류 방법에서는 웹 페이지를 구성하고 있는 각각의 섹션에만 가중치를 부여하는데, 본 발명에서는 웹 페이지를 구성하고 있는 각각의 섹션 뿐만 아니라, 카테고리 태그 정보 역시 가중치를 부여한다.
한편, 카테고리 태그 정보는 웹 페이지로부터 추출할 수 있으며, 카테고리 태그 정보는 웹 페이지를 분류할 수 있는 중요한 기준으로 사용된다.
즉, 카테고리 태그 정보는 페이지의 특성을 기술하는 메타 정보(meta-information)의 한 형태이다.
예를 들어, '/health/weight loss'로 카테고리화 되는 체중 관리에 관한 뉴스 기사는 체중 관리에 특화된 건강에 관한 뉴스의 특성을 가지고 있다.
그리고, 카테고리 태그 정보는 서로 다른 형태와 특성을 가지는 두 개의 서로 다른 형태를 가지고 있다.
도 4a는 수평 구조형 카테고리 태그(flat category tag) 정보에 관한 것이고, 도 4b는 계층 구조형 카테고리 태그(hierarchical categgory tag) 정보를 도시한 것이다.
우선, 수평 구조형 카테고리 태그 정보에 관한 도 4a를 살펴보면, 각각의 태그는 서로 다른 페이지와 링크되어 있고, 또한 각각의 웹 페이지는 서로 다른 태그와 연결되어 있다.
이는 사용자의 분류에 의하여 웹 페이지가 태그된 폭소노미(folksonomy)의 일종이다. 이 카테고리 태그 정보의 타입은 많은 블로그 포탈에 채택되어 그들의 내용을 분류하기 위하여 채택된다.
수평 구조형 카테고리의 특성은 카테고리 태그 정보사이에 있어서 명확한 우선 순위가 없다. 실제로 수평 구조형 카테고리 태그 정보는 웹 페이지 콘텐츠가 많이 복사되어 사용되는 순서로 우선순위를 가진다. 그러나, 이를 이용하여 카테고리 태그 정보를 캐치하기란 쉽지 않은 것이 사실이다.
한편, 도 4b에 도시된 바와 같이, 계층 구조형 카테고리 태그 정보는 수평 구조형 카테고리 태그 정보와 비교하여 우선 순위를 가지는 더욱 많은 정보를 가지고 있으며, 본 발명은 계층 구조형 카테고리 태그 정보를 기반으로 한다.
개념적 계층 정보, 즉 분류 트리는 웹 페이지 분류의 기반이 되며, 이는 웹 페이지의 콘텐츠에 적합한 주제를 선택할 수 있도록 한다.
도 5는 본 발명의 일 실시예에 따른 카테고리 태그 정보를 이용한 웹 페이지 분류 방법의 흐름도이다.
우선, 분류하고자 하는 웹 페이지로부터 상기 웹 페이지의 구조 정보를 포함하는 카테고리 태그 정보를 추출한다(S510).
카테고리 태그 정보는 전술한 바와 같이 최초 웹 문서 작성시 문서 작성자에의해 입력되는 구조 정보로, 해당 웹 페이지로부터 카테고리 태그 정보를 추출할 수 있으며, 카테고리 태그 정보는 본 발명에 있어서 웹 페이지를 분류할 수 있는 중요한 기준으로 사용된다.
즉, 카테고리 태그 정보는 페이지의 특성을 기술하는 메타 정보(meta-information)의 한 형태이다.
그 다음, 상기 추출된 카테고리 태그 정보 및 상기 웹 페이지의 각각의 섹션에 관리자에 의해 미리 설정된 가중치를 부여한다(S520).
이와 같이, 본 발명은 웹 페이지를 구성하는 섹션 및 카테고리 태그 정보에 가중치를 부여한다. 이 때 부여되는 가중치는 관리자에 의해 미리 설정된 가중치일 수 있다.
한편, 웹 페이지의 각 섹션은 제목(title) 및 본문 내용을 지칭하는 본문(body)을 포함한다.
그리고, 각 섹션 및 카테고리 태그 정보는 구(phrase)를 포함하고 있으며, 해당 웹 페이지의 구의 중요도는 웹 페이지를 구성하는 각각의 섹션 및 카테고리 태그 정보에서의 특정 구의 카운트 횟수와 각 섹션에 미리 할당된 가중치에 따라 결정되게 된다.
이를 수식으로 표현하면 하기의 수학식 1과 같다.
Figure 112008060045692-pat00001
상기 수학식 1에서
Figure 112008060045692-pat00002
는 해당 웹 페이지에서의 특정 구(phrase)의 중요도 결과값을 의미하고,
Figure 112008060045692-pat00003
는 카테고리 태그 정보 및 웹 페이지의 섹션
Figure 112008060045692-pat00004
에 할당된 가중치를 의미하며,
Figure 112008060045692-pat00005
는 구(phrase) 자체의 TF-IDF(Term Frequency-Inverse Document Frequency) 빈도수에 따른 가중치를 의미한다.
이와 같이, 해당 웹 페이지에서의 특정 구의 중요도 결과값에 따라 하기에 상술되는 웹 페이지를 대표하는 다큐먼트 벡터가 생성되게 된다.
그 다음, 상기 부여된 가중치에 따라 상기 웹 페이지를 구성하는 구(phrase)를 이용하여 상기 웹 페이지의 다큐먼트 벡터(document vector)를 생성한다(S530).
본 발명은 웹 페이지를 구성하는 섹션 및 카테고리 태그 정보에 가중치를 부여하는데, 이는 전술한 바와 같이, 웹 페이지의 각 섹션은 제목(title) 및 본문 내용을 지칭하는 본문(body)을 포함한다.
여기서, 본 발명은 상기 제목, 본문, 카테고리 태그 정보에 각각 포함된 구를 기반으로 미리 설정된 가중치와 각 섹션에서의 각각의 구의 빈도수에 따른 TF- IDF 가중치에 따라 웹 페이지의 다큐먼트 벡터가 생성된다.
즉, 상기 웹 페이지의 다큐먼트 벡터는 상기 제목, 본문, 카테고리 태그 정보에 각각 포함된 구를 기반으로 상기 웹 페이지의 구(phrase), 상기 웹 페이지의 구의 빈도 수 및 상기 미리 부여된 가중치에 의해 구성될 수 있다.
그 다음, 상기 웹 페이지의 다큐먼트 벡터와 데이터베이스에 미리 저장된 트리 형태의 자료 구조인 분류 트리(Taxonomy tree)의 각 노드를 구성하는 구를 이용하여 생성된 각 노드의 센트로이드 벡터(centroid vector)의 코사인 유사도(Cosine Similarity) 함수값을 연산함으로써, 상기 웹 페이지와 유사한 복수 개의 노드들을 추출한다(S540).
분류 트리는 전술한 바와 같이, 웹 페이지 분류의 용도로 사용하기 위해서 구축한 트리 형태의 자료 구조로 웹 페이지를 분류하기에 충분한 정도의 추상화가 이루어져 있는 노드들의 집합으로 구성되며, 각각의 노드들은 자기 자신의 특성을 표현할 수 있는 구(phrase)로 구성되어 있다.
즉, 분류 트리상의 각각의 노드는 복수 개의 구로 이루어져 있으며, 각각의 노드가 포함하고 있는 구를 구성요소로 하여 센트로이드 벡터를 생성할 수 있다.
따라서, 분류 트리상의 각각의 노드는 자신의 센트로이드 벡터를 저장하게 된다.
이와 같이, 상기 생성된 웹 페이지의 다큐먼트 벡터와 분류 트리상의 각각의 노드가 저장하고 있는 센트로이드 벡터를 기반으로 하기의 수학식 2과 같이 코사인 유사도(Cosine similarity) 함수값에 따라 유사성이 높은 노드들의 리스트를 생성 한다.
Figure 112008060045692-pat00006
상기 수학식 2에서 벡터
Figure 112008060045692-pat00007
는 웹 페이지를 대표하는 다큐먼트 벡터(document vector)를 의미하며,
Figure 112008060045692-pat00008
는 벡터
Figure 112008060045692-pat00009
의 i 번째 구의 TF-IDF(Term Frequency-Inverse Document Frequency)의 가중치를 의미한다.
상기 TF-IDF는 정보 검색과 텍스트 마이닝에서 주로 이용되는 가중치로, 문서군이 있다고 할 때, 특정의 구가 이 정보 문서에서 얼마나 중요한지를 출현 빈도수를 기반으로 판단하는 통계적 수치이다.
그리고, 벡터
Figure 112008060045692-pat00010
는 분류 트리에서 각각의 노드에 분류되어진 웹 페이지의 대표 키워드들로 이루어진 메타 다큐먼트(meta document)의 구 벡터인 센트로이드 벡터(centroid vector)를 의미하며,
Figure 112008060045692-pat00011
는 벡터
Figure 112008060045692-pat00012
의 i 번째 TF-IDF 가중치를 의미하며,
Figure 112008060045692-pat00013
는 웹 페이지를 구성하는 전체 구의 집합을 의미한다.
이와 같이, 상기 수학식 2에 따라 코사인 유사도를 연산하고, 연산된 코사인 유사도의 함수값이 큰 순서대로 내림차순으로 정렬하여 코사인 유사도의 함수값이 큰 상위 n개의 노드를 선택하며, 선택되는 노드의 갯수 n은 발명의 실시 형태에 따라 사용자에 의해 미리 선택될 수 있다.
그 다음, 상기 추출된 복수 개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산한다(S550).
상대 거리는 분류 트리 상의 한 개의 노드에서 다른 한 개의 노드까지의 거리를 의미하며, 이는 도 6 및 하기의 수학식 3에 도시된 바와 같다.
Figure 112008060045692-pat00014
상기 수학식 3에서
Figure 112008060045692-pat00015
는 높은 유사도를 가지고 있는 상위 n개의 노드들의 집합을 의미하고, 한편,
Figure 112008060045692-pat00016
는 상대 거리 스코어(Comparative Distance Score)를 의미하며,
Figure 112008060045692-pat00017
는 상대 거리(Comparative Distance)를 의미한다. 여기서, 상대 거리는 분류 트리 상의 한 개의 노드에서 다른 한 개의 노드까지의 거리를 의미한다.
이렇게 n개의 개별 노드로부터 자신을 제외한 n-1개의 노드에 대한 상대 거리를 연산하게 된다.
도 6에서는 상대 거리를 효율적으로 구하기 위한 자료 구조를 표현하고 있다. 도 6에서와 같이 구성된 자료 구조를 형성하고 하기와 같은 알고리즘을 수행한다.
우선, 특정 노드와 비교하려는 다른 하나의 노드가 조상 노드-후손 노드의 관계가 성립한다면 수직적으로 이 두 노드가 연결되어 있는 것이므로, 부모 노드의 아이디인 ParentID를 사용하여 부모 노드-자식 노드의 관계를 이어가면 이 둘 간의 상대 거리(Comparative Distance)를 구할 수 있다.
만약, 상기 특정 노드와 상기 다른 하나의 노드가 조상 노드-후손 노드의 관계가 없다면 이 둘 간의 공통 조상을 탐색함으로서 상대 거리를 연산하면 된다.
즉, 상대 거리는 하나의 노드와 비교하려는 비교 대상 노드가 상기 분류 트리에서 조상-후손 노드 관계인지의 판단하고, 하나의 노드와 비교하려는 비교 대상 노드가 상기 분류 트리에서 조상-후손 노드 관계인지의 판단하고, 조상-후손 노드 관계가 성립하면 상기 하나의 노드와 상기 비교 대상 노드의 뎁스 차이를 상기 상대 거리로 설정한다.
그리고, 상기 조상-후손 노드 관계가 성립하지 않으면, 상기 하나의 노드와 상기 비교 대상 노드의 공통 부모 노드를 탐색하고, 상기 하나의 노드에서 상기 공통 부모 노드까지의 뎁스 차이, 및 상기 비교 대상 노드에서 상기 공통 부모 노드까지의 뎁이 차이를 합한 값을 상기 상대 거리로 설정할 수 있다.
그 다음, 상기 연산된 상대 거리를 이용하여 상대 거리 스코어를 추출하고, 최소 상대 거리를 가지는 상기 웹 페이지와 가장 유사한 노드를 선정한다(S560).
한편, 최소 상대 거리 스코어를 연산하는 방법은 아래와 같다. 우선, 단계(S550)에 따라 노드들 사이의 상대 거리(Comparative Distance)를 연산하고, 개별 노드로부터 자기 자신을 제외한 다른 n-1개의 노드까지의 상대 거리 각각의 제곱의 합의 제곱근을 구한다.
이것이 상대 거리 스코어이다. 여기서 상대 거리 스코어가 적다는 것은 해당 노드가 그만큼 여러 개의 노드의 중심에 있다는 것을 의미하고, 상대 거리 스코어를 구함으로써 기존의 방법보다 웹 페이지 분류의 질적 향상을 도모할 수 있다.
따라서, 본 발명에서는 최소 상대 거리 스코어를 가지는 분류 트리 상의 노드를 상기 웹 페이지와 가장 유사한 노드로 선정할 수 있다.
마지막으로, 상기 선정된 가장 유사한 노드에 상기 웹 페이지를 부착함으로써 상기 웹 페이지를 분류한다(S570).
도 7은 본 발명의 일 실시예에 따른 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템의 블록도이다.
한편, 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템에 있어서, 전술한 구성과 중복된 사항에 대한 상세한 설명은 과감히 생략하기로 한다.
도 7을 참조하면, 본 발명의 일 실시예에 따른 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템은 카테고리 태그 정보 추출부(710), 다큐먼트 벡터(document vector) 생성부(720), 센트로이드 벡터 생성부(731), 유사 노드 추출부(730), 상대 거리 연산부(740) 및 웹 페이지 분류부(750)를 포함할 수 있다.
카테고리 태그 정보 추출부(710)는 분류하고자 하는 웹 페이지로부터 상기 웹 페이지의 구조 정보를 포함하는 카테고리 태그 정보를 추출한다.
카테고리 태그 정보는 전술한 바와 같이 최초 웹 문서 작성시 문서 작성자에의해 입력되는 구조 정보로, 해당 웹 페이지로부터 카테고리 태그 정보를 추출할 수 있으며, 카테고리 태그 정보는 본 발명에 있어서 웹 페이지를 분류할 수 있는 중요한 기준으로 사용된다.
즉, 카테고리 태그 정보는 페이지의 특성을 기술하는 메타 정보(meta-information)의 한 형태이다.
다큐먼트 벡터 생성부(720)는 상기 추출된 카테고리 태그 정보 및 상기 웹 페이지의 각각의 섹션에 관리자에 의해 미리 설정된 가중치를 부여하고, 상기 부여된 가중치에 따라 상기 웹 페이지를 대표하는 다큐먼트 벡터를 생성한다.
본 발명은 웹 페이지를 구성하는 섹션 및 카테고리 태그 정보에 가중치를 부여하는데, 이는 전술한 바와 같이, 웹 페이지의 각 섹션은 제목(title) 및 본문 내용을 지칭하는 본문(body)을 포함한다.
즉, 상기 웹 페이지의 다큐먼트 벡터는 상기 제목, 본문, 카테고리 태그 정보에 각각 포함된 구를 기반으로 상기 웹 페이지의 구(phrase), 상기 웹 페이지의 구의 빈도 수 및 상기 미리 부여된 가중치에 의해 구성될 수 있다.
센트로이드 벡터 생성부(731)는 데이터베이스에 미리 저장된 트리 형태의 자료 구조인 분류 트리(Taxonomy tree)의 각 노드를 구성하는 구를 이용하여 각 노드의 센트로이드 벡터(centroid vector)를 생성한다.
분류 트리는 전술한 바와 같이, 웹 페이지 분류의 용도로 사용하기 위해서 구축한 트리 형태의 자료 구조로 웹 페이지를 분류하기에 충분한 정도의 추상화가 이루어져 있는 노드들의 집합으로 구성되며, 각각의 노드들은 자기 자신의 특성을 표현할 수 있는 구(phrase)로 구성되어 있다.
즉, 분류 트리상의 각각의 노드는 복수 개의 구로 이루어져 있으며, 각각의 노드가 포함하고 있는 구를 구성요소로 하여 상기 센트로이드 벡터 생성부(731)에 서는 센트로이드 벡터를 생성할 수 있다.
유사 노드 추출부(730)는 상기 웹 페이지의 다큐먼트 벡터와 상기 분류 트리의 각 노드의 센트로이드 벡터(centroid vector)의 코사인 유사도(Cosine Similarity) 함수값을 연산함으로써 상기 웹 페이지와 유사한 복수 개의 노드들을 추출한다.
분류 트리는 전술한 바와 같이, 웹 페이지 분류의 용도로 사용하기 위해서 구축한 트리 형태의 자료 구조로 웹 페이지를 분류하기에 충분한 정도의 추상화가 이루어져 있는 노드들의 집합으로 구성되며, 각각의 노드들은 자기 자신의 특성을 표현할 수 있는 구(phrase)로 구성되어 있다.
코사인 유사도 함수값을 연산하기 위해서 우선 각각의 섹션의 코사인 유사도의 차이점을 인지할 수 있는 n개의 노드를 선택하며, 노드의 갯수 n은 발명의 실시 형태에 따라 사용자에 의해 미리 선택될 수 있다.
상대 거리 연산부(740)는 상기 추출된 복수 개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산한다.
상대 거리 연산부(740)는 상기 추출된 복수 개의 노드들 중 상기 관리자에 의해 미리 설정된 갯수로 상기 코사인 유사도 함수값이 큰 상위 n개의 노드를 선정하고, 상기 상위 n개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산한다.
상대 거리는 분류 트리 상의 한 개의 노드에서 다른 한 개의 노드까지의 거리를 의미하며, 이는 도 6 및 상기의 수학식 3에 도시된 바와 같다.
이렇게 n개의 개별 노드로부터 자신을 제외한 n-1개의 노드에 대한 상대 거 리를 연산하게 된다.
도 6에서 살펴본 바와 같이, 우선, 특정 노드와 비교하려는 다른 하나의 노드가 조상 노드-후손 노드의 관계가 성립한다면 수직적으로 이 두 노드가 연결되어 있는 것이므로, 부모 노드의 아이디인 ParentID를 사용하여 부모 노드-자식 노드의 관계를 이어가면 이 둘 간의 상대 거리(Comparative Distance)를 구할 수 있다.
만약, 상기 특정 노드와 상기 다른 하나의 노드가 조상 노드-후손 노드의 관계가 없다면 이 둘 간의 공통 조상 노드를 탐색함으로서 상대 거리를 연산하면 된다.
즉, 상대 거리는 하나의 노드와 비교하려는 비교 대상 노드가 상기 분류 트리에서 조상-후손 노드 관계인지의 판단하고, 조상-후손 노드 관계가 성립하면 상기 하나의 노드와 상기 비교 대상 노드의 뎁스 차이를 상기 상대 거리로 설정하며, 상기 조상-후손 노드 관계가 성립하지 않으면, 상기 하나의 노드와 상기 비교 대상 노드의 공통 부모 노드를 탐색하고, 상기 하나의 노드에서 상기 공통 부모 노드까지의 뎁스 차이, 및 상기 비교 대상 노드에서 상기 공통 부모 노드까지의 뎁이 차이를 합한 값을 상기 상대 거리로 설정하게 된다.
웹 페이지 분류부(750)는 상기 연산된 상대 거리를 이용하여 상대 거리 스코어를 추출하며, 최소 상대 거리 스코어를 가지는 상기 웹 페이지와 가장 유사한 노드를 선정하고, 상기 선정된 가장 유사한 노드에 상기 웹 페이지를 부착함으로써 상기 웹 페이지를 분류한다.
즉, 웹 페이지 분류부(750)는 노드들 사이의 상대 거리(Comparative Distance)를 연산하고, 개별 노드로부터 자기 자신을 제외한 다른 n-1개의 노드까지의 상대 거리 각각의 제곱의 합의 제곱근을 구한다.
이것이 상대 거리 스코어이다. 여기서 상대 거리 스코어가 적다는 것은 해당 노드가 그만큼 여러 개의 노드의 중심에 있다는 것을 의미하고, 상대 거리 스코어를 구함으로써 기존의 방법보다 웹 페이지 분류의 질적 향상을 도모할 수 있다.
따라서, 본 발명에서는 최소 상대 거리 스코어를 가지는 분류 트리 상의 노드를 상기 웹 페이지와 가장 유사한 노드로 선정할 수 있다.
한편, 본 발명에 따른 카테고리 태그 정보를 이용한 웹 페이지 분류 방법을 사용하여 상대 거리를 측정한 결과 n이 10일 경우에 1백만 개의 웹 페이지에 대한 분류를 수행할 때, 약 1.5초의 프로세싱 시간이 필요하다.
즉, 1백만 개의 웹 페이지 분류를 수행할 경우에 약 1.5초의 오버헤드(overhead)가 발생한다는 것이다.
이 정도의 오버헤드는 단위 페이지를 분류에 있어서 1.5×10-6초가 소요된다는 것으로, 이는 아주 낮은 수치이며, 이를 통하여 효율적이고 빠른 웹 페이지 분류가 가능하다는 것을 의미한다.
이와 같이, 웹 페이지 분류를 수행한 결과는 하기와 같다. 하기의 수학식 4는 웹 페이지 분류 결과의 품질을 측정하는 기준이 되는 정확도(accuracy)에 대한 수학식이다.
Figure 112008060045692-pat00018
상기 수학식 4에서 웹 페이지 분류의 정확도(accuracy)는 전체 테스트 케이스(total number of test cases)에 대하여 정확한 웹 페이지 분류 수행의 수치값(Number of correct classification)으로 연산 된다.
도 8은 분류 트리에서의 각 노드와 분류하고자 하는 웹 페이지의 코사인 유사도 함수값을 도시한 것이고, 도 9는 분류 트리에서의 각 노드와 본 발명에 따른 각 노드별 상대 거리 스코어의 예제 결과를 도시한 것이다.
이 때, 사용된 웹 페이지의 명칭은 'How important is your liver's health in weight management'이고, 내용은 간의 건강이 체중 유지에 있어서 얼마나 중요한가에 대한 것이다.
이에 대하여 종래의 방법은 해당 웹 페이지가 분류된 분류 트리상의 노드는 "Health/Specific substances/Alcoholic Beverages"이나, 본 발명에 따라 연산된 분류 트리에서의 각 노드와 본 발명에 따른 각 노드별 상대 거리 스코어를 이용하면 해당 웹 페이지의 대표 구는 "Health/Weight Loss"이다.
해당 웹 페이지는 체중 조절에 있어서의 간의 건강에 중요성을 설명하는 내용을 포함한다고 할 수 있고, 이러한 경우에 있어서 간의 건강에 영향을 주는 여러 요인 중의 하나인 "Alcoholic Beverages"보다는 체중 조절과 직접적인 연관이 있는"Weight Loss"가 훨씬 적절하다고 볼 수 있다.
이러한 결과로 볼 때, 새로운 방법은 기존의 기법을 적용한 것보다 웹 페이지 분류 성능을 질적으로 향상시킨다고 할 수 있다.
웹 광고에 있어서 가장 중요한 것은 웹 페이지를 분류 트리의 주제에 맞게 각 노드에 잘 부착하는 것과, 의미론적으로 유사도가 높은 광고를 웹 페이지에 배치하는 것이다.
이러한 웹 광고 시스템의 결과는 기본적으로 첫 번째 단계인 웹 페이지 분류를 기반으로 생성되는 것이므로 분류 결과의 품질은 최종적으로 웹 페이지와 이에 배치된 광고의 품질을 결정한다.
본 발명에서 제안한 방법은 카테고리 태그 정보를 활용하여 웹 페이지 분류의 성능을 향상시킬 수 있으며, 그 결과는 도 9와 같다.
도 10은 웹 페이지의 제목(title)과 본문 내용(body)만을 통하여 생성한 결과(1010)와 단순히 카테고리 태그 정보를 포함시켜 생성해낸 결과(1020)와 마지막으로 최소 상대 거리 스코어를 적용하여 카테고리 태그 정보를 반영시킨 후의 웹 페이지 분류 결과값(1030)을 나타낸다.
이를 통하여 알 수 있듯이 단순히 제목과 본문 정보만을 사용한 것보다는 카테고리 정보를 포함하는 것이 웹 페이지의 분류 성능이 향상되며, 그리고, 단순히 텍스트로서 카테고리 태그 정보를 활용하는 것보다는 본 발명에 따라 최소 상대 거리 스코어를 연산하여 카테고리 태그의 구조 정보를 활용하는 것이 더 높은 질적 향상을 가져올 수 있다.
도 10에 도시된 바와 같이, 종래의 기법과 같이 단순히 웹 페이지의 제목과 본문 내용만을 사용했을 때의 정확도는 76.67%이고, 카테고리 태그 정보를 반영하여 웹 페이지 분류를 수행했을 때는 82.37%, 그리고 카테고리 태그 정보를 반영함과 동시에 최소 상대 거리 스코어를 적용하였을 경우에는 86.67%의 정확도를 나타내었다. 결과적으로 기존의 기법보다 본 발명에서 제안한 기법을 사용하였을 경우에는 상대적으로 13%의 성능 향상을 나타내었다.
이러한 성능 향상과 함께 제안한 알고리즘의 수행이 아주 짧은 프로세스 타임 안에 이루어지기 때문에 본 발명의 실용성은 아주 높다고 할 수 있다.
본 발명에 따른 카테고리 태그 정보를 이용한 웹 페이지 분류 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다.
컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 테이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사항에 의해 정해져야 할 것이다.
도 1은 분류 트리(taxonomy tree)의 구조의 예시도이다.
도 2는 도 1의 웹 페이지와 광고가 부착된 분류 트리의 예시도이다.
도 3은 유사도가 높은 광고가 부착된 웹 페이지를 도시한 것이다.
도 4a는 수평 구조형 카테고리 태그(flat category tag)를 도시한 것이다.
도 4b는 계층 구조형 카테고리 태그(hierartical categgory tag)를 도시한 것이다.
도 5는 본 발명의 일 실시예에 따른 카테고리 태그 정보를 이용한 웹 페이지 분류 방법의 흐름도이다.
도 6은 상대 거리를 효율적으로 구하기 위한 자료 구조를 도시한 것이다.
도 7은 본 발명의 일 실시예에 따른 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템의 블록도이다.
도 8은 분류 트리에서의 각 노드와 분류하고자 하는 웹 페이지의 코사인 유사도 함수값을 도시한 것이다.
도 9는 분류 트리에서의 각 노드와 본 발명에 따른 각 노드별 상대 거리 스코어를 도시한 것이다.
도 10은 종래 및 본 발명에 따른 웹 페이지 분류 방법의 웹 페이지 분류 성능 그래프를 도시한 것이다.

Claims (13)

  1. 분류하고자 하는 웹 페이지로부터 상기 웹 페이지의 구조 정보를 포함하는 카테고리 태그 정보를 추출하는 단계;
    상기 추출된 카테고리 태그 정보 및 상기 웹 페이지의 각각의 섹션에 관리자에 의해 미리 설정된 가중치를 부여하는 단계;
    상기 부여된 가중치에 따라 상기 웹 페이지를 구성하는 구(phrase)를 이용하여 상기 웹 페이지의 다큐먼트 벡터(document vector)를 생성하는 단계;
    데이터베이스에 미리 저장된 트리 형태의 자료 구조인 분류 트리(Taxonomy tree)의 각 노드를 구성하는 구를 이용하여 생성된 각 노드의 센트로이드 벡터(centroid vector)와 상기 웹 페이지의 다큐먼트 벡터의 코사인 유사도(Cosine Similarity) 함수값을 연산함으로써, 상기 웹 페이지와 유사한 복수 개의 노드들을 추출하는 단계;
    상기 추출된 복수 개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 단계;
    상기 연산된 상대 거리를 이용하여 상대 거리 스코어를 추출하고, 최소 상대 거리 스코어를 가지는 상기 웹 페이지와 가장 유사한 노드를 선정하는 단계; 및
    상기 선정된 가장 유사한 노드에 상기 웹 페이지를 부착함으로써 상기 웹 페이지를 분류하는 단계를 포함하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법.
  2. 제 1 항에 있어서,
    상기 웹 페이지의 각각의 섹션은 제목(title) 및 본문(body)으로 이루어지는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법.
  3. 제 1 항에 있어서,
    상기 분류 트리 상의 상대 거리를 연산하는 단계는
    상기 추출된 복수 개의 노드들 중 상기 관리자에 의해 미리 설정된 갯수로 상기 코사인 유사도 함수값이 큰 상위 n개의 노드를 선정하는 단계; 및
    상기 상위 n개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 단계를 포함하는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법.
  4. 제 1 항에 있어서,
    상기 웹 페이지의 다큐먼트 벡터는
    상기 웹 페이지의 구(phrase), 상기 웹 페이지의 구의 빈도 수 및 상기 미리 부여된 가중치에 의해 구성되는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법.
  5. 제 1 항에 있어서,
    상기 분류 트리 상의 상대 거리를 연산하는 단계는
    하나의 노드와 비교하려는 비교 대상 노드가 상기 분류 트리에서 조상-후손 노드 관계인지의 판단하고, 조상-후손 노드 관계가 성립하면 상기 하나의 노드와 상기 비교 대상 노드의 뎁스 차이를 상기 상대 거리로 설정하는 단계; 및
    상기 조상-후손 노드 관계가 성립하지 않으면, 상기 하나의 노드와 상기 비교 대상 노드의 공통 부모 노드를 탐색하고, 상기 하나의 노드에서 상기 공통 부모 노드까지의 뎁스 차이, 및 상기 비교 대상 노드에서 상기 공통 부모 노드까지의 뎁이 차이를 합한 값을 상기 상대 거리로 설정하는 단계를 포함하는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법.
  6. 제 5 항에 있어서,
    상기 상대 거리 스코어는
    상기 연산된 상대 거리의 제곱합의 제곱근 값으로 설정되는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법.
  7. 제 1 항 내지 제 6 항의 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  8. 분류하고자 하는 웹 페이지로부터 상기 웹 페이지의 구조 정보를 포함하는 카테고리 태그 정보를 추출하는 카테고리 태그 정보 추출부;
    상기 추출된 카테고리 태그 정보 및 상기 웹 페이지의 각각의 섹션에 관리자에 의해 미리 설정된 가중치를 부여하고, 상기 부여된 가중치에 따라 상기 웹 페이지를 구성하는 구(phrase)를 이용하여 상기 웹 페이지의 다큐먼트 벡터(document vector)를 생성하는 다큐먼트 벡터 생성부;
    데이터베이스에 미리 저장된 트리 형태의 자료 구조인 분류 트리(Taxonomy tree)의 각 노드를 구성하는 구를 이용하여 각 노드의 센트로이드 벡터(centroid vector)를 생성하는 센트로이드 벡터 생성부;
    상기 웹 페이지의 다큐먼트 벡터와 상기 분류 트리의 각 노드의 센트로이드 벡터(centroid vector)의 코사인 유사도(Cosine Similarity) 함수값을 연산함으로써 상기 웹 페이지와 유사한 복수 개의 노드들을 추출하는 유사 노드 추출부;
    상기 추출된 복수 개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 상대 거리 연산부; 및
    상기 연산된 상대 거리를 이용하여 상대 거리 스코어를 추출하며, 최소 상대 거리 스코어를 가지는 상기 웹 페이지와 가장 유사한 노드를 선정하고, 상기 선정된 가장 유사한 노드에 상기 웹 페이지를 부착함으로써 상기 웹 페이지를 분류하는 웹 페이지 분류부를 포함하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템.
  9. 제 8 항에 있어서,
    상기 웹 페이지의 각각의 섹션은 제목(title) 및 본문(body)으로 이루어지는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템.
  10. 제 8 항에 있어서,
    상기 상대 거리 연산부는
    상기 추출된 복수 개의 노드들 중 상기 관리자에 의해 미리 설정된 갯수로 상기 코사인 유사도 함수값이 큰 상위 n개의 노드를 선정하고, 상기 상위 n개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템.
  11. 제 8 항에 있어서,
    상기 웹 페이지의 다큐먼트 벡터는
    상기 웹 페이지의 구(phrase), 상기 웹 페이지의 구의 빈도 수 및 상기 미리 부여된 가중치에 의해 구성되는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템.
  12. 제 8 항에 있어서,
    상기 상대 거리 연산부는
    하나의 노드와 비교하려는 비교 대상 노드가 상기 분류 트리에서 조상-후손 노드 관계인지의 판단하고, 조상-후손 노드 관계가 성립하면 상기 하나의 노드와 상기 비교 대상 노드의 뎁스 차이를 상기 상대 거리로 설정하고,
    상기 조상-후손 노드 관계가 성립하지 않으면, 상기 하나의 노드와 상기 비교 대상 노드의 공통 부모 노드를 탐색하고, 상기 하나의 노드에서 상기 공통 부모 노드까지의 뎁스 차이, 및 상기 비교 대상 노드에서 상기 공통 부모 노드까지의 뎁이 차이를 합한 값을 상기 상대 거리로 설정하는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템.
  13. 제 8 항에 있어서,
    상기 상대 거리 스코어는
    상기 연산된 상대 거리의 제곱합의 제곱근 값으로 설정되는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템.
KR1020080082503A 2008-08-22 2008-08-22 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 KR100954842B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080082503A KR100954842B1 (ko) 2008-08-22 2008-08-22 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080082503A KR100954842B1 (ko) 2008-08-22 2008-08-22 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체

Publications (2)

Publication Number Publication Date
KR20100023630A KR20100023630A (ko) 2010-03-04
KR100954842B1 true KR100954842B1 (ko) 2010-04-28

Family

ID=42175836

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080082503A KR100954842B1 (ko) 2008-08-22 2008-08-22 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체

Country Status (1)

Country Link
KR (1) KR100954842B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830375B2 (en) 2014-03-13 2017-11-28 Korea Institute Of Science And Technology Apparatus for selecting and providing media content on social network service and method thereof
KR20190106174A (ko) * 2018-03-08 2019-09-18 김혜선 통합 관제 시스템을 이용한 사용자용 단말장치
KR20190106172A (ko) * 2018-03-08 2019-09-18 김혜선 통합 관제 시스템
KR20210037128A (ko) 2019-09-27 2021-04-06 곽기종 정보 분류 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101340588B1 (ko) * 2012-02-29 2013-12-11 주식회사 팬택 웹페이지 구성방법 및 그 장치
KR101638127B1 (ko) * 2016-01-29 2016-07-11 박요섭 지속적 콘텐츠 생성 및 맞춤형 콘텐츠 라이브러리 서비스 제공 방법
CN107544980B (zh) * 2016-06-24 2020-07-24 北京国双科技有限公司 一种查找网页的方法及装置
CN112347318B (zh) * 2020-10-26 2022-08-02 杭州数智政通科技有限公司 划分企业所属行业类别的方法、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010060623A (ko) * 1999-12-27 2001-07-07 정명식 웹사이트 자동 분류방법
US20040111504A1 (en) 2002-12-10 2004-06-10 International Business Machines Corporation Apparatus and methods for classification of web sites

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010060623A (ko) * 1999-12-27 2001-07-07 정명식 웹사이트 자동 분류방법
US20040111504A1 (en) 2002-12-10 2004-06-10 International Business Machines Corporation Apparatus and methods for classification of web sites

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830375B2 (en) 2014-03-13 2017-11-28 Korea Institute Of Science And Technology Apparatus for selecting and providing media content on social network service and method thereof
KR20190106174A (ko) * 2018-03-08 2019-09-18 김혜선 통합 관제 시스템을 이용한 사용자용 단말장치
KR20190106172A (ko) * 2018-03-08 2019-09-18 김혜선 통합 관제 시스템
KR102039246B1 (ko) * 2018-03-08 2019-10-31 김혜선 통합 관제 시스템
KR102039247B1 (ko) * 2018-03-08 2019-11-26 김혜선 통합 관제 시스템을 이용한 사용자용 단말장치
KR20210037128A (ko) 2019-09-27 2021-04-06 곽기종 정보 분류 방법

Also Published As

Publication number Publication date
KR20100023630A (ko) 2010-03-04

Similar Documents

Publication Publication Date Title
US7519588B2 (en) Keyword characterization and application
KR101078864B1 (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
US7849081B1 (en) Document analyzer and metadata generation and use
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
Kaptein et al. Exploiting the category structure of Wikipedia for entity ranking
Gupta et al. An overview of social tagging and applications
US20060095430A1 (en) Web page ranking with hierarchical considerations
Kim et al. Ranking using multiple document types in desktop search
Lubis et al. A framework of utilizing big data of social media to find out the habits of users using keyword
Koperwas et al. Intelligent information processing for building university knowledge base
Zhu et al. Real-time personalized twitter search based on semantic expansion and quality model
JP4879775B2 (ja) 辞書作成方法
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法
Hall et al. Enabling the discovery of digital cultural heritage objects through wikipedia
Hsu et al. Efficient and effective prediction of social tags to enhance web search
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
Das et al. Learning to rank homepages for researchername queries
Du et al. Scientific users' interest detection and collaborators recommendation
Preetha et al. Personalized search engines on mining user preferences using clickthrough data
Rana et al. Analysis of web mining technology and their impact on semantic web
Hong et al. An efficient tag recommendation method using topic modeling approaches
Jiang et al. A personalized search engine model based on RSS User's interest
Misale et al. A survey on recommendation system for technical paper reviewer assignment
Nakasumi Decision making aid in mobile environment by behavioral characteristic
Yumusak et al. Classification of linked data sources using semantic scoring

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130405

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140304

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160502

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190411

Year of fee payment: 10