KR101065091B1 - 기여 점수에 기초한 문서 순위 결정 시스템 및 방법 - Google Patents

기여 점수에 기초한 문서 순위 결정 시스템 및 방법 Download PDF

Info

Publication number
KR101065091B1
KR101065091B1 KR1020090012898A KR20090012898A KR101065091B1 KR 101065091 B1 KR101065091 B1 KR 101065091B1 KR 1020090012898 A KR1020090012898 A KR 1020090012898A KR 20090012898 A KR20090012898 A KR 20090012898A KR 101065091 B1 KR101065091 B1 KR 101065091B1
Authority
KR
South Korea
Prior art keywords
document
contribution
score
ranking
word
Prior art date
Application number
KR1020090012898A
Other languages
English (en)
Other versions
KR20100093804A (ko
Inventor
김동진
김상욱
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020090012898A priority Critical patent/KR101065091B1/ko
Priority to PCT/KR2009/007481 priority patent/WO2010095807A2/ko
Priority to JP2011550048A priority patent/JP5406313B2/ja
Priority to US13/202,009 priority patent/US8838611B2/en
Publication of KR20100093804A publication Critical patent/KR20100093804A/ko
Application granted granted Critical
Publication of KR101065091B1 publication Critical patent/KR101065091B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

기여 점수에 기초한 문서 순위 결정 시스템 및 방법이 개시된다. 문서 순위 결정 시스템은 문서에 포함된 적어도 하나의 단어 각각에 대해 상기 문서의 내용 점수를 계산하는 내용 점수 계산부, 공통 단어에 대해 상기 문서의 기여 점수를 계산하는 기여 점수 계산부 및 상기 내용 점수와 상기 기여 점수를 이용하여 상기 적어도 하나의 단어 각각에 대해 상기 문서의 순위를 결정하는 순위 결정부를 포함할 수 있다.
내용 점수, 기여 점수, 아웃 링크, C-Rank, 문서, 순위, 관련도

Description

기여 점수에 기초한 문서 순위 결정 시스템 및 방법{SYSTEM AND METHOD FOR DETERMINING RANK OF DOCUMENT BASED ON CONTRIBUTION SCORE}
본 발명은 문서 순위를 결정하는 발명에 관한 것으로, 자세하게는, 문서 자체의 점수와 문서에 링크된 문서들간의 관계에 기초한 문서 순위 점수를 고려하여 문서 순위를 결정하는 방법 및 시스템에 관한 것이다.
세계적으로 문서의 개수는 지속적으로 증가하고 있으며, 검색 엔진들은 일반적으로 50~80 억 개의 인덱스 정보를 사용하고 있다. 사용자들은 원하는 정보가 검색 결과의 첫 페이지에 출력되기를 기대하고 있으며, 일반적으로 첫 페이지에는 5~10개의 문서가 출력될 수 있다. 따라서, 문서의 개수가 증가할수록 검색 엔진의 정확도가 증가해야만, 사용자들이 원하는 정보가 노출될 수 있다.
종래의 경우, 고전적인 정보 검색은 문서가 포함하는 정보에 기초하여 이루어졌다. 반면에, 문서 검색은 문서들 사이의 링크 정보를 활용하여 문서의 중요도를 추가로 고려함으로써 검색 결과의 정확도를 높일 수 있다.
그러나, 문서 중요도는 단어와 항상 관련이 있다고 보기 어려우며, 검색의 정확도를 높일 수 있는 최적화된 방법이 별도로 요구되고 있다. 또한, 사용자가 입력한 주제와 다른 분야에서 중요한 사이트가 최종 순위의 상위에 위치하는 주제 이동(Topic Drift) 현상이 발생함으로써, 검색의 정확도가 저하될 수 있다.
일반적으로, 문서는 다른 문서들과 링크로 연결되어 있으며, 링크로 연결된 문서 간에는 연관성이 존재할 수 있다. 이 때, 문서의 링크 정보를 단어와 연관되게 이용함으로써 검색 정확도를 향상시키는 구체적인 방법이 요구된다.
본 발명의 일실시예는 문서의 내용에 기초한 내용 점수와 문서의 링크 정보에 기초한 기여 점수를 조합한 문서 순위 점수를 이용함으로써, 문서 순위의 정확도를 향상시킬 수 있는 문서 순위 결정 시스템 및 방법을 제공할 수 있다.
본 발명의 일실시예는 링크로 연결된 문서들 간에 기여하는 정도를 나타내는 기여 계수를 링크 구성 및 내용 점수에 따라 결정함으로써, 문서들의 기여도를 효과적으로 고려할 수 있는 문서 순위 결정 시스템 및 방법을 제공할 수 있다.
본 발명의 일실시예는 제1 문서의 제2 문서에 대한 기여 점수 중 제1 문서가 직접 기여하는 점수의 비율인 축적 계수를 이용함으로써, 아웃 링크를 통한 어뷰징 행위를 방지할 수 있는 문서 순위 결정 시스템 및 방법을 제공할 수 있다.
본 발명의 일실시예는 축적 계수를 기여 점수에 적용하는 문서 아웃 링크를 통해 문서의 문서 순위 점수가 내려가는 것을 방지하고, 아웃 링크의 사용 억제에 의한 웹 검색의 어려움을 해소할 수 있는 문서 순위 결정 시스템 및 방법을 제공할 수 있다.
본 발명의 일실시예에 따른 문서 순위 결정 시스템은 문서에 포함된 적어도 하나의 단어 각각에 대해 상기 문서의 내용 점수를 계산하는 내용 점수 계산부, 공통 단어에 대해 상기 문서의 기여 점수를 계산하는 기여 점수 계산부 및 상기 내용 점수와 상기 기여 점수를 이용하여 상기 적어도 하나의 단어 각각에 대해 상기 문 서의 순위를 결정하는 순위 결정부를 포함할 수 있다.
본 발명의 일실시예에 따른 문서 순위 결정 시스템은 상기 공통 단어에 대해 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 기여 계수 결정부를 포함할 수 있다.
본 발명의 일실시예에 따른 문서 순위 결정 시스템은 상기 공통 단어에 대해 상기 제1 문서의 기여 점수 중 상기 제1 문서가 직접 기여한 점수의 비율인 상기 제1 문서의 축적 계수를 계산하는 축적 계수 계산부를 더 포함할 수 있다.
본 발명의 일실시예에 따른 문서 순위 결정 방법은 내용 점수 계산부가 문서에 포함된 적어도 하나의 단어 각각 단어 각각에 대해 상기 문서의 내용 점수를 계산하는 단계, 기여 점수 계산부가 공통 단어에 대해 상기 문서의 기여 점수를 계산하는 단계 및 순위 결정부가 상기 내용 점수와 상기 기여 점수를 이용하여 상기 적어도 하나의 단어 각각에 대해 상기 문서의 순위를 결정하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 상기 기여 점수 계산부가 상기 공통 단어에 대해 문서의 기여 점수를 계산하는 단계는 기여 계수 결정부가 상기 공통 단어에 대해 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 문서 순위 결정 방법은 축적 계수 계산부가 상기 공통 단어에 대해 상기 제1 문서의 기여 점수 중 상기 제1 문서가 직접 기여한 점수의 비율인 상기 제1 문서의 축적 계수를 계산하는 단계를 더 포함할 수 있다.
본 발명의 일실시예에 따르면, 문서의 내용에 기초한 내용 점수와 문서의 링크 정보에 기초한 기여 점수를 조합한 문서 순위 점수를 이용함으로써 문서 순위의 정확도를 향상시킬 수 있는 문서 순위 결정 시스템 및 방법이 제공된다.
본 발명의 일실시예에 따르면, 제1 문서의 제2 문서에 대한 기여 점수 중 제1 문서가 직접 기여하는 점수의 비율인 축적 계수를 이용함으로써, 아웃 링크를 통한 어뷰징 행위를 방지할 수 있는 문서 순위 결정 시스템 및 방법이 제공된다.
본 발명의 일실시예에 따르면, 축적 계수를 기여 점수에 적용하는 문서 아웃 링크를 통해 문서의 문서 순위 점수가 내려가는 것을 방지하고, 아웃 링크의 사용 억제에 의한 웹 검색의 어려움을 해소할 수 있는 문서 순위 결정 시스템 및 방법이 제공된다.
본 발명의 일실시예에 따르면, 링크로 연결된 문서들간에 기여하는 정도를 나타내는 기여 계수를 링크 구성 및 내용 점수에 따라 결정함으로써, 문서들의 기여도를 효과적으로 고려할 수 있는 문서 순위 결정 시스템 및 방법이 제공된다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 본 발명의 일실시예에 따른 문서 순위 결정 방법은 문서 순위 결정 시스템의 각 구성에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따른 문서 순위를 결정하는 과정을 설명하기 위한 도면이다.
도 1을 참고하면, 문서 X(100)와 링크로 연결된 문서 Y1(101), 문서 Z1(102), 문서 Y2(103) 및 문서 Z2(104)가 도시된다. 이 때, 문서 X(100), 문서 Y1(101), 문서 Z1(102)는 단어 A(105)를 포함하고, 문서 X(100), 문서 Y2(103), 문서 Z2(104)는 단어 B(106)를 포함한다.
이 때, 단어 A(105)는 문서 X(100), 문서 Y1(101), 문서 Z1(102)에 공통으로 포함된 공통 단어이고, 단어 B(106)는 문서 X(100), 문서 Y2(103), 문서 Z2(104)에 공통으로 포함된 공통 단어이다, 즉, 공통 단어는 링크로 연결된 문서에 공통적으로 포함된 단어로, 문서마다 하나 이상의 공통 단어가 포함될 수 있다.
본 발명의 일실시예에 따른 문서 순위 결정 과정은 검색 결과의 정확도를 유지하면서 계산 시간을 최적화하기 위해 다음과 같은 웹 환경을 활용할 수 있다.
1) 웹 개발자는 부족한 정보에 대해서 다른 문서의 정보를 활용하기 위하여 그 문서를 링크로 연결할 수 있다. 2) 링크를 따라서 연결되어 있을지라도 그 거리가 멀수록 정보의 활용도는 낮아질 수 있다. 3) 연결된 두 문서가 포함하는 공통 단어의 개수는 두 문서의 관련 정도에 연관이 있으며, 관련이 없는 문서일수록 공통 단어의 개수는 적을 수 있다. 4) 검색 엔진 사용자들은 검색 결과의 1위에 민감하며, 순위가 내려갈수록 순위에 대한 민감도는 떨어질 수 있다.
이 때, 단어 A(105) 및 단어 B(106)는 사용자가 입력한 검색 질의를 구성하 는 단어일 수 있다. 본 발명의 일실시예에 따른 문서 순위 결정 시스템은 단어 각각에 대해 문서의 순위를 결정할 수 있다. 이 때, 문서 순위 결정 시스템은 문서 내용과 링크 정보를 조합하여 단어에 대한 문서들의 순위를 결정할 수 있다. 구체적으로, 문서 순위 결정 시스템은 문서에 포함된 적어도 하나의 단어 각각에 대한 문서의 내용 점수와 상기 단어를 공통으로 포함하는 다른 문서의 활용도를 나타내는 기여 점수를 조합하여 문서 순위를 결정할 수 있다.
일례로, 문서의 순위를 결정할 때, 다음과 같은 기본 개념을 미리 정의할 수 있다.
(1) 중요 문서의 기준
문서가 생성될 때, 사용자에게 제공하려는 주요 정보가 본문으로 구성되며, 본문에 대한 상세 설명이나 관련된 추가 정보는 다른 문서를 링크로 연결하는 방식으로 제공될 수 있다. 이 때, 링크로 연결된 문서(도 1에서, 문서 Y1(101), 문서 Y2(103))는 링크를 포함하는 문서(도 1에서, 문서 X(100))와 같은 주제에 대해서 설명하고 있는 문서이거나 세부 사항에 대하여 보완 설명을 하는 문서 또는 단어(도 1에서, 단어 A(105) 및 단어 B(106)) 에 대한 상세 설명 문서일 수 있다. 혹은, 경우에 따라서, 링크로 연결된 문서는 광고와 같이 링크를 포함하는 문서와 전혀 무관한 문서일 수 있다.
문서의 품질을 평가할 때 중요한 요소는 문서의 내용일 수 있다. 사용자는 원하는 내용을 포함한 품질이 좋은 문서가 검색 되기를 기대할 수 있다. 또한, 문 서 순위 결정 시스템은 문서의 본문 품질에 기여하는 중요 문서를 링크로 연결할 수 있다.
본 발명의 일실시예에 따른 문서 순위 결정 시스템은 다음과 같은 조건을 갖춘 문서를 중요 문서로 규정할 수 있다. 1) 주어진 단어에 대한 내용 점수가 높은 문서, 2) 주어진 단어에 대한 내용 점수가 높은 문서에 링크로 연결된 문서, 3) 자신의 정보를 많이 활용하는 문서로, 링크로 연결된 문서.
(2) 링크로 연결된 문서의 기여 점수
링크로 연결된 문서(도 1에서, 문서 Y1(101), 문서 Y2(103))가 링크를 포함하는 문서(도 1에서, 문서 X(100))에 대한 기여 점수는 주어진 검색 질의에 대한 두 문서의 내용 점수를 기초로 결정될 수 있다.
두 문서가 주어진 검색 질의에 대한 관련도가 높을수록, 링크로 연결된 문서는 링크를 포함하는 문서의 품질의 크게 기여할 수 있다. 다만, 링크를 포함하는 문서가 검색 질의에 대해 관련도가 높지만, 링크로 연결된 문서가 검색 질의에 대해 관련도가 낮다면 링크로 연결된 문서는 링크를 포함하는 문서의 품질에 기여하지 않을 수 있다.
예를 들어, 자동자 관련 문서에 책 관련 문서가 링크로 연결되어 있다고 가정하자. 두 문서가 자동차에 관련된 단어를 다수 포함하고 있다면, 책 관련 문서는 자동차 관련 책에 대한 내용을 포함하고 있을 수 있으므로 자동차 관련 문서의 품질에 기여하고 있다고 판단될 수 있다.
그러나, 책 관련 문서가 자동차 관련된 단어를 포함하고 있지 않다면, 단순한 광고 문서이거나 다른 의도로 연결된 문서일 수 있다. 이 경우, 책 관련 문서는 자동차 관련 문서의 품질에 기여하지 않는다고 판단될 수 있다.
(3) 순위에 따른 사용자들의 관심도
검색 결과에서 문서의 상대적인 랭킹이 중요하며, 사용자들은 자신이 원하는 정보가 검색 결과의 첫 페이지에 노출되기를 원할 수 있다. 만약, 문서 순위 결정 시스템이 상위 1~10위에 해당하는 문서를 출력하는 경우, 사용자들은 순위가 1위에 위치한 문서에 민감하지만, 순위가 200~300 사이에 위치한 문서는 어느 위치에 해당하더라도 중요하게 생각하지 않는다.
따라서, 본 발명의 일실시예에 따른 문서 순위 결정 시스템은 미리 설정한 상위 순위에 해당하는 문서의 상대적인 순위를 하위 순위에 해당하는 문서보다 정확하게 결정할 수 있다. 상위 순위에 해당하는 문서의 상대적인 순위를 정확하게 결정하더라도, 사용자는 검색 결과에 만족할 수 있으며, 수많은 문서에 대해 정확한 순위를 결정할 필요가 없어 검색 결과를 도출하기 위해 필요한 자원이 절약될 수 있다.
상기 기본 개념을 기초로 하여 도 1에 적용하면, 문서 순위 결정 시스템은 단어 A(105)에 대해 문서 X(100), 문서 Y1(101) 및 문서 Z1(102)의 내용 점수와 기여 점수를 계산하고, 내용 점수와 기여 점수를 조합하여 단어 A(105)에 대해 문서 순위를 결정하기 위한 문서 순위 점수(C-Rank)를 결정할 수 있다.
마찬가지로, 문서 순위 결정 시스템은 단어 B(106)에 대해 문서 X(100), 문서 Y2(103) 및 문서 Z2(104)의 내용 점수와 기여 점수를 계산하고, 내용 점수와 기여 점수를 조합하여 단어 B(106)에 대해 문서 순위를 결정하기 위한 문서 순위 점수(C-Rank)를 결정할 수 있다. 최종적으로 결정된 문서 순위는 문서와 단어의 쌍에 대해 결정된 문서 순위 점수를 배열하여 결정될 수 있다 (도 1을 참고하면, CA(X) 등).
본 발명의 일실시예를 활용하면, 커뮤니티를 생성할 수 있다. 커뮤니티는 같은 주제나 흥미를 가지는 사람들에 의해 만들어진 문서들의 모음이다. 따라서, 커뮤니티를 구성하는 문서들은 특정 주제와 관련 있는 단어들을 포함하고 있고, 그 문서의 품질이 일정 수준 이상이면서 서로 링크로 연결되어 있을 것으로 예상할 수 있다.
커뮤니티를 주제와 관련된 단어들의 문서 순위 점수(C-Rank) 합이 일정 수준 이상인 문서들로 구성된 연결 서브그래프(connected sub-graph)라고 가정할 수 있다. 이러한 가정은 일반적인 커뮤니티의 특성을 반영하고 있다. 따라서, 문서 순위 점수를 활용하면 다양한 커뮤니티를 효과적으로 추출할 수 있다.
커뮤니티를 찾는 방법은 다음과 같다. 첫 번째로 문서의 문서 순위 점수(C-Rank)를 계산한다. 두 번째로 주제와 관련된 단어들에 대한 각 문서들의 문서 순위 점수 총합을 구성한다. 세 번째로 문서 순위 점수 총합이 가장 큰 문서에서 시작하여 인접한 문서들을 검색하면서 문서 순위 점수 총합이 일정 수준이 이상 인 연결 서브그래프를 구성한다. 추가할 문서가 더 이상 없으면 아직 커뮤니티에 참여하지 않은 문서 중 문서 순위 점수 총합이 제일 큰 문서에서 시작하여 서브그래프를 구성한다. 이러한 과정을 반복한다. 구성된 서브그래프 중에서 연결된 문서의 개수가 일정 개수 이상인 것을 커뮤니티라고 규정할 수 있다. 또한, 모든 문서들의 각 단어에 대한 문서 순위 점수들의 총합이 가장 큰 커뮤니티를 가장 활성화된 커뮤니티라고 규정할 수 있다.
도 2는 본 발명의 일실시예에 따른 문서 순위 결정 시스템의 전체 구성을 도시한 블록 다이어그램이다.
도 2를 참고하면, 문서 순위 결정 시스템(200)은 내용 점수 계산부(201), 기여 점수 계산부(202), 축적 계수 계산부(203) 및 순위 결정부(204)를 포함할 수 있으며, 기여 점수 계산부(202)는 기여 계수 결정부(205)를 포함할 수 있다.
문서 순위 결정 시스템(200)은 링크로 연결된 문서들로부터 공통 단어를 추출할 수 있다. 본 발명의 일실시예에 따르면, 문서 순위 결정 시스템(200)은 문서의 내용 점수와 기여 점수를 구한 후, 이를 조합하여 주어진 단어에 대해 문서의 순위를 결정할 수 있다.
내용 점수 계산부(201)는 문서에 포함된 적어도 하나의 단어 각각에 대해 문서의 내용 점수를 계산할 수 있다. 일례로, 내용 점수 계산부(201)는 문서의 내용과 적어도 하나의 단어 각각의 관련성을 고려하여 문서의 내용 점수를 계산할 수 있다. 문서의 내용 점수는 문서가 나타내는 본래 가치를 의미할 수 있다. 문서가 복수 개인 경우, 문서 각각에 포함된 적어도 하나의 단어 각각에 대해 내용 점수가 계산될 수 있다.
다른 일례로, 내용 점수 계산부(201)는 단어에 대한 문서의 유사도, 문자 크기, 문서의 길이, 이미지 존재 여부 등과 같은 문서의 내용을 통해 문서의 품질을 평가하여 문서의 내용 점수를 계산할 수 있다.
기여 점수 계산부(202)는 공통 단어에 대해 문서의 기여 점수를 계산할 수 있다. 이 때, 기여 계수 결정부(205)는 공통 단어에 대해 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다. 여기서, 기여 계수는 제1 문서가 제2 문서의 가치에 기여하는 계수를 의미하고, 공통 단어는 제1 문서와 제2 문서에 공통적으로 포함된 적어도 하나의 단어를 의미한다.
여기서, 제1 문서는 링크로 연결된 문서를 의미하고, 제2 문서는 링크를 포함하는 문서를 의미할 수 있다. 이 때, 제2 문서에서 제1 문서로 연결된 링크가 존재할 때, 제1 문서는 제2 문서의 아웃링크에 대응하는 문서이고, 제2 문서는 제1 문서의 인링크에 대응하는 문서를 의미한다.
일례로, 기여 계수 결정부(205)는 제2 문서로부터 제1 문서에 도달하는 복수의 단계의 링크를 포함하는 링크 경로가 존재하는 경우, 링크 경로에 대응하는 문서의 기여 계수를 이용하여 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다.
그리고, 기여 계수 결정부(205)는 제1 문서와 제2 문서가 하나의 링크로 연결되는 경우, 제1 문서의 내용 점수, 제2 문서의 내용 점수 및 제2 문서의 아웃 링크에 대응하는 제3 문서의 내용 점수를 이용하여 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다.
이 때, 기여 계수 결정부(205)는 제1 문서의 내용 점수에 비례하고, 제2 문서의 내용 점수 및 제3 문서의 내용 점수에 반비례하는 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다.
최종적으로, 기여 점수 계산부(202)는 제1 문서와 제2 문서에 공통으로 포함된 공통 단어에 대해 제1 문서의 제2 문서에 대한 기여 계수에 제2 문서의 내용 점수를 적용하여 제1 문서의 기여 점수를 계산할 수 있다. 기여 계수를 결정하고, 기여 점수를 계산하는 구체적인 내용은 도 3에서 상세히 설명된다.
본 발명의 일실시예에 따라 기본 모델에 의해 문서 순위를 결정하는 과정은 기여 점수와 내용 점수를 이용하여 문서 순위를 결정할 수 있다. 본 발명의 다른 일실시예에 따라 총합 불변 모델 및 하이브리드 모델에 의해 문서 순위를 결정하는 과정은 축적 계수를 기여 점수 및 내용 점수에 적용하여 문서 순위를 결정하는 과정일 수 있다.
축적 계수 계산부(203)는 공통 단어에 대해 제1 문서의 기여 점수 중 제1 문서가 직접 기여한 점수의 비율인 제1 문서의 축적 계수를 계산할 수 있다.
일례로, 축적 계수 계산부(203)는 제1 문서의 내용 점수와 제1 문서의 아웃 링크에 대응하는 문서의 제4 문서의 내용 점수를 이용하여 제1 문서의 축적 계수를 계산할 수 있다. 이 때, 제1 문서의 축적 계수와 상기 제4 문서의 기여 계수를 적용한 총합은 미리 설정한 값과 동일할 수 있다. 일례로, 미리 설정한 값은 1일 수 있다. 축적 계수를 계산하는 구체적인 내용은 도 4에서 상세히 설명된다.
순위 결정부(204)는 내용 점수와 기여 점수를 이용하여 문서에 포함된 적어도 하나의 주어진 단어 각각에 대한 문서의 순위를 결정할 수 있다. 이 때, 순위 결정부(204)는 내용 점수와 기여 점수를 조합하여 문서 순위 점수(C-Rank)를 결정하고, 문서를 문서 순위 점수에 따라 배열하여 문서 순위를 결정할 수 있다.
본 발명의 일실시예에 따라 기본 모델에 의해 문서 순위를 결정하는 경우, 순위 결정부(204)는 내용 점수와 기여 점수를 합산하여 문서에 포함된 단어 각각에 대한 문서 순위 점수(C-Rank)를 결정할 수 있다. 이 때, 기본 모델은 인링크 개수가 증가할수록 문서의 순위는 증가하지만, 아웃링크 개수의 증감에는 영향을 받지 않는 모델을 의미한다.
또한, 본 발명의 일실시예에 따라 총합 불변 모델에 의해 문서 순위를 결정하는 경우, 순위 결정부(204)는 축적 계수가 적용된 내용 점수와 축적 계수가 적용된 기여 점수를 합산하여 단어 각각에 대한 문서 순위 점수(C-Rank)를 결정할 수 있다.
기본 모델을 수행하는 문서 순위 시스템의 경우, 악의적으로 아웃링크를 추가하여 사이클을 생성함으로써 고의적으로 문서 순위를 증가시킬 수 있는 문제점이 존재한다. 이러한 어뷰징 행위는 문서 순위에 대한 정확도를 떨어뜨리고, 어뷰즈 문서가 생성되는 결과가 초래될 수 있다. 이러한 어뷰징 행위를 방지하기 위해 순위 결정부(204)는 다른 문서에 대한 기여 점수 중 자신이 직접 기여한 점수(축적 계수)만 문서 순위 결정시 반영하는 총합 불변 모델을 통해 문서 순위를 결정할 수 있다.
총합 불변 모델에 의하면, 아웃링크를 생성할수록 문서 순위 점수가 감소될 수 있다. 이 때, 총합 불변 모델에 의하면, 아웃링크의 추가에 의한 어뷰징 행위는 방지할 수 있지만, 아웃링크 사용을 억제하여 사용자의 웹 서핑이 어려울 수 있는 문제점이 존재한다. 따라서, 아웃링크에 의해 문서 순위가 내려가는 현상을 방지하기 위해 순위 결정부(204)는 하이브리드 모델에 의해 문서 순위를 결정할 수 있다.
그리고, 본 발명의 일실시예에 따라 하이브리드 모델에 의해 문서 순위를 결정하는 경우, 순위 결정부(204)는 축적 계수가 적용되지 않은 내용 점수와 축적 계수가 적용된 기여 점수를 합산하여 단어에 대한 문서 순위 점수(C-Rank)를 결정할 수 있다. 이 때, 문서 순위 점수는 단어와 문서의 쌍으로 결정될 수 있다.
도 3은 본 발명의 일실시예에 따른 공통 단어에 대한 문서의 기여 계수를 결정하는 과정을 설명하기 위한 도면이다.
기여 계수 결정부(205)는 공통 단어에 대해 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다. 이 때, 기여 계수는 제1 문서가 제2 문서의 가치에 기여하는 계수를 의미할 수 있다.
도 3을 참고하면, 문서 q(301)에 복수의 d단계의 링크 경로를 거쳐서 문서 p(304)에 도달하는 문서의 집합이 도시되어 있다. 이러한 링크 경로에 대응하는 문서의 집합을 D(p,d)라고 가정한다. 이 때, 문서 p(304)가 제1 문서에 대응하고, 문서 p(304)에 도달하는 문서의 집합이 제2 문서에 대응할 수 있다.
일례로, 순위 결정부(204)는 하기 수학식 1에 따라 문서 순위를 결정할 수 있다. 이 때, 수학식 1은 기본 모델에 의해 문서 순위를 결정하는 것을 의미한다.
Figure 112009009717535-pat00001
여기서, t는 단어(305)를 의미하고,
Figure 112009009717535-pat00002
는 단어 t(305)에 대해 제1 문서인 문서 p(304)의 문서 순위를 계산하기 위한 문서 순위 점수(C-Rank)을 의미할 수 있다.
Figure 112009009717535-pat00003
는 문서 P(304)의 내용을 고려한 단어 t(305)에 대해 문서 p(304)의 내용 점수를 의미하고,
Figure 112009009717535-pat00004
는 단어 t(305)에 대해 제1 문서인 문서 P(304)의 제2 문서인 문서 q(301)에 대한 기여 점수를 의미한다.
이 때,
Figure 112009009717535-pat00005
는 문서 P(304)가 링크 경로를 d 단계만큼 역으로 거슬러 올라갔을 때 만나는 문서 q(301)에 기여하는 기여 계수로, 제1 문서인 문서 p(304)의 제2 문서인 문서 q(301)에 대한 기여 계수(contribution coefficient)를 의미한다.
수학식 1에서 볼 수 있듯이, 기여 점수 계산부(202)는 제1 문서인 문서 p(304)의 제2 문서인 문서 q(301)에 대한 기여 계수에 제2 문서의 내용 점수를 적용하여 제1 문서의 기여 점수를 계산할 수 있다.
만약, 도 3과 같이, 제2 문서(문서 q(301))로부터 제1 문서(문서 p(304))에 도달하는 복수의 단계의 링크를 포함하는 링크 경로가 존재하는 경우, 기여 계수 결정부(205)는 링크 경로에 대응하는 문서(문서 r1(302) 내지 문서 rd -1(303))의 기여 계수를 이용하여 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다. 일례로, 기여 계수 결정부(205)는 하기 수학식 2에 따라 기여 계수를 결정할 수 있다.
Figure 112009009717535-pat00006
이 때, 수학식 2는 도 3에 도시된 것과 같이 복수의 d 단계의 링크 경로를 거쳐서 문서 q(301)로부터 문서 p(304)에 도달하는
Figure 112009009717535-pat00007
링크 경로를 고려한 것이다. 수학식 2를 참고하면, 제1 문서의 제2 문서에 대한 기여 계수(
Figure 112009009717535-pat00008
)는 링크 경로에 대응하는 문서(문서 r1(302) 내지 문서 rd -1(303))의 기여 계수에 의해 결정될 수 있다. 여기서, 링크 경로에 대응하는 문서의 기여 계수는 링크 경로 상에서 인접하는 문서들 간의 기여 계수(예를 들면,
Figure 112009009717535-pat00009
의 링크에서 r 2 r 1 에 대한 기여 계수)를 이용하여 결정될 수 있다.
본 발명의 일실시예에 따르면, 기여 계수 결정부(205)는 제1 문서와 제2 문 서가 하나의 링크로 연결되는 경우, 제1 문서의 내용 점수, 제2 문서의 내용 점수 및 제2 문서의 아웃 링크에 대응하는 제3 문서의 내용 점수를 이용하여 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다. 일례로, 제1 문서와 제2 문서가 하나의 링크로 연결되는 경우, 기여 계수 결정부(205)는 하기 수학식 3과 같이 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다.
Figure 112009009717535-pat00010
수학식 3을 참고하면, 기여 계수 결정부(205)는 제1 문서(문서 p(304))의 내용 점수에 비례하고, 제2 문서(문서 q(301))의 내용 점수 및 제3 문서의 내용 점수에 반비례하는 제1 문서의 제2 문서에 대한 기여 계수(
Figure 112009009717535-pat00011
)를 결정할 수 있다. 이 때, 제2 문서(문서 q(301))의 아웃링크에 대응하는 제3 문서가 많을수록, 제1 문서의 제2 문서에 대한 기여 계수는 감소할 수 있다.
수학식 3을 참고하면, 제1 문서(문서 p(304))가 제2 문서(문서 q(301))보다 단어 t(305)와의 관련도가 높을수록(즉,
Figure 112009009717535-pat00012
Figure 112009009717535-pat00013
보다 클수록), 제1 문서의 제2 문서에 대한 기여 계수(
Figure 112009009717535-pat00014
)는 증가할 수 있다. 그리고, 제2 문서(문서 q(301))가 제1 문서(문서 p(301))보다 단어 t(305)와의 관련도가 높을수록 (즉,
Figure 112009009717535-pat00015
Figure 112009009717535-pat00016
보다 클수록), 제1 문서의 제2 문서에 대한 기여 계수(
Figure 112009009717535-pat00017
)는 감소할 수 있다.
또한, 제2 문서(문서 q(301))에 포함된 단어 t(305)에 대한 정보를 보완하기 위해 제2 문서(문서 q(301))에 아웃링크로 연결한 제3 문서의 개수가 많을수록(즉,
Figure 112009009717535-pat00018
에서, 문서 r의 개수가 증가할수록), 제1 문서의 제2 문서에 대한 기여 계수(
Figure 112009009717535-pat00019
)는 감소할 수 있다. 이 때, 제3 문서는 도 3의 문서 r1(302) 내지 문서 rd -1(303)과는 별개이며, 제2 문서에 단어를 보완하기 위해 링크로 연결된 문서 전체를 의미할 수 있다.
예를 들어, 문서 p, 문서 q 및 문서 r이
Figure 112009009717535-pat00020
와 같이 링크로 연결되어 있다고 가정하자. 이와 같은 링크를 도 3의 설명을 적용하면 다음과 같다.
수학식 1을 참고하면, 문서 q의 r에 대한 기여 점수는
Figure 112009009717535-pat00021
이다. 그리고, 수학식 1을 참고하면, 문서 p의 문서 q 및 문서 r에 대한 기여 점수는 각각
Figure 112009009717535-pat00022
Figure 112009009717535-pat00023
이다. 수학식 2를 참고하면, 문서 p의 문서 r에 대한 기여 점수
Figure 112009009717535-pat00024
Figure 112009009717535-pat00025
이다.
따라서, 문서 p의 문서 q와 문서 r에 대한 기여 점수는
Figure 112009009717535-pat00026
이다. 그러므로, 문서 q의 상위 문서(문서 r)에 대한 기여 계수(
Figure 112009009717535-pat00027
)와 문서 q의 내용 점수(
Figure 112009009717535-pat00028
)를 알면 문서 p의 문서 q와 문서 q의 상위 문서들(문서 r)에 대한 기여 점수
Figure 112009009717535-pat00029
를 알 수 있다.
도 4는 본 발명의 일실시예에 따른 공통 단어에 대한 문서의 축적 계수를 계산하는 과정을 설명하기 위한 도면이다.
축적 계수 계산부(203)는 공통 단어에 대해 제1 문서의 기여 점수 중 제1 문서가 직접 기여한 점수의 비율인 제1 문서의 축적 계수를 계산할 수 있다. 축적 계수는 문서 순위를 결정하는 방식 중 총합 불변 모델 및 하이브리드 모델에 적용될 수 있다.
일례로, 순위 결정부(204)는 내용 점수 및 기여 점수에 축적 계수를 적용하거나(총합 불변 모델) 또는 기여 점수에 축적 계수를 적용하여(하이브리드 모델) 문서 순위를 결정할 수 있다.
일례로, 축적 계수 계산부(203)는 하기 수학식 4에 따라 축적 계수를 계산할 수 있다.
Figure 112009009717535-pat00030
여기서,
Figure 112009009717535-pat00031
는 단어 t에 대한 제1 문서(문서 p)의 축적 계수를 의미한다. 축적 계수 계산부(203)는 제1 문서의 내용 점수(
Figure 112009009717535-pat00032
)와 상기 제1 문서의 아웃 링크에 대응하는 문서의 제4 문서(문서 r)의 내용 점수(
Figure 112009009717535-pat00033
)를 이용하여 제1 문서의 축적 계수를 계산할 수 있다. 축적 계수는 제1 문서의 제2 문서에 대한 기여 점수 중 제1 문서가 직접 기여한 점수의 비율을 의미할 수 있다.
예를 들면, 도 4를 참고하면, 문서 q(401)에 기여하는 문서가 문서 p(402)와 문서 o(도 4에 도시되지 않음)이라고 가정하자. 문서 q(401)에 대한 기여 점수는 문서 o의 문서 q(401)에 대한 기여 점수와 문서 p(402)의 문서 q(401)에 대한 기여 점수를 합한 것을 의미할 수 있다. 이 때, 문서 p(402)의 축적 계수는 문서 q(401)에 대한 기여 점수 중 문서 p(402)가 문서 q(401)에 직접 기여한 기여 점수의 비율을 의미할 수 있다. 이 때, 기여 점수 및 축적 계수는 단어 t(407)에 대한 것이다.
Figure 112009009717535-pat00034
이 때, 총합 불변 모델에 의하면, 제1 문서(문서 p(402))의 축적 계수와 제4 문서(문서 r1(403) 내지 문서 r4(406))의 기여 계수를 적용한 총합이 미리 설정한 값(수학식 5에 의하면, 1임)과 동일할 수 있다. 여기서, 수학식 5에 의하면, 문서 p의 축적 계수와 문서 p의 아웃링크에 대응하는 문서 r의 기여 계수의 총합은 1이다.
이는 공통 단어에 대해 해당 문서(도 4에서, 문서 p(402))의 상위 문서(문서 q(401))에 대한 기여 점수는 해당 문서의 자신의 기여 점수와 해당 문서의 아웃링크로 연결된 하위 문서(도 4에서, 문서 r1(403) 내지 문서 r4(406))에 의한 기여 점수의 합과 같은 것을 의미할 수 있다.
상위 문서에 대한 기여 점수가 고정되어 있는 만큼, 해당 문서의 아웃링크가 증가하여 하위 문서에 의한 기여 점수가 증가하면, 해당 문서의 자신의 기여 점수는 감소할 수 있다. 결국, 전체 웹 그래프에서 모든 문서의 문서 순위 점수의 총합은 하기 수학식 6과 같이 모든 문서의 내용 점수의 총합과 같다.
Figure 112009009717535-pat00035
따라서, 수학식 6에 의하면, 문서(도 4의 문서 P(402))에 아웃링크가 추가될수록 문서(도 4의 문서 P(402))의 문서 순위 점수가 감소하므로, 아웃링크의 남용을 방지할 수 있다.
최종적으로, 총합 불변 모델에서 문서 순위 점수는 하기 수학식 7과 같이 결정될 수 있다.
Figure 112009009717535-pat00036
즉, 수학식 7에 의하면, 단어 t에 대한 문서 p의 문서 순위 점수(
Figure 112009009717535-pat00037
)는 문서 p의 축적 계수(
Figure 112009009717535-pat00038
)가 적용된 내용 점수(
Figure 112009009717535-pat00039
)와 문서 p의 축적 계수(
Figure 112009009717535-pat00040
)가 적용된 문서 p의 문서 q에 대한 기여 점수(
Figure 112009009717535-pat00041
)의 합으로 결정될 수 있다.
그리고, 하이브리드 모델에서 문서 순위 점수는 하기 수학식 8과 같이 결정될 수 있다.
Figure 112009009717535-pat00042
즉, 수학식 8에 의하면, 단어 t에 대한 문서 p의 문서 순위 점수(
Figure 112009009717535-pat00043
)는 문서 p의 내용 점수(
Figure 112009009717535-pat00044
)와 문서 p의 축적 계수(
Figure 112009009717535-pat00045
)가 적용된 문서 p의 문서 q에 대한 기여 점수(
Figure 112009009717535-pat00046
)의 합으로 결정될 수 있다.
하이브리드 모델에서 수학식 6과 수학식 8을 적용하면, 하기 수학식 9가 도출될 수 있다.
Figure 112009009717535-pat00047
여기서,
Figure 112009009717535-pat00048
는 하이브리드 모델에서 문서 순위 점수의 총합을 의미한다. 수학식 9에 의하면, 하이브리드 모델에서, 모든 문서 순위 점수의 총합은 모든 문서의 내용 점수의 총합의 2배보다 작거나 같음을 알 수 있다.
도 1 내지 도 4의 설명을 참고로, 주어진 단어에 대한 모든 문서들의 문서 순위 점수는 하기 수학식 10과 같이 결정될 수 있다. 하기 수학식 10은 하이브리 드 모델에 의한 것으로, 이하의 설명은 기본 모델 및 총합 불변 모델에 동일하게 적용될 수 있다.
Figure 112009009717535-pat00049
Figure 112009009717535-pat00050
,
Figure 112009009717535-pat00051
,
Figure 112009009717535-pat00052
.
수학식 10에서,
Figure 112009009717535-pat00053
는 단어 t에 대한 문서 p의 문서 순위 점수를 의미한다.
Figure 112009009717535-pat00054
는 단어 t에 대한 문서 p의 내용 점수를 의미하고,
Figure 112009009717535-pat00055
는 단어 t에 대한 문서 p의 축적 계수,
Figure 112009009717535-pat00056
는 단어 t에 대해 단계 d의 링크로 연결된 문서 p의 문서 q에 대한 기여 가치(기여 계수와 내용 점수의 곱)을 의미한다.
단어 t에 대한 문서 p의 문서 순위 점수는 다음과 같은 전처리 과정과 반복 계산 과정에 따라 계산될 수 있다.
S1.
Figure 112009009717535-pat00057
계산
S2.
Figure 112009009717535-pat00058
Figure 112009009717535-pat00059
계산
S3.
Figure 112009009717535-pat00060
그리고
Figure 112009009717535-pat00061
S4.
Figure 112009009717535-pat00062
S5.
Figure 112009009717535-pat00063
S6.
Figure 112009009717535-pat00064
Figure 112009009717535-pat00065
에 대해서 S4, S5 반복. 모든 p와 t에 대해서
Figure 112009009717535-pat00066
이면 종료.
여기서, S1, S2는 전처리 과정이고, S3, S4, S5 및 S6은 반복 계산 과정을 의미한다. 전처리 단계의 S1에 의하면, 문서 순위 결정 시스템은 모든 문서들(문서 p)에 대해서 포함하는 단어 t에 대한 내용 점수를 계산한다. 전처리 단계의 S2에 의하면, 문서 순위 결정 시스템은 공통 단어에 대하여 기여 계수를 계산하고, 공통 단어에 대한 축적 계수를 계산한다.
반복 계산 단계의 S3에 의하면, 문서 순위 결정 시스템은 내용 점수를 문서 순위 점수(C-Rank)에 합산한다. 반복 계산 단계의 S4에 의하면, 문서 순위 결정 시스템은 각 문서에 대해서 아웃링크로 연결된 문서의 기여 가치를 계산한다. 반 복 계산 단계의 S5에 의하면, 문서 순위 결정 시스템은 계산된 기여 가치와 축적 계수를 곱한 결과를 문서 순위 점수(C-Rank)에 합산한다. 반복 계산 단계의 S6에 의하면, 문서 순위 결정 시스템은 기여 가치가 주어진 임계값
Figure 112009009717535-pat00067
이상인 (문서, 단어) 쌍에 대해서 S4와 S5를 반복한다. 모든 (문서, 단어) 쌍에 대해서 기여 가치가
Figure 112009009717535-pat00068
이하이면 계산을 종료한다.
이 때, 반복 작업 중 일부 문서의 기여 가치가 임계값 이하인 경우가 발생하면, 그 값을 미합산 기여 가치에 누적하여 보관한다. 반복 계산이 진행되면 먼 거리에 있는 문서나 다른 경로에 있는 문서에 의해서 미합산 기여 가치가 임계값 이상이 될 수 있다. 이 상황이 되면 문서 순위 결정 시스템은 축적 계수를 곱한 후 문서 순위 점수(C-Rank)에 누적하고 아웃링크로 연결된 문서의 기여 가치 계산에 사용한다.
문서 순위 결정 시스템은 여러 단계의 링크로 연결된 문서들의 기여 계수에 대한 연관 관계에 의하여 링크 구조의 상위 문서들에 대한 기여 계수를 알면 자신의 기여 계수를 계산할 수 있다는 특성을 통해 문서 순위 점수(C-Rank)의 동적 갱신이 가능할 수 있다.
이 후, 문서 내용이 변경되는 경우, 문서 순위 결정 시스템은 이를 반영하여 문서 순위를 결정할 수 있다. 문서 내용이 변경되면, 문서의 내용 점수가 변경되고, 문서의 인링크와 관련된 기여 계수와 아웃링크와 관련된 기여 계수가 변경될 수 있다. 따라서, 내용이 변경된 문서를 링크로 지시하고 있는 문서들과 내용이 변경된 문서에서 시작하여 링크를 따라 도달할 수 있는 문서들의 문서 순위 점수가 변경될 수 있다.
마찬가지로, 링크가 추가되거나 링크가 삭제되는 경우, 문서의 기여 계수가 변경될 수 있다. 링크가 추가되는 경우, 추가된 링크에 의해 기여 계수가 발생할 수 있으며, 링크가 삭제되는 경우, 삭제된 링크에 의해 기여 계수가 발생되지 않을 수 있다.
또한, 문서가 추가 또는 삭제되는 경우, 링크의 추가 또는 삭제에 준하여 문서 순위 점수가 결정될 수 있다.
도 5는 본 발명의 일실시예에 따른 기본 모델에 의한 문서 순위 결정 방법의 전체 과정을 도시한 플로우 차트이다.
앞에서 언급했듯이, 기본 모델은 인링크 개수가 증가할수록 문서의 순위는 증가하지만, 아웃링크 개수의 증감에는 영향을 받지 않는 모델을 의미한다.
도 5의 문서 순위 결정 방법은 도 2에 도시된 문서 순위 결정 시스템(500)의 각 구성 요소에 의해 수행될 수 있다.
단계(S501)에서, 내용 점수 계산부(201)는 문서에 포함된 적어도 하나의 단어 각각에 대해 문서의 내용 점수를 계산할 수 있다. 일례로, 내용 점수 계산부(201)는 문서의 내용과 적어도 하나의 단어 각각의 관련성을 고려하여 상기 내용 점수를 계산할 수 있다. 다른 일례로, 내용 점수 계산부(201)는 단어에 대한 문서의 유사도, 문자 크기, 문서의 길이, 이미지 존재 여부 등과 같은 문서의 내용으로 문서의 품질을 평가한 내용 점수를 계산할 수 있다.
단계(S502)에서, 기여 계수 결정부(205)는 공통 단어에 대해 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다. 이 때, 기여 계수는 제1 문서가 제2 문서의 가치에 기여하는 계수를 의미하며, 제1 문서와 제2 문서는 링크로 연결되어 있다. 그리고, 공통 단어는 제1 문서와 제2 문서 각각에 포함된 적어도 하나의 단어 중 제1 문서와 제2 문서에 공통으로 포함된 단어를 의미한다. 제1 문서는 공통 단어를 통해 제2 문서의 가치에 기여할 수 있다.
여기서, 제1 문서는 링크로 연결된 문서를 의미하고, 제2 문서는 링크를 포함하는 문서를 의미한다. 이 때, 제2 문서에서 제1 문서로 연결된 링크가 존재할 때, 제1 문서는 제2 문서의 아웃링크에 대응하는 문서이고, 제2 문서는 제1 문서의 인링크에 대응하는 문서를 의미한다.
일례로, 기여 계수 결정부(205)는 제2 문서로부터 상기 제1 문서에 도달하는 복수의 단계의 링크를 포함하는 링크 경로가 존재하는 경우, 링크 경로에 대응하는 문서의 기여 계수를 이용하여 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다. 이 때, 기여 계수 결정부(205)는 제1 문서와 제2 문서가 하나의 링크로 연결되는 경우, 제1 문서의 내용 점수, 제2 문서의 내용 점수 및 제2 문서의 아웃 링크에 대응하는 제3 문서의 내용 점수를 이용하여 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다. 기여 계수 결정부(205)는 제1 문서의 내용 점수에 비례하고, 제2 문서의 내용 점수 및 제3 문서의 내용 점수에 반비례하는 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다.
이러한 공통 단어에 대한 기여 계수는 공통 단어를 포함하는 모든 문서에 대 해 결정될 수 있다.
단계(S503)에서, 기여 점수 계산부(202)는 공통 단어에 대해 문서의 기여 점수를 계산할 수 있다. 일례로, 기여 점수 계산부(202)는 제1 문서의 제2 문서에 대한 기여 계수에 제2 문서의 내용 점수를 적용하여 제1 문서의 기여 점수를 계산할 수 있다.
단계(S504)에서, 순위 결정부(204)는 내용 점수와 기여 점수를 이용하여 적어도 하나의 주어진 단어 각각에 대해 문서의 순위를 결정할 수 있다. 일례로, 기본 모델에 의하면, 순위 결정부(204)는 내용 점수와 기여 점수를 합산하여 문서 순위 점수(C-Rank)를 결정한 후, 문서 순위 점수에 따라 단어에 대한 문서 순위를 결정할 수 있다.
도 6은 본 발명의 일실시예에 따른 총합 불변 모델 및 하이브리드 모델에 의한 문서 순위 결정 방법의 전체 과정을 도시한 플로우차트이다.
기본 모델 사용 시스템에서 발생할 수 있는 어뷰즈 행위로서, 어뷰즈 문서를 통해 아웃링크를 추가함으로써 문서의 문서 순위를 증가시키는 행위를 방지하기 위해, 총합 불변 모델은 다른 문서에 대한 기여 점수 중 자신이 직접 기여한 점수(축적 계수)를 내용 점수와 기여 점수에 반영할 수 있다.
그리고, 하이브리드 모델에 의하면, 아웃링크의 어뷰즈를 방지할 수 있지만, 아웃링크 사용을 억제하여 사용자의 웹 서핑이 어려운 문제를 해결하기 위해, 축적 계수를 기여 점수에 반영할 수 있다.
단계(S601) 내지 단계(S604)는 도 5에서 설명한 단계(S501) 내지 단계(S504) 의 설명과 동일하게 적용될 수 있다.
단계(S605)에서, 축적 계수 계산부(203)는 공통 단어에 대해 제1 문서의 기여 점수 중 제1 문서가 직접 기여한 점수의 비율인 제1 문서의 축적 계수를 계산할 수 있다. 일례로, 축적 계수 계산부(203)는 제1 문서의 내용 점수와 제1 문서의 아웃 링크에 대응하는 문서의 제4 문서의 내용 점수를 이용하여 제1 문서의 축적 계수를 계산할 수 있다. 이 때, 제1 문서의 축적 계수와 제4 문서의 기여 계수를 적용한 총합이 미리 설정한 값과 동일할 수 있다(총합 불변 원칙).
단계(S606)는 하이브리드 모델에 의한 문서 순위 결정 방법을 나타낸 것이고, 단계(S607)는 총합 불변 모델에 의한 문서 순위 결정 방법을 나타낸 것이다.
단계(S606)에서, 순위 결정부(204)는 주어진 단어에 있어 문서의 기여 점수에 문서의 축적 계수를 적용할 수 있다. 단계(S608)에서, 순위 결정부(204)는 축적 계수가 적용된 문서의 기여 점수와 문서의 내용 점수를 합산하여 문서 순위 점수를 결정할 수 있다. 그러면, 순위 결정부(204)는 문서 순위 점수를 이용하여 문서 순위를 결정할 수 있다.
단계(S607)에서, 순위 결정부(204)는 적어도 하나의 주어진 단어 각각에 대해 단어에 있어 문서의 기여 점수와 내용 점수에 각각 축적 계수를 적용할 수 있다. 이 후, 단계(S608)에서, 순위 결정부(204)는 문서의 축적 계수가 적용된 기여 점수와 내용 점수를 합산하여 문서 순위 점수를 결정할 수 있다. 그러면, 순위 결정부(204)는 문서 순위 점수를 이용하여 문서 순위를 결정할 수 있다.
도 5 및 도 6에서 설명되지 않은 구체적인 일례는 도 1 내지 도 4의 설명을 참고할 수 있다.
또한 본 발명의 일실시예에 따른 문서 순위 결정 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일실시예에 따른 문서 순위를 결정하는 과정을 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 문서 순위 결정 시스템의 전체 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명의 일실시예에 따른 공통 단어에 대한 문서의 기여 계수를 결정하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 공통 단어에 대한 문서의 축적 계수를 계산하는 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예에 따른 기본 모델에 의한 문서 순위 결정 방법의 전체 과정을 도시한 플로우차트이다.
도 6은 본 발명의 일실시예에 따른 총합 불변 모델 및 하이브리드 모델에 의한 문서 순위 결정 방법의 전체 과정을 도시한 플로우차트이다.
<도면의 주요 부분에 대한 부호의 설명>
200: 문서 순위 결정 시스템
201: 내용 점수 계산부
202: 기여 점수 계산부
203: 축적 계수 계산부
204: 순위 결정부
205: 기여 계수 결정부

Claims (23)

  1. 삭제
  2. 문서에 포함된 적어도 하나의 단어 각각에 대해 상기 문서의 내용 점수를 계산하는 내용 점수 계산부;
    공통 단어에 대해 상기 문서의 기여 점수를 계산하는 기여 점수 계산부; 및
    상기 내용 점수와 상기 기여 점수를 이용하여 상기 적어도 하나의 단어 각각에 대해 상기 문서의 순위를 결정하는 순위 결정부
    를 포함하고,
    상기 내용 점수 계산부는,
    상기 문서의 내용과 상기 적어도 하나의 단어 각각의 관련성을 고려하여 상기 내용 점수를 계산하는 것을 특징으로 하는 문서 순위 결정 시스템.
  3. 문서에 포함된 적어도 하나의 단어 각각에 대해 상기 문서의 내용 점수를 계산하는 내용 점수 계산부;
    공통 단어에 대해 상기 문서의 기여 점수를 계산하는 기여 점수 계산부; 및
    상기 내용 점수와 상기 기여 점수를 이용하여 상기 적어도 하나의 단어 각각에 대해 상기 문서의 순위를 결정하는 순위 결정부
    를 포함하고,
    상기 기여 점수 계산부는,
    상기 공통 단어에 대해 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 기여 계수 결정부
    를 포함하며,
    상기 기여 계수는,
    상기 제1 문서와 제2 문서에 공통으로 포함된 상기 공통 단어에 대해 상기 제1 문서가 상기 제2 문서의 가치에 기여하는 계수인 것을 특징으로 하는 문서 순위 결정 시스템.
  4. 제3항에 있어서,
    상기 기여 점수 계산부는,
    상기 제1 문서의 상기 제2 문서에 대한 기여 계수에 상기 제2 문서의 내용 점수를 적용하여 상기 제1 문서의 기여 점수를 계산하는 것을 특징으로 하는 문서 순위 결정 시스템.
  5. 제3항에 있어서,
    상기 기여 계수 결정부는,
    상기 제2 문서로부터 상기 제1 문서에 도달하는 복수의 단계의 링크를 포함하는 링크 경로가 존재하는 경우, 상기 링크 경로에 대응하는 문서의 기여 계수를 이용하여 상기 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 것을 특징으로 하는 문서 순위 결정 시스템.
  6. 제5항에 있어서,
    상기 기여 계수 결정부는,
    상기 제1 문서와 상기 제2 문서가 하나의 링크로 연결되는 경우, 상기 제1 문서의 내용 점수, 상기 제2 문서의 내용 점수 및 상기 제2 문서의 아웃 링크에 대응하는 제3 문서의 내용 점수를 이용하여 상기 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 것을 특징으로 하는 문서 순위 결정 시스템.
  7. 제6항에 있어서,
    상기 기여 계수 결정부는,
    상기 제1 문서의 내용 점수에 비례하고, 상기 제2 문서의 내용 점수 및 상기 제3 문서의 내용 점수에 반비례하는 상기 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 것을 특징으로 하는 문서 순위 결정 시스템.
  8. 제3항에 있어서,
    상기 공통 단어에 대해 상기 제1 문서의 기여 점수 중 상기 제1 문서가 직접 기여한 점수의 비율인 상기 제1 문서의 축적 계수를 계산하는 축적 계수 계산부
    를 더 포함하는 문서 순위 결정 시스템.
  9. 제8항에 있어서,
    상기 순위 결정부는,
    상기 내용 점수 및 상기 기여 점수에 상기 축적 계수를 적용하거나 또는 상기 기여 점수에 상기 축적 계수를 적용하는 것을 특징으로 하는 문서 순위 결정 시스템.
  10. 제8항에 있어서,
    상기 축적 계수 계산부는,
    상기 제1 문서의 내용 점수와 상기 제1 문서의 아웃 링크에 대응하는 문서의 제4 문서의 내용 점수를 이용하여 상기 제1 문서의 축적 계수를 계산하는 것을 특징으로 하는 문서 순위 결정 시스템.
  11. 제10항에 있어서,
    상기 제1 문서의 축적 계수와 상기 제4 문서의 기여 계수를 적용한 총합이 미리 설정한 값과 동일한 것을 특징으로 하는 문서 순위 결정 시스템.
  12. 삭제
  13. 내용 점수 계산부가 문서에 포함된 적어도 하나의 단어 각각 단어 각각에 대해 상기 문서의 내용 점수를 계산하는 단계;
    기여 점수 계산부가 공통 단어에 대해 상기 문서의 기여 점수를 계산하는 단계; 및
    순위 결정부가 상기 내용 점수와 상기 기여 점수를 이용하여 상기 적어도 하나의 단어 각각에 대해 상기 문서의 순위를 결정하는 단계
    를 포함하고,
    상기 내용 점수 계산부가 적어도 하나의 단어 각각에 대해 문서의 내용 점수를 계산하는 단계는,
    상기 내용 점수 계산부가 상기 문서의 내용과 상기 적어도 하나의 단어 각각의 관련성을 고려하여 상기 내용 점수를 계산하는 것을 특징으로 하는 문서 순위 결정 방법.
  14. 내용 점수 계산부가 문서에 포함된 적어도 하나의 단어 각각 단어 각각에 대해 상기 문서의 내용 점수를 계산하는 단계;
    기여 점수 계산부가 공통 단어에 대해 상기 문서의 기여 점수를 계산하는 단계; 및
    순위 결정부가 상기 내용 점수와 상기 기여 점수를 이용하여 상기 적어도 하나의 단어 각각에 대해 상기 문서의 순위를 결정하는 단계
    를 포함하고,
    상기 기여 점수 계산부가 상기 공통 단어에 대해 문서의 기여 점수를 계산하는 단계는,
    기여 계수 결정부가 상기 공통 단어에 대해 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 단계
    를 포함하며,
    상기 기여 계수는,
    상기 제1 문서와 제2 문서에 공통으로 포함된 상기 공통 단어에 대해 상기 제1 문서가 상기 제2 문서의 가치에 기여하는 계수인 것을 특징으로 하는 문서 순위 결정 방법.
  15. 제14항에 있어서,
    상기 기여 점수 계산부가 상기 공통 단어에 대해 문서의 기여 점수를 계산하는 단계는,
    상기 제1 문서의 상기 제2 문서에 대한 기여 계수에 상기 제2 문서의 내용 점수를 적용하여 상기 제1 문서의 기여 점수를 계산하는 것을 특징으로 하는 문서 순위 결정 방법.
  16. 제14항에 있어서,
    상기 기여 계수 결정부가 상기 공통 단어에 대해 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 단계는,
    상기 제2 문서로부터 상기 제1 문서에 도달하는 복수의 단계의 링크를 포함하는 링크 경로가 존재하는 경우, 상기 링크 경로에 대응하는 문서의 기여 계수를 이용하여 상기 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 것을 특징으로 하는 문서 순위 결정 방법.
  17. 제16항에 있어서,
    상기 기여 계수 결정부가 상기 공통 단어에 대해 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 단계는,
    상기 제1 문서와 상기 제2 문서가 하나의 링크로 연결되는 경우, 상기 제1 문서의 내용 점수, 상기 제2 문서의 내용 점수 및 상기 제2 문서의 아웃 링크에 대응하는 제3 문서의 내용 점수를 이용하여 상기 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 것을 특징으로 하는 문서 순위 결정 방법.
  18. 제17항에 있어서,
    상기 기여 계수 결정부가 상기 공통 단어에 대해 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 단계는,
    상기 제1 문서의 내용 점수에 비례하고, 상기 제2 문서의 내용 점수 및 상기 제3 문서의 내용 점수에 반비례하는 상기 제1 문서의 제2 문서에 대한 기여 계수를 결정하는 것을 특징으로 하는 문서 순위 결정 방법.
  19. 제14항에 있어서,
    축적 계수 계산부가 상기 공통 단어에 대해 상기 제1 문서의 기여 점수 중 상기 제1 문서가 직접 기여한 점수의 비율인 상기 제1 문서의 축적 계수를 계산하는 단계
    를 더 포함하는 문서 순위 결정 방법.
  20. 제19항에 있어서,
    상기 순위 결정부가 상기 적어도 하나의 단어 각각에 대해 상기 문서의 순위를 결정하는 단계는,
    상기 내용 점수 및 상기 기여 점수에 상기 축적 계수를 적용하거나 또는 상기 기여 점수에 상기 축적 계수를 적용하는 것을 특징으로 하는 문서 순위 결정 방법.
  21. 제19항에 있어서,
    상기 축적 계수 계산부가 상기 제1 문서의 축적 계수를 계산하는 단계는,
    상기 제1 문서의 내용 점수와 상기 제1 문서의 아웃 링크에 대응하는 문서의 제4 문서의 내용 점수를 이용하여 상기 제1 문서의 축적 계수를 계산하는 것을 특징으로 하는 문서 순위 결정 방법.
  22. 제21항에 있어서,
    상기 제1 문서의 축적 계수와 상기 제4 문서의 기여 계수를 적용한 총합이 미리 설정한 값과 동일한 것을 특징으로 하는 문서 순위 결정 방법.
  23. 제13항 내지 제22항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
KR1020090012898A 2009-02-17 2009-02-17 기여 점수에 기초한 문서 순위 결정 시스템 및 방법 KR101065091B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020090012898A KR101065091B1 (ko) 2009-02-17 2009-02-17 기여 점수에 기초한 문서 순위 결정 시스템 및 방법
PCT/KR2009/007481 WO2010095807A2 (ko) 2009-02-17 2009-12-15 기여 점수에 기초한 문서 순위 결정 시스템 및 방법
JP2011550048A JP5406313B2 (ja) 2009-02-17 2009-12-15 寄与スコアに基づいた文書順位決定システムおよび方法
US13/202,009 US8838611B2 (en) 2009-02-17 2009-12-15 Document ranking system and method based on contribution scoring

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090012898A KR101065091B1 (ko) 2009-02-17 2009-02-17 기여 점수에 기초한 문서 순위 결정 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20100093804A KR20100093804A (ko) 2010-08-26
KR101065091B1 true KR101065091B1 (ko) 2011-09-16

Family

ID=42634287

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090012898A KR101065091B1 (ko) 2009-02-17 2009-02-17 기여 점수에 기초한 문서 순위 결정 시스템 및 방법

Country Status (4)

Country Link
US (1) US8838611B2 (ko)
JP (1) JP5406313B2 (ko)
KR (1) KR101065091B1 (ko)
WO (1) WO2010095807A2 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101659064B1 (ko) * 2009-09-03 2016-09-22 김서준 사용자 피드백을 이용하여 컨텐츠에 대한 평가 점수를 산출하기 위한 방법 및 장치
KR101086566B1 (ko) 2010-09-27 2011-11-23 엔에이치엔(주) 문서 순위 점수의 동적 갱신을 위한 방법 및 장치
KR101122436B1 (ko) * 2010-09-30 2012-03-09 엔에이치엔(주) 단어의 문서 관련도 점수 및 그래프 구조에 기반한 문서의 키워드 추출 방법 및 장치
JP5526209B2 (ja) * 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US9946800B2 (en) 2015-07-06 2018-04-17 International Business Machines Corporation Ranking related objects using blink model based relation strength determinations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
KR20020015838A (ko) * 2000-08-23 2002-03-02 전홍건 엔트로피와 사용자 프로파일을 적용한 문서순위 조정방법
KR20080046670A (ko) * 2005-09-21 2008-05-27 마이크로소프트 코포레이션 문서 사용 통계치를 사용한 랭킹 함수

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7024408B2 (en) * 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
JP3997412B2 (ja) * 2002-11-13 2007-10-24 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP2007094552A (ja) * 2005-09-27 2007-04-12 Nippon Telegr & Teleph Corp <Ntt> コミュニティ抽出装置、コミュニティ抽出方法、プログラム、及び記録媒体
KR100898462B1 (ko) 2007-05-16 2009-05-21 엔에이치엔(주) 문서 순위 결정 방법 및 이를 이용한 문서 순위 결정시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
KR20020015838A (ko) * 2000-08-23 2002-03-02 전홍건 엔트로피와 사용자 프로파일을 적용한 문서순위 조정방법
KR20080046670A (ko) * 2005-09-21 2008-05-27 마이크로소프트 코포레이션 문서 사용 통계치를 사용한 랭킹 함수

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"웹 정보검색 시스템의 문서 순위 결정", 안동언 외 1인, 정보관리연구 제34권 제2호, pp.55-66 (2003.06.30.) 1부.*

Also Published As

Publication number Publication date
US8838611B2 (en) 2014-09-16
JP5406313B2 (ja) 2014-02-05
KR20100093804A (ko) 2010-08-26
WO2010095807A3 (ko) 2010-10-14
JP2012518221A (ja) 2012-08-09
WO2010095807A2 (ko) 2010-08-26
US20110302176A1 (en) 2011-12-08

Similar Documents

Publication Publication Date Title
US11017047B2 (en) Establishing search results and deeplinks using trails
US20240152559A1 (en) Related notes and multi-layer search in personal and shared content
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
JP5423030B2 (ja) ワードセットに関係するワードの決定
KR100898456B1 (ko) 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템
US8954893B2 (en) Visually representing a hierarchy of category nodes
JP5391634B2 (ja) 文書の段落分析によるその文書のタグの選択
US7895195B2 (en) Method and apparatus for constructing a link structure between documents
US20090276414A1 (en) Ranking model adaptation for searching
KR101065091B1 (ko) 기여 점수에 기초한 문서 순위 결정 시스템 및 방법
KR20080046670A (ko) 문서 사용 통계치를 사용한 랭킹 함수
CN103020049A (zh) 搜索方法及搜索系统
US10042934B2 (en) Query generation system for an information retrieval system
US8204872B2 (en) Method and system for instantly expanding a keyterm and computer readable and writable recording medium for storing program for instantly expanding keyterm
KR20110024991A (ko) 사용자 피드백을 이용하여 컨텐츠에 대한 평가 점수를 산출하기 위한 방법 및 장치
US9720914B2 (en) Navigational aid for electronic books and documents
JP5133294B2 (ja) 時空間検索装置及び方法及びプログラム
JP5497105B2 (ja) 文書検索装置および方法
US20130232134A1 (en) Presenting Structured Book Search Results
US20160335354A1 (en) Predicting real-time change in organic search ranking of a website
KR100867081B1 (ko) 도서 검색에 이용되는 문서 스코어를 생성하는 방법 및상기 방법을 수행하는 시스템
KR101371318B1 (ko) 문서 순위 결정 시스템 및 방법
KR101290000B1 (ko) 논문 랭킹 방법 및 장치
KR100922693B1 (ko) 인물 검색 시스템 및 방법
US9390139B1 (en) Presentation of content items in view of commerciality

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150722

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160725

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170704

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 9