KR101077982B1 - 동적 임계값이 적용된 문서 브라우징 장치 및 방법 - Google Patents

동적 임계값이 적용된 문서 브라우징 장치 및 방법 Download PDF

Info

Publication number
KR101077982B1
KR101077982B1 KR1020100066745A KR20100066745A KR101077982B1 KR 101077982 B1 KR101077982 B1 KR 101077982B1 KR 1020100066745 A KR1020100066745 A KR 1020100066745A KR 20100066745 A KR20100066745 A KR 20100066745A KR 101077982 B1 KR101077982 B1 KR 101077982B1
Authority
KR
South Korea
Prior art keywords
document
documents
similarity
threshold
module
Prior art date
Application number
KR1020100066745A
Other languages
English (en)
Inventor
정한민
김평
이승우
이미경
서동민
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020100066745A priority Critical patent/KR101077982B1/ko
Priority to PCT/KR2010/006426 priority patent/WO2012008655A1/ko
Application granted granted Critical
Publication of KR101077982B1 publication Critical patent/KR101077982B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 동적 임계값이 적용된 문서 브라우징 장치 및 방법에 관한 것으로, 입력되거나 저장된 문서에 대하여 각 문서 사이의 유사도를 관리하는 문서 관리 모듈, 문서 관리 모듈을 검색하여 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 유사 문서 검색 모듈 및 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 브라우징 연결 구성 모듈을 포함한다.

Description

동적 임계값이 적용된 문서 브라우징 장치 및 방법{Apparatus and Method for Browsing Documents Using Dynamic Threshold}
본 발명은 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고 검색된 문서들 사이의 유사도를 브라우징 연결 구성으로 생성하는 동적 임계값이 적용된 문서 브라우징 장치 및 방법에 관한 것이다.
최근 무수히 쏟아지고 있는 문서 정보를 처리하여 사용자의 요구에 해당하는 정보만을 추출하여 사용자에게 제공하는 문서 검색 시스템이 널리 이용되고 있다.
문서 검색 또는 정보 검색은 대량의 정보에 대하여 사용자가 원하는 문서 또는 정보를 검색해 주는 것으로, 입력된 자연 언어 텍스트에 대하여 키워드를 처리하고, 각각의 키워드에 대해 가중치를 부여한 후 검색하게 된다.
일반적으로 인터넷에서 방대한 양의 정보 검색을 위해 다양한 검색 엔진을 제공하고 있으며 검색 엔진에 키워드가 입력되면 키워드에 해당하는 문서를 검색하여 사용자의 웹 브라우저 화면에 검색된 문서를 디스플레이시켜 준다.
그러나, 상기의 일반적인 검색 엔진은 미리 설정된 임계값 이상의 유사도를 가지는 문서를 검색할 수 있으나 임계값을 변경하여 검색되는 문서의 유사도 정도나 문서의 개수 등을 조절할 수 없는 문제가 있다.
본 발명은 임계값을 재설정할 수 있고 재설정된 임계값 이상의 유사도를 가지는 문서를 연속적으로 검색하여 브라우징 연결 구성을 생성하는 동적 임계값이 적용된 문서 브라우징 장치, 그 방법 및 이를 기록한 전자 장치에서 판독 가능한 기록매체에 관한 것이다.
본 발명의 한 측면에 따르면, 입력되거나 저장된 문서에 대하여 각 문서 사이의 유사도를 관리하는 문서 관리 모듈, 문서 관리 모듈을 검색하여 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 유사 문서 검색 모듈 및 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 브라우징 연결 구성 모듈을 포함하는 동적 임계값이 적용된 문서 브라우징 장치를 제공한다.
동적 임계값이 적용된 문서 브라우징 장치는, 입력되거나 저장된 문서에 대하여, 각 문서로부터 상위 N개의 주제어를 추출하여 각 문서의 대표 주제어로 할당하여 저장하는 주제어 저장 모듈 및 모든 문서 쌍에 대하여 상기 각 문서에 할당된 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하는 유사도 계산 모듈을 더 포함할 수 있다.
유사도 계산 모듈은, 모든 문서 쌍에 대하여 배치(Batch) 방식으로 모든 문서 쌍에 대해 문서 사이의 유사도를 계산할 수 있다.
유사도 계산 모듈은, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다.
동적 임계값이 적용된 문서 브라우징 장치는, 유사 문서 검색 모듈에서 검색된 문서 사이의 유사도와 브라우징 연결 구성 모듈에서 생성된 브라우징 연결 구성을 시각화하는 시각화 모듈을 더 포함할 수 있다.
동적 임계값이 적용된 문서 브라우징 장치는, 설정된 임계값을 변경하는 임계값 재설정 모듈을 더 포함할 수 있다.
임계값 재설정 모듈은, 임계값을 입력하는 사용자 인터페이스 및 사용자 인터페이스를 통해 새로운 임계값이 입력되면 이전에 설정된 임계값을 새로운 임계값으로 변경하여 설정하는 임계값 재설정부를 포함할 수 있다.
유사 문서 검색 모듈은, 임계값이 재설정되면 재설정된 임계값을 기준으로 유사 문서를 재검색하고 브라우징 연결 구성 모듈은, 재검색된 문서들을 대상으로 브라우징 연결 구성을 생성할 수 있다.
본 발명의 다른 측면에 따르면, 입력되거나 저장된 문서에 대하여 각 문서로부터 상위 N개의 주제어를 추출하여 상기 각 문서의 대표 주제어로 할당하여 저장하는 단계, 모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장하는 단계, 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계 및 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계를 포함하는 동적 임계값이 적용된 문서 브라우징 방법을 제공한다.
모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장하는 단계는, 입력되거나 저장된 다수의 문서에 대하여 배치(Batch) 방식으로 모든 문서 쌍에 대해 문서 사이의 유사도를 계산할 수 있다.
모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장하는 단계는, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 상기 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다.
동적 임계값이 적용된 문서 브라우징 방법은, 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계와 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계 사이에, 검색된 문서들을 디스플레이하는 단계를 더 포함할 수 있다.
동적 임계값이 적용된 문서 브라우징 방법는, 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계 이후에, 검색된 문서들 사이의 유사도와 문서 사이의 브라우징 연결 구성을 시각화하여 나타내는 단계를 더 포함할 수 있다.
동적 임계값이 적용된 브라우징 방법은, 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계 이후에, 이전에 설정된 임계값을 새로운 임계값으로 변경하여 설정하는 임계값 재설정 단계를 더 포함할 수 있다.
임계값이 재설정되면, 기준 문서에 대하여 재설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계 및 검색된 문서들 중 어느 하나를 선택하고 선택된 문서로부터 재설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계를 반복할 수 있다.
본 발명의 또 다른 측면에 따르면, 동적 임계값이 적용된 문서 브라우징 방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록매체를 제공한다.
본 발명에 따르면, 기준 문서와 유사도가 다른 다양한 문서를 검색할 수 있고, 사용자 선택에 따라 재설정된 임계값 이상의 유사도를 가지는 문서를 검색할 수 있는 효과가 있다.
또한, 검색된 전체 문서들을 대상으로 기준 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서를 연속적으로 검색하여 브라우징 연결 구성을 생성함으로써 검색된 문서들 사이의 유사도에 대한 정보를 획득할 수 있는 효과가 있다.
도 1은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 일 실시예를 나타내는 구성도.
도 2는 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값 재설정 모듈의 일 실시예를 나타내는 구성도.
도 3은 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제1 실시예를 나타내는 흐름도.
도 4는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제2 실시예를 나타내는 흐름도.
도 5는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제3 실시예를 나타내는 흐름도.
도 6은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 문서 유사도 계산 결과를 설명하기 위한 도면.
도 7은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값에 따른 유사 문서 검색 결과를 설명하기 위한 도면.
도 8는 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 문서 사이의 브라우징 연결 구성을 설명하기 위한 도면.
도 9은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값 변경을 설명하기 위한 도면.
도 10은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 증분 방식을 사용하여 문서 유사도 비교를 설명하기 위한 도면.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
이제 본 발명의 실시예에 따른 동적 임계값이 적용된 문서 브라우징 장치 및 방법, 이를 기록한 전자장치에 의해 판독 가능한 기록매체에 대하여 도면을 참조하여 상세하게 설명하고, 도면 부호에 관계없이 동일하거나 대응하는 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 일 실시예를 나타내는 구성도를 개략적으로 도시한 도면이고, 도 2는 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값 재설정 모듈의 일 실시예를 나타내는 구성도를 개략적으로 도시한 도면이다.
본 발명의 실시예에 따르면, 도 1에 도시한 바와 같이, 동적 임계값이 적용된 문서 브라우징 장치(100)는 문서 관리 모듈(110), 유사 문서 검색 모듈(120) 및 브라우징 연결 구성 모듈(130)을 포함한다.
또한, 동적 임계값이 적용된 문서 브라우징 장치(100)는 주제어 저장 모듈(140), 유사도 계산 모듈(150), 임계값 재설정 모듈(160) 및 시각화 모듈(170) 중 어느 하나 이상을 더 포함하여 구성될 수 있다.
주제어 저장 모듈(140)은 문서가 새로 입력되거나 미리 저장된 문서에 대하여 각 문서에 포함되는 상위 N개의 주제어를 추출하여 각 문서의 대표 주제어로 할당하여 저장하고, 유사도 계산 모듈(150)은 모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산할 수 있다.
주제어 저장 모듈(140)은 주제어로 가치 있는 용어들을 저장한 주제어 사전과 주제어로 가치없는 용어들을 저장한 불용 주제어 사전을 저장하고 각 문서에서 추출되는 용어를 주제어 사전 및 불용 주제어 사전에서 검색하여 주제어로 선정할 수 있다.
여기서, 주제어는 특정 문서의 연구 내용, 주장을 대표할 수 있는 문서 내에 존재하는 용어를 의미한다.
구체적으로, 입력 문서로부터 색인자(Indexer)를 이용하여 색인어들을 추출하고 이를 주제어 사전, 불용 주제어 사전과 매칭하여 주제어 후보들을 선정한 후, 주제어 후보들을 용어 빈도(term frequency), 문서 빈도(document frequency) 등의 기준을 적용하여 순위화(ranking)하고 N개의 상위 주제어 후보들을 대표 주제어로 선정할 수 있다.
상기의 상위 N개의 주제어를 추출하는 방법은 일 실시예에 불구하며 다양한 방법으로 각각의 문서로부터 상위 N개의 주제어를 추출할 수 있다.
유사도 계산 모듈(150)은 모든 문서 쌍에 대하여 각 문서의 대표 주제어를 서로 비교하여 유사도를 계산할 수 있다.
도 6은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 문서 유사도 계산 결과를 설명하기 위한 도면이다.
예를 들어, 도 6에 도시한 바와 같이, 유사도 계산 모듈(150)운 각 문서의 상위 5개의 주제어를 각 문서의 대표 주제어로 할당하고, 각 문서의 대표 주제어를 서로 비교하여 대표 주제어 중 일치되는 대표 주제어 개수를 %로 계산할 수 있다.
'문서1'의 대표 주제어는 '주제어1', '주제어2', '주제어3', '주제어4' 및 '주제어5'이고, '문서2'의 대표 주제어는 '주제어2', '주제어4', '주제어5', '주제어6' 및 '주제어9'이다.
'문서1'과 '문서2'는 전체 5개의 대표 주제어 중 3개의 대표 주제어가 일치하므로 60%의 유사도를 가진다.
상기의 유사도 계산 방법은 일 실시예를 든 것으로 다양한 방법으로 계산될 수 있다.
유사도 계산 모듈(150)은 모든 문서 쌍에 대하여 배치(Batch) 방식으로 문서 사이의 유사도를 계산할 수 있다.
배치(Batch) 방식은 데이터 처리 대상이 되는 데이터를 어느 일정한 관리 단위로 종합한 것으로, 배치 방식으로 각 문서 사이의 유사도를 계산하는 방법은 n개의 문서가 입력되면 첫 번째 문서는 (n-1)개의 문서와 유사도를 비교하고, 두 번째 문서는 (n-2)개의 문서와 유사도를 비교하는 방법이다.
배치 방식으로 저장된 n개 문서의 유사도를 비교하는 경우, 유사도 비교 횟수는
Figure 112010044667035-pat00001
이다.
유사도 계산 모듈(150)은 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다.
도 10은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 증분 방식을 사용하여 문서 유사도 비교를 설명하기 위한 도면이다.
증분(Incremental) 방식은 데이터를 한꺼번에 처리하지 않고 하나의 문서씩 순차적으로 처리하는 방법으로, 도 10에 도시한 바와 같이, 증분 방식으로 각 문서 사이의 유사도를 계산하는 방법은 새로운 문서가 추가되면 추가된 문서에 대하여 상위 N개의 주제어를 대표 주제어로 할당한 후 미리 저장된 문서들과 유사도를 계산하고, 문서가 삭제되는 경우 유사도 관계를 끊는 방법이다.
증분 방식을 사용하여 유사도를 비교할 경우 새로 입력된 문서와 미리 저장된 n개의 문서를 비교하여 모든 문서 사이의 유사도를 산출할 수 있으므로 배치 방식을 사용하여 유사도를 비교할 경우보다 서비스 응답 시간을 감소시킬 수 있다.
문서 관리 모듈(110)은 입력되거나 저장된 문서에 대하여 유사도 계산 모듈(150)에서 계산된 각 문서 사이의 유사도를 관리할 수 있다.
구체적으로, 문서 관리 모듈(110)은 2차원 행렬 또는 이와 대등한 효과를 가진 데이터 구조에 문서 사이의 유사도를 저장하고 관리할 수 있고, 증분 방식으로 유사도가 갱신되는 경우 즉시 일괄 변경할 수 있다.
유사 문서 검색 모듈(120)은 문서 관리 모듈(110)을 검색하여 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색할 수 있다.
도 7은 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값에 따른 유사 문서 검색 결과를 설명하기 위한 도면이다.
예를 들어, 도 7에 도시한 바와 같이, 기준 문서를 '문서1'로 임계값을 60%로 설정하면, 기준 문서인 '문서1'에 대하여 유사도가 60% 이상을 가지는 문서들이 검색된다.
즉, '문서1'과 60%의 유사도를 가지는 '문서2', '문서3', '문서1'과 80%의 유사도를 가지는 '문서4'가 검색된다.
브라우징 연결 구성 모듈(130)은 검색된 문서들 중 어느 하나를 선택하고, 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성할 수 있다.
즉, 브라우징 연결 구성 모듈(130)은 검색된 문서들 중 사용자가 임의로 선택한 문서를 기준으로 설정된 임계값 이상의 유사도를 가지는 문서들을 검색하고, 검색된 각각의 문서들을 기준으로 설정된 임계값 이상의 유사도를 가지는 문서들을 다시 검색하는 순서로 연속적으로 임계값 이상의 유사도를 가지는 문서들을 검색하여 브라우징 연결 구성을 생성할 수 있다.
도 8는 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 문서 사이의 브라우징 연결 구성을 설명하기 위한 도면이다.
예를 들어, 도 8에 도시한 바와 같이, 브라우징 연결 구성 모듈(130)은 기준 문서 '문서1'과 60% 이상의 유사도를 가지는 '문서2', '문서3', '문서4' 중 사용자가 임의로 선택한 문서(예를 들어, 문서1)로부터 유사도가 60% 이상인 문서들을 연속적으로 검색할 수 있다.
브라우징 연결 구성 모듈(130)은 '문서1'에 대하여 유사도가 60% 이상인 '문서2', '문서3', '문서4'가 검색하여 브라우징 연결 구성(화살표)을 생성하고, 다시 검색된 '문서2', '문서3', '문서4'를 기준으로 유사도가 60% 이상인 문서들을 검색하여 브라우징 연결 구성을 생성한다.
즉, '문서2'를 기준으로 유사도가 60% 이상인 '문서1'을 검색하여 브라우징 연결 구성을 생성하고, '문서3'을 기준으로 유사도가 60% 이상인 '문서1', '문서4'를 검색하여 브라우징 연결 구성을 생성하고, '문서4'를 기준으로 유사도가 60% 이상인 '문서1', '문서3'을 검색하여 브라우징 연결 구성을 생성할 수 있다.
따라서, 기준 문서와 유사도가 60% 이상인 문서들 중 사용자가 임의로 선택한 문서를 기준으로 유사도에 따른 브라우징 연결 구성을 새롭게 생성할 수 있다.
시각화 모듈(170)은 유사 문서 검색 모듈(120)에서 검색된 문서 사이의 유사도와 브라우징 연결 구성 모듈(130)에서 생성된 브라우징 연결 구성을 시각화하여 나타낼 수 있다.
임계값 재설정 모듈(160)은, 도 2에 도시한 바와 같이, 사용자 인터페이스(162) 및 임계값 재설정부(164)를 포함하여 구성되며, 설정된 임계값을 변경할 수 있다.
도 9는 본 발명의 일 측면에 따른 동적 임계값이 적용된 문서 브라우징 장치의 임계값 변경을 설명하기 위한 도면이다.
예를 들어, 도 9에 도시한 바와 같이, 임계값 재설정 모듈(160)의 사용자 인터페이스(162)는 다수의 임계값을 지정하는 선택 박스(box) 형태로 형성될 수 있다.
사용자가 사용자 인터페이스(162)를 통해 새로운 임계값을 입력하면, 임계값 재설정부(164)는 이전에 설정된 임계값을 새로운 임계값으로 변경하여 설정할 수 있다.
따라서, 문서 검색 중 임계값을 변경하여 유사도가 다른 문서들을 검색할 수 있다.
임계값이 재설정되면, 유사 문서 검색 모듈(120)은 재설정된 임계값을 기준으로 유사 문서를 재검색하고, 브라우징 연결 구성 모듈(130)은 재검색된 문서들을 대상으로 브라우징 연결 구성을 생성할 수 있다.
도 3은 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제1 실시예를 나타내는 흐름도를 도시한 도면이다.
본 발명의 제1 실시예에 따르면, 동적 임계값이 적용된 문서 브라우징 방법은 주제어 추출 및 저장하고(S310), 문서 유사도 계산 및 저장하고(S320), 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고(S330), 브라우징 연결 구성을 생성할 수 있다(S340).
먼저, 입력되거나 저장된 문서에 대하여 각 문서에 포함되는 상위 N개의 주제어를 추출하여 저장할 수 있다.
각각의 문서로부터 상위 N개의 주제어 추출은 상술한 바와 같이, 다양한 방법으로 수행할 수 있고, 각 문서로부터 추출된 상위 N개의 주제어는 각 문서의 대표 주제어로 할당되어 저장될 수 있다.
저장된 모든 문서 쌍에 대하여, 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장할 수 있다.
각각의 문서 사이의 유사도 계산은 입력되거나 저장된 다수의 문서 전체 또는 미리 설정된 양의 문서 전체에 대하여 배치(Batch) 방식으로 각 문서 사이의 유사도를 계산할 수 있고, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 새로 추가된 문서와 입력되거나 저장된 문서 사이의 유사도를 계산할 수 있다.
다음으로, 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고, 검색된 문서들 중 어느 하나를 선택하여 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성할 수 있다.
도 4는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제2 실시예를 나타내는 흐름도를 도시한 도면이다.
제2 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법은, 도 4에 도시한 바와 같이, 주제어 추출 및 저장하고(S410), 문서 유사도 계산 및 저장하고(S420), 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고(S430), 검색된 문서를 디스플레이하고(S440), 검색된 문서 사이에 브라우징 연결 구성을 생성하고(S440), 검색된 문서 사이의 유사도, 문서 사이의 브라우징 연결 구성을 시각화하여 나타낼 수 있다(S460).
제1 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법과 비교할 때, 제2 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법은 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 과정(S430)와 검색된 문서들 중 선택된 문서로부터 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 과정(S450) 사이에, 검색된 문서 사이의 유사도를 시각화하여 나타내는 과정(S440)을 더 포함하는 점에 구성상 차이가 있다.
또한, 제1 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법과 비교할 때, 제2 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법은 검색된 문서 사이의 브라우징 연결 구성을 생성하는 과정(S450) 이후, 검색된 문서 사이의 유사도, 문서 사이의 브라우징 연결 구성을 시각화하여 나타낼 수 있는 과정(S460)을 더 포함하는 점에 구성상 차이가 있다.
도 5는 본 발명의 다른 측면에 따른 동적 임계값이 적용된 문서 브라우징 방법의 제3 실시예를 나타내는 흐름도를 도시한 도면이다.
제3 실시예에 따른 동적 임계값이 적용된 문서 브라우징 방법은, 도 5에 도시한 바와 같이, 주제어 추출 및 저장하고(S510), 문서 유사도 계산 및 저장하고(S520), 설정된 임계값 이상의 유사도를 가지는 문서를 검색하고(S530), 검색된 문서 사이에 브라우징 연결 구성을 생성하고(S540), 임계값을 재설정하고(S560), 설정된 또는 재설정된 임계값에 따라 검색된 문서 사이의 유사도, 문서 사이의 브라우징 연결 구성을 시각화하여 나타낼 수 있다(S550).
임계값이 재설정되면(S560), 기준 문서에 대하여 재설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 과정(S530) 및 검색된 문서들 중 선택된 문서로부터 재설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 과정(S540)을 반복할 수 있다.
본 발명의 또 다른 측면에 따르면, 동적 임계값이 적용된 문서 브라우징 방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록매체에 기록될 수 있다.
동적 임계값이 적용된 문서 브라우징 방법은 컴퓨터 프로그램으로 작성 가능하며, 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다.
또한, 동적 임계값이 적용된 문서 브라우징 방법은 컴퓨터가 읽을 수 있는 정보저장매체(Computer Readable Medium)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 임계값이 변경된 경우 기준 문서와 변경된 임계값 이상의 유사도를 가지는 문서를 검색하여 브라우징 연결 구성을 생성할 수 있다.
본 발명은 임계값을 동적으로 변경하고 이에 따라 유사한 문서를 검색하여 검색된 문서 사이에 브라우징 연결 구성을 생성할 수 있는 동적 임계값이 적용된 문서 브라우징 장치 및 이를 이용하여 데이터를 검색하는 장치 등에 적용할 수 있다.
100: 동적 임계값이 적용된 문서 브라우징 장치
110: 문서 관리 모듈
120: 유사 문서 검색 모듈
130: 브라우징 연결 구성 모듈
140: 주제어 저장 모듈
150: 유사도 계산 모듈
160: 임계값 재설정 모듈
162: 사용자 인터페이스
164: 임계값 재설정부
170: 시각화 모듈

Claims (16)

  1. 입력되거나 저장된 문서에 대하여 각 문서 사이의 유사도를 관리하는 문서 관리 모듈;
    상기 문서 관리 모듈을 검색하여 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 유사 문서 검색 모듈;
    상기 검색된 문서들 중 어느 하나를 선택하고 상기 선택된 문서로부터 상기 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 브라우징 연결 구성 모듈; 및
    상기 설정된 임계값을 변경하는 임계값 재설정 모듈을 포함하며,
    상기 임계값 재설정 모듈은, 임계값을 입력하는 사용자 인터페이스; 및
    상기 사용자 인터페이스를 통해 새로운 임계값이 입력되면, 이전에 설정된 임계값을 상기 새로운 임계값으로 변경하여 설정하는 임계값 재설정부;를 포함하며,
    상기 임계값이 재설정되면, 상기 유사 문서 검색 모듈은 상기 재설정된 임계값을 기준으로 유사 문서를 재검색하고, 상기 브라우징 연결 구성 모듈은 상기 재검색된 문서들을 대상으로 브라우징 연결 구성을 생성하는 것을 특징으로 하는 동적 임계값이 적용된 문서 브라우징 장치로서,
    상기 입력되거나 저장된 문서에 대하여, 각 문서로부터 상위 N개의 주제어를 추출하여 각 문서의 대표 주제어로 할당하여 저장하는 주제어 저장 모듈;
    모든 문서 쌍에 대하여 상기 각 문서에 할당된 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하는 유사도 계산 모듈; 및
    상기 유사 문서 검색 모듈에서 검색된 문서 사이의 유사도와, 상기 브라우징 연결 구성 모듈에서 생성된 브라우징 연결 구성을 시각화하는 시각화 모듈을 더 포함하며,
    상기 유사도 계산 모듈은, 상기 모든 문서 쌍에 대하여 배치(Batch) 방식으로 상기 모든 문서 쌍에 대해 문서 사이의 유사도를 계산하며, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 상기 새로 추가된 문서와 상기 입력되거나 저장된 문서 사이의 유사도를 계산하는 것을 특징으로 하는 동적 임계값이 적용된 문서 브라우징 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 주제어 저장모듈에서, 입력되거나 저장된 문서에 대하여 각 문서로부터 상위 N개의 주제어를 추출하여 상기 각 문서의 대표 주제어로 할당하여 저장하는 단계;
    유사도 계산모듈에서, 모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장하는 단계;
    유사문서 검색모듈에서, 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계;
    브라우징 연결 구성 모듈에서, 상기 검색된 문서들 중 어느 하나를 선택하고 상기 선택된 문서로부터 상기 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계; 및
    임계값 재설정 모듈에서 이전에 설정된 임계값을 새로운 임계값으로 변경하여 설정하는 임계값 재설정 단계를 포함하며,
    상기 임계값이 재설정되면, 상기 유사문서검색모듈에서 기준 문서에 대하여 재설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계; 및
    상기 브라우징 연결 구성 모듈에서 상기 검색된 문서들 중 어느 하나를 선택하고 상기 선택된 문서로부터 상기 재설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계;를 반복하는 것을 특징으로 하는 동적 임계값이 적용된 문서 브라우징 방법으로서,
    상기 유사도 계산모듈에서, 모든 문서 쌍에 대하여 대표 주제어를 서로 비교하여 문서 사이의 유사도를 계산하여 저장하는 단계는, 상기 입력되거나 저장된 다수의 문서에 대하여 배치(Batch) 방식으로 상기 모든 문서 쌍에 대해 문서 사이의 유사도를 계산하며, 새로운 문서가 추가되는 경우 증분(Incremental) 방식으로 상기 새로 추가된 문서와 상기 입력되거나 저장된 문서 사이의 유사도를 계산하는 것을 특징으로 하며,
    유사문서 검색모듈에서, 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색하는 단계와 브라우징 연결 구성 모듈에서,상기 검색된 문서들 중 어느 하나를 선택하고 상기 선택된 문서로부터 상기 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계 사이에,
    상기 유사문서 검색모듈에서, 기준 문서에 대하여 설정된 임계값 이상의 유사도를 가지는 문서를 검색한 이후 검색된 문서들을 디스플레이하는 단계를 더 포함하며,
    상기 브라우징 연결 구성 모듈에서 상기 검색된 문서들 중 어느 하나를 선택하고 상기 선택된 문서로부터 상기 설정된 임계값 이상의 유사도를 가지는 문서들을 연속적으로 검색하여 브라우징 연결 구성을 생성하는 단계 이후에,
    시각화 모듈에서 상기 검색된 문서들 사이의 유사도와, 문서 사이의 브라우징 연결 구성을 시각화하여 나타내는 단계를 더 포함하는 동적 임계값이 적용된 브라우징 방법.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 제9항에 있어서,
    상기 동적 임계값이 적용된 문서 브라우징 방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.
KR1020100066745A 2010-07-12 2010-07-12 동적 임계값이 적용된 문서 브라우징 장치 및 방법 KR101077982B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100066745A KR101077982B1 (ko) 2010-07-12 2010-07-12 동적 임계값이 적용된 문서 브라우징 장치 및 방법
PCT/KR2010/006426 WO2012008655A1 (ko) 2010-07-12 2010-09-17 동적 임계값이 적용된 문서 브라우징 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100066745A KR101077982B1 (ko) 2010-07-12 2010-07-12 동적 임계값이 적용된 문서 브라우징 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101077982B1 true KR101077982B1 (ko) 2011-10-31

Family

ID=45033575

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100066745A KR101077982B1 (ko) 2010-07-12 2010-07-12 동적 임계값이 적용된 문서 브라우징 장치 및 방법

Country Status (2)

Country Link
KR (1) KR101077982B1 (ko)
WO (1) WO2012008655A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101931714B1 (ko) * 2016-12-20 2018-12-26 주식회사 와이즈넛 유사문서 추천장치를 이용하여 문서로부터 개체명을 추출하는 개체명 인식시스템 및 인식방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090103A (ja) * 1998-09-10 2000-03-31 Fuji Xerox Co Ltd 情報検索装置及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2996173B2 (ja) * 1996-05-10 1999-12-27 日本電気株式会社 電子メール自動分類方式
JP2002334045A (ja) * 2001-05-11 2002-11-22 Hitachi Ltd 電子メール分類方法及びその実施装置並びにその処理プログラム
KR100737853B1 (ko) * 2005-03-11 2007-07-12 인하대학교 산학협력단 이메일 분류 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090103A (ja) * 1998-09-10 2000-03-31 Fuji Xerox Co Ltd 情報検索装置及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101931714B1 (ko) * 2016-12-20 2018-12-26 주식회사 와이즈넛 유사문서 추천장치를 이용하여 문서로부터 개체명을 추출하는 개체명 인식시스템 및 인식방법

Also Published As

Publication number Publication date
WO2012008655A1 (ko) 2012-01-19

Similar Documents

Publication Publication Date Title
JP4247284B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
US10366154B2 (en) Information processing device, information processing method, and computer program product
KR101538998B1 (ko) 지식 구조를 기반으로 한 검색 서비스 제공 방법 및 장치
CN106383836B (zh) 将可操作属性归于描述个人身份的数据
US20180150466A1 (en) System and method for ranking search results
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
US20070050709A1 (en) Character input aiding method and information processing apparatus
JP6947155B2 (ja) 情報検索システム
CN103430172A (zh) 检索装置、检索方法及程序
JP2020135891A (ja) 検索提案を提供する方法、装置、機器及び媒体
US20210224323A1 (en) Learning system, learning method, and program
KR101035037B1 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
KR20230057114A (ko) 기술 문서 데이터 베이스를 통한 키워드 도출 방법 및 장치
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
JP5579140B2 (ja) 文書検索装置及び方法及びプログラム
JP2008083769A (ja) 文書検索装置および文書検索方法
KR101077982B1 (ko) 동적 임계값이 적용된 문서 브라우징 장치 및 방법
JP2012043258A (ja) 検索システム、検索装置、検索プログラム、記録媒体及び検索方法
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
CN109213830A (zh) 专业性技术文档的文档检索系统
JP5326945B2 (ja) 文字入力支援装置、プログラム及び文字入力支援方法
JP5589009B2 (ja) 推薦クエリ抽出装置及び方法及びプログラム
JP5505207B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JP2006039811A (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151026

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee