KR20060016933A - 문서분류장치 및 문서분류방법 - Google Patents

문서분류장치 및 문서분류방법 Download PDF

Info

Publication number
KR20060016933A
KR20060016933A KR1020040065406A KR20040065406A KR20060016933A KR 20060016933 A KR20060016933 A KR 20060016933A KR 1020040065406 A KR1020040065406 A KR 1020040065406A KR 20040065406 A KR20040065406 A KR 20040065406A KR 20060016933 A KR20060016933 A KR 20060016933A
Authority
KR
South Korea
Prior art keywords
document data
document
classification
category
input
Prior art date
Application number
KR1020040065406A
Other languages
English (en)
Inventor
함정우
Original Assignee
함정우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 함정우 filed Critical 함정우
Priority to KR1020040065406A priority Critical patent/KR20060016933A/ko
Publication of KR20060016933A publication Critical patent/KR20060016933A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서분류장치 및 문서분류방법가 개시된다. 본 발명에 따른 문서분류장치는, 문서데이터가 입력되는 입력부와, 입력된 문서데이터를 소정 카테고리로 분류하기 위한 다수의 카테고리별 기준단어 및 카테고리별 문서분류코드가 학습된 인공지능 분류 모듈과, 입력된 문서데이터를 분석하여 문서데이터의 카테고리를 판단하고, 판단된 카테고리에 대응하는 문서분류코드를 문서데이터에 부여하도록 인공지능 분류 모듈을 제어하는 분류 엔진을 포함한다. 이로써, 인건비를 절약할 수 있으며, 보다 정확하게 문서데이터를 분류할 수 있다.
문서데이터, 카테고리, 문서분류코드, 인공지능 분류 모듈

Description

문서분류장치 및 문서분류방법{Apparatus and method for classification document}
도 1은 본 발명의 바람직한 제1실시예에 따른 문서분류장치를 개략적으로 도시한 블럭도,
도 2는 도 1에 의한 문서분류방법을 개략적으로 설명하기 위한 흐름도,
도 3은 본 발명의 바람직한 제2실시예에 따른 문서분류장치를 개략적으로 도시한 블럭도, 그리고,
도 4는 도 3에 의한 인공지능을 이용한 문서분류방법을 개략적으로 설명하기 위한 흐름도이다.
* 도면의 주요 부분에 대한 설명 *
100, 300 : 문서분류장치 110, 310 : 입력부
120, 322 : 기준단어 DB 320 : 인공지능 분류 모듈
130, 330 : 사용자 요청부 140, 340 : 표시부
170, 370 : 분류 엔진
본 발명은 문서분류장치 및 문서분류방법에 관한 것으로서, 보다 상세하게는, 다수의 기준단어를 이용하여 분류대상문서를 소정 카테고리로 분류하는 문서분류장치 및 문서분류방법에 관한 것이다.
정보의 공유화 시대가 도래됨에 따라 최근에는 눈문, 기술보고서, 특허 문헌 등과 같은 문서데이터의 양이 지속적으로 증가하고 있다. 이로 인해, 사람들은 공개된 많은 문서데이터 중 원하는 문서데이터를 획득할 수는 있으나, 문서데이터의 양이 많음에 따라 원하는 문서데이터를 획득하기까지 많은 시간을 문서검색에 소요하게 된다.
이러한 문제점을 해결하기 위하여, 최근에는 지정된 분류기준에 근거하여 각 문서데이터를 분류한 후 데이터베이스화하고 있으며, 사용자는 데이터베이스화된 문서데이터를 이용하여 원하는 문서데이터를 검색한다.
한편, 상술한 바와 같은 문서데이터의 검색을 위하여, 종래에는 방대한 양의 문서데이터를 수동으로 직접 분류하는 방법을 사용하고 있다. 즉, 종래에는 사람이 직접 문서데이터를 읽어본 후, 지정된 분류기준을 근거로 문서데이터를 분류하며, 이로써 문서데이터의 분류에 많은 인건비와 시간이 허비되는 문제점이 있다. 또한, 사람의 판단하에 수동으로 문서데이터를 분류함으로써 문서데이터가 분류되는 기준이 일관적이지 못하며 이로써 정확하게 분류되지 못하는 문제점이 발생한다. 이에 따라, 문서데이터를 검색하는 사용자는 원하는 문서데이터가 검색될 때까지 수회에 걸쳐 검색하는 과정을 반복수행하는 경우가 발생한다.
본 발명이 이루고자 하는 기술적 과제는, 자동화 시스템에 의하여 분류대상문서를 보다 신속 정확하게 분류할 수 있는 문서분류장치 및 문서분류방법을 제공하는 데 그 목적이 있다.
상기와 같은 기술적 과제를 해결하기 위한, 본 발명에 따른 문서분류장치는, 문서데이터가 입력되는 입력부; 상기 입력된 문서데이터를 소정 카테고리로 분류하기 위한 다수의 기준단어가 다수의 카테고리별로 저장되는 기준단어 DB; 및 상기 저장된 기준단어를 기초로 상기 입력된 문서데이터를 분류하여 상기 문서데이터의 카테고리를 판단한 후, 상기 판단된 카테고리에 대응하는 문서분류코드를 상기 문서데이터에 부여하는 분류 엔진;을 포함한다.
상기 분류 엔진은, 상기 저장된 다수의 기준단어와 상기 입력된 문서데이터를 상기 다수의 카테고리별로 비교하여, 매칭되는 기준단어의 수가 가장 많은 카테고리를 상기 입력된 문서데이터의 카테고리로 판단할 수 있다.
상기 분류 엔진은, 상기 저장된 다수의 기준단어와 상기 입력된 문서데이터를 상기 다수의 카테고리별로 비교하여, 상기 저장된 다수의 기준단어와 상기 입력된 문서데이터 간의 단어패턴의 유사 여부로 상기 입력된 문서데이터의 카테고리로 판단할 수 있다.
상기 카테고리는 복수의 서브카테고리의 결합에 의해 생성되며, 상기 기준단어 DB에는 상기 각 서브카테고리마다 상기 다수의 기준단어가 저장되는 것이 바람직하다.
또한 상기와 같은 기술적 과제를 해결하기 위한, 본 발명에 따른 문서분류장치는, 문서데이터가 입력되는 입력부; 상기 입력된 문서데이터를 소정 카테고리로 분류하기 위한 다수의 카테고리별 기준단어 및 상기 카테고리별 문서분류코드가 학습된 인공지능 분류 모듈; 및 상기 입력된 문서데이터를 분석하여 상기 문서데이터의 카테고리를 판단하고, 상기 판단된 카테고리에 대응하는 문서분류코드를 상기 문서데이터에 부여하도록 상기 인공지능 분류 모듈을 제어하는 분류 엔진;을 포함한다.
상기와 같은 기술적 과제를 해결하기 위한, 본 발명에 따른 문서분류방법은, 문서데이터가 입력되는 단계; 상기 입력된 문서데이터를 소정 카테고리로 분류하기 위하여 다수의 카테고리별로 저장된 기준단어를 기초로 상기 입력된 문서데이터를 분류하여 상기 문서데이터의 카테고리를 판단하는 단계; 및 상기 판단된 카테고리에 대응하는 문서분류코드를 상기 문서데이터에 부여하는 단계;를 포함한다.
상기 판단하는 단계는, 상기 저장된 다수의 기준단어와 상기 입력된 문서데이터를 상기 다수의 카테고리별로 비교하여, 매칭되는 기준단어의 수가 가장 많은 카테고리를 상기 입력된 문서데이터의 카테고리로 판단할 수 있다.
상기 판단하는 단계는, 상기 저장된 다수의 기준단어와 상기 입력된 문서데이터를 상기 다수의 카테고리별로 비교하여, 상기 저장된 다수의 기준단어와 상기 입력된 문서데이터 간의 단어패턴의 유사 여부로 상기 입력된 문서데이터의 카테고리로 판단할 수 있다.
상기 카테고리는 복수의 서브카테고리의 결합에 의해 생성되고, 상기 문서분 류코드는 상기 각 서브카테고리마다 부여되는 서브코드의 결합에 의해 생성되며, 상기 각 서브카테고리마다 상기 다수의 기준단어가 저장되는 것이 바람직하다.
또한 상기와 같은 기술적 과제를 해결하기 위한, 본 발명에 따른 문서분류장치는,다수의 카테고리별로 분류된 다수의 기준단어 및 상기 카테고리별 문서분류코드를 인공지능 분류 모듈가 학습하는 단계; 문서데이터가 입력되는 단계; 및 상기 인공지능 분류 모듈을 이용하여 상기 입력된 문서데이터에 대한 상기 문서데이터의 카테고리를 판단하고, 상기 판단된 카테고리에 대응하는 문서분류코드를 상기 문서데이터에 부여하는 단계;를 포함한다.
상기 기준단어는 사전, 전공문서, 논문 및 기분류된 문서데이터 중 적어도 하나로부터 추출되는 것이 바람직하다.
상기 문서데이터는 특허 명세서이고, 상기 문서분류코드는 IPC 분류코드, US Class 분류코드, FI 분류코드 및 F-Term 분류코드 중 어느 하나인 것이 바람직하다.
이하에서는 첨부된 도면들을 참조하여 본 발명을 보다 상세히 설명한다. 다만, 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다.
도 1은 본 발명의 바람직한 제1실시예에 따른 문서분류장치를 개략적으로 도시한 블럭도이다.
도 1을 참조하면, 본 발명의 바람직한 제1실시예에 따른 문서분류장치(100) 는 입력부(110), 기준단어 DB(DataBase)(120), 사용자 요청부(130), 표시부(140), 비휘발성 메모리(150), 버퍼(160) 및 분류 엔진(170)을 포함한다.
입력부(110)는 기분류된 다수의 카테고리 중 소정 카테고리로 분류하기 위한 문서데이터가 입력되는 인터페이스이다. 입력부(110)의 예로는 이동식 저장매체가 장착되는 범용직렬버스와 같은 인터페이스, 인터넷망을 통해 문서데이터를 전송받는 통신 인터페이스, 또는 문서데이터가 저장된 플로피 디스크와 같은 저장매체 등을 적용할 수 있다.
예를 들어, 입력부(110)로서 USB 모듈이 적용된 경우, USB 모듈에 문서데이터가 저장된 이동식 저장매체가 장착되면 USB 모듈은 이동식 저장매체에 저장된 문서데이터를 로딩하여 버퍼(160)와 같은 메모리로 제공한다.
기준단어 DB(120)에는 입력부(110)를 통해 입력된 문서데이터를 소정 카테고리로 분류하기 위한 다수의 기준단어가 다수의 카테고리별로 저장된다. 각 카테고리는 복수의 서브카테고리의 결합에 의해 생성된다. 따라서, 기준단어 DB(120)에는 각 카테고리를 이루는 복수의 서브카테고리마다 다수의 기준단어가 저장된다.
복수의 서브카테고리는 문서데이터를 분류하는 레벨에 따라 대분류, 중분류 및 하분류와 같이 세분화되며, 세분화되는 분류의 개수가 많을수록 문서데이터는 보다 세밀한 카테고리로 분류된다. 여기서, 각 서브카테고리별로 저장되는 다수의 기준단어는 사전, 전공문서, 논문, 특허문헌, 기분류된 문서데이터와 같은 다양한 문서데이터로부터 추출된다. 다만 각 서브카테고리별로 저장되는 다수의 기준단어는 기분류된 문서데이터로부터 추출된 단어를 적용하는 것이 바람직할 것이다.
예를 들어, 문서데이터가 특허문헌인 경우, 본 발명의 실시예에 따른 문서분류장치(100)는 특허문헌을 국제특허분류(IPC) 기준에 근거하여 분류한다. 이 경우 기준단어 DB(120)로는 IPC 분류기준 데이터베이스가 적용될 것이다.
이러한 경우, 대분류에 대응되는 제1서브카테고리는 [표 1]과 같이 분류된다.
IPC 분류 내 용(제1서브카테고리)
A 섹션 생활필수품
B 섹션 처리조작
C 섹션 화학, 야금
D 섹션 섬유, 지류
E 섹션 고정구조물
F 섹션 기계공학, 조명, 가열, 무기, 폭발
G 섹션 물리학
H 섹션 전기
[표 1]을 참조하면, 문서데이터가 특허문헌인 경우, 제1서브카테고리는 대분류인 A 섹션 ~ H 섹션으로 구분된다.
또한, 제1서브카테고리로 적용된 A 섹션 ~ H 섹션 각각은 중분류에 대응되는 복수의 제2서브카테고리로 구분된다. 예를 들어, A 섹션은 다시 [표 2]와 같이 다수의 제2서브카테고리로 구분되며, 제2서브카테고리는 소분류에 대응되는 복수의 제3서브카테고리로 구분된다.
IPC 제1서브카테고리 (대분류) 제2서브카테고리 (중분류) 제3서브카테고리 (소분류)
A 섹션 : 생활필수품 A01 : 농업, 임업, 축산, 수렵, 포획, 어업 A01B : 농업 또는 임업에 있어서의 토작업, 농기구 또는 기구의 부품, 세부 또는 부속구 일반
A01C : 식부, 파종; 시비
A01D : 수확, 예취
A01N : 인간/동물/식물의 본체
A21 : 식용 가루반죽, 식빵 A21B : 제빵용 오븐, 제빵용 기계 또는 장치
A63 : 스포츠, 게임, 오락
[표 2]를 참조하면, A 섹션은 A01 섹션, A21 섹션, …, A63 섹션 등 다수의 제2서브카테고리로 구분된다. 또한, 제2서브카테고리인 A01 섹션은 A01B, A01C, A01D, …, A01N 섹션 등 다수의 제3서브카테고리로 구분된다.
따라서, 기준단어 DB(120)에는 제1서브카테고리인 A 섹션 ~ H 섹션을 구분하기 위한 다수의 기준단어가 각 섹션별로 저장된다. 또한, 기준단어 DB(120)에는 다수의 제2서브카테고리인 A01 섹션 ~ A63 섹션을 구분하기 위한 다수의 기준단어가 각 섹션별로 저장되며, 다수의 제3서브카테고리를 구분하기 위한 다수의 기준단어가 각 섹션별로 저장된다.
사용자 요청부(130)는 문서분류장치(100)에서 지원하는 기능을 요청 또는 설정하기 위한 신호를 분류 엔진(170)으로 출력하는 사용자 인터페이스이다. 본 발명에 있어서, 사용자 요청부(130)는 입력부(110)에 입력된 문서데이터를 소정 카테고리로 분류하는 분류요청신호를 분류 엔진(170)으로 출력한다.
본 발명에 있어서, 표시부(140)는 사용자 요청부(130)에 의해 분류요청신호가 출력된 후, 분류 엔진(170)에 의해 문서데이터의 카테고리가 판단되면, 판단된 카테고리에 대응되는 문서분류코드를 문서데이터와 함께 표시한다.
비휘발성 메모리(150)은 문서분류장치(100)의 기능을 구현하는 데 필요한 각종 제어 프로그램을 저장한다.
버퍼(160)은 문서분류장치(100)의 동작 수행 중에 발생되는 각종 데이터를 저장하는 휘발성 메모리이다. 본 발명에 있어서, 버퍼(160)에는 입력부(110)를 통해 입력된 문서데이터가 임시저장된다.
분류 엔진(170)은 비휘발성 메모리(150)에 저장된 제어 프로그램에 따라 문서분류장치(100)의 전반적인 동작을 제어한다.
자세히 설명하면, 입력부(110)를 통해 입력된 문서데이터가 버퍼(160)에 저장된 후 사용자 요청부(130)로부터 분류요청신호가 수신되면, 분류 엔진(170)은 기준단어 DB(120)에 저장된 기준단어를 기초로 문서데이터의 카테고리를 판단한 후, 판단된 카테고리에 대응하는 문서분류코드를 문서데이터에 부여한다.
보다 자세히 설명하면, 분류 엔진(170)은 먼저 문서데이터를 분류하기 위하여 각 제1서브카테고리, 각 제1서브카테고리에 속한 각 제2서브카테고리, 각 제2서브카테고리에 속한 각 제3서브카테고리에 대해 저장된 각각의 기준단어와 버퍼(160)에 저장된 문서데이터를 비교한다. 그리고 분류 엔진(170)은 각 서브카테고리에 대한 각각의 기준단어와 문서데이터 간의 상관관계로부터 문서데이터에 상관도가 가장 높은 제3서브카테고리에 대응되는 문서분류코드를 문서데이터에 부여한다. 제3서브카테고리에 대응되는 문서분류코드는 비휘발성 메모리(150)에 저장되어 있다.
여기서 상관관계로부터 문서데이터에 제3서브카테고리를 부여하는 방법으로는 문서데이터와 각 서브카테고리에 속한 기준단어 간에 매칭되는 단어의 수가 가장 많은 경우 제3서브카테고리를 부여하는 방법이 있을 수 있다. 즉 상관도를 단어의 수로 판단할 수 있다.
[표 2]를 참조하여 예를 들며 설명을 개시한다. 분류 엔진(170)은 먼저 대분류된 A 섹션에 대해서 비교과정을 수행한다. 즉 분류 엔진(170)은 문서데이터를 A 섹션에 속한 기준단어와 비교한다. 그리고 분류 엔진(170)은 A 섹션에 대한 중분류된 A01 섹션, A21 섹션, …, A63 섹션 각각의 기준단어와 문서데이터를 비교한다. 또한, 분류 엔진(170)은 [표 2]와 같이 소분류된 A01B 섹션, A01C 섹션, …, A01N 섹션 각각의 기준단어와 문서데이터를 비교한다.
이와 같은 과정은 B 섹션 내지 H 세션까지 수행된다.
그리고 분류 엔진(170)은 대분류, 중분류, 소분류에 각각 해당하는 섹션에 대해 매칭되는 기준단어 수가 가장 많은 섹션을 검색하고, 검색 결과에 따라 기준단어 수가 가장 많은 섹션을 문서데이터의 제3서브카테고리로 판단한다.
그리고 분류 엔진(170)은 문서데이터에게 제3서브카테고리에 대응되는 문서분류코드를 부여한다.
한편, 상관관계로부터 문서데이터에 제3서브카테고리를 부여하는 또 다른 방법으로는, 문서데이터와 각 서브카테고리에 속한 기준단어 간의 단어패턴의 유사여부로써 제3서브카테고리를 부여하는 방법이 있을 수 있다. 즉 상관도를 단어패턴의 유사여부를 판단할 수 있다.
그리고, 분류 엔진(170)은 부여된 문서분류코드를 문서데이터에 매칭시켜 표시하도록 표시부(140)를 제어한다.
도 2는 도 1에 의한 문서분류방법을 개략적으로 설명하기 위한 흐름도이다.
도 1 및 도 2를 참조하면, 분류대상문서인 소정의 문서데이터가 입력부(110)를 통해 입력되면, 분류 엔진(170)은 입력된 문서데이터를 저장하도록 버퍼(160)을 제어한다(S210, S220).
사용자 입력부(110)로부터 문서데이터의 분류를 요청하는 분류요청신호가 수신되면(S230), 분류 엔진(170)은 버퍼(160)에 저장된 문서데이터와 다수의 제1서브카테고리별로 저장된 기준단어, 다수의 제2서브카테고리별로 저장된 기준단어, 다수의 제3서브카테고리별로 저장된 기준단어를 비교한다(S240).
S240단계의 비교 결과, 분류 엔진(170)은 문서데이터와 각 기준단어 간의 상관관계로부터 가장 상관도가 높은 제3서브카테고리를 선택한다(S250).
S250단계가 수행되면, 분류 엔진(170)은 문서데이터에게 제3서브카테고리에 대응되는 문서분류코드를 부여한다(S260). 예를 들어, [표 1] 및 [표 2]와 같은 서브카테고리에 의해 문서데이터의 카테고리가 A01B 섹션으로 판단되면, 분류 엔진(170)은 문서데이터에게 'A01B' 문서분류코드를 부여한다.
S260단계가 수행되면, 분류 엔진(170)은 S260단계에서 부여된 문서분류코드가 매칭된 문서데이터가 표시되도록 표시부(140)를 제어한다(S270).
도 3은 본 발명의 바람직한 제2실시예에 따른 문서분류장치를 개략적으로 도시한 블럭도이다.
도 3을 참조하면, 본 발명의 바람직한 제2실시예에 따른 문서분류장치(300)는 입력부(310), 인공지능 분류 모듈(320), 사용자 요청부(330), 표시부(340), 비휘발성 메모리(350), 버퍼(360) 및 분류 엔진(370)을 포함한다.
입력부(310)는 기분류된 다수의 카테고리 중 소정 카테고리로 분류하기 위한 문서데이터가 입력되는 인터페이스이다. 입력부(310)의 예로는 이동식 저장매체가 장착되는 범용직렬버스와 같은 인터페이스, 인터넷망을 통해 문서데이터를 전송받는 통신 인터페이스, 또는 문서데이터가 저장된 플로피 디스크와 같은 저장매체 등을 적용할 수 있다.
예를 들어, 입력부(310)로서 USB 모듈이 적용된 경우, USB 모듈에 문서데이터가 저장된 이동식 저장매체가 장착되면 USB 모듈은 이동식 저장매체에 저장된 문서데이터를 로딩하여 버퍼(360)과 같은 메모리로 제공한다.
본 발명의 제2실시예에 있어서, 인공지능(Artificial Intelligence : AI) 모듈(320)은 입력부(310)를 통해 입력된 문서데이터를 소정 카테고리로 분류하기 위한 다수의 기준단어를 입력받아 학습하되, 각 카테고리별로 학습한다.
인공지능 분류 모듈(320)은 카테고리별로 입력되는 다수의 기준단어를 학습하고, 이를 기초로 문서데이터에 대해 각 카테고리별로 문서분류코드를 부여한다. 예를 들어, 인공지능 분류 모듈(320)은 [표 2] 중 최종 서브카테고리인 복수의 제3서브카테고리 각각에 대응되는 문서분류코드를 부여한다.
사용자 요청부(330)는 문서분류장치(300)에서 지원하는 기능을 요청 또는 설정하기 위한 신호를 분류 엔진(370)으로 출력하는 사용자 인터페이스로서, 다수의 조작키(미도시)를 구비한다. 본 발명에 있어서, 사용자 요청부(330)는 입력부(310)에 입력된 문서데이터를 소정 카테고리로 분류하는 분류요청신호를 분류 엔진(370)으로 출력한다.
표시부(340)는 문서분류장치(300)의 동작 상태를 분류 엔진(370)의 제어에 의해 표시한다. 본 발명에 있어서, 표시부(340)는 사용자 요청부(330)에 의해 분류요청신호가 출력된 후, 분류 엔진(370)에 의해 문서데이터의 카테고리가 판단되면, 판단된 카테고리에 대응되는 문서분류코드를 문서데이터와 함께 표시한다.
비휘발성 메모리(350)는 문서분류장치(300)의 기능을 구현하는 데 필요한 각종 제어 프로그램을 저장한다.
버퍼(360)는 문서분류장치(300)의 동작 수행 중에 발생되는 각종 데이터를 저장하는 휘발성 메모리이다. 본 발명에 있어서, 버퍼(360)에는 입력부(310)를 통해 입력된 문서데이터가 임시저장된다.
분류 엔진(370)은 비휘발성 메모리(350)에 저장된 제어 프로그램에 따라 문서분류장치(300)의 전반적인 동작을 제어한다.
자세히 설명하면, 입력부(310)를 통해 입력된 문서데이터가 버퍼(360)에 저장된 후 사용자 요청부(330)로부터 분류요청신호가 수신되면, 분류 엔진(370)은 입력된 문서데이터를 기초로 문서데이터의 카테고리를 판단하도록 인공지능 분류 모듈(320)을 제어한다.
따라서, 인공지능 분류 모듈(320)은 분류 엔진(370)의 제어 하에 분류대상 문서데이터에 대한 카테고리를 판단하고, 이에 대응하는 문서분류코드를 분류대상 문서데이터에 부여한다.
인공지능 분류 모듈(320)의 판단에 의하여 문서데이터의 문서분류코드가 부여되면, 분류 엔진(370)은 문서분류코드가 부여된 문서데이터를 표시하도록 표시부(340)를 제어한다.
도 4는 도 3에 의한 인공지능을 이용한 문서 분류 방법을 개략적으로 설명하기 위한 흐름도이다.
도 3 및 도 4를 참조하면, 먼저, 인공지능 분류 모듈(320)는 다수의 카테고리별로 입력된 다수의 기준단어 및 카테고리별 문서분류코드를 학습한다(S410).
S410단계가 수행된 후, 분류대상문서인 소정의 문서데이터가 입력부(310)를 통해 입력되면, 분류 엔진(370)은 입력된 문서데이터를 저장하도록 버퍼(360)을 제어한다(S420, S430).
사용자 입력부(310)로부터 문서데이터의 분류를 요청하는 분류요청신호가 수신되면(S440), 인공지능 분류 모듈(320)는 분류 엔진(370)의 제어 하에 문서데이터를 분석하고, 기학습된 정보에 기초하여 해당 카테고리를 판단한다(S450).
그리고, 인공지능 분류 모듈(320)는 S450단계에서 판단된 카테고리에 대응하는 문서분류코드를 문서데이터에 부여한다(S460).
인공지능 분류 모듈(320)의 학습에 의하여 문서데이터의 문서분류코드가 부여되면, 분류 엔진(370)은 문서분류코드가 부여된 문서데이터를 표시하도록 표시부(340)를 제어한다(S470).
한편, 상술한 본 발명의 바람직한 제1 및 제2실시예에 따른 문서분류장치 및 문서분류방법은 소프트웨어로 구현되어 컴퓨터와 같은 기기에 프로그램 모듈로 제공가능하다.
또한, 상술한 실시예에서는 특허 문헌를 예로 들어 설명하였으나, 특허 문헌에 제한적이지 않으며 논문, 기술 문헌과 같은 모든 문서데이터의 분류에 적용가능하다.
또한, 상술한 실시예를 특허 문헌에 적용하는 경우, 본 발명에 따른 제1 및 제2문서분류장치 및 각각의 문서분류방법은 IPC 분류기준뿐만 아니라 미국에서 사용하는 US Class 분류기준, 일본에서 사용하는 FI 분류기준 및 F-Term 분류기준에도 적용가능함은 물론이다.
또한, 상술한 실시예에서는 대분류, 중분류 및 소분류의 3단계 서브카테고리에 걸쳐 분류대상문서를 소정 카테고리로 분류하였으나, 3단계에 제한적이지 않으며 개발자에 의해 조정가능하다.
지금까지 설명한 바와 같이, 본 발명에 따른 문서분류장치 및 문서분류방법에 의하면, 기저장된 다수의 기준단어를 이용하여 상관도 및 인공지능 분류 모듈에 의해 문서데이터를 분류함으로써 분류결과에 일관성이 있다.
또한, 사람에 의해 수작업으로 문서데이터를 분류하지 않음으로써 인건비를 절약할 수 있으며, 보다 정확하게 문서데이터를 분류할 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대 하여 본 발명의 범주에서 벗어나지 않는 한도내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위 뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims (14)

  1. 문서데이터가 입력되는 입력부;
    상기 입력된 문서데이터를 소정 카테고리로 분류하기 위한 다수의 기준단어가 다수의 카테고리별로 저장되는 기준단어 DB; 및
    상기 저장된 기준단어를 기초로 상기 입력된 문서데이터를 분류하여 상기 문서데이터의 카테고리를 판단한 후, 상기 판단된 카테고리에 대응하는 문서분류코드를 상기 문서데이터에 부여하는 분류 엔진;을 포함하는 것을 특징으로 하는 문서분류장치.
  2. 제 1항에 있어서,
    상기 분류 엔진은, 상기 저장된 다수의 기준단어와 상기 입력된 문서데이터를 상기 다수의 카테고리별로 비교하여, 매칭되는 기준단어의 수가 가장 많은 카테고리를 상기 입력된 문서데이터의 카테고리로 판단하는 것을 특징으로 하는 문서분류장치.
  3. 제 1항에 있어서,
    상기 분류 엔진은, 상기 저장된 다수의 기준단어와 상기 입력된 문서데이터를 상기 다수의 카테고리별로 비교하여, 상기 저장된 다수의 기준단어와 상기 입력된 문서데이터 간의 단어패턴의 유사 여부로 상기 입력된 문서데이터의 카테고리로 판단하는 것을 특징으로 하는 문서분류장치.
  4. 제 1항에 있어서,
    상기 카테고리는 복수의 서브카테고리의 결합에 의해 생성되며, 상기 기준단어 DB에는 상기 각 서브카테고리마다 상기 다수의 기준단어가 저장된 것을 특징으로 하는 문서분류장치.
  5. 문서데이터가 입력되는 입력부;
    상기 입력된 문서데이터를 소정 카테고리로 분류하기 위한 다수의 카테고리별 기준단어 및 상기 카테고리별 문서분류코드가 학습된 인공지능 분류 모듈; 및
    상기 입력된 문서데이터를 분석하여 상기 문서데이터의 카테고리를 판단하고, 상기 판단된 카테고리에 대응하는 문서분류코드를 상기 문서데이터에 부여하도록 상기 인공지능 분류 모듈을 제어하는 분류 엔진;을 포함하는 것을 특징으로 하는 문서분류장치.
  6. 제 1항 내지 제 5항 중 어느 하나의 항에 있어서,
    상기 기준단어는 사전, 전공문서, 논문 및 기분류된 문서데이터 중 적어도 하나로부터 추출된 것을 특징으로 하는 문서분류장치.
  7. 제 1항 내지 제 5항 중 어느 하나의 항에 있어서,
    상기 문서데이터는 특허 명세서이고, 상기 문서분류코드는 IPC 분류코드, US Class 분류코드, FI 분류코드 및 F-Term 분류코드 중 어느 하나인 것을 특징으로 하는 문서분류장치.
  8. 문서데이터가 입력되는 단계;
    상기 입력된 문서데이터를 소정 카테고리로 분류하기 위하여 다수의 카테고리별로 저장된 기준단어를 기초로 상기 입력된 문서데이터를 분류하여 상기 문서데이터의 카테고리를 판단하는 단계; 및
    상기 판단된 카테고리에 대응하는 문서분류코드를 상기 문서데이터에 부여하는 단계;를 포함하는 것을 특징으로 하는 문서분류방법.
  9. 제 8항에 있어서,
    상기 판단하는 단계는,
    상기 저장된 다수의 기준단어와 상기 입력된 문서데이터를 상기 다수의 카테고리별로 비교하여, 매칭되는 기준단어의 수가 가장 많은 카테고리를 상기 입력된 문서데이터의 카테고리로 판단하는 것을 특징으로 하는 문서분류방법.
  10. 제 8항에 있어서,
    상기 판단하는 단계는,
    상기 저장된 다수의 기준단어와 상기 입력된 문서데이터를 상기 다수의 카테 고리별로 비교하여, 상기 저장된 다수의 기준단어와 상기 입력된 문서데이터 간의 단어패턴의 유사 여부로 상기 입력된 문서데이터의 카테고리로 판단하는 것을 특징으로 하는 문서분류방법.
  11. 제 8항에 있어서,
    상기 카테고리는 복수의 서브카테고리의 결합에 의해 생성되고, 상기 문서분류코드는 상기 각 서브카테고리마다 부여되는 서브코드의 결합에 의해 생성되며, 상기 각 서브카테고리마다 상기 다수의 기준단어가 저장된 것을 특징으로 하는 문서분류방법.
  12. 다수의 카테고리별로 분류된 다수의 기준단어 및 상기 카테고리별 문서분류코드를 인공지능 분류 모듈가 학습하는 단계;
    문서데이터가 입력되는 단계; 및
    상기 인공지능 분류 모듈을 이용하여 상기 입력된 문서데이터에 대한 상기 문서데이터의 카테고리를 판단하고, 상기 판단된 카테고리에 대응하는 문서분류코드를 상기 문서데이터에 부여하는 단계;를 포함하는 것을 특징으로 하는 문서분류방법.
  13. 제 8항 내지 제 12항 중 어느 하나의 항에 있어서,
    상기 기준단어는 사전, 전공문서, 논문 및 기분류된 문서데이터 중 적어도 하나로부터 추출된 것을 특징으로 하는 문서분류방법.
  14. 제 8항 내지 제 12항 중 어느 하나의 항에 있어서,
    상기 문서데이터는 특허 명세서이고, 상기 문서분류코드는 IPC 분류코드, US Class 분류코드, FI 분류코드 및 F-Term 분류코드 중 어느 하나인 것을 특징으로 하는 문서분류방법.
KR1020040065406A 2004-08-19 2004-08-19 문서분류장치 및 문서분류방법 KR20060016933A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040065406A KR20060016933A (ko) 2004-08-19 2004-08-19 문서분류장치 및 문서분류방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040065406A KR20060016933A (ko) 2004-08-19 2004-08-19 문서분류장치 및 문서분류방법

Publications (1)

Publication Number Publication Date
KR20060016933A true KR20060016933A (ko) 2006-02-23

Family

ID=37125080

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040065406A KR20060016933A (ko) 2004-08-19 2004-08-19 문서분류장치 및 문서분류방법

Country Status (1)

Country Link
KR (1) KR20060016933A (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100756921B1 (ko) * 2006-02-28 2007-09-07 한국과학기술원 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
KR100809751B1 (ko) * 2006-04-13 2008-03-04 엘지전자 주식회사 문서분석 시스템 및 그 방법
KR100816923B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
KR100835290B1 (ko) * 2006-11-07 2008-06-05 엔에이치엔(주) 문서 분류 시스템 및 문서 분류 방법
KR100849690B1 (ko) * 2006-07-24 2008-07-31 한국과학기술정보연구원 특허분류 체계를 활용한 정보 검색 시스템 및 그에 따른검색 방법
WO2010117424A2 (en) * 2009-03-31 2010-10-14 Medquist Ip, Llc Computer-assisted abstraction of data and document coding
KR101507521B1 (ko) * 2014-03-31 2015-03-31 주식회사 솔샘넷 IPC 자동 분류 방법 및 F-Term 추천 방법과 그 장치
US9659055B2 (en) 2010-10-08 2017-05-23 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US9892734B2 (en) 2006-06-22 2018-02-13 Mmodal Ip Llc Automatic decision support
KR20200010679A (ko) 2018-07-11 2020-01-31 국민대학교산학협력단 이질성 학습 기반의 정보 분류 장치

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100756921B1 (ko) * 2006-02-28 2007-09-07 한국과학기술원 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
KR100809751B1 (ko) * 2006-04-13 2008-03-04 엘지전자 주식회사 문서분석 시스템 및 그 방법
KR100816923B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
US9892734B2 (en) 2006-06-22 2018-02-13 Mmodal Ip Llc Automatic decision support
KR100849690B1 (ko) * 2006-07-24 2008-07-31 한국과학기술정보연구원 특허분류 체계를 활용한 정보 검색 시스템 및 그에 따른검색 방법
KR100835290B1 (ko) * 2006-11-07 2008-06-05 엔에이치엔(주) 문서 분류 시스템 및 문서 분류 방법
WO2010117424A2 (en) * 2009-03-31 2010-10-14 Medquist Ip, Llc Computer-assisted abstraction of data and document coding
WO2010117424A3 (en) * 2009-03-31 2010-12-16 Medquist Ip, Llc Computer-assisted abstraction of data and document coding
US9659055B2 (en) 2010-10-08 2017-05-23 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
KR101507521B1 (ko) * 2014-03-31 2015-03-31 주식회사 솔샘넷 IPC 자동 분류 방법 및 F-Term 추천 방법과 그 장치
KR20200010679A (ko) 2018-07-11 2020-01-31 국민대학교산학협력단 이질성 학습 기반의 정보 분류 장치

Similar Documents

Publication Publication Date Title
US7672913B2 (en) Automated action-selection system and method, and application thereof to training prediction machines and driving the development of self-developing devices
CN112494952B (zh) 目标游戏用户的检测方法、装置及设备
KR20060016933A (ko) 문서분류장치 및 문서분류방법
KR20010008891A (ko) 이미지의 특징소 정규화 정보를 사용한 이미지 검색 시스템
CN114117240B (zh) 基于大数据需求分析的互联网内容推送方法及ai系统
CN1910581A (zh) 用于按类别提供关键字输入频率信息的搜索系统及其方法
CN111530081B (zh) 游戏关卡设计方法、装置、存储介质及电子设备
Söderbergh et al. Algorithms for simulating thinning and harvesting in five European individual-tree growth simulators: a review
US7079965B2 (en) Method and system for the automatic design of experiments
US5987447A (en) Method and apparatus for searching sentences by analyzing words
Forsman et al. Evolution of searching effort for resources: a missing piece of the puzzle in the ideal free distribution paradigm
Peltonen-Sainio et al. Interactive tool for farmers to diversify high-latitude cereal-dominated crop rotations
Karasalo et al. Developing horizon scanning methods for the discovery of scientific trends
CN106934007A (zh) 关联信息的推送方法及装置
CN114780599A (zh) 基于小麦品比试验数据的综合分析系统
CN111949866A (zh) 应用推荐处理方法和装置
González-Álvarez et al. Convergence analysis of some multiobjective evolutionary algorithms when discovering motifs
JP2003216778A (ja) 鳥種の推定方法及び土地開発計画決定方法
CN111090707A (zh) 数据处理方法及装置、电子设备及存储介质
WO2022091299A1 (ja) 検索装置、検索方法及び記録媒体
CN117519702B (zh) 基于低代码配置化的搜索页面设计方法及系统
US11416570B2 (en) System and method for process-related generation of agricultural data
WO2023042284A1 (ja) 農作物育成支援装置、農作物育成支援方法、及び農作物育成支援プログラム
CN117435516B (zh) 一种测试用例优先级排序方法和系统
KR102399833B1 (ko) 인공 신경망 기반의 로그 라인을 이용한 시놉시스 제작 서비스 제공 장치 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application