KR100816923B1 - System and method for classifying document - Google Patents
System and method for classifying document Download PDFInfo
- Publication number
- KR100816923B1 KR100816923B1 KR1020060033660A KR20060033660A KR100816923B1 KR 100816923 B1 KR100816923 B1 KR 100816923B1 KR 1020060033660 A KR1020060033660 A KR 1020060033660A KR 20060033660 A KR20060033660 A KR 20060033660A KR 100816923 B1 KR100816923 B1 KR 100816923B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- documents
- classification
- database
- stored
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명의 실시예에 따른 문서 분류 시스템은 문서가 저장된 데이터베이스; 및 상기 데이터베이스에 저장된 문서들을 자동 분류하기 위한 문서 문류부;가 포함되고, 상기 문서 분류부에는 상기 문서의 특성을 도출하여 이를 벡터화하는 특성 추출부와, 상기 특성 추출부에 의해 형성된 벡터들을 이용하여 문서간의 유사도를 판단하는 유사도 판단부와, 상기 데이터베이스에 저장된 문서들을 소정의 분류체계에 따라 분류시키는 분류 체계부가 구비되고, 상기 문서 분류부는 상기 데이터베이스로 제공되는 신규의 문서를 상기 분류체계에 따라 문서분류를 수행하는 것을 특징으로 한다.A document classification system according to an embodiment of the present invention includes a database in which a document is stored; And a document entry unit for automatically classifying documents stored in the database. The document classification unit includes a feature extraction unit for deriving and vectorizing a property of the document and using vectors formed by the property extraction unit. A similarity determination unit for determining similarity between documents and a classification system unit for classifying documents stored in the database according to a predetermined classification system, wherein the document classification unit stores new documents provided to the database according to the classification system. Characterized by performing the classification.
문서 분류 Document classification
Description
도 1은 본 발명의 사상에 따른 문서 분류 시스템을 설명하기 위한 블록도.1 is a block diagram illustrating a document classification system according to the spirit of the present invention.
도 2는 문서로부터 추출된 특성을 이용한 벡터화된 문서를 설명하는 도면.2 illustrates a vectorized document using properties extracted from the document.
도 3은 본 발명의 실시예에 따른 분류코드를 설명하는 도면. 3 is a diagram illustrating a classification code according to an embodiment of the present invention.
도 4는 본 발명의 실시예에 따른 문서 검색 방법을 설명하기 위한 흐름도.4 is a flowchart illustrating a document search method according to an embodiment of the present invention.
본 발명은 문서를 분류하기 위한 시스템에 대한 것으로서, 상세하게는, 저장된 문서들로부터 도출되는 특성과 문서간의 유사도를 참조하여 저장된 문서들을 분류체계화하고, 데이터베이스로 제공되는 신규의 문서에 대해서도 분류체계화 작업이 수행되도록 하는 문서 분류 시스템 및 그 방법에 대한 것이다.The present invention relates to a system for classifying documents, and in detail, classifies stored documents by referring to similarities between the properties derived from stored documents and documents, and classifies the new documents provided to the database. A document classification system and a method for causing this to be performed.
최근 인터넷의 급속한 팽창과 보급으로 인해, 조직이 필요로 하는 문서 중에서 인터넷을 통해 획득된 문서와 지식의 양은 그 증가 속도가 갈수록 커지고 있다. 이로 인해 대용량 문서 정보 시스템에서 내용 기반 검색, 필터링, 라우팅 등의 정보 검색을 하기 위해 선행되어야 할 문서 구조화 기법이 매우 중요해지고 있다.Recently, due to the rapid expansion and dissemination of the Internet, the amount of documents and knowledge acquired through the Internet among the documents required by the organization is increasing at an increasing rate. As a result, document structuring techniques that need to be preceded for information retrieval such as content-based retrieval, filtering, and routing in a large document information system become very important.
그리고, 문서 도메인 전문가들에 의해 카테고리별로 기초적인 계층 분류 트 리의 구조가 제공되면, 문서 분류자들은 현재 시스템 내에 보관하고 있거나 새로 유입되는 문서들로부터 속성을 추출한 후, 그 속성에 의해 해당 문서들을 상기 계층 분류 트리내의 각 카테고리들로 할당하는 작업을 수행한다.Then, if the structure of the basic hierarchical classification tree by category is provided by the document domain experts, the document classifier extracts an attribute from documents currently stored or newly introduced in the system, and then recalls the corresponding documents by the attribute. Assigns to each category in the hierarchical classification tree.
그리고, 상기 도메인 전문가들에 의해 초기에 주어졌던 상기 계층 분류 트리는 지속적으로 문서가 할당됨에 따라 그 구조가 변화될 필요가 있는데, 이를 위해 도메인 전문가들은 각 카테고리에 할당된 문서들의 내용을 면밀히 검토하여 그 구조를 변형시켜 나간다. 즉, 기존의 계층 분류 트리에 포함되어 있지 않은 문서 집합이 유입되어 그 문서 집합을 포함시킬 수 있는 새로운 카테고리를 생성한 경우 이를 상기 계층 분류 트리의 적당한 위치에 병합시키거나 각 카테고리에 포함된 문서들간 내용의 이질성이 높아져 새로운 카테고리에 의해 묶을 수 있는 문서 집합이 발생한 경우 그 카테고리를 두 개 이상의 카테고리로 분할하는 작업을 수행하여야 한다.In addition, the hierarchical classification tree initially given by the domain experts needs to change its structure as documents are continuously assigned. For this purpose, the domain experts carefully examine the contents of the documents assigned to each category and construct the structure. Transform it. In other words, if a document set that is not included in the existing hierarchical classification tree is introduced and a new category is created to include the document set, it is merged to an appropriate position of the hierarchical classification tree or between documents included in each category. When the heterogeneity of the contents increases and a document set can be grouped by a new category, the work of dividing the category into two or more categories should be performed.
그러나, 이러한 문서의 집합들이 계속적으로 변화하고, 그 문서량도 빠른 속도로 증가하는 최근의 작업 환경에서 문서 분류 및 그 계층 분류 트리의 관리 작업들을 사람의 노력에 의존하는 종래의 문서 관리 방법은 그 활용에 한계가 있다.However, in the recent work environment where these sets of documents are constantly changing, and the amount of documents is rapidly increasing, the conventional document management method which utilizes human effort for document classification and management of the hierarchical classification tree is utilized. There is a limit to.
또한, 각 문서 분류자가 가지고 있는 경험과 지식이 모두 다르기 때문에 문서 분류가 지속적으로 일관성을 유지하지 못할 가능성도 커진다는 단점이 있다. In addition, since the experience and knowledge of each document classifier are all different, there is a disadvantage that the classification of documents is not always consistent.
본 발명은 상기되는 문제점을 해결하기 위하여 제안되는 것으로서, 데이터베이스에 저장된 문서로부터 특성 및 문서간의 유사도를 독출함으로써 저장된 문서가 소정의 분류체계에 따라 자동적으로 분류될 수 있도록 하는 문서 분류 시스템 및 그 방법을 제안하는 것을 목적으로 한다. SUMMARY OF THE INVENTION The present invention is proposed to solve the above-described problem, and a document classification system and method for reading stored properties and similarities between documents from a document stored in a database so that the stored documents can be automatically classified according to a predetermined classification system. It is for the purpose of suggestion.
또한, 외부로부터 유입되는 신규의 문서들을 자동으로 분류하고, 그 계층 구조를 지능적으로 관리함으로써 문서의 관리가 효율적으로 수행되도록 하는 문서 관리 시스템 및 그 방법을 제안하는 것을 목적으로 한다. In addition, an object of the present invention is to propose a document management system and method for automatically classifying new documents introduced from the outside and intelligently managing the hierarchical structure so that document management can be efficiently performed.
상기되는 목적을 달성하기 위한 본 발명의 실시예에 따른 문서 분류 시스템은 문서가 저장된 데이터베이스; 및 상기 데이터베이스에 저장된 문서들을 자동 분류하기 위한 문서 문류부;가 포함되고, 상기 문서 분류부에는 상기 문서의 특성을 도출하여 이를 벡터화하는 특성 추출부와, 상기 특성 추출부에 의해 형성된 벡터들을 이용하여 문서간의 유사도를 판단하는 유사도 판단부와, 상기 데이터베이스에 저장된 문서들을 소정의 분류체계에 따라 분류시키는 분류 체계부가 구비되고, 상기 문서 분류부는 상기 데이터베이스로 제공되는 신규의 문서를 상기 분류체계에 따라 문서분류를 수행하는 것을 특징으로 한다.Document classification system according to an embodiment of the present invention for achieving the above object is a database in which a document is stored; And a document entry unit for automatically classifying documents stored in the database. The document classification unit includes a feature extraction unit for deriving and vectorizing a property of the document and using vectors formed by the property extraction unit. A similarity determination unit for determining similarity between documents and a classification system unit for classifying documents stored in the database according to a predetermined classification system, wherein the document classification unit stores new documents provided to the database according to the classification system. Characterized by performing the classification.
다른 측면에 따른 본 발명의 문서 분류 방법은 (a) 데이터베이스에 저장된 문서들로부터 특성을 추출하고, 추출된 특성을 이용하여 문서들간의 유사도가 판단되는 단계; (b) 상기 문서들간의 유사도를 기반으로 하여 상기 데이터베이스에 저장된 문서들이 소정의 분류체계에 따라 분류되는 단계; 및 (c) 상기 데이터베이스로 신규의 문서가 제공되는지 여부를 감시하고, 신규의 문서가 제공되는 경우에 상기 신규의 문서에 대하여 상기의 (a) 및 (b)단계가 재수행되는 단계;가 포함된다.According to another aspect of the present invention, a document classification method may include: (a) extracting a feature from documents stored in a database, and determining similarity between documents using the extracted feature; (b) classifying documents stored in the database according to a classification system based on the similarity between the documents; And (c) monitoring whether a new document is provided to the database, and if the new document is provided, the steps (a) and (b) are repeated for the new document. do.
제안되는 바와 같은 본 발명의 사상에 따라 문서 분류 시스템 및 그 방법에 의해서, 데이터베이스에 저장된 문서로부터 특성 및 문서간의 유사도를 독출함으로써 저장된 문서가 소정의 분류체계에 따라 자동적으로 분류될 수 있는 장점이 있다.According to the idea of the present invention as described above, the document classification system and method thereof have the advantage that the stored documents can be automatically classified according to a predetermined classification system by reading the similarities between the properties and the documents from the documents stored in the database. .
또한, 외부로부터 유입되는 신규의 문서들을 자동으로 분류하고, 그 계층 구조를 지능적으로 관리함으로써 문서의 관리가 효율적으로 수행되는 장점이 있다.In addition, there is an advantage that the management of documents is efficiently performed by automatically classifying new documents introduced from the outside and intelligently managing the hierarchical structure.
이하에서는 본 발명의 바람직한 실시예를 첨부되는 도면을 참조하여 상세하게 설명한다. 다만, 본 발명의 사상이 제시되는 실시예에 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서, 구성 요소의 부가, 변경, 삭제, 추가등에 의해서 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본 발명의 사상의 범위 내에 든다고 할 것이다.Hereinafter, with reference to the accompanying drawings, preferred embodiments of the present invention will be described in detail. However, the spirit of the present invention is not limited to the embodiments in which the present invention is presented, and those skilled in the art who understand the spirit of the present invention may easily add other embodiments by adding, changing, deleting, and adding components within the scope of the same idea. It may be suggested, but this will also fall within the scope of the spirit of the present invention.
도 1은 본 발명의 사상에 따른 문서 분류 시스템을 설명하기 위한 블록도이고, 도 2는 문서로부터 추출된 특성을 이용한 벡터화된 문서를 설명하는 도면이고, 도 3은 본 발명의 실시예에 따른 분류코드를 설명하는 도면이다. 1 is a block diagram illustrating a document classification system according to the spirit of the present invention, FIG. 2 is a diagram illustrating a vectorized document using characteristics extracted from a document, and FIG. 3 is a classification according to an embodiment of the present invention. It is a figure explaining a code.
도 1 내지 도 3을 참조하면, 본 발명에 따른 문서 분류 시스템(100)에는 다수의 문서가 저장되는 데이터베이스(110)와, 상기 데이터베이스(110)에 저장된 문서를 분류하기 위한 문서 분류부(120)가 포함된다.1 to 3, the
그리고, 상기 문서 분류부(120)는 상기 데이터베이스(110)에 신규의 문서가 제공되는지 여부를 실시간 또는 사용자에 의해 설정된 주기마다 감시할 수 있으며, 상기 문서 분류부(120)에 의한 문서의 분류는 상기 신규의 문서에 대해서도 수행된 다. In addition, the
상기 문서 분류부(120)에는 상기 데이터베이스(110)에 저장된 문서로부터 특성을 도출하여 벡터화하는 특성 추출부(121)와, 상기 특성 추출부(121)에 의해 형성된 문서의 벡터들로부터 문서간의 유사도를 판단하기 위한 유사도 판단부(122)와, 상기 유사도 판단부(122)에 의해 판단된 문서간의 유사도에 따라 상기 데이터베이스(110)에 저장된 문서들을 분류하기 위한 분류 체계부(123)가 포함된다.The
그리고, 상기 분류 체계부(123)는 상기 유사도 판단부(122)에 의한 문서간의 유사도에 따라 문서들이 분류되도록 하는 것 외에 기술분야별로 각각 구분형성된 분류코드(124)를 참조하여 상기 데이터베이스(110)에 저장된 문서들을 분류시킬 수 있다.In addition, the
상세히, 상기 특성 추출부(121)는 상기 데이터베이스(110)에 저장된 문서의 특성을 도출하여 이를 벡터화하는 역할을 수행한다.In detail, the
그리고, 상기 특성 추출부(121)에 의한 문서의 벡터화가 수행되도록 하기 위하여, 상기 데이터베이스(110)에 저장된 문서들은 텍스트 형태의 파일인 doc, hwp, pdf, txt, html, xls, ppt등의 형태일 수 있다. In order to perform the vectorization of the document by the
그리고, 상기 특성 추출부(121)는 문서로부터 특성(예를 들면, 키워드 또는 색인어)을 추출하기 위하여 상기 문서에 기록된 사항으로부터 낱말을 구분하기 위한 형태소 해석(morphological analysis)을 수행할 수 있다.In addition, the
예를 들면, 영어나 국어등과 같은 낱말과 낱말 사이에 공백이 있는 언어에서는 공백을 단서로 하여 낱말을 결정할 수 있는데, 일본어와 아시아의 많은 언어와 같이 낱말 사이에 구분 기호를 두지 않는 언어에서는 낱말을 색인어 또는 키워드로 이용하기 위하여, 먼저 낱말을 판단하기 위한 프로세싱이 필요하다.For example, in languages with spaces between words and words, such as English or Korean, words can be determined by using spaces as clues. In languages that do not have a separator between words, such as Japanese and many languages in Asia, In order to use as an index word or keyword, first, processing for determining a word is required.
또한, 상기 특성 추출부(121)는 문서로부터 추출되는 특성에 대하여 가중치를 부여하는 기능을 수행할 수 있으며, 이 경우 상기 특성 추출부(121)는 망라성과 특정을 겸비한 특성의 중요도가 높아지도록 가중치를 부여한다.In addition, the
상기 행렬에서의 각 행(t1,t2,t3,t4,t5,t6)c은 문서의 특성을, 각 열(d1,d2,d3,d4,d5)은 상기 데이터베이스(110)에 저장된 문서에 대응된다.Each row (t 1 , t 2 , t 3 , t 4 , t 5 , t 6 ) c in the matrix represents the characteristics of the document, and each column (d 1 , d 2 , d 3 , d 4 , d 5 ). Corresponds to a document stored in the
행렬 요소 aij는 색인어 ti가 문서 dj에 출현하는 빈도를 나타낸다.The matrix element a ij indicates the frequency with which the index word t i appears in the document d j .
상기와 같은 행렬의 각행은 그 특성이 문서에 나타나는 분포를 나타내고, 각 열은 그 문서에서의 특성 분포를 나타내고 있다.Each row of the matrix described above represents a distribution in which the characteristic appears in the document, and each column represents a distribution of the characteristic in the document.
문서 특성의 빈도에 근거한 가중치 부여에 있어서는, 너무 빈도가 높은 낱말은 문서를 특징짓는데에 그다지 도움이 되지 않으므로, 특정의 문서 즉, 문서의 특성으로서 역할을 수행하는데에 부적합한 단어에 관한 불용어 리스트를 이용할 수 있다.In weighting based on the frequency of document characteristics, too frequent words are not very helpful in characterizing a document, so use a list of stopwords for words that are inappropriate for serving as a specific document, that is, as a feature of the document. Can be.
이와 같은 견지에서, 상기 특성 추출부(121)는 문서로부터 추출되는 키워드의 출현빈도를 문서에 있는 모든 키워드의 출현 수로 상대 빈도를 가중치로 채용할 수 있다. In this regard, the
이에 대한 실시예는 다음과 같은 수학식에 의해 수행될 수 있다.An embodiment thereof may be performed by the following equation.
여기서, 상기 tf(t,d)는 특정의 문서 d에 출현하는 키워드 t의 빈도를 의미한다.Here, tf (t, d) means the frequency of the keyword t appearing in the specific document d.
또한, 상기 특성 추출부(121)는 상기와 같이 문서로부터 도출된 키워드 또는 색인어등의 문서 특성을 이용하여, 도 2에 도시된 바와 같이 각 문서들을 벡터화할 수 있다.In addition, the
예를 들어, 상기 데이터베이스(110)에 저장된 문서중에서, 문서1에서는 첫번째 특성이 19번, 두번째 특성이 35번, 마지막 특성이 15번의 빈도로 포함된다.For example, among documents stored in the
같은 방법으로 분석대상이 되는 문서들에 대해 특성으로 구성되는 벡터가 형성될 수 있다. In the same way, a vector consisting of the characteristics of documents to be analyzed can be formed.
그리고, 상기 특성 추출부(121)에 의해 형성된 벡터들을 이용하여 상기 유사도 판단부(122)는 각 문서들간의 유사의 정도를 판단할 수 있으며, 이 경우 상기 유사도 판단부(122)는 문서간의 유사도를 판단하기 위하여 각 벡터간의 코사인값을 이용할 수 있다. The
예를 들어, 상기 유사도 판단부(122)는 상기 특성 추출부(121)에 의해 형성되는 문서들의 벡터를 다음의 수학식을 이용하여 문서간의 유사도를 판단할 수 있다.For example, the
또한, 상기 분류 체계부(123)는 상기 유사도 판단부(122)에 의한 문서간의 유사도 판단결과에 따라 상기 데이터베이스(110)에 저장된 문서들이 분류체계화되도록 하는 역할을 수행한다.In addition, the
그리고, 상기 분류 체계부(123)는 상기 데이터베이스(110)에 저장된 문서들이 소정의 기준이 될 수 있는 분류체계에 따라 문서들이 분류되도록 함으로써, 상기 데이터베이스(110)에 저장된 문서로부터 특정의 문서이 보다 빨리 검색되도록 하며, 저장된 문서들의 군집화가 신속히 수행되도록 한다.In addition, the
그리고, 상기 유사도 판단부(122) 및 분류 체계부(123)에 의한 문서간의 유사도 판단 및 문서의 분류체계는 상기 데이터베이스(110)에 새롭게 제공되는 문서에 대해서 수행되도록 함으로써, 상기 데이터베이스(110)에 저장되는 문서들이 자동적으로 분류될 수 있다.In addition, the similarity determination between the documents by the
그리고, 상기 분류 체계부(123)는 도 3에 도시된 바와 같은 분류코드(124)를 참조할 수 있으며, 사용자는 소정의 입력수단을 통해 상기 데이터베이스(110)에 저장된 문서를 상기 분류코드(124)에 따라 분류되도록 할 수 있다.In addition, the
즉, 도 3에 도시된 분류코드(124)에는 각 기술분야별로 분류화된 코드들이 포함되며, 사용자가 상기 데이터베이스(110)로부터 OLED에 대한 문서를 검색한 경우에 해당 문서에 대해서 상기 분류코드(124)에 부여된 특정의 코드 예를 들면 DD중에서 OLED를 선택함으로써 상기 분류코드(124)에 따라 문서가 분류되도록 할 수 있다.That is, the
그리고, 상기 분류코드(124)에 구비되는 각각의 코드들(예를 들면, CRT,DTV,OLED,PDP,Projection, TV)에는 그들의 분류 기준이 되는 특성값들을 가지고 있으며, 이에 따라 상기 특성 추출부(121)에 의해 추출되는 문서의 특성들을 이용하여 문서를 상기 분류코드(124)에 맵핑시킬 수 있게 된다.Each of the codes (for example, CRT, DTV, OLED, PDP, Projection, and TV) included in the
전술한 바와 같은 상기 특성 추출부(121), 유사도 판단부(122) 및 분류 체계부(123)는 상기 데이터베이스(110)로 새롭게 제공되는 문서에 대해서도 동일한 역할을 수행할 수 있으며, 이에 따라 사용자가 수작업으로 신규의 문서를 분류해야 하는 수고스러움을 덜 수 있다.As described above, the
도 4는 본 발명의 실시예에 따른 문서 검색 방법을 설명하기 위한 흐름도이다.4 is a flowchart illustrating a document search method according to an embodiment of the present invention.
먼저, 상기 특성 추출부(121)에 의해 데이터베이스(110)에 저장된 문서들 각각으로부터 특성 예컨대, 키워드 또는 색인어를 추출한다(S101). 이 경우, 상기 특 성 추출부(121)에 의해 추출된 특성에 대한 가중치 부여작업이 더 수행될 수 있으며, 추출된 특성에 기반을 둔 벡터화작업이 수행된다.First, a feature, for example, a keyword or an index word is extracted from each of the documents stored in the
그리고, 상기 유사도 판단부(122)에 의해 문사들간의 유사도가 판단되고(S103), 문서간의 유사도는 상기 특성 추출부(121)에 의해 형성된 각각의 문서에 대한 벡터들을 이용하여 계산될 수 있다.In addition, the similarity between the documents is determined by the similarity determining unit 122 (S103), and the similarity between the documents may be calculated using vectors for each document formed by the
그 다음, 상기 분류 체계부(123)에 의해 유사한 문서들끼리 분류되거나 상기 분류코드(124)에 따라 문서들이 분류된다(S105).Then, similar documents are classified by the
앞서 설명한 바와 같이, 상기 데이터베이스(110)로 제공되는 신규의 문서에 대해서도 상기 유사도 판단부(122)에 의해 기저장된 문서와의 유사도가 판단될 수 있으며, 상기 분류코드(124)에 따라 분류될 수 있다. As described above, the similarity with the previously stored document may also be determined by the
제안되는 바와 같은 본 발명의 사상에 따라 문서 분류 시스템 및 그 방법에 의해서, 데이터베이스에 저장된 문서로부터 특성 및 문서간의 유사도를 독출함으로써 저장된 문서가 소정의 분류체계에 따라 자동적으로 분류될 수 있는 장점이 있다.According to the idea of the present invention as described above, the document classification system and method thereof have the advantage that the stored documents can be automatically classified according to a predetermined classification system by reading the similarities between the properties and the documents from the documents stored in the database. .
또한, 외부로부터 유입되는 신규의 문서들을 자동으로 분류하고, 그 계층 구조를 지능적으로 관리함으로써 문서의 관리가 효율적으로 수행되는 장점이 있다.In addition, there is an advantage that the management of documents is efficiently performed by automatically classifying new documents introduced from the outside and intelligently managing the hierarchical structure.
Claims (6)
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060033660A KR100816923B1 (en) | 2006-04-13 | 2006-04-13 | System and method for classifying document |
US11/621,870 US8090743B2 (en) | 2006-04-13 | 2007-01-10 | Document management system and method |
CN2007100080684A CN101055581B (en) | 2006-04-13 | 2007-02-09 | Document management system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060033660A KR100816923B1 (en) | 2006-04-13 | 2006-04-13 | System and method for classifying document |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070102035A KR20070102035A (en) | 2007-10-18 |
KR100816923B1 true KR100816923B1 (en) | 2008-03-26 |
Family
ID=38795418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060033660A KR100816923B1 (en) | 2006-04-13 | 2006-04-13 | System and method for classifying document |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR100816923B1 (en) |
CN (1) | CN101055581B (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101035038B1 (en) | 2010-10-12 | 2011-05-19 | 한국과학기술정보연구원 | System and method for automatic generation of classifier for large data using of dynamic combination of classifier |
KR101064256B1 (en) | 2009-12-03 | 2011-09-14 | 한국과학기술정보연구원 | Apparatus and Method for Selecting Optimal Database by Using The Maximal Concept Strength Recognition Techniques |
KR101136037B1 (en) | 2009-11-06 | 2012-04-18 | 동국대학교 산학협력단 | Method and apparatus for indexing and retrieving documents |
KR101339103B1 (en) * | 2011-10-05 | 2013-12-09 | (주)워드워즈 | Document classifying system and method using semantic feature |
KR101458588B1 (en) * | 2012-09-12 | 2014-11-21 | (주)케이테크 | Expert curation recommendation system and expert recommendation method using thereof by field |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008013608A1 (en) * | 2008-03-11 | 2009-10-29 | Vodafone Holding Gmbh | Method and device for analyzing digital images |
KR101252397B1 (en) | 2011-06-02 | 2013-04-08 | 포항공과대학교 산학협력단 | Information Searching Method Using WEB and Spoken Dialogue Method Using The Same |
JP5389130B2 (en) * | 2011-09-15 | 2014-01-15 | 株式会社東芝 | Document classification apparatus, method and program |
KR101404644B1 (en) * | 2012-01-18 | 2014-07-01 | 고려대학교 산학협력단 | Apparatus and method for expanding knowledge base |
KR101492016B1 (en) * | 2013-03-15 | 2015-02-23 | 한국과학기술원 | Document Analysis Method |
CN104281603B (en) * | 2013-07-05 | 2018-01-19 | 北大方正集团有限公司 | Word frequency different size method and system |
KR101656604B1 (en) * | 2015-02-11 | 2016-09-23 | 중앙대학교 산학협력단 | Method and apparatus for selecting feature used to classify multi-label |
JP6623547B2 (en) * | 2015-05-12 | 2019-12-25 | 富士ゼロックス株式会社 | Information processing apparatus and information processing program |
CN107480879A (en) * | 2017-08-09 | 2017-12-15 | 郑州星睿水利科技有限公司 | Hydrology worker's professional knowledge examining method and system |
CN107609169A (en) * | 2017-09-27 | 2018-01-19 | 合肥博力生产力促进中心有限公司 | A kind of patent name back-stage management analysis system based on database |
CN109729126A (en) * | 2017-10-31 | 2019-05-07 | 北京国双科技有限公司 | Method for pushing, device, storage medium and the processor of textual resources |
CN111460786A (en) * | 2020-04-09 | 2020-07-28 | 南京东大智能化系统有限公司 | Technical method for analyzing traditional document structure |
CN112507062B (en) * | 2020-12-15 | 2023-07-25 | 国能大渡河流域水电开发有限公司 | Document classified storage management method, system and storage device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09282331A (en) * | 1996-04-09 | 1997-10-31 | Canon Inc | Device and method for judging document similarity |
KR20020089677A (en) * | 2001-05-24 | 2002-11-30 | 주식회사 네오프레스 | Method for classifying a document automatically and system for the performing the same |
KR20030094966A (en) * | 2002-06-11 | 2003-12-18 | 주식회사 코스모정보통신 | Rule based document auto taxonomy system and method |
JP2004206468A (en) | 2002-12-25 | 2004-07-22 | Ricoh Co Ltd | Document management system and document management program |
KR20060016933A (en) * | 2004-08-19 | 2006-02-23 | 함정우 | Apparatus and method for classification document |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6185550B1 (en) * | 1997-06-13 | 2001-02-06 | Sun Microsystems, Inc. | Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking |
JP3701197B2 (en) * | 2000-12-28 | 2005-09-28 | 松下電器産業株式会社 | Method and apparatus for creating criteria for calculating degree of attribution to classification |
CN1536483A (en) * | 2003-04-04 | 2004-10-13 | 陈文中 | Method for extracting and processing network information and its system |
-
2006
- 2006-04-13 KR KR1020060033660A patent/KR100816923B1/en not_active IP Right Cessation
-
2007
- 2007-02-09 CN CN2007100080684A patent/CN101055581B/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09282331A (en) * | 1996-04-09 | 1997-10-31 | Canon Inc | Device and method for judging document similarity |
KR20020089677A (en) * | 2001-05-24 | 2002-11-30 | 주식회사 네오프레스 | Method for classifying a document automatically and system for the performing the same |
KR20030094966A (en) * | 2002-06-11 | 2003-12-18 | 주식회사 코스모정보통신 | Rule based document auto taxonomy system and method |
JP2004206468A (en) | 2002-12-25 | 2004-07-22 | Ricoh Co Ltd | Document management system and document management program |
KR20060016933A (en) * | 2004-08-19 | 2006-02-23 | 함정우 | Apparatus and method for classification document |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101136037B1 (en) | 2009-11-06 | 2012-04-18 | 동국대학교 산학협력단 | Method and apparatus for indexing and retrieving documents |
KR101064256B1 (en) | 2009-12-03 | 2011-09-14 | 한국과학기술정보연구원 | Apparatus and Method for Selecting Optimal Database by Using The Maximal Concept Strength Recognition Techniques |
KR101035038B1 (en) | 2010-10-12 | 2011-05-19 | 한국과학기술정보연구원 | System and method for automatic generation of classifier for large data using of dynamic combination of classifier |
WO2012050252A1 (en) * | 2010-10-12 | 2012-04-19 | 한국과학기술정보연구원 | System and method for automatically generating a mass classifier using a dynamic combination of classifiers |
KR101339103B1 (en) * | 2011-10-05 | 2013-12-09 | (주)워드워즈 | Document classifying system and method using semantic feature |
KR101458588B1 (en) * | 2012-09-12 | 2014-11-21 | (주)케이테크 | Expert curation recommendation system and expert recommendation method using thereof by field |
Also Published As
Publication number | Publication date |
---|---|
KR20070102035A (en) | 2007-10-18 |
CN101055581A (en) | 2007-10-17 |
CN101055581B (en) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100816923B1 (en) | System and method for classifying document | |
CN109791569B (en) | Causal relationship identification device and storage medium | |
KR101715432B1 (en) | Word pair acquisition device, word pair acquisition method, and recording medium | |
JP4233836B2 (en) | Automatic document classification system, unnecessary word determination method, automatic document classification method, and program | |
US20070244882A1 (en) | Document management system and method | |
EP1170674A2 (en) | Method and apparatus for ordering electronic data | |
CN108647322B (en) | Method for identifying similarity of mass Web text information based on word network | |
Usman et al. | Urdu text classification using majority voting | |
AU2013365452B2 (en) | Document classification device and program | |
CN108090216B (en) | Label prediction method, device and storage medium | |
CN107506472B (en) | Method for classifying browsed webpages of students | |
Sabuna et al. | Summarizing Indonesian text automatically by using sentence scoring and decision tree | |
KR102334236B1 (en) | Method and application of meaningful keyword extraction from speech-converted text data | |
KR20220119745A (en) | Methods for retrieving content, devices, devices and computer-readable storage media | |
KR101976081B1 (en) | Method, system and computer program for semantic image retrieval based on topic modeling | |
KR20070009338A (en) | Image search method and apparatus considering a similarity among the images | |
CN106844482B (en) | Search engine-based retrieval information matching method and device | |
US20190362187A1 (en) | Training data creation method and training data creation apparatus | |
Zehtab-Salmasi et al. | FRAKE: fusional real-time automatic keyword extraction | |
JP4873739B2 (en) | Text multiple topic extraction apparatus, text multiple topic extraction method, program, and recording medium | |
JP2006227823A (en) | Information processor and its control method | |
JP2009015795A (en) | Text segmentation apparatus, text segmentation method, program, and recording medium | |
CN111475607A (en) | Web data clustering method based on Mashup service function characteristic representation and density peak detection | |
JP2004287670A (en) | Image database preparing device, image database preparing method, program, and recording medium | |
JP2013101679A (en) | Text segmentation device, method, program, and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20111221 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20130226 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |