KR100921894B1 - Method and system for classifying documents using classification information of query - Google Patents

Method and system for classifying documents using classification information of query Download PDF

Info

Publication number
KR100921894B1
KR100921894B1 KR1020080035523A KR20080035523A KR100921894B1 KR 100921894 B1 KR100921894 B1 KR 100921894B1 KR 1020080035523 A KR1020080035523 A KR 1020080035523A KR 20080035523 A KR20080035523 A KR 20080035523A KR 100921894 B1 KR100921894 B1 KR 100921894B1
Authority
KR
South Korea
Prior art keywords
query
category
classification information
document
classification
Prior art date
Application number
KR1020080035523A
Other languages
Korean (ko)
Inventor
곽태영
문성익
김병학
이우주
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020080035523A priority Critical patent/KR100921894B1/en
Application granted granted Critical
Publication of KR100921894B1 publication Critical patent/KR100921894B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: A method and system for classifying documents using classification information of query are provided to determine the intention of the user reflected to a query exactly and easily. CONSTITUTION: A method for classifying documents using classification information of query includes the step of maintaining the query database(310) which is stored by matching the individual category information of a query with the corresponding query; the step of determining the individual category information of the corresponding query as the individual category information of the word in case the query corresponding to the word included in the object of classification document is included in the query database; the step of producing the category information of the object of classification document.

Description

쿼리 분류정보를 이용한 문서 분류 방법 및 시스템{Method and System for Classifying Documents Using Classification Information of Query}Method and System for Classifying Documents Using Classification Information of Query}

본 발명은 문서 분류에 관한 것으로서 보다 상세하게는 사용자에 의해 입력된 쿼리의 분류정보를 이용하여 문서를 분류하는 방법에 관한 것이다.The present invention relates to document classification, and more particularly, to a method of classifying a document using classification information of a query input by a user.

인터넷의 발달 및 보급의 증가로 인해 인터넷을 이용한 다양한 서비스가 제공되고 있는데, 그 중 대표적인 예가 검색 서비스라 할 수 있다. 이러한 검색 서비스는 사용자가 검색하고자 하는 단어 또는 단어의 조합을 쿼리로 입력하면, 검색 엔진이 입력된 쿼리에 상응하는 검색결과 문서(예컨대, 사용자로부터 입력된 검색 쿼리를 포함하는 웹 사이트, 기사, 또는 해당 검색 쿼리를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 의미한다.Due to the development and spread of the Internet, various services using the Internet are provided, and a representative example thereof is a search service. When a search service inputs a word or a combination of words to be searched by a user, the search engine searches a search result document corresponding to the search engine (eg, a web site, an article, or the search query input from the user). A service that provides a user with an image having a file name including the corresponding search query).

위에서 볼 수 있는 바와 같이, 검색 서비스를 이용하기 위해 사용자에 의해 입력되는 쿼리에는 사용자의 검색의도가 포함되어 있다고 볼 수 있다. 따라서, 사용자가 해당 쿼리를 어떠한 의도로 입력하였는지를 정확하게 분석할 수 있다면, 검색 서비스와 관련하여 다양한 컨텐츠를 효율적으로 제공할 수 있을 뿐만 아니라 인터넷을 이용한 컨텐츠의 제공범위를 확장시킬 수 있다.As can be seen above, the query input by the user to use the search service includes the search intention of the user. Therefore, if the user can accurately analyze the intention that the user entered the query, not only can efficiently provide various contents in relation to a search service, but can also extend the scope of providing contents using the Internet.

사용자들이 어떠한 의도를 가지고 쿼리를 입력했는지를 분석하기 방법 중 대표적인 것으로서 쿼리 분류를 이용하는 방법이 있다. 그러나, 상술한 바와 같이 사용자에 의해 입력되는 쿼리는 하나의 단어 또는 몇 개의 단어만이 조합된 형태이기 때문에, 해당 쿼리를 정확하게 분류하는 것은 쉽지 않다는 문제점이 있다.One of the typical methods of analyzing the intentions of users entering a query is to use query classification. However, as described above, since the query input by the user is a single word or a combination of only a few words, it is not easy to correctly classify the query.

한편, 상술한 검색 서비스를 통해 검색결과 문서를 카테고리 별로 분류하여 제공하거나 인터넷 상의 문서들을 카테고리 별로 분류하여 제공하기 위해서는 검색결과 문서 또는 인터넷 상의 문서(이하 '웹문서'라 함)를 카테고리 별로 분류하는 작업이 요구된다. 그러나, 종래에는 이러한 웹문서의 분류가 수작업을 통해 수행되었으므로 분류에 많은 비용과 시간이 소요된다는 문제점이 있었다.Meanwhile, in order to provide search result documents classified by category through the above-described search service or to provide documents classified on the Internet by category, search result documents or documents on the Internet (hereinafter referred to as 'web documents') are classified into categories. Work is required. However, in the related art, since the classification of the web document is performed by manual, there is a problem that the classification takes a lot of cost and time.

본 발명은 상술한 문제점을 해결하기 위한 것으로서, 쿼리에 대한 검색결과 문서의 분류정보 또는 쿼리에 대한 검색결과 문서에 포함된 카테고리 정보를 이용하여 해당 쿼리의 카테고리 별 분류정보를 생성할 수 있는 쿼리 분류정보 생성 방법 및 시스템을 제공하는 것을 기술적 과제로 한다.The present invention is to solve the above-described problem, query classification that can generate the classification information for each category of the query by using the classification information of the search result document for the query or the category information included in the search result document for the query It is a technical problem to provide a method and system for generating information.

또한, 본 발명은 쿼리의 카테고리 별 분류정보를 이용하여 생성된 문서 분류정보를 이용하여 문서를 분류할 수 있는 문서 분류 방법 및 시스템을 제공하는 것을 다른 기술적 과제로 한다.Another object of the present invention is to provide a document classification method and a system capable of classifying documents using document classification information generated by using category information for each category of a query.

상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 쿼리 분류정보를 이용한 문서 분류 방법은 쿼리의 카테고리 별 분류정보가 해당 쿼리와 매칭되어 저장된 쿼리 데이터베이스를 유지하는 단계; 분류 대상 문서에 포함된 단어에 상응하는 쿼리가 상기 쿼리 데이터베이스에 포함되어 있는 경우 해당 쿼리의 카테고리 별 분류정보를 상기 단어의 카테고리 별 분류정보로 결정하는 단계; 및 상기 분류 대상 문서에 포함된 단어들의 카테고리 별 분류정보를 이용하여 상기 분류 대상 문서의 분류정보를 생성하는 단계를 포함한다.According to an aspect of the present invention, there is provided a document classification method using query classification information. Determining classification information for each category of the query as classification information for each category of the word when a query corresponding to a word included in a document to be classified is included in the query database; And generating classification information of the classification target document by using classification information for each category of words included in the classification target document.

일 실시예에 있어서, 상기 문서 분류정보 생성 단계에서, 상기 문서 분류정보는 상기 분류 대상 문서에 포함된 단어들의 카테고리 별 분류정보를 각 카테고리 별로 합산함으로써 생성되며, 생성된 문서 분류정보를 백분율 단위로 환산함으로써 문서 분류정보를 생성하는 것을 특징으로 한다.In one embodiment, in the document classification information generation step, the document classification information is generated by summing classification information for each category of words included in the classification target document for each category, and generates the generated document classification information in percentage units. The document classification information is generated by the conversion.

한편, 상술한 쿼리 분류정보를 이용한 문서 분류 방법은 상기 쿼리의 카테고리 별 분류정보를 생성하는 단계를 더 포함하는 것을 특징으로 한다. 일 실시예에 있어서, 상기 쿼리의 카테고리 별 분류정보는 상기 쿼리에 대한 검색결과 문서들의 카테고리 별 분류정보를 각 카테고리 별로 합산함으로써 생성되며, 이때 상기 검색결과 문서들의 카테고리 별 분류정보는 단어 구축 방법 또는 문서 학습 방법에 의해 생성되는 것을 특징으로 한다. 다른 실시예에 있어서, 상기 쿼리의 카테고리 별 분류정보는 상기 쿼리에 대한 검색결과 문서에 포함되어 있는 카테고리 정보를 카테고리 별로 합산함으로써 생성되며, 이때 상기 검색결과 문서는 상기 쿼리에 대한 검색결과 문서들 중 사용자들에 의해 선택된 검색결과 문서인 것을 특징으로 한다.Meanwhile, the document classification method using the above-described query classification information may further include generating classification information for each category of the query. In one embodiment, the classification information for each category of the query is generated by summing the category information for each category of search result documents for the query for each category, wherein the classification information for each category of the search result documents is a word construction method or Characterized by the document learning method. In another embodiment, classification information for each category of the query is generated by summing category information included in a search result document for the query for each category, wherein the search result document is one of the search result documents for the query. And a search result document selected by the users.

한편, 상술한 쿼리 분류정보를 이용한 문서 분류 방법은 사용자로부터 검색요청이 수신되는 경우 상기 검색요청에 상응하는 검색결과 문서들을 상기 문서 분류정보를 이용하여 카테고리 별로 분류하여 제공하는 단계를 더 포함하는 것을 특징으로 한다.On the other hand, the document classification method using the above-described query classification information further comprises the step of providing the search result documents corresponding to the search request classified by category using the document classification information when a search request is received from a user It features.

상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 쿼리 분류정보를 이용한 문서 분류 시스템은 쿼리의 카테고리 별 분류정보가 해당 쿼리와 매칭되어 저장되어 있는 쿼리 데이터베이스; 분류 대상 문서에 포함된 단어들을 추출하고, 추출된 단어에 상응하는 쿼리가 상기 쿼리 데이터베이스에 포함되어 있는 경우 해당 쿼리의 카테고리 별 분류정보를 상기 단어의 카테고리 별 분류정보로 결정하는 단어 분류정보 결정부; 및 상기 단어 분류정보 결정부에 의해 결정된 각 단어의 카테고리 별 분류정보 정보를 이용하여 상기 분류 대상 문서의 분류정보를 생성하는 문서 분류정보 생성부를 포함한다.According to another aspect of the present invention, there is provided a document classification system using query classification information. Word classification information determination unit which extracts words included in a document to be classified, and determines classification information for each category of the query as classification information for each category of the word when a query corresponding to the extracted word is included in the query database. ; And a document classification information generation unit configured to generate classification information of the document to be classified, using classification information for each category of each word determined by the word classification information determination unit.

상술한 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 쿼리 분류정보 생성 방법은 쿼리에 대한 검색결과 문서들의 카테고리 별 분류정보를 획득하는 단계; 및 상기 각 검색결과 문서의 카테고리 별 분류정보를 카테고리 별로 합산함으로써 상기 쿼리의 카테고리 별 분류정보를 생성하는 단계를 포함한다. 이때, 상기 검색결과 문서들의 카테고리 별 분류정보는 단어 구축 또는 문서 학습을 이용하여 생성되는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a method of generating query classification information, the method comprising: obtaining classification information for each category of search result documents for a query; And generating category information of each category of the query by adding category information of each category of the search result document by category. In this case, the classification information for each category of the search result documents may be generated using word construction or document learning.

상술한 다른 목적을 달성하기 위한 본 발명의 다른 측면에 따른 쿼리 분류정보 생성 방법은 쿼리에 대한 검색결과 문서로부터 각 검색결과 문서에 포함된 카테고리 정보를 추출하는 단계; 및 추출된 카테고리 정보들을 카테고리 별로 합산함으로써 상기 쿼리의 카테고리 별 분류정보를 생성하는 단계를 포함한다. 이때, 상기 쿼리에 대한 검색결과 문서는 사용자에 의해 선택된 검색결과 문서인 것을 특징으로 한다.In accordance with another aspect of the present invention, there is provided a method of generating query classification information, comprising: extracting category information included in each search result document from a search result document for a query; And generating classification information for each category of the query by adding the extracted category information for each category. At this time, the search result document for the query is characterized in that the search result document selected by the user.

상술한 다른 목적을 달성하기 위한 본 발명의 여전히 측면에 따른 쿼리 분류정보 생성 시스템은 쿼리에 대한 각각의 검색결과 문서로부터 카테고리 정보들을 추출하는 카테고리 정보 추출부; 및 추출된 카테고리 정보들을 카테고리 별로 합산함으로써 상기 쿼리의 카테고리 별 분류정보를 생성하는 연산부를 포함한다.In accordance with still another aspect of the present invention, there is provided a system for generating query classification information, comprising: a category information extracting unit for extracting category information from each search result document for a query; And an operation unit configured to generate classification information for each category of the query by adding the extracted category information for each category.

상술한 바와 같이 본 발명에 따르면, 쿼리에 대한 검색결과 문서의 분류정보 또는 쿼리에 대한 검색결과 문서에 포함되어 있는 카테고리 정보를 이용하여 해당 쿼리의 카테고리 별 분류정보를 생성하므로 쿼리에 반영된 사용자의 의도를 보다 정확하고 용이하게 판단할 수 있다는 효과가 있고, 이러한 쿼리 분류정보를 이용하여 인터넷을 통한 컨텐츠 제공범위를 확장할 수 있다는 효과가 있다.As described above, according to the present invention, since the classification information for each category of the query is generated using the classification information of the search result document for the query or the category information included in the search result document for the query, the intention of the user reflected in the query is reflected. Can be more accurately and easily determined, and the scope of content provision through the Internet can be extended by using such query classification information.

또한, 본 발명은 사용자의 입력 의도가 내포된 쿼리의 카테고리 별 분류정보를 이용하여 문서 분류정보를 생성하고, 이러한 문서 분류정보를 이용하여 문서를 분류할 수 있으므로 문서 분류의 최신성 유지는 물론, 문서 분류의 자동화를 확보할 수 있고, 이러한 문서 분류의 자동화로 인해 문서 분류에 소요되는 시간과 노력을 감소시킬 수 있다는 효과가 있다.In addition, the present invention can generate the document classification information by using the classification information for each category of the query containing the user's input intent, and can classify the document by using the document classification information, as well as maintaining the latest document classification, The automation of document classification can be secured, and the automation of such document classification can reduce the time and effort required for document classification.

이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 쿼리 분류정보 생성 시스템의 개략적인 블록도이다. 도시된 바와 같이 쿼리 분류정보 생성 시스템(100)은 문서 분류정보 DB(110), 문서 분류정보 추출부(112), 및 제1 연산부(114)를 포함한다.1 is a schematic block diagram of a system for generating query classification information according to an embodiment of the present invention. As shown, the query classification information generation system 100 includes a document classification information DB 110, a document classification information extracting unit 112, and a first calculating unit 114.

문서 분류정보 DB(110)는 문서들의 카테고리 별 분류정보가 저장되어 있다. 여기서, 문서 분류정보란 해당 문서가 특정 카테고리에 속하게 되는 정도를 점수화한 것을 의미한다. 예컨대, 특정 문서가 드라마라는 카테고리에 속하게 되는 정도가 0.57이고, 역사라는 카테고리에 속하게 되는 정도가 0.33인 경우, 해당 문서의 문서 분류정보는 "드라마: 0.57", "역사: 0.33"과 같이 정의되며, 문서 분류정보 DB(112)에는 이러한 문서 분류정보가 각 문서와 매칭되어 저장되는 것이다.The document classification information DB 110 stores classification information for each category of documents. Here, the document classification information means scoring the degree to which the corresponding document belongs to a specific category. For example, if the degree to which a particular document belongs to the category of drama is 0.57 and the degree to belong to the category of history is 0.33, the document classification information of the document is defined as "Drama: 0.57", "History: 0.33". The document classification information DB 112 stores the document classification information in correspondence with each document.

일 실시예에 있어서 각 문서의 문서 분류정보는 문서 학습 방법 또는 단어 구축 방법을 이용하여 산출될 수 있다. 이하에서는 문서 학습 방법과 단어 구축 방법을 이용하여 문서 분류정보를 생성하는 방법에 대해 구체적으로 설명한다.In one embodiment, document classification information of each document may be calculated using a document learning method or a word construction method. Hereinafter, a method of generating document classification information using a document learning method and a word construction method will be described in detail.

문서 학습 방법의 경우, 먼저 사용자들에 의해 선택된 소정 개수 이상의 문서를 카테고리 별로 분류하여 두고, 각 문서로부터 각 문서에 포함되어 있는 단어들을 추출하여 추출된 단어에 해당 문서가 속해 있는 카테고리 정보를 지정한다. 이러한 과정을 모든 카테고리에 포함되어 있는 문서에 대해 반복한 후 각각의 단어에 지정되어 있는 각 카테고리 별로 그 개수를 합산함으로써 각 단어의 카테고리 분류를 결정하고, 이러한 정보를 이용하여 단어 데이터베이스를 구축한다.In the document learning method, first, a predetermined number of documents selected by users are classified into categories, and words included in each document are extracted from each document, and the category information to which the document belongs is designated in the extracted word. . This process is repeated for the documents included in all the categories, and then the category classification of each word is determined by summing the number for each category specified in each word, and the word database is constructed using this information.

이후, 특정 문서에 대해 문서 분류가 요청되면 해당 문서에 포함된 단어를 추출하고, 추출된 단어가 단어 데이터베이스에서 저장되어 있는 경우 해당 단어에 매칭되어 있는 카테고리 정보를 추출된 단어의 카테고리 정보로 결정하며, 특정 문서에 포함된 모든 단어들의 카테고리 정보를 카테고리 별로 합산함으로써 특정 문서의 문서 분류정보를 생성하게 된다.Subsequently, when a document classification is requested for a specific document, a word included in the document is extracted, and if the extracted word is stored in the word database, the category information matching the word is determined as the category information of the extracted word. In addition, by summing the category information of all the words included in the specific document for each category, document classification information of the specific document is generated.

한편, 단어 구축 방법의 경우, 먼저 각 카테고리에 속하게 될 대표 단어들을 선정하고, 소정 개수 이상의 문서들을 대상으로 해당 문서 내에서 대표 단어들과 함께 출현하는 다른 단어들에 대해 대표 단어들과 동일한 카테고리 정보를 지정한다. 이러한 과정을 모든 문서에 대해 반복한 후 각각의 단어에 지정되어 있는 각 카테고리 별로 그 개수를 합산함으로써 각 단어의 카테고리 분류를 결정하고, 이러 한 정보를 이용하여 단어 데이터베이스를 구축한다.Meanwhile, in the word construction method, first, representative words belonging to each category are selected, and the same category information as the representative words for other words that appear together with the representative words in the document for a predetermined number or more of documents. Specifies. This process is repeated for all documents, and then the category classification of each word is determined by summing the number for each category assigned to each word, and a word database is constructed using this information.

이후, 특정 문서에 대해 문서 분류가 요청되면 해당 문서에 포함된 단어를 추출하고, 추출된 단어가 단어 데이터베이스에서 저장되어 있는 경우 해당 단어에 매칭되어 있는 카테고리 정보를 추출된 단어의 카테고리 정보로 결정하며, 특정 문서에 포함된 모든 단어들의 카테고리 정보를 카테고리 별로 합산함으로써 특정 문서의 문서 분류정보를 생성하게 된다.Subsequently, when a document classification is requested for a specific document, a word included in the document is extracted, and if the extracted word is stored in the word database, the category information matching the word is determined as the category information of the extracted word. In addition, by summing the category information of all the words included in the specific document for each category, document classification information of the specific document is generated.

문서 분류정보 추출부(112)는 쿼리에 대한 검색결과 문서 각각의 문서 분류정보를 문서 분류정보 DB(110)로부터 추출한다. 구체적으로, 소정 쿼리에 대해 검색을 수행함으로써 생성되는 검색결과 문서들의 문서 분류정보를 문서 분류정보 DB(110)로부터 추출하는 것이다. 예컨대, "왕과나"라는 쿼리에 대해 2개의 검색결과 문서가 존재하고, 제1 검색결과 문서의 문서 분류정보는 "드라마: 0.57", "역사: 0.33"이고, 제2 검색결과 문서의 문서 분류정보는 "영화: 0.21", 드라마: 0.55"인 경우, 문서 분류정보 추출부(112)는 문서 분류정보 DB(110)로부터 이러한 각 검색결과 문서의 문서 분류정보를 추출하는 것이다.The document classification information extracting unit 112 extracts document classification information of each search result document for the query from the document classification information DB 110. Specifically, document classification information of search result documents generated by performing a search for a predetermined query is extracted from the document classification information DB 110. For example, there are two search result documents for the query " King and I ", and the document classification information of the first search result document is "Drama: 0.57", "History: 0.33", and the document of the second search result document. When the classification information is "movie: 0.21", drama: 0.55 ", the document classification information extracting unit 112 extracts document classification information of each of these search result documents from the document classification information DB 110.

제1 연산부(114)는 문서 분류정보 추출부(112)에 의해 추출된 각 검색결과 문서들의 문서 분류정보를 각 카테고리별로 합산함으로써 쿼리의 카테고리 별 분류정보를 생성한다. 예컨대, 상술한 예에서와 같이 "왕과나"라는 쿼리의 경우 제1 검색결과 문서의 문서 분류정보는 "드라마: 0.57", "역사: 0.33"이고, 제2 검색결과 문서의 문서 분류정보는 "영화: 0.21", "드라마: 0.55"이므로 이러한 문서 분류정보들을 각 카테고리 별로 합산하면, "드라마: 1.12", "역사: 0.33", "영화: 0.21"이 된다. 따라서, "왕과나"라는 쿼리의 카테고리 별 분류정보는 "드라마: 1.12", "역사: 0.33", "영화: 0.21"이 된다.The first calculation unit 114 generates the classification information for each category of the query by summing the document classification information of the respective search result documents extracted by the document classification information extraction unit 112 for each category. For example, as in the above example, in the case of the query "Wang and Me", the document classification information of the first search result document is "Drama: 0.57", "History: 0.33", and the document classification information of the second search result document is Since "movie: 0.21" and "drama: 0.55", the document classification information is added to each category to "drama: 1.12", "history: 0.33", and "movie: 0.21". Therefore, the categorization information for each category of the query "Wang and Me" is "Drama: 1.12", "History: 0.33", and "Movie: 0.21".

쿼리 분류 정보 생성 시스템(100)은 이러한 과정을 통해 생성된 각 쿼리 별 분류 정보를 데이터베이스화하여 관리할 수 있다.The query classification information generation system 100 may manage and classify the classification information for each query generated through this process.

도 2는 본 발명의 다른 실시예에 따른 쿼리 분류정보 생성 시스템의 개략적인 블록도이다. 도시된 바와 같이 쿼리 분류정보 생성 시스템(200)은 카테고리 정보 추출부(210), 쿼리 별 선택문서 DB(212), 및 제2 연산부(214)를 포함한다.2 is a schematic block diagram of a system for generating query classification information according to another embodiment of the present invention. As shown, the query classification information generation system 200 includes a category information extraction unit 210, a query-specific selection document DB 212, and a second operation unit 214.

카테고리 정보 추출부(210)는 소정 쿼리에 대한 검색결과 문서 각각에 포함되어 있는 카테고리 정보를 각 검색결과 문서로부터 추출한다. 구체적으로, 검색 서비스를 제공함에 이어서, 지식인과 같은 검색 컬렉션을 통해 제공되는 검색결과 문서에는 해당 검색결과 문서가 속하는 카테고리의 ID 또는 카테고리 이름을 포함하는 카테고리 정보가 검색결과 문서 내에 포함되어 있으므로 카테고리 정보 추출부(210)는 각 검색결과 문서로부터 이러한 카테고리 정보를 추출하는 것이다.The category information extracting unit 210 extracts category information included in each search result document for a predetermined query from each search result document. Specifically, after providing a search service, a search result document provided through a search collection such as an intellectual person includes category information including an ID or a category name of a category to which the search result document belongs in the search result document. The extraction unit 210 extracts such category information from each search result document.

일 실시예에 있어서, 카테고리 정보 추출부(210)는 소정 쿼리에 대한 모든 검색결과 문서로부터 카테고리 정보를 추출할 수도 있지만, 변형된 실시예에 있어서는 해당 쿼리에 대해 사용자들이 선택한 검색결과 문서에 대해서만 카테고리 정보를 추출할 수 있다. 이를 위해 쿼리 분류정보 생성 시스템(200)은 해당 쿼리에 대한 검색결과 문서들 중 사용자들에 의해 선택된 검색결과 문서들을 해당 쿼리와 매칭시켜 쿼리별 선택문서 DB(212)에 저장할 수 있다.In one embodiment, the category information extractor 210 may extract category information from all search result documents for a given query, but in a modified embodiment, the category information extractor 210 may only category the search result documents selected by users for the query. Information can be extracted. To this end, the query classification information generation system 200 may match the search result documents selected by the users among the search result documents for the query with the corresponding query and store the selected query DBs 212 for each query.

제2 연산부(214)는 상술한 카테고리 정보 추출부(210)에 의해 추출된 카테고 리 정보들을 카테고리 별로 합산함으로써 해당 쿼리의 카테고리 별 분류정보를 생성한다. 이때, 카테고리 정보는 상술한 바와 같이 쿼리에 대한 검색결과 문서 중 사용자들에 의해 선택된 검색결과 문서로부터 추출된 것일 수 있으며, 제2 연산부(214)는 추출된 카테고리 정보들을 카테고리 별로 합산한 결과값을 백분율 단위로 변환함으로써 해당 쿼리의 카테고리 별 분류정보를 생성할 수 있다.The second calculating unit 214 generates category information for each category of the corresponding query by summing the category information extracted by the category information extracting unit 210 for each category. In this case, the category information may be extracted from the search result document selected by the users of the search result document for the query as described above, the second operation unit 214 is the result value obtained by summing the extracted category information for each category By converting in percentage units, you can generate classification information for each category of the query.

예컨대, "왕과나"라는 쿼리에 대해 사용자들에 선택된 문서가 10개인 경우 제1 검색결과 문서 및 제5 검색결과 문서로부터 추출된 카테고리 정보가 드라마이고, 제2 내지 제4 검색결과 문서와 제6 내지 제8 검색결과 문서로부터 추출된 카테고리 정보가 역사이며, 제9 및 제10 검색결과 문서로부터 추출된 카테고리 정보가 영화인 경우 각 카테고리 정보를 카테고리 별로 합산하면 드라마가 2개, 역사가 6개, 영화가 2개이므로 이러한 값들을 백분율 단위로 환산하면 "왕과나"라는 쿼리에 대한 카테고리 별 분류정보는 "역사: 0.6", "드라마: 0.2", "영화: 0.2"와 같이 정의됨을 알 수 있다.For example, if there are 10 documents selected by the users for the query "King and Me", the category information extracted from the first search result document and the fifth search result document is drama, and the second to fourth search result documents and the first search result document are selected. If the category information extracted from the sixth to eighth search result documents is history, and the category information extracted from the ninth and tenth search result documents is a movie, when each category information is added by category, there are two dramas, six histories, and a movie. Are two, so if you convert these values in percentage, you can see that the categorization information for the query "Wang and Me" is defined as "History: 0.6", "Drama: 0.2", and "Movie: 0.2". .

쿼리 분류 정보 생성 시스템(200)은 이러한 과정을 통해 생성된 각 쿼리 별 분류 정보를 데이터베이스화하여 관리할 수 있다.The query classification information generation system 200 may manage and classify the classification information for each query generated through this process.

상술한 바와 같이 본 발명의 실시예에 따른 쿼리 분류정보 생성 시스템은 해당 쿼리에 대한 검색결과 문서의 문서 분류정보를 이용하여 쿼리 분류정보를 생성하고, 이러한 쿼리 분류정보를 이용하여 각 쿼리를 카테고리 별로 분류할 수 있게 되므로 쿼리에 반영된 사용자의 의도를 보다 정확하고 용이하게 판단할 수 있게 된다.As described above, the system for generating query classification information according to an embodiment of the present invention generates query classification information by using document classification information of a search result document for a corresponding query, and uses the query classification information to classify each query by category. Because it can be classified, the user's intention reflected in the query can be judged more accurately and easily.

도 3은 쿼리 분류정보를 이용하여 문서를 분류할 수 있는 문서 분류 시스템의 개략적인 블록도이다. 도시된 바와 같이, 문서 분류 시스템(300)은 쿼리 DB(310), 단어 분류정보 결정부(320), 및 문서 분류정보 생성부(330)을 포함한다.3 is a schematic block diagram of a document classification system capable of classifying documents using query classification information. As shown, the document classification system 300 includes a query DB 310, a word classification information determiner 320, and a document classification information generator 330.

쿼리 DB(310)는 각 쿼리의 카테고리 별 분류정보가 해당 쿼리와 매칭되어 저장되어 있다. 일 실시예에 있어서, 쿼리의 카테고리 별 분류정보는 상술한 쿼리 분류정보 생성 시스템(100, 200)에 의해 생성된 것일 수 있다.The query DB 310 stores the classification information of each query by matching it with the corresponding query. In one embodiment, the classification information for each category of the query may be generated by the above-described query classification information generation system (100, 200).

본 실시예에 있어서는 쿼리 DB(310)가 문서 분류 시스템(300)에 포함되는 것으로 기재하였지만, 쿼리 DB(310)는 상술한 쿼리 분류정보 생성 시스템(100, 200)에 포함되어 있고 문서 분류 시스템(300)은 쿼리 분류정보 생성 시스템(100, 200)으로부터 각 쿼리의 카테고리 별 분류정보를 제공받기만 할 수도 있으므로 변형된 실시예에 있어서 이러한 쿼리 DB(310)를 문서 분류 시스템(300)이 직접 포함하지 않을 수 있다.In the present embodiment, the query DB 310 is described as being included in the document classification system 300, but the query DB 310 is included in the above-described query classification information generation system 100 and 200, and the document classification system ( The document classification system 300 does not directly include the query DB 310 in the modified embodiment, since 300 may only receive classification information for each query category from the query classification information generation systems 100 and 200. You may not.

또한, 상술한 실시예에 있어서 문서 분류 시스템(300)은 문서 분류 시스템(300)과는 별도의 구성요소인 쿼리 분류정보 생성 시스템(100, 200)으로부터 제공된 각 쿼리의 카테고리 별 분류정보를 이용하는 것을 기재하였지만, 변형된 실시예에 있어서는 문서 분류 시스템(300)이 쿼리 정보 생성 시스템을 하나의 모듈 형태로 직접 포함할 수도 있을 것이다.In addition, in the above-described embodiment, the document classification system 300 uses classification information for each category of each query provided from the query classification information generation systems 100 and 200 which are separate components from the document classification system 300. Although described, in the modified embodiment, the document classification system 300 may directly include the query information generation system in one module form.

단어 분류정보 결정부(320)는 분류 대상 문서를 수신하고, 분류 대상 문서로부터 분류 대상 문서에 포함된 단어들을 추출하여 해당 단어들에 대한 카테고리 별 분류정보를 결정한다.The word classification information determiner 320 receives a classification target document, extracts words included in the classification target document from the classification target document, and determines classification information for each category of the corresponding words.

일 실시예에 있어서, 단어 분류정보 결정부(320)는 쿼리 DB(310) 내에 추출된 단어와 동일한 쿼리가 존재하는지 여부를 판단하여, 존재하는 경우 해당 쿼리의 카테고리 별 분류정보를 추출된 단어의 카테고리 별 분류정보로 결정할 수 있다.In one embodiment, the word classification information determiner 320 determines whether the same query as the word extracted in the query DB 310 exists, and if present, the classification information for each category of the corresponding query is extracted. Can be determined by the category information by category.

문서 분류정보 생성부(330)는 단어 분류정보 결정부(320)에 의해 결정된 각 단어의 카테고리 별 분류정보를 이용하여 분류 대상 문서의 카테고리 별 문서 분류정보를 생성한다. 일 실시예에 있어서, 문서 분류정보 생성부(330)는 분류 대상 문서에 포함되어 있는 각 단어들의 카테고리 별 분류정보들을 카테고리 별로 합산함으로써 해당 문서의 문서 분류정보를 생성할 수 있다.The document classification information generation unit 330 generates document classification information for each category of the document to be classified using the classification information for each category of each word determined by the word classification information determination unit 320. In one embodiment, the document classification information generation unit 330 may generate document classification information of the corresponding document by summing category information for each category of words included in the document to be classified for each category.

예컨대, 분류 대상 문서에서 "왕과나"라는 단어와 "이산"이라는 단어가 추출되었고, 쿼리 DB(310)에 저장된 "왕과나"라는 쿼리에 대한 카테고리 별 분류정보가 "드라마: 1.12", "역사: 0.33", "영화: 0.21"이고, "이산"이라는 쿼리에 대한 카테고리 별 분류정보가 "드라마: 1.77", "역사: 0.53"인 경우, 각 단어의 카테고리 별 분류정보를 카테고리 별로 합산하면 드라마라는 카테고리에 대한 분류정보는 "2.19"가 되고, 역사라는 카테고리에 대한 분류정보는 "0.86"이 되며, 영화라는 카테고리에 대한 분류정보는 "0.21"이 됨을 알 수 있다. 따라서, 문서 분류정보 생성부(330)는 해당 분류 대상 문서에 대해 "드라마: 2.19", "역사:0.86", "영화: 0.21" 라는 문서 분류정보를 생성하게 되는 것이다.For example, the words "wang and me" and the words "discrete" were extracted from the document to be classified, and the category information for each category of the query "king and me" stored in the query DB 310 is "drama: 1.12", If the "History: 0.33", "Movie: 0.21", and the classification information by category for the query "Discrete" is "Drama: 1.77", "History: 0.53", the classification information of each word category is summed by category Then, the classification information for the category called drama becomes "2.19", the classification information for the category called history becomes "0.86", and the classification information for the category called movie becomes "0.21". Accordingly, the document classification information generation unit 330 generates document classification information "Drama: 2.19", "History: 0.86", and "Movie: 0.21" for the document to be classified.

일 실시예에 있어서, 문서 분류정보 생성부(330)는 분류 대상 문서가 어떤 카테고리에 속하는지를 더욱 정확하게 분석하기 위해 상술한 문서 분류정보를 백분율 단위로 환산할 수 있을 것이다.In one embodiment, the document classification information generation unit 330 may convert the above-described document classification information in percentage units to more accurately analyze which category the document to be classified belongs to.

문서 분류정보 생성부(330)는 상술한 방법에 따라 생성된 각 문서의 문서 분류정보를 각 문서와 매칭시켜 문서 분류정보 DB(340)에 저장한다.The document classification information generation unit 330 matches the document classification information of each document generated according to the above-described method with each document and stores the document classification information DB 340.

이와 같이, 본 발명은 사용자의 입력 의도가 포함되어 있는 쿼리의 카테고리 별 분류정보를 이용하여 각 문서를 분류할 수 있으므로 문서 분류의 최신성을 유지할 수 있고, 문서 분류를 자동으로 수행하기 때문에 문서 분류에 소요되는 시간과 노력을 감소시킬 수 있게 된다.As described above, the present invention can classify each document using the classification information for each category of the query including the user's input intention, thereby maintaining the latest document classification and automatically classifying the document. This will reduce the time and effort required.

한편, 문서 분류 시스템(300)은 상술한 문서 분류정보 생성부(300)에 의해 생성된 문서 분류정보를 이용하여 각 문서들을 카테고리 별로 분류하는 문서 분류부(350)를 더 포함할 수 있다. 예컨대 문서 분류부(350)는 사용자로부터 검색요청이 수신되는 경우 해당 검색요청에 상응하는 검색결과를 각 카테고리 별로 분류하여 제공하기 위해 문서 분류정보 생성부(300)에 의해 생성된 문서 분류정보를 이용하여 검색결과 문서들을 분류하거나, 블로그 등에 포함된 웹문서들을 문서 분류정보 생성부(300)에 의해 생성된 문서 분류정보를 이용하여 분류하여 사용자에게 제공할 수 있다.On the other hand, the document classification system 300 may further include a document classification unit 350 for classifying each document by category using the document classification information generated by the document classification information generation unit 300 described above. For example, when the document classification unit 350 receives a search request from the user, the document classification unit 350 uses the document classification information generated by the document classification information generation unit 300 to provide a classification result for each category. The search result documents may be classified, or the web documents included in the blog may be classified and provided to the user by using the document classification information generated by the document classification information generation unit 300.

이하에서는 도 4 내지 도 5를 참조하여 본 발명에 따른 쿼리 분류정보 생성 방법을 설명하기로 한다.Hereinafter, a method of generating query classification information according to the present invention will be described with reference to FIGS. 4 to 5.

도 4는 본 발명의 일 실시예에 따른 쿼리 분류정보 생성 방법을 보여주는 플로우차트이다. 도시된 바와 같이, 먼저 각 쿼리에 대한 검색결과 문서들의 카테고리 별 분류정보를 데이터베이스로부터 추출한다(제400단계). 여기서, 검색결과 문서들의 카테고리 별 분류정보란 해당 문서가 특정 카테고리에 속하게 되는 정도를 점수화한 것을 의미하는 것으로서, 이러한 문서 분류정보는 해당 문서와 매칭되어 데이터베이스에 저장되어 있다.4 is a flowchart illustrating a method of generating query classification information according to an embodiment of the present invention. As shown, first, classification information of each category of search result documents for each query is extracted from the database (operation 400). Here, the classification information for each category of the search result documents means the degree to which the corresponding document belongs to a specific category. The document classification information is matched with the corresponding document and stored in the database.

일 실시예에 있어서, 각 문서의 문서 분류정보는 문서 학습 방법 또는 단어 구축 방법을 이용하여 산출될 수 있다. 문서 학습 방법 및 단어 구축 방법에 대한 상세한 설명은 위에서 상세하게 기재하였으므로 구체적인 설명은 생략하기로 한다.In one embodiment, document classification information of each document may be calculated using a document learning method or a word construction method. Detailed descriptions of the document learning method and the word construction method are described in detail above, and thus detailed descriptions thereof will be omitted.

이후, 데이터베이스로부터 추출된 각 검색결과 문서들의 카테고리 별 분류정보를 각 카테고리별로 합산함으로써 쿼리의 카테고리 별 분류정보를 생성한다(제410단계). 예컨대, "왕과나"라는 쿼리에 대해 2개의 검색결과 문서가 존재하는 경우, 제1 검색결과 문서의 문서 분류정보는 "드라마: 0.57", "역사: 0.33"이고, 제2 검색결과 문서의 문서 분류정보는 "영화: 0.21", "드라마: 0.55"이라고 할 때, 각 문서 분류정보들을 카테고리 별로 합산하면, "드라마: 1.12", "역사: 0.33", "영화: 0.21"이 된다. 따라서, "왕과나"라는 쿼리의 카테고리 별 분류정보는 "드라마: 1.12", "역사: 0.33", "영화: 0.21"이 된다.Thereafter, the classification information for each category of the query is generated by summing the classification information for each category of the search result documents extracted from the database for each category (operation 410). For example, if there are two search result documents for the query "Wang and I", the document classification information of the first search result document is "Drama: 0.57", "History: 0.33", and the second search result document When the document classification information is " movie: 0.21 " and " drama: 0.55 ", when the respective document classification information is summed by category, it becomes "drama: 1.12", "history: 0.33", and "movie: 0.21". Therefore, the categorization information for each category of the query "Wang and Me" is "Drama: 1.12", "History: 0.33", and "Movie: 0.21".

이후, 각 쿼리의 카테고리 별 분류정보를 이용하여 쿼리 DB를 구축한다(제420단계). 이때, 쿼리 DB에는 각 쿼리와 해당 쿼리의 카테고리 별 분류정보가 매칭되어 저장되며, 구축된 쿼리 DB는 문서 분류정보 생성에 이용될 수 있다.Thereafter, a query DB is constructed using classification information for each category of the query (step 420). At this time, the query DB is matched and stored in each category and the classification information of the corresponding query, the constructed query DB can be used to generate document classification information.

도 5는 본 발명의 다른 실시예에 따른 쿼리 분류정보 생성 방법을 보여주는 플로우차트이다.5 is a flowchart illustrating a method of generating query classification information according to another embodiment of the present invention.

도시된 바와 같이, 먼저 각 쿼리에 대한 검색결과 문서로부터 각 검색결과 문서에 포함되어 있는 카테고리 정보를 추출한다(제500단계). 구체적으로, 검색 서비스를 제공함에 있어서 지식인과 같은 검색 컬렉션을 통해 제공되는 검색결과 문서에는 해당 검색결과 문서가 속하는 카테고리의 ID 또는 카테고리 이름을 포함하는 카테고리 정보가 검색결과 문서 내에 포함되어 있으므로 각 검색결과 문서로부터 이러한 카테고리 정보를 추출하는 것이다.As shown, first, category information included in each search result document is extracted from the search result document for each query (operation 500). In detail, in providing a search service, a search result document provided through a search collection such as an intellectual person includes category information including an ID or a category name of a category to which the search result document belongs in the search result document. This category information is extracted from the document.

상술한 실시예에 있어서는 각 쿼리에 대한 모든 검색결과 문서로부터 카테고리 정보를 추출하는 것으로 기재하였지만, 변형된 실시예에 있어서는 해당 쿼리에 대해 사용자들이 선택한 검색결과 문서에 대해서만 카테고리 정보를 추출할 수 있다. 이를 위해 본 발명은 해당 쿼리에 대한 검색결과 문서들 중 사용자들에 의해 선택된 검색결과 문서들을 해당 쿼리와 매칭시켜 저장할 수 있다.In the above-described embodiment, it is described that category information is extracted from all search result documents for each query. However, in the modified embodiment, category information may be extracted only for the search result document selected by the users for the query. To this end, the present invention can match and store the search result documents selected by the users among the search result documents for the query with the corresponding query.

이후, 추출된 카테고리 정보들을 각 카테고리 별로 합산함으로써 해당 쿼리의 카테고리 별 분류정보를 생성한다(제510단계). 이때, 카테고리 정보는 상술한 바와 같이 쿼리에 대한 검색결과 문서 중 사용자들에 의해 선택된 검색결과 문서로부터 추출된 것일 수 있으며, 추출된 카테고리 정보들을 이용하여 해당 쿼리의 카테고리 별 분류정보를 생성함에 있어서 카테고리 별로 합산한 결과값을 백분율 단위로 변환할 수 있다.Thereafter, the extracted category information is added to each category to generate classification information for each category of the corresponding query (step 510). In this case, the category information may be extracted from the search result document selected by the users of the search result document for the query as described above, in generating the category information for each category of the query by using the extracted category information You can convert the result of the sum to a percentage unit.

구체적으로, "왕과나"라는 쿼리에 대해 사용자들에 선택된 문서가 10개의 검색결과 문서들 중 제1 검색결과 문서 및 제5 검색결과 문서로부터는 드라마라는 카테고리 정보가 추출되었고, 제2 내지 제4 검색결과 문서와 제6 내지 제8 검색결과 문서로부터는 역사라는 카테고리 정보가 추출되었으며, 제9 및 제10 검색결과 문서로부터는 영화라는 카테고리 정보가 추출되었다고 가정하는 경우, 각 카테고리 정 보를 카테고리 별로 합산하면 드라마가 2개, 역사가 6개, 영화가 2개임을 알 수 있다. 이러한 경우, 이러한 값들을 백분율 단위로 환산하면 "왕과나"라는 쿼리에 대한 카테고리 별 분류정보는 "역사: 0.6", "드라마: 0.2", "영화: 0.2"와 같이 생성된다.In detail, category information of drama is extracted from the first search result document and the fifth search result document among the ten search result documents in the document selected by the user for the query "King and Me". 4 Assuming that category information called history is extracted from the search result documents and the sixth through eighth search result documents, and that category information called movie is extracted from the ninth and tenth search result documents, each category information is classified by category. In total, we can see that there are two dramas, six histories, and two movies. In this case, when these values are converted in percentage units, the classification information for each category for the query "Wang and Me" is generated as "History: 0.6", "Drama: 0.2", and "Movie: 0.2".

마지막으로, 각 쿼리의 카테고리 별 분류정보를 이용하여 쿼리 DB를 구축한다(제520단계). 상술한 바와 같이 쿼리 DB에는 각 쿼리와 해당 쿼리의 카테고리 별 분류정보가 매칭되어 저장되며, 구축된 쿼리 DB는 문서 분류정보 생성에 이용될 수 있다.Finally, a query DB is constructed using the classification information for each category of the query (step 520). As described above, in the query DB, classification information for each query and category of the corresponding query are matched and stored, and the constructed query DB may be used to generate document classification information.

이하에서는 도 6을 참조하여 쿼리의 카테고리 별 분류정보를 이용하여 문서를 분류하는 방법에 대해 설명하기로 한다.Hereinafter, a method of classifying documents using classification information for each category of a query will be described with reference to FIG. 6.

도 6은 본 발명의 일 실시예에 따른 문서 분류 방법을 보여주는 플로우차트이다. 먼저, 각 쿼리의 카테고리 별 분류정보가 해당 쿼리와 매핑되어 저장되어 있는 쿼리 DB를 유지한다(제600단계). 여기서, 쿼리의 카테고리 별 분류정보는 도 4 또는 도 5에 도시된 방법을 이용하여 생성될 수 있다.6 is a flowchart showing a document classification method according to an embodiment of the present invention. First, the query DB in which the classification information for each category of each query is mapped and stored with the corresponding query is maintained (step 600). Here, the classification information for each category of the query may be generated using the method illustrated in FIG. 4 or 5.

이후, 분류 대상 문서가 수신되면(제610단계), 수신된 분류 대상 문서로부터 해당 문서에 포함된 단어들을 추출한다(제620단계). 다음으로, 추출된 각각의 단어에 상응하는 쿼리가 쿼리 DB에 포함되어 있는지 여부를 판단하여(제630단계), 추출된 단어에 상응하는 쿼리가 쿼리 DB에 포함되어 있는 경우 해당 쿼리의 카테고리 별 분류정보를 추출된 단어의 카테고리 별 분류정보로 결정한다(제640단계).Thereafter, when the document to be classified is received (operation 610), words included in the document are extracted from the received classification object document (operation 620). Next, it is determined whether the query corresponding to each extracted word is included in the query DB (step 630). If the query corresponding to the extracted word is included in the query DB, the query is classified by category. The information is determined as classification information for each category of the extracted word (step 640).

이후, 추출된 단어들 중 카테고리 별 분류정보를 결정해야 할 단어가 남아 있는지 여부를 판단하여(제650단계), 남아 있지 않은 경우 추출된 단어들의 카테고리 별 분류정보를 이용하여 분류 대상 문서의 문서 분류정보를 생성하고 (제660단계), 남아 있는 경우 상술한 제630단계 및 640단계를 반복한다.Then, it is determined whether there is a word to determine the classification information for each category among the extracted words (step 650), and if not, classify the document of the document to be classified using the classification information for each category of the extracted words In operation 660, the controller 110 repeats steps 630 and 640 described above.

일 실시예에 있어서, 문서 분류정보는 추출된 단어들의 카테고리 별 분류정보를 각 카테고리 별로 합산함으로써 생성될 수 있다. 예컨대, 분류 대상 문서에서 "왕과나"라는 단어와 "이산"이라는 단어가 추출되었고, 쿼리 DB(310)에서 "왕과나"라는 쿼리에 대한 카테고리 별 분류정보가 "드라마: 1.12", "역사: 0.33", "영화: 0.21"이고, "이산"이라는 쿼리에 대한 카테고리 별 분류정보가 "드라마: 1.77", "역사: 0.53"인 경우, 2개의 단어에 대한 카테고리 별 분류정보를 카테고리 별로 합산하면 드라마는 "2.19"가 되고, 역사는 "0.86"이 되며, 영화는 "0.21"가 되므로, 분류 대상 문서에 대해 "드라마: 2.19", "역사:0.86", "영화: 0.21" 라는 문서 분류정보를 생성하게 되는 것이다.In one embodiment, the document classification information may be generated by summing classification information of each category of extracted words for each category. For example, the words "wang and me" and the words "discrete" have been extracted from the document to be classified, and the classification information for each category of the query "king and me" is "Drama: 1.12", " When history: 0.33 "," movie: 0.21 ", and the categorization information for the query" discrete "is" drama: 1.77 "and" history: 0.53 ", the categorization information for the two words is categorized by category. When added together, the drama becomes "2.19", the history becomes "0.86", and the movie becomes "0.21", so the document titled "Drama: 2.19", "History: 0.86", "Movie: 0.21" The classification information is generated.

또한, 문서 분류정보를 생성함에 있어서, 분류 대상 문서가 어떤 카테고리에 속하는지를 더욱 정확하게 분석하기 위해 상술한 문서 분류정보를 백분율 단위로 환산할 수 있을 것이다.In addition, in generating the document classification information, the above-described document classification information may be converted in percentage units to more accurately analyze which category the document to be classified belongs to.

한편, 도 6에는 도시하지 않았지만, 사용자로부터 검색요청이 수신되는 경우 해당 검색요청에 상응하는 검색결과를 각 카테고리 별로 분류하여 제공하기 위해 검색결과에 포함된 검색결과 문서들을 상술한 문서 분류정보를 이용하여 분류하거나 블로그 등에 포함된 웹문서들을 상술한 문서 분류정보를 이용하여 각 카테고리 별로 분류함으로써 사용자에게 제공할 수도 있을 것이다.On the other hand, although not shown in Figure 6, when a search request is received from the user to use the document classification information described in the search result documents included in the search results in order to provide the search results corresponding to the search request for each category By classifying or classifying web documents included in blogs into respective categories using the above-described document classification information.

상술한 쿼리 분류정보 생성 방법 및 문서 분류 방법은 다양한 컴퓨터 수단을 이용하여 수행될 수 있는 프로그램 형태로도 구현될 수 있는데, 이때 쿼리 분류정보 생성 방법 및 문서 분류 방법을 수행하기 위한 프로그램은 하드 디스크, CD-ROM, DVD, 롬(ROM), 램, 또는 플래시 메모리와 같은 컴퓨터로 판독할 수 있는 기록 매체에 저장된다.The above-mentioned query classification information generation method and document classification method may be implemented in a program form that can be executed using various computer means. In this case, a program for performing the query classification information generation method and document classification method may include a hard disk, It is stored in a computer-readable recording medium such as a CD-ROM, a DVD, a ROM, a RAM, or a flash memory.

본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.Those skilled in the art to which the present invention pertains will understand that the present invention can be implemented in other specific forms without changing the technical spirit or essential features.

그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Therefore, it is to be understood that the embodiments described above are exemplary in all respects and not restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.

도 1은 본 발명의 일 실시예에 따른 쿼리 분류정보 생성 시스템의 개략적인 블록도.1 is a schematic block diagram of a system for generating query classification information according to an embodiment of the present invention.

도 2는 본 발명의 다른 실시예에 따른 쿼리 분류정보 생성 시스템의 개략적인 블록도.2 is a schematic block diagram of a system for generating query classification information according to another embodiment of the present invention.

도 3은 본 발명의 일 실시예에 따른 문서 분류 시스템의 개략적인 블록도.3 is a schematic block diagram of a document classification system according to an embodiment of the present invention.

도 4는 본 발명의 일 실시예에 따른 쿼리 분류정보 생성 방법을 보여주는 플로우차트.4 is a flowchart showing a method of generating query classification information according to an embodiment of the present invention.

도 5는 본 발명의 다른 실시예에 따른 쿼리 분류정보 생성 방법을 보여주는 플로우차트.5 is a flowchart showing a method of generating query classification information according to another exemplary embodiment of the present invention.

도 6은 본 발명의 일 실시예에 따른 문서 분류 방법을 보여주는 플로우차트.6 is a flowchart showing a document classification method according to an embodiment of the present invention.

Claims (15)

쿼리의 카테고리 별 분류정보가 해당 쿼리와 매칭되어 저장된 쿼리 데이터베이스를 유지하는 단계;Maintaining a stored query database in which classification information for each category of a query is matched with a corresponding query; 분류 대상 문서에 포함된 단어에 상응하는 쿼리가 상기 쿼리 데이터베이스에 포함되어 있는 경우 해당 쿼리의 카테고리 별 분류정보를 상기 단어의 카테고리 별 분류정보로 결정하는 단계; 및Determining classification information for each category of the query as classification information for each category of the word when a query corresponding to a word included in a document to be classified is included in the query database; And 상기 분류 대상 문서에 포함된 단어들의 카테고리 별 분류정보를 이용하여 상기 분류 대상 문서의 분류정보를 생성하는 단계를 포함하는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 방법.And generating classification information of the classification target document by using classification information for each category of words included in the classification target document. 제1항에 있어서, 상기 문서 분류정보 생성 단계에서,The method of claim 1, wherein in the document classification information generation step, 상기 문서 분류정보는 상기 분류 대상 문서에 포함된 단어들의 카테고리 별 분류정보를 각 카테고리 별로 합산함으로써 생성되는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 방법. And the document classification information is generated by summing classification information for each category of words included in the classification target document for each category. 제1항에 있어서,The method of claim 1, 상기 쿼리의 카테고리 별 분류정보를 생성하는 단계를 더 포함하는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 방법.The method of claim 1, further comprising generating classification information for each category of the query. 제3항에 있어서,The method of claim 3, 상기 쿼리의 카테고리 별 분류정보는 상기 쿼리에 대한 검색결과 문서들의 카테고리 별 분류정보를 각 카테고리 별로 합산함으로써 생성되는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 방법.The classification information for each category of the query is generated by summing the classification information for each category of the search result documents for the query for each category. 제4항에 있어서,The method of claim 4, wherein 상기 검색결과 문서들의 카테고리 별 분류정보는 단어 구축 방법 또는 문서 학습 방법에 의해 생성되는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 방법. The classification information for each category of the search result documents is generated by a word construction method or a document learning method. 제3항에 있어서,The method of claim 3, 상기 쿼리의 카테고리 별 분류정보는 상기 쿼리에 대한 검색결과 문서에 포함되어 있는 카테고리 정보를 카테고리 별로 합산함으로써 생성되는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 방법.The classification information for each category of the query is generated by summing category information included in a search result document for the query for each category. 제6항에 있어서,The method of claim 6, 상기 검색결과 문서는 상기 쿼리에 대한 검색결과 문서들 중 사용자들에 의해 선택된 검색결과 문서인 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 방법.And the search result document is a search result document selected by users among search result documents for the query. 제1항에 있어서,The method of claim 1, 사용자로부터 검색요청이 수신되는 경우 상기 검색요청에 상응하는 검색결과 문서들을 상기 문서 분류정보를 이용하여 카테고리 별로 분류하여 제공하는 단계를 더 포함하는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 방법.And classifying the search result documents corresponding to the search request into categories by using the document classification information when receiving a search request from a user. 제1항 내지 제8항 중 어느 하나의 항에 기재된 방법을 수행하기 위한 프로그램이 기록된 기록 매체.A recording medium having recorded thereon a program for performing the method according to any one of claims 1 to 8. 쿼리의 카테고리 별 분류정보가 해당 쿼리와 매칭되어 저장되어 있는 쿼리 데이터베이스;A query database in which classification information for each category of a query is matched with the corresponding query and stored; 분류 대상 문서에 포함된 단어들을 추출하고, 추출된 단어에 상응하는 쿼리가 상기 쿼리 데이터베이스에 포함되어 있는 경우 해당 쿼리의 카테고리 별 분류정보를 상기 단어의 카테고리 별 분류정보로 결정하는 단어 분류정보 결정부; 및Word classification information determination unit which extracts words included in a document to be classified, and determines classification information for each category of the query as classification information for each category of the word when a query corresponding to the extracted word is included in the query database. ; And 상기 단어 분류정보 결정부에 의해 결정된 각 단어의 카테고리 별 분류정보 정보를 이용하여 상기 분류 대상 문서의 분류정보를 생성하는 문서 분류정보 생성부를 포함하는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 시스템.And a document classification information generation unit for generating classification information of the document to be classified by using classification information for each category of each word determined by the word classification information determination unit. 제10항에 있어서,The method of claim 10, 상기 문서 분류정보 생성부는 상기 단어 분류정보 결정부에 의해 결정된 각 단어들의 카테고리 별 분류정보를 카테고리 별로 합산함으로써 상기 문서 분류정보 를 생성하는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 시스템. And the document classification information generation unit generates the document classification information by summing the category information for each category of words determined by the word classification information determination unit for each category. 제10항에 있어서,The method of claim 10, 상기 쿼리의 카테고리 별 분류정보를 생성하는 쿼리 분류정보 생성부를 더 포함하는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 시스템.Document classification system using the query classification information, characterized in that it further comprises a query classification information generation unit for generating the classification information for each category of the query. 제12항에 있어서,The method of claim 12, 상기 쿼리 분류정보 생성부는 상기 쿼리에 대한 검색결과 문서들의 카테고리 별 분류정보를 카테고리 별로 합산함으로써 상기 쿼리의 카테고리 별 분류정보를 생성하는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 시스템.The query classification information generation unit generates the classification information for each category of the query by summing the category information for each category of the search result documents for the query for each category. 제13항에 있어서,The method of claim 13, 상기 쿼리 분류정보 생성부는 단어 구축 방법 또는 문서 학습 방법을 이용하여 상기 검색결과 문서들의 카테고리 별 분류정보를 생성하는 것을 특징으로 하는 쿼리 분류정보를 이용한 문서 분류 시스템.The query classification information generation unit generates a classification information for each category of the search result documents using a word construction method or a document learning method. 제12항에 있어서,The method of claim 12, 상기 쿼리 분류정보 생성부는 상기 쿼리에 대한 검색결과 문서들 중 사용자에 의해 선택된 검색결과 문서에 포함되어 있는 카테고리 정보를 이용하여 상기 쿼리의 카테고리 별 분류정보를 생성하는 것을 특징으로 하는 쿼리 분류정보를 이용 한 문서 분류 시스템.The query classification information generation unit generates the classification information for each category of the query by using the category information included in the search result document selected by the user among the search result documents for the query. One document classification system.
KR1020080035523A 2008-04-17 2008-04-17 Method and system for classifying documents using classification information of query KR100921894B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080035523A KR100921894B1 (en) 2008-04-17 2008-04-17 Method and system for classifying documents using classification information of query

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080035523A KR100921894B1 (en) 2008-04-17 2008-04-17 Method and system for classifying documents using classification information of query

Publications (1)

Publication Number Publication Date
KR100921894B1 true KR100921894B1 (en) 2009-10-13

Family

ID=41572280

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080035523A KR100921894B1 (en) 2008-04-17 2008-04-17 Method and system for classifying documents using classification information of query

Country Status (1)

Country Link
KR (1) KR100921894B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101379935B1 (en) 2013-02-04 2014-04-01 (주)레드테이블 System and method for extracting information from sns messages

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034621A (en) 1999-07-19 2001-02-09 Hitachi Ltd Document classification management system
KR20010104871A (en) * 2000-05-16 2001-11-28 임갑철 System for internet site search service having a function of automatic sorting of search results
KR20060103165A (en) * 2005-03-23 2006-09-28 조광현 Classified web sites search system and method
KR20070036374A (en) * 2005-09-29 2007-04-03 엔에이치엔(주) Method and system for transmitting defined-query to database

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034621A (en) 1999-07-19 2001-02-09 Hitachi Ltd Document classification management system
KR20010104871A (en) * 2000-05-16 2001-11-28 임갑철 System for internet site search service having a function of automatic sorting of search results
KR20060103165A (en) * 2005-03-23 2006-09-28 조광현 Classified web sites search system and method
KR20070036374A (en) * 2005-09-29 2007-04-03 엔에이치엔(주) Method and system for transmitting defined-query to database

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101379935B1 (en) 2013-02-04 2014-04-01 (주)레드테이블 System and method for extracting information from sns messages

Similar Documents

Publication Publication Date Title
CN109033229B (en) Question and answer processing method and device
CN108280114B (en) Deep learning-based user literature reading interest analysis method
CN111417940B (en) Method, system and medium for generating answers to questions
CN104199965B (en) Semantic information retrieval method
JP2013541793A (en) Multi-mode search query input method
CN109408578B (en) Monitoring data fusion method for heterogeneous environment
CN102193994B (en) Method for searching Web services according to non-functional requirements of user
KR100835290B1 (en) System and method for classifying document
KR101637504B1 (en) System and method for processing informal data
CN109063171B (en) Resource matching method based on semantics
CN116431837B (en) Document retrieval method and device based on large language model and graph network model
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
CN115563313A (en) Knowledge graph-based document book semantic retrieval system
CN111488453B (en) Resource grading method, device, equipment and storage medium
JP5780036B2 (en) Extraction program, extraction method and extraction apparatus
CN101226547A (en) Web entity recognition method for entity recognition system
Slabbekoorn et al. Domain-aware ontology matching
KR100921894B1 (en) Method and system for classifying documents using classification information of query
CN110555199B (en) Article generation method, device, equipment and storage medium based on hotspot materials
JP5613536B2 (en) Method, system, and computer-readable recording medium for dynamically extracting and providing the most suitable image according to a user's request
KR101592670B1 (en) Apparatus for searching data using index and method for using the apparatus
KR100943625B1 (en) Method and System for Generating Integrated Database for Integradedly Managing Local Information and Website Information and Method for Providing Search Result Using Integrated Database
JP2019200582A (en) Search device, search method, and search program
CN101334793A (en) Method for automatic recognition for dependency relationship of demand
EP3103029A1 (en) A query expansion system and method using language and language variants

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120928

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130926

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140925

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20151002

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20181002

Year of fee payment: 10