KR20180097120A - Method for searching electronic document and apparatus thereof - Google Patents

Method for searching electronic document and apparatus thereof Download PDF

Info

Publication number
KR20180097120A
KR20180097120A KR1020170168134A KR20170168134A KR20180097120A KR 20180097120 A KR20180097120 A KR 20180097120A KR 1020170168134 A KR1020170168134 A KR 1020170168134A KR 20170168134 A KR20170168134 A KR 20170168134A KR 20180097120 A KR20180097120 A KR 20180097120A
Authority
KR
South Korea
Prior art keywords
electronic document
search
electronic
document
documents
Prior art date
Application number
KR1020170168134A
Other languages
Korean (ko)
Other versions
KR102069341B1 (en
Inventor
정철우
Original Assignee
빈닷컴 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 빈닷컴 주식회사 filed Critical 빈닷컴 주식회사
Publication of KR20180097120A publication Critical patent/KR20180097120A/en
Priority to PCT/KR2018/014675 priority Critical patent/WO2019112223A1/en
Application granted granted Critical
Publication of KR102069341B1 publication Critical patent/KR102069341B1/en

Links

Images

Classifications

    • G06F17/30663
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/382Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
    • G06F17/30705
    • G06F17/30728
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention discloses a method for searching electronic documents by using an electronic document search server, capable of providing a wide range of search results by searching for other knowledge entities associated with the query provided by the user. The method according to one embodiment of the present invention includes the following steps: searching for at least one first electronic document including an information field, in which a first keyword is written, from a first electronic document database (DB) among a plurality of electronic document DBs storing different types of electronic documents as the first keyword is obtained; extracting a plurality of second keywords by analyzing the context of the information field of the at least one first electronic document; searching for, from each of a plurality of electronic document DBs, different kinds of electronic documents including the information field, in which at least one of a plurality of second keywords is written; classifying the retrieved different types of electronic documents by using two or more second keywords and grouping the classified results according to the type of documents; and providing the grouped result to a user terminal.

Description

전자 문서 검색 방법 및 그 서버 {METHOD FOR SEARCHING ELECTRONIC DOCUMENT AND APPARATUS THEREOF}[0001] METHOD FOR SEARCHING ELECTRONIC DOCUMENT AND APPARATUS THEREOF [0002]

본 발명은 전자 문서 검색 방법 및 그 서버에 관한 것으로서, 보다 구체적으로, 특허, 판례 및 논문 등의 전자 문서를 검색하는 방법 및 그 서버에 관한 것이다. BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an electronic document retrieval method and a server thereof, and more particularly, to a method and a server for retrieving electronic documents such as patents, precedents, and articles.

일반적인 전자 문서 검색 시스템은 입력된 키워드를 그대로 포함하고 있는 문서들을 일정 기준으로 나열하여 제공한다. 즉, 일반적인 특허 문서 검색 시스템은 단순히 사용자가 입력한 키워드를 저장된 전자 문서들의 키워드와 비교하는 방식으로 키워드의 일치 결과를 보여 준다. 이러한 결과는 키워드의 사용 양태가 다양할수록 사용자가 의도하지 않은 검색 결과를 포함할 가능성이 높다. A typical electronic document retrieval system provides a list of documents including the input keyword as a standard. That is, a general patent document retrieval system merely shows a keyword matching result by comparing a keyword inputted by a user with a keyword of stored electronic documents. These results indicate that the more various keywords are used, the more likely the user will include unintended search results.

따라서, 최근에는, 사용자가 의도한 문서를 재질의 없이 검색해 내기 위해, 상기한 검색 방식을 보완하여 다양한 필드값(예를 들어, 제목 검색, 청구항 검색, 출원인, 발명자 등)에 대한 질의문 입력을 허용한다. 그러나, 이러한 다양한 필드값은 사용자에게 복잡한 질의문 작성을 요구하며, 해당 필드값에 대응되는 정확한 질의문 입력을 요구한다. 즉, 누락된 필드값에 대해서는 검색 결과를 얻을 수 없다. 이러한 한계를 극복하기 위해, 일부 특허 문서 검색 시스템은사용자로부터 복수의 키워드로 구성된 질의문을 입력받고, 질의문과 유사한 키워드에 대한 검색 결과를 제공하기도 한다. 그러나, 이는 검색 결과의 정확도를 떨어뜨릴 수 있다.Therefore, in recent years, in order to search for a document intended by a user without a material, a query entry for various field values (for example, title search, claim search, applicant, inventor, etc.) Allow. However, these various field values require the user to create a complex query statement and require an accurate query entry corresponding to the corresponding field value. That is, search results can not be obtained for missing field values. To overcome these limitations, some patent document retrieval systems receive a query composed of a plurality of keywords from a user and provide search results for keywords similar to the query. However, this may degrade the accuracy of the search results.

따라서, 단순히 키워드가 포함된 전자 문서만을 검색하는데 그치지 않고 사용자가 질의한 초기 용어의 개념과 의미적인 유사도나, 온톨로지(ontology)에 표현되어있는 정보를 토대로 추론을 통하여 사용자가 의도한 정보와 지식을 찾아줄 수 있는 전자 문서 검색 시스템에 대한 연구가 필요하다. Therefore, not only retrieving only electronic documents containing keywords, but also based on the concept of the initial terms and semantic similarity that the user queries, and the information expressed in the ontology, Research on electronic document retrieval system that can find out is needed.

이와 관련하여, 대한민국 등록 특허 제 10-1054824호(발명의 명칭: 키워드 시맨틱 네트워크 구성을 통한 특허정보 시각화 시스템 및 그 방법)는 사용자로부터 입력되는 키워드를 그대로 포함하는 특허 문서들을 검색한 후, 검색된 특허 문서들에 기 설정된 키워드들을 이용하여 특허 문서를 군집화함으로써, 사용자가 의도한 정보에 보다 용이하게 접근할 수 있는 방법을 제공한다. In this regard, Korean Patent Registration No. 10-1054824 (titled Patent Information Visualization System and Method) discloses searching for patent documents that contain keywords input from a user as they are, By clustering patent documents using keywords pre-set in documents, a method of allowing users to easily access the intended information is provided.

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 본 발명의 일부 실시예는 사용자로부터 입력된 질의를 확장시켜, 확장된 질의로부터 검색된 결과를 제공한다. 이때, 검색된 결과를 의미적으로 그룹핑하여 제공함으로써, 사용자가 간단하게 질의하여도 원하는 전자 문서에 용이하게 접근할 수 있도록 할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.SUMMARY OF THE INVENTION The present invention addresses the above-described problems of the prior art, and some embodiments of the present invention extend a query input from a user to provide a retrieved result from an extended query. In this case, the retrieved results are grouped and provided semantically, so that the user can easily access the desired electronic document even if he or she simply queries. It should be understood, however, that the technical scope of the present invention is not limited to the above-described technical problems, and other technical problems may exist.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제1 측면에 따른 전자 문서 검색 서버가 전자 문서를 검색하는 방법은, 제1 검색어가 획득됨에 따라, 서로 다른 종류의 전자 문서를 저장한 복수의 전자 문서 DB(database) 중 제1 전자 문서 DB로부터, 제1 검색어가 기재된 정보 필드를 포함하는 하나 이상의 제1 전자 문서를 검색하는 단계; 하나 이상의 제1 전자 문서의 정보 필드의 컨텍스트(context)를 분석하여 복수의 제2 검색어를 추출하는 단계; 복수의 전자 문서 DB 각각으로부터, 복수의 제2 검색어 중 적어도 하나가 기재된 정보 필드를 포함하는 서로 다른 종류의 전자 문서를 검색하는 단계; 두 개 이상의 제2 검색어를 이용하여, 검색된 서로 다른 종류의 전자 문서들을 분류하고, 분류된 결과를 문서 종류 별로 그룹핑하는 단계; 및 그룹핑된 결과를 사용자 단말로 제공하는 단계를 포함한다. According to an aspect of the present invention, there is provided a method for searching an electronic document by an electronic document search server according to the first aspect of the present invention, Retrieving from the first electronic document DB of the plurality of electronic document databases one or more first electronic documents including an information field in which a first search term is written; Extracting a plurality of second search terms by analyzing the context of the information field of the at least one first electronic document; Retrieving, from each of the plurality of electronic documents DB, different types of electronic documents including an information field in which at least one of the plurality of second search words is described; Classifying the searched different types of electronic documents by using two or more second search words and grouping the sorted results by document type; And providing the grouped result to the user terminal.

또한, 본 발명의 제2 측면에 따른 전자 문서 검색 서버가 전자 문서를 검색하는 방법은, 자연어로 작성된 콘텐트가 획득됨에 따라, 콘텐트의 컨텍스트를 분석하여 복수의 제2 검색어를 추출하는 단계; 복수의 전자 문서 DB 각각으로부터, 복수의 제2 검색어 중 적어도 하나가 기재된 정보 필드를 포함하는 서로 다른 종류의 전자 문서를 검색하는 단계; 검색된 서로 다른 종류의 전자 문서들과 콘텐트 간의 유사도를 산출하는 단계; 기 설정된 유사도 범위를 기준으로 문서 종류 별로 분류된 전자 문서들을 그룹핑하는 단계; 및 그룹핑된 결과를 사용자 단말로 제공하는 단계를 포함한다. According to a second aspect of the present invention, there is provided a method of searching an electronic document by an electronic document search server, comprising: extracting a plurality of second search terms by analyzing a context of the content as content created in a natural language is acquired; Retrieving, from each of the plurality of electronic documents DB, different types of electronic documents including an information field in which at least one of the plurality of second search words is described; Calculating similarity between the searched different types of electronic documents and the content; Grouping electronic documents classified by document type based on a predetermined similarity degree range; And providing the grouped result to the user terminal.

또한, 본 발명의 제3 측면에 따른 전자 문서 검색 서버가 전자 문서를 검색하는 방법은, 복수의 전자 문서 DB 중 제1 전자 문서 DB로부터, 제1 검색어가 기재된 정보 필드를 포함하는 하나 이상의 제1 전자 문서를 검색하는 단계; 하나 이상의 제1 전자 문서의 정보 필드의 컨텍스트(context)를 분석하여, 복수의 제2 검색어를 추출하는 단계; 복수의 제2 검색어 중 두 개 이상의 제2 검색어가 조합된 제2 검색어 조합을 기초로, 복수의 전자 문서 DB 각각으로부터 전자 문서들을 검색하는 단계; 및 검색된 전자 문서들을 문서 종류 별로 그룹핑하고, 그룹핑된 결과를 사용자 단말로 제공하는 단계를 포함한다. A method for searching an electronic document by an electronic document search server according to a third aspect of the present invention is a method for searching an electronic document from a first electronic document DB among a plurality of electronic document databases, Retrieving an electronic document; Analyzing the context of the information field of the at least one first electronic document to extract a plurality of second search terms; Retrieving electronic documents from each of a plurality of electronic document databases based on a second search word combination in which two or more of the plurality of second search words are combined; And grouping the retrieved electronic documents by document type, and providing the grouped result to the user terminal.

또한, 본 발명의 제4 측면에 따른 전자 문서 검색 서버는, 서로 다른 종류의 전자 문서들이 저장된 복수의 전자 문서 DB(database); 전자 문서를 검색하는 프로그램이 저장된 메모리(memory); 및 상기 프로그램을 실행하는 프로세서를 포함한다. 상기 프로세서는, 상기 프로그램이 실행됨에 따라, 제1 검색어가 획득하고, 복수의 전자 문서 DB 중 제1 전자 문서 DB로부터, 제1 검색어가 기재된 정보 필드를 포함하는 하나 이상의 제1 전자 문서를 검색하고, 상기 하나 이상의 제1 전자 문서의 정보 필드의 컨텍스트를 분석하여 복수의 제2 검색어를 추출하고, 복수의 전자 문서 DB 각각으로부터, 복수의 제2 검색어 중 적어도 하나가 기재된 정보 필드를 포함하는 서로 다른 종류의 전자 문서를 검색하고, 두 개 이상의 제2 검색어를 이용하여 검색된 서로 다른 종류의 전자 문서를 분류하고, 분류된 결과를 문서 종류 별로 그룹핑하며, 그룹핑된 결과를 사용자 단말로 제공한다. According to a fourth aspect of the present invention, there is provided an electronic document search server comprising: a plurality of electronic document databases (DBs) storing different kinds of electronic documents; A memory for storing a program for searching an electronic document; And a processor for executing the program. The processor retrieves from the first electronic document DB of the plurality of electronic documents DB one or more first electronic documents including the information field in which the first search word is written Extracting a plurality of second search terms from the plurality of electronic document DBs by analyzing the context of the information field of the at least one first electronic document, Classifies electronic documents of different types searched by using two or more second search words, groups classified results by document type, and provides the grouped results to a user terminal.

또한, 본 발명의 제5 측면에 따른 전자 문서 검색 서버는, 서로 다른 종류의 전자 문서들이 저장된 복수의 전자 문서 DB; 전자 문서를 검색하는 프로그램이 저장된 메모리; 및 상기 프로그램을 실행하는 프로세서를 포함한다. 상기 프로세서는, 상기 프로그램이 실행됨에 따라, 자연어로 작성된 콘텐트가 획득됨에 따라, 콘텐트의 컨텍스트를 분석하여 복수의 제2 검색어를 추출하고, 복수의 전자 문서 DB 각각으로부터, 복수의 제2 검색어 중 적어도 하나가 기재된 정보 필드를 포함하는 서로 다른 종류의 전자 문서를 검색하고, 복수의 서로 다른 종류의 전자 문서들과 콘텐트 간의 유사도를 산출하고, 기 설정된 유사도 범위를 기준으로 문서 종류 별로 분류된 전자 문서들을 그룹핑하며, 그룹핑된 결과를 사용자 단말로 제공한다.According to a fifth aspect of the present invention, there is provided an electronic document search server comprising: a plurality of electronic document DBs storing different kinds of electronic documents; A memory for storing a program for searching an electronic document; And a processor for executing the program. Wherein the processor analyzes the context of the content and extracts a plurality of second search words as the content created in the natural language is acquired as the program is executed and acquires at least one of a plurality of second search terms from each of the plurality of electronic document DBs The electronic documents of different types including one of the information fields in which one is described are searched to calculate similarities between the plurality of different kinds of electronic documents and the contents of the electronic documents, And provides the grouped result to the user terminal.

또한, 본 발명의 제6 측면에 따른 전자 문서 검색 서버는, 서로 다른 종류의 전자 문서들이 저장된 복수의 전자 문서 DB; 전자 문서를 검색하는 프로그램이 저장된 메모리; 및 상기 프로그램을 실행하는 프로세서를 포함한다. 상기 프로세서는, 상기 프로그램이 실행됨에 따라, 복수의 전자 문서 DB 중 제1 전자 문서 DB로부터, 제1 검색어가 기재된 정보 필드를 포함하는 하나 이상의 제1 전자 문서를 검색하고, 하나 이상의 제1 전자 문서의 정보 필드의 컨텍스트를 분석하여, 복수의 제2 검색어를 추출하며, 복수의 제2 검색어 중 두 개 이상의 제2 검색어가 조합된 제2 검색어 조합을 기초로, 복수의 전자 문서 DB 각각으로부터 서로 다른 종류의 전자 문서들을 검색하고, 검색된 전자 문서들을 문서 종류 별로 그룹핑하고, 그룹핑된 결과를 사용자 단말로 제공한다. According to a sixth aspect of the present invention, there is provided an electronic document search server comprising: a plurality of electronic document DBs storing different kinds of electronic documents; A memory for storing a program for searching an electronic document; And a processor for executing the program. Wherein the processor is configured to retrieve, from the first electronic document DB among the plurality of electronic document databases, one or more first electronic documents including an information field in which a first search word is written, Extracting a plurality of second search words from the plurality of electronic document DBs based on a second search word combination in which two or more second search words of a plurality of second search words are combined, Searches for electronic documents of the sort, groups the retrieved electronic documents by document type, and provides the grouped result to the user terminal.

또한, 본 발명의 제7 측면은, 상기 제1 측면의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체를 제공한다. A seventh aspect of the present invention provides a computer-readable recording medium on which a program for implementing the method of the first aspect is recorded.

전술한 본 발명의 과제 해결 수단에 의하면, 본 발명의 일 실시에 따른 전자 문서 검색 서버는 사용자로부터 제공받은 질의와 연관된 다른 지식개체를 탐색함으로써, 폭넓은 검색 결과를 제공할 수 있다. 또한, 본 발명의 일 실시예에 따른 전자 문서 검색 서버는 검색된 결과를 의미적 연관성이 높은 문서들끼리 그룹핑하여 제공함으로써, 사용자의 검색 결과 활용에 도움을 줄 수 있다. According to an embodiment of the present invention, an electronic document search server according to an embodiment of the present invention searches for another knowledge object associated with a query received from a user, thereby providing a wider search result. In addition, the electronic document search server according to an embodiment of the present invention can help users to utilize search results by grouping the retrieved results among documents having high semantic relevance.

도 1은 본 발명의 일 실시예에 따른 전자 문서 검색 시스템의 개요도이다.
도 2는 본 발명의 일 실시예에 따라 전자 문서 검색 서버가 전자 문서를 검색하는 방법을 도시한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 전자 문서 검색 서버가 제공하는 사용자 인터페이스를 도시한 예이다.
도 4는 본 발명의 일 실시예에 따라 사용자 단말로 제공되는 검색 결과 화면을 도시한다.
도 5는 본 발명의 일 실시예에 따라 검색된 전자 문서들의 리스트가 제공된 일례이다.
도 6은 본 발명의 일 실시예에 따라 높은 유사도 순으로 나열된 검색 결과 화면을 도시한다.
도 7a은 본 발명의 일 실시예에 따라 콘텐트가 제1 검색어로 입력된 일례를 도시하며, 도 7b는 상기 콘텐트 입력에 따른 검색 결과 화면을 도시한 일례이다.
도 8은 본 발명의 다른 실시예에 따라 제2 검색어 조합을 이용하여 문서들을 검색하는 방법을 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 전자 문서 검색 서버의 구성을 도시한 블록도이다.
1 is a schematic diagram of an electronic document retrieval system according to an embodiment of the present invention.
2 is a flowchart illustrating a method of searching an electronic document by an electronic document search server according to an embodiment of the present invention.
3 is an example of a user interface provided by the electronic document search server according to an embodiment of the present invention.
FIG. 4 illustrates a search result screen provided to a user terminal according to an embodiment of the present invention.
5 is an example in which a list of retrieved electronic documents is provided according to an embodiment of the present invention.
FIG. 6 illustrates a search result screen that is listed in order of high similarity according to an embodiment of the present invention.
FIG. 7A shows an example in which content is input into a first search word according to an embodiment of the present invention, and FIG. 7B shows an example of a search result screen according to the content input.
8 is a diagram illustrating a method for retrieving documents using a second set of search terms in accordance with another embodiment of the present invention.
9 is a block diagram illustrating a configuration of an electronic document search server according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, which will be readily apparent to those skilled in the art. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. Throughout the specification, when a part is referred to as being "connected" to another part, it includes not only "directly connected" but also "electrically connected" with another part in between . Also, when an element is referred to as "including" an element, it is to be understood that the element may include other elements as well as other elements, And does not preclude the presence or addition of one or more other features, integers, steps, operations, components, parts, or combinations thereof.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱 할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.In this specification, the term " part " includes a unit realized by hardware, a unit realized by software, and a unit realized by using both. Further, one unit may be implemented using two or more hardware, or two or more units may be implemented by one hardware. On the other hand, 'to' is not limited to software or hardware, 'to' may be configured to be an addressable storage medium, and may be configured to play one or more processors. Thus, by way of example, 'parts' may refer to components such as software components, object-oriented software components, class components and task components, and processes, functions, , Subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables. The functions provided in the components and components may be further combined with a smaller number of components and components or further components and components. In addition, the components and components may be implemented to play back one or more CPUs in a device or a secure multimedia card.

이하에서 언급되는 "사용자 단말"은 네트워크를 통해 서버나 타 단말에 접속할 수 있는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet), LTE(Long Term Evolution) 통신 기반 단말, 스마트폰, PDA(personal digital assistants), 태블릿 PC 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다. The "user terminal" mentioned below may be implemented as a computer or a portable terminal capable of accessing a server or other terminal through a network. Here, the computer includes, for example, a notebook computer, a desktop computer, a laptop computer, and the like, each of which is equipped with a web browser (WEB Browser), and the portable terminal may be a wireless communication device , International Mobile Telecommunication (IMT) -2000, Code Division Multiple Access (CDMA) -2000, W-CDMA (W-CDMA), Wireless Broadband Internet (WIBRO), Long Term Evolution Phone, a personal digital assistant (PDA), a tablet PC, and the like.

또한, "네트워크"는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN) 또는 부가가치 통신망(Value Added Network; VAN) 등과 같은 유선 네트워크나 이동 통신망(mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다. The term "network" may also be used in a wired network such as a local area network (LAN), a wide area network (WAN) or a value added network (VAN) And may be implemented in all kinds of wireless networks, such as communication networks.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 전자 문서 검색 시스템의 개요도이다.1 is a schematic diagram of an electronic document retrieval system according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 전자 문서 검색 시스템(10)은 전자 문서 검색 서버(100), 전자 문서 DB(200) 및 다양한 타입의 사용자 단말(300)을 포함한다. Referring to FIG. 1, an electronic document search system 10 according to an exemplary embodiment of the present invention includes an electronic document search server 100, an electronic document DB 200, and various types of user terminals 300.

전자 문서 검색 서버(100)는 전자 문서 DB(200) 및 사용자 단말(300)과 통신하여, 사용자 단말(300)에서 입력된 질의를 기초로 전자 문서 DB(200)에 저장된 전자 문서들을 검색한다. 전자 문서 DB(200)는 논문 등의 기술 문서를 저장하는 기술 문서 DB, 특허 문서를 저장하는 특허 문서 DB, 판례 등의 판례 문서를 저장하는 법률 문서 DB를 포함할 수 있다. 전자 문서 검색 서버(100)는 전자 문서 DB(200)에 접근하여 입력 질의에 매칭되는 전자 문서를 검색한다. 특히, 입력된 질의는 하나 이상의 키워드 또는 문서 식별 번호(예컨대, 특허 식별 번호, 판례 식별 번호, 논문 식별 번호 등)일 수 있으며, 전자 문서 검색 서버(100)는 입력된 질의를 제1 검색어로 설정하여 검색된 하나 이상의 전자 문서로부터 제2 검색어를 생성한다. 이때, 생성된 제2 검색어는, 제1 검색어에 의해 검색된 하나 이상의 전자 문서를 분석한 결과로 추출된 복수의 키워드로서, 제1 검색어에 연관된 키워드뿐 아니라, 제1 검색어와 상이한 지식개체를 나타내는 키워드를 더 포함할 수 있다. 이를 통해, 전자 문서 검색 서버(100)는 사용자 단말(300)의 사용자가 필요한 모든 키워드를 입력하지 않으면서도 원하는 문서에 접근할 수 있도록 할 수 있다. The electronic document search server 100 communicates with the electronic document DB 200 and the user terminal 300 to search for electronic documents stored in the electronic document DB 200 based on the query input from the user terminal 300. The electronic document DB 200 may include a technical document DB for storing a technical document such as a paper, a patent document DB for storing a patent document, and a legal document DB for storing a precedent document such as a precedent. The electronic document search server 100 accesses the electronic document DB 200 and searches for an electronic document matched with the input query. In particular, the input query may be one or more keywords or document identification numbers (e.g., patent identification number, case identification number, article identification number, etc.), and the electronic document search server 100 may set the entered query as the first search term And generates a second search word from the one or more electronic documents retrieved. Here, the generated second search word is a plurality of keywords extracted as a result of analyzing one or more electronic documents retrieved by the first search word, and includes not only the keyword associated with the first search word but also a keyword indicating a knowledge object different from the first search word As shown in FIG. Accordingly, the electronic document search server 100 can allow a user of the user terminal 300 to access a desired document without inputting all necessary keywords.

한편, 도 1에서는 전자 문서 DB(200)가 전자 문서 검색 서버(100)의 외부에 위치하는 것으로 도시하였으나, 이에 제한되지 않는다. 전자 문서 DB(200)는, 도 9에 도시된 바와 같이, 전자 문서 검색 서버(100)에 포함되어 구현될 수 있다. 또한, 전자 문서 DB(200)는 복수 개의 DB로 구현되어 분산되어 위치할 수 있다. 1, the electronic document DB 200 is located outside the electronic document search server 100, but the present invention is not limited thereto. The electronic document DB 200 may be included in the electronic document search server 100 as shown in FIG. Also, the electronic document DB 200 may be implemented as a plurality of DBs and may be distributed and located.

사용자 단말(300)은 전자 문서 검색 서버(100)가 제공하는 사용자 인터페이스(user interface)를 통해 입력된 질의(즉, 제1 검색어)를 전자 문서 검색 서버(100)로 제공한다. 또한, 사용자 단말(300)은 전자 문서 검색 서버(100)가 제공하는 검색 결과를 사용자 단말(300)의 화면에 표시할 수 있다. The user terminal 300 provides the input query (i.e., the first search word) to the electronic document search server 100 through a user interface provided by the electronic document search server 100. [ Also, the user terminal 300 may display the search result provided by the electronic document search server 100 on the screen of the user terminal 300. [

도 2는 본 발명의 일 실시예에 따라 전자 문서 검색 서버(100)가 전자 문서를 검색하는 방법을 도시한 순서도이다. 2 is a flowchart illustrating a method of searching an electronic document by the electronic document search server 100 according to an embodiment of the present invention.

먼저, 전자 문서 검색 서버(100)는 제1 검색어를 획득한다(S200). 예를 들어, 사용자 단말(300)은 특정 어플리케이션(또는 프로그램) 또는 웹 사이트를 실행하여, 전자 문서 검색 서버(100)에 접근할 수 있다. 전자 문서 검색 서버(100)는 상기 어플리케이션 또는 웹 사이트를 통해 사용자 질의를 입력받을 수 있는 사용자 인터페이스를 제공하고, 해당 사용자 인터페이스를 통해 입력된 질의를 제1 검색어로서 획득한다. First, the electronic document search server 100 acquires the first search word (S200). For example, the user terminal 300 can access the electronic document search server 100 by executing a specific application (or program) or a web site. The electronic document search server 100 provides a user interface for receiving a user query through the application or a web site, and acquires a query input through the user interface as a first search word.

도 3은 본 발명의 일 실시예에 따른 전자 문서 검색 서버(100)가 제공하는 사용자 인터페이스를 도시한 예이다. 도 3을 참조하면, 전자 문서 검색 서버(100)는 일반적인 웹 검색과 마찬가지로, 키워드 기반의 검색을 제공한다. 따라서, 종래의 특허 문서 검색이 요구하는 검색식을 입력받는 사용자 인터페이스 대신에, 도 3에 도시된 바와 같이, 키워드 또는 문서 식별 번호를 입력받는 단순화된 사용자 인터페이스를 제공한다. 문서 식별 번호는, 비한정적인 예로서, 특허 출원 번호, 특허 공개 번호, 특허 등록 번호, 논문 식별 번호, 판례 식별 번호, 케이스(case) 식별 번호 등일 수 있다.FIG. 3 illustrates an example of a user interface provided by the electronic document search server 100 according to an embodiment of the present invention. Referring to FIG. 3, the electronic document search server 100 provides a keyword-based search similar to a general web search. Therefore, as shown in FIG. 3, a simplified user interface for inputting a keyword or a document identification number is provided instead of a user interface for receiving a search formula required by a conventional patent document search. The document identification number may be, for example, a patent application number, a patent publication number, a patent registration number, a paper identification number, a case identification number, a case identification number, and the like.

다시 도 2를 참조하면, 전자 문서 검색 서버(100)는 제1 검색어가 획득됨에 따라, 복수의 전자 문서 DB 중에서 제1 전자 문서 DB로부터 제1 검색어가 기재된 정보 필드를 포함하는 제1 전자 문서들을 검색한다(S210). 이하에서는, 설명의 편의를 위해, 제1 전자 문서 DB가 특허 문서 DB이고, 제1 전자 문서가 특허 문서인 것으로 가정하여 설명한다. 이 경우, 정보 필드는, 비한정적인 예로서, 특허 문서의 청구범위(Claims) 필드일 수 있으나, 이에 제한되는 것은 아니다. 즉, 전자 문서 검색 서버(100)는 특허 문서 DB에 포함된 특허 문서들의 전체 청구항 중에서 제1 검색어의 말뭉치를 포함하는 특허 문서들을 검색한다. Referring again to FIG. 2, as the first search word is acquired, the electronic document search server 100 searches for a first electronic document including an information field in which a first search word is written from a first electronic document DB among a plurality of electronic document DBs (S210). Hereinafter, for convenience of explanation, it is assumed that the first electronic document DB is a patent document DB, and the first electronic document is a patent document. In this case, the information field may be, but is not limited to, the Claims field of the patent document as a non-limiting example. That is, the electronic document search server 100 searches for patent documents including the corpus of the first search word among all the claims of the patent documents included in the patent document DB.

한편, 상기 제1 전자 문서 DB는 제1 검색어에 기 설정된 특수 문자(예컨대, !, @, # 등)를 기초로 결정될 수 있다. 예컨대, 제1 검색어에 기 설정된 문자가 포함되지 않은 경우, 전자 문서 검색 서버(100)는 특허 문서 DB로부터 제1 검색어에 대응되는 특허 문서를 검색하고, 제1 검색어에 "@"가 포함되는 경우, 기술 문서 DB로부터 제1 검색어에 대응되는 기술 문서를 검색하며, 제1 검색어에 "#"가 포함되는 경우, 법률 문서 DB로부터 제1 검색어에 대응되는 판례 문서를 검색할 수 있다. On the other hand, the first electronic document DB can be determined based on a special character (e.g.,!, @, #, Etc.) preset in the first search word. For example, when the predetermined character is not included in the first search word, the electronic document search server 100 searches the patent document DB for a patent document corresponding to the first search word, and when "@" is included in the first search word , The technical document corresponding to the first search word is searched from the technical document DB, and when the first search word includes "# ", the legal document corresponding to the first search word can be searched from the legal document DB.

다음으로, 전자 문서 검색 서버(100)는 검색된 제1 전자 문서들의 정보 필드의 컨텍스트(context)를 분석하여 복수의 제2 검색어를 생성한다(S220). Next, the electronic document search server 100 generates a plurality of second search terms by analyzing the context of the information fields of the first electronic documents searched (S220).

예시적으로, 전자 문서 검색 서버(100)는 검색된 특허 문서들에 기재된 전체 청구항의 키워드들을 추출한다. 전자 문서 검색 서버(100)는 각 특허 문서의 청구항들에 대한 형태 분석을 수행하여, 말뭉치 단위의 키워드들을 추출할 수 있다. 이때, 전자 문서 검색 서버(100)는 복잡계 알고리즘(complex network), 뉴럴 네트워크(neural network), 온톨로지(ontology), 시소러스(thesaurus), 워드넷(word net) 등을 이용하여 전체 청구항 내에 기재된 말뭉치 단위의 키워드를 추출할 수 있다. 나아가, 전자 문서 검색 서버(100)는 추출된 키워드와 동일한 의미를 갖는 다른 단어를 더 획득할 수도 있다. Illustratively, the electronic document search server 100 extracts the keywords of the entire claim described in the retrieved patent documents. The electronic document search server 100 may perform a type analysis of the claims of each patent document to extract keywords of a corpus unit. At this time, the electronic document search server 100 may search the corpus unit (s) described in the entire claims by using a complex network, a neural network, an ontology, a thesaurus, a word net, Can be extracted. Further, the electronic document search server 100 may obtain another word having the same meaning as the extracted keyword.

이후, 전자 문서 검색 서버(100)는 추출된 키워드들 각각의 사용 빈도수, 중요도 및 키워드들 간의 관계를 기초로, 상기 추출된 키워드들 중에서 제2 검색어를 추출한다. 이때, 각 키워드의 사용 빈도수는 전체 청구항 내에서의 사용 횟수를 나타내며, 각 키워드의 중요도는 해당 키워드가 기재된 특허 문헌 수, 해당 특허 문헌의 인용 수 및 해당 키워드가 기재된 청구항 속성(예를 들어, 독립항, 종속항, 청구항 간 종속 관계 등) 등을 나타낸다. 또한, 키워드들 간의 관계는 키워드들 간의 동일 특허 문헌 내에서의 사용 여부, 인접도 등을 나타낸다. Then, the electronic document search server 100 extracts a second search term from among the extracted keywords, based on the frequency of use, importance, and the relationship between the keywords of each of the extracted keywords. In this case, the frequency of use of each keyword represents the number of times of use in the entire claim, and the importance of each keyword is determined by the number of patent documents in which the keyword is described, the number of citations of the patent document, , Dependency clause, dependency relation between claims, etc.). Also, the relationship between the keywords indicates whether or not the keywords are used in the same patent document, proximity, and the like.

전자 문서 검색 서버(100)는 상기한 사용 빈도수, 중요도 및 키워드들 간의 관계 중 적어도 하나를 기초로 추출된 키워드들을 순위화하고, 기 설정된 개수의 상위 순위 키워드 각각을 제2 검색어로 선정한다. 구체적인 예를 들어, 전자 문서 검색 서버(100)는 년도 별로 서로 다른 가중치가 부여된 사용 빈도수를 기초로, 주요 키워드를 추출할 수도 있다. 이 경우, 전자 문서 검색 서버(100)는 각 키워드가 처음 사용된 년도부터 현재까지 년도 별로 서로 다른 가중치를 부여한 후, 각 년도에서의 사용 빈도수에 상기 가중치를 곱한 결과값으로 키워드들을 순위화할 수 있다. The electronic document search server 100 ranks the extracted keywords on the basis of at least one of the frequency of use, the importance, and the relationship among the keywords, and selects each of the predetermined number of the top ranked keywords as the second search word. For example, the electronic document search server 100 may extract the main keyword based on the frequency of use given different weights for each year. In this case, the electronic document search server 100 may assign different weights to the years from the year in which each keyword was first used to the current year, and then rank the keywords by the result of multiplying the frequency of use in each year by the weight .

또한, 전자 문서 검색 서버(100)는 각 키워드가 기재된 특허 문헌의 특허수명주기, IPC 값 등을 더 고려하여 키워드들을 순위화할 수 있다. 그러나, 이에 한정되는 것은 아니며, 다양한 방법으로 키워드들이 순위화될 수 있다.In addition, the electronic document search server 100 may rank the keywords in consideration of the patent life cycle, the IPC value, and the like of the patent documents in which each keyword is described. However, the present invention is not limited thereto, and keywords may be ranked in various ways.

다음으로, 전자 문서 검색 서버(100)는 복수의 전자 문서 DB(즉, 특허 문서 DB, 기술 문서 DB, 법률 문서 DB 등) 각각으로부터 적어도 하나의 제2 검색어가 기재된 정보 필드를 포함하는 서로 다른 종류의 전자 문서(즉, 특허 문서, 기술 문서 및 판례 문서)를 검색한다(S230). 이때, 정보 필드는, 특허 문서의 청구 범위(Claims) 이외에, 판례 문서의 판결문 필드, 기술 문서의 요약(abstract) 필드 및/또는 본문 필드 등을 더 포함할 수 있다. Next, the electronic document search server 100 searches for each of the electronic document DB (i.e., the patent document DB, the technical document DB, the legal document DB, and the like) (I.e., a patent document, a technical document, and a precedent document) (S230). At this time, the information field may further include, in addition to claims of the patent document, a judgment statement field of a precedent document, an abstract field and / or a body field of the descriptive document, and the like.

다음으로, 전자 문서 검색 서버(100)는 두 개 이상의 제2 검색어를 이용하여 서로 다른 종류의 전자 문서(즉, 특허 문서, 기술 문서 및 판례 문서)를 분류하고, 분류된 결과를 문서 종류 별로 그룹핑한다(S240). 전자 문서 검색 서버(100)는 제1 전자 문서 DB(예컨대, 특허 문서 DB)에서 제2 검색어로 검색된 전자 문서들(즉, 특허 문서들)에 대해, 두 개 이상의 제2 검색어가 동시에 기재된 정보 필드를 포함하는 특허 문서들을, 상기 두 개 이상의 제2 검색어를 인덱스로 갖는 하나의 그룹으로 분류할 수 있다. 이때, 두 개 이상의 제2 검색어가 동시에 기재된 특허 문서는 상기한 키워드들 간의 관계값으로부터 획득될 수 있다.Next, the electronic document search server 100 classifies different types of electronic documents (that is, patent documents, technical documents, and precedent documents) by using two or more second search words, classifies the classified results into groups (S240). The electronic document search server 100 searches for electronic documents (i.e., patent documents) retrieved from a first electronic document DB (e.g., a patent document DB) with a second search term, May be classified into one group having the indexes of the two or more second search words. At this time, a patent document in which two or more second search terms are simultaneously described can be obtained from the relationship value between the above-mentioned keywords.

또한, 전자 문서 검색 서버(100)는 각 인덱스에 매칭된 제1 전자 문서의 개수를 기초로 각 인덱스의 순위를 결정할 수 있다. Also, the electronic document search server 100 can determine the rank of each index based on the number of first electronic documents matched to each index.

그리고 전자 문서 검색 서버(100)는 나머지 전자 문서 DB로부터 검색된 전자 문서들(즉, 기술 문서 및 판례 문서)에 대해, 상기 분류된 각 그룹에 대응되는 두 개 이상의 제2 검색어가 동시에 기재된 정보 필드를 포함하는 전자 문서들을 종류 별로 그룹핑하고, 해당 인덱스에 링크한다. 즉, 전자 문서 검색 서버(100)는 각 그룹에 대응되는 두 개 이상의 제2 검색어가 기재된 판결문을 포함하는 판례 문서와, 상기 두 개 이상의 제2 검색어가 기재된 요약 필드 및/또는 본문 필드를 포함하는 기술 문서를 그룹핑하고, 상기 두 개 이상의 제2 검색어를 인덱스로 갖는 각 그룹으로 분류한다. 즉, 하나의 인덱스는, 서로 다른 종류의 전자 문서 그룹들에 연관(링크)되며, 각 전자 문서 그룹은 인덱스의 순위를 따른다. Then, the electronic document search server 100 searches the electronic document DB (i.e., the technical document and the precedent document) retrieved from the remaining electronic document DB for an information field in which two or more second search terms corresponding to the classified groups are simultaneously described The electronic documents included are grouped by category and linked to corresponding indexes. That is, the electronic document search server 100 may include a case document including a judgment statement in which two or more second search words corresponding to each group are written, and a summary field and / or a body field in which the two or more second search words are described Group the technical documents, and classify the two or more second search words into respective groups having indices. That is, one index is associated (linked) to different types of electronic document groups, and each electronic document group follows the index's rank.

그리고 전자 문서 검색 서버(100)는 문서 종류 별로 그룹핑된 결과를 사용자 단말(300)로 제공된다(S250).Then, the electronic document search server 100 provides the results grouped by document type to the user terminal 300 (S250).

도 4는 본 발명의 일 실시예에 따라 사용자 단말(300)로 제공되는 검색 결과 화면을 도시한다. 도 4의 검색 결과 화면(400)을 참조하면, 두 개 이상의 제2 검색어를 이용하여 그룹핑된 특허 문서 그룹(421), 판례 문서 그룹(422) 및 기술 문서 그룹(논문 문서)(423)은 해당 제2 검색어들로 구성된 인덱스(420)에 연관되어 제공된다. 그리고 인덱스(420)는 특허 문서 그룹(421) 내의 특허 문서 수를 기준으로 설정된 순위값에 따라 나열된다. FIG. 4 illustrates a search result screen provided to the user terminal 300 according to an embodiment of the present invention. Referring to the search result screen 400 of FIG. 4, the patent document group 421, the precedent document group 422, and the technical document group (paper document) 423 grouped by using two or more second search terms And is provided in association with an index 420 comprised of second search terms. The index 420 is listed according to the rank value set based on the number of patent documents in the patent document group 421.

이때, 검색 결과 화면(400)은 제2 검색어 일부(410)를 제공할 수 있다. 제2 검색어 일부(410)는 제1 검색어로 기능될 수 있도록하는 그래픽 사용자 인터페이스(graphic user interface: GUI) 형태로 제공될 수 있다. 즉, 사용자 단말(300)의 사용자가 하나의 제2 검색어를 선택함에 따라, 전자 문서 검색 서버(100)는 상기 선택된 제2 검색어를 기초로, 전술한 S220 내지 S250 단계를 수행할 수 있다.At this time, the search result screen 400 may provide a second search word part 410. The second search term 410 may be provided in the form of a graphical user interface (GUI) that allows it to function as a first search term. That is, as the user of the user terminal 300 selects one second search word, the electronic document search server 100 may perform the above-described steps S220 through S250 based on the selected second search word.

또한, 사용자가 하나의 그룹(예컨대, "예측 알고리즘 독립"의 특허 문서 그룹)을 선택하면, 전자 문서 검색 서버(100)는 해당 특허 문서 그룹 내의 특허 문서들의 리스트를 제공한다. 도 5는 검색된 전자 문서들의 리스트가 제공된 일례이다. 이때, 제공되는 제2 검색어 일부(510)는 선택된 특허 문서 그룹 내의 특허 문서드로부터 추출된 제2 검색어를 나타낸다. In addition, when the user selects a group (e.g., a group of patent documents of "predictive algorithm independence"), the electronic document search server 100 provides a list of patent documents within the patent document group. 5 is an example in which a list of retrieved electronic documents is provided. At this time, the provided second search word part 510 represents the second search word extracted from the patent document text in the selected patent document group.

한편, 전술한 제1 검색어는 문서 식별 번호(예컨대, 특허 식별 번호, 논문 식별 번호 및 판례 식별 번호 등)일 수 있다. 이 경우, 전자 문서 검색 서버(100)는 해당 문서 식별 번호에 대응되는 하나의 전자 문서와, 상기 전자 문서의 정보 필드로부터 추출된 복수의 제2 검색어로부터 검색된 전자 문서들 간의 유사도를 산출하고, 기 설정된 유사도 범위를 기준으로 문서 종류 별로 분류된 전자 문서들을 그룹핑하여 제공할 수 있다. 이때, 각 전자 문서 그룹은 유사도 범위를 인덱스로 가질 수 있다. 즉, 전자 문서 서버(100)는 100%~70% 유사도 범위를 인덱스로 갖는 서로 다른 종류의 전자 문서 그룹(즉, 특허 문서 그룹, 판례 문서 그룹 및 기술 문서 그룹)을 분류하고, 다음으로 70%~0% 유사도 범위를 인덱스로 갖는 서로 다른 종류의 전자 문서 그룹을 분류하며, 높은 유사도 순으로 나열한 검색 결과 화면을 제공할 수 있다. Meanwhile, the first search word may be a document identification number (e.g., a patent identification number, a paper identification number, and a case identification number). In this case, the electronic document search server 100 calculates the similarity between one electronic document corresponding to the document identification number and the electronic documents retrieved from the plurality of second search words extracted from the information field of the electronic document, It is possible to group and provide electronic documents classified by document type based on the set similarity degree. At this time, each electronic document group can have the similarity degree range as an index. That is, the electronic document server 100 classifies different types of electronic document groups (that is, a patent document group, a precedent document group, and a technical document group) having an index range of 100% to 70% To 0% similarity degree indexes, and provides a search result screen in which the electronic document groups are sorted in descending order of high similarity.

도 6은 본 발명의 일 실시예에 따라 높은 유사도 순으로 나열된 검색 결과 화면(600)을 도시한다. 도 6을 참조하면, 전자 문서 검색 서버(100)는 유사도 범위를 인덱스로 갖는 각 전자 문서 그룹(610)을 제공하며, 제2 검색어 일부(620)를 GUI 형태로 제공한다. 또한, 전자 문서 검색 서버(100)는 각 전자 문서를 유사도 순으로 나열하여 제공할 수 있다(630). FIG. 6 illustrates a search result screen 600 that is listed in order of high similarity according to an embodiment of the present invention. Referring to FIG. 6, the electronic document search server 100 provides each electronic document group 610 having an index of similarity degree as an index, and provides a second search word portion 620 as a GUI. In addition, the electronic document search server 100 may provide the electronic documents listed in order of similarity (630).

이러한 유사도 기반의 검색 결과는 제1 검색어에 대응되는 전자 문서의 선행 문서를 검색하는데에 이용될 수 있도록, 전자 문서의 출원일, 출판일, 선고일 등으로 필터링될 수 있다. Such similarity-based search results can be filtered by the filing date, publication date, sentence date, etc. of the electronic document so that it can be used to search for the preceding document of the electronic document corresponding to the first search word.

또한, 유사도 기반의 검색 결과는, 도 5의 전자 문서들의 리스트 화면(500)에서, 사용자 단말(300)의 사용자가 하나의 전자 문서를 선택함으로써 제공될 수도 있다. 즉, 전자 문서 검색 서버(100)는 선택된 전자 문서의 문서 식별 번호를 획득함으로써, 사용자로부터 문서 식별 번호가 입력되는 경우와 동일한 동작을 수행할 수 있다. In addition, the similarity-based search result may be provided by selecting one electronic document by the user of the user terminal 300 on the list screen 500 of the electronic documents of Fig. That is, the electronic document search server 100 can perform the same operation as that in the case where the document identification number is input from the user by obtaining the document identification number of the selected electronic document.

추가로, 상기 제1 검색어는 자연어(natural language)로 작성된 콘텐트일 수 있다. 즉, 사용자는 자연어로 작성된 콘텐트를 이용하여 관련된 전자 문서를 검색할 수 있다. 도 7a은 본 발명의 일 실시예에 따라 콘텐트(710)가 제1 검색어로 입력된 일례를 도시한다. 이 경우, 전자 문서 검색 서버(100)는 콘텐트(710)로부터 말뭉치 단위의 키워드들을 추출하고, 추출된 각 키워드의 콘텐트(710) 내의 사용 빈도수, 중요도, 및 키워들 간의 관계를 기초로 제2 검색어로 선정할 수 있다. 이후, 전자 문서 검색 서버(100)는 입력된 콘텐트(710)와 제2 검색어로부터 검색된 전자 문서들 간의 유사도를 산출하고, 기 설정된 유사도 범위를 기준으로 문서 종류 별로 분류된 전자 문서들을 그룹핑한다. 전술한 실시예에서와 마찬가지로, 각 전자 문서 그룹은 유사도 범위를 인덱스로 가질 수 있다. 그리고 그룹핑된 결과는 검색 결과로서 사용자 단말(300)로 제공된다. 도 7b는 상기 콘텐트 입력에 따른 검색 결과 화면을 도시한 일례이다. In addition, the first search word may be content written in a natural language. That is, the user can search for an associated electronic document by using the content created in a natural language. FIG. 7A shows an example in which content 710 is input to a first search term according to an embodiment of the present invention. In this case, the electronic document search server 100 extracts the keyword of the corpus unit from the content 710, and based on the usage frequency, importance, and relationship among the keywords in the content 710 of each extracted keyword, Can be selected. Then, the electronic document search server 100 calculates the similarity between the input content 710 and the electronic documents retrieved from the second search word, and groups the electronic documents classified by the document type based on the predetermined similarity degree range. As in the above-described embodiment, each electronic document group can have the similarity degree range as an index. The grouped result is provided to the user terminal 300 as a search result. FIG. 7B is an example showing a search result screen according to the content input.

한편, 도 2에서는 S240 단계에서 제2 검색어 각각을 이용하여 검색된 결과 문서들로부터 그룹핑을 수행하는 것으로 설명하였으나, 이에 한정되는 것은 아니다. 구현예에 따라, 전자 문서 검색 서버(100)는 두 개 이상의 제2 검색어를 먼저 조합한 후에, 제2 검색어 조합을 이용하여 문서들(즉, 특허 문서, 판례 문서 및 기술 문서)을 검색할 수 있다. 도 8은 제2 검색어 조합을 이용하여 문서들을 검색하는 방법을 도시한 도면이다. Meanwhile, in FIG. 2, grouping is performed from the retrieved result documents using each of the second search words in step S240, but the present invention is not limited thereto. In accordance with an implementation, the electronic document search server 100 can first search for documents (i.e., patent documents, case documents, and technical documents) using a second search term combination after first combining two or more second search terms have. 8 is a diagram illustrating a method of retrieving documents using a second set of query terms.

STEP1: 전자 문서 검색 서버(100)는 제1 전자 문서 DB로부터 제1 검색어를 이용하여 검색된 제1 전자 문서들로부로부터 키워드를 추출한다. 구체적인 예를 들어, 제1 검색어가 "빅데이터"인 경우, 추출되는 키워드는 {빅데이터, 영상데이터, 데이터, 서버, 위치, 모듈, 클라우드, 고도지능객체, 카메라, 영상, 자주식, 지능형, 모듈.. 등}일 수 있다. Step 1: The electronic document search server 100 extracts keywords from the first electronic documents retrieved from the first electronic document DB using the first search word. For example, when the first search word is "Big Data ", the keywords to be extracted are {Big Data, Image Data, Data, Server, Location, Module, Cloud, Intelligent Object, Camera, Image, Self- Etc.).

STEP2: 이후, 전자 문서 검색 서버(100)는 각 키워드의 사용 빈도수, 각 키워드의 중요도 및 키워드들 간의 관계 등을 기초로 제2 검색어를 추출한다. 예를 들어, 전자 문서 검색 서버(100)는 각 키워드의 전체 사용 빈도수를 기초로 각 키워드를 순위화한 후, 상위 일정 비율(예컨대, 30 % 등)에 대응되는 사용 빈도수를 기준으로 제2 검색어들을 추출할 수 있다. 이는, 도 2의 S220 단계와 동일하므로 자세한 설명은 생략한다. 전자 문서 검색 서버(100)는 STEP2의 단계를 통해, 전술한 키워드 리스트로부터 "고도지능객체", "자주식", "지능형" 등이 삭제된 주요 키워드 리스트를 획득할 수 있다. Step 2: Thereafter, the electronic document search server 100 extracts the second search word based on the frequency of use of each keyword, the importance of each keyword, and the relationship between the keywords. For example, the electronic document search server 100 ranks each keyword based on the total frequency of use of each keyword, and then, based on the frequency of use corresponding to the upper certain rate (for example, 30%), Can be extracted. This is the same as step S220 of FIG. 2, and therefore, detailed description thereof will be omitted. The electronic document search server 100 can acquire the main keyword list from which the "intelligent intelligent object ", " self-propelled "," intelligent ", etc. are deleted from the keyword list in STEP2.

STEP3: 전자 문서 검색 서버(100)는 두 개 이상의 제2 검색어가 조합된 제2 검색어 조합을 생성한다. 예시적으로, 전자 문서 검색 서버(100)는 뉴럴 네트워크 등에 상기 제2 검색어들을 입력하고, 제2 검색어 조합을 출력받을 수 있다. 이때, 뉴럴 네트워크는 하나의 전자 문서에서 함께 사용되는 키워드들을 기 학습한 것일 수 있다. 예를 들어, 제2 검색어가 {빅데이터, 영상데이터, 서버, 위치, 모듈, 영상, 신호, 클라우드, ... 등} 인 경우, 제2 검색어 조합은 {빅데이터 서버 위치, 빅데이터 서버 모듈, 빅데이터 서버 클라우드 등}일 수 있다. Step 3: The electronic document search server 100 generates a second search word combination in which two or more second search words are combined. Illustratively, the electronic document search server 100 may input the second search words to a neural network and output a second search word combination. In this case, the neural network may be a keyword that is learned together with keywords used in one electronic document. For example, if the second search term is {Big Data, Image Data, Server, Location, Module, Image, Signal, Cloud, ...}, then the second query combination is {Big Data Server Location, Big Data Server Module , Big data server cloud, etc.).

STEP 4: 전자 문서 검색 서버(100)는 각 제2 검색어 조합을 구성하는 제2 검색어들이 모두 기재된 정보를 포함하는 특허 문서, 판례 문서 및 기술 문서를 검색한다. 이때, 제2 검색어 조합을 구성하는 제2 검색어들이 연속적으로 기재되어야 하는 것은 아니며, 하나의 문서에 각 제2 검색어가 기재되어 있으면 충분하다.Step 4: The electronic document search server 100 searches for a patent document, a precedent document, and a technical document including information describing all of the second search terms constituting the second search word combination. At this time, the second search words constituting the second search word combination do not have to be sequentially described, and it suffices that each second search word is described in one document.

전자 문서 검색 서버(100)는 각 제2 검색어 조합이 기재된 특허 문서들의 개수를 기초로 각 제2 검색어 조합을 순위화하고, 순위로 나열된 검색 결과를 사용자 단말(300)로 제공할 수 있다. 할 수 있다. The electronic document search server 100 may rank each second set of search terms based on the number of patent documents in which each second set of search terms is described and provide the ranked search results to the user terminal 300. [ can do.

한편, 도 8에서는 세 개의 제2 검색어가 조합되는 것으로 설명하였으나, 이에 제한되지 않는다. 제2 검색어는 미리 설정된 다양한 개수의 단어 조합을 포함할 수 있다. In FIG. 8, three second search terms are combined, but the present invention is not limited thereto. The second search word may include a preset number of word combinations.

도 9는 본 발명의 일 실시예에 따른 전자 문서 검색 서버(100)의 구성을 도시한 블록도이다. 도 9에 도시된 전자 문서 검색 서버(100)의 구성들은, 앞서 설명된 도 1 내지 도 8 에서 설명된 실시예들과 관련된다. 따라서, 이하 생략된 내용이라 하여도, 도 1 내지 도 6에서 앞서 설명된 내용들은, 도 9 의 전자 문서 검색 서버(100)의 구성에 적용될 수 있다.9 is a block diagram showing a configuration of an electronic document search server 100 according to an embodiment of the present invention. The configurations of the electronic document search server 100 shown in Fig. 9 relate to the embodiments described in Figs. 1 to 8 described above. Therefore, the contents described above in Figs. 1 to 6 can be applied to the configuration of the electronic document search server 100 of Fig. 9, even if omitted below.

도 9를 참조하면, 전자 문서 검색 서버(100)는 프로세서(110), 메모리(120), 통신부(130) 및 복수의 전자 문서 DB(140)를 포함한다. Referring to FIG. 9, the electronic document search server 100 includes a processor 110, a memory 120, a communication unit 130, and a plurality of electronic document DB 140.

프로세서(110)는 전자 문서 검색 서버(100)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(110)는 메모리(120), 통신부(130) 및 복수의 전자 문서 DB(140)의 동작을 제어하기 위한 적어도 하나의 구성요소를 포함할 수 있다. 예를 들어, 프로세서(110)는 RAM(Random Access Memory)(미도시), ROM(Read-Only Memory)(미도시), CPU(미도시), GPU(Graphic Processing Unit)(미도시) 및 버스(미도시) 중 적어도 하나를 포함 할 수 있다. 이때, RAM, ROM, CPU 및 GPU 등은 버스를 통해 서로 연결될 수 있다.The processor 110 controls the overall operation of the electronic document search server 100. For example, the processor 110 may include at least one component for controlling the operation of the memory 120, the communication unit 130, and the plurality of electronic document DBs 140. For example, the processor 110 may include a random access memory (RAM) (not shown), a read only memory (ROM) (not shown), a CPU (not shown), a GPU (Graphic Processing Unit) (Not shown). At this time, the RAM, the ROM, the CPU and the GPU can be connected to each other via the bus.

또한, 프로세서(110)는 메모리(120)에 저장된 프로그램들을 실행함으로써, 사용자 단말(300)로부터 수신된 제1 검색어에 기반하여 전자 문서들을 검색하고, 그에 따른 검색 결과를 제공할 수 있다. 이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭하는 것이다.The processor 110 may also execute programs stored in the memory 120 to retrieve electronic documents based on the first query received from the user terminal 300 and provide search results accordingly. At this time, the memory 120 is collectively referred to as a non-volatile storage device that keeps stored information even when power is not supplied, and a volatile storage device that requires power to maintain stored information.

구체적으로, 프로세서(110)는 제1 검색어가 획득됨에 따라, 복수의 전자 문서 DB(140) 중 제1 전자 문서 DB로부터, 제1 검색어가 기재된 정보 필드를 포함하는 하나 이상의 제1 전자 문서를 검색한다. 이때, 정보 필드는 특허 문서의 청구 범위 필드, 기술 문서의 요약 필드 및/또는 본문 필드, 판례 문서의 판결문 필드 등을 포함할 수 있다. 다음으로, 프로세서(110)는 제1 전자 문서의 정보 필드의 컨텍스트를 분석하여 복수의 제2 검색어를 추출한다. 예시적으로, 프로세서(110)는 하나 이상의 제1 전자 문서의 정보 필드에서 말뭉치 단위의 복수의 키워드를 추출하고, 각 키워드의 사용 빈도, 상기 각 키워드의 중요도, 및 상기 복수의 키워드 간의 관계를 기초로, 상기 복수의 키워드 중 일부를 제2 검색어로 선정할 수 있다.Specifically, the processor 110 retrieves, from the first electronic document DB of the plurality of electronic document DBs 140, one or more first electronic documents including the information field in which the first search word is written, as the first search word is acquired do. At this time, the information field may include a claim field of a patent document, a summary field and / or a text field of a technical document, a judgment statement field of a precedent document, and the like. Next, the processor 110 analyzes the context of the information field of the first electronic document to extract a plurality of second search terms. Illustratively, the processor 110 extracts a plurality of keywords in a corpus-based unit from the information field of one or more first electronic documents, and based on the frequency of use of each keyword, the importance of each keyword, , It is possible to select a part of the plurality of keywords as the second search word.

한편, 제1 전자 문서 DB는 제1 검색어에 포함된 기 설정된 특수 문자를 기초로 결정될 수 있다. 예를 들어, 제1 검색어에 기 설정된 특수 문자가 포함되지 않은 경우, 프로세서(110)는 제1 전자 문서 DB를 특허 문서 DB로 결정하고, 제1 검색어에 "@"가 포함된 경우 제1 전자 문서 DB를 기술 문서 DB로 결정하고, 제1 검색어에 "#"가 포함되는 경우 제1 전자 문서 DB를 법률 문서 DB로 결정할 수 있다.On the other hand, the first electronic document DB can be determined based on a predetermined special character included in the first search word. For example, when the first search word does not include a predetermined special character, the processor 110 determines the first electronic document DB as the patent document DB, and if the first search word includes "@ & The document DB is determined as the technical document DB, and when the first search word includes "# ", the first electronic document DB can be determined as the legal document DB.

다음으로, 프로세서(110)는 복수의 전자 문서 DB(140) 각각으로부터 복수의 제2 검색어 중 적어도 하나가 기재된 정보 필드를 포함하는 서로 다른 종류의 전자 문서를 검색한다. 이후, 프로세서(110)는 두 개 이상의 제2 검색어를 이용하여, 검색된 전자 문서들을 분류하고, 분류된 결과를 문서 종류 별로 그룹핑한다.Next, the processor 110 retrieves different kinds of electronic documents including information fields in which at least one of the plurality of second search terms is written from each of the plurality of electronic document DBs 140. [ Then, the processor 110 classifies the retrieved electronic documents by using two or more second search words, and groups the classified results according to document types.

예시적으로, 프로세서(110)는 상기 제1 전자 문서 DB로부터 검색된 복수의 제1 전자 문서들에 대해, 두 개 이상의 제2 검색어가 동시에 기재된 정보 필드를 포함하는 제1 전자 문서들을, 해당 두 개 이상의 제2 검색어를 인덱스로 갖는 그룹으로 분류한다. 그리고 프로세서(110)는 나머지 전자 문서 DB로부터 검색된 나머지 전자 문서들에 대해, 해당 두 개 이상의 제2 검색어가 동시에 기재된 정보 필드를 포함하는 전자 문서들을 종류 별로 그룹핑하고, 해당 인덱스에 링크한다. 이때, 프로세서(110)는 각 인덱스에 매칭된 제1 전자 문서의 개수를 기초로 각 인덱스의 순위를 결정한다. Illustratively, the processor 110 may associate first electronic documents containing information fields in which two or more second search terms are simultaneously described with respect to a plurality of first electronic documents retrieved from the first electronic document DB, The second search word is classified into a group having an index. Then, the processor 110 groups the electronic documents including the information field in which the two or more second search words are simultaneously described, for each type, and links the corresponding electronic documents to the corresponding indexes for the remaining electronic documents retrieved from the remaining electronic document DB. At this time, the processor 110 determines the rank of each index based on the number of first electronic documents matched to each index.

다음으로, 프로세서(110)는 그룹핑된 결과를 사용자 단말(300)로 제공한다. 이때, 프로세서(110)는 각 인덱스의 순위에 따라 나열된 그룹핑 결과를 사용자 단말(300)로 제공할 수 있다. 또한, 프로세서(110)는 복수의 제2 검색어 일부를 GUI(graphic user interface) 형태로 제공한다. 이때, 상기 제2 검색어 일부는 사용자 단말(300)에서의 사용자 입력에 의해 선택됨에 따라, 제1 검색어로 기능할 수 있다. Next, the processor 110 provides the grouped result to the user terminal 300. At this time, the processor 110 may provide the grouping results listed in the order of the indexes to the user terminal 300. In addition, the processor 110 provides a plurality of second search words in the form of a graphic user interface (GUI). At this time, the part of the second search word may function as a first search word by being selected by a user input in the user terminal 300. [

한편, 제1 검색어는 문서 식별 번호(예컨대, 특허 식별 번호, 판례 식별 번호, 논문 식별 번호 등)일 수 있다. 이 경우, 프로세서(110)는 제1 전자 문서 DB로부터 상기 문서 식별 번호에 대응되는 하나의 제1 전자 문서를 검색하고, 해당 제1 전자 문서와 제2 검색어로 검색된 복수의 전자 문서들 간의 유사도를 산출한다. 그리고 프로세서(110)는 기 설정된 유사도 범위를 기준으로 문서 종류 별로 분류된 전자 문서들을 그룹핑한다. 이때, 각 전자 문서 그룹은 상기 유사도 범위를 인덱스로 갖는다. Meanwhile, the first search word may be a document identification number (e.g., a patent identification number, a case identification number, a paper identification number, etc.). In this case, the processor 110 searches for a first electronic document corresponding to the document identification number from the first electronic document DB, and calculates a degree of similarity between the first electronic document and a plurality of electronic documents retrieved by the second search word . The processor 110 groups the electronic documents classified by the document type based on a predetermined similarity degree range. At this time, each electronic document group has the similarity degree range as an index.

한편, 제1 검색어는 자연어로 작성된 콘텐트일 수 있다. 이 경우, 프로세서(110)는 콘텐트의 컨텍스트를 분석하여 복수의 제2 검색어를 생성한다. 그리고 프로세서(110)는 복수의 전자 문서 DB(140) 각각으로부터, 복수의 제2 검색어 중 적어도 하나가 기재된 정보 필드를 포함하는 서로 다른 종류의 전자 문서를 검색한다. 프로세서(110)는 상기 콘텐트와 검색된 서로 다른 종류의 전자 문서들 간의 유사도를 산출한다. 이후, 프로세서(110)는 기 설정된 유사도 범위를 기준으로 문서 종류 별로 분류된 전자 문서들을 그룹핑하고, 그룹핑된 결과를 사용자 단말(300)로 제공한다. On the other hand, the first search word may be content written in a natural language. In this case, the processor 110 analyzes the context of the content and generates a plurality of second search words. The processor 110 then retrieves, from each of the plurality of electronic document DBs 140, different types of electronic documents including information fields in which at least one of the plurality of second search terms is written. The processor 110 calculates the similarity between the content and the searched different types of electronic documents. Then, the processor 110 groups the electronic documents classified by the document type based on the predetermined similarity degree range, and provides the grouped results to the user terminal 300.

다른 실시예에 의할 경우, 프로세서(110)는 복수의 제2 검색어를 추출한 이후에, 복수의 제2 검색어 중에서 두 개 이상의 제2 검색어가 조합된 제2 검색어 조합을 이용하여 전자 문서들을 검색한다. 다시 말해, 프로세서(110)는 복수의 전자 문서 DB(140) 각각으로부터, 각 제2 검색어 조합의 각 제2 검색어가 기재된 정보 필드를 포함하는 전자 문서들을 검색할 수 있다. 이후, 프로세서(110)는 상기 검색된 전자 문서들을 문서 종류 별로 그룹핑하고, 그룹핑된 결과를 사용자 단말(300)로 제공한다. 이때, 제2 검색어 조합은 기 합습된 뉴럴 네트워크에 의해 생성될 수 있다. In another embodiment, the processor 110 retrieves the electronic documents using a second set of search terms combined with two or more second search terms among a plurality of second search terms after extracting the plurality of second search terms . In other words, the processor 110 may retrieve, from each of the plurality of electronic document DBs 140, electronic documents including an information field in which each second query word of each second query word combination is written. Then, the processor 110 groups the retrieved electronic documents according to the document type, and provides the grouped result to the user terminal 300. At this time, the second set of query terms can be generated by the pre-merged neural network.

통신부(130)는 전자 문서 검색 서버(100)가 사용자 단말(300), 타 서버 등과 통신을 하게 하는 하나 이상의 구성 요소를 포함할 수 있다. 예를 들어, 통신부(130)는 이동통신 칩(미도시), 유선 통신 칩(미도시), 와이파이 칩(미도시), 무선 통신 칩(미도시) 중 적어도 하나를 포함할 수 있다.The communication unit 130 may include one or more components that allow the electronic document search server 100 to communicate with the user terminal 300, another server, and the like. For example, the communication unit 130 may include at least one of a mobile communication chip (not shown), a wired communication chip (not shown), a Wi-Fi chip (not shown), and a wireless communication chip (not shown).

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. One embodiment of the present invention may also be embodied in the form of a recording medium including instructions executable by a computer, such as program modules, being executed by a computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. The computer-readable medium may also include computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.While the methods and systems of the present invention have been described in connection with specific embodiments, some or all of those elements or operations may be implemented using a computer system having a general purpose hardware architecture.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It will be understood by those skilled in the art that the foregoing description of the present invention is for illustrative purposes only and that those of ordinary skill in the art can readily understand that various changes and modifications may be made without departing from the spirit or essential characteristics of the present invention. will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is defined by the appended claims rather than the detailed description and all changes or modifications derived from the meaning and scope of the claims and their equivalents are to be construed as being included within the scope of the present invention do.

10 : 전자 문서 검색 시스템
100: 전자 문서 검색 서버
200: 복수의 전자 문서 DB(database)
300: 사용자 단말
10: Electronic Document Search System
100: electronic document search server
200: a plurality of electronic document DB (database)
300: user terminal

Claims (15)

전자 문서 검색 서버가 특허 문서를 검색하는 방법에 있어서,
제1 검색어가 획득됨에 따라, 서로 다른 종류의 전자 문서를 저장한 복수의 전자 문서 DB(database) 중 제1 전자 문서 DB로부터, 상기 제1 검색어가 기재된 정보 필드를 포함하는 하나 이상의 제1 전자 문서를 검색하는 단계;
상기 하나 이상의 제1 전자 문서의 정보 필드의 컨텍스트(context)를 분석하여 복수의 제2 검색어를 추출하는 단계;
상기 복수의 전자 문서 DB 각각으로부터, 상기 복수의 제2 검색어 중 적어도 하나가 기재된 정보 필드를 포함하는 상기 서로 다른 종류의 전자 문서를 검색하는 단계;
두 개 이상의 제2 검색어를 이용하여, 상기 검색된 서로 다른 종류의 전자 문서들을 분류하고, 상기 분류된 결과를 문서 종류 별로 그룹핑하는 단계; 및
상기 그룹핑된 결과를 사용자 단말로 제공하는 단계를 포함하는 전자 문서 검색 방법.
A method for an electronic document search server to retrieve a patent document,
As the first search word is acquired, from the first electronic document DB among the plurality of electronic document DBs storing different kinds of electronic documents, one or more first electronic documents including the information field describing the first search word ;
Analyzing a context of the information field of the at least one first electronic document to extract a plurality of second search terms;
Retrieving, from each of the plurality of electronic document databases, the electronic document of the different kind including an information field in which at least one of the plurality of second search words is described;
Classifying the searched different types of electronic documents by using two or more second search words and grouping the sorted results by document type; And
And providing the grouped result to a user terminal.
제 1 항에 있어서,
상기 정보 필드는
특허 문서의 청구범위(Claim) 필드, 기술 문서의 요약(abstract) 필드 및 본문 필드 중 적어도 하나, 및 판례 문서의 판결문 필드를 포함하는 것인 전자 문서 검색 방법.
The method according to claim 1,
The information field
A claim field of a patent document, at least one of an abstract field and a text field of a technical document, and a judgment statement field of a precedent document.
제 1 항에 있어서,
상기 문서 종류 별로 그룹핑하는 단계는
상기 제1 전자 문서 DB로부터 검색된 제1 전자 문서들에 대해, 두 개 이상의 제2 검색어가 동시에 기재된 정보 필드를 포함하는 하나 이상의 제1 전자 문서를, 해당 두 개 이상의 제2 검색어를 인덱스로 갖는 그룹으로 분류하는 단계; 및
나머지 전자 문서 DB로부터 검색된 나머지 전자 문서들에 대해, 해당 두 개 이상의 제2 검색어가 동시에 기재된 정보 필드를 포함하는 전자 문서들을 종류 별로 그룹핑하고, 상기 인덱스에 링크하는 단계를 포함하는 것인 전자 문서 검색 방법.
The method according to claim 1,
The step of grouping by document type
The first electronic document retrieved from the first electronic document DB includes at least one first electronic document in which two or more second search words are simultaneously described, ; And
Grouping the electronic documents including the information field in which the two or more second search words are concurrently described, for the remaining electronic documents retrieved from the remaining electronic document DB, and linking the electronic documents to the index Way.
제 3 항에 있어서,
상기 문서 종류 별로 그룹핑하는 단계는,
각 인덱스에 매칭된 제1 전자 문서의 개수를 기초로 상기 각 인덱스의 순위를 결정하는 단계를 더 포함하는 것인 전자 문서 검색 방법.
The method of claim 3,
Wherein the grouping by the document type comprises:
And determining a rank of each index based on the number of first electronic documents matched to each index.
제 4 항에 있어서,
상기 그룹핑 결과를 제공하는 단계는
상기 각 인덱스의 순위에 따라 나열된 상기 그룹핑된 전자 문서들을 제공하며, 상기 복수의 제2 검색어 일부를 GUI(graphic user interface) 형태로 제공하되,
상기 제2 검색어 일부는 사용자 단말에서의 사용자 입력에 의해 선택됨에 따라, 제1 검색어로 기능하는 것인 전자 문서 검색 방법.
5. The method of claim 4,
The step of providing the grouping result
Providing the grouped electronic documents listed according to the rank of each index, and providing a part of the plurality of second search words in the form of a graphical user interface (GUI)
Wherein the second search term part functions as a first search term as selected by user input at a user terminal.
제 1 항에 있어서,
상기 제1 검색어는 문서 식별 번호이며,
상기 문서 종류 별로 그룹핑하는 단계는
상기 제1 검색어에 대응되는 하나의 제1 전자 문서와, 상기 복수의 제2 검색어를 기초로 검색된 전자 문서들 간의 유사도를 산출하는 단계; 및
기 설정된 유사도 범위를 기준으로 문서 종류 별로 분류된 전자 문서들을 그룹핑하는 단계를 포함하되,
각 전자 문서 그룹은 상기 기 설정된 유사도 범위를 인덱스로 갖는 것인 전자 문서 검색 방법.
The method according to claim 1,
The first search word is a document identification number,
The step of grouping by document type
Calculating a degree of similarity between the first electronic document corresponding to the first search word and the electronic documents searched based on the plurality of second search words; And
Grouping electronic documents classified by document type based on a predetermined similarity degree range,
And each electronic document group has the predetermined similarity degree range as an index.
제 1 항에 있어서,
상기 제1 검색어에 포함된 기 설정된 특수 문자를 기초로, 상기 제1 전자 문서 DB가 결정되는 것인 전자 문서 검색 방법.
The method according to claim 1,
Wherein the first electronic document DB is determined based on a predetermined special character included in the first search word.
전자 문서 검색 서버가 전자 문서를 검색하는 방법에 있어서,
자연어로 작성된 콘텐트가 획득됨에 따라, 상기 콘텐트의 컨텍스트(context)를 분석하여 복수의 제2 검색어를 추출하는 단계;
복수의 전자 문서 DB 각각으로부터, 상기 복수의 제2 검색어 중 적어도 하나가 기재된 정보 필드를 포함하는 서로 다른 종류의 전자 문서를 검색하는 단계;
상기 검색된 서로 다른 종류의 전자 문서들과 상기 콘텐트 간의 유사도를 산출하는 단계;
기 설정된 유사도 범위를 기준으로 문서 종류 별로 분류된 전자 문서들을 그룹핑하는 단계; 및
상기 그룹핑된 결과를 사용자 단말로 제공하는 단계를 포함하는 전자 문서 검색 방법.
A method of an electronic document search server for searching an electronic document,
Extracting a plurality of second search terms by analyzing a context of the content as the content is obtained in a natural language;
Retrieving, from each of a plurality of electronic documents DB, different types of electronic documents including an information field in which at least one of the plurality of second search words is described;
Calculating similarity between the searched different types of electronic documents and the content;
Grouping electronic documents classified by document type based on a predetermined similarity degree range; And
And providing the grouped result to a user terminal.
전자 문서 검색 서버가 전자 문서를 검색하는 방법에 있어서,
복수의 전자 문서 DB 중 제1 전자 문서 DB로부터, 제1 검색어가 기재된 정보 필드를 포함하는 하나 이상의 제1 전자 문서를 검색하는 단계;
상기 하나 이상의 제1 전자 문서의 정보 필드의 컨텍스트(context)를 분석하여, 복수의 제2 검색어를 추출하는 단계;
상기 복수의 제2 검색어 중 두 개 이상의 제2 검색어가 조합된 제2 검색어 조합을 기초로, 상기 복수의 전자 문서 DB 각각으로부터 전자 문서들을 검색하는 단계; 및
상기 검색된 전자 문서들을 문서 종류 별로 그룹핑하고, 상기 그룹핑된 결과를 사용자 단말로 제공하는 단계를 포함하는 전자 문서 검색 방법.
A method of an electronic document search server for searching an electronic document,
Retrieving from the first electronic document DB of the plurality of electronic documents DB one or more first electronic documents including an information field in which a first search word is written;
Analyzing a context of the information field of the at least one first electronic document to extract a plurality of second search terms;
Retrieving electronic documents from each of the plurality of electronic document databases based on a second set of search terms in which two or more of the plurality of second search terms are combined; And
Grouping the retrieved electronic documents by document type, and providing the grouped result to a user terminal.
제 9항에 있어서,
상기 제2 검색어 조합은,
기 학습된 뉴럴 네트워크 또는 복잡계 네트워크에 의해 생성되는 것인 전자 문서 검색 방법.
10. The method of claim 9,
Wherein the second search word combination comprises:
Wherein the generated electronic document is generated by a learned neural network or a complex system network.
제 9 항에 있어서,
상기 제2 검색어를 추출하는 단계는
상기 하나 이상의 제1 전자 문서에서 말뭉치(corpus)단위의 복수의 키워드를 추출하는 단계; 및
상기 하나 이상의 제1 전자 문서에서의 각 키워드의 사용 빈도, 상기 각 키워드의 중요도, 및 상기 복수의 키워드 간의 관계를 기초로, 상기 복수의 키워드 중 일부를 제2 검색어로 선정하는 단계를 포함하는 것인, 전자 문서 검색 방법.
10. The method of claim 9,
The step of extracting the second search word
Extracting a plurality of keywords in a corpus unit from the at least one first electronic document; And
A step of selecting a part of the plurality of keywords as a second search term based on the frequency of use of each keyword in the at least one first electronic document, the importance degree of each keyword, and the relation between the plurality of keywords The electronic document retrieval method.
전자 문서 검색 서버에 있어서,
서로 다른 종류의 전자 문서들이 저장된 복수의 전자 문서 DB(database);
전자 문서를 검색하는 프로그램이 저장된 메모리(memory); 및
상기 프로그램을 실행하는 프로세서를 포함하되,
상기 프로세서는, 상기 프로그램이 실행됨에 따라,
제1 검색어가 획득됨에 따라, 상기 복수의 전자 문서 DB 중 제1 전자 문서 DB로부터, 상기 제1 검색어가 기재된 정보 필드를 포함하는 하나 이상의 제1 전자 문서를 검색하고, 상기 하나 이상의 제1 전자 문서의 정보 필드의 컨텍스트(context)를 분석하여 복수의 제2 검색어를 추출하고,
상기 복수의 전자 문서 DB 각각으로부터, 상기 복수의 제2 검색어 중 적어도 하나가 기재된 정보 필드를 포함하는 상기 서로 다른 종류의 전자 문서를 검색하고, 두 개 이상의 제2 검색어를 이용하여 상기 검색된 서로 다른 종류의 전자 문서를 분류하고, 상기 분류된 결과를 문서 종류 별로 그룹핑하며,
상기 그룹핑된 결과를 사용자 단말로 제공하는 전자 문서 검색 서버.
An electronic document search server comprising:
A plurality of electronic document databases (DB) in which different kinds of electronic documents are stored;
A memory for storing a program for searching an electronic document; And
And a processor for executing the program,
The processor, as the program is executed,
Retrieving from the first electronic document DB of the plurality of electronic document databases one or more first electronic documents including the information field in which the first search word is written as the first search word is acquired, Extracts a plurality of second search terms by analyzing the context of the information field of the first search word,
The electronic document including at least one of the plurality of second search words from the plurality of electronic document DBs, and searching for the different types of electronic documents using the at least two second search words, And grouping the sorted results by document type,
And provides the grouped result to a user terminal.
전자 문서 검색 서버에 있어서,
서로 다른 종류의 전자 문서들이 저장된 복수의 전자 문서 DB(database);
전자 문서를 검색하는 프로그램이 저장된 메모리(memory); 및
상기 프로그램을 실행하는 프로세서를 포함하되,
상기 프로세서는, 상기 프로그램이 실행됨에 따라,
자연어로 작성된 콘텐트가 획득됨에 따라, 상기 콘텐트의 컨텍스트(context)를 분석하여 복수의 제2 검색어를 추출하고, 상기 복수의 전자 문서 DB 각각으로부터, 상기 복수의 제2 검색어 중 적어도 하나가 기재된 정보 필드를 포함하는 상기 서로 다른 종류의 전자 문서를 검색하고,
상기 복수의 서로 다른 종류의 전자 문서들과 상기 콘텐트 간의 유사도를 산출하고, 기 설정된 유사도 범위를 기준으로 문서 종류 별로 분류된 전자 문서들을 그룹핑하며,
상기 그룹핑된 결과를 사용자 단말로 제공하는 전자 문서 검색 서버.
An electronic document search server comprising:
A plurality of electronic document databases (DB) in which different kinds of electronic documents are stored;
A memory for storing a program for searching an electronic document; And
And a processor for executing the program,
The processor, as the program is executed,
Extracting a plurality of second search words by analyzing the context of the content as the content created in a natural language is acquired and extracting a plurality of second search terms from each of the plurality of electronic document DBs, Retrieving the different types of electronic documents,
Calculating similarities between the plurality of different types of electronic documents and the content, grouping electronic documents classified by document type based on a predetermined similarity degree range,
And provides the grouped result to a user terminal.
전자 문서 검색 서버에 있어서,
서로 다른 종류의 전자 문서들이 저장된 복수의 전자 문서 DB(database);
전자 문서를 검색하는 프로그램이 저장된 메모리(memory); 및
상기 프로그램을 실행하는 프로세서를 포함하되,
상기 프로세서는, 상기 프로그램이 실행됨에 따라,
상기 복수의 전자 문서 DB 중 제1 전자 문서 DB로부터, 제1 검색어가 기재된 정보 필드를 포함하는 하나 이상의 제1 전자 문서를 검색하고, 상기 하나 이상의 제1 전자 문서의 정보 필드의 컨텍스트(context)를 분석하여, 복수의 제2 검색어를 추출하며,
상기 복수의 제2 검색어 중 두 개 이상의 제2 검색어가 조합된 제2 검색어 조합을 기초로, 상기 복수의 전자 문서 DB 각각으로부터 서로 다른 종류의 전자 문서들을 검색하고, 상기 검색된 전자 문서들을 문서 종류 별로 그룹핑하고, 상기 그룹핑된 결과를 사용자 단말로 제공하는 전자 문서 검색 서버.
An electronic document search server comprising:
A plurality of electronic document databases (DB) in which different kinds of electronic documents are stored;
A memory for storing a program for searching an electronic document; And
And a processor for executing the program,
The processor, as the program is executed,
Retrieving from the first electronic document DB of the plurality of electronic document databases at least one first electronic document including an information field in which a first search word is written and determining a context of the information field of the at least one first electronic document Extracts a plurality of second search words,
Searches for different types of electronic documents from each of the plurality of electronic document DBs based on a second search word combination in which two or more second search words of the plurality of second search words are combined, And provides the grouped result to the user terminal.
제 1 항 내지 제 11 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.12. A computer-readable recording medium on which a program for implementing the method of any one of claims 1 to 11 is recorded.
KR1020170168134A 2017-02-22 2017-12-08 Method for searching electronic document and apparatus thereof KR102069341B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2018/014675 WO2019112223A1 (en) 2017-12-08 2018-11-27 Electronic document retrieval method and server therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170023473 2017-02-22
KR20170023473 2017-02-22

Publications (2)

Publication Number Publication Date
KR20180097120A true KR20180097120A (en) 2018-08-30
KR102069341B1 KR102069341B1 (en) 2020-01-22

Family

ID=63453737

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170168134A KR102069341B1 (en) 2017-02-22 2017-12-08 Method for searching electronic document and apparatus thereof

Country Status (1)

Country Link
KR (1) KR102069341B1 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102085216B1 (en) * 2019-10-02 2020-03-04 (주)디앤아이파비스 Method, apparatus and program for calculating for weight score of word
KR102085355B1 (en) * 2019-10-02 2020-03-05 (주)디앤아이파비스 Method, apparatus and program for generating for thesaurus of patent document
KR102154641B1 (en) * 2020-02-03 2020-09-10 한국과학기술정보연구원 Apparatus for analyzing documents with fixed form, method of analyzing documents with fixed form and storage storing a program thereof
CN112182293A (en) * 2019-07-02 2021-01-05 百度在线网络技术(北京)有限公司 Video providing method, video providing device, electronic equipment and storage medium
KR20210039908A (en) * 2019-10-02 2021-04-12 (주)디앤아이파비스 Method for calculating for weight score of word based reference information of patent document
KR20210039907A (en) * 2019-10-02 2021-04-12 (주)디앤아이파비스 Method for calculating for weight score using appearance rate of word
WO2023101364A1 (en) * 2021-11-30 2023-06-08 엘지이노텍 주식회사 Neural network training method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020099685A1 (en) * 2001-01-25 2002-07-25 Hitachi, Ltd. Document retrieval system; method of document retrieval; and search server

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020099685A1 (en) * 2001-01-25 2002-07-25 Hitachi, Ltd. Document retrieval system; method of document retrieval; and search server

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182293A (en) * 2019-07-02 2021-01-05 百度在线网络技术(北京)有限公司 Video providing method, video providing device, electronic equipment and storage medium
KR102085216B1 (en) * 2019-10-02 2020-03-04 (주)디앤아이파비스 Method, apparatus and program for calculating for weight score of word
KR102085355B1 (en) * 2019-10-02 2020-03-05 (주)디앤아이파비스 Method, apparatus and program for generating for thesaurus of patent document
KR20210039908A (en) * 2019-10-02 2021-04-12 (주)디앤아이파비스 Method for calculating for weight score of word based reference information of patent document
KR20210039907A (en) * 2019-10-02 2021-04-12 (주)디앤아이파비스 Method for calculating for weight score using appearance rate of word
KR102154641B1 (en) * 2020-02-03 2020-09-10 한국과학기술정보연구원 Apparatus for analyzing documents with fixed form, method of analyzing documents with fixed form and storage storing a program thereof
WO2023101364A1 (en) * 2021-11-30 2023-06-08 엘지이노텍 주식회사 Neural network training method

Also Published As

Publication number Publication date
KR102069341B1 (en) 2020-01-22

Similar Documents

Publication Publication Date Title
US9864808B2 (en) Knowledge-based entity detection and disambiguation
KR20180097120A (en) Method for searching electronic document and apparatus thereof
CN111008265B (en) Enterprise information searching method and device
US8316007B2 (en) Automatically finding acronyms and synonyms in a corpus
Hienert et al. Digital library research in action–supporting information retrieval in sowiport
US10747759B2 (en) System and method for conducting a textual data search
US20090094223A1 (en) System and method for classifying search queries
CN105045852A (en) Full-text search engine system for teaching resources
JP7252914B2 (en) Method, apparatus, apparatus and medium for providing search suggestions
US9754022B2 (en) System and method for language sensitive contextual searching
CN107844493B (en) File association method and system
US20210103622A1 (en) Information search method, device, apparatus and computer-readable medium
CN111061828B (en) Digital library knowledge retrieval method and device
CN111475725A (en) Method, apparatus, device, and computer-readable storage medium for searching for content
US8799314B2 (en) System and method for managing information map
WO2019112223A1 (en) Electronic document retrieval method and server therefor
WO2023151576A1 (en) Search recommendation method, search recommendation system, computer device and storage medium
KR20010107810A (en) Web search system and method
CN114402316A (en) System and method for federated search using dynamic selection and distributed correlations
Zhang et al. A semantics-based method for clustering of Chinese web search results
CN112015853A (en) Book searching method, book searching system, electronic device and medium
Huang et al. Rough-set-based approach to manufacturing process document retrieval
CN112613320A (en) Method and device for acquiring similar sentences, storage medium and electronic equipment
Sewell Comparing four CAB abstracts platforms from a veterinary medicine perspective
CN112860940B (en) Music resource retrieval method based on sequential concept space on description logic knowledge base

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant