KR101846342B1 - Computer readable medium for recording program performing method of managing electronic documents and system for managing electronic documents - Google Patents

Computer readable medium for recording program performing method of managing electronic documents and system for managing electronic documents Download PDF

Info

Publication number
KR101846342B1
KR101846342B1 KR1020160126398A KR20160126398A KR101846342B1 KR 101846342 B1 KR101846342 B1 KR 101846342B1 KR 1020160126398 A KR1020160126398 A KR 1020160126398A KR 20160126398 A KR20160126398 A KR 20160126398A KR 101846342 B1 KR101846342 B1 KR 101846342B1
Authority
KR
South Korea
Prior art keywords
electronic document
character
mapping
structured field
extracted
Prior art date
Application number
KR1020160126398A
Other languages
Korean (ko)
Inventor
오재철
Original Assignee
주식회사 아이온커뮤니케이션즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아이온커뮤니케이션즈 filed Critical 주식회사 아이온커뮤니케이션즈
Priority to KR1020160126398A priority Critical patent/KR101846342B1/en
Application granted granted Critical
Publication of KR101846342B1 publication Critical patent/KR101846342B1/en

Links

Images

Classifications

    • G06F17/212
    • G06F17/214
    • G06K9/3258
    • G06K9/3283
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

According to the present invention, in a recording medium storing a program for executing an electronic document management method in a computer, the electronic document management method includes the steps of: extracting characters of a plurality of character regions included in an electronic document; analyzing a mapping factor of the characters extracted from the plurality of character regions; generating the plurality of character regions as a structured field that constitutes the electronic document based on the analyzed mapping factor; and mapping and storing the extracted characters in the structured field which is generated. Accordingly, the present invention can manage the electronic document by dynamically generating the structured field.

Description

전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체 및 전자문서 관리 시스템 {Computer readable medium for recording program performing method of managing electronic documents and system for managing electronic documents}[0001] The present invention relates to a recording medium and an electronic document management system storing a program for causing a computer to execute an electronic document management method,

본 발명은 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체, 전자문서 관리방법을 컴퓨터에서 실행시키기 위하여 매체에 저장된 프로그램, 및 전자문서 관리 시스템에 관한 것이다.The present invention relates to a recording medium storing a program for executing an electronic document management method on a computer, a program stored on a medium for executing the electronic document management method on a computer, and an electronic document management system.

종이문서를 이미지로 획득하거나 스캔한 문서의 경우, 특저한 영역을 지정하고 이에 대한 부분을 문자인식(Optical Character Recognition) 프로그램을 실행하여 문자를 추출하여 저장하였다. 그러나 문자인식률이 낮아 아라비아 숫자와 같이 간단하면서도 빈번한 문자만 인식하는 경우가 많다.In the case of a document obtained as an image of a paper document or a scanned document, a special region is designated and a portion thereof is extracted and stored by executing an optical character recognition program. However, since the recognition rate is low, it is often the case that only simple and frequent characters such as Arabic numerals are recognized.

또한 문자인식률이 낮을 뿐만 아니라, 인식해야 하는 영역이 문서에 따라 상이하여 영역을 수작업을 통해 선택하고 이후에 선택된 영역에 대하여 추출된 문서가 실제 전자문서의 어느 영역에 해당하는지를 모두 매핑시키는 불편함이 있었다.In addition to the low recognition rate of characters, it is inconvenient to select all the areas to be recognized according to the document, manually select the area, and then map the extracted document to the area of the actual electronic document there was.

한국 공개특허 제10-2013-0080745호(2013.07.15. 공개)Korean Patent Publication No. 10-2013-0080745 (published on July 15, 2013)

본 발명은 전자문서에서 문자가 포함된 문자영역에서 구조를 파악할 수 있는 매핑 인자를 분석하여 구조화된 필드를 생성한 이후에 문자영역에서 추출된 문자들을 구조화된 필드에 매핑하는 동적인(dynamic) 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체 및 전자문서 관리 시스템을 제공한다. The present invention relates to a dynamic electronic device for mapping a character extracted from a character region to a structured field after generating a structured field by analyzing a mapping factor capable of grasping a structure in a character region including a character in an electronic document, There is provided a recording medium and an electronic document management system storing a program for causing a computer to execute a document management method.

본 발명은 클라우드 기반으로 복수의 테넌트들 별로 특정한 구조화된 필드를 가지는 전자문서들을 별도로 관리함으로써 복수의 테넌트들이 빈번하게 사용하는 구조의 전자문서에 대해서 기존 분석된 구조화된 필드로 전자문서를 매핑시켜 관리할 수 있는 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체 및 전자문서 관리 시스템을 제공한다. According to the present invention, electronic documents having structured fields specific to a plurality of tenants are separately managed based on a cloud, thereby mapping an electronic document to existing analyzed structured fields for an electronic document having a structure frequently used by a plurality of tenants The present invention provides a recording medium and an electronic document management system storing a program for causing a computer to execute an electronic document management method.

본 발명의 일 실시예에 의한 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체에 있어서, 상기 전자문서 관리방법은 전자문서에 포함된 복수의 문자영역의 문자를 추출하는 단계, 상기 복수의 문자영역에서 추출된 문자의 매핑 인자(mapping factor)를 분석하는 단계, 상기 분석된 매핑 인자에 기초하여 상기 복수의 문자영역을 전자문서를 구성하는 구조화된 필드(structured field)로 생성하는 단계, 및 상기 생성된 구조화된 필드에 상기 추출된 문자를 매핑하여 저장하는 단계를 포함한다.There is provided a recording medium storing a program for executing an electronic document management method according to an embodiment of the present invention, the method comprising the steps of: extracting characters of a plurality of character regions included in an electronic document; Analyzing a mapping factor of a character extracted from a plurality of character regions, and generating the plurality of character regions as a structured field configuring an electronic document based on the analyzed mapping factor And mapping and storing the extracted characters in the generated structured field.

일 실시 예에 있어서, 상기 매핑 인자를 분석하는 단계는, 문자의 텍스트 길이, 문자의 크기, 문자의 굵기, 문자의 기울기, 문자의 행간 길이, 해당 문자영역의 상기 전자문서 내에서의 위치, 다른 문자영역과의 위치 관계, 문자의 색상 중 적어도 하나를 분석하는 단계를 포함할 수 있다.In one embodiment, the step of analyzing the mapping factor may include comparing the text length of the character, the size of the character, the thickness of the character, the slope of the character, the length between the lines of the character, A positional relationship with the character area, and a color of the character.

일 실시 예에 있어서, 상기 구조화된 필드를 생성하는 단계는, 상기 매핑 인자에 대하여 기 설정된 가중치를 부여하여 각 문자영역의 매핑 스코어를 산출하는 단계, 및 상기 산출된 매핑 스코어에 순차적으로 기초하여 상기 구조화된 필드를 생성하는 단계를 포함할 수 있다.In one embodiment, the step of generating the structured field may include the steps of: calculating a mapping score of each character region by assigning a predetermined weight to the mapping factor; and calculating, based on the calculated mapping score, And generating a structured field.

일 실시 예에 있어서, 상기 전자문서 관리방법은 상기 구조화된 필드와 매핑된 상기 문자영역의 매핑 인자를 연관시켜 저장하는 단계를 더 포함할 수 있다.In one embodiment, the electronic document management method may further include associating and storing mapping fields of the structured field and the mapped character region.

일 실시 예에 있어서, 상기 전자문서 관리방법은 테넌트 별로 상기 구조화된 필드와 매핑 인자를 연관시켜 전자문서 구조 템플릿을 관리하는 단계, 및 수신된 전자문서의 테넌트에 대한 전자문서 구조 템플릿에 상기 수신된 전자문서를 매핑시키는 단계를 더 포함할 수 있다.In one embodiment, the electronic document management method includes: managing an electronic document structure template by associating the structured field with a mapping factor for each tenant; and managing the received electronic document structure template for tenants of the received electronic document, The method may further include mapping the electronic document.

실시 예에 따라, 상기 구조화된 필드를 생성하는 단계는, 상기 전자문서의 목차 정보를 추출하는 단계, 및 상기 추출된 목차 정보와 상기 구조화된 필드를 비교하여 검증하는 단계를 포함할 수 있다.According to an embodiment, generating the structured field may include extracting table of contents information of the electronic document, and comparing and verifying the extracted table of contents information with the structured field.

본 발명에 따른 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체가 실행하기 위한 전자문서 관리방법은 상기 전자문서를 디스플레이 수단을 통하여 표시하고 상기 복수의 문자영역을 선택하는 인터페이스를 제공하는 단계를 더 포함할 수 있다.The electronic document management method for executing the recording medium storing the program for execution on the computer according to the present invention further includes the step of displaying the electronic document through the display means and providing an interface for selecting the plurality of character areas can do.

실시 예에 따라, 상기 생성된 구조화된 필드에 상기 추출된 문자를 매핑하여 저장하는 단계는, 상기 구조화된 필드와 상기 추출된 문자를 매핑한 결과를 디스플레이 수단을 통하여 표시하는 단계, 및 사용자로부터 상기 매핑 결과에 대한 피드백을 수신하는 단계를 포함할 수 있다.The step of mapping and storing the extracted characters in the generated structured field may include displaying the result of mapping the structured field and the extracted character through a display means, And receiving feedback on the mapping result.

본 발명은, 상술한 전자문서 관리방법을 컴퓨터에서 실행시키기 위하여 매체에 저장된 프로그램을 포함한다.The present invention includes a program stored in a medium for causing the computer to execute the above-described electronic document management method.

본 발명의 일 실시 예에 따른 전자문서 관리 시스템은 전자문서에 포함된 복수의 문자영역의 문자를 추출하는 문자 추출부, 상기 복수의 문자영역에서 추출된 문자의 매핑 인자(mapping factor)를 분석하는 문서 분석부, 상기 분석된 매핑 인자에 기초하여 상기 복수의 문자영역을 전자문서를 구성하는 구조화된 필드(structured field)로 생성하는 문서 구조화부, 및 상기 생성된 구조화된 필드에 상기 추출된 문자를 매핑하여 저장하는 문서 매핑부를 포함한다.An electronic document management system according to an embodiment of the present invention includes a character extracting unit for extracting a character of a plurality of character regions included in an electronic document, and a character analyzing unit for analyzing a mapping factor of characters extracted from the plurality of character regions A document analyzing unit for analyzing the character string, a document structuring unit for generating the plurality of character regions as a structured field constituting an electronic document based on the analyzed mapping factors, And a document mapping unit for mapping and storing.

실시 예에 따라, 상기 문서 분석부가 분석하는 매핑 인자는, 문자의 텍스트 길이, 문자의 크기, 문자의 굵기, 문자의 기울기, 문자의 행간 길이, 해당 문자영역의 상기 전자문서 내에서의 위치, 다른 문자영역과의 위치 관계, 문자의 색상 중 적어도 하나를 포함할 수 있다.According to the embodiment, the mapping parameter analyzed by the document analyzing unit may include at least one of a text length of a character, a size of a character, a thickness of a character, a slope of a character, a length of a line between characters, a position of the character region in the electronic document, A positional relationship with a character area, and a color of a character.

일 실시 예에 있어서, 상기 문서 구조화부는 상기 매핑 인자에 대하여 기 설정된 가중치를 부여하여 각 문자영역의 매핑 스코어를 산출하고, 상기 산출된 매핑 스코어에 순차적으로 기초하여 상기 구조화된 필드를 생성할 수 있다. 예를 들어, 상기 문서 구조화부는 상기 전자문서의 목차 정보를 추출하여, 추출된 목차 정보와 상기 구조화된 필드를 비교하여 검증할 수 있다.In one embodiment, the document structuring unit may assign a predetermined weight to the mapping factor to calculate a mapping score of each character region, and may generate the structured field sequentially based on the calculated mapping score . For example, the document structuring unit may extract the table of contents information of the electronic document and compare the extracted table of contents information with the structured field.

본 발명의 일 실시 예에 따른 전자문서 관리 시스템은 상기 전자문서를 표시하여 상기 복수의 문자영역을 선택하도록 하거나 상기 매핑 결과를 표시하여 피드백을 받는 인터페이스를 제공하는 인터페이스부를 더 포함할 수 있다.The electronic document management system according to an embodiment of the present invention may further include an interface unit for displaying the electronic document to select the plurality of character regions, or displaying an interface for receiving the feedback by receiving the mapping result.

본 발명의 일 실시 예에 따른 전자문서 관리 시스템 상기 구조화된 필드와 매핑된 상기 문자영역의 매핑 인자를 연관시켜 저장하여 전자문서 구조 템플릿을 관리하는 데이터베이스를 더 포함할 수 있으며, 상기 문서 매핑부는 상기 전자문서를 상기 전자문서 구조 템플릿에 기초하여 매핑할 수 있다.An electronic document management system according to an exemplary embodiment of the present invention may further include a database for managing an electronic document structure template by associating and storing the mapping field of the character area mapped with the structured field, The electronic document can be mapped based on the electronic document structure template.

본 발명에 의하면, 전자문서에서 문자를 인식하여 이를 저장하는 과정에서 사용자가 전자문서의 구조를 파악하고 해당 구조에 추출된 문자를 매핑시켜 관리하는 불편함을 해소하고, 다양한 종류의 전자문서의 구조를 파악하여 동적으로 구조화된 필드를 생성하여 전자문서를 관리하는 전자문서 관리방법, 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체, 전자문서 관리방법을 컴퓨터에서 실행시키기 위하여 매체에 저장된 프로그램, 및 전자문서 관리 시스템을 제공할 수 있다.According to the present invention, it is possible to solve the inconvenience that the user recognizes the structure of the electronic document and maps and manages the extracted character in the process of recognizing and storing the character in the electronic document, An electronic document management method for managing an electronic document by generating a dynamically structured field, a recording medium storing a program for executing an electronic document management method on a computer, and an electronic document management method for executing an electronic document management method on a computer A stored program, and an electronic document management system.

도 1은 본 발명의 일 실시 예에 전자문서 관리방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시 예에 따른 전자문서 관리방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 일 실시 예에 따른 전자문서 관리방법 및 전자문서 관리 시스템을 통하여 사용자에게 제공될 수 있는 디스플레이 화면의 일 예이다.
도 4는 본 발명의 일 실시 예에 따른 전자문서의 문자영역을 표시하는 화면이다.
도 5는 본 발명의 일 실시 예에 따른 전자문서 관리 시스템을 나타내는 블록도이다.
1 is a flowchart illustrating an electronic document management method according to an embodiment of the present invention.
2 is a flowchart illustrating an electronic document management method according to an embodiment of the present invention.
3 is an example of a display screen that can be provided to a user through the electronic document management method and the electronic document management system according to an embodiment of the present invention.
4 is a screen for displaying a character area of an electronic document according to an embodiment of the present invention.
5 is a block diagram illustrating an electronic document management system according to an embodiment of the present invention.

이하, 첨부한 도면을 참조하여 본 발명의 다양한 실시 예들에 대해 상세히 설명하고자 한다. 본 문서에서 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Various embodiments of the present invention will now be described in detail with reference to the accompanying drawings. In this document, the same reference numerals are used for the same constituent elements in the drawings, and redundant explanations for the same constituent elements are omitted.

본 문서에 개시되어 있는 본 발명의 다양한 실시 예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시 예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 다양한 실시 예들은 여러 가지 형태로 실시될 수 있으며 본 문서에 설명된 실시 예들에 한정되는 것으로 해석되어서는 아니 된다.For the various embodiments of the invention disclosed herein, specific structural and functional descriptions are set forth for the purpose of describing an embodiment of the invention only, and various embodiments of the invention may be practiced in various forms And should not be construed as limited to the embodiments described herein.

다양한 실시 예에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 해당 구성요소들을 한정하지 않는다. 예를 들면, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.Expressions such as " first, "second," first, "or" second, " as used in various embodiments, Not limited. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be named as the first component.

본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to limit the scope of the other embodiments. The singular expressions may include plural expressions unless the context clearly dictates otherwise.

기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 일반적으로 사용되는 사전에 정의된 용어들은 관련 기술의 문맥 상 가지는 의미와 동일 또는 유사한 의미를 가지는 것으로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 발명의 실시 예들을 배제하도록 해석될 수 없다.All terms used herein, including technical or scientific terms, may have the same meaning as commonly understood by one of ordinary skill in the art. Commonly used predefined terms may be interpreted to have the same or similar meaning as the contextual meanings of the related art and are not to be construed as ideal or overly formal in meaning unless expressly defined in this document . In some cases, the terms defined in this document can not be construed to exclude embodiments of the present invention.

도 1은 본 발명의 일 실시 예에 전자문서 관리방법을 설명하기 위한 흐름도이다. 본 발명은, 본 발명의 일 실시예에 의한 전자문서 관리방법을 컴퓨터에서 실행시키기 위하여 매체에 저장된 프로그램을 포함하고, 본 발명의 일 실시예에 의한 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함한다.1 is a flowchart illustrating an electronic document management method according to an embodiment of the present invention. The present invention includes a program stored in a medium for executing an electronic document management method according to an embodiment of the present invention and includes a program for causing a computer to execute an electronic document management method according to an embodiment of the present invention And a recording medium readable by the computer.

도 1을 참조하면, 전자문서 관리방법은 전자문서에 포함된 복수의 문자영역의 문자를 추출한다 (단계 S110). 전자문서는 매체를 구비하는 장치에 포함된 광학 이미지 획득 수단으로부터 획득되거나, 외부 장치로부터 획득되어 매체를 구비하는 장치에 유무선 통신 방식으로 전달될 수 있다. 실시 예에 따라, 클라우드 기반의 전자문서 관리 시스템에 대하여 전자문서가 유무선 통신 방식으로 전달될 수 있다. Referring to FIG. 1, an electronic document management method extracts characters of a plurality of character regions included in an electronic document (step S110). An electronic document may be obtained from an optical image acquiring means included in an apparatus having a medium, or may be acquired from an external apparatus and transmitted in a wired or wireless communication manner to an apparatus having the medium. According to an embodiment, an electronic document can be delivered to a cloud-based electronic document management system in a wired or wireless communication manner.

복수의 문자영역에서 OCR 엔진을 활용하여 문자가 추출될 수 있으나, 본 발명의 일 실시 예에 따른 전자문서 관리방법에 따르면 단순히 문자 텍스트만을 추출하는 것이 아니라 추출된 문자의 매핑 인자를 분석할 수 있다 (단계 S120). 매핑 인자를 분석하는 단계는 문자의 텍스트 길이, 문자의 크기, 문자의 굵기, 문자의 기울기, 문자의 행간 길이, 해당 문자영역의 상기 전자문서 내에서의 위치, 다른 문자영역과의 위치 관계, 문자의 색상 중 적어도 하나를 분석하는 단계를 포함할 수 있다. 실시 예에 따라 매핑 인자들은 이들의 조합을 통하여 생성될 수도 있다.Characters can be extracted by using the OCR engine in a plurality of character regions. However, according to the electronic document management method according to an embodiment of the present invention, not only character text but also mapping factors of extracted characters can be analyzed (Step S120). The step of analyzing the mapping factor may include analyzing a mapping parameter including a text length of a character, a size of a character, a thickness of a character, a slope of a character, a length of a line between characters, a position in the electronic document of the character region, And analyzing at least one of the hues of the image. Depending on the embodiment, the mapping factors may be generated through a combination of these.

예를 들어, 매핑 인자는 문서 작성 프로그램을 사용하는 경우에 일반적으로 '스타일'이라고 일컫는 특징에 상응할 수 있다. 본 발명에 따른 전자문서 관리방법은 전자문서 내에서 문자들의 스타일에 따라서 구조적인 계층을 이루는 것에 기초하여 매핑 인자를 파악하여 해당 문자영역이 전자문서의 제목인지, 하위 제목인지, 내용인지 등의 부분을 자동으로 구조화하여 구조화된 필드를 생성할 수 있다.For example, a mapping factor may correspond to a feature commonly referred to as a 'style' when using a word processing program. The method of managing an electronic document according to the present invention is a method for managing an electronic document based on a structure hierarchy according to the style of characters in an electronic document, Can be automatically structured to create a structured field.

분석된 매핑 인자에 기초하여 복수의 문자영역을 전자문서를 구성하는 구조화된 필드(structured field)로 생성한다 (단계 S130). 실시 예에 따라, 텍스트의 행간 길이를 파악할 때 행간 길이가 긴 문자영역은 행간 길이가 짧은 문자영역보다 상위 구조로 파악할 수 있다. 또한 문자의 굵기가 굵을 경우에는 다른 문자영역보다 중요성이 높은 것으로 판단할 수 있으며, 문자열이 짧으면서 다음으로 단락이 구분된 경우에는 제목에 해당할 가능성이 높다. Based on the analyzed mapping factors, a plurality of character areas are generated as a structured field configuring the electronic document (step S130). According to the embodiment, when recognizing the inter-line length of text, a character area having a long inter-line length can be grasped as a higher structure than a character area having a short inter-line length. If the thickness of the character is thick, it can be judged that the importance is higher than other character regions. If the character string is short and the paragraph is divided next, it is likely to correspond to the title.

이러한 매핑 인자의 특성에 따라서 각 매핑 인자에 대하여 기 설정된 가중치를 부여하여 각 문자영역의 매핑 스코어를 산출할 수 있다. 매핑 스코어가 높은 경우에는 보다 상위 구조에 해당하는 것으로 판단하고 매핑 스코어가 낮아질수록 그 하위 구조에 해당하며, 인접한 문자영역 중에서 상위 구조와 하위 구조가 형성되는 경우에는 하위 구조는 상위 구조에 포함될 수 있다. 동일한 매핑 스코어를 갖는 문자영역들은 동일한 계층에 속하는 것으로 판단한다.The mapping score of each character region can be calculated by assigning a predetermined weight to each mapping factor according to the characteristics of the mapping factor. If the mapping score is high, it is judged to correspond to a higher structure. The lower the mapping score, the lower it corresponds to the sub structure. If the upper structure and the sub structure are formed in the adjacent character region, the sub structure may be included in the upper structure . It is determined that character areas having the same mapping score belong to the same hierarchy.

실시 예에 따라, 문자의 행간 길이의 매핑 인자에 대해서는 음의 가중치를 부여하고, 문자의 굵기에는 양의 가중치를 부여하며, 문자열의 길이에 대해서는 음의 가중치를 부여하는 등으로 중요도가 높을 가능성이 높은 매핑 인자에 대해서는 양의 가중치를 부여하고 그 값이 커질수록 중요도가 낮을 가능성이 높은 매핑 인자에 대해서는 음의 가중치를 부여할 수 있다. 다만, 이는 예시적인 것으로 가중치는 실시 예에 따라 상이해질 수 있으며, 나아가 양의 가중치나 음의 가중치에 대해서도 문자의 행간 길이와 문자열의 길이에 대해서 상이한 절대 값을 가지는 음의 가중치가 부여될 수도 있다. According to the embodiment, there is a possibility that the significance is high due to giving a negative weight to the mapping factor of the inter-line length of characters, giving a positive weight to the thickness of the character, and assigning a negative weight to the length of the character string Positive weights are assigned to high mapping factors, and negative weights can be given to mapping factors that are likely to have low importance as the value increases. However, this is an example, and the weights may be different according to the embodiment. Further, even for positive weights and negative weights, a negative weight having a different absolute value for the inter-line length of the character and the length of the character may be given .

실시 예에 따라 전자문서 내에서의 위치에 따라 상단에 위치한 경우에는 제목과 같이 상위 계층에 해당할 가능성이 높을 수 있다. 실시 예에 따라, 전자문서가 목차 정보를 포함하는 경우가 있다. 이러한 경우에는 구조화된 필드가 정상적으로 목차와 그에 해당하는 내용을 판단하였는지 검증할 수 있다. 추출된 목차 정보와 구조화된 필드를 비교하여 검증하는 단계를 거침에 따라 구조화된 필드의 신뢰성을 보다 향상시킬 수 있다.According to the embodiment, when the document is positioned at the upper part according to the position in the electronic document, it is likely that the document corresponds to the upper layer as shown in the title. According to the embodiment, the electronic document may include the table of contents information. In this case, it can be verified that the structured field normally determines the table of contents and its contents. The reliability of the structured field can be further improved by comparing and verifying the extracted table of contents information with the structured field.

이와 같이 구조화된 필드를 생성한 이후에 해당 필드에 추출된 문자를 매핑하여 저장한다 (단계 S140). 이러한 과정을 통하여 사용자가 추출된 문자가 어느 구조에 해당하는 것인지 일일이 판단하여 수작업으로 매핑할 필요가 없어지고 다양한 전자문서에 대하여 동적으로 구조화된 필드를 생성하여 전자문서를 저장하여 관리할 수 있다.After the structured field is created, the extracted characters are mapped and stored in the corresponding field (step S140). Through this process, it is not necessary to manually map the extracted character to the structure, and the dynamically structured field is generated for various electronic documents, thereby storing and managing the electronic document.

그런데 클라우드를 통하여 복수의 테넌트가 전자문서를 관리하는 경우에 동일한 테넌트는 동일한 형식의 전자문서를 빈번하게 전자화하여 관리할 수 있다. 또한 다수의 테넌트들이 다양한 방식의 전자문서를 구조화된 필드로 생성하여 관리하는 경우에는 유사한 형식을 가지는 전자문서들이 존재할 수 있다. However, when a plurality of tenants manage an electronic document through the cloud, the same tenant can frequently electronically manage the electronic document of the same format. Also, when many tenants generate and manage various types of electronic documents as structured fields, electronic documents having similar formats may exist.

이에 따라, 전자문서가 수신될 때마다 각 문자영역에 대한 매핑 인자를 분석하여 문자영역을 매핑하여 저장하는 것보다 이미 분석된 구조화된 필드에 수신된 전자문서가 매칭되는지 파악하는 과정을 거치는 것이 보다 효율적일 수 있다.Accordingly, the process of determining whether the received electronic document is matched to the already analyzed structured field is performed by analyzing a mapping factor for each character region every time an electronic document is received, Can be efficient.

도 2는 본 발명의 일 실시 예에 따른 전자문서 관리방법을 설명하기 위한 흐름도이다. 도 2에서 도 1과 동일한 단계들은 동일한 참조부호로 표시하였으며, 이에 대한 구체적인 설명은 생략하도록 한다.2 is a flowchart illustrating an electronic document management method according to an embodiment of the present invention. In FIG. 2, the same steps as those in FIG. 1 are denoted by the same reference numerals, and a detailed description thereof will be omitted.

도 2를 참조하면, 구조화된 필드에 추출된 문자를 매핑하여 저장한 이후 (단계 S140), 구조화된 필드와 그에 매핑된 문자영역의 매핑 인자를 연관시켜 저장할 수 있다 (단계 S150). 이렇게 저장된 데이터를 전자문서 구조 템플릿이라고 일컬을 수 있다. 본 발명의 일 실시 예에 따른 전자문서 관리 시스템에서는 전자문서 구조 템플릿을 테넌트 별로 관리할 수 있다. 다만, 실시 예에 따라 유사한 구조의 전자문서를 사용할 가능성이 높은 테넌트들, 예를 들어 업종이 유사한 테넌트, 개인과 기업 별로 관리하는 등 테넌트의 특징에 따라서 다수의 테넌트를 그룹지어 관리할 수도 있다. Referring to FIG. 2, after the extracted characters are mapped and stored in the structured field (step S140), mapping factors of the structured field and the mapped character area may be stored in association with each other (step S150). Such stored data may be referred to as an electronic document structure template. In the electronic document management system according to an embodiment of the present invention, an electronic document structure template can be managed for each tenant. However, according to the embodiment, a plurality of tenants can be grouped and managed according to the characteristics of the tenants, such as managing tenants having a similar possibility of using an electronic document having a similar structure, for example, tenants having similar business types, individuals and companies.

다양한 전자문서 구조 템플릿을 관리하는 경우, 전자문서가 수신되고 이로부터 문자영역의 문자를 추출하면 (단계 S110), 수신된 전자문서의 테넌트에 대한 전자문서 구조 템플릿에 전자문서를 매핑해볼 수 있다 (단계 S113). 해당 단계는 일종의 시뮬레이션과 유사한 단계로 수신된 전자문서의 매핑 인자를 분류하여 구조화된 필드를 생성하지 않고 이미 생성된 전자문서 구조 템플릿에 수신된 전자문서를 매핑하여 이러한 매핑이 타당한지를 판단한다 (단계 S115).When various electronic document structure templates are managed, an electronic document is received and characters of a character area are extracted therefrom (step S110), and an electronic document can be mapped to an electronic document structure template for a tenant of the received electronic document ( Step S113). The step of classifying the mapping parameter of the received electronic document by a step similar to a kind of simulation, maps the received electronic document to the already generated electronic document structure template without generating the structured field, and judges whether the mapping is valid S115).

매핑이 타당한지 여부는 전자문서 관리 시스템 내부에서 매칭 스코어를 산출하고 매칭 스코어가 기 설정된 값 이상인 경우에 매핑이 타당한지 판단할 수 있다. 예를 들어, 해당 전자문서 구조 템플릿의 모든 필드에 해당되는 문자영역들이 존재하는지, 각 필드에 일반적으로 포함되는 문자의 문자열 길이 범위에 해당하는지 여부 등에 기초하여 매칭 스코어가 산출될 수 있다. Whether or not the mapping is valid can be determined by calculating the matching score within the electronic document management system and judging whether the mapping is valid when the matching score is equal to or greater than a predetermined value. For example, a matching score can be calculated based on whether character areas corresponding to all the fields of the electronic document structure template exist, whether they correspond to a character string range of a character generally included in each field, and the like.

다른 실시 예에 있어서, 전자문서 구조 템플릿에 전자문서를 매핑한 결과를 사용자에게 출력하고 사용자로부터 매핑이 적절한지에 대한 입력을 수신함으로써 전자문서 구조 템플릿에 대한 매핑이 타당한지 판단할 수 있다. 여기서 사용자에게 표시되는 매핑 결과는 복수의 전자문서 구조 템플릿에 전자문서를 매핑하였을 경우에 가장 매칭율이 높은 매핑 결과가 표시될 수 있다.In another embodiment, it is possible to determine whether the mapping to the electronic document structure template is valid by outputting the result of mapping the electronic document to the electronic document structure template, and receiving an input from the user as to whether the mapping is appropriate. Here, the mapping result displayed to the user may be a mapping result having the highest matching rate when an electronic document is mapped to a plurality of electronic document structure templates.

전자문서 구조 템플릿에 매핑된 것이 타당하다고 판단되면 (단계 S115, 예), 해당 전자문서 구조 템플릿의 구조화된 필드에 추출된 문자를 매핑하여 저장한다. If it is judged that it is valid to be mapped to the electronic document structure template (step S115, Yes), the extracted character is mapped and stored in the structured field of the electronic document structure template.

만일 전자문서 구조 템플릿에 매핑된 것이 타당하지 않은 경우, 즉 이전에 분석된 구조화된 필드와 동일한 구조를 가지는 전자문서가 아닌 것으로 판단되면 (단계 S115, 아니오), 수신된 전자문서의 복수의 문자영역에서 추출된 문자의 매핑 인자를 분석하고 (단계 S120), 분석된 매핑 인자에 기초하여 복수의 문자영역을 구조화된 필드로 생성하며 (단계 S130), 생성된 구조화된 필드에 추출된 문자를 매핑하여 저장한다 (단계 S140). If it is not valid to map to the electronic document structure template, that is, if it is determined that the electronic document is not an electronic document having the same structure as the previously analyzed structured field (step S115, No) (Step S120), generates a plurality of character areas as structured fields based on the analyzed mapping factors (step S130), maps the extracted characters to the generated structured field (Step S140).

새로이 수신된 전자문서에 대해 이렇게 분석된 구조화된 필드와 매핑된 문자영역의 매핑 인자를 연관시켜 저장하는 단계 (단계 S150)까지 완료하면 다음에 동일한 구조를 가지는 전자문서를 수신하였을 경우에 문서를 분석하는 데에 소요되는 시간을 줄일 수 있다.If the electronic document having the same structure is received next after completing the step of associating and storing the mapping field of the mapped character area and the structured field thus analyzed with respect to the newly received electronic document (step S150), the document is analyzed It is possible to reduce the time required for the operation.

실시 예에 따라 본 발명의 일 실시 예에 따른 전자문서 관리방법은 디스플레이 수단을 통하여 전자문서를 표시하고 복수의 문자영역을 선택하는 인터페이스를 제공하는 단계를 더 포함할 수 있다. 또한 이러한 인터페이스를 제공한 이후에 구조화된 필드와 추출된 문자를 매핑한 결과를 디스플레이 수단을 통하여 표시하는 단계를 더 포함할 수 있다. 디스플레이 수단을 통하여 표시하는 단계는 전자문서 관리 시스템 내의 그래픽 처리 장치 및 통신 장치를 이용하여 수행될 수 있다.According to an embodiment of the present invention, an electronic document management method according to an embodiment of the present invention may further include the step of displaying an electronic document through display means and providing an interface for selecting a plurality of character regions. And displaying the result of mapping the structured field and the extracted character after providing the interface through the display means. The step of displaying through the display means can be performed using the graphic processing device and the communication device in the electronic document management system.

사용자는 전자문서가 변환된 결과를 확인하고 이에 대한 피드백을 제공할 수 있다. 사용자가 제공하는 피드백은 전자문서가 변환되어 매핑된 결과가 적절한지 여부, 그리고 매핑된 결과를 수정하는 피드백 등을 포함할 수 있다.The user can confirm the result of the conversion of the electronic document and provide feedback on the result. The feedback provided by the user may include whether the electronic document is converted and the mapped result is appropriate, and feedback that corrects the mapped result.

도 3은 본 발명의 일 실시 예에 따른 전자문서 관리방법 및 전자문서 관리 시스템을 통하여 사용자에게 제공될 수 있는 디스플레이 화면의 일 예이다.3 is an example of a display screen that can be provided to a user through the electronic document management method and the electronic document management system according to an embodiment of the present invention.

도 3을 참조하면, 화면의 좌측에는 전자문서의 이미지 화면이 표시된다. 해당 전자문서는 복수의 문자영역들로 구분되며, 복수의 문자영역들의 세로축 길이, 즉 문자의 행간 길이가 서로 다르며, 문자영역의 위치, 문자의 크기와 색상이 상이할 수 있다.Referring to FIG. 3, an image screen of an electronic document is displayed on the left side of the screen. The electronic document is divided into a plurality of character areas, and the lengths of the vertical axes of the plurality of character areas, that is, the lengths of the inter-character spaces of the characters are different from each other.

제1 문자영역(310)의 전자문서의 가장 상단에 위치하며 문자의 크기와 굵기가 다른 문자영역들(320, 330, 340)과 비교하여 큰 값을 가지는 것을 확인할 수 있다. 따라서 제1 문자영역(310)이 제목에 해당할 가능성이 가장 크며 매핑 스코어 상으로 가장 상위 계층에 속한다. It can be confirmed that the character size and thickness are located at the uppermost positions of the electronic document of the first character area 310 and are larger than those of the character areas 320, 330, and 340 having different sizes. Therefore, the first character region 310 is most likely to correspond to the title, and belongs to the uppermost layer on the mapping score.

제2 문자영역(320)은 제1 문자영역(310)의 바로 아래에 위치하며 동일한 문자 색상을 가진다. 제2 문자영역(320)의 문자 크기는 제3 문자영역(330)의 문자 크기보다 작지만 문자영역의 위치나 문자 색상 등에 기초하여 해당 전자문서의 제목의 부제, 또는 전자문서의 저자 등의 필드로 파악될 수 있다. The second character area 320 is located immediately below the first character area 310 and has the same character color. The character size of the second character area 320 is smaller than the character size of the third character area 330, but is not limited to the subtitle of the title of the electronic document or the field of the author of the electronic document based on the position of the character area, Can be grasped.

제3 문자영역(330)과 제4 문자영역(340)은 제1 및 제2 문자영역들(320, 320)의 하부에 위치하며 문자색도 상이하다. 다만 제3 문자영역(330)의 문자 크기와 굵기가 제4 문자영역(340)의 문자크기 및 문자 굵기보다 큰 값을 가지기 때문에 제3 문자영역(330)이 제4 문자영역(340)보다 상위 계층에 속하는 것으로 파악할 수 있다. 도 3에서 문자열의 세로축 길이라고 표시된 것은 문자의 크기와 유사한 개념으로 이해할 수 있다. The third character region 330 and the fourth character region 340 are located below the first and second character regions 320 and 320 and have different text colors. However, since the character size and the thickness of the third character area 330 are larger than the character size and the character thickness of the fourth character area 340, the third character area 330 is higher than the fourth character area 340 It can be understood as belonging to the hierarchy. In FIG. 3, the vertical axis length of a character string can be understood as a concept similar to the size of a character.

이러한 방식으로 매핑 인자를 분석하고 매핑 스코어를 산출한 이후에 구조화된 필드를 생성하여 구조화된 필드에 대하여 해당하는 문자영역의 내용을 매핑한다. 도 3의 우측에는 구조화된 필드의 매핑 인자와 해당하는 내용을 표시하는 필드 동적매핑 영역(350)이 표시될 수 있다.In this way, after analyzing the mapping factor and calculating the mapping score, a structured field is generated and the content of the corresponding character area is mapped to the structured field. On the right side of FIG. 3, a field dynamic mapping area 350 may be displayed to display the mapping factor of the structured field and corresponding contents.

사용자는 필드 동적매핑 영역(350)을 참조하여 전자문서가 정상적으로 매핑되었는지를 판단하고 매핑 내용을 편집할 수도 있다.The user can determine whether the electronic document is normally mapped by referring to the field dynamic mapping area 350 and edit the mapping contents.

도 4는 본 발명의 일 실시 예에 따른 전자문서의 문자영역을 표시하는 화면이다. 4 is a screen for displaying a character area of an electronic document according to an embodiment of the present invention.

도 4를 참조하면, 획득된 전자문서 중에서 문자영역(녹색)과 그림영역(적색)이 구분되어 인식되는 것을 확인할 수 있다. 실시 예에 따라 본 발명의 일 실시 예에 따른 전자문서 관리방법 및 전자문서 관리 시스템에 있어서 문자영역들은 인터페이스를 통하여 표시됨으로써 사용자가 직접 선택하거나 자동으로 선택된 문자영역을 편집할 수도 있다. 또한 도 2를 참조하여 설명한 실시 예와 같이 전자문서 구조 템플릿을 통하여 전자문서를 분석하는 경우에는 전자문서에서 특정한 필드에 해당하는 영역의 위치 정보를 저장하고 있기 때문에 사용자가 입력하지 않아도 자동으로 문자영역을 선택하여 분석할 수도 있다.Referring to FIG. 4, it can be seen that the character area (green) and the drawing area (red) are distinguished from each other in the obtained electronic document. According to an embodiment of the present invention, in the electronic document management method and the electronic document management system according to the embodiment of the present invention, the character areas are displayed through the interface, thereby allowing the user to directly select or edit the selected character area automatically. In the case of analyzing the electronic document through the electronic document structure template as in the embodiment described with reference to FIG. 2, since the position information of the area corresponding to a specific field is stored in the electronic document, Can be selected and analyzed.

도 5는 본 발명의 일 실시 예에 따른 전자문서 관리 시스템을 나타내는 블록도이다. 도 5의 전자문서 관리 시스템은 상술한 전자문서 관리방법을 수행할 수 있으며, 본 발명의 일 실시 예에 따른 전자문서 관리방법을 컴퓨터에서 실행시키기 위하여 매체에 저장된 프로그램에 따라 수행되거나, 본 발명의 일 실시 예에 의한 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함할 수도 있다. 또한 실시 예에 따라 전자문서를 획득하기 위한 광학 이미지 획득 수단을 포함할 수도 있다.5 is a block diagram illustrating an electronic document management system according to an embodiment of the present invention. The electronic document management system of FIG. 5 may perform the electronic document management method described above, and may be performed according to a program stored in the medium to execute the electronic document management method in the computer according to an embodiment of the present invention, And a computer-readable recording medium storing a program for causing a computer to execute the electronic document management method according to an embodiment. It may also comprise an optical image acquiring means for acquiring an electronic document according to an embodiment.

도 5를 참조하면, 본 발명의 일 실시 예에 따른 전자문서 관리 시스템(50)은 문자 추출부(510), 문서 분석부(520), 문서 구조화부(530), 및 문서 매핑부(540)를 포함할 수 있다.5, an electronic document management system 50 according to an embodiment of the present invention includes a character extracting unit 510, a document analyzing unit 520, a document structuring unit 530, and a document mapping unit 540, . ≪ / RTI >

문서 분석부(520)는 문자의 텍스트 길이, 문자의 크기, 문자의 굵기, 문자의 기울기, 문자의 행간 길이, 해당 문자영역의 상기 전자문서 내의 위치, 다른 문자영역과의 위치 관계, 문자의 색상 중 적어도 하나를 분석할 수 있다. 이러한 특성들을 매핑 인자라고 일컫는다. The document analyzer 520 analyzes the text length of the character, the size of the character, the thickness of the character, the slope of the character, the length of the space between the characters, the position of the character area in the electronic document, Lt; / RTI > can be analyzed. These properties are called mapping factors.

문서 구조화부(530)는 문서 분석부(520)에서 분석된 매핑 인자에 대하여 기 설정된 가중치를 부여하여 각 문자영역의 매핑 스코어를 산출하고, 산출된 매핑 스코어에 순차적으로 기초하여 상기 구조화된 필드를 생성할 수 있다. 문자영역에 대하여 매핑 스코어를 산출하는 방식은 상술한 바와 같다.The document structuring unit 530 assigns predetermined weights to the mapping factors analyzed by the document analyzing unit 520 to calculate a mapping score of each character region and sequentially outputs the structured field to the mapping score calculating unit 520 based on the calculated mapping score Can be generated. The method of calculating the mapping score with respect to the character area is as described above.

실시 예에 따라, 문서 구조화부(530)는 전자문서에 포함된 목차 정보를 추출하여 추출된 목차 정보와 구조화된 필드를 비교하여 검증함으로써 구조화된 필드의 신뢰성을 한 번 더 확인할 수 있다. According to an embodiment, the document structuring unit 530 may extract the table of contents information included in the electronic document and compare the extracted table of contents information with the structured field to verify the reliability of the structured field.

문서 매핑부(540)는 구조화된 필드에 추출된 문자를 매핑하여 저장하는데, 이와 같이 구조화된 전자문서의 처리 내용 및 구조화된 필드와 매핑된 문자영역의 매핑 인자를 연관시킨 전자문서 구조 템플릿은 데이터베이스(550)에 저장되어 관리될 수 있다.The document mapping unit 540 maps and extracts the extracted characters in the structured field. The electronic document structure template that associates the processing contents of the structured electronic document and the mapping field of the mapped character area with the structured field, May be stored in the storage unit 550 and managed.

데이터베이스(550)는 클라우드 기반의 전자문서 관리 시스템에 대하여 접속하는 복수의 테넌트 별로 전자문서의 처리 내용과 전자문서 구조 템플릿을 관리할 수 있다.The database 550 can manage processing contents of electronic documents and electronic document structure templates for a plurality of tenants connected to the cloud-based electronic document management system.

데이터베이스(550)에 전자문서 구조 템플릿이 관리됨에 따라 문서 매핑부(540)는 새로이 수신된 전자문서를 이미 저장된 전자문서 구조 템플릿에 적용시켜 적합성을 판단할 수 있을 것이다.As the electronic document structure template is managed in the database 550, the document mapping unit 540 may apply the newly received electronic document to the stored electronic document structure template to determine suitability.

실시 예에 따라 본 발명의 일 실시 예에 따른 전자문서 관리 시스템은 인터페이스부(560)를 더 포함할 수 있다. 인터페이스부(560)는 그래픽 처리 기능과 통신 기능을 수행할 수 있다. The electronic document management system according to an embodiment of the present invention may further include an interface unit 560 according to an embodiment. The interface unit 560 may perform a graphic processing function and a communication function.

인터페이스부(560)는 전자문서의 문자영역을 표시하는 경우, 또는 전자문서가 구조화된 필드에 매핑된 결과를 사용자에게 표시하기 위하여 획득된 전자문서의 문자영역 선택, 구조화된 필드에 매핑된 결과 등을 그래픽 처리하고 유무선 통신을 통하여 사용자에게 전달함으로써 사용자의 디스플레이 수단을 통하여 전자문서의 처리 내용이 표시될 수 있도록 한다.The interface unit 560 may be used for displaying a text area of an electronic document or for selecting a character area of an electronic document obtained for displaying a result mapped to a structured field to a user, And transfers the processed contents of the electronic document to the user through wired / wireless communication so that the processed contents of the electronic document can be displayed through the display means of the user.

살펴본 바와 같이 본 발명의 다양한 실시 예들에 따른 전자문서 관리방법 및 전자문서 관리 시스템에 따르면 전자문서의 문자영역의 스타일을 분석하여 전자문서를 구조화된 필드로 분석할 수 있다. 따라서 사용자가 광학적으로 획득된 전자문서를 OCR 인식을 하여 저장하는 경우에 수작업으로 각 영역의 필드를 연결시켜 관리하는 불편함을 해소할 수 있다. As described above, according to the electronic document management method and the electronic document management system according to various embodiments of the present invention, it is possible to analyze the style of the text area of the electronic document and analyze the electronic document as a structured field. Accordingly, when the user optically obtains the electronic document by OCR recognition and stores it, it is possible to eliminate the inconvenience of manually linking and managing fields of each area.

또한 다양하게 분석된 전자문서들을 관리함으로써 이전에 분석된 것과 유사한 형식의 전자문서를 수신한 경우에는 동일한 방법으로 전자문서를 관리함으로써 전자문서의 분석을 위하여 소요되는 시간을 줄일 수 있어 전자문서를 효율적으로 관리할 수 있다.In addition, by managing the various analyzed electronic documents, when receiving the electronic document in a format similar to that previously analyzed, it is possible to reduce the time required for analyzing the electronic document by managing the electronic document in the same manner, .

지금까지 본 발명에 대하여 도면에 도시된 바람직한 실시예들을 중심으로 상세히 살펴보았다. 이러한 실시예들은 이 발명을 한정하려는 것이 아니라 예시적인 것에 불과하며, 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 진정한 기술적 보호범위는 전술한 설명이 아니라 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다. 비록 본 명세서에 특정한 용어들이 사용되었으나 이는 단지 본 발명의 개념을 설명하기 위한 목적에서 사용된 것이지 의미한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 특허청구범위에서 청구하는 본 발명의 본질적인 기술사상에서 벗어나지 않는 범위에서 다양한 변형 형태 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 균등물은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 구성요소를 포함하는 것으로 이해되어야 한다.The present invention has been described in detail with reference to the preferred embodiments shown in the drawings. These embodiments are to be considered as illustrative rather than limiting, and should be considered in an illustrative rather than a restrictive sense. The true scope of protection of the present invention should be determined by the technical idea of the appended claims rather than the above description. Although specific terms are used herein, they are used for the purpose of describing the concept of the present invention only and are not used to limit the scope of the present invention described in the claims or the claims. It will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. It is to be understood that the equivalents include all components that are invented in order to perform the same function irrespective of the currently known equivalents as well as the equivalents to be developed in the future.

50: 전자문서 관리 시스템
510: 문자 추출부
520: 문서 분석부
530: 문서 구조화부
540: 문서 매핑부
550: 데이터베이스
560: 인터페이스부
50: Electronic document management system
510:
520: Document analysis unit
530: document structuring section
540: Document mapping unit
550: Database
560:

Claims (15)

전자문서에 포함된 복수의 문자영역의 문자를 추출하는 단계;
상기 복수의 문자영역에서 추출된 문자의 적어도 하나의 매핑 인자(mapping factor)를 분석하는 단계;
상기 분석한 적어도 하나의 매핑 인자에 대하여 기 설정된 가중치를 부여하여 각 문자영역의 매핑 스코어를 산출하는 단계;
상기 산출된 매핑 스코어에 순차적으로 기초하여, 상기 복수의 문자영역에 매핑되는 구조화된 필드(structured field)를 생성하는 단계; 및
상기 생성된 구조화된 필드에 상기 추출된 문자를 매핑하여 저장하는 단계를 포함하되,
상기 구조화된 필드는 상기 전자문서를 구성하는 것을 특징으로 하는 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체.
Extracting characters of a plurality of character regions included in the electronic document;
Analyzing at least one mapping factor of characters extracted from the plurality of character regions;
Calculating a mapping score of each character region by assigning a predetermined weight to at least one of the analyzed mapping factors;
Generating a structured field mapped to the plurality of character regions sequentially based on the calculated mapping score; And
Mapping and storing the extracted character in the generated structured field,
And the structured field constitutes the electronic document. A recording medium storing a program for causing a computer to execute an electronic document management method.
제1 항에 있어서,
상기 적어도 하나의 매핑 인자를 분석하는 단계는,
문자의 텍스트 길이, 문자의 크기, 문자의 굵기, 문자의 기울기, 문자의 행간 길이, 해당 문자영역의 상기 전자문서 내에서의 위치, 다른 문자영역과의 위치 관계, 문자의 색상 중 적어도 하나를 분석하는 단계를 포함하는 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체.
The method according to claim 1,
Wherein analyzing the at least one mapping factor comprises:
At least one of a text length of a character, a size of a character, a thickness of a character, a slope of a character, an inter-line length of a character, a position in the electronic document of the character region, a positional relationship with another character region, And a program for causing the computer to execute the electronic document management method.
삭제delete 제1 항에 있어서,
상기 구조화된 필드와 그에 매핑된 문자영역의 적어도 하나의 매핑 인자를 연관시켜 저장하는 단계를 더 포함하는 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체.
The method according to claim 1,
And associating at least one mapping parameter of the structured field and a character area mapped to the structured field with each other, and storing the associated mapping parameter.
제4 항에 있어서,
이용자 별로 상기 구조화된 필드와 매핑 인자를 연관시켜 전자문서 구조 템플릿을 관리하는 단계; 및
수신된 전자문서의 이용자에 대한 전자문서 구조 템플릿에 상기 수신된 전자문서를 매핑시키는 단계를 더 포함하는 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체.
5. The method of claim 4,
Managing an electronic document structure template by associating the structured field with a mapping factor for each user; And
Further comprising the step of mapping the received electronic document to an electronic document structure template for a user of the received electronic document.
제1 항에 있어서,
상기 구조화된 필드를 생성하는 단계는,
상기 전자문서의 목차 정보를 추출하는 단계; 및
상기 추출된 목차 정보와 상기 구조화된 필드를 비교하여 검증하는 단계를 포함하는 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체.
The method according to claim 1,
Wherein generating the structured field comprises:
Extracting table of contents information of the electronic document; And
And comparing and verifying the extracted table of contents information and the structured field, and verifying the extracted table information and the structured field.
제1 항에 있어서,
상기 전자문서를 디스플레이 수단을 통하여 표시하고 상기 복수의 문자영역을 선택하는 인터페이스를 제공하는 단계를 더 포함하는 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체.
The method according to claim 1,
Further comprising the step of displaying the electronic document through a display means and providing an interface for selecting the plurality of character regions. A recording medium storing a program for causing a computer to execute an electronic document management method.
제1 항에 있어서,
상기 생성된 구조화된 필드에 상기 추출된 문자를 매핑하여 저장하는 단계는,
상기 구조화된 필드와 상기 추출된 문자를 매핑한 결과를 디스플레이 수단을 통하여 표시하는 단계; 및
사용자로부터 상기 매핑 결과에 대한 피드백을 수신하는 단계를 포함하는 전자문서 관리방법을 수행하는 프로그램을 저장하는 기록매체.
The method according to claim 1,
Mapping and storing the extracted characters in the generated structured field,
Displaying the result of mapping the structured field and the extracted character through a display means; And
And receiving feedback from the user on the mapping result. A recording medium storing a program for performing an electronic document management method.
제1항, 제2항 및 제4항 내지 제8항 중 어느 한 항에 따른 전자문서 관리방법을 컴퓨터에서 실행시키기 위하여 매체에 저장된 프로그램.A program stored in a medium for executing a method of managing an electronic document according to any one of claims 1, 2, and 4 to 8 in a computer. 전자문서에 포함된 복수의 문자영역의 문자를 추출하는 문자 추출부;
상기 복수의 문자영역에서 추출된 문자의 적어도 하나의 매핑 인자(mapping factor)를 분석하는 문서 분석부;
상기 분석한 적어도 하나의 매핑 인자에 대하여 기 설정된 가중치를 부여하여 각 문자영역의 매핑 스코어를 산출하고, 상기 산출된 매핑 스코어에 순차적으로 기초하여 상기 복수의 문자영역에 매핑되는 구조화된 필드(structured field)를 생성하는 문서 구조화부; 및
상기 생성된 구조화된 필드에 상기 추출된 문자를 매핑하여 저장하는 문서 매핑부를 포함하되,
상기 구조화된 필드는 상기 전자문서를 구성하는 것을 특징으로 하는 전자문서 관리 시스템.
A character extracting unit for extracting characters of a plurality of character regions included in the electronic document;
A document analyzer for analyzing at least one mapping factor of characters extracted from the plurality of character regions;
A mapping score of each character region is calculated by assigning a predetermined weight to the analyzed at least one mapping factor, and a structured field mapped to the plurality of character regions sequentially based on the calculated mapping score A document structuring unit for generating a document; And
And a document mapping unit for mapping the extracted characters to the generated structured field and storing the mapped characters,
Wherein the structured field constitutes the electronic document.
제10 항에 있어서,
상기 문서 분석부가 분석하는 적어도 하나의 매핑 인자는,
문자의 텍스트 길이, 문자의 크기, 문자의 굵기, 문자의 기울기, 문자의 행간 길이, 해당 문자영역의 상기 전자문서 내에서의 위치, 다른 문자영역과의 위치 관계, 문자의 색상 중 적어도 하나를 포함하는 전자문서 관리 시스템.
11. The method of claim 10,
Wherein the at least one mapping factor analyzed by the document analysis unit comprises:
At least one of a text length of a character, a size of a character, a thickness of a character, a slope of a character, a length of a line between characters, a position in the electronic document of the character region, a positional relationship with another character region, Electronic document management system.
삭제delete 제10 항에 있어서,
상기 문서 구조화부는,
상기 전자문서의 목차 정보를 추출하여, 추출된 목차 정보와 상기 구조화된 필드를 비교하여 검증하는 전자문서 관리 시스템.
11. The method of claim 10,
The document structuring unit,
Extracts table of contents information of the electronic document, and compares and verifies the extracted table of contents information with the structured field.
제10 항에 있어서,
상기 전자문서를 표시하여 상기 복수의 문자영역을 선택하도록 하거나 상기 매핑 결과를 표시하여 피드백을 받는 인터페이스를 제공하는 인터페이스부를 더 포함하는 전자문서 관리 시스템.
11. The method of claim 10,
Further comprising an interface unit for displaying the electronic document to select the plurality of character areas, or an interface for providing an interface for receiving feedback by displaying the mapping result.
제10 항에 있어서,
상기 구조화된 필드와 그에 매핑된 문자영역의 적어도 하나의 매핑 인자를 연관시켜 저장하여 전자문서 구조 템플릿을 관리하는 데이터베이스를 더 포함하며,
상기 문서 매핑부는 상기 전자문서를 상기 전자문서 구조 템플릿에 기초하여 매핑하는 전자문서 관리 시스템.
11. The method of claim 10,
Further comprising a database for managing an electronic document structure template by associating and storing at least one mapping factor of the structured field and a character area mapped thereto,
And the document mapping unit maps the electronic document based on the electronic document structure template.
KR1020160126398A 2016-09-30 2016-09-30 Computer readable medium for recording program performing method of managing electronic documents and system for managing electronic documents KR101846342B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160126398A KR101846342B1 (en) 2016-09-30 2016-09-30 Computer readable medium for recording program performing method of managing electronic documents and system for managing electronic documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160126398A KR101846342B1 (en) 2016-09-30 2016-09-30 Computer readable medium for recording program performing method of managing electronic documents and system for managing electronic documents

Publications (1)

Publication Number Publication Date
KR101846342B1 true KR101846342B1 (en) 2018-04-09

Family

ID=61978145

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160126398A KR101846342B1 (en) 2016-09-30 2016-09-30 Computer readable medium for recording program performing method of managing electronic documents and system for managing electronic documents

Country Status (1)

Country Link
KR (1) KR101846342B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210077251A (en) * 2019-12-17 2021-06-25 주식회사 한글과컴퓨터 Database building device that can build a knowledge database from a table-inserted image and operating method thereof
KR102324221B1 (en) * 2021-03-31 2021-11-10 주식회사 매직핑거 Method to recognize the unstructured optical form in image document

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210077251A (en) * 2019-12-17 2021-06-25 주식회사 한글과컴퓨터 Database building device that can build a knowledge database from a table-inserted image and operating method thereof
KR102328034B1 (en) 2019-12-17 2021-11-17 주식회사 한글과컴퓨터 Database building device that can build a knowledge database from a table-inserted image and operating method thereof
KR102324221B1 (en) * 2021-03-31 2021-11-10 주식회사 매직핑거 Method to recognize the unstructured optical form in image document
WO2022211323A1 (en) * 2021-03-31 2022-10-06 주식회사 매직핑거 Method for recognizing atypical layout of image document

Similar Documents

Publication Publication Date Title
US10572725B1 (en) Form image field extraction
US8189920B2 (en) Image processing system, image processing method, and image processing program
US7844896B2 (en) Layout-rule generation system, layout system, layout-rule generation program, layout program, storage medium, method of generating layout rule, and method of layout
JP4829920B2 (en) Form automatic embedding method and apparatus, graphical user interface apparatus
US7746341B2 (en) System and method for parsing point-cloud data
CN108229485B (en) Method and apparatus for testing user interface
CN101944179B (en) Image processing apparatus and image processing method
US20130205200A1 (en) Formula Detection Engine
TW201543378A (en) Detecting and extracting image document components to create flow document
WO2021017272A1 (en) Pathology image annotation method and device, computer apparatus, and storage medium
US11586918B2 (en) Methods and systems for automatically detecting design elements in a two-dimensional design document
US8522138B2 (en) Content analysis apparatus and method
WO2000052645A1 (en) Document image processor, method for extracting document title, and method for imparting document tag information
JP2021152924A (en) Business form input form creation device, business form input form creation method, and program
CN110070081A (en) Automatic information input method, device, storage medium and electronic equipment
US20190197124A1 (en) File management device and file management method
JP6150766B2 (en) Information processing apparatus, program, and automatic page replacement method
US8750571B2 (en) Methods of object search and recognition
US20080008391A1 (en) Method and System for Document Form Recognition
KR101846342B1 (en) Computer readable medium for recording program performing method of managing electronic documents and system for managing electronic documents
JP4983464B2 (en) Form image processing apparatus and form image processing program
JP2020087112A (en) Document processing apparatus and document processing method
CN106980604B (en) Contract content checking device
KR20200056632A (en) House-tree-person test apparatus
CN110942068B (en) Information processing apparatus, storage medium, and information processing method

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant