KR20190033381A - Mass webpage document transforming method, and system thereof - Google Patents

Mass webpage document transforming method, and system thereof Download PDF

Info

Publication number
KR20190033381A
KR20190033381A KR1020170122090A KR20170122090A KR20190033381A KR 20190033381 A KR20190033381 A KR 20190033381A KR 1020170122090 A KR1020170122090 A KR 1020170122090A KR 20170122090 A KR20170122090 A KR 20170122090A KR 20190033381 A KR20190033381 A KR 20190033381A
Authority
KR
South Korea
Prior art keywords
document
conversion
web page
documents
converted
Prior art date
Application number
KR1020170122090A
Other languages
Korean (ko)
Other versions
KR101975111B1 (en
Inventor
최한뇽
Original Assignee
최한뇽
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 최한뇽 filed Critical 최한뇽
Priority to KR1020170122090A priority Critical patent/KR101975111B1/en
Publication of KR20190033381A publication Critical patent/KR20190033381A/en
Application granted granted Critical
Publication of KR101975111B1 publication Critical patent/KR101975111B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

The present invention relates to a system and a method for converting large-volume web page documents which can access large-volume documents that are variously posted on an Internet web page, and convert the large-volume documents into files such as PDF, html, xml, SVG and images with a user′s simple manipulation. A web page document conversion system according to the present invention is a web page document conversion system for loading a web page document from a web server which holds a plurality of web page documents, converting the web page document into other types of documents, and storing the same. The conversion system may comprise a conversion apparatus for generating conversion metadata based on document information including a web address, an ID, a document title and a document type of the web page document, accessing the web server based on the generated conversion metadata, and converting the plurality of web page documents into other types of documents. According to the present invention, it is possible to periodically store and hold a large-volume web document, transfer and store the document into a new system in accordance with a system replacement, and submit the same to an institution or organization as a file report.

Description

대용량 웹페이지 문서 변환 시스템 및 그 방법{Mass webpage document transforming method, and system thereof}[0001] The present invention relates to a large-scale web page document conversion system and a method thereof,

본 발명은 대용량 웹페이지 문서 변환 시스템 및 그 방법에 관한 것으로서, 더욱 자세하게는 인터넷 웹페이지 상에 다양하게 게시되어 있는 대용량의 웹페이지 문서들에 접근하여, 사용자의 간단한 조작으로 대용량의 문서들을 PDF, html, xml, SVG, 이미지 등의 파일로 변환함으로써, 대용량의 웹 문서를 주기적으로 저장하여 보관할 수 있고, 시스템 교체에 따라 신규 시스템으로 이관하여 보관할 수 있으며, 기관이나 단체에 파일 리포트로 제출할 수 있도록 하는, 대용량 웹페이지 문서 변환 시스템 및 그 방법에 관한 것이다.The present invention relates to a large-capacity web page document conversion system and a method thereof, and more particularly to a large-capacity web page document conversion system which accesses a large-capacity web page document which is variously posted on an Internet web page, html, xml, SVG, image, etc., you can store and store large-capacity web documents periodically, and you can transfer them to a new system according to the system change and save them to a file report To a large-capacity web page document conversion system and a method thereof.

일반적으로 웹페이지 상에 게시된 대차대조표나 회계 보고서 등의 웹페이지 문서들을 기관에 제출하거나 또는 보관을 하려고 하는 경우에 대부분 PDF 파일로 변환하게 된다.Generally, most of the web page documents such as balance sheets and accounting reports posted on web pages are converted to PDF files when they are submitted to the agency or when they are about to be archived.

또한, 웹페이지 상에 게시된 문서들을 다른 시스템으로 이관하려고 하는 경우에도 이미지 파일이나 PDF 파일로 변환하게 된다.Also, if you want to transfer documents posted on a Web page to another system, you will also convert them to image or PDF files.

이때, 웹페이지 상에 게시된 문서들이 10 페이지 이내의 작은 분량인 경우에는 사용자(작업자)가 각 페이지의 문서를 일일이 하나씩 PDF 파일로 변환하는 작업을 수행한다.At this time, when the documents posted on the web page are a small amount within 10 pages, the user (worker) performs a task of converting the documents of each page into PDF files one by one.

그러나, 웹페이지 문서가 수 천 페이지나 수 만 페이지 정도로 대량인 경우에는 사용자(작업자)가 각 페이지의 문서를 일일이 하나씩 PDF 파일로 변환하려면 엄청난 시간과 비용이 소요되는 문제점이 있었다.However, when a Web page document is large in a size of several thousand pages or tens of thousands of pages, there is a problem that a user (an operator) takes a great deal of time and money to convert the document of each page into a PDF file one by one.

한국 공개특허공보 제2002-0023545호(공개일 : 2002년03월29일)Korean Patent Publication No. 2002-0023545 (published on March 29, 2002)

전술한 문제점을 해결하기 위한 본 발명의 목적은, 인터넷 웹페이지 상에 다양하게 게시되어 있는 대용량의 문서들에 접근하여, 사용자의 간단한 조작으로 대용량의 문서들을 PDF, html, xml, SVG, 이미지 등의 파일로 변환함으로써, 대용량의 웹 문서를 주기적으로 저장하여 보관할 수 있고, 시스템 교체에 따라 신규 시스템으로 이관하여 보관할 수 있으며, 기관이나 단체에 파일 리포트로 제출할 수 있도록 하는, 대용량 웹페이지 문서 변환 시스템 및 그 방법을 제공함에 있다.It is an object of the present invention to solve the above-mentioned problems, and it is an object of the present invention to solve the above problems by accessing a large amount of documents posted on an Internet web page, A large-capacity web page document conversion system that allows large-capacity web documents to be periodically stored and archived, can be transferred to a new system according to system replacement, and can be submitted as a file report to an organization or an organization And a method thereof.

전술한 목적을 달성하기 위한 본 발명의 실시 예에 따른 웹페이지 문서 변환 시스템은, 다수의 웹페이지 문서를 보유한 웹서버로부터 웹페이지 문서를 가져와 다른 형태의 문서로 변환하여 보관하는 웹페이지 문서 변환 시스템으로서, 상기 웹페이지 문서의 웹 주소, 아이디(ID), 문서 제목, 문서 종류를 포함하는 문서 정보에 근거해 변환 메타데이터를 생성하고, 생성된 변환 메타데이터에 근거해 상기 웹서버에 접속해 다수 개의 웹페이지 문서를 다른 형태의 문서들로 변환하는 변환 장치를 포함할 수 있다.According to an aspect of the present invention, there is provided a web page document conversion system for converting a web page document from a web server having a plurality of web page documents into another document, Wherein the conversion metadata generation unit generates conversion metadata based on document information including a web address, an ID, a document title, and a document type of the web page document, accesses the web server based on the generated conversion metadata, And converting the web page documents into other types of documents.

여기서, 상기 변환 장치는, 상기 웹페이지 문서에 접속하기 위한 접속부; 상기 웹페이지 문서로부터 변환 대상을 추출하는 변환대상 추출부; 상기 웹페이지 문서에 대한 정보에 근거해 변환 메타데이터를 생성하는 제어부; 상기 생성된 변환 메타데이터에 근거해 상기 다수 개의 웹페이지 문서를 다른 형태로 문서들로 변환하여 변환문서를 생성하는 변환문서 생성부; 상기 웹페이지 문서에 대한 정보와, 상기 생성된 변환 메타데이터 및 상기 생성된 변환문서가 저장되는 데이터베이스; 및 상기 생성된 변환문서를 문서보관장치에 전송하거나 상기 데이터베이스에 저장하는 변환문서 처리부를 포함할 수 있다.Here, the conversion device may include: a connection unit for connecting to the web page document; A conversion object extraction unit that extracts a conversion object from the web page document; A control unit for generating conversion metadata based on information on the web page document; A converted document generation unit for generating a converted document by converting the plurality of web page documents into other documents based on the generated conversion metadata; A database storing information on the web page document, the generated conversion metadata, and the generated conversion document; And a converted document processing unit for transmitting the converted document to a document storage device or storing the converted document in the database.

또한, 상기 변환 메타데이터의 생성을 위해 사용자로부터 데이터를 입력받고, 입력받은 결과를 화면 상에 표시하기 위한 사용자 인터페이스부를 더 포함할 수 있다.The apparatus may further include a user interface unit for receiving data from a user to generate the conversion metadata and displaying the input data on a screen.

또한, 상기 제어부는, 상기 데이터베이스로부터 상기 웹페이지 문서에 대한 정보를 가져오고, 상기 사용자 인터페이스부를 통해 사용자로부터 입력받은 데이터에 따라 상기 변환 메타데이터를 생성할 수 있다.In addition, the control unit may fetch information about the web page document from the database, and may generate the conversion metadata according to data input from the user through the user interface unit.

또한, 상기 변환 메타데이터는, 상기 다수 개의 웹페이지 문서에 대한 접속 주소, 문서 아이디(ID), 문서 접근 타입(Type), 접근하는 화면 크기, 상기 변환문서들에 대한 저장 위치, 변환문서 여백, 변환문서 파일명, 변환문서 이관 여부 및 첨부파일 이관 여부를 포함할 수 있다.In addition, the conversion metadata may include at least one of a connection address, a document ID, a type of a document access, a size of a screen to be accessed, a storage location of the converted documents, Conversion document file name, conversion document dissemination, and attachment file dissemination.

또한, 상기 변환 메타데이터를 생성할 때, 상기 제어부는 상기 변환문서 파일명에 대해 상기 다수 개의 웹페이지 문서에서 각 웹페이지 문서의 문서 종류와 문서 제목에 따라 구분되는 각각의 변환문서 파일명을 생성할 수 있다.In addition, when generating the conversion metadata, the control unit may generate, for the converted document file name, a name of each conversion document file classified in accordance with the document type and the document title of each web page document in the plurality of web page documents have.

또한, 상기 변환문서 파일명은, 상기 웹페이지 문서의 문서 종류와 문서 아이디(ID)를 포함할 수 있다.In addition, the converted document file name may include a document type and a document ID of the web page document.

또한, 상기 변환 장치는, 상기 다수 개의 웹페이지 문서를 다른 형태의 문서로 변환할 때, 상기 다수 개의 웹페이지 문서에 대한 접근 주소에서 전체 HTML 내용을 수집하는 쓰레드(Thread)와, 해당 영역 HTML 내용을 추출하는 쓰레드와, 첨부파일 유무에 따라 첨부파일 관련 주소를 추출하는 쓰레드와, 변환 문서를 생성하는 쓰레드와, 첨부 파일을 다운로드하는 쓰레드와, 변환 문서와 첨부파일 및 메타데이터를 타시스템으로 이관하는 쓰레드를 이용해 병렬 처리하여, 상기 다수 개의 웹페이지 문서를 다른 형태의 문서로 변환하여 저장하거나 문서보관장치에 전송할 수 있다.The conversion device may further include a thread for collecting the entire HTML content from the access address of the plurality of web page documents when converting the plurality of web page documents into other types of documents, A thread for extracting an address related to an attached file, a thread for generating a converted document, a thread for downloading an attached file, a converted document, an attached file, and metadata to another system , And convert the plurality of web page documents into other types of documents and store them or transmit them to the document storage device.

그리고, 상기 변환 장치는, 상기 일정 개수 이상의 웹페이지 문서에 온라인 접근 API(application programming interface)를 이용해 접근하고, 상기 웹페이지 문서에 첨부된 첨부파일을 다운로드 API를 이용해 다운로드하며, 상기 다수 개의 웹페이지 문서에 대한 문서 변환 시간과 결과를 로그(Log)로 기록하며, 상기 변환 메타데이터를 자바 스크립트(Java Script)와 스타일 시트의 표준(CSS:Cascading Style Sheet)으로 변환하며, 상기 변환된 다른 형태의 문서에 워터마크(watermark)와 전자서명을 추가하는 기능을 제공할 수 있다.The conversion device accesses the predetermined number or more of web page documents by using an online access API (Application Programming Interface), downloads attachments attached to the web page document using a download API, A document conversion time and a result of the document are recorded in a log and the conversion metadata is converted into a JavaScript and a Cascading Style Sheet (CSS) You can provide the ability to add watermarks and electronic signatures to your documents.

한편, 전술한 목적을 달성하기 위한 본 발명의 실시 예에 따른 웹페이지 문서 변환 시스템은, 일정 개수 이상의 웹페이지 문서를 보유한 웹서버; 및 상기 일정 개수 이상의 웹페이지 문서에 대한 정보에 근거해 변환 메타데이터를 생성하고, 생성된 변환 메타데이터에 근거해 상기 일정 개수 이상의 웹페이지 문서를 다른 형태의 문서로 변환하는 변환 프로그램을 포함할 수 있다.According to another aspect of the present invention, there is provided a web page document conversion system including: a web server having a predetermined number of web page documents; And a conversion program for generating conversion metadata based on the information on the predetermined number or more of the web page documents and converting the predetermined number or more of the web page documents into other types of documents based on the generated conversion metadata have.

또한, 상기 변환 프로그램을 통해 변환된 다른 형태의 문서들을 저장하여 보관하는 문서보관 장치를 더 포함할 수 있다.The apparatus may further include a document storage device for storing and storing other types of documents converted through the conversion program.

또한, 상기 변환 프로그램은, 상기 웹서버에 설치되거나, 상기 문서보관 장치에 설치될 수 있다.The conversion program may be installed in the web server or installed in the document storage device.

또한, 상기 변환 프로그램은, 상기 일정 개수 이상의 웹페이지 문서를 다른 형태의 문서로 변환할 때, 상기 일정 개수 이상의 웹페이지 문서에 대한 접근 주소에서 전체 HTML 내용을 수집하는 쓰레드(Thread)와, 해당 변환 대상 영역의 HTML 내용을 추출하는 쓰레드와, 첨부파일 유무에 따라 첨부파일 관련 주소를 추출하는 쓰레드와, 변환 문서를 생성하는 쓰레드와, 첨부 파일을 다운로드하는 쓰레드와, 변환 문서와 첨부파일 및 메타데이터를 타시스템으로 이관하는 쓰레드를 이용해 병렬 처리하여, 상기 일정 개수 이상의 웹페이지를 다른 형태의 문서로 변환하여 저장 또는 상기 문서보관장치에 전송할 수 있다.The conversion program may further include a thread for collecting the entire HTML contents from the access address of the predetermined number or more of the web page documents when converting the predetermined number or more of the web page documents into other types of documents, A thread for extracting the HTML content of the target area, a thread for extracting an address related to the attachment according to the presence or absence of the attachment, a thread for generating the converted document, a thread for downloading the attachment, To the other system, and converts the web pages of the predetermined number or more into other types of documents, and stores the converted web pages or transmits them to the document storage device.

그리고, 상기 변환 프로그램은, 상기 일정 개수 이상의 웹페이지 문서에 온라인 접근 API(application programming interface)를 이용해 접근하고, 상기 웹페이지 문서에 첨부된 첨부파일을 다운로드 API를 이용해 다운로드하며, 상기 일정 개수 이상의 웹페이지 문서에 대한 문서 변환 시간과 결과를 로그(Log)로 기록하며, 상기 변환 메타데이터를 자바 스크립트(Java Script)와 스타일 시트의 표준(CSS:Cascading Style Sheet)으로 변환하며, 상기 변환된 다른 형태의 문서에 워터마크(watermark)와 전자서명을 추가하는 기능을 제공할 수 있다.The conversion program accesses the predetermined number or more of web page documents using an online access API (Application Programming Interface), downloads attached files attached to the web page document using a download API, A document conversion time and a result of a page document are recorded in a log and the conversion metadata is converted into a JavaScript and a Cascading Style Sheet (CSS) A watermark and an electronic signature may be added to the document.

한편, 전술한 목적을 달성하기 위한 본 발명의 실시 예에 따른 웹페이지 문서 변환 방법은, 다수의 웹페이지 문서를 다른 형태의 문서로 변환하는 변환 장치의 웹페이지 문서 변환 방법으로서, (a) 제어부가 상기 웹페이지 문서의 웹 주소, 아이디(ID), 문서 제목, 문서 종류를 포함하는 문서 정보에 근거해 변환 메타데이터를 생성하는 단계; (b) 접속부가 상기 생성된 변환 메타데이터에 근거해 상기 다수의 웹페이지 문서에 접속하는 단계; (c) 변환대상 추출부가 상기 다수의 웹페이지 문서에 대해, 각 웹페이지 문서 별로 변환 대상을 추출하는 단계; (d) 변환문서 생성부가 상기 변환 메타데이터에 근거해 상기 추출된 변환 대상을 다른 형태의 문서로 변환하여 변환 문서를 생성하는 단계; 및 (e) 변환문서 처리부가 상기 생성된 변환 문서들을 데이터베이스에 저장하거나 또는 문서보관장치에 전송하는 단계를 포함할 수 있다.According to another aspect of the present invention, there is provided a web page document conversion method for converting a plurality of web page documents into other types of documents, the method comprising the steps of: (a) Generating conversion metadata based on document information including a web address, an ID, a document title, and a document type of the web page document; (b) connecting to the plurality of web page documents based on the generated conversion metadata; (c) extracting a conversion object for each of the plurality of web page documents for each web page document; (d) a transformed document generating unit converts the extracted transformed object into another type of document based on the transformed metadata to generate a transformed document; And (e) the converted document processing unit may store the generated converted documents in a database or transmit them to a document storage device.

또한, 상기 (a) 단계에서 상기 제어부는, 상기 문서 정보가 저장되어 있는 데이터베이스로부터 상기 문서 정보를 가져오고, 사용자 인터페이스부를 통해 사용자로부터 입력받은 데이터와 상기 문서 정보에 따라 상기 변환 메타데이터를 생성할 수 있다.In addition, in the step (a), the control unit fetches the document information from the database storing the document information, generates the conversion metadata according to the data input from the user through the user interface unit and the document information .

또한, 상기 변환 메타데이터는, 상기 다수의 웹페이지 문서에 대한 접속 주소, 문서 아이디(ID), 문서 접근 타입(Type), 접근하는 화면 크기, 상기 변환된 다른 형태의 문서들에 대한 저장 위치, 변환문서 파일명, 변환문서 여백, 변환문서 이관 여부 및 첨부파일 이관 여부를 포함할 수 있다.In addition, the conversion metadata may include at least one of a connection address, a document ID, a document access type, a screen size to be accessed, a storage location of the converted other types of documents, Conversion document filenames, translated document margins, converted document escapes, and attachment escapes.

또한, 상기 (a) 단계에서 상기 제어부는, 상기 변환 메타데이터를 생성할 때, 상기 변환문서 파일명에 대해 상기 다수의 웹페이지 문서에서 각 웹페이지 문서의 문서 종류와 문서 제목에 따라 구분되는 각각의 변환문서 파일명을 생성할 수 있다.In addition, in the step (a), when generating the conversion metadata, the control unit may convert each of the plurality of web page documents classified by the document type and the document title of each web page document into the converted document file name The converted document file name can be generated.

또한, 상기 변환문서 파일명은, 상기 웹페이지 문서의 문서 종류와 문서 아이디(ID)를 포함할 수 있다.In addition, the converted document file name may include a document type and a document ID of the web page document.

그리고, 상기 (c) 단계는, 상기 다수의 웹페이지 문서에 대한 접근 주소에서 전체 HTML 내용을 수집하는 쓰레드(Thread)와, 해당 변환대상 영역의 HTML 내용을 추출하는 쓰레드와, 첨부파일 유무에 따라 첨부파일 관련 주소를 추출하는 쓰레드와, 변환 문서를 생성하는 쓰레드와, 첨부 파일을 다운로드하는 쓰레드와, 변환 문서와 첨부파일 및 메타데이터를 타시스템으로 이관하는 쓰레드를 이용해 병렬 처리하여, 상기 다수의 웹페이지 문서를 다른 형태의 문서로 변환하여 저장 또는 상기 문서보관장치에 전송할 수 있다.In the step (c), a thread for collecting all the HTML content from the access address of the plurality of web page documents, a thread for extracting the HTML content of the corresponding conversion target area, A thread for extracting an address of an attached file, a thread for generating a converted document, a thread for downloading an attached file, and a thread for transferring a converted document, an attached file, and metadata to another system, The web page document can be converted into another type of document and stored or transmitted to the document storage device.

본 발명의 다른 양상들, 장점들 및 특징들은 다음의 섹션들: 도면의 간단한 설명, 상세한 설명 및 청구범위를 포함하는 전체 출원 명세서에 기재된 내용에 기초하여 보다 명백해질 것이다.Other aspects, advantages and features of the present invention will become more apparent on the basis of the following description in the entire specification, including the following sections: Brief Description of the Drawings, Detailed Description, and Claims.

본 발명에 의하면, 인터넷 웹페이지 상에 종류 별로 표시되고 있는 대용량의 문서들에 접근하여, 사용자의 간단한 조작으로 PDF, html, xml, SVG, 이미지 등으로 쉽게 변환할 수 있다.According to the present invention, it is possible to access large-sized documents displayed in categories on the Internet web page, and easily convert them into PDF, html, xml, SVG, image and the like by a simple operation of the user.

따라서, 대용량의 웹 문서를 주기적으로 파일로 저장하여 보관할 수 있고, 웹페이지 문서를 시스템 교체 시에도 쉽게 신규 시스템으로 이관하여 보관할 수 있으며, 웹페이지 문서를 다른 기관이나 단체에 파일 리포트로 제출할 수 있다.Therefore, it is possible to store and store a large amount of web documents periodically as a file, easily transfer the web page document to a new system even when the system is replaced, and submit the web page document to another organization or organization as a file report .

또한, 다양한 형태로 문서가 게시된 웹페이지에 접근하여, 문서 변환을 위한 메타데이터를 추출하고, 추출한 메타데이터에 근거해 변환할 본문영역, 첨부파일 등을 고려하여, 해당 영역의 부분적 문서변환이 가능하며, 개인 PC 보관 및 타 시스템으로의 이관을 빠르게 진행할 수 있다.In addition, by accessing a web page in which various types of documents are posted, metadata for document conversion is extracted, and partial document conversion of the corresponding region is performed in consideration of a text area and an attachment file to be converted based on the extracted metadata It is possible to store personal PCs and transfer them to other systems quickly.

또한, 레거시(Legacy) 시스템의 웹페이지 및 신규 웹페이지 문서에 대해, 다양한 디바이스에서 변환된 문서로 빠르게 조회할 수 있다.In addition, a web page of a legacy system and a new web page document can be quickly retrieved from a variety of devices.

또한, 웹페이지 문서를 대량으로 보관하고 있는 기존의 레거시(Legacy) 시스템에서도 본 발명에 따른 문서 변환 기능을 적용하여 사용할 수 있다.In addition, it is possible to apply the document conversion function according to the present invention to an existing legacy system that stores a large amount of web page documents.

또한, 대용량의 문서를 변환을 통해 쉽게 배치할 수 있고, 이 외에 실시간 문서 변환, 주기적 문서 변환을 옵션으로 제공할 수 있다.In addition, large-scale documents can be easily placed by conversion, and real-time document conversion and periodic document conversion can be optionally provided.

또한, 시스템 교체로 인하여 발생하는 웹페이지 문서를 신규 시스템으로 문서 이관 및 보관시에 꼭 필요한 시스템에 적용할 수 있다.In addition, a web page document generated due to system replacement can be applied to a system that is necessary for document transfer and storage as a new system.

또한, 레거시(Legacy) 시스템에 도입시에 기존 문서의 보관 및 조회의 다양화를 제공할 수 있다.In addition, it can provide diversification of archiving and inquiry of existing documents when introduced into a legacy system.

또한, 시스템 교체 후 실시간의 변환 서비스를 제공하므로 추후 발생될 수 있는 문서 보관 및 기록물 이관 등의 편의를 제공할 수 있다.In addition, since the system provides a real-time conversion service after the replacement of the system, it is possible to provide convenience such as document archiving and document archiving that may occur in the future.

또한, 웹페이지를 주기적으로 저장한 후 보관 용도와 리포트 제출 및 인쇄용으로 활용할 수 있다. 예를 들면, 회계전표 및 영수증 같은 html문서는 조회시 다양한 디바이스의 접근시 여러 형태로 제공을 하는 불편함이 있었으나, 본 발명에 따른 변환 시스템의 사용시에는 실시간으로 해당 웹페이지를 이미지 형태 및 PDF 형태 등으로 제공할 수 있다.In addition, web pages can be periodically stored and used for archiving purposes, for report submission, and for printing. For example, html documents such as accounting slips and receipts are inconvenient to be provided in various forms when accessing various devices at the time of inquiry. However, when using the conversion system according to the present invention, And the like.

그리고, 중요 이메일(E-mail) 본문의 보관과 첨부파일의 보관 및 중요사이트 정보의 보관시에 문서형태로 암호를 설정하여 보관이 가능한 장점이 있다.In addition, there is an advantage that a password can be set and stored in the form of a document when archiving important email (E-mail), storing attachments, and storing important site information.

도 1a는 본 발명의 실시 예에 따른 웹페이지 문서 변환 시스템의 구성을 개략적으로 나타낸 구성도이다.
도 1b는 본 발명의 실시 예에 따른 웹페이지 문서 변환 시스템에서 변환 장치의 내부 구성을 개략적으로 나타낸 구성도이다.
도 1c는 본 발명의 실시 예에 따른 웹페이지 문서의 한 예를 나타낸 도면이다.
도 2는 본 발명의 실시 예에 따른 변환 장치가 클라이언트용 장치에 적용된 예를 나타낸 도면이고,
도 3은 본 발명의 실시 예에 따른 변환 장치가 클라우드용 장치에 적용된 예를 나타낸 도면이다.
도 4는 본 발명의 다른 실시 예에 따른 웹페이지 문서 변환 시스템을 나타낸 구성도이다.
도 5는 본 발명의 또 다른 실시 예에 따른 웹페이지 문서 변환 시스템을 나타낸 구성도이다.
도 6a 및 도 6b는 본 발명의 실시 예에 따른 변환 장치의 웹페이지 문서 변환 방법을 설명하기 위한 전체 흐름도를 나타낸 도면이다.
도 7은 본 발명의 실시 예에 따른 웹페이지 문서 변환을 위한 환경을 설정하는 예를 나타낸 도면이다.
도 8은 본 발명의 실시 예에 따른 웹페이지 문서 변환을 위한 변환 메타데이터를 나타낸 도면이다.
도 9는 본 발명의 실시 예에 따른 변환 메타데이터를 생성하기 위한 변환 문서 정보를 나타낸 도면이다.
도 10은 본 발명의 실시 예에 따른 웹페이지 문서를 병렬처리 프로세스를 이용하여 변환하는 예를 나타낸 도면이다.
도 11은 본 발명의 실시 예에 따라 변환된 다른 형태의 문서들을 로컬에 저장하거나 다른 시스템으로 전송하여 보관하는 예를 나타낸 도면이다.
도 12는 본 발명의 실시 예에 따라 웹페이지 문서를 다른 형태의 문서로 변환하여 저장하여 보관한 것을 다양한 디바이스에서 동일한 화면으로 제공하는 예를 나타낸 도면이다.
FIG. 1A is a block diagram schematically showing a configuration of a web page document conversion system according to an embodiment of the present invention.
1B is a block diagram schematically illustrating an internal configuration of a conversion apparatus in a web page document conversion system according to an embodiment of the present invention.
1C is a diagram illustrating an example of a web page document according to an embodiment of the present invention.
2 is a diagram illustrating an example in which a conversion apparatus according to an embodiment of the present invention is applied to a client apparatus,
3 is a diagram showing an example in which the conversion apparatus according to the embodiment of the present invention is applied to a device for a cloud.
4 is a block diagram illustrating a web page document conversion system according to another embodiment of the present invention.
5 is a block diagram illustrating a web page document conversion system according to another embodiment of the present invention.
6A and 6B are flowcharts illustrating a method of converting a web page document of a conversion apparatus according to an embodiment of the present invention.
7 is a diagram illustrating an example of setting an environment for web page document conversion according to an embodiment of the present invention.
8 is a diagram illustrating transform metadata for transforming a web page document according to an embodiment of the present invention.
9 is a diagram illustrating converted document information for generating conversion metadata according to an embodiment of the present invention.
10 is a diagram illustrating an example of converting a web page document according to an embodiment of the present invention using a parallel processing process.
FIG. 11 is a diagram illustrating an example in which other types of converted documents are stored locally or transferred to another system for storage according to an embodiment of the present invention.
12 is a diagram illustrating an example in which a web page document is converted into another type of document and stored and stored in the same screen in various devices according to an embodiment of the present invention.

이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings, which will be readily apparent to those skilled in the art to which the present invention pertains. The present invention may be embodied in many different forms and is not limited to the embodiments described herein.

본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.In order to clearly illustrate the present invention, parts not related to the description are omitted, and the same or similar components are denoted by the same reference numerals throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우 뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is referred to as being "connected" to another part, it includes not only "directly connected" but also "electrically connected" with another part in between . Also, when an element is referred to as " comprising ", it means that it can include other elements as well, without departing from the other elements unless specifically stated otherwise.

어느 부분이 다른 부분의 "위에" 있다고 언급하는 경우, 이는 바로 다른 부분의 위에 있을 수 있거나 그 사이에 다른 부분이 수반될 수 있다. 대조적으로 어느 부분이 다른 부분의 "바로 위에" 있다고 언급하는 경우, 그 사이에 다른 부분이 수반되지 않는다.If any part is referred to as being " on " another part, it may be directly on the other part or may be accompanied by another part therebetween. In contrast, when a section is referred to as being " directly above " another section, no other section is involved.

제1, 제2 및 제3 등의 용어들은 다양한 부분, 성분, 영역, 층 및/또는 섹션들을 설명하기 위해 사용되나 이들에 한정되지 않는다. 이들 용어들은 어느 부분, 성분, 영역, 층 또는 섹션을 다른 부분, 성분, 영역, 층 또는 섹션과 구별하기 위해서만 사용된다. 따라서, 이하에서 서술하는 제1 부분, 성분, 영역, 층 또는 섹션은 본 발명의 범위를 벗어나지 않는 범위 내에서 제2 부분, 성분, 영역, 층 또는 섹션으로 언급될 수 있다.The terms first, second and third, etc. are used to describe various portions, components, regions, layers and / or sections, but are not limited thereto. These terms are only used to distinguish any moiety, element, region, layer or section from another moiety, moiety, region, layer or section. Thus, a first portion, component, region, layer or section described below may be referred to as a second portion, component, region, layer or section without departing from the scope of the present invention.

여기서 사용되는 전문 용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다. 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분을 구체화하며, 다른 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분의 존재나 부가를 제외시키는 것은 아니다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to limit the invention. The singular forms as used herein include plural forms as long as the phrases do not expressly express the opposite meaning thereto. Means that a particular feature, region, integer, step, operation, element and / or component is specified and that the presence or absence of other features, regions, integers, steps, operations, elements, and / It does not exclude addition.

"아래", "위" 등의 상대적인 공간을 나타내는 용어는 도면에서 도시된 한 부분의 다른 부분에 대한 관계를 보다 쉽게 설명하기 위해 사용될 수 있다. 이러한 용어들은 도면에서 의도한 의미와 함께 사용 중인 장치의 다른 의미나 동작을 포함하도록 의도된다. 예를 들면, 도면 중의 장치를 뒤집으면, 다른 부분들의 "아래"에 있는 것으로 설명된 어느 부분들은 다른 부분들의 "위"에 있는 것으로 설명된다. 따라서 "아래"라는 예시적인 용어는 위와 아래 방향을 전부 포함한다. 장치는 90˚ 회전 또는 다른 각도로 회전할 수 있고, 상대적인 공간을 나타내는 용어도 이에 따라서 해석된다.Terms indicating relative space such as " below ", " above ", and the like may be used to more easily describe the relationship to other portions of a portion shown in the figures. These terms are intended to include other meanings or acts of the apparatus in use, as well as intended meanings in the drawings. For example, when inverting a device in the figures, certain portions that are described as being " below " other portions are described as being " above " other portions. Thus, an exemplary term " below " includes both up and down directions. The device can be rotated by 90 degrees or rotated at different angles, and terms indicating relative space are interpreted accordingly.

다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련 기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms including technical and scientific terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Commonly used predefined terms are further interpreted as having a meaning consistent with the relevant technical literature and the present disclosure, and are not to be construed as ideal or very formal meanings unless defined otherwise.

이하, 첨부한 도면을 참조하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein.

도 1a는 본 발명의 실시 예에 따른 웹페이지 문서 변환 시스템의 구성을 개략적으로 나타낸 구성도이다. FIG. 1A is a block diagram schematically showing a configuration of a web page document conversion system according to an embodiment of the present invention.

도 1a를 참조하면, 본 발명의 실시 예에 따른 웹페이지 문서 변환 시스템(100)은, 웹 서버(110), 변환 장치(120) 및 문서보관 장치(130)를 포함할 수 있다. Referring to FIG. 1A, a web page document conversion system 100 according to an embodiment of the present invention may include a web server 110, a conversion apparatus 120, and a document storage apparatus 130.

웹 서버(110)는 문서 형태의 웹페이지를 예를 들면, 1,000개 이상 또는 10,000개 이상 등 일정 개수 이상으로 보유한 장치이다. 여기서, 웹페이지는 HTML이나 XML 형태로 구현할 수 있으며, 이 외에 다른 문서 형태로도 가능하다. The web server 110 is a device that holds a web page in the form of a document, for example, 1,000 or more or 10,000 or more. Here, the web page can be implemented in HTML or XML format, or in other document formats.

웹 서버(110)는 도 1a에 도시된 바와 같이 예를 들면, 레거시 시스템(Legacy System)으로 구현할 수 있다. 여기서, 레거시 시스템은 컴퓨터 분야에서 개방형 표준을 준수하는 소프트웨어 및 이를 사용하는 오픈 시스템(Open System)에 대한 반대 개념으로서의 메인 프레임이나 일괄 처리 응용 프로그램을 의미할 수 있다. 또한, 2000년대로 들어서면서 인터넷 기술이 발전함에 따라 이전의 1990년대에 사용했던 대중적인 클라이언트 서버 소프트웨어 및 시스템을 의미할 수 있다. 즉, 레거시 시스템은 기존에 사용했던 컴퓨터 시스템을 의미할 수 있다.The web server 110 may be implemented, for example, as a legacy system as shown in FIG. 1A. Here, a legacy system can mean a mainframe or a batch processing application as an opposite concept to an open system using software that complies with open standards in the computer field. It can also refer to the popular client server software and systems that were used in the 1990s, as Internet technology evolved into the 2000s. That is, the legacy system may refer to a computer system that has been used before.

변환 장치(120)는 웹페이지에 대한 정보에 근거해 변환 메타데이터를 생성하고, 생성된 변환 메타데이터에 근거해 웹 서버(110)에 접속해 일정 개수 이상의 웹페이지 문서를 실시간으로 다른 형태의 문서로 변환할 수 있다. The conversion apparatus 120 generates conversion metadata based on the information about the web page, accesses the web server 110 based on the generated conversion metadata, and transmits a predetermined number or more of the web page documents to another type of document . ≪ / RTI >

여기서, 웹페이지 문서에 대한 정보는, 웹페이지 문서의 웹 주소, 아이디(ID), 문서 제목, 문서 종류, 작성자, 작성일자 등을 포함할 수 있다.Here, the information on the web page document may include a web address, an ID, a document title, a document type, a creator, a creation date, and the like of the web page document.

또한, 변환 메타데이터는, 다수 개의 웹페이지 문서에 대한 접속 주소, 문서 아이디(ID), 문서 접근 타입(Type), 접근 브라우져(Browser) 크기(W & H)를 포함할 수 있다. 문서 아이디는 접속 주소에 있는 문서가 가지는 식별자이고, 문서 접근 타입은 접속 주소에 있는 문서가 가지는 일정한 형태의 프레임(iframe 등)에 접근하는지, 엑스엠엘 뷰(XML View) 형태에 접근하는지를 나타낸다. 접근 브라우져 크기는 접속 주소에 있는 웹페이지 문서에 접근하여 웹페이지 문서를 표시하는 화면 크기(W:Width/H:Height)를 나타낸다.In addition, the transformation metadata may include a connection address, a document ID, a type of a document access, and an access browser size (W & H) for a plurality of web page documents. The document ID is an identifier of the document at the connection address. The document access type indicates whether the document at the connection address has access to a certain type of frame (iframe, etc.) or an XML view. The access browser size refers to the screen size (W: Width / H: Height) which accesses the web page document at the connection address and displays the web page document.

또한, 변환 메타데이터는 상기 변환된 다른 형태의 문서들에 대한 저장 위치와, 다른 형태의 문서에 대한 파일명, 변환문서 여백, 문서변환 성공 여부와, 문서변환 오류 시 메시지를 포함할 수 있다. 여기서, 변환문서 여백(margine)은 각 웹페이지 문서마다 그 크기가 다르므로, 최종적으로 변환된 다른 형태의 문서에 대해, 예를 들면, 가로와 세로에 대해 일정 간격, 즉, 가로 방향으로 좌단(L: Left)과 우단(R: Right)에 각각 1 Cm 씩 여백을 가지고, 세로 방향으로 상단(T:Top)과 하단(B:Bottom)에 각각 1.5 Cm 씩 여백을 가지는 프레임을 설정하고, 그 프레임 안에 상기 변환된 다른 형태의 문서가 위치하도록 하는 것이다.In addition, the conversion metadata may include a storage location for the converted other types of documents, a file name for another type of document, a converted document margin, a success or failure of document conversion, and a message in case of a document conversion error. Here, since the size of the converted document margins differs for each web page document, the converted document margins are different from each other, for example, at a predetermined interval with respect to the width and the length, that is, A frame having a space of 1 Cm in each of L: Left and R: right and a space of 1.5 Cm in the top (T: Top) and a bottom (B: Bottom) So that the converted other document is located in the frame.

또한, 변환된 다른 형태의 문서가 PDF인 경우에, PDF 파일의 저장 위치(PDF DIR)는 변환된 PDF 파일을 보관되어지는 위치(Directory)를 나타내고, PDF FILE은 변환된 PDF 문서의 파일 이름을 나타낸다.In addition, when the converted other document is a PDF, the storage location (PDF DIR) of the PDF file indicates the directory where the converted PDF file is stored, and PDF FILE indicates the file name of the converted PDF document .

그리고, 변환 메타데이터는 HTML 문서 위치 변경과, 옵션(Option)과, 변환문서 이관 여부와, 첨부파일 이관 여부를 포함할 수 있다. 여기서, HTML 문서 위치 변경은 웹페이지 문서를 PDF 파일로 변환할 때 원래의 문서 그대로 변환하지 않고, 예를 들면, HTML 문서를 좌측 이동하거나 우측으로 이동한 후 PDF 파일로 변경하는 것을 의미한다. 옵션은 예컨대, 출력 용지(A4 등)에 대한 HTML 스케일링(Scaling)과 적합(Fitting)을 선택하는 것을 의미한다. FW는 Fit Width를 나타내고, FFW는 Force Fit Width를 나타내며, FH는 Fit Height를 나타내며, PM은 Postcard Mode를 나타내며, RPP는 Resize PDF Page를 나타낸다.The conversion metadata may include an HTML document position change, an option, whether or not the converted document is transferred, and whether the attached file is transferred. Here, when the web page document is converted into the PDF file, the HTML document is not converted as it is in the original document. For example, the HTML document is moved to the left side or moved to the right side and converted to the PDF file. The option means, for example, to select HTML Scaling and Fitting for the output paper (A4 etc.). FW denotes the Fit Width, FFW denotes the Force Fit Width, FH denotes the Fit Height, PM denotes the Postcard Mode, and RPP denotes the Resize PDF Page.

변환 장치(120)는 일정 개수 이상으로 다양한 형태의 웹페이지 문서와 그에 대한 정보를 저장하고 있는 데이터베이스(SQL DB)를 포함할 수 있다.The conversion device 120 may include a database (SQL DB) storing various types of web page documents and information about the web pages in a predetermined number or more.

문서보관 장치(130)는 변환된 문서들을 이관할 대상으로서의 신규 시스템을 지칭하며, 변환된 다른 형태의 문서들을 변환 장치(120)로부터 수신하여 시스템 내부의 데이터베이스(DB) 등 저장 장치에 보관할 수 있다.The document storage device 130 refers to the new system as an object to which the converted documents are to be transferred, and the converted other types of documents can be received from the conversion device 120 and stored in a storage device such as a database (DB) .

도 1b는 본 발명의 실시 예에 따른 웹페이지 문서 변환 시스템에서 변환 장치의 내부 구성을 개략적으로 나타낸 구성도이다. 1B is a block diagram schematically illustrating an internal configuration of a conversion apparatus in a web page document conversion system according to an embodiment of the present invention.

도 1b를 참조하면, 본 발명의 실시 예에 따른 변환 장치(120)는, 접속부(202), 변환대상 추출부(204), 제어부(206), 변환문서 생성부(208), 변환문서 처리부(210), 사용자 인터페이스(User Interface, UI)부(212) 및 데이터베이스(DB)(214)를 포함한다.1B, a conversion apparatus 120 according to an embodiment of the present invention includes a connection unit 202, a conversion object extraction unit 204, a control unit 206, a conversion document generation unit 208, a conversion document processing unit 210, a user interface (UI) unit 212, and a database (DB)

접속부(202)는 웹페이지 문서에 접속하기 위한 통신부 등을 의미할 수 있다. 즉, 접속부(202)는 웹페이지 문서가 게시되어 있는 웹페이지 또는 웹 서버(110)의 URL 주소에 접속하기 위한 접속 장치나 통신 수단 등을 의미할 수 있다.The connection unit 202 may mean a communication unit or the like for connecting to a web page document. That is, the connection unit 202 may refer to a web page on which a web page document is posted, or an access device or communication means for accessing a URL address of the web server 110.

변환대상 추출부(204)는 웹페이지 문서로부터 변환 대상을 추출할 수 있다. 즉, 변환대상 추출부(204)는 예를 들면, 도 1c에 도시된 바와 같이 웹 주소와 주메뉴, 서브 메뉴 및 문서 등으로 구성된 웹페이지 문서에서, 로고나 주메뉴, 서브메뉴 등을 제외한 순수한 문서에 해당하는 회계전표 부분만을 변환 대상으로 추출할 수 있다. 도 1c는 본 발명의 실시 예에 따른 웹페이지 문서의 한 예를 나타낸 도면이다. 이때, 변환대상 추출부(204)는 도 1c에 도시된 웹페이지 문서에서 변환 대상을 추출할 때, 웹페이지 문서에 대해 XML 또는 HTML로 코딩된 문서에서 회계전표 부분에 해당하는 <iframe name=docubody>과 </iframe>, <tr>, <td> 등의 구분자가 있는 부분을 변환 대상으로 추출할 수 있다.The conversion object extraction unit 204 can extract the conversion object from the web page document. That is, as shown in Fig. 1C, the conversion object extracting unit 204 extracts the conversion target object from a pure document excluding a logo, a main menu, a submenu, and the like in a web page document composed of a web address, a main menu, Can be extracted as the object of conversion. 1C is a diagram illustrating an example of a web page document according to an embodiment of the present invention. At this time, when extracting the conversion object from the web page document shown in Fig. 1C, the conversion object extraction unit 204 extracts the conversion object from the document encoded in XML or HTML with respect to the web page document by using the < iframe name = docubody >, </ Iframe>, <tr>, and <td> can be extracted as the conversion target.

제어부(206)는 웹페이지 문서에 대한 정보에 근거해 변환 메타데이터를 생성할 수 있다. 즉, 제어부(206)는 데이터베이스로부터 웹페이지 문서에 대한 정보를 가져오고, UI부(212)를 통해 사용자로부터 입력받은 데이터에 따라 도 8에 도시된 바와 같은 변환 메타데이터를 생성하는 것이다.The control unit 206 can generate the conversion metadata based on the information on the web page document. That is, the control unit 206 fetches the information about the web page document from the database, and generates the conversion metadata as shown in FIG. 8 according to the data input from the user through the UI unit 212.

여기서, 웹페이지 문서에 대한 정보는, 웹페이지 문서의 웹 주소, 아이디(ID), 문서 제목, 문서 종류, 작성자, 작성일자 등을 포함할 수 있다. 이때 문서 아이디(ID)는 도 1c에 도시된 바와 같이 웹 주소에 포함된 아이디(id)를 의미할 수 있다.Here, the information on the web page document may include a web address, an ID, a document title, a document type, a creator, a creation date, and the like of the web page document. At this time, the document ID may refer to an id included in the web address as shown in FIG. 1C.

또한, 변환 메타데이터는, 도 8에 도시된 바와 같이 다수 개의 웹페이지 문서에 대한 접속 주소, 문서 아이디(ID), 문서 접근 타입(Type), 접근하는 화면 크기, 변환문서들에 대한 저장 위치, 변환문서 여백, 변환문서 파일명, 변환문서 이관 여부 및 첨부파일 이관 여부 등을 포함할 수 있다. 이때, 제어부(206)는 변환 메타데이터에서 변환문서 파일명에 대해 다수 개의 웹페이지 문서에서 각 웹페이지 문서의 문서 종류와 문서 제목, 문서 아이디(ID)에 따라 구분되는 각각의 변환문서 파일명으로 생성할 수 있다. 따라서 변환문서 파일명은, 웹페이지 문서의 문서 종류와 문서 아이디(ID)를 포함할 수 있다.8, the conversion metadata includes a connection address, a document ID, a document access type, a screen size to be accessed, a storage location for converted documents, Conversion document margins, conversion document file names, conversion document migration status, and attachment file migration status. At this time, the control unit 206 generates a conversion document file name for each conversion document file name in a plurality of web page documents, each conversion document file name being classified according to a document type, a document title, and a document ID (ID) of each web page document . Therefore, the converted document file name may include the document type and the document ID of the Web page document.

변환문서 생성부(208)는 생성된 변환 메타데이터에 근거해 다수 개의 웹페이지 문서를 각각 다른 형태의 문서들로, 예를 들면, PDF 문서로 변환하여 변환문서를 생성할 수 있다. 여기서, 다른 형태의 문서는 PDF(Portable Document Format) 파일 뿐만 아니라 MS-Word(doc) 파일, 이미지(jpg, tif, gif 등) 파일 등이 될 수 있다.The converted document generation unit 208 may generate a converted document by converting a plurality of web page documents into different types of documents, for example, a PDF document based on the generated conversion metadata. Here, other types of documents may be an MS-Word (doc) file, an image (jpg, tif, gif, etc.) file as well as a PDF (Portable Document Format) file.

변환문서 처리부(210)는 생성된 변환문서를 문서보관장치(130)에 전송하거나 데이터베이스(214)에 저장하여 보관한다.The converted document processing unit 210 transmits the generated converted document to the document storage device 130 or stores it in the database 214 and stores it.

UI부(212)는 변환 메타데이터의 생성을 위해 사용자로부터 데이터를 입력받고, 입력받은 결과를 화면 상에 표시할 수 있다.The UI unit 212 receives data from a user to generate conversion metadata and displays the input result on a screen.

DB(214)는 웹페이지 문서에 대한 정보와, 상기 생성된 변환 메타데이터 및 상기 생성된 변환문서가 저장되는 장치이다.The DB 214 is a device that stores information on a web page document, the generated conversion metadata, and the generated conversion document.

한편, 변환 장치(120)는, 도 1에 도시된 바와 같이 서버용 장치(Server System)가 될 수 있고, 도 2에 도시된 바와 같이 클라이언트(Client)용 장치가 될 수 있으며, 도 3에 도시된 바와 같이 클라우드(Cloud)용 장치가 될 수 있다. 도 2는 본 발명의 실시 예에 따른 변환 장치가 클라이언트용 장치에 적용된 예를 나타낸 도면이고, 도 3은 본 발명의 실시 예에 따른 변환 장치가 클라우드용 장치에 적용된 예를 나타낸 도면이다. The conversion apparatus 120 may be a server system as shown in FIG. 1 and may be a device for a client as shown in FIG. 2, It can be a device for Cloud as shown. FIG. 2 is a diagram illustrating an example in which a conversion apparatus according to an embodiment of the present invention is applied to a client apparatus, and FIG. 3 is a diagram illustrating an example in which a conversion apparatus according to an embodiment of the present invention is applied to a device for a cloud.

도 2에 도시된 바와 같이, 변환 장치가 클라이언트용 장치에 적용된 경우에, 클라이언트용 장치는 PC(Personal Computer)용 변환 장치(210)와 개인 보관용 변환 장치(220)를 포함할 수 있다. 2, when the conversion apparatus is applied to a client apparatus, the client apparatus may include a conversion apparatus 210 for a personal computer (PC) and a conversion apparatus 220 for personal storage.

이때, PC용 변환 장치(210)와 개인 보관용 변환 장치(220)에는 본 발명의 실시 예에 따른 변환 프로그램이 설치될 수 있다. 여기서, 변환 프로그램은 각각 일정 개수 이상의 웹페이지 문서에 대한 정보에 근거해 변환 메타데이터를 생성하고, 생성된 변환 메타데이터에 근거해 일정 개수 이상의 웹페이지 문서를 다른 형태의 문서로 변환하는 기능을 실현하는 것이다. At this time, the conversion program according to the embodiment of the present invention may be installed in the PC conversion device 210 and the personal storage conversion device 220. Here, the conversion program generates conversion metadata based on information on a predetermined number or more of web page documents, and converts the web page document of a predetermined number or more into different types of documents based on the generated conversion metadata .

또한, 변환 프로그램은 CD나 DVD 등의 기록 매체에 기록된 상태에서 사용자의 설치 동작에 따라 PC용 변환 장치(210)와 개인 보관용 변환 장치(220)에 각각 설치될 수 있다.In addition, the conversion program may be installed in the PC conversion device 210 and the personal storage conversion device 220, respectively, in accordance with the installation operation of the user in a state of being recorded on a recording medium such as a CD or a DVD.

따라서, PC용 변환 장치(210)는 변환 프로그램의 실행에 따라 웹서버(110)에 접속해 일정 개수 이상의 웹페이지 문서를 가져와 변환 메타데이터에 근거해 변환하고, 변환된 최종 문서와 첨부 파일을 신규 시스템에 해당하는 문서보관 장치(130)로 전송하여 이관한다.Therefore, the PC conversion apparatus 210 connects to the web server 110 according to the execution of the conversion program, fetches a predetermined number or more of web page documents, converts the web page documents based on the conversion metadata, To the document storage apparatus 130 corresponding to the system, and transfer it.

이에 반하여, 개인 보관용 변환 장치(220)는 변환 프로그램의 실행에 따라 웹서버(110)에 접속하여 일정 개수 이상의 웹페이지 문서를 가져와 변환 메타데이터에 근거해 PDF 등의 파일 형태로 변환한 후, 변환된 최종 문서와 첨부 파일을 내부 저장소에 저장하여 보관하는 것이다.On the other hand, the personal storage conversion device 220 accesses the web server 110 according to the execution of the conversion program, fetches a predetermined number or more of web page documents, converts the web page documents into a file format such as PDF based on the conversion metadata, The converted final document and the attached file are stored in the internal storage and archived.

그리고, 본 발명에 따른 변환 장치는 도 3에 도시된 바와 같이, 클라우드(Cloud)용 시스템(310)으로 구현할 수 있다.The conversion apparatus according to the present invention can be implemented as a system 310 for a cloud, as shown in FIG.

클라우드 서비스는 인터넷 상에 자료를 저장해 두고, 사용자가 필요한 자료나 프로그램을 자신의 컴퓨터에 설치하지 않고도 인터넷 접속을 통해 언제 어디서나 이용할 수 있는 서비스를 말한다. 클라우드 서비스를 통해 인터넷 상에 저장된 자료들은 간단한 조작 및 클릭으로 쉽게 공유하고 전달할 수 있다. 인터넷 상의 서버에 단순히 자료를 저장하는 것뿐만 아니라, 따로 프로그램을 설치하지 않아도 웹에서 제공하는 응용 프로그램의 기능을 이용하여 원하는 작업을 수행할 수 있으며, 여러 사람이 동시에 문서를 공유하면서 작업을 진행할 수도 있다.A cloud service is a service that stores data on the Internet and allows users to access anytime and anywhere through the Internet without having to install the necessary data or programs on their computers. Cloud services can easily share and deliver data stored on the Internet with simple operations and clicks. In addition to simply storing the data on a server on the Internet, you can perform the desired operation by using the functions of the application program provided on the web without installing the program separately. have.

클라우드용 시스템(310)은 전술한 바와 같은 변환 프로그램을 클라우드 서버에 설치해 두고, 사용자가 개인용 컴퓨터를 이용해 클라우드 서버에 접속해 변환 프로그램을 실행할 수 있도록 하는 것이다. The system for the cloud 310 is provided with a conversion program as described above in the cloud server so that the user can connect to the cloud server using the personal computer and execute the conversion program.

따라서, 사용자의 개인용 컴퓨터는 클라우드용 시스템(310)에 접속해 변환 프로그램을 실행하여 웹서버(110)에 게시되어 있는 웹페이지 문서들을 변환하여 클라우드용 시스템(310)의 사용자에 대해 할당된 저장 공간에 저장하거나, 신규 웹서버에 해당하는 문서보관 장치(130)에 전송하여 보관할 수 있게 되는 것이다.Accordingly, the user's personal computer accesses the system for the cloud 310 and executes a conversion program to convert the web page documents posted on the web server 110, thereby converting the web page documents stored in the storage space allocated to the user of the cloud system 310 Or may be stored in the document storage device 130 corresponding to the new web server.

즉, 클라우드용 시스템(310)은 웹서버(110)에 접속해 일정 개수 이상의 웹페이지 문서를 가져와 변환 메타데이터에 근거해 변환하고, 변환된 최종 문서와 첨부 파일을 신규 시스템에 해당하는 문서보관 장치(130)로 전송하여 이관하는 것이다.That is, the cloud system 310 connects to the web server 110 to obtain a predetermined number or more of web page documents, converts the web page documents based on the conversion metadata, and stores the converted final documents and attached files in a document storage device (130).

여기서, 문서보관 장치(130)는, 변환된 다른 형태의 문서들을 저장해 보관하는 장치로서, 서버(Server)용 장치, 클라이언트(PC)용 장치, 클라우드(Cloud)용 장치 중 하나로 구현할 수 있다.Here, the document storage device 130 is a device for storing and storing the converted other types of documents, and may be implemented as one of a server device, a client (PC) device, and a cloud device.

그리고, 변환 프로그램을 통해 변환된 다른 형태의 문서들은, PDF(Portable Document Format), XML(eXtensible Markup Language), DOC(microsoft word), 이미지(Image), SVG 중 하나일 수 있다.The other types of documents converted through the conversion program may be one of Portable Document Format (PDF), Extensible Markup Language (XML), Microsoft Word (DOC), Image, and SVG.

도 4는 본 발명의 다른 실시 예에 따른 웹페이지 문서 변환 시스템을 나타낸 구성도이다.4 is a block diagram illustrating a web page document conversion system according to another embodiment of the present invention.

도 4를 참조하면, 본 발명의 다른 실시 예에 따른 웹페이지 문서 변환 시스템(400)은, 일정 개수 이상의 웹페이지 문서를 보유하고, 이러한 일정 개수 이상의 웹페이지 문서를 다른 형태의 문서로 변환할 변환 프로그램이 설치된 웹서버(410)와, 웹서버(410)로부터 변환 프로그램을 통해 변환된 다른 형태의 문서들을 수신하여 보관하는 문서보관 장치(130)를 포함할 수 있다.Referring to FIG. 4, the web page document conversion system 400 according to another embodiment of the present invention includes a Web page document conversion apparatus 400 that has a predetermined number or more of web page documents, converts the web page documents into a different type of document And a document storage device 130 for receiving and storing other types of documents converted from the web server 410 through a conversion program.

여기서, 변환 프로그램은 웹서버(410)에 설치되고, 일정 개수 이상의 웹페이지 문서에 대한 정보에 근거해 변환 메타데이터를 생성하고, 생성된 변환 메타데이터에 근거해 일정 개수 이상의 웹페이지 문서를 다른 형태의 문서로 변환하는 기능을 실행한다.Here, the conversion program is installed in the web server 410, and generates conversion metadata based on information on a predetermined number or more of the web page documents, and converts a predetermined number or more of the web page documents into another format Into a document.

즉, 본 발명의 다른 실시 예에 따른 웹페이지 문서 변환 시스템(400)은, 웹페이지 문서들을 보유하고 있는 웹서버(410)의 내부에 변환 프로그램이 설치되고, 웹서버(410)가 변환 프로그램을 통해 일정 개수 이상의 웹페이지 문서들을 다른 형태의 문서로 변환하는 변환 장치의 기능을 실행하는 것이다.That is, in the web page document conversion system 400 according to another embodiment of the present invention, a conversion program is installed in the web server 410 having web page documents, and the web server 410 converts the conversion program To perform the function of a conversion device that converts a certain number of web page documents into another type of document.

이때, 웹서버(410)는 일정 개수 이상으로 다양한 형태의 웹페이지 문서와 그에 대한 정보를 저장하고 있는 데이터베이스(SQL DB)(420)를 포함할 수 있다.At this time, the web server 410 may include a database (SQL DB) 420 storing various types of web page documents and information about the web page documents in a predetermined number or more.

문서보관 장치(130)는 변환된 다른 형태의 문서들을 저장해 보관하는 장치로서, 서버(Server)용 장치, 클라이언트(PC)용 장치, 클라우드(Cloud)용 장치 중 하나일 수 있다.The document storage device 130 is a device for storing and storing other types of converted documents, and may be one of a device for a server, a device for a client PC, and a device for a cloud.

따라서, 웹서버(410)는 사용자 또는 관리자에 의해 변환 프로그램이 실행되면, DB(420)에 저장된 각 웹페이지에 대한 정보에 근거해 변환 메타데이터를 생성하고, 생성된 변환 메타데이터에 근거해 DB(420)로부터 웹페이지 문서들을 가져와 PDF 파일 등 다른 형태의 문서로 변환해 문서보관 장치(130)로 전송해 주는 것이다.Accordingly, when the conversion program is executed by the user or the administrator, the web server 410 generates conversion metadata based on the information about each web page stored in the DB 420, and based on the generated conversion metadata, The web page documents are fetched from the server 420 and converted into other types of documents such as a PDF file and transmitted to the document storage device 130.

예를 들면, 웹서버(410)는 웹페이지 문서들이 디스플레이되도록 제어하는 마이크로프로세서와, 이 마이크로프로세서가 처리하는 데이터들을 임시적으로 저장하는 메모리 및 변환 프로그램이 저장된 프로그램 저장부를 포함할 수 있다. For example, the web server 410 may include a microprocessor for controlling web page documents to be displayed, and a program storage unit for storing a conversion program and a memory for temporarily storing data processed by the microprocessor.

여기에 사용자로부터 변환 프로그램의 실행 명령을 입력받는 입력부와, 변환 프로그램의 실행 결과를 화면이나 음성 등으로 출력하는 출력부를 더 포함할 수 있다.The apparatus may further include an input unit for receiving an execution command of the conversion program from the user, and an output unit for outputting the execution result of the conversion program on a screen or voice.

마이크로 프로세서는 변환 프로그램의 실행 명령이 입력되면, 프로그램 저장부에 저장되어 있는 변환 프로그램을 실행한다. The microprocessor executes the conversion program stored in the program storage unit when the execution command of the conversion program is input.

변환 프로그램은 DB(420)에 저장된 각 웹페이지에 대한 정보에 근거해 도 8에 도시된 변환 메타데이터를 생성하여 메모리에 임시로 저장한다. 변환 프로그램은 생성된 변환 메타데이터에 근거해 DB(420)로부터 변환 대상에 해당하는 일정 개수 이상의 웹페이지 문서들을 순차적으로 또는 일정 단위씩 가져와 메모리에 저장한다. 변환 프로그램은 메모리에 임시로 저장된 웹페이지 문서들을 도 10에 도시된 바와 같은 다수의 쓰레드(Thread)를 이용해 병렬적으로 분업하여 PDF 파일 등 다른 형태의 문서로 변환한다. 그리고, 변환 프로그램은 PDF 등으로 변환된 다른 형태의 문서들을 문서보관 장치(130)로 전송해 주는 것이다.The conversion program generates the conversion metadata shown in FIG. 8 based on the information about each web page stored in the DB 420, and temporarily stores the conversion metadata in the memory. The conversion program fetches a predetermined number or more of web page documents corresponding to the conversion target from the DB 420 on a sequential basis or on a predetermined unit basis based on the generated conversion metadata and stores the same in a memory. The conversion program divides the web page documents temporarily stored in the memory into parallel documents using a plurality of threads as shown in Fig. 10 and converts them into other types of documents such as PDF files. In addition, the conversion program transfers other types of documents converted into PDF or the like to the document storage device 130.

도 5는 본 발명의 또 다른 실시 예에 따른 웹페이지 문서 변환 시스템을 나타낸 구성도이다.5 is a block diagram illustrating a web page document conversion system according to another embodiment of the present invention.

도 5를 참조하면, 본 발명의 또 다른 실시 예에 따른 웹페이지 문서 변환 시스템(500)은, 일정 개수 이상의 웹페이지 문서를 보유하는 웹서버(110)와, 변환 프로그램에 따라 변환 메타데이터를 생성하고 이에 근거해 웹서버(110)로부터 웹페이지 문서들을 가져와 변환 및 보관하는 신규 웹서버(510)를 포함할 수 있다.Referring to FIG. 5, the web page document conversion system 500 according to another embodiment of the present invention includes a web server 110 that holds a predetermined number or more of web page documents, And a new web server 510 for fetching, converting and storing web page documents from the web server 110 based thereon.

여기서, 변환 프로그램은 일정 개수 이상의 웹페이지 문서에 대한 정보에 근거해 변환 메타데이터를 생성하고, 생성된 변환 메타데이터에 근거해 일정 개수 이상의 웹페이지 문서를 다른 형태의 문서로 변환하는 기능을 실행한다.Here, the conversion program generates conversion metadata based on information on a predetermined number or more of web page documents, and executes a function of converting a predetermined number or more of web page documents into other types of documents based on the generated conversion metadata .

신규 웹서버(510)는 웹서버(110)로부터 웹페이지 문서들을 이관하여 저장 및 보관하는 장치로서, 이러한 변환 프로그램이 설치된 것이다.The new web server 510 is a device for transferring and storing Web page documents from the web server 110, and the conversion program is installed.

따라서, 신규 웹서버(510)는 변환 프로그램을 실행하여, 각 웹페이지 문서에 대한 정보에 근거해 변환 메타데이터를 생성하고, 생성된 변환 메타데이터에 근거해 웹서버(110)로부터 일정 개수 이상의 웹페이지 문서들을 가져와 PDF 파일로 변환하는 변환 장치의 기능을 실행하는 것이다.Accordingly, the new web server 510 executes the conversion program to generate conversion metadata based on the information about each web page document, and acquires from the web server 110 a predetermined number or more of webs To perform the function of a conversion device that takes page documents and converts them into PDF files.

이때, 신규 웹서버(510)는 내부에 데이터베이스(DB)를 구비할 수 있고, 변환된 다른 형태의 문서들을 데이터베이스(DB)에 저장하여 보관할 수 있다.At this time, the new web server 510 may have a database (DB) therein and store the converted other types of documents in a database (DB).

한편, 도 1 내지 도 5를 참조하면, 변환 장치(110, 210, 220, 310, 410, 510)는 변환 프로그램이 설치된 서버용 장치, 클라이언트용 장치, 클라우드용 장치, 웹서버, 신규 웹서버 등이 될 수 있다.1 to 5, the conversion devices 110, 210, 220, 310, 410, and 510 may include a server device, a client device, a cloud device, a web server, a new web server, .

변환 장치(110, 210, 220, 310, 410, 510)는 변환 프로그램을 실행하면, 유저 인터페이스(User Interface)를 통해 일정 개수 이상의 웹페이지 문서를 변환하기 위한 환경을 설정하고, 로그인 정보를 이용해 웹 서버에 접속할 수 있다.When the conversion program is executed, the conversion apparatuses 110, 210, 220, 310, 410, and 510 set an environment for converting a predetermined number or more of web page documents through a user interface, You can connect to the server.

또한, 변환 장치(110, 210, 220, 310, 410, 510)는 데이터베이스(DB) 접근 방식 또는 웹페이지 접근 로봇 방식에 따라 변환문서 타입과 형태를 지정해 변환 메타데이터를 생성할 수 있다.In addition, the conversion apparatuses 110, 210, 220, 310, 410, and 510 may generate conversion metadata by designating a conversion document type and a format according to a database (DB) approach or a web page access robot method.

여기서, 데이터베이스(DB) 접근 방식은, 웹서버에서 일정 개수 이상의 웹페이지 문서에 대한 정보를 저장하고 있는 데이터베이스(DB)의 테이블(Tabel) 및 웹페이지 뷰(View)에 접근해 변환문서 타입과 형태를 지정하는 방식이다.Here, the database (DB) access method accesses a table (Tab) and a web page view (View) of a database (DB) storing information on a certain number or more of web page documents in the web server, .

또한, 웹페이지 접근 로봇 방식은, 일정 개수 이상의 웹페이지 문서에 대한 HTML, XML, DOM에 접근하여 해당 웹페이지 문서를 파서(Parser)하거나, 웹페이지 뷰(View), DOM에 접근해 유저 인터페이스(User Interface)를 통해 문서선택 영역을 지정해 객체를 자동 분류하는 방식이다. 여기서, DOM은 문서 객체 모델(document object model)로서, 그래픽, 텍스트, 헤드라인, 스타일 등 웹의 모든 요소가 자바 스크립트(Java Script)나 스크립트 언어에 의해 조정될 수 있도록 해주며, CSS, HTML, 스크립트 언어와 함께 DHTML을 구성하는 핵심 기술이라 할 수 있다.In addition, the web page access robot method accesses HTML, XML, and DOM of a predetermined number or more of web page documents, parses the corresponding web page document, accesses a web page view, User interface) to select the document selection area. Here, DOM is a document object model that allows all elements of the web, including graphics, text, headlines, and styles, to be tweaked by JavaScript or scripting language, It is a core technology that constitutes DHTML together with language.

또한, 변환 장치(110, 210, 220, 310, 410, 510)는, 일정 개수 이상의 웹페이지 문서를 실시간으로 다른 형태의 문서로 변환할 때, 일정 개수 이상의 웹페이지 문서에 대한 접근 주소에서 전체 HTML 내용을 수집하는 쓰레드(Thread)와, 해당 영역 HTML 내용을 추출하는 쓰레드(Thread)와, 첨부파일 유무에 따라 첨부 관련 주소를 추출하는 쓰레드(Thread)와, 변환 문서를 생성하는 쓰레드(Thread)와, 첨부 파일을 다운로드하는 쓰레드(Thread)와, 변환 문서와 첨부파일 및 메타데이터를 타시스템으로 이관하는 쓰레드(Thread)를 이용해 병렬 처리하여, 일정 개수 이상의 웹페이지 문서를 실시간으로 다른 형태의 문서로 변환할 수 있다.When a certain number or more of web page documents are converted into different types of documents in real time, the conversion devices 110, 210, 220, 310, 410, and 510 may convert all HTML A thread for collecting contents, a thread for extracting HTML contents of the corresponding area, a thread for extracting an attachment-related address according to the presence or absence of an attachment file, a thread for generating a converted document, , A thread for downloading attachments, and a thread for transferring converted documents, attachments, and metadata to other systems to parallelize a certain number of web page documents in real time to another type of document Can be converted.

또한, 변환 장치(110, 210, 220, 310, 410, 510)는, 온라인 접근 API(application programming interface)를 이용해 웹 서버에 접속하거나, 일정 개수 이상의 웹페이지에 접속할 수 있으며, 다운로드 API를 이용해 웹페이지에 첨부된 첨부파일을 다운로드할 수 있다.The conversion apparatuses 110, 210, 220, 310, 410, and 510 may access a web server using an online access API (application programming interface), access a predetermined number or more of web pages, You can download attachments attached to the page.

또한, 변환 장치(110, 210, 220, 310, 410, 510)는 일정 개수 이상의 웹페이지 문서에 대한 문서 변환 시간과 결과를 로그(Log)로 기록하며, 변환 메타데이터를 자바 스크립트(Java Script)와 스타일 시트의 표준(CSS:Cascading Style Sheet)으로 변환할 수 있으며, 변환된 다른 형태의 문서에 워터마크(watermark)와 전자서명을 추가할 수 있는 기능을 제공할 수 있다.In addition, the conversion devices 110, 210, 220, 310, 410, and 510 log document conversion time and results for a predetermined number or more of web page documents, log conversion metadata, And a CSS (Cascading Style Sheet), and can provide a function of adding a watermark and an electronic signature to the converted document.

그리고, 변환 장치(110, 210, 220, 310, 410, 510)는, 변환된 다른 형태의 문서들을 첨부파일과 함께 분류하여 로컬(Local) 내에 분류별로 저장하거나 다른 장치로 전송해 줄 수 있다.The conversion apparatuses 110, 210, 220, 310, 410, and 510 may classify the converted other documents together with the attached file, and classify them in a local or transmit them to another apparatus.

도 6a 및 도 6b는 본 발명의 실시 예에 따른 변환 장치의 웹페이지 문서 변환 방법을 설명하기 위한 전체 흐름도를 나타낸 도면이다.6A and 6B are flowcharts illustrating a method of converting a web page document of a conversion apparatus according to an embodiment of the present invention.

도 6a와 도 6b 내지 도 12를 참조하면, 본 발명의 실시 예에 따른 변환 장치(120)는, 일정 개수 이상의 웹페이지에 대한 정보에 근거해 변환 메타데이터를 생성한다(S610).Referring to FIGS. 6A and 6B to 12, the conversion apparatus 120 according to the embodiment of the present invention generates conversion metadata based on information on a predetermined number or more of web pages (S610).

즉, 제어부(206)는 웹페이지 문서의 웹 주소, 아이디(ID), 문서 제목, 문서 종류를 포함하는 문서 정보가 저장되어 있는 데이터베이스(214)로부터 문서 정보를 가져오고, UI부(212)를 통해 사용자로부터 입력받은 데이터와 문서 정보에 따라 도 8에 도시된 바와 같은 변환 메타데이터를 생성할 수 있다(S610).That is, the control unit 206 fetches the document information from the database 214 in which the document information including the web address, the ID, the document title, and the document type of the web page document is stored, The transformed metadata as shown in FIG. 8 may be generated according to the data and the document information received from the user through the user interface (S610).

이때, 변환 장치(120)는 변환 프로그램이 실행되면, 사용자 또는 관리자로부터 UI부(212)를 통해 데이터를 입력받아 웹페이지 변환을 위한 환경을 설정하고, 로그인 정보를 이용해 웹서버(110)에 접속한다. 웹페이지 접근은 공개된 페이지 및 비공개 페이지 모두 해당이 된다. 비공개 페이지는 로그인 정보를 통해 해당 페이지 접근이 가능하다.At this time, when the conversion program is executed, the conversion apparatus 120 receives data from the user or the manager through the UI unit 212 to set an environment for web page conversion, and connects the web server 110 to the web server 110 using the login information do. Web page access is both public and private. Private pages can be accessed through login information.

여기서, 변환 장치(120)는 도 7에 도시된 바와 같이, 로그인 여부와, 해당 서버 접속, 메타데이터 추출 및 정의, 변환문서 타입 및 형태 지정 등을 통해 웹페이지 변환을 위한 환경을 설정하는 것이다. 도 7은 본 발명의 실시 예에 따른 웹페이지 문서 변환을 위한 환경을 설정하는 예를 나타낸 도면이다. 도 7에 도시된 바와 같이, 변환문서 타입 및 형태 지정은, SQL DB 접근 방식으로 테이블(Table) 접근 및 뷰(View) 접근을 포함할 수 있다. Here, as shown in FIG. 7, the conversion apparatus 120 sets an environment for web page conversion through login, connection to the server, metadata extraction and definition, conversion document type, and type designation. 7 is a diagram illustrating an example of setting an environment for web page document conversion according to an embodiment of the present invention. As shown in FIG. 7, the transformed document type and type specification may include accessing a table and accessing a view in an SQL DB approach.

또한, 변환문서 타입 및 형태 지정은, 웹페이지 접근 로봇 방식으로서, Html과 XML, DOM 접근 및 파서(Parser)를 실행하는 방식과, 웹페이지 뷰(View) 접근/DOM 접근 유저 인터페이스(UI)를 제공하는 방식 및 문서 선택 영역을 지정하는 자동 객체 분류 방식을 포함할 수 있다.In addition, the conversion document type and type designation is a web page access robot method, a method of executing Html and XML, a DOM access and a parser, a web page view access / a DOM access user interface (UI) And an automatic object classification method of specifying a document selection area.

즉, 변환 장치(120)는 데이터베이스(DB) 접근 방식 또는 웹페이지 접근 로봇 방식에 따라 변환문서 타입과 형태를 지정해 변환 메타데이터를 생성할 수 있다.That is, the conversion apparatus 120 can generate conversion metadata by specifying a conversion document type and a format according to a database (DB) approach or a web page access robot method.

이때, 데이터베이스(DB) 접근 방식은, 웹 서버(110)에서 일정 개수 이상의 웹페이지에 대한 정보를 저장하고 있는 데이터베이스(DB)의 테이블(Tabel) 및 뷰(View)에 접근해 변환문서 타입과 형태를 지정하는 것이다.At this time, the database (DB) access method accesses a table (Tab) and a view of a database (DB) storing information on a certain number or more of web pages in the web server 110, .

또한, 웹페이지 접근 로봇 방식은, 일정 개수 이상의 웹페이지에 대한 HTML, XML,DOM에 접근하여 파서(Parser)하거나, 웹페이지 뷰(View), DOM에 접근해 유저 인터페이스(User Interface)를 통해 문서선택 영역을 지정해 객체를 자동 분류하는 것이다. 즉, 자동 로봇과 같이 일정 개수 이상의 웹페이지에 접속하여 파싱(Parsing)하거나, UI를 통해 지정된 선택에 따라 자동으로 분류하는 의미에서 웹페이지 접근 로봇 방식이라 칭한 것이다.In addition, the web page access robot method accesses HTML, XML, and DOM for a predetermined number of web pages or more, accesses a web page view, a DOM, accesses a DOM through a user interface, It automatically classifies objects by specifying a selection area. That is, it is referred to as a web page access robot system in the sense of accessing and parsing a certain number of web pages, such as an automatic robot, or automatically classifying the web pages according to a designated selection through the UI.

한편, 변환 장치(120)는 사용자 또는 관리자로부터 UI부(212)를 통해 웹페이지 문서 변환을 위한 데이터를 입력받고, 입력받은 데이터와 문서 정보에 근거해 도 8에 도시된 바와 같은 변환 메타데이터를 생성한다. 도 8은 본 발명의 실시 예에 따른 웹페이지 문서 변환을 위한 변환 메타데이터를 나타낸 도면이다.On the other hand, the conversion apparatus 120 receives data for web page document conversion from the user or manager through the UI unit 212, and converts the conversion metadata as shown in FIG. 8 based on the input data and the document information . 8 is a diagram illustrating transform metadata for transforming a web page document according to an embodiment of the present invention.

이때, 변환 메타데이터는, 도 8에 도시된 바와 같이, 일정 개수 이상의 웹페이지 문서에 대한 접속 주소(url), 문서 아이디(ID), 문서 접근 타입(Type), 접근 브라우져 크기 지정과, 변환된 다른 형태의 문서들에 대한 저장 위치, 파일명, 변환문서 여백 지정과, 문서변환 성공 여부와, 문서변환 오류 시 메시지와, HTML 문서 위치 변경과, 옵션(Option)과, 첨부파일 이관 여부와, 이관 여부를 포함할 수 있다. At this time, as shown in FIG. 8, the conversion metadata includes a connection address (url), a document ID (ID), a document access type (Type), a browser size designation, A file name, a designated document margin, a success or failure of document conversion, a message in case of a document conversion error, an HTML document position change, an option, an attachment file transfer status, &Lt; / RTI &gt;

여기서, 제어부(206)는 변환 메타데이터에서 문서 종류(TYPE)와 년도구분, 양식명, URL 주소, 문서 아이디(ID)는 데이터베이스(214)로부터 가져 온 웹페이지 문서에 대한 URL 주소와, 문서 아이디(ID), 문서 제목, 문서 종류, 작성자, 작성일자 등 문서 정보에 따라 생성한 것이다.In this case, the control unit 206 determines the document type (TYPE), the year name, the form name, the URL address, and the document ID in the conversion metadata based on the URL address of the web page document obtained from the database 214, (ID), document title, document type, author, creation date, and so on.

또한, 제어부(206)는 변환 메타데이터에서 문서 접근 타입(Type)을 사용자로부터 UI부(212)를 통해 입력받은 <iframe>, <xml view> 등의 구분자에 따라 생성할 수 있다. 즉, 도 1c에 도시된 웹페이지 문서에 대한 HTML 문서에서 변환 대상에 해당하는 <iframe>, </iframe> 등이 있는 부분이나, <xml view> 등의 구분자가 있는 부분 등 변환 영역에 대한 키 값을 문서 접근 타입으로 생성하는 것이다.In addition, the control unit 206 can generate a document access type from the conversion metadata according to a separator such as <iframe> and <xml view>, which are input from the user through the UI unit 212. That is, in the HTML document for the web page document shown in FIG. 1C, a key for the conversion area such as a part having an <iframe>, </ iframe>, or the like corresponding to the conversion target or a part having a separator such as <xml view> Value as a document access type.

또한, 도 8의 변환 메타데이터에서, PDF DIR은 사용자로부터 UI부(212)를 통해 입력받은 데이터에 근거해 생성된 것으로서, 문서가 변환되어 보관되어지는 위치를 정의하며, 타서버로 보관 시 FTP 접근 혹은 POST 방식으로 접근하는 해당 접근 URL 주소가 될 수 있다.In the conversion metadata of FIG. 8, PDF DIR is generated based on data input from the user through the UI unit 212, defines the location where documents are converted and stored, and FTP It can be the access URL address accessed by access or POST method.

또한, 도 8의 변환 메타데이터에서, PDF FILE은 변환된 문서의 파일 이름을 정의하는 것으로서, PFD 및 html 등 확장자에 따라 달라질 수 있다. 즉, 제어부(206)는 변환문서 파일명에 대해 다수의 웹페이지 문서에서 각 웹페이지 문서의 문서 종류와 문서 제목에 따라 구분되는 변환문서 파일명을 자동으로 생성할 수 있다. In the conversion metadata of FIG. 8, PDF FILE defines the file name of the converted document, and may be changed depending on extensions such as PFD and html. That is, the control unit 206 can automatically generate a converted document file name, which is classified according to the document type and the document title of each web page document, in a plurality of web page documents with respect to the converted document file name.

또한, 도 8의 변환 메타데이터에서, 성공 여부는 웹페이지 문서를 PDF 문서로 변환했을 때 문서 변환의 성공 여부를 나타내고, 비고는 문서 변환의 오류 시에 오류 메시지를 나타낸다.In the conversion metadata of FIG. 8, success indicates whether or not the document conversion is successful when the web page document is converted into the PDF document, and the note indicates an error message when the document conversion error occurs.

또한, 도 8의 변환 메타데이터에서, Browser(W&H)는 웹페이지 문서에 접근하는 화면 크기로서의 접근 브라우져 크기를 지정하며, margin(L&R&T&B)은 변환 문서의 여백을 지정한다. 즉, 다수 개의 웹페이지 문서가 문서 종류에 따라 각각 그 크기가 다르므로, 최종적으로 출력되는 문서의 양식에 좌측(Left)과 우측(Right), 상측(Top), 하측(Bottom)에 각각 여백을 둔 프레임 내에 변환 문서가 출력되도록 하는 것이다.8, Browser (W & H) designates the size of an access browser as a screen size for accessing a web page document, and margin (L & R & T & B) designates a margin of the converted document. In other words, since a plurality of web page documents are different in size according to document types, margins are set in the left and right sides, the top side, and the bottom side, respectively, So that the converted document is output in the set frame.

또한, 도 8의 변환 메타데이터에서, Html(L&T&W&H)은 변환 문서에 대해 좌측(L), 상측(T), 폭(Width), 높이(Height) 등으로 변경하도록 HTML 문서의 위치 변경을 설정하는 것이고, Option(FW&FFW&FH&PM&RPP)은 변환 문서의 크기 옵션을 설정하는 것이다. 예컨대, 옵션은 출력 용지(A4 등)에 대한 HTML 스케일링(Scaling)과 적합(Fitting)의 선택을 설정하는 것이다. FW는 Fit Width를 나타내고, FFW는 Force Fit Width를 나타내며, FH는 Fit Height를 나타내며, PM은 Postcard Mode를 나타내며, RPP는 Resize PDF Page를 나타낸다.8, Html (L & T & W & H) is set to change the position of the HTML document to be changed to the left side (L), the upper side (T), the width (Width) Option (FW & FFW & FH & PM & RPP) sets the size option of the converted document. For example, the option is to set the selection of HTML Scaling and Fitting for the output paper (A4 etc.). FW denotes the Fit Width, FFW denotes the Force Fit Width, FH denotes the Fit Height, PM denotes the Postcard Mode, and RPP denotes the Resize PDF Page.

또한, 도 8의 변환 메타데이터에서, 첨부 이관은 웹페이지 문서에 첨부된 파일의 이관 여부를 나타내며, 이관 여부는 변환 문서의 이관 상태를 나타낸다.Further, in the conversion metadata of FIG. 8, the attached escape character indicates whether or not the file attached to the web page document is escaped, and the escape status indicates the escape status of the converted document.

또한, 변환 장치(120)는 도 9에 도시된 바와 같은 변환 문서 정보에 근거해 변환 메타데이터를 추출하거나 변환 메타데이터를 정의할 수 있다. 도 9는 본 발명의 실시 예에 따른 변환 메타데이터를 생성하기 위한 변환 문서 정보를 나타낸 도면이다. 도 9에 도시된 바와 같이, 변환 문서 정보는 문서 아이디, 문서번호, 기안일자, 기안시간, 기안자명, 문서분류, 문서분류코드, 제목, 결재 라인수, 결재 정보, 결재 파일수, 파일 정보 등을 포함한다.In addition, the conversion apparatus 120 can extract the conversion metadata or define the conversion metadata based on the conversion document information as shown in FIG. 9 is a diagram illustrating converted document information for generating conversion metadata according to an embodiment of the present invention. 9, the converted document information includes at least one of a document ID, a document number, a draft date, a draft time, a draftsman name, a document classification, a document classification code, a title, a number of approval lines, .

이어, 변환 장치(120)는 생성된 변환 메타데이터에 근거해 웹 서버(110)에 접속한다(S620).Then, the conversion apparatus 120 accesses the web server 110 based on the generated conversion metadata (S620).

즉, 접속부(202)가 변환 메타데이터에 근거해 웹 서버(110)에 존재하는 다수의 웹페이지 문서에 접속하는 것이다. 이때, 접속부(202)는 도 1c에 도시된 바와 같이, 웹페이지 문서를 보유하고 있는 URL 주소에 접속하거나, 웹페이지 문서에 해당하는 URL 주소(문서 ID가 포함된 주소)에 접속할 수 있다.That is, the connection unit 202 accesses a plurality of web page documents existing in the web server 110 based on the conversion metadata. At this time, as shown in FIG. 1C, the connection unit 202 can access a URL address holding a web page document or access a URL address (an address including a document ID) corresponding to a web page document.

또한, 접속부(202)는 온라인 접근 API(application programming interface)를 이용해 웹 서버(110)에 접속하거나, 웹 서버(110)에 게시되어 있는 일정 개수 이상의 웹페이지 문서에 접속할 수 있다. 또한 웹페이지 접근은 url, html, xml, xslt 등으로 접근이 가능하다.The connection unit 202 can access the web server 110 using an online access API (application programming interface) or access a predetermined number or more of web page documents posted on the web server 110. Web page access can also be accessed via url, html, xml, xslt, and so on.

이어, 변환 장치(120)에서 변환대상 추출부(204)는 다수의 웹페이지 문서에 대해 각 웹페이지 문서 별로 변환 대상을 추출한다(S630). 즉, 변환대상 추출부(204)는 도 1c에서 도시된 웹페이지 문서에 대한 HTML 문서에서 <iframe>, </iframe>, <tr>, <td> 등의 구분자가 있는 부분을 변환 대상으로 추출할 수 있다.Next, the conversion object extraction unit 204 in the conversion apparatus 120 extracts conversion objects for each web page document with respect to a plurality of web page documents (S630). That is, in the HTML document for the web page document shown in Fig. 1C, the conversion target extraction unit 204 extracts a portion having a delimiter such as <iframe>, </ iframe>, <tr>, <td> can do.

이어, 변환 장치(120)에서 변환문서 생성부(208)는 추출한 변환 대상을 변환 메타데이터에 근거해 다른 형태의 문서로 변환해 변환 문서를 생성한다(S640).Subsequently, in the conversion apparatus 120, the converted document generation unit 208 converts the extracted conversion target into another type of document based on the conversion metadata to generate a converted document (S640).

즉, 변환문서 생성부(208)는 변환 메타데이터에 근거해 각 웹페이지 문서 별로 예컨대, PDF 형태로 변환하여 변환 문서를 생성하는 것이다.In other words, the converted document generation unit 208 converts the converted metadata into, for example, PDF format for each Web page document based on the converted metadata to generate a converted document.

이때, 변환 장치(120)는 문서 변환에 대해 도 10에 도시된 바와 같이 병렬처리 프로세스를 이용하여 다수 개의 기능으로 나누어 처리할 수 있다. 도 10은 본 발명의 실시 예에 따른 웹페이지 문서를 병렬처리 프로세스를 이용하여 변환하는 예를 나타낸 도면이다. 도 10에 도시된 바와 같이, 예를 들면, 일정 개수 이상의 웹페이지 문서에 대한 접근 주소에서 전체 HTML 내용을 수집하는 쓰레드(Thread) 1과, 전체 HTML 내용에서 해당 변환 대상 영역의 HTML 내용을 추출하는 쓰레드(Thread) 2와, 첨부파일 유무에 따라 첨부 관련 주소를 추출하는 쓰레드(Thread) 3과, 변환 문서를 생성하는 쓰레드(Thread) 4와, 첨부 파일을 다운로드하는 쓰레드(Thread) 5와, 변환 문서와 첨부파일 및 메타데이터를 타시스템으로 이관하는 쓰레드(Thread) 6을 이용해 병렬 처리하여, 일정 개수 이상의 웹페이지 문서를 실시간으로 다른 형태의 문서로 변환할 수 있다.At this time, the conversion apparatus 120 can process the document conversion by dividing it into a plurality of functions by using a parallel processing process as shown in FIG. 10 is a diagram illustrating an example of converting a web page document according to an embodiment of the present invention using a parallel processing process. As shown in FIG. 10, for example, a thread 1 for collecting entire HTML contents from an access address for a predetermined number or more of web page documents, and a thread 1 for extracting HTML contents of the corresponding conversion object region from the entire HTML contents A thread 3 for extracting an attachment-related address according to the presence or absence of an attached file, a thread 4 for generating a converted document, a thread 5 for downloading an attached file, It is possible to convert a certain number of web page documents into other types of documents in real time by parallel processing using a thread 6 that transfers documents, attachments and metadata to other systems.

또한, 변환 장치(120)는 일정 개수 이상의 웹페이지에 파일이 첨부되어 있는 경우에, 다운로드 API를 이용해 해당 웹페이지에 첨부된 파일을 다운로드할 수 있다. 또한, 변환 장치(120)는 웹페이지 문서에 대해 이미지 및 글꼴 등을 포함하여 변환할 수 있다.In addition, when a file is attached to a predetermined number or more of web pages, the conversion device 120 can download a file attached to the web page using the download API. In addition, the conversion device 120 may convert images, fonts, and the like of the web page document.

또한, 변환 장치(120)는 일정 개수 이상의 웹페이지에 대한 문서 변환 시간과 결과를 로그(Log)로 기록할 수 있으며, 변환 메타데이터를 사용자의 선택에 따라 자바 스크립트(Java Script) 또는 스타일 시트의 표준(CSS:Cascading Style Sheet) 등으로 변환할 수 있다.In addition, the conversion device 120 can record a document conversion time and a result of a predetermined number or more of web pages in a log, and can convert the conversion metadata into a JavaScript or a style sheet Standard (CSS: Cascading Style Sheet) or the like.

그리고, 변환 장치(120)는 변환된 다른 형태의 문서에 워터마크(watermark)와 전자서명을 추가할 수 있는 기능을 제공할 수 있다.Then, the conversion apparatus 120 can provide a function of adding a watermark and an electronic signature to the converted document of another type.

이어, 변환 장치(120)에서 변환문서 처리부(210)는 생성된 변환 문서들을 데이터베이스(214)에 저장하거나 문서보관장치(130)에 전송하여 보관할 수 있다(S650).In step S650, the converted document processing unit 210 in the conversion apparatus 120 stores the generated converted documents in the database 214 or transmits the converted documents to the document storage apparatus 130 (S650).

즉, 변환 장치(120)는 PDF 등과 같이 변환된 다른 형태의 문서들을 도 11에 도시된 바와 같이 첨부파일과 함께 분류하여 로컬(Local) 내에 분류별로 저장하거나, 다른 형태의 문서들을 첨부파일과 함께 다른 장치(타시스템)로 전송해 줄 수 있다. 도 11은 본 발명의 실시 예에 따라 변환된 다른 형태의 문서들을 로컬에 저장하거나 다른 시스템으로 전송하여 보관하는 예를 나타낸 도면이다. 도 11에서, 변환 장치는 PC급 변환 시스템을 통해 변환된 문서들과 첨부파일을 분류하여 로컬에 저장하거나, FTP를 이용하여 신규 시스템의 웹서버로 전송할 수 있다. In other words, the conversion apparatus 120 classifies the converted other document such as PDF, together with the attached file as shown in FIG. 11, and classifies the converted document in the local, It can be transferred to another device (another system). FIG. 11 is a diagram illustrating an example in which other types of converted documents are stored locally or transferred to another system for storage according to an embodiment of the present invention. In FIG. 11, the conversion apparatus can classify converted documents and attached files through a PC-class conversion system and store the converted documents locally or transmit them to a web server of a new system using FTP.

이때, 변환 장치(120)는 변환된 다른 형태의 문서들을 도 10에 도시된 바와 같이 이관 프로세스를 이용하여 첨부파일이나 메타데이터 등과 함께 타시스템에 이관하여 보관할 수 있다.At this time, the conversion apparatus 120 can transfer the converted other types of documents to another system together with the attached file, metadata, and the like using the transfer process as shown in FIG.

따라서, 기존 웹서버 시스템에서 웹페이지 문서들을 변환하여 변환 시스템에 저장하여 보관하는 경우에, 도 12에 도시된 바와 같이 사용자들이 컴퓨터 단말기를 이용하여 변환 시스템에 접속함으로써 변환 시스템이 다양한 디바이스에 실시간으로 동일한 화면을 제공할 수 있다(시스템별 활용1). 도 12는 본 발명의 실시 예에 따라 웹페이지 문서를 다른 형태의 문서로 변환하여 저장하여 보관한 것을 다양한 디바이스에서 동일한 화면으로 제공하는 예를 나타낸 도면이다. Therefore, when web page documents are converted in an existing web server system and stored and stored in a conversion system, users can access the conversion system using a computer terminal as shown in FIG. 12, The same screen can be provided (system utilization 1). 12 is a diagram illustrating an example in which a web page document is converted into another type of document and stored and stored in the same screen in various devices according to an embodiment of the present invention.

또한, 변환 시스템에서 웹페이지 문서를 변환하여 신규 웹서버 시스템에 전송하여 보관하는 경우에도 도 12에 도시된 바와 같이 사용자들이 컴퓨터 단말기를 이용해 신규 웹서버 시스템에 접속함으로써, 신규 웹서버 시스템에서 다양한 디바이스에 실시간으로 동일한 화면을 제공할 수 있다(시스템별 활용2).Also, when converting a web page document in the conversion system and transferring it to a new web server system and storing it, users can access a new web server system using a computer terminal as shown in Fig. 12, The same screen can be provided in real time (system utilization 2).

그리고, 본 발명의 실시 예에 따른 변환 메타데이터를 데이터베이스(214)에 저장해 둠으로써, 이후에 해당 변환 메타데이터를 통해 각 웹페이지 문서들에 대한 변환 완료 상태를 확인하고, 변환에 에러가 발생된 문서를 확인할 수 있다. 따라서, 변환에 에러가 발생된 문서를 별도로 문서 변환하여 보관할 수 있다.By storing the conversion metadata according to the embodiment of the present invention in the database 214, it is possible to check the conversion completion status of each web page document through the conversion metadata, You can check the documentation. Therefore, a document in which an error occurs in conversion can be separately converted and stored.

전술한 바와 같이 본 발명에 의하면, 인터넷 웹페이지 상에 다양하게 게시되어 있는 대용량의 문서들에 접근하여, 사용자의 간단한 조작으로 대용량의 문서들을 PDF, html, xml, SVG, 이미지 등의 파일로 변환함으로써, 대용량의 웹 문서를 주기적으로 저장하여 보관할 수 있고, 시스템 교체에 따라 신규 시스템으로 이관하여 보관할 수 있으며, 기관이나 단체에 파일 리포트로 제출할 수 있도록 하는, 대용량 웹페이지 문서 변환 시스템 및 그 방법을 실현할 수 있다.As described above, according to the present invention, it is possible to access large-volume documents that are variously posted on an Internet web page, and convert large-capacity documents into files such as PDF, html, xml, SVG, A large-capacity web page document conversion system and method capable of storing and storing large-capacity web documents periodically, storing them in a new system according to system replacement, and allowing them to be submitted to a file report to an organization or organization Can be realized.

본 발명이 속하는 기술 분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있으므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the present invention as defined by the following claims and their equivalents. Only. It is intended that the present invention covers the modifications and variations of this invention provided they come within the scope of the appended claims and their equivalents. .

100, 300, 400, 500 : 웹페이지 문서 변환 시스템
110 : 웹서버
120 : 변환 장치
130 : 문서보관 장치
202 : 접속부
204 : 변환대상 추출부
206 : 제어부
208 : 변환문서 생성부
210 : 변환문서 처리부
212 : UI부
214 : DB
220 : PC용 변환 장치
230 : 개인 보관용 변환 장치
310 : 클라우드용 시스템
410 : 웹서버
510 : 신규 웹서버
100, 300, 400, 500: Web page document conversion system
110: Web server
120: conversion device
130: Document storage device
202: Connection
204: conversion target extraction unit
206:
208: Transform document generation unit
210: Transformed document processor
212: UI section
214: DB
220: Converter for PC
230: Personal storage converter
310: System for the cloud
410: Web server
510: New web server

Claims (20)

다수의 웹페이지 문서를 보유한 웹서버로부터 웹페이지 문서를 가져와 다른 형태의 문서로 변환하여 보관하는 웹페이지 문서 변환 시스템으로서,
상기 웹페이지 문서의 웹 주소, 아이디(ID), 문서 제목, 문서 종류를 포함하는 문서 정보에 근거해 변환 메타데이터를 생성하고, 생성된 변환 메타데이터에 근거해 상기 웹서버에 접속해 다수 개의 웹페이지 문서를 다른 형태의 문서들로 변환하는 변환 장치;
를 포함하는, 웹페이지 문서 변환 시스템.
A web page document conversion system for converting a web page document from a web server having a plurality of web page documents into another type of document,
The conversion metadata generating unit generates conversion metadata based on document information including a web address, an ID, a document title, and a document type of the web page document, accesses the web server based on the generated conversion metadata, A conversion device for converting the page document into other types of documents;
And the web page document conversion system.
제 1 항에 있어서,
상기 변환 장치는,
상기 웹페이지 문서에 접속하기 위한 접속부;
상기 웹페이지 문서로부터 변환 대상을 추출하는 변환대상 추출부;
상기 웹페이지 문서에 대한 정보에 근거해 변환 메타데이터를 생성하는 제어부;
상기 생성된 변환 메타데이터에 근거해 상기 다수 개의 웹페이지 문서를 다른 형태로 문서들로 변환하여 변환문서를 생성하는 변환문서 생성부; 및
상기 웹페이지 문서에 대한 정보와, 상기 생성된 변환 메타데이터 및 상기 생성된 변환문서가 저장되는 데이터베이스; 및
상기 생성된 변환문서를 문서보관장치에 전송하거나 상기 데이터베이스에 저장하는 변환문서 처리부;
를 포함하는, 웹페이지 문서 변환 시스템.
The method according to claim 1,
The conversion device includes:
A connection unit for connecting to the web page document;
A conversion object extraction unit that extracts a conversion object from the web page document;
A control unit for generating conversion metadata based on information on the web page document;
A converted document generation unit for generating a converted document by converting the plurality of web page documents into other documents based on the generated conversion metadata; And
A database storing information on the web page document, the generated conversion metadata, and the generated conversion document; And
A converted document processing unit for transmitting the generated converted document to a document storage device or storing the converted document in the database;
And the web page document conversion system.
제 2 항에 있어서,
상기 변환 메타데이터의 생성을 위해 사용자로부터 데이터를 입력받고, 입력받은 결과를 화면 상에 표시하기 위한 사용자 인터페이스부;
를 더 포함하는, 웹페이지 문서 변환 시스템.
3. The method of claim 2,
A user interface unit for receiving data from a user to generate the conversion metadata and displaying the input data on a screen;
The web page document conversion system.
제 3 항에 있어서,
상기 제어부는, 상기 데이터베이스로부터 상기 웹페이지 문서에 대한 정보를 가져오고, 상기 사용자 인터페이스부를 통해 사용자로부터 입력받은 데이터와 상기 문서 정보에 따라 상기 변환 메타데이터를 생성하는, 웹페이지 문서 변환 시스템.
The method of claim 3,
Wherein the control unit fetches information on the web page document from the database and generates the conversion metadata according to the data received from the user through the user interface unit and the document information.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 변환 메타데이터는, 상기 다수 개의 웹페이지 문서에 대한 접속 주소, 문서 아이디(ID), 문서 접근 타입(Type), 접근하는 화면 크기, 상기 변환문서들에 대한 저장 위치, 변환문서 여백, 변환문서 파일명, 변환문서 이관 여부 및 첨부파일 이관 여부를 포함하는, 웹페이지 문서 변환 시스템.
5. The method according to any one of claims 1 to 4,
The conversion metadata may include at least one of a connection address, a document ID, a type of a document access, a screen size to be accessed, a storage location of the converted documents, a converted document margin, A web page document conversion system including a file name, a conversion document transfer status, and an attachment transfer status.
제 5 항에 있어서,
상기 변환 메타데이터를 생성할 때, 상기 제어부는 상기 변환문서 파일명에 대해 상기 다수 개의 웹페이지 문서에서 각 웹페이지 문서의 문서 종류와 문서 제목에 따라 구분되는 각각의 변환문서 파일명을 생성하는, 웹페이지 문서 변환 시스템.
6. The method of claim 5,
Wherein the control unit generates a conversion document file name for each of the plurality of web page documents, the conversion document file name being generated based on a document type and a document title of each web page document, Document conversion system.
제 5 항에 있어서,
상기 변환문서 파일명은, 상기 웹페이지 문서의 문서 종류와 문서 아이디(ID)를 포함하는, 웹페이지 문서 변환 시스템.
6. The method of claim 5,
Wherein the converted document file name includes a document type and a document ID of the web page document.
제 1 항에 있어서,
상기 변환 장치는,
상기 다수 개의 웹페이지 문서를 다른 형태의 문서로 변환할 때, 상기 다수 개의 웹페이지 문서에 대한 접근 주소에서 전체 HTML 내용을 수집하는 쓰레드(Thread)와, 해당 영역 HTML 내용을 추출하는 쓰레드와, 첨부파일 유무에 따라 첨부파일 관련 주소를 추출하는 쓰레드와, 변환 문서를 생성하는 쓰레드와, 첨부 파일을 다운로드하는 쓰레드와, 변환 문서와 첨부파일 및 메타데이터를 타시스템으로 이관하는 쓰레드를 이용해 병렬 처리하여, 상기 다수 개의 웹페이지 문서를 다른 형태의 문서로 변환하여 저장 또는 문서보관장치에 전송하는, 웹페이지 문서 변환 시스템.
The method according to claim 1,
The conversion device includes:
A thread for collecting the entire HTML content from the access address of the plurality of web page documents when converting the plurality of web page documents into another type of document, a thread for extracting the HTML content of the corresponding area, Depending on the presence or absence of the file, a thread for extracting the address related to the attachment file, a thread for generating the converted document, a thread for downloading the attachment file, and a thread for transferring the converted document, And converting the plurality of web page documents into another type of document and transmitting the same to a storage or document storage device.
제 1 항에 있어서,
상기 변환 장치는,
상기 일정 개수 이상의 웹페이지 문서에 온라인 접근 API(application programming interface)를 이용해 접근하고, 상기 웹페이지 문서에 첨부된 첨부파일을 다운로드 API를 이용해 다운로드하며,
상기 다수 개의 웹페이지 문서에 대한 문서 변환 시간과 결과를 로그(Log)로 기록하며,
상기 변환 메타데이터를 자바 스크립트(Java Script)와 스타일 시트의 표준(CSS:Cascading Style Sheet)으로 변환하며,
상기 변환된 다른 형태의 문서에 워터마크(watermark)와 전자서명을 추가하는 기능을 제공하는, 웹페이지 문서 변환 시스템.
The method according to claim 1,
The conversion device includes:
Accessing the predetermined number or more of web page documents by using an online access API (application programming interface), downloading attached files attached to the web page document by using a download API,
A document conversion time and a result of the plurality of web page documents are recorded in a log,
Converts the transformation metadata into JavaScript (Cascading Style Sheet) and JavaScript (CSS)
And providing a function of adding a watermark and an electronic signature to the converted other type of document.
일정 개수 이상의 웹페이지 문서를 보유한 웹서버; 및
상기 일정 개수 이상의 웹페이지 문서에 대한 정보에 근거해 변환 메타데이터를 생성하고, 생성된 변환 메타데이터에 근거해 상기 일정 개수 이상의 웹페이지 문서를 다른 형태의 문서로 변환하는 변환 프로그램;
을 포함하는 웹페이지 문서 변환 시스템.
A web server having a predetermined number or more of web page documents; And
A conversion program for generating conversion metadata based on the information on the predetermined number or more of web page documents and converting the predetermined number or more of web page documents into other types of documents based on the generated conversion metadata;
And a web page document conversion system.
제 10 항에 있어서,
상기 변환 프로그램을 통해 변환된 다른 형태의 문서들을 저장하여 보관하는 문서보관장치;
를 더 포함하는, 웹페이지 문서 변환 시스템.
11. The method of claim 10,
A document storage device for storing and storing other types of documents converted through the conversion program;
The web page document conversion system.
제 11 항에 있어서,
상기 변환 프로그램은, 상기 웹서버에 설치되거나, 상기 문서보관 장치에 설치된 웹페이지 문서 변환 시스템.
12. The method of claim 11,
Wherein the conversion program is installed in the web server or installed in the document storage device.
제 11 항에 있어서,
상기 변환 프로그램은,
상기 일정 개수 이상의 웹페이지 문서를 다른 형태의 문서로 변환할 때, 상기 일정 개수 이상의 웹페이지 문서에 대한 접근 주소에서 전체 HTML 내용을 수집하는 쓰레드(Thread)와, 해당 변환 대상 영역의 HTML 내용을 추출하는 쓰레드와, 첨부파일 유무에 따라 첨부파일 관련 주소를 추출하는 쓰레드와, 변환 문서를 생성하는 쓰레드와, 첨부 파일을 다운로드하는 쓰레드와, 변환 문서와 첨부파일 및 메타데이터를 타시스템으로 이관하는 쓰레드를 이용해 병렬 처리하여, 상기 일정 개수 이상의 웹페이지를 다른 형태의 문서로 변환하여 저장 또는 상기 문서보관장치에 전송하는, 웹페이지 문서 변환 시스템.
12. The method of claim 11,
Wherein the conversion program comprises:
A thread for collecting the entire HTML content from the access address of the predetermined number or more of the web page documents when converting the predetermined number or more of the web page documents into other types of documents, A thread that extracts an attachment-related address, a thread that generates a conversion document, a thread that downloads an attachment, a thread that transfers a conversion document, an attachment, and metadata to another system And converting the predetermined number or more of web pages into other types of documents and storing the converted web pages or transmitting them to the document storage device.
제 10 항에 있어서,
상기 변환 프로그램은,
상기 일정 개수 이상의 웹페이지 문서에 온라인 접근 API(application programming interface)를 이용해 접근하고, 상기 웹페이지 문서에 첨부된 첨부파일을 다운로드 API를 이용해 다운로드하며,
상기 일정 개수 이상의 웹페이지 문서에 대한 문서 변환 시간과 결과를 로그(Log)로 기록하며,
상기 변환 메타데이터를 자바 스크립트(Java Script)와 스타일 시트의 표준(CSS:Cascading Style Sheet)으로 변환하며,
상기 변환된 다른 형태의 문서에 워터마크(watermark)와 전자서명을 추가하는 기능을 제공하는, 웹페이지 문서 변환 시스템.
11. The method of claim 10,
Wherein the conversion program comprises:
Accessing the predetermined number or more of web page documents by using an online access API (application programming interface), downloading attached files attached to the web page document by using a download API,
And records a document conversion time and a result of the predetermined number or more of web page documents in a log,
Converts the transformation metadata into JavaScript (Cascading Style Sheet) and JavaScript (CSS)
And providing a function of adding a watermark and an electronic signature to the converted other type of document.
다수의 웹페이지 문서를 다른 형태의 문서로 변환하는 변환 장치의 웹페이지 문서 변환 방법으로서,
(a) 제어부가 상기 웹페이지 문서의 웹 주소, 아이디(ID), 문서 제목, 문서 종류를 포함하는 문서 정보에 근거해 변환 메타데이터를 생성하는 단계;
(b) 접속부가 상기 생성된 변환 메타데이터에 근거해 상기 다수의 웹페이지 문서에 접속하는 단계;
(c) 변환대상 추출부가 상기 다수의 웹페이지 문서에 대해, 각 웹페이지 문서 별로 변환 대상을 추출하는 단계;
(d) 변환문서 생성부가 상기 변환 메타데이터에 근거해 상기 추출된 변환 대상을 다른 형태의 문서로 변환하여 변환 문서를 생성하는 단계; 및
(e) 변환문서 처리부가 상기 생성된 변환 문서들을 데이터베이스에 저장하거나 또는 문서보관장치에 전송하는 단계;
를 포함하는, 웹페이지 문서 변환 방법.
A web page document conversion method of a conversion apparatus for converting a plurality of web page documents into other types of documents,
(a) generating a conversion metadata based on document information including a web address, an ID, a document title, and a document type of the web page document;
(b) connecting to the plurality of web page documents based on the generated conversion metadata;
(c) extracting a conversion object for each of the plurality of web page documents for each web page document;
(d) a transformed document generating unit converts the extracted transformed object into another type of document based on the transformed metadata to generate a transformed document; And
(e) the converted document processing unit stores the generated converted documents in a database or transmits them to a document storage device;
And converting the web page into a web page.
제 15 항에 있어서,
상기 (a) 단계에서 상기 제어부는, 상기 문서 정보가 저장되어 있는 데이터베이스로부터 상기 문서 정보를 가져오고, 사용자 인터페이스부를 통해 사용자로부터 입력받은 데이터와 상기 문서 정보에 따라 상기 변환 메타데이터를 생성하는, 웹페이지 문서 변환 방법.
16. The method of claim 15,
In the step (a), the control unit may acquire the document information from the database in which the document information is stored, generate the conversion metadata according to the data received from the user through the user interface unit and the conversion information, How to convert a page document.
제 15 항에 있어서,
상기 변환 메타데이터는, 상기 다수의 웹페이지 문서에 대한 접속 주소, 문서 아이디(ID), 문서 접근 타입(Type), 접근하는 화면 크기, 상기 변환된 다른 형태의 문서들에 대한 저장 위치, 변환문서 파일명, 변환문서 여백, 변환문서 이관 여부 및 첨부파일 이관 여부를 포함하는, 웹페이지 문서 변환 방법.
16. The method of claim 15,
The conversion metadata may include at least one of a connection address, a document ID, a document access type, a screen size to be accessed, a storage location for the converted other types of documents, A method of converting a web page document, the file name including a translation document margins, a conversion document migration status, and an attachment file migration status.
제 17 항에 있어서,
상기 (a) 단계에서 상기 제어부는, 상기 변환 메타데이터를 생성할 때, 상기 변환문서 파일명에 대해 상기 다수의 웹페이지 문서에서 각 웹페이지 문서의 문서 종류와 문서 제목에 따라 구분되는 각각의 변환문서 파일명을 생성하는, 웹페이지 문서 변환 방법.
18. The method of claim 17,
In the step (a), when generating the conversion metadata, the control unit may convert the conversion document file name into a conversion document, which is classified according to a document type and a document title of each web page document in the plurality of web page documents, A web page document conversion method for generating a file name.
제 17 항에 있어서,
상기 변환문서 파일명은, 상기 웹페이지 문서의 문서 종류와 문서 아이디(ID)를 포함하는, 웹페이지 문서 변환 방법.
18. The method of claim 17,
Wherein the converted document file name includes a document type and a document ID of the web page document.
제 15 항에 있어서,
상기 (c) 단계는, 상기 다수의 웹페이지 문서에 대한 접근 주소에서 전체 HTML 내용을 수집하는 쓰레드(Thread)와, 해당 변환대상 영역의 HTML 내용을 추출하는 쓰레드와, 첨부파일 유무에 따라 첨부파일 관련 주소를 추출하는 쓰레드와, 변환 문서를 생성하는 쓰레드와, 첨부 파일을 다운로드하는 쓰레드와, 변환 문서와 첨부파일 및 메타데이터를 타시스템으로 이관하는 쓰레드를 이용해 병렬 처리하여, 상기 다수의 웹페이지 문서를 다른 형태의 문서로 변환하여 저장 또는 상기 문서보관장치에 전송하는, 웹페이지 문서 변환 방법.
16. The method of claim 15,
The step (c) includes: a thread for collecting the entire HTML content from the access address of the plurality of web page documents; a thread for extracting the HTML content of the corresponding conversion target area; A thread for extracting a related address, a thread for generating a converted document, a thread for downloading an attached file, and a thread for transferring a converted document, an attached file, and metadata to another system, Converting the document into another type of document and storing the document or transmitting the document to the document storage device.
KR1020170122090A 2017-09-21 2017-09-21 Mass webpage document transforming method, and system thereof KR101975111B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170122090A KR101975111B1 (en) 2017-09-21 2017-09-21 Mass webpage document transforming method, and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170122090A KR101975111B1 (en) 2017-09-21 2017-09-21 Mass webpage document transforming method, and system thereof

Publications (2)

Publication Number Publication Date
KR20190033381A true KR20190033381A (en) 2019-03-29
KR101975111B1 KR101975111B1 (en) 2019-05-03

Family

ID=65898979

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170122090A KR101975111B1 (en) 2017-09-21 2017-09-21 Mass webpage document transforming method, and system thereof

Country Status (1)

Country Link
KR (1) KR101975111B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102049455B1 (en) * 2019-05-31 2019-11-27 대한민국 System and method for transferring massive electronic document based on digital forensic
KR102634016B1 (en) * 2022-12-26 2024-02-06 주식회사 아브로소프트코리아 Web based digital twin service method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020023545A (en) 2000-09-22 2002-03-29 정창우 Web-page converter and method for mobile web clients considering user access pattern
KR20110119091A (en) * 2010-04-26 2011-11-02 (주)휴먼토크 System providing intergrated viewer

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020023545A (en) 2000-09-22 2002-03-29 정창우 Web-page converter and method for mobile web clients considering user access pattern
KR20110119091A (en) * 2010-04-26 2011-11-02 (주)휴먼토크 System providing intergrated viewer

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102049455B1 (en) * 2019-05-31 2019-11-27 대한민국 System and method for transferring massive electronic document based on digital forensic
KR102634016B1 (en) * 2022-12-26 2024-02-06 주식회사 아브로소프트코리아 Web based digital twin service method

Also Published As

Publication number Publication date
KR101975111B1 (en) 2019-05-03

Similar Documents

Publication Publication Date Title
US10353999B2 (en) Information processing system, server apparatus, control method, and storage medium
US10437907B2 (en) Link expansion service
CN1801149B (en) Systems and methods for converting a formatted document to a web page
US8042036B1 (en) Generation of a URL containing a beginning and an ending point of a selected mark-up language document portion
KR101740071B1 (en) Utilizing server pre-processing to deploy renditions of electronic documents in a computer network
US20120050793A1 (en) Network printing system, client terminal, and printing method
US11275890B2 (en) Method and system for stashing of document alteration information for quicker web preview
US10178248B2 (en) Computing device for generating a document by combining content data with form data
CN102200976A (en) Customizing system and method for converting desktop application into network application
US8706778B2 (en) Methods and systems for an action-based interface for files and other assets
KR20060101803A (en) Creating and active viewing method for an electronic document
US20090100023A1 (en) Information processing apparatus and computer readable information recording medium
JP2018037746A (en) Information processing system, information processor, and information processing method
KR101975111B1 (en) Mass webpage document transforming method, and system thereof
US7904570B1 (en) Configurable file placement
KR102013620B1 (en) Web based document editing server for changing template of web based document and operating method thereof
JP2005100319A (en) Data display system, data output device, image forming apparatus, data display device, and data display program
US8127219B1 (en) Printing and rendering hyperlink destinations
JP2010282587A (en) Mash up program, mash up device, and mash up method
US8170270B2 (en) Universal reader
JP2010113730A (en) Search server and computer program
JP2009026013A (en) Content registration/provision device, content registration/provision control method, and content registration/provision control program
JP2006343976A (en) Method for providing electronic form and electronic form server device
US20230306189A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
US20230305995A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right