KR20210000916A - Retention period recommendation system and method using RNN of records - Google Patents

Retention period recommendation system and method using RNN of records Download PDF

Info

Publication number
KR20210000916A
KR20210000916A KR1020190076183A KR20190076183A KR20210000916A KR 20210000916 A KR20210000916 A KR 20210000916A KR 1020190076183 A KR1020190076183 A KR 1020190076183A KR 20190076183 A KR20190076183 A KR 20190076183A KR 20210000916 A KR20210000916 A KR 20210000916A
Authority
KR
South Korea
Prior art keywords
data
learning
retention period
information
record
Prior art date
Application number
KR1020190076183A
Other languages
Korean (ko)
Other versions
KR102255035B1 (en
Inventor
정일영
최재교
Original Assignee
주식회사 코이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코이션 filed Critical 주식회사 코이션
Priority to KR1020190076183A priority Critical patent/KR102255035B1/en
Publication of KR20210000916A publication Critical patent/KR20210000916A/en
Application granted granted Critical
Publication of KR102255035B1 publication Critical patent/KR102255035B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

The present invention relates to a record retention period recommendation system using a recurrent neural network technique and to a recommendation method thereof. More specifically, in generating the retention period for public records of public institutions or records of private companies, deep learning training can be applied to quickly recommend the retention period, and the reliability of the recommended retention period can be improved in the record retention period recommendation system using recurrent neural network technology and the recommendation method thereof. The system includes: a learning data input unit; a data preprocessing unit; a deep learning training unit; a new data input unit; and a retention period management unit.

Description

순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법 {Retention period recommendation system and method using RNN of records}Retention period recommendation system and method using RNN of records}

본 발명은 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법에 관한 것으로, 더욱 상세하게는 공공기관의 공공기록물 또는, 민간기업의 기록물들에 대한 보존기간을 생성함에 있어서, 딥러닝 학습을 적용하여 보존기간을 신속하게 추천할 수 있으면서도, 추천한 보존기간에 대한 신뢰성을 높일 수 있는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법에 관한 것이다.The present invention relates to a system for recommending a record retention period using a recurrent artificial neural network technology and a method for recommending the same, and more particularly, in creating a retention period for public records of public institutions or records of private companies, deep learning learning The present invention relates to a system for recommending the retention period of records using a recurrent artificial neural network technology that can quickly recommend the retention period by applying the system and improve the reliability of the recommended retention period, and a method for recommending the same.

일반적으로, 국민은 법률에 의거하여 공공기관의 기록물들에 대한 정보공개를 청구할 권리를 가지며, 공공기관은 국민생활에 영향을 미치는 정책정보 등에 대해서는 국민의 청구가 없더라도 공개의 범위, 주기, 사기, 방법 등을 미리 정하여 공표하고 정기적으로 공개해야 할 의무가 있다.In general, the public has the right to request the disclosure of information on the records of public institutions in accordance with the law, and public institutions have the scope, frequency, and fraud of disclosure even if there is no request from the public for policy information that affects public life. It is obligated to pre-determine, publish, and disclose regularly.

공공기관의 기록물 관리에 관한 법률 시행령 제26조(보존기간)에 따르면, 영구, 준영구, 30년, 10년, 5년, 3년, 1년 등 7종으로 구분하고 있으며, 어떤 기록이냐에 따라 보존기간에 차이가 발생하게 된다.According to Article 26 (Retention Period) of the Enforcement Decree of the Record Management Act of Public Institutions, it is classified into 7 types: permanent, semi-permanent, 30 years, 10 years, 5 years, 3 years, and 1 year. Accordingly, there is a difference in the retention period.

이러한 기록물을 관리하는 관리자는 기록물의 목록을 작성하고, 기록물 별로 메타데이터를 작성하여 시스템 상에 저장하는 것이 일반적이다. 특히, 기록물의 메타데이터 중 보존기간 등의 설정은 관리자의 판단에 의해 보존기간이 설정되기 때문에, 관리자가 다량의 기록물을 처리할 경우, 보존기관의 설정하는 과정에서의 인적오류가 발생할 가능성이 매우 높게 된다.It is common for a manager who manages such records to create a list of records, create metadata for each record, and store them on the system. In particular, since the retention period is set at the discretion of the manager in the setting of the retention period among the metadata of records, if the manager processes a large amount of records, there is a very high possibility of human error in the process of setting the retention agency. It becomes high.

물론, 국가기록원에서 기록물 색인정보를 공개하고 있어, 공개된 기록물 색인정보 중 보존기간 관련 정보들은 각 기록물 담당자의 주관적 판단의 결과의 결과로 상당 부분 일관성이 결여되어 있기 때문에, 이를 이용하여 기계학습을 통해 신규 기록물들에 대한 보존기간 추측이 이루어지더라도 수집되는 자료에 대한 전처리 과정이 이루어지지 않고 있어 결과값의 신뢰도가 낮은 문제점이 있다. Of course, since the National Archives of Records discloses the index information of records, the information related to the retention period among the published index information of records is largely inconsistent as a result of the subjective judgment of the person in charge of the records. Even if the preservation period for new records is estimated through this, there is a problem that the reliability of the result value is low because the pre-processing process for the collected data is not performed.

이와 관련해서, 국내등록특허 제10-1887629호("자연어기반 정보공개분류시스템")에서는 정보공개분류를 위한 학습모델을 생성하고 공개분류대상 기록물을 적용하여 자연어처리를 통한 의미분석을 수행함으로써, 공개분류대상 기록물을 자동으로 공개, 비공개 및 부분공개 중 하나로 분류하여 제공하고 있다.In this regard, in Korean Patent Registration No. 10-1887629 ("Natural Language-Based Information Disclosure Classification System"), a learning model for information disclosure classification is created, and semantic analysis through natural language processing is performed by applying records subject to disclosure classification, Records subject to public classification are automatically classified into one of public, non-public, and partial disclosure.

국내등록특허 제10-1887629호(등록일 2018.08.06.)Domestic Registration Patent No. 10-1887629 (Registration Date 2018.08.06.)

본 발명은 상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 공공기관의 공공기록물 또는, 민간기업의 기록물들에 대한 보존기간을 생성함에 있어서, 딥러닝 학습을 적용하기 앞서서 학습 데이터에 대한 전처리를 수행함으로써, 학습 데이터의 유의미성 및 정확성을 높여 산출 결과(보존기간의 추천)의 신뢰성을 향상시킬 수 있는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법을 제공하는 것이다.The present invention was conceived to solve the problems of the prior art as described above, and in creating a retention period for public records of public institutions or records of private companies, prior to applying deep learning learning, learning data It is to provide a system for recommending a record retention period using a recurrent artificial neural network technology that can improve the reliability of a calculation result (recommendation of a retention period) by increasing the significance and accuracy of learning data by performing pre-processing for the training data and a method for recommending the same.

본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템은, 기연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 학습 데이터 입력부(100), 텍스트 마이닝을 통해 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리부(200), 기설정된 딥러닝 기법을 이용하여, 상기 데이터 전처리부(200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습부(300), 상기 딥러닝 학습부(300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리부(400), 외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력부(500) 및 상기 데이터 관리부(400)의 기준 데이터들과 상기 신규 데이터 입력부(500의 신규 데이터를 매핑시켜 비교하여, 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 관리부(600)를 포함하여 구성되는 것이 바람직하다.The system for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention includes a learning data input unit 100 receiving training data for learning from previously linked records information related databases, and the text mining. Data for analyzing the frequency of appearance of each morpheme by extracting specific information included in the learning data received from the learning data input unit 100, removing duplicate data, and performing morpheme analysis on the extracted specific information The preprocessing unit 200, a deep learning learning unit 300 that performs learning by receiving one or more specific morphemes based on the frequency of appearance analyzed by the data preprocessing unit 200 using a preset deep learning technique, Using the learning result of the deep learning learning unit 300, a data management unit 400 that generates reference data of the type of retention period for the records, and receives new data related to record information for setting the retention period from the outside. A retention period management unit 600 that maps and compares the reference data of the data input unit 500 and the data management unit 400 with the new data of the new data input unit 500, and recommends the most optimal retention period for the new data. It is preferable to be configured to include.

더 나아가, 상기 딥러닝 학습부(300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것이 바람직하다.Furthermore, it is preferable that the deep learning learning unit 300 uses a Recurrent Neural Networks (RNN) technique to which a Long Short Term Memory (LSTM) method is applied.

더 나아가, 상기 데이터 전처리부(200)는 상기 학습 데이터에 포함되어 있는 정보들 중 관리부서명 정보 또는 문서명 정보를 추출하고 중복 데이터를 제거한 후, 추출한 정보들에 대한 형태소 분리 분석을 수행하여, 각각의 형태소에 대한 출현빈도수를 분석하여 오름차순 정렬을 수행하는 것이 바람직하다.Further, the data preprocessing unit 200 extracts the management department signature information or document name information from among the information included in the learning data, removes duplicate data, and performs morpheme separation analysis on the extracted information, It is desirable to perform ascending sorting by analyzing the frequency of appearance of morphemes.

더 나아가, 상기 딥러닝 학습부(300)는 상기 데이터 전처리부(200)로부터 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM(Long Short Term Memory) 방식을 적용하여 학습을 수행하는 것이 바람직하다.Furthermore, the deep learning learning unit 300 receives morphemes within a preset frequency ranking order from the data preprocessor 200, generates an embedding layer, converts the received data, and then converts the input data into each of the hidden layers. It is desirable to perform learning by applying the LSTM (Long Short Term Memory) method to the node of.

본 발명의 또다른 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법은, 학습 데이터 입력부에서, 기연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 학습 데이터 입력단계(S100), 데이터 전처리부에서, 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리단계(S200), 딥러닝 학습부에서, 기설정된 딥러닝 기법을 이용하여 상기 데이터 전처리단계(S200)에 의해 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습단계(S300), 데이터 관리부에서, 상기 딥러닝 학습단계(S300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리단계(S400), 신규 데이터 입력부에서, 외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력단계(S500) 및 보존기간 관리부에서, 상기 데이터 관리단계(S400)에 의해 생성한 상기 기준 데이터들과 상기 신규 데이터 입력단계(S500)에 의해 입력받은 상기 신규 데이터를 매핑시켜 비교하여, 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 추천단계(S600)로 이루어지는 것이 바람직하다.According to another embodiment of the present invention, a method for recommending a record retention period using a recurrent artificial neural network technology is a learning data input step of receiving training data for learning from previously linked records information related databases in the training data input unit ( S100), in the data preprocessor, extracts specific information included in the learning data input by the learning data input step (S100), removes redundant data, and performs morpheme analysis on the extracted specific information Data preprocessing step (S200) analyzing the frequency of appearance for each morpheme, in the deep learning learning unit, one or more specific characteristics based on the frequency of appearance analyzed by the data preprocessing step (S200) using a preset deep learning technique. Deep learning learning step (S300) of receiving morphemes and performing learning, data management in which the data management unit generates reference data of the type of retention period for records using the learning result of the deep learning learning step (S300) Step (S400), in the new data input unit, a new data input step (S500) of receiving new data related to record information for setting the retention period from the outside, and in the retention period management unit, generated by the data management step (S400) It is preferable to perform a retention period recommendation step (S600) of mapping and comparing the reference data with the new data input by the new data input step (S500), and recommending the most optimal retention period for the new data. .

더 나아가, 상기 데이터 전처리단계(S200)는 상기 학습 데이터에 포함되어 있는 정보들 중 관리부서명 정보 또는 문서명 정보를 추출하고 중복 데이터를 제거한 후, 추출한 정보들에 대한 형태소 분리 분석을 수행하여, 각각의 형태소에 대한 출현빈도수를 분석하여 오름차순 정렬을 수행하는 것이 바람직하다.Furthermore, the data pre-processing step (S200) extracts the management department signature information or document name information from among the information included in the learning data, removes the redundant data, and performs morpheme separation analysis on the extracted information. It is desirable to perform ascending sorting by analyzing the frequency of appearance of morphemes.

더 나아가, 상기 딥러닝 학습단계(S300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하되, 상기 데이터 전처리단계(S200)에 의해 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM 방식을 적용하여 학습을 수행하는것이 바람직하다.Further, in the deep learning learning step (S300), the RNN (Recurrent Neural Networks) technique applied with the LSTM (Long Short Term Memory) method is used, but the morphemes within the frequency rank preset by the data preprocessing step (S200) are It is desirable to perform learning by applying the LSTM method to each node of the hidden layer after receiving the input and transforming the input data by creating an embedding layer.

상기와 같은 구성에 의한 본 발명의 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법은 공공기관의 공공기록물 또는, 민간기업의 기록물들에 대한 보존기간을 생성함에 있어서, 딥러닝 학습을 적용하기 앞서서 학습 데이터에 대한 전처리를 수행함으로써, 학습 데이터의 유의미성 및 정확성을 높여 산출 결과(보존기간의 추천/유추)의 신뢰성을 향상시킬 수 있는 장점이 있다.The system for recommending the retention period of records using the recurrent artificial neural network technology of the present invention and the method for recommending the recordings according to the configuration as described above enables deep learning learning in creating a retention period for public records of public institutions or records of private companies. By performing pre-processing on the learning data prior to application, there is an advantage of improving the reliability of the calculation result (recommendation/inference of the retention period) by increasing the significance and accuracy of the learning data.

도 1은 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 나타낸 순서도이다. 통계 분석을 수행한 결과 데이터를 디스플레이한 실시예이다.
1 is a diagram showing a system for recommending a recording retention period using a recurrent artificial neural network technology according to an embodiment of the present invention.
2 is a flowchart illustrating a method of recommending a recording retention period using a recurrent artificial neural network technology according to an embodiment of the present invention. This is an example in which statistical analysis is performed and data is displayed.

이하 첨부한 도면들을 참조하여 본 발명의 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법을 상세히 설명한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다.Hereinafter, a system for recommending a record retention period using a recurrent artificial neural network technology of the present invention and a method for recommending the same will be described in detail with reference to the accompanying drawings. The drawings introduced below are provided as examples in order to sufficiently convey the spirit of the present invention to those skilled in the art. Accordingly, the present invention is not limited to the drawings presented below and may be embodied in other forms. In addition, the same reference numbers throughout the specification indicate the same elements.

이 때, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다.In this case, unless there are other definitions in the technical terms and scientific terms used, they have the meanings commonly understood by those of ordinary skill in the art to which this invention belongs, and the gist of the present invention in the following description and accompanying drawings Descriptions of known functions and configurations that may unnecessarily obscure are omitted.

더불어, 시스템은 필요한 기능을 수행하기 위하여 조직화되고 규칙적으로 상호 작용하는 장치, 기구 및 수단 등을 포함하는 구성 요소들의 집합을 의미한다.In addition, the system refers to a set of components including devices, devices, and means that are organized and regularly interact to perform a required function.

본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법은 딥러닝 기술의 적용을 통한 기록물들의 보존기간을 유추할 수 있는 기술이다.A system for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention, and a method for recommending the same, is a technology capable of inferring the retention period of records through the application of a deep learning technique.

현재 수작업에 의존하고 있는 공공기관 또는 민간기업의 기록물 처리 중 보존기간 생성 작업에 있어서, 각 기록물 담당자의 주관적 판단의 결과로 이루어지기 때문에, 그 신뢰성이나 일관성에 대한 문제점이 대두되고 있는 실정이다.In the case of the creation of the retention period during the processing of records by public institutions or private companies that are currently dependent on manual work, problems with reliability and consistency are emerging as the result of the subjective judgment of each record manager.

그렇기 때문에, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법을 통해서, 기록물 중 특정 정보를 추출하고, 추출한 특정 정보들에 대한 형태소 분리 분석을 통해서, 유의미성을 향상시킴과 동시에, 딥러닝 기술을 적용하여 산출결과(보존기간 추천)의 신뢰성/정확성을 향상시킬 수 있는 장점이 있다.Therefore, through the record retention period recommendation system and the recommendation method using the recurrent artificial neural network technology according to an embodiment of the present invention, specific information is extracted from the records, and through morpheme separation analysis of the extracted specific information, significance At the same time, it has the advantage of improving the reliability/accuracy of the calculation result (recommended retention period) by applying deep learning technology.

도 1은 이러한 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 나타낸 구성도로서, 도 1을 참조로 하여 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 상세히 설명한다.FIG. 1 is a configuration diagram showing a system for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention. Referring to FIG. 1, a record using a recurrent artificial neural network technology according to an embodiment of the present invention The retention period recommendation system will be described in detail.

본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템은 도 1에 도시된 바와 같이, 학습 데이터 입력부(100), 데이터 전처리부(200), 딥러닝 학습부(300), 데이터 관리부(400), 신규 데이터 입력부(500), 보존기간 관리부(600)를 포함하여 구성되는 것이 바람직하다.As shown in FIG. 1, a system for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention includes a learning data input unit 100, a data preprocessor 200, a deep learning learning unit 300, It is preferable to include a data management unit 400, a new data input unit 500, and a retention period management unit 600.

각 구성에 대해서 자세히 알아보자면,To learn more about each configuration,

상기 학습 데이터 입력부(100)는 미리 연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.It is preferable that the learning data input unit 100 receives learning data for learning from databases related to recorded material information linked in advance.

상세하게는, 국가기록원이 공개하고 있는 공공기록물의 목록 데이터베이스, 정보공개법 데이터베이스, 전자서명법 데이터베이스, 공공기록물의 관리에 관한 법률 데이터베이스, 기록관리분류기준표 데이터베이스, 보존기간이 이미 설정된 기록물 데이터베이스 등과 연계되어, 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.Specifically, the National Archives of Records is linked to a database of public records, a database of the Information Disclosure Act, a database of the Electronic Signature Act, a database of laws on the management of public records, a database of records management classification standards, a database of records with a preservation period set, It is desirable to receive learning data for learning.

상기 데이터 전처리부(200)는 텍스트 마이닝(text mining)을 통해 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거하는 것이 바람직하다.It is preferable that the data preprocessor 200 extracts specific information included in the training data received from the training data input unit 100 through text mining and removes redundant data.

즉, 상기 데이터 전처리부(200)는 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터, 다시 말하자면, 기록물 관련 정보들은 메타데이터로 처리과 기관코드, 단위업무코드, 생산년도, 개록물철등록 일련번호, 권호수, 기록물 철제목, 기록물형태, 내용 요약, 기록물쪽수, 기록물등록건수, 전자파일 개수, 기록물 구분, 수정여부, 구기록물철생산기관명, 구기록물철 분류번호, 시작년도, 종료년도, 비치종결일자, 비치사유, 보존기간, 보존방법, 보존장소, 업무 담당자면, 인수인계구분 등을 포함하고 있어, 텍스트 마이닝을 통해서 이들 중 상기 데이터 전처리부(200)에서 의미있는 정보로 설정하고 있는 생산년도 정보, 관리부서명 정보, 문서명 정보 또는 보존기간 중 적어도 하나 이상을 추출하는 것이 바람직하다. 뿐만 아니라, 다수의 데이터베이스에 중복하여 저장되어 있어 중복하여 입력된 데이터들을 제거하는 것이 바람직하다.That is, the data preprocessing unit 200 processes the learning data received from the learning data input unit 100, that is, records-related information as metadata, an institution code, a unit work code, a year of production, and a serial number for registration. , Number of books, title of record, type of record, summary of contents, number of pages of record, number of records registered, number of electronic files, record classification, whether or not to modify, name of old record type production institution, old record type number, start year, end year, end of installation The production year that is set as meaningful information by the data preprocessing unit 200 among them, including the date, reason for non-preservation, preservation period, preservation method, preservation location, business person in charge, and handover category. It is desirable to extract at least one of information, management department name information, document name information, or retention period. In addition, it is desirable to remove duplicate input data since it is stored in multiple databases.

이 후, 상기 데이터 전처리부(200)는 추출한 상기 특정 정보, 다시 말하자면, 생산년도 정보, 관리부서명 정보, 문서명 정보 또는 보존기간들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 것이 바람직하다.Thereafter, the data preprocessor 200 analyzes the frequency of appearance of each morpheme by performing morpheme analysis on the extracted specific information, that is, production year information, management department name information, document name information, or retention periods. It is desirable.

이 때, 형태소 분석을 수행하는 것은, 문장을 이루고 있는 어절, 단어, 형태소 중 분류 정확도가 가장 높은 형태소를 이용하는 것이 가장 바람직하다.In this case, to perform morpheme analysis, it is most preferable to use a morpheme having the highest classification accuracy among words, words, and morphemes constituting a sentence.

상기 딥러닝 학습부(300)는 미리 설정된 딥러닝 기법을 이용하여 상기 데이터 전처리부(200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아 학습을 수행하는 것이 바람직하다.It is preferable that the deep learning learning unit 300 receives one or more specific morphemes and performs learning based on the frequency of appearance analyzed by the data preprocessor 200 using a preset deep learning technique.

이 때, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템은, 상기 데이터 전처리부(200)에서 특정 정보들에 대한 형태소 분리 분석을 수행하고, 단순히 각각의 형태소에 대한 출현빈도수 만을 분석하는 것이 아니라, 형태소의 유의미성을 향상시켜 결과의 정확도/신뢰도를 향상시키기 위하여, 오름차순으로 정렬을 수행하는 것이 바람직하다.In this case, in the system for recommending a recording period using a recurrent artificial neural network technology according to an embodiment of the present invention, the data preprocessor 200 performs morpheme separation analysis on specific information, and simply In order not to analyze only the frequency of appearance, but to improve the accuracy/reliability of the result by improving the significance of morphemes, it is preferable to perform the sorting in ascending order.

이를 통해서, 상기 딥러닝 학습부(300)에서 미리 설정된 딥러닝 기법의 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택한 후, 벡터 길이를 한정하는 임베딩(embedding) 층을 생성하여 입력받은 입력 데이터들을 변환하는 것이 바람직하다.Through this, the deep learning learning unit 300 selects a morpheme from 1st to 1000th of the appearance frequency as input data of the deep learning technique set in advance, and then generates and receives an embedding layer defining the vector length. It is desirable to transform the input data.

특히, 상기 딥러닝 학습부(300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것이 바람직하다.In particular, it is preferable that the deep learning learning unit 300 uses a Recurrent Neural Networks (RNN) technique to which a Long Short Term Memory (LSTM) method is applied.

상기 LSTM 방식을 적용한 RNN 기법의 설명에 앞서서, RNN 기법이란 시간 순서대로 받아들인 입력데이터(시계열 데이터, time-series data)를 학습할 때, 은닉층에 기억 기능이 있어 각각의 상태를 저장했다가 학습에 활용하는 신경망 모델이다.Prior to the description of the RNN method to which the LSTM method is applied, the RNN method is when learning input data (time-series data) received in chronological order, the hidden layer has a memory function to store and learn each state. It is a neural network model used for

단, RNN 기법은 가까운 과거의 결과만을 판단에 반영하기 때문에, 문장이 길어지거나 문장과 문장의 간격이 멀어질수록 기억력이 희미해져, 이전의 문맥에 반영되지 못하는 문제점이 있다.However, since the RNN technique only reflects the results of the near past in judgment, the longer the sentence or the distance between the sentence and the sentence becomes, the faint memory is, and thus there is a problem that it cannot be reflected in the previous context.

이를 해소하기 위하여, RNN의 은닉층의 뉴런을 LSTM block으로 대체한 것이 상기 LSTM 방식을 적용한 RNN 기법이다.In order to solve this problem, the LSTM block replaces the neurons in the hidden layer of the RNN with the LSTM scheme.

LSTM block이란, 이전의 결과(cell state)를 얼마나 반영할 것인지는 forget gate(ft)로 조절하고, 현재 입력 데이터와 이전 출력 데이터를 얼마나 반영할 것인지는 ignore gate(it)로 조절하되, ft와 it를 가중치로 하는 가중평균의 형태를 갖게 된다.For LSTM block, adjust with forget gate(ft) how much to reflect the previous result (cell state), and adjust with ignore gate(it) how much to reflect current input data and previous output data. It takes the form of a weighted average as a weight.

이러한 상기 LSTM 방식을 적용한 RNN 기법을 이용하여, 상기 딥러닝 학습부(300)는 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택하고, 은닉층의 가중치는 벡터 길이를 200으로 한정하는 것이 바람직하다.Using the RNN technique to which the LSTM method is applied, the deep learning learning unit 300 selects morphemes from the 1st to 1000th of the appearance frequency as input data, and the weight of the hidden layer is to limit the vector length to 200. desirable.

상기 데이터 관리부(400)는 상기 딥러닝 학습부(300)의 학습 결과, 다시 말하자면, 상기 딥러닝 학습부(300)의 딥러닝 기법에 의한 출력 데이터를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 것이 바람직하다.The data management unit 400 uses the learning result of the deep learning learning unit 300, that is, the output data obtained by the deep learning technique of the deep learning learning unit 300, to determine the type of retention period for the record. It is desirable to generate the data.

보존기간 유형으로는 보존기간 없음, 1년, 3년, 5년, 10년, 25년, 30년, 40년, 영구인 총 9라벨로 한정하는 것이 바람직하나, 이는 본 발명의 일 실시예에 불과하다.As for the type of retention period, it is preferable to limit it to a total of 9 labels that are no retention period, 1 year, 3 years, 5 years, 10 years, 25 years, 30 years, 40 years, and permanent, but this is in accordance with an embodiment of the present invention. It's just that.

아울러, 상기 데이터 관리부(400)는 상기 딥러닝 학습부(300)의 출력 데이터에 대한 loss를 줄이기 위해서, softmax 함수를 이용하여 정의하는 것이 바람직하며, 이는 해당 분야에서 이미 공지된 기술로서 더 이상의 설명을 생략한다.In addition, in order to reduce the loss of the output data of the deep learning learning unit 300, the data management unit 400 is preferably defined using a softmax function, which is a technique already known in the relevant field and further described. Is omitted.

상기 신규 데이터 입력부(500)는 외부(기록물 관리자 등)로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 것이 바람직하다.It is preferable that the new data input unit 500 receives new data related to record information for setting a retention period from an outside (record manager, etc.).

즉, 보존기간을 새롭게 설정할 필요가 있거나, 기존에 설정되어 있는 보존기간의 확인이 필요한 기록물 데이터 등을 입력받는 것이 바람직하다.In other words, it is desirable to input data of a record that needs to be newly set, or that requires confirmation of an existing set retention period.

상기 보존기간 관리부(600)는 상기 데이터 관리부(400)의 기준데이터들과 상기 신규 데이터 입력부(500)의 신규 데이터를 매핑시켜 비교함으로써, 상기 신규 데이터에 대한 가장 최적의 보존기간을 추천할 수 있다.The retention period management unit 600 may map and compare the reference data of the data management unit 400 with the new data of the new data input unit 500 to recommend the most optimal retention period for the new data. .

상세하게는, 상기 보존기간 관리부(600)는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 사용하는 사용자가 학습 데이터의 딥러닝 학습을 통해서 추천되어진 보존기간 정보(상기 데이터 관리부(400)의 기준데이터) 중 최종 선택한 보존기간 정보 또는 수정하여 선택한 보존기간 정보(신규 데이터)들을 매핑시켜 비교함으로써, 별도의 데이터베이스(미도시)에 저장 및 관리할 수 있다. 이렇게 사용자에 의해 선택되어진 보존기간 정보 또는 수정하여 선택한 보존기간 정보들을 이용하여, 신뢰성 상위수준의 정보로 활용할 수 있다.In detail, the retention period management unit 600 includes retention period information recommended through deep learning learning of training data by a user using the recording retention period recommendation system using the recurrent artificial neural network technology according to an embodiment of the present invention. By mapping and comparing the last selected retention period information or modified and selected retention period information (new data) among the reference data of the data management unit 400, it can be stored and managed in a separate database (not shown). In this way, the retention period information selected by the user or the retention period information selected by modification can be used as information with a high level of reliability.

이를 통해서, 기록물을 관리하는 기관마다의 기록물 보존기간에 대한 미세한 차이 및 기관 특성을 반영할 수 있어,(추천되는 보존기간 정보와 실제 선택되어 있는 보존기간 정보를 이용) 각각의 사용자에 따른 맞춤 정보를 적극적으로 제공하고 각 기록관의 기록관리 차별성을 보존기간 추천(가장 최적의 보존기간 추천)에 반영할 수 있어 보존기관 추천의 신뢰성을 높일 수 있다.Through this, it is possible to reflect subtle differences in the retention period of records and the characteristics of each institution that manages records (using recommended retention period information and actually selected retention period information), tailored information for each user It is possible to increase the reliability of the recommendation of preservation agencies by actively providing the archives and reflecting the differentiation of the records management of each archive in the retention period recommendation (recommendation of the most optimal retention period).

도 2는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 나타낸 순서도로서, 도 2를 참조로 하여 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 상세히 설명한다.FIG. 2 is a flow chart showing a method for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention. Referring to FIG. 2, a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention The recommended method will be described in detail.

본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법은 도 2에 도시된 바와 같이, 학습 데이터 입력단계(S100), 데이터 전처리단계(S200), 딥러닝 학습단계(S300), 데이터 관리단계(S400), 신규 데이터 입력단계(S500) 및 보존기간 추천단계(S600)로 이루어지는 것이 바람직하다.As shown in FIG. 2, a method for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention includes a learning data input step (S100), a data preprocessing step (S200), and a deep learning learning step (S300). , It is preferable to consist of a data management step (S400), a new data input step (S500), and a retention period recommendation step (S600).

각 단계에 대해서 자세히 알아보자면,To learn more about each step,

상기 학습 데이터 입력단계(S100)는 상기 학습 데이터 입력부(100)에서, 미리 연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.In the learning data input step (S100), it is preferable that the learning data input unit 100 receives learning data for learning from previously linked databases related to recording information.

상세하게는, 정보공개법 데이터베이스, 전자서명법 데이터베이스, 공공기록물의 관리에 관한 법률 데이터베이스, 기록관리분류기준표 데이터베이스, 보존기간이 이미 설정된 기록물 데이터베이스 등과 연계되어, 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.Specifically, it is desirable to receive learning data for learning in connection with the Information Disclosure Act database, the electronic signature method database, the law database on the management of public records, the records management classification standard database, and the record database for which the retention period is set.

상기 데이터 전처리단계(S200)는 상기 데이터 전처리부(200)에서, 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거하는 것이 바람직하다.In the data pre-processing step S200, it is preferable that the data pre-processing unit 200 extracts specific information included in the training data received by the training data input step S100 and removes duplicate data.

이 때, 상기 데이터 전처리단계(S200)는 텍스트 마이닝(text mining)을 통해 수행하는 것이 가장 바람직하다.In this case, the data pre-processing step (S200) is most preferably performed through text mining.

상세하게는, 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터, 다시 말하자면, 기록물 관련 정보들은 메타데이터로 처리과 기관코드, 단위업무코드, 생산년도, 개록물철등록 일련번호, 권호수, 기록물 철제목, 기록물형태, 내용 요약, 기록물쪽수, 기록물등록건수, 전자파일 개수, 기록물 구분, 수정여부, 구기록물철생산기관명, 구기록물철 분류번호, 시작년도, 종료년도, 비치종결일자, 비치사유, 보존기간, 보존방법, 보존장소, 업무 담당자면, 인수인계구분 등을 포함하고 있어, 텍스트 마이닝을 통해서 이들 중 상기 데이터 전처리부(200)에서 의미있는 정보로 설정하고 있는 관리부서명 정보 또는 문서명 정보를 추출하는 것이 바람직하다. 뿐만 아니라, 다수의 데이터베이스에 중복하여 저장되어 있어 중복하여 입력된 데이터들을 제거하는 것이 바람직하다.Specifically, the learning data input by the learning data input step (S100), that is, the information related to the record is processed as metadata and the institution code, the unit work code, the year of production, the registration serial number, the number of volumes, and the record. Steel title, type of record, summary of contents, number of pages of record, number of records registered, number of electronic files, record classification, whether or not to be modified, name of old record material production institution, old record material classification number, start year, end year, date of installation, and reason , Preservation period, preservation method, storage place, business person in charge, transfer category, etc., among them, the management department's signature information or document name information that is set as meaningful information in the data preprocessor 200 through text mining. It is preferable to extract. In addition, it is desirable to remove duplicate input data since it is stored in multiple databases.

이 후, 상기 데이터 전처리단계(S200)는 추출한 상기 특정 정보, 다시 말하자면, 관리부서명 정보 또는 문서명 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 것이 바람직하다.Thereafter, in the data pre-processing step S200, it is preferable to analyze the frequency of appearance of each morpheme by performing morpheme analysis on the extracted specific information, that is, management department signature information or document name information.

이 때, 형태소 분석을 수행하는 것은, 문장을 이루고 있는 어절, 단어, 형태소 중 분류 정확도가 가장 높은 형태소를 이용하는 것이 가장 바람직하다.In this case, to perform morpheme analysis, it is most preferable to use a morpheme having the highest classification accuracy among words, words, and morphemes constituting a sentence.

상기 딥러닝 학습단계(S300)는 상기 딥러닝 학습부(300)에서, 미리 설정된 딥러닝 기법을 이용하여 상기 데이터 전처리단계(S200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아 학습을 수행하는 것이 바람직하다.In the deep learning learning step (S300), the deep learning learning unit 300 receives and learns one or more specific morphemes based on the frequency of appearance analyzed in the data preprocessing step (S200) by using a preset deep learning technique. It is preferable to perform.

이를 위해, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법은 상기 데이터 전처리단계(S200)를 통해서, 특정 정보들에 대한 형태소 분리 분석을 수행하고, 단순히 각각의 형태소에 대한 출현빈도수 만을 분석하는 것이 아니라, 형태소의 유의미성을 향상시켜 결과의 정확도/신뢰도를 향상시키기 위하여, 오름차순으로 정렬을 수행하는 것이 바람직하다.To this end, in the method for recommending a record retention period using a recurrent artificial neural network technology according to an embodiment of the present invention, through the data pre-processing step (S200), morpheme separation analysis for specific information is performed, and simply each morpheme is It is preferable to perform sorting in ascending order in order to improve the accuracy/reliability of the result by improving the significance of morphemes, not just analyzing the frequency of occurrence of the morpheme.

이를 통해서, 상기 딥러닝 학습단계(S300)에서, 미리 설정된 딥러닝 기법의 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택한 후, 벡터 길이를 한정하는 임베딩(embedding) 층을 생성하여 입력받은 입력 데이터들을 변환하는 것이 바람직하다.Through this, in the deep learning learning step (S300), after selecting a morpheme from the 1st to 1000th of the appearance frequency as input data of a preset deep learning technique, an embedding layer defining the vector length is generated and input It is desirable to convert the received input data.

특히, 상기 딥러닝 학습단계(S300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것이 바람직하며, 상기 LSTM 방식을 적용한 RNN 기법의 설명에 앞서서, RNN 기법이란 시간 순서대로 받아들인 입력데이터(시계열 데이터, time-series data)를 학습할 때, 은닉층에 기억 기능이 있어 각각의 상태를 저장했다가 학습에 활용하는 신경망 모델이다.In particular, in the deep learning learning step (S300), it is preferable to use a Recurrent Neural Networks (RNN) technique to which the LSTM (Long Short Term Memory) method is applied. Prior to the description of the RNN technique to which the LSTM method is applied, the RNN technique is time When learning input data (time-series data) received in sequence, the hidden layer has a memory function, so it is a neural network model that stores each state and uses it for learning.

단, RNN 기법은 가까운 과거의 결과만을 판단에 반영하기 때문에, 문장이 길어지거나 문장과 문장의 간격이 멀어질수록 기억력이 희미해져, 이전의 문맥에 반영되지 못하는 문제점이 있다.However, since the RNN technique only reflects the results of the near past in judgment, the longer the sentence or the distance between the sentence and the sentence becomes, the faint memory is, and thus there is a problem that it cannot be reflected in the previous context.

이를 해소하기 위하여, RNN의 은닉층의 뉴런을 LSTM block으로 대체한 것이 상기 LSTM 방식을 적용한 RNN 기법이다.In order to solve this problem, the LSTM block replaces the neurons in the hidden layer of the RNN with the LSTM scheme.

LSTM block이란, 이전의 결과(cell state)를 얼마나 반영할 것인지는 forget gate(ft)로 조절하고, 현재 입력 데이터와 이전 출력 데이터를 얼마나 반영할 것인지는 ignore gate(it)로 조절하되, ft와 it를 가중치로 하는 가중평균의 형태를 갖게 된다.For LSTM block, adjust with forget gate(ft) how much to reflect the previous result (cell state), and adjust with ignore gate(it) how much to reflect current input data and previous output data. It takes the form of a weighted average as a weight.

이러한 상기 LSTM 방식을 적용한 RNN 기법을 이용하여, 상기 딥러닝 학습부(300)는 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택하고, 은닉층의 가중치는 벡터 길이를 한정하는 것이 바람직하다.Using the RNN technique to which the LSTM method is applied, the deep learning learning unit 300 selects morphemes from the 1st to 1000th of the appearance frequency as input data, and the weight of the hidden layer is preferably to limit the vector length. .

상기 데이터 관리단계(S400)는 상기 데이터 관리부(400)에서, 상기 딥러닝 학습단계(S300)의 학습 결과, 다시 말하자면, 딥러닝 기법에 의한 출력 데이터를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 것이 바람직하다.In the data management step (S400), the data management unit 400 uses the learning result of the deep learning learning step (S300), that is, the output data according to the deep learning technique, to determine the type of retention period for the record. It is desirable to generate the data.

보존기간 유형으로는 보존기간 없음, 1년, 3년, 5년, 10년, 25년, 30년, 40년, 영구인 총 9라벨로 한정하는 것이 바람직하나, 이는 본 발명의 일 실시예에 불과하다.As for the type of retention period, it is preferable to limit it to a total of 9 labels that are no retention period, 1 year, 3 years, 5 years, 10 years, 25 years, 30 years, 40 years, and permanent, but this is in accordance with an embodiment of the present invention. It's just that.

또한, 딥러닝 기법에 의한 출력 데이터에 대한 loss를 줄이기 위해서, softmax 함수를 이용하여 정의하는 것이 바람직하며, 이는 해당 분야에서 이미 공지된 기술로서 더 이상의 설명을 생략한다.In addition, in order to reduce the loss of the output data by the deep learning technique, it is preferable to define it using a softmax function, which is a technique already known in the relevant field, and further description is omitted.

상기 신규 데이터 입력단계(S500)는 상기 신규 데이터 입력부(500)에서, 외부(기록물 관리자 등)로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 것이 바람직하다.In the new data input step (S500), it is preferable that the new data input unit 500 receives new data related to record information for setting a retention period from an outside (record manager, etc.).

즉, 보존기간을 새롭게 설정할 필요가 있거나, 기존에 설정되어 있는 보존기간의 확인이 필요한 기록물 데이터 등을 입력받는 것이 바람직하다.In other words, it is desirable to input data of a record that needs to be newly set, or that requires confirmation of an existing set retention period.

상기 보존기간 추천단계(S600)는 상기 보존기간 관리부(600)에서, 상기 데이터 관리단계(S400)에 의해 생성한 상기 기준 데이터들과 상기 신규 데이터 입력단계(S500)에 의해 입력받은 상기 신규 데이터를 매핑시켜 비교하여, 신규 데이터들에 대한 가장 최적의 보존기간을 추천하는 것이 바람직하다.In the retention period recommendation step (S600), the retention period management unit 600 includes the reference data generated by the data management step (S400) and the new data input by the new data input step (S500). It is desirable to map and compare, and recommend the most optimal retention period for new data.

상세하게는, 상기 보존기간 추천단계(S600)는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 사용하는 사용자가 학습 데이터의 딥러닝 학습을 통해서 추천되어진 보존기간 정보(상기 데이터 관리부(400)의 기준데이터) 중 최종 선택한 보존기간 정보 또는 수정하여 선택한 보존기간 정보(신규 데이터)들을 매핑시켜 비교함으로써, 별도의 데이터베이스(미도시)에 저장 및 관리할 수 있다. 이렇게 사용자에 의해 선택되어진 보존기간 정보 또는 수정하여 선택한 보존기간 정보들을 이용하여, 신뢰성 상위수준의 정보로 활용할 수 있다.In detail, the retention period recommendation step (S600) is the retention period information recommended through deep learning learning of the training data by a user who uses the recording retention period recommendation method using the recurrent artificial neural network technology according to an embodiment of the present invention. By mapping and comparing the last selected retention period information or modified and selected retention period information (new data) among (reference data of the data management unit 400), it can be stored and managed in a separate database (not shown). In this way, the retention period information selected by the user or the retention period information selected by modification can be used as information with a high level of reliability.

이를 통해서, 기록물을 관리하는 기관마다의 기록물 보존기간에 대한 미세한 차이 및 기관 특성을 반영할 수 있어,(추천되는 보존기간 정보와 실제 선택되어 있는 보존기간 정보를 이용) 각각의 사용자에 따른 맞춤 정보를 적극적으로 제공하고 각 기록관의 기록관리 차별성을 보존기간 추천(가장 최적의 보존기간 추천)에 반영할 수 있어 보존기관 추천의 신뢰성을 높일 수 있다.Through this, it is possible to reflect subtle differences in the retention period of records and the characteristics of each institution that manages records (using recommended retention period information and actually selected retention period information), tailored information for each user It can increase the credibility of the recommendation of preservation agencies by actively providing the archives and reflecting the differentiation of the records management of each archive in the retention period recommendation (recommendation of the most optimal retention period).

즉, 다시 말하자면, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법은, 딥러닝 기법을 적용하여 기록물의 보존기간을 유추함에 있어서, 학습 데이터(입력 데이터)의 유의미성을 향상시켜 결과 데이터의 정확성 및 신뢰성을 향상시켜, 추천한 보존기간에 대한 정확성을 효과적으로 향상시킬 수 있는 장점이 있다.That is, in other words, the system for recommending the retention period of the records using the recurrent artificial neural network technology according to an embodiment of the present invention and the recommendation method thereof, in inferring the retention period of records by applying a deep learning technique, include learning data (input data ) Has the advantage of improving the accuracy and reliability of the result data, effectively improving the accuracy of the recommended retention period.

이상과 같이 본 발명에서는 구체적인 구성 소자 등과 같은 특정 사항들과 한정된 실시예 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것 일 뿐, 본 발명은 상기의 일 실시예에 한정되는 것이 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, in the present invention, specific matters such as specific components, etc. and limited embodiments have been described, but this is provided only to aid in a more general understanding of the present invention, and the present invention is limited to the above-described embodiment. It is not, and those of ordinary skill in the field to which the present invention belongs can make various modifications and variations from this description.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허 청구 범위뿐 아니라 이 특허 청구 범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention is limited to the described embodiments and should not be determined, and all things equivalent or equivalent to the claims as well as the claims to be described later belong to the scope of the spirit of the present invention. .

100 : 학습 데이터 입력부
200 : 데이터 전처리부
300 : 딥러닝 학습부
400 : 데이터 관리부
500 : 신규 데이터 입력부
600 : 보존기간 관리부
100: learning data input unit
200: data preprocessor
300: Deep Learning Department
400: data management unit
500: new data input unit
600: Retention period management department

Claims (7)

기연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 학습 데이터 입력부(100);
텍스트 마이닝을 통해 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리부(200);
기설정된 딥러닝 기법을 이용하여, 상기 데이터 전처리부(200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습부(300);
상기 딥러닝 학습부(300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리부(400);
외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력부(500); 및
상기 데이터 관리부(400)의 기준 데이터들과 상기 신규 데이터 입력부(500의 신규 데이터를 매핑시켜 비교하여, 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 관리부(600);
를 포함하여 구성되는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템.
A learning data input unit 100 receiving learning data for learning from previously linked records information-related databases;
After extracting specific information included in the learning data received from the learning data input unit 100 through text mining, removing duplicate data, and performing morpheme analysis on the extracted specific information, the appearance of each morpheme A data preprocessing unit 200 for analyzing frequency;
A deep learning learning unit 300 that receives one or more specific morphemes based on the frequency of appearance analyzed by the data preprocessor 200 using a preset deep learning technique and performs learning;
A data management unit 400 for generating reference data of a retention period type for a record using the learning result of the deep learning learning unit 300;
A new data input unit 500 for receiving new data related to record information for setting a retention period from the outside; And
A retention period management unit 600 that maps and compares reference data of the data management unit 400 with new data of the new data input unit 500, and recommends the most optimal retention period for new data;
Record retention period recommendation system using a recurrent artificial neural network technology, characterized in that configured to include.
제 1항에 있어서,
상기 딥러닝 학습부(300)는
LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템.
The method of claim 1,
The deep learning learning unit 300
A system for recommending a record retention period using a recurrent artificial neural network technology, characterized by using a Recurrent Neural Networks (RNN) technique applying a Long Short Term Memory (LSTM) method.
제 2항에 있어서,
상기 데이터 전처리부(200)는
상기 학습 데이터에 포함되어 있는 정보들 중 관리부서명 정보 또는 문서명 정보를 추출하고 중복 데이터를 제거한 후, 추출한 정보들에 대한 형태소 분리 분석을 수행하여, 각각의 형태소에 대한 출현빈도수를 분석하여 오름차순 정렬을 수행하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템.
The method of claim 2,
The data preprocessor 200
After extracting the management department signature information or document name information among the information included in the learning data, removing duplicate data, and performing morpheme separation analysis on the extracted information, the frequency of appearance of each morpheme is analyzed and sorted in ascending order. A system for recommending record retention periods using recurrent artificial neural network technology, characterized in that performing.
제 3항에 있어서,
상기 딥러닝 학습부(300)는
상기 데이터 전처리부(200)로부터 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM(Long Short Term Memory) 방식을 적용하여 학습을 수행하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템.
The method of claim 3,
The deep learning learning unit 300
After receiving the morphemes within a preset frequency ranking from the data preprocessor 200, converting the input data by creating an embedding layer, a Long Short Term Memory (LSTM) method is applied to each node of the hidden layer. Record retention period recommendation system using recurrent artificial neural network technology, characterized in that the learning is performed by applying.
학습 데이터 입력부에서, 기연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 학습 데이터 입력단계(S100);
데이터 전처리부에서, 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리단계(S200);
딥러닝 학습부에서, 기설정된 딥러닝 기법을 이용하여 상기 데이터 전처리단계(S200)에 의해 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습단계(S300);
데이터 관리부에서, 상기 딥러닝 학습단계(S300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리단계(S400);
신규 데이터 입력부에서, 외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력단계(S500); 및
보존기간 관리부에서, 상기 데이터 관리단계(S400)에 의해 생성한 상기 기준 데이터들과 상기 신규 데이터 입력단계(S500)에 의해 입력받은 상기 신규 데이터를 매핑시켜 비교하여, 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 추천단계(S600);
로 이루어지는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법.
In the learning data input unit, a learning data input step (S100) of receiving learning data for learning from previously linked records information-related databases;
In the data preprocessor, after extracting specific information included in the learning data input by the learning data input step (S100), removing duplicate data, and performing morpheme analysis on the extracted specific information, each morpheme Data pre-processing step of analyzing the frequency of appearance of (S200);
A deep learning learning step (S300) of receiving one or more specific morphemes based on the frequency of appearance analyzed by the data preprocessing step (S200) using a preset deep learning technique and performing learning;
A data management step (S400) of generating, in the data management unit, reference data of a retention period type for a record using the learning result of the deep learning learning step (S300);
In the new data input unit, a new data input step (S500) of receiving new data related to record information for setting a retention period from outside; And
The retention period management unit maps and compares the reference data generated by the data management step (S400) with the new data input by the new data input step (S500), and the most optimal storage for new data Retention period recommendation step of recommending a period (S600);
A method for recommending a record retention period using a recurrent artificial neural network technology, characterized in that it consists of.
제 5항에 있어서,
상기 데이터 전처리단계(S200)는
상기 학습 데이터에 포함되어 있는 정보들 중 관리부서명 정보 또는 문서명 정보를 추출하고 중복 데이터를 제거한 후, 추출한 정보들에 대한 형태소 분리 분석을 수행하여, 각각의 형태소에 대한 출현빈도수를 분석하여 오름차순 정렬을 수행하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법.
The method of claim 5,
The data pre-processing step (S200)
After extracting the management department signature information or document name information among the information included in the learning data, removing duplicate data, and performing morpheme separation analysis on the extracted information, the frequency of appearance of each morpheme is analyzed and sorted in ascending order. A method of recommending a record retention period using a recurrent artificial neural network technology, characterized in that performing.
제 6항에 있어서,
상기 딥러닝 학습단계(S300)는
LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하되,
상기 데이터 전처리단계(S200)에 의해 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM 방식을 적용하여 학습을 수행하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법.
The method of claim 6,
The deep learning learning step (S300)
Using the Recurrent Neural Networks (RNN) technique applying the Long Short Term Memory (LSTM) method,
By receiving the morphemes in the pre-processing step (S200), the morphemes within the pre-set frequency ranking are received, the embedding layer is created and the received data is converted, and then the LSTM method is applied to each node of the hidden layer to perform learning. A method for recommending a record retention period using a recurrent artificial neural network technology, characterized in that:
KR1020190076183A 2019-06-26 2019-06-26 Retention period recommendation system and method using RNN of records KR102255035B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190076183A KR102255035B1 (en) 2019-06-26 2019-06-26 Retention period recommendation system and method using RNN of records

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190076183A KR102255035B1 (en) 2019-06-26 2019-06-26 Retention period recommendation system and method using RNN of records

Publications (2)

Publication Number Publication Date
KR20210000916A true KR20210000916A (en) 2021-01-06
KR102255035B1 KR102255035B1 (en) 2021-05-24

Family

ID=74128893

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190076183A KR102255035B1 (en) 2019-06-26 2019-06-26 Retention period recommendation system and method using RNN of records

Country Status (1)

Country Link
KR (1) KR102255035B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230071869A (en) 2021-11-16 2023-05-24 (주)국전약품 Electrolyte additive compound for lithium secondary battery and lithium secondary battery comprising same

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026773A (en) * 2008-07-18 2010-02-04 Kddi Corp Geographical feature information extraction method and system
KR20160059845A (en) * 2014-11-19 2016-05-27 주식회사 스토리안트 Inventory management method and apparatus
KR101887629B1 (en) 2018-02-14 2018-08-10 대신네트웍스 주식회사 system for classifying and opening information based on natural language

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026773A (en) * 2008-07-18 2010-02-04 Kddi Corp Geographical feature information extraction method and system
KR20160059845A (en) * 2014-11-19 2016-05-27 주식회사 스토리안트 Inventory management method and apparatus
KR101887629B1 (en) 2018-02-14 2018-08-10 대신네트웍스 주식회사 system for classifying and opening information based on natural language

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230071869A (en) 2021-11-16 2023-05-24 (주)국전약품 Electrolyte additive compound for lithium secondary battery and lithium secondary battery comprising same

Also Published As

Publication number Publication date
KR102255035B1 (en) 2021-05-24

Similar Documents

Publication Publication Date Title
EP1504412B1 (en) Processing mixed numeric and/or non-numeric data
CN111597347B (en) Knowledge embedding defect report reconstruction method and device
CN112182246B (en) Method, system, medium, and application for creating an enterprise representation through big data analysis
CN104462216B (en) Occupy committee's standard code converting system and method
CN112036842B (en) Intelligent matching device for scientific and technological service
KR101953190B1 (en) A multidimensional recursive learning process and system used to discover complex dyadic or multiple counterparty relationships
CN111241839B (en) Entity identification method, entity identification device, computer readable storage medium and computer equipment
KR20210082108A (en) Method for the operation of the real estate expected actual transaction price calculation device based on the real estate actual transaction price prediction
Ikawati et al. Student behavior analysis to predict learning styles based felder silverman model using ensemble tree method
BR112019026386A2 (en) legal information processing system, method and program
KR102255035B1 (en) Retention period recommendation system and method using RNN of records
Vela et al. A semi-automatic data–scraping method for the public transport domain
Nurhachita et al. A comparison between deep learning, naïve bayes and random forest for the application of data mining on the admission of new students
CN111951050B (en) Financial product recommendation method and device
CN115982429B (en) Knowledge management method and system based on flow control
Uvidia Fassler et al. Moving towards a methodology employing knowledge discovery in databases to assist in decision making regarding academic placement and student admissions for universities
Abbott et al. Population statistics without a Census or register
Correa et al. A deep search method to survey data portals in the whole web: toward a machine learning classification model
CN114820074A (en) Target user group prediction model construction method based on machine learning
Price et al. Making monitoring manageable: a framework to guide learning
Ngo et al. Exploration and integration of job portals in Vietnam
Huysmans et al. A new approach for measuring rule set consistency
Varlamova International records management and archives terminology systems standardized by ISO and IEC
CN117892217A (en) Causal inference-based public number push text multi-mode question text disagreement judging method and system
Duong Discourse change detection in diachronic text collections with synthetic datasets and neural networks

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant