KR102456513B1 - Data augmentation processing system using the generative model and methods therefor - Google Patents

Data augmentation processing system using the generative model and methods therefor Download PDF

Info

Publication number
KR102456513B1
KR102456513B1 KR1020220027869A KR20220027869A KR102456513B1 KR 102456513 B1 KR102456513 B1 KR 102456513B1 KR 1020220027869 A KR1020220027869 A KR 1020220027869A KR 20220027869 A KR20220027869 A KR 20220027869A KR 102456513 B1 KR102456513 B1 KR 102456513B1
Authority
KR
South Korea
Prior art keywords
data
information
model
inspection
generative model
Prior art date
Application number
KR1020220027869A
Other languages
Korean (ko)
Inventor
우상명
이진석
윤석원
Original Assignee
주식회사 테스트웍스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 테스트웍스 filed Critical 주식회사 테스트웍스
Priority to KR1020220027869A priority Critical patent/KR102456513B1/en
Application granted granted Critical
Publication of KR102456513B1 publication Critical patent/KR102456513B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

A data augmentation processing system using a generation model and a method thereof are disclosed. The present invention can reduce the cost invested in the verification process which occurs when a text data augmentation technique is used in a natural language processing model. The data augmentation processing system includes: a collection unit; a pre-verification unit; a data generation unit; a verification unit; and a restoration unit.

Description

생성 모델을 이용한 데이터 증강 처리 시스템 및 그 방법{Data augmentation processing system using the generative model and methods therefor}Data augmentation processing system using the generative model and methods therefor

본 발명은 생성 모델을 이용한 데이터 증강 처리 시스템 및 그 방법에 관한 것으로서, 보다 상세하게는, 텍스트 데이터 증강 기법을 이용할 경우 발생되는 검수 과정에 투입되는 비용을 낮출 수 있는 생성 모델을 이용한 데이터 증강 처리 시스템 및 그 방법에 관한 것이다.The present invention relates to a data augmentation processing system using a generative model and a method therefor, and more particularly, to a data augmentation processing system using a generative model that can lower the cost of an inspection process that occurs when a text data augmentation technique is used. and methods thereof.

일반적으로, 자연어 처리 모델(Natural Language Processing Model)은 컴퓨터가 인간이 이해할 수 있는 구문적 및 의미적 표상을 구현하는 모델이다.In general, a natural language processing model is a model in which a computer implements syntactic and semantic representations that can be understood by humans.

이러한 자연어 처리 모델은 신경망(Neutral Network)에 기반한 언어 모델을 이용하여 유사한 단어들을 벡터 공간상에 가깝게 배치하여 어휘 의미를 표현하는 단어 임베딩(Embeding) 기술을 이용한다.This natural language processing model uses a word embedding technology that expresses lexical meaning by arranging similar words close to each other on a vector space using a language model based on a neural network.

상기 언어 모델(Language Model)은 주어진 문장에서 앞선 단어들을 기초로 다음 단어가 나올 확률을 계산해주는 모델인데, 어떤 문장이 실제로 존재할 확률을 계산해주기 때문에 주어진 문장이 문법적으로 또는 의미적으로 얼마나 적합한지를 결정할 수 있다.The language model is a model that calculates the probability that the next word will appear based on previous words in a given sentence. can

상술한 바와 같은 자연어 처리 모델은 크롤링(crawling) 기법(웹페이지상에 존재하는 텍스트를 대량으로 수집하는 기법)을 이용하여 수집된 대량의 데이터를 이용하여 선행 학습을 수행하게 된다.The natural language processing model as described above performs prior learning using a large amount of data collected using a crawling technique (a technique of collecting texts existing on a web page in large quantities).

그리고, 자연어 처리 모델의 선행 학습 이후에는, 해당 자연어 처리 모델의 목적에 맞도록 특정시킨 텍스트를 학습시켜 모델이 해당 목적에 부합되도록 미세 조정을 수행하게 된다.And, after the prior learning of the natural language processing model, the text specified to fit the purpose of the natural language processing model is learned, and fine-tuning is performed so that the model meets the purpose.

이때, 상기 목적에 맞도록 특정시킨 텍스트의 수집은 별도의 인력에 의하여 직접적으로 수집되며, 인력에 의하여 텍스트의 수집이 직접적으로 이루어지므로 비용이 추가적으로 소요되며 나아가 이러한 인력으로서 해당 분야 전문가를 동반하기도 하므로 인력에 관한 비용이 높게 책정되는 단점이 있다.At this time, the collection of texts specified to meet the above purpose is directly collected by a separate manpower, and since the collection of texts is made directly by manpower, additional costs are required, and furthermore, such manpower is accompanied by experts in the field. The disadvantage is that the cost of manpower is set high.

이러한 단점을 해소하기 위하여 생성 모델(Generative model)을 활용한 텍스트 데이터 증강 기법(Text data argmentation technique)이 이용되고 있다.In order to solve this disadvantage, a text data argmentation technique using a generative model is used.

상기 생성 모델은 사람이 단편적으로 서술하기 어려운 문자 패턴을 생성 모델에게 학습시켜 자연스러운 추가 학습 데이터 생성을 수행하는 모델로서, 대표적으로 OpenAI에서 만든 GPT 모델과, 구글(google)사에서 개발하여 공지된 BERT 모델이 있다.The generative model is a model that performs natural additional learning data generation by learning a character pattern that is difficult for a human to describe piecemeal. There is a model.

상기 GPT 모델과 BERT 모델은 사전학습(pre-training) 및 전이학습(transfer learning)이 가능한 언어 모델(language model)이고, GPT 모델은 단방향 학습이 가능하며, BERT 모델은 자연언어 처리 태스크를 양방향으로 사전학습하는 모델이다.The GPT model and the BERT model are language models capable of pre-training and transfer learning, the GPT model is capable of unidirectional learning, and the BERT model is a natural language processing task in both directions. It is a pre-trained model.

도 1 은 종래 생성 모델을 이용한 텍스트 데이터 증강 기법을 설명하는 도면이다.1 is a diagram for explaining a text data augmentation technique using a conventional generative model.

도면을 참조하면, 대량의 텍스트 데이터(1)를 이용하여 선행 학습된 GPT 모델이나 BERT 모델과 같은 생성 모델(2)을 특정 목적에 부합되도록 작동시키기 위하여, 해당 목적에 부합되도록 수집된 수집 데이터(3)를 생성 모델(2)에게 학습시켜 해당 목적에 따른 미세 조정을 진행한다.Referring to the drawing, in order to operate a generative model (2) such as a pre-trained GPT model or a BERT model using a large amount of text data (1) to meet a specific purpose, the collected data ( 3) is taught to the generative model 2, and fine-tuning is performed according to the purpose.

그러면, 차후부터는 미세 조정된 자연어 처리 모델이 수집 데이터(3)로부터 특정 목적에 부합되는 결과 데이터(3-1)를 생성할 수 있게 된다.Then, in the future, the fine-tuned natural language processing model can generate the result data 3 - 1 meeting a specific purpose from the collected data 3 .

이러한 텍스트 데이터 증강 기법은 목적에 맞는 텍스트의 수집을 별도의 인력에 의하여 수행하지 않아도 되므로 자연어 처리에 있어서 생산성이 양호하나, 생성 모델(2) 자체가 인간 정도의 지식 기반을 가지고 있지 않으므로 결과 데이터(3-1)의 디테일(detail)(세부 내용)이 부족 또는 불완전하게 이루어지는 경우가 많다.This text data augmentation technique has good productivity in natural language processing because it does not require a separate manpower to collect text suitable for the purpose, but since the generative model 2 itself does not have a human-level knowledge base, The detail (detail) of 3-1) is often insufficient or incomplete.

결과 데이터(4)의 디테일이 부족 또는 불완전한 경우의 예를 들면, 결과 데이터(4)에 포함된 주소 또는 전화번호와 같이 규칙성이 정하여져 있는 문장에 대해서 결과 데이터(3-1)가 비상식적이거나 규칙을 벗어나는 경우가 빈번하게 발생된다. For example, in the case where the detail of the result data 4 is insufficient or incomplete, the result data 3-1 is irrational or rules Deviations from this occur frequently.

즉, 주소 데이터의 경우 “경기도 인천 특별시 광진구”의 비상식적인 결과 데이터가 생성되거나, 전화번호 데이터의 경우 “연락처: 110-9920-222”의 규칙을 벗어나는 결과 데이터가 생성되기도 한다.That is, in the case of address data, unconventional result data of “Gwangjin-gu, Incheon, Gyeonggi-do” is generated, or in case of phone number data, result data that deviates from the rules of “Contact: 110-9920-222” is generated.

따라서, 생성 모델(2)을 이용하여 결과 데이터(3-1)가 생성되면, 별도 인력의 검수자(V)에 의하여 결과 데이터(3-1)로부터 디테일이 양호하지 않은 결과 데이터를 제거하여 최종 결과 데이터(3-2)를 도출하는 검수 과정이 필수적으로 동반된다.Therefore, when the result data 3-1 is generated using the generation model 2, the result data with poor detail is removed from the result data 3-1 by the inspector V of a separate manpower, and the final result The verification process for deriving the data (3-2) is necessarily accompanied.

따라서, 상기 텍스트 데이터 증강 기법을 이용하는 방법에 있어서도 별도 인력의 검수자에 의하여 결과 데이터의 검수 과정을 수행하여야 하므로 비용이 추가적으로 발생되게 되며, 따라서, 텍스트 데이터 증강 기법을 이용하는 과정에서 검수 과정에 투입되는 비용을 낮출 수 있는 방법을 개발할 필요성이 있다.Therefore, even in the method of using the text data augmentation technique, additional costs are incurred because the inspection process of the result data has to be performed by an inspector of a separate manpower. There is a need to develop a method to lower

한편, 상술한 자연어 처리 모델에 관한 선행기술로서, 대한민국특허공개공보 제 10-2020-40652 호의 자연어 처리 시스템 및 자연어 처리에서의 단어 표현 방법의 기술과, 대한민국특허공개공보 제 10-2020-110400 호의 학습 데이터 증강 정책의 기술과, 대한민국특허공개공보 제 10-2020-44337 호의 생성 모델 기반 데이터 증강 기법을 활용한 딥러닝 기반 감정음성합성장치 및 방법의 기술이 공지되어 있다.On the other hand, as prior art related to the above-described natural language processing model, Korean Patent Application Laid-Open No. 10-2020-40652, a description of a natural language processing system and a word expression method in natural language processing, and Korean Patent Application Laid-Open No. 10-2020-110400 The technique of learning data augmentation policy and the technique of a deep learning-based emotional speech synthesis apparatus and method using the generation model-based data augmentation technique of Korean Patent Application Laid-Open No. 10-2020-44337 are known.

1. 대한민국특허공개공보 제10-2020-40652호(발명의 명칭: 자연어 처리 시스템 및 자연어 처리에서의 단어 표현 방법)1. Korean Patent Laid-Open Publication No. 10-2020-40652 (Title of the invention: natural language processing system and word expression method in natural language processing) 2. 대한민국특허공개공보 제10-2020-110400호(발명의 명칭: 학습 데이터 증강 정책)2. Korean Patent Application Laid-Open No. 10-2020-110400 (Title of Invention: Learning Data Augmentation Policy) 3. 대한민국특허공개공보 제10-2020-44337호(발명의 명칭: 생성 모델 기반 데이터 증강 기법을 활용한 딥러닝 기반 감정음성합성장치 및 방법)3. Republic of Korea Patent Publication No. 10-2020-44337 (Title of the invention: Deep learning-based emotional speech synthesis apparatus and method using generative model-based data augmentation technique)

이러한 문제점을 해결하기 위하여, 본 발명은 자연어 처리 모델에 있어서 텍스트 데이터 증강 기법을 이용할 경우 발생되는 검수 과정에 투입되는 비용을 낮출 수 있는 생성 모델을 이용한 데이터 증강 처리 시스템 및 그 방법을 제공하는 것을 목적으로 한다.In order to solve this problem, an object of the present invention is to provide a data augmentation processing system and method using a generative model capable of lowering the cost of an inspection process that occurs when a text data augmentation technique is used in a natural language processing model. do it with

상기와 같은 기술적 과제를 달성하기 위한 본 발명의 일 실시 예는 생성 모델을 이용한 데이터 증강 처리 시스템으로서, 생성 모델의 학습을 위하여 수집된 수집 데이터를 수집 데이터 데이터베이스에 저장하는 수집부; 상기 수집 데이터의 일부 내용을 미리 설정된 비식별화 토큰(token)으로 비식별화시키는 사전 검수를 수행하여 비식별화된 데이터를 생성하는 사전검수부; 상기 생성 모델을 상기 비식별화된 데이터에 기반한 미세조정 학습을 수행하고, 미세조정 학습을 수행한 생성 모델로부터 특정 도메인에 대한 텍스트데이터 증강을 수행하여 검수 데이터를 생성하는 데이터생성부; 상기 생성된 검수 데이터에 대하여 검수자로부터 입력되는 검수 정보에 기반한 결과 데이터를 도출하는 검수부; 및 상기 결과 데이터에 포함된 비식별화 토큰을 미리 설정된 규칙 정보에 기반하여 복원한 최종데이터를 생성하여 결과 데이터 데이터베이스에 저장하는 복원부;를 포함한다.An embodiment of the present invention for achieving the above technical problem is a data augmentation processing system using a generative model, the collection unit for storing the collected data collected for learning the generative model in a collection data database; a pre-examination unit for generating de-identified data by performing a pre-inspection of de-identifying a portion of the collected data with a preset de-identification token; a data generation unit that performs fine-tuning learning based on the de-identified data on the generation model, and performs text data augmentation for a specific domain from the generation model that has performed fine-tuning learning to generate verification data; an inspection unit for deriving result data based on inspection information input from an inspector for the generated inspection data; and a restoration unit that generates final data obtained by restoring the de-identification token included in the result data based on preset rule information and stores it in the result data database.

또한, 상기 실시 예에 따른 생성 모델은 임의의 텍스트데이터를 이용하여 선행 학습된 것을 특징으로 한다.In addition, the generative model according to the embodiment is characterized in that it has been previously learned using arbitrary text data.

또한, 상기 실시 예에 따른 사전검수부는 수집 데이터의 내용중 생성 모델이 인식하기 어려운 정보, 규칙성을 가지는 정보, 특정 정보에 관한 보안이 요구되는 노출 위험도가 있는 정보 중 적어도 어느 하나 이상의 정보를 특정 토큰(token)으로 비식별화시켜 비식별화된 데이터를 생성하는 것을 특징으로 한다.In addition, the pre-inspection unit according to the embodiment specifies at least any one or more of information that is difficult for a generation model to recognize among the contents of the collected data, information having regularity, and information having an exposure risk requiring security for specific information. It is characterized in that de-identified data is generated by de-identifying it with a token.

또한, 상기 실시 예에 따른 비식별화 토큰은 임의의 랜덤 정보로 복원되는 것을 특징으로 한다.In addition, the de-identification token according to the embodiment is characterized in that it is restored with random information.

또한, 본 발명의 일 실시 예는 생성 모델을 이용한 데이터 증강 처리 방법으로서, a) 수집부가 생성 모델의 학습을 위한 수집 데이터를 수집하여 수집 데이터 데이터베이스에 저장하는 단계; b) 사전검수부가 수집 데이터의 일부 내용을 미리 설정된 비식별화 토큰(token)으로 비식별화시키는 사전 검수를 수행하여 비식별화된 데이터를 생성하는 단계; c) 데이터생성부가 생성 모델을 비식별화된 데이터에 기반한 미세조정 학습을 수행하고, 미세조정 학습을 수행한 생성 모델로부터 특정 도메인에 대한 텍스트데이터 증강을 수행하여 검수 데이터를 생성하는 단계; d) 검수부가 생성된 검수 데이터에 대하여 검수자로부터 입력되는 검수 정보에 기반한 결과 데이터를 추출하는 단계; 및 e) 복원부가 결과 데이터에 포함된 비식별화 토큰을 미리 설정된 규칙 정보에 기반하여 복원한 최종데이터를 생성하여 결과 데이터 데이터베이스에 저장하는 단계;를 포함한다.In addition, an embodiment of the present invention provides a data augmentation processing method using a generative model, comprising: a) collecting, by a collecting unit, collected data for learning a generative model and storing it in a collection data database; b) generating de-identified data by performing a pre-examination in which the pre-examination unit de-identifies some of the collected data with a preset de-identification token (token); c) the data generation unit performs fine-tuning learning based on the de-identified data of the generation model, and performing text data augmentation for a specific domain from the generation model on which the fine-tuning learning is performed to generate verification data; d) extracting result data based on the inspection information input from the inspector for the inspection data generated by the inspection unit; and e) generating, by the restoration unit, final data restored by the de-identification token included in the result data based on preset rule information, and storing it in the result data database.

또한, 상기 실시 예에 따른 b) 단계의 비식별화된 데이터 수집 데이터의 내용중 생성 모델이 인식하기 어려운 정보, 규칙성을 가지는 정보, 특정 정보에 관한 보안이 요구되는 노출 위험도가 있는 정보 중 적어도 어느 하나 이상의 정보를 특정 토큰(token)으로 비식별화하는 것을 특징으로 한다.In addition, among the contents of the de-identified data collection data of step b) according to the above embodiment, at least among the information difficult to recognize by the generation model, information having regularity, and information having a risk of exposure requiring security for specific information It is characterized in that any one or more pieces of information are de-identified with a specific token.

또한, 상기 실시 예에 따른 c) 단계의 생성 모델은 통신망(N)을 통해 접속한 하나 이상의 외부 웹페이지로부터 수집된 다수의 텍스트데이터를 기반으로 선행 학습된 것을 특징으로 한다.In addition, the generation model of step c) according to the above embodiment is characterized in that it has been previously learned based on a plurality of text data collected from one or more external web pages accessed through the communication network N.

또한, 상기 실시 예에 따른 e) 단계의 비식별화 토큰은 임의의 랜덤 정보로 복원되는 것을 특징으로 한다.In addition, the de-identification token of step e) according to the embodiment is characterized in that it is restored with random information.

본 발명은 데이터 생성시 검수에 소요되는 비용을 절감시킬 수 있는 장점이 있다.The present invention has the advantage of reducing the cost of inspection when generating data.

또한, 본 발명은 생성 모델이 이해하지 못하는 부분을 비식별화시킴으로써 생성 모델의 성능을 보다 향상시킬 수 있는 장점이 있다.In addition, the present invention has an advantage in that the performance of the generative model can be further improved by de-identifying parts that the generative model does not understand.

또한, 본 발명은 비식별화를 통한 전체적인 텍스트 길이가 감소됨으로써 좀더 효과적으로 GPU 자원을 활용할 수 있는 장점이 있다.In addition, the present invention has the advantage of more effectively utilizing GPU resources by reducing the overall text length through de-identification.

또한, 본 발명은 비식별화되는 부분을 개인정보로 설정하게 되면 개인정보 유출 문제를 미연에 방지할 수 있는 장점이 있다.In addition, the present invention has the advantage of being able to prevent the problem of personal information leakage in advance when the non-identified part is set as personal information.

도1은 종래 생성 모델을 이용한 텍스트 데이터 증강 기법을 설명하는 개념도.
도2는 본 발명의 생성 모델을 이용한 텍스트 데이터 증강 기법을 설명하는 개념도.
도3은 본 발명의 생성 모델을 이용한 텍스트 데이터 증강 처리 시스템의 블록도.
도4는 본 발명의 생성 모델을 이용한 텍스트 데이터 증강 처리 방법의 흐름도.
1 is a conceptual diagram illustrating a text data augmentation technique using a conventional generative model.
2 is a conceptual diagram illustrating a text data augmentation technique using a generative model of the present invention.
3 is a block diagram of a text data augmentation processing system using a generative model of the present invention;
4 is a flowchart of a text data augmentation processing method using a generative model of the present invention;

이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.Hereinafter, the present invention will be described in detail with reference to preferred embodiments of the present invention and the accompanying drawings.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다. Prior to describing the specific contents for carrying out the present invention, it should be noted that components not directly related to the technical gist of the present invention are omitted within the scope of not disturbing the technical gist of the present invention.

또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.In addition, the terms or words used in the present specification and claims have meanings and concepts consistent with the technical idea of the invention based on the principle that the inventor can define the concept of an appropriate term to best describe his invention. should be interpreted as

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.In this specification, the expression that a part "includes" a certain element does not exclude other elements, but means that other elements may be further included.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.Also, terms such as “… unit”, “… group”, and “… module” mean a unit that processes at least one function or operation, which may be divided into hardware, software, or a combination of the two.

또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. In addition, the term "at least one" is defined as a term including the singular and the plural, and even if the term at least one does not exist, each element may exist in the singular or plural, and may mean the singular or plural. will be self-evident.

또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.In addition, that each component is provided in singular or plural may be changed according to an embodiment.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 생성 모델을 이용한 데이터 증강 처리 시스템 및 그 방법의 바람직한 실시예를 상세하게 설명한다.Hereinafter, a preferred embodiment of a data augmentation processing system and method using a generative model according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도2는 본 발명의 본 발명의 생성 모델을 이용한 텍스트 데이터 증강 기법을 설명하는 개념도이다.2 is a conceptual diagram illustrating a text data augmentation technique using a generative model of the present invention.

도2를 참조하면, 본 발명의 생성 모델을 이용한 텍스트 데이터 증강 기법은, 수집 데이터의 원문 일부를 비식별화하는 사전 검수 과정을 수행함으로써 생성 모델에 의하여 도출된 결과 데이터의 검수에 소요되는 시간과 인력을 절감시킬 수 있는 기법이다.Referring to Figure 2, the text data augmentation technique using the generative model of the present invention, by performing a pre-examination process of de-identifying a part of the original text of the collected data, the time required for the inspection of the result data derived by the generative model and It is a method that can save manpower.

도면을 참조하면, 대량의 텍스트 데이터(1)를 이용하여 선행 학습된 GPT 모델이나 BERT 모델과 같은 생성 모델(2)을 특정 목적에 부합되도록 작동시키기 위하여, 해당 목적에 부합되도록 수집된 수집 데이터(5)를 생성 모델(2)에게 학습시켜 해당 목적에 따른 미세 조정을 진행한다.Referring to the drawing, in order to operate a generative model (2) such as a pre-trained GPT model or a BERT model using a large amount of text data (1) to meet a specific purpose, the collected data ( 5) is taught to the generative model 2 and fine-tuning is performed according to the purpose.

이때, 본 발명의 텍스트 데이터 증강 기법은 생성 모델(2)의 학습을 위하여 수집된 수집 데이터(5)의 사전 검수를 수행한다.At this time, the text data augmentation technique of the present invention performs a pre-examination of the collected data 5 collected for the learning of the generative model 2 .

구체적으로, 상기 사전 검수는 수집 데이터(5)의 내용에서 생성 모델(2)이 인식하기 어려운 정보나 노출 위험도(정보에 관한 보안이 요구되는 정도)가 있는 정보를 특정 토큰(token)으로 비식별화(unidentified)시킨 비식별화된 데이터(6)를 생성하는 작업이다.Specifically, the prior inspection de-identifies information that is difficult to recognize by the generation model 2 in the contents of the collected data 5 or information with a degree of exposure risk (the degree to which security is required for information) as a specific token. It is an operation to generate unidentified and de-identified data (6).

예를 들면, 상기 수집 데이터(5)의 내용이 “동해시 산간 대설주의보,한파경보 발효되었으니 시설물관리 및 교통안전에 만전을 기하여 주시기 바랍니다. 동해시 (연락처:033-530-2119, 033-530-2119)”일 경우, 내용중 인식하기 어려운 정보, 규칙성이 정하여진 정보, 노출 위험도가 있는 정보들 중 적어도 어느 하나 이상의 정보를 삭제하는 것으로서, 상기 내용을 “동해시 산간 대설주의보,한파경보 발효되었으니 시설물관리 및 교통안전에 만전을 기하여 주시기 바랍니다(비식별화부 0)”의 내용으로 변경시킨다.For example, the contents of the collected data (5) above are “Donghae Mountain Heavy Snow Warning and Cold Wave Warning have come into effect, so please do your best for facility management and traffic safety. In the case of “Donghae City (Contact: 033-530-2119, 033-530-2119)”, deleting at least any one or more of information that is difficult to recognize, information with regularity, and information with a risk of exposure , Change the above content to “Donghae Mountain Heavy Snow Warning and Cold Wave Warning has come into effect, so please do your best for facility management and traffic safety (non-identification part 0)”.

여기서 원본 내용중 비식별화된 부분은 “동해시 (연락처:033-530-2119, 033-530-2119)”의 부분으로서 수집 데이터(5)의 내용중 주소 또는 전화번호와 같이 규칙성이 정하여져 있는 부분을 "비식별화부 0"으로 비식별화시켰다.Here, the de-identified part of the original content is the part of “Donghae City (Contact: 033-530-2119, 033-530-2119)”. The portion was de-identified as “de-identified portion 0”.

다른 예를 들면, 수집 데이터(5)의 내용이 "금일 13:24경 고양시 화정동 961 은빛마을 1101동 옥상 화재 발생. 이 지역을 우회하여 주시고 인근 주민은 안전사고 발생에 유의 바랍니다"일 경우, 상기 내용을 "금일 13:24경 (비식별화부 1) 옥상 화재 발생. 이 지역을 우회하여 주시고 인근 주민은 안전사고 발생에 유의 바랍니다"로 변경함으로써 규칙성이 있는 주소 부분인 "고양시 화정동 961 은빛마을 1101동"을 "비식별화부 1"로 비식별화시켜서 비식별화된 데이터(6)를 생성하게 된다.For another example, if the content of the collected data (5) is “Today around 13:24, a rooftop fire in 1101 Eunbit Village, 961 Hwajeong-dong, Goyang-si. By changing the content to “Today around 13:24 (Unidentified Part 1) rooftop fire occurred. Please detour this area and be aware of safety accidents for nearby residents.” 1101" is de-identified as "de-identification unit 1" to generate de-identified data 6 .

나아가, 전화번호나 주소와 같이 모델이 이해하기 어려운 내용 이외에도, 특정한 텍스트 영역에 대한 비식별화를 수행할 수 있으며, 이를 통하여 생성 모델(2)을 다양한 방법으로 미세 조정시킬 수 있다. Furthermore, in addition to content that the model is difficult to understand, such as a phone number or an address, de-identification of a specific text area can be performed, and through this, the generation model 2 can be fine-tuned in various ways.

또한, 메모리를 가지는 오픈 도메인 쳇봇을 만들 때 텍스트 상에서 기억할 만한 정보가 담긴 영역을 비식별화시켜 학습시킬 경우 해당 비식별화 토큰을 활용하여 보다 능동적으로 후처리를 수행할 수 있게 된다.In addition, when creating an open domain chatbot with memory, if an area containing memorable information is de-identified and learned in the text, post-processing can be performed more actively by using the de-identification token.

상기와 같이 수집 데이터(5)의 내용 일부를 비식별화시켜 생성된 비식별화된 데이터(6)를 생성 모델(2)에게 학습시켜 해당 목적에 따른 미세 조정을 수행한다.As described above, the generation model 2 learns the de-identified data 6 generated by de-identifying a part of the contents of the collected data 5 to perform fine adjustment according to the purpose.

여기서, 상기 생성 모델은 전술한 바와 같이, GPT 모델과 BERT 모델과 같은 공지의 생성 모델이다.Here, as described above, the generative model is a known generative model such as the GPT model and the BERT model.

그리고, 미세조정을 거친 생성 모델(2)이 비식별화된 데이터(6)를 이용하여 검수 데이터(7)를 생성한다.Then, the generation model 2 that has undergone fine adjustment generates the verification data 7 using the de-identified data 6 .

이때, 상기 비식별화된 데이터(6)는 생성 모델(2)이 인식하기 어려운 정보, 규칙성이 있는 정보, 노출 위험도가 있는 정보중 적어도 어느 하나 이상의 정보를 특정 토큰(token)으로 비식별화(unidentified)시킨 데이터로서, 생성 모델(2)은 이러한 비식별화 토큰이 포함된 비식별화된 데이터(6)를 이용하여 검수 데이터(7)를 생성하게 된다.In this case, the de-identified data 6 de-identifies at least any one or more of information difficult to recognize by the generation model 2, regular information, and information with exposure risk as a specific token. As the (unidentified) data, the generation model (2) generates the verification data (7) using the de-identified data (6) including these de-identified tokens.

다음으로, 검수 데이터(7)가 생성되면, 검수자(V)가 입력하는 검수 정보에 기초하여 상기 검수 데이터(7) 중에서 디테일(detail)(세부 내용)이 부족하거나 또는 불완전하게 이루어진 검수 데이터(7)는 선택적으로 제거하여 결과 데이터(8)를 추출할 수 있다.Next, when the inspection data 7 is generated, the inspection data 7 based on the inspection information input by the inspector V is lacking in detail (detail) or made incompletely among the inspection data 7 ) can be selectively removed to extract the result data (8).

상기 검수 데이터(7)의 디테일 부족 또는 불완전한 경우의 예를 들면, 검수 데이터(7)에 포함된 주소 또는 전화번호와 같이 규칙성이 정해져 있는 문장에 대해서, 검수 데이터(7)가 비상식적이거나 규칙을 벗어나는 경우이다.For example, in the case of lack of detail or incompleteness of the inspection data 7, for a sentence in which regularity is determined, such as an address or phone number included in the inspection data 7, the inspection data 7 is nonsensical or rules in case it goes out

또한, 이러한 경우의 일례는 주소 데이터의 경우 “경기도 인천 특별시 광진구”의 비상식적인 결과 데이터가 생성되거나, 전화번호 데이터의 경우 “연락처: 110-9920-222”등의 특정 규칙을 벗어나는 검수 데이터(7)가 생성되는 경우이다. In addition, an example of such a case is that in the case of address data, unconventional result data of “Gwangjin-gu, Incheon Special City, Gyeonggi-do” is generated, or in the case of phone number data, inspection data (7) that deviate from specific rules such as “Contact: 110-9920-222” ) is generated.

이때, 상기의 검수 데이터(7)는 비식별화 토큰이 포함된 수집 데이터(5)를 이용하여 생성된 것인데, 인식하기 어려운 정보, 규칙적인 정보 또는 노출 위험도가 있는 정보가 결여된 상태이므로 검수자(V)에 의한 검수 수행상의 난이도가 낮게 형성되어 검수에 소요되는 시간 및 인력을 절감시킬 수 있으며, 나아가, 결과 데이터(8)의 품질도 향상될 수 있게 된다.At this time, the above inspection data (7) is generated using the collection data (5) containing the de-identification token. The difficulty in performing the inspection by V) is formed to be low, so the time and manpower required for the inspection can be reduced, and further, the quality of the result data (8) can be improved.

다음으로, 상기 결과 데이터(8)에 포함된 비식별화 토큰을 미리 설정된 규칙 정보에 기반하여 복원한 최종데이터(9)를 생성할 수 있다.Next, the final data 9 may be generated by restoring the de-identification token included in the result data 8 based on preset rule information.

이러한 복원의 예로서, 상술한 수집 데이터(5)가 “동해시 산간 대설주의보, 한파경보 발효되었으니 시설물관리 및 교통안전에 만전을 기하여 주시기 바랍니다. 동해시 (연락처:033-530-2119, 033-530-2119)”의 내용에서 비식별화된 부분이 “동해시 (연락처:033-530-2119, 033-530-2119)”이라면 이렇게 비식별화된 전화번호 부분을 미리 설정된 복원 규칙에 기반하여 복원을 수행한다.As an example of such restoration, the above-mentioned collected data (5) is “Donghae Mountain Heavy Snow Warning and Cold Wave Warning have been in effect, so please do your best for facility management and traffic safety. If the de-identified part of the contents of “Donghae City (Contact: 033-530-2119, 033-530-2119)” is “Donghae City (Contact: 033-530-2119, 033-530-2119)”, this de-identified The phone number part is restored based on a preset restoration rule.

예를 들어, 전화번호를 비식별화 처리한 "비식별화부 0"은 임의의 랜덤 전화번호 또는 "xxx-xxx-xxxx" 등으로 복원할 수 있다.For example, "non-identification unit 0", which de-identifies a phone number, can be restored to an arbitrary random phone number or "xxx-xxx-xxxx".

또한, 수집 데이터(5)의 내용이 "금일 13:24경 고양시 화정동 961 은빛마을 1101동 옥상 화재 발생. 이 지역을 우회하여 주시고 인근 주민은 안전사고 발생에 유의 바랍니다"의 내용에서 비식별화된 부분이 "고양시 화정동 961 은빛마을 1101동"이라면 이렇게 비식별화된 주소 부분을 임의의 랜덤한 주소 정보 또는 "aaa시 bbb동 xx 아파트" 등으로 복원을 수행할 수 있다.In addition, the contents of the collected data (5) were de-identified from the contents of "Today around 13:24, a rooftop fire in 1101, Eunbit Village, 961, Hwajeong-dong, Goyang-si, Goyang-si. If the part is "1101-dong, Eunbit Village, 961 Hwajeong-dong, Goyang-si", the unidentified address part can be restored with arbitrary random address information or "aaa-city bbb-dong xx apartment".

다음은 상술한 바와 같은 본 발명의 생성 모델을 이용한 텍스트 데이터 증강 처리를 수행하는 시스템 및 방법을 설명하기로 한다. Next, a system and method for performing text data augmentation processing using the generative model of the present invention as described above will be described.

도3은 본 발명의 생성 모델을 이용한 텍스트 데이터 증강 처리 시스템의 블록도이다.3 is a block diagram of a text data augmentation processing system using the generative model of the present invention.

도3을 참조하면, 본 발명의 생성 모델을 이용한 텍스트 데이터 증강 처리 시스템은, 수집부(10)와, 사전 검수부(20)와, 데이터 생성부(30)와, 검수부(40)와, 복원부(50)를 포함하여 구성될 수 있다.Referring to FIG. 3 , the text data augmentation processing system using the generation model of the present invention includes a collection unit 10 , a dictionary inspection unit 20 , a data generation unit 30 , an inspection unit 40 , The restoration unit 50 may be included.

또한, 상기 생성 모델을 이용한 텍스트 데이터 증강 처리 시스템은, 대량의 텍스트 데이터를 이용하여 선행 학습된 GPT 모델이나 BERT 모델과 같은 생성 모델(31)을 특정 목적에 부합되도록 작동시키기 위하여, 인터넷과 같은 통신망(N)을 통해 접속한 하나 이상의 외부 웹페이지(100)에서 크롤링 기법 등을 이용한 텍스트 데이터를 대량으로 수집할 수 있다.In addition, the text data augmentation processing system using the generative model operates a generative model 31 such as a GPT model or a BERT model previously learned using a large amount of text data to meet a specific purpose. In one or more external web pages 100 accessed through (N), it is possible to collect a large amount of text data using a crawling technique or the like.

상기 수집부(10)는 생성 모델(31)의 학습을 위하여 특정 도메인과 관련된 수집 데이터(3)를 수신하여 수집 데이터 데이터베이스(200)에 저장한다.The collection unit 10 receives the collection data 3 related to a specific domain for learning the generative model 31 and stores it in the collection data database 200 .

상기 사전 검수부(20)는 수집 데이터(3)의 일부 내용을 미리 설정된 비식별화 토큰(token)으로 비식별화시키는 사전 검수를 수행하여 비식별화된 데이터(6)를 생성한다.The pre-examination unit 20 generates de-identified data 6 by performing a pre-examination of de-identifying a portion of the collected data 3 with a preset de-identification token (token).

상기 비식별화된 데이터(6)는 수집 데이터(5)의 내용에서 생성 모델이 인식하기 어려운 정보, 규칙성을 가지는 정보, 정보에 관한 보안이 요구되는 정도인 노출 위험도가 있는 정보 중 적어도 어느 하나 이상의 정보를 특정 토큰(token)으로 비식별화(unidentified)시킨 데이터이다.The de-identified data 6 is at least any one of information that is difficult for a generation model to recognize in the contents of the collected data 5, information having regularity, and information with a risk of exposure, which is the degree to which information security is required. It is data in which the above information is de-identified with a specific token.

상술한 바와 같이 상기 비식별화 토큰을 이용하여 비식별화되는 부분은 예를 들면, 규칙성이 있는 주소 정보나 전화번호 정보 또는 모델이 이해하기 어려운 특정 정보, 노출 위험도가 있는 정보를 포함할 수 있다.As described above, the portion that is de-identified using the de-identification token may include, for example, address information or phone number information with regularity, specific information that is difficult for a model to understand, and information with a risk of exposure. have.

상기 데이터 생성부(30)는 생성 모델(31)을 이용하여 비식별화된 데이터(6)에 기반한 미세조정 학습을 수행하고, 미세조정 학습을 수행한 생성 모델(31)로부터 특정 도메인에 대한 텍스트데이터 증강을 수행하여 검수 데이터(7)를 생성할 수 있다.The data generator 30 performs fine-tuning learning based on unidentified data 6 using the generative model 31 , and texts for a specific domain from the generative model 31 on which the fine-tuning learning is performed. Data augmentation may be performed to generate inspection data (7).

상기 상기 생성 모델(31)은 통신망(N)을 통해 접속한 하나 이상의 외부 웹페이지로부터 수집된 다수의 텍스트데이터를 기반으로 선행 학습을 수행할 수 있고 GPT, BERT 등의 자연어 학습 모델일 수 있다.The generation model 31 may perform prior learning based on a plurality of text data collected from one or more external web pages accessed through the communication network N, and may be a natural language learning model such as GPT or BERT.

상기 검수부(40)는 데이터 생성부(30)에서 생성된 검수 데이터(7)에 대하여 검수자로부터 입력되는 검수 정보에 기반한 결과 데이터(8)를 추출할 수 있다.The inspection unit 40 may extract the result data 8 based on the inspection information input from the inspector with respect to the inspection data 7 generated by the data generating unit 30 .

즉, 상기 검수부(40)는 검수 데이터(7)의 디테일 부족 또는 불완전한 경우, 예를 들어, 검수 데이터(7)에 포함된 주소 또는 전화번호와 같이 규칙성이 정해져 있는 문장에 대해서 검수 데이터(7)가 비상식적이거나 규칙을 벗어나는 경우이며, 이러한 경우의 일례는 예를 들어, 주소 데이터가 “경기도 인천 특별시 광진구”와 같이 비상식적인 데이터가 생성되는 경우이다. That is, if the inspection unit 40 is insufficient or incomplete detail of the inspection data 7, for example, the inspection data ( 7) is nonsensical or out of the rules, and an example of such a case is when, for example, nonsensical data such as address data “Gwangjin-gu, Incheon, Gyeonggi-do” is generated.

또하나 결과 데이터(8)의 도출은 종래와 같이 검수자(V)에 의하여 수행될 수 있지만, 이미 검수 데이터(7)의 내용 자체가 인식하기 어려운 정보, 규칙성이 있는 정보, 노출 위험도가 있는 정보 중 적어도 어느 하나 이상의 정보를 가지고 있지 않은 상태이므로 검수자(V)를 통한 검수 수행상의 난이도가 현저하게 낮아지게 되어 전체적인 검수에 소요되는 시간 및 인력을 감소시킬 수 있으며, 이를 통하여 결과 데이터(8)의 품질도 향상될 수 있다.In addition, the derivation of the result data 8 can be performed by the inspector V as in the prior art, but the content of the inspection data 7 itself is difficult to recognize, information with regularity, information with a risk of exposure Since it does not have at least any one or more of the information, the difficulty in performing the inspection through the inspector (V) is significantly lowered, thereby reducing the time and manpower required for the overall inspection, and through this, the result data (8) Quality can also be improved.

상기 복원부(50)는 결과 데이터(8)에 포함된 비식별화 토큰을 미리 설정된 규칙 정보에 기반하여 복원한 최종 데이터(9)를 생성하여 결과데이터 데이터베이스(300)에 저장한다.The restoration unit 50 generates the final data 9 restored by the de-identification token included in the result data 8 based on preset rule information and stores it in the result data database 300 .

도4는 본 발명의 생성 모델을 이용한 텍스트 데이터 증강 처리 방법의 흐름도이다.4 is a flowchart of a text data augmentation processing method using a generative model of the present invention.

도3 및 도4를 참조하면, 본 발명의 일 실시 예에 따른 생성 모델을 이용한 텍스트 데이터 증강 처리 방법은, 수집부(10)가 생성 모델(31)의 학습을 위한 수집 데이터(5)를 수집(S1)하고, 수집된 데이터는 수집 데이터 데이터베이스(200)에 저장한다.3 and 4 , in the text data augmentation processing method using a generative model according to an embodiment of the present invention, the collection unit 10 collects the collection data 5 for learning the generative model 31 . (S1), and the collected data is stored in the collection data database (200).

사전 검수부(20)는 S1 단계에서 수집된 수집 데이터(5)의 일부 내용을 미리 설정된 비식별화 토큰(token)으로 비식별화시키는 사전 검수를 수행하여 비식별화된 데이터(6)를 생성(S2)할 수 있다.The pre-inspection unit 20 generates de-identified data 6 by performing a pre-inspection of de-identifying some of the collected data 5 collected in step S1 with a preset de-identification token (token) ( S2) can be done.

상기 S2 단계에서 수집 데이터(5)의 내용에서 생성 모델이 인식하기 어려운 정보, 규칙성이 있는 정보, 정보에 관한 보안이 요구되는 정도인 노출 위험도가 있는 정보중 적어도 어느 하나 이상의 정보를 특정 토큰(token)으로 비식별화(unidentified)시킨 데이터를 생성한다.In the content of the collected data 5 in the step S2, at least any one or more of information that is difficult to recognize by the generation model, information with regularity, and information with a degree of exposure risk, which is the degree to which information security is required, is added to a specific token ( token) to generate unidentified data.

계속해서, 데이터 생성부(30)는 생성 모델(31)을 이용하여 비식별화된 데이터(6)에 기반한 미세조정 학습을 수행(S3)할 수 있다.Subsequently, the data generator 30 may perform fine-tuning learning based on the de-identified data 6 using the generation model 31 ( S3 ).

상기 S3 단계의 미세조정 학습은 생성 모델(31)이 특정 도메인에 대한 수집 데이터를 이용하여 해당 도메인에 대한 데이터 증강을 수행할 수 있도록 학습하는 것이다.The fine-tuning learning in step S3 is to learn so that the generation model 31 can perform data augmentation for a specific domain by using the collected data for the specific domain.

상기 생성 모델은 GPT 모델과 BERT 모델과 같은 공지의 생성 모델일 수 있다.The generative model may be a known generative model such as a GPT model and a BERT model.

또한, 상기 데이터 생성부(30)는 미세조정 학습을 수행한 생성 모델(31)로부터 특정 도메인에 대한 텍스트 데이터 증강을 수행하여 검수 데이터(7)를 생성(S4)한다. In addition, the data generation unit 30 generates (S4) verification data 7 by performing text data augmentation for a specific domain from the generation model 31 on which fine-tuning learning has been performed.

검수부(40)는 S4 단계에서 생성된 검수 데이터(7)에 대하여 검수자로부터 입력되는 검수 정보에 기반한 결과 데이터(8)를 추출(S5)한다.The inspection unit 40 extracts the result data 8 based on the inspection information input from the inspector for the inspection data 7 generated in step S4 (S5).

즉, 상기 검수부(40)는 미세조정을 거친 생성 모델(31)을 이용하여 원하는 텍스트 데이터를 증강할 경우, 생성 모델(31)은 비식별화 토큰을 포함하여 데이터 증강을 수행하게 되므로, 비식별화 토큰을 제외한 부분에 대해서 검수를 진행하여 결과 데이터(8)를 선정할 수 있다.That is, when the verification unit 40 augments the desired text data using the fine-tuning generation model 31, the generation model 31 performs data augmentation including the de-identification token, so The result data (8) can be selected by performing inspection on the part except for the identification token.

복원부(50)는 상기 S5 단계에서 추출된 결과 데이터(8)에서, 상기 결과 데이터(8)에 포함된 비식별화 토큰을 미리 설정된 규칙 정보에 기반하여 복원한 최종데이터(9)를 생성(S6)하고, 생성된 최종 데이터(9)는 결과데이터 데이터베이스(300)에 저장한다.The restoration unit 50 generates the final data 9 in which the de-identification token included in the result data 8 is restored based on preset rule information in the result data 8 extracted in step S5 ( S6) and the generated final data 9 is stored in the result data database 300 .

따라서, 생성 모델을 이용한 데이터 증강 처리 시스템 및 그 방법은, 데이터 생성시 검수에 소요되는 비용을 절감시킬 수 있다.Accordingly, the data augmentation processing system and method using the generation model can reduce the cost of inspection when generating data.

또한, 생성 모델이 이해하지 못하는 부분을 비식별화시킴으로써 생성 모델의 성능을 보다 향상시킬 수 있게 된다.In addition, the performance of the generative model can be further improved by de-identifying the part that the generative model does not understand.

또한, 비식별화를 통한 전체적인 텍스트 길이가 감소됨으로써 좀더 효과적으로 GPU 자원을 활용할 수 있다.In addition, since the overall text length is reduced through de-identification, GPU resources can be more effectively utilized.

또한, 비식별화되는 부분을 개인정보로 설정하게 되면 개인정보 유출 문제를 미연에 방지할 수 있게 된다. In addition, if the de-identified part is set as personal information, the problem of personal information leakage can be prevented in advance.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.As described above, although described with reference to the preferred embodiment of the present invention, those skilled in the art can variously modify and change the present invention within the scope without departing from the spirit and scope of the present invention described in the claims below. You will understand that it can be done.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.In addition, the reference numbers described in the claims of the present invention are only described for clarity and convenience of description, and are not limited thereto, and in the process of describing the embodiment, the thickness of the lines shown in the drawings or the size of components, etc. may be exaggerated for clarity and convenience of explanation.

또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In addition, the above-mentioned terms are terms defined in consideration of functions in the present invention, which may vary depending on the intention or custom of the user or operator, so the interpretation of these terms should be made based on the content throughout this specification. .

또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다. In addition, even if it is not explicitly shown or described, a person of ordinary skill in the art to which the present invention pertains can make various modifications including the technical idea according to the present invention from the description of the present invention. Obviously, this still falls within the scope of the present invention.

또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.In addition, the above embodiments described with reference to the accompanying drawings have been described for the purpose of explaining the present invention, and the scope of the present invention is not limited to these embodiments.

10: 수집부
20: 사전검수부
30: 결과 데이터 생성부
40: 검수부
50: 복원부
100: 외부 웹페이지
200: 수집 데이터 데이터베이스
300: 결과 데이터 데이터베이스
10: Collector
20: Pre-Inspection Department
30: result data generation unit
40: inspection department
50: restoration unit
100: external web page
200: collected data database
300: result data database

Claims (8)

생성 모델(31)의 학습을 위하여 수집된 수집 데이터(5)를 수집 데이터 데이터베이스(200)에 저장하는 수집부(10);
상기 수집 데이터(5)의 일부 내용을 미리 설정된 비식별화 토큰(token)으로 비식별화시키는 사전 검수를 수행하여 비식별화된 데이터(6)를 생성하되,
수집 데이터(5)의 내용중 상기 생성 모델(31)이 인식하기 어려운 정보, 규칙성을 가지는 정보, 특정 정보에 관한 보안이 요구되는 노출 위험도가 있는 정보 중 하나 이상의 정보를 특정 토큰(token)으로 비식별화시켜 비식별화된 데이터(6)를 생성하는 사전검수부(20);
상기 생성 모델(31)을 상기 비식별화된 데이터(6)에 기반한 미세조정 학습을 수행하고, 미세조정 학습을 수행한 생성 모델(31)로부터 특정 도메인에 대한 비식별화 토큰이 포함된 비식별화된 데이터(6) 기반의 텍스트데이터 증강을 수행하여 검수 데이터(7)를 생성하는 데이터생성부(30);
상기 생성된 검수 데이터(7)에 대하여 검수자로부터 입력되는 검수 정보에 기반한 결과 데이터(8)를 도출하는 검수부(40); 및
상기 결과 데이터(8)에 포함된 비식별화 토큰을 미리 설정된 규칙 정보에 기반한 임의의 랜덤 번호 및 문자 중 어느 하나를 이용하여 복원한 최종데이터(9)를 생성하여 결과 데이터 데이터베이스(300)에 저장하는 복원부(50);를 포함하는 생성 모델을 이용한 데이터 증강 처리 시스템.
a collection unit 10 for storing the collection data 5 collected for learning the generation model 31 in the collection data database 200;
Performing a pre-inspection of de-identifying some of the collected data 5 with a preset de-identification token (token) to generate de-identified data 6,
Among the contents of the collected data 5, one or more information among information that is difficult to recognize by the generation model 31, information having regularity, and information with a risk of exposure requiring security for specific information is converted to a specific token. a pre-checking unit 20 for generating de-identified data 6 by de-identification;
The generative model 31 performs fine-tuning learning based on the de-identified data 6, and de-identification including a de-identification token for a specific domain from the generative model 31 on which fine-tuning learning is performed. Data generation unit 30 for generating verification data (7) by performing text data augmentation based on the data (6);
Inspection unit 40 for deriving result data (8) based on inspection information input from the inspector for the generated inspection data (7); and
The de-identification token included in the result data 8 is restored using any one of random numbers and characters based on preset rule information to generate the final data 9 and store it in the result data database 300 A data augmentation processing system using a generative model comprising a;
제 1 항에 있어서,
상기 생성 모델(31)은 임의의 텍스트데이터를 이용하여 선행 학습된 것을 특징으로 하는 생성 모델을 이용한 데이터 증강 처리 시스템.
The method of claim 1,
The generative model 31 is a data augmentation processing system using a generative model, characterized in that it has been previously learned using arbitrary text data.
삭제delete 삭제delete a) 수집부(10)가 생성 모델(31)의 학습을 위한 수집 데이터(5)를 수집하여 수집 데이터 데이터베이스(200)에 저장하는 단계;
b) 사전검수부(20)가 수집 데이터(5)의 일부 내용을 미리 설정된 비식별화 토큰(token)으로 비식별화시키는 사전 검수를 수행하여 비식별화된 데이터(6)를 생성하되, 수집 데이터(5)의 내용중 상기 생성 모델(31)이 인식하기 어려운 정보, 규칙성을 가지는 정보, 특정 정보에 관한 보안이 요구되는 노출 위험도가 있는 정보 중 하나 이상의 정보를 특정 토큰(token)으로 비식별화시켜 비식별화된 데이터(6)를 생성하는 단계;
c) 데이터생성부(30)가 생성 모델(31)을 비식별화된 데이터(6)에 기반한 미세조정 학습을 수행하고, 미세조정 학습을 수행한 생성 모델(31)로부터 특정 도메인에 대한 비식별화 토큰이 포함된 비식별화된 데이터(6) 기반의 텍스트데이터 증강을 수행하여 검수 데이터(7)를 생성하는 단계;
d) 검수부(40)가 생성된 검수 데이터(7)에 대하여 검수자로부터 입력되는 검수 정보에 기반한 결과 데이터(8)를 추출하는 단계; 및
e) 복원부(50)가 결과 데이터(8)에 포함된 비식별화 토큰을 미리 설정된 규칙 정보에 기반한 임의의 랜덤 번호 및 문자 중 어느 하나를 이용하여 복원한 최종데이터(9)를 생성하여 결과 데이터 데이터베이스(300)에 저장하는 단계;를 포함하는 생성 모델을 이용한 데이터 증강 처리 방법.
a) collecting, by the collecting unit 10, collecting data 5 for learning of the generating model 31 and storing the collected data 5 in the collected data database 200;
b) The pre-inspection unit 20 generates de-identified data 6 by performing a pre-inspection that de-identifies some contents of the collected data 5 with a preset de-identification token (token), but the collected data Among the contents of (5), one or more information among information difficult to recognize by the generation model 31, information having regularity, and information having a risk of exposure requiring security for specific information is de-identified as a specific token. generating de-identified data (6);
c) the data generation unit 30 performs fine-tuning learning based on the de-identified data 6 on the generative model 31, and de-identification of a specific domain from the generative model 31 on which the fine-tuning learning is performed generating verification data (7) by performing text data augmentation based on de-identified data (6) containing a currency token;
d) extracting the result data (8) based on the inspection information input from the inspector with respect to the inspection data (7) generated by the inspection unit 40; and
e) The restoration unit 50 generates the final data 9 restored by using any one of random numbers and characters based on preset rule information for the de-identification token included in the result data 8, and results Data augmentation processing method using a generative model comprising; storing in the data database (300).
삭제delete 제 5 항에 있어서,
상기 c) 단계의 생성 모델(31)은 통신망(N)을 통해 접속한 하나 이상의 외부 웹페이지로부터 수집된 다수의 텍스트 데이터를 기반으로 선행 학습된 것을 특징으로 하는 생성 모델을 이용한 데이터 증강 처리 방법.
6. The method of claim 5,
The data augmentation processing method using a generative model, characterized in that the generation model 31 in step c) is pre-learned based on a plurality of text data collected from one or more external web pages accessed through the communication network N.
삭제delete
KR1020220027869A 2022-03-04 2022-03-04 Data augmentation processing system using the generative model and methods therefor KR102456513B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220027869A KR102456513B1 (en) 2022-03-04 2022-03-04 Data augmentation processing system using the generative model and methods therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220027869A KR102456513B1 (en) 2022-03-04 2022-03-04 Data augmentation processing system using the generative model and methods therefor

Publications (1)

Publication Number Publication Date
KR102456513B1 true KR102456513B1 (en) 2022-10-20

Family

ID=83804918

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220027869A KR102456513B1 (en) 2022-03-04 2022-03-04 Data augmentation processing system using the generative model and methods therefor

Country Status (1)

Country Link
KR (1) KR102456513B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102611665B1 (en) 2022-11-16 2023-12-08 서울시립대학교 산학협력단 Server, method and computer program for augmenting numerical learning data

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150030337A (en) * 2013-09-12 2015-03-20 한국전자통신연구원 Apparatus and for building language model for speech recognition
KR101704702B1 (en) * 2016-04-18 2017-02-08 (주)케이사인 Tagging based personal data de-identification system and de-identification method of personal data
KR20180059335A (en) * 2016-11-24 2018-06-04 한국전자통신연구원 A Virtuous Circle Self-Learning Method and Apparatus for Knowledge Augmented
KR20180071021A (en) * 2016-12-19 2018-06-27 성균관대학교산학협력단 Consistent topic text generation method and text generation apparatus performing the same
WO2019113122A1 (en) * 2017-12-04 2019-06-13 Conversica, Inc. Systems and methods for improved machine learning for conversations
KR20200040652A (en) 2018-10-10 2020-04-20 고려대학교 산학협력단 Natural language processing system and method for word representations in natural language processing
KR20200044337A (en) 2018-10-19 2020-04-29 한국전자통신연구원 Deep learning-based emotional text-to-speech apparatus and method using generative model-based data augmentation
KR20200110400A (en) 2018-05-18 2020-09-23 구글 엘엘씨 Learning data augmentation policy

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150030337A (en) * 2013-09-12 2015-03-20 한국전자통신연구원 Apparatus and for building language model for speech recognition
KR101704702B1 (en) * 2016-04-18 2017-02-08 (주)케이사인 Tagging based personal data de-identification system and de-identification method of personal data
KR20180059335A (en) * 2016-11-24 2018-06-04 한국전자통신연구원 A Virtuous Circle Self-Learning Method and Apparatus for Knowledge Augmented
KR20180071021A (en) * 2016-12-19 2018-06-27 성균관대학교산학협력단 Consistent topic text generation method and text generation apparatus performing the same
WO2019113122A1 (en) * 2017-12-04 2019-06-13 Conversica, Inc. Systems and methods for improved machine learning for conversations
KR20200110400A (en) 2018-05-18 2020-09-23 구글 엘엘씨 Learning data augmentation policy
KR20200040652A (en) 2018-10-10 2020-04-20 고려대학교 산학협력단 Natural language processing system and method for word representations in natural language processing
KR20200044337A (en) 2018-10-19 2020-04-29 한국전자통신연구원 Deep learning-based emotional text-to-speech apparatus and method using generative model-based data augmentation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102611665B1 (en) 2022-11-16 2023-12-08 서울시립대학교 산학협력단 Server, method and computer program for augmenting numerical learning data

Similar Documents

Publication Publication Date Title
CN111881291A (en) Text emotion classification method and system
CN109344234A (en) Machine reads understanding method, device, computer equipment and storage medium
Hakak et al. Digital Hadith authentication: Recent advances, open challenges, and future directions
CN111709223B (en) Sentence vector generation method and device based on bert and electronic equipment
KR102456513B1 (en) Data augmentation processing system using the generative model and methods therefor
Ren et al. A bi-directional lstm model with attention for malicious url detection
Kwon et al. Explainability-based mix-up approach for text data augmentation
Kathuria et al. Real time sentiment analysis on twitter data using deep learning (Keras)
Taofeek et al. A cognitive deception model for generating fake documents to curb data exfiltration in networks during cyber-attacks
CN111767714A (en) Text smoothness determination method, device, equipment and medium
Shen et al. Effects of similarity score functions in attention mechanisms on the performance of neural question answering systems
US20220414344A1 (en) Method and system for generating an intent classifier
Xu et al. Multi-level matching networks for text matching
Munshi et al. Towards an automated islamic fatwa system: Survey, dataset and benchmarks
Bharathi et al. Machine Learning Based Approach for Sentiment Analysis on Multilingual Code Mixing Text.
CN110705310B (en) Article generation method and device
CN116821285A (en) Text processing method, device, equipment and medium based on artificial intelligence
CN114282498B (en) Data knowledge processing system applied to electric power transaction
Afra et al. Developing Sentiment Analysis of Indonesian Social Media Based on Convolutional Neural Network for Smarter Society
CN116776857A (en) Customer call key information extraction method, device, computer equipment and medium
Kulkarni et al. Advanced natural language processing
CN116541517A (en) Text information processing method, apparatus, device, software program, and storage medium
Khan et al. Towards Building an Arabic Plagiarism Detection System: Plagiarism Detection in Arabic
JP6843689B2 (en) Devices, programs and methods for generating contextual dialogue scenarios
Khan et al. Enhancement of sentiment analysis by utilizing noisy social media texts

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant