JP2023018624A - Data generation method using language model, computer device, and computer program - Google Patents

Data generation method using language model, computer device, and computer program Download PDF

Info

Publication number
JP2023018624A
JP2023018624A JP2021209463A JP2021209463A JP2023018624A JP 2023018624 A JP2023018624 A JP 2023018624A JP 2021209463 A JP2021209463 A JP 2021209463A JP 2021209463 A JP2021209463 A JP 2021209463A JP 2023018624 A JP2023018624 A JP 2023018624A
Authority
JP
Japan
Prior art keywords
data
prompt
label
processor
generation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021209463A
Other languages
Japanese (ja)
Other versions
JP7343566B2 (en
Inventor
ガンミン ユ
Kang Min Yoo
ドンジュ パク
Dongju Park
ジェウク カン
Jaewook Kang
サンウ イ
Sang Woo Lee
ウミョン パク
Woomyoung Park
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2023018624A publication Critical patent/JP2023018624A/en
Application granted granted Critical
Publication of JP7343566B2 publication Critical patent/JP7343566B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a data generation method, a computer device, and a computer program that use a language model.SOLUTION: A data generation method using a language model comprises the steps of: constructing a prompt that is an input sentence of a language model using original data; and inputting the prompt into the language model and generating new data and label information for the new data from the language model.SELECTED DRAWING: Figure 3

Description

新規性喪失の例外適用申請有り There is an application for exception to loss of novelty

以下の説明は、テキストデータを生成する技術に関する。 The following description relates to techniques for generating text data.

NLP(natural language processing)モデルを構築するためには、データ設計とデータ収集の先行によってモデル学習に必要なデータを確保する。確保したデータに基づいてモデルを学習した後、性能を評価しながらデータ設計やモデル学習の改善作業を繰り返す。 In order to build an NLP (natural language processing) model, data necessary for model learning is secured through data design and data collection. After learning the model based on the secured data, it repeats the improvement work of data design and model learning while evaluating the performance.

PLM(pretrained language model)が登場してからは、PLMを基盤に特定のドメインやタスクを解くNLPモデルによってファインチューニング(fine tuning)を行う方法が適用されている。 Since the emergence of the pretrained language model (PLM), fine tuning has been applied using an NLP model that solves a specific domain or task based on the PLM.

さらに、NLPモデルを効率的に学習するためには、データ拡張(data augmentation)技法が使用されている。 Furthermore, data augmentation techniques have been used to efficiently train NLP models.

一例として、EDA(easy data augmentation)のようにモデル学習のために表面的に文句を操作してテキストデータを生成する技術は、生成された文章の文法性が低く、文章の意味が意図するものとの間に大きな差が生じる場合がある。 As an example, technology that superficially manipulates phrases to generate text data for model learning, such as EDA (easy data augmentation), has a low grammatical nature of the generated sentences, and the meaning of the sentences does not correspond to the intended meaning. There may be large differences between

他の例として、再変換(Back-translation)のように機械翻訳モデルを利用して類似文章を生成する技術は、特定の言語的特性をもつ翻訳コーパスによって学習された翻訳モデルを活用するため、生成された文体が(生成の対象となる)既存のテキストデータの言語的特性を反映することができず、汎用的な使用が不可能であるという短所がある。 As another example, a technique for generating similar sentences using a machine translation model like retranslation (Back-translation) utilizes a translation model learned by a translation corpus with specific linguistic characteristics, There is a disadvantage that the generated writing style cannot reflect the linguistic characteristics of the existing text data (which is the object of generation), and general-purpose use is impossible.

多様な言語特性のコーパスによって学習された大規模言語モデルを利用して自然語生成結果を導き出すことができ、導き出された生成結果から新規データを抽出することができる、データ拡張技術を提供する。 To provide a data augmentation technology capable of deriving a natural language generation result by using a large-scale language model trained by a corpus of various language characteristics and extracting new data from the derived generation result.

コンピュータ装置が実行するデータ生成方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記データ生成方法は、前記少なくとも1つのプロセッサが、原本データを利用して言語モデルの入力文となるプロンプト(prompt)を構成する段階、および前記少なくとも1つのプロセッサが、前記プロンプトを前記言語モデルに入力し、前記言語モデルから新規データと前記新規データに対するラベル情報を生成する段階を含む、データ生成方法を提供する。 A data generating method performed by a computing device, said computing device including at least one processor configured to execute computer readable instructions contained in a memory, said data generating method comprising said at least one a processor constructing a prompt that is an input sentence of a language model using original data; and the at least one processor inputting the prompt to the language model and generating new data from the language model. and generating label information for the new data.

一側面によると、前記生成する段階は、前記プロンプト内のラベルに該当する自然語に対する確率分布(probability distribution)を利用してラベル分布を示すソフトラベルを生成する段階を含んでよい。 According to one aspect, the generating may include generating soft labels representing label distributions using a probability distribution for natural words corresponding to labels in the prompt.

他の側面によると、前記データ生成方法は、前記少なくとも1つのプロセッサが、テキストの意味的多様性に応じて、学習データセットから前記原本データを選択する段階をさらに含んでよい。 According to another aspect, the data generation method may further include the at least one processor selecting the original data from a training data set according to semantic diversity of text.

また他の側面によると、前記選択する段階は、前記学習データセットからラベルタイプの個数だけの前記原本データを選択してよい。 According to another aspect, the selecting step may select the original data corresponding to the number of label types from the learning data set.

また他の側面によると、前記構成する段階は、テキストタイプとラベルタイプが含まれた形式で前記プロンプトを構成してよい。 According to yet another aspect, the configuring step may configure the prompt in a format that includes a text type and a label type.

また他の側面によると、前記構成する段階は、テキストタイプとラベルタイプ、およびラベル位置区分子(verbalizer)が含まれた形式で前記プロンプトを構成してよい。 According to another aspect, the constructing step may construct the prompt in a format including a text type, a label type, and a label verbalizer.

また他の側面によると、前記構成する段階は、前記原本データを加工し、前記原本データと同一形式の自然語形態で前記プロンプトを構成してよい。 According to another aspect, the constructing step may process the original data to construct the prompt in a natural language form having the same format as the original data.

また他の側面によると、前記構成する段階は、タスク仕様(task specification)、前記原本データ、およびプロンプトテンプレート(template)を組み合わせて前記プロンプトを構成してよい。 According to yet another aspect, the constructing step may construct the prompt by combining a task specification, the original data, and a prompt template.

また他の側面によると、前記生成する段階は、前記プロンプト内のテキストとラベルに該当する自然語に対し、以前のトークンの確率分布を次のトークンの入力として伝達する自己回帰(auto regressive)方式を利用して前記新規データと前記ラベル情報を抽出する段階を含んでよい。 According to another aspect, the generating step is an auto-regressive method of transferring a probability distribution of previous tokens to natural words corresponding to text and labels in the prompt as input of the next token. extracting the new data and the label information using .

さらに他の側面によると、前記抽出する段階は、ヒューリスティック(heuristic)を利用したビームサーチ(beam search)により、前記以前のトークンの確率分布のうちの上位一部の確率を前記次のトークンの入力として伝達する段階を含んでよい。 According to still another aspect, the step of extracting is performed by heuristic beam search to extract the probability of the upper part of the probability distribution of the previous token from the input of the next token. and transmitting as

前記データ生成方法を前記コンピュータ装置に実行させるためのコンピュータプログラムを提供する。 A computer program is provided for causing the computer device to execute the data generation method.

コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、原本データを利用して言語モデルの入力文となるプロンプトを構成する過程、および前記プロンプトを前記言語モデルに入力し、前記言語モデルから新規データと前記新規データに対するラベル情報を生成する過程を処理する、コンピュータ装置を提供する。 A computing device comprising at least one processor configured to execute computer readable instructions contained in a memory, wherein the at least one processor utilizes original text data to serve as input sentences for a language model. A computing device is provided for processing the steps of constructing a prompt, inputting the prompt into the language model, and generating new data and label information for the new data from the language model.

本発明の実施形態によると、言語モデルを利用して原本データを変形したり拡張したりして新規データを生成し、言語モデルが認知している知識を新規データを通じて転移することにより、データ収集の投入工数を著しく減らすことができ、モデル軽量化の効果を達成することができる。 According to the embodiment of the present invention, the language model is used to transform or expand the original data to generate new data, and the knowledge recognized by the language model is transferred through the new data to collect data. The input man-hours can be significantly reduced, and the effect of model weight reduction can be achieved.

本発明の一実施形態における、コンピュータ装置の内部構成の一例を説明するためのブロック図である。It is a block diagram for explaining an example of an internal configuration of a computer device in one embodiment of the present invention. 本発明の一実施形態における、大規模言語モデルを利用したテキスト拡張の概念を説明するための図である。FIG. 4 is a diagram for explaining the concept of text extension using a large-scale language model in one embodiment of the present invention; 本発明の一実施形態における、コンピュータ装置が実行することのできるデータ生成方法の例を示したフローチャートである。4 is a flow chart showing an example of a data generation method that can be executed by a computer device in one embodiment of the present invention; 本発明の一実施形態における、言語モデルの入力プロンプトを構成する過程を説明するための図である。FIG. 4 is a diagram for explaining the process of constructing an input prompt for a language model in one embodiment of the present invention; 本発明の一実施形態における、データ拡張過程を説明するための図である。FIG. 4 is a diagram for explaining a data extension process in one embodiment of the present invention; 本発明の一実施形態における、データ拡張過程を説明するための図である。FIG. 4 is a diagram for explaining a data extension process in one embodiment of the present invention; 本発明の一実施形態における、言語モデルを利用して新たな文章とラベル情報を生成する過程を説明するための図である。FIG. 4 is a diagram for explaining the process of generating new sentences and label information using a language model in one embodiment of the present invention; 本発明の一実施形態における、分布のあるソフトラベルを生成する過程を説明するための図である。FIG. 4 is a diagram for explaining the process of generating distributed soft labels in an embodiment of the present invention; 本発明の一実施形態における、原本データの例と、原本データから生成された新規データの例を示した図である。FIG. 4 is a diagram showing an example of original data and an example of new data generated from the original data in one embodiment of the present invention;

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

本発明の実施形態は、言語モデルを利用したテキストデータ生成技術に関する。 The embodiments of the present invention relate to text data generation technology using language models.

本明細書で具体的に開示される事項を含む実施形態は、大規模言語モデルを利用することで、既存のテキストデータの特性と一貫性がある上に、高い文法性と自然さを備えた文章を生成することができる。さらに、該当の文章に対する高い品質のラベル情報も生成することができる。 Embodiments including the matters specifically disclosed in this specification are consistent with the characteristics of existing text data by using a large-scale language model, and have high grammaticality and naturalness. You can generate sentences. In addition, high quality label information can also be generated for the relevant sentences.

図1は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。例えば、本発明の実施形態に係るデータ生成システムは、図1に示したコンピュータ装置100によって実現されてよい。 FIG. 1 is a block diagram illustrating an example of a computing device in one embodiment of the invention. For example, the data generation system according to the embodiment of the present invention may be realized by computer device 100 shown in FIG.

図1に示すように、コンピュータ装置100は、本発明の実施形態に係るデータ生成方法を実行するための構成要素として、メモリ110、プロセッサ120、通信インタフェース130、および入力/出力インタフェース140を含んでよい。 As shown in FIG. 1, computer device 100 includes memory 110, processor 120, communication interface 130, and input/output interface 140 as components for executing the data generation method according to the embodiment of the present invention. good.

メモリ110は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ110とは区分される別の永続的記録装置としてコンピュータ装置100に含まれてもよい。また、メモリ110には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ110とは別のコンピュータ読み取り可能な記録媒体からメモリ110にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース130を通じてメモリ110にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク160を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置100のメモリ110にロードされてよい。 The memory 110 is a computer-readable storage medium and may include random access memory (RAM), read only memory (ROM), and permanent mass storage devices such as disk drives. Here, a permanent mass storage device such as a ROM or disk drive may be included in computer device 100 as a separate permanent storage device separate from memory 110 . Also stored in memory 110 may be an operating system and at least one program code. Such software components may be loaded into memory 110 from a computer-readable medium separate from memory 110 . Such other computer-readable recording media may include computer-readable recording media such as floppy drives, disks, tapes, DVD/CD-ROM drives, memory cards, and the like. In other embodiments, software components may be loaded into memory 110 through communication interface 130 that is not a computer-readable medium. For example, software components may be loaded into memory 110 of computing device 100 based on computer programs installed by files received over network 160 .

プロセッサ110は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ110または通信インタフェース130によって、プロセッサ120に提供されてよい。例えば、プロセッサ120は、メモリ110のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。 Processor 110 may be configured to process computer program instructions by performing basic arithmetic, logic, and input/output operations. Instructions may be provided to processor 120 by memory 110 or communication interface 130 . For example, processor 120 may be configured to execute received instructions according to program code stored in a storage device, such as memory 110 .

通信インタフェース130は、ネットワーク160を介してコンピュータ装置100が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータ装置100のプロセッサ120がメモリ110のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース130の制御にしたがってネットワーク160を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク160を経てコンピュータ装置100の通信インタフェース130を通じてコンピュータ装置100に受信されてよい。通信インタフェース130を通じて受信された信号や命令、データなどは、プロセッサ120やメモリ110に伝達されてよく、ファイルなどは、コンピュータ装置100がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。 Communication interface 130 may provide functionality for computer device 100 to communicate with other devices over network 160 . As an example, requests, commands, data, files, etc. generated by processor 120 of computer device 100 in accordance with program code recorded in a recording device such as memory 110 may be sent to others via network 160 under the control of communication interface 130 . device. Conversely, signals, instructions, data, files, etc. from other devices may be received by computing device 100 through communication interface 130 of computing device 100 over network 160 . Signals, instructions, data, etc., received through communication interface 130 may be transmitted to processor 120 and memory 110, and files, etc., may be stored in a recording medium (permanent recording device described above) that computing device 100 may further include. may be recorded.

通信方式が限定されることはなく、ネットワーク160が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク160は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク160は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。 The communication method is not limited, and not only the communication method using the communication network that can be included in the network 160 (eg, mobile communication network, wired Internet, wireless Internet, broadcasting network), but also the short distance between devices. Wireless communication may be included. For example, the network 160 includes a PAN (personal area network), a LAN (local area network), a CAN (campus area network), a MAN (metropolitan area network), a WAN (wide area network), a BBN (broadband network), and the Internet. Any one or more of the networks may be included. Additionally, network 160 may include any one or more of network topologies including, but not limited to, bus networks, star networks, ring networks, mesh networks, star-bus networks, tree or hierarchical networks, and the like. will not be

入力/出力インタフェース140は、入力/出力装置150とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース140は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置150は、コンピュータ装置100と1つの装置で構成されてもよい。 Input/output interface 140 may be a means for interfacing with input/output device 150 . For example, input devices may include devices such as microphones, keyboards, cameras, or mice, and output devices may include devices such as displays, speakers, and the like. As another example, the input/output interface 140 may be a means for interfacing with a device that integrates functions for input and output, such as a touch screen. Input/output device 150 may be one device with computing device 100 .

また、他の実施形態において、コンピュータ装置100は、図1の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置100は、上述した入力/出力装置150のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。 Also, in other embodiments, computing device 100 may include fewer or more components than the components of FIG. However, most prior art components need not be explicitly shown in the figures. For example, computing device 100 may be implemented to include at least some of the input/output devices 150 described above, and may also include other components such as transceivers, cameras, various sensors, databases, and the like. It's okay.

本発明で使用する大規模言語モデルとは、Few-shot Learning(FSL)などのような方式を利用してファインチューニング(fine-tuning)を経ずに推論することが可能な言語モデルを指称してよく、従来の一般的な言語モデルに比べて10倍以上も多い媒介変数(例えば、1000億個以上の媒介変数など)を有する。例えば、GPT-3(Generative Pre-trained Transformer3)やHyperClovaのような大規模言語モデルは、自然なテキストプロンプトで制御することが可能な優れたFew-shot学習機であって、プロンプトによって少量のデータだけでパターンを理解し、NLP問題を解決する能力であるインコンテキスト学習(in-context learning)が可能である。 The large-scale language model used in the present invention refers to a language model that can be inferred without fine-tuning using a method such as Few-shot Learning (FSL). and has more than 10 times more parameters (for example, more than 100 billion parameters) compared to conventional general language models. For example, large-scale language models such as GPT-3 (Generative Pre-trained Transformer 3) and HyperClova are excellent Few-shot learners that can be controlled by natural text prompts, and are capable of processing small amounts of data by prompts. In-context learning is possible, which is the ability to understand patterns and solve NLP problems with only one person.

本実施形態は、大規模言語モデルを活用して原本データから新規データを生成する新たなデータ拡張技法に関する。さらに、言語モデルで予測したソフトラベル(soft label)を活用して大規模言語モデルで知識を効果的に蒸溜すると同時に、テキスト摂動(textual perturbations)を生成することができる。 This embodiment relates to a new data augmentation technique that utilizes a large-scale language model to generate new data from original data. In addition, it is possible to leverage soft labels predicted by the language model to effectively distill knowledge in the large-scale language model while simultaneously generating textual perturbations.

図2は、本発明の一実施形態における、大規模言語モデルを利用したテキスト拡張の概念を説明するための図である。 FIG. 2 is a diagram for explaining the concept of text extension using a large-scale language model in one embodiment of the present invention.

図2を参照すると、本実施形態において、大規模言語モデル210は、モデル学習に必要な合成テキストデータ(synthetic text data)を生成するためのバックボーンとして使用される。 Referring to FIG. 2, in this embodiment, a large scale language model 210 is used as the backbone for generating the synthetic text data required for model training.

本実施形態によると、大規模言語モデル210を使用することで、原本データから、合成でありながらも極事実的(hyper-realistic)な新規データを生成することができる。 According to the present embodiment, the large language model 210 can be used to generate synthetic yet hyper-realistic new data from the original data.

ラベルがあるかラベルのない形態のテキストデータがあるとき、該当のデータを自然語形態のプロンプト入力文に変換し、変換されたプロンプト入力文を言語モデル210に入力として与えることで主語自然語生成結果を導き出してよい。導き出された生成結果を分析して新規データを抽出してよく、このとき、新規データは、原本データと同じ形態であって、ラベルがあるかラベルのない形態である。抽出された新規データは、原本テキストデータに追加してデータ収集に役立てたり、該当のデータによってモデルを生成すればモデルの性能が高まったりもする。 When there is text data in a form with or without a label, the corresponding data is converted into a prompt input sentence in a natural language form, and the converted prompt input sentence is given to the language model 210 as an input to generate the subject natural language. You can derive results. The derived results may be analyzed to extract new data, where the new data is in the same form as the original data, with or without a label. The extracted new data is added to the original text data to be used for data collection, or the performance of the model can be improved by generating a model based on the corresponding data.

言い換えれば、本実施形態は、データ拡張を目的とし、大規模言語モデル210で新規データを生成するためにプロンプト基盤の接近方式を使用するものであって、原本データからインスピレーションを受けた新規データと大規模言語モデル210によって予測されたソフトラベルを使用して小規模分類モデルを訓練することにより、知識の蒸溜を達成することができる。 In other words, the present embodiment aims at data augmentation and uses a prompt-based approach to generate new data in the large-scale language model 210. The new data inspired by the original data and the soft labels predicted by the large language model 210 can be used to train a small classification model, knowledge distillation can be achieved.

図3は、本発明の一実施形態における、コンピュータ装置が実行することのできるデータ生成方法の例を示したフローチャートである。 FIG. 3 is a flow chart illustrating an example of a data generation method that can be executed by a computing device in one embodiment of the present invention.

本実施形態に係るデータ生成方法は、上述したコンピュータ装置100によって実行されてよい。この場合、コンピュータ装置100のプロセッサ120は、メモリ110が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ120は、コンピュータ装置100に記録されたコードが提供する制御命令にしたがってコンピュータ装置100が図3のデータ生成方法に含まれる段階310~340を実行するようにコンピュータ装置100を制御してよい。 The data generation method according to this embodiment may be executed by the computer device 100 described above. In this case, processor 120 of computing device 100 may be implemented to execute control instructions by the code of the operating system and the code of at least one program contained in memory 110 . Here, the processor 120 controls the computer device 100 so that the computer device 100 executes steps 310 to 340 included in the data generation method of FIG. you can

本実施形態に係るデータ生成方法は、データ分布に基づいて、極めて流暢な新規データを生成することができる。 The data generation method according to the present embodiment can generate extremely fluent new data based on data distribution.

図3を参照すると、段階310で、プロセッサ120は、データセットからプロンプトに使用する原本データを選定してよい。 Referring to FIG. 3, at step 310, processor 120 may select original data to use for prompts from the data set.

以下では、テキスト分類タスクのためのデータ生成を例に挙げて原本データを選定する方法を説明する。分類タスクTが与えられた場合、学習データセットは、テキストxとラベルyの対からなる集合 In the following, the method of selecting original data will be described by taking data generation for a text classification task as an example. Given a classification task T, the training data set is a set of text x and label y pairs

Figure 2023018624000002
となる。
Figure 2023018624000002
becomes.

一例として、プロセッサ120は、学習データセットDからk個の原本データをランダムに選択してよい。プロセッサ120は、一様分布(uniform distribution)を利用してk個の原本データを選択してよい(数式(1))。 As an example, the processor 120 may randomly select k original data from the learning data set D. The processor 120 may select k original data using a uniform distribution (Equation (1)).

Figure 2023018624000003
Figure 2023018624000003

原本データの個数であるkは、費用と性能を考慮した上で決定されてよく、例えば、プロセッサ120は、kを2に設定して学習データセットDから2つの原本データを選択してよい。 The number of original data, k, may be determined in consideration of cost and performance.

他の例として、プロセッサ120は、学習データセットDから、テキストの意味的多様性を考慮した上で、原本データを選択してよい。意味的多様性とは、テキストの意味がどれほど多様であるかを示す指標である。意味的多様性が低い場合は、生成されたデータが既存のデータセットの原本と類似度が高いためデータ拡張効果が低い反面、意味的多様性が高いほどデータ拡張に役立つ新規データが得られる確率が高まる。 As another example, the processor 120 may select original data from the training data set D by considering the semantic diversity of the text. Semantic diversity is a measure of how diverse the meaning of a text is. If the semantic diversity is low, the generated data has a high degree of similarity to the original of the existing dataset, so the data expansion effect is low. increases.

意味的多様性を計算する方法として、文章ベクトル表現法(例えば、bag-of-words、aggregate word2vec、BERT embedding、BLEURTなど)を利用して各テキストのベクトルを抽出する。類似度(例えば、cosine similarityなど)を利用してベクトル間の距離を計算したり、BLEURTのようなネットワークを利用して各対のセマンティック距離(pairwise semantic distance)を計算したりした後、距離が遠い(semantic distanceが高い)対にさらに高い加重値を付与してサンプリングを実施してよい。 As a method for calculating semantic diversity, a vector of each text is extracted using a sentence vector representation method (eg, bag-of-words, aggregate word2vec, BERT embedding, BLEURT, etc.). After calculating the distance between vectors using similarity (e.g., cosine similarity, etc.), or using a network such as BLEURT to calculate the pairwise semantic distance, the distance is Sampling may be performed by giving higher weights to distant (high semantic distance) pairs.

プロセッサ120は、学習データセットDからクラスの数、すなわち、ラベルの種類に該当するだけの原本データを選択してよい。プロセッサ120は、同一ラベルの原本データのうちで各対のセマンティック距離が高いデータを優先的に選択してよい。セマンティック距離にα(alpha)乗数を適用してよく、このとき、αは、最適化が必要なハイパーパラメータに該当する。 The processor 120 may select original data corresponding to the number of classes, that is, the types of labels, from the learning data set D. FIG. The processor 120 may preferentially select data having a high semantic distance for each pair of original data with the same label. An α (alpha) multiplier may be applied to the semantic distance, where α corresponds to the hyperparameter that needs to be optimized.

段階320で、プロセッサ120は、言語モデルの入力に該当するプロンプトを構成してよい。プロセッサ120は、段階310で選択された原本データを利用して言語モデルの入力プロンプトを構成してよい。プロセッサ120は、与えられたNLP問題の特性が適切に反映された専用プロンプトテンプレートを製作してよく、このとき、プロンプトテンプレートには、該当のタスクの定義やメタ情報が含まれてよい。言い換えれば、プロセッサ120は、データセットから選択された原本データを加工して自然語形態のプロンプトを構成してよく、このとき、プロンプトは、言語モデルが理解することが可能な形式で製作され、言語モデルの入力として与えられる。プロセッサ120は、原本データがラベルのあるデータの場合、ラベル情報とともに入力文が生成されるようにプロンプトを設計する。 At step 320, the processor 120 may compose a prompt appropriate for inputting the language model. The processor 120 may use the original data selected in step 310 to construct a language model input prompt. The processor 120 may create a dedicated prompt template appropriately reflecting the characteristics of the given NLP problem, and the prompt template may include the definition of the corresponding task and meta information. In other words, the processor 120 may process the original data selected from the data set to construct a prompt in natural language form, where the prompt is produced in a format that can be understood by the language model, Given as input for the language model. The processor 120 designs the prompt such that when the original data is labeled data, the input sentence is generated along with the label information.

プロセッサ120は、学習データセットDからサンプリングされた原本データ The processor 120 extracts the original data sampled from the learning data set D

Figure 2023018624000004

が与えられるとき、説明ヘッダ(description header)、テキスト-ラベル対リスト、拡張接頭辞(augmentation prefix)で構成されたプロンプトを生成してよい。プロンプトは、言語モデルがデータ分布に対してさらに適切に一般化することが可能なように各タスクの情報を有しており、このようなタスク表示子(task indicator)は、タスクごとに固有であり、課題のメタ情報を提供してよい。
Figure 2023018624000004

may generate a prompt consisting of a description header, a text-label pair list, and an augmentation prefix. The prompt carries information for each task so that the language model can generalize better to the data distribution, and such task indicators are unique for each task. Yes, and may provide meta information for the issue.

プロンプトの形式自体は多様に構成されてよいが、一例として、プロンプトは、テキストタイプ(例えば、レビューや記事など)とラベルタイプ(例えば、感情や分類など)、さらにラベル位置を確認することのできるラベル-トークン区分子(label-token verbalizer)を含んでよい。 The format of the prompt itself may be configured in various ways, but as an example, the prompt can check the text type (eg, review, article, etc.), the label type (eg, sentiment, classification, etc.), and the label position. A label-token verbalizer may be included.

テキストタイプTは、入力テキストxのメタタイプであって、例えば、動画レビュー感情分析においてテキストタイプは動画レビューに該当する。ラベルタイプLはラベルクラスyのメタタイプであって、例えば、動画レビュー感情分析においてラベルタイプは感情に該当する。ラベル-トークン区分子v The text type T is a metatype of the input text x, and for example, the text type corresponds to movie review in movie review sentiment analysis. The label type L is a metatype of the label class y, and for example, in the movie review sentiment analysis, the label type corresponds to emotion. label-token block v

Figure 2023018624000005
においてプロンプトを公式化するためには、ラベルクラス
Figure 2023018624000005
To formulate the prompt in the label class

Figure 2023018624000006
と言語モデルの語彙
Figure 2023018624000006
and language model vocabulary

Figure 2023018624000007
で単語トークン間の1対1マッピングが必要となる。
Figure 2023018624000007
requires a one-to-one mapping between word tokens.

上述した3つのメタ情報は、タスク仕様(task specification) The three pieces of meta information mentioned above are the task specification

Figure 2023018624000008
を構成する。各タスクTは、プロンプトを公式化することのできる課題仕様
Figure 2023018624000008
configure. Each task T is a task specification that can formulate prompts.

Figure 2023018624000009
を必要とする。プロセッサ120は、基本的に、一般タスク仕様である
Figure 2023018624000009
need. The processor 120 is basically general task specific

Figure 2023018624000010
を使用してプロンプトを生成してよい。ここで、Iは、クラスラベルが語彙
Figure 2023018624000010
may be used to generate prompts. where I is the class label

Figure 2023018624000011
に存在すると仮定する識別関数(identity function)を意味する。
Figure 2023018624000011
We mean the identity function that we assume exists in .

要するに、図4に示すように、プロセッサ120は、与えられたタスクTに対し、タスク仕様410、学習データセット400からサンプリングされた原本データであるデータ例420、与えられたタスクTの特性を考慮したプロンプトテンプレート430を組み合わせて言語モデルの入力プロンプトを構成してよい。 In short, as shown in FIG. 4, for a given task T, the processor 120 considers the task specification 410, the example data 420, which is the original data sampled from the training data set 400, and the characteristics of the given task T. The prompt templates 430 may be combined to construct the language model input prompt.

図5の具体的な例から分かるように、プロセッサ120は、タスク仕様410、データ例420、およびプロンプトテンプレート430を利用して言語モデルが理解することが可能な形式で構成して言語モデルの入力プロンプト540を製作してよい。タスク仕様410の一例は表1に示すとおりであり、プロンプトテンプレート430の一例は表2に示すとおりである。データ例420として As can be seen from the specific example of FIG. 5, processor 120 utilizes task specification 410, data example 420, and prompt template 430 to organize and input the language model in a format understandable by the language model. A prompt 540 may be created. An example task specification 410 is shown in Table 1 and an example prompt template 430 is shown in Table 2. As data example 420

Figure 2023018624000012
が与えられる場合、入力プロンプト540は表3のように構成されてよい。
Figure 2023018624000012
, the input prompt 540 may be constructed as in Table 3.

Figure 2023018624000013
Figure 2023018624000013

再び図3を参照すると、段階330で、プロセッサ120は、段階320で構成されたプロンプトを言語モデルに入力し、言語モデルから新規データが含まれた自然語を生成してよい。言い換えれば、プロセッサ120は、プロンプト入力文を言語モデルに入力した後、言語モデルの完成機能によって言語生成結果を得てよい。 Referring again to FIG. 3, at step 330, processor 120 may input the prompts constructed at step 320 into the language model and generate natural language containing the new data from the language model. In other words, the processor 120 may obtain the language generation result by the completion function of the language model after inputting the prompt input sentence into the language model.

段階340で、プロセッサ120は、自然語生成結果を分析して新規データを抽出してよい。言語モデルは、入力文として与えられたプロンプトのパターンに沿って自然語を生成してよく、生成された自然語のパターン分析によって新規データを抽出してよい。 At step 340, processor 120 may analyze the natural language generation results to extract new data. The language model may generate natural language according to the prompt pattern given as an input sentence, and may extract new data by pattern analysis of the generated natural language.

図6に示すように、プロセッサ120は、プロンプト540を言語モデル210に入力し、言語モデル210に基づいて生成された自然語のパターンを分析することで、拡張データ650として(新しい文章、該当の文章のラベル情報)対を得てよい。一例として、プロセッサ120は、プロンプト540内のラベルに該当する自然語トークンの言語モデリング確率分布を使用してラベル分布を得てよい。 As shown in FIG. 6, the processor 120 inputs the prompt 540 into the language model 210 and analyzes the natural language patterns generated based on the language model 210 to generate extended data 650 (new sentences, corresponding label information) pairs of sentences may be obtained. As an example, processor 120 may obtain the label distribution using language modeling probability distributions of natural language tokens corresponding to labels in prompt 540 .

プロンプト基盤の接近方式の場合、拡張テキストx’とラベルy’は、プロンプト以後に自然語テキストとして連続で生成される。サンプリングされた原本データに基づいて予め定義されたプロンプトテンプレートは、言語モデルが(x’、y’)構造を生成するように入力文を提供するため、パターンマッチングによって各値を抽出してよい。また、共同テキスト(joint text)およびラベル生成は、生成されたテキストが正しいラベルに連結されるようにする。 In the case of the prompt-based approach method, the extended text x' and the label y' are continuously generated as natural language text after the prompt. A predefined prompt template based on the sampled original data may extract each value by pattern matching to provide an input sentence for the language model to generate a (x', y') structure. Also, joint text and label generation ensures that the generated text is concatenated to the correct label.

本実施形態のプロンプトデザインは、 The prompt design of this embodiment is

Figure 2023018624000014

に該当するラベルトークンがテキストx以後に生成されるように保障する。プロセッサ120は、言語モデルを利用して疑似ラベリング(pseudo-labeling)を実行してよく、拡張テキストx’のソフトラベル確率を得るためにラベル-トークンを生成する可能性(likelihood)を正規化してよい。
Figure 2023018624000014

is generated after the text x. Processor 120 may perform pseudo-labeling utilizing the language model, normalizing the likelihood of generating label-tokens to obtain soft label probabilities for the extended text x′. good.

拡張テキストx’がラベルy’によってラベリングされる疑似ラベル確率は、数式(2)のとおりである。 The pseudo-label probability that the extended text x' is labeled with the label y' is given by Equation (2).

Figure 2023018624000015
ここで、
Figure 2023018624000015
here,

Figure 2023018624000016
は、言語モデリング可能性(language modeling likelihood)を示し、
Figure 2023018624000016
denotes the language modeling likelihood,

Figure 2023018624000017
は、与えられたタスク仕様を構成する関数である。
Figure 2023018624000017
is a function that composes a given task specification.

本実施形態では、テキスト摂動、疑似ラベリング、知識の蒸溜を単一拡張タスクで効果的に結合することができる。実際に、疑似ラベルのある新規データは、交差エントロピー損失(cross-entropy loss)を使用して原本データとともに訓練される。 In this embodiment, text perturbation, pseudo-labeling, and knowledge distillation can be effectively combined in a single expansion task. In practice, pseudo-labeled new data are trained with the original data using cross-entropy loss.

図7を参照すると、プロセッサ120は、言語モデル210の完成機能による確率分布に基づいて新規データを生成してよく、このとき、ラベル-トークン区分子を基準にパターン分析でラベルに該当するトークンに対する確率を利用してソフトラベル、すなわち、分布のあるラベルを生成してよい。 Referring to FIG. 7, the processor 120 may generate new data based on the probability distribution according to the completion function of the language model 210. At this time, the token corresponding to the label in the pattern analysis is generated based on the label-token segment. Probabilities may be used to generate soft labels, ie labels with a distribution.

より詳しく説明すると、プロセッサ120は、プロンプト入力文として提供されるすべての自然語を特定のトークン化形態(tokenization scheme)(例えば、定数形態のインデックスなど)に変換した後、言語モデル210に入力する。(新しい文章、該当の文章のラベル情報)対を得るためには、自己回帰(autoregressive)に基づいて以前のトークンの確率分布を次のトークンの入力として伝達するようになるが、このとき、ヒューリスティック(heuristic)を利用したビームサーチ(beam search)によって上位n個の確率を次のトークンの入力として使用する。各トークンの自体確率分布と以前のトークンの確率分布を掛けたジョイント確率のうちで上位n個の確率を利用することにより、確率値の高いシーケンスを抽出することができる。 More specifically, the processor 120 converts all natural language provided as prompt input sentences into a particular tokenization scheme (e.g., constant form index, etc.) and then inputs them to the language model 210. . In order to obtain a (new sentence, label information of the corresponding sentence) pair, the probability distribution of the previous token is transmitted as the input of the next token based on autoregressive. The top n probabilities are used as input for the next token by a beam search using a heuristic. By using the top n probabilities among the joint probabilities obtained by multiplying the own probability distribution of each token by the probability distribution of the previous token, a sequence with a high probability value can be extracted.

例えば、図8に示すように、プロセッサ120は、ラベルに該当するトークンの確率を利用してソフトラベルを構成してよい。言い換えれば、ソフトラベルは、言語モデル210によって予測された正規化ラベルトークン分布から抽出されてよい。 For example, as shown in FIG. 8, processor 120 may construct soft labels using the probability of tokens falling under the label. In other words, soft labels may be extracted from the normalized label token distribution predicted by language model 210 .

図9を参照すると、肯定に分類されたデータ例1(910)と否定に分類されたデータ例2(920)が原本データとして与えられた場合、言語モデル210を利用した言語生成結果から新規データ930を抽出してよい。 Referring to FIG. 9, when data example 1 (910) classified as positive and data example 2 (920) classified as negative are given as original data, new data are obtained from the language generation result using the language model 210. 930 may be extracted.

プロセッサ120は、プロンプトによって生成された結果を分析し、合成された新規データとラベル情報を抽出する。このような作業を数回繰り返すことにより、本来はデータに存在していなかった多様なデータと正確な分類情報が得られるようになり、このようなデータを既存のデータに混合すれば、ダウンストリームNLPモデルをファインチューニングするのに使用することができる。新規データ930は、与えられた2つの原本データ910、920の言語的および構造的特徴を適切に参照して生成される出力データであって、該当の新規データ930に肯定と否定を適切に混ぜることで、既存には存在しない、完全に新たなデータとなる。 Processor 120 analyzes the results generated by the prompts and extracts synthesized new data and label information. By repeating this process several times, it becomes possible to obtain diverse data and accurate classification information that were not originally present in the data. It can be used to fine-tune NLP models. The new data 930 is output data generated by appropriately referring to the linguistic and structural features of the two given original data 910, 920, and the appropriate new data 930 is mixed with positive and negative. By doing so, it becomes completely new data that does not exist in the past.

新規データ930を学習データセットに追加することで、すなわち、データ拡張することで最終分類機性能を高めることができる。 Adding new data 930 to the training data set, ie data augmentation, can improve the final classifier performance.

原本データ910、920は、単一ラベルが付着された形態のハードラベルのあるデータや、新規データ930は、少なくとも2つ以上のラベル分布形態のソフトラベルのあるデータとして生成されてよい。 The original data 910 and 920 may be generated as hard-labeled data with a single label attached, and the new data 930 may be generated as soft-labeled data with at least two or more label distributions.

ソフトラベルをハードラベルに変換することは最大演算(max operation)などによって可能であるため、原本データ910、920や新規データ930はすべてハードラベル形態で活用することができる。学習過程では、交差エントロピー(cross entropy)などの損失関数を使用するため、ハードラベル形態とソフトラベル形態をすべて活用することができる。 Since a soft label can be converted into a hard label by max operation, the original data 910 and 920 and the new data 930 can all be used in hard label form. Since the learning process uses a loss function such as cross entropy, both hard label and soft label forms can be utilized.

このように、本発明の実施形態によると、言語モデルに基づいて既存のデータを変形したり拡張したりして拡張データを生成し、言語モデルが認知している知識を拡張データを通じて転移することにより、データ収集の投入工数を著しく減らすことができ、モデル軽量化の効果を達成することができる。 Thus, according to the embodiment of the present invention, extended data is generated by transforming or extending existing data based on the language model, and knowledge recognized by the language model is transferred through the extended data. As a result, the number of man-hours input for data collection can be significantly reduced, and the effect of reducing the weight of the model can be achieved.

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。 The apparatus described above may be realized by hardware components, software components, and/or a combination of hardware and software components. For example, the devices and components described in the embodiments include processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable gate arrays (FPGAs), programmable logic units (PLUs), microprocessors, Or may be implemented using one or more general purpose or special purpose computers, such as various devices capable of executing and responding to instructions. The processing unit may run an operating system (OS) and one or more software applications that run on the OS. The processor may also access, record, manipulate, process, and generate data in response to executing software. For convenience of understanding, one processing device may be described as being used, but those skilled in the art will appreciate that the processing device may include multiple processing elements and/or multiple types of processing elements. You will understand. For example, a processing unit may include multiple processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。 Software may include computer programs, code, instructions, or a combination of one or more of these, to configure a processor to operate at its discretion or to independently or collectively instruct a processor. You can Software and/or data may be embodied in any kind of machine, component, physical device, computer storage medium, or device for interpretation by, or for providing instructions or data to, a processing device. good. The software may be stored and executed in a distributed fashion over computer systems linked by a network. Software and data may be recorded on one or more computer-readable recording media.

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。 The method according to the embodiments may be embodied in the form of program instructions executable by various computer means and recorded on a computer-readable medium. Here, the medium may continuously record the computer-executable program or temporarily record it for execution or download. In addition, the medium may be a variety of recording means or storage means in the form of a combination of single or multiple hardware, and is not limited to a medium that is directly connected to a computer system, but distributed over a network. It may exist in Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, and ROM, RAM, flash memory, etc., and may be configured to store program instructions. Other examples of media include recording media or storage media managed by application stores that distribute applications, sites that supply or distribute various software, and servers.

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。 As described above, the embodiments have been described based on the limited embodiments and drawings, but those skilled in the art will be able to make various modifications and variations based on the above description. For example, the techniques described may be performed in a different order than in the manner described and/or components such as systems, structures, devices, circuits, etc. described may be performed in a manner different from the manner described. Appropriate results may be achieved when combined or combined, opposed or substituted by other elements or equivalents.

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。 Accordingly, different embodiments that are equivalent to the claims should still fall within the scope of the appended claims.

210:言語モデル
220:PLM
210: Language model 220: PLM

Claims (20)

コンピュータ装置が実行するデータ生成方法であって、
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記データ生成方法は、
前記少なくとも1つのプロセッサが、原本データを利用して言語モデルの入力文となるプロンプト(prompt)を構成する段階、および
前記少なくとも1つのプロセッサが、前記プロンプトを前記言語モデルに入力し、前記言語モデルから新規データと前記新規データに対するラベル情報を生成する段階
を含む、データ生成方法。
A data generation method executed by a computer device, comprising:
The computing device includes at least one processor configured to execute computer readable instructions contained in memory;
The data generation method includes:
the at least one processor constructing a prompt that is an input sentence of a language model using original data; and the at least one processor inputting the prompt into the language model to convert the language model into generating new data and label information for said new data from.
前記生成する段階は、
前記プロンプト内のラベルに該当する自然語に対する確率分布(probability distribution)を利用してラベル分布を示すソフトラベルを生成する段階
を含む、請求項1に記載のデータ生成方法。
The generating step includes:
2. The data generation method of claim 1, further comprising: generating soft labels representing label distributions using a probability distribution for natural words corresponding to labels in the prompt.
前記データ生成方法は、
前記少なくとも1つのプロセッサが、テキストの意味的多様性に応じて、学習データセットから前記原本データを選択する段階
をさらに含む、請求項1または2に記載のデータ生成方法。
The data generation method includes:
3. The data generating method of claim 1 or 2, further comprising: selecting the original data from a training data set according to the semantic diversity of the text by the at least one processor.
前記選択する段階は、
前記学習データセットからラベルタイプの個数だけの前記原本データを選択すること
を特徴とする、請求項3に記載のデータ生成方法。
The selecting step includes:
4. The data generation method according to claim 3, wherein the original data corresponding to the number of label types are selected from the learning data set.
前記構成する段階は、
テキストタイプとラベルタイプが含まれた形式で前記プロンプトを構成すること
を特徴とする、請求項1~4のうちのいずれか一項に記載のデータ生成方法。
The configuring step includes:
The data generation method according to any one of claims 1 to 4, characterized in that the prompt is configured in a format including a text type and a label type.
前記構成する段階は、
テキストタイプとラベルタイプ、およびラベル位置区分子(verbalizer)が含まれた形式で前記プロンプトを構成すること
を特徴とする、請求項1~4のうちのいずれか一項に記載のデータ生成方法。
The configuring step includes:
The data generation method according to any one of claims 1 to 4, characterized in that the prompt is constructed in a format including a text type, a label type, and a label verbalizer.
前記構成する段階は、
前記原本データを加工して、前記原本データと同一形式の自然語形態で前記プロンプトを構成すること
を特徴とする、請求項1~4のうちのいずれか一項に記載のデータ生成方法。
The configuring step includes:
The data generation method according to any one of claims 1 to 4, wherein the original data is processed to compose the prompt in the same natural language form as the original data.
前記構成する段階は、
タスク仕様(task specification)、前記原本データ、およびプロンプトテンプレート(template)を組み合わせて前記プロンプトを構成すること
を特徴とする、請求項1~4のうちのいずれか一項に記載のデータ生成方法。
The configuring step includes:
The data generation method according to any one of claims 1 to 4, wherein the prompt is constructed by combining a task specification, the original data, and a prompt template.
前記生成する段階は、
前記プロンプト内のテキストとラベルに該当する自然語に対し、以前のトークンの確率分布を次のトークンの入力として伝達する自己回帰(auto regressive)方式を利用して前記新規データと前記ラベル情報を抽出する段階
を含む、請求項1~8のうちのいずれか一項に記載のデータ生成方法。
The generating step includes:
extracting the new data and the label information using an auto-regressive method in which the probability distribution of the previous token is transferred as the input of the next token to the natural language corresponding to the text and label in the prompt; A data generation method according to any one of claims 1 to 8, comprising the step of:
前記抽出する段階は、
ヒューリスティック(heuristic)を利用したビームサーチ(beamsearch)により、前記以前のトークンの確率分布のうちの上位一部の確率を前記次のトークンの入力として伝達する段階
を含む、請求項9に記載のデータ生成方法。
The extracting step includes:
10. The data of claim 9, comprising communicating, as an input for the next token, a probability of an upper part of the probability distribution of the previous token by a beamsearch using a heuristic. generation method.
請求項1~10のうちのいずれか一項に記載のデータ生成方法をコンピュータ装置に実行させるためのコンピュータプログラム。 A computer program for causing a computer device to execute the data generation method according to any one of claims 1 to 10. コンピュータ装置であって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
原本データを利用して言語モデルの入力文となるプロンプトを構成する過程、および
前記プロンプトを前記言語モデルに入力し、前記言語モデルから新規データと前記新規データに対するラベル情報を生成する過程
を処理する、コンピュータ装置。
A computer device,
at least one processor configured to execute computer readable instructions contained in memory;
The at least one processor
A process of constructing a prompt as an input sentence of a language model using original data, and a process of inputting the prompt into the language model and generating new data and label information for the new data from the language model. , computer equipment.
前記少なくとも1つのプロセッサは、
前記プロンプト内のラベルに該当する自然語に対する確率分布を利用してラベル分布を示すソフトラベルを生成すること
を特徴とする、請求項12に記載のコンピュータ装置。
The at least one processor
13. The computer according to claim 12, wherein a soft label indicating label distribution is generated using a probability distribution for natural words corresponding to labels in the prompt.
前記少なくとも1つのプロセッサは、
テキストの意味的多様性に応じて、学習データセットから前記原本データを選択すること
を特徴とする、請求項12または13に記載のコンピュータ装置。
The at least one processor
14. The computer device according to claim 12 or 13, wherein said original data is selected from a learning data set according to semantic diversity of text.
前記少なくとも1つのプロセッサは、
前記学習データセットからラベルタイプの個数だけの前記原本データを選択すること
を特徴とする、請求項14に記載のコンピュータ装置。
The at least one processor
15. The computer apparatus according to claim 14, wherein said original data corresponding to the number of label types are selected from said learning data set.
前記少なくとも1つのプロセッサは、
テキストタイプとラベルタイプが含まれた形式で前記プロンプトを構成すること
を特徴とする、請求項12~15のうちのいずれか一項に記載のコンピュータ装置。
The at least one processor
A computer device according to any one of claims 12 to 15, characterized in that it organizes the prompts in a format that includes a text type and a label type.
前記少なくとも1つのプロセッサは、
テキストタイプとラベルタイプ、およびラベル位置区分子が含まれた形式で前記プロンプトを構成すること
を特徴とする、請求項12~15のうちのいずれか一項に記載のコンピュータ装置。
The at least one processor
16. The computer device according to any one of claims 12 to 15, wherein said prompt is configured in a format including text type, label type, and label position segment molecule.
前記少なくとも1つのプロセッサは、
タスク仕様、前記原本データ、およびプロンプトテンプレートを組み合わせて前記プロンプトを構成すること
を特徴とする、請求項12~15のうちのいずれか一項に記載のコンピュータ装置。
The at least one processor
16. The computer device according to any one of claims 12 to 15, wherein the prompt is constructed by combining the task specification, the original data, and the prompt template.
前記少なくとも1つのプロセッサは、
前記プロンプト内のテキストとラベルに該当する自然語に対し、以前のトークンの確率分布を次のトークンの入力として伝達する自己回帰方式を利用して前記新規データと前記ラベル情報を抽出すること
を特徴とする、請求項12~18のうちのいずれか一項に記載のコンピュータ装置。
The at least one processor
extracting the new data and the label information using an autoregressive method that transfers the probability distribution of the previous token as the input of the next token to the natural language corresponding to the text and label in the prompt. The computer device according to any one of claims 12 to 18, wherein:
前記少なくとも1つのプロセッサは、
ヒューリスティックを利用したビームサーチにより、前記以前のトークンの確率分布のうちの上位一部の確率を前記次のトークンの入力として伝達すること
を特徴とする、請求項19に記載のコンピュータ装置。
The at least one processor
20. The computer apparatus of claim 19, wherein a beam search using heuristics communicates probabilities in the upper part of the probability distribution of the previous token as input for the next token.
JP2021209463A 2021-07-27 2021-12-23 Data generation method, computer device, and computer program using language models Active JP7343566B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0098231 2021-07-27
KR1020210098231A KR102710087B1 (en) 2021-07-27 2021-07-27 Method, computer device, and computer program to generate data using language model

Publications (2)

Publication Number Publication Date
JP2023018624A true JP2023018624A (en) 2023-02-08
JP7343566B2 JP7343566B2 (en) 2023-09-12

Family

ID=85158153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021209463A Active JP7343566B2 (en) 2021-07-27 2021-12-23 Data generation method, computer device, and computer program using language models

Country Status (2)

Country Link
JP (1) JP7343566B2 (en)
KR (1) KR102710087B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725191A (en) * 2024-02-18 2024-03-19 卓世智星(天津)科技有限公司 Guide information generation method and device of large language model and electronic equipment
JP7455452B1 (en) 2023-07-23 2024-03-26 株式会社Stayway Information processing system, program and information processing method
WO2024177160A1 (en) * 2023-02-24 2024-08-29 株式会社LegalOn Technologies Information processing method

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240129589A (en) 2023-02-20 2024-08-27 서울대학교병원 Apparatus and method for generating medical prompt
KR102597357B1 (en) * 2023-05-16 2023-11-02 주식회사 씨지인사이드 Method and System for Sentiment Analysis of News Articles based on AI
KR102665956B1 (en) * 2023-06-22 2024-05-14 주식회사 페블러스 A method for providing a user interface to process synthetic data and a computing device on which the method is implemented
KR102666247B1 (en) * 2023-10-25 2024-05-16 (주)유알피 Method for generating training data for generative deep learning model through automatic prompt generation
KR102666248B1 (en) * 2023-10-25 2024-05-16 (주)유알피 Prompt generation device for generating training data of generative deep learning model

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185551A (en) * 2018-04-13 2019-10-24 株式会社Preferred Networks Annotation added text data expanding method, annotation added text data expanding program, annotation added text data expanding apparatus, and training method of text classification model
US20190361977A1 (en) * 2018-05-24 2019-11-28 International Business Machines Coporation Training data expansion for natural language classification
JP2020034998A (en) * 2018-08-27 2020-03-05 日本電信電話株式会社 Expansion device, expansion method and expansion program
JP2020140466A (en) * 2019-02-28 2020-09-03 富士通株式会社 Training data expansion apparatus, method, and program
CN112883724A (en) * 2021-02-03 2021-06-01 虎博网络技术(上海)有限公司 Text data enhancement processing method and device, electronic equipment and readable storage medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108603B2 (en) * 2015-06-01 2018-10-23 Nuance Communications, Inc. Processing natural language text with context-specific linguistic model
KR102570278B1 (en) * 2017-07-31 2023-08-24 삼성전자주식회사 Apparatus and method for generating training data used to training student model from teacher model
KR102424514B1 (en) * 2017-12-04 2022-07-25 삼성전자주식회사 Method and apparatus for processing language input
JP6642878B1 (en) * 2018-12-19 2020-02-12 株式会社Fronteo Computer, configuration method, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185551A (en) * 2018-04-13 2019-10-24 株式会社Preferred Networks Annotation added text data expanding method, annotation added text data expanding program, annotation added text data expanding apparatus, and training method of text classification model
US20190361977A1 (en) * 2018-05-24 2019-11-28 International Business Machines Coporation Training data expansion for natural language classification
JP2020034998A (en) * 2018-08-27 2020-03-05 日本電信電話株式会社 Expansion device, expansion method and expansion program
JP2020140466A (en) * 2019-02-28 2020-09-03 富士通株式会社 Training data expansion apparatus, method, and program
CN112883724A (en) * 2021-02-03 2021-06-01 虎博网络技术(上海)有限公司 Text data enhancement processing method and device, electronic equipment and readable storage medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024177160A1 (en) * 2023-02-24 2024-08-29 株式会社LegalOn Technologies Information processing method
JP7455452B1 (en) 2023-07-23 2024-03-26 株式会社Stayway Information processing system, program and information processing method
CN117725191A (en) * 2024-02-18 2024-03-19 卓世智星(天津)科技有限公司 Guide information generation method and device of large language model and electronic equipment
CN117725191B (en) * 2024-02-18 2024-05-28 卓世智星(天津)科技有限公司 Guide information generation method and device of large language model and electronic equipment

Also Published As

Publication number Publication date
JP7343566B2 (en) 2023-09-12
KR102710087B1 (en) 2024-09-25
KR20230016794A (en) 2023-02-03

Similar Documents

Publication Publication Date Title
JP2023018624A (en) Data generation method using language model, computer device, and computer program
CN111967266B (en) Chinese named entity recognition system, model construction method, application and related equipment
CN106997370B (en) Author-based text classification and conversion
US20210256390A1 (en) Computationally efficient neural network architecture search
CN111738016B (en) Multi-intention recognition method and related equipment
CN111797597A (en) Controllable style-based text conversion
US20210232948A1 (en) Question responding apparatus, question responding method and program
US11189269B2 (en) Adversarial training data augmentation for generating related responses
JP2021197133A (en) Meaning matching method, device, electronic apparatus, storage medium, and computer program
CN103154936A (en) Methods and systems for automated text correction
US20210397416A1 (en) Generating a Pseudo-Code from a Text Summarization Based on a Convolutional Neural Network
JP2023012493A (en) Language model pre-training method, apparatus, device, and storage medium
CN112528654A (en) Natural language processing method and device and electronic equipment
US11176311B1 (en) Enhanced section detection using a combination of object detection with heuristics
Keshav et al. Multimodal approach for code-mixed speech sentiment classification
JP6082657B2 (en) Pose assignment model selection device, pose assignment device, method and program thereof
Joshi et al. A novel deep learning based Nepali speech recognition
Pham et al. Vietnamese punctuation prediction using deep neural networks
Agarwal et al. Next Word Prediction Using Hindi Language
Singh et al. Building Machine Learning System with Deep Neural Network for Text Processing
Paul et al. Continuous speech recognition in hindi for health care using deep learning
JP2022042030A (en) Information processing system and information processing program
Ngo et al. Identifying user intents in Vietnamese spoken language commands and its application in smart mobile voice interaction
Le Sequence labeling approach to the task of sentence boundary detection
US20240020487A1 (en) Computer-readable recording medium storing machine learning program, machine learning method, and information processing apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211223

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230831

R150 Certificate of patent or registration of utility model

Ref document number: 7343566

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150