JP2023018624A - Data generation method using language model, computer device, and computer program - Google Patents
Data generation method using language model, computer device, and computer program Download PDFInfo
- Publication number
- JP2023018624A JP2023018624A JP2021209463A JP2021209463A JP2023018624A JP 2023018624 A JP2023018624 A JP 2023018624A JP 2021209463 A JP2021209463 A JP 2021209463A JP 2021209463 A JP2021209463 A JP 2021209463A JP 2023018624 A JP2023018624 A JP 2023018624A
- Authority
- JP
- Japan
- Prior art keywords
- data
- prompt
- label
- processor
- generation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000004590 computer program Methods 0.000 title claims abstract description 7
- 238000009826 distribution Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 7
- 238000013434 data augmentation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
新規性喪失の例外適用申請有り There is an application for exception to loss of novelty
以下の説明は、テキストデータを生成する技術に関する。 The following description relates to techniques for generating text data.
NLP(natural language processing)モデルを構築するためには、データ設計とデータ収集の先行によってモデル学習に必要なデータを確保する。確保したデータに基づいてモデルを学習した後、性能を評価しながらデータ設計やモデル学習の改善作業を繰り返す。 In order to build an NLP (natural language processing) model, data necessary for model learning is secured through data design and data collection. After learning the model based on the secured data, it repeats the improvement work of data design and model learning while evaluating the performance.
PLM(pretrained language model)が登場してからは、PLMを基盤に特定のドメインやタスクを解くNLPモデルによってファインチューニング(fine tuning)を行う方法が適用されている。 Since the emergence of the pretrained language model (PLM), fine tuning has been applied using an NLP model that solves a specific domain or task based on the PLM.
さらに、NLPモデルを効率的に学習するためには、データ拡張(data augmentation)技法が使用されている。 Furthermore, data augmentation techniques have been used to efficiently train NLP models.
一例として、EDA(easy data augmentation)のようにモデル学習のために表面的に文句を操作してテキストデータを生成する技術は、生成された文章の文法性が低く、文章の意味が意図するものとの間に大きな差が生じる場合がある。 As an example, technology that superficially manipulates phrases to generate text data for model learning, such as EDA (easy data augmentation), has a low grammatical nature of the generated sentences, and the meaning of the sentences does not correspond to the intended meaning. There may be large differences between
他の例として、再変換(Back-translation)のように機械翻訳モデルを利用して類似文章を生成する技術は、特定の言語的特性をもつ翻訳コーパスによって学習された翻訳モデルを活用するため、生成された文体が(生成の対象となる)既存のテキストデータの言語的特性を反映することができず、汎用的な使用が不可能であるという短所がある。 As another example, a technique for generating similar sentences using a machine translation model like retranslation (Back-translation) utilizes a translation model learned by a translation corpus with specific linguistic characteristics, There is a disadvantage that the generated writing style cannot reflect the linguistic characteristics of the existing text data (which is the object of generation), and general-purpose use is impossible.
多様な言語特性のコーパスによって学習された大規模言語モデルを利用して自然語生成結果を導き出すことができ、導き出された生成結果から新規データを抽出することができる、データ拡張技術を提供する。 To provide a data augmentation technology capable of deriving a natural language generation result by using a large-scale language model trained by a corpus of various language characteristics and extracting new data from the derived generation result.
コンピュータ装置が実行するデータ生成方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記データ生成方法は、前記少なくとも1つのプロセッサが、原本データを利用して言語モデルの入力文となるプロンプト(prompt)を構成する段階、および前記少なくとも1つのプロセッサが、前記プロンプトを前記言語モデルに入力し、前記言語モデルから新規データと前記新規データに対するラベル情報を生成する段階を含む、データ生成方法を提供する。 A data generating method performed by a computing device, said computing device including at least one processor configured to execute computer readable instructions contained in a memory, said data generating method comprising said at least one a processor constructing a prompt that is an input sentence of a language model using original data; and the at least one processor inputting the prompt to the language model and generating new data from the language model. and generating label information for the new data.
一側面によると、前記生成する段階は、前記プロンプト内のラベルに該当する自然語に対する確率分布(probability distribution)を利用してラベル分布を示すソフトラベルを生成する段階を含んでよい。 According to one aspect, the generating may include generating soft labels representing label distributions using a probability distribution for natural words corresponding to labels in the prompt.
他の側面によると、前記データ生成方法は、前記少なくとも1つのプロセッサが、テキストの意味的多様性に応じて、学習データセットから前記原本データを選択する段階をさらに含んでよい。 According to another aspect, the data generation method may further include the at least one processor selecting the original data from a training data set according to semantic diversity of text.
また他の側面によると、前記選択する段階は、前記学習データセットからラベルタイプの個数だけの前記原本データを選択してよい。 According to another aspect, the selecting step may select the original data corresponding to the number of label types from the learning data set.
また他の側面によると、前記構成する段階は、テキストタイプとラベルタイプが含まれた形式で前記プロンプトを構成してよい。 According to yet another aspect, the configuring step may configure the prompt in a format that includes a text type and a label type.
また他の側面によると、前記構成する段階は、テキストタイプとラベルタイプ、およびラベル位置区分子(verbalizer)が含まれた形式で前記プロンプトを構成してよい。 According to another aspect, the constructing step may construct the prompt in a format including a text type, a label type, and a label verbalizer.
また他の側面によると、前記構成する段階は、前記原本データを加工し、前記原本データと同一形式の自然語形態で前記プロンプトを構成してよい。 According to another aspect, the constructing step may process the original data to construct the prompt in a natural language form having the same format as the original data.
また他の側面によると、前記構成する段階は、タスク仕様(task specification)、前記原本データ、およびプロンプトテンプレート(template)を組み合わせて前記プロンプトを構成してよい。 According to yet another aspect, the constructing step may construct the prompt by combining a task specification, the original data, and a prompt template.
また他の側面によると、前記生成する段階は、前記プロンプト内のテキストとラベルに該当する自然語に対し、以前のトークンの確率分布を次のトークンの入力として伝達する自己回帰(auto regressive)方式を利用して前記新規データと前記ラベル情報を抽出する段階を含んでよい。 According to another aspect, the generating step is an auto-regressive method of transferring a probability distribution of previous tokens to natural words corresponding to text and labels in the prompt as input of the next token. extracting the new data and the label information using .
さらに他の側面によると、前記抽出する段階は、ヒューリスティック(heuristic)を利用したビームサーチ(beam search)により、前記以前のトークンの確率分布のうちの上位一部の確率を前記次のトークンの入力として伝達する段階を含んでよい。 According to still another aspect, the step of extracting is performed by heuristic beam search to extract the probability of the upper part of the probability distribution of the previous token from the input of the next token. and transmitting as
前記データ生成方法を前記コンピュータ装置に実行させるためのコンピュータプログラムを提供する。 A computer program is provided for causing the computer device to execute the data generation method.
コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、原本データを利用して言語モデルの入力文となるプロンプトを構成する過程、および前記プロンプトを前記言語モデルに入力し、前記言語モデルから新規データと前記新規データに対するラベル情報を生成する過程を処理する、コンピュータ装置を提供する。 A computing device comprising at least one processor configured to execute computer readable instructions contained in a memory, wherein the at least one processor utilizes original text data to serve as input sentences for a language model. A computing device is provided for processing the steps of constructing a prompt, inputting the prompt into the language model, and generating new data and label information for the new data from the language model.
本発明の実施形態によると、言語モデルを利用して原本データを変形したり拡張したりして新規データを生成し、言語モデルが認知している知識を新規データを通じて転移することにより、データ収集の投入工数を著しく減らすことができ、モデル軽量化の効果を達成することができる。 According to the embodiment of the present invention, the language model is used to transform or expand the original data to generate new data, and the knowledge recognized by the language model is transferred through the new data to collect data. The input man-hours can be significantly reduced, and the effect of model weight reduction can be achieved.
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
本発明の実施形態は、言語モデルを利用したテキストデータ生成技術に関する。 The embodiments of the present invention relate to text data generation technology using language models.
本明細書で具体的に開示される事項を含む実施形態は、大規模言語モデルを利用することで、既存のテキストデータの特性と一貫性がある上に、高い文法性と自然さを備えた文章を生成することができる。さらに、該当の文章に対する高い品質のラベル情報も生成することができる。 Embodiments including the matters specifically disclosed in this specification are consistent with the characteristics of existing text data by using a large-scale language model, and have high grammaticality and naturalness. You can generate sentences. In addition, high quality label information can also be generated for the relevant sentences.
図1は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。例えば、本発明の実施形態に係るデータ生成システムは、図1に示したコンピュータ装置100によって実現されてよい。
FIG. 1 is a block diagram illustrating an example of a computing device in one embodiment of the invention. For example, the data generation system according to the embodiment of the present invention may be realized by
図1に示すように、コンピュータ装置100は、本発明の実施形態に係るデータ生成方法を実行するための構成要素として、メモリ110、プロセッサ120、通信インタフェース130、および入力/出力インタフェース140を含んでよい。
As shown in FIG. 1,
メモリ110は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ110とは区分される別の永続的記録装置としてコンピュータ装置100に含まれてもよい。また、メモリ110には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ110とは別のコンピュータ読み取り可能な記録媒体からメモリ110にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース130を通じてメモリ110にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク160を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置100のメモリ110にロードされてよい。
The
プロセッサ110は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ110または通信インタフェース130によって、プロセッサ120に提供されてよい。例えば、プロセッサ120は、メモリ110のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信インタフェース130は、ネットワーク160を介してコンピュータ装置100が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータ装置100のプロセッサ120がメモリ110のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース130の制御にしたがってネットワーク160を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク160を経てコンピュータ装置100の通信インタフェース130を通じてコンピュータ装置100に受信されてよい。通信インタフェース130を通じて受信された信号や命令、データなどは、プロセッサ120やメモリ110に伝達されてよく、ファイルなどは、コンピュータ装置100がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
通信方式が限定されることはなく、ネットワーク160が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク160は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク160は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
The communication method is not limited, and not only the communication method using the communication network that can be included in the network 160 (eg, mobile communication network, wired Internet, wireless Internet, broadcasting network), but also the short distance between devices. Wireless communication may be included. For example, the
入力/出力インタフェース140は、入力/出力装置150とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース140は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置150は、コンピュータ装置100と1つの装置で構成されてもよい。
Input/
また、他の実施形態において、コンピュータ装置100は、図1の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置100は、上述した入力/出力装置150のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。
Also, in other embodiments,
本発明で使用する大規模言語モデルとは、Few-shot Learning(FSL)などのような方式を利用してファインチューニング(fine-tuning)を経ずに推論することが可能な言語モデルを指称してよく、従来の一般的な言語モデルに比べて10倍以上も多い媒介変数(例えば、1000億個以上の媒介変数など)を有する。例えば、GPT-3(Generative Pre-trained Transformer3)やHyperClovaのような大規模言語モデルは、自然なテキストプロンプトで制御することが可能な優れたFew-shot学習機であって、プロンプトによって少量のデータだけでパターンを理解し、NLP問題を解決する能力であるインコンテキスト学習(in-context learning)が可能である。 The large-scale language model used in the present invention refers to a language model that can be inferred without fine-tuning using a method such as Few-shot Learning (FSL). and has more than 10 times more parameters (for example, more than 100 billion parameters) compared to conventional general language models. For example, large-scale language models such as GPT-3 (Generative Pre-trained Transformer 3) and HyperClova are excellent Few-shot learners that can be controlled by natural text prompts, and are capable of processing small amounts of data by prompts. In-context learning is possible, which is the ability to understand patterns and solve NLP problems with only one person.
本実施形態は、大規模言語モデルを活用して原本データから新規データを生成する新たなデータ拡張技法に関する。さらに、言語モデルで予測したソフトラベル(soft label)を活用して大規模言語モデルで知識を効果的に蒸溜すると同時に、テキスト摂動(textual perturbations)を生成することができる。 This embodiment relates to a new data augmentation technique that utilizes a large-scale language model to generate new data from original data. In addition, it is possible to leverage soft labels predicted by the language model to effectively distill knowledge in the large-scale language model while simultaneously generating textual perturbations.
図2は、本発明の一実施形態における、大規模言語モデルを利用したテキスト拡張の概念を説明するための図である。 FIG. 2 is a diagram for explaining the concept of text extension using a large-scale language model in one embodiment of the present invention.
図2を参照すると、本実施形態において、大規模言語モデル210は、モデル学習に必要な合成テキストデータ(synthetic text data)を生成するためのバックボーンとして使用される。
Referring to FIG. 2, in this embodiment, a large
本実施形態によると、大規模言語モデル210を使用することで、原本データから、合成でありながらも極事実的(hyper-realistic)な新規データを生成することができる。
According to the present embodiment, the
ラベルがあるかラベルのない形態のテキストデータがあるとき、該当のデータを自然語形態のプロンプト入力文に変換し、変換されたプロンプト入力文を言語モデル210に入力として与えることで主語自然語生成結果を導き出してよい。導き出された生成結果を分析して新規データを抽出してよく、このとき、新規データは、原本データと同じ形態であって、ラベルがあるかラベルのない形態である。抽出された新規データは、原本テキストデータに追加してデータ収集に役立てたり、該当のデータによってモデルを生成すればモデルの性能が高まったりもする。
When there is text data in a form with or without a label, the corresponding data is converted into a prompt input sentence in a natural language form, and the converted prompt input sentence is given to the
言い換えれば、本実施形態は、データ拡張を目的とし、大規模言語モデル210で新規データを生成するためにプロンプト基盤の接近方式を使用するものであって、原本データからインスピレーションを受けた新規データと大規模言語モデル210によって予測されたソフトラベルを使用して小規模分類モデルを訓練することにより、知識の蒸溜を達成することができる。
In other words, the present embodiment aims at data augmentation and uses a prompt-based approach to generate new data in the large-
図3は、本発明の一実施形態における、コンピュータ装置が実行することのできるデータ生成方法の例を示したフローチャートである。 FIG. 3 is a flow chart illustrating an example of a data generation method that can be executed by a computing device in one embodiment of the present invention.
本実施形態に係るデータ生成方法は、上述したコンピュータ装置100によって実行されてよい。この場合、コンピュータ装置100のプロセッサ120は、メモリ110が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ120は、コンピュータ装置100に記録されたコードが提供する制御命令にしたがってコンピュータ装置100が図3のデータ生成方法に含まれる段階310~340を実行するようにコンピュータ装置100を制御してよい。
The data generation method according to this embodiment may be executed by the
本実施形態に係るデータ生成方法は、データ分布に基づいて、極めて流暢な新規データを生成することができる。 The data generation method according to the present embodiment can generate extremely fluent new data based on data distribution.
図3を参照すると、段階310で、プロセッサ120は、データセットからプロンプトに使用する原本データを選定してよい。
Referring to FIG. 3, at step 310,
以下では、テキスト分類タスクのためのデータ生成を例に挙げて原本データを選定する方法を説明する。分類タスクTが与えられた場合、学習データセットは、テキストxとラベルyの対からなる集合 In the following, the method of selecting original data will be described by taking data generation for a text classification task as an example. Given a classification task T, the training data set is a set of text x and label y pairs
一例として、プロセッサ120は、学習データセットDからk個の原本データをランダムに選択してよい。プロセッサ120は、一様分布(uniform distribution)を利用してk個の原本データを選択してよい(数式(1))。
As an example, the
原本データの個数であるkは、費用と性能を考慮した上で決定されてよく、例えば、プロセッサ120は、kを2に設定して学習データセットDから2つの原本データを選択してよい。 The number of original data, k, may be determined in consideration of cost and performance.
他の例として、プロセッサ120は、学習データセットDから、テキストの意味的多様性を考慮した上で、原本データを選択してよい。意味的多様性とは、テキストの意味がどれほど多様であるかを示す指標である。意味的多様性が低い場合は、生成されたデータが既存のデータセットの原本と類似度が高いためデータ拡張効果が低い反面、意味的多様性が高いほどデータ拡張に役立つ新規データが得られる確率が高まる。
As another example, the
意味的多様性を計算する方法として、文章ベクトル表現法(例えば、bag-of-words、aggregate word2vec、BERT embedding、BLEURTなど)を利用して各テキストのベクトルを抽出する。類似度(例えば、cosine similarityなど)を利用してベクトル間の距離を計算したり、BLEURTのようなネットワークを利用して各対のセマンティック距離(pairwise semantic distance)を計算したりした後、距離が遠い(semantic distanceが高い)対にさらに高い加重値を付与してサンプリングを実施してよい。 As a method for calculating semantic diversity, a vector of each text is extracted using a sentence vector representation method (eg, bag-of-words, aggregate word2vec, BERT embedding, BLEURT, etc.). After calculating the distance between vectors using similarity (e.g., cosine similarity, etc.), or using a network such as BLEURT to calculate the pairwise semantic distance, the distance is Sampling may be performed by giving higher weights to distant (high semantic distance) pairs.
プロセッサ120は、学習データセットDからクラスの数、すなわち、ラベルの種類に該当するだけの原本データを選択してよい。プロセッサ120は、同一ラベルの原本データのうちで各対のセマンティック距離が高いデータを優先的に選択してよい。セマンティック距離にα(alpha)乗数を適用してよく、このとき、αは、最適化が必要なハイパーパラメータに該当する。
The
段階320で、プロセッサ120は、言語モデルの入力に該当するプロンプトを構成してよい。プロセッサ120は、段階310で選択された原本データを利用して言語モデルの入力プロンプトを構成してよい。プロセッサ120は、与えられたNLP問題の特性が適切に反映された専用プロンプトテンプレートを製作してよく、このとき、プロンプトテンプレートには、該当のタスクの定義やメタ情報が含まれてよい。言い換えれば、プロセッサ120は、データセットから選択された原本データを加工して自然語形態のプロンプトを構成してよく、このとき、プロンプトは、言語モデルが理解することが可能な形式で製作され、言語モデルの入力として与えられる。プロセッサ120は、原本データがラベルのあるデータの場合、ラベル情報とともに入力文が生成されるようにプロンプトを設計する。
At step 320, the
プロセッサ120は、学習データセットDからサンプリングされた原本データ
The
が与えられるとき、説明ヘッダ(description header)、テキスト-ラベル対リスト、拡張接頭辞(augmentation prefix)で構成されたプロンプトを生成してよい。プロンプトは、言語モデルがデータ分布に対してさらに適切に一般化することが可能なように各タスクの情報を有しており、このようなタスク表示子(task indicator)は、タスクごとに固有であり、課題のメタ情報を提供してよい。
may generate a prompt consisting of a description header, a text-label pair list, and an augmentation prefix. The prompt carries information for each task so that the language model can generalize better to the data distribution, and such task indicators are unique for each task. Yes, and may provide meta information for the issue.
プロンプトの形式自体は多様に構成されてよいが、一例として、プロンプトは、テキストタイプ(例えば、レビューや記事など)とラベルタイプ(例えば、感情や分類など)、さらにラベル位置を確認することのできるラベル-トークン区分子(label-token verbalizer)を含んでよい。 The format of the prompt itself may be configured in various ways, but as an example, the prompt can check the text type (eg, review, article, etc.), the label type (eg, sentiment, classification, etc.), and the label position. A label-token verbalizer may be included.
テキストタイプTは、入力テキストxのメタタイプであって、例えば、動画レビュー感情分析においてテキストタイプは動画レビューに該当する。ラベルタイプLはラベルクラスyのメタタイプであって、例えば、動画レビュー感情分析においてラベルタイプは感情に該当する。ラベル-トークン区分子v The text type T is a metatype of the input text x, and for example, the text type corresponds to movie review in movie review sentiment analysis. The label type L is a metatype of the label class y, and for example, in the movie review sentiment analysis, the label type corresponds to emotion. label-token block v
上述した3つのメタ情報は、タスク仕様(task specification) The three pieces of meta information mentioned above are the task specification
要するに、図4に示すように、プロセッサ120は、与えられたタスクTに対し、タスク仕様410、学習データセット400からサンプリングされた原本データであるデータ例420、与えられたタスクTの特性を考慮したプロンプトテンプレート430を組み合わせて言語モデルの入力プロンプトを構成してよい。
In short, as shown in FIG. 4, for a given task T, the
図5の具体的な例から分かるように、プロセッサ120は、タスク仕様410、データ例420、およびプロンプトテンプレート430を利用して言語モデルが理解することが可能な形式で構成して言語モデルの入力プロンプト540を製作してよい。タスク仕様410の一例は表1に示すとおりであり、プロンプトテンプレート430の一例は表2に示すとおりである。データ例420として
As can be seen from the specific example of FIG. 5,
再び図3を参照すると、段階330で、プロセッサ120は、段階320で構成されたプロンプトを言語モデルに入力し、言語モデルから新規データが含まれた自然語を生成してよい。言い換えれば、プロセッサ120は、プロンプト入力文を言語モデルに入力した後、言語モデルの完成機能によって言語生成結果を得てよい。
Referring again to FIG. 3, at step 330,
段階340で、プロセッサ120は、自然語生成結果を分析して新規データを抽出してよい。言語モデルは、入力文として与えられたプロンプトのパターンに沿って自然語を生成してよく、生成された自然語のパターン分析によって新規データを抽出してよい。
At step 340,
図6に示すように、プロセッサ120は、プロンプト540を言語モデル210に入力し、言語モデル210に基づいて生成された自然語のパターンを分析することで、拡張データ650として(新しい文章、該当の文章のラベル情報)対を得てよい。一例として、プロセッサ120は、プロンプト540内のラベルに該当する自然語トークンの言語モデリング確率分布を使用してラベル分布を得てよい。
As shown in FIG. 6, the
プロンプト基盤の接近方式の場合、拡張テキストx’とラベルy’は、プロンプト以後に自然語テキストとして連続で生成される。サンプリングされた原本データに基づいて予め定義されたプロンプトテンプレートは、言語モデルが(x’、y’)構造を生成するように入力文を提供するため、パターンマッチングによって各値を抽出してよい。また、共同テキスト(joint text)およびラベル生成は、生成されたテキストが正しいラベルに連結されるようにする。 In the case of the prompt-based approach method, the extended text x' and the label y' are continuously generated as natural language text after the prompt. A predefined prompt template based on the sampled original data may extract each value by pattern matching to provide an input sentence for the language model to generate a (x', y') structure. Also, joint text and label generation ensures that the generated text is concatenated to the correct label.
本実施形態のプロンプトデザインは、 The prompt design of this embodiment is
に該当するラベルトークンがテキストx以後に生成されるように保障する。プロセッサ120は、言語モデルを利用して疑似ラベリング(pseudo-labeling)を実行してよく、拡張テキストx’のソフトラベル確率を得るためにラベル-トークンを生成する可能性(likelihood)を正規化してよい。
is generated after the text x.
拡張テキストx’がラベルy’によってラベリングされる疑似ラベル確率は、数式(2)のとおりである。 The pseudo-label probability that the extended text x' is labeled with the label y' is given by Equation (2).
本実施形態では、テキスト摂動、疑似ラベリング、知識の蒸溜を単一拡張タスクで効果的に結合することができる。実際に、疑似ラベルのある新規データは、交差エントロピー損失(cross-entropy loss)を使用して原本データとともに訓練される。 In this embodiment, text perturbation, pseudo-labeling, and knowledge distillation can be effectively combined in a single expansion task. In practice, pseudo-labeled new data are trained with the original data using cross-entropy loss.
図7を参照すると、プロセッサ120は、言語モデル210の完成機能による確率分布に基づいて新規データを生成してよく、このとき、ラベル-トークン区分子を基準にパターン分析でラベルに該当するトークンに対する確率を利用してソフトラベル、すなわち、分布のあるラベルを生成してよい。
Referring to FIG. 7, the
より詳しく説明すると、プロセッサ120は、プロンプト入力文として提供されるすべての自然語を特定のトークン化形態(tokenization scheme)(例えば、定数形態のインデックスなど)に変換した後、言語モデル210に入力する。(新しい文章、該当の文章のラベル情報)対を得るためには、自己回帰(autoregressive)に基づいて以前のトークンの確率分布を次のトークンの入力として伝達するようになるが、このとき、ヒューリスティック(heuristic)を利用したビームサーチ(beam search)によって上位n個の確率を次のトークンの入力として使用する。各トークンの自体確率分布と以前のトークンの確率分布を掛けたジョイント確率のうちで上位n個の確率を利用することにより、確率値の高いシーケンスを抽出することができる。
More specifically, the
例えば、図8に示すように、プロセッサ120は、ラベルに該当するトークンの確率を利用してソフトラベルを構成してよい。言い換えれば、ソフトラベルは、言語モデル210によって予測された正規化ラベルトークン分布から抽出されてよい。
For example, as shown in FIG. 8,
図9を参照すると、肯定に分類されたデータ例1(910)と否定に分類されたデータ例2(920)が原本データとして与えられた場合、言語モデル210を利用した言語生成結果から新規データ930を抽出してよい。
Referring to FIG. 9, when data example 1 (910) classified as positive and data example 2 (920) classified as negative are given as original data, new data are obtained from the language generation result using the
プロセッサ120は、プロンプトによって生成された結果を分析し、合成された新規データとラベル情報を抽出する。このような作業を数回繰り返すことにより、本来はデータに存在していなかった多様なデータと正確な分類情報が得られるようになり、このようなデータを既存のデータに混合すれば、ダウンストリームNLPモデルをファインチューニングするのに使用することができる。新規データ930は、与えられた2つの原本データ910、920の言語的および構造的特徴を適切に参照して生成される出力データであって、該当の新規データ930に肯定と否定を適切に混ぜることで、既存には存在しない、完全に新たなデータとなる。
新規データ930を学習データセットに追加することで、すなわち、データ拡張することで最終分類機性能を高めることができる。
Adding
原本データ910、920は、単一ラベルが付着された形態のハードラベルのあるデータや、新規データ930は、少なくとも2つ以上のラベル分布形態のソフトラベルのあるデータとして生成されてよい。
The
ソフトラベルをハードラベルに変換することは最大演算(max operation)などによって可能であるため、原本データ910、920や新規データ930はすべてハードラベル形態で活用することができる。学習過程では、交差エントロピー(cross entropy)などの損失関数を使用するため、ハードラベル形態とソフトラベル形態をすべて活用することができる。
Since a soft label can be converted into a hard label by max operation, the
このように、本発明の実施形態によると、言語モデルに基づいて既存のデータを変形したり拡張したりして拡張データを生成し、言語モデルが認知している知識を拡張データを通じて転移することにより、データ収集の投入工数を著しく減らすことができ、モデル軽量化の効果を達成することができる。 Thus, according to the embodiment of the present invention, extended data is generated by transforming or extending existing data based on the language model, and knowledge recognized by the language model is transferred through the extended data. As a result, the number of man-hours input for data collection can be significantly reduced, and the effect of reducing the weight of the model can be achieved.
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。 The apparatus described above may be realized by hardware components, software components, and/or a combination of hardware and software components. For example, the devices and components described in the embodiments include processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable gate arrays (FPGAs), programmable logic units (PLUs), microprocessors, Or may be implemented using one or more general purpose or special purpose computers, such as various devices capable of executing and responding to instructions. The processing unit may run an operating system (OS) and one or more software applications that run on the OS. The processor may also access, record, manipulate, process, and generate data in response to executing software. For convenience of understanding, one processing device may be described as being used, but those skilled in the art will appreciate that the processing device may include multiple processing elements and/or multiple types of processing elements. You will understand. For example, a processing unit may include multiple processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。 Software may include computer programs, code, instructions, or a combination of one or more of these, to configure a processor to operate at its discretion or to independently or collectively instruct a processor. You can Software and/or data may be embodied in any kind of machine, component, physical device, computer storage medium, or device for interpretation by, or for providing instructions or data to, a processing device. good. The software may be stored and executed in a distributed fashion over computer systems linked by a network. Software and data may be recorded on one or more computer-readable recording media.
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。 The method according to the embodiments may be embodied in the form of program instructions executable by various computer means and recorded on a computer-readable medium. Here, the medium may continuously record the computer-executable program or temporarily record it for execution or download. In addition, the medium may be a variety of recording means or storage means in the form of a combination of single or multiple hardware, and is not limited to a medium that is directly connected to a computer system, but distributed over a network. It may exist in Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, and ROM, RAM, flash memory, etc., and may be configured to store program instructions. Other examples of media include recording media or storage media managed by application stores that distribute applications, sites that supply or distribute various software, and servers.
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。 As described above, the embodiments have been described based on the limited embodiments and drawings, but those skilled in the art will be able to make various modifications and variations based on the above description. For example, the techniques described may be performed in a different order than in the manner described and/or components such as systems, structures, devices, circuits, etc. described may be performed in a manner different from the manner described. Appropriate results may be achieved when combined or combined, opposed or substituted by other elements or equivalents.
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。 Accordingly, different embodiments that are equivalent to the claims should still fall within the scope of the appended claims.
210:言語モデル
220:PLM
210: Language model 220: PLM
Claims (20)
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記データ生成方法は、
前記少なくとも1つのプロセッサが、原本データを利用して言語モデルの入力文となるプロンプト(prompt)を構成する段階、および
前記少なくとも1つのプロセッサが、前記プロンプトを前記言語モデルに入力し、前記言語モデルから新規データと前記新規データに対するラベル情報を生成する段階
を含む、データ生成方法。 A data generation method executed by a computer device, comprising:
The computing device includes at least one processor configured to execute computer readable instructions contained in memory;
The data generation method includes:
the at least one processor constructing a prompt that is an input sentence of a language model using original data; and the at least one processor inputting the prompt into the language model to convert the language model into generating new data and label information for said new data from.
前記プロンプト内のラベルに該当する自然語に対する確率分布(probability distribution)を利用してラベル分布を示すソフトラベルを生成する段階
を含む、請求項1に記載のデータ生成方法。 The generating step includes:
2. The data generation method of claim 1, further comprising: generating soft labels representing label distributions using a probability distribution for natural words corresponding to labels in the prompt.
前記少なくとも1つのプロセッサが、テキストの意味的多様性に応じて、学習データセットから前記原本データを選択する段階
をさらに含む、請求項1または2に記載のデータ生成方法。 The data generation method includes:
3. The data generating method of claim 1 or 2, further comprising: selecting the original data from a training data set according to the semantic diversity of the text by the at least one processor.
前記学習データセットからラベルタイプの個数だけの前記原本データを選択すること
を特徴とする、請求項3に記載のデータ生成方法。 The selecting step includes:
4. The data generation method according to claim 3, wherein the original data corresponding to the number of label types are selected from the learning data set.
テキストタイプとラベルタイプが含まれた形式で前記プロンプトを構成すること
を特徴とする、請求項1~4のうちのいずれか一項に記載のデータ生成方法。 The configuring step includes:
The data generation method according to any one of claims 1 to 4, characterized in that the prompt is configured in a format including a text type and a label type.
テキストタイプとラベルタイプ、およびラベル位置区分子(verbalizer)が含まれた形式で前記プロンプトを構成すること
を特徴とする、請求項1~4のうちのいずれか一項に記載のデータ生成方法。 The configuring step includes:
The data generation method according to any one of claims 1 to 4, characterized in that the prompt is constructed in a format including a text type, a label type, and a label verbalizer.
前記原本データを加工して、前記原本データと同一形式の自然語形態で前記プロンプトを構成すること
を特徴とする、請求項1~4のうちのいずれか一項に記載のデータ生成方法。 The configuring step includes:
The data generation method according to any one of claims 1 to 4, wherein the original data is processed to compose the prompt in the same natural language form as the original data.
タスク仕様(task specification)、前記原本データ、およびプロンプトテンプレート(template)を組み合わせて前記プロンプトを構成すること
を特徴とする、請求項1~4のうちのいずれか一項に記載のデータ生成方法。 The configuring step includes:
The data generation method according to any one of claims 1 to 4, wherein the prompt is constructed by combining a task specification, the original data, and a prompt template.
前記プロンプト内のテキストとラベルに該当する自然語に対し、以前のトークンの確率分布を次のトークンの入力として伝達する自己回帰(auto regressive)方式を利用して前記新規データと前記ラベル情報を抽出する段階
を含む、請求項1~8のうちのいずれか一項に記載のデータ生成方法。 The generating step includes:
extracting the new data and the label information using an auto-regressive method in which the probability distribution of the previous token is transferred as the input of the next token to the natural language corresponding to the text and label in the prompt; A data generation method according to any one of claims 1 to 8, comprising the step of:
ヒューリスティック(heuristic)を利用したビームサーチ(beamsearch)により、前記以前のトークンの確率分布のうちの上位一部の確率を前記次のトークンの入力として伝達する段階
を含む、請求項9に記載のデータ生成方法。 The extracting step includes:
10. The data of claim 9, comprising communicating, as an input for the next token, a probability of an upper part of the probability distribution of the previous token by a beamsearch using a heuristic. generation method.
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
原本データを利用して言語モデルの入力文となるプロンプトを構成する過程、および
前記プロンプトを前記言語モデルに入力し、前記言語モデルから新規データと前記新規データに対するラベル情報を生成する過程
を処理する、コンピュータ装置。 A computer device,
at least one processor configured to execute computer readable instructions contained in memory;
The at least one processor
A process of constructing a prompt as an input sentence of a language model using original data, and a process of inputting the prompt into the language model and generating new data and label information for the new data from the language model. , computer equipment.
前記プロンプト内のラベルに該当する自然語に対する確率分布を利用してラベル分布を示すソフトラベルを生成すること
を特徴とする、請求項12に記載のコンピュータ装置。 The at least one processor
13. The computer according to claim 12, wherein a soft label indicating label distribution is generated using a probability distribution for natural words corresponding to labels in the prompt.
テキストの意味的多様性に応じて、学習データセットから前記原本データを選択すること
を特徴とする、請求項12または13に記載のコンピュータ装置。 The at least one processor
14. The computer device according to claim 12 or 13, wherein said original data is selected from a learning data set according to semantic diversity of text.
前記学習データセットからラベルタイプの個数だけの前記原本データを選択すること
を特徴とする、請求項14に記載のコンピュータ装置。 The at least one processor
15. The computer apparatus according to claim 14, wherein said original data corresponding to the number of label types are selected from said learning data set.
テキストタイプとラベルタイプが含まれた形式で前記プロンプトを構成すること
を特徴とする、請求項12~15のうちのいずれか一項に記載のコンピュータ装置。 The at least one processor
A computer device according to any one of claims 12 to 15, characterized in that it organizes the prompts in a format that includes a text type and a label type.
テキストタイプとラベルタイプ、およびラベル位置区分子が含まれた形式で前記プロンプトを構成すること
を特徴とする、請求項12~15のうちのいずれか一項に記載のコンピュータ装置。 The at least one processor
16. The computer device according to any one of claims 12 to 15, wherein said prompt is configured in a format including text type, label type, and label position segment molecule.
タスク仕様、前記原本データ、およびプロンプトテンプレートを組み合わせて前記プロンプトを構成すること
を特徴とする、請求項12~15のうちのいずれか一項に記載のコンピュータ装置。 The at least one processor
16. The computer device according to any one of claims 12 to 15, wherein the prompt is constructed by combining the task specification, the original data, and the prompt template.
前記プロンプト内のテキストとラベルに該当する自然語に対し、以前のトークンの確率分布を次のトークンの入力として伝達する自己回帰方式を利用して前記新規データと前記ラベル情報を抽出すること
を特徴とする、請求項12~18のうちのいずれか一項に記載のコンピュータ装置。 The at least one processor
extracting the new data and the label information using an autoregressive method that transfers the probability distribution of the previous token as the input of the next token to the natural language corresponding to the text and label in the prompt. The computer device according to any one of claims 12 to 18, wherein:
ヒューリスティックを利用したビームサーチにより、前記以前のトークンの確率分布のうちの上位一部の確率を前記次のトークンの入力として伝達すること
を特徴とする、請求項19に記載のコンピュータ装置。 The at least one processor
20. The computer apparatus of claim 19, wherein a beam search using heuristics communicates probabilities in the upper part of the probability distribution of the previous token as input for the next token.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0098231 | 2021-07-27 | ||
KR1020210098231A KR102710087B1 (en) | 2021-07-27 | 2021-07-27 | Method, computer device, and computer program to generate data using language model |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023018624A true JP2023018624A (en) | 2023-02-08 |
JP7343566B2 JP7343566B2 (en) | 2023-09-12 |
Family
ID=85158153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021209463A Active JP7343566B2 (en) | 2021-07-27 | 2021-12-23 | Data generation method, computer device, and computer program using language models |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7343566B2 (en) |
KR (1) | KR102710087B1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725191A (en) * | 2024-02-18 | 2024-03-19 | 卓世智星(天津)科技有限公司 | Guide information generation method and device of large language model and electronic equipment |
JP7455452B1 (en) | 2023-07-23 | 2024-03-26 | 株式会社Stayway | Information processing system, program and information processing method |
WO2024177160A1 (en) * | 2023-02-24 | 2024-08-29 | 株式会社LegalOn Technologies | Information processing method |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240129589A (en) | 2023-02-20 | 2024-08-27 | 서울대학교병원 | Apparatus and method for generating medical prompt |
KR102597357B1 (en) * | 2023-05-16 | 2023-11-02 | 주식회사 씨지인사이드 | Method and System for Sentiment Analysis of News Articles based on AI |
KR102665956B1 (en) * | 2023-06-22 | 2024-05-14 | 주식회사 페블러스 | A method for providing a user interface to process synthetic data and a computing device on which the method is implemented |
KR102666247B1 (en) * | 2023-10-25 | 2024-05-16 | (주)유알피 | Method for generating training data for generative deep learning model through automatic prompt generation |
KR102666248B1 (en) * | 2023-10-25 | 2024-05-16 | (주)유알피 | Prompt generation device for generating training data of generative deep learning model |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019185551A (en) * | 2018-04-13 | 2019-10-24 | 株式会社Preferred Networks | Annotation added text data expanding method, annotation added text data expanding program, annotation added text data expanding apparatus, and training method of text classification model |
US20190361977A1 (en) * | 2018-05-24 | 2019-11-28 | International Business Machines Coporation | Training data expansion for natural language classification |
JP2020034998A (en) * | 2018-08-27 | 2020-03-05 | 日本電信電話株式会社 | Expansion device, expansion method and expansion program |
JP2020140466A (en) * | 2019-02-28 | 2020-09-03 | 富士通株式会社 | Training data expansion apparatus, method, and program |
CN112883724A (en) * | 2021-02-03 | 2021-06-01 | 虎博网络技术(上海)有限公司 | Text data enhancement processing method and device, electronic equipment and readable storage medium |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10108603B2 (en) * | 2015-06-01 | 2018-10-23 | Nuance Communications, Inc. | Processing natural language text with context-specific linguistic model |
KR102570278B1 (en) * | 2017-07-31 | 2023-08-24 | 삼성전자주식회사 | Apparatus and method for generating training data used to training student model from teacher model |
KR102424514B1 (en) * | 2017-12-04 | 2022-07-25 | 삼성전자주식회사 | Method and apparatus for processing language input |
JP6642878B1 (en) * | 2018-12-19 | 2020-02-12 | 株式会社Fronteo | Computer, configuration method, and program |
-
2021
- 2021-07-27 KR KR1020210098231A patent/KR102710087B1/en active IP Right Grant
- 2021-12-23 JP JP2021209463A patent/JP7343566B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019185551A (en) * | 2018-04-13 | 2019-10-24 | 株式会社Preferred Networks | Annotation added text data expanding method, annotation added text data expanding program, annotation added text data expanding apparatus, and training method of text classification model |
US20190361977A1 (en) * | 2018-05-24 | 2019-11-28 | International Business Machines Coporation | Training data expansion for natural language classification |
JP2020034998A (en) * | 2018-08-27 | 2020-03-05 | 日本電信電話株式会社 | Expansion device, expansion method and expansion program |
JP2020140466A (en) * | 2019-02-28 | 2020-09-03 | 富士通株式会社 | Training data expansion apparatus, method, and program |
CN112883724A (en) * | 2021-02-03 | 2021-06-01 | 虎博网络技术(上海)有限公司 | Text data enhancement processing method and device, electronic equipment and readable storage medium |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024177160A1 (en) * | 2023-02-24 | 2024-08-29 | 株式会社LegalOn Technologies | Information processing method |
JP7455452B1 (en) | 2023-07-23 | 2024-03-26 | 株式会社Stayway | Information processing system, program and information processing method |
CN117725191A (en) * | 2024-02-18 | 2024-03-19 | 卓世智星(天津)科技有限公司 | Guide information generation method and device of large language model and electronic equipment |
CN117725191B (en) * | 2024-02-18 | 2024-05-28 | 卓世智星(天津)科技有限公司 | Guide information generation method and device of large language model and electronic equipment |
Also Published As
Publication number | Publication date |
---|---|
JP7343566B2 (en) | 2023-09-12 |
KR102710087B1 (en) | 2024-09-25 |
KR20230016794A (en) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023018624A (en) | Data generation method using language model, computer device, and computer program | |
CN111967266B (en) | Chinese named entity recognition system, model construction method, application and related equipment | |
CN106997370B (en) | Author-based text classification and conversion | |
US20210256390A1 (en) | Computationally efficient neural network architecture search | |
CN111738016B (en) | Multi-intention recognition method and related equipment | |
CN111797597A (en) | Controllable style-based text conversion | |
US20210232948A1 (en) | Question responding apparatus, question responding method and program | |
US11189269B2 (en) | Adversarial training data augmentation for generating related responses | |
JP2021197133A (en) | Meaning matching method, device, electronic apparatus, storage medium, and computer program | |
CN103154936A (en) | Methods and systems for automated text correction | |
US20210397416A1 (en) | Generating a Pseudo-Code from a Text Summarization Based on a Convolutional Neural Network | |
JP2023012493A (en) | Language model pre-training method, apparatus, device, and storage medium | |
CN112528654A (en) | Natural language processing method and device and electronic equipment | |
US11176311B1 (en) | Enhanced section detection using a combination of object detection with heuristics | |
Keshav et al. | Multimodal approach for code-mixed speech sentiment classification | |
JP6082657B2 (en) | Pose assignment model selection device, pose assignment device, method and program thereof | |
Joshi et al. | A novel deep learning based Nepali speech recognition | |
Pham et al. | Vietnamese punctuation prediction using deep neural networks | |
Agarwal et al. | Next Word Prediction Using Hindi Language | |
Singh et al. | Building Machine Learning System with Deep Neural Network for Text Processing | |
Paul et al. | Continuous speech recognition in hindi for health care using deep learning | |
JP2022042030A (en) | Information processing system and information processing program | |
Ngo et al. | Identifying user intents in Vietnamese spoken language commands and its application in smart mobile voice interaction | |
Le | Sequence labeling approach to the task of sentence boundary detection | |
US20240020487A1 (en) | Computer-readable recording medium storing machine learning program, machine learning method, and information processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211223 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20220113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7343566 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |