JP2023168157A - 機械学習プログラム,機械学習方法,および情報処理装置 - Google Patents

機械学習プログラム,機械学習方法,および情報処理装置 Download PDF

Info

Publication number
JP2023168157A
JP2023168157A JP2022079842A JP2022079842A JP2023168157A JP 2023168157 A JP2023168157 A JP 2023168157A JP 2022079842 A JP2022079842 A JP 2022079842A JP 2022079842 A JP2022079842 A JP 2022079842A JP 2023168157 A JP2023168157 A JP 2023168157A
Authority
JP
Japan
Prior art keywords
training data
data
training
label
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022079842A
Other languages
English (en)
Inventor
明則 岩川
Akinori Iwakawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2022079842A priority Critical patent/JP2023168157A/ja
Priority to US18/113,061 priority patent/US20230368072A1/en
Publication of JP2023168157A publication Critical patent/JP2023168157A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Figure 2023168157000001
【課題】訓練データの陳腐化に起因するデータ分類精度の低下を抑制する。
【解決手段】複数の第1の訓練データを含む第1訓練データ群を用いて機械学習された分類器に第2の訓練データを入力することによって推論される判定ラベルと、前記第2の訓練データの正解ラベルとが異なる場合に、当該第2の訓練データに対して類似範囲を決定し、前記複数の第1の訓練データのなかから、少なくとも前記類似範囲内に含まれる第1の訓練データを除去して第2訓練データ群を作成し、前記第2訓練データ群を用いて新たに前記分類器を機械学習する処理をコンピュータが実行する。
【選択図】図8

Description

本発明は、機械学習プログラム,機械学習方法,および情報処理装置に関する。
近年、機械学習によるデータの分類技術が開発されている。一例において、文書分類システムが知られている。文書分類システムは、機械学習による自然言語処理を応用することによって文書を内容に応じて複数の分野(クラス)に分類する。
教師あり学習における分類器(モデル)の訓練時においては、対象データと対象データの属するクラスを示す正解ラベルとが対になった教師データが作成される。教師データを訓練データとして用いて分類器の訓練が行なわれる。推論時においては、分類器は、判断対象のデータが入力されると、データが各クラスに属する確率を算出する。分類器は、データが属する確率が最も高いクラスを判定ラベルとして出力してよい。
時事情勢の変化等によって対象データに対する正解ラベルが変化することに起因して、訓練データが陳腐化する場合がある。一例において、「ウイルス変異」に関する文章を分類する場合に、既存の訓練データ作成時においては正解ラベルが「科学」であるが、その後の新規の訓練データ作成時においては正解ラベルが「社会」である場合がある。
しかし、時事情勢の変化等に合わせて、すべての既存訓練データを新規訓練データに作り直すのは作業者の負担が大きくなる。したがって、従来は、既存訓練データに新規訓練データを逐次的に追加して再訓練することが行なわれている。
特開2020-160543号公報
しかし、既存教師データに新規の教師データを追加して再訓練する手法によれば、陳腐化した既存教師データが一時的に残存する可能性がある。新規教師データと類似した既存教師データがあり、両者で異なる正解ラベルを有することは分類精度の低下の原因になる。したがって、陳腐化した訓練データが残存すると、分類精度の低下を抑制することが難しい場合がある。
1つの側面では、本発明は、訓練データの陳腐化に起因するデータ分類精度の低下を抑制することを目的の1つとする。
このため、この機械学習プログラムは、複数の第1の訓練データを含む第1訓練データ群を用いて機械学習された分類器に第2の訓練データを入力することによって推論される判定ラベルと、前記第2の訓練データの正解ラベルとが異なる場合に、当該第2の訓練データに対して類似範囲を決定し、前記複数の第1の訓練データのなかから、少なくとも前記類似範囲内に含まれる第1の訓練データを除去して第2訓練データ群を作成し、前記第2訓練データ群を用いて新たに前記分類器を機械学習する。
一実施形態によれば、訓練データの陳腐化に起因するデータ分類精度の低下を抑制することができる。
第1実施形態における情報処理装置のハードウェア構成の一例を示す図である。 第1実施形態における情報処理装置の機能構成を示す図である。 分類器の一例を示す図である。 第1実施形態における訓練時のソフトウェア構成例を模式的に示すブロック図である。 第1訓練データ群の一例を示す図である。 第1実施形態における推論時のソフトウェア構成例を模式的に示すブロック図である。 比較例における既存訓練データ群の更新処理の一例を示す図である。 第1実施形態における既存訓練データ群の更新処理の一例を示す図である。 第1実施形態における第2訓練データの選別処理の一例を示す図である。 比較例における分類処理の一例を示す図である。 第1実施形態における分類処理の一例を示す図である。 相違データと同値データとの間のコサイン類似度を示す第1テーブルの一例を示す図である。 相違データと第1訓練データ群との間のコサイン類似度を示す第2テーブルの一例を示す図である。 第1実施形態における訓練データ更新後の訓練時のソフトウェア構成例を模式的に示すブロック図である。 第1実施形態における情報処理装置による訓練時の処理を示すフローチャートである。 第1実施形態における情報処理装置の訓練データ生成処理を示すフローチャートである。 第1実施形態における情報処理装置による第2訓練データの選別処理を示すフローチャートである。 第1実施形態における情報処理装置による既存訓練データの更新処理を示すフローチャートである。 第1実施形態における情報処理装置による再訓練時の処理を示すフローチャートである。 第2実施形態における推論時のソフトウェア構成例を模式的に示すブロック図である。 第2実施形態における情報処理装置による既存訓練データの更新処理を示すフローチャートである。 第3実施形態における推論時のソフトウェア構成例を模式的に示すブロック図である。 指標データの一例を示す図である。 指標データに基づくデータ選択処理の一例を示す図である。 指標データに基づくデータ選択処理の他の例を示す図である。 第3実施形態における新たな第2訓練データの作成時のソフトウェア構成例を模式的に示すブロック図である。 ラベル無し新規訓練データ候補の一例を示す図である。 指標データとラベル無し新規訓練データ候補との間のコサイン類似度を示す第3テーブルの一例を示す図である。 正解ラベル付けしたデータの一例を示す図である。 第3実施形態におけるラベリング待ちデータの選択処理の一例を示す図である。 第3実施形態における情報処理装置による第2訓練データの選別処理を示すフローチャートである。 第3実施形態における情報処理装置による既存訓練データの更新処理の一例を示すフローチャートである。 第3実施形態における情報処理装置による既存訓練データの更新処理の他の例を示すフローチャートである。
以下、図面を参照して本機械学習プログラム,機械学習方法,および情報処理装置にかかる実施形態を説明する。但し、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
〔第1実施形態〕
〔A-1〕構成
図1は実施形態の一例としての情報処理装置1のハードウェア構成を例示する図である。
情報処理装置1は、例えば、図1に示すように、プロセッサ11,メモリ12,記憶装置13,グラフィック処理装置14,入力インタフェース15,光学ドライブ装置16,機器接続インタフェース17およびネットワークインタフェース18を構成要素として有する。これらの構成要素11~18は、バス19を介して相互に通信可能に構成される。情報処理装置1は、コンピュータの一例である。
プロセッサ11は、情報処理装置1全体を制御する。プロセッサ11は、制御部の一例である。プロセッサ11は、マルチプロセッサであってもよい。プロセッサ11は、例えばCPU,MPU(Micro Processing Unit),DSP(Digital Signal Processor),ASIC(Application Specific Integrated Circuit),PLD(Programmable Logic Device),FPGA(Field Programmable Gate Array),GPU(Graphics Processing Unit)のいずれか一つであってもよい。また、プロセッサ11は、CPU,MPU,DSP,ASIC,PLD,FPGA,GPUのうちの2種類以上の要素の組み合わせであってもよい。
プロセッサ11が、制御プログラム(機械学習プログラム13aまたは訓練データ生成プログラム13b)を実行することにより、図2に例示する、訓練処理部100としての機能が実現される。訓練データ生成プログラム13bは、機械学習プログラム13aの一部として設けられていてもよい。
情報処理装置1は、例えばコンピュータ読み取り可能な非一時的な記録媒体に記録されたプログラムである機械学習プログラム13a、訓練データ生成プログラム13b、およびOS(Operating System)プログラムを実行することにより、訓練処理部100としての機能を実現する。
情報処理装置1に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、情報処理装置1に実行させる機械学習プログラム13aまたは訓練データ生成プログラム13bを記憶装置13に格納しておくことができる。プロセッサ11は、記憶装置13内の機械学習プログラム13aまたは訓練データ生成プログラム13bの少なくとも一部をメモリ12にロードし、ロードしたプログラムを実行する。
また、情報処理装置1(プロセッサ11)に実行させる機械学習プログラム13aまたは訓練データ生成プログラム13bを、光ディスク16a,メモリ装置17a,メモリカード17c等の非一時的な可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ11からの制御により、記憶装置13にインストールされた後、実行可能になる。また、プロセッサ11が、可搬型記録媒体から直接機械学習プログラム13aまたは訓練データ生成プログラム13bを読み出して実行することもできる。
メモリ12は、ROM(Read Only Memory)およびRAM(Random Access Memory)を含む記憶メモリである。メモリ12のRAMは情報処理装置1の主記憶装置として使用される。RAMには、プロセッサ11に実行させるOSプログラムや制御プログラムの少なくとも一部が一時的に格納される。また、メモリ12には、プロセッサ11による処理に必要な各種データが格納される。
記憶装置13は、ハードディスクドライブ(Hard Disk Drive:HDD)、SSD(Solid State Drive)、ストレージクラスメモリ(Storage Class Memory:SCM)等の記憶装置であって、種々のデータを格納するものである。記憶装置13は、本情報処理装置1の補助記憶装置として使用される。記憶装置13には、OSプログラム,制御プログラムおよび各種データが格納される。制御プログラムには機械学習プログラム13aまたは訓練データ生成プログラム13bが含まれる。
補助記憶装置としては、SCMやフラッシュメモリ等の半導体記憶装置を使用することもできる。また、複数の記憶装置13を用いてRAID(Redundant Arrays of Inexpensive Disks)が構成されてもよい。
また、記憶装置13には、後述する各種の訓練データ(教師データ)と、各処理を実行する場合に生成される各種データとを格納してもよい、
グラフィック処理装置14には、モニタ14aが接続されている。グラフィック処理装置14は、プロセッサ11からの命令に従って、画像をモニタ14aの画面に表示させる。モニタ14aとしては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置等が挙げられる。
入力インタフェース15には、キーボード15aおよびマウス15bが接続されている。入力インタフェース15は、キーボード15aやマウス15bから送られてくる信号をプロセッサ11に送信する。なお、マウス15bは、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル,タブレット,タッチパッド,トラックボール等が挙げられる。
光学ドライブ装置16は、レーザ光等を利用して、光ディスク16aに記録されたデータの読み取りを行なう。光ディスク16aは、光の反射によって読み取り可能にデータを記録された可搬型の非一時的な記録媒体である。光ディスク16aには、DVD(Digital Versatile Disc),DVD-RAM,CD-ROM(Compact Disc Read Only Memory),CD-R(Recordable)/RW(ReWritable)等が挙げられる。
機器接続インタフェース17は情報処理装置1に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース17には、メモリ装置17aやメモリリーダライタ17bを接続することができる。メモリ装置17aは、機器接続インタフェース17との通信機能を搭載した非一時的な記録媒体、例えばUSB(Universal Serial Bus)メモリである。メモリリーダライタ17bは、メモリカード17cへのデータの書き込み、またはメモリカード17cからのデータの読み出しを行なう。メモリカード17cは、カード型の非一時的な記録媒体である。
ネットワークインタフェース18は、図示しないネットワークに接続される。ネットワークインタフェース18は、ネットワークを介して、他の情報処理装置や通信機器等が接続されてもよい。例えば、ネットワークを介して入力文等のデータが入力されてもよい。
図2は、第1実施形態における情報処理装置1の機能構成を例示する図である。情報処理装置1は、図2に示すように、訓練処理部100としての機能を備える。情報処理装置1においては、プロセッサ11が制御プログラム(機械学習プログラム13aまたは訓練データ生成プログラム13b)を実行することにより、訓練処理部100としての機能が実現される。
訓練処理部100は、訓練データを用いて、機械学習における学習処理(訓練)を実現する。すなわち、情報処理装置1は、訓練処理部100により、分類器110の機械学習モデルの訓練を行なう訓練装置として機能する。
訓練処理部100は、訓練データ更新部120を備える。
正解ラベル付き文章収集部20が、分類器110の訓練に用いる訓練データを取得する装置である。訓練データは、対象データと対象データの属する分類(クラス)を示す正解ラベルとが対になった教師データであってよい。
本例では、訓練データは、既存訓練データ群21を含む。分類器110は、既存訓練データ群21を用いて機械学習される。時事情勢の変化等による既存訓練データ群21の陳腐化を抑制するために、既存訓練データ群21に対して第2訓練データ22が追加される。第2訓練データ22は、既存訓練データ群21に追加される新規訓練データである。
訓練データ更新部120は、既存訓練データ群21の一部のデータを削除することによって既存訓練データ群21を更新する。訓練データ更新部120は、既存訓練データ群21に対して第2訓練データ22を追加する。
第2訓練データ22の追加前であって、かつ更新前の既存訓練データ群21は「第1訓練データ群211」と称される。第2訓練データ22の追加後であり、かつ更新後の既存訓練データ群21が「第2訓練データ群212」と称される。第2訓練データ群212は、追加された第2訓練データ22を含む。
分類器110は、推論時においては、入力されたデータを内容に応じて複数のクラスに分類する。訓練処理部100は、訓練時においては、分類器110の訓練(機械学習)を実現する。
分類器110は、入力された文章データを内容に応じて複数の分野に分類する文書分類器であってよい。
図3は、分類器110の一例を示す図である。分類器110は、入力されたデータを複数のクラスに分類するための機械学習モデルである。機械学習モデルは、例えば、ディープラーニングのモデル(ディープニューラルネットワーク)であってもよい。ニューラルネットワークは、ハードウェア回路であってもよいし、プロセッサ11等によりコンピュータプログラム上で仮想的に構築される階層間を接続するソフトウェアによる仮想的なネットワークであってもよい。
図3においては、分類器110には、入力データが入力される。入力データが入力文111である場合を例にとって説明する。入力文111は、複数の単語(図3においては、「明日」,「は」,「晴れ」の単語)で構成されている。単語のそれぞれは、固定長の意味ベクトルで表現されてよい。単語を意味ベクトルで表現することは「単語の分散表現」と称される。単語の分散表現を獲得する手法は従来と同様である。入力データの内容は図3に示されたものに限られない。
図3の分類器110は、入力層112,トランスフォーマー113,隠れ層114,および出力層115を含む。
入力層112は、隠れ層114の次元(隠れ次元)の数nと、単語列(単語列方向)の数mに応じたn×mの行列で与えられる。トランスフォーマー113は、設定した正解ラベル117に分類されるように重み係数を機械学習する。隠れ層114は、入力されたデータの意味ベクトルを出力する。意味ベクトルは、特徴量ベクトルの一例である。
出力層115は、入力されたデータが各分類(クラス)に属する確率を算出する。図3の例では、入力文111が、社会、経済、および科学の各分野に属する分類確率は、0.7,0.1,および0.2となる。出力層115は、最大の確率を示す分野を判定ラベル116として出力してよい。
但し、分類器110は、図3の構成に限定されない。入力データの内容に応じて複数のクラスに分類するものであれば種々の分類器110が用いられてよい。分類器110が文書分類器である場合、RNN(Recurrent Neural Network),LSTM(Long Short Term Memory),Seq2Seqモデル,Attention付きSeq2Seqモデル,およびTransformer等の種々の自然言語処理手法が用いられてよい。
〔A-1-1〕訓練時
図4は、第1実施形態における訓練時のソフトウェア構成例を模式的に示すブロック図である。訓練時においては、正解ラベル付き文章収集部20は、入力文111と入力文111に対する正解ラベル117とを含む既存訓練データ群21(第1訓練データ群211)を収集する。第1訓練データ群211を用いて分類器110が訓練される。第1訓練データ群211は、複数の第1訓練データを含む。第1訓練データは、第1の訓練データの一例である。
図5は、第1訓練データ群211の一例を示す図である。第1訓練データ群211は、入力文111を識別する識別情報ID,タイムスタンプ,入力文111の意味ベクトルの成分,および正解ラベル117を含んでよい。
分類器110は、分類器110による判定ラベル116と、第1訓練データ群211に付加されている正解ラベル117との誤差が小さくなるように、トランスフォーマー113および隠れ層114等の重み係数を調整することで機械学習する。
〔A-1-2〕推論時(第2訓練データ群212の生成時)
図6は、第1実施形態における推論時(第2訓練データ群212の生成時)のソフトウェア構成例を模式的に示すブロック図である。分類器110は、図4に示したように、すでに第1訓練データ群211等の既存訓練データを用いて機械学習されている。
訓練データ更新部120は、新規データ追加部121,比較部122,および既存データ更新部123を備えてよい。
新規データ追加部121は、第1訓練データ群211等の既存訓練データ群21に新規訓練データである第2訓練データ22を追加する。この結果、既存訓練データ群21が第1訓練データ群211から第2訓練データ群212へと更新される。追加される第2訓練データ22の数は、N個であり、予め定められていてよい。新規データ追加部121は、第2訓練データ22を追加することによって、既存訓練データ群21が時事情勢の変化等に起因して陳腐化することを防止する。
図7は、比較例における既存訓練データ群21の更新処理の一例を示す図である。図8は、第1実施形態における既存訓練データ群21の更新処理の一例を示す図である。図7および図8においては、第2訓練データ22に比べて早い時期に登録された既存訓練データ群21である第1訓練データ群211は、複数の第1訓練データ#1~#9を含む。新規データ追加部121は、新たに#10,#11,および#12の合計N個(図7,図8ではN=3)である第2訓練データ22を追加する。図7および図8においては、左方にいくほどデータの登録時期が早い、すなわち、古い。
図9は、第1実施形態における第2訓練データ22の選別処理の一例を示す図である。
追加される第2訓練データ22(図8における#10,#11,および#12)が、第1訓練データ群211を用いて機械学習された分類器110に入力される。分類器110は、第2訓練データ22に対する判定ラベル116を推論する。図9に示されるように、第2訓練データ22は、ID、入力文111および正解ラベル117を含んでよい。図9においては、N1は、「新種のウイルスが発見されました」という入力文111であり、N1の正解ラベル117は「社会」である。N3は、「重力波が検出されました」という入力文111であり、N3の正解ラベル117は「科学」である。
第2訓練データ22が、第1訓練データ群211を用いて訓練された分類器110に入力されることによって、意味ベクトル23および判定結果が得られる。意味ベクトル23は、単語単位の意味ベクトルではなく、文章の意味ベクトルである。意味ベクトル23は、複数の成分1~4の値によって表現されてよい。成分の数は、適宜に定められてよい。一例において、成分の数は数百である。判定結果は、判定ラベル116を含む。
図6に戻り、比較部122は、第2訓練データ22(図8の#10~#12)をそれぞれ入力することによって推論される判定ラベル116と、第2訓練データ22の正解ラベル117とを比較する。
図7および図8に示すデータ#11においては、判定ラベル116が科学であり、正解ラベル117が社会であり、判定ラベル116と正解ラベル117とが異なる。判定ラベル116と正解ラベル117とが異なる第2訓練データ22(図8の#11等)を相違データ221(食い違い群データ)と称する。判定ラベル116と正解ラベル117とが同じである第2訓練データ22(図8の#10および#12等)を同値データ222と称する。図9には、相違データ221および同値データ222の例が示される。
図7および図8において、#7および#11がウイルス変異に関する文章である場合を例にとって説明する。既存の第1訓練データ群211に含まれる#7が登録される時点においては、「ウイルス変異」に関する文章に対する正解ラベル117は「科学」である。一方、時事情勢の変化によって、第2訓練データ22(図8の#11)の時点では、正解ラベル117が「科学」から「社会」に変化する。この場合、第1訓練データ群211を用いて訓練された分類器110に、#11の文章を入力すると、判定ラベル116が「科学」と推論され、正解ラベル117「社会」と異なる。比較部122は、このような正解ラベル117と判定ラベル116とが異なる第2訓練データ22を選別する。
図6に示される既存データ更新部123は、既存訓練データ群21を更新する。既存データ更新部123は、第1訓練データ群211を更新して第2訓練データ群212を生成する。既存データ更新部123は、類似範囲決定部124および除去部125を備える。
類似範囲決定部124は、相違データ221に対して類似範囲を決定する。類似範囲決定部124は、図8においては、相違データ221(図8の#11等)に対して類似範囲を決定する。類似範囲決定部124は、相違データ221が複数ある場合には、それぞれの相違データ221について類似範囲を決定する。
類似範囲は、相違データ221をベクトル化して得られる特徴量ベクトル(例えば、意味ベクトル23)との間で予め定められた関係を満たすベクトル空間上での範囲であってよい。図10および図11を参照して、類似範囲が説明される。
図10は、比較例における分類処理の一例を示す図である。図11は、第1実施形態における分類処理の一例を示す図である。図10および図11は、入力データの特徴量ベクトル空間を示している。入力データが入力文111である場合、特徴量ベクトル空間は、入力文111をベクトル化した意味ベクトル23の空間である。
図10および図11においては、丸印が第1訓練データ群211を示し、星印が、新たに追加される訓練データである第2訓練データ22を示す。第1訓練データ群211および第2訓練データ22において、正解ラベル117が第1のラベル「社会」である訓練データを白色で示し、正解ラベル117が第2のラベル「科学」である訓練データを黒色で示す。
旧分類平面は、第1訓練データ群211によって訓練された分類器110によって、ラベル「社会」とラベル「科学」とを区別する境界平面を意味する。新分類平面は、第2訓練データ群212によって訓練された分類器110によって、ラベル「社会」とラベル「科学」とを区別する境界平面を意味する。
図11において、第2訓練データ(N1)は、正解ラベル117が「社会」であり、旧分類平面による判定ラベル116が「科学」である。第2訓練データ(N2)は、正解ラベル117が「科学」であり、旧分類平面による判定ラベル116が「社会」である。したがって、第2訓練データ(N1、N2)は、それぞれ相違データ221である。残りの第2訓練データ(N3,N4)は、同値データ222である。
相違データ221であるN1に最も類似する同値データ222はN3である。相違データ221であるN1における類似範囲130aは、相違データ221であるN1と複数の同値データ222(N3,N4)のうちのいずれかのデータとの間の類似度が高いほど狭く決定してよい。ベクトル空間における距離が近いほど類似度が高くなる。
類似範囲130aは、相違データ221(N1)と複数の同値データ222(N3,N4)のそれぞれとの間の類似度のうちの最大値であるαに基づいて定められてよい。類似範囲130bも、相違データ221(N2)と複数の同値データ222(N3,N4)のそれぞれとの間の類似度のうちの最大値であるαに基づいて定められてよい。
一例において、類似範囲は、1-((1-α)/2)、つまり(1+α)/2に応じて相違データ221ごとに定められてよい。また、相違データ221(N1,N2)ごとに類似範囲130a,130bの大きさが異なってよい。例えば、相違データ221(N1)について類似範囲130aは、類似度が0.85以上の範囲である。相違データ221(N2)について類似範囲130aは、類似度が0.80以上の範囲である。
一例において、類似度は、コサイン類似度である。コサイン類似度は、2つのベクトルがなす角度のコサイン値であり、次の数式で与えられる。
Figure 2023168157000002
コサイン類似度は、-1以上1以下の値をとる。コサイン類似度が1に近い場合には、2つのベクトルは同じ向きに近い。コサイン類似度が-1に近い場合には、2つのベクトルは逆向きに近い。コサイン類似度が0に近い場合には、2つのベクトルは似ていない。但し、類似度は、コサイン類似度に限られない。
図12は、相違データ221(N1,N2)と同値データ222(N3,N4)との間のコサイン類似度を示す第1テーブル24の一例を示す図である。相違データ221(N1)と同値データ222(N3,N4)との間のコサイン類似度における最大値αは、0.7である。したがって、相違データ221(N1)についての類似範囲130aは、(1+0.7)/2=0.85となる。相違データ221(N2)と、同値データ222(N3,N4)との間のコサイン類似度において最大値αは0.6である。したがって、相違データ221(N2)についての類似範囲130bは、(1+0.6)/2=0.8となる。
図6に戻り、除去部125は、第1訓練データ群211中の第1訓練データのなかから、少なくとも類似範囲130a,130b内に含まれる第1訓練データを除去する。
なお、図7に示す比較例においては、第2訓練データ22が新たに追加された数をNとすると、登録時期が古いものから順番にN個の第1訓練データが第1訓練データ群211から除去されて、第1訓練データ群211が第2訓練データ群212に更新される。しかし、相違データ221である#11の類似範囲内に含まれる#7が残存する。したがって、#11と#7は、類似したデータ内容であるのにもかかわらず、#11と#7との間で正解ラベル117が異なる状況が解消されない。正解ラベル117が古くなった訓練データ(#7)の影響を受けるため、分類精度の低下を抑制することが困難になる場合がある。
図8に示す第1実施形態においては、除去部125は、相違データ221である#11の類似範囲内に含まれる#7を除去する。したがって、意味ベクトル23が類似した内容のデータであるのにもかかわらず正解ラベル117が異なる#11と#7が併存する状況が解消される。したがって、古くなった訓練データ(#7)の影響を軽減することができるため、分類精度の低下を抑制することが可能となる。
図8に示されるように、除去部125は、追加された時期が古いものから順番に第1訓練データ群211のうち(N-S)個をさらに除去してよい。本例では、N=3、S=1であるので、古いデータから2個(N-S)、具体的には#1,#2が除去される。したがって、訓練データの数が必要以上に増減することを防止することができる。
図13は、相違データ221(N1およびN2)と、第1訓練データ群211との間のコサイン類似度を示す第2テーブル25の一例を示す図である。除去部125は、相違データ221(N1)と全ての第1訓練データ群211との間のコサイン類似度を算出してよい。そして、除去部125は、コサイン類似度が、相違データ221(N1)についての類似範囲130a内(例えば、0.85以上)である第1訓練データ(X1,X2)を除去する。同様に、除去部125は、相違データ221(N2)と全ての第1訓練データ群211との間のコサイン類似度を算出してよい。そして、除去部125は、コサイン類似度が相違データ221(N2)についての類似範囲130b内(例えば、0.8以上)である第1訓練データ(X12)を除去する。
図10に示す比較例においては、相違データ221(N1)の類似範囲内に、既存訓練データである第1訓練データ群211のX1,X2が残存する。また、相違データ221(N2)の類似範囲に、既存訓練データである第1訓練データ群211のX12が残存する。したがって、新たな第2訓練データ22を追加して訓練データの更新を図ったにもかかわらず、分類器110の機械学習モデルが、これら陳腐化した第1訓練データ(X1,X2,X12)の影響をうける。
したがって、比較例によれば、更新された分類器110における新分類平面によっても、本来、正解ラベル117が「社会」である判断対象データC1が誤って「科学」と判定されたり、正解ラベル117が「科学」である判断対象データC2が誤って「社会」と判定されたりする可能性がある。
図11に示す第1実施形態においては、相違データ221(N1)の類似範囲130a内にあった、第1訓練データ群211のX1,X2が除去部125によって除去される。相違データ221(N2)の類似範囲130b内においても、第1訓練データ群211のX12が除去部125によって除去される。
したがって、第1実施形態の情報処理装置1によれば、更新された分類器110における新分類平面によって、本来、正解ラベル117が「社会」である判断対象データC1が誤って「科学」と判定されること、および正解ラベル117が「科学」である判断対象データC2が誤って「社会」と判定されることが抑制される。
〔A-1-3〕再訓練時
図14は、第1実施形態における既存訓練データ群21の更新後の訓練時のソフトウェア構成例を模式的に示すブロック図である。再訓練時においては、訓練処理部100によって生成された第2訓練データ群212を用いて分類器110が訓練される。さらに、新たな第2訓練データ22が追加されて、既存訓練データ群21である第2訓練データ群212がさらに更新されてもよい。第2訓練データ群212の更新は、図6等において、第2訓練データ群212を更新前の既存訓練データ群21(第1訓練データ群211)とした場合に対応する。したがって、繰り返しの説明は省略される。
〔B-1〕動作
上述の如く構成された実施形態の一例としての情報処理装置1における機械学習モデルの訓練手法が、図15~図19に示すフローチャートに従って説明される。
〔B-1-1〕訓練時
図15は、第1実施形態における情報処理装置1による訓練時の処理を示すフローチャートである。
訓練時においては、訓練処理部100は、既存訓練データ群21を用いて分類器110を訓練する(ステップS1)。既存訓練データ群21は、例えば、第1訓練データ群211である。
〔B-1-2〕推論時(第2訓練データ群212の生成時)
図16は、第1実施形態における情報処理装置の訓練データ生成処理を示すフローチャートである。
訓練処理部100は、機械学習された分類器110に第2訓練データ22(新規教師データ)を入力して推論した判定ラベル116と、第2訓練データ22の正解ラベル117とが異なる相違データ221を選別する(ステップS2)。
訓練処理部100は、既存訓練データ群21を更新する(ステップS3)。訓練処理部100は、第1訓練データ群211から一部のデータを削除して、第2訓練データ群212を作成してよい。
図17は、第1実施形態における情報処理装置1による第2訓練データ22の選別処理を示すフローチャートである。図17は、図16におけるステップS2の一例を示す。
一定期間経過するのを待って(ステップS10のYESルート参照)、処理がステップS11に進む。したがって、一定期間ごとに、ステップS11~ステップS17の処理が実行されてよい。
ステップS11において、訓練処理部100は、第2訓練データ22(新規教師データ)を受信する。第2訓練データ22は、正解ラベル付き文章収集部20を介して取得されてよい。
ステップS12において、訓練処理部100は、訓練データごと毎にタイムスタンプを設定してよい。タイムスタンプは、訓練データが登録された日時を示す情報である。
ステップS13において、訓練処理部100は、第2訓練データ22を分類器110に入力し、図9に示されるような意味ベクトル23およびラベル判定結果を算出する。ラベル判定結果は、推論された判定ラベル116についての情報を含む。
ステップS14において、比較部122は、判定ラベル116と正解ラベル117とを比較する。判定ラベル116と正解ラベル117とが同じ場合には(ステップS15のYESルート参照)、比較部122は、第2訓練データ22を同値データ222のグループに登録する(ステップS16)。判定ラベル116と正解ラベル117とが異なる場合には(ステップS15のNOルート参照)、比較部122は、第2訓練データ22を相違データ221のグループに登録する(ステップS17)。
図18は、第1実施形態における情報処理装置1による既存訓練データの更新処理を示すフローチャートである。図18は、図16におけるステップS3の一例を示す。
新規データ追加部121は、第2訓練データ22の数が規定数を超えるのを待って(ステップS20のYESルート参照)、第2訓練データ22を既存訓練データ群21に追加登録する(ステップS21)。新規データ追加部121は、第2訓練データ22を第1訓練データ群211に追加する処理を行なう。
ステップS22において、類似範囲決定部124は、相違データ221(例えば、図11のN1,N2)のそれぞれと、全ての同値データ222(例えば、図11のN3,N4)とのコサイン類似度を計算してよい。計算結果は、一例において、図12に示される。
ステップS23において、類似範囲決定部124は、第2訓練データ22のうち相違データ221(例えば、図11のN1,N2)のそれぞれについて、計算式を用いて類似範囲130を決定する。
類似範囲決定部124は、一例において、相違データ221ごとに全ての同値データ222との間のコサイン類似度における最大値αを算出する。類似範囲決定部124は、相違データ221ごとに、類似範囲130を、(1+α)/2によって決定してよい。類似範囲決定部124は、相違データ221のそれぞれに応じて、類似範囲130を異なるように決定してよい。類似範囲決定部124は、相違データ221(例えば、図11のN1,N2)と複数の同値データ222(例えば、図11のN3,N4)のうちのいずれかのデータとの間の類似度が高いほど狭くするように相違データ221ごとに類似範囲を決定してよい。最大値αが大きくなる(1に近づく)ほど、(1+α)/2が大きくなる(1に近づく)。したがって、最大値αが大きくなるほど、ベクトル空間における類似範囲130が狭くなる。
ステップS24において、除去部125は、相違データ221と既存訓練データ群21との類似度を取得する。除去部125は、相違データ221と既存訓練データ群21との類似度を取得する。特に、除去部125は、相違データ221と第1訓練データ群211に含まれる各第1訓練データとの間のコサイン類似度を計算する。
ステップS25において、除去部125は、既存訓練データ群21の訓練データのうち、類似範囲130内に含まれるデータが存在する否かを判断する。具体的には、除去部125は、第1訓練データ群211に含まれる複数の第1訓練データのうち、類似範囲130内に含まれるデータが存在するか否かを判断する。既存訓練データ群21の訓練データのうち、類似範囲130内に含まれるデータが存在する場合には(ステップS25のYESルート参照)、除去部125は、既存訓練データ群21から該当データを削除する(ステップS26)。既存訓練データ群21の訓練データのうち、類似範囲130内に含まれるデータが存在しない場合には(ステップS25のNOルート参照)、処理は、ステップS27に進む。
ステップS27において、除去部125は追加された時期が古いものから順番に複数の第1訓練データのうち(N-S)個をさらに除去してよい。Nは、新たに追加された第2訓練データ22の数であり、Sは、類似範囲130内に含まれるために除去される第1訓練データの数である。
〔B-1-3〕再訓練時
図19は、第1実施形態における情報処理装置1による再訓練時の処理を示すフローチャートである。
再訓練時においては、訓練処理部100は、更新後の既存訓練データ群21を用いて分類器110を再訓練する(ステップS4)。更新後の既存訓練データ群21は、例えば、第1訓練データ群211を更新した第2訓練データ群212である。
更新された第2訓練データ群212に、新たな第2訓練データ22が追加されることによって、第2訓練データ群212がさらに再更新されてもよい。この場合、再更新の前の第2訓練データ群212が第1訓練データ群211とされるとともに再更新後の訓練データ群が第2訓練データ群212とされる。そして、図16~図18に示される手法を適用することによって、順次に既存訓練データ群21が更新されてよい。
〔第2実施形態〕
〔A-2〕構成
第2実施形態の情報処理装置1について説明される。第2実施形態の情報処理装置1のハードウェア構成は、図1に示される第1実施形態におけるハードウェア構成と同様である。したがって、繰り返しの説明が省略される。
図20は、第2実施形態における推論時のソフトウェア構成例を模式的に示すブロック図である。第2実施形態では、類似範囲の決定手法が第1実施形態と異なる。第2実施形態の処理は、類似範囲を決定するために同値データ222を必ずしも必要としない。第2実施形態における他のソフトウェア構成は、第1実施形態におけるソフトウェア構成と同様である。したがって、繰り返しの説明が省略されて、第1実施形態における同様の構成については、同じ符号を付して示す。
第1実施形態においては、第2訓練データ22のうち相違データ221のそれぞれに対して、計算式によって類似範囲130を決定する処理が示される。特に、類似範囲決定部124は、相違データ221に応じて、類似範囲130の大きさを変える。しかし、第2実施形態においては、相違データ221のそれぞれに対して類似範囲130の大きさが一定とされてよい。類似範囲130の大きさは、特徴量ベクトル(意味ベクトル23)空間において、各相違データ221からの距離R(但し、Rは定数)で表される。Rの値は、予め定められてよい。
〔B-2〕動作
第2実施形態の情報処理装置1による訓練時および再訓練時の動作は、図15および図19に示される第1実施形態の情報処理装置1の場合の動作と同様である。したがって、詳しい説明は省略される。
第2実施形態の情報処理装置1の推論時の動作は、図16に示される第1実施形態の情報処理装置1の動作と共通する。但し、第2実施形態の情報処理装置1は、類似範囲130を決定する処理において、同値データ222を使用しないため、図17におけるステップS16の処理が省略されてよい。
図21は、第2実施形態における情報処理装置1による既存訓練データの更新処理を示すフローチャートである。図21に示される処理において、ステップS30,S31,S33~S36の処理は、図18に示されるステップS20,S21,S24~S27の処理と同様である。したがって、詳しい説明を省略する。
ステップS32において、類似範囲決定部124は、第2訓練データ22のうち相違データ221のそれぞれについて一定の範囲である類似範囲130を決定する。
第2実施形態の情報処理装置1によれば、類似範囲130の決定について、同値データ222を用いた演算が不要である。よって簡略化した構成によって、陳腐化したデータを削除することができる。
〔第3実施形態〕
〔A-3〕構成
第3実施形態の情報処理装置1について説明される。第3実施形態の情報処理装置1のハードウェア構成は、図1に示される第1実施形態におけるハードウェア構成と同様である。したがって、繰り返しの説明が省略される。
図22は、第3実施形態における推論時のソフトウェア構成例を模式的に示すブロック図である。第3実施形態の情報処理装置1は、図6に示される第1実施形態のソフトウェア構成または図20に示される第2実施形態のソフトウェア構成に対して、補完部126が追加されている。図22においては、第1実施形態の情報処理装置1のソフトウェア構成に対して、補完部126が追加された構成を示す。しかし、第2実施形態の情報処理装置1のソフトウェア構成に対して、補完部126が追加されてもよい。
除去部125は、補完部126に対して指標データを通知する。
第2訓練データ22aは、図6および図20のように正解ラベル付き文章収集部20から取得されず、訓練処理部100による処理を通じて生成されてよい。
図23は、指標データ26の一例を示す。指標データ26は、新たな第2訓練データ22aを収集するために指標となるデータである。指標データ26は、既存訓練データ群21(第1訓練データ群211)に含まれる第1訓練データが除去された類似範囲130または除去された第1訓練データに基づいて生成される。より具体的には、指標データ26は、既存訓練データ群21(第1訓練データ群211)に含まれる第1訓練データが除去された類似範囲130のベクトル空間上の位置または除去された第1訓練データのベクトル空間上の位置に基づいて生成される。
指標データ26は、一例において、第1訓練データ(図11のX1,X2)が除去された類似範囲130aに対応する第2訓練データ22(図11のN1)の成分を含む。指標データ26は、第2訓練データ22(図11のN1)に対応する指標範囲(類似範囲130aに対応)についての情報(図11においては、0.85)を含んでよい。さらに指標データ26は、類似範囲130aに含まれるとして除去された第1訓練データの数(類似範囲130a内に含まれるとして削除された第1訓練データの数は、2個)についての情報を含んでよい。
指標データ26は、類似範囲130内に含まれるとして第1訓練データが除去された場合において、複数の類似範囲130(図11の場合、類似範囲130a,130b)のそれぞれについて生成される。第2訓練データ22(図11のN2)に対応する類似範囲130bについての指標データ26は、第2訓練データ22(図11のN2)の成分、類似範囲130bの情報(0.8)、および除去された第1訓練データ(図11のX12)の数(1個)について含む。
図24は、指標データ26に基づくデータ選択処理の一例を示す図である。指標データ26は、第1訓練データを除去した領域に対応する。第1領域データを除去した領域は、ベクトル空間において、訓練データが希薄な領域となる。したがって、指標データ26に基づいて新たな訓練データを優先して収集することで、希薄な領域に対して優先して訓練データを補充することができる。指標データ26は、図23および図24に示される場合に限られない。
図25は、指標データ26a,26bに基づくデータ選択処理の他の例を示す図である。図25のように、指標データ26a,26bは、類似範囲130aに含まれるとして除去された第1訓練データであるX1,X2のそれぞれに基づいて生成されてもよい。指標データ26a,26cは、第1訓練データであるX1,X2のそれぞれの成分と、除去された第1訓練データ(X1,X2)のそれぞれにおける指標範囲132-1,132-2とを含んでよい。
図26は、第3実施形態における新たな第2訓練データ22の作成時のソフトウェア構成例を模式的に示すブロック図である。図26は、指標データ26に基づいて、新たな第2訓練データ22aを収集する処理を示す。
第1実施形態および第2実施形態の場合と異なり、文章収集部27が、正解ラベル117が付加されていないラベル無し新規訓練データ候補251を取得してよい。ラベル無し新規訓練データ候補251は、教師データにおいて正解ラベル117が付加される前の対象データの候補であってよい。
図27は、ラベル無し新規訓練データ候補251の一例を示す図である。ラベル無し新規訓練データ候補251は、識別情報と文章(対象データ部分)を含んでよい。
ラベル無し新規訓練データ候補251は、分類器110に入力される。分類器110は、ラベル無し新規訓練データ候補251に対応する特徴量ベクトル(意味ベクトル23)を推論して出力する。
補完部126は、分類器110によって推論された特徴量ベクトル(意味ベクトル23)と、指標データ26とに基づいて、ラベル無し新規訓練データ候補251のうちからラベリング待ちデータ252を選択する。ラベリング待ちデータ252は、正解ラベル117が付される対象データである。
図28は、指標データ26(一例において、図11のN1,N2に対応)とラベル無し新規訓練データ候補251との間のコサイン類似度を含む第3テーブル28を示す。補完部126は、指標データ26ごとに、ラベル無し新規訓練データ候補251のそれぞれとの間のコサイン類似度を算出する。具体的には、補完部126は、指標データ26(N1)とラベル無し新規訓練データ候補251(N5~N8)のそれぞれとの間のコサイン類似度を算出する。同様に、補完部126は、指標データ26(N2)とラベル無し新規訓練データ候補251(N5~N8)のそれぞれとの間のコサイン類似度を算出する。
補完部126は、指標データ26に含まれる指標範囲132(一例において、類似範囲130に対応)を参照する。指標範囲132は、例えば、コサイン類似度に対する閾値で規定してもよい。例えば、指標データ26(N1)については、指標範囲132は、0.85以上であり、指標データ26(N2)については、指標範囲は、0.8以上である。
補完部126は、図28に示される第3テーブル28中から、指標範囲132に含まれるラベリング待ちデータ252を選択する。図28に示される場合では、補完部126は、指標データ26(N1)の指標範囲132に含まれるラベリング待ちデータ252として、N5,N6を選択する。同様に、補完部126は、指標データ26(N2)の指標範囲132に含まれるラベリング待ちデータ252として、N8を選択する。ラベリング待ちデータ252は登録される。
図24に示されるように、補完部126は、指標データ26の指標範囲(類似範囲130に対応)内に存在するラベリング待ちデータ252を選択してよい。あるいは、図25に示されるように、補完部126は、指標データ26a,26bに含まれる指標範囲132-1,132-2内に存在するラベリング待ちデータ252を選択してよい。
ラベリング待ちデータ252に対して正解ラベル117が付加されて第2訓練データ22aが生成される。ラベリング待ちデータ252として登録されたデータに正解ラベル117が付加される。正解ラベル117の付加は、一例において、作業者によって行なわれてよい。
図29は、正解ラベル付けしたデータ29の一例を示す図である。図29においては、指標データ26(N1)の指標範囲に含まれることにより、ラベリング待ちデータ252として選択されたN5,N6に対して、それぞれ正解ラベル117が付加される。同様に、指標データ26(N2)の指標範囲に含まれるラベリング待ちデータ252として選択されたN8に対して、正解ラベル117が付加される。正解ラベル付けしたデータ29は、図26における第2訓練データ22aとして用いられる。
〔B-3〕動作
第3実施形態の情報処理装置1による訓練時および再訓練時の動作は、図15および図19に示される第1実施形態の情報処理装置1の場合の動作と同様である。したがって、詳しい説明は省略される。
図30は、第3実施形態におけるラベリング待ちデータ252の選択処理の一例を示す図である。
一定期間が経過するのを待って(ステップS40のYESルート参照)、処理がステップS41に進む。したがって、一定期間ごとに、ステップS41~ステップS49の処理が実行されてよい。
ステップS41において、訓練処理部100は、ラベル無し新規訓練データ候補251(分類対象データ)を受信する。ラベル無し新規訓練データ候補251は、文章収集部27から取得してよい。
ステップS42において、補完部126は、指標データ26があるか否かを判断する。指標データ26がない場合には(ステップS42のNOルート参照)、処理はステップS43に進む。指標データ26がある場合には(ステップS42のYESルート参照)、処理はステップS44に進む。
ステップS43においては、補完部126は、ラベル無し新規訓練データ候補251から必要な第2訓練データ数分のデータをランダムに選択する。補完部126は、選択されたラベル無し新規訓練データ候補251をラベリング待ちデータ252として登録する。
ステップS44においては、補完部126は、指標データ26の情報を取得する。指標データ26は、図23に示されるように、対応する第2訓練データ22の成分、指標範囲、削除された第1訓練データの数などの情報を含んでよい。
ステップS45においては、訓練処理部100は、ラベル無し新規訓練データ候補251を分類器110に入力し、特徴量ベクトル(意味ベクトル23)を取得する。
ステップS46においては、補完部126は、指標データ26のそれぞれとラベル無し新規訓練データ候補251との類似度を計算する。
ステップS47においては、補完部126は、類似範囲130等に対応する指標範囲内にあるラベル無し新規訓練データ候補251をラベリング待ちデータ252として選択し登録する。
登録されたラベリング待ちデータ252が規定された数以上となった場合には(ステップS48のYESルート参照)、処理が完了する。登録されたラベリング待ちデータ252が規定された数以上とならない場合には(ステップS48のNOルート参照)、処理は、ステップS49に進む。
ステップS49においては、補完部126は、残ったラベル無し新規訓練データ候補251からランダムに必要数のラベリング待ちデータを選択して登録する。
図31は、第3実施形態における情報処理装置1による第2訓練データ22aに対する選別処理を示すフローチャートである。図31は、図16におけるステップS2の一例を示す。
ラベリング待ちデータ252に正解ラベル117が付加されて新たな第2訓練データ22aが生成される。正解ラベル117は、作業者によって文章の内容に応じて付加されてよい。
規定数以上のラベリング待ちデータにラベルが付与された場合には(ステップS50のYESルート参照)、ステップS51以下の処理に進む。
ステップS51において、訓練処理部100は、訓練データごとにタイムスタンプを設定してよい。タイムスタンプは、訓練データが登録された日時を示す情報である。
ステップS52において、訓練処理部100は、第2訓練データ22aを分類器110に入力し、図9に示されるようなラベル判定結果を算出する。ラベル判定結果は、推論された判定ラベル116についての情報を含んでいる。
ステップS53~S56の処理は、図17におけるステップS14~S17の処理と同様である。したがって、繰り返しの説明が省略される。
図32は、第3実施形態における情報処理装置1による既存訓練データの更新処理の一例を示すフローチャートである。
図32の処理は、ステップS67が付加されていることを除いて、図18の処理と同様である。すなわち、図32のステップS60~S66,およびS68の処理は、図18のステップS20~S27の処理と共通する。したがって、繰り返しの説明が省略される。
ステップS67において、除去部125は、既存訓練データ群21(第1訓練データ群211)に含まれる第1訓練データが除去された類似範囲130または除去された第1訓練データに基づいて、指標データ26を生成する。
第1領域データを除去した領域は、ベクトル空間において、訓練データが希薄な領域となる。したがって、指標データ26に基づいて新たな訓練データを優先して収集することで、希薄な領域に対して優先して訓練データを補充することができる。
図33は、第3実施形態における情報処理装置1による既存訓練データの更新処理の他の例を示すフローチャートである。
図33の処理は、ステップS76が付加されていることを除いて、図21の処理と同様である。すなわち、図33のステップS70~S75,およびS77の処理は、図21のステップS30~S36の処理と共通する。したがって、繰り返しの説明が省略される。
ステップS76において、除去部125は、既存訓練データ群21(第1訓練データ群211)に含まれる第1訓練データが除去された類似範囲130または除去された第1訓練データに基づいて、指標データ26を生成する。
(C)実施形態の効果
このように、第1~第3実施形態にかかる手法では、コンピュータは、複数の第1訓練データを含む第1訓練データ群211を用いて機械学習された分類器110に第2訓練データ22を入力することによって推論される判定ラベル116を用いる。コンピュータは、判定ラベル116と、第2訓練データ22の正解ラベル117とが異なる場合に、当該第2訓練データ22に対して類似範囲130を決定する処理を実行する。そして、コンピュータは、複数の第1訓練データのなかから、少なくとも類似範囲130内に含まれる第1訓練データを除去して第2訓練データ群212を作成する処理を実行する。そして、コンピュータは、第2訓練データ群212を用いて新たに分類器110を機械学習する処理を実行する。
以上の手法によれば、訓練データの陳腐化に起因するデータ分類精度の低下を抑制することができる。意味ベクトル23等の特徴量ベクトルが類似した内容のデータであるのにもかかわらず正解ラベル117が異なる状況が解消される。したがって、正解ラベル117が古くなった第1訓練データの影響を軽減することができるため、分類精度の低下を抑制することができる。
第2訓練データ群212は、さらに第2訓練データ22を含む。したがって、第2訓練データ22が追加される場合においても、既存の第1訓練データ群211と第2訓練データ22との間において類似するデータであるにも関わらず正解ラベル117が異なるデータが併存する状況が解消される。したがって、正解ラベル117が古くなった第1訓練データの影響を軽減することができるため、分類精度の低下を抑制することができる。
類似範囲130を決定する処理は、第2訓練データ22をベクトル化して得られる特徴量ベクトルとの間で予め定められた値以上の類似度を示す範囲を、第2訓練データ22に対する類似範囲130として決定する。したがって、意味ベクトル23等の特徴量ベクトルが類似した内容のデータであるのにもかかわらず正解ラベル117が異なるデータが併存する状況を解消することができる。
第2訓練データ22は、判定ラベル116と正解ラベル117とが異なる複数の相違データ221、および判定ラベル116と正解ラベル117とが同じ複数の同値データ222を含む。複数の同値データ222のうちのいずれかのデータと相違データ221との間の類似度が高いほど狭くするように類似範囲130が決定される。相違データ221ごとに類似範囲130が決定される。
したがって、相違データ221ごとに最適な範囲において、第1訓練データを除去することができる。
相違データ221において、複数の同値データ222のそれぞれとの間の類似度のうちの最大値をαとすると、類似範囲130は(1+α)/2に応じて相違データ221ごとに定められる。
したがって、定量的に、相違データ221ごとに最適な範囲において、第1訓練データを除去することができる。
第2訓練データ22の数をNとし、類似範囲130内に含まれるために除去される第1訓練データの数をSとする場合に、追加された時期が古いものから順番に複数の第1訓練データのうち(N-S)個をさらに除去する。
したがって、訓練データの陳腐化を抑制することができる。
第1訓練データが除去された類似範囲130に対応しており判定ラベル116と正解ラベル117とが異なる第2訓練データ22である相違データ221または除去された第1訓練データに基づいて、新たな第2の訓練データを収集するために指標となる指標データ26が生成される。そして、指標データ26との間の類似度に基づいて、新たな第2訓練データ22が収集される。
したがって、第1領域データが除去されることに起因して訓練データが希薄となった領域に対して優先して訓練データを補充することができる。これにより、訓練データが希薄になることに起因する分類精度の低下を未然に防止することができる。
(D)その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。例えば、本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
(E)付記
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の第1の訓練データを含む第1訓練データ群を用いて機械学習された分類器に第2の訓練データを入力することによって推論される判定ラベルと、前記第2の訓練データの正解ラベルとが異なる場合に、当該第2の訓練データに対して類似範囲を決定し、
前記複数の第1の訓練データのなかから、少なくとも前記類似範囲内に含まれる第1の訓練データを除去して第2訓練データ群を作成し、
前記第2訓練データ群を用いて新たに前記分類器を機械学習する
処理をコンピュータに実行させる、機械学習プログラム。
(付記2)
前記第2訓練データ群は、第2の訓練データを含む、付記1に記載の機械学習プログラム。
(付記3)
前記類似範囲を決定する処理は、前記第2の訓練データをベクトル化して得られる特徴量ベクトルとの間で予め定められた値以上の類似度を示す範囲を、前記第2の訓練データに対する前記類似範囲として決定する処理を含む、付記1または2に記載の機械学習プログラム。
(付記4)
前記第2の訓練データは、前記判定ラベルと前記正解ラベルとが異なる複数の相違データ、および前記判定ラベルと前記正解ラベルとが同じ複数の同値データを含み、
前記類似範囲を決定する処理は、前記複数の同値データのうちのいずれかのデータと前記複数の相違データとの間の類似度が高いほど狭くするように前記複数の相違データのそれぞれに前記類似範囲を決定する処理を含む、付記1または2に記載の機械学習プログラム。
(付記5)
前記類似範囲は、前記相違データと前記複数の同値データのそれぞれとの間の類似度のうちの最大値に基づいて定められる、付記4に記載の機械学習プログラム。
(付記6)
前記少なくとも前記類似範囲内に含まれる前記第1の訓練データを除去する処理は、前記第2の訓練データの数をNとし、前記類似範囲内に含まれるために除去される前記第1の訓練データの数をSとする場合に、追加された時期が古いものから順番に前記複数の第1の訓練データのうち(N-S)個をさらに除去する処理を含む、付記2に記載の機械学習プログラム。
(付記7)
前記第1の訓練データが除去された前記類似範囲に対応しており前記判定ラベルと前記正解ラベルとが異なる前記第2の訓練データまたは除去された第1の訓練データに基づいて、新たな第2の訓練データを収集するために指標となる指標データを生成し、
前記指標データとの間の類似度に基づいて、前記新たな第2の訓練データを収集する、処理を前記コンピュータに実行させる、付記1または2に記載の機械学習プログラム。
(付記8)
複数の第1の訓練データを含む第1訓練データ群を用いて機械学習された分類器に第2の訓練データを入力することによって推論される判定ラベルと、前記第2の訓練データの正解ラベルとが異なる場合に、当該第2の訓練データに対して類似範囲を決定し、
前記複数の第1の訓練データのなかから、少なくとも前記類似範囲内に含まれる第1の訓練データを除去して第2訓練データ群を作成し、
前記第2訓練データ群を用いて新たに前記分類器を機械学習する
処理をコンピュータが実行する、機械学習方法。
(付記9)
前記第2訓練データ群は、第2の訓練データを含む、付記8に記載の機械学習方法。
(付記10)
前記類似範囲を決定する処理は、前記第2の訓練データをベクトル化して得られる特徴量ベクトルとの間で予め定められた値以上の類似度を示す範囲を、前記第2の訓練データに対する前記類似範囲として決定する処理を含む、付記8または9に記載の機械学習方法。
(付記11)
前記第2の訓練データは、前記判定ラベルと前記正解ラベルとが異なる複数の相違データ、および前記判定ラベルと前記正解ラベルとが同じ複数の同値データを含み、
前記類似範囲を決定する処理は、前記複数の同値データのうちのいずれかのデータと前記相違データとの間の類似度が高いほど狭くするように前記複数の相違データのそれぞれに前記類似範囲を決定する処理を含む、付記8または9に記載の機械学習方法。
(付記12)
前記類似範囲は、前記相違データと前記複数の同値データのそれぞれとの間の類似度のうちの最大値に基づいて定められる、付記11に記載の機械学習方法。
(付記13)
前記少なくとも前記類似範囲内に含まれる前記第1の訓練データを除去する処理は、前記第2の訓練データの数をNとし、前記類似範囲内に含まれるために除去される前記第1の訓練データの数をSとする場合に、追加された時期が古いものから順番に前記複数の第1の訓練データのうち(N-S)個をさらに除去する処理を含む、付記9に記載の機械学習方法。
(付記14)
前記第1の訓練データが除去された前記類似範囲に対応しており前記判定ラベルと前記正解ラベルとが異なる前記第2の訓練データまたは除去された第1の訓練データに基づいて、新たな第2の訓練データを収集するために指標となる指標データを生成し、
前記指標データとの間の類似度に基づいて、前記新たな第2の訓練データを収集する、処理を前記コンピュータが実行する、付記8または9に記載の機械学習方法。
(付記15)
複数の第1の訓練データを含む第1訓練データ群を用いて機械学習された分類器に第2の訓練データを入力することによって推論される判定ラベルと、前記第2の訓練データの正解ラベルとが異なる場合に、当該第2の訓練データに対して類似範囲を決定し、
前記複数の第1の訓練データのなかから、少なくとも前記類似範囲内に含まれる第1の訓練データを除去して第2訓練データ群を作成し、
前記第2訓練データ群を用いて新たに前記分類器を機械学習する
処理を実行する制御部を備えることを特徴とする、情報処理装置。
(付記16)
前記第2訓練データ群は、第2の訓練データを含む、付記15に記載の情報処理装置。
(付記17)
前記類似範囲を決定する処理は、前記第2の訓練データをベクトル化して得られる特徴量ベクトルとの間で予め定められた値以上の類似度を示す範囲を、前記第2の訓練データに対する前記類似範囲として決定する処理を含む、付記15または16に記載の情報処理装置。
(付記18)
前記第2の訓練データは、前記判定ラベルと前記正解ラベルとが異なる複数の相違データ、および前記判定ラベルと前記正解ラベルとが同じ複数の同値データを含み、
前記類似範囲を決定する処理は、前記複数の同値データのうちのいずれかのデータと前記相違データとの間の類似度が高いほど狭くするように前記複数の相違データのそれぞれに前記類似範囲を決定する処理を含む、付記15または16に記載の情報処理装置。
(付記19)
前記類似範囲は、前記相違データと前記複数の同値データのそれぞれとの間の類似度のうちの最大値に基づいて定められる、付記18に記載の情報処理装置。
(付記20)
前記少なくとも前記類似範囲内に含まれる前記第1の訓練データを除去する処理は、前記第2の訓練データの数をNとし、前記類似範囲内に含まれるために除去される前記第1の訓練データの数をSとする場合に、追加された時期が古いものから順番に前記複数の第1の訓練データのうち(N-S)個をさらに除去する処理を含む、付記16に記載の情報処理装置。
(付記21)
前記制御部は、前記第1の訓練データが除去された前記類似範囲に対応しており前記判定ラベルと前記正解ラベルとが異なる前記第2の訓練データまたは除去された第1の訓練データに基づいて、新たな第2の訓練データを収集するために指標となる指標データを生成し、
前記指標データとの間の類似度に基づいて、前記新たな第2の訓練データを収集する、付記15または16に記載の情報処理装置。
1 情報処理装置
11 プロセッサ
12 メモリ
13 記憶装置
13a 機械学習プログラム
13b 訓練データ生成プログラム
14 グラフィック処理装置
14a モニタ
15 入力インタフェース
15a キーボード
15b マウス
16 光学ドライブ装置
16a 光ディスク
17 機器接続インタフェース
17a メモリ装置
17b メモリリーダライタ
17c メモリカード
18 ネットワークインタフェース
18a ネットワーク
19 バス
20 正解ラベル付き文章収集部
21 既存訓練データ群
22 第2訓練データ
23 意味ベクトル
24 第1テーブル
25 第2テーブル
26 指標データ
27 文章収集部
28 第3テーブル
29 正解ラベル付けしたデータ
100 訓練処理部
110 分類器
111 入力文
112 入力層
113 トランスフォーマー
114 隠れ層
115 出力層
116 判定ラベル
117 正解ラベル
120 訓練データ更新部
121 新規データ追加部
122 比較部
123 既存データ更新部
124 類似範囲決定部
125 除去部
126 補完部
130 類似範囲
130a 類似範囲
130b 類似範囲
126 補完部
211 第1訓練データ群
212 第2訓練データ群
221 相違データ
222 同値データ
251 ラベル無し新規訓練データ候補
252 ラベリング待ちデータ

Claims (9)

  1. 複数の第1の訓練データを含む第1訓練データ群を用いて機械学習された分類器に第2の訓練データを入力することによって推論される判定ラベルと、前記第2の訓練データの正解ラベルとが異なる場合に、当該第2の訓練データに対して類似範囲を決定し、
    前記複数の第1の訓練データのなかから、少なくとも前記類似範囲内に含まれる第1の訓練データを除去して第2訓練データ群を作成し、
    前記第2訓練データ群を用いて新たに前記分類器を機械学習する
    処理をコンピュータに実行させる、機械学習プログラム。
  2. 前記第2訓練データ群は、前記第2の訓練データを含む、請求項1に記載の機械学習プログラム。
  3. 前記類似範囲を決定する処理は、前記第2の訓練データをベクトル化して得られる特徴量ベクトルとの間で予め定められた値以上の類似度を示す範囲を、前記第2の訓練データに対する前記類似範囲として決定する処理を含む、請求項1または2に記載の機械学習プログラム。
  4. 前記第2の訓練データは、前記判定ラベルと前記正解ラベルとが異なる複数の相違データ、および前記判定ラベルと前記正解ラベルとが同じ複数の同値データを含み、
    前記類似範囲を決定する処理は、前記複数の同値データのうちのいずれかのデータと前記相違データとの間の類似度が高いほど狭くするように前記複数の相違データのそれぞれに前記類似範囲を決定する処理を含む、請求項1または2に記載の機械学習プログラム。
  5. 前記類似範囲は、前記相違データと前記複数の同値データのそれぞれとの間の類似度のうちの最大値に基づいて定められる、請求項4に記載の機械学習プログラム。
  6. 前記少なくとも前記類似範囲内に含まれる前記第1の訓練データを除去する処理は、前記第2の訓練データの数をNとし、前記類似範囲内に含まれるために除去される前記第1の訓練データの数をSとする場合に、追加された時期が古いものから順番に前記複数の第1の訓練データのうち(N-S)個をさらに除去する処理を含む、請求項2に記載の機械学習プログラム。
  7. 前記第1の訓練データが除去された前記類似範囲に対応しており前記判定ラベルと前記正解ラベルとが異なる前記第2の訓練データまたは除去された第1の訓練データに基づいて、新たな第2の訓練データを収集するために指標となる指標データを生成し、
    前記指標データとの間の類似度に基づいて、前記新たな第2の訓練データを収集する、処理を前記コンピュータに実行させる、請求項1または2に記載の機械学習プログラム。
  8. 複数の第1の訓練データを含む第1訓練データ群を用いて機械学習された分類器に第2の訓練データを入力することによって推論される判定ラベルと、前記第2の訓練データの正解ラベルとが異なる場合に、当該第2の訓練データに対して類似範囲を決定し、
    前記複数の第1の訓練データのなかから、少なくとも前記類似範囲内に含まれる第1の訓練データを除去して第2訓練データ群を作成し、
    前記第2訓練データ群を用いて新たに前記分類器を機械学習する
    処理をコンピュータが実行する、機械学習方法。
  9. 複数の第1の訓練データを含む第1訓練データ群を用いて機械学習された分類器に第2の訓練データを入力することによって推論される判定ラベルと、前記第2の訓練データの正解ラベルとが異なる場合に、当該第2の訓練データに対して類似範囲を決定し、
    前記複数の第1の訓練データのなかから、少なくとも前記類似範囲内に含まれる第1の訓練データを除去して第2訓練データ群を作成し、
    前記第2訓練データ群を用いて新たに前記分類器を機械学習する
    処理を実行する制御部を備えることを特徴とする、情報処理装置。
JP2022079842A 2022-05-13 2022-05-13 機械学習プログラム,機械学習方法,および情報処理装置 Pending JP2023168157A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022079842A JP2023168157A (ja) 2022-05-13 2022-05-13 機械学習プログラム,機械学習方法,および情報処理装置
US18/113,061 US20230368072A1 (en) 2022-05-13 2023-02-23 Computer-readable recording medium storing machine learning program, machine learning method, and information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022079842A JP2023168157A (ja) 2022-05-13 2022-05-13 機械学習プログラム,機械学習方法,および情報処理装置

Publications (1)

Publication Number Publication Date
JP2023168157A true JP2023168157A (ja) 2023-11-24

Family

ID=88699073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022079842A Pending JP2023168157A (ja) 2022-05-13 2022-05-13 機械学習プログラム,機械学習方法,および情報処理装置

Country Status (2)

Country Link
US (1) US20230368072A1 (ja)
JP (1) JP2023168157A (ja)

Also Published As

Publication number Publication date
US20230368072A1 (en) 2023-11-16

Similar Documents

Publication Publication Date Title
JP6839342B2 (ja) 情報処理装置、情報処理方法およびプログラム
US11676043B2 (en) Optimizing hierarchical classification with adaptive node collapses
JP6879433B2 (ja) 回帰装置、回帰方法、及びプログラム
JP2020024534A (ja) 画像分類装置及びプログラム
US11295175B1 (en) Automatic document separation
US20230134169A1 (en) Text-based document classification method and document classification device
Rattan et al. Analyzing the application of SMOTE on machine learning classifiers
JP2019212115A (ja) 検査装置、検査方法、プログラム及び学習装置
US11593700B1 (en) Network-accessible service for exploration of machine learning models and results
US20210342707A1 (en) Data-driven techniques for model ensembles
US20240028828A1 (en) Machine learning model architecture and user interface to indicate impact of text ngrams
JP2023168157A (ja) 機械学習プログラム,機械学習方法,および情報処理装置
RU2715024C1 (ru) Способ отладки обученной рекуррентной нейронной сети
US11687823B2 (en) Automated switching of a strategy for selection of data elements to be labeled based on labeling progress
JP6678709B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2023087266A (ja) 機械学習プログラム,機械学習方法および機械学習装置
Ismail et al. Toward Reduction in False Positives Just-In-Time Software Defect Prediction Using Deep Reinforcement Learning
WO2023188241A1 (ja) 生成方法,生成プログラムおよび情報処理装置
JP6511942B2 (ja) 情報処理装置および情報処理プログラム
WO2023188354A1 (ja) モデル訓練方法,モデル訓練プログラムおよび情報処理装置
US20220092260A1 (en) Information output apparatus, question generation apparatus, and non-transitory computer readable medium
US20240086706A1 (en) Storage medium, machine learning method, and machine learning device
US11720605B1 (en) Text feature guided visual based document classifier
CN115270763B (zh) 一种基于多数据库的风险控制方法
JP2022083884A (ja) 修正対象エッジ決定方法および修正対象エッジ決定プログラム