JP7421363B2 - パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法 - Google Patents

パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法 Download PDF

Info

Publication number
JP7421363B2
JP7421363B2 JP2020023047A JP2020023047A JP7421363B2 JP 7421363 B2 JP7421363 B2 JP 7421363B2 JP 2020023047 A JP2020023047 A JP 2020023047A JP 2020023047 A JP2020023047 A JP 2020023047A JP 7421363 B2 JP7421363 B2 JP 7421363B2
Authority
JP
Japan
Prior art keywords
estimated
data items
data
labels
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020023047A
Other languages
English (en)
Other versions
JP2021128569A (ja
Inventor
万理 寺田
清孝 粕渕
清孝 宮井
明子 吉田
一博 北村
光規 梅原
祐輝 角谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Screen Holdings Co Ltd
Original Assignee
Screen Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Screen Holdings Co Ltd filed Critical Screen Holdings Co Ltd
Priority to JP2020023047A priority Critical patent/JP7421363B2/ja
Priority to US17/167,326 priority patent/US20210256308A1/en
Priority to CN202110182057.8A priority patent/CN113268963A/zh
Publication of JP2021128569A publication Critical patent/JP2021128569A/ja
Application granted granted Critical
Publication of JP7421363B2 publication Critical patent/JP7421363B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願明細書に開示される技術は、パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法に関するものである。
従来から、文書データにおけるそれぞれの単語などの複数のデータ項目に対して、適切なラベルを推定して付することによって、これらのデータ項目を分類する技術が用いられている。
また、上記のラベルを適切に推定するためのパラメータを更新する技術も、従来から用いられている(たとえば、特許文献1を参照)。
特開2016-162198号公報
入力される複数のデータ項目が階層構造を構成する場合、すなわち、データ項目間で、少なくとも一部の組み合わせが制限される(禁止される)場合、当該階層構造で制限されているデータ項目の組み合わせが分類の推定結果に含まれてしまうことで、分類精度が低下してしまうという問題がある。
本願明細書に開示される技術は、以上に記載されたような問題を鑑みてなされたものであり、階層構造を構成する複数のデータ項目を、分類精度の低下を抑制しつつ分類するための技術である。
本願明細書に開示される技術の第1の態様は、階層構造を構成する複数のデータ項目とそれぞれの前記データ項目に対応する正解ラベルとを含む教師データが入力される入力部と、入力される前記教師データの複数の前記データ項目についてニューラルネットワークを用いてマルチタスク学習することによって、それぞれの前記データ項目に対応する少なくとも1つの推定ラベルを付与するためのパラメータを更新する更新部とを備え、前記更新部は、付与される前記推定ラベルと前記教師データにおける対応する前記正解ラベルとの誤差の、複数の前記データ項目における総和が最小化するように前記パラメータを更新する。
本願明細書に開示される技術の第2の態様は、第1の態様に記載のパラメータ更新装置における前記更新部によって更新された前記パラメータにしたがって、入力されるそれぞれの前記データ項目に対応して少なくとも1つの前記推定ラベルを付与するラベル付与部を備える。
本願明細書に開示される技術の第3の態様は、第2の態様に関連し、前記ラベル付与部は、それぞれの前記データ項目に対応して複数の前記推定ラベルを付与し、それぞれの前記データ項目に対応する複数の前記推定ラベルのうちの、推定確率の高い順に少なくとも1つの前記推定ラベルを選択する選択部をさらに備える。
本願明細書に開示される技術の第4の態様は、第3の態様に関連し、前記選択部は、選択される前記推定ラベルの前記推定確率の合計に基づいて、選択する前記推定ラベルの数を決定する。
本願明細書に開示される技術の第5の態様は、第3または4の態様に関連し、前記選択部は、選択される前記推定ラベルの数があらかじめ定められた範囲内であるように、少なくとも1つの前記推定ラベルを選択する。
本願明細書に開示される技術の第6の態様は、第2から5のうちのいずれか1つの態様に関連し、それぞれの前記データ項目に対する重みを設定する重み付け部と、前記重みに基づいて、複数の前記データ項目にそれぞれ対応する前記推定ラベル間の組み合わせの確信度を算出する確信度算出部とをさらに備える。
本願明細書に開示される技術の第7の態様は、第6の態様に関連し、前記確信度が高い順に複数の前記組み合わせを表示する表示部をさらに備える。
本願明細書に開示される技術の第8の態様は、コンピュータにインストールされて実行されることによって、前記コンピュータに、階層構造を構成する複数のデータ項目とそれぞれの前記データ項目に対応する正解ラベルとを含む教師データの複数の前記データ項目についてニューラルネットワークを用いてマルチタスク学習させることによって、それぞれの前記データ項目に対応する少なくとも1つの推定ラベルを付与するためのパラメータを更新させ、前記パラメータの更新は、付与される前記推定ラベルと前記教師データにおける対応する前記正解ラベルとの誤差の、複数の前記データ項目における総和が最小化するように前記パラメータを更新するものである。
本願明細書に開示される技術の第9の態様は、階層構造を構成する複数のデータ項目とそれぞれの前記データ項目に対応する正解ラベルとを含む教師データを入力する工程と、入力される前記教師データの複数の前記データ項目についてニューラルネットワークを用いてマルチタスク学習することによって、それぞれの前記データ項目に対応する少なくとも1つの推定ラベルを付与するためのパラメータを更新する工程とを備え、前記パラメータを更新する工程は、付与される前記推定ラベルと前記教師データにおける対応する前記正解ラベルとの誤差の、複数の前記データ項目における総和が最小化するように前記パラメータを更新する工程である。
本願明細書に開示される技術の第1から9の態様によれば、更新部が、付与される推定ラベルと正解ラベルとの誤差の、複数のデータ項目における総和が最小化するようにパラメータを更新することによって、当該パラメータを用いれば、複数のデータ項目間の階層構造を考慮した推定ラベルを付与することができる。その結果、分類精度の低下を抑制することができる。
また、本願明細書に開示される技術に関連する目的と、特徴と、局面と、利点とは、以下に示される詳細な説明と添付図面とによって、さらに明白となる。
実施の形態に関する、パラメータ更新装置のハードウェア構成の例を示す図である。 実施の形態に関する、パラメータ更新装置の機能的構成の例を示す図である。 実施の形態に関する、分類装置の機能的構成の例を示す図である。 パラメータ更新動作の例を示すフローチャートである。 階層構造を構成する複数のデータ項目の例を示す図である。 ニューラルネットワークを用いて行われるマルチタスク学習を概念的に示す図である。 ニューラルネットワークを用いて行われるマルチタスク学習の手順の例を示すフローチャートである。 分類動作の例を示すフローチャートである。 第1のデータ項目に関して推定された複数の推定ラベルと、それぞれの推定ラベルに対応する推定確率を示す図である。 算出された確信度の例を示す図である。 図10に示された複数の組み合わせを確信度の高い順に5つ示す図である。
以下、添付される図面を参照しながら実施の形態について説明する。以下の実施の形態では、技術の説明のために詳細な特徴なども示されるが、それらは例示であり、実施の形態が実施可能となるためにそれらすべてが必ずしも必須の特徴ではない。
なお、図面は概略的に示されるものであり、説明の便宜のため、適宜、構成の省略、または、構成の簡略化が図面においてなされるものである。また、異なる図面にそれぞれ示される構成などの大きさおよび位置の相互関係は、必ずしも正確に記載されるものではなく、適宜変更され得るものである。また、断面図ではない平面図などの図面においても、実施の形態の内容を理解することを容易にするために、ハッチングが付される場合がある。
また、以下に示される説明では、同様の構成要素には同じ符号を付して図示し、それらの名称と機能とについても同様のものとする。したがって、それらについての詳細な説明を、重複を避けるために省略する場合がある。
また、以下に記載される説明において、ある構成要素を「備える」、「含む」または「有する」などと記載される場合、特に断らない限りは、他の構成要素の存在を除外する排他的な表現ではない。
また、以下に記載される説明において、「第1の」または「第2の」などの序数が用いられる場合があっても、これらの用語は、実施の形態の内容を理解することを容易にするために便宜上用いられるものであり、これらの序数によって生じ得る順序などに限定されるものではない。
<実施の形態>
以下、本実施の形態に関するパラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法について説明する。
<パラメータ更新装置の構成について>
図1は、本実施の形態に関するパラメータ更新装置100のハードウェア構成の例を示す図である。
図1に例が示されるように、パラメータ更新装置100は、少なくとも、パラメータの更新動作に用いられるプログラム105がインストールされたコンピュータであり、中央演算処理装置(central processing unit、すなわち、CPU)102と、メモリ103と、ハードディスクドライブ(Hard disk drive、すなわち、HDD)104と、ディスプレイ101とを備える。
パラメータ更新装置100においては、対応するプログラム105がHDD104にインストールされる。プログラム105のインストールは、コンパクトディスク(compact disc、すなわち、CD)、デジタル多目的ディスク(digital versatile disc、すなわち、DVD)、ユニバーサルシリアルバス(universal serial bus、すなわち、USB)メモリなどの外部記憶媒体106から読み出されたデータをHDD104に書き込むことによって行われてもよいし、ネットワーク107を経由して受信されたデータをHDD104に書き込むことによって行われてもよい。
また、HDD104は、他の種類の補助記憶装置に置き換えられてもよい。たとえば、HDD104が、ソリッドステートドライブ(solid state drive、すなわち、SSD)、ランダムアクセスメモリー(random access memory、すなわち、RAM)ディスクなどに置き換えられてもよい。
パラメータ更新装置100においては、HDD104にインストールされたプログラム105がメモリ103にロードされ、ロードされたプログラム105がCPU102によって実行される。そうすることによって、コンピュータがプログラム105を実行し、パラメータ更新装置100として機能する。
なお、CPU102が行う処理の少なくとも一部がCPU102以外のプロセッサによって行われてもよい。たとえば、CPU102によって行われる処理の少なくとも一部が、グラフィックス処理装置(GPU)などによって行われてもよい。また、CPU102によって行われる処理の少なくとも一部が、プログラムを実行しないハードウェアによって行われてもよい。
図2は、本実施の形態に関するパラメータ更新装置100の機能的構成の例を示す図である。
図2に例が示されるように、パラメータ更新装置100は、少なくとも、入力部10と、更新部12とを備える。また、パラメータ更新装置100は、記憶部14と、出力部16とを備えることができる。入力部10および出力部16は、図1のディスプレイ101などによって実現される。また、記憶部14は、たとえば、図1のメモリ103およびHDD104の少なくとも一方によって実現される。また、更新部12は、たとえば、図1のCPU102にプログラム105を実行させることによって実現される。
入力部10には、階層構造を構成する複数のデータ項目を有するデータセットと、それぞれのデータ項目に対応する正解ラベルとを含む教師データが入力される。
ここで、正解ラベルとは、それぞれのデータ項目に付されるべきとされるラベルであり、あらかじめユーザーなどによって定められるラベルである。ラベルは、対応するデータ項目を分類するために用いられる。
更新部12は、入力される教師データの複数のデータ項目についてニューラルネットワークを用いてマルチタスク学習する。そうすることによって、それぞれのデータ項目に対応する少なくとも1つの推定ラベルを付与するためのパラメータを更新する。更新されたパラメータは、記憶部14に記憶される。
ここで、推定ラベルとは、ニューラルネットワークを介して出力される、データ項目に付されるべきラベルの推定結果である。ラベルは、対応するデータ項目を分類するために用いられる。
<分類装置の構成について>
分類装置のハードウェア構成は、図1に示されたパラメータ更新装置100の構成と同様である。すなわち、図1に示されるハードウェア構成は、パラメータを更新するための学習段階ではパラメータ更新装置のハードウェア構成となり、使用段階では、分類装置のハードウェア構成となる。
図3は、本実施の形態に関する分類装置200の機能的構成の例を示す図である。図3に例が示されるように、分類装置200は、少なくとも、ラベル付与部20を備える。また、分類装置200は、入力部22と、選択部24と、重み付け部26と、確信度算出部28と、記憶部30と、整合部31と、表示部32とを備えることができる。
入力部22および表示部32は、図1のディスプレイ101などによって実現される。また、記憶部30は、たとえば、図1のメモリ103およびHDD104の少なくとも一方によって実現される。また、ラベル付与部20、選択部24、重み付け部26、整合部31および確信度算出部28は、たとえば、図1のCPU102に対応するプログラム105を実行させることによって実現される。
入力部22には、互いに階層構造を構成する複数のデータ項目を有するデータセットが入力される。ラベル付与部20は、パラメータ更新装置100において更新されたパラメータにしたがって、入力されるそれぞれのデータ項目に対応して少なくとも1つの推定ラベルを付与する。
選択部24は、それぞれのデータ項目に対応する複数の推定ラベルのうちの、推定確率の高い順に少なくとも1つの推定ラベルを選択する。ここで、推定確率とは、対応する推定ラベルが正解ラベルである確率を示す値である。重み付け部26は、それぞれのデータ項目に対する重みを設定する。ここで、それぞれのデータ項目に対する重みの値は、あらかじめユーザーなどによって設定される。
確信度算出部28は、重みに基づいて、複数のデータ項目にそれぞれ対応する推定ラベル間の組み合わせの確信度を算出する。確信度については後述する。整合部31は、確信度が算出された組み合わせのそれぞれについて、階層構造を構成する複数のデータ項目間で、制限されている組み合わせがあるか否かをチェックする。表示部32は、確信度が算出された複数の組み合わせを表示する。
<パラメータ更新装置の動作について>
次に、パラメータ更新装置100の動作について、図4から図7を参照しつつ説明する。なお、図4は、パラメータ更新動作の例を示すフローチャートである。
まず、互いに階層構造を構成する複数のデータ項目を有するデータセットと、それぞれのデータ項目に対応する正解ラベルとを含む教師データが、入力部10に入力される(図4のステップST01)。なお、上記のデータセットは、たとえば、テキストデータまたは画像データなどである。
ここで、階層構造を構成する複数のデータ項目とは、データ項目間で少なくとも一部の組み合わせが制限されるデータ項目である。図5は、階層構造を構成する複数のデータ項目の例を示す図である。なお、「階層構造を構成する」場合には、データ項目間に上位下位の関係(主従関係)がないものも含まれる。
図5に例が示されるように、たとえば、1つのデータセット(たとえば、第1のデータセット)に3つのデータ項目(第1のデータ項目、第2のデータ項目および第3のデータ項目)が含まれる場合、第1のデータ項目の値(たとえば、01-a)が定まると、第1のデータ項目の値(01-a)に基づいて第2のデータ項目の値(001-a)が定まり、さらに、第2のデータ項目の値(001-a)が定まると、第2のデータ項目の値(001-a)に基づいて第3のデータ項目の値(002-b)が定まるというデータセットであり、それぞれのデータセットにおけるデータ項目間には、とり得ない組み合わせが存在する。
次に、入力部10に入力された教師データは、適宜必要となる前処理が行われた後、更新部12に入力される(図4のステップST02)。ここで、前処理とは、たとえば、単語に分割する処理、または、htmlタグまたは改行などのノイズを除去する処理などである。
次に、更新部12は、入力された教師データに基づいて、ニューラルネットワークを用いてマルチタスク学習を行う。そうすることによって、それぞれのデータ項目に対応して推定ラベルを付与するためのパラメータを更新する(図4のステップST03)。
具体的には、複数のタスクに対応する、それぞれのデータ項目に対する推定ラベルの付与について、推定ラベルと正解ラベルとの距離(誤差)の複数のデータ項目での総和(クロスエントロピーの総和)が最小化するように損失関数を設定する。そして、更新部12は、複数のデータセットを順次学習し、推定ラベルを付与するためのパラメータを更新していく。
図6は、ニューラルネットワークを用いて行われるマルチタスク学習を概念的に示す図である。本実施の形態では、畳み込み層を有する畳み込みニューラルネットワークを用いて、マルチタスク学習が行われる。また、図7は、ニューラルネットワークを用いて行われるマルチタスク学習の手順の例を示すフローチャートである。
図6に例が示されるように、入力層120において、互いに階層構造を構成する複数のデータ項目(たとえば、N個のデータ項目)を有するデータセットが入力される(図7のステップST11)。そして、データセットに含まれる全単語(たとえば、n個の単語)に対して、単語とIDとが一意に定まるようにIDが付与される。また、それぞれの単語は、固有のベクトル(たとえば、m次元のワンホットベクトル)に変換(embedding:単語埋め込み)される。
次に、畳み込み層122において、入力層120からの入力の一部に対してパラメータとバイアス値とによる線形和を計算(畳み込み演算)し、計算結果をプーリング層124へ出力する(図7のステップST12)。ここで用いられるパラメータは、たとえば、誤差逆伝搬法などによって学習され、更新されるパラメータである。
次に、プーリング層124において、畳み込み層122からの入力をサブサンプリングする。すなわち、特徴マップの解像度を下げてダウンサンプリングする(図7のステップST13)。ここでは、最大値サンプリングを行うものとする。
次に、全結合層126において、プーリング層124からの入力全てに対してパラメータとバイアス値とによる線形和を計算し、計算結果に基づいて複数のタスクに対する推定結果(推定ラベルの識別結果)を出力する(図7のステップST14)。ここで用いられるパラメータは、たとえば、誤差逆伝搬法などによって学習され、更新されるパラメータである。
そして、出力された推定結果を活性化関数であるsoftmax関数を用いて推定確率に変換して、それぞれのタスク(すなわち、それぞれのデータ項目における推定ラベルの付与)での、推定ラベルと正解ラベルとの誤差(クロスエントロピー)を算出する(図7のステップST15)。
そして、複数のタスクに跨るクロスエントロピーの総和が最小化するように、畳み込み層122および全結合層126におけるパラメータを、たとえば、誤差逆伝搬法などによって学習して更新する(図7のステップST16)。
<分類装置の動作について>
分類装置200の動作について、図8から図11を参照しつつ説明する。なお、図8は、分類動作の例を示すフローチャートである。
分類装置200は、上記のパラメータ更新装置100によって更新されたパラメータが設定されたニューラルネットワークを用いて、入力されるデータセットにおけるそれぞれのデータ項目を分類する。
まず、互いに階層構造を構成する複数のデータ項目を有するデータセットが、入力部22に入力される(図8のステップST21)。そして、当該データセットは、適宜必要となる前処理が行われた後、ラベル付与部20に入力される(図8のステップST22)。
次に、ラベル付与部20は、上記のパラメータ更新装置100によって更新されたパラメータが設定されたニューラルネットワークを用いて、入力されたデータセットにおけるそれぞれのデータ項目に対し、少なくとも1つの推定ラベルを付与する(図8のステップST23)。なお、それぞれのデータ項目に対して付与される推定ラベルは1つであってもよいが、本実施の形態では、1つのデータ項目に複数の推定ラベルが付与されるものとする。
そして、ラベル付与部20は、それぞれのデータ項目に付与された複数の推定ラベルと、それぞれの推定ラベルに対応する推定確率とを出力する(図8のステップST24)。
次に、選択部24は、ラベル付与部20から出力されたそれぞれのデータ項目に対応する複数の推定ラベルから、少なくとも一部の推定ラベルを選択する(図8のステップST25)。
たとえば、選択部24は、推定確率の高い順に推定ラベルを選択していき、推定確率の合計がしきい値を上回った時点で選択を終了する。または、選択部24は、推定確率の高い順に推定ラベルを選択していき、選択された推定ラベルの数がしきい値を上回った時点で選択を終了する。ここで、しきい値は、あらかじめユーザーなどによって設定される。
図9は、第1のデータ項目に関して推定された複数の推定ラベルと、それぞれの推定ラベルに対応する推定確率を示す図である。
図9の場合であれば、選択部24は、推定確率の高い順に推定ラベルを01-a、03-c、02-bと選択していき、推定確率の合計がしきい値(たとえば、0.9)を上回った時点(02-bの選択時点)で推定ラベルの選択を終了する。
または、選択部24は、推定確率の高い順に推定ラベルを01-a、03-c、02-b、04-dと選択していき、選択された推定ラベルの数がしきい値(たとえば、2)を上回った時点(02-bの選択時点)で選択を終了する。
なお、選択される推定ラベルの数は、最も推定確率が高い推定ラベルが正解ラベルでない場合に正解率が0となってしまうことを防ぐために、たとえば、選択される推定ラベルの数を2以上とすることができる。
選択部24が全てのデータ項目について複数の推定ラベルを選択した後、確信度算出部28は、推定ラベルにしたがう複数のデータ項目の重み付き同時確率(確信度とする)を算出する(図8のステップST26)。そして、算出された確信度は、記憶部30に記憶される。ここで、同時確率とは、推定ラベルにしたがう複数のデータ項目の組み合わせが生じる確率(複数の推定ラベルが同時に生じる確率)である。
上記の確信度を算出するにあたり、確信度算出部28は、重み付け部26においてあらかじめ設定された、それぞれのデータ項目に対応する重みを取得する。なお、確信度算出部28は、重み付け部26から重みを取得せずに、複数のデータ項目の単純な同時確率を確信度として算出してもよい。
ここで、確信度は、以下の式(1)によって求められる。
Figure 0007421363000001
また、重み付き同時確率は、以下の式(2)によって求められる。
Figure 0007421363000002
また、重み付き全体最大同時確率は、以下の式(3)によって求められる。
Figure 0007421363000003
また、全体最小同時確率は、以下の式(4)によって求められる。
Figure 0007421363000004
図10は、算出された確信度の例を示す図である。図10に示される場合では、第1の項目について推定ラベル01-aおよび03-cが選択され、第2の項目について推定ラベル001-a、004-dおよび003-cが選択されており、それらの組み合わせとして、第1の組み合わせ、第2の組み合わせ、第3の組み合わせ、第4の組み合わせ、第5の組み合わせおよび第6の組み合わせについてそれぞれ確信度が算出されている。
次に、整合部31が、確信度が算出されたそれぞれの組み合わせについて、整合性をチェックする(図8のステップST27)。具体的には、階層構造を構成する複数のデータ項目間で、制限されている(禁止されている)組み合わせがないか否かをチェックする。そして、制限されている組み合わせである場合には、表示部32に表示する組み合わせの候補から除外する。
次に、表示部32は、整合性を有する組み合わせおよび対応する確信度について、確信度の高い順に表示する(図8のステップST28)。
図11は、図10に示された複数の組み合わせを確信度の高い順に5つ示す図である。図11の例においては、図10に示された6つの組み合わせのうち、整合性を有する5つの組み合わせが選択され、かつ、整合性を有さない1つの組み合わせが除外されて、確信度の高い順に表示されている。
このようにして、確信度の高い順に複数のデータ項目の組み合わせが表示されるため、階層構造を考慮しつつ、これらの組み合わせの中に、正解ラベルの組み合わせが含まれる確率を高めることができる。
<以上に記載された実施の形態によって生じる効果について>
次に、以上に記載された実施の形態によって生じる効果の例を示す。なお、以下の説明においては、以上に記載された実施の形態に例が示された具体的な構成に基づいて当該効果が記載されるが、同様の効果が生じる範囲で、本願明細書に例が示される他の具体的な構成と置き換えられてもよい。
以上に記載された実施の形態によれば、パラメータ更新装置は、入力部10と、更新部12とを備える。入力部10には、階層構造を構成する複数のデータ項目とそれぞれのデータ項目に対応する正解ラベルとを含む教師データが入力される。更新部12は、入力される教師データの複数のデータ項目についてニューラルネットワークを用いてマルチタスク学習することによって、それぞれのデータ項目に対応する少なくとも1つの推定ラベルを付与するためのパラメータを更新する。そして、更新部12は、付与される推定ラベルと教師データにおける対応する正解ラベルとの誤差の、複数のデータ項目における総和が最小化するようにパラメータを更新する。
このような構成によれば、更新部12が、付与される推定ラベルと正解ラベルとの誤差の、複数のデータ項目における総和が最小化するようにパラメータを更新することによって、当該パラメータを用いれば、複数のデータ項目間の階層構造を考慮した推定ラベルを付与することができる。そのため、複数のデータ項目間で制限されている(禁止されている)組み合わせに対応する推定ラベルが付与される確率を低減することができる。その結果、分類精度の低下を抑制することができる。
なお、上記の構成に本願明細書に例が示された他の構成を適宜追加した場合、すなわち、上記の構成としては言及されなかった本願明細書中の他の構成が適宜追加された場合であっても、同様の効果を生じさせることができる。
また、以上に記載された実施の形態によれば、分類装置200は、パラメータ更新装置100における更新部12によって更新されたパラメータにしたがって、入力されるそれぞれのデータ項目に対応して少なくとも1つの推定ラベルを付与するラベル付与部20を備える。このような構成によれば、更新されたパラメータを用いて推定ラベルを付与することによって、複数のデータ項目間の階層構造を考慮してそれぞれのデータ項目に対し推定ラベルを付与することができる。よって、複数のデータ項目間で制限されている組み合わせに対応する推定ラベルが付与される確率を低減することができるため、分類精度の低下を抑制することができる。
また、以上に記載された実施の形態によれば、ラベル付与部20は、それぞれのデータ項目に対応して複数の推定ラベルを付与する。そして、分類装置200は、それぞれのデータ項目に対応する複数の推定ラベルのうちの、推定確率の高い順に少なくとも1つの推定ラベルを選択する選択部24を備える。このような構成によれば、推定確率が高い順に推定ラベルが選択されるため、推定ラベルが正解ラベルである確率を高めることができる。
また、以上に記載された実施の形態によれば、選択部24は、選択される推定ラベルの推定確率の合計に基づいて、選択する推定ラベルの数を決定する。このような構成によれば、複数の推定ラベルを選択し、それらの推定ラベルの中に正解ラベルが含まれる確率を高めることができる。
また、以上に記載された実施の形態によれば、選択部24は、選択される推定ラベルの数があらかじめ定められた範囲内であるように、少なくとも1つの推定ラベルを選択する。このような構成によれば、複数の推定ラベルを選択しつつ、計算量が膨大とならない範囲で推定ラベルを選択することができる。
また、以上に記載された実施の形態によれば、分類装置200は、それぞれのデータ項目に対する重みを設定する重み付け部26と、重み付け部26における重みに基づいて、複数のデータ項目にそれぞれ対応する推定ラベル間の組み合わせの確信度を算出する確信度算出部28とを備える。このような構成によれば、データ項目ごとの重要度に応じて重みを設定することによって、推定ラベルの組み合わせの重み付き同時確率を、仕様に応じて適切に調整することができる。
また、以上に記載された実施の形態によれば、分類装置200は、確信度が高い順に複数の組み合わせを表示する表示部32を備える。このような構成によれば、複数の推定ラベルの組み合わせを、それぞれの対応する確信度が高い順に複数表示することによって、これらの組み合わせの中に、正解ラベルの組み合わせが含まれる確率を高めることができる。
以上に記載された実施の形態によれば、パラメータ更新プログラムは、コンピュータ(本実施の形態におけるCPU102)にインストールされて実行されることによって、CPU102に、階層構造を構成する複数のデータ項目とそれぞれのデータ項目に対応する正解ラベルとを含む教師データの複数のデータ項目についてニューラルネットワークを用いてマルチタスク学習させることによって、それぞれのデータ項目に対応する少なくとも1つの推定ラベルを付与するためのパラメータを更新させる。ここで、パラメータの更新は、付与される推定ラベルと教師データにおける対応する正解ラベルとの誤差の、複数のデータ項目における総和が最小化するようにパラメータを更新するものである。
このような構成によれば、付与される推定ラベルと正解ラベルとの誤差の、複数のデータ項目における総和が最小化するようにパラメータを更新することによって、当該パラメータを用いれば、複数のデータ項目間の階層構造を考慮した推定ラベルを付与することができる。そのため、複数のデータ項目間で制限されている組み合わせに対応する推定ラベルが付与される確率を低減することができる。その結果、分類精度の低下を抑制することができる。
なお、上記のプログラムは、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスクまたはDVDなどのコンピュータ読取可能な可搬記録媒体に格納されていてもよい。そして、上記の機能を実現するプログラムが格納された可搬記録媒体が商業的に流通されてもよい。
以上に記載された実施の形態によれば、パラメータ更新方法において、階層構造を構成する複数のデータ項目とそれぞれのデータ項目に対応する正解ラベルとを含む教師データを入力する工程と、入力される教師データの複数のデータ項目についてニューラルネットワークを用いてマルチタスク学習することによって、それぞれのデータ項目に対応する少なくとも1つの推定ラベルを付与するためのパラメータを更新する工程とを備える。ここで、パラメータを更新する工程は、付与される推定ラベルと教師データにおける対応する正解ラベルとの誤差の、複数のデータ項目における総和が最小化するようにパラメータを更新する工程である。
このような構成によれば、付与される推定ラベルと正解ラベルとの誤差の、複数のデータ項目における総和が最小化するようにパラメータを更新することによって、当該パラメータを用いれば、複数のデータ項目間の階層構造を考慮した推定ラベルを付与することができる。そのため、複数のデータ項目間で制限されている組み合わせに対応する推定ラベルが付与される確率を低減することができる。その結果、分類精度の低下を抑制することができる。
<以上に記載された実施の形態の変形例について>
以上に記載された実施の形態では、それぞれの構成要素の寸法、形状、相対的配置関係または実施の条件などについても記載する場合があるが、これらはすべての局面においてひとつの例であって、本願明細書に記載されたものに限られることはないものとする。
したがって、例が示されていない無数の変形例、および、均等物が、本願明細書に開示される技術の範囲内において想定される。たとえば、少なくとも1つの構成要素を変形する場合、追加する場合または省略する場合が含まれるものとする。
また、以上に記載された実施の形態で記載されたそれぞれの構成要素は、ソフトウェアまたはファームウェアとしても、それと対応するハードウェアとしても想定され、その双方の概念において、それぞれの構成要素は「部」または「処理回路」(circuitry)などと称される。
10,22 入力部
12 更新部
14,30 記憶部
16 出力部
20 ラベル付与部
24 選択部
26 重み付け部
28 確信度算出部
31 整合部
32 表示部
100 パラメータ更新装置
101 ディスプレイ
102 CPU
103 メモリ
104 HDD
105 プログラム
106 外部記憶媒体
107 ネットワーク
120 入力層
122 畳み込み層
124 プーリング層
126 全結合層
200 分類装置

Claims (9)

  1. 階層構造を構成する複数のデータ項目とそれぞれの前記データ項目に対応する正解ラベルとを含む教師データが入力される入力部と、
    入力される前記教師データの複数の前記データ項目についてニューラルネットワークを用いてマルチタスク学習することによって、それぞれの前記データ項目に対応する少なくとも1つの推定ラベルを付与するためのパラメータを更新する更新部とを備え、
    前記更新部は、付与される前記推定ラベルと前記教師データにおける対応する前記正解ラベルとの誤差の、複数の前記データ項目における総和が最小化するように前記パラメータを更新する、
    パラメータ更新装置。
  2. 請求項1に記載のパラメータ更新装置における前記更新部によって更新された前記パラメータにしたがって、入力されるそれぞれの前記データ項目に対応して少なくとも1つの前記推定ラベルを付与するラベル付与部を備える、
    分類装置。
  3. 請求項2に記載の分類装置であり、
    前記ラベル付与部は、それぞれの前記データ項目に対応して複数の前記推定ラベルを付与し、
    それぞれの前記データ項目に対応する複数の前記推定ラベルのうちの、推定確率の高い順に少なくとも1つの前記推定ラベルを選択する選択部をさらに備える、
    分類装置。
  4. 請求項3に記載の分類装置であり、
    前記選択部は、選択される前記推定ラベルの前記推定確率の合計に基づいて、選択する前記推定ラベルの数を決定する、
    分類装置。
  5. 請求項3または4に記載の分類装置であり、
    前記選択部は、選択される前記推定ラベルの数があらかじめ定められた範囲内であるように、少なくとも1つの前記推定ラベルを選択する、
    分類装置。
  6. 請求項2から5のうちのいずれか1つに記載の分類装置であり、
    それぞれの前記データ項目に対する重みを設定する重み付け部と、
    前記重みに基づいて、複数の前記データ項目にそれぞれ対応する前記推定ラベル間の組み合わせの確信度を算出する確信度算出部とをさらに備える、
    分類装置。
  7. 請求項6に記載の分類装置であり、
    前記確信度が高い順に複数の前記組み合わせを表示する表示部をさらに備える、
    分類装置。
  8. コンピュータにインストールされて実行されることによって、
    前記コンピュータに、階層構造を構成する複数のデータ項目とそれぞれの前記データ項目に対応する正解ラベルとを含む教師データの複数の前記データ項目についてニューラルネットワークを用いてマルチタスク学習させることによって、それぞれの前記データ項目に対応する少なくとも1つの推定ラベルを付与するためのパラメータを更新させ、
    前記パラメータの更新は、付与される前記推定ラベルと前記教師データにおける対応する前記正解ラベルとの誤差の、複数の前記データ項目における総和が最小化するように前記パラメータを更新するものである、
    パラメータ更新プログラム。
  9. 階層構造を構成する複数のデータ項目とそれぞれの前記データ項目に対応する正解ラベルとを含む教師データを入力する工程と、
    入力される前記教師データの複数の前記データ項目についてニューラルネットワークを用いてマルチタスク学習することによって、それぞれの前記データ項目に対応する少なくとも1つの推定ラベルを付与するためのパラメータを更新する工程とを備え、
    前記パラメータを更新する工程は、付与される前記推定ラベルと前記教師データにおける対応する前記正解ラベルとの誤差の、複数の前記データ項目における総和が最小化するように前記パラメータを更新する工程である、
    パラメータ更新方法。
JP2020023047A 2020-02-14 2020-02-14 パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法 Active JP7421363B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020023047A JP7421363B2 (ja) 2020-02-14 2020-02-14 パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法
US17/167,326 US20210256308A1 (en) 2020-02-14 2021-02-04 Parameter update apparatus, classification apparatus, recording medium, and parameter update method
CN202110182057.8A CN113268963A (zh) 2020-02-14 2021-02-09 参数更新装置、分类装置、存储介质以及参数更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020023047A JP7421363B2 (ja) 2020-02-14 2020-02-14 パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法

Publications (2)

Publication Number Publication Date
JP2021128569A JP2021128569A (ja) 2021-09-02
JP7421363B2 true JP7421363B2 (ja) 2024-01-24

Family

ID=77228105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020023047A Active JP7421363B2 (ja) 2020-02-14 2020-02-14 パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法

Country Status (3)

Country Link
US (1) US20210256308A1 (ja)
JP (1) JP7421363B2 (ja)
CN (1) CN113268963A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355483A (ja) 2003-05-30 2004-12-16 Oki Electric Ind Co Ltd 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP2015043163A (ja) 2013-08-26 2015-03-05 日本電信電話株式会社 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム
WO2018085728A1 (en) 2016-11-03 2018-05-11 Salesforce.Com, Inc. Joint many-task neural network model for multiple natural language processing (nlp) tasks
WO2019235283A1 (ja) 2018-06-05 2019-12-12 日本電信電話株式会社 モデル学習装置、方法及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017073373A1 (ja) * 2015-10-30 2017-05-04 株式会社モルフォ 学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置
AU2017214619A1 (en) * 2016-02-01 2018-08-16 See-Out Pty Ltd. Image classification and labeling
US20180365575A1 (en) * 2017-07-31 2018-12-20 Seematics Systems Ltd System and method for employing inference models based on available processing resources
CN108009525B (zh) * 2017-12-25 2018-10-12 北京航空航天大学 一种基于卷积神经网络的无人机对地特定目标识别方法
CN109739979A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 神经网络的调优方法、调优装置及终端
US11164306B2 (en) * 2019-12-09 2021-11-02 International Business Machines Corporation Visualization of inspection results

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355483A (ja) 2003-05-30 2004-12-16 Oki Electric Ind Co Ltd 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP2015043163A (ja) 2013-08-26 2015-03-05 日本電信電話株式会社 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム
WO2018085728A1 (en) 2016-11-03 2018-05-11 Salesforce.Com, Inc. Joint many-task neural network model for multiple natural language processing (nlp) tasks
WO2019235283A1 (ja) 2018-06-05 2019-12-12 日本電信電話株式会社 モデル学習装置、方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
大橋空 ほか,"文符号化器のマルチタスク学習によるテキスト分類モデルの頑健化",情報処理学会研究報告 [online],日本,情報処理学会,2019年08月,Vol. 2019-NL-241,No. 25,[2019年08月30日検索],インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=198866&file_id=1&file_no=1>
白水優太朗 ほか,"文情報の活用と階層構造に着目した固有表現ラベル推定手法",情報処理学会研究報告 [online],情報処理学会,2018年12月,Vol. 2018-NL-238,No. 14,[2018年12月06日検索],インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=192745&file_id=1&file_no=1>

Also Published As

Publication number Publication date
JP2021128569A (ja) 2021-09-02
US20210256308A1 (en) 2021-08-19
CN113268963A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
US10019657B2 (en) Joint depth estimation and semantic segmentation from a single image
US11593673B2 (en) Systems and methods for identifying influential training data points
US20220092411A1 (en) Data prediction method based on generative adversarial network and apparatus implementing the same method
CN110069129B (zh) 确定系统和确定方法
US20140147034A1 (en) Information processing apparatus, control method therefor, and electronic device
CN109447096B (zh) 一种基于机器学习的扫视路径预测方法和装置
US10867246B1 (en) Training a neural network using small training datasets
KR102362678B1 (ko) 생체신호 분석 방법
JPWO2019102984A1 (ja) 学習装置、識別装置及びプログラム
KR20220079726A (ko) 의료 영상 기반의 질환 예측 방법
JP2019204214A (ja) 学習装置、学習方法、プログラム及び推定装置
CN114266927A (zh) 一种无监督的显著性目标检测方法、系统、设备及介质
JP7421363B2 (ja) パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法
CN114255381A (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
JP7472471B2 (ja) 推定システム、推定装置および推定方法
KR102548130B1 (ko) 채널 어텐션 및 공간 어텐션을 이용한 결함 탐지 방법
KR102437396B1 (ko) 모델 학습 방법
KR20230154602A (ko) 표 인식 방법 및 장치
KR102393951B1 (ko) 객체 중심 데이터 증강 방법
KR102260169B1 (ko) 데이터 생성 방법
CN114358284A (zh) 一种基于类别信息对神经网络分步训练的方法、装置、介质
KR20230127509A (ko) 콘셉트 기반의 퓨샷 학습 방법 및 장치
KR20220075119A (ko) 의료 영상 기반의 뇌백질 병변 탐지 방법
KR102070730B1 (ko) 이미지 세그먼테이션 방법
KR20220029366A (ko) 모델 학습 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240112

R150 Certificate of patent or registration of utility model

Ref document number: 7421363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150