JP7111429B2 - 学習装置、学習方法及びプログラム - Google Patents

学習装置、学習方法及びプログラム Download PDF

Info

Publication number
JP7111429B2
JP7111429B2 JP2021505586A JP2021505586A JP7111429B2 JP 7111429 B2 JP7111429 B2 JP 7111429B2 JP 2021505586 A JP2021505586 A JP 2021505586A JP 2021505586 A JP2021505586 A JP 2021505586A JP 7111429 B2 JP7111429 B2 JP 7111429B2
Authority
JP
Japan
Prior art keywords
data
learning
input
unit
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021505586A
Other languages
English (en)
Other versions
JPWO2020183979A1 (ja
Inventor
永記 石寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solutions Innovators Ltd
Original Assignee
NEC Solutions Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solutions Innovators Ltd filed Critical NEC Solutions Innovators Ltd
Publication of JPWO2020183979A1 publication Critical patent/JPWO2020183979A1/ja
Application granted granted Critical
Publication of JP7111429B2 publication Critical patent/JP7111429B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

本開示は、学習装置、学習方法及びプログラムに関する。
識別器を用いて対象物を識別する識別装置が知られている。識別装置では、識別器に対して機械学習を行い、識別器の精度を高めている。識別器を機械学習するために、教師データが用いられ、対象物に対してアノテーションが付与される(例えば、特許文献1)。アノテーションは、識別器が対象物を識別するために、対象物に対して与えられる正解データを示すラベルである。
特開2018-081545号公報
アノテーションは、識別器に対する機械学習を行う際の教師データとして用いるため、自動的に付与することが難しい。そのため、一般的に、識別器を作成又は管理するユーザが、機械学習に用いるデータを確認し、手動でアノテーションを付与する。機械学習に使用される正解データは多ければ多いほど学習の精度が高まる。しかしながら、正解データが多ければ多いほど、ユーザが、手動でアノテーションを付与しなければならない。したがって、多数のデータに対してアノテーションを手動で付与することは、ユーザに対する負担がとても大きくなってしまう。
本開示の目的は、このような課題を解決するためになされたものであり、アノテーションを付与する際のユーザの負担を軽減することが可能な学習装置、学習方法及びプログラムを提供することである。
本開示の第1の態様にかかる学習装置は、
対象物を含む複数の第1データを用いて、前記対象物にアノテーションが付与された複数の第2データを生成するアノテーション設定部と、
前記複数の第1データを入力とし、前記複数の第2データを第1教師データとして学習された学習モデルを生成する学習部と、
前記学習モデルを用いて、前記複数の第1データに含まれる前記対象物にアノテーションが付与された複数の第3データを生成する生成部と、
前記複数の第3データから選択され、前記複数の第3データに付与されたアノテーションが変更された複数の第4データと、前記複数の第1データのうち前記複数の第4データに対応する複数の第5データと、を入力する入力部と、を備え、
前記学習部は、前記複数の第5データを入力とし、前記複数の第4データを第2教師データとして前記学習モデルを再学習する、学習装置である。
本開示の第2の態様にかかる学習方法は、
対象物を含む複数の第1データを用いて、前記対象物にアノテーションが付与された複数の第2データを生成することと、
前記複数の第1データを入力とし、前記複数の第2データを第1教師データとして学習された学習モデルを生成することと、
前記学習モデルを用いて、前記複数の第1データに含まれる前記対象物にアノテーションが付与された複数の第3データを生成することと、
前記複数の第3データから選択され、前記複数の第3データに付与されたアノテーションが変更された複数の第4データと、前記複数の第1データのうち前記複数の第4データに対応する複数の第5データと、を入力することと
前記複数の第5データを入力とし、前記複数の第4データを第2教師データとして前記学習モデルを再学習することと、を含む学習方法である。
本開示の第3の態様にかかるプログラムは、
対象物を含む複数の第1データを用いて、前記対象物にアノテーションが付与された複数の第2データを生成することと、
前記複数の第1データを入力とし、前記複数の第2データを第1教師データとして学習された学習モデルを生成することと、
前記学習モデルを用いて、前記複数の第1データに含まれる前記対象物にアノテーションが付与された複数の第3データを生成することと、
前記複数の第3データから選択され、前記複数の第3データに付与されたアノテーションが変更された複数の第4データと、前記複数の第1データのうち前記複数の第4データに対応する複数の第5データと、を入力することと
前記複数の第5データを入力とし、前記複数の第4データを第2教師データとして前記学習モデルを再学習することと、をコンピュータに実行させるプログラムである。
本開示によれば、アノテーションを付与する際のユーザの負担を軽減することが可能な学習装置、学習方法及びプログラムを提供することができる。
実施の形態1にかかる学習装置の構成例を示す図である。 実施の形態2にかかる学習装置の構成例を示す図である。 アノテーション設定部が付与するアノテーションの一例を示す図である。 生成部が付与するアノテーションの一例を示す図である。 入力部に入力される画像データのアノテーションの一例を示す図である。 判定部が再学習モデルを用いて付与するアノテーションの一例を示す図である。 実施の形態2にかかる学習装置の動作例を示す図である。 本開示の各実施の形態にかかる学習装置等を実現可能な、コンピュータ(情報処理装置)のハードウェア構成を例示するブロック図である。
(実施の形態1)
以下、図面を参照して本発明の実施の形態について説明する。図1を用いて、実施の形態1にかかる学習装置1について説明する。図1は、実施の形態1にかかる学習装置の構成例を示す図である。学習装置1は、例えば、サーバ装置、パーソナルコンピュータ装置等であってもよい。
学習装置1は、アノテーション設定部2と、学習部3と、生成部4と、入力部5とを備える。
アノテーション設定部2は、対象物を含む複数の第1データを用いて、対象物にアノテーションが付与された複数の第2データを生成する。
第1データは、例えば、画像データ、映像データ、音声データ、自然言語翻訳データであってもよく、特定したい対象物が含まれる各種データである。
第1データが画像データ又は映像データである場合、対象物は、例えば、移動体であってもよいし、検出対象の特定の物体であってもよい。第1データが音データである場合、対象物は、例えば、特定の人物の音声であってもよいし、検出対象の音であってもよい。第1データが自然言語翻訳データである場合、対象物は、例えば、機械により翻訳された特定の用語であってもよいし、翻訳された文章であってもよい。
学習部3は、複数の第1データを入力とし、複数の第2データを第1教師データとして学習された学習モデルを生成する。学習部3は、後述する入力部5に入力された複数の第5データを入力とし、入力部5に入力された複数の第4データを第2教師データとして学習モデルを再学習する。
生成部4は、学習部3により学習された学習モデルを用いて、複数の第1データに含まれる対象物にアノテーションが付与された複数の第3データを生成する。
入力部5は、例えば、キーボード、マウス、タッチパネル、ディスプレイを含む入力装置等であってもよい。もしくは、入力部5は、内部のメモリ又は学習装置1に接続された外部のコンピュータ装置、サーバ装置等からの各種の情報を入力するように構成されてもよい。入力部5は、複数の第3データから選択され、複数の第3データに付与されたアノテーションが変更された複数の第4データと、複数の第1データのうち複数の第4データに対応する複数の第5データと、を入力する。
複数の第4データは、生成部4が生成した複数の第3データに付与されたアノテーションをユーザが確認して、ユーザが所望するアノテーションが付与されていない場合にアノテーションが変更されたデータであってもよい。
以上説明したように、アノテーション設定部2は、対象物を含む複数の第1データを用いて、複数の第1データに含まれる対象物に自動的にアノテーションを付与する。学習部3は、アノテーション設定部2によりアノテーションが付与された複数の第2データを第1教師データとして学習された学習モデルを生成する。生成部4は、学習された学習モデルを用いて、アノテーションが自動的に付与された複数の第3データを生成する。入力部5は、例えば、生成された複数の第3データのうち、ユーザが所望するアノテーションが付与されていない場合にアノテーションが変更された複数の第4データを入力する。学習部3は、複数の第4データを第2教師データとして学習モデルを再学習する。
ここで、生成部4が生成した複数の第3データは、アノテーション設定部2が生成したデータを教師データとして学習された学習モデルを用いている。そのため、生成部4が付与したアノテーションは、ユーザが所望するアノテーションが付与されたデータと、ユーザが所望しないアノテーションが付与されたデータとを含む。ユーザが所望するアノテーションが付与されたデータは、ある一定の性能を満たした学習モデルにより出力されたデータと判断することができる。
学習部3は、ユーザが所望しないアノテーションが付与されたデータについて、アノテーションが変更されたデータを用いて再学習する。そのため、アノテーションが変更されたデータを入力部5に入力させる。そのため、ユーザは、所望しないアノテーションが付与されたデータに対してのみアノテーションを変更し、入力部5にアノテーションが変更されたデータを入力すればよい。すなわち、学習装置1を用いることにより、手動でアノテーションを変更(付与)するデータ数を減らすことが可能となる。したがって、実施の形態1にかかる学習装置1によれば、アノテーションを付与する際のユーザの負担を軽減して学習モデルを生成することが可能となる。
(実施の形態2)
続いて、実施の形態2について説明する。
<学習装置の構成例>
図2を用いて、実施の形態2にかかる学習装置10の構成例について説明する。図2は、実施の形態2にかかる学習装置の構成例を示す図である。なお、以降の説明では、学習装置10が処理するデータは、画像データであるとして説明する。また、以降の説明では、対象物は、移動体であるとして説明する。
学習装置10は、例えば、コンピュータ装置、サーバ装置であってもよい。学習装置10は、機械学習を行い、学習モデルを生成する装置である。学習装置10は、データ記憶部11と、アノテーション設定部12と、モデル記憶部13と、学習部14と、生成部15と、入力部16と、判定部17と、出力部18とを備える。
データ記憶部11は、学習装置1が用いる複数の画像データを記憶する記憶部である。データ記憶部11には、移動体を含む複数の画像データと、当該複数の画像データの各々に対応する画像データであって、移動体を含まない複数の画像データが記憶される。
なお、移動体を含む複数の画像データと、移動体を含まない複数の画像データとが、予めデータ記憶部11に記憶されていてもよい。もしくは、後述する入力部16が、移動体を含む複数の画像データと、移動体を含まない複数の画像データとを入力し、データ記憶部11に記憶してもよい。
アノテーション設定部12は、データ記憶部11に記憶された、移動体を含む複数の画像データを用いて、移動体にアノテーションを付与し、アノテーションが付与された画像データを生成する。アノテーション設定部12は、例えば、データ記憶部11に記憶された、移動体を含む複数の画像データと、当該複数の画像データのそれぞれに対応する移動体を含まない複数の画像データとを取得する。
アノテーション設定部12は、取得した移動体を含む各画像データと、取得した移動体を含まない各画像データとの背景差分法(背景差分処理)により移動体を抽出する。アノテーション設定部12は、移動体を含まない各画像データと、移動体を含む各画像データとを比較して、差分がある領域を移動体として抽出する。アノテーション設定部12は、移動体として抽出した領域に対してアノテーションを付与してもよい。アノテーション設定部12は、データ記憶部11に記憶された、移動体を含む複数の画像データを複製して、移動体として抽出した領域にアノテーションを付与した複数の画像データを生成する。アノテーション設定部12は、生成した複数の画像データをデータ記憶部11に格納する。
ここで、図3を用いて、アノテーション設定部12が付与するアノテーションの一例を説明する。図3は、アノテーション設定部が付与するアノテーションの一例を示す図である。図3において、ハッチングされた領域は、アノテーション設定部12が付与するアノテーションを示している。
点線で囲まれた領域U1~U4は、移動する人物を表しており、移動体としてアノテーションが付与される。一方、一点鎖線で囲まれた領域S1~S4は、領域U1~U4に含まれる人物の影を表している。また、領域U5及びU6は、それぞれの領域の上に配置された木の影を表している。
アノテーション設定部12は、背景差分処理により、移動体としての人物だけでなく、当該人物の影及び木の影に対してもアノテーションを付与する。そのため、アノテーション設定部12が付与したアノテーションは、ユーザが所望する又はユーザが許容するアノテーションとはなっていない場合がある。
図2に戻り、モデル記憶部13について説明を続ける。
モデル記憶部13は、学習装置10が学習する学習モデルが記憶される記憶領域である。学習装置10が初めて起動される場合、モデル記憶部13には、未学習の学習モデルが記憶されている。もしくは、学習装置10が初めて起動される場合、モデル記憶部13には、学習モデルが記憶されていない状態で起動される。モデル記憶部13は、後述する学習部14が生成する学習モデルが記憶される。
学習部14は、データ記憶部11に記憶された移動体を含む複数の画像データを入力とし、アノテーション設定部12によりアノテーションが付与された複数の画像データを教師データとして学習モデルを学習する。学習部14は、学習済みの学習モデルを生成して、モデル記憶部13に記憶する。
学習部14は、深層学習(Deep Learning)により学習済みの学習モデルを生成する。深層学習は、CNN(Convolutional Neural Network)を利用した学習である。なお、これに限られず、学習部14は、他のアルゴリズムを用いて学習済みの学習モデルを生成してもよい。
また、学習部14は、後述する入力部16に入力される、アノテーションが付与された複数の画像データと、当該複数の画像データの各々に対応し、アノテーションが付与されていない複数の画像データとを用いて、上記学習済みの学習モデルを再学習する。学習部14は、アノテーションが付与されていない複数の画像データを入力とし、アノテーションが付与された複数の画像データを教師データとして再学習を行う。学習部14は、再学習された学習モデルをモデル記憶部13に記憶する。学習部14は、入力部16に画像データが入力される毎に学習モデルの再学習を行う。つまり、学習部14は、入力部16に画像データがn(n:1以上の整数)回入力された場合、n回の再学習を行う。
学習部14は、CNNを利用して、深層学習により学習済みの学習モデルを再学習する。学習部14は、再学習された学習済みモデルを生成し、生成した再学習済みの学習モデルをモデル記憶部13に記憶する。なお、学習部14は、他のアルゴリズムを用いて再学習を行ってもよい。また、以降の説明では、上記学習モデルと、再学習された学習モデルとを区別するために、上記学習モデルを初期学習モデルとし、初期学習モデルが再学習された学習モデルを再学習モデルと称して記載する。学習部14が最初に行う学習を初期深層学習と称して記載することがある。学習部14が行うn回目の再学習をn次深層学習と称して記載することがある。
生成部15は、学習部14が生成し、モデル記憶部13に記憶された初期学習モデルを用いて、データ記憶部11に記憶された移動体を含む複数の画像データから移動体を推定し、推定された移動体にアノテーションを付与する。生成部15は、アノテーションが付与された複数の画像データを生成して、生成した複数の画像データをデータ記憶部11に記憶する。つまり、生成部15は、移動体を含む複数の画像データに対して、学習済みの学習モデルを用いて、自動的にアノテーションを付与し、アノテーションが付与された複数の画像データを生成する。
ここで、図4を用いて生成部15が付与するアノテーションの一例について説明する。図4は、生成部が付与するアノテーションの一例を示す図である。図4において、ハッチングされた部分は、生成部15が付与したアノテーションを示している。
領域U1~U4、S1~S6は、図3の各領域に対応している。点線で囲まれた領域U1~U4は、移動体としての人物を含む領域を表しており、生成部15が付与したアノテーションを表している。領域U2及びU4に含まれる人物には、人物領域のみにアノテーションが付与されており、人物の影の領域を示す領域S2及びS4にはアノテーションが付与されていない。そのため、生成部15は、領域U2及びU4に存在する人物について、人物領域のみにアノテーションを付していることから、ユーザにとって好ましいアノテーションと言える。つまり、生成部15は、領域U2及びU4については、ユーザが所望する又は許容できるアノテーションを付与する。
また、領域S5及びS6は、アノテーション設定部12がアノテーションを付与した領域であるが、生成部15は、領域S5及びS6に対してアノテーションを付与していないため、当該領域についてもユーザにとって好ましいアノテーションと言える。
一方、領域U1については、生成部15は、人物領域だけでなく、当該人物の影を示す領域S1に対してもアノテーションを付与する。また、領域U3については、生成部15は、人物領域の全てではなく一部のみの領域に対してアノテーションを付与する。そのため、生成部15は、領域U1及びU3について、ユーザにとって好ましいアノテーションとは言えない。このように、生成部15は、ユーザにとって好ましいアノテーションと、好ましくないアノテーションを付与する。
図2に戻り、入力部16について説明する。
入力部16は、ユーザからの画像データを取得する。入力部16は、例えば、キーボード、マウス、タッチパネル、ディスプレイを含む入力装置等であってもよい。もしくは、入力部16は、内部のメモリ又は学習装置10に接続された外部のコンピュータ装置、サーバ装置等からの各種の情報を入力するように構成されてもよい。
入力部16は、生成部15が付与したアノテーションを含む複数の画像データから選択され、生成部15が付与したアノテーションが変更された複数の画像データを入力する。入力部16に入力される上記複数の画像データは、生成部15が付与したアノテーションをユーザが確認して、ユーザが所望するアノテーションが付与されていないアノテーションが変更されたデータであってもよい。
また、入力部16は、データ記憶部11に記憶された複数の画像データのうち、各々が上記の入力された複数の画像データに対応する移動体を含む複数の画像データを入力する。換言すると、入力部16は、生成部15が付与したアノテーションが変更された複数の画像データの各々に対応する画像データであって、アノテーションが付与されていない移動体を含む複数の画像データを入力する。
ここで、図5を用いて、入力部16に入力される画像データであって、変更されたアノテーションの一例について説明する。図5は、入力部に入力される画像データのアノテーションの一例を示す図である。図5において、ハッチングされた部分は、生成部15が付与したアノテーションを示している。
点線で囲まれた領域U1~U4は、移動体としての人物を表しており、アノテーションが付与されている。領域S1~S4は、領域U1~U4に含まれる人物の影を表している。図4と比較すると、図4では生成部15が領域S1にアノテーションを付与しているが、図5ではアノテーションが付与されていない。これは、生成部15により領域S1に付与されたアノテーションがユーザにより変更されていることを示している。このように、入力部16は、生成部15が付与したアノテーションが変更された画像データを入力する。
図2に戻り説明を続ける。入力部16は、再学習モデルの性能を示すモデル評価値が所定条件を満たさないと後述する判定部17が判定する場合、入力されたアノテーションが付与された複数の画像データのアノテーションを再変更する要求を判定部17から通知される。入力部16は、当該通知に応じて、入力されたアノテーションが付与された複数の画像データのアノテーションを再変更するようにユーザに要求する。入力部16は、例えば、入力されたアノテーションが付与された複数の画像データのアノテーションを再変更するメッセージをディスプレイに表示することによりユーザに要求してもよい。もしくは、入力部16は、入力されたアノテーションが付与された複数の画像データのアノテーションを再変更することの音声を出力してユーザに要求してもよい。
入力部16は、ユーザに対して行った要求に応じて入力される複数の画像データを入力する。入力部16は、入力された複数の画像データのうちアノテーションが付与された複数の画像データを、生成部15が付与したアノテーションが変更された複数の画像データとして入力する。入力部16は、入力された複数の画像データのうちアノテーションが付与されていない複数の画像データを、生成部15が付与したアノテーションが変更された複数の画像データの各々に対応する複数の画像データとして入力する。
判定部17は、再学習モデルを用いて、入力部16に入力されたアノテーションが付されていない複数の画像データから移動体を推定し、推定された移動体にアノテーションが付与された複数の画像データを生成する。判定部17は、生成された複数の画像データをデータ記憶部11に記憶する。
ここで、図6を用いて、判定部17が再学習モデルを用いて付与するアノテーションの一例について説明する。図6は、判定部が再学習モデルを用いて付与するアノテーションの一例を示す図である。図6において、ハッチングされた部分は、生成部15が付与したアノテーションを示している。
点線で囲まれた領域U1~U4は、移動体としての人物を表しており、生成部15はアノテーションを付与する。領域U1~U4は、人物領域のみにアノテーションが付与されており、人物の影の領域を示す領域S1~S4にはアノテーションが付与されていない。そのため、領域U1~U4に対して、判定部17は、移動体のみにアノテーションを付していることから、ユーザにとって好ましいアノテーションと言える。つまり、領域U1~U4に対して、判定部17は、ユーザが所望する又は許容できるアノテーションを付与することができる。
図2に戻り、判定部17の説明を続ける。
判定部17は、入力部16に入力されたアノテーションが付与された複数の画像データと、図6に示すような生成した複数の画像データとに基づいて、再学習モデルの性能を示すモデル評価値を算出する。
判定部17は、適合率(プレシジョン:Precision)及び再現率(リコール:Recall)を用いて、モデル評価値を算出する。適合率は、判定部17が生成した複数の画像データに含まれるアノテーションに、入力部16に入力されたアノテーションを含む複数の画像データに付与されたアノテーションがどの程度含まれているかを示す指標値である。再現率は、入力部16に入力されたアノテーションを含む複数の画像データに付与されたアノテーションに、判定部17が生成した複数の画像データに含まれるアノテーションがどの程度含まれているかを示す指標値である。なお、判定部17は、適合率及び再現率の両方を用いて全体適性度を算出するが、適合率及び再現率のうちのいずれか1つを用いて、モデル評価値を算出してもよい。
判定部17は、入力部16に入力されたアノテーションが付与された各画像データと、当該画像データに対応し、判定部17が再学習モデルを用いて付与したアノテーションを含む各画像データとの評価値を示す個別評価値を再現率及び適合率を用いて算出する。
判定部17は、各画像データから算出した複数の個別評価値の平均値をモデル評価値として算出してもよい。もしくは、判定部17は、再現率及び適合率の調和平均を取った値を用いた指標値であるF値(F-measure)を用いて、個別評価値及びモデル評価値を算出してもよい。
判定部17は、算出したモデル評価値が所定条件を満たしているかを判定する。具体的には、判定部17は、算出したモデル評価値が所定の閾値以上である場合、所定条件を満たしていると判定する。
なお、判定部17は、個別評価値が所定の閾値以上である画像データ数に基づいて、所定条件を満たしているかを判定してもよい。判定部17は、個別評価値が所定の閾値以上の画像データ数が所定数以上である場合に、所定条件を満たしていると判定してもよい。もしくは、判定部17は、個別評価値が所定の閾値未満である画像データ数が所定数未満である場合に、所定条件を満たしていると判定してもよい。
判定部17は、モデル評価値が所定条件を満たしていると判定した場合、後述する出力部18に再学習モデルを生成することを出力部18に通知する。換言すると、判定部17は、モデル評価値が所定の閾値以上であると判定した場合、再学習モデルの性能が所望する性能(学習精度)を満たしていると判定して、出力部18に再学習モデルを生成させる。
一方、判定部17は、再学習モデルの評価値が所定条件を満たしていないと判定した場合、入力部16に入力されたアノテーションが付与された複数の画像データのアノテーションを再変更する要求を入力部16に通知する。換言すると、判定部17は、モデル評価値が所定の閾値未満であると判定した場合、入力部16に入力されたアノテーションが付与された複数の画像データのアノテーションを再変更する要求を入力部16に行わせる。
すなわち、判定部17は、モデル評価値が所定条件を満たすと判定するまで、入力部16が、入力されたアノテーションが付与された画像データのアノテーションを再変更することを繰り返し要求する。入力部16は、要求に応じて、アノテーションが付与された画像データと、当該画像データに対応しアノテーションが付与されていない画像データとを入力する。そして、学習部14が、入力されたアノテーションが付与されていない画像データを入力とし、入力されたアノテーションが付与された画像データを教師データとして再学習モデルを再学習することを繰り返し実行する。
なお、判定部17は、モデル評価値が所定の閾値未満であると判定した場合、入力部16に入力された、アノテーションが付与された複数の画像データのうち、個別評価値が所定の閾値未満である画像データを特定してもよい。そして、判定部17は、特定した画像データを指定して、アノテーションを再変更する要求を行うことを入力部16に通知し、入力部16が通知された内容に応じて、特定された画像データを指定して、アノテーションを変更する要求を行ってもよい。
出力部18は、モデル評価値が所定条件を満たすと判定部17が判定する場合、判定部17からの通知に応じて再学習モデルを出力する。
<学習装置の動作例>
続いて、学習装置10の動作例について説明する。図7は、実施の形態2にかかる学習装置の動作例を示す図である。前提として、データ記憶部11には、移動体を含む複数の画像データと、移動体を含まない複数の画像データとが記憶されている。なお、当該複数の画像データは、入力部16により入力されてもよい。
まず、アノテーション設定部12は、背景差分処理を行う(ステップS1)。アノテーション設定部12は、移動体を含む画像データと、当該画像データに対応する移動体を含まない画像データとを取得する。アノテーション設定部12は、移動体を含む画像データと、当該画像データに対応する移動体を含まない画像データとに対して背景差分法(背景差分処理)により移動体を抽出する。アノテーション設定部12は、データ記憶部11に記憶された、移動体を含む複数の画像データを複製して、移動体として抽出した領域にアノテーションを付与した複数の画像データを生成する。アノテーション設定部12は、生成した複数の画像データをデータ記憶部11に格納する。
学習部14は、データ記憶部11に記憶された移動体を含む複数の画像データを入力とし、アノテーション設定部12によりアノテーションが付与された複数の画像データを教師データとして初期深層学習を行う(ステップS2)。
学習部14は、データ記憶部11に記憶された移動体を含む複数の画像データを入力とし、アノテーション設定部12によりアノテーションが付与された複数の画像を教師データとして、CNNを利用して深層学習により学習済みの学習モデルを生成する。初期深層学習により学習された初期学習モデルは、モデル記憶部13に記憶される。
生成部15は、データ記憶部11に記憶された移動体を含む複数の画像データに対して、初期学習モデルを用いて、移動体を推定し、推定された移動体にアノテーションを付与し、アノテーションが付与された画像データを生成する(ステップS3)。生成部15は、アノテーションが付与された複数の画像データを生成して、生成した複数の画像データをデータ記憶部11に記憶する。
入力部16は、ステップS3で付与されたアノテーションが変更された複数の画像データと、各々に対応し、アノテーションが付与されていない複数の画像データとを入力する(ステップS4)。
入力部16は、生成部15が付与したアノテーションを含む複数の画像データから選択された画像データであって、生成部15が付与したアノテーションが変更された複数の画像データを入力する。また、入力部16は、データ記憶部11に記憶された複数の画像データのうち、各々が入力された複数の画像データに対応する複数の画像データであって、移動体を含む複数の画像データを入力する。
学習部14は、入力部16に入力された、アノテーションが付与された複数の画像データと、上記複数の画像データに対応する画像データであって、アノテーションが付与されていない画像データとを用いてn次深層学習を行う(ステップS5)。ステップS5は、入力部16に画像データが入力される毎に実行されるため、入力部16に画像データが入力される回数がnに対応する。
学習部14は、入力部16に入力されたアノテーションが付与された複数の画像データを教師データとし、当該複数の画像データに対応するアノテーションが付与されていない複数の画像データを入力として、学習モデルを再学習して再学習モデルを生成する。学習部14は、CNNを利用して深層学習により再学習モデルを生成する。
判定部17は、再学習モデルを用いて、再学習モデルを用いて、入力部16に入力されたアノテーションが付されていない複数の画像データから移動体を推定し、推定された移動体にアノテーションが付与された複数の画像データを生成する(ステップS6)。
判定部17は、入力部16に入力されたアノテーションが付与された複数の画像データと、ステップS6において生成した複数の画像データとを用いて、モデル評価値を算出する(ステップS7)。
判定部17は、入力部16に入力されたアノテーションが付与された各画像データと、当該画像データに対応し、生成した各画像データとの再現率及び適合率を用いて、各画像データの個別評価値を算出する。判定部17は、各画像データに対して算出した個別評価値の平均値又はF値を用いて、モデル評価値を算出する。
次に、判定部17は、モデル評価値が所定条件を満たすかを判定する(ステップS8)。判定部17は、モデル評価値が所定の閾値以上であるか否かを判定する。判定部17は、モデル評価値が所定の閾値以上であると判定した場合(ステップS8のYES)、出力部18は、再学習モデルを出力する(ステップS9)。
一方、判定部17は、モデル評価値が所定の閾値未満であると判定した場合(ステップS8のNO)、入力部16は、入力部16に入力されたアノテーションが付与された画像データのアノテーションの変更を要求する(ステップS10)。
学習装置10は、モデル評価値が所定の閾値以上となるまで、ステップS4~S10を繰り返し実行する。すなわち、判定部17は、モデル評価値が所定条件を満たすと判定するまで、入力部16が、入力されたアノテーションが付与された画像データのアノテーションを再変更することを繰り返し要求する。入力部16は、要求に応じて、アノテーションが付与された画像データと、当該画像データに対応しアノテーションが付与されていない画像データとを入力する。そして、学習部14が、入力されたアノテーションが付与されていない画像データを入力とし、入力されたアノテーションが付与された画像データを教師データとして再学習モデルを再学習することを繰り返し実行する。
以上説明したように、アノテーション設定部12は、背景差分処理により、画像データに含まれる移動体を推定し、推定された移動体に対して自動的にアノテーションを付与する。学習部14は、アノテーション設定部12が付与したアノテーションを教師データとして初期学習モデルを生成する。生成部15は、初期学習モデルを用いて、画像データに含まれる移動体を推定し、推定された移動体にアノテーションを自動的に付与する。
アノテーション設定部12が付与したアノテーションは、ユーザが所望する又は許容できるアノテーションと、ユーザが許容できないアノテーションとが含まれている。そのため、生成部15が付与したアノテーションも、ユーザが所望する又は許容できるアノテーションと、ユーザが許容できないアノテーションとが含まれる。
生成部15が付与したアノテーションは、アノテーション設定部12が生成したデータを教師データとして学習された学習モデルを用いている。そのため、生成部15が付与したアノテーションは、ユーザが所望するアノテーションが付与された画像データと、ユーザが所望しないアノテーションが付与された画像データとを含む。ユーザが所望するアノテーションが付与された画像データは、ある一定の性能を満たした学習モデルにより出力された画像データと判断することができる。ユーザが所望しないアノテーションが付与された画像データのアノテーションについては、アノテーションを変更して再学習をする必要がある。そのため、ユーザは、アノテーションを変更して入力部16に入力させる。
上記のように、生成部15は、ユーザが所望するアノテーションが付与されたデータも生成していることから、ユーザは、所望しないアノテーションが付与されたデータに対してのみアノテーションを変更すればよい。すなわち、学習装置10を用いることにより、アノテーションを変更し入力部5に入力するデータ数を減らすことが可能となる。したがって、実施の形態2にかかる学習装置10によれば、アノテーションを付与する際のユーザの負担を軽減して学習モデルを生成することが可能となる。
また、学習部14は、入力部16に入力された複数の画像データを用いて再学習モデルを生成する。判定部17は、再学習モデルを用いて、入力された画像データに含まれる移動体に対してアノテーションを付与し、モデル評価値が所定条件を満たさない場合、入力部16が、入力されたアノテーションを再変更することを要求する。判定部17は、モデル評価値が所定条件を満たすまで、入力部16が入力されたアノテーションを再変更することを要求し、学習部14が再学習モデルを再学習することを繰り返し実行する。判定部17は、モデル評価値が所定条件を満たした場合に、出力部18が再学習モデルを出力する。したがって、実施の形態2にかかる学習装置10によれば、アノテーションを付与する際のユーザの負担を軽減しつつ、生成される学習モデル(再学習モデル)の精度を向上させることが可能となる。
(他の実施の形態)
上述した実施の形態において説明した学習装置1及び10(以下、学習装置1等と称する)は、次のようなハードウェア構成を有していてもよい。図8は、本開示の各実施の形態にかかる学習装置等を実現可能な、コンピュータ(情報処理装置)のハードウェア構成を例示するブロック図である。
図8を参照すると、学習装置1等は、プロセッサ1201及びメモリ1202を含む。プロセッサ1201は、メモリ1202からソフトウェア(コンピュータプログラム)を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明された学習装置1等の処理を行う。プロセッサ1201は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)、又はCPU(Central Processing Unit)であってもよい。プロセッサ1201は、複数のプロセッサを含んでもよい。
メモリ1202は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ1202は、プロセッサ1201から離れて配置されたストレージを含んでもよい。この場合、プロセッサ1201は、図示されていないI/Oインターフェースを介してメモリ1202にアクセスしてもよい。
図8の例では、メモリ1202は、ソフトウェアモジュール群を格納するために使用される。プロセッサ1201は、これらのソフトウェアモジュール群をメモリ1202から読み出して実行することで、上述の実施形態において説明された学習装置1等の処理を行うことができる。
図8を用いて説明したように、学習装置1等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む1または複数のプログラムを実行する。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)を含む。さらに、非一時的なコンピュータ可読媒体の例は、CD-ROM(Read Only Memory)、CD-R、CD-R/Wを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。
この出願は、2019年3月11日に出願された日本出願特願2019-044272を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1、10 学習装置
2、12 アノテーション設定部
3、14 学習部
4、15 生成部
5、16 入力部
11 データ記憶部
13 モデル記憶部
17 判定部
18 出力部

Claims (8)

  1. 対象物を含む複数の第1データを用いて、前記対象物にアノテーションが付与された複数の第2データを生成するアノテーション設定手段と、
    前記複数の第1データを入力とし、前記複数の第2データを第1教師データとして学習された学習モデルを生成する学習手段と、
    前記学習モデルを用いて、前記複数の第1データに含まれる前記対象物にアノテーションが付与された複数の第3データを生成する生成手段と、
    前記複数の第3データから選択され、前記複数の第3データに付与されたアノテーションが変更された複数の第4データと、前記複数の第1データのうち前記複数の第4データに対応する複数の第5データと、を入力する入力手段と、を備え、
    前記学習手段は、前記複数の第5データを入力とし、前記複数の第4データを第2教師データとして前記学習モデルを再学習する、学習装置。
  2. 前記再学習された学習モデルを用いて前記複数の第5データに含まれる前記対象物にアノテーションが付与された複数の第6データと、前記複数の第4データとに基づき算出された第1評価値が所定条件を満たすか否かを判定する判定手段を備え、
    前記判定手段が、前記第1評価値が前記所定条件を満たすと判定するまで、前記入力手段が、前記複数の第4データに付与されたアノテーションを変更する要求を行い、前記複数の第4データと、前記複数の第5データとを入力する処理と、前記学習手段が、前記複数の第5データを入力とし、前記複数の第4データを第2教師データとして前記再学習された学習モデルを再学習する処理と、を繰り返し実行する、請求項1に記載の学習装置。
  3. 前記判定手段は、前記複数の第4データの各々と、前記複数の第6データの各々とに基づいて複数の第2評価値を算出し、前記複数の第2評価値を用いて、前記第1評価値を算出する、請求項2に記載の学習装置。
  4. 前記入力手段は、前記第1評価値が前記所定条件を満たさないと前記判定手段が判定する場合、前記複数の第6データのうち、前記第2評価値が前記所定条件を満たさない第6データに対応する第4データに付与されたアノテーションを変更する要求を行う、請求項3に記載の学習装置。
  5. 前記判定手段は、適合率及び再現率の少なくとも1つを用いて、前記第1評価値及び前記第2評価値を算出する、請求項3又は4に記載の学習装置。
  6. 前記所定条件は、所定の閾値以上を満たすことである、請求項2~5のいずれか1項に記載の学習装置。
  7. 対象物を含む複数の第1データを用いて、前記対象物にアノテーションが付与された複数の第2データを生成することと、
    前記複数の第1データを入力とし、前記複数の第2データを第1教師データとして学習された学習モデルを生成することと、
    前記学習モデルを用いて、前記複数の第1データに含まれる前記対象物にアノテーションが付与された複数の第3データを生成することと、
    前記複数の第3データから選択され、前記複数の第3データに付与されたアノテーションが変更された複数の第4データと、前記複数の第1データのうち前記複数の第4データに対応する複数の第5データと、を入力することと
    前記複数の第5データを入力とし、前記複数の第4データを第2教師データとして前記学習モデルを再学習することと、を含む学習方法。
  8. 対象物を含む複数の第1データを用いて、前記対象物にアノテーションが付与された複数の第2データを生成することと、
    前記複数の第1データを入力とし、前記複数の第2データを第1教師データとして学習された学習モデルを生成することと、
    前記学習モデルを用いて、前記複数の第1データに含まれる前記対象物にアノテーションが付与された複数の第3データを生成することと、
    前記複数の第3データから選択され、前記複数の第3データに付与されたアノテーションが変更された複数の第4データと、前記複数の第1データのうち前記複数の第4データに対応する複数の第5データと、を入力することと
    前記複数の第5データを入力とし、前記複数の第4データを第2教師データとして前記学習モデルを再学習することと、をコンピュータに実行させるプログラム。
JP2021505586A 2019-03-11 2020-02-04 学習装置、学習方法及びプログラム Active JP7111429B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019044272 2019-03-11
JP2019044272 2019-03-11
PCT/JP2020/004001 WO2020183979A1 (ja) 2019-03-11 2020-02-04 学習装置、学習方法及び非一時的なコンピュータ可読媒体

Publications (2)

Publication Number Publication Date
JPWO2020183979A1 JPWO2020183979A1 (ja) 2021-11-25
JP7111429B2 true JP7111429B2 (ja) 2022-08-02

Family

ID=72427332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021505586A Active JP7111429B2 (ja) 2019-03-11 2020-02-04 学習装置、学習方法及びプログラム

Country Status (2)

Country Link
JP (1) JP7111429B2 (ja)
WO (1) WO2020183979A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023097496A (ja) * 2021-12-28 2023-07-10 Sensy株式会社 機械学習装置、データ処理装置、推論装置、機械学習方法、データ処理方法、及び、推論方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018537798A (ja) 2015-10-02 2018-12-20 トラクタブル リミテッドTractable Ltd. データセットの半自動ラベル付け

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018537798A (ja) 2015-10-02 2018-12-20 トラクタブル リミテッドTractable Ltd. データセットの半自動ラベル付け

Also Published As

Publication number Publication date
WO2020183979A1 (ja) 2020-09-17
JPWO2020183979A1 (ja) 2021-11-25

Similar Documents

Publication Publication Date Title
KR102535411B1 (ko) 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
US20180189274A1 (en) Apparatus and method for generating natural language
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
US20190156204A1 (en) Training a neural network model
CN110196908A (zh) 数据分类方法、装置、计算机装置及存储介质
EP3884426B1 (en) Action classification in video clips using attention-based neural networks
US10796098B2 (en) Instruction understanding system and instruction understanding method
CN111837142A (zh) 用于表征视频内容的深度强化学习框架
US20220230061A1 (en) Modality adaptive information retrieval
CN113177572A (zh) 用于从传感器自动学习的方法和计算机可读介质
JP7111429B2 (ja) 学習装置、学習方法及びプログラム
KR102334666B1 (ko) 얼굴 이미지 생성 방법
JPWO2015040860A1 (ja) 分類辞書生成装置、分類辞書生成方法及びプログラム
JP7377899B2 (ja) テキスト変換装置、テキスト変換方法、およびプログラム
JP2022148878A (ja) プログラム、情報処理装置、及び方法
KR20220055954A (ko) 전자 장치 및 그 제어 방법
KR20210130529A (ko) 딥러닝 기반 일기 생성 방법 및 장치
JP7377898B2 (ja) テキスト生成装置、テキスト生成方法、およびプログラム
JP7421597B2 (ja) 会議支援方法および会議支援装置
US20230360557A1 (en) Artificial intelligence-based video and audio assessment
RU2788482C2 (ru) Тренировка модели нейронной сети
KR102176035B1 (ko) 지식 그래프 스키마 확장 방법 및 장치
JP7411149B2 (ja) 学習装置、推定装置、学習方法、推定方法及びプログラム
JP5829471B2 (ja) 意味分析装置およびそのプログラム
US20220269869A1 (en) Handwriting text summarization

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210714

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220714

R150 Certificate of patent or registration of utility model

Ref document number: 7111429

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150