JP2017194782A - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP2017194782A
JP2017194782A JP2016083606A JP2016083606A JP2017194782A JP 2017194782 A JP2017194782 A JP 2017194782A JP 2016083606 A JP2016083606 A JP 2016083606A JP 2016083606 A JP2016083606 A JP 2016083606A JP 2017194782 A JP2017194782 A JP 2017194782A
Authority
JP
Japan
Prior art keywords
information
learning
information processing
semantic network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016083606A
Other languages
English (en)
Inventor
拓也 成平
Takuya Narihira
拓也 成平
拓也 藤田
Takuya Fujita
拓也 藤田
章 中村
Akira Nakamura
章 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2016083606A priority Critical patent/JP2017194782A/ja
Priority to PCT/JP2017/002287 priority patent/WO2017183242A1/ja
Priority to US16/076,851 priority patent/US20190050713A1/en
Priority to EP17785587.1A priority patent/EP3447661A4/en
Publication of JP2017194782A publication Critical patent/JP2017194782A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ニューラルネットの学習をより効率的に行うことが可能な仕組みを提供する。【解決手段】意味ネットワーク、データの識別情報及びラベルを取得する取得部と、前記取得部により取得された前記意味ネットワーク、前記識別情報及びラベルに基づいて、前記データを前記ラベルに分類する分類モデルを学習する学習部と、を備える情報処理装置。【選択図】図7

Description

本開示は、情報処理装置及び情報処理方法に関する。
近年、機械学習により構築されたモデルを用いて予測又は認識等の演算を行う技術が広く用いられている。特に、近年のハードウェアの進歩により、ディープラーニングと称される多層ニューラルネットに関する技術が盛んに開発されている。例えば、下記非特許文献1では、ディープラーニングの一種であるCNN(Convolutional Neural Network)で実装されたシーン認識器を学習する過程で、中間層を物体検出器として機能させる技術が開示されている。
Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba,"OBJECT DETECTORS EMERGE IN DEEP SCENE CNNS",Published as a conference paper at ICLR 2015.
機械学習技術の進歩により、ある程度は人間の概念をモデル化することが可能になってきている。しかし、人間の概念は幅広いため、ニューラルネットの学習をより効率的に行うことが可能な仕組みが提供されることが望ましい。
本開示によれば、意味ネットワーク、データの識別情報及びラベルを取得する取得部と、前記取得部により取得された前記意味ネットワーク、前記識別情報及びラベルに基づいて、前記データを前記ラベルに分類する分類モデルを学習する学習部と、を備える情報処理装置が提供される。
また、本開示によれば、意味ネットワーク、データの識別情報及びラベルを取得することと、取得された前記意味ネットワーク、前記識別情報及びラベルに基づいて、前記データを前記ラベルに分類する分類モデルを学習することと、を含むプロセッサにより実行される方法が提供される。
以上説明したように本開示によれば、ニューラルネットの学習をより効率的に行うことが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
ニューラルネットの概要を説明するための説明図である。 画像のカテゴリごとの中間層の発火状況の傾向の一例を示す図である。 画像のカテゴリごとの中間層の発火状況の傾向の一例を示す図である。 本開示の一実施形態に係るシステムの概略的な構成の一例を示す図である。 意味ネットワークの一例を示す図である。 同実施形態に係るシステムにおいて実行される学習処理の大まかな流れの一例を示すフローチャートである。 同実施形態に係るシステムにおいて実行される学習処理の詳細な流れの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係るUIの一例を示す図である。 同実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の要素を、必要に応じてクラスタ20A、20B、及び20Cのように区別する。ただし、実質的に同一の機能構成を有する複数の要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、クラスタ20A、20B、及び20Cを特に区別する必要が無い場合には、単にクラスタ20と称する。
なお、説明は以下の順序で行うものとする。
1.はじめに
1.1.ニューラルネット
1.2.中間層の発火状況の傾向
2.構成例
2.1.システムの構成例
2.2.サーバの構成例
2.3.端末装置の構成例
3.技術的特徴
3.1.分類モデル
3.2.学習
3.3.インタラクティブな学習
3.4.UI例
3.4.1.第1のアルゴリズム
3.4.2.第2のアルゴリズム
3.4.3.補足
3.5.変形例
4.ハードウェア構成例
5.まとめ
<<1.はじめに>>
<1.1.ニューラルネット>
ニューラルネットとは、人間の脳神経回路を模したモデルであり、人間が持つ学習能力をコンピュータ上で実現しようとする技法である。ニューラルネットは学習能力を有することを特徴の一つとする。ニューラルネットでは、シナプスの結合によりネットワークを形成した人工ニューロン(ノード)が、学習によりシナプスの結合強度を変化させることで、問題に対する解決能力を獲得することが可能である。すなわち、ニューラルネットは、学習を重ねることで、問題に対する解決ルールを自動的に推論することができる。
ニューラルネットによる学習の例としては、画像認識及び音声認識が挙げられる。ニューラルネットでは、例えば、手書きの数字パターンを繰り返し学習することで、入力される画像情報を、0〜9の数字のいずれかに分類することが可能となる。ニューラルネットの有する上記のような学習能力は、人工知能(Artificial Intelligence)の発展を推し進める鍵としても注目されている。また、ニューラルネットに有するパターン認識力は、種々の産業分野における応用が期待される。
図1は、ニューラルネットの概要を説明するための説明図である。図1に示したニューラルネットは、複数のノード10を含む複数の層11を、ノード10間のリンクにより結合させた構成を有する。ノード10間のリンクは、シナプスに対応し、結合の強さに応じた重みが割り振られる。層11Aは、入力層とも称され、入力情報12が入力される。層11Cは、出力層とも称され、出力情報13が出力される。層11Bは、中間層とも称され、入力層11Aから入力された情報(例えば、信号)を出力層11Cに向けて伝達する。典型的には、各々のノード10は、自身にリンク付けされた入力層11A側のノード10から出力される信号に、各々のリンクの重みを乗じた重みつき総和を計算する。そして、ノード10は、計算した重み付き総和を閾値と比較して、自身にリンク付けされた出力層11C側のノード10に、閾値を超えた場合と超えない場合とで異なる信号を出力する。典型的には、閾値を超えない場合、信号は出力されない(即ち、ゼロが出力される)。なお、閾値を超えることは、発火する、とも称される。入力層11Aから中間層11Bを経て出力層11Cまで、上述した演算が繰り返し行われ、出力情報13が出力される。このようにして、ニューラルネットの演算が行われる。
他方、学習においては、ニューラルネットのパラメータ(各々のリンクの重み、及び各ノード10の閾値)が学習対象となる。さらに、ノードの追加又は削除も、学習において行われ得る。学習方法には、誤差逆伝搬法等がある。
本実施形態では、ニューラルネットとしてCNN(Convolutional Neural Network)を想定して説明するが、他の任意のニューラルネットが適用されてもよい。なお、CNNとは、層間が全結合ではない順伝播型ニューラルネットであり、画像認識の分野において広く利用されている。
CNNの学習には、例えばIMAGENETに代表される学習データセットが利用され得る。IMAGENETとは、1000カテゴリ(即ち、ラベル)の訓練画像の集合であって、1カテゴリあたり約1000枚の訓練画像を含む学習データセットである。IMAGENETを利用した学習を行ったCNNは、例えば出力層に1000個のノードを有し、当該1000個のノードのいずれが発火するかに基づいて、未知の画像を1000カテゴリのいずれかにカテゴライズすることが可能となる。
<1.2.中間層の発火状況の傾向>
例えば、上記非特許文献1では、CNNで実装されたシーン認識器を学習する過程で、中間層を物体検出器として機能させる技術が開示されている。このように、出力層からの出力以外にも、特定の入力情報に対して特有の発火状況の傾向が中間層においてみられる場合がある。例えば、中間層において、画像のカテゴリごとに異なる発火状況の傾向がみられ得る。その一例を、図2及び図3を参照して説明する。
図2は、画像のカテゴリごとの中間層の発火状況の傾向の一例を示す図である。図2では、ある中間層を構成する複数のノードの発火状況を、2次元座標にプロットした様子を示している。2次元圧縮技術(2D embedding)を利用することで、例えば100個のノードの発火状況を示す100次元のベクトルを2次元のベクトルに圧縮して可視化することが可能となる。ひとつのプロットは、ひとつの画像に対応する。プロットの種別は、画像のカテゴリに対応する。図2に示すように、同種のカテゴリの画像は発火状況が近い(即ち、類似する)傾向があるので、画像のカテゴリごとにクラスタ20A〜20Eにクラスタリング可能である。
図3は、画像のカテゴリごとの中間層の発火状況の傾向の一例を示す図である。図3も、ある中間層を構成する複数のノードの発火状況を、2次元座標にプロットした様子を示している。とりわけ、図3は、手書き数字の画像の認識問題において、二次圧縮技術としてt−SNE(t-distributed stochastic neighbor embedding))を利用して画像の特徴を表現した図である。ひとつの数字のプロットは、認識対象の画像ひとつに対応する。プロットの数字は、認識された数字に対応する。矩形は、手書きの数字の画像である。t−SNEとは、2点間の近さを確率分布で表現し、圧縮前後の確率分布のKL情報量(Kullback−Leibler divergence)を最小化するよう、高次元の情報を2次元の情報に圧縮する技術である。図3に示すように、異なる数字ごとに異なるクラスタを形成していることが分かる。
以上、図2及び図3を参照して説明したように、画像のカテゴリごとに中間層の発火状況の傾向が異なり得る。そこで、本開示では、中間層の発火状況の傾向によって、新たな概念を獲得しながら学習を行うことを提案する。
<<2.構成例>>
<2.1.システムの構成例>
図4は、本開示の一実施形態に係るシステムの概略的な構成の一例を示す図である。図1に示すように、システム1は、サーバ100及び端末装置200を含む。
サーバ100及び端末装置200は、ネットワークにより接続され、互いに通信可能である。ネットワークは、例えばセルラーネットワーク、有線LAN(Local Area Network)、又は無線LAN等を含み得る。
サーバ100は、各種処理を行う情報処理装置である。端末装置200は、ユーザとのインタフェースとして機能する情報処理装置である。典型的には、システム1は、サーバ100及び端末装置200の協働により、ユーザとのインタラクションを行う。例えば、端末装置200は、ブラウザによりサーバ100へのインタフェースを提供する。
続いて、各装置の構成例を説明する。
<2.2.サーバの構成例>
図4に示すように、サーバ100は、通信部110、記憶部120及び制御部130を含む。
(1)通信部110
通信部110は、情報を送受信する機能を有する。例えば、通信部110は、端末装置200からの情報を受信し、端末装置200への情報を送信する。
(2)記憶部120
記憶部120は、サーバ100の動作のためのプログラム及び様々なデータを一時的に又は恒久的に記憶する。
(3)制御部130
制御部130は、サーバ100の様々な機能を提供する。制御部130は、取得部131、学習部133及び出力制御部135を含む。なお、制御部130は、これらの構成要素以外の他の構成要素をさらに含み得る。即ち、制御部130は、これらの構成要素の動作以外の動作も行い得る。制御部130による制御に基づくサーバ100の動作については、後に詳しく説明する。
<2.3.端末装置の構成例>
図4に示すように、端末装置200は、入力部210、出力部220、通信部230、記憶部240及び制御部250を含む。
(1)入力部210
入力部210は、情報の入力を受け付ける機能を有する。例えば、入力部210は、ユーザからの情報の入力を受け付ける。入力部210は、例えばキーボード又はタッチパネル等による文字入力を受け付けてもよいし、音声入力を受け付けてもよいし、ジェスチャ入力を受け付けてもよい。その他、入力部210は、フラッシュメモリ等の記憶媒体からのデータ入力を受け付けてもよい。
(2)出力部220
出力部220は、情報の出力を行う機能を有する。例えば、出力部220は、画像、音声、振動、又は発光等により情報を出力する。
(3)通信部230
通信部230は、情報を送受信する機能を有する。例えば、通信部230は、サーバ100からの情報を受信し、サーバ100への情報を送信する。
(4)記憶部240
記憶部240は、端末装置200の動作のためのプログラム及び様々なデータを一時的に又は恒久的に記憶する。
(5)制御部250
制御部250は、端末装置200の様々な機能を提供する。端末装置200は、制御部250による制御に基づき動作する。制御部250による制御に基づく端末装置200の動作については、後に詳しく説明する。
<<3.技術的特徴>>
続いて、本実施形態に係るシステム1の技術的特徴を説明する。
<3.1.分類モデル>
本実施形態では、ニューラルネットで実装される分類モデルを用いてデータを分類することを想定する。分類モデルに分類対象のデータが入力されると、当該データが分類される概念が出力される。例えば、猫の画像が入力されると、「動物」「猫」といった概念が分類結果として出力される。
学習に用いられる学習データセットは、データと当該データに対応する概念を示すラベルとの組み合わせの集合である。分類モデルに分類対象のデータが入力された場合に出力される分類結果とラベルとが一致するように学習が行われる。そのため、学習後の分類モデルは、分類対象のデータを、対応付けられたラベルに分類することが可能となる。
<3.2.学習>
(1)分類モデルの学習
システム1は、分類モデルの学習を行う。とりわけ、本実施形態に係るシステム1は、意味ネットワークを用いて分類モデルの学習を行う。
詳しくは、システム1(例えば、取得部131)は、意味ネットワーク、分類対象のデータの識別情報及びラベルを取得する。そして、システム1(例えば、学習部133)は、取得された意味ネットワーク、識別情報及びラベルに基づいて、分類モデルを学習する。これにより、後述するように効率的な学習が可能となる。
意味ネットワークとは、人間の持つ記憶の構造を表すモデルである。以下、図5を参照して、意味ネットワークについて説明する。
図5は、意味ネットワークの一例を示す図である。矩形内の文字は概念を表し、上記ラベルに対応する。以下では、概念を表す矩形をノードとも称する。ノード同士を接続する有向のリンクは、リンクの始点のノード(以下、Xとも称する)と終点のノード(以下、Yとも称する)との、概念間の関係を示す。このように、意味ネットワークは、概念(ラベル)に対応するノードと、概念間の関係性を示すリンクにより形成される。
概念間の関係は、IS−A関係、IS−PART−OF関係、INSTANCE−OF関係、COLOR関係、ATTRIBUTE関係、及びOWNER関係等、多様に考えられる。IS−A関係とは、XはYである、が成り立つ関係である。例えば、図5においては、椅子は家具である、タンは茶色である、私は人である、という関係が示されている。IS−PART−OF関係とは、XはYの一部である又はYのX、が成り立つ関係である。例えば、図5においては、シートは椅子の一部である及び椅子のシート、という関係が示されている。INSTANCE−OF関係とは、XはYの一例である、が成り立つ関係である。例えば、図5においては、私の椅子は椅子の一例である、という関係が示されている。COLOR関係とは、Xの色はYである、が成り立つ関係である。例えば、図5においては、私の椅子の色はタンである、という関係が示されている。ATTRIBUTE関係とは、Xの属性はYである、が成り立つ関係である。例えば、図5においては、私の椅子の属性は革である、という関係が示されている。OWNER関係とは、Xの所有者はYである、が成り立つ関係である。例えば、図5においては、私の椅子の所有者は私である、という関係が示されている。
以下では、ノード同士の関係性を示す情報、即ち概念間の関係性を示す情報を、意味関係情報とも称する。即ち、意味ネットワークとは、概念と意味関係情報とから成る情報である。
システム1(例えば、学習部133)は、意味ネットワークにおけるノード同士の関係性に基づく学習基準を用いて学習する。例えば、システム1は、HEX(Hierarchy and Exclusion)グラフを用いた分類アルゴリズムにおける評価基準を応用した学習基準を用いる。HEXグラフとは、概念間の排他関係、重複関係、及び包含関係等の概念間の関係を示すグラフである。HEXグラフを用いることで、分類が効率的に行われ得ることが、「Jia Dengy, Nan Ding, Yangqing Jia, Andrea Frome, Kevin Murphy, Samy Bengio, Yuan Li, Hartmut Neven, Hartwig Adam,“Large-Scale Object Classification using Label Relation Graphs”」に詳細に記載されている。本実施形態に係るシステム1は、分類モデルによる分類結果に意味ネットワークにおける概念間の関係が正しく含まれるか否かを加味して学習を行う。例えば、システム1は、分類結果に排他関係にある2つの概念が含まれる場合には、当該分類モデルの評価値を低くする。これにより、意味ネットワークにおける概念間の関係が正しく表現されない分類モデルは排除されることとなるので、効率的な学習を実現することが可能となる。
(2)意味ネットワークの学習
システム1(例えば、学習部133)は、意味ネットワークを学習する。具体的には、システム1は、意味ネットワークにノードを追加、変更又は削除したり、リンクを追加、変更又は削除したりする。
典型的には、システム1(例えば、取得部131)は、端末装置200へのユーザ入力に従って学習する。入力される情報は、概念及び意味関係情報であり、即ち意味ネットワークである。システム1は、自身が記憶する意味ネットワークに、ユーザ入力された意味ネットワークを結合又は一部置き換える等することで、意味ネットワークを学習する。
他にも、システム1は、例えばインターネット上の装置からの入力に従って学習してもよい。
(3)ラベル付け
システム1(例えば、学習部133)は、学習のひとつとして、データへのラベル付け(即ち、データへのラベルの対応付け)を行ってもよい。例えば、システム1は、ユーザ入力に基づいて、データにラベル付けを行う。
<3.3.インタラクティブな学習>
(1)概要
本実施形態に係るシステム1は、インタラクティブな学習を行う。詳しくは、システム1(例えば、学習部133)は、学習結果に関する出力情報(即ち、UI(User Interface))に対するフィードバックに基づいて学習を行う。システム1は、学習途中でフィードバックを繰り返し受けることで、効率的に学習を行うことが可能である。また、すべての概念をモデル化するための、すべての概念を含む学習データセットを用意することは困難であるところ、フィードバックを受けながらの学習により、用意された学習データセットの枠を超える学習を行うことが可能である。ここでの学習とは、分類モデルの学習、意味ネットワークの学習、ラベル付けを含む。具体的なUI例は、後に詳しく説明する。
以下では、図6を参照して、学習処理の大まかな流れを説明する。
図6は、本実施形態に係るシステム1において実行される学習処理の大まかな流れの一例を示すフローチャートである。図6に示すように、まず、システム1(例えば、学習部133)は、事前学習を行う(ステップS102)。例えば、システム1は、IMAGENETに基づいて分類モデルの学習を行う。次いで、システム1(例えば、取得部131)は、ラベル、データID(Identifier)及び意味ネットワークを取得する(ステップS104)。例えば、システム1(例えば、入力部210)は、データIDが示すデータにひとつ以上のラベルを付すユーザ入力、及び複数のラベル間の関係を示す情報のユーザ入力を受け付けることで、これらの情報を取得する。次に、システム1(例えば、学習部133)は、意味ネットワーク及び分類モデルの学習を行う(ステップS106)例えば、システム1は、入力された意味ネットワークに基づいて、自身が記憶する意味ネットワークを学習する。また、システム1は、入力されたラベル、入力されたデータIDが示すデータ、及び学習した意味ネットワークに基づいて、分類モデルを学習する。次いで、システム1(例えば、出力制御部135)は、出力情報を生成する(ステップS110)。そして、システム1(例えば、出力部220)は、生成された出力情報に基づいて情報を出力する(ステップS112)。その後、学習が終了される(ステップS114/YES)まで、ステップS104〜S112に係る処理が繰り返される(ステップS114/NO)。この繰り返しの過程において、ステップS104におけるにユーザ入力は、ステップS112における出力へのフィードバックとなる。
以上により、学習処理は終了する。
(2)詳細
続いて、図7を参照して、学習処理の詳細な流れを説明する。
図7は、本実施形態に係るシステム1において実行される学習処理の詳細な流れの一例を示す図である。図7の上部の処理は端末装置200により行われ、下部の処理はサーバ100により行われる。
図7における円柱型のブロックは、サーバ100が有するデータベース(例えば、記憶部120)に相当する。また、矩形のブロックは、サーバ100の処理ブロックを示す。なお、記憶部120は、意味ネットワーク記憶部31、データ&ラベル記憶部32、及び分類モデル記憶部33に対応する。学習部133は、モデル学習アルゴリズム34に対応する。出力制御部135は、意味ネットワーク提案アルゴリズム35及びソートアルゴリズム36に対応する。取得部131は、端末装置200からサーバ100へ出力される情報、及び各記憶部からの情報の取得を行う。
また、図7における角丸の矩形のブロックは、端末装置200の処理ブロックを示す。出力部220は、意味ネットワーク提案部41及びラベル付け提案部43に対応する。入力部210は、第1のフィードバック取得部42及び第2のフィードバック取得部44に対応する。
以下、各ブロックの機能を説明する。
・意味ネットワーク記憶部31
意味ネットワーク記憶部31は、意味ネットワークを記憶する。第1のフィードバック取得部42において、概念及び意味関係情報(即ち、意味ネットワーク)がユーザ入力されると、システム1(例えば、学習部133)は、意味ネットワーク記憶部31に記憶された意味ネットワークを学習する。
・データ&ラベル記憶部32
データ&ラベル記憶部32は、分類対象のデータとラベルとを対応付けて記憶する。例えば、データ&ラベル記憶部32は、第2のフィードバック取得部44から出力されたデータID及びラベルを対応付けて記憶する。より詳しくは、データ&ラベル記憶部32は、入力されたデータIDに対応するデータに、入力されたラベルを新たに対応付けて記憶する。なお、システム1(例えば、取得部131)は、インターネット等から新たにデータを収集して、データ&ラベル記憶部32に格納してもよい。
・分類モデル記憶部33
分類モデル記憶部33は、学習された分類モデルのモデル(即ち、ノードの構成)及び当該モデルのパラメータ(即ち、重み及び閾値)を記憶する。例えば、分類モデル記憶部33は、モデル学習アルゴリズム34から出力されたモデル及びパラメータを記憶する。
・モデル学習アルゴリズム34
モデル学習アルゴリズム34は、分類モデルを学習するアルゴリズムである。モデル学習アルゴリズム34は、分類モデル記憶部33からモデル及びパラメータを、意味ネットワーク記憶部31から意味ネットワークを、データ&ラベル記憶部32から分類対象のデータ及び当該データに対応付けられたラベルを、それぞれ取得する。そして、モデル学習アルゴリズム34は、取得したモデル及びパラメータから成る分類モデルに、取得した意味ネットワーク並びに取得した分類対象のデータ及びラベルを入力して、学習を行う。モデル学習アルゴリズム34は、学習実行後のモデル及びパラメータを、分類モデル記憶部33に出力して記憶させる。
・意味ネットワーク提案アルゴリズム35
意味ネットワーク提案アルゴリズム35は、ユーザに新たな意味ネットワークを提案するためのアルゴリズムである。意味ネットワーク提案アルゴリズム35は、意味ネットワーク記憶部31から意味ネットワークを、データ&ラベル記憶部32から分類対象のデータ及び当該データに対応付けられたラベルを、分類モデル記憶部33からモデル及びパラメータを、それぞれ取得する。そして、意味ネットワーク提案アルゴリズム35は、意味ネットワーク提案情報を、端末装置200に出力する。意味ネットワーク提案情報とは、新たな意味ネットワークの入力を提案する情報である。例えば、意味ネットワーク提案情報は、学習結果に関する情報を含む。具体的には、意味ネットワーク提案情報は、分類モデルのニューラルネットに含まれるひとつ以上のユニットの出力値を含んでいてもよい。典型的には、出力値は、t−SNE等の2次元圧縮技術により可視化された、分類モデルの中間層の発火状況である。さらに、意味ネットワーク提案情報は、分類モデルの中間層の発火状況が類似する、即ち同一クラスタに含まれるデータから成るデータリストを含んでいてもよい。また、意味ネットワーク提案情報は、ラベルの共起ヒストグラムを含んでいてもよい。これらの学習結果に関する情報により、提案の根拠をユーザに提供することが可能となる。もちろん、意味ネットワーク提案情報は、意味ネットワークそのものを提案する情報を含んでいてもよい。
・ソートアルゴリズム36
ソートアルゴリズム36は、未ラベルデータを指定された概念に応じてソートするアルゴリズムである。ここで、未ラベルデータとは、何らラベルが対応付けられていないデータを意味していてもよいし、指定された概念に対応するラベルが対応付けられていないデータを意味していてもよい。ソートアルゴリズム36は、意味ネットワーク記憶部31から概念IDを、データ&ラベル記憶部32から未ラベルデータを、分類モデル記憶部33からモデル及びパラメータを、それぞれ取得する。そして、ソートアルゴリズム36は、ラベル付け候補リストを端末装置200に出力する。ラベル付け候補リストとは、データへの新たなラベルの対応付けを提案する情報であり、取得された概念IDに対応するラベルを対応付けられ得る未ラベルデータのリストである。例えば、ソートアルゴリズム36は、分類モデルによって概念IDが示す概念に分類された未ラベルデータ、又は概念IDが示す概念をラベル付けされたデータと中間層の発火状況が類似する未ラベルデータを、ラベル付け候補リストに含める。ラベル付け候補リストにおいては、ラベル付けされる確度が高いほど、又は曖昧であるほど、リスト内の優先順位が高くなるようソートされてもよい。なお、ラベル付け候補リストは、対応付けられ得るラベルの候補も含む。
・意味ネットワーク提案部41
意味ネットワーク提案部41は、新たな意味ネットワークをユーザに提案する。意味ネットワーク提案部41は、意味ネットワーク提案アルゴリズム35から意味ネットワーク提案情報を取得して、ユーザに出力する。
・第1のフィードバック取得部42
第1のフィードバック取得部42は、意味ネットワーク提案部41によりユーザに出力された情報に対するユーザからのフィードバックの入力を受け付ける。例えば、第1のフィードバック取得部42は、意味ネットワーク提案情報に対するフィードバックの入力を受け付ける。フィードバックとしては、新たな概念の入力及び/又は新たな意味関係情報の入力がある。そして、第1のフィードバック取得部42は、入力された新たな概念及び/又は新たな意味関係情報を、意味ネットワーク記憶部31に出力して記憶させる。即ち、意味ネットワークに新たなノード及び/又は新たなリンクが追加される。このようにして、ユーザとのインタラクションを通じて、意味ネットワークを逐次的に拡張又は細分化し、間違いを修正することが可能となる。
・ラベル付け提案部43
ラベル付け提案部43は、新たなラベル付けをユーザに提案する。ラベル付け提案部43は、ソートアルゴリズム36からラベル付け候補リストを取得して、ユーザに出力する。
・第2のフィードバック取得部44
第2のフィードバック取得部44は、ラベル付け提案部43によりユーザに出力された情報に対するユーザからのフィードバックの入力を受け付ける。例えば、第2のフィードバック取得部44は、ラベル付け候補リストに含まれる各々のデータへのラベル付けの可否を示す情報の入力を受け付ける。そして、第2のフィードバック取得部44は、提案されたデータへのラベル付けが採用される場合、採用されたデータのデータID及びラベルを、データ&ラベル記憶部32に出力して記憶させる。即ち、未ラベルデータに、新たにラベルが対応付けられる。このように、ユーザとのインタラクションを通じて、より多くの概念を含む学習データセットを逐次的に生成することが可能となる。
<3.4.UI例>
以下では、図8〜図23を参照して、具体的なUI例を説明する。
ここでは一例として、分類対象のデータが、画像であるものとして説明する。その場合、ラベルとしては、画像に含まれる要素を示す概念、画像が示す意味を示す概念、及び画像が撮像されたコンテキストを示す概念等が考えられる。
なお、UIは、例えばサーバ100(例えば、出力制御部135)により生成され、端末装置200(例えば、出力部220)により表示される。そして、UIにおけるユーザ入力は、例えば端末装置200(例えば、取得部131入力部210)により受け付けられ、サーバ100(例えば、取得部131)により取得される。
<3.4.1.第1のアルゴリズム>
第1のアルゴリズムとは、ある中間層全体の発火状況に着目するアルゴリズムである。
図8は、本実施形態に係るUIの一例を示す図である。図8に示すように、UI310は、ニューラルネットの構成を示す情報311が含まれる。当該ニューラルネットは、分類モデル記憶部33に記憶されている分類モデルに相当し、入力層312A、複数の中間層312B及び出力層312Cを含む。ユーザは、複数の中間層312Bの中から、ひとつの中間層を選択可能である。選択されると図9に示すUIに画面が遷移する。ここでは、一例として中間層313が選択されたものとする。
図9は、本実施形態に係るUIの一例を示す図である。図9に示すように、UI320は、中間層の発火状況を示す情報321が含まれる。当該発火状況は、UI310においてユーザに選択された中間層313を構成する複数のユニットの発火状況である。当該発火状況は、意味ネットワーク提案情報に相当する。図9に示すように、中間層の発火状況を示す情報321において、発火状況のクラスタリング結果が含まれていてもよい。ユーザは、当該発火状況に含まれる複数のクラスタ322A〜322Eから、ひとつのクラスタを選択可能である。選択されると、図10に示すUIに画面が遷移する。ここでは、一例としてクラスタ322Aが選択されたものとする。なお、クラスタリングはユーザにより行われてもよい。その場合、ユーザは、任意の領域を指定することで、クラスタを指定する。
図10は、本実施形態に係るUIの一例を示す図である。図10に示すUI330は、IS−A関係を提案するUIである。UI330は、複数の画像331を含む。当該複数の画像331は、UI320においてユーザに選択されたクラスタ322Aに含まれる画像である。また、図10に示すように、UI330は、複数の画像331が「“動物”のサブセットか?」を問う質問文332を含む。ユーザは、質問文332に対する回答333を選択可能である。ここでは、一例として回答333でYESが選択されたものとする。YESが選択されると、図11に示すUIに画面が遷移する。なお、回答333でNOが選択された場合、システム1は、「動物」に代わる概念を提案してもよいし、ユーザ入力を求めてもよい。また、システム1は、質問文332の代わりに、何のサブセットかを示す情報のユーザ入力を求めてもよい。
図11は、本実施形態に係るUIの一例を示す図である、図11に示すUI340は、IS−A関係を提案するUIである。図11に示すように、UI340は、UI330に含まれるUI要素に加えて、サブセット名を問う質問文334及び質問文334への回答を入力する入力フォーム335が含まれる。ここでは、画像331が猫の画像であるから、「猫」が入力されている。これにより、システム1は、新たな意味ネットワーク、即ち「猫」という新たな概念及び「猫は動物である」という「猫」と「動物」とのIS−A関係という意味関係情報を、取得することとなる。なお、システム1は、入力フォーム335によりユーザ入力を求める代わりに、「猫」という概念そのものを提案してもよい。
以上説明した、意味ネットワークを提案するUI310〜UI340は、意味ネットワーク提案部41及び第1のフィードバック取得部42が関与する。複数の画像331、及び質問文332、質問文334は、意味ネットワーク提案情報に相当する。また、回答333及び入力フォーム335への入力は、第1のフィードバック取得部42により取得される。
このようなUIにより新たな意味ネットワークが学習されると、当該新たな意味ネットワークに関するラベル付け及び分類モデルの学習が行われ得る。以下、図12及び図13を参照して詳しく説明する。
図12は、本実施形態に係るUIの一例を示す図である。図12に示すUI350は、ラベル付けを提案するUIである。UI350は、複数の画像351A〜351Hを含む。これらの画像は、UI340において入力された「猫」が対応付けられ得る未ラベルデータリストに含まれる画像である。ユーザは、これらの複数の画像351A〜351Hの中から、「猫」がラベル付けされるのに適切な画像を選択する。ここでは、一例として画像351A、351C及び351Gが選択されている。この選択により、画像351A、351C及び351Gに新たなラベル「猫」がラベル付けされて、データ&ラベル記憶部32の内容が更新される。そして、更新後の内容に従って、モデル学習アルゴリズム34による学習が行われる。この学習は、ユーザによる画像の選択の裏でリアルタイムに行われる。例えば、ユーザが画像を選択する度に分類モデルが学習される。システム1は、分類モデルが学習されると、ソートアルゴリズム36におけるソート結果が変わる場合がある。その場合、図13に示すUIに画面が遷移する。
図13は、本実施形態に係るUIの一例を示す図である。図13に示すUI360は、ラベル付けを提案するUIである。UI360は、複数の画像361A〜361Hを含む。UI360では、UI350において選択された画像351A、351C及び351Gが、画像361A、361B及び361Cとして先頭に並べられ、新たな画像も表示されていることが分かる。このようにして、ユーザは、より適切にソートされたラベル付け候補リストの中から、ラベル付けされるのに適切な画像をさらに選択することが可能となる。
以上説明した、ラベル付けを提案するUI350及びUI360は、ラベル付け提案部43及び第2のフィードバック取得部44が関与する。複数の画像351A〜351H及び361A〜361Hは、ラベル付け候補リストに含まれる画像に相当する。ラベル付けする画像の選択は、第2のフィードバック取得部44により取得される。
以上、一連のUIの遷移の流れの一例を説明した。以下、他のUI例を説明する。
図14は、本実施形態に係るUIの一例を示す図である。図14に示すUI370は、IS−A関係を提案するUIである。UI370は、例えば、UI330及びUI340におけるインタラクションの後に、追加的に意味ネットワークの入力を提案するために表示される。図14に示すように、UI370は、複数の画像371、及び複数の画像371が「“猫”のサブセットか?」を問う質問文372を含む。ユーザが、質問文372への回答373としてNOを選択すると、新たな概念を作成するか否かを示す質問文374が表示される。ユーザが、質問文374への回答375としてYESを選択すると、複数の画像371のサブセット名を問う質問文376、及び質問文376への回答を入力する入力フォーム377が表示される。ここでは一例として、「犬」が入力される。なお、画像371、質問文372、質問文374及び質問文376は、意味ネットワーク提案情報に相当する。
図15は、本実施形態に係るUIの一例を示す図である。図15に示すUI380は、IS−PART−OF関係を提案するUIである。例えば、UI380は、UI320の後に、UI330に代えて表示される。図15に示すように、UI380は、複数の画像381、及び複数の画像381が「“猫”の“足”か?」を問う質問文382を含む。ユーザは、質問文382に対する回答383を選択可能である。なお、画像381、及び質問文382は、意味ネットワーク提案情報に相当する。
図16は、本実施形態に係るUIの一例を示す図である。図16に示すUI390は、ATTRIBUTE関係を提案するUIである。例えば、UI390は、UI320の後に、UI330に代えて表示される。図16に示すように、UI390は、複数の画像391、及び複数の画像391が「“猫”のサブセットか?」を問う質問文392を含む。ユーザが、質問文392への回答393としてNOを選択すると、複数の画像391の属性を問う質問文394、及び質問文394への回答を入力する入力フォーム395が表示される。ここでは、画像391が、羊、綿菓子及び毛並みのいい犬といったふわふわした属性の物体の画像であるから、「ふわふわ」が入力されている。なお、画像391、質問文392及び質問文394は、意味ネットワーク提案情報に相当する。
図17は、本実施形態に係るUIの一例を示す図である。図17に示すUI400は、IS−PART−OF関係を提案するUIの一例である。例えば、UI400は、UI320の後に、UI330に代えて表示される。図17に示すように、UI400は、複数の画像401及び複数の画像402を含む。複数の画像402は、「人の足」である。そして、複数の画像401は、「人の足」と共通する特徴がみられる「猫」の画像である。システム1は、複数の画像401に対応付けられたラベル「人の足」から類推された意味ネットワークを示す情報として「猫の足」であるかを問う質問文403を表示し、回答404を得る。類推元は複数であってもよく、例えば複数の画像402として、「人の足」に加えて「ゴリラの足」、及び「馬の足」が表示されてもよい。複数の画像401、402、及び質問文403は、意味ネットワーク提案情報に相当する。とりわけ、本UIにおける意味ネットワーク提案情報は、「猫の足」という新たな意味ネットワークそのものを提案する情報を含んでいる。
以上、第1のアルゴリズムにおけるUIの一例を説明した。以下、第2のアルゴリズムについて説明する。
<3.4.2.第2のアルゴリズム>
第2のアルゴリズムとは、ある中間層のひとつのノードの発火状況に着目するアルゴリズムである。
図18は、本実施形態に係るUIの一例を示す図である。図18に示すように、UI410は、ニューラルネットの構成を示す情報311が含まれる。当該ニューラルネットは、分類モデル記憶部33に記憶されている分類モデルに相当し、入力層412A、複数の中間層412B及び出力層412Cを含む。ユーザは、複数の中間層412Bの中から、中間層にふくまれるひとつのノードを選択可能である。ここでは、一例としてノード413が選択されたものとする。
UI410においてノードが選択された後のUIは、第1のアルゴリズムと同様である。例えば、UI410の後、UI320と同様のUIが表示される。但し、当該UIでは、UI410においてユーザに選択された中間層のひとつのノード413の発火状況を示す情報が表示される。ユーザは、当該発火状況からクラスタを選択する。選択されると、図19に示すUIに画面が遷移する。
図19は、本実施形態に係るUIの一例を示す図である。図19に示すUI420は、IS−PART−OF関係を提案するUIである。UI420は、複数の画像421、及び複数の画像421が「人の一部か?」を問う質問文422を含む。ユーザは、質問文422に対する回答423を選択可能である。ここでは、一例として回答423でYESが選択されたものとする。YESが選択されると、図20に示すUIに画面が遷移する。
図20は、本実施形態に係るUIの一例を示す図である。図20に示すUI430は、IS−PART−OF関係を提案するUIである。図20に示すように、UI430は、UI420に含まれるUI要素に加えて、部分名を問う質問文424及び質問文424への回答を選択する選択肢425が含まれる。選択肢は、図21を参照して後述するように、例えば学習状況に基づいて提案され得る。ここでは、画像421が人の手の画像であるから、「手」が選択される。これにより、システム1は、新たな意味ネットワーク、即ち「人の手」という「人」と「手」とのIS−PART−OF関係を、取得することとなる。
図21は、本実施形態に係るUIの一例を示す図である。図21は、IS−PART−OF関係を提案する根拠を示すUIである。図21に示すUI440は、例えばUI430における選択肢425の根拠として表示され得る。図21に示すように、UI440は、共起ヒストグラム441を含む。共起ヒストグラム441は、ある中間層又はクラスタに対応するラベルXと他のラベルYとの共起関係を示しており、「ラベルX」IS−PART−OF「ラベルY」という提案を行う根拠として表示される。ここでは、「人」「車」「椅子」「PC(Personal Computer)」「草原」といったラベルのうち、「人」が「手」と共起する度合が高いことが示されている。即ち、共起ヒストグラム441は、「手」IS−PART−OF「人」という意味ネットワークの提案の根拠を示している。
以上説明した、意味ネットワークを提案する又は根拠を示すUI420〜UI440は、意味ネットワーク提案部41及び第1のフィードバック取得部42が関与する。複数の画像421、質問文422、質問文424、選択肢425、及び共起ヒストグラム441は、意味ネットワーク提案情報に相当する。また、回答423及び選択肢425の選択は、第1のフィードバック取得部42により取得される。
このようなUIにより新たな意味ネットワークが学習されると、当該新たな意味ネットワークに関するラベル付け及び分類モデルの学習が行われ得る。以下、図22及び図23を参照して詳しく説明する。
図22は、本実施形態に係るUIの一例を示す図である。図22に示すUI450は、ラベル付けを提案するUIである。UI450は、複数の画像451A〜451Hを含む。これらの画像は、UI430において入力された「人の手」が対応付けられ得る未ラベルデータリストに含まれる画像である。ユーザは、これらの複数の画像451A〜451Hの中から、「人の手」がラベル付けされるのに適切な画像を選択する。ここでは、一例として画像451A、451C及び451Gが選択されている。即ち、この選択により、画像451A、451C及び451Gに新たなラベル「人の手」がラベル付けされて、データ&ラベル記憶部32の内容が更新される。そして、更新後の内容に従って、モデル学習アルゴリズム34による学習が行われる。この学習は、ユーザによる画像の選択の裏でリアルタイムに行われる。例えば、ユーザが画像を選択する度に分類モデルが学習される。システム1は、分類モデルが学習されると、ソートアルゴリズム36におけるソート結果が変わる場合がある。その場合、図23に示すUIに画面が遷移する。
図23は、本実施形態に係るUIの一例を示す図である。図23に示すUI460は、ラベル付けを提案するUIである。UI460は、複数の画像461A〜461Hを含む。UI360では、UI450において選択された画像451A、451C及び451Gが、画像461A、461B及び461Cとして先頭に並べられ、新たな画像も表示されていることが分かる。このようにして、ユーザは、より適切にソートされたラベル付け候補リストの中から、ラベル付けされるのに適切な画像をさらに選択することが可能となる。
以上説明した、ラベル付けを提案するUI450及びUI460は、ラベル付け提案部43及び第2のフィードバック取得部44が関与する。複数の画像451A〜451H及び461A〜461Hは、ラベル付け候補リストに含まれる画像に相当する。ラベル付けする画像の選択は、第2のフィードバック取得部44により取得される。
以上、第2のアルゴリズムにおけるUIの一例を説明した。
<3.4.3.補足>
なお、各アルゴリズムおいて説明したUIは、UI310及びUI410を除き、どちらのアルゴリズムにおいても表示可能である。例えば、UI440が第1のアルゴリズムにおいて表示されてもよい。
また、上記ではUIが遷移する例を示したが、2以上のUIがまとめて表示されてもよい。
また、例えばUI350等のラベル付けを提案するUIにおいて、インターネット等から同様のラベル付けが可能な画像が新たに収集されて追加されてもよい。
<3.5.変形例>
上記UI例では、データの一例として画像を挙げたが、本技術はかかる例に限定されない。
例えば、データは、音であってもよい。その場合、ラベル(即ち、概念)としては、ムード、コード進行、フレーズ群、又は特定の奏法等が考えられる。また、意味ネットワークとしては、フレーズ群のムードといったIS−A関係、ジャズのある奏法といったIS−PART−OF関係又はATTRIBUTE関係等が考えられる。例えば、音楽全体のムードを示すラベルが対応付けられたデータセットがあるとする。その場合、システム1は、音楽の一部のある特定のコード進行に対して、全体のデータセットの中からフレーズ群を表示することで、新たな概念の可能性をユーザに提案し得る。
例えば、データは、文書であってもよい。その場合、ラベル(即ち、概念)は、文書のジャンル、当該ジャンルにおいて頻出する話題、フレーズ、文章等である。例えば、ジャンルを示すラベルが対応付けられたデータセットがあるとする。その場合、システム1は、ある文章又はフレーズが特定のジャンルのある話題について触れている場合、その話題を新たな概念として提案し得る。
その他、データは、センサ信号又は動画等であってもよい。
また、分類対象のデータは、例えば画像、動画、及びセンサ信号等の異なる種類のデータが混在していてもよい。
<<4.ハードウェア構成例>>
最後に、図24を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図24は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図24に示す情報処理装置900は、例えば、図4に示したサーバ100又は端末装置200を実現し得る。本実施形態に係るサーバ100又は端末装置200による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
図24に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911及び通信装置913を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、DSP若しくはASIC等の処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、図4に示す制御部130又は制御部250を形成し得る。
CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
他にも、入力装置906は、ユーザに関する情報を検知する装置により形成され得る。例えば、入力装置906は、画像センサ(例えば、カメラ)、深度センサ(例えば、ステレオカメラ)、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ、力センサ等の各種のセンサを含み得る。また、入力装置906は、情報処理装置900の姿勢、移動速度等、情報処理装置900自身の状態に関する情報や、情報処理装置900の周辺の明るさや騒音等、情報処理装置900の周辺環境に関する情報を取得してもよい。また、入力装置906は、GNSS(Global Navigation Satellite System)衛星からのGNSS信号(例えば、GPS(Global Positioning System)衛星からのGPS信号)を受信して装置の緯度、経度及び高度を含む位置情報を測定するGNSSモジュールを含んでもよい。また、位置情報に関しては、入力装置906は、Wi−Fi(登録商標)、携帯電話・PHS・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。入力装置906は、例えば、図4に示す入力部210を形成し得る。
出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。上記表示装置又は上記音声出力装置は、例えば、図4に示す出力部220を形成し得る。
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図4に示す記憶部120又は記憶部240を形成し得る。
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置913は、例えば、図4に示す通信部110又は通信部230を形成し得る。
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
<<5.まとめ>>
以上、図1〜図24を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係るシステム1は、意味ネットワーク、データの識別情報及びラベルを取得して、取得した意味ネットワーク、識別情報及びラベルに基づいて、データをラベルに分類する分類モデルを学習する。学習に意味ネットワークを加味することで、例えば意味ネットワークにおける概念間の関係が正しく表現されない分類モデルを排除する効率的な学習が可能となる。
また、システム1は、学習結果に関する出力情報に対するフィードバックに基づいて学習を行う。システム1は、学習途中でフィードバックを繰り返し受けることで、効率的に学習を行うことが可能である。
例えば、システム1は、新たな意味ネットワークの入力を提案する情報を出力してフィードバックを受ける。これにより、ユーザとのインタラクションを通じて、意味ネットワークを逐次的に拡張又は細分化し、間違いを修正することが可能となる。
また、例えば、システム1は、データへの新たなラベルの対応付けを提案する情報を出力してフィードバックを受ける。これにより、ユーザとのインタラクションを通じて、より多くの概念を含む学習データセットを逐次的に生成することが可能となる。これにより、用意されたデータセットの枠を超える学習を行うことが可能となり、少ない学習データセットでも十分な学習を行うことが可能となる。
また、システム1は、新たな意味ネットワーク又はラベルの対応付けを提案する過程で、ニューラルネットの中間層の出力値、当該出力値のクラスタリング結果、及び共起ヒストグラム等を出力する。これにより、新たな提案の根拠をユーザに提供することが可能となり、ユーザ入力を支援することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態では、中間層の発火状況に基づいて学習が行われると説明したが、本技術はかかる例に限定されない。例えば、出力層の発火状況に基づいて学習が行われてもよい。
また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
意味ネットワーク、データの識別情報及びラベルを取得する取得部と、
前記取得部により取得された前記意味ネットワーク、前記識別情報及びラベルに基づいて、前記データを前記ラベルに分類する分類モデルを学習する学習部と、
を備える情報処理装置。
(2)
前記ラベルは、前記意味ネットワークを形成するノードに対応する、前記(1)に記載の情報処理装置。
(3)
前記意味ネットワークは、前記ノード同士の関係性を示す情報を含む、前記(2)に記載の情報処理装置。
(4)
前記学習部は、前記意味ネットワークにおける前記ノード同士の関係性に基づく学習基準を用いて学習する、前記(3)に記載の情報処理装置。
(5)
前記学習部は、学習結果に関する出力情報に対するフィードバックに基づいて学習を行う、前記(1)〜(4)のいずれか一項に記載の情報処理装置。
(6)
前記出力情報は、新たな前記意味ネットワークの入力を提案する情報を含む、前記(5)に記載の情報処理装置。
(7)
前記出力情報は、新たな前記意味ネットワークを提案する情報を含む、前記(6)に記載の情報処理装置。
(8)
前記出力情報は、他のデータに対応付けられた他のラベルから類推された前記意味ネットワークを示す情報を含む、前記(7)に記載の情報処理装置。
(9)
前記出力情報は、前記データへの新たな前記ラベルの対応付けを提案する情報を含む、前記(5)〜(8)のいずれか一項に記載の情報処理装置。
(10)
前記分類モデルは、ニューラルネットにより実装され、
前記出力情報は、前記ニューラルネットに含まれるひとつ以上のユニットの出力値を含む、前記(5)〜(9)のいずれか一項に記載の情報処理装置。
(11)
前記出力情報は、前記出力値のクラスタリング結果を含む、前記(10)に記載の情報処理装置。
(12)
前記ひとつ以上のユニットは、中間層を構成する複数のユニットである、前記(10)又は(11)に記載の情報処理装置。
(13)
前記ひとつ以上のユニットは、中間層のひとつのユニットである、前記(10)又は(11)に記載の情報処理装置。
(14)
前記出力情報は、前記ラベルの共起ヒストグラムを含む、前記(5)〜(13)のいずれか一項に記載の情報処理装置。
(15)
意味ネットワーク、データの識別情報及びラベルを取得することと、
取得された前記意味ネットワーク、前記識別情報及びラベルに基づいて、前記データを前記ラベルに分類する分類モデルを学習することと、
を含むプロセッサにより実行される方法。
1 システム
31 意味ネットワーク記憶部
32 データ&ラベル記憶部
33 分類モデル記憶部
34 モデル学習アルゴリズム
35 意味ネットワーク提案アルゴリズム
36 ソートアルゴリズム
41 意味ネットワーク提案部
42 第1のフィードバック取得部
43 ラベル付け提案部
44 第2のフィードバック取得部
100 サーバ
110 通信部
120 記憶部
130 制御部
131 取得部
133 学習部
135 出力制御部
200 端末装置
210 入力部
220 出力部
230 通信部
240 記憶部
250 制御部

Claims (15)

  1. 意味ネットワーク、データの識別情報及びラベルを取得する取得部と、
    前記取得部により取得された前記意味ネットワーク、前記識別情報及びラベルに基づいて、前記データを前記ラベルに分類する分類モデルを学習する学習部と、
    を備える情報処理装置。
  2. 前記ラベルは、前記意味ネットワークを形成するノードに対応する、請求項1に記載の情報処理装置。
  3. 前記意味ネットワークは、前記ノード同士の関係性を示す情報を含む、請求項2に記載の情報処理装置。
  4. 前記学習部は、前記意味ネットワークにおける前記ノード同士の関係性に基づく学習基準を用いて学習する、請求項3に記載の情報処理装置。
  5. 前記学習部は、学習結果に関する出力情報に対するフィードバックに基づいて学習を行う、請求項1に記載の情報処理装置。
  6. 前記出力情報は、新たな前記意味ネットワークの入力を提案する情報を含む、請求項5に記載の情報処理装置。
  7. 前記出力情報は、新たな前記意味ネットワークを提案する情報を含む、請求項6に記載の情報処理装置。
  8. 前記出力情報は、他のデータに対応付けられた他のラベルから類推された前記意味ネットワークを示す情報を含む、請求項7に記載の情報処理装置。
  9. 前記出力情報は、前記データへの新たな前記ラベルの対応付けを提案する情報を含む、請求項5に記載の情報処理装置。
  10. 前記分類モデルは、ニューラルネットにより実装され、
    前記出力情報は、前記ニューラルネットに含まれるひとつ以上のユニットの出力値を含む、請求項5に記載の情報処理装置。
  11. 前記出力情報は、前記出力値のクラスタリング結果を含む、請求項10に記載の情報処理装置。
  12. 前記ひとつ以上のユニットは、中間層を構成する複数のユニットである、請求項10に記載の情報処理装置。
  13. 前記ひとつ以上のユニットは、中間層のひとつのユニットである、請求項10に記載の情報処理装置。
  14. 前記出力情報は、前記ラベルの共起ヒストグラムを含む、請求項5に記載の情報処理装置。
  15. 意味ネットワーク、データの識別情報及びラベルを取得することと、
    取得された前記意味ネットワーク、前記識別情報及びラベルに基づいて、前記データを前記ラベルに分類する分類モデルを学習することと、
    を含むプロセッサにより実行される情報処理方法。
JP2016083606A 2016-04-19 2016-04-19 情報処理装置及び情報処理方法 Pending JP2017194782A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016083606A JP2017194782A (ja) 2016-04-19 2016-04-19 情報処理装置及び情報処理方法
PCT/JP2017/002287 WO2017183242A1 (ja) 2016-04-19 2017-01-24 情報処理装置及び情報処理方法
US16/076,851 US20190050713A1 (en) 2016-04-19 2017-01-24 Information processing apparatus and information processing method
EP17785587.1A EP3447661A4 (en) 2016-04-19 2017-01-24 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016083606A JP2017194782A (ja) 2016-04-19 2016-04-19 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
JP2017194782A true JP2017194782A (ja) 2017-10-26

Family

ID=60115899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016083606A Pending JP2017194782A (ja) 2016-04-19 2016-04-19 情報処理装置及び情報処理方法

Country Status (4)

Country Link
US (1) US20190050713A1 (ja)
EP (1) EP3447661A4 (ja)
JP (1) JP2017194782A (ja)
WO (1) WO2017183242A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190088094A (ko) * 2017-12-29 2019-07-26 주식회사 아임클라우드 자동 학습 데이터 생성을 통한 모델 학습 시스템 및 방법
WO2019189026A1 (ja) * 2018-03-26 2019-10-03 パナソニックIpマネジメント株式会社 処理方法およびそれを利用した処理装置
WO2021145228A1 (ja) * 2020-01-17 2021-07-22 ソニーグループ株式会社 情報処理装置および情報処理方法
KR102366382B1 (ko) * 2021-03-11 2022-02-23 주식회사 에스아이에이 편집 및 자동 평가를 위한 사용자 인터페이스
JP2022036032A (ja) * 2020-08-19 2022-03-04 ヒタチ・エナジー・スウィツァーランド・アクチェンゲゼルシャフト コントローラのための決定ロジックを生成するための方法およびコンピュータシステム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018227277A1 (en) * 2017-06-12 2018-12-20 Royal Bank Of Canada System and method for adaptive data visualization
JP6908302B2 (ja) * 2017-11-22 2021-07-21 Necソリューションイノベータ株式会社 学習装置、識別装置及びプログラム
JP7040104B2 (ja) * 2018-02-19 2022-03-23 富士通株式会社 学習プログラム、学習方法および学習装置
CN112585620A (zh) * 2018-09-28 2021-03-30 苹果公司 用于监督式学习的分布式标记
CN112968941B (zh) * 2021-02-01 2022-07-08 中科视拓(南京)科技有限公司 一种基于边缘计算的数据采集和人机协同标注方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07234877A (ja) * 1994-02-23 1995-09-05 Nippon Telegr & Teleph Corp <Ntt> データベース検索方法
JP5643663B2 (ja) * 2011-01-17 2014-12-17 株式会社東芝 行動履歴生成装置および行動履歴生成方法
JP5754310B2 (ja) * 2011-09-02 2015-07-29 富士ゼロックス株式会社 識別情報付与プログラム及び識別情報付与装置
US20130325770A1 (en) * 2012-06-05 2013-12-05 Sap Ag Probabilistic language model in contextual network
JP6264215B2 (ja) * 2014-07-18 2018-01-24 トヨタ自動車株式会社 質疑応答装置および質疑応答装置の制御方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190088094A (ko) * 2017-12-29 2019-07-26 주식회사 아임클라우드 자동 학습 데이터 생성을 통한 모델 학습 시스템 및 방법
KR102227906B1 (ko) * 2017-12-29 2021-03-16 주식회사 아임클라우드 자동 학습 데이터 생성을 통한 모델 학습 시스템 및 방법
WO2019189026A1 (ja) * 2018-03-26 2019-10-03 パナソニックIpマネジメント株式会社 処理方法およびそれを利用した処理装置
JPWO2019189026A1 (ja) * 2018-03-26 2020-04-30 パナソニックIpマネジメント株式会社 処理方法およびそれを利用した処理装置
WO2021145228A1 (ja) * 2020-01-17 2021-07-22 ソニーグループ株式会社 情報処理装置および情報処理方法
JP2022036032A (ja) * 2020-08-19 2022-03-04 ヒタチ・エナジー・スウィツァーランド・アクチェンゲゼルシャフト コントローラのための決定ロジックを生成するための方法およびコンピュータシステム
JP7309793B2 (ja) 2020-08-19 2023-07-18 ヒタチ・エナジー・スウィツァーランド・アクチェンゲゼルシャフト コントローラのための決定ロジックを生成するための方法およびコンピュータシステム
KR102366382B1 (ko) * 2021-03-11 2022-02-23 주식회사 에스아이에이 편집 및 자동 평가를 위한 사용자 인터페이스

Also Published As

Publication number Publication date
US20190050713A1 (en) 2019-02-14
EP3447661A1 (en) 2019-02-27
EP3447661A4 (en) 2019-05-01
WO2017183242A1 (ja) 2017-10-26

Similar Documents

Publication Publication Date Title
JP2017194782A (ja) 情報処理装置及び情報処理方法
US11593588B2 (en) Artificial intelligence apparatus for generating training data, artificial intelligence server, and method for the same
US10922866B2 (en) Multi-dimensional puppet with photorealistic movement
US10628527B2 (en) Automatically cross-linking application programming interfaces
CN109447140B (zh) 一种基于神经网络深度学习的图像识别并推荐认知的方法
JP6816925B2 (ja) 育児ロボットのデータ処理方法及び装置
CN109710748B (zh) 一种面向智能机器人的绘本阅读交互方法和系统
KR102656620B1 (ko) 전자 장치, 그의 제어 방법 및 비일시적 컴퓨터 판독가능 기록매체
CN109344884A (zh) 媒体信息分类方法、训练图片分类模型的方法及装置
EP3493032A1 (en) Robot control method and companion robot
US20190318262A1 (en) Tool for designing artificial intelligence systems
CN108932945A (zh) 一种语音指令的处理方法及装置
WO2021184776A1 (zh) 图像识别方法、装置、计算机设备和存储介质
KR102442529B1 (ko) 인공지능을 이용한 반려동물 소통 서비스 제공 방법
CN110019777A (zh) 一种信息分类的方法及设备
US20160308795A1 (en) Method, system and apparatus for configuing a chatbot
US20120185417A1 (en) Apparatus and method for generating activity history
KR20190046062A (ko) 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치
CN111612178A (zh) 一种模型的诊断方法及相关设备
WO2020241467A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN104977038B (zh) 使用与关联存储器耦合的运动感测设备识别移动
CN108806699B (zh) 语音反馈方法、装置、存储介质及电子设备
Rincon et al. Using emotions for the development of human-agent societies
KR101458693B1 (ko) 예측 모형에 기초한 예측결과의 판단 방법
WO2020250595A1 (ja) 情報処理装置及び情報処理方法