JP2018055259A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2018055259A
JP2018055259A JP2016188411A JP2016188411A JP2018055259A JP 2018055259 A JP2018055259 A JP 2018055259A JP 2016188411 A JP2016188411 A JP 2016188411A JP 2016188411 A JP2016188411 A JP 2016188411A JP 2018055259 A JP2018055259 A JP 2018055259A
Authority
JP
Japan
Prior art keywords
neural network
learning
information processing
processing apparatus
kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016188411A
Other languages
English (en)
Inventor
貴之 猿田
Takayuki Saruta
貴之 猿田
俊太 舘
Shunta Tachi
俊太 舘
優和 真継
Masakazu Matsugi
優和 真継
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016188411A priority Critical patent/JP2018055259A/ja
Publication of JP2018055259A publication Critical patent/JP2018055259A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 メモリ使用量を抑制しつつ、識別精度の高いニューラルネットワークを学習すること。【解決手段】 本発明は、多層ニューラルネットワークの畳みこみ層における複数のカーネルのうち、複数の畳みこみ層間で共有化されるカーネルを選択する。そして、カーネルのパラメータ初期値を設定し、ニューラルネットワークの学習を行う。【選択図】 図6

Description

本発明は、ニューラルネットワークを学習する技術に関する。
画像・音声などのデータの内容を学習し認識を行なう技術が存在する。認識処理の目的をここでは認識タスクと呼び、多様な認識タスクがある。たとえば、画像中の人間の顔の領域を検出する顔認識タスク、画像中にある物体(被写体)のカテゴリ(猫・車・建物など)を判別する物体カテゴリ認識タスク、シーンのカテゴリ(都市・山間・海岸など)を判別するシーン種別認識タスクなどである。
上記のような認識タスクを学習・実行する技術としては、ニューラルネットワーク(NN)の技術が知られている。深い(層の数が多い)多層ニューラルネットワークをDeep Neural Networks(DNN)と呼ぶ。特に、非特許文献1に開示されているように深い畳みこみニューラルネットワークをDeep Convolutional Neural Networks (DCNN)と呼ぶ。DCNNは性能が高いことで近年注目されている。
DCNNとは、各層において、前層からの出力に対して畳みこみ処理を行い次層に出力するようなネットワーク構造をもつものである。最終層は認識結果を表す出力層となる。各層には畳みこみ演算用のフィルタ(カーネル)が複数用意される。出力層に近い層では畳みこみによる結合ではなく通常のニューラルネットワーク(NN)のような全結合(full connect)の構造とするのが一般的である。もしくは、非特許文献2に開示されているように全結合層のかわりに畳みこみ演算層の出力結果を線形識別器に入力し識別を行う手法も注目されている。
DCNNの学習フェーズにおいては、畳みこみフィルタの値や全結合層の結合重み(両者をあわせて学習パラメータと呼ぶ)を誤差逆伝搬法(バックプロパゲーション:BP)などの方法を用いて教師付きデータから学習する。認識フェーズでは学習済DCNNにデータを入力し、各層において学習済みの学習パラメータによってデータを順次処理し、出力層から認識結果を得るかもしくは中間層の出力結果を集計し、識別器に入力することで認識結果を得る。
また、上記のようなニューラルネットワーク(NN)を圧縮する研究もされている。各畳みこみ演算に用いるフィルタ(カーネル)をフィルタ圧縮の技術を用いて圧縮することでパラメータ数を削減し、場合によっては畳みこみ演算時の計算量を削減できる。非特許文献3では、スパース行列分解をしてフィルタ行列を低ランク近似することでフィルタ圧縮の実現している。特許文献1では、三層ニューラルネットワークの学習を行い、隠れ層(中間層)の各モジュールが有するウェイトマトリクスのユーグリッド距離を計算し、距離が近いウェイトマトリクスを共有する。また、特許文献2では三層ニューラルネットワークにおける中間層の各モジュールが同一の重み(ウェイト)を持たせて更新する。
特許第4226754号 特許第3367214号
Krizhevsky,A.,Sutskever,I.,&Hinton,G.E.,"Imagenet classification with deep convolutional neural networks.",In Advances in neural information processing systems(pp.1097−1105),2012. Jeff Donahue, Yangqing Jia,Judy Hoffman,Trevor Darrell,"DeCAF:A Deep Convolutional Activation Feature for Generic Visual Recognition",arxiv 2013. Max Jaderberg,Andrea Vedaldi,Andrew Zisserman,"Speeding up Convolutional Networks with Low Rank Expansions",The British Machine Vision Conference 2014. Karen Simonyan,Andrew Zisserman,"Very Deep Convolutional Networks For Large−Scale Image Recognition",International Conference on Learning Representations 2014.
上述した従来のニューラルネットワーク(NN)、とくにDeep Convolutional Neural Networks (DCNN)では、畳みこみ演算を多く行うためパラメータ数が多く、それを展開するメモリを識別時に用意する必要がある。そこで近年、非特許文献3のような行列圧縮・分解の技術を用いて各カーネルやフィルタを1次元フィルタの組で近似することで圧縮する技術がある。この技術により各カーネルやフィルタのパラメータ用のメモリを減らすことができる。また、特許文献1のようにカーネルやフィルタのなかで近いパラメータであるものを統合し、カーネル数もしくはフィルタ数を減らす技術や特許文献2のように層内のフィルタのパラメータを同一のものするニューラルネットワークも提案されている。
しかしながら、現在の多層のニューラルネットワークではフィルタサイズが小さく、従来のような行列圧縮・分解の技術では、圧縮効果が小さい。また、層内でだけでなく層間でカーネルやフィルタを共有し、かつその共有関係を維持した状態で学習(finetune)することでパラメータ用のメモリを増やさずに識別精度の高いニューラルネットワークを学習する技術がない。
そこで、本発明は、メモリ使用量を抑制しつつ、識別精度の高いニューラルネットワークを学習することを目的とする。
上記課題を解決するために、本発明は、ニューラルネットワークの複数の畳みこみ層における複数のカーネルのうち、複数の前記畳みこみ層において共有するカーネルを選択する選択手段と、前記ニューラルネットにおけるパラメータの初期値を設定する設定手段と、学習データを用いて、前記ニューラルネットワークにおけるパラメータの最適化を行うことにより前記ニューラルネットワークを学習する最適化手段と、を有することを特徴とする。
本発明によれば、多層ニューラルネットワークにおいて識別時のメモリ使用量を抑えた識別精度の高いニューラルネットワークを学習することができる。
第1の実施形態に係るシステム構成の一例を示す図。 第1の実施形態において識別対象画像の一例を示す図。 第1の実施形態に係る画像処理装置のハードウェア構成の一例を示す図。 第1の実施形態に係るDCNNの構造およびDCNNを用いた識別処理の一例を示す図。 第1の実施形態に係る識別時に用いる情報処理装置の機能構成の一例を示す図。 第1の実施形態におけるNN学習装置の機能構成の一例を示す図。 各実施形態におけるNN学習装置の機能構成の一例を示す図。 各実施形態における識別時の情報処理の一例を示すフローチャート。 各実施形態おける学習時の情報処理の一例を示すフローチャート。 第1の実施形態におけるNN構造の一例を示す図。 第2の実施形態におけるNNにおけるカーネルのペアリングの一例を示す図。 第2の実施形態におけるNNにおけるカーネルのクラスタリングの一例を示す図。 第4の実施形態におけるNNにおける層構造追加の一例を示す図。
[第1の実施形態]
以下、本発明の第1の実施形態の詳細について図面を参照しつつ説明する。なお、以下NNと記した場合にニューラルネットワークを意味するものとする。
図1は、本実施形態に係る情報処理装置を備えたシステムの概略的な構成例を示す図である。図1のシステムは、カメラ10と、情報処理装置及び情報処理方法を実現する一構成例である情報処理装置20とが、ネットワーク15を介して接続されている。なお、情報処理装置20とカメラ10は、一体に構成されていてもよい。また、情報処理装置20と情報処理装置及び情報処理方法を実現する一構成例であるNN学習装置50がネットワーク15を介して接続されている。なお、情報処理装置20とNN学習装置50が一体に構成されていてもよい。
カメラ10は、情報処理装置20による情報処理の対象となる画像を撮影する。図1は、木(tree)30a、自動車(car)30b、建物(building)30c、空(sky)30d、道(road)30e、人体(body)30f等が画角(撮影範囲)内に存在するシーン30を、カメラ10が撮影する例を示している。画像処理装置20は、カメラ10で撮影されたシーン(撮影状況)30において、各被写体が画像内に存在するかどうかを判定する(画像分類する)。本実施形態では、画像分類(classification)タスクで説明するが、被写体の位置を検出・被写体領域を抽出するタスクや他のタスクでもよい。
図2は、画像分類の例を示したものである。図2(a)は建物、図2(b)は木(林・森)、図2(c)は車と画像分類される例を示している。
図3は、本実施形態において、情報処理装置20およびNN学習装置50のハードウェア構成の一例を示す図である。CPU401は、画像処理装置20およびNN学習装置全体を制御する。CPU401がROM403やHD404等に格納されたプログラムを実行することにより、後述する画像処理装置20の機能構成及び画像処理装置20に係るフローチャートの処理が実現される。RAM402は、CPU401がプログラムを展開して実行するワークエリアとして機能する記憶領域である。ROM403は、CPU401が実行するプログラム等を格納する記憶領域である。HD404は、CPU401が処理を実行する際に要する各種のプログラム、閾値に関するデータ等を含む各種のデータを格納する記憶領域である。操作部405は、ユーザによる入力操作を受け付ける。表示部406は、画像処理装置20の情報を表示する。ネットワークI/F407は、画像処理装置20と、外部の機器とを接続する。
まず、本実施形態において学習されるニューラルネットワークを用いて画像を識別する際の処理について説明する。なお、本実施形態において説明するニューラルネットワークはDeep Convolutional Neural Networks (DCNN)を用いて説明する。DCNNは畳みこみ演算を多く行うニューラルネットワークである。非特許文献1や非特許文献4に開示されているように畳みこみ(Convolution)と非線形処理(reluやmaxpoolingなど)の組み合わせで特徴層が実現される。そのあと、全結合層(fullconect)を経て画像分類結果(各クラスに対する尤度)を出力する。図4では、入力画像Img1000を入力すると、convolution1001,relu1002,convolution1003,relu1004,pooling1005をする例を示している。それを所定回数繰り返してfullconect層1011、relu1012,fullconect層1013、relu1014,fullconect層1015を行って、出力結果を出力している。なお、ここでの入力画像Img1000はDCNNに入力する際に、所定画像サイズで画像をクロップするのが一般的である。
図5は本実施形態に係る識別時に用いる情報処理装置の機能構成を示しており、図5(a)は第1の実施形態における情報処理装置20のCPU401が実行する処理を、それぞれ機能ブロックとして描いている。なお、図5(a)には、情報処理装置20内の各機能ブロックの他に、カメラ10に相当する撮影部200も示している。撮影部200は、カメラ103に相当し、識別対象画像を取得する。本実施形態の情報処理装置20は、入力部201、出力部202、NNパラメータ保持部506を有している。なお、NNパラメータ保持部506は、不揮発性の記憶装置として計算機20と接続された構成としてもよい。情報処理装置20が有するこれらの各機能の詳細については、図5等を用いて後述する。
図8は、各実施形態において情報処理装置20の各機能ブロックで実行される処理の概要を示す識別時の情報処理を示すフローチャートであり、図8(a)が本実施形態に係るフローチャートである。この図8(a)のフローチャートにおいて、入力工程T110では、入力部201が撮影部200によって撮影された識別対象画像を入力データとして受信する。取得された識別対象画像は出力部202に送信される。次に、出力工程T220では、入力部201によって送信された識別対象画像をNNパラメータ保持部506に保持されたニューラルネットワークを用いて識別をして識別結果を出力する。本実施形態においては画像分類タスクであるため、画像のクラス名およびそのスコアが出力される。ここで、用いるニューラルネットワークの構造などについては後述する。
次に、図8(a)に示したフローチャートを参照しつつ、図5の(a)に示した画像処理装置20のCPU401が実行する各処理のより具体的な流れを説明する。入力工程T110では、入力部201が図1で示したようなシーン30を撮影部200が撮影した画像を、識別対象画像100として取得する。なお、識別対象画像は、図示しない外部装置に格納されている画像であってもよい。その場合、入力部201は外部装置から読み出された画像を識別対象画像として取得する。外部装置に格納されている画像は、例えば撮影部200等で予め撮影された画像であってもよいし、ネットワーク等を経由するなどの他の方法で取得されてから格納された画像であってもよい。入力部201で取得された識別対象画像100は出力部202に送信される。出力工程T120では、出力部202が入力工程T110で入力された識別対象画像100をあらかじめ学習されたネットワークに入力して識別結果を出力する。ここで用いるネットワークは例えば先の図4(a)に示したようなネットワークを利用すればよい。ネットワークの構造およびパラメータはNNパラメータ保持部506に保持されている。
ここではニューラルネットワークの出力を直接画像識別結果として出力する例について説明した。しかし、変形例として、非特許文献2に開示されているように、ニューラルネットワークの途中の層の出力結果を特徴ベクトルとして、識別器に入力することで識別を行うこともできる。例えば、図4(b)のように中間層のrelu処理の出力結果を特徴ベクトルfeature1016としてSupport−Vector−Machine(SVM)1017に入力することで識別を行う。
なお、ここでは途中のrelu処理の出力結果を利用したが、その前のconvolutionや後のpooling処理の出力でもいいし、他の層の出力結果、またそれらの組み合わせでもよい。また、ここでは識別器としてSVMを利用したが、他の識別器を用いてもよい。また、図4(b)の場合は入力画像に対して識別結果を一意に出力するが、物体領域を識別する場合などで画素や小領域ごとに識別する必要がある場合には図4(c)のような構成を用いる。まず、所定の中間層の出力結果を補間処理して入力画像サイズと同サイズに変換する。それから、注目している画素もしくは小領域における所定の中間層の出力結果1019を特徴ベクトルとして、先と同様にSupport−Vector−Machine(SVM)1021に入力することで識別を行う。なお、ここでSupport−Vector−Machine(SVM)を用いたが、それ以外の識別器でもよい。
以上のような変形例に関し、情報処理装置20のCPU401が実行する処理を、それぞれ機能ブロックとして図5(b)に図示している。なお、図5(b)には、情報処理装置20内の各機能ブロックの他に、カメラ10に相当する撮影部200も示している。ほぼ図5(a)に示した機能ブロックと同様であるが、識別部203、識別器保持部513が追加されている。また、出力部202の処理内容が異なる。なお、識別器保持部513も先のNNパラメータ保持部506と同じように不揮発性の記憶装置として計算機20と接続された構成としてもよい。情報処理装置20が有するこれらの各機能の詳細については、図5等を用いて後述する。
ここで、上記変形例のフローチャートを図8(b)に示す。入力工程T210の処理内容は先に示した入力工程T110と同様の処理であるため説明を省略する。出力工程T220では、入力工程T210で入力された識別対象画像100をあらかじめ学習されたネットワークに入力して先に図4(b)、(c)で示したように中間層の出力結果を出力する。出力された中間層の出力結果は識別部203に送信される。次に、識別工程T230では、識別部203が出力工程T220で取得された中間層の出力結果を識別器に入力して識別結果を出力する。識別器はあらかじめ学習されており、識別器保持部513に保持されている。
次に、本実施形態において用いられるニューラルネットワークを学習する際の処理について説明する。図6は本実施形態におけるNN学習装置の機能構成の一例を示す図であり、図6(a)は第1の実施形態におけるNN学習装置50のCPU401が実行する処理を、それぞれ機能ブロックとして描いている。本実施形態のNN学習装置50は、NN設定部501、カーネル選択部502、パラメータ初期値設定部503、パラメータ最適化部504を有している。また、NNパラメータ保持部506、学習データ保持部507を保持している。なお、NNパラメータ保持部506および学習データ保持部507は、不揮発性の記憶装置として計算機20と接続された構成としてもよい。NN学習装置50が有するこれらの各機能の詳細については、図6等を用いて後述する。
図9はNN学習装置50の各機能ブロックで実行される処理の概要を示すフローチャートであり、図9(a)が本実施形態に係るフローチャートである。この図9(a)のフローチャートにおいて、NN設定工程S110では、NN設定部501が学習するニューラルネットワークの構造およびパラメータ数を決定する。本実施形態では、先に説明したDeep Convolutional Neural Networks(DCNN)を用いて説明する。そのConvolution層を図示した例が図10である。同図に示されるように、各層に入力されるNn(n=1、2、…)チャンネルの入力が畳みこみによりNn+1チャンネルの出力に変換される。なお、図10においてはConvolutionのあとに行うReluやPoolingの処理は省略している。各Convolution層で用いるフィルタ群(カーネル)は4次元のテンソル表現で表される。例えば、(フィルタサイズ)×(フィルタサイズ)×((入力)チャネル数)×(フィルタ数=出力チャンネル数)で表される。本実施形態では、(フィルタサイズ)×(フィルタサイズ)×(チャネル数)を1つの単位(部分カーネル)として、他のConvolution層と共有することでパラメータ数を減らし、識別時のメモリの使用量を抑えている。
NN設定工程S110では、識別時に使用できるメモリ量に応じて部分カーネルをいくつ持てるかを設定する。このときに構造およびパラメータ数を識別時に利用するハードウェアのスペックに応じて決定してもよい。例えば、CNNの場合、回路実装すれば高速に処理できることが知られているが、学習された辞書(パラメータ)を回路上にあらかじめ展開する必要があるためメモリ量が必要になる。あらかじめメモリ量を決めておけば使用できるパラメータ数を決定することができる。部分カーネルに用いることができるメモリ量は、全メモリ量から全結合層(fullconect)に用いる結合重み用のメモリ、各層の出力結果を一時的に保持するためのメモリ以外となる。先に説明したニューラルネットワークの途中の層の出力結果を特徴ベクトルとして、識別器に入力する場合には、全結合層(fullconect)を用いなくてもよい。例えば、この部分カーネルをM個持つこととする。Mは図10に示した各Convolution層のフィルタ数K1、K2、K3、K4と同じである必要はない。どの部分カーネル同士を共通化するかは次のカーネル選択工程で決定する。全結合層(fullconect)を用いない場合の圧縮率を非特許文献4に開示されているVGG16の場合で説明する。部分カーネルを3×3×64×1とすれば、無圧縮の場合のConvolutionに用いる重み係数の数は、以下の数式1となる。
3×3×(3×64+64×64+64×128+128×128
+128×256+256×256×3+256×512+512×512×7)
=20,018,880 (数式1)
これに対して、上記の方法で圧縮した場合には、以下の数式2となる。
3×3×3×64+3×3×64×1×M (数式2)
圧縮率はM=4096の場合で約8.5倍、M=2048の場合で、約16.9倍、M=1024の場合で約33.9倍となる。なお、ここでは最初の層の入力がRGB画像(3チャンネル)であり、カーネルが3×3×3×64であるため、最初の層のConvolutionカーネルは共通化しない。また、実際には各層でM個の部分カーネルのうちどの部分カーネルを用いるかというメモリアドレス情報が必要になるため、上記の例より圧縮率は少し下がるが、その部分の計算は割愛する。設定されたニューラルネットワークの構造およびパラメータ数はカーネル選択部502が送信される。
次に、カーネル選択工程S120では、カーネル選択部502がNN設定工程S110において設定された部分カーネル数Mに応じて、共通化する部分カーネルを選択する。例えば、図10において部分カーネル2001と部分カーネル2010と部分カーネル2015を共通化する。共通化とは畳みこみに用いるカーネルの重み係数を同じ値とすることを意味し、まったく同じ部分カーネルを用いることで省メモリ化する。共通化した場合の重み係数の学習方法(最適化方法)については後述する。M個の各部分カーネルに対してどの部分カーネルを割り当てるかを決定する。つまり、すべての部分カーネルがM個の部分カーネルで表現される。部分カーネルは層にまたがって選択してもよいし(例えば部分カーネル2001と2010の選択)、層内で選択してもよい(例えば部分カーネル2015と2016の選択)。そして、選択されたカーネル情報はパラメータ初期値設定部503に送信される。
次に、パラメータ初期値設定工程S130では、パラメータ初期値設定部503がNN設定工程S110およびカーネル選択工程S120で設定されたネットワークの各パラメータの初期値を決定する。このときに、カーネル選択工程S120において共通化する部分カーネルのパラメータは同一の初期値を取るようにする。初期値の設定方法はランダム値でもよい、ユーザが所定の方法で決定してもよい。設定されたパラメータの構造およびその初期値はパラメータ最適化部504に送信される。
次に、パラメータ最適化工程S140では、パラメータ最適化部504が学習データ保持部507に保持されている学習データおよびGT(正解値)を用いてネットワークにおけるパラメータを最適化する。パラメータの最適化にはBack Propagationを用いればよい。本実施形態では、カーネル選択工程S120において選択されたカーネルの重みは同じ値を取る必要がある。そのため、通常のBack Propagationで各重みWに対する更新値ΔWを計算したのち、共通化されたカーネルの各重みWが同じ値になるように更新する。例えば、共通化されたカーネルにおける重みWに対するΔWの総和もしくは平均、最大値、中央値などを用いて更新すればよい。あらかじめ設定しておいた学習回数分(エポック数)、パラメータを更新したあと最適化されたパラメータおよびネットワークの構造はNNパラメータ保持部506に送信され保持される。
また、パラメータ最適化時に(部分)カーネルを共通化して重みを同じ値にしていることで学習誤差が減らない場合がある(学習がうまくいかない場合がある)。そういった場合には、共通化しているカーネルの重みWに対するΔWの中で他の共通化しているWのΔWに対して大きい値を取っている重みW(もしくはカーネル)の共通化を解除する。もしくはΔWが小さいW(もしくはカーネル)の共通化を解除してもよい。それにより圧縮率は下がるが、学習時のパラメータの自由度があがるため学習誤差が減る可能性がある。もしくは、カーネルの共通化をランダムに解除してもよい。また、変形例としては、各Convolution層で用いる4次元のフィルタ群(カーネル)の他に、1×(フィルタ数=出力チャンネル数)で定義されるバイアス項(ベクトル)を定義して、バイアス項は各層ごとに独立に学習する。また、別の変形例としては、各部分カーネルごとに係数をもち、その係数は部分カーネルごとに独立に学習する。より具体的には数式3にあるように共通重み
Figure 2018055259
、係数項k〜kおよびバイアス項b〜bを推定する。
Figure 2018055259
もしくは、各更新時に
Figure 2018055259
、k〜kとb〜bを交互に更新するようにしてもよい。
以上のようにして共通部分を持ったネットワークが学習される。また、先に説明したニューラルネットワークの途中の層の出力結果を特徴ベクトルとして、識別器に入力する場合には、ニューラルネットワークの学習後に識別器を学習する。図6(b)は識別器を学習する場合のNN学習装置50のCPU401が実行する処理を、それぞれ機能ブロックとして描いている。図6(a)で説明したNN学習装置50とほぼ同様であるが、識別器学習部505、識別器保持部513を追加で有している。なお、識別器保持部513は不揮発性の記憶装置として計算機20と接続された構成としてもよい。
図9(b)は、本実施形態において識別器を学習する場合のNN学習装置50の各機能ブロックで実行される処理の概要を示す図である。この図9(b)のフローチャートにおいて、図9(a)で説明した処理の概要に対して識別器学習工程S150が追加されている。識別器学習工程S150では、識別器学習部505がパラメータ最適化工程S150においてパラメータ最適化されたネットワークを特徴抽出器として用いて、その特徴ベクトルを入力とする識別器を学習する。より具体的には、学習用データ保持部507に保持されているデータをネットワークに入力して特徴量を取得する。その特徴量と学習用データに対するGT(正解値)を基に識別器を学習する。識別器はSupport−Vector−Machine(SVM)などを用いればよい。学習された識別器は識別器保持部513に送信され、保持される。
なお、本実施形態では部分カーネルを共通化したが、2次元フィルタやカーネル(4次元テンソル)ごと共通化してしてもよい。学習方法などは先に説明したので割愛する。
以上のように本実施形態によれば、NN学習装置50はニューラルネットワークにおけるカーネルもしくはフィルタを共通化して、パラメータ最適化することで、識別時のメモリ使用量を抑制しつつネットワークを学習することができる。
[第2の実施形態]
次に、本発明を実施するための第2の実施形態について、図面を参照して説明する。なお、上述した第1の実施形態における各構成と同一の構成については、その説明を省略する。本実施形態は、ニューラルネットワークの学習途中にカーネルもしくはフィルタで類似しているものをグループ化し、そのグループに属するカーネルもしくはフィルタが同一の重み係数をもつという制約条件のもとで学習を継続するものである。
本実施形態において、画像を識別する際の処理は第1の実施形態と同様であるため、ここでは学習時の処理のみ説明する。図7は、第2の実施形態以降の各実施形態におけるNN学習装置の機能構成の一例を示す図であり、図7(a)が本実施形態のNN学習装置50の各機能ブロックで実行される処理の概要を示している。図6(a)で説明したNN学習装置50と共通する機能部が多いが、連結順および機能が異なる。また、パラメータ設定部508、追加学習部509が追加されている。NN学習装置50が有するこれらの各機能の詳細については、図7等を用いて後述する。
図9(c)は、本実施形態のNN学習装置50の各機能ブロックで実行される処理の概要を示すフローチャートである。この図9(c)のフローチャートにおいて、NN設定工程S210では、NN設定部501が学習するニューラルネットワークの構造およびパラメータ数を決定する。ここでは、第1の実施形態のように共通化する部分カーネル数やフィルタ数を決定する必要はない。設定されたニューラルネットワークの構造およびパラメータ数はパラメータ初期値設定部503に送信される。
次に、パラメータ初期値設定工程S220では、パラメータ初期値設定部503がNN設定工程S210において設定されたニューラルネットワークの各パラメータの初期値を決定する。ランダム値でもよいし、ユーザが決定してもよい。設定されたパラメータ初期値はパラメータ最適化部504に送信される。
次に、パラメータ最適化工程S230では、パラメータ最適化部504が学習データ保持部507に保持されている学習データおよびGT(正解値)を用いてネットワークのパラメータを最適化する。学習アルゴリズムには第1の実施形態と同様にBack Propagationを用いればよい。ここでは、カーネルの共通化などは行わない。最適化されたネットワークの構造およびパラメータはカーネル選択部502に送信される。
次に、カーネル選択工程S240では、カーネル選択部502がパラメータ最適化工程S230で最適化されたネットワークにおいてカーネルもしくはフィルタを共通化する。共通化の方法は以下の2つの方法がある。1つ目の方法は、図11に示すように、類似度の高いフィルタもしくは部分カーネルをペアリングする。図11には部分カーネル2001と部分カーネル2009のフィルタをペアリングしている例と、部分カーネル2006と部分カーネル2012、部分カーネル2015、2016と部分カーネル2022、2023をペアリングしている例を示している。類似度は重み係数行列の相関、そのConvolutionカーネルを畳みこんだ際の出力値の相関、そのあとに行うreluなどの非線形処理後の出力値の相関などを用いればよい。
2つ目の方法は、図12に示すようにパラメータ最適化されたネットワークをフィルタ係数空間でクラスタリングする。例えば、2次元フィルタを1単位として共通化する場合には、(フィルタサイズ)×(フィルタサイズ)次元の空間(例えば、3×3=9次元)でクラスタリングすればよい。また、部分カーネルを1単位として共通化する場合には、(フィルタサイズ)×(フィルタサイズ)×(チャンネル数)次元の空間(例えば、3×3×64=576次元)でクラスタリングをすればよい。
次に、パラメータ設定工程S250では、パラメータ設定部508がカーネル選択工程S240においてペアリングされた、もしくは同じクラスタに属したカーネルのパラメータを設定する。例えば、共通化するカーネルの各重みWの値を平均化する、代表カーネルを1つ選択してそのカーネルのWの値にすべてのカーネルを置換するなどの処理を行えばよい。設定された各カーネルのパラメータは追加学習部509に送信される。
次に、追加学習工程S260では、追加学習工部509がパラメータ設定工程において設定されたパラメータをネットワークの初期値として学習データを用いて追加学習(finetune)を行い、再度パラメータを最適化する。追加学習は先に説明したパラメータ最適化工程S230と同様の処理を行えばよいが、ネットワークの学習率を先のパラメータ最適化工程S230時より下げるなどしたほうがよい。追加学習されたネットワークの構造およびパラメータはNNパラメータ保持部506に送信され、保持される。
なお、本実施形態も第1の実施形態と同様にネットワークを学習後、識別器を別途学習してもよいが、第1の実施形態の時と同様に学習すればよいため説明を省略する。
以上のように本実施形態によれば、NN学習装置50はパラメータ最適化された(学習された)ニューラルネットワークにおけるカーネルもしくはフィルタを共通化(ペアリング、クラスタリング)してパラメータを代表値に置換する。さらに、そのパラメータを初期値として追加学習することで、識別時のメモリ使用量を抑制しつつ、ネットワークを学習することができる。
[第3の実施形態]
次に、本発明を実施するための第3の実施形態について、図面を参照して説明する。なお、上述した第1、第2の実施形態における各構成と同一の構成については、その説明を省略する。本実施形態は、第1、第2の実施形態のようにニューラルネットワークを複数回にわたり学習をしてニューラルネットワークを学習したデータの他に、検定データ(学習評価用データ)を用意する。そして、その検定データに対して識別を行いその識別結果が高いニューラルネットワークを選択するものである。
本実施形態において、画像を識別する際の処理は第1の実施形態において説明した例と同様であるため、ここでは学習時の処理のみ説明する。図7(b)は、本実施形態のNN学習装置50の各機能ブロックで実行される処理の概要を示す図である。図6(a)で説明したNN学習装置50と共通する機能部が多いが、連結順および機能が異なる。また、NN選択部506が追加で保持されている。NN学習装置50が有するこれらの各機能の詳細については、図7等を用いて後述する。
図9(d)は、本実施形態のNN学習装置50の各機能ブロックで実行される処理の概要を示すフローチャートである。この図9(d)のフローチャートにおいて、NN設定工程S310では、NN設定部501が学習するニューラルネットワークの構造およびパラメータ数を決定する。本実施形態では、第1の実施形態と同様の方法でネットワークを学習するため、第1の実施形態におけるNN設定工程S110と同様の処理内容であるため説明を省略する。以下のカーネル選択工程S330、パラメータ初期値設定工程S340、パラメータ最適化工程S350も第1の実施形態におけるカーネル選択工程S120、パラメータ初期値設定工程S130、パラメータ最適化工程S140と同様である。カーネル選択工程S330、パラメータ初期値設定工程S340、パラメータ最適化工程S350は所定回数行われ、選択されたカーネルおよびパラメータ初期値が異なるため違うネットワークが学習される。学習された各ネットワークの構造およびパラメータはNNパラメータ保持部506に送信され、保持される。
所定回数ネットワークの学習を行ったのちにNN選択工程S360では、NN選択部510がNNパラメータ保持部に保持されているネットワークの中で識別精度が高いネットワークを選択する。識別精度はパラメータ最適化工程S350においてパラメータ最適化時の学習誤差で評価してもよいが、本実施形態では学習評価用データ保持部513に保持されている学習評価用データを識別・評価することで識別精度の高いネットワークを選択する。選択されたネットワークの構造およびパラメータはNNパラメータ保持部506に送信され、保持される。なお、本実施形態も第1の実施形態と同様にネットワークを学習後、識別器を別途学習してその識別器の中で最も識別精度が高いネットワークおよび識別器を選択してもよい。
また、本実施形態におけるネットワークは第1の実施形態におけるNN学習方法で複数のネットワークを学習したが、第2の実施形態におけるNN学習方法でネットワークを学習してから選択してもよい。
以上のように本実施形態によれば、NN学習装置50はいくつかのメモリ使用量を減らしたネットワークを学習したのち学習評価用データにより学習評価を行う。その学習評価結果が良かったネットワークの構造およびパラメータを選択することで、識別時のメモリ使用量を抑制しつつ、ネットワークを得ることができる。
[第4の実施形態]
次に、本発明を実施するための第4の実施形態について、図面を参照して説明する。なお、上述した第1〜第3の実施形態における各構成と同一の構成については、その説明を省略する。本実施形態は、第1〜第3の実施形態もしくは既存手法において学習されたニューラルネットワークに対して、ネットワーク内のカーネルやフィルタを用いてさらに学習を行うものである。
本実施形態において、画像を識別する際の処理は第1の実施形態において説明した例と同様であるため、ここでは学習時の処理のみ説明する。図7(c)は、本実施形態のNN学習装置50の各機能ブロックで実行される処理の概要を示す図である。本実施形態のNN学習装置50は、層構造追加部511、第2追加学習部512を有している。また、NNパラメータ保持部506、学習データ保持部507を保持している。なお、NNパラメータ保持部506および学習データ保持部507は、不揮発性の記憶装置として計算機20と接続された構成としてもよい。NN学習装置50が有するこれらの各機能の詳細については、図7等を用いて後述する。
図9(e)は、本実施形態のNN学習装置50の各機能ブロックで実行される処理の概要を示すフローチャートである。この図9(e)のフローチャートにおいて、NN設定工程S410ではNN設定部501が以前学習されたニューラルネットワークの構造およびパラメータをNNパラメータ保持部506からロードする。ロードしてくるネットワークは第1〜3の実施形態において学習されたものでもよいし、それ以外のネットワークでもよい。ロードされたネットワークは層構造追加部511に送信される。
次に、層構造追加工程S420では、層構造追加部511がNN設定工程S410でロードされたネットワークに対して層構造を追加する。図13に示すようにロードしたネットワークに対してK5個の部分カーネル(図13中における2030〜2037)を追加し、層を追加している。ここで設定する部分カーネルはその前の層内に用いられていた部分カーネルであり、同じ部分カーネルを用いることでカーネル用のメモリを増やさずに層を追加することができる。追加された層を含めたネットワークの構造およびパラメータは第2追加学習部512に送信される。
次に、第2追加学習工程S430では、第2追加学習部512が層構造追加工程S420において設定されたネットワークのパラメータを初期値として追加学習(finetune)を行い、パラメータを最適化する。最適化方法は第1の実施形態のパラメータ最適化工程S140で説明した方法と同様でよいが、先の追加学習工程と同様に学習率は下げるなどしたほうがよい。追加学習されたネットワークの構造およびパラメータはNNパラメータ保持部506に送信され、保持される。
なお、本実施形態も第1の実施形態と同様にネットワークを学習後、識別器を別途学習してもよいが、第1の実施形態の時と同様に学習すればよい。
以上のように本実施形態によれば、NN学習装置50は既存のネットワークに対してカーネルを再利用することで、カーネル用のメモリを増やさずにネットワークの層を追加することができる。層追加してパラメータを最適化することでより識別精度の高いネットワークを学習することができる。
[その他の実施形態]
また、本発明は、各実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPU等)がプログラムを読出し実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施例の有機的な組合せを含む)が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
10 カメラ
20 画像処理装置
15 ネットワーク
30 シーン
100 識別対象画像
401 CPU
402 RAM
403 ROM
404 HD
405 操作部
406 表示部
407 ネットワークI/F

Claims (13)

  1. ニューラルネットワークの複数の畳みこみ層における複数のカーネルのうち、複数の前記畳みこみ層において共有するカーネルを選択する選択手段と、
    前記ニューラルネットにおけるパラメータの初期値を設定する設定手段と、
    学習データを用いて、前記ニューラルネットワークにおけるパラメータの最適化を行うことにより前記ニューラルネットワークを学習する最適化手段と、
    を有することを特徴とする情報処理装置。
  2. 前記最適化手段は、前記選択されたカーネルのパラメータが同じであることを制約条件に、前記ニューラルネットワークの学習を行うことを特徴とする請求項1に記載の情報処理装置。
  3. 前記最適化手段は、前記ニューラルネットワークにおいてパラメータの最適化を行って学習する処理と、前記選択手段によって共有するカーネルを選択した後にパラメータの最適化を行って学習する処理とを、この順に実行することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記設定手段は、それぞれ異なる複数のパラメータの初期値を複数回で設定し、
    前記最適化手段は、前記複数のパラメータの初期値によりニューラルネットワークを学習した中から、当該学習の結果に基づいてニューラルネットワークを選択することを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記最適化手段は、最も精度の高いニューラルネットワークを選択することを特徴とする請求項4に記載の情報処理装置。
  6. 前記選択手段は、予め定められたパラメータを組み合わせることにより前記畳みこみ層を追加して、前記共有するカーネルを選択し、
    前記最適化手段は、前記追加された畳みこみ層を合わせて学習することを特徴とする請求項1から5のいずれか1項に記載の情報処理装置。
  7. 前記最適化手段は、前記学習の結果に基づいて前記カーネルの共有を解除することを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
  8. 前記最適化手段により学習されたニューラルネットワークを用いて識別を行う識別手段をさらに有することを特徴とする請求項1から7のいずれか1項に記載の情報処理装置。
  9. 前記最適化手段により学習されたニューラルネットワークに識別すべき画像を入力する入力手段と、
    前記ニューラルネットワークの出力結果および中間層の出力結果を出力する出力手段と、をさらに有し、
    前記識別手段は、前記出力されたニューラルネットワークの出力結果および中間層の出力結果を識別器に入力することにより、識別を行うことを特徴とする請求項8に記載の情報処理装置。
  10. ニューラルネットワークを構成する畳みこみ層において、複数の前記畳みこみ層のカーネルのパラメータが共通化されたニューラルネットワークを用いて識別を行う識別手段を有することを特徴とする情報処理装置。
  11. 少なくとも1つの前記畳みこみ層において、層内のカーネルのパラメータも共通化されていることを特徴とする請求項10に記載の情報処理装置。
  12. ニューラルネットワークの複数の畳みこみ層における複数のカーネルのうち、複数の前記畳みこみ層において共有するカーネルを選択するステップと、
    前記ニューラルネットにおけるパラメータの初期値を設定するステップと、
    学習データを用いて、前記ニューラルネットワークにおけるパラメータの最適化を行うことにより前記ニューラルネットワークを学習するステップと、
    を有することを特徴とする情報処理方法。
  13. コンピュータを、請求項1から11のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
JP2016188411A 2016-09-27 2016-09-27 情報処理装置、情報処理方法及びプログラム Pending JP2018055259A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016188411A JP2018055259A (ja) 2016-09-27 2016-09-27 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016188411A JP2018055259A (ja) 2016-09-27 2016-09-27 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2018055259A true JP2018055259A (ja) 2018-04-05

Family

ID=61835762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016188411A Pending JP2018055259A (ja) 2016-09-27 2016-09-27 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2018055259A (ja)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985222A (zh) * 2018-07-12 2018-12-11 天津艾思科尔科技有限公司 一种用于接打电话识别的深度学习网络模型及系统
JP2019197324A (ja) * 2018-05-08 2019-11-14 キヤノン株式会社 画像処理装置、画像処理方法
CN110796090A (zh) * 2019-10-30 2020-02-14 武汉理工大学 基于循环神经网络的人机协作人体行为意图判别方法
JP2020052520A (ja) * 2018-09-25 2020-04-02 エヌ・ティ・ティ・コムウェア株式会社 判定装置、判定方法、およびプログラム
JP2021516790A (ja) * 2018-09-28 2021-07-08 ソノズ インコーポレイテッド ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法
WO2021192182A1 (ja) * 2020-03-26 2021-09-30 日本電気株式会社 情報処理方法
JP2021536072A (ja) * 2018-09-14 2021-12-23 テスラ,インコーポレイテッド トレーニングデータを取得するためのシステム及び方法
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
WO2022153738A1 (ja) * 2021-01-13 2022-07-21 株式会社Jvcケンウッド 機械学習装置、機械学習方法、および機械学習プログラム
WO2022153739A1 (ja) * 2021-01-13 2022-07-21 株式会社Jvcケンウッド 機械学習装置、機械学習方法、および機械学習プログラム
US11405430B2 (en) 2016-02-22 2022-08-02 Sonos, Inc. Networked microphone device control
US11432030B2 (en) 2018-09-14 2022-08-30 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11482978B2 (en) 2018-08-28 2022-10-25 Sonos, Inc. Audio notifications
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11494659B2 (en) 2019-06-26 2022-11-08 Kioxia Corporation Information processing method and information processing apparatus
US11500611B2 (en) 2017-09-08 2022-11-15 Sonos, Inc. Dynamic computation of system response volume
US11501773B2 (en) 2019-06-12 2022-11-15 Sonos, Inc. Network microphone device with command keyword conditioning
US11514898B2 (en) 2016-02-22 2022-11-29 Sonos, Inc. Voice control of a media playback system
US11531520B2 (en) 2016-08-05 2022-12-20 Sonos, Inc. Playback device supporting concurrent voice assistants
US11538460B2 (en) 2018-12-13 2022-12-27 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11538451B2 (en) 2017-09-28 2022-12-27 Sonos, Inc. Multi-channel acoustic echo cancellation
US11540047B2 (en) 2018-12-20 2022-12-27 Sonos, Inc. Optimization of network microphone devices using noise classification
US11545169B2 (en) 2016-06-09 2023-01-03 Sonos, Inc. Dynamic player selection for audio signal processing
US11557294B2 (en) 2018-12-07 2023-01-17 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11556306B2 (en) 2016-02-22 2023-01-17 Sonos, Inc. Voice controlled media playback system
US11563842B2 (en) 2018-08-28 2023-01-24 Sonos, Inc. Do not disturb feature for audio notifications
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11641559B2 (en) 2016-09-27 2023-05-02 Sonos, Inc. Audio playback settings for voice interaction
US11646045B2 (en) 2017-09-27 2023-05-09 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US11646023B2 (en) 2019-02-08 2023-05-09 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11694689B2 (en) 2020-05-20 2023-07-04 Sonos, Inc. Input detection windowing
US11696074B2 (en) 2018-06-28 2023-07-04 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11710487B2 (en) 2019-07-31 2023-07-25 Sonos, Inc. Locally distributed keyword detection
US11714600B2 (en) 2019-07-31 2023-08-01 Sonos, Inc. Noise classification for event detection
US11727933B2 (en) 2016-10-19 2023-08-15 Sonos, Inc. Arbitration-based voice recognition
US11736860B2 (en) 2016-02-22 2023-08-22 Sonos, Inc. Voice control of a media playback system
US11741948B2 (en) 2018-11-15 2023-08-29 Sonos Vox France Sas Dilated convolutions and gating for efficient keyword spotting
US11769505B2 (en) 2017-09-28 2023-09-26 Sonos, Inc. Echo of tone interferance cancellation using two acoustic echo cancellers
US11792590B2 (en) 2018-05-25 2023-10-17 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11790937B2 (en) 2018-09-21 2023-10-17 Sonos, Inc. Voice detection optimization using sound metadata
US11797263B2 (en) 2018-05-10 2023-10-24 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11798553B2 (en) 2019-05-03 2023-10-24 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11854547B2 (en) 2019-06-12 2023-12-26 Sonos, Inc. Network microphone device with command keyword eventing
US11862161B2 (en) 2019-10-22 2024-01-02 Sonos, Inc. VAS toggle based on device orientation
US11869503B2 (en) 2019-12-20 2024-01-09 Sonos, Inc. Offline voice control
US11893308B2 (en) 2017-09-29 2024-02-06 Sonos, Inc. Media playback system with concurrent voice assistance
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11900937B2 (en) 2017-08-07 2024-02-13 Sonos, Inc. Wake-word detection suppression
US11947870B2 (en) 2016-02-22 2024-04-02 Sonos, Inc. Audio response playback
US11979960B2 (en) 2016-07-15 2024-05-07 Sonos, Inc. Contextualization of voice inputs
US11983463B2 (en) 2021-10-04 2024-05-14 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system

Cited By (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11514898B2 (en) 2016-02-22 2022-11-29 Sonos, Inc. Voice control of a media playback system
US11832068B2 (en) 2016-02-22 2023-11-28 Sonos, Inc. Music service selection
US11750969B2 (en) 2016-02-22 2023-09-05 Sonos, Inc. Default playback device designation
US11736860B2 (en) 2016-02-22 2023-08-22 Sonos, Inc. Voice control of a media playback system
US11405430B2 (en) 2016-02-22 2022-08-02 Sonos, Inc. Networked microphone device control
US11947870B2 (en) 2016-02-22 2024-04-02 Sonos, Inc. Audio response playback
US11556306B2 (en) 2016-02-22 2023-01-17 Sonos, Inc. Voice controlled media playback system
US11863593B2 (en) 2016-02-22 2024-01-02 Sonos, Inc. Networked microphone device control
US11545169B2 (en) 2016-06-09 2023-01-03 Sonos, Inc. Dynamic player selection for audio signal processing
US11979960B2 (en) 2016-07-15 2024-05-07 Sonos, Inc. Contextualization of voice inputs
US11531520B2 (en) 2016-08-05 2022-12-20 Sonos, Inc. Playback device supporting concurrent voice assistants
US11934742B2 (en) 2016-08-05 2024-03-19 Sonos, Inc. Playback device supporting concurrent voice assistants
US11641559B2 (en) 2016-09-27 2023-05-02 Sonos, Inc. Audio playback settings for voice interaction
US11727933B2 (en) 2016-10-19 2023-08-15 Sonos, Inc. Arbitration-based voice recognition
US11900937B2 (en) 2017-08-07 2024-02-13 Sonos, Inc. Wake-word detection suppression
US11500611B2 (en) 2017-09-08 2022-11-15 Sonos, Inc. Dynamic computation of system response volume
US11646045B2 (en) 2017-09-27 2023-05-09 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US11538451B2 (en) 2017-09-28 2022-12-27 Sonos, Inc. Multi-channel acoustic echo cancellation
US11769505B2 (en) 2017-09-28 2023-09-26 Sonos, Inc. Echo of tone interferance cancellation using two acoustic echo cancellers
US11893308B2 (en) 2017-09-29 2024-02-06 Sonos, Inc. Media playback system with concurrent voice assistance
US11689858B2 (en) 2018-01-31 2023-06-27 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
JP7169768B2 (ja) 2018-05-08 2022-11-11 キヤノン株式会社 画像処理装置、画像処理方法
JP2019197324A (ja) * 2018-05-08 2019-11-14 キヤノン株式会社 画像処理装置、画像処理方法
US11797263B2 (en) 2018-05-10 2023-10-24 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11792590B2 (en) 2018-05-25 2023-10-17 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11696074B2 (en) 2018-06-28 2023-07-04 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN108985222B (zh) * 2018-07-12 2024-02-20 天津艾思科尔科技有限公司 一种用于接打电话识别的深度学习网络模型及系统
CN108985222A (zh) * 2018-07-12 2018-12-11 天津艾思科尔科技有限公司 一种用于接打电话识别的深度学习网络模型及系统
US11482978B2 (en) 2018-08-28 2022-10-25 Sonos, Inc. Audio notifications
US11563842B2 (en) 2018-08-28 2023-01-24 Sonos, Inc. Do not disturb feature for audio notifications
US11973893B2 (en) 2018-08-28 2024-04-30 Sonos, Inc. Do not disturb feature for audio notifications
JP2021536072A (ja) * 2018-09-14 2021-12-23 テスラ,インコーポレイテッド トレーニングデータを取得するためのシステム及び方法
US11778259B2 (en) 2018-09-14 2023-10-03 Sonos, Inc. Networked devices, systems and methods for associating playback devices based on sound codes
US11432030B2 (en) 2018-09-14 2022-08-30 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11790937B2 (en) 2018-09-21 2023-10-17 Sonos, Inc. Voice detection optimization using sound metadata
JP2020052520A (ja) * 2018-09-25 2020-04-02 エヌ・ティ・ティ・コムウェア株式会社 判定装置、判定方法、およびプログラム
JP2021516790A (ja) * 2018-09-28 2021-07-08 ソノズ インコーポレイテッド ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法
US11790911B2 (en) 2018-09-28 2023-10-17 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11741948B2 (en) 2018-11-15 2023-08-29 Sonos Vox France Sas Dilated convolutions and gating for efficient keyword spotting
US11557294B2 (en) 2018-12-07 2023-01-17 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11538460B2 (en) 2018-12-13 2022-12-27 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11540047B2 (en) 2018-12-20 2022-12-27 Sonos, Inc. Optimization of network microphone devices using noise classification
US11646023B2 (en) 2019-02-08 2023-05-09 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11798553B2 (en) 2019-05-03 2023-10-24 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11854547B2 (en) 2019-06-12 2023-12-26 Sonos, Inc. Network microphone device with command keyword eventing
US11501773B2 (en) 2019-06-12 2022-11-15 Sonos, Inc. Network microphone device with command keyword conditioning
US11494659B2 (en) 2019-06-26 2022-11-08 Kioxia Corporation Information processing method and information processing apparatus
US11710487B2 (en) 2019-07-31 2023-07-25 Sonos, Inc. Locally distributed keyword detection
US11714600B2 (en) 2019-07-31 2023-08-01 Sonos, Inc. Noise classification for event detection
US11862161B2 (en) 2019-10-22 2024-01-02 Sonos, Inc. VAS toggle based on device orientation
CN110796090A (zh) * 2019-10-30 2020-02-14 武汉理工大学 基于循环神经网络的人机协作人体行为意图判别方法
US11869503B2 (en) 2019-12-20 2024-01-09 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11961519B2 (en) 2020-02-07 2024-04-16 Sonos, Inc. Localized wakeword verification
JP7392830B2 (ja) 2020-03-26 2023-12-06 日本電気株式会社 情報処理方法
WO2021192182A1 (ja) * 2020-03-26 2021-09-30 日本電気株式会社 情報処理方法
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11694689B2 (en) 2020-05-20 2023-07-04 Sonos, Inc. Input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
WO2022153739A1 (ja) * 2021-01-13 2022-07-21 株式会社Jvcケンウッド 機械学習装置、機械学習方法、および機械学習プログラム
WO2022153738A1 (ja) * 2021-01-13 2022-07-21 株式会社Jvcケンウッド 機械学習装置、機械学習方法、および機械学習プログラム
US11983463B2 (en) 2021-10-04 2024-05-14 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US11984123B2 (en) 2021-11-11 2024-05-14 Sonos, Inc. Network device interaction by range

Similar Documents

Publication Publication Date Title
JP2018055259A (ja) 情報処理装置、情報処理方法及びプログラム
US10802992B2 (en) Combining CPU and special accelerator for implementing an artificial neural network
WO2022083536A1 (zh) 一种神经网络构建方法以及装置
CN112308200B (zh) 神经网络的搜索方法及装置
US9633282B2 (en) Cross-trained convolutional neural networks using multimodal images
WO2020125623A1 (zh) 活体检测方法、装置、存储介质及电子设备
WO2020192483A1 (zh) 图像显示方法和设备
US10535141B2 (en) Differentiable jaccard loss approximation for training an artificial neural network
WO2020192736A1 (zh) 物体识别方法及装置
KR102097905B1 (ko) 이미지 객체 인식 장치 및 방법
CN112446476A (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
JP7228961B2 (ja) ニューラルネットワークの学習装置およびその制御方法
US11514307B2 (en) Learning apparatus, learning method, estimation apparatus, estimation method, and computer-readable storage medium
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
JP2020524348A (ja) 顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体
JP2022510622A (ja) 画像処理モデルの訓練方法、画像処理方法、ネットワーク機器、及び記憶媒体
CN110222718B (zh) 图像处理的方法及装置
US11200648B2 (en) Method and apparatus for enhancing illumination intensity of image
CN112529146B (zh) 神经网络模型训练的方法和装置
WO2020092276A1 (en) Video recognition using multiple modalities
JP2015099563A (ja) 画像処理装置、画像処理方法及びプログラム
CN112766040B (zh) 残余饵料的探测方法、设备、装置及可读存储介质
CN112464930A (zh) 目标检测网络构建方法、目标检测方法、装置和存储介质
CN110705564B (zh) 图像识别的方法和装置
JP2021018477A (ja) 情報処理装置、情報処理方法、及びプログラム