JP2018528521A - メディア分類 - Google Patents

メディア分類 Download PDF

Info

Publication number
JP2018528521A
JP2018528521A JP2018504642A JP2018504642A JP2018528521A JP 2018528521 A JP2018528521 A JP 2018528521A JP 2018504642 A JP2018504642 A JP 2018504642A JP 2018504642 A JP2018504642 A JP 2018504642A JP 2018528521 A JP2018528521 A JP 2018528521A
Authority
JP
Japan
Prior art keywords
value
recall
scale factor
precision
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018504642A
Other languages
English (en)
Inventor
タデッセ、ヘノク・テフェラ
チャクラボルティー、アビジット
ジュリアン、デイビッド・ジョナサン
ストークマン、ヘンリクス・マイナルドゥス
デ・ローイ、オーク
バン・デ・サンデ、クーン・エリック・アドリアーン
アンナプレディー、ベンカタ・スリーカンタ・レッディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2018528521A publication Critical patent/JP2018528521A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7796Active pattern-learning, e.g. online learning of image or video features based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

しきい値および/またはスケールファクタを決定することによって、マルチラベル分類が改善される。マルチラベル分類のためのしきい値を選択することは、順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートすることを含む。候補しきい値のセットに対応する適合率値および再現率値がスコア値から計算される。しきい値は、ターゲット適合率値または再現率値に基づいて、第1のラベルについて候補しきい値から選択される。また、範囲内のスコアのメトリックが計算されるマルチラベル分類のための活性化関数のために、スケールファクタが選択される。スケールファクタは、スコアのメトリックが範囲内にないときに調節される。

Description

関連出願の相互参照
[0001]本出願は、その開示全体が参照により本明細書に明確に組み込まれる、2015年7月31日に出願された、「MEDIA CLASSIFICATION」と題する米国仮特許出願第62/199,865号の利益を主張する。
[0002]本開示のいくつかの態様は、一般に機械学習に関し、より詳細には、メディアの分類のための、特に、ピクチャファイルを含むメディアファイルをラベリングするためのシステムおよび方法を改善することに関する。
[0003]人工ニューロン(たとえば、ニューロンモデル)の相互結合されたグループを備え得る人工ニューラルネットワークは、計算デバイスであるか、または計算デバイスによって実行されるべき方法を表す。
[0004]畳み込みニューラルネットワークは、フィードフォワード人工ニューラルネットワークのタイプである。畳み込みニューラルネットワークは、各々が受容野を有し、入力空間を集合的にタイリングするニューロンの集合を含み得る。畳み込みニューラルネットワーク(CNN)は多数の適用例を有する。特に、CNNは、パターン認識および分類の領域内で広く使用されている。
[0005]深層信念ネットワークおよび深層畳み込みネットワークなど、深層学習アーキテクチャは、層状(layered)ニューラルネットワークアーキテクチャであり、ニューロンの第1の層の出力はニューロンの第2の層への入力になり、ニューロンの第2の層の出力はニューロンの第3の層になり、入力し、以下同様である。深層ニューラルネットワークは、特徴の階層(hierarchy)を認識するようにトレーニングされ得、したがって、それらはオブジェクト認識適用例においてますます使用されている。畳み込みニューラルネットワークのように、これらの深層学習アーキテクチャにおける計算は、1つまたは複数の計算チェーンにおいて構成され得る処理ノードの集団にわたって分散され得る。これらの多層アーキテクチャは、一度に1つの層をトレーニングされ得、バックプロパゲーション(back propagation)を使用して微調整され得る。
[0006]他のモデルも、オブジェクト認識のために利用可能である。たとえば、サポートベクターマシン(SVM)は、分類のために適用され得る学習ツールである。サポートベクターマシンは、データをカテゴリー分類する分離超平面(separating hyperplane)(たとえば、決定境界(decision boundary))を含む。超平面は、教師あり学習によって定義される。所望の超平面は、トレーニングデータのマージンを増加させる。言い換えれば、超平面は、トレーニング例との最大の最小距離を有するべきである。
[0007]これらのソリューションは、いくつかの分類ベンチマーク上で優れた結果を達成するが、それらの計算複雑さは極めて高いことがある。さらに、モデルのトレーニングが難しいことがある。
[0008]一態様では、マルチラベル分類のためのしきい値を選択する方法が開示される。本方法は、順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートすることを含む。本方法はまた、複数のスコア値から、候補しきい値のセットに対応する適合率(precision)値および再現率(recall)値を計算することを含む。本方法はまた、ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、第1のラベルについて候補しきい値からしきい値を選択することを含む。
[0009]別の態様は、マルチラベル分類のための活性化関数のためのスケールファクタを選択する方法を開示する。本方法は、範囲内のスコアのメトリックを計算することと、スコアのメトリックが範囲内にないとき、スケールファクタを調節することとを含む。
[0010]別の態様では、ワイヤレス通信におけるマルチラベル分類のためのしきい値を選択するための装置が開示される。本装置は、順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートするための手段を含む。本装置はまた、複数のスコア値から、候補しきい値のセットに対応する適合率値および再現率値を計算するための手段を含む。本装置はまた、ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、第1のラベルについて候補しきい値からしきい値を選択するための手段を含む。
[0011]別の態様は、マルチラベル分類のための活性化関数のためのスケールファクタを選択するための装置を開示する。本装置は、範囲内のスコアのメトリックを計算するための手段と、スコアのメトリックが範囲内にないとき、スケールファクタを調節するための手段とを含む。
[0012]別の態様では、ワイヤレス通信におけるマルチラベル分類のためのしきい値を選択するための装置が開示される。本装置は、メモリと、メモリに結合された少なくとも1つのプロセッサとを有する。(1つまたは複数の)プロセッサは、順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートするように構成される。(1つまたは複数の)プロセッサはまた、複数のスコア値から、候補しきい値のセットに対応する適合率値および再現率値を計算するように構成される。(1つまたは複数の)プロセッサはまた、ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、第1のラベルについて候補しきい値からしきい値を選択するように構成される。
[0013]別の態様は、ワイヤレス通信における活性化関数のためのスケールファクタを選択するための装置を開示する。本装置は、メモリと、メモリに結合された少なくとも1つのプロセッサとを有する。(1つまたは複数の)プロセッサは、範囲内のスコアのメトリックを計算することと、スコアのメトリックが範囲内にないとき、スケールファクタを調節することとを行うように構成される。
[0014]別の態様では、マルチラベル分類のためのしきい値を選択するための非一時的コンピュータ可読媒体が開示される。本非一時的コンピュータ可読媒体は、(1つまたは複数の)プロセッサによって実行されたとき、(1つまたは複数の)プロセッサに、順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートする動作を実行させる、それに記録された非一時的プログラムコードを有する。プログラムコードはまた、(1つまたは複数の)プロセッサに、複数のスコア値から、候補しきい値のセットに対応する適合率値および再現率値を計算させる。プログラムコードはまた、(1つまたは複数の)プロセッサに、ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、第1のラベルについて候補しきい値からしきい値を選択させる。
[0015]別の態様は、活性化関数のためのスケールファクタを選択するための非一時的コンピュータ可読媒体を開示する。本非一時的コンピュータ可読媒体は、(1つまたは複数の)プロセッサによって実行されたとき、(1つまたは複数の)プロセッサに、範囲内のスコアのメトリックを計算し、スコアのメトリックが範囲内にないとき、スケールファクタを調節する動作を実行させる、それに記録された非一時的プログラムコードを有する。
[0016]ここでは、以下の発明を実施するための形態がより良く理解され得るように、本開示の特徴および技術的利点についてやや広く概説した。本開示の追加の特徴および利点が、以下で説明される。本開示は、本開示の同じ目的を実行するための他の構造を変更または設計するための基礎として容易に利用され得ることを、当業者は諒解されたい。また、そのような等価な構成が、添付の特許請求の範囲に記載の本開示の教示から逸脱しないことを、当業者は了解されたい。さらなる目的および利点とともに、本開示の編成と動作の方法の両方に関して、本開示を特徴づけると考えられる新規の特徴は、添付の図に関連して以下の説明を検討するとより良く理解されよう。ただし、図の各々は、例示および説明のみの目的で与えられたものであり、本開示の限界を定めるものではないことを明確に理解されたい。
[0017]本開示の特徴、特性、および利点は、全体を通じて同様の参照符号が同様のものを指す図面とともに、以下に記載される発明を実施するための形態を読めばより明らかになろう。
[0018]本開示のいくつかの態様による、汎用プロセッサを含むシステムオンチップ(SOC)を使用してニューラルネットワークを設計する例示的な実装形態を示す図。 [0019]本開示の態様による、システムの例示的な実装形態を示す図。 [0020]本開示の態様による、ニューラルネットワークを示す図。 [0021]本開示の態様による、例示的な深層畳み込みネットワーク(DCN)を示すブロック図。 [0022]本開示の態様による、人工知能(AI)機能をモジュール化し得る例示的なソフトウェアアーキテクチャを示すブロック図。 [0023]本開示の態様による、スマートフォン上のAIアプリケーションのランタイム動作を示すブロック図。 [0024]例示的なバイナリ分類プロセスを示すブロック図。 [0025]適合率および再現率の概念を示す図。 [0026]本開示の態様による、分類プロセスの全体的例を示す図。 [0027]本開示の態様による、分類プロセスの例示的な傾き選択関数を示すブロック図。 [0028]本開示の態様による、分類プロセスの例示的なしきい値選択関数を示すブロック図。 [0029]本開示の態様による、ラベルのためのスコアを示すグラフ。 [0030]本開示の態様による、F尺度を利用するしきい値選択を示すグラフ。 [0031]本開示の態様による、マルチラベル分類のためのしきい値を選択するための方法を示す流れ図。 [0032]本開示の態様による、活性化関数のためのスケールファクタを選択するための方法を示す流れ図。
[0033]添付の図面に関して以下に記載される発明を実施するための形態は、様々な構成を説明するものであり、本明細書で説明される概念が実施され得る構成のみを表すものではない。発明を実施するための形態は、様々な概念の完全な理解を与えるための具体的な詳細を含む。ただし、これらの概念はこれらの具体的な詳細なしに実施され得ることが当業者には明らかであろう。いくつかの事例では、そのような概念を不明瞭にしないように、よく知られている構造および構成要素がブロック図の形式で示される。
[0034]これらの教示に基づいて、本開示の範囲は、本開示の他の態様とは無関係に実装されるにせよ、本開示の他の態様と組み合わせて実装されるにせよ、本開示のいかなる態様をもカバーするものであることを、当業者なら諒解されたい。たとえば、記載された態様をいくつ使用しても、装置は実装され得るか、または方法は実施され得る。さらに、本開示の範囲は、記載された本開示の様々な態様に加えてまたはそれらの態様以外に、他の構造、機能、または構造および機能を使用して実施されるそのような装置または方法をカバーするものとする。開示される本開示のいずれの態様も、請求項の1つまたは複数の要素によって実施され得ることを理解されたい。
[0035]「例示的」という単語は、本明細書では「例、事例、または例示の働きをすること」を意味するために使用される。「例示的」として本明細書で説明されるいかなる態様も、必ずしも他の態様よりも好適または有利であると解釈されるべきであるとは限らない。
[0036]本明細書では特定の態様が説明されるが、これらの態様の多くの変形および置換は本開示の範囲内に入る。好適な態様のいくつかの利益および利点が説明されるが、本開示の範囲は特定の利益、使用、または目的に限定されるものではない。むしろ、本開示の態様は、様々な技術、システム構成、ネットワーク、およびプロトコルに広く適用可能であるものとし、それらのいくつかが、例として、図および好適な態様についての以下の説明において示される。発明を実施するための形態および図面は、本開示を限定するものではなく説明するものにすぎず、本開示の範囲は添付の特許請求の範囲およびそれの均等物によって定義される。
[0037]本開示の態様は、メディアファイルをラベリングするためのシステムおよび方法を対象とする。メディアファイルのデータベースが、各記憶されたメディアファイルを1つまたは複数のラベルに関連付け得る。さらに、関数が、メディアファイルに基づいて各ラベルについてスコアを計算する。たとえば、湖中のボートの写真の場合、関数は、ラベル「ボート」および「湖」について高いスコアを計算し得、データベース中の残りのラベル(たとえば、「車」および「納屋」)について低いスコアを計算し得る。関数はニューラルネットワークであり得、スコアはニューラルネットワークの出力層の活性化レベルであり得る。
[0038]本開示の一態様は、ラベルごとにラベリングシステムのための分類器しきい値を選択する方法を対象とする。湖中のボートの画像の例の場合、「ボート」についての計算されたスコアは0.8であり得、「湖」についての計算されたスコアは0.9であり得る。画像中にボートを実際に有する(およびそのようにラベリングされた)データベース中の画像は、0.6またはそれよりも高いスコアを確実に有することと、画像中に湖を含んでいる(およびそのようにラベリングされた)画像は、0.8またはそれよりも高いスコアを確実に有することとが別々に決定され得る。これは、関数(ニューラルネットワーク)が「湖」について0.7のスコアをそれについて計算したデータベース中の画像は、湖を含んでいる可能性がより低く、「ボート」についての0.7の計算されたスコアをもつ画像は、ボートを含んでいる可能性がより高いことを意味する。データベースに関するこの情報は、次いで、ラベルごとに分類器システムのための異なるしきい値を設定するために適用され得る。本例では、「ボート」のためのしきい値は0.6に設定され得、「湖」のためのしきい値は0.8に設定され得る。
[0039]本開示の別の態様は、ニューラルネットワークの最終層におけるスコアの計算の変更を対象とする。画像のデータベースにわたって、元の関数(ニューラルネットワーク)は、極めて狭い分布を有するものとして特徴づけられ得る所与のラベルについてスコアのセットを計算し得る。たとえば、許容範囲が−1.0から1.0の間であるとき、値のすべてが0.7から0.9の間に入り得る。これにより、上記で開示されたしきい値設定動作は、新しい画像に十分な汎化を与えないことがある。たとえば、湖の画像が0.8〜0.9の値においてスコアリングされる傾向があるが、湖を含んでいない画像が、0.75〜0.79の間の湖についての計算されたスコアを頻繁に有する場合、ラベリングシステムの性能は、0.8におけるしきい値の厳密な配置に極めて敏感になる。
[0040]さらに、関数(ニューラルネットワーク)は、画像の正規変動により、湖を含んでいる新しい画像について0.8をわずかに下回るスコアを計算することが予想され得る。同様に、湖を含んでいない新しい画像が、0.8をわずかに上回る計算されたスコアを有し得る。したがって、「湖」のためのしきい値を0.8に設定することは、多くのフォールスネガティブ(false-negative)結果およびフォールスポジティブ(false-positive)結果をもたらし得る。この敏感性を緩和するために、本開示の態様は、ニューラルネットワークの最終層のための活性化関数の変更を対象とする。この変更の結果として、所与のラベルについてのスコアの分布は、画像の分布にわたってより広い、より均一な分布を有し得る。本開示の態様は、ポジティブ例の計算されたスコアとネガティブ例の計算されたスコアとがより離れて拡散され得るので、改善された汎化を与える。
[0041]図1は、本開示のいくつかの態様による、汎用プロセッサ(CPU)またはマルチコア汎用プロセッサ(CPU)102を含み得るシステムオンチップ(SOC)100を使用する、メディアファイルの上述のラベリングの例示的な実装形態を示す。変数(たとえば、ニューラル信号およびシナプス荷重)、計算デバイスに関連するシステムパラメータ(たとえば、重みをもつニューラルネットワーク)、遅延、周波数ビン情報、およびタスク情報が、ニューラル処理ユニット(NPU)108に関連するメモリブロックに記憶されるか、CPU102に関連するメモリブロックに記憶されるか、グラフィックス処理ユニット(GPU)104に関連するメモリブロックに記憶されるか、デジタル信号プロセッサ(DSP)106に関連するメモリブロックに記憶されるか、専用メモリブロック118に記憶され得るか、または複数のブロックにわたって分散され得る。汎用プロセッサ102において実行される命令が、CPU102に関連するプログラムメモリからロードされ得るか、または専用メモリブロック118からロードされ得る。
[0042]SOC100はまた、GPU104、DSP106など、特定の機能に適合された追加の処理ブロックと、第4世代ロングタームエボリューション(4G LTE(登録商標))接続性、無認可Wi−Fi(登録商標)接続性、USB接続性、Bluetooth(登録商標)接続性などを含み得る接続性ブロック110と、たとえば、ジェスチャーを検出および認識し得るマルチメディアプロセッサ112とを含み得る。一実装形態では、NPUは、CPU、DSP、および/またはGPUにおいて実装される。SOC100はまた、センサープロセッサ114、画像信号プロセッサ(ISP)、および/または全地球測位システムを含み得るナビゲーション120を含み得る。
[0043]SOCはARM命令セットに基づき得る。本開示の一態様では、命令は、メモリに結合するである、汎用プロセッサ102など、少なくとも1つのプロセッサにロードされる。命令は、順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートするためのコードを備え得る。汎用プロセッサ102にロードされる命令はまた、スコア値のセットから、候補しきい値のセットに対応する適合率値および再現率値を計算するためのコードを備え得る。さらに、汎用プロセッサ102にロードされる命令はまた、ターゲット適合率値またはターゲット再現率値に基づいて、第1のラベルについて候補しきい値からしきい値を選択するためのコードを備え得る。
[0044]本開示の別の態様では、汎用プロセッサ102にロードされる命令は、範囲内のスコアのメトリックを計算するためのコードを備え得る。さらに、汎用プロセッサ102にロードされる命令は、スコアのメトリックが範囲内にないとき、スケールファクタを調節するためのコードを備え得る。
[0045]図2は、本開示のいくつかの態様による、システム200の例示的な実装形態を示す。図2に示されているように、システム200は、本明細書で説明される方法の様々な動作を実行し得る複数のローカル処理ユニット202を有し得る。各ローカル処理ユニット202は、ローカル状態メモリ204と、ニューラルネットワークのパラメータを記憶し得るローカルパラメータメモリ206とを備え得る。さらに、ローカル処理ユニット202は、ローカルモデルプログラムを記憶するためのローカル(ニューロン)モデルプログラム(LMP)メモリ208と、ローカル学習プログラムを記憶するためのローカル学習プログラム(LLP)メモリ210と、ローカル接続メモリ212とを有し得る。さらに、図2に示されているように、各ローカル処理ユニット202は、ローカル処理ユニットのローカルメモリのための構成を与えるための構成プロセッサユニット214、およびローカル処理ユニット202間のルーティングを与えるルーティング接続処理ユニット216とインターフェースし得る。
[0046]深層学習アーキテクチャは、各層において連続的により高い抽象レベルで入力を表現するように学習し、それにより、入力データの有用な特徴表現を蓄積することによって、オブジェクト認識タスクを実行し得る。このようにして、深層学習は、旧来の機械学習の主要なボトルネックに対処する。深層学習の出現より前に、オブジェクト認識問題に対する機械学習手法は、場合によっては浅い分類器(shallow classifier)と組み合わせて、人的に設計された特徴に大きく依拠していることがある。浅い分類器は、たとえば、入力がどのクラスに属するかを予測するために、特徴ベクトル成分の重み付き和がしきい値と比較され得る2クラス線形分類器であり得る。人的に設計された特徴は、領域の専門知識をもつ技術者によって特定の問題領域に適合されたテンプレートまたはカーネルであり得る。対照的に、深層学習アーキテクチャは、人間の技術者が設計し得るものと同様である特徴を表現するように学習するが、トレーニングを通してそれを行い得る。さらに、深層ネットワークは、人間が考慮していないことがある新しいタイプの特徴を表現し、認識するように学習し得る。
[0047]深層学習アーキテクチャは特徴の階層を学習し得る。たとえば、視覚データが提示された場合、第1の層は、エッジなど、入力ストリーム中の単純な特徴を認識するように学習し得る。聴覚データが提示された場合、第1の層は、特定の周波数におけるスペクトル電力を認識するように学習し得る。第1の層の出力を入力として取る第2の層は、視覚データの場合の単純な形状、または聴覚データの場合の音の組合せなど、特徴の組合せを認識するように学習し得る。上位層は、視覚データ中の複雑な形状、または聴覚データ中の単語を表現するように学習し得る。さらに上位の層は、共通の視覚オブジェクトまたは発話フレーズを認識するように学習し得る。
[0048]深層学習アーキテクチャは、自然階層構造を有する問題に適用されたとき、特にうまく機能し得る。たとえば、原動機付き車両の分類は、ホイール、フロントガラス、および他の特徴を認識するための第1の学習から恩恵を受け得る。これらの特徴は、車、トラック、および飛行機を認識するために、異なる方法で、上位層において組み合わせられ得る。
[0049]ニューラルネットワークは、様々な結合性パターンを用いて設計され得る。フィードフォワードネットワークでは、情報が下位層から上位層に受け渡され、所与の層における各ニューロンは、上位層におけるニューロンに通信する。上記で説明されたように、フィードフォワードネットワークの連続する層において、階層表現が蓄積され得る。ニューラルネットワークはまた、リカレントまたは(トップダウンとも呼ばれる)フィードバック結合を有し得る。リカレント結合では、所与の層におけるニューロンからの出力は、同じ層における別のニューロンに通信される。リカレントアーキテクチャは、時間的に展開するパターンを認識するのに役立ち得る。所与の層におけるニューロンから下位層におけるニューロンへの結合は、フィードバック(またはトップダウン)結合と呼ばれる。高レベルの概念の認識が、入力の特定の低レベルの特徴を弁別することを助け得るとき、多くのフィードバック結合をもつネットワークが役立ち得る。
[0050]図3Aを参照すると、ニューラルネットワークの層間の結合は全結合302または局所結合304であり得る。全結合ネットワーク302では、所与の層におけるニューロンは、次の層におけるあらゆるニューロンにそれの出力を通信し得る。代替的に、局所結合ネットワーク304では、所与の層におけるニューロンは、次の層における限られた数のニューロンに結合され得る。畳み込みネットワーク306は、局所結合であり得、さらに、所与の層における各ニューロンに関連する結合強度が共有される特殊な場合である(たとえば、308)。より一般的には、ネットワークの局所結合層は、層における各ニューロンが同じまたは同様の結合性パターンを有するように構成されるが、異なる値を有し得る結合強度で構成され得る(たとえば、310、312、314、および316)。局所結合の結合性パターンは、所与の領域中の上位層ニューロンが、ネットワークへの総入力のうちの制限された部分のプロパティにトレーニングを通して調整された入力を受信し得るので、上位層において空間的に別個の受容野を生じ得る。
[0051]局所結合ニューラルネットワークは、入力の空間ロケーションが有意味である問題に好適であり得る。たとえば、車載カメラからの視覚特徴を認識するように設計されたネットワーク300は、画像の下側部分対上側部分とのそれらの関連付けに依存して、異なるプロパティをもつ上位層ニューロンを発達させ得る。画像の下側部分に関連するニューロンは、たとえば、車線区分線を認識するように学習し得るが、画像の上側部分に関連するニューロンは、交通信号、交通標識などを認識するように学習し得る。
[0052]DCNは、教師あり学習を用いてトレーニングされ得る。トレーニング中に、DCNは、速度制限標識のクロップされた画像など、画像326を提示され得、次いで、出力328を生成するために、「フォワードパス」が計算され得る。出力328は、「標識」、「60」、および「100」など、特徴に対応する値のベクトルであり得る。ネットワーク設計者は、DCNが、出力特徴ベクトルにおけるニューロンのうちのいくつか、たとえば、トレーニングされたネットワーク300のための出力328に示されているように「標識」および「60」に対応するニューロンについて、高いスコアを出力することを希望し得る。トレーニングの前に、DCNによって生成された出力は不正確である可能性があり、したがって、実際の出力とターゲット出力との間で誤差が計算され得る。次いで、DCNの重みは、DCNの出力スコアがターゲットとより密接に整合されるように調節され得る。
[0053]重みを適切に調節するために、学習アルゴリズムは、重みのための勾配ベクトルを計算し得る。勾配は、重みがわずかに調節された場合に、誤差が増加または減少する量を示し得る。最上層において、勾配は、最後から2番目の層における活性化されたニューロンと出力層におけるニューロンとを結合する重みの値に直接対応し得る。下位層では、勾配は、重みの値と、上位層の計算された誤差勾配とに依存し得る。次いで、重みは、誤差を低減するように調節され得る。重みを調節するこの様式は、それがニューラルネットワークを通して「バックワードパス」を伴うので、「バックプロパゲーション」と呼ばれることがある。
[0054]実際には、重みの誤差勾配は、計算された勾配が真の誤差勾配を近似するように、少数の例にわたって計算され得る。この近似方法は、確率的勾配降下(stochastic gradient descent)と呼ばれることがある。システム全体の達成可能な誤差レートが減少しなくなるまで、または誤差レートがターゲットレベルに達するまで、確率的勾配降下が繰り返され得る。
[0055]学習の後に、DCNは新しい画像326を提示され得、ネットワークを通したフォワードパスは、DCNの推論または予測と見なされ得る出力328をもたらし得る。
[0056]深層信念ネットワーク(DBN:deep belief network)は、隠れノードの複数の層を備える確率モデルである。DBNは、トレーニングデータセットの階層表現を抽出するために使用され得る。DBNは、制限ボルツマンマシン(RBM:Restricted Boltzmann Machine)の層を積層することによって取得され得る。RBMは、入力のセットにわたる確率分布を学習することができる人工ニューラルネットワークのタイプである。RBMは、各入力がそれにカテゴリー分類されるべきクラスに関する情報の不在下で確率分布を学習することができるので、RBMは、教師なし学習においてしばしば使用される。ハイブリッド教師なしおよび教師ありパラダイムを使用して、DBNの下部RBMは、教師なし様式でトレーニングされ得、特徴抽出器として働き得、上部RBMは、(前の層からの入力とターゲットクラスとの同時分布上で)教師あり様式でトレーニングされ得、分類器として働き得る。
[0057]深層畳み込みネットワーク(DCN)は、追加のプーリング層および正規化層で構成された、畳み込みネットワークのネットワークである。DCNは、多くのタスクに関して最先端の性能を達成している。DCNは、入力と出力ターゲットの両方が、多くの標本について知られており、勾配降下方法の使用によってネットワークの重みを変更するために使用される、教師あり学習を使用してトレーニングされ得る。
[0058]DCNは、フィードフォワードネットワークであり得る。さらに、上記で説明されたように、DCNの第1の層におけるニューロンから次の上位層におけるニューロンのグループへの結合は、第1の層におけるニューロンにわたって共有される。DCNのフィードフォワードおよび共有結合は、高速処理のために活用され得る。DCNの計算負担は、たとえば、リカレントまたはフィードバック結合を備える同様のサイズのニューラルネットワークのそれよりもはるかに少ないことがある。
[0059]畳み込みネットワークの各層の処理は、空間的に不変のテンプレートまたは基底投射と見なされ得る。入力が、カラー画像の赤色、緑色、および青色チャネルなど、複数のチャネルに最初に分解された場合、その入力に関してトレーニングされた畳み込みネットワークは、画像の軸に沿った2つの空間次元と、色情報をキャプチャする第3の次元とをもつ、3次元であると見なされ得る。畳み込み結合の出力は、後続の層318、320、および322において特徴マップを形成すると考えられ、特徴マップ(たとえば、320)の各要素が、前の層(たとえば、318)における様々なニューロンから、および複数のチャネルの各々から入力を受信し得る。特徴マップにおける値は、正規化(rectification)、max(0,x)など、非線形性を用いてさらに処理され得る。隣接するニューロンからの値は、さらにプールされ得324、これは、ダウンサンプリングに対応し、さらなる局所不変性と次元削減とを与え得る。白色化に対応する正規化はまた、特徴マップにおけるニューロン間のラテラル抑制によって適用され得る。
[0060]深層学習アーキテクチャの性能は、より多くのラベリングされたデータポイントが利用可能となるにつれて、または計算能力が増加するにつれて、向上し得る。現代の深層ニューラルネットワークは、ほんの15年前に一般的な研究者にとって利用可能であったものより数千倍も大きいコンピューティングリソースを用いて、ルーチン的にトレーニングされる。新しいアーキテクチャおよびトレーニングパラダイムが、深層学習の性能をさらに高め得る。正規化線形ユニット(rectified linear unit)は、勾配消失(vanishing gradients)として知られるトレーニング問題を低減し得る。新しいトレーニング技法は、過学習(over-fitting)を低減し、したがって、より大きいモデルがより良い汎化を達成することを可能にし得る。カプセル化技法は、所与の受容野においてデータを抽出し、全体的性能をさらに高め得る。
[0061]図3Bは、例示的な深層畳み込みネットワーク350を示すブロック図である。深層畳み込みネットワーク350は、結合性および重み共有に基づく、複数の異なるタイプの層を含み得る。図3Bに示されているように、例示的な深層畳み込みネットワーク350は、複数の畳み込みブロック(たとえば、C1およびC2)を含む。畳み込みブロックの各々は、畳み込み層と、正規化層(LNorm)と、プーリング層とで構成され得る。畳み込み層は、1つまたは複数の畳み込みフィルタを含み得、これは、特徴マップを生成するために入力データに適用され得る。2つの畳み込みブロックのみが示されているが、本開示はそのように限定しておらず、代わりに、設計選好に従って、任意の数の畳み込みブロックが深層畳み込みネットワーク350中に含まれ得る。正規化層は、畳み込みフィルタの出力を正規化するために使用され得る。たとえば、正規化層は、白色化またはラテラル抑制を行い得る。プーリング層は、局所不変性および次元削減のために、空間にわたってダウンサンプリングアグリゲーションを行い得る。
[0062]たとえば、深層畳み込みネットワークの並列フィルタバンクは、高性能および低電力消費を達成するために、随意にARM命令セットに基づいて、SOC100のCPU102またはGPU104にロードされ得る。代替実施形態では、並列フィルタバンクは、SOC100のDSP106またはISP116にロードされ得る。さらに、DCNは、センサー114およびナビゲーション120に専用の処理ブロックなど、SOC上に存在し得る他の処理ブロックにアクセスし得る。
[0063]深層畳み込みネットワーク350はまた、1つまたは複数の全結合層(たとえば、FC1およびFC2)を含み得る。深層畳み込みネットワーク350は、ロジスティック回帰(LR)層をさらに含み得る。深層畳み込みネットワーク350の各層の間には、更新されるべき重み(図示せず)がある。各層の出力は、第1の畳み込みブロックC1において供給された入力データ(たとえば、画像、オーディオ、ビデオ、センサーデータおよび/または他の入力データ)から階層特徴表現を学習するために、深層畳み込みネットワーク350中の後続の層の入力として働き得る。
[0064]図4は、人工知能(AI)機能をモジュール化し得る例示的なソフトウェアアーキテクチャ400を示すブロック図である。アーキテクチャを使用して、SOC420の様々な処理ブロック(たとえば、CPU422、DSP424、GPU426および/またはNPU428)に、アプリケーション402のランタイム動作中に計算をサポートすることを実行させ得るアプリケーション402が設計され得る。
[0065]AIアプリケーション402は、たとえば、デバイスが現在動作するロケーションを示すシーンの検出および認識を与え得る、ユーザ空間404において定義されている機能を呼び出すように構成され得る。AIアプリケーション402は、たとえば、認識されたシーンがオフィスであるのか、講堂であるのか、レストランであるのか、湖などの屋外環境であるのかに応じて別様に、マイクロフォンおよびカメラを構成し得る。AIアプリケーション402は、現在のシーンの推定を与えるために、SceneDetectアプリケーションプログラミングインターフェース(API)406において定義されているライブラリに関連するコンパイルされたプログラムコードへの要求を行い得る。この要求は、たとえば、ビデオおよび測位データに基づくシーン推定を与えるように構成された深層ニューラルネットワークの出力に最終的に依拠し得る。
[0066]さらに、ランタイムフレームワークのコンパイルされたコードであり得るランタイムエンジン408が、AIアプリケーション402にとってアクセス可能であり得る。AIアプリケーション402は、たとえば、ランタイムエンジンに、特定の時間間隔における、またはアプリケーションのユーザインターフェースによって検出されたイベントによってトリガされた、シーン推定を要求させ得る。シーンを推定させられたとき、ランタイムエンジンは、SOC420上で実行している、Linux(登録商標)カーネル412など、オペレーティングシステム410に信号を送り得る。オペレーティングシステム410は、CPU422、DSP424、GPU426、NPU428、またはそれらの何らかの組合せ上で、計算を実行させ得る。CPU422は、オペレーティングシステムによって直接アクセスされ得、他の処理ブロックは、DSP424のための、GPU426のための、またはNPU428のためのドライバ414〜418など、ドライバを通してアクセスされ得る。例示的な例では、深層ニューラルネットワークは、CPU422およびGPU426など、処理ブロックの組合せ上で動作するように構成され得るか、または存在する場合、NPU428上で動作させられ得る。
[0067]図5は、スマートフォン502上のAIアプリケーションのランタイム動作500を示すブロック図である。AIアプリケーションは、画像506のフォーマットを変換し、次いで画像508をクロップおよび/またはリサイズするように(たとえば、JAVA(登録商標)プログラミング言語を使用して)構成され得る前処理モジュール504を含み得る。次いで、前処理された画像は、視覚入力に基づいてシーンを検出および分類するように(たとえば、Cプログラミング言語を使用して)構成され得るSceneDetectバックエンドエンジン512を含んでいる分類アプリケーション510に通信され得る。SceneDetectバックエンドエンジン512は、スケーリング516およびクロッピング518によって、画像をさらに前処理514するように構成され得る。たとえば、画像は、得られた画像が224ピクセル×224ピクセルであるように、スケーリングされ、クロップされ得る。これらの次元は、ニューラルネットワークの入力次元にマッピングし得る。ニューラルネットワークは、SOC100の様々な処理ブロックに、深層ニューラルネットワークを用いて画像ピクセルをさらに処理させるように、深層ニューラルネットワークブロック520によって構成され得る。次いで、深層ニューラルネットワークの結果は、しきい値処理522され、分類アプリケーション510中の指数平滑化ブロック524を通され得る。次いで、平滑化された結果は、スマートフォン502の設定および/またはディスプレイの変更を生じ得る。
分類のためのスケールファクタおよびしきい値選択
[0068]本開示の態様は、メディアの分類、特に、ピクチャファイルを含むメディアファイルをラベリングするためのを対象とする。態様は、バイナリおよびマルチラベル分類を対象とする。特に、例示的な例では、3つの別個のサンプル画像が、異なる色のサッカーボールを含んでいる。第1の画像は青色サッカーボールのみを含んでおり、第2の画像は緑色サッカーボールのみを含んでおり、第3の画像は赤色サッカーボールのみを含んでいる。各画像は、画像中のサッカーボールの色に基づいてラベリングされ得る。ラベルを割り当てるこのプロセスは分類と呼ばれる。別の場合には、単一の画像がいくつかの色のサッカーボールを含んでいる。同じタスクのために、画像は複数の色でラベリングされる。これはマルチラベル分類と呼ばれる。
[0069]機械学習では、分類器は、各ラベルについてのスコアと、決定関数とを与える。決定関数は、スコアがあるしきい値を上回るかどうかを検査する。シングルラベル分類器の場合、どのラベルが正しいかを決定するためにすべてのラベルのスコアが考慮される。
[0070]マルチラベル分類の場合、各ラベルは他のラベルのスコアにかかわらず正しいことがある。したがって、しきい値は、どのラベルがオブジェクトに属するかを決定するために重要である。極めて高いスコアをもつフォールスポジティブまたは極めて低いスコアをもつフォールスネガティブを出力する分類器を用いた作業は、正しいしきい値を見つける問題を困難にする。本開示の態様は、分類のためのスケールファクタおよびしきい値選択を改善することを対象とする。
[0071]図6は、バイナリ分類プロセスを示す例示的な流れ図600である。一例では、分類プロセスはトレーニングフェーズ601と予測フェーズ602とを含む。トレーニングフェーズ601では、画像が特徴抽出器610に入力される。音または画像を含む、任意のタイプのマルチメディアファイルが特徴抽出器に入力され得ることを、当業者は諒解されよう。この例示的な例では、各画像は、画像の特徴および分類を取得するために特徴抽出器610を通される。この例では、画像のバイナリ分類が取得される。バイナリ分類はポジティブ応答またはネガティブ応答であり得る。代替的に、出力は「はい」または「いいえ」ラベルであり得る。学習関数612は、トレーニングの特定の概念または要素のための特徴を学習する。
[0072]次に、予測フェーズ602では、画像は特徴抽出器620を通される。特徴は分類器622に供給され、学習関数612によって利用される学習モデルに基づいて、分類器622はスコアを出力する。決定関数624はスコアを受信する。一態様では、決定関数624は、スコアが0よりも大きいのか小さいのかを決定する。スコアが0よりも大きく、しきい値が0(またはしきい値なし)であるとき、出力は「はい」である。他の場合、出力は「いいえ」である。決定関数は、バイナリ分類器によって利用されるグローバルしきい値(たとえば、0)に基づき得る。
[0073]適合率および再現率など、追加の基準が、分類器の性能を決定する際に利用され得る。適合率は、ポジティブクラスに属するとラベリングされた要素の総数(たとえば、トゥルーポジティブ(true positive)と、クラスに属すると間違ってラベリングされたアイテムであるフォールスポジティブとの和)で除算されたトゥルーポジティブの数(たとえば、ポジティブクラスに属すると正しくラベリングされたアイテムの数)である。再現率は、ポジティブクラスに実際に属する要素の総数(たとえば、トゥルーポジティブと、ポジティブクラスに属するとラベリングされなかったが、そうされるべきであったアイテムであるフォールスネガティブとの和)で除算されたトゥルーポジティブの数である。図7は、適合率と再現率と(適合率および再現率に基づく)F尺度式との概念を示す。
[0074]以下は、メディア分類の例示的な例である。機械が、サンプル画像中のサッカーボールをラベリングするタスクを実行するように構成される。特に、機械は、入力として画像を受け、画像についてラベル(たとえば、色)のリストを出力する分類器を利用する。この例では、機械は、青色ボールをもつ3つの画像と、緑色ボールをもつ3つの画像と、赤色ボールをもつ4つの画像とを与えられる。分類器は、赤色ボールを有した画像のうちの2つのみにラベル「赤」を出力し、緑のボールを有した画像にラベル「赤」を誤って出力する。適合率は、「赤」とラベリングされた画像の総数で除算された「赤」と正しくラベリングされた画像の数である。この例では、ラベル「赤」についての適合率は2/3である。再現率は、ラベル「赤」であるべきであった画像の総数で除算された赤と正しくラベリングされた画像の数である。前の例では、再現率は2/4=1/2である。
[0075]最適なしきい値は、適合率および再現率が両方とも1である、1である。これは、フォールスポジティブおよびフォールスネガティブが精度に影響を及ぼすので、めったに起こらない。適合率および再現率は、あるラベルに割り当てられたオブジェクトの数が、そのラベルに割り当てられるべきであるオブジェクトの数に等しいときに等しくなる。前の例では、4つの画像を「赤」とラベリングすることが、適合率と再現率とを等しくすることになる。5つ以上の画像をラベリングすることは、間違った画像を赤とラベリングする可能性が高くなるので、適合率を減少させる可能性が極めて高いことになる。4つ未満の画像をラベリングすることは、正しくラベリングされた画像が除外される場合、分子を減少させることになるので、再現率を減少させる可能性がある。したがって、適合率と再現率との間の折衷がある。言い換えれば、より高い適合率は、再現率を犠牲にして取得され、その逆も同様である。
[0076]図8Aは、本開示の態様による、分類プロセス800の全体的例を示すブロック図である。分類プロセスはトレーニングフェーズ801と予測フェーズ802とを含む。トレーニングフェーズ801では、特徴抽出器810が、各画像および/またはメディアファイルを受信し、受信された画像の特徴およびバイナリ分類を出力する。学習関数812が、トレーニングの特定の概念または要素のための特定の特徴を学習する。
[0077]予測フェーズ802では、特徴抽出器820が、各画像を受信し、分類器822に画像の特徴を出力する。受信された特徴およびトレーニングモデルに基づいて、分類器822は活性化関数824に未加工スコアを出力する。活性化関数824は、ある範囲内に入るようにスコアを正規化し、たとえば、範囲は、0から1の間であるか、または1から−1の間の範囲中にあり得る。さらに、傾き選択関数830が、活性化関数824による使用のためのスケーリングファクタ(たとえば、傾き)を決定する。様々なパラメータは、以下で説明される活性化関数824によって使用されるファクタに影響を及ぼすように変更され得る。活性化関数824は、ロジスティック関数、tan−h関数または線形正規化関数であり得る。
[0078]活性化関数824による正規化されたスコア出力は、決定関数826によって受信される。しきい値選択関数840が、決定関数826による使用のためのしきい値を決定する。いくつかの態様では、しきい値選択関数840は、0以外のしきい値を決定する。しきい値選択関数840は以下でより詳細に説明される。
[0079]図8Bは、傾き選択関数830の一例を示す。傾き選択関数830は、特定の概念/ラベルについて未加工スコアのリストを作成するために、画像データセットを使用する。スコアの望ましい分布を取得するために、傾き選択関数830はスケールファクタ(たとえば、傾き)を決定する。特に、画像のデータベースからの未加工スコア832が供給される。活性化関数833が未加工スコア832に適用される。次いで、スコアはブロック835においてソートされる。一例では、ソートされたスコアはまた、グラフで示される。特定の範囲内にあるスコアの割合が、ブロック837において計算される。さらに、ターゲット割合も確立される。ターゲット割合は、値のある範囲内にある画像のパーセントを示す。ターゲット割合が満たされると、スケールファクタ838は範囲内の画像の数をもたらした量に設定される。たとえば、ターゲット割合が90%である場合、画像の90%が特定の範囲内にあると、スケールファクタ838は、その範囲中の画像のその量を与えた値に設定される。
[0080]さらに、ターゲット割合が満たされないとき、スケールファクタは調節される。たとえば、スケールファクタは、ブロック839においてアルファの値だけ増分的に調節され得る。調節されたスケールファクタ836は、ブロック833において活性化関数によって適用され、プロセスは繰り返される。スケールファクタは、ターゲット割合が達成されるまで、繰り返し増分的に調節される。別の態様では、傾き選択関数830は、ターゲット割合の代わりにターゲット傾きを利用する。たとえば、特定の傾きは「a」から「b」の間の範囲をターゲットにされ得る。随意に、別の態様では、スケールファクタを増分するのではなく、最小スケールファクタおよび最大スケールファクタを定義することによって、代替の探索関数が利用され得る。特に、たとえば、スケールファクタは、新しいスケールファクタを決定するために、最小スケールファクタと最大スケールファクタとの間の差を2で除算することによって調節され得る。別の随意の態様では、範囲端点(range end point)のみが、異なるスケーリングファクタを通して反復するときに使用される。さらに、別の態様では、スケールファクタは、範囲端点における活性化関数の逆を使用することによって近似され得る。
[0081]しきい値選択関数840は、図8Cに示されているように、しきい値を調節するために利用され得る。0以外の値にしきい値を調節することによって、改善された精度が観測され得る。さらに、しきい値を調節することによって、適合率と再現率との間のトレードオフが実現され得る。たとえば、しきい値は、再現率を犠牲にして所望の適合率を取得するように調整され得、その逆も同様である。さらに、しきい値を調節することは、(画像中の当該の特定のオブジェクトの周囲のオブジェクトを反映する)周囲値を除外する。たとえば、画像が、青空を背景に草原上の木および椅子を含んでいる場合、分類器は、木、草および空を一般的な周囲とみなすようにトレーニングされ得る。しきい値を調節することは、木および草に関連する周囲値を除外し、したがって、椅子に関連する値を考慮に入れる。
[0082]一態様では、しきい値は、各ラベルについてのスコアをソートすることと、ソートの後に適合率および再現率を計算することと、次いで、しきい値を選択するために計算を実行することとによって決定され得る。図8Cは、しきい値を決定するしきい値選択関数840の一例を示す。最初に、特定のラベルについて、すべての入力についての正規化されたスコアが取得される。ソート関数842は、正規化されたスコアをソートし、順序付きリストを随意に作成し得る。たとえば、スコアは降順でソートされ得る。スコアのソートされたリストを使用して、計算関数844は、各スコアをしきい値にすることによって適合率および再現率を計算する。言い換えれば、適合率値および再現率値は、候補しきい値の対応するセットの各々について計算される。次いで、候補しきい値からしきい値が選択され得る。選択は、ターゲット適合率値および/またはターゲット再現率値に少なくとも部分的に基づき得る。
[0083]代替的に、あらゆるスコアを使用するのではなく、連続するスコアの平均が、設定されたしきい値として使用され得る。適合率および再現率を計算した後に、適合率および再現率に基づいてしきい値が選択関数846によって選択される。選択関数は、しきい値と、関連する適合率値および/または再現率値との組合せを分析する。
[0084]さらに、別の態様では、しきい値は、最大Fスコアに対応する値に基づき得る。これは、たとえば、適合率値がターゲット適合率を上回る値がないとき、再現率値がターゲット再現率値を上回るとき、あるいは適合率値ターゲットが満たされるときに適合率または再現率が低すぎるとき、起こり得る。さらに、しきい値は、適合率または再現率のほうへ傾くベータ値を使用するFスコアに基づいて選択され得る。
[0085]図9は、特定のラベル(たとえば、「空」)についてのスコアを示すグラフ900である。分類器は、画像中の異なる概念を学習するようにトレーニングされ得る。数千個の画像が分類器を通過し、「空」についてのソートおよび正規化されたスコアがライン901において示されている。各スコアは−1.0から1.0の間の可能な値を有する。次いで、適合率および再現率は、それぞれ、ライン902および903において計算およびプロットされる。適合率ライン902および再現率ライン903は、グラフの右側の0.0〜1.0の異なるスケール上にある。ライン904はしきい値ラインである。ライン904は、選択されたしきい値を示し、選択されたしきい値は、破線が、ソートされたスコアライン901と交差するところの分類器スコアである。ライン901に沿った各スコアは候補しきい値として選択され得、垂直しきい値ライン(たとえば、904)は、その候補しきい値について適合率および再現率を決定するために分析される。
[0086]限定はしないが、ターゲット適合率および最大F尺度など、しきい値を選択するために、様々な方法が使用され得る。たとえば、ターゲット適合率では、ターゲット適合率をわずかに上回る適合率をもつスコアが選択される。たとえば、しきい値は、90%の適合率をターゲットにすることによって選択され得る。
[0087]いくつかのシナリオでは、しきい値はターゲット割合を満たさないことがあり、フォールバック方法が利用される。たとえば、図8CのF尺度関数848は、F尺度式を利用し、最大Fスコアに対応する値に基づいてしきい値を選択し得る。F尺度式は以下の通りである。
Figure 2018528521
ここで、iは画像カウントである。argrnax(Fβ)は、スコアのリストへのインデックスを決定するために計算される。このロケーションにあるスコアがしきい値である。ベータ(β)パラメータは、再現率または適合率のほうへ傾く方法を与える。ベータが1よりも大きいとき(β>1)、再現率により多くの重きが置かれる。F尺度を調節することは、適合率および/または再現率に関するフィードバックを与える。さらに、F尺度式中のベータ値は、適合率値または再現率値に影響を及ぼすように操作され得る。図10は、F尺度を使用するしきい値選択を示すグラフ1000である。ライン1005、1006および1007は、F尺度のための異なるベータ値を使用することの結果である。
[0088]随意に、代替態様では、しきい値ではなくバイアス値が利用される。特に、しきい値を使用する代わりに、しきい値は、バイアスを追加することによって、またはしきい値に基づいてスコアを正規化することによってスコア中に埋め込まれ得る。さらに、随意の態様では、実際のスコアを使用するのではなく、概念ごとのスコアが符号化され得、したがって、スコアは各概念のスコアを表さない。
[0089]一構成では、モデルが、順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートするために構成される。モデルはまた、スコア値のセット(たとえば、複数のスコア値)から、候補しきい値のセットに対応する適合率値および再現率値を計算するために構成される。さらに、モデルは、ターゲット適合率またはターゲット再現率に基づいて、第1のラベルについて候補しきい値からしきい値を選択するために構成される。モデルは、ソートするための手段、計算するための手段、および/または選択するための手段を含む。一態様では、ソート手段、計算手段、および/または選択手段は、具陳された機能を実行するように構成された、汎用プロセッサ102、汎用プロセッサ102に関連するプログラムメモリ、メモリブロック118、ローカル処理ユニット202、およびまたはルーティング接続処理ユニット216であり得る。別の構成では、上述の手段は、上述の手段によって具陳された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。
[0090]別の構成では、モデルが、順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートするために構成される。モデルはまた、範囲内のスコアのメトリックを計算するために、およびスコアのメトリックが範囲内にないとき、スケールファクタを調節するために構成される。モデルは、メトリックを計算するための手段および/または調整するための手段を含む。一態様では、メトリック計算手段および/または調節手段は、具陳された機能を実行するように構成された、汎用プロセッサ102、汎用プロセッサ102に関連するプログラムメモリ、メモリブロック118、ローカル処理ユニット202、およびまたはルーティング接続処理ユニット216であり得る。別の構成では、上述の手段は、上述の手段によって具陳された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。
[0091]さらに、モデルはまた、スケールファクタを増分するための手段、および/または除算するための手段を含み得る。一態様では、増分手段および除算手段は、具陳された機能を実行するように構成された、汎用プロセッサ102、汎用プロセッサ102に関連するプログラムメモリ、メモリブロック118、ローカル処理ユニット202、およびまたはルーティング接続処理ユニット216であり得る。別の構成では、上述の手段は、上述の手段によって具陳された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。
[0092]本開示のいくつかの態様によれば、各ローカル処理ユニット202は、ネットワークの所望の1つまたは複数の機能的特徴に基づいてネットワークのパラメータを決定し、決定されたパラメータがさらに適合、調整および更新されるように、1つまたは複数の機能的特徴を所望の機能的特徴のほうへ発達させるように構成され得る。
[0093]図11は、マルチラベル分類のためのしきい値を選択するための方法1100を示す。ブロック1102において、プロセスは、順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートする。ブロック1104において、プロセスは、スコア値のセットから、候補しきい値のセットに対応する適合率値および再現率値を計算する。さらに、ブロック1106において、プロセスは、ターゲット適合率またはターゲット再現率に基づいて、第1のラベルについて候補しきい値からしきい値を選択する。
[0094]図12は、活性化関数のためのスケールファクタを選択するための方法1200を示す。ブロック1202において、プロセスは範囲内のスコアのメトリックを計算する。ブロック1204において、プロセスは、スコアのメトリックが範囲内にないとき、スケールファクタを調節する。
[0095]上記で説明された方法の様々な動作は、対応する機能を実行することが可能な任意の好適な手段によって実行され得る。それらの手段は、限定はしないが、回路、特定用途向け集積回路(ASIC)、またはプロセッサを含む、様々な(1つまたは複数の)ハードウェアおよび/またはソフトウェア構成要素および/またはモジュールを含み得る。概して、図に示されている動作がある場合、それらの動作は、同様の番号をもつ対応するカウンターパートのミーンズプラスファンクション構成要素を有し得る。
[0096]本明細書で使用される「決定すること」という用語は、多種多様なアクションを包含する。たとえば、「決定すること」は、計算すること(calculating)、計算すること(computing)、処理すること、導出すること、調査すること、ルックアップすること(たとえば、テーブル、データベースまたは別のデータ構造においてルックアップすること)、確認することなどを含み得る。さらに、「決定すること」は、受信すること(たとえば、情報を受信すること)、アクセスすること(たとえば、メモリ中のデータにアクセスすること)などを含み得る。さらに、「決定すること」は、解決すること、選択すること、選定すること、確立することなどを含み得る。
[0097]本明細書で使用される、項目のリスト「のうちの少なくとも1つ」を指す句は、単一のメンバーを含む、それらの項目の任意の組合せを指す。一例として、「a、b、またはcのうちの少なくとも1つ」は、a、b、c、a−b、a−c、b−c、およびa−b−cを包含するものとする。
[0098]本開示に関連して説明された様々な例示的な論理ブロック、モジュールおよび回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ信号(FPGA)または他のプログラマブル論理デバイス(PLD)、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明された機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の市販のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。
[0099]本開示に関連して説明された方法またはアルゴリズムのステップは、ハードウェアで直接実施されるか、プロセッサによって実行されるソフトウェアモジュールで実施されるか、またはその2つの組合せで実施され得る。ソフトウェアモジュールは、当技術分野で知られている任意の形態の記憶媒体中に常駐し得る。使用され得る記憶媒体のいくつかの例としては、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、フラッシュメモリ、消去可能プログラマブル読取り専用メモリ(EPROM)、電気消去可能プログラマブル読取り専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、CD−ROMなどがある。ソフトウェアモジュールは、単一の命令、または多数の命令を備え得、いくつかの異なるコードセグメント上で、異なるプログラム間で、および複数の記憶媒体にわたって分散され得る。記憶媒体は、プロセッサがその記憶媒体から情報を読み取ることができ、その記憶媒体に情報を書き込むことができるように、プロセッサに結合され得る。代替として、記憶媒体はプロセッサと一体であり得る。
[00100]本明細書で開示された方法は、説明された方法を達成するための1つまたは複数のステップまたはアクションを備える。本方法のステップおよび/またはアクションは、特許請求の範囲から逸脱することなく、互いに交換され得る。言い換えれば、ステップまたはアクションの特定の順序が指定されない限り、特定のステップおよび/またはアクションの順序および/または使用は特許請求の範囲から逸脱することなく変更され得る。
[00101]説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ハードウェアで実装される場合、例示的なハードウェア構成はデバイス中に処理システムを備え得る。処理システムは、バスアーキテクチャを用いて実装され得る。バスは、処理システムの特定の適用例および全体的な設計制約に応じて、任意の数の相互接続バスおよびブリッジを含み得る。バスは、プロセッサと、機械可読媒体と、バスインターフェースとを含む様々な回路を互いにリンクし得る。バスインターフェースは、ネットワークアダプタを、特に、バスを介して処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能を実装するために使用され得る。いくつかの態様では、ユーザインターフェース(たとえば、キーパッド、ディスプレイ、マウス、ジョイスティックなど)もバスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧調整器、電力管理回路など、様々な他の回路をリンクし得るが、それらは当技術分野でよく知られており、したがってこれ以上説明されない。
[00102]プロセッサは、機械可読媒体に記憶されたソフトウェアの実行を含む、バスおよび一般的な処理を管理することを担当し得る。プロセッサは、1つまたは複数の汎用および/または専用プロセッサを用いて実装され得る。例としては、マイクロプロセッサ、マイクロコントローラ、DSPプロセッサ、およびソフトウェアを実行することができる他の回路がある。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語などの名称にかかわらず、命令、データ、またはそれらの任意の組合せを意味すると広く解釈されたい。機械可読媒体は、例として、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気消去可能プログラマブル読取り専用メモリ(EEPROM)、レジスタ、磁気ディスク、光ディスク、ハードドライブ、または他の好適な記憶媒体、あるいはそれらの任意の組合せを含み得る。機械可読媒体はコンピュータプログラム製品において実施され得る。コンピュータプログラム製品はパッケージング材料を備え得る。
[00103]ハードウェア実装形態では、機械可読媒体は、プロセッサとは別個の処理システムの一部であり得る。しかしながら、当業者なら容易に理解するように、機械可読媒体またはその任意の部分は処理システムの外部にあり得る。例として、機械可読媒体は、すべてバスインターフェースを介してプロセッサによってアクセスされ得る、伝送線路、データによって変調された搬送波、および/またはデバイスとは別個のコンピュータ製品を含み得る。代替的に、または追加として、機械可読媒体またはその任意の部分は、キャッシュおよび/または汎用レジスタファイルがそうであり得るように、プロセッサに統合され得る。局所構成要素など、説明された様々な構成要素は、特定のロケーションを有するものとして説明され得るが、それらはまた、分散コンピューティングシステムの一部として構成されているいくつかの構成要素など、様々な方法で構成され得る。
[00104]処理システムは、すべて外部バスアーキテクチャを介して他のサポート回路と互いにリンクされる、プロセッサ機能を提供する1つまたは複数のマイクロプロセッサと、機械可読媒体の少なくとも一部を提供する外部メモリとをもつ汎用処理システムとして構成され得る。代替的に、処理システムは、本明細書で説明されたニューロンモデルとニューラルシステムのモデルとを実装するための1つまたは複数の神経形態学的プロセッサを備え得る。別の代替として、処理システムは、プロセッサをもつ特定用途向け集積回路(ASIC)と、バスインターフェースと、ユーザインターフェースと、サポート回路と、単一のチップに統合された機械可読媒体の少なくとも一部分とを用いて、あるいは1つまたは複数のフィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理デバイス(PLD)、コントローラ、状態機械、ゲート論理、個別ハードウェア構成要素、もしくは他の好適な回路、または本開示全体にわたって説明された様々な機能を実行することができる回路の任意の組合せを用いて、実装され得る。当業者は、特定の適用例と、全体的なシステムに課される全体的な設計制約とに応じて、どのようにしたら処理システムについて説明された機能を最も良く実装し得るかを理解されよう。
[00105]機械可読媒体はいくつかのソフトウェアモジュールを備え得る。ソフトウェアモジュールは、プロセッサによって実行されたときに、処理システムに様々な機能を実行させる命令を含む。ソフトウェアモジュールは、送信モジュールと受信モジュールとを含み得る。各ソフトウェアモジュールは、単一の記憶デバイス中に常駐するか、または複数の記憶デバイスにわたって分散され得る。例として、トリガイベントが発生したとき、ソフトウェアモジュールがハードドライブからRAMにロードされ得る。ソフトウェアモジュールの実行中、プロセッサは、アクセス速度を高めるために、命令のいくつかをキャッシュにロードし得る。次いで、1つまたは複数のキャッシュラインが、プロセッサによる実行のために汎用レジスタファイルにロードされ得る。以下でソフトウェアモジュールの機能に言及する場合、そのような機能は、そのソフトウェアモジュールからの命令を実行したときにプロセッサによって実装されることが理解されよう。さらに、本開示の態様が、そのような態様を実装するプロセッサ、コンピュータ、機械、または他のシステムの機能に改善を生じることを諒解されたい。
[00106]ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとして、非一時的コンピュータ可読媒体上に記憶されるか、または非一時的コンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、コンピュータ記憶媒体と通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。さらに、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線(IR)、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用されるディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)、およびBlu−ray(登録商標)ディスク(disc)を含み、ここで、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。したがって、いくつかの態様では、コンピュータ可読媒体は非一時的コンピュータ可読媒体(たとえば、有形媒体)を備え得る。さらに、他の態様では、コンピュータ可読媒体は一時的コンピュータ可読媒体(たとえば、信号)を備え得る。上記の組合せもコンピュータ可読媒体の範囲に含まれるべきである。
[00107]したがって、いくつかの態様は、本明細書で提示された動作を実行するためのコンピュータプログラム製品を備え得る。たとえば、そのようなコンピュータプログラム製品は、本明細書で説明された動作を実行するために1つまたは複数のプロセッサによって実行可能である命令をその上に記憶した(および/または符号化した)コンピュータ可読媒体を備え得る。いくつかの態様では、コンピュータプログラム製品はパッケージング材料を含み得る。
[00108]さらに、本明細書で説明された方法および技法を実行するためのモジュールおよび/または他の適切な手段は、適用可能な場合にユーザ端末および/または基地局によってダウンロードされ、および/または他の方法で取得され得ることを諒解されたい。たとえば、そのようなデバイスは、本明細書で説明された方法を実行するための手段の転送を可能にするためにサーバに結合され得る。代替的に、本明細書で説明された様々な方法は、ユーザ端末および/または基地局が記憶手段(たとえば、RAM、ROM、コンパクトディスク(CD)またはフロッピーディスクなどの物理記憶媒体など)をデバイスに結合するかまたは与えると様々な方法を得ることができるように、記憶手段によって提供され得る。その上、本明細書で説明された方法および技法をデバイスに提供するための任意の他の好適な技法が利用され得る。
[00109]特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。
[00109]特許請求の範囲は、上記で示された厳密な構成および構成要素に限定されないことを理解されたい。上記で説明された方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
マルチラベル分類のためのしきい値を選択する方法であって、
順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートすることと、
複数のスコア値から、候補しきい値のセットに対応する適合率値および再現率値を計算することと、
ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、前記第1のラベルについて前記候補しきい値からしきい値を選択することとを備える、方法。
[C2]
前記しきい値は、
適合率値が前記ターゲット適合率値を上回る値がない、または前記再現率値が前記ターゲット再現率値を上回る値がない、あるいは
前記ターゲット再現率値が満たされるときに前記適合率値が低すぎる、または前記ターゲット適合率値が満たされるときに前記再現率値が低すぎる、のいずれかのとき、最大Fスコアに対応する値に少なくとも部分的に基づく、C1に記載の方法。
[C3]
前記選択することが、適合率または再現率のほうへ傾くベータ値を使用するFスコアに少なくとも部分的に基づく、C2に記載の方法。
[C4]
マルチラベル分類のための活性化関数のためのスケールファクタを選択する方法であって、
範囲内のスコアのメトリックを計算することと、
スコアの前記メトリックが前記範囲内にないとき、前記スケールファクタを調節することとを備える、方法。
[C5]
前記活性化関数が、ロジスティック関数、tan−h関数、または線形正規化関数を備える、C4に記載の方法。
[C6]
スコアの前記メトリックが割合を備える、C4に記載の方法。
[C7]
スコアの前記メトリックが傾きを備える、C4に記載の方法。
[C8]
前記スケールファクタを調節することが、
値だけ前記スケールファクタを増分することと、
最小スケールファクタと最大スケールファクタとの間の差を2で除算することとのうちの1つを備える、C4に記載の方法。
[C9]
ワイヤレス通信におけるマルチラベル分類のためのしきい値を選択するための装置であって、
メモリと、
前記メモリに結合された少なくとも1つのプロセッサとを備え、前記少なくとも1つのプロセッサが、
順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートすることと、
複数のスコア値から、候補しきい値のセットに対応する適合率値および再現率値を計算することと、
ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、前記第1のラベルについて前記候補しきい値からしきい値を選択することと
を行うように構成された、装置。
[C10]
前記しきい値は、
適合率値が前記ターゲット適合率値を上回る値がない、または前記再現率値が前記ターゲット再現率値を上回る値がない、あるいは
前記ターゲット再現率値が満たされるときに前記適合率値が低すぎる、または前記ターゲット適合率値が満たされるときに前記再現率値が低すぎる、のいずれかのとき、最大Fスコアに対応する値に少なくとも部分的に基づく、C9に記載の装置。
[C11]
前記少なくとも1つのプロセッサが、適合率または再現率のほうへ傾くベータ値を使用するFスコアに少なくとも部分的に基づいて選択するように構成された、C10に記載の装置。
[C12]
ワイヤレス通信における活性化関数のためのスケールファクタを選択するための装置であって、
メモリと、
前記メモリに結合された少なくとも1つのプロセッサとを備え、前記少なくとも1つのプロセッサは、
範囲内のスコアのメトリックを計算することと、
スコアの前記メトリックが前記範囲内にないとき、前記スケールファクタを調節することと
を行うように構成された、装置。
[C13]
前記活性化関数が、ロジスティック関数、tan−h関数、または線形正規化関数を備える、C12に記載の装置。
[C14]
スコアの前記メトリックが割合を備える、C12に記載の装置。
[C15]
スコアの前記メトリックが傾きを備える、C12に記載の装置。
[C16]
前記少なくとも1つのプロセッサが、
値だけ前記スケールファクタを増分することと、
最小スケールファクタと最大スケールファクタとの間の差を2で除算することとのうちの少なくとも1つによって前記スケールファクタを調節するように構成された、C12に記載の装置。
[C17]
マルチラベル分類のためのしきい値を選択するための非一時的コンピュータ可読媒体であって、前記非一時的コンピュータ可読媒体がそれに記録された非一時的プログラムコードを有し、前記プログラムコードが、
順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートするためのプログラムコードと、
複数のスコア値から、候補しきい値のセットに対応する適合率値および再現率値を計算するためのプログラムコードと、
ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、前記第1のラベルについて前記候補しきい値からしきい値を選択するためのプログラムコードとを備える、非一時的コンピュータ可読媒体。
[C18]
前記しきい値は、適合率値が前記ターゲット適合率値を上回る値がない、または前記再現率値が前記ターゲット再現率値を上回る値がない、あるいは前記ターゲット再現率値が満たされるときに前記適合率値が低すぎる、または前記ターゲット適合率値が満たされるときに前記再現率値が低すぎる、のいずれかのとき、最大Fスコアに対応する値に少なくとも部分的に基づく、C17に記載の非一時的コンピュータ可読媒体。
[C19]
前記プログラムコードが、適合率または再現率のほうへ傾くベータ値を使用するFスコアに少なくとも部分的に基づいて選択するように構成された、C18に記載の非一時的コンピュータ可読媒体。
[C20]
活性化関数のためのスケールファクタを選択するための非一時的コンピュータ可読媒体であって、前記非一時的コンピュータ可読媒体がそれに記録された非一時的プログラムコードを有し、前記プログラムコードは、
範囲内のスコアのメトリックを計算するためのプログラムコードと、
スコアの前記メトリックが前記範囲内にないとき、前記スケールファクタを調節するためのプログラムコードとを備える、非一時的コンピュータ可読媒体。
[C21]
前記活性化関数が、ロジスティック関数、tan−h関数、または線形正規化関数を備える、C20に記載の非一時的コンピュータ可読媒体。
[C22]
スコアの前記メトリックが割合を備える、C20に記載の非一時的コンピュータ可読媒体。
[C23]
スコアの前記メトリックが傾きを備える、C20に記載の非一時的コンピュータ可読媒体。
[C24]
前記プログラムコードが、
値だけ前記スケールファクタを増分することと、
最小スケールファクタと最大スケールファクタとの間の差を2で除算することとのうちの少なくとも1つによって前記スケールファクタを調節するように構成された、C20に記載の非一時的コンピュータ可読媒体。
[C25]
ワイヤレス通信におけるマルチラベル分類のためのしきい値を選択するための装置であって、
順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートするための手段と、
複数のスコア値から、候補しきい値のセットに対応する適合率値および再現率値を計算するための手段と、
ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、前記第1のラベルについて前記候補しきい値からしきい値を選択するための手段とを備える、装置。
[C26]
前記しきい値は、適合率値が前記ターゲット適合率値を上回る値がない、または前記再現率値が前記ターゲット再現率値を上回る値がない、あるいは前記ターゲット再現率値が満たされるときに前記適合率値が低すぎる、または前記ターゲット適合率値が満たされるときに前記再現率値が低すぎる、のいずれかのとき、最大Fスコアに対応する値に少なくとも部分的に基づく、C25に記載の装置。
[C27]
選択するための前記手段が、適合率または再現率のほうへ傾くベータ値を使用するFスコアに少なくとも部分的に基づく、C26に記載の装置。
[C28]
ワイヤレス通信におけるマルチラベル分類のための活性化関数のためのスケールファクタを選択する装置であって、
範囲内のスコアのメトリックを計算するための手段と、
スコアの前記メトリックが前記範囲内にないとき、前記スケールファクタを調節するための手段とを備える、装置。
[C29]
前記活性化関数が、ロジスティック関数、tan−h関数、または線形正規化関数を備える、C28に記載の装置。
[C30]
スコアの前記メトリックが割合を備える、C28に記載の装置。
[C31]
スコアの前記メトリックが傾きを備える、C28に記載の装置。
[C32]
前記スケールファクタを調節するための前記手段が、
値だけ前記スケールファクタを増分するための手段と、
最小スケールファクタと最大スケールファクタとの間の差を2で除算するための手段とのうちの1つを備える、C28に記載の装置。

Claims (32)

  1. マルチラベル分類のためのしきい値を選択する方法であって、
    順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートすることと、
    複数のスコア値から、候補しきい値のセットに対応する適合率値および再現率値を計算することと、
    ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、前記第1のラベルについて前記候補しきい値からしきい値を選択することと
    を備える、方法。
  2. 前記しきい値は、
    適合率値が前記ターゲット適合率値を上回る値がない、または前記再現率値が前記ターゲット再現率値を上回る値がない、あるいは
    前記ターゲット再現率値が満たされるときに前記適合率値が低すぎる、または前記ターゲット適合率値が満たされるときに前記再現率値が低すぎる、
    のいずれかのとき、最大Fスコアに対応する値に少なくとも部分的に基づく、請求項1に記載の方法。
  3. 前記選択することが、適合率または再現率のほうへ傾くベータ値を使用するFスコアに少なくとも部分的に基づく、請求項2に記載の方法。
  4. マルチラベル分類のための活性化関数のためのスケールファクタを選択する方法であって、
    範囲内のスコアのメトリックを計算することと、
    スコアの前記メトリックが前記範囲内にないとき、前記スケールファクタを調節することと
    を備える、方法。
  5. 前記活性化関数が、ロジスティック関数、tan−h関数、または線形正規化関数を備える、請求項4に記載の方法。
  6. スコアの前記メトリックが割合を備える、請求項4に記載の方法。
  7. スコアの前記メトリックが傾きを備える、請求項4に記載の方法。
  8. 前記スケールファクタを調節することが、
    値だけ前記スケールファクタを増分することと、
    最小スケールファクタと最大スケールファクタとの間の差を2で除算することと
    のうちの1つを備える、請求項4に記載の方法。
  9. ワイヤレス通信におけるマルチラベル分類のためのしきい値を選択するための装置であって、
    メモリと、
    前記メモリに結合された少なくとも1つのプロセッサと
    を備え、前記少なくとも1つのプロセッサが、
    順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートすることと、
    複数のスコア値から、候補しきい値のセットに対応する適合率値および再現率値を計算することと、
    ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、前記第1のラベルについて前記候補しきい値からしきい値を選択することと
    を行うように構成された、
    装置。
  10. 前記しきい値は、
    適合率値が前記ターゲット適合率値を上回る値がない、または前記再現率値が前記ターゲット再現率値を上回る値がない、あるいは
    前記ターゲット再現率値が満たされるときに前記適合率値が低すぎる、または前記ターゲット適合率値が満たされるときに前記再現率値が低すぎる、
    のいずれかのとき、最大Fスコアに対応する値に少なくとも部分的に基づく、請求項9に記載の装置。
  11. 前記少なくとも1つのプロセッサが、適合率または再現率のほうへ傾くベータ値を使用するFスコアに少なくとも部分的に基づいて選択するように構成された、請求項10に記載の装置。
  12. ワイヤレス通信における活性化関数のためのスケールファクタを選択するための装置であって、
    メモリと、
    前記メモリに結合された少なくとも1つのプロセッサと
    を備え、前記少なくとも1つのプロセッサは、
    範囲内のスコアのメトリックを計算することと、
    スコアの前記メトリックが前記範囲内にないとき、前記スケールファクタを調節することと
    を行うように構成された、
    装置。
  13. 前記活性化関数が、ロジスティック関数、tan−h関数、または線形正規化関数を備える、請求項12に記載の装置。
  14. スコアの前記メトリックが割合を備える、請求項12に記載の装置。
  15. スコアの前記メトリックが傾きを備える、請求項12に記載の装置。
  16. 前記少なくとも1つのプロセッサが、
    値だけ前記スケールファクタを増分することと、
    最小スケールファクタと最大スケールファクタとの間の差を2で除算することと
    のうちの少なくとも1つによって前記スケールファクタを調節するように構成された、請求項12に記載の装置。
  17. マルチラベル分類のためのしきい値を選択するための非一時的コンピュータ可読媒体であって、前記非一時的コンピュータ可読媒体がそれに記録された非一時的プログラムコードを有し、前記プログラムコードが、
    順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートするためのプログラムコードと、
    複数のスコア値から、候補しきい値のセットに対応する適合率値および再現率値を計算するためのプログラムコードと、
    ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、前記第1のラベルについて前記候補しきい値からしきい値を選択するためのプログラムコードと
    を備える、非一時的コンピュータ可読媒体。
  18. 前記しきい値は、適合率値が前記ターゲット適合率値を上回る値がない、または前記再現率値が前記ターゲット再現率値を上回る値がない、あるいは前記ターゲット再現率値が満たされるときに前記適合率値が低すぎる、または前記ターゲット適合率値が満たされるときに前記再現率値が低すぎる、のいずれかのとき、最大Fスコアに対応する値に少なくとも部分的に基づく、請求項17に記載の非一時的コンピュータ可読媒体。
  19. 前記プログラムコードが、適合率または再現率のほうへ傾くベータ値を使用するFスコアに少なくとも部分的に基づいて選択するように構成された、請求項18に記載の非一時的コンピュータ可読媒体。
  20. 活性化関数のためのスケールファクタを選択するための非一時的コンピュータ可読媒体であって、前記非一時的コンピュータ可読媒体がそれに記録された非一時的プログラムコードを有し、前記プログラムコードは、
    範囲内のスコアのメトリックを計算するためのプログラムコードと、
    スコアの前記メトリックが前記範囲内にないとき、前記スケールファクタを調節するためのプログラムコードと
    を備える、非一時的コンピュータ可読媒体。
  21. 前記活性化関数が、ロジスティック関数、tan−h関数、または線形正規化関数を備える、請求項20に記載の非一時的コンピュータ可読媒体。
  22. スコアの前記メトリックが割合を備える、請求項20に記載の非一時的コンピュータ可読媒体。
  23. スコアの前記メトリックが傾きを備える、請求項20に記載の非一時的コンピュータ可読媒体。
  24. 前記プログラムコードが、
    値だけ前記スケールファクタを増分することと、
    最小スケールファクタと最大スケールファクタとの間の差を2で除算することと
    のうちの少なくとも1つによって前記スケールファクタを調節するように構成された、請求項20に記載の非一時的コンピュータ可読媒体。
  25. ワイヤレス通信におけるマルチラベル分類のためのしきい値を選択するための装置であって、
    順序付きリストを作成するために、第1のラベルに関連するラベルスコアのセットをソートするための手段と、
    複数のスコア値から、候補しきい値のセットに対応する適合率値および再現率値を計算するための手段と、
    ターゲット適合率値またはターゲット再現率値に少なくとも部分的に基づいて、前記第1のラベルについて前記候補しきい値からしきい値を選択するための手段と
    を備える、装置。
  26. 前記しきい値は、適合率値が前記ターゲット適合率値を上回る値がない、または前記再現率値が前記ターゲット再現率値を上回る値がない、あるいは前記ターゲット再現率値が満たされるときに前記適合率値が低すぎる、または前記ターゲット適合率値が満たされるときに前記再現率値が低すぎる、のいずれかのとき、最大Fスコアに対応する値に少なくとも部分的に基づく、請求項25に記載の装置。
  27. 選択するための前記手段が、適合率または再現率のほうへ傾くベータ値を使用するFスコアに少なくとも部分的に基づく、請求項26に記載の装置。
  28. ワイヤレス通信におけるマルチラベル分類のための活性化関数のためのスケールファクタを選択する装置であって、
    範囲内のスコアのメトリックを計算するための手段と、
    スコアの前記メトリックが前記範囲内にないとき、前記スケールファクタを調節するための手段と
    を備える、装置。
  29. 前記活性化関数が、ロジスティック関数、tan−h関数、または線形正規化関数を備える、請求項28に記載の装置。
  30. スコアの前記メトリックが割合を備える、請求項28に記載の装置。
  31. スコアの前記メトリックが傾きを備える、請求項28に記載の装置。
  32. 前記スケールファクタを調節するための前記手段が、
    値だけ前記スケールファクタを増分するための手段と、
    最小スケールファクタと最大スケールファクタとの間の差を2で除算するための手段と
    のうちの1つを備える、請求項28に記載の装置。
JP2018504642A 2015-07-31 2016-07-19 メディア分類 Pending JP2018528521A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562199865P 2015-07-31 2015-07-31
US62/199,865 2015-07-31
US14/859,082 US20170032247A1 (en) 2015-07-31 2015-09-18 Media classification
US14/859,082 2015-09-18
PCT/US2016/043016 WO2017023539A1 (en) 2015-07-31 2016-07-19 Media classification

Publications (1)

Publication Number Publication Date
JP2018528521A true JP2018528521A (ja) 2018-09-27

Family

ID=57882582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018504642A Pending JP2018528521A (ja) 2015-07-31 2016-07-19 メディア分類

Country Status (7)

Country Link
US (1) US20170032247A1 (ja)
EP (1) EP3329425A1 (ja)
JP (1) JP2018528521A (ja)
KR (1) KR20180036709A (ja)
CN (1) CN107851198A (ja)
BR (1) BR112018002025A2 (ja)
WO (1) WO2017023539A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021095222A1 (ja) * 2019-11-15 2021-05-20 三菱電機株式会社 閾値生成装置、閾値生成方法、及び閾値生成プログラム
WO2021241173A1 (ja) * 2020-05-27 2021-12-02 コニカミノルタ株式会社 学習装置、学習方法及び学習プログラム、認識装置、認識方法及び認識プログラム並びに学習認識装置
JP7320472B2 (ja) 2020-03-26 2023-08-03 株式会社奥村組 構造物損傷特定装置、構造物損傷特定方法および構造物損傷特定プログラム
WO2023181318A1 (ja) * 2022-03-25 2023-09-28 三菱電機株式会社 情報処理装置及び情報処理方法
JP7396944B2 (ja) 2020-03-26 2023-12-12 株式会社奥村組 管渠損傷特定装置、管渠損傷特定方法および管渠損傷特定プログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2946807T3 (es) * 2015-09-01 2023-07-26 Dream It Get It Ltd Recuperación de unidad de medios y procesos relacionados
US20170178346A1 (en) * 2015-12-16 2017-06-22 High School Cube, Llc Neural network architecture for analyzing video data
US10678828B2 (en) 2016-01-03 2020-06-09 Gracenote, Inc. Model-based media classification service using sensed media noise characteristics
US20180005111A1 (en) * 2016-06-30 2018-01-04 International Business Machines Corporation Generalized Sigmoids and Activation Function Learning
US11288551B2 (en) * 2016-10-24 2022-03-29 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
AU2016277542A1 (en) * 2016-12-19 2018-07-05 Canon Kabushiki Kaisha Method for training an artificial neural network
US11195096B2 (en) * 2017-10-24 2021-12-07 International Business Machines Corporation Facilitating neural network efficiency
CN107909097B (zh) * 2017-11-08 2021-07-30 创新先进技术有限公司 样本库中样本的更新方法及装置
CN110287317A (zh) * 2019-06-06 2019-09-27 昆明理工大学 一种基于cnn-dbn的层次多标签医疗问题分类方法
DE102019209463A1 (de) * 2019-06-27 2020-12-31 Robert Bosch Gmbh Verfahren zur Bestimmung eines Vertrauenswertes eines Objektes einer Klasse
US11783177B2 (en) 2019-09-18 2023-10-10 International Business Machines Corporation Target class analysis heuristics
US20230104117A1 (en) 2020-02-13 2023-04-06 Nec Corporation Information processing apparatus, method, and non-transitory computer readable medium
US11616760B1 (en) * 2020-02-20 2023-03-28 Meta Platforms, Inc. Model thresholds for digital content management and selection
US11790043B2 (en) 2020-07-17 2023-10-17 Blackberry Limited System and method for configuring a classifier to achieve a target error rate
US20230418909A1 (en) * 2022-06-24 2023-12-28 Microsoft Technology Licensing, Llc Automatic thresholding for classification models

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021095222A1 (ja) * 2019-11-15 2021-05-20 三菱電機株式会社 閾値生成装置、閾値生成方法、及び閾値生成プログラム
JPWO2021095222A1 (ja) * 2019-11-15 2021-05-20
JP7012913B2 (ja) 2019-11-15 2022-01-28 三菱電機株式会社 閾値生成装置、閾値生成方法、及び閾値生成プログラム
JP7320472B2 (ja) 2020-03-26 2023-08-03 株式会社奥村組 構造物損傷特定装置、構造物損傷特定方法および構造物損傷特定プログラム
JP7396944B2 (ja) 2020-03-26 2023-12-12 株式会社奥村組 管渠損傷特定装置、管渠損傷特定方法および管渠損傷特定プログラム
WO2021241173A1 (ja) * 2020-05-27 2021-12-02 コニカミノルタ株式会社 学習装置、学習方法及び学習プログラム、認識装置、認識方法及び認識プログラム並びに学習認識装置
WO2023181318A1 (ja) * 2022-03-25 2023-09-28 三菱電機株式会社 情報処理装置及び情報処理方法
JP7483172B2 (ja) 2022-03-25 2024-05-14 三菱電機株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
WO2017023539A1 (en) 2017-02-09
BR112018002025A2 (pt) 2018-09-18
US20170032247A1 (en) 2017-02-02
CN107851198A (zh) 2018-03-27
KR20180036709A (ko) 2018-04-09
EP3329425A1 (en) 2018-06-06

Similar Documents

Publication Publication Date Title
JP2018528521A (ja) メディア分類
JP6776331B2 (ja) 未知クラスの検出および未知クラスのための分類器の初期化
JP6743124B2 (ja) 画像中のオブジェクト検出のためのコンテキストベースの事前分布
CN108027899B (zh) 用于提高经训练的机器学习模型的性能的方法
JP6859332B2 (ja) 選択的バックプロパゲーション
JP6869948B2 (ja) ニューラルネットワークにおける転移学習
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
CN107533669B (zh) 滤波器特异性作为用于神经网络的训练准则
JP7037478B2 (ja) 分類のための強制的なスパース性
CN107430705B (zh) 用于重新训练分类器的样本选择
JP2018514852A (ja) 逐次画像サンプリングおよび微調整された特徴の記憶
JP2018518740A (ja) バイアス項を介して深層ニューラルネットワーク中にトップダウン情報を組み込むこと
WO2017105655A1 (en) Methods for object localization and image classification

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180410