JP2020507855A

JP2020507855A - 画像分類出力分布のフィルタリングを伴う画像認識

Info

Publication number: JP2020507855A
Application number: JP2019543012A
Authority: JP
Inventors: エカラバラム、ヴィジャイ; ミッタラム、ルーヒ、シャーマ; コック、ラヴィンドラナス; ラジプット、ニテンドラ; デイ、プラセンジット
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-02-16
Filing date: 2017-12-13
Publication date: 2020-03-12
Anticipated expiration: 2037-12-13
Also published as: CN110291538B; WO2018150243A1; CN110291538A; GB2572733B; GB201911351D0; GB2572733A; US10275687B2; US20180232602A1; JP6912588B2

Abstract

【課題】画像分類出力分布のフィルタリングを伴う画像認識を提供する。【解決手段】画像を表現するデータが画像認識システムによって受信される。画像認識システムは、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成する。画像分類出力分布に１つまたは複数のフィルタが適用されて更新画像分類出力分布を得る。更新画像分類出力分布から最高信頼値が選択される。複数の画像特徴から、最高信頼値と関連付けられている選択画像特徴が識別される。選択画像特徴と関連付けられた情報がデータベースから得られ、そして画像認識システムによってユーザのデバイスに通信される。【選択図】図５

Description

本出願は、概して画像認識に関し、より詳細には学習環境における画像認識の方法およびシステムに関する。

物体分類システムとしても知られる画像認識システムは、画像データとしても知られる、画像を表現するデータを解析する。解析に基づいて、画像認識システムは、画像に存在することがある１つまたは複数の物体または特徴を出力してもよい。加えて、１つまたは複数の物体または特徴の各々に対する信頼値またはスコアも出力されてもよい。信頼値は数値であり、０から１の範囲に及ぶことができ、ここで１の値は最大相関を示し、０の値は無相関を示す。出力分布における信頼値は、画像に物体または特徴が描かれているという可能性に基づいて最高から最低に評価されてもよい。信頼値は、画像データを画像に存在する物体または特徴へ一義化するために活用されてもよい。画像認識システムは、ルール・ベースの人工知能および情報検索システムを活用して、候補物体または特徴を識別し、値を割り当ててもよい。画像認識システムは、意図された結果を提供する畳み込みニューラル・ネットワークまたは他の種類のネットワークを備えてもよい。

画像認識の精度は、いくつかの要因、例えば：使用されるアルゴリズム；訓練データの品質および内容；訓練のために使用される画像の種類；各クラスを訓練する際に使用される画像の数；ならびに入力画像の品質に依存する。

したがって、当該技術において上述の課題に対処する必要がある。

第１の態様から見ると、本発明は、画像認識を管理するための方法であって：画像認識システムによって、画像を表現するデータを受信することと；画像認識システムによって、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成することと；画像分類出力分布に１つまたは複数のフィルタを適用して更新画像分類出力分布を得ることと；更新画像分類出力分布から最高信頼値を選択することと；複数の画像特徴から、最高信頼値と関連付けられている選択画像特徴を識別することと；データベースから、選択画像特徴と関連付けられた情報を得ることと；画像認識システムによって、選択画像特徴と関連付けられた情報をユーザのデバイスに通信することとを含む方法を提供する。

更なる態様から見ると、本発明は、画像認識を管理するための画像認識システムであって：ユーザのデバイスから、画像を表現するデータを受信するように、およびユーザのデバイスに選択画像特徴と関連付けられた情報を通信するように構成されるネットワーク・アダプタと；画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成し；更新画像分類出力分布の最高信頼値が閾値を満たすまで画像分類出力分布に１つまたは複数のフィルタを適用することによって、複数の画像特徴に対する更新画像分類出力分布を得；複数の画像特徴から、最高信頼値と関連付けられている選択画像特徴を識別し；データベースから、選択画像特徴と関連付けられた情報を得るように配置および構築される少なくとも１つのプロセッサとを備えるシステムを提供する。

更なる態様から見ると、本発明は、画像認識を管理するためのコンピュータ・プログラム製品であって、処理回路によって読み取り可能で、かつ本発明のステップを行うための方法を行うために処理回路による実行のための命令を記憶したコンピュータ可読記憶媒体を備えるコンピュータ・プログラム製品を提供する。

更なる態様から見ると、本発明は、コンピュータ可読媒体上に記憶され、かつデジタル・コンピュータの内部メモリへロード可能なコンピュータ・プログラムであって、上記プログラムがコンピュータ上で起動されると本発明のステップを行うためのソフトウェア・コード部分を備えるコンピュータ・プログラムを提供する。

１つまたは複数の実施形態によれば、方法が、画像認識システムによって、画像を表現するデータを受信することと、画像認識システムによって、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成することとを含む。画像分類出力分布に１つまたは複数のフィルタが適用されて更新画像分類出力分布を得る。更新画像分類出力分布から最高信頼値が選択される。複数の画像特徴から最高信頼値と関連付けられている選択画像特徴が識別される。選択画像特徴と関連付けられた情報がデータベースから得られる。選択画像特徴と関連付けられた情報は、画像認識システムによってユーザのデバイスに通信される。

１つまたは複数の実施形態によれば、画像認識システムが、ユーザのデバイスから、画像を表現するデータを受信するように、およびユーザのデバイスに選択画像特徴と関連付けられた情報を通信するように構成されるネットワーク・アダプタと、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成し；更新画像分類出力分布の最高信頼値が閾値を満たすまで画像分類出力分布に１つまたは複数のフィルタを適用することによって、複数の画像特徴に対する更新画像分類出力分布を得；複数の画像特徴から、最高信頼値と関連付けられている選択画像特徴を識別し；データベースから、選択画像特徴と関連付けられた情報を得るように配置および構築される少なくとも１つのプロセッサとを備える。

１つまたは複数の実施形態によれば、画像認識システムのためのコンピュータ・プログラム製品が、プログラム命令が具象化されたコンピュータ可読記憶媒体を備え、プログラム命令はデバイスによって実行可能であり、デバイスに：画像認識システムによって、画像を表現するデータを受信し；画像認識システムによって、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成し；画像認識システムによって、更新画像分類出力分布の最高信頼値が閾値を満たすまで画像分類出力分布に１つまたは複数のフィルタを適用することによって、複数の画像特徴に対する更新画像分類出力分布を得；複数の画像特徴から、最高信頼値と関連付けられている選択画像特徴を識別させる。第１のフィルタを適用することは、画像分類出力分布を授業要目（classroom syllabus）からのデータと相関させることを含む。第２のフィルタを適用することは、画像分類出力分布をユーザと関連付けられている学習者モデルからの関心のある話題と相関させることを含む。第３のフィルタを適用することは、画像分類出力分布をユーザと教師との間の通信と相関させることを含む。

本発明は、ここで、以下の図に例示されるような好適な実施形態を参照しつつ、単に例として記載されることになる。

例証的な実施形態に従う画像データ送信、画像認識およびフィルタリングのためのシステムのブロック図である。例証的な実施形態に従うデータ処理システムのブロック図である。例証的な実施形態に従う通信デバイスに表示される情報の図である。例証的な実施形態に従う通信デバイスに表示される情報の図である。例証的な実施形態に従う画像認識出力をフィルタリングする方法を例示するフローチャートである。例証的な実施形態に従う画像認識システムにおいてフィルタを適用する方法を例示するフローチャートである。例証的な実施形態に従うデータ・フロー図である。

以下は、関連した教示の完全な理解を提供するために、例として多数の具体的な詳細を記載する。本教示は、しかしながら、そのような詳細なしで実践されてもよい。加えて、周知の方法、手順、部品または回路網あるいはその組合せは、本教示の態様を不必要に不明瞭にすることを回避するために、詳細なしで、比較的高水準で記載される。

本明細書に記載される１つまたは複数の実施形態は、画像認識結果への改良を提供する。画像認識結果の精度は、例えば、一義化のために活用されるアルゴリズム、アルゴリズムによって依存されるデータ・ストアの品質および内容、ならびに画像の品質に依存する。時に、特徴または物体に対する最高信頼値は、正しい特徴または物体を示していない。したがって、本明細書に開示される概念は、画像データの物体または特徴への一義化の品質を改善する。本明細書で言及される特徴としては、物体（例えば、本、果物、箱、動物、建物等）、グループ分け（例えば、顔、体、教室、大学、飲食店、食料品店、図書館、競技場、雨、吹雪等）、質感（例えば、けばだった、とげのある、なめらかな、粗い等）、色（例えば、赤、青、緑等）、部分集合または小区分（例えば、腕、指の爪、壁、空洞等）、運動（例えば、走っている、歩いている、手を振っている、泳いでいる、飛んでいる等）、姿勢（例えば、立っている、座っている、眠っている等）、形状（例えば、丸、四角、湾曲、台形、平坦、波形、同心、小塊等）、境界（例えば、線、縁、稜、角、点等）、および画像の他の特性を含む。

本出願は、システム、方法またはコンピュータ・プログラム製品あるいはその組合せに適用されてもよい。コンピュータ・プログラム製品は、プロセッサに本出願の態様を実施させるためにコンピュータ可読プログラム命令が記憶された１つまたは複数のコンピュータ可読記憶媒体を含んでもよい。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶する有形デバイスであってもよい。例えば、コンピュータ可読記憶媒体は、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、またはその任意の適切な組合せであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては：ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリ・メモリ（ＲＯＭ）、消去可能プログラマブル・リード・オンリ・メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー・ディスク、パンチ・カードまたは命令が記録された溝に隆起された構造などの機械的に符合化されたデバイス、および上記の任意の適切な組合せを含む。コンピュータ可読記憶媒体は、本明細書で使用される場合、電波もしくは他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通って伝搬する電磁波、例えば、光ファイバ・ケーブルを通る光パルス、または電線を通って伝送される電気信号など、それ自体が一時的信号と解釈されないものとする。

本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはその組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを備えてもよい。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、そしてコンピュータ可読プログラム命令をそれぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体への記憶のために転送する。

本出願の動作を実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋等などのオブジェクト指向プログラミング言語および「Ｃ」プログラミング言語もしくは同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードかオブジェクト・コードかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンド・アロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でかつ部分的にリモート・コンピュータ上で、または完全にリモート・コンピュータもしくはサーバ上で実行されてもよい。後者の状況では、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む、任意の種類のネットワークを通じてユーザのコンピュータに接続されてもよく、または外部コンピュータに接続がなされてもよい（例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて）。いくつかの実施形態において、電子回路網、例えば、プログラマブル論理回路網、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）は、本出願の態様を行うために、コンピュータ可読プログラム命令の状態情報を活用して電子回路網を特性化することによってコンピュータ可読プログラム命令を実行してもよい。

本出願の態様が、１つまたは複数の実施形態に係る方法、装置（システム）およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しつつ本明細書に記載される。フローチャートまたはブロック図あるいはその両方の各要素は、コンピュータ可読プログラム命令によって実装されてもよい。

コンピュータ可読プログラム命令は、命令が、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行されて、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用を実装するように、汎用コンピュータ、専用コンピュータまたは他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを生成してもよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用の態様を実装する命令を含む製品を構成するように、コンピュータ、プログラマブル・データ処理装置または他のデバイスあるいはその組合せに特定の方式で機能するよう指令することができるコンピュータ可読記憶媒体に記憶されてもよい。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置または他のデバイス上で実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用を実装するように、コンピュータ、他のプログラマブル・データ処理装置または他のデバイスへロードされて、コンピュータ、他のプログラマブル装置または他のデバイス上で一連の動作ステップが行われてコンピュータ実装プロセスを生成させてもよい。

図におけるフローチャートおよびブロック図は、本出願の様々な実施形態に係るシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性および動作を例示する。この点で、フローチャートまたはブロック図における各ブロックは、モジュール、セグメント、または命令の一部分を表現してもよく、それは指定された論理機能を実装するための１つまたは複数の実行可能命令を備える。いくつかの代替実装において、ブロックに示される機能は、図に示される順序と異なって起こってもよい。例えば、連続して図示される２つのブロックが、実際には、実質的に並行して実行されてもよく、またはブロックは、時に逆順に実行されてもよく、関与する機能性次第である。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せが、指定された機能または作用を行う専用ハードウェア・ベースのシステムによって実装される、あるいは専用ハードウェアおよびコンピュータ命令の組合せを実施することができることも留意されたい。

画像データ送信、画像認識およびフィルタリングのためのシステム１００のブロック図が実施形態に従って図１に図示される。通信デバイス１０２が、１人または複数のユーザと典型的に関連付けられる。通信デバイス１０２は、無線または有線／ワイヤライン、かつポータブルまたは非ポータブルであってもよい。通信デバイス１０２の例としては、携帯電話、スマートフォン、タブレット・コンピュータ、ラップトップ・コンピュータ、デスクトップ・コンピュータ、ファクシミリ機、無線オーガナイザ、携帯情報端末、ページャ、ノートブック・コンピュータ、ゲーム・デバイス、メディア・プレーヤ、電子ナビゲーション・デバイス、電子ホワイトボード等を含むが、これらに限定されない。

通信ネットワーク１０４は、データ・ネットワーク、音声ネットワーク、ならびに音声およびデータ通信の両方ともサポートするネットワークを含むがこれらに限定されない、任意の種類の、ワイヤラインとしても知られる有線または無線ネットワークであってもよい。通信ネットワーク１０４は、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを、別々にまたは任意の組合せで備えてもよい。通信ネットワークは、例えば、インターネット、１つまたは複数のローカル・エリア・ネットワークおよび１つまたは複数のワイド・エリア・ネットワークを含んでもよい。

画像認識システム１０６は、例えば、図２に関して記載されるように、通信ネットワーク１０４とインタフェースされるデータ処理システムである。画像認識システム１０６は、例えば、ＩＢＭ（登録商標）Ｗａｔｓｏｎ（商標）視覚認識システムであってもよい。システム１００は、別のデータ処理システム１０８、クラウド・サーバ１１０、または画像における１つもしくは複数の物体もしくは特徴を識別するために、画像認識システム１０６が活用して、画像を表現するデータを解析する際に使用するための情報を記憶もしくはアクセスしてもよいデータベース１１２あるいはその組合せを任意選択で含んでもよい。別のデータ処理システム１０８は、画像認識システム１０６と同様の構造またはアーキテクチャを有してもよい。ＩＢＭは、世界中の多くの管轄で登録された、International Business Machines Corporationの商標である。

実施形態に従う画像認識システム１０６のブロック図が図２に図示される。図２は、１つの実装の例示だけを提供しており、異なる実施形態が実装されてもよい環境に関してはいかなる限定も暗示しない。描かれた実施形態に対する多くの変更が、例えば、設計および実装仕様に基づいてなされてもよい。

画像認識システム１０６は、機械可読プログラム命令を実行することが可能な任意の電子デバイスに実装されてもよく、それはデータ処理システムと称されてもよい。画像認識システム１０６は、スマート・フォン、コンピュータ・システム、ＰＤＡまたは他の電子デバイスであってもよい。画像認識システム１０６が実装されてもよいコンピューティング・システム、環境または構成あるいはその組合せの例としては、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンド・ヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、ネットワークＰＣ、ミニコンピュータ・システム、および上記システムまたはデバイスのいずれかを含む分散クラウド・コンピューティング環境を含むが、これらに限定されない。

画像認識システム１０６は、図２に例示されるように、破線の垂直線の左に内部部品、および破線の垂直線の右に外部部品を含んでもよい。内部部品は、１つまたは複数のプロセッサ２０２、１つまたは複数のコンピュータ可読ランダム・アクセス・メモリ・デバイス（ＲＡＭ）２０４、および１つまたは複数のコンピュータ可読リード・オンリ・メモリ・デバイス（ＲＯＭ）２０６、ならびに１つまたは複数のオペレーティング・システムおよび１つまたは複数のプログラムを含む１つまたは複数のコンピュータ可読有形記憶デバイス２０８を含み、全てが１つまたは複数のバス２２４を通じて通信する。オペレーティング・システム、ならびに画像認識プログラムおよびフィルタリング・プログラムなどのプログラムは、キャッシュ・メモリを典型的に含むＲＡＭ２０４を介するプロセッサ２０２による実行のためにコンピュータ可読有形記憶デバイス２０８上に記憶される。コンピュータ可読有形記憶デバイス２０８は、例えば、内部ハード・ドライブの磁気ディスク記憶デバイスであってもよい。代替的に、コンピュータ可読有形記憶デバイス２０８の１つまたは複数が、ＲＯＭ２０６、ＥＰＲＯＭ、フラッシュ・メモリ、またはコンピュータ・プログラムおよびデジタル情報を記憶する任意の他のコンピュータ可読有形記憶デバイスなどの半導体記憶デバイスであってもよい。

内部部品は、ＣＤ−ＲＯＭ、ＤＶＤ、メモリ・スティック、磁気テープ、磁気ディスク、光ディスクまたは半導体記憶デバイスなどの１つまたは複数のポータブル・コンピュータ可読有形記憶デバイス２２０から読み取り、それに書き込むＲ／Ｗドライブまたはインタフェース２１８も含む。画像認識プログラムおよびフィルタリング・プログラムは、ポータブル・コンピュータ可読有形記憶デバイス２２０の１つまたは複数上に記憶され、Ｒ／Ｗドライブまたはインタフェース２１８を介して読み取られ、そしてコンピュータ可読有形記憶デバイス２０８へロードされてもよい。

内部部品は、ＴＣＰ／ＩＰアダプタ・カード、無線Ｗｉ−Ｆｉインタフェース・カード、３Ｇもしくは４Ｇ無線インタフェース・カードまたは他の有線もしくは無線通信リンクなどの、スイッチ・ポート・カードとしても知られるネットワーク・アダプタまたはインタフェース２２２も含んでもよい。画像認識プログラムおよびフィルタリング・プログラムは、通信ネットワーク１０４およびネットワーク・アダプタまたはインタフェース２２２を介して外部コンピュータ、例えば、サーバからダウンロードされてもよい。ネットワーク・アダプタまたはインタフェース２２２から、画像認識プログラムおよびフィルタリング・プログラムは、有形記憶デバイス２０８へロードされてもよい。

外部部品は、コンピュータ・ディスプレイ・モニタ２１２、キーボード２１４およびコンピュータ・マウス２１６を含んでもよい。外部部品は、タッチ・スクリーン、仮想キーボード、タッチ・パッド、ポインティング・デバイスおよび他のヒューマン・インタフェース・デバイスも含んでもよい。内部部品は、コンピュータ・ディスプレイ・モニタ２１２、キーボード２１４およびコンピュータ・マウス２１６にインタフェースするデバイス・ドライバ２１０も含む。デバイス・ドライバ２１０、Ｒ／Ｗドライブまたはインタフェース２１８およびネットワーク・アダプタまたはインタフェース２２２は、ハードウェアおよび有形記憶デバイス２０９またはＲＯＭ２０６あるいはその両方に記憶されるソフトウェアで実装される。

実施形態に従う通信デバイスに表示される情報の図が図３および図４に図示される。ユーザは、子供などの生徒であってもよく、この例ではタブレット・コンピュータである通信デバイス１０２を有する。ユーザは、通信デバイス１０２に、図３に図示されるように、学習アプリケーション３０２を表示させる。学習アプリケーションは、ユーザが画像認識システムに送信される写真または画像３０４を撮るのを容易にする。画像３０４における物体または特徴に基づいて、図４に図示されるように、情報４０２が受信および表示される。

図３に図示されるように、プリントした要目３０８、リンゴ３１０、ペン／鉛筆立て３１２および植物３１４が置かれている机３０６、ならびに文字「今日の授業：果物」が見えるホワイトボード／黒板３１６を含む画像３０４が表示される。画像認識システム１０６は、画像３０４における様々な物体または特徴を識別しようと試み、画像認識出力に１つまたは複数のフィルタを適用することによって画像をフィルタリングし、そしてユーザの通信デバイス１０２に物体または特徴の１つに関する情報を通信する。この例では、リンゴ３１０が目標特徴として選択される。リンゴに関する情報４０２が得られ、そして学習アプリケーション３０２を介する表示のためにユーザのタブレット１０２に通信される。

実施形態に従う画像認識出力をフィルタリングする方法を例示するフローチャートが図５に図示される。画像、例えば、画像３０４を表現するデータとも称される画像データが、ユーザのデバイス１０２から画像認識システム１０６によって受信５０２される。画像認識システム１０６は、１つまたは複数の画像認識アルゴリズムで画像データを処理および解析する。画像認識システム１０６は、画像データの解析および画像認識システム１０６のために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成５０４する。

訓練データは、各画像クラスにおける異なる物体または特徴について学習するために画像認識システム１０６によって活用される。例えば、様々な物体の多数の画像が画像認識システム１０６に入力されてもよく、そして物体の特性が解析されて訓練データとして記憶される。例えば、１つのクラスが、ボール、リンゴ、オレンジ、装身具等などの、丸い物体から成ってもよい。色、質感、大きさ、形状のばらつきまたは偏差等など、クラスにおいて１つの物体／特徴を別の物体／特徴から区別する訓練データが記憶される。訓練データは、画像認識システム１０６にローカルに記憶されても、または別のデータ処理システム１０８もしくはクラウド・サーバ１１０のデータベース１１２におけるような非ローカル・ストアから通信ネットワーク１０４を介してアクセスされてもよい。

画像認識システム１０６は、受信した画像の特徴と記憶された訓練データからの候補または潜在的特徴との間の最も近いマッピングまたは相関を見つけ出す。各候補特徴と信頼値またはスコアが関連付けられる。信頼値は、例えば、画像認識アルゴリズムがどれくらい「信頼して」画像からの物体を訓練データのクラスからの物体と識別したかを反映する。信頼値は０から１の範囲に及び、高い値ほど大きな相関を示す。

画像分類出力分布（ＩＣＯＤ）は、第１の信頼値と関連付けられる第１の画像特徴および第２の信頼値と関連付けられる第２の画像特徴等から成ってもよい。例えば、ＩＣＯＤは、５つの画像特徴および５つの関連付けられる信頼値を含んでもよい。図３の例の場合、ＩＣＯＤは、括弧内に信頼値を示して、リンゴ（０．９２）、ボール（０．６５）、オレンジ（０．２１）、太陽（０．１５）およびメロン（０．０５）から成ってもよい。

画像分類出力分布に１つまたは複数のフィルタが適用５０６されて更新画像分類出力分布を得る。例えば、フィルタが適用されると、信頼値が調節されて更新ＩＣＯＤを得る。代替的または追加的に、ＩＣＯＤにおける物体または特徴が変更されてもよい。フィルタを適用することは、フィルタ・データをＩＣＯＤと相関させて更新ＩＣＯＤを得ることを含む。フィルタを適用すること５０６に関する更なる詳細については図６を参照されたい。

様々なフィルタは、画像３０４におけるテキストに行われる光学文字認識（ＯＣＲ）、授業要目からのデータ、学習者モデルにおける関心のある話題、教師と生徒との間の通信、教室コンテキスト、生徒コンテキスト、教師コンテキスト、ユーザの位置、画像の環境等の１つまたは複数を含む。例えば、光学文字認識によって識別されるテキストがＩＣＯＤと相関されてもよい。

画像認識システムにおいてフィルタを適用する方法５０６を例示するフローチャートが図６に図示される。第１のフィルタ・データがＩＣＯＤと相関６０２されて更新ＩＣＯＤを得る。フィルタに関する情報／データが通信ネットワーク１０４を介して受信されてもよい。

図３の例では、第１のフィルタがＯＣＲである場合、画像データに光学文字認識が行われて認識されたテキストを得、そして認識されたテキスト、この例では「今日の授業：果物」が相関６０２されるデータであって、非果物物体／特徴に対する信頼値を下げ、かつ果物である物体／特徴に対する信頼値を上げることによって、ＩＣＯＤを、リンゴ（０．９８）、オレンジ（０．３１）、ボール（０．１５）、メロン（０．１１）および太陽（０．０５）に調節してもよい。したがって、フィルタの１つの例は、ＯＣＲ出力を画像分類出力分布と相関させる。

第１のフィルタが授業要目である場合、要目は、ユーザのデバイス、ユーザと関連付けられている教師のデバイス、ユーザと関連付けられている学校のデバイスまたはユーザと関連付けて記憶されている他の要目データから得られる。例えば、現在の日時に対する要目から授業の一覧が得られてもよい。この例では、「木になる果物」が要目に挙げられている。木になる果物に関する情報が相関６０２されて、木になる果物でない非果物物体／特徴に対する信頼値を下げ、かつ木になる果物である物体／特徴に対する信頼値を上げることによって、ＩＣＯＤを、リンゴ（０．９８）、オレンジ（０．３１）、ボール（０．１５）、メロン（０．０１）および太陽（０．０５）に調節する。

第１のフィルタが学習者モデルである場合、学習者モデルは、ユーザのデバイス、ユーザと関連付けられている教師のデバイス、ユーザと関連付けられている学校のデバイスまたはユーザと関連付けて記憶されている学習データから得られる。学習者モデルは、関心のある話題、例えば、ユーザによって学ばれる授業、ユーザによって学ばれるよう望まれる授業、ユーザがインターネットで調べた内容、撮った写真、ユーザによって入力される単語等を含んでもよい。この例では、学習者モデルは、果物および野菜を関心のある話題と識別する。果物および野菜に関する情報が相関６０２されて、非果物／野菜物体／特徴に対する信頼値を下げ、かつ果物／野菜である物体／特徴に対する信頼値を上げることによって、ＩＣＯＤを、リンゴ（０．９８）、オレンジ（０．３１）、トマト（０．１５）、メロン（０．１１）およびボール（０．０５）に調節する。この例では、太陽は、上位相関物体／特徴の列挙におけるトマトと置き換えられる。

第１のフィルタが教師と、生徒であってもよいユーザとの間の通信から成る場合、例えば、ユーザは、教師に質問「あなたの机の上の赤い物は何ですか」をテキスト・メールする。赤い物体に関する情報が相関６０２されて、非赤い物体／特徴および教師の机の上に見つけられない物体／特徴に対する信頼値を下げ、かつ赤くかつ教師の机の上に見つけることができる物体／特徴に対する信頼値を上げることによって、ＩＣＯＤを、リンゴ（０．９８）、ボール（０．３５）、オレンジ（０．１２）、メロン（０．０５）および太陽（０．０１）に調節する。

第１のフィルタがユーザの位置から成る場合、位置は、例えば、通信デバイス１０２のＧＰＳデータから得られる、例えば、学校、または画像の環境から推定される、例えば、教室。学校または教室に関する情報が相関されて、学校または教室で見つけられない物体／特徴に対する信頼値を下げ、かつ学校または教室で見つけることができる物体／特徴に対する信頼値を上げることによって、ＩＣＯＤを、リンゴ（０．９８）、ボール（０．４０）、オレンジ（０．１２）、メロン（０．０５）および太陽（０．０１）に調節する。

２つ以上のフィルタがＩＣＯＤに適用６０６されてもよい。例えば、ＩＣＯＤ出力がタブレット・コンピュータ（０．８６）、ラップトップ（０．８０）および移動電話（０．７２）である場合、絶対信頼値か差値かを活用することによって画像に対してどの信頼値が最善であるかを正確に区別しようと試みることは、結局は大きな確実性または精度を提供しないであろう。もう１つのフィルタを適用してＩＣＯＤを変更または適応させることが、１つまたは複数の異なる信頼値、１つまたは複数の異なる特徴／物体および特徴／物体の異なる順序付け等を含んでもよい更新ＩＣＯＤという結果になる。複数のフィルタが適用される場合、それらは任意の順序で適用されてもよい。１つの実施形態において、ＩＣＯＤまたは更新ＩＣＯＤに対する最高信頼値が閾値を満たすまで、１つまたは複数のフィルタが連続して適用されてもよい。別の実施形態において、最高信頼値が閾値を満たすことができないとき、画像分類出力分布に少なくとも１つの追加フィルタが適用されて更新画像分類出力分布を得てもよい。例えば、最高信頼値が閾値を満たすまで、１つまたは複数の追加フィルタが適用されてもよい。

閾値は、例えば、所定の数値であってもよい。閾値は、ＩＣＯＤまたは更新ＩＣＯＤの最高信頼値が所定の数値または絶対値、例えば、０．９０、０．９５、０．９９等を満たすときに満たされて６０４もよい。代替的に、閾値は、信頼値間の差値または他のばらつきであってもよい。この実施形態において、閾値は、最高信頼値が差値だけＩＣＯＤまたは更新ＩＣＯＤの２番目に高い信頼値以上であるときに満たされて６０４もよい。最高信頼値と２番目に高い信頼値との間の差は、差値、例えば、０．５、０．６、０．７等以上である。閾値を満たすことは、閾値に等しいことおよび閾値を超えることを含む。６０４で閾値が満たされないと判定すると、プロセスは６０６に続く。６０４で閾値が満たされると判定すると、プロセスは５０８に続く。

図５に図示されるように、更新画像分類出力分布から最高信頼値が選択５０８される。複数の画像特徴から最高信頼値と関連付けられている選択画像特徴が識別５１０される。選択画像特徴と関連付けられた情報がデータベースから得られ５１２、そして画像認識システムによって、ユーザのデバイスに通信５１４される。代替的に、２つ以上の特徴の識別が、例えば、特徴の１つのユーザによる選択のために、ユーザのデバイスに通信されてもよい。上記例の各々では、最高信頼値はリンゴと関連付けられたため、リンゴと関連付けられた情報４０２が、適宜、任意のデータベースから得られ５１２、そしてユーザのデバイス１０２に通信され、ここでこの情報は、図４に図示されるように、例えば、学習アプリによって表示される。情報は、画像認識システム１０６によって通信ネットワーク１０４を通じて通信されてもよく、または別のデータ処理システム１０８もしくはクラウド・サーバ１１０によってデバイス１０２に通信されてもよい。

実施形態に従うデータ・フロー図が図７に図示される。画像７０２を表現する画像データＤが画像認識システム１０６およびＯＣＲシステム７０４に通信される。画像認識システム１０６は、画像データに基づいてＩＣＯＤを生成し、そしてＩＣＯＤをフィルタ７１２に通信する。ＩＣＯＤは、ＩＣＯＤにおける画像特徴の各々に対するラベルＬを含む。ＯＣＲシステム７０４からの認識されたテキストＳがフィルタ７１２に入力される。授業要目に基づく関心のある話題を含むストア７０６がフィルタ７１２に話題Ｔ１を出力する。学習者モデルに基づく関心のある話題を含むストア７０８がフィルタ７１２に話題Ｔ２を出力する。ユーザ−教師通信または対話に基づく関心のある話題を含むストア７１０がフィルタ７１２に話題Ｔ３を出力する。＜ＩＣＯＤ＞および＜Ｓ＞、＜ＩＣＯＤ＞および＜Ｔ１＞、＜ＩＣＯＤ＞および＜Ｔ２＞、＜ＩＣＯＤ＞および＜Ｔ３＞の意味的相関に基づいて、ＩＣＯＤにおける１つまたは複数の特徴の信頼スコアが調節、微調整または強化される。例えば、ニューラル確率的言語モデルがＴ１、Ｔ２およびＴ３で訓練されて、教室コンテキストにおけるこれらの単語の意味論的意味を理解してもよい。＜Ｓ＞、＜Ｔ１＞、＜Ｔ２＞、＜Ｔ３＞および＜Ｌ＞は意味論的ベクトルとして表現されてもよく、そしてベクトル間で距離相関が行われて様々なフィルタを適用してもよい。ニューラル確率的言語モデルが活用されると、単語のコンテキストまたは意味論的意味が知られまたは理解され、そして単語はＮ−ｄ空間にプロットされる。類似の単語がＮ−ｄ空間においてより近くにプロットされ、ここでＮは単語表現のベクトル・サイズであり、ｄは距離を表現する。例えば、単語「テスト・ケース」は、Ｎ−ｄ空間において単語「テスト・スクリプト」の近くにある。単語「テストする」は、単語「テスト・ケース」および単語「テスト・スクリプト」の両方のより近くにあるが、「テスト・ケース」と単語「テスト・スクリプト」との間の距離は、「テスト・ケース」と単語「テストする」との間の距離より近い。

フィルタと関連付けられる単語、例えば、Ｔ１、Ｔ２およびＴ３が識別され、そして相関され、そしてモデルに追加されてもよく、このプロセスは訓練と称されてもよい。例えば、より多くの知識が学習されるにつれて、より多くの単語がフィルタに追加されてもよい。任意の２つの単語が与えられると、フィルタ、例えば、Ｔ１、Ｔ２、Ｔ３等に従ってそれらが意味論的に同じであるか異なるかを判定するために、モデルが活用されてもよい。例えば、フィルタが教室コンテキストであると、２つの識別される単語は、教室領域において意味論的に同じであるまたは異なると識別されることになる。ＩＣＯＤおよびＯＣＲ出力Ｓからの単語は、ニューラル確率的言語モデルに従って、ニューラル埋め込み表現または分散表現に変換される。ニューラル埋め込み表現は、単語間の相関を見つけ出すために活用される。＜ＩＣＯＤ＞および＜Ｓ＞、＜ＩＣＯＤ＞および＜Ｔ１＞、＜ＩＣＯＤ＞および＜Ｔ２＞、＜ＩＣＯＤ＞および＜Ｔ３＞の意味的相関に基づいて、ＩＣＯＤにおける１つまたは複数の特徴の信頼スコアが調節、微調整または強化される。

１つの例では、流通業者名ＴＡＮＧＯＲＥがその皮の外側に印刷されたオレンジを図示する画像を子供が送信する。ＩＣＯＤ出力は、ボール（０．７８）、レモン（０．６９）、オレンジ（０．６２）および球体（０．０１）である。今週の授業要目から、試験の話題として「果物および野菜」が挙げられており、そしてフィルタは「果物」（Ｔ１）であると予測される。子供の学習者モデルは、子供が柑橘類（Ｔ２）について学ぶことに興味を持っていることを示唆する。教師と子供は、動物、果物および野菜（Ｔ３）などの関心のある話題について話し合った。ＯＣＲ出力Ｓは、「タンジェリン」および「Ｔａｎｇｏｒｅ」である。ＩＣＯＤおよびＳがベクトルとして表現されると、タンジェリンがマンダリン・オレンジと同類であるので、「タンジェリン」は「オレンジ」の近くにあり、そしてＴａｎｇｏｒｅがオレンジを流通させる会社であるので、「Ｔａｎｇｏｒｅ」は「オレンジ」の近くにある。Ｔ１（果物）、Ｔ２（柑橘類）、Ｔ３（動物、果物および野菜）と「オレンジ」および「レモン」との間の意味的相関は、「ボール」または「球体」との相関より高い。＜ＩＣＯＤ＞および＜Ｓ＞、＜ＩＣＯＤ＞および＜Ｔ１＞、＜ＩＣＯＤ＞および＜Ｔ２＞、＜ＩＣＯＤ＞および＜Ｔ３＞の意味的相関を活用して、ＩＣＯＤの信頼値は更新されて、最終的なＩＣＯＤは、オレンジ（０．９５）、レモン（０．３１）、ボール（０．０２）および球体（０．００１）である。画像の物体または特徴として、最高信頼値（０．９５）の高い絶対値か差値（０．６４）かに基づいて、オレンジが信頼して識別され得る。

図３における画像３０４に基づく他の例では、ＩＣＯＤは、ペン／鉛筆立て（０．５）、リンゴ（０．５）、植物（０．５）および机（０．５）から成ってもよい。ＯＣＲフィルタが適用されると、更新ＩＣＯＤは、リンゴ（０．９５）、ペン／鉛筆立て（０．０５）、植物（０．０５）および机（０．０５）であってもよく、そして最高信頼値と関連付けられている選択画像特徴としてリンゴが選択される。授業要目フィルタが適用され、そしてこの日時のための要目に「植物および木」が挙げられていると、更新ＩＣＯＤは、植物（０．９５）、リンゴ（０．２５）、机（０．１５）およびペン／鉛筆立て（０．０５）であってもよく、そして最高信頼値と関連付けられている選択画像特徴として植物が選択される。

学習者モデル・フィルタが適用され、そして関心のある話題として「容器」が挙げられていると、更新ＩＣＯＤは、ペン／鉛筆立て（０．７５）、机（０．７５）、植物（０．２５）およびリンゴ（０．０５）であってもよい。別のフィルタ、教師と生徒ユーザとの間の通信が適用されてもよい。この例では、生徒ユーザは、教師に質問「木製の物体について話すことができますか」をテキスト・メールし、そして更新ＩＣＯＤは、机（０．９０）、ペン／鉛筆立て（０．６５）、植物（０．１５）、およびリンゴ（０．０５）であってもよく、そして最高信頼値と関連付けられている選択画像特徴として机が選択される。

１つの例では、方法が、画像認識システムによって、画像を表現するデータを受信することと、画像認識システムによって、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成することとを含む。画像分類出力分布に１つまたは複数のフィルタが適用されて更新画像分類出力分布を得る。更新画像分類出力分布から最高信頼値が選択される。複数の画像特徴から最高信頼値と関連付けられている選択画像特徴が識別される。選択画像特徴と関連付けられた情報がデータベースから得られる。選択画像特徴と関連付けられた情報は、画像認識システムによってユーザのデバイスに通信される。

最高信頼値が閾値を満たすことができないと判定すると、画像分類出力分布に２つ以上のフィルタが適用されて更新画像分類出力分布を得てもよい。最高信頼値が閾値を満たすことができないと判定すると、画像分類出力分布に３つ以上のフィルタが適用されて更新画像分類出力分布を得てもよい。閾値は、更新画像分類出力分布の最高信頼値と２番目に高い信頼値との間の差値から成ってもよい。画像分類出力分布は、第１の組の信頼値から成ってもよく、そして１つまたは複数のフィルタを適用することは、第１の組の信頼値の少なくとも１つの信頼値を調節する。画像分類出力分布は、第１の組の画像特徴から成ってもよく、そして更新画像分類出力分布は、第２の組の画像特徴から成ってもよく、ここでは第１の組の画像特徴は第２の組の画像特徴と異なる。ユーザは生徒であってもよく、そしてフィルタは：授業要目からのデータ、学習者モデルからの関心のある話題、教師と生徒との間で通信される情報、およびユーザの位置の少なくとも１つから成ってもよい。フィルタは：教室コンテキスト、生徒コンテキストおよび教師コンテキストの少なくとも１つから成ってもよい。フィルタに関する情報が通信ネットワークを介して受信されてもよい。画像分類出力分布は、第１の信頼値と関連付けられる第１の画像特徴および第２の信頼値と関連付けられる第２の画像特徴から成ってもよく、そして１つまたは複数のフィルタを適用することは、第１の信頼値および第２の信頼値の少なくとも１つを調節する。画像分類出力分布は、第１の組の信頼値から成ってもよく、そして１つまたは複数のフィルタを適用することは、第１の組の信頼値の少なくとも１つの信頼値を調節する。画像を表現するデータに光学文字認識が行われて認識されたテキストを得てもよく、そして認識されたテキストは、画像分類出力分布と相関されてもよい。

別の例では、画像認識システムが、ユーザのデバイスから、画像を表現するデータを受信するように、およびユーザのデバイスに選択画像特徴と関連付けられた情報を通信するように構成されるネットワーク・アダプタを備える。少なくとも１つのプロセッサが：画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布（ＩＣＯＤ）を生成し；更新画像分類出力分布の最高信頼値が閾値を満たすまで画像分類出力分布に１つまたは複数のフィルタを適用することによって、複数の画像特徴に対する更新画像分類出力分布を得；複数の画像特徴から、最高信頼値と関連付けられている選択画像特徴を識別し；データベースから、選択画像特徴と関連付けられた情報を得るように配置および構築される。

少なくとも１つのプロセッサは、画像を表現するデータに光学文字認識を行って認識されたテキストを得、そして認識されたテキストを画像分類出力分布と相関させるように更に配置および構築されてもよい。画像分類出力分布は、第１の信頼値と関連付けられる第１の画像特徴および第２の信頼値と関連付けられる第２の画像特徴から成ってもよく、ここでは１つまたは複数のフィルタを適用することは、第１の信頼値および第２の信頼値を調節する。画像分類出力分布は、第１の組の信頼値から成ってもよく、そして１つまたは複数のフィルタを適用することは、第１の組の信頼値の少なくとも１つの信頼値を調節する。少なくとも１つのプロセッサは、最高信頼値が閾値を満たすことができない場合、画像分類出力分布に２つ以上のフィルタを適用して更新画像分類出力分布を得るように更に配置および構築されてもよい。少なくとも１つのプロセッサは、最高信頼値が閾値を満たすことができない場合、画像分類出力分布に３つ以上のフィルタを適用して更新画像分類出力分布を得るように更に配置および構築されてもよい。画像分類出力分布は、第１の組の信頼値から成ってもよく、そして１つまたは複数のフィルタを適用することは、第１の組の信頼値の少なくとも１つの信頼値を調節する。ユーザは生徒であってもよく、そしてフィルタは：授業要目からのデータ、学習者モデルからの関心のある話題、教師と生徒との間で通信される情報、およびユーザの位置の少なくとも１つから成ってもよい。フィルタは：教室コンテキスト、生徒コンテキストおよび教師コンテキストの少なくとも１つから成ってもよい。少なくとも１つのプロセッサは、通信ネットワークを介して、フィルタに関する情報を受信するように更に配置および構築されてもよい。

別の例では、画像認識システムのためのコンピュータ・プログラム製品が、プログラム命令が具象化されたコンピュータ可読記憶媒体を備え、プログラム命令はデバイスによって実行可能であり、デバイスに：画像認識システムによって、画像を表現するデータを受信し；画像認識システムによって、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成し；画像認識システムによって、画像分類出力分布に第１のフィルタを適用することによって、複数の画像特徴に対する更新画像分類出力分布を得；画像認識システムによって、更新画像分類出力分布の最高信頼値が閾値を満たすまで更新画像分類出力分布に少なくとも１つの追加フィルタを連続して適用し；複数の画像特徴から、閾値を満たす最高信頼値と関連付けられている選択画像特徴を識別させる。第１のフィルタを適用することは、画像分類出力分布を授業要目と相関させることを含んでもよい。第２のフィルタを適用することは、画像分類出力分布をユーザと関連付けられている学習者モデルと相関させることを含んでもよい。第３のフィルタを適用することは、画像分類出力分布をユーザと教師との間の通信と相関させることを含んでもよい。

デバイスによって実行可能なプログラム命令は、更にデバイスに、データベースから、選択画像特徴と関連付けられた情報を得、そして選択画像特徴と関連付けられた情報をユーザのデバイスに通信させてもよい。画像分類出力分布は、第１の信頼値と関連付けられる第１の画像特徴および第２の信頼値と関連付けられる第２の画像特徴から成ってもよく、そして１つまたは複数のフィルタを適用することは、第１の信頼値および第２の信頼値の少なくとも１つを調節する。画像分類出力分布は、第１の組の信頼値から成ってもよく、そして１つまたは複数のフィルタを適用することは、第１の組の信頼値の少なくとも１つの信頼値を調節する。プログラム命令は、更にデバイスに、画像を表現するデータに光学文字認識を行って認識されたテキストを得、そして認識されたテキストを画像分類出力分布と相関させてもよい。上記は例証的な実施形態に関連して記載されたが、用語「例証的」は、最善または最適よりはむしろ、単に一例として意味されるだけであることが理解される。以上明記した場合を除き、記載または例示されたものは、請求項に詳述されるかされないかにかかわらず、いかなる部品、ステップ、特徴、物体、利益、利点または等価物の公共への公開も引き起こすとは意図されずまたは解釈されるべきでない。

本明細書で使用される用語および表現は、特定の意味が本明細書で別途記載される場合を除き、調査および研究のそれらの対応するそれぞれの領域に関してそのような用語および表現に与えられる通常の意味を有する。第１および第２などといった関係語は、専ら１つの実体または動作を別のものから区別するために使用されてもよく、必ずしもそのような実体または動作間のいかなる実際のそのような関係または順序も必要とせずまたは意味しない。用語「備える（comprises）」、「備えている（comprising）」またはそのいかなる他の変形も、列記した要素を備えるプロセス、方法、物品または装置がそれらの要素だけを含むのではなく、明記されないまたはそのようなプロセス、方法、物品または装置に固有の他の要素を含んでもよいように、非排他的包含を網羅すると意図される。「或る１つ（a）」または「或る１つ（an）」によって先行される要素は、更なる制約なしで、その要素を備えるプロセス、方法、物品または装置における追加の同一要素の存在を排除しない。

「要約」は、読者が技術的開示の本質を迅速に確認するのを可能にするために提供される。「要約」は、請求項の範囲または意味を解釈または限定するために「要約」が使用されないという理解の下で提出される。上記「発明を実施するための形態」では、本開示を合理化する目的で、様々な実施形態において様々な特徴がまとめられる。この開示の方法は、特許請求される実施形態が各請求項に明記されるより多くの特徴を有するという意図を反映すると解釈されるものではない。むしろ、以下の請求項が反映するように、発明の主題は、単一の開示される実施形態の全ての特徴より少なくなる。したがって、以下の請求項は、各請求項が別々に特許請求される主題として独立して、「発明を実施するための形態」に組み込まれる。

Claims

画像認識を管理するための方法であって、前記方法が、
画像認識システムによって、画像を表現するデータを受信することと、
前記画像認識システムによって、前記画像を表現する前記データの解析および前記画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成することと、
前記画像分類出力分布に１つまたは複数のフィルタを適用して更新画像分類出力分布を得ることと、
前記更新画像分類出力分布から最高信頼値を選択することと、
前記複数の画像特徴から、前記最高信頼値と関連付けられている選択画像特徴を識別することと、
データベースから、前記選択画像特徴と関連付けられた情報を得ることと、
前記画像認識システムによって、前記選択画像特徴と関連付けられた前記情報をユーザのデバイスに通信することとを含む、方法。
前記画像分類出力分布が、第１の組の画像特徴から成り、前記更新画像分類出力分布が、第２の組の画像特徴から成り、かつ前記第１の組の画像特徴が前記第２の組の画像特徴と異なる、請求項１に記載の方法。
前記画像分類出力分布が、第１の組の信頼値から成り、かつ前記１つまたは複数のフィルタを適用することが、前記第１の組の信頼値の少なくとも１つの信頼値を調節する、請求項１または２に記載の方法。
前記最高信頼値が閾値を満たすことができないと判定すると、前記画像分類出力分布に２つ以上のフィルタを適用して前記更新画像分類出力分布を得ることを更に含む、請求項１ないし３のいずれかに記載の方法。
前記閾値が、前記更新画像分類出力分布の前記最高信頼値と２番目に高い信頼値との間の差値から成る、請求項４に記載の方法。
前記１つまたは複数のフィルタが、授業要目からのデータ、学習者モデルからの関心のある話題、教師と生徒との間で通信される情報、および前記生徒の位置の少なくとも１つから成る、請求項１ないし５のいずれかに記載の方法。
前記画像を表現する前記データに光学文字認識を行って認識されたテキストを得、前記認識されたテキストを前記画像分類出力分布と相関させることを更に含む、請求項１ないし６のいずれかに記載の方法。
通信ネットワークを介して、前記１つまたは複数のフィルタに関する情報を受信することを更に含む、請求項１ないし７のいずれかに記載の方法。
画像認識を管理するための画像認識システムであって、前記システムが、
ユーザのデバイスから、画像を表現するデータを受信するように、および前記ユーザのデバイスに選択画像特徴と関連付けられた情報を通信するように構成されるネットワーク・アダプタと、
前記画像を表現する前記データの解析および前記画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成し、
更新画像分類出力分布の最高信頼値が閾値を満たすまで前記画像分類出力分布に１つまたは複数のフィルタを適用することによって、前記複数の画像特徴に対する前記更新画像分類出力分布を得、
前記複数の画像特徴から、前記最高信頼値と関連付けられている前記選択画像特徴を識別し、
データベースから、前記選択画像特徴と関連付けられた情報を得る、
ように配置および構築される少なくとも１つのプロセッサとを備える、システム。
前記少なくとも１つのプロセッサが、前記画像を表現する前記データに光学文字認識を行って認識されたテキストを得、前記認識されたテキストを前記画像分類出力分布と相関させるように更に配置および構築される、請求項９に記載の画像認識システム。
前記画像分類出力分布が、第１の信頼値と関連付けられる第１の画像特徴および第２の信頼値と関連付けられる第２の画像特徴から成り、かつ前記１つまたは複数のフィルタを適用することが、前記第１の信頼値および前記第２の信頼値の少なくとも１つを調節する、請求項９または１０に記載の画像認識システム。
前記少なくとも１つのプロセッサが、前記最高信頼値が閾値を満たすことができない場合、前記画像分類出力分布に２つ以上のフィルタを適用して前記更新画像分類出力分布を得るように更に配置および構築される、請求項９ないし１１のいずれかに記載の画像認識システム。
前記画像分類出力分布が、第１の組の信頼値から成り、かつ前記１つまたは複数のフィルタを適用することが、前記第１の組の信頼値の少なくとも１つの信頼値を調節する、請求項９ないし１２のいずれかに記載の画像認識システム。
前記１つまたは複数のフィルタが、授業要目からのデータ、学習者モデルからの関心のある話題、教師と生徒との間で通信される情報、および前記生徒の位置の少なくとも１つから成る、請求項９ないし１３のいずれかに記載の画像認識システム。
前記１つまたは複数のフィルタが、教室コンテキスト、生徒コンテキストおよび教師コンテキストの少なくとも１つから成る、請求項９ないし１４のいずれかに記載の画像認識システム。
画像認識を管理するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、
処理回路によって読み取り可能で、かつ請求項１ないし８のいずれかに係る方法を行うための前記処理回路による実行のための命令を記憶したコンピュータ可読記憶媒体を備える、コンピュータ・プログラム製品。
コンピュータ可読媒体上に記憶され、かつデジタル・コンピュータの内部メモリへロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で起動されると、請求項１ないし８のいずれかに記載の方法を行うためのソフトウェア・コード部分を備える、コンピュータ・プログラム。