JP6912588B2 - 画像分類出力分布のフィルタリングを伴う画像認識 - Google Patents

画像分類出力分布のフィルタリングを伴う画像認識 Download PDF

Info

Publication number
JP6912588B2
JP6912588B2 JP2019543012A JP2019543012A JP6912588B2 JP 6912588 B2 JP6912588 B2 JP 6912588B2 JP 2019543012 A JP2019543012 A JP 2019543012A JP 2019543012 A JP2019543012 A JP 2019543012A JP 6912588 B2 JP6912588 B2 JP 6912588B2
Authority
JP
Japan
Prior art keywords
image
output distribution
classification output
confidence value
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019543012A
Other languages
English (en)
Other versions
JP2020507855A (ja
Inventor
エカラバラム、ヴィジャイ
ミッタラム、ルーヒ、シャーマ
コック、ラヴィンドラナス
ラジプット、ニテンドラ
デイ、プラセンジット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2020507855A publication Critical patent/JP2020507855A/ja
Application granted granted Critical
Publication of JP6912588B2 publication Critical patent/JP6912588B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Description

本出願は、概して画像認識に関し、より詳細には学習環境における画像認識の方法およびシステムに関する。
物体分類システムとしても知られる画像認識システムは、画像データとしても知られる、画像を表現するデータを解析する。解析に基づいて、画像認識システムは、画像に存在することがある1つまたは複数の物体または特徴を出力してもよい。加えて、1つまたは複数の物体または特徴の各々に対する信頼値またはスコアも出力されてもよい。信頼値は数値であり、0から1の範囲に及ぶことができ、ここで1の値は最大相関を示し、0の値は無相関を示す。出力分布における信頼値は、画像に物体または特徴が描かれているという可能性に基づいて最高から最低に評価されてもよい。信頼値は、画像データを画像に存在する物体または特徴へ一義化するために活用されてもよい。画像認識システムは、ルール・ベースの人工知能および情報検索システムを活用して、候補物体または特徴を識別し、値を割り当ててもよい。画像認識システムは、意図された結果を提供する畳み込みニューラル・ネットワークまたは他の種類のネットワークを備えてもよい。
画像認識の精度は、いくつかの要因、例えば:使用されるアルゴリズム;訓練データの品質および内容;訓練のために使用される画像の種類;各クラスを訓練する際に使用される画像の数;ならびに入力画像の品質に依存する。
したがって、当該技術において上述の課題に対処する必要がある。
画像認識の精度は、いくつかの要因、例えば:使用されるアルゴリズム;訓練データの品質および内容;訓練のために使用される画像の種類;各クラスを訓練する際に使用される画像の数;ならびに入力画像の品質に依存する。
第1の態様から見ると、本発明は、画像認識を管理するための方法であって:画像認識システムによって、画像を表現するデータを受信することと;画像認識システムによって、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成することと;画像分類出力分布に1つまたは複数のフィルタを適用して更新画像分類出力分布を得ることと;更新画像分類出力分布から最高信頼値を選択することと;複数の画像特徴から、最高信頼値と関連付けられている選択画像特徴を識別することと;データベースから、選択画像特徴と関連付けられた情報を得ることと;画像認識システムによって、選択画像特徴と関連付けられた情報をユーザのデバイスに通信することとを含む方法を提供する。
更なる態様から見ると、本発明は、画像認識を管理するための画像認識システムであって:ユーザのデバイスから、画像を表現するデータを受信するように、およびユーザのデバイスに選択画像特徴と関連付けられた情報を通信するように構成されるネットワーク・アダプタと;画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成し;更新画像分類出力分布の最高信頼値が閾値を満たすまで画像分類出力分布に1つまたは複数のフィルタを適用することによって、複数の画像特徴に対する更新画像分類出力分布を得;複数の画像特徴から、最高信頼値と関連付けられている選択画像特徴を識別し;データベースから、選択画像特徴と関連付けられた情報を得るように配置および構築される少なくとも1つのプロセッサとを備えるシステムを提供する。
更なる態様から見ると、本発明は、画像認識を管理するためのコンピュータ・プログラム製品であって、処理回路によって読み取り可能で、かつ本発明のステップを行うための方法を行うために処理回路による実行のための命令を記憶したコンピュータ可読記憶媒体を備えるコンピュータ・プログラム製品を提供する。
更なる態様から見ると、本発明は、コンピュータ可読媒体上に記憶され、かつデジタル・コンピュータの内部メモリへロード可能なコンピュータ・プログラムであって、上記プログラムがコンピュータ上で起動されると本発明のステップを行うためのソフトウェア・コード部分を備えるコンピュータ・プログラムを提供する。
1つまたは複数の実施形態によれば、方法が、画像認識システムによって、画像を表現するデータを受信することと、画像認識システムによって、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成することとを含む。画像分類出力分布に1つまたは複数のフィルタが適用されて更新画像分類出力分布を得る。更新画像分類出力分布から最高信頼値が選択される。複数の画像特徴から最高信頼値と関連付けられている選択画像特徴が識別される。選択画像特徴と関連付けられた情報がデータベースから得られる。選択画像特徴と関連付けられた情報は、画像認識システムによってユーザのデバイスに通信される。
1つまたは複数の実施形態によれば、画像認識システムが、ユーザのデバイスから、画像を表現するデータを受信するように、およびユーザのデバイスに選択画像特徴と関連付けられた情報を通信するように構成されるネットワーク・アダプタと、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成し;更新画像分類出力分布の最高信頼値が閾値を満たすまで画像分類出力分布に1つまたは複数のフィルタを適用することによって、複数の画像特徴に対する更新画像分類出力分布を得;複数の画像特徴から、最高信頼値と関連付けられている選択画像特徴を識別し;データベースから、選択画像特徴と関連付けられた情報を得るように配置および構築される少なくとも1つのプロセッサとを備える。
1つまたは複数の実施形態によれば、画像認識システムのためのコンピュータ・プログラム製品が、プログラム命令が具象化されたコンピュータ可読記憶媒体を備え、プログラム命令はデバイスによって実行可能であり、デバイスに:画像認識システムによって、画像を表現するデータを受信し;画像認識システムによって、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成し;画像認識システムによって、更新画像分類出力分布の最高信頼値が閾値を満たすまで画像分類出力分布に1つまたは複数のフィルタを適用することによって、複数の画像特徴に対する更新画像分類出力分布を得;複数の画像特徴から、最高信頼値と関連付けられている選択画像特徴を識別させる。第1のフィルタを適用することは、画像分類出力分布を授業要目(classroom syllabus)からのデータと相関させることを含む。第2のフィルタを適用することは、画像分類出力分布をユーザと関連付けられている学習者モデルからの関心のある話題と相関させることを含む。第3のフィルタを適用することは、画像分類出力分布をユーザと教師との間の通信と相関させることを含む。
本発明は、ここで、以下の図に例示されるような好適な実施形態を参照しつつ、単に例として記載されることになる。
例証的な実施形態に従う画像データ送信、画像認識およびフィルタリングのためのシステムのブロック図である。 例証的な実施形態に従うデータ処理システムのブロック図である。 例証的な実施形態に従う通信デバイスに表示される情報の図である。 例証的な実施形態に従う通信デバイスに表示される情報の図である。 例証的な実施形態に従う画像認識出力をフィルタリングする方法を例示するフローチャートである。 例証的な実施形態に従う画像認識システムにおいてフィルタを適用する方法を例示するフローチャートである。 例証的な実施形態に従うデータ・フロー図である。
以下は、関連した教示の完全な理解を提供するために、例として多数の具体的な詳細を記載する。本教示は、しかしながら、そのような詳細なしで実践されてもよい。加えて、周知の方法、手順、部品または回路網あるいはその組合せは、本教示の態様を不必要に不明瞭にすることを回避するために、詳細なしで、比較的高水準で記載される。
本明細書に記載される1つまたは複数の実施形態は、画像認識結果への改良を提供する。画像認識結果の精度は、例えば、一義化のために活用されるアルゴリズム、アルゴリズムによって依存されるデータ・ストアの品質および内容、ならびに画像の品質に依存する。時に、特徴または物体に対する最高信頼値は、正しい特徴または物体を示していない。したがって、本明細書に開示される概念は、画像データの物体または特徴への一義化の品質を改善する。本明細書で言及される特徴としては、物体(例えば、本、果物、箱、動物、建物等)、グループ分け(例えば、顔、体、教室、大学、飲食店、食料品店、図書館、競技場、雨、吹雪等)、質感(例えば、けばだった、とげのある、なめらかな、粗い等)、色(例えば、赤、青、緑等)、部分集合または小区分(例えば、腕、指の爪、壁、空洞等)、運動(例えば、走っている、歩いている、手を振っている、泳いでいる、飛んでいる等)、姿勢(例えば、立っている、座っている、眠っている等)、形状(例えば、丸、四角、湾曲、台形、平坦、波形、同心、小塊等)、境界(例えば、線、縁、稜、角、点等)、および画像の他の特性を含む。
本出願は、システム、方法またはコンピュータ・プログラム製品あるいはその組合せに適用されてもよい。コンピュータ・プログラム製品は、プロセッサに本出願の態様を実施させるためにコンピュータ可読プログラム命令が記憶された1つまたは複数のコンピュータ可読記憶媒体を含んでもよい。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶する有形デバイスであってもよい。例えば、コンピュータ可読記憶媒体は、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、またはその任意の適切な組合せであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては:ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチ・カードまたは命令が記録された溝に隆起された構造などの機械的に符合化されたデバイス、および上記の任意の適切な組合せを含む。コンピュータ可読記憶媒体は、本明細書で使用される場合、電波もしくは他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通って伝搬する電磁波、例えば、光ファイバ・ケーブルを通る光パルス、または電線を通って伝送される電気信号など、それ自体が一時的信号と解釈されないものとする。
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはその組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを備えてもよい。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、そしてコンピュータ可読プログラム命令をそれぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体への記憶のために転送する。
本出願の動作を実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk(R)、C++等などのオブジェクト指向プログラミング言語および「C」プログラミング言語もしくは同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードかオブジェクト・コードかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンド・アロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でかつ部分的にリモート・コンピュータ上で、または完全にリモート・コンピュータもしくはサーバ上で実行されてもよい。後者の状況では、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む、任意の種類のネットワークを通じてユーザのコンピュータに接続されてもよく、または外部コンピュータに接続がなされてもよい(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)。いくつかの実施形態において、電子回路網、例えば、プログラマブル論理回路網、フィールド・プログラマブル・ゲート・アレイ(FPGA)またはプログラマブル論理アレイ(PLA)は、本出願の態様を行うために、コンピュータ可読プログラム命令の状態情報を活用して電子回路網を特性化することによってコンピュータ可読プログラム命令を実行してもよい。
本出願の態様が、1つまたは複数の実施形態に係る方法、装置(システム)およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しつつ本明細書に記載される。フローチャートまたはブロック図あるいはその両方の各要素は、コンピュータ可読プログラム命令によって実装されてもよい。
コンピュータ可読プログラム命令は、命令が、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行されて、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用を実装するように、汎用コンピュータ、専用コンピュータまたは他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを生成してもよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用の態様を実装する命令を含む製品を構成するように、コンピュータ、プログラマブル・データ処理装置または他のデバイスあるいはその組合せに特定の方式で機能するよう指令することができるコンピュータ可読記憶媒体に記憶されてもよい。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置または他のデバイス上で実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用を実装するように、コンピュータ、他のプログラマブル・データ処理装置または他のデバイスへロードされて、コンピュータ、他のプログラマブル装置または他のデバイス上で一連の動作ステップが行われてコンピュータ実装プロセスを生成させてもよい。
図におけるフローチャートおよびブロック図は、本出願の様々な実施形態に係るシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性および動作を例示する。この点で、フローチャートまたはブロック図における各ブロックは、モジュール、セグメント、または命令の一部分を表現してもよく、それは指定された論理機能を実装するための1つまたは複数の実行可能命令を備える。いくつかの代替実装において、ブロックに示される機能は、図に示される順序と異なって起こってもよい。例えば、連続して図示される2つのブロックが、実際には、実質的に並行して実行されてもよく、またはブロックは、時に逆順に実行されてもよく、関与する機能性次第である。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せが、指定された機能または作用を行う専用ハードウェア・ベースのシステムによって実装される、あるいは専用ハードウェアおよびコンピュータ命令の組合せを実施することができることも留意されたい。
画像データ送信、画像認識およびフィルタリングのためのシステム100のブロック図が実施形態に従って図1に図示される。通信デバイス102が、1人または複数のユーザと典型的に関連付けられる。通信デバイス102は、無線または有線/ワイヤライン、かつポータブルまたは非ポータブルであってもよい。通信デバイス102の例としては、携帯電話、スマートフォン、タブレット・コンピュータ、ラップトップ・コンピュータ、デスクトップ・コンピュータ、ファクシミリ機、無線オーガナイザ、携帯情報端末、ページャ、ノートブック・コンピュータ、ゲーム・デバイス、メディア・プレーヤ、電子ナビゲーション・デバイス、電子ホワイトボード等を含むが、これらに限定されない。
通信ネットワーク104は、データ・ネットワーク、音声ネットワーク、ならびに音声およびデータ通信の両方ともサポートするネットワークを含むがこれらに限定されない、任意の種類の、ワイヤラインとしても知られる有線または無線ネットワークであってもよい。通信ネットワーク104は、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを、別々にまたは任意の組合せで備えてもよい。通信ネットワークは、例えば、インターネット、1つまたは複数のローカル・エリア・ネットワークおよび1つまたは複数のワイド・エリア・ネットワークを含んでもよい。
画像認識システム106は、例えば、図2に関して記載されるように、通信ネットワーク104とインタフェースされるデータ処理システムである。画像認識システム106は、例えば、IBM(登録商標)Watson(商標)視覚認識システムであってもよい。システム100は、別のデータ処理システム108、クラウド・サーバ110、または画像における1つもしくは複数の物体もしくは特徴を識別するために、画像認識システム106が活用して、画像を表現するデータを解析する際に使用するための情報を記憶もしくはアクセスしてもよいデータベース112あるいはその組合せを任意選択で含んでもよい。別のデータ処理システム108は、画像認識システム106と同様の構造またはアーキテクチャを有してもよい。IBMは、世界中の多くの管轄で登録された、International Business Machines Corporationの商標である。
実施形態に従う画像認識システム106のブロック図が図2に図示される。図2は、1つの実装の例示だけを提供しており、異なる実施形態が実装されてもよい環境に関してはいかなる限定も暗示しない。描かれた実施形態に対する多くの変更が、例えば、設計および実装仕様に基づいてなされてもよい。
画像認識システム106は、機械可読プログラム命令を実行することが可能な任意の電子デバイスに実装されてもよく、それはデータ処理システムと称されてもよい。画像認識システム106は、スマート・フォン、コンピュータ・システム、PDAまたは他の電子デバイスであってもよい。画像認識システム106が実装されてもよいコンピューティング・システム、環境または構成あるいはその組合せの例としては、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンド・ヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、ネットワークPC、ミニコンピュータ・システム、および上記システムまたはデバイスのいずれかを含む分散クラウド・コンピューティング環境を含むが、これらに限定されない。
画像認識システム106は、図2に例示されるように、破線の垂直線の左に内部部品、および破線の垂直線の右に外部部品を含んでもよい。内部部品は、1つまたは複数のプロセッサ202、1つまたは複数のコンピュータ可読ランダム・アクセス・メモリ・デバイス(RAM)204、および1つまたは複数のコンピュータ可読リード・オンリ・メモリ・デバイス(ROM)206、ならびに1つまたは複数のオペレーティング・システムおよび1つまたは複数のプログラムを含む1つまたは複数のコンピュータ可読有形記憶デバイス208を含み、全てが1つまたは複数のバス224を通じて通信する。オペレーティング・システム、ならびに画像認識プログラムおよびフィルタリング・プログラムなどのプログラムは、キャッシュ・メモリを典型的に含むRAM204を介するプロセッサ202による実行のためにコンピュータ可読有形記憶デバイス208上に記憶される。コンピュータ可読有形記憶デバイス208は、例えば、内部ハード・ドライブの磁気ディスク記憶デバイスであってもよい。代替的に、コンピュータ可読有形記憶デバイス208の1つまたは複数が、ROM206、EPROM、フラッシュ・メモリ、またはコンピュータ・プログラムおよびデジタル情報を記憶する任意の他のコンピュータ可読有形記憶デバイスなどの半導体記憶デバイスであってもよい。
内部部品は、CD−ROM、DVD、メモリ・スティック、磁気テープ、磁気ディスク、光ディスクまたは半導体記憶デバイスなどの1つまたは複数のポータブル・コンピュータ可読有形記憶デバイス220から読み取り、それに書き込むR/Wドライブまたはインタフェース218も含む。画像認識プログラムおよびフィルタリング・プログラムは、ポータブル・コンピュータ可読有形記憶デバイス220の1つまたは複数上に記憶され、R/Wドライブまたはインタフェース218を介して読み取られ、そしてコンピュータ可読有形記憶デバイス208へロードされてもよい。
内部部品は、TCP/IPアダプタ・カード、無線Wi−Fiインタフェース・カード、3Gもしくは4G無線インタフェース・カードまたは他の有線もしくは無線通信リンクなどの、スイッチ・ポート・カードとしても知られるネットワーク・アダプタまたはインタフェース222も含んでもよい。画像認識プログラムおよびフィルタリング・プログラムは、通信ネットワーク104およびネットワーク・アダプタまたはインタフェース222を介して外部コンピュータ、例えば、サーバからダウンロードされてもよい。ネットワーク・アダプタまたはインタフェース222から、画像認識プログラムおよびフィルタリング・プログラムは、有形記憶デバイス208へロードされてもよい。
外部部品は、コンピュータ・ディスプレイ・モニタ212、キーボード214およびコンピュータ・マウス216を含んでもよい。外部部品は、タッチ・スクリーン、仮想キーボード、タッチ・パッド、ポインティング・デバイスおよび他のヒューマン・インタフェース・デバイスも含んでもよい。内部部品は、コンピュータ・ディスプレイ・モニタ212、キーボード214およびコンピュータ・マウス216にインタフェースするデバイス・ドライバ210も含む。デバイス・ドライバ210、R/Wドライブまたはインタフェース218およびネットワーク・アダプタまたはインタフェース222は、ハードウェアおよび有形記憶デバイス209またはROM206あるいはその両方に記憶されるソフトウェアで実装される。
実施形態に従う通信デバイスに表示される情報の図が図3および図4に図示される。ユーザは、子供などの生徒であってもよく、この例ではタブレット・コンピュータである通信デバイス102を有する。ユーザは、通信デバイス102に、図3に図示されるように、学習アプリケーション302を表示させる。学習アプリケーションは、ユーザが画像認識システムに送信される写真または画像304を撮るのを容易にする。画像304における物体または特徴に基づいて、図4に図示されるように、情報402が受信および表示される。
図3に図示されるように、プリントした要目308、リンゴ310、ペン/鉛筆立て312および植物314が置かれている机306、ならびに文字「今日の授業:果物」が見えるホワイトボード/黒板316を含む画像304が表示される。画像認識システム106は、画像304における様々な物体または特徴を識別しようと試み、画像認識出力に1つまたは複数のフィルタを適用することによって画像をフィルタリングし、そしてユーザの通信デバイス102に物体または特徴の1つに関する情報を通信する。この例では、リンゴ310が目標特徴として選択される。リンゴに関する情報402が得られ、そして学習アプリケーション302を介する表示のためにユーザのタブレット102に通信される。
実施形態に従う画像認識出力をフィルタリングする方法を例示するフローチャートが図5に図示される。画像、例えば、画像304を表現するデータとも称される画像データが、ユーザのデバイス102から画像認識システム106によって受信502される。画像認識システム106は、1つまたは複数の画像認識アルゴリズムで画像データを処理および解析する。画像認識システム106は、画像データの解析および画像認識システム106のために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成504する。
訓練データは、各画像クラスにおける異なる物体または特徴について学習するために画像認識システム106によって活用される。例えば、様々な物体の多数の画像が画像認識システム106に入力されてもよく、そして物体の特性が解析されて訓練データとして記憶される。例えば、1つのクラスが、ボール、リンゴ、オレンジ、装身具等などの、丸い物体から成ってもよい。色、質感、大きさ、形状のばらつきまたは偏差等など、クラスにおいて1つの物体/特徴を別の物体/特徴から区別する訓練データが記憶される。訓練データは、画像認識システム106にローカルに記憶されても、または別のデータ処理システム108もしくはクラウド・サーバ110のデータベース112におけるような非ローカル・ストアから通信ネットワーク104を介してアクセスされてもよい。
画像認識システム106は、受信した画像の特徴と記憶された訓練データからの候補または潜在的特徴との間の最も近いマッピングまたは相関を見つけ出す。各候補特徴と信頼値またはスコアが関連付けられる。信頼値は、例えば、画像認識アルゴリズムがどれくらい「信頼して」画像からの物体を訓練データのクラスからの物体と識別したかを反映する。信頼値は0から1の範囲に及び、高い値ほど大きな相関を示す。
画像分類出力分布(ICOD)は、第1の信頼値と関連付けられる第1の画像特徴および第2の信頼値と関連付けられる第2の画像特徴等から成ってもよい。例えば、ICODは、5つの画像特徴および5つの関連付けられる信頼値を含んでもよい。図3の例の場合、ICODは、括弧内に信頼値を示して、リンゴ(0.92)、ボール(0.65)、オレンジ(0.21)、太陽(0.15)およびメロン(0.05)から成ってもよい。
画像分類出力分布に1つまたは複数のフィルタが適用506されて更新画像分類出力分布を得る。例えば、フィルタが適用されると、信頼値が調節されて更新ICODを得る。代替的または追加的に、ICODにおける物体または特徴が変更されてもよい。フィルタを適用することは、フィルタ・データをICODと相関させて更新ICODを得ることを含む。フィルタを適用すること506に関する更なる詳細については図6を参照されたい。
様々なフィルタは、画像304におけるテキストに行われる光学文字認識(OCR)、授業要目からのデータ、学習者モデルにおける関心のある話題、教師と生徒との間の通信、教室コンテキスト、生徒コンテキスト、教師コンテキスト、ユーザの位置、画像の環境等の1つまたは複数を含む。例えば、光学文字認識によって識別されるテキストがICODと相関されてもよい。
画像認識システムにおいてフィルタを適用する方法506を例示するフローチャートが図6に図示される。第1のフィルタ・データがICODと相関602されて更新ICODを得る。フィルタに関する情報/データが通信ネットワーク104を介して受信されてもよい。
図3の例では、第1のフィルタがOCRである場合、画像データに光学文字認識が行われて認識されたテキストを得、そして認識されたテキスト、この例では「今日の授業:果物」が相関602されるデータであって、非果物物体/特徴に対する信頼値を下げ、かつ果物である物体/特徴に対する信頼値を上げることによって、ICODを、リンゴ(0.98)、オレンジ(0.31)、ボール(0.15)、メロン(0.11)および太陽(0.05)に調節してもよい。したがって、フィルタの1つの例は、OCR出力を画像分類出力分布と相関させる。
第1のフィルタが授業要目である場合、要目は、ユーザのデバイス、ユーザと関連付けられている教師のデバイス、ユーザと関連付けられている学校のデバイスまたはユーザと関連付けて記憶されている他の要目データから得られる。例えば、現在の日時に対する要目から授業の一覧が得られてもよい。この例では、「木になる果物」が要目に挙げられている。木になる果物に関する情報が相関602されて、木になる果物でない非果物物体/特徴に対する信頼値を下げ、かつ木になる果物である物体/特徴に対する信頼値を上げることによって、ICODを、リンゴ(0.98)、オレンジ(0.31)、ボール(0.15)、メロン(0.01)および太陽(0.05)に調節する。
第1のフィルタが学習者モデルである場合、学習者モデルは、ユーザのデバイス、ユーザと関連付けられている教師のデバイス、ユーザと関連付けられている学校のデバイスまたはユーザと関連付けて記憶されている学習データから得られる。学習者モデルは、関心のある話題、例えば、ユーザによって学ばれる授業、ユーザによって学ばれるよう望まれる授業、ユーザがインターネットで調べた内容、撮った写真、ユーザによって入力される単語等を含んでもよい。この例では、学習者モデルは、果物および野菜を関心のある話題と識別する。果物および野菜に関する情報が相関602されて、非果物/野菜物体/特徴に対する信頼値を下げ、かつ果物/野菜である物体/特徴に対する信頼値を上げることによって、ICODを、リンゴ(0.98)、オレンジ(0.31)、トマト(0.15)、メロン(0.11)およびボール(0.05)に調節する。この例では、太陽は、上位相関物体/特徴の列挙におけるトマトと置き換えられる。
第1のフィルタが教師と、生徒であってもよいユーザとの間の通信から成る場合、例えば、ユーザは、教師に質問「あなたの机の上の赤い物は何ですか」をテキスト・メールする。赤い物体に関する情報が相関602されて、非赤い物体/特徴および教師の机の上に見つけられない物体/特徴に対する信頼値を下げ、かつ赤くかつ教師の机の上に見つけることができる物体/特徴に対する信頼値を上げることによって、ICODを、リンゴ(0.98)、ボール(0.35)、オレンジ(0.12)、メロン(0.05)および太陽(0.01)に調節する。
第1のフィルタがユーザの位置から成る場合、位置は、例えば、通信デバイス102のGPSデータから得られる、例えば、学校、または画像の環境から推定される、例えば、教室。学校または教室に関する情報が相関されて、学校または教室で見つけられない物体/特徴に対する信頼値を下げ、かつ学校または教室で見つけることができる物体/特徴に対する信頼値を上げることによって、ICODを、リンゴ(0.98)、ボール(0.40)、オレンジ(0.12)、メロン(0.05)および太陽(0.01)に調節する。
2つ以上のフィルタがICODに適用606されてもよい。例えば、ICOD出力がタブレット・コンピュータ(0.86)、ラップトップ(0.80)および移動電話(0.72)である場合、絶対信頼値か差値かを活用することによって画像に対してどの信頼値が最善であるかを正確に区別しようと試みることは、結局は大きな確実性または精度を提供しないであろう。もう1つのフィルタを適用してICODを変更または適応させることが、1つまたは複数の異なる信頼値、1つまたは複数の異なる特徴/物体および特徴/物体の異なる順序付け等を含んでもよい更新ICODという結果になる。複数のフィルタが適用される場合、それらは任意の順序で適用されてもよい。1つの実施形態において、ICODまたは更新ICODに対する最高信頼値が閾値を満たすまで、1つまたは複数のフィルタが連続して適用されてもよい。別の実施形態において、最高信頼値が閾値を満たすことができないとき、画像分類出力分布に少なくとも1つの追加フィルタが適用されて更新画像分類出力分布を得てもよい。例えば、最高信頼値が閾値を満たすまで、1つまたは複数の追加フィルタが適用されてもよい。
閾値は、例えば、所定の数値であってもよい。閾値は、ICODまたは更新ICODの最高信頼値が所定の数値または絶対値、例えば、0.90、0.95、0.99等を満たすときに満たされて604もよい。代替的に、閾値は、信頼値間の差値または他のばらつきであってもよい。この実施形態において、閾値は、最高信頼値が差値だけICODまたは更新ICODの2番目に高い信頼値以上であるときに満たされて604もよい。最高信頼値と2番目に高い信頼値との間の差は、差値、例えば、0.5、0.6、0.7等以上である。閾値を満たすことは、閾値に等しいことおよび閾値を超えることを含む。604で閾値が満たされないと判定すると、プロセスは606に続く。604で閾値が満たされると判定すると、プロセスは508に続く。
図5に図示されるように、更新画像分類出力分布から最高信頼値が選択508される。複数の画像特徴から最高信頼値と関連付けられている選択画像特徴が識別510される。選択画像特徴と関連付けられた情報がデータベースから得られ512、そして画像認識システムによって、ユーザのデバイスに通信514される。代替的に、2つ以上の特徴の識別が、例えば、特徴の1つのユーザによる選択のために、ユーザのデバイスに通信されてもよい。上記例の各々では、最高信頼値はリンゴと関連付けられたため、リンゴと関連付けられた情報402が、適宜、任意のデータベースから得られ512、そしてユーザのデバイス102に通信され、ここでこの情報は、図4に図示されるように、例えば、学習アプリによって表示される。情報は、画像認識システム106によって通信ネットワーク104を通じて通信されてもよく、または別のデータ処理システム108もしくはクラウド・サーバ110によってデバイス102に通信されてもよい。
実施形態に従うデータ・フロー図が図7に図示される。画像702を表現する画像データDが画像認識システム106およびOCRシステム704に通信される。画像認識システム106は、画像データに基づいてICODを生成し、そしてICODをフィルタ712に通信する。ICODは、ICODにおける画像特徴の各々に対するラベルLを含む。OCRシステム704からの認識されたテキストSがフィルタ712に入力される。授業要目に基づく関心のある話題を含むストア706がフィルタ712に話題T1を出力する。学習者モデルに基づく関心のある話題を含むストア708がフィルタ712に話題T2を出力する。ユーザ−教師通信または対話に基づく関心のある話題を含むストア710がフィルタ712に話題T3を出力する。<ICOD>および<S>、<ICOD>および<T1>、<ICOD>および<T2>、<ICOD>および<T3>の意味的相関に基づいて、ICODにおける1つまたは複数の特徴の信頼スコアが調節、微調整または強化される。例えば、ニューラル確率的言語モデルがT1、T2およびT3で訓練されて、教室コンテキストにおけるこれらの単語の意味論的意味を理解してもよい。<S>、<T1>、<T2>、<T3>および<L>は意味論的ベクトルとして表現されてもよく、そしてベクトル間で距離相関が行われて様々なフィルタを適用してもよい。ニューラル確率的言語モデルが活用されると、単語のコンテキストまたは意味論的意味が知られまたは理解され、そして単語はN−d空間にプロットされる。類似の単語がN−d空間においてより近くにプロットされ、ここでNは単語表現のベクトル・サイズであり、dは距離を表現する。例えば、単語「テスト・ケース」は、N−d空間において単語「テスト・スクリプト」の近くにある。単語「テストする」は、単語「テスト・ケース」および単語「テスト・スクリプト」の両方のより近くにあるが、「テスト・ケース」と単語「テスト・スクリプト」との間の距離は、「テスト・ケース」と単語「テストする」との間の距離より近い。
フィルタと関連付けられる単語、例えば、T1、T2およびT3が識別され、そして相関され、そしてモデルに追加されてもよく、このプロセスは訓練と称されてもよい。例えば、より多くの知識が学習されるにつれて、より多くの単語がフィルタに追加されてもよい。任意の2つの単語が与えられると、フィルタ、例えば、T1、T2、T3等に従ってそれらが意味論的に同じであるか異なるかを判定するために、モデルが活用されてもよい。例えば、フィルタが教室コンテキストであると、2つの識別される単語は、教室領域において意味論的に同じであるまたは異なると識別されることになる。ICODおよびOCR出力Sからの単語は、ニューラル確率的言語モデルに従って、ニューラル埋め込み表現または分散表現に変換される。ニューラル埋め込み表現は、単語間の相関を見つけ出すために活用される。<ICOD>および<S>、<ICOD>および<T1>、<ICOD>および<T2>、<ICOD>および<T3>の意味的相関に基づいて、ICODにおける1つまたは複数の特徴の信頼スコアが調節、微調整または強化される。
1つの例では、流通業者名TANGOREがその皮の外側に印刷されたオレンジを図示する画像を子供が送信する。ICOD出力は、ボール(0.78)、レモン(0.69)、オレンジ(0.62)および球体(0.01)である。今週の授業要目から、試験の話題として「果物および野菜」が挙げられており、そしてフィルタは「果物」(T1)であると予測される。子供の学習者モデルは、子供が柑橘類(T2)について学ぶことに興味を持っていることを示唆する。教師と子供は、動物、果物および野菜(T3)などの関心のある話題について話し合った。OCR出力Sは、「タンジェリン」および「Tangore」である。ICODおよびSがベクトルとして表現されると、タンジェリンがマンダリン・オレンジと同類であるので、「タンジェリン」は「オレンジ」の近くにあり、そしてTangoreがオレンジを流通させる会社であるので、「Tangore」は「オレンジ」の近くにある。T1(果物)、T2(柑橘類)、T3(動物、果物および野菜)と「オレンジ」および「レモン」との間の意味的相関は、「ボール」または「球体」との相関より高い。<ICOD>および<S>、<ICOD>および<T1>、<ICOD>および<T2>、<ICOD>および<T3>の意味的相関を活用して、ICODの信頼値は更新されて、最終的なICODは、オレンジ(0.95)、レモン(0.31)、ボール(0.02)および球体(0.001)である。画像の物体または特徴として、最高信頼値(0.95)の高い絶対値か差値(0.64)かに基づいて、オレンジが信頼して識別され得る。
図3における画像304に基づく他の例では、ICODは、ペン/鉛筆立て(0.5)、リンゴ(0.5)、植物(0.5)および机(0.5)から成ってもよい。OCRフィルタが適用されると、更新ICODは、リンゴ(0.95)、ペン/鉛筆立て(0.05)、植物(0.05)および机(0.05)であってもよく、そして最高信頼値と関連付けられている選択画像特徴としてリンゴが選択される。授業要目フィルタが適用され、そしてこの日時のための要目に「植物および木」が挙げられていると、更新ICODは、植物(0.95)、リンゴ(0.25)、机(0.15)およびペン/鉛筆立て(0.05)であってもよく、そして最高信頼値と関連付けられている選択画像特徴として植物が選択される。
学習者モデル・フィルタが適用され、そして関心のある話題として「容器」が挙げられていると、更新ICODは、ペン/鉛筆立て(0.75)、机(0.75)、植物(0.25)およびリンゴ(0.05)であってもよい。別のフィルタ、教師と生徒ユーザとの間の通信が適用されてもよい。この例では、生徒ユーザは、教師に質問「木製の物体について話すことができますか」をテキスト・メールし、そして更新ICODは、机(0.90)、ペン/鉛筆立て(0.65)、植物(0.15)、およびリンゴ(0.05)であってもよく、そして最高信頼値と関連付けられている選択画像特徴として机が選択される。
1つの例では、方法が、画像認識システムによって、画像を表現するデータを受信することと、画像認識システムによって、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成することとを含む。画像分類出力分布に1つまたは複数のフィルタが適用されて更新画像分類出力分布を得る。更新画像分類出力分布から最高信頼値が選択される。複数の画像特徴から最高信頼値と関連付けられている選択画像特徴が識別される。選択画像特徴と関連付けられた情報がデータベースから得られる。選択画像特徴と関連付けられた情報は、画像認識システムによってユーザのデバイスに通信される。
最高信頼値が閾値を満たすことができないと判定すると、画像分類出力分布に2つ以上のフィルタが適用されて更新画像分類出力分布を得てもよい。最高信頼値が閾値を満たすことができないと判定すると、画像分類出力分布に3つ以上のフィルタが適用されて更新画像分類出力分布を得てもよい。閾値は、更新画像分類出力分布の最高信頼値と2番目に高い信頼値との間の差値から成ってもよい。画像分類出力分布は、第1の組の信頼値から成ってもよく、そして1つまたは複数のフィルタを適用することは、第1の組の信頼値の少なくとも1つの信頼値を調節する。画像分類出力分布は、第1の組の画像特徴から成ってもよく、そして更新画像分類出力分布は、第2の組の画像特徴から成ってもよく、ここでは第1の組の画像特徴は第2の組の画像特徴と異なる。ユーザは生徒であってもよく、そしてフィルタは:授業要目からのデータ、学習者モデルからの関心のある話題、教師と生徒との間で通信される情報、およびユーザの位置の少なくとも1つから成ってもよい。フィルタは:教室コンテキスト、生徒コンテキストおよび教師コンテキストの少なくとも1つから成ってもよい。フィルタに関する情報が通信ネットワークを介して受信されてもよい。画像分類出力分布は、第1の信頼値と関連付けられる第1の画像特徴および第2の信頼値と関連付けられる第2の画像特徴から成ってもよく、そして1つまたは複数のフィルタを適用することは、第1の信頼値および第2の信頼値の少なくとも1つを調節する。画像分類出力分布は、第1の組の信頼値から成ってもよく、そして1つまたは複数のフィルタを適用することは、第1の組の信頼値の少なくとも1つの信頼値を調節する。画像を表現するデータに光学文字認識が行われて認識されたテキストを得てもよく、そして認識されたテキストは、画像分類出力分布と相関されてもよい。
別の例では、画像認識システムが、ユーザのデバイスから、画像を表現するデータを受信するように、およびユーザのデバイスに選択画像特徴と関連付けられた情報を通信するように構成されるネットワーク・アダプタを備える。少なくとも1つのプロセッサが:画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布(ICOD)を生成し;更新画像分類出力分布の最高信頼値が閾値を満たすまで画像分類出力分布に1つまたは複数のフィルタを適用することによって、複数の画像特徴に対する更新画像分類出力分布を得;複数の画像特徴から、最高信頼値と関連付けられている選択画像特徴を識別し;データベースから、選択画像特徴と関連付けられた情報を得るように配置および構築される。
少なくとも1つのプロセッサは、画像を表現するデータに光学文字認識を行って認識されたテキストを得、そして認識されたテキストを画像分類出力分布と相関させるように更に配置および構築されてもよい。画像分類出力分布は、第1の信頼値と関連付けられる第1の画像特徴および第2の信頼値と関連付けられる第2の画像特徴から成ってもよく、ここでは1つまたは複数のフィルタを適用することは、第1の信頼値および第2の信頼値を調節する。画像分類出力分布は、第1の組の信頼値から成ってもよく、そして1つまたは複数のフィルタを適用することは、第1の組の信頼値の少なくとも1つの信頼値を調節する。少なくとも1つのプロセッサは、最高信頼値が閾値を満たすことができない場合、画像分類出力分布に2つ以上のフィルタを適用して更新画像分類出力分布を得るように更に配置および構築されてもよい。少なくとも1つのプロセッサは、最高信頼値が閾値を満たすことができない場合、画像分類出力分布に3つ以上のフィルタを適用して更新画像分類出力分布を得るように更に配置および構築されてもよい。画像分類出力分布は、第1の組の信頼値から成ってもよく、そして1つまたは複数のフィルタを適用することは、第1の組の信頼値の少なくとも1つの信頼値を調節する。ユーザは生徒であってもよく、そしてフィルタは:授業要目からのデータ、学習者モデルからの関心のある話題、教師と生徒との間で通信される情報、およびユーザの位置の少なくとも1つから成ってもよい。フィルタは:教室コンテキスト、生徒コンテキストおよび教師コンテキストの少なくとも1つから成ってもよい。少なくとも1つのプロセッサは、通信ネットワークを介して、フィルタに関する情報を受信するように更に配置および構築されてもよい。
別の例では、画像認識システムのためのコンピュータ・プログラム製品が、プログラム命令が具象化されたコンピュータ可読記憶媒体を備え、プログラム命令はデバイスによって実行可能であり、デバイスに:画像認識システムによって、画像を表現するデータを受信し;画像認識システムによって、画像を表現するデータの解析および画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成し;画像認識システムによって、画像分類出力分布に第1のフィルタを適用することによって、複数の画像特徴に対する更新画像分類出力分布を得;画像認識システムによって、更新画像分類出力分布の最高信頼値が閾値を満たすまで更新画像分類出力分布に少なくとも1つの追加フィルタを連続して適用し;複数の画像特徴から、閾値を満たす最高信頼値と関連付けられている選択画像特徴を識別させる。第1のフィルタを適用することは、画像分類出力分布を授業要目と相関させることを含んでもよい。第2のフィルタを適用することは、画像分類出力分布をユーザと関連付けられている学習者モデルと相関させることを含んでもよい。第3のフィルタを適用することは、画像分類出力分布をユーザと教師との間の通信と相関させることを含んでもよい。
デバイスによって実行可能なプログラム命令は、更にデバイスに、データベースから、選択画像特徴と関連付けられた情報を得、そして選択画像特徴と関連付けられた情報をユーザのデバイスに通信させてもよい。画像分類出力分布は、第1の信頼値と関連付けられる第1の画像特徴および第2の信頼値と関連付けられる第2の画像特徴から成ってもよく、そして1つまたは複数のフィルタを適用することは、第1の信頼値および第2の信頼値の少なくとも1つを調節する。画像分類出力分布は、第1の組の信頼値から成ってもよく、そして1つまたは複数のフィルタを適用することは、第1の組の信頼値の少なくとも1つの信頼値を調節する。プログラム命令は、更にデバイスに、画像を表現するデータに光学文字認識を行って認識されたテキストを得、そして認識されたテキストを画像分類出力分布と相関させてもよい。上記は例証的な実施形態に関連して記載されたが、用語「例証的」は、最善または最適よりはむしろ、単に一例として意味されるだけであることが理解される。以上明記した場合を除き、記載または例示されたものは、請求項に詳述されるかされないかにかかわらず、いかなる部品、ステップ、特徴、物体、利益、利点または等価物の公共への公開も引き起こすとは意図されずまたは解釈されるべきでない。
本明細書で使用される用語および表現は、特定の意味が本明細書で別途記載される場合を除き、調査および研究のそれらの対応するそれぞれの領域に関してそのような用語および表現に与えられる通常の意味を有する。第1および第2などといった関係語は、専ら1つの実体または動作を別のものから区別するために使用されてもよく、必ずしもそのような実体または動作間のいかなる実際のそのような関係または順序も必要とせずまたは意味しない。用語「備える(comprises)」、「備えている(comprising)」またはそのいかなる他の変形も、列記した要素を備えるプロセス、方法、物品または装置がそれらの要素だけを含むのではなく、明記されないまたはそのようなプロセス、方法、物品または装置に固有の他の要素を含んでもよいように、非排他的包含を網羅すると意図される。「或る1つ(a)」または「或る1つ(an)」によって先行される要素は、更なる制約なしで、その要素を備えるプロセス、方法、物品または装置における追加の同一要素の存在を排除しない。
「要約」は、読者が技術的開示の本質を迅速に確認するのを可能にするために提供される。「要約」は、請求項の範囲または意味を解釈または限定するために「要約」が使用されないという理解の下で提出される。上記「発明を実施するための形態」では、本開示を合理化する目的で、様々な実施形態において様々な特徴がまとめられる。この開示の方法は、特許請求される実施形態が各請求項に明記されるより多くの特徴を有するという意図を反映すると解釈されるものではない。むしろ、以下の請求項が反映するように、発明の主題は、単一の開示される実施形態の全ての特徴より少なくなる。したがって、以下の請求項は、各請求項が別々に特許請求される主題として独立して、「発明を実施するための形態」に組み込まれる。

Claims (16)

  1. 画像認識を管理するための方法であって、前記方法が、
    画像認識システムによって、画像を表現するデータを受信することと、
    前記画像認識システムによって、前記画像を表現する前記データの解析および前記画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成することと、
    前記画像分類出力分布に1つまたは複数のフィルタを適用して更新画像分類出力分布を得ることと、
    前記更新画像分類出力分布から最高信頼値を選択することと、
    前記複数の画像特徴から、前記最高信頼値と関連付けられている選択画像特徴を識別することと、
    データベースから、前記選択画像特徴と関連付けられた情報を得ることと、
    前記画像認識システムによって、前記選択画像特徴と関連付けられた前記情報をユーザのデバイスに通信することとを含む、方法。
  2. 前記画像分類出力分布が、第1の組の画像特徴から成り、前記更新画像分類出力分布が、第2の組の画像特徴から成り、かつ前記第1の組の画像特徴が前記第2の組の画像特徴と異なる、請求項1に記載の方法。
  3. 前記画像分類出力分布が、第1の組の信頼値から成り、かつ前記1つまたは複数のフィルタを適用することが、前記第1の組の信頼値の少なくとも1つの信頼値を調節する、請求項1または2に記載の方法。
  4. 前記最高信頼値が閾値を満たすことができないと判定すると、前記画像分類出力分布に2つ以上のフィルタを適用して前記更新画像分類出力分布を得ることを更に含む、請求項1ないし3のいずれかに記載の方法。
  5. 前記閾値が、前記更新画像分類出力分布の前記最高信頼値と2番目に高い信頼値との間の差値から成る、請求項4に記載の方法。
  6. 前記1つまたは複数のフィルタが、授業要目からのデータ、学習者モデルからの関心のある話題、教師と生徒との間で通信される情報、および前記生徒の位置の少なくとも1つから成る、請求項1ないし5のいずれかに記載の方法。
  7. 前記画像を表現する前記データに光学文字認識を行って認識されたテキストを得、前記認識されたテキストを前記画像分類出力分布と相関させることを更に含む、請求項1ないし6のいずれかに記載の方法。
  8. 通信ネットワークを介して、前記1つまたは複数のフィルタに関する情報を受信することを更に含む、請求項1ないし7のいずれかに記載の方法。
  9. 画像認識を管理するための画像認識システムであって、前記システムが、
    ユーザのデバイスから、画像を表現するデータを受信するように、および前記ユーザのデバイスに選択画像特徴と関連付けられた情報を通信するように構成されるネットワーク・アダプタと、
    前記画像を表現する前記データの解析および前記画像認識システムのために記憶された訓練データに基づいて複数の画像特徴に対する画像分類出力分布を生成し、
    更新画像分類出力分布の最高信頼値が閾値を満たすまで前記画像分類出力分布に1つまたは複数のフィルタを適用することによって、前記複数の画像特徴に対する前記更新画像分類出力分布を得、
    前記複数の画像特徴から、前記最高信頼値と関連付けられている前記選択画像特徴を識別し、
    データベースから、前記選択画像特徴と関連付けられた情報を得る、
    ように配置および構築される少なくとも1つのプロセッサとを備える、システム。
  10. 前記少なくとも1つのプロセッサが、前記画像を表現する前記データに光学文字認識を行って認識されたテキストを得、前記認識されたテキストを前記画像分類出力分布と相関させるように更に配置および構築される、請求項9に記載の画像認識システム。
  11. 前記画像分類出力分布が、第1の信頼値と関連付けられる第1の画像特徴および第2の信頼値と関連付けられる第2の画像特徴から成り、かつ前記1つまたは複数のフィルタを適用することが、前記第1の信頼値および前記第2の信頼値の少なくとも1つを調節する、請求項9または10に記載の画像認識システム。
  12. 前記少なくとも1つのプロセッサが、前記最高信頼値が閾値を満たすことができない場合、前記画像分類出力分布に2つ以上のフィルタを適用して前記更新画像分類出力分布を得るように更に配置および構築される、請求項9ないし11のいずれかに記載の画像認識システム。
  13. 前記画像分類出力分布が、第1の組の信頼値から成り、かつ前記1つまたは複数のフィルタを適用することが、前記第1の組の信頼値の少なくとも1つの信頼値を調節する、請求項9ないし12のいずれかに記載の画像認識システム。
  14. 前記1つまたは複数のフィルタが、授業要目からのデータ、学習者モデルからの関心のある話題、教師と生徒との間で通信される情報、および前記生徒の位置の少なくとも1つから成る、請求項9ないし13のいずれかに記載の画像認識システム。
  15. 前記1つまたは複数のフィルタが、教室コンテキスト、生徒コンテキストおよび教師コンテキストの少なくとも1つから成る、請求項9ないし14のいずれかに記載の画像認識システム。
  16. 請求項1ないし8のいずれかに記載の方法をプロセッサに行わせるためのコンピュータ・プログラム。
JP2019543012A 2017-02-16 2017-12-13 画像分類出力分布のフィルタリングを伴う画像認識 Active JP6912588B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/434,701 2017-02-16
US15/434,701 US10275687B2 (en) 2017-02-16 2017-02-16 Image recognition with filtering of image classification output distribution
PCT/IB2017/057879 WO2018150243A1 (en) 2017-02-16 2017-12-13 Image recognition with filtering of image classification output distribution

Publications (2)

Publication Number Publication Date
JP2020507855A JP2020507855A (ja) 2020-03-12
JP6912588B2 true JP6912588B2 (ja) 2021-08-04

Family

ID=63104661

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019543012A Active JP6912588B2 (ja) 2017-02-16 2017-12-13 画像分類出力分布のフィルタリングを伴う画像認識

Country Status (5)

Country Link
US (1) US10275687B2 (ja)
JP (1) JP6912588B2 (ja)
CN (1) CN110291538B (ja)
GB (1) GB2572733B (ja)
WO (1) WO2018150243A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10540390B1 (en) 2017-08-07 2020-01-21 Amazon Technologies, Inc. Image-based item identification
CN109753980A (zh) * 2017-11-03 2019-05-14 虹软科技股份有限公司 一种用于检测的方法和装置
US11698927B2 (en) * 2018-05-16 2023-07-11 Sony Interactive Entertainment LLC Contextual digital media processing systems and methods
CN111291594A (zh) * 2018-12-07 2020-06-16 中国移动通信集团山东有限公司 一种图像识别方法及系统
US10956682B2 (en) 2019-02-05 2021-03-23 International Business Machines Corporation Image object disambiguation resolution using learner model based conversation templates
US10915795B2 (en) 2019-02-05 2021-02-09 International Business Machines Corporation Image object recognition through multimodal conversation templates
US11017655B2 (en) * 2019-10-09 2021-05-25 Visualq Hand sanitation compliance enforcement systems and methods
KR20210067442A (ko) * 2019-11-29 2021-06-08 엘지전자 주식회사 객체 인식을 위한 자동 레이블링 장치 및 방법
US11444898B2 (en) * 2020-04-12 2022-09-13 Lazy Texts, Llc Student-controlled text message reminders with third party systems
CN111915608B (zh) * 2020-09-11 2023-08-15 北京百度网讯科技有限公司 建筑物提取方法、装置、设备和存储介质
CN112541550B (zh) * 2020-12-16 2023-03-24 南京掌控网络科技有限公司 一种基于图像分类的冰箱完整性判断方法及电子设备

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8817045B2 (en) 2000-11-06 2014-08-26 Nant Holdings Ip, Llc Interactivity via mobile image recognition
US6763148B1 (en) 2000-11-13 2004-07-13 Visual Key, Inc. Image recognition methods
US6950555B2 (en) * 2001-02-16 2005-09-27 Parascript Llc Holistic-analytical recognition of handwritten text
US7031530B2 (en) 2001-11-27 2006-04-18 Lockheed Martin Corporation Compound classifier for pattern recognition applications
US7181062B2 (en) 2002-08-30 2007-02-20 Lockheed Martin Corporation Modular classification architecture for a pattern recognition application
US7496228B2 (en) * 2003-06-13 2009-02-24 Landwehr Val R Method and system for detecting and classifying objects in images, such as insects and other arthropods
KR100571826B1 (ko) * 2003-12-02 2006-04-17 삼성전자주식회사 대용량 얼굴 인식 장치 및 방법
US7100824B2 (en) * 2004-02-27 2006-09-05 Evolution Robotics, Inc. System and methods for merchandise checkout
CN1327387C (zh) * 2004-07-13 2007-07-18 清华大学 指纹多特征识别方法
US20100277772A1 (en) * 2007-08-15 2010-11-04 I. R. I. S. Method for managing sets of digitally acquired images and method for separation and identification of digitally acquired documents
TWI489394B (zh) * 2008-03-03 2015-06-21 Videoiq Inc 用於追蹤、索引及搜尋之物件匹配
CN101882217B (zh) * 2010-02-26 2012-06-27 杭州海康威视软件有限公司 视频图像的目标分类方法及装置
US20120011142A1 (en) * 2010-07-08 2012-01-12 Qualcomm Incorporated Feedback to improve object recognition
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9330339B2 (en) * 2012-06-11 2016-05-03 Hi-Tech Solutions Ltd. System and method for detecting cargo container seals
US9135712B2 (en) 2012-08-01 2015-09-15 Augmented Reality Lab LLC Image recognition system in a cloud environment
CN103577818B (zh) * 2012-08-07 2018-09-04 北京百度网讯科技有限公司 一种图像文字识别的方法和装置
US9355312B2 (en) * 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US20150088709A1 (en) 2013-09-26 2015-03-26 Jayasree Mekala Bill payment by image recognition
US9524418B2 (en) * 2014-06-05 2016-12-20 Promethean Limited Systems and methods for detecting, identifying and tracking objects and events over time
US9495619B2 (en) 2014-12-30 2016-11-15 Facebook, Inc. Systems and methods for image object recognition based on location information and object categories
US11029328B2 (en) * 2015-01-07 2021-06-08 Qualcomm Incorporated Smartphone motion classifier
KR102278945B1 (ko) * 2015-01-27 2021-07-19 삼성전자주식회사 이미지 처리 방법 및 이를 지원하는 전자 장치
CN105095919A (zh) * 2015-09-08 2015-11-25 北京百度网讯科技有限公司 图像识别方法和装置
CN105608441B (zh) 2016-01-13 2020-04-10 浙江宇视科技有限公司 一种车型识别方法及系统
CN106228162B (zh) 2016-07-22 2019-05-17 王威 一种基于深度学习的移动机器人快速物体识别方法
CN106611193A (zh) 2016-12-20 2017-05-03 太极计算机股份有限公司 一种基于特征变量算法的图像内容信息分析方法

Also Published As

Publication number Publication date
WO2018150243A1 (en) 2018-08-23
GB201911351D0 (en) 2019-09-25
GB2572733B (en) 2021-10-27
CN110291538A (zh) 2019-09-27
GB2572733A (en) 2019-10-09
JP2020507855A (ja) 2020-03-12
CN110291538B (zh) 2023-05-16
US20180232602A1 (en) 2018-08-16
US10275687B2 (en) 2019-04-30

Similar Documents

Publication Publication Date Title
JP6912588B2 (ja) 画像分類出力分布のフィルタリングを伴う画像認識
US11511436B2 (en) Robot control method and companion robot
US10061848B2 (en) Ontology-crowd-relevance deep response generation
JP7316453B2 (ja) オブジェクト推薦方法及び装置、コンピュータ機器並びに媒体
Kumar et al. Making sense of theories of leadership for capacity building
CN109902672B (zh) 图像标注方法及装置、存储介质、计算机设备
CN108229478A (zh) 图像语义分割及训练方法和装置、电子设备、存储介质和程序
Hmedna et al. Identifying and tracking learning styles in MOOCs: A neural networks approach
CN111666416A (zh) 用于生成语义匹配模型的方法和装置
CN112749558B (zh) 一种目标内容获取方法、装置、计算机设备和存储介质
CN109978175A (zh) 用于机器学习模型的并行化坐标下降法
CN112508750A (zh) 人工智能教学装置、方法、设备及存储介质
Magassouba et al. Predicting and attending to damaging collisions for placing everyday objects in photo-realistic simulations
US20230055991A1 (en) System and method for interactive dialogue
CN113961679A (zh) 智能问答的处理方法、系统、电子设备及存储介质
US20170193333A1 (en) Analyzing and exploring images posted on social media
US20190034757A1 (en) Method and system for on-device image recognition
CN113077237B (zh) 一种自适应混合算法的排课方法及系统
Shapsough et al. IoT for ubiquitous learning applications: current trends and future prospects
KR102568378B1 (ko) 외국어 학습서비스장치 및 그 장치의 구동방법
US8718337B1 (en) Identifying an individual for a role
Chung et al. Sequential UI behaviour prediction system based on long short-term memory networks
CN113568983B (zh) 场景图生成方法、装置、计算机可读介质及电子设备
Croucher et al. Locomote–a framework for classification of natural locomotion in vr by task, technique and modality
US20190179970A1 (en) Cognitive human interaction and behavior advisor

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210708

R150 Certificate of patent or registration of utility model

Ref document number: 6912588

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250