JP6784791B2

JP6784791B2 - 視覚的関係を推論することによる工業検査シートのデジタル化

Info

Publication number: JP6784791B2
Application number: JP2019043349A
Authority: JP
Inventors: ロヒットラフル; アリンダムチョウドゥリー; ロヴェケシュヴィグ; アニメシュ; サマースミッタル
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2018-11-28
Filing date: 2019-03-11
Publication date: 2020-11-11
Anticipated expiration: 2039-03-11
Also published as: CN111241897A; AU2019201380B1; CN111241897B; JP2020087404A; EP3660731A1; CA3035387C; US20200167557A1; US10970531B2; CA3035387A1

Description

優先権の主張
本願は、２０１８年１１月２８日出願のインド特許出願第２０１８２１０４４９３９号の優先権を主張する。前述した出願の内容全体が、参照により本明細書に組み入れられる。

技術分野
本明細書の開示は、全般的に、工業検査シートを解析することに関し、特に、視覚的関係を推論することにより工業検査シートをデジタル化するシステムおよびコンピュータに実装された方法に関する。

工場用重機の障害を記録する従来の形態は、検査エンジニアが機械の略図用紙に障害のある機械の領域を手で記す、手記の検査シートによるものであった。長年にわたり、そのような検査シートが無数に記録され、これらのシートの中のデータは利用できないままであった。しかしながら、産業界がデジタル化を進め、機械の健全性監視のための障害データの潜在的な価値に気付くのとともに、こうした手記の検査記録のデジタル化へ向かう勢いが増している。

本開示の実施形態は、従来型のシステムにおいて発明者らにより認識された上述した技術的課題の１つ以上に対する解決策として、技術的改善を提示する。

或る側面において、プロセッサに実装された方法が提供され、プロセッサに実装された方法は、１つ以上のハードウェアプロセッサによって、複数の画像を備えた入力を受信するステップであって、複数の画像は、同一のテンプレート１つ以上により特徴付けられ、１つ以上のテンプレートの中の各テンプレートは、１つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の１つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、受信するステップと、１つ以上のハードウェアプロセッサによって、動的部分を備えた複数のテンプレート除去画像を獲得するために、複数の画像それぞれから１つ以上のテンプレートを、画像中で識別された静的部分に基づいて削除するステップであって、手書きコンテンツは、１つ以上の連結部に関連する独立したテキストパッチおよび１つ以上のダイアログ吹き出しのうちの少なくとも１つを備え、１つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよびテキストパッチを囲む吹き出しを含む、削除するステップと、１つ以上のハードウェアプロセッサによって、複数の吹き出し除去画像を獲得するべく、１つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのＳｅｇＮｅｔアーキテクチャを使用して、複数のテンプレート除去画像をその１つ以上のダイアログ吹き出しを削除するために処理するステップであって、吹き出し除去画像は、複数のテキストパッチを備える、処理するステップと、１つ以上のハードウェアプロセッサによって、１つ以上の連結部を構成する１つ以上の矢印および１つ以上の線分のうちの少なくとも１つを検出するためにそれぞれ畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）分類器およびハフ線分変換を使用することにより、複数の吹き出し除去画像中の１つ以上の連結部を検出するステップと、１つ以上のハードウェアプロセッサによって、コネクショニストテキスト提案ネットワーク（ＣＴＰＮ：ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｘｔＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を使用して入力の複数の画像それぞれにおける各テキストパッチの座標を検出するステップであって、座標は、各テキストパッチの周りのバウンディングボックスを形成する、検出するステップと、１つ以上のハードウェアプロセッサによって、１つ以上の連結部それぞれを対応するテキストパッチに、その関連する座標に基づいて、且つクラスタリング法を使用することによりマッピングするステップと、１つ以上のプロセッサによって、吹き出し除去画像、カプセルネットワーク（ＣａｐｓＮｅｔ：ＣａｐｓｕｌｅＮｅｔｗｏｒｋ）、および空間変換ネットワーク（ＳＴＮ：ＳｐａｔｉａｌＴｒａｎｓｆｏｒｍｅｒＮｅｔｗｏｒｋ）を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード（ＡＳＣＩＩ：ＡｍｅｒｉｃａｎＳｔａｎｄａｒｄＣｏｄｅｆｏｒＩｎｆｏｒｍａｔｉｏｎＩｎｔｅｒｃｈａｎｇｅ）フォーマットで識別するステップと、１つ以上のプロセッサによって、マッピングされた１つ以上の連結部および対応するテキストパッチの座標を使用することにより、各テキストパッチに関連する識別されたテキストの、対応する機械の１つ以上の画定済み区域のうちの１つに対する１対１マッピングを実行するステップであって、それによってそれらの間に視覚的関係を提供する、実行するステップと、を含む。

別の側面において、１つ以上のハードウェアプロセッサに動作結合され、命令を格納するように構成された、１つ以上のデータストレージデバイスを備えるシステムが提供され、命令は、複数の画像を備えた入力を受信することであって、複数の画像は、同一のテンプレート１つ以上により特徴付けられ、１つ以上のテンプレートの中の各テンプレートは、１つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の１つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、受信することと、動的部分を備えた複数のテンプレート除去画像を獲得するために、複数の画像それぞれから１つ以上のテンプレートを、画像中で識別された静的部分に基づいて削除することであって、手書きコンテンツは、１つ以上の連結部に関連する独立したテキストパッチおよび１つ以上のダイアログ吹き出しのうちの少なくとも１つを備え、１つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよびテキストパッチを囲む吹き出しを含む、削除することと、複数の吹き出し除去画像を獲得するべく、１つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのＳｅｇＮｅｔアーキテクチャを使用して、複数のテンプレート除去画像をその１つ以上のダイアログ吹き出しを削除するために処理することであって、吹き出し除去画像は、複数のテキストパッチを備える、処理することと、１つ以上の連結部を構成する１つ以上の矢印および１つ以上の線分のうちの少なくとも１つを検出するためにそれぞれ畳み込みニューラルネットワーク（ＣＮＮ）分類器およびハフ線分変換を使用することにより、複数の吹き出し除去画像中の１つ以上の連結部を検出することと、コネクショニストテキスト提案ネットワーク（ＣＴＰＮ）を使用して入力の複数の画像それぞれにおける各テキストパッチの座標を検出することであって、座標は、各テキストパッチの周りのバウンディングボックスを形成する、座標を検出することと、１つ以上の連結部それぞれを対応するテキストパッチに、その関連する座標に基づいて、且つクラスタリング法を使用することによりマッピングすることと、吹き出し除去画像、カプセルネットワーク（ＣａｐｓＮｅｔ）、および空間変換ネットワーク（ＳＴＮ）を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード（ＡＳＣＩＩ）フォーマットで識別することと、マッピングされた１つ以上の連結部および対応するテキストパッチの座標を使用することにより、各テキストパッチに関連する識別されたテキストの、対応する機械の１つ以上の画定済み区域のうちの１つに対する１対１マッピングを実行することであって、それによってそれらの間に視覚的関係を提供する、実行することと、のために１つ以上のハードウェアプロセッサにより実行されるように構成される。

さらに別の側面において、非一時的コンピュータ可読媒体において具現化されたコンピュータ可読プログラムを有する非一時的コンピュータ可読媒体を備えたコンピュータプログラム製品が提供され、コンピュータ可読プログラムは、コンピューティングデバイス上で実行されるとコンピューティングデバイスに、複数の画像を備えた入力を受信することであって、複数の画像は、同一のテンプレート１つ以上により特徴付けられ、１つ以上のテンプレートの中の各テンプレートは、１つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の１つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、受信することと、動的部分を備えた複数のテンプレート除去画像を獲得するために、複数の画像それぞれから１つ以上のテンプレートを、画像中で識別された静的部分に基づいて削除することであって、手書きコンテンツは、１つ以上の連結部に関連する独立したテキストパッチおよび１つ以上のダイアログ吹き出しのうちの少なくとも１つを備え、１つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよびテキストパッチを囲む吹き出しを含む、削除することと、複数の吹き出し除去画像を獲得するべく、１つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのＳｅｇＮｅｔアーキテクチャを使用して、複数のテンプレート除去画像をその１つ以上のダイアログ吹き出しを削除するために処理することであって、吹き出し除去画像は、複数のテキストパッチを備える、処理することと、１つ以上の連結部を構成する１つ以上の矢印および１つ以上の線分のうちの少なくとも１つを検出するためにそれぞれ畳み込みニューラルネットワーク（ＣＮＮ）分類器およびハフ線分変換を使用することにより、複数の吹き出し除去画像中の１つ以上の連結部を検出することと、コネクショニストテキスト提案ネットワーク（ＣＴＰＮ）を使用して入力の複数の画像それぞれにおける各テキストパッチの座標を検出することであって、座標は、各テキストパッチの周りのバウンディングボックスを形成する、座標を検出することと、１つ以上の連結部それぞれを対応するテキストパッチに、その関連する座標に基づいて、且つクラスタリング法を使用することによりマッピングすることと、吹き出し除去画像、カプセルネットワーク（ＣａｐｓＮｅｔ）、および空間変換ネットワーク（ＳＴＮ）を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード（ＡＳＣＩＩ）フォーマットで識別することと、マッピングされた１つ以上の連結部および対応するテキストパッチの座標を使用することにより、各テキストパッチに関連する識別されたテキストの、対応する機械の１つ以上の画定済み区域のうちの１つに対する１対１マッピングを実行することであって、それによってそれらの間に視覚的関係を提供する、実行することと、をさせる。

本開示の実施形態により、１つ以上のプロセッサは、入力の中の複数の画像を反転することと、反転された複数の画像の空間方向の平均化を実行することと、１つ以上のテンプレートを抽出するために、平均化された画像に適応的閾値処理を適用することと、１つ以上のテンプレート中の各点と、入力との相関関係を獲得するために、抽出された１つ以上のテンプレートと入力とを、正規化相互相関法を使用して照合することと、最大の相関関係を呈する点に基づいて、１つ以上のテンプレートの位置を判断することと、入力から１つ以上のテンプレートを、その判断された位置に基づいて削除することと、により、１つ以上のテンプレートを削除するようにさらに構成される。

本開示の実施形態により、１つ以上のプロセッサは、背景クラス、境界クラス、およびダイアログ吹き出しクラスを含む３つのクラスを区別するように複数のダイアログ吹き出し画像のデータセットに対して事前訓練されたＳｅｇＮｅｔアーキテクチャを使用して、１つ以上のダイアログ吹き出しに対してマスクを生成することと、複数の吹き出し除去画像を獲得するために、テンプレート除去画像からマスクを減算することと、により、複数のテンプレート除去画像を処理するようにさらに構成される。

本開示の実施形態により、複数の吹き出し除去画像において、矢印クラスおよび背景クラスを含む２つのクラスを区別するように事前訓練されたＣＮＮを使用して、１つ以上の矢印を検出することと、１つ以上の線分の存在（ｐｒｅｓｅｎｔ）を検出するためにハフ線分変換を使用し、同じ傾きを有し５０ｐｘ（画素）未満のユークリッド距離を間に有する検出された１つ以上の線分を併合し、１つ以上の連結部の対応するテキストパッチに対するマッピングに基づいて１つ以上の線分をフィルタリングすることにより、１つ以上の線分を検出することと、による。

本開示の実施形態により、１つ以上のプロセッサは、各テキストパッチの周りのバウンディングテキストボックスを位置特定するために、ＣＴＰＮを使用してテキスト行を位置特定することと、重なりを持たせて複数の画像それぞれにおいて４８０×３６０ｐｘのウィンドウをサンプリングすることと、により、入力の中の複数の画像それぞれにおける各テキストパッチの座標を検出するようにさらに構成される。

本開示の実施形態により、１つ以上のプロセッサは、１つ以上の矢印の末端を推定することにより、１つ以上の連結部それぞれを各テキストパッチの周りのバウンディングボックスのうちの１つに関連付けることと、テキストパッチの数が１つ以上の連結部の数と等しくなるように、クラスタリング法を使用してテキストパッチをクラスタリングすることと、により、１つ以上の連結部それぞれを対応するテキストパッチにマッピングするようにさらに構成される。

本開示の実施形態により、クラスタリング法は、（ｉｉ）Ｋ平均クラスタリング法、Ｋはバウンディングボックスそれぞれに関連付けられた連結部の数である、または（ｉｉ）平均シフトクラスタリング法、のいずれかである。

本開示の実施形態により、１つ以上のプロセッサは、１つ以上の文字を中に有するセグメントを生成するために、連結要素解析（ＣＣＡ：ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔＡｎａｙｌｙｓｅｓ）を使用して各テキストパッチのセグメンテーションを行うことと、人間が読むことができる形式に配列された文字を獲得するために、順序付けられていない生成されたセグメント中のセグメンテーションされた文字を並べ換えることと、１つを超える文字を中に有する生成されたセグメントを認識するために、ＣａｐｓＮｅｔを使用することと、１つの文字を中に有する生成されたセグメントを認識するために、ＳＴＮを使用することと、により、各テキストパッチに関連するテキストを識別するようにさらに構成される。

本開示の実施形態により、１つ以上のプロセッサは、各テキストパッチに関連する識別されたテキストの、１つ以上の画定済み区域に対する１対１マッピングを、テキストパッチが近くにあることが末端を示し画定済み区域に近いことが矢印の矢じりを示すような１つ以上の連結部の推定をすることにより実行するようにさらに構成される。

当然のことながら、前述した概略の説明および以下の詳細な説明は、いずれも例示的且つ説明的なものでしかなく、特許請求される発明を制限するものではない。

添付の図面は、本開示に組み入れられてその一部を構成し、例示的な実施形態を示し、本記載ともに、開示される原理を説明するのに役立つ。

本開示の実施形態による、視覚的関係を推論することによる工業検査シートのデジタル化のためのシステムの例示的なブロック図を示す。本開示の実施形態による、視覚的関係を推論することにより工業検査シートをデジタル化する、コンピュータに実装された方法の例示的なフロー図を示す。本開示の実施形態による、視覚的関係を推論することにより工業検査シートをデジタル化する、コンピュータに実装された方法の例示的なフロー図を示す。本開示の実施形態による工業検査シートを示す。本開示の実施形態による工業検査シート中の必須構成部分を示す。本開示の実施形態による、図２Ａおよび図２Ｂの方法の或る段階での出力を示す。本開示の実施形態による、図２Ａおよび図２Ｂの方法の或る段階での出力を示す。本開示の実施形態による、図２Ａおよび図２Ｂの方法の或る段階での出力を示す。本開示の実施形態による、図２Ａおよび図２Ｂの方法の或る段階での出力を示す。本開示の実施形態による、図２Ａおよび図２Ｂの方法の或る段階での出力を示す。本開示の実施形態による、図２Ａおよび図２Ｂの方法の或る段階での出力を示す。本開示の実施形態による、図１のシステムに対する入力における画像を示す。本開示の実施形態による、図５Ａの画像中のテンプレートを示す。本開示の実施形態による、テンプレート除去画像を示す。本開示の実施形態による、吹き出し除去画像を獲得する様々な段階での出力を示す。本開示の実施形態による、吹き出し除去画像を獲得する様々な段階での出力を示す。本開示の実施形態による、吹き出し除去画像を獲得する様々な段階での出力を示す。本開示の実施形態による、吹き出し除去画像中で連結部が検出される場合の出力を示す。本開示の実施形態による、コネクショニストテキスト提案ネットワーク（ＣＴＰＮ）により検出されたテキストボックスを示す。本開示の実施形態による、連結部とマッピングされたテキストボックスを示す。本開示の実施形態による、テキストパッチに対するセグメンテーションの出力を示す。本開示の実施形態による、テキストパッチに対するセグメンテーションの出力であって、人間が読むことができる形式に配列された文字を獲得するためにセグメント中の文字が並べ換えられた後のものを示す。本開示の実施形態による、テキストパッチの中の関連するテキストを識別するためのカプセルネットワーク（ＣａｐｓＮｅｔ）および空間変換ネットワーク（ＳＴＮ）の使用を示す。本開示の実施形態による、ダメージコードの文法に基づいて図１１の出力に加えられた訂正を示す。本開示の実施形態による、テキストパッチに関連する識別されたテキストの、対応する機械の１つ以上の画定済み区域のうちの１つに対する１対１マッピングを示す。

例示的な実施形態が、添付の図面を参照して記載される。図面において、参照番号の左端の数字（単数または複数）は、参照番号が最初に現れる図面を識別する。簡便な場合は、同じまたは同様の部分を指すために、各図面にわたって同じ参照番号が使用される。開示される原理の例および特徴が本明細書に記載されるが、開示された実施形態の意図および範囲から逸脱することなく変更、適応、および他の実装が可能である。以下の詳細な説明は、例示的でしかないとみなされ、真の範囲および意図は、添付の特許請求の範囲により示されるものとする。

工場用設備の工業検査は、工場環境では一般的なプロセスであり、設備の物理的な調査をし、さらに後から紙ベースの検査シートに障害を記すことを伴う。紙ベースのスキャンは、数十年にわたる検査で検出された無数の障害に関するデータを有する。予知保全のための障害データの莫大な価値を考慮して、産業界は、極めて非構造的なスキャン済み検査シートの形態で格納されている障害データの膨大な蓄積を利用して、それらから構造化されたレポートを生成したがっている。活字体で書かれたテキストを確実に検出する取り組みは当技術分野で行われてきたが、紙ベースのスキャンのデジタル化における課題には、考えられる筆跡の多様性を考慮に入れた手書きテキストの検出、静的および動的両方のコンテンツを有する画像の前処理、機械テンプレート図の多様性、識別されるグラフィカルオブジェクトの構造化されていない形状、およびレイアウト解析が含まれる。以下に提供される記載は、ボイラーおよびコンテナの検査シートからの情報抽出に関する。しかしながら、本開示のシステムおよび方法は、一般に、任意の機械に適用されてよい。

以下、図面、特に図１〜図１３を参照する。図面では、同様の参照文字が対応する特徴を各図面にわたって一貫して示し、好適な実施形態が示されており、これらの実施形態は以下の例示的なシステムおよび／または方法の文脈で説明される。

図１は、本開示の実施形態による、視覚的関係を推論することによる工業検査シートのデジタル化のためのシステム１００の例示的なブロック図を示す。実施形態において、システム１００は、１つ以上のプロセッサ１０４、通信インターフェースデバイス（単数または複数）または入出力（Ｉ／Ｏ：ｉｎｐｕｔ／ｏｕｔｐｕｔ）インターフェース（単数または複数）１０６、および１つ以上のプロセッサ１０４に動作結合された１つ以上のデータストレージデバイスまたはメモリ１０２を含む。ハードウェアプロセッサである１つ以上のプロセッサ１０４は、１つ以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理ユニット、状態機械、グラフィックスコントローラ、論理回路構成、および／または動作命令に基づき信号を操作する任意のデバイスとして実施可能である。いくつかある能力の中で特に、プロセッサ（単数または複数）は、メモリに格納されたコンピュータ可読命令をフェッチおよび実行するように構成される。本開示の文脈では、「プロセッサ」および「ハードウェアプロセッサ」という表現が区別なく使用されることもある。実施形態において、システム１００は、ラップトップコンピュータ、ノートブック、ハンドヘルドデバイス、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウド、および同様のものなど、様々なコンピューティングシステムにおいて実施可能である。

Ｉ／Ｏインターフェース（単数または複数）１０６は、例としてウェブインターフェース、グラフィカルユーザインターフェース、および同様のものなど、様々なソフトウェアインターフェースおよびハードウェアインターフェースを含むことができ、例としてＬＡＮ、ケーブルなどの有線ネットワーク、ならびにＷＬＡＮ、セルラ、または衛星などの無線ネットワークを含む、多種多様なネットワークＮ／Ｗおよびプロトコルタイプの中で複数の通信を促進することができる。実施形態において、Ｉ／Ｏインターフェース（単数または複数）は、いくつかのデバイスを互いに、または別のサーバに接続する１つ以上のポートを含むことができる。

メモリ１０２は、例として、スタティックランダムアクセスメモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）およびダイナミックランダムアクセスメモリ（ＤＲＡＭ：ｄｙｎａｍｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）などの揮発性メモリ、ならびに／または読み取り専用メモリ（ＲＯＭ：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、消去可能プログラム可能ＲＯＭ、フラッシュメモリ、ハードディスク、光学ディスク、および磁気テープなどの不揮発性メモリなどを含め、当技術分野で周知の任意のコンピュータ可読媒体を含み得る。実施形態において、システム１００の１つ以上のモジュール（図示せず）は、メモリ１０２に格納可能である。

図２Ａおよび図２Ｂは、本開示の実施形態による、視覚的関係を推論することにより工業検査シートをデジタル化する、コンピュータに実装された方法２００の例示的なフロー図を示す。実施形態において、システム１００は、１つ以上のプロセッサ１０４による方法２００のステップの実行のために構成された命令を格納するように構成され１つ以上のプロセッサ１０４に動作結合された、１つ以上のデータストレージデバイスまたはメモリ１０２を含む。以下、方法２００のステップが、図１のシステム１００の構成部分を参照して詳細に説明される。プロセスステップ、方法ステップ、手法、または同様のものが順番に記載されるかもしれないが、そのようなプロセス、方法、および手法は、他の順序で機能するように構成されてもよい。換言すれば、記載され得るステップの任意のシーケンスまたは順序は、必ずしもステップがその順序で実行されるという要件を示すものではない。本明細書に記載されたプロセスのステップは、実用的な任意の順序で実行され得る。さらに、一部のステップが同時に実行されてもよい。

本開示の実施形態により、図３Ａは、工業検査シートを示し、図３Ｂは、工業検査シート中の必須構成部分を示す。図３Ａに見られるように、工業検査シートは、種々のタイプの機械の印刷された線図表現を有し、個々の線図は、以下でテンプレートと呼ばれる。図３Ｂにあるように、機械に関連する各テンプレートは、典型的に検査エンジニアにより識別される１つ以上の画定済み区域を有する。線図表現、例えば機械の３次元（３Ｄ：３−Ｄｉｍｅｎｓｉｏｎａｌ）正投影図は、検査シートのセットにわたって一定にとどまる、テンプレートの静的部分を構成する。検査エンジニアは、典型的には、ダメージが発生している可能性のある機械の構成部分に対して、手書きコンテンツを記す。１つ以上の画定済み区域それぞれに関連する手書きコンテンツは、テンプレートの動的部分を構成する。典型的には、手書きコンテンツは、ダメージコードおよび／または独立したテキストパッチの形態のコメントを備える。一部のテキストパッチは、吹き出しまたはバブルで囲まれることもあり、以下ではダイアログ吹き出しと呼ばれる。手書きコンテンツはさらに、１つ以上の連結部を備え、この連結部は、画定済み区域とテキストパッチに含まれるダメージコードとの間の視覚的関係を定めるために、独立したテキストパッチおよびダイアログ吹き出しそれぞれが１つ以上の画定済み区域のうちの１つへの連結部に関連するように記される。本開示により、デジタル化された文書として格納するため、テンプレート上のダメージコードが位置特定されて、対応する画定済み区域に関連付けられる。その結果、長年にわたり収集された視覚的関係の分析が、機械の健全性監視を含む様々な目的に利用され得る。

図４Ａ〜図４Ｆは、本開示の実施形態による、図２Ａおよび図２Ｂの方法の様々な段階での出力を示す。本開示の実施形態により、１つ以上のプロセッサ１０４は、ステップ２０２にて、複数の画像を備えた入力を受信するように構成され、複数の画像は、同一セットのテンプレートにより特徴付けられ、各テンプレートは、上記説明のように、静的部分および動的部分を備える。図４Ａは、本開示の実施形態による例示的な入力を示す。次に、テンプレートおよびダイアログ吹き出しが入力から削除される。

よって、本開示の実施形態により、１つ以上のプロセッサ１０４は、ステップ２０４にて、複数のテンプレート除去画像を獲得するために、テンプレートそれぞれにおいて識別された静的部分に基づいて、複数の画像それぞれから１つ以上のテンプレートを削除するように構成される。図４Ｂは、例示的なテンプレート除去画像を示す。実施形態において、テンプレート除去画像は、動的部分を備え、手書きコンテンツは、１つ以上の連結部に関連する独立したテキストパッチおよび１つ以上のダイアログ吹き出しのうちの少なくとも１つを含む。

実施形態において、１つ以上のテンプレートを削除するステップは、まず、受信された入力の中の複数の画像を反転し、その後、反転された複数の画像の空間方向の平均化が続き、次に、１つ以上のテンプレートを抽出するために、平均化された画像に適応的閾値処理を適用することを含む。各テンプレートの相対的な開始点は複数の画像にわたって一貫しないことに留意されたい。それ故、入力の複数の画像中で、個々のテンプレートそれぞれを発見して、それらを位置特定する必要がある。この目的のために、平均化された画像上の輪郭線が検出されて、入力画像がルートノードを構成し検出されたテンプレートがテンプレートを構成するツリー構造に配列されてもよい。次に、深さ１のノードが、個々のテンプレートとして識別されてもよい。実施形態において、１つ以上のテンプレート中の各点と入力との相関関係を獲得するために、正規化相互相関法を使用して、抽出された１つ以上のテンプレートが入力と照合される。その結果、最大の相関関係を呈する点に基づいて、１つ以上のテンプレートの位置が判断される。説明のように位置特定されたテンプレートを削除するために、２つの画像ＴおよびＲに対して、下記に示すように、演算子Ｎｏｔ（Ｔ（ｉ，ｊ））およびＲ（ｉ，ｊ）が使用され、Ｔはテンプレート画像を表現し、Ｒは入力画像を表現する。

図５Ａは、本開示の実施形態による、図１のシステムに対する入力における画像を示す。本開示の実施形態により、それぞれ、図５Ｂは図５Ａの画像中のテンプレートを示し、図５Ｃはテンプレート除去画像を示す。

ダイアログ吹き出しは、前述したように、テキストパッチを含む。これらは複数の画像中のあちこちに存在し、連結部およびテキストパッチの中のテキストのような動的部分の検出を妨げる。よって、本開示の実施形態において、１つ以上のプロセッサ１０４は、ステップ２０６にて、１つ以上のダイアログ吹き出しのセグメンテーションを行い複数の吹き出し除去画像を獲得するために、エンコーダ・デコーダベースのＳｅｇＮｅｔアーキテクチャを使用して、複数のテンプレート除去画像を１つ以上のダイアログ吹き出しを削除するために処理するように構成される。図４Ｃは、本開示の実施形態による、吹き出し除去画像を示す。吹き出し除去画像は今や、複数のテキストパッチのみを備えることに注目されたい。

実施形態において、複数のテンプレート除去画像を処理するステップは、背景クラス、境界クラス、およびダイアログ吹き出しクラスを含む３つのクラスを区別するよう、複数のダイアログ吹き出し画像のデータセットに対して事前訓練されたＳｅｇＮｅｔアーキテクチャを使用して、１つ以上のダイアログ吹き出しに対してマスクを生成することを含む。概して、ＳｅｇＮｅｔアーキテクチャは、ダイアログ吹き出しの構造を学習することができた。時折、ＳｅｇＮｅｔアーキテクチャは、少数の画素を背景クラスとして分類することもあり、これが吹き出しが存在したところにごま塩ノイズをもたらすことにつながる場合もあるが、この問題は、後に、各テキストパッチに関連するテキストが識別されるときにステップ２１４にて対処される。実施形態では、次に、複数の吹き出し除去画像を獲得するために、テンプレート除去画像からマスクが減算される。図６Ａ〜図６Ｃは、本開示の実施形態による、吹き出し除去画像を獲得する様々な段階での出力を示す。図６Ａはテンプレート除去画像を表現し、図６Ｂはダイアログ吹き出しを表現し、図６Ｃは図６Ａのダイアログ吹き出しから獲得されたテキストパッチを表現することに注目されたい。

本開示により、次のステップは、図４Ｄに示されるように、テキストパッチおよび１つ以上の連結部を位置特定することを伴う。この目的で、１つ以上の連結部が識別される必要がある。

連結部は、テキストパッチと対応する画定済み区域との間の１対１の関係を定める。１つ以上の連結部は、顕著な矢じりを備えた矢印として現れることもあるが、ただの線分であること、または線分の複数の断片であることも多く、自動化プロセスの複雑さを増大させる。本開示により、この問題には２つのアプローチを使用して対処され、顕著な矢じりを備えた矢印を検出するために畳み込みニューラルネットワーク（ＣＮＮ）分類器が使用され、線分を検出するためにハフ線分変換が使用される。

よって、本開示の実施形態において、１つ以上のプロセッサ１０４は、ステップ２０８にて、１つ以上の連結部を構成する１つ以上の矢印および１つ以上の線分のうちの少なくとも１つを検出するために、それぞれ畳み込みニューラルネットワーク（ＣＮＮ）分類器およびハフ線分変換を使用することにより、複数の吹き出し除去画像中の１つ以上の連結部を検出するように構成される。実施形態において、矢印クラスおよび背景クラスを含む２つのクラスを区別するように事前訓練されたＣＮＮを使用して１つ以上の矢印が検出される。顕著な矢じりを有しない連結部（線分）を含めると、ＣＮＮ分類器を混乱させ、正確さが大きく下がることに留意されたい。それ故、本開示において、ＣＮＮ分類器は、顕著な矢じりを備えた矢印の形態の、１つ以上の連結部のみを検出するために使用される。その後、テキストパッチの情報が、検出された矢印それぞれについて末端および矢じりを識別するために使用される。

実施形態により、矢印が検出されると、顕著な矢じりのない１つ以上の線分が残る。１つ以上の線分の存在を検出するために、ハフ線分変換が使用される。次に、同じ傾きを有し５０ｐｘ（画素）未満のユークリッド距離を間に有する検出された１つ以上の線分が併合される。１つ以上の連結部の対応するテキストパッチへのマッピング（関連付け）に基づいて１つ以上の線分をフィルタリングするために、線分フィルタリングが実行される。フィルタリングステップは、検出されたノイズを消去するのに役立つ。図７は、本開示の実施形態による、吹き出し除去画像中で連結部が検出される場合の出力を示す。

パイプラインの次の段階は、テキストパッチ検出を伴う。複数の画像中のテキストパッチは、通常、テンプレートの付近に存在する。テキストパッチを検出するために、コネクショニストテキスト提案ネットワーク（ＣＴＰＮ）が使用されてきた。よって、本開示の実施形態において１つ以上のプロセッサ１０４は、ステップ２１０にて、ＣＴＰＮを使用して入力の複数の画像それぞれにおいて各テキストパッチの座標を検出するように構成され、座標は各テキストパッチの周りのバウンディングボックスを形成する。ＣＴＰＮがフルサイズ画像に対して訓練されると、同一線上に発生する複数のテキストパッチが、単一のバウンディングボックス内に捕捉されることに留意されたい。この異常は、画像全体の大域的なコンテキストから見たときの個々のテキストパッチの視覚解像度の低さから生じた。ＣＴＰＮは単純に、関連性のある任意のテキストを、それらが水平方向で近ければ、単一の項目として捕捉する。したがって、本開示により、重なりを持たせて、複数の画像それぞれにおいて４８０×３６０ｐｘのウィンドウがサンプリングされる。図８Ａは、本開示の実施形態による、ＣＴＰＮにより検出されたテキストボックスを示す。図８Ａから、１つを超えるテキストパッチを含むテキストボックスがいくつかあることが分かるであろう。

本開示により、この問題を解決するために、検出された１つ以上の連結部からの情報が使用されるが、これは、各テキストパッチを、対応する連結部の末端が指し示していなければならないからである。よって、本開示の実施形態において、１つ以上のプロセッサ１０４は、ステップ２１２にて、１つ以上の連結部の末端を推定してクラスタリング法を使用することにより関連付けられた、関連する座標に基づいて、１つ以上の連結部それぞれを対応するテキストパッチにマッピングするように構成される。本開示により、クラスタリング法は、（ｉ）Ｋ平均クラスタリング法、Ｋはバウンディングボックスそれぞれに関連付けられた連結部の数である、または（ｉｉ）平均シフトクラスタリング法、のいずれかとされ得る。検出された１つ以上の連結部がすべてバウンディングボックスに関連付けられると、クラスタの数が連結部の数と等しくなるようにテキストパッチがクラスタリングされる。よって、本開示の実施形態により、関連する矢印を２つ以上有するバウンディングボックスが存在する場合、連結部の数と同数のテキストパッチが獲得されて、それにより、各テキストボックスが連結部にマッピングされているのを示す図８Ｂに示されるように、各テキストパッチが確実に単一の連結部に関連するようにする必要がある。

テキスト読み取りが、図４Ｅに示されるようにダメージコードを識別する、パイプラインにおける次の段階である。よって、本開示の実施形態において１つ以上のプロセッサ１０４は、ステップ２１４にて、吹き出し除去画像、カプセルネットワーク（ＣａｐｓＮｅｔ）、および空間変換ネットワーク（ＳＴＮ）を使用して、情報交換用米国標準コード（ＡＳＣＩＩ）フォーマットで、各テキストパッチに関連するテキストを識別するように構成される。各テキストパッチに関連するテキストの識別における主な課題は、テキストを構成するダメージコードが必ずしも水平、直線に構成されているとは限らず、むしろ図９に示されるように工業検査シートの書き込みに利用できるスペースに依存して不均一な配列で複数行からなることから生じる。このような不規則性が理由で、テキストシーケンス全体をまとめて読み取るのは困難である。それ故、本開示に従い、一度に１つの文字が読み取られ、次に、最終的なシーケンスを生成するために適切な順序に配列される。各テキストパッチのセグメンテーションを行って、順序付けられていない１つ以上の文字を有するセグメントを生成するために、連結要素解析（ＣＣＡ）が使用される。図９は、本開示の実施形態による、テキストパッチに対するセグメンテーションの出力を示す。ＣＣＡは、領域拡張法を使用し、重なり合っても共通の境界画素を有してもいない文字のみセグメント化することができる。したがって、ＣＣＡ出力は、セグメント内に１つまたは１つを超える文字を有するかもしれない。実験は、セグメントがその中に最多で２つの文字を有したことを示した。セグメンテーションされた文字は、次に、並べ換えられ、人間が読むことができる形式（左から右または上から下）に配列された文字が獲得される。図１０は、本開示の実施形態による、テキストパッチに対するセグメンテーションの出力であって、人間が読むことができる形式に配列された文字を獲得するためにセグメント中の文字が並べ換えられた後のものを示す。

本開示により、文字認識が２ステップのプロセスとして実施される。第１のステップは、セグメントが２つの文字を含むかどうか判断することである。１つを超える文字を有する生成されたセグメントを認識するために、ＣａｐｓＮｅｔが使用される。ＣａｐｓＮｅｔの標準的な編成が、画像中にいかなる文字もないことを表現する新たな出力クラス「Ｎｏｎｅ」を組み入れることにより変更された。その結果、単一の文字のみがセグメントにある場合、ＣａｐｓＮｅｔは、２つのクラスのうちの１つとして「Ｎｏｎｅ」を予測する。ＣａｐｓＮｅｔの性能は限定的であることが分かった。それ故、単一文字のセグメントを認識するためにＳＴＮが使用された。ＳＴＮは、ＣＮＮアーキテクチャのどこにでも、その幾何学的不変性を向上させるために挿入可能な、微分可能なモジュールからなる。結果として、ＳＴＮは、画像中の文字の空間的方位におけるランダム性に対処するのにより効果的であり、その結果、認識性能を押し上げる。したがって、本開示により、ＣａｐｓＮｅｔ予測は、１つを超える文字を備えたセグメントを認識し、ＳＴＮは、１文字のみを備えたセグメントを認識する。図１１は、本開示の実施形態による、テキストパッチの中の関連するテキストを識別するためのカプセルネットワーク（ＣａｐｓＮｅｔ）および空間変換ネットワーク（ＳＴＮ）の使用を示す。

本開示の実施形態において、ドメイン知識を使用してニューラルネットワークの予測を補うために、訂正モジュールがシステム１００に組み入れられてもよい。実施形態において、訂正は２つの部分を伴い得る。第１に、ダメージコードの文法を使用するルールベースのアプローチが、ネットワークの予測を調整するために実施されてもよい。例として、文法に従って、大文字の「Ｂ」は、丸括弧のペアの間にのみ存在でき、すなわち「（Ｂ）」である。ネットワークが「１Ｂ）」と予測すれば、訂正モジュールは、シーケンスのこの部分を、「１」を「（」で置き換えることにより訂正する。第２に、可能なダメージコードの網羅的なリストから、予測されたダメージシーケンスに最も近いシーケンスを発見する、編集距離ベースのアプローチが実装されてもよい。図１２は、本開示の実施形態による、ダメージコードの文法に基づいて図１１の出力に加えられた訂正を示す。

最後に、ダメージコードの画定済み区域に対する１対１マッピングが、１つ以上の連結部およびテキストパッチの座標についての知識を活用することにより、図４Ｆに示されるように実行される。よって、本開示の実施形態において１つ以上のプロセッサ１０４は、ステップ２１６にて、各テキストパッチに関連する識別されたテキストの、対応する機械の１つ以上の画定済み区域のうちの１つに対する１対１マッピングを、マッピングされた１つ以上の連結部および対応するテキストパッチの座標を使用して実行するように構成される。図１３は、本開示の実施形態による、テキストパッチに関連する識別されたテキストの、対応する機械の１つ以上の画定済み区域のうちの１つに対する１対１マッピングを示す。１つ以上の連結部の矢じりは、対応する画定済み区域を指し示し、末端は、対応するテキストパッチを指し示す。実施形態において、レイキャスティング法が実装されてもよい。図１３に示されるように、連結部が推定されるとき、それらが最初に交差する画定済み区域が、その末端にある対応するテキストパッチに関連付けられる関連性のある区域として識別されてもよい。

実験
１０セットの画像に分散した、７２の異なる種類の機械構造を有するデータセットを使用した。均等に分散された５０のテスト用画像があった。これは、特定のセットが、静的背景を構成する同じ機械線図を有することを意味する。訓練目的で、同じ分散の背景機械線図セットを備えた４５０の画像の別個のセットを維持した。すべてのシートは、ＪＰＥＧフォーマットで、正方画素３５００×２４００の解像度であった。これらを、前景が白で背景が黒の反転二値化バージョンに変換した。変換は、大津の二値化により行った。

ダイアログ吹き出しのセグメンテーション：この目的のために、ＳｅｇＮｅｔアーキテクチャを２００の画像に対して訓練した。吹き出し画素および背景画素を分類した。不均衡が見られたため、前景８．７２および背景０．１３でクラスを重み付けした。

矢印分類器：ＣＮＮは、６つの畳み込み層および２つの全結合層を、ＲｅＬＵ活性化とともに含む。最大プーリングおよびドロップアウト（０：５の確率）を正則化のために使用した。０：００１の学習率を設定し、“Ａｍｅｔｈｏｄｆｏｒｓｔｏｃｈａｓｔｉｃｏｐｔｉｍｉｚａｔｉｏｎ”ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４１２．６９８０でＡｄａｍにより提供されたオプティマイザを、交差エントロピー損失とともに使用し、クラスごとに等しい数の画像を用いて８００の画像に対して訓練した。Ｘａｖｉｅｒイニシャライザを使用してネットワークを初期化し、達成される最良の検査精度が５０エポック後になるまで訓練した。ネットワークの収束を高速化するために、すべての畳み込み層とともにバッチ正則化を使用した。４００の画像の均衡なテストセットに対してネットワークは９９：７％の精度であった。画像のアスペクト比を乱さないように、パディングを用いて入力画像を（１２８×１２８）にサイズ変更した。

カプセルネットワーク：ＣａｐｓＮｅｔを使用して、ＭＮＩＳＴデータセットで重なった文字を分類した。学習率を０．０００５に設定し、Ａｄａｍオプティマイザを使用して、すべての単一文字、ならびに互いに近い文字の可能なペアすべてに対してネットワークを訓練した。

ＳＴＮ：これらは、１つまたはいくつかの空間変換モジュールを含む畳み込みニューラルネットワークである。これらのモジュールは、計算効率の高い形で、ネットワークを、その入力データに対して空間的に不変にしようと試み、より正確なオブジェクト分類結果につながる。“Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ”の“Ｓｐａｔｉａｌｔｒａｎｓｆｏｒｍｅｒｎｅｔｗｏｒｋｓ”においてＪａｄｅｒｂｅｒｇらが提供したアーキテクチャを使用した。ネットワークを、このネットワークに対し３１文字すべての画像に対して訓練した。すべての入力画像は、その元のアスペクト比を失わないように、パディングして３２×３２にサイズ変更した。

実験結果
表１は、テキスト抽出およびマッピングの個々の構成部分の精度を示す。

表２は、テキスト読み取りの個々の構成部分の精度を示す。

表３は、本開示の完全な枠組みの累積精度を示す。

テスト結果の解析
連結部検出の結果を表１に示している。４２９存在する矢印の中から、合計３８５の矢印を正しく位置特定した。検出は、テンプレートを消去した画像に対して実行した。偽陰性の大部分は、確率的ハフ線分が線分全体または線分の多くを見落とし、それを矢印フィルタリング段階の間に消去することにつながったことの結果として発生した。

ＣＴＰＮを使用したテキストパッチ検出の結果を表１に示している。合計４２９のテキストパッチの中から３９２のテキストパッチを正しく検出した。少数のテキストパッチを完全に見落として少数の偽陰性が生じ、１つを超えるテキストを内部に含むバウンディングボックスを生成した。ＣＴＰＮが検出した３９２のテキストパッチの中から、３７４を正しく矢印に関連付け、表１に示すパッチ関連付け精度が出た。

複数の矢印に関連したボックス（１つを超えるテキストパッチをＣＴＰＮが含めるという偽陰性）について、同じテキストパッチに属する連結した構成部分に対しＫ平均クラスタリングを適用した。クラスタリングを必要とした２３の当該テキストパッチの中で、それらのうち２２が、表１に示すように９５．６％の総合精度を正しく生じた。

テキスト読み取り実験が、３４９の画像パッチに対して実行された。ＣＣＡの精度を、出力の合計数の中の正しい文字出力のパーセンテージとして計算した。並べ換え精度を、画像パッチの総数に基づいて、正しく行われた並べ換えのパーセンテージとして計算した。１つは重なり合った文字の認識であり、もう１つは重なり合っていない文字の場合の文字レベルの認識である、表２に記載の２つのタスクについて、ＣａｐｓＮｅｔの性能を測定した。ＳＴＮの精度は、ＣａｐｓＮｅｔの文字レベルの精度よりも優れた文字レベルの精度を示す。表２に示すように、シーケンスレベルの精度を、真値、ならびに両訂正モジュールを通過するネットワークの最終的な予測を算出することにより測定した。予測は、予測されたストリングのすべての文字が正しい順序で真値と一致する場合に、且つその場合に限り、正しいものとみなした。本枠組みの累積精度を表３に示す。

このように、本開示のシステムおよび方法は、検出について８７．１％、および読み取りについて９４．６３％の検出精度を提供し、その結果、高い精度を達成した。矢印、吹き出し、テキスト検出、および文字認識における種々のタイプのノイズに対して頑強であることも注目される。

記述された説明は、当業者が実施形態を作製および使用できるように、本明細書に主題を記載している。本主題の実施形態の範囲は、特許請求の範囲により定義され、当業者が想到する他の変更を含み得る。そのような他の変更は、特許請求の範囲の文字通りの用語と異ならない同様の要素を有する場合、または特許請求の範囲の文字通りの用語と非実質的な相違のある等価な要素を含む場合、特許請求の範囲に記載の範囲内にあるものとする。

当然のことながら、保護の範囲は、そのようなプログラム、およびさらに、メッセージをその中に有するコンピュータ可読手段に及ぶ。そうしたコンピュータ可読ストレージ手段は、プログラムがサーバもしくはモバイルデバイスまたは任意の適切なプログラマブルデバイス上で実行されると本方法の１つ以上のステップを実施するプログラムコード手段を含む。ハードウェアデバイスは、例えばサーバもしくはパーソナルコンピュータ、または同様のもの、またはそれらの任意の組み合わせのような任意の種類のコンピュータを含め、プログラム可能な任意の種類のデバイスとすることができる。デバイスはさらに、例えば特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄ−ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）などのようなハードウェア手段か、または例えばＡＳＩＣおよびＦＰＧＡ、もしくは少なくとも１つのマイクロプロセッサおよびソフトウェアモジュールが中に位置する少なくとも１つのメモリなど、ハードウェア手段とソフトウェア手段との組み合わせか、とすることができる手段を含んでもよい。よって、手段はハードウェア手段およびソフトウェア手段の両方を含むことができる。本明細書に記載される方法の実施形態は、ハードウェアおよびソフトウェアにおいて実施可能であろう。デバイスはさらに、ソフトウェア手段を含んでもよい。あるいは、実施形態は、例えば複数のＣＰＵを使用して、別々のハードウェアデバイス上において実施されてもよい。

本明細書の実施形態は、ハードウェア要素およびソフトウェア要素を備えることができる。ソフトウェアに実装される実施形態は、次に限定はされないが、ファームウェア、常駐ソフトウェア、マイクロコードなどを含む。本明細書に記載された様々なモジュールにより実行される機能は、他のモジュール、または他のモジュールの組み合わせにおいて実施されてもよい。本記載では、コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスにより使用される、またはそれに関連するプログラムを、備えること、格納すること、伝達すること、伝播させること、または輸送することができる任意の装置とすることができる。

示されたステップは、示された例示的な実施形態を説明するために記載されており、特定の機能が実行される形を進行中の技術開発が変化させるであろうことは予想されるべきである。これらの例は、限定ではなく例示を目的として本明細書で提示される。さらに、機能上のビルディングブロックの境界は、説明の便宜上、本明細書で任意に画定された。指定された機能およびそれらの関係が適切に実行される限り、代わりの境界が画定され得る。本明細書に含まれる教示に基づき、関連分野（単数または複数）の当業者には、代案（本明細書に記載されたものの等価物、拡張、変形、逸脱などを含む）が明らかであろう。そのような代案は、開示された実施形態の範囲および意図の範囲内にある。さらに、「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｃｏｎｔａｉｎｉｎｇ）」、および「含む（ｉｎｃｌｕｄｉｎｇ）」という語、ならびに他の類似の形態は、意味において等価であるものとし、これらの語の任意のものに続く単数または複数の項目は、そのような単数または複数の項目の網羅的な列挙としては意図されておらず、列挙された単数または複数の項目のみに限定されることも意図されていないという点で、非限定型であるものとする。さらに、本明細書および添付の特許請求の範囲で使用される単数形の「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈により明確に別段規定されない限り、複数の指示を含むことに留意されたい。

さらに、１つ以上のコンピュータ可読ストレージ媒体が、本開示と整合する実施形態を実装する際に利用されてもよい。コンピュータ可読ストレージ媒体とは、プロセッサによる読み取りが可能な情報またはデータが格納され得る任意のタイプの物理メモリを指す。したがって、コンピュータ可読ストレージ媒体は、プロセッサ（単数または複数）に本明細書に記載された実施形態と整合するステップまたは段階を実行させる命令を含む、１つ以上のプロセッサにより実行される命令を格納してもよい。「コンピュータ可読媒体」という用語は、有形の項目を含み、搬送波および過渡信号は除く、すなわち非一時的であると理解されるべきである。例には、ランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ）、揮発性メモリ、不揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク、およびその他任意の周知の物理ストレージ媒体が含まれる。

本開示および各例は、例示的でしかないとみなされ、開示された実施形態の真の範囲および意図は、添付の特許請求の範囲により示されるものとする。

Claims

プロセッサに実装された方法（２００）であって、
１つ以上のハードウェアプロセッサによって、複数の画像を備えた入力を受信するステップであって、前記複数の画像は、同一の１つ以上のテンプレートにより特徴付けられ、前記１つ以上のテンプレートの中の各テンプレートは、１つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の前記１つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、前記受信するステップ（２０２）と、
前記１つ以上のハードウェアプロセッサによって、前記動的部分を備えた複数のテンプレート除去画像を獲得するために、前記複数の画像それぞれから前記１つ以上のテンプレートを、前記画像中で識別された前記静的部分に基づいて削除するステップであって、前記手書きコンテンツは、１つ以上の連結部に関連する独立したテキストパッチおよび１つ以上のダイアログ吹き出しのうちの少なくとも１つを備え、前記１つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよび前記テキストパッチを囲む吹き出しを含む、前記削除するステップ（２０４）と、
前記１つ以上のハードウェアプロセッサによって、複数の吹き出し除去画像を獲得するべく、前記１つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのＳｅｇＮｅｔアーキテクチャを使用して、前記複数のテンプレート除去画像をその前記１つ以上のダイアログ吹き出しを削除するために処理するステップであって、前記吹き出し除去画像は、複数のテキストパッチを備える、前記処理するステップ（２０６）と、
前記１つ以上のハードウェアプロセッサによって、前記１つ以上の連結部を構成する１つ以上の矢印および１つ以上の線分のうちの少なくとも１つを検出するためにそれぞれ畳み込みニューラルネットワーク（ＣＮＮ）分類器およびハフ線分変換を使用することにより、前記複数の吹き出し除去画像中の前記１つ以上の連結部を検出するステップ（２０８）と、
前記１つ以上のハードウェアプロセッサによって、コネクショニストテキスト提案ネットワーク（ＣＴＰＮ）を使用して前記入力の前記複数の画像それぞれにおける各テキストパッチの座標を検出するステップであって、前記座標は、各テキストパッチの周りのバウンディングボックスを形成する、前記座標を検出するステップ（２１０）と、
前記１つ以上のハードウェアプロセッサによって、前記１つ以上の連結部それぞれを対応するテキストパッチに、その関連する前記座標に基づいて、且つクラスタリング法を使用することによりマッピングするステップ（２１２）と、
前記１つ以上のハードウェアプロセッサによって、前記吹き出し除去画像、カプセルネットワーク（ＣａｐｓＮｅｔ）、および空間変換ネットワーク（ＳＴＮ）を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード（ＡＳＣＩＩ）フォーマットで識別するステップ（２１４）と、
前記１つ以上のハードウェアプロセッサによって、前記マッピングされた１つ以上の連結部および前記対応するテキストパッチの前記座標を使用することにより、各テキストパッチに関連する前記識別されたテキストの、前記対応する機械の前記１つ以上の画定済み区域のうちの１つに対する１対１マッピングを実行するステップであって、それによってそれらの間に視覚的関係を提供する、前記実行するステップ（２１６）と、
を含む、プロセッサに実装された方法。
前記１つ以上のテンプレートを削除する前記ステップは、
前記入力の中の前記複数の画像を反転するステップと、
前記反転された複数の画像の空間方向の平均化を実行するステップと、
前記１つ以上のテンプレートを抽出するために、前記平均化された画像に適応的閾値処理を適用するステップと、
前記１つ以上のテンプレート中の各点と、前記入力との相関関係を獲得するために、前記抽出された１つ以上のテンプレートと前記入力とを、正規化相互相関法を使用して照合するステップと、
最大の相関関係を呈する点に基づいて、前記１つ以上のテンプレートの位置を判断するステップと、
前記入力から前記１つ以上のテンプレートを、その前記判断された位置に基づいて削除するステップと、
を含む、請求項１に記載のプロセッサに実装された方法。
前記複数のテンプレート除去画像を処理する前記ステップは、
背景クラス、境界クラス、およびダイアログ吹き出しクラスを含む３つのクラスを区別するように複数のダイアログ吹き出し画像のデータセットに対して事前訓練された前記ＳｅｇＮｅｔアーキテクチャを使用して、前記１つ以上のダイアログ吹き出しに対してマスクを生成するステップと、
前記複数の吹き出し除去画像を獲得するために、前記テンプレート除去画像から前記マスクを減算するステップと、
を含む、請求項１に記載のプロセッサに実装された方法。
前記複数の吹き出し除去画像中の前記１つ以上の連結部を検出する前記ステップは、
矢印クラスおよび背景クラスを含む２つのクラスを区別するように事前訓練された前記ＣＮＮを使用して、前記１つ以上の矢印を検出するステップと、
前記１つ以上の線分の存在を検出するために前記ハフ線分変換を使用し、同じ傾きを有し５０ｐｘ（画素）未満のユークリッド距離を間に有する前記検出された１つ以上の線分を併合し、前記１つ以上の連結部の前記対応するテキストパッチに対する前記マッピングに基づいて前記１つ以上の線分をフィルタリングすることにより、前記１つ以上の線分を検出するステップと、
を含む、請求項１に記載のプロセッサに実装された方法。
前記入力の中の前記複数の画像それぞれにおける各テキストパッチの座標を検出する前記ステップは、
各テキストパッチの周りの前記バウンディングボックスを位置特定するために、前記ＣＴＰＮを使用してテキスト行を位置特定するステップと、
重なりを持たせて前記複数の画像それぞれにおいて４８０×３６０ｐｘのウィンドウをサンプリングするステップと、
を含む、請求項１に記載のプロセッサに実装された方法。
前記１つ以上の連結部それぞれを対応するテキストパッチにマッピングする前記ステップは、
前記１つ以上の連結部の末端を推定することにより、前記１つ以上の連結部それぞれを各テキストパッチの周りの前記バウンディングボックスのうちの１つに関連付けるステップと、
テキストパッチの数が前記１つ以上の連結部の数と等しくなるように、前記クラスタリング法を使用して前記テキストパッチをクラスタリングするステップと、
を含む、請求項１に記載のプロセッサに実装された方法。
前記クラスタリング法は、（ｉ）Ｋ平均クラスタリング法、Ｋは前記バウンディングボックスそれぞれに関連付けられた連結部の数である、または（ｉｉ）平均シフトクラスタリング法、のいずれかである、請求項１に記載のプロセッサに実装された方法。
各テキストパッチに関連するテキストを識別する前記ステップは、
１つ以上の文字を中に有するセグメントを生成するために、連結要素解析（ＣＣＡ）を使用して各テキストパッチのセグメンテーションを行うステップと、
人間が読むことができる形式に配列された文字を獲得するために、順序付けられていない前記生成されたセグメント中の前記セグメンテーションされた文字を並べ換えるステップと、
１つを超える文字を中に有する前記生成されたセグメントを認識するために、前記ＣａｐｓＮｅｔを使用するステップと、
１つの文字を中に有する前記生成されたセグメントを認識するために、前記ＳＴＮを使用するステップと、
を含む、請求項１に記載のプロセッサに実装された方法。
各テキストパッチに関連する前記識別されたテキストの、前記１つ以上の画定済み区域のうちの１つに対する１対１マッピングを実行する前記ステップは、前記テキストパッチが近くにあることが末端を示し画定済み区域に近いことが前記矢印の矢じりを示すような前記１つ以上の連結部の推定をするステップを含む、請求項１に記載のプロセッサに実装された方法。
１つ以上のハードウェアプロセッサ（１０４）に動作結合され、命令を格納するように構成された、１つ以上のデータストレージデバイス（１０２）
を備えるシステム（１００）であって、前記命令は、
複数の画像を備えた入力を受信することであって、前記複数の画像は、同一の１つ以上のテンプレートにより特徴付けられ、前記１つ以上のテンプレートの中の各テンプレートは、１つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の前記１つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、前記受信することと、
前記動的部分を備えた複数のテンプレート除去画像を獲得するために、前記複数の画像それぞれから前記１つ以上のテンプレートを、前記画像中で識別された前記静的部分に基づいて削除することであって、前記手書きコンテンツは、１つ以上の連結部に関連する独立したテキストパッチおよび１つ以上のダイアログ吹き出しのうちの少なくとも１つを備え、前記１つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよび前記テキストパッチを囲む吹き出しを含む、前記削除することと、
複数の吹き出し除去画像を獲得するべく、前記１つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのＳｅｇＮｅｔアーキテクチャを使用して、前記複数のテンプレート除去画像をその前記１つ以上のダイアログ吹き出しを削除するために処理することであって、前記吹き出し除去画像は、複数のテキストパッチを備える、前記処理することと、
前記１つ以上の連結部を構成する１つ以上の矢印および１つ以上の線分のうちの少なくとも１つを検出するためにそれぞれ畳み込みニューラルネットワーク（ＣＮＮ）分類器およびハフ線分変換を使用することにより、前記複数の吹き出し除去画像中の前記１つ以上の連結部を検出することと、
コネクショニストテキスト提案ネットワーク（ＣＴＰＮ）を使用して前記入力の前記複数の画像それぞれにおける各テキストパッチの座標を検出することであって、前記座標は、各テキストパッチの周りのバウンディングボックスを形成する、前記座標を検出することと、
前記１つ以上の連結部それぞれを対応するテキストパッチに、その関連する前記座標に基づいて、且つクラスタリング法を使用することによりマッピングすることと、
前記吹き出し除去画像、カプセルネットワーク（ＣａｐｓＮｅｔ）、および空間変換ネットワーク（ＳＴＮ）を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード（ＡＳＣＩＩ）フォーマットで識別することと、
前記マッピングされた１つ以上の連結部および前記対応するテキストパッチの前記座標を使用することにより、各テキストパッチに関連する前記識別されたテキストの、前記対応する機械の前記１つ以上の画定済み区域のうちの１つに対する１対１マッピングを実行することであって、それによってそれらの間に視覚的関係を提供する、前記実行することと、
のために前記１つ以上のハードウェアプロセッサにより実行されるように構成される、システム。
前記１つ以上のプロセッサは、
前記入力の中の前記複数の画像を反転することと、
前記反転された複数の画像の空間方向の平均化を実行することと、
前記１つ以上のテンプレートを抽出するために、前記平均化された画像に適応的閾値処理を適用することと、
前記１つ以上のテンプレート中の各点と、前記入力との相関関係を獲得するために、前記抽出された１つ以上のテンプレートと前記入力とを、正規化相互相関法を使用して照合することと、
最大の相関関係を呈する点に基づいて、前記１つ以上のテンプレートの位置を判断することと、
前記入力から前記１つ以上のテンプレートを、その前記判断された位置に基づいて削除することと、
によって、前記１つ以上のテンプレートを削除するようにさらに構成される、請求項１０に記載のシステム。
前記１つ以上のプロセッサは、
背景クラス、境界クラス、およびダイアログ吹き出しクラスを含む３つのクラスを区別するように複数のダイアログ吹き出し画像のデータセットに対して事前訓練された前記ＳｅｇＮｅｔアーキテクチャを使用して、前記１つ以上のダイアログ吹き出しに対してマスクを生成することと、
前記複数の吹き出し除去画像を獲得するために、前記テンプレート除去画像から前記マスクを減算することと、
によって、前記複数のテンプレート除去画像を処理するようにさらに構成される、請求項１０に記載のシステム。
前記１つ以上のプロセッサは、
矢印クラスおよび背景クラスを含む２つのクラスを区別するように事前訓練された前記ＣＮＮを使用して、前記１つ以上の矢印を検出することと、
前記１つ以上の線分の存在を検出するために前記ハフ線分変換を使用し、同じ傾きを有し５０ｐｘ（画素）未満のユークリッド距離を間に有する前記検出された１つ以上の線分を併合し、前記１つ以上の連結部の前記対応するテキストパッチに対する前記マッピングに基づいて前記１つ以上の線分をフィルタリングすることにより、前記１つ以上の線分を検出することと、
によって、前記複数の吹き出し除去画像中の前記１つ以上の連結部を検出するようにさらに構成される、請求項１０に記載のシステム。
前記１つ以上のプロセッサは、
各テキストパッチの周りの前記バウンディングボックスを位置特定するために、前記ＣＴＰＮを使用してテキスト行を位置特定することと、
重なりを持たせて前記複数の画像それぞれにおいて４８０×３６０ｐｘのウィンドウをサンプリングすることと、
によって、前記入力の中の前記複数の画像それぞれにおける各テキストパッチの座標を検出するようにさらに構成される、請求項１０に記載のシステム。
前記１つ以上のプロセッサは、
前記１つ以上の矢印の末端を推定することにより、前記１つ以上の連結部それぞれを各テキストパッチの周りの前記バウンディングボックスのうちの１つに関連付けることと、
テキストパッチの数が前記１つ以上の連結部の数と等しくなるように、前記クラスタリング法を使用して前記テキストパッチをクラスタリングすることと、
によって、前記１つ以上の連結部それぞれを対応するテキストパッチにマッピングするようにさらに構成される、請求項１０に記載のシステム。
前記クラスタリング法は、（ｉ）Ｋ平均クラスタリング法、Ｋは前記バウンディングボックスそれぞれに関連付けられた連結部の数である、または（ｉｉ）平均シフトクラスタリング法、のいずれかである、請求項１０に記載のシステム。
前記１つ以上のプロセッサは、
１つ以上の文字を中に有するセグメントを生成するために、連結要素解析（ＣＣＡ）を使用して各テキストパッチのセグメンテーションを行うことと、
人間が読むことができる形式に配列された文字を獲得するために、順序付けられていない前記生成されたセグメント中の前記セグメンテーションされた文字を並べ換えることと、
１つを超える文字を中に有する前記生成されたセグメントを認識するために、前記ＣａｐｓＮｅｔを使用することと、
１つの文字を中に有する前記生成されたセグメントを認識するために、前記ＳＴＮを使用することと、
によって、各テキストパッチに関連するテキストを識別するようにさらに構成される、請求項１０に記載のシステム。
前記１つ以上のプロセッサは、各テキストパッチに関連する前記識別されたテキストの、１つ以上の画定済み区域に対する１対１マッピングを、前記テキストパッチが近くにあることが末端を示し画定済み区域に近いことが前記矢印の矢じりを示すような前記１つ以上の連結部の推定をすることにより実行するようにさらに構成される、請求項１０に記載のシステム。
非一時的コンピュータ可読媒体において具現化されたコンピュータ可読プログラムを有する前記非一時的コンピュータ可読媒体を備えたコンピュータプログラム製品であって、前記コンピュータ可読プログラムは、コンピューティングデバイス上で実行されるときに、
複数の画像を備えた入力を受信することであって、前記複数の画像は、同一の１つ以上のテンプレートにより特徴付けられ、前記１つ以上のテンプレートの中の各テンプレートは、１つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の前記１つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、前記受信することと、
前記動的部分を備えた複数のテンプレート除去画像を獲得するために、前記複数の画像それぞれから前記１つ以上のテンプレートを、前記画像中で識別された前記静的部分に基づいて削除することであって、前記手書きコンテンツは、１つ以上の連結部に関連する独立したテキストパッチおよび１つ以上のダイアログ吹き出しのうちの少なくとも１つを備え、前記１つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよび前記テキストパッチを囲む吹き出しを含む、前記削除することと、
複数の吹き出し除去画像を獲得するべく、前記１つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのＳｅｇＮｅｔアーキテクチャを使用して、前記複数のテンプレート除去画像をその前記１つ以上のダイアログ吹き出しを削除するために処理することであって、前記吹き出し除去画像は、複数のテキストパッチを備える、前記処理することと、
前記１つ以上の連結部を構成する１つ以上の矢印および１つ以上の線分のうちの少なくとも１つを検出するためにそれぞれ畳み込みニューラルネットワーク（ＣＮＮ）分類器およびハフ線分変換を使用することにより、前記複数の吹き出し除去画像中の前記１つ以上の連結部を検出することと、
コネクショニストテキスト提案ネットワーク（ＣＴＰＮ）を使用して前記入力の前記複数の画像それぞれにおける各テキストパッチの座標を検出することであって、前記座標は、各テキストパッチの周りのバウンディングボックスを形成する、前記座標を検出することと、
前記１つ以上の連結部それぞれを対応するテキストパッチに、その関連する前記座標に基づいて、且つクラスタリング法を使用することによりマッピングすることと、
前記吹き出し除去画像、カプセルネットワーク（ＣａｐｓＮｅｔ）、および空間変換ネットワーク（ＳＴＮ）を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード（ＡＳＣＩＩ）フォーマットで識別することと、
前記マッピングされた１つ以上の連結部および前記対応するテキストパッチの前記座標を使用することにより、各テキストパッチに関連する前記識別されたテキストの、前記対応する機械の前記１つ以上の画定済み区域のうちの１つに対する１対１マッピングを実行することであって、それによってそれらの間に視覚的関係を提供する、前記実行することと、
を前記コンピューティングデバイスにさせる、コンピュータプログラム製品。