JP6784791B2 - 視覚的関係を推論することによる工業検査シートのデジタル化 - Google Patents

視覚的関係を推論することによる工業検査シートのデジタル化 Download PDF

Info

Publication number
JP6784791B2
JP6784791B2 JP2019043349A JP2019043349A JP6784791B2 JP 6784791 B2 JP6784791 B2 JP 6784791B2 JP 2019043349 A JP2019043349 A JP 2019043349A JP 2019043349 A JP2019043349 A JP 2019043349A JP 6784791 B2 JP6784791 B2 JP 6784791B2
Authority
JP
Japan
Prior art keywords
text
images
patch
templates
text patch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019043349A
Other languages
English (en)
Other versions
JP2020087404A (ja
Inventor
ロヒット ラフル
ロヒット ラフル
アリンダム チョウドゥリー
アリンダム チョウドゥリー
ロヴェケシュ ヴィグ
ロヴェケシュ ヴィグ
アニメシュ
サマース ミッタル
サマース ミッタル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2020087404A publication Critical patent/JP2020087404A/ja
Application granted granted Critical
Publication of JP6784791B2 publication Critical patent/JP6784791B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0418Architecture, e.g. interconnection topology using chaos or fractal principles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20061Hough transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing

Description

優先権の主張
本願は、2018年11月28日出願のインド特許出願第201821044939号の優先権を主張する。前述した出願の内容全体が、参照により本明細書に組み入れられる。
技術分野
本明細書の開示は、全般的に、工業検査シートを解析することに関し、特に、視覚的関係を推論することにより工業検査シートをデジタル化するシステムおよびコンピュータに実装された方法に関する。
工場用重機の障害を記録する従来の形態は、検査エンジニアが機械の略図用紙に障害のある機械の領域を手で記す、手記の検査シートによるものであった。長年にわたり、そのような検査シートが無数に記録され、これらのシートの中のデータは利用できないままであった。しかしながら、産業界がデジタル化を進め、機械の健全性監視のための障害データの潜在的な価値に気付くのとともに、こうした手記の検査記録のデジタル化へ向かう勢いが増している。
本開示の実施形態は、従来型のシステムにおいて発明者らにより認識された上述した技術的課題の1つ以上に対する解決策として、技術的改善を提示する。
或る側面において、プロセッサに実装された方法が提供され、プロセッサに実装された方法は、1つ以上のハードウェアプロセッサによって、複数の画像を備えた入力を受信するステップであって、複数の画像は、同一のテンプレート1つ以上により特徴付けられ、1つ以上のテンプレートの中の各テンプレートは、1つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の1つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、受信するステップと、1つ以上のハードウェアプロセッサによって、動的部分を備えた複数のテンプレート除去画像を獲得するために、複数の画像それぞれから1つ以上のテンプレートを、画像中で識別された静的部分に基づいて削除するステップであって、手書きコンテンツは、1つ以上の連結部に関連する独立したテキストパッチおよび1つ以上のダイアログ吹き出しのうちの少なくとも1つを備え、1つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよびテキストパッチを囲む吹き出しを含む、削除するステップと、1つ以上のハードウェアプロセッサによって、複数の吹き出し除去画像を獲得するべく、1つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのSegNetアーキテクチャを使用して、複数のテンプレート除去画像をその1つ以上のダイアログ吹き出しを削除するために処理するステップであって、吹き出し除去画像は、複数のテキストパッチを備える、処理するステップと、1つ以上のハードウェアプロセッサによって、1つ以上の連結部を構成する1つ以上の矢印および1つ以上の線分のうちの少なくとも1つを検出するためにそれぞれ畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)分類器およびハフ線分変換を使用することにより、複数の吹き出し除去画像中の1つ以上の連結部を検出するステップと、1つ以上のハードウェアプロセッサによって、コネクショニストテキスト提案ネットワーク(CTPN:Connectionist Text Proposal Network)を使用して入力の複数の画像それぞれにおける各テキストパッチの座標を検出するステップであって、座標は、各テキストパッチの周りのバウンディングボックスを形成する、検出するステップと、1つ以上のハードウェアプロセッサによって、1つ以上の連結部それぞれを対応するテキストパッチに、その関連する座標に基づいて、且つクラスタリング法を使用することによりマッピングするステップと、1つ以上のプロセッサによって、吹き出し除去画像、カプセルネットワーク(CapsNet:Capsule Network)、および空間変換ネットワーク(STN:Spatial Transformer Network)を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード(ASCII:American Standard Code for Information Interchange)フォーマットで識別するステップと、1つ以上のプロセッサによって、マッピングされた1つ以上の連結部および対応するテキストパッチの座標を使用することにより、各テキストパッチに関連する識別されたテキストの、対応する機械の1つ以上の画定済み区域のうちの1つに対する1対1マッピングを実行するステップであって、それによってそれらの間に視覚的関係を提供する、実行するステップと、を含む。
別の側面において、1つ以上のハードウェアプロセッサに動作結合され、命令を格納するように構成された、1つ以上のデータストレージデバイスを備えるシステムが提供され、命令は、複数の画像を備えた入力を受信することであって、複数の画像は、同一のテンプレート1つ以上により特徴付けられ、1つ以上のテンプレートの中の各テンプレートは、1つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の1つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、受信することと、動的部分を備えた複数のテンプレート除去画像を獲得するために、複数の画像それぞれから1つ以上のテンプレートを、画像中で識別された静的部分に基づいて削除することであって、手書きコンテンツは、1つ以上の連結部に関連する独立したテキストパッチおよび1つ以上のダイアログ吹き出しのうちの少なくとも1つを備え、1つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよびテキストパッチを囲む吹き出しを含む、削除することと、複数の吹き出し除去画像を獲得するべく、1つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのSegNetアーキテクチャを使用して、複数のテンプレート除去画像をその1つ以上のダイアログ吹き出しを削除するために処理することであって、吹き出し除去画像は、複数のテキストパッチを備える、処理することと、1つ以上の連結部を構成する1つ以上の矢印および1つ以上の線分のうちの少なくとも1つを検出するためにそれぞれ畳み込みニューラルネットワーク(CNN)分類器およびハフ線分変換を使用することにより、複数の吹き出し除去画像中の1つ以上の連結部を検出することと、コネクショニストテキスト提案ネットワーク(CTPN)を使用して入力の複数の画像それぞれにおける各テキストパッチの座標を検出することであって、座標は、各テキストパッチの周りのバウンディングボックスを形成する、座標を検出することと、1つ以上の連結部それぞれを対応するテキストパッチに、その関連する座標に基づいて、且つクラスタリング法を使用することによりマッピングすることと、吹き出し除去画像、カプセルネットワーク(CapsNet)、および空間変換ネットワーク(STN)を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード(ASCII)フォーマットで識別することと、マッピングされた1つ以上の連結部および対応するテキストパッチの座標を使用することにより、各テキストパッチに関連する識別されたテキストの、対応する機械の1つ以上の画定済み区域のうちの1つに対する1対1マッピングを実行することであって、それによってそれらの間に視覚的関係を提供する、実行することと、のために1つ以上のハードウェアプロセッサにより実行されるように構成される。
さらに別の側面において、非一時的コンピュータ可読媒体において具現化されたコンピュータ可読プログラムを有する非一時的コンピュータ可読媒体を備えたコンピュータプログラム製品が提供され、コンピュータ可読プログラムは、コンピューティングデバイス上で実行されるとコンピューティングデバイスに、複数の画像を備えた入力を受信することであって、複数の画像は、同一のテンプレート1つ以上により特徴付けられ、1つ以上のテンプレートの中の各テンプレートは、1つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の1つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、受信することと、動的部分を備えた複数のテンプレート除去画像を獲得するために、複数の画像それぞれから1つ以上のテンプレートを、画像中で識別された静的部分に基づいて削除することであって、手書きコンテンツは、1つ以上の連結部に関連する独立したテキストパッチおよび1つ以上のダイアログ吹き出しのうちの少なくとも1つを備え、1つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよびテキストパッチを囲む吹き出しを含む、削除することと、複数の吹き出し除去画像を獲得するべく、1つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのSegNetアーキテクチャを使用して、複数のテンプレート除去画像をその1つ以上のダイアログ吹き出しを削除するために処理することであって、吹き出し除去画像は、複数のテキストパッチを備える、処理することと、1つ以上の連結部を構成する1つ以上の矢印および1つ以上の線分のうちの少なくとも1つを検出するためにそれぞれ畳み込みニューラルネットワーク(CNN)分類器およびハフ線分変換を使用することにより、複数の吹き出し除去画像中の1つ以上の連結部を検出することと、コネクショニストテキスト提案ネットワーク(CTPN)を使用して入力の複数の画像それぞれにおける各テキストパッチの座標を検出することであって、座標は、各テキストパッチの周りのバウンディングボックスを形成する、座標を検出することと、1つ以上の連結部それぞれを対応するテキストパッチに、その関連する座標に基づいて、且つクラスタリング法を使用することによりマッピングすることと、吹き出し除去画像、カプセルネットワーク(CapsNet)、および空間変換ネットワーク(STN)を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード(ASCII)フォーマットで識別することと、マッピングされた1つ以上の連結部および対応するテキストパッチの座標を使用することにより、各テキストパッチに関連する識別されたテキストの、対応する機械の1つ以上の画定済み区域のうちの1つに対する1対1マッピングを実行することであって、それによってそれらの間に視覚的関係を提供する、実行することと、をさせる。
本開示の実施形態により、1つ以上のプロセッサは、入力の中の複数の画像を反転することと、反転された複数の画像の空間方向の平均化を実行することと、1つ以上のテンプレートを抽出するために、平均化された画像に適応的閾値処理を適用することと、1つ以上のテンプレート中の各点と、入力との相関関係を獲得するために、抽出された1つ以上のテンプレートと入力とを、正規化相互相関法を使用して照合することと、最大の相関関係を呈する点に基づいて、1つ以上のテンプレートの位置を判断することと、入力から1つ以上のテンプレートを、その判断された位置に基づいて削除することと、により、1つ以上のテンプレートを削除するようにさらに構成される。
本開示の実施形態により、1つ以上のプロセッサは、背景クラス、境界クラス、およびダイアログ吹き出しクラスを含む3つのクラスを区別するように複数のダイアログ吹き出し画像のデータセットに対して事前訓練されたSegNetアーキテクチャを使用して、1つ以上のダイアログ吹き出しに対してマスクを生成することと、複数の吹き出し除去画像を獲得するために、テンプレート除去画像からマスクを減算することと、により、複数のテンプレート除去画像を処理するようにさらに構成される。
本開示の実施形態により、複数の吹き出し除去画像において、矢印クラスおよび背景クラスを含む2つのクラスを区別するように事前訓練されたCNNを使用して、1つ以上の矢印を検出することと、1つ以上の線分の存在(present)を検出するためにハフ線分変換を使用し、同じ傾きを有し50px(画素)未満のユークリッド距離を間に有する検出された1つ以上の線分を併合し、1つ以上の連結部の対応するテキストパッチに対するマッピングに基づいて1つ以上の線分をフィルタリングすることにより、1つ以上の線分を検出することと、による。
本開示の実施形態により、1つ以上のプロセッサは、各テキストパッチの周りのバウンディングテキストボックスを位置特定するために、CTPNを使用してテキスト行を位置特定することと、重なりを持たせて複数の画像それぞれにおいて480×360pxのウィンドウをサンプリングすることと、により、入力の中の複数の画像それぞれにおける各テキストパッチの座標を検出するようにさらに構成される。
本開示の実施形態により、1つ以上のプロセッサは、1つ以上の矢印の末端を推定することにより、1つ以上の連結部それぞれを各テキストパッチの周りのバウンディングボックスのうちの1つに関連付けることと、テキストパッチの数が1つ以上の連結部の数と等しくなるように、クラスタリング法を使用してテキストパッチをクラスタリングすることと、により、1つ以上の連結部それぞれを対応するテキストパッチにマッピングするようにさらに構成される。
本開示の実施形態により、クラスタリング法は、(ii)K平均クラスタリング法、Kはバウンディングボックスそれぞれに関連付けられた連結部の数である、または(ii)平均シフトクラスタリング法、のいずれかである。
本開示の実施形態により、1つ以上のプロセッサは、1つ以上の文字を中に有するセグメントを生成するために、連結要素解析(CCA:Connected Component Anaylyses)を使用して各テキストパッチのセグメンテーションを行うことと、人間が読むことができる形式に配列された文字を獲得するために、順序付けられていない生成されたセグメント中のセグメンテーションされた文字を並べ換えることと、1つを超える文字を中に有する生成されたセグメントを認識するために、CapsNetを使用することと、1つの文字を中に有する生成されたセグメントを認識するために、STNを使用することと、により、各テキストパッチに関連するテキストを識別するようにさらに構成される。
本開示の実施形態により、1つ以上のプロセッサは、各テキストパッチに関連する識別されたテキストの、1つ以上の画定済み区域に対する1対1マッピングを、テキストパッチが近くにあることが末端を示し画定済み区域に近いことが矢印の矢じりを示すような1つ以上の連結部の推定をすることにより実行するようにさらに構成される。
当然のことながら、前述した概略の説明および以下の詳細な説明は、いずれも例示的且つ説明的なものでしかなく、特許請求される発明を制限するものではない。
添付の図面は、本開示に組み入れられてその一部を構成し、例示的な実施形態を示し、本記載ともに、開示される原理を説明するのに役立つ。
本開示の実施形態による、視覚的関係を推論することによる工業検査シートのデジタル化のためのシステムの例示的なブロック図を示す。 本開示の実施形態による、視覚的関係を推論することにより工業検査シートをデジタル化する、コンピュータに実装された方法の例示的なフロー図を示す。 本開示の実施形態による、視覚的関係を推論することにより工業検査シートをデジタル化する、コンピュータに実装された方法の例示的なフロー図を示す。 本開示の実施形態による工業検査シートを示す。 本開示の実施形態による工業検査シート中の必須構成部分を示す。 本開示の実施形態による、図2Aおよび図2Bの方法の或る段階での出力を示す。 本開示の実施形態による、図2Aおよび図2Bの方法の或る段階での出力を示す。 本開示の実施形態による、図2Aおよび図2Bの方法の或る段階での出力を示す。 本開示の実施形態による、図2Aおよび図2Bの方法の或る段階での出力を示す。 本開示の実施形態による、図2Aおよび図2Bの方法の或る段階での出力を示す。 本開示の実施形態による、図2Aおよび図2Bの方法の或る段階での出力を示す。 本開示の実施形態による、図1のシステムに対する入力における画像を示す。 本開示の実施形態による、図5Aの画像中のテンプレートを示す。 本開示の実施形態による、テンプレート除去画像を示す。 本開示の実施形態による、吹き出し除去画像を獲得する様々な段階での出力を示す。 本開示の実施形態による、吹き出し除去画像を獲得する様々な段階での出力を示す。 本開示の実施形態による、吹き出し除去画像を獲得する様々な段階での出力を示す。 本開示の実施形態による、吹き出し除去画像中で連結部が検出される場合の出力を示す。 本開示の実施形態による、コネクショニストテキスト提案ネットワーク(CTPN)により検出されたテキストボックスを示す。 本開示の実施形態による、連結部とマッピングされたテキストボックスを示す。 本開示の実施形態による、テキストパッチに対するセグメンテーションの出力を示す。 本開示の実施形態による、テキストパッチに対するセグメンテーションの出力であって、人間が読むことができる形式に配列された文字を獲得するためにセグメント中の文字が並べ換えられた後のものを示す。 本開示の実施形態による、テキストパッチの中の関連するテキストを識別するためのカプセルネットワーク(CapsNet)および空間変換ネットワーク(STN)の使用を示す。 本開示の実施形態による、ダメージコードの文法に基づいて図11の出力に加えられた訂正を示す。 本開示の実施形態による、テキストパッチに関連する識別されたテキストの、対応する機械の1つ以上の画定済み区域のうちの1つに対する1対1マッピングを示す。
例示的な実施形態が、添付の図面を参照して記載される。図面において、参照番号の左端の数字(単数または複数)は、参照番号が最初に現れる図面を識別する。簡便な場合は、同じまたは同様の部分を指すために、各図面にわたって同じ参照番号が使用される。開示される原理の例および特徴が本明細書に記載されるが、開示された実施形態の意図および範囲から逸脱することなく変更、適応、および他の実装が可能である。以下の詳細な説明は、例示的でしかないとみなされ、真の範囲および意図は、添付の特許請求の範囲により示されるものとする。
工場用設備の工業検査は、工場環境では一般的なプロセスであり、設備の物理的な調査をし、さらに後から紙ベースの検査シートに障害を記すことを伴う。紙ベースのスキャンは、数十年にわたる検査で検出された無数の障害に関するデータを有する。予知保全のための障害データの莫大な価値を考慮して、産業界は、極めて非構造的なスキャン済み検査シートの形態で格納されている障害データの膨大な蓄積を利用して、それらから構造化されたレポートを生成したがっている。活字体で書かれたテキストを確実に検出する取り組みは当技術分野で行われてきたが、紙ベースのスキャンのデジタル化における課題には、考えられる筆跡の多様性を考慮に入れた手書きテキストの検出、静的および動的両方のコンテンツを有する画像の前処理、機械テンプレート図の多様性、識別されるグラフィカルオブジェクトの構造化されていない形状、およびレイアウト解析が含まれる。以下に提供される記載は、ボイラーおよびコンテナの検査シートからの情報抽出に関する。しかしながら、本開示のシステムおよび方法は、一般に、任意の機械に適用されてよい。
以下、図面、特に図1〜図13を参照する。図面では、同様の参照文字が対応する特徴を各図面にわたって一貫して示し、好適な実施形態が示されており、これらの実施形態は以下の例示的なシステムおよび/または方法の文脈で説明される。
図1は、本開示の実施形態による、視覚的関係を推論することによる工業検査シートのデジタル化のためのシステム100の例示的なブロック図を示す。実施形態において、システム100は、1つ以上のプロセッサ104、通信インターフェースデバイス(単数または複数)または入出力(I/O:input/output)インターフェース(単数または複数)106、および1つ以上のプロセッサ104に動作結合された1つ以上のデータストレージデバイスまたはメモリ102を含む。ハードウェアプロセッサである1つ以上のプロセッサ104は、1つ以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理ユニット、状態機械、グラフィックスコントローラ、論理回路構成、および/または動作命令に基づき信号を操作する任意のデバイスとして実施可能である。いくつかある能力の中で特に、プロセッサ(単数または複数)は、メモリに格納されたコンピュータ可読命令をフェッチおよび実行するように構成される。本開示の文脈では、「プロセッサ」および「ハードウェアプロセッサ」という表現が区別なく使用されることもある。実施形態において、システム100は、ラップトップコンピュータ、ノートブック、ハンドヘルドデバイス、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウド、および同様のものなど、様々なコンピューティングシステムにおいて実施可能である。
I/Oインターフェース(単数または複数)106は、例としてウェブインターフェース、グラフィカルユーザインターフェース、および同様のものなど、様々なソフトウェアインターフェースおよびハードウェアインターフェースを含むことができ、例としてLAN、ケーブルなどの有線ネットワーク、ならびにWLAN、セルラ、または衛星などの無線ネットワークを含む、多種多様なネットワークN/Wおよびプロトコルタイプの中で複数の通信を促進することができる。実施形態において、I/Oインターフェース(単数または複数)は、いくつかのデバイスを互いに、または別のサーバに接続する1つ以上のポートを含むことができる。
メモリ102は、例として、スタティックランダムアクセスメモリ(SRAM:static random access memory)およびダイナミックランダムアクセスメモリ(DRAM:dynamic random access memory)などの揮発性メモリ、ならびに/または読み取り専用メモリ(ROM:read only memory)、消去可能プログラム可能ROM、フラッシュメモリ、ハードディスク、光学ディスク、および磁気テープなどの不揮発性メモリなどを含め、当技術分野で周知の任意のコンピュータ可読媒体を含み得る。実施形態において、システム100の1つ以上のモジュール(図示せず)は、メモリ102に格納可能である。
図2Aおよび図2Bは、本開示の実施形態による、視覚的関係を推論することにより工業検査シートをデジタル化する、コンピュータに実装された方法200の例示的なフロー図を示す。実施形態において、システム100は、1つ以上のプロセッサ104による方法200のステップの実行のために構成された命令を格納するように構成され1つ以上のプロセッサ104に動作結合された、1つ以上のデータストレージデバイスまたはメモリ102を含む。以下、方法200のステップが、図1のシステム100の構成部分を参照して詳細に説明される。プロセスステップ、方法ステップ、手法、または同様のものが順番に記載されるかもしれないが、そのようなプロセス、方法、および手法は、他の順序で機能するように構成されてもよい。換言すれば、記載され得るステップの任意のシーケンスまたは順序は、必ずしもステップがその順序で実行されるという要件を示すものではない。本明細書に記載されたプロセスのステップは、実用的な任意の順序で実行され得る。さらに、一部のステップが同時に実行されてもよい。
本開示の実施形態により、図3Aは、工業検査シートを示し、図3Bは、工業検査シート中の必須構成部分を示す。図3Aに見られるように、工業検査シートは、種々のタイプの機械の印刷された線図表現を有し、個々の線図は、以下でテンプレートと呼ばれる。図3Bにあるように、機械に関連する各テンプレートは、典型的に検査エンジニアにより識別される1つ以上の画定済み区域を有する。線図表現、例えば機械の3次元(3D:3−Dimensional)正投影図は、検査シートのセットにわたって一定にとどまる、テンプレートの静的部分を構成する。検査エンジニアは、典型的には、ダメージが発生している可能性のある機械の構成部分に対して、手書きコンテンツを記す。1つ以上の画定済み区域それぞれに関連する手書きコンテンツは、テンプレートの動的部分を構成する。典型的には、手書きコンテンツは、ダメージコードおよび/または独立したテキストパッチの形態のコメントを備える。一部のテキストパッチは、吹き出しまたはバブルで囲まれることもあり、以下ではダイアログ吹き出しと呼ばれる。手書きコンテンツはさらに、1つ以上の連結部を備え、この連結部は、画定済み区域とテキストパッチに含まれるダメージコードとの間の視覚的関係を定めるために、独立したテキストパッチおよびダイアログ吹き出しそれぞれが1つ以上の画定済み区域のうちの1つへの連結部に関連するように記される。本開示により、デジタル化された文書として格納するため、テンプレート上のダメージコードが位置特定されて、対応する画定済み区域に関連付けられる。その結果、長年にわたり収集された視覚的関係の分析が、機械の健全性監視を含む様々な目的に利用され得る。
図4A〜図4Fは、本開示の実施形態による、図2Aおよび図2Bの方法の様々な段階での出力を示す。本開示の実施形態により、1つ以上のプロセッサ104は、ステップ202にて、複数の画像を備えた入力を受信するように構成され、複数の画像は、同一セットのテンプレートにより特徴付けられ、各テンプレートは、上記説明のように、静的部分および動的部分を備える。図4Aは、本開示の実施形態による例示的な入力を示す。次に、テンプレートおよびダイアログ吹き出しが入力から削除される。
よって、本開示の実施形態により、1つ以上のプロセッサ104は、ステップ204にて、複数のテンプレート除去画像を獲得するために、テンプレートそれぞれにおいて識別された静的部分に基づいて、複数の画像それぞれから1つ以上のテンプレートを削除するように構成される。図4Bは、例示的なテンプレート除去画像を示す。実施形態において、テンプレート除去画像は、動的部分を備え、手書きコンテンツは、1つ以上の連結部に関連する独立したテキストパッチおよび1つ以上のダイアログ吹き出しのうちの少なくとも1つを含む。
実施形態において、1つ以上のテンプレートを削除するステップは、まず、受信された入力の中の複数の画像を反転し、その後、反転された複数の画像の空間方向の平均化が続き、次に、1つ以上のテンプレートを抽出するために、平均化された画像に適応的閾値処理を適用することを含む。各テンプレートの相対的な開始点は複数の画像にわたって一貫しないことに留意されたい。それ故、入力の複数の画像中で、個々のテンプレートそれぞれを発見して、それらを位置特定する必要がある。この目的のために、平均化された画像上の輪郭線が検出されて、入力画像がルートノードを構成し検出されたテンプレートがテンプレートを構成するツリー構造に配列されてもよい。次に、深さ1のノードが、個々のテンプレートとして識別されてもよい。実施形態において、1つ以上のテンプレート中の各点と入力との相関関係を獲得するために、正規化相互相関法を使用して、抽出された1つ以上のテンプレートが入力と照合される。その結果、最大の相関関係を呈する点に基づいて、1つ以上のテンプレートの位置が判断される。説明のように位置特定されたテンプレートを削除するために、2つの画像TおよびRに対して、下記に示すように、演算子Not(T(i,j))およびR(i,j)が使用され、Tはテンプレート画像を表現し、Rは入力画像を表現する。
図5Aは、本開示の実施形態による、図1のシステムに対する入力における画像を示す。本開示の実施形態により、それぞれ、図5Bは図5Aの画像中のテンプレートを示し、図5Cはテンプレート除去画像を示す。
ダイアログ吹き出しは、前述したように、テキストパッチを含む。これらは複数の画像中のあちこちに存在し、連結部およびテキストパッチの中のテキストのような動的部分の検出を妨げる。よって、本開示の実施形態において、1つ以上のプロセッサ104は、ステップ206にて、1つ以上のダイアログ吹き出しのセグメンテーションを行い複数の吹き出し除去画像を獲得するために、エンコーダ・デコーダベースのSegNetアーキテクチャを使用して、複数のテンプレート除去画像を1つ以上のダイアログ吹き出しを削除するために処理するように構成される。図4Cは、本開示の実施形態による、吹き出し除去画像を示す。吹き出し除去画像は今や、複数のテキストパッチのみを備えることに注目されたい。
実施形態において、複数のテンプレート除去画像を処理するステップは、背景クラス、境界クラス、およびダイアログ吹き出しクラスを含む3つのクラスを区別するよう、複数のダイアログ吹き出し画像のデータセットに対して事前訓練されたSegNetアーキテクチャを使用して、1つ以上のダイアログ吹き出しに対してマスクを生成することを含む。概して、SegNetアーキテクチャは、ダイアログ吹き出しの構造を学習することができた。時折、SegNetアーキテクチャは、少数の画素を背景クラスとして分類することもあり、これが吹き出しが存在したところにごま塩ノイズをもたらすことにつながる場合もあるが、この問題は、後に、各テキストパッチに関連するテキストが識別されるときにステップ214にて対処される。実施形態では、次に、複数の吹き出し除去画像を獲得するために、テンプレート除去画像からマスクが減算される。図6A〜図6Cは、本開示の実施形態による、吹き出し除去画像を獲得する様々な段階での出力を示す。図6Aはテンプレート除去画像を表現し、図6Bはダイアログ吹き出しを表現し、図6Cは図6Aのダイアログ吹き出しから獲得されたテキストパッチを表現することに注目されたい。
本開示により、次のステップは、図4Dに示されるように、テキストパッチおよび1つ以上の連結部を位置特定することを伴う。この目的で、1つ以上の連結部が識別される必要がある。
連結部は、テキストパッチと対応する画定済み区域との間の1対1の関係を定める。1つ以上の連結部は、顕著な矢じりを備えた矢印として現れることもあるが、ただの線分であること、または線分の複数の断片であることも多く、自動化プロセスの複雑さを増大させる。本開示により、この問題には2つのアプローチを使用して対処され、顕著な矢じりを備えた矢印を検出するために畳み込みニューラルネットワーク(CNN)分類器が使用され、線分を検出するためにハフ線分変換が使用される。
よって、本開示の実施形態において、1つ以上のプロセッサ104は、ステップ208にて、1つ以上の連結部を構成する1つ以上の矢印および1つ以上の線分のうちの少なくとも1つを検出するために、それぞれ畳み込みニューラルネットワーク(CNN)分類器およびハフ線分変換を使用することにより、複数の吹き出し除去画像中の1つ以上の連結部を検出するように構成される。実施形態において、矢印クラスおよび背景クラスを含む2つのクラスを区別するように事前訓練されたCNNを使用して1つ以上の矢印が検出される。顕著な矢じりを有しない連結部(線分)を含めると、CNN分類器を混乱させ、正確さが大きく下がることに留意されたい。それ故、本開示において、CNN分類器は、顕著な矢じりを備えた矢印の形態の、1つ以上の連結部のみを検出するために使用される。その後、テキストパッチの情報が、検出された矢印それぞれについて末端および矢じりを識別するために使用される。
実施形態により、矢印が検出されると、顕著な矢じりのない1つ以上の線分が残る。1つ以上の線分の存在を検出するために、ハフ線分変換が使用される。次に、同じ傾きを有し50px(画素)未満のユークリッド距離を間に有する検出された1つ以上の線分が併合される。1つ以上の連結部の対応するテキストパッチへのマッピング(関連付け)に基づいて1つ以上の線分をフィルタリングするために、線分フィルタリングが実行される。フィルタリングステップは、検出されたノイズを消去するのに役立つ。図7は、本開示の実施形態による、吹き出し除去画像中で連結部が検出される場合の出力を示す。
パイプラインの次の段階は、テキストパッチ検出を伴う。複数の画像中のテキストパッチは、通常、テンプレートの付近に存在する。テキストパッチを検出するために、コネクショニストテキスト提案ネットワーク(CTPN)が使用されてきた。よって、本開示の実施形態において1つ以上のプロセッサ104は、ステップ210にて、CTPNを使用して入力の複数の画像それぞれにおいて各テキストパッチの座標を検出するように構成され、座標は各テキストパッチの周りのバウンディングボックスを形成する。CTPNがフルサイズ画像に対して訓練されると、同一線上に発生する複数のテキストパッチが、単一のバウンディングボックス内に捕捉されることに留意されたい。この異常は、画像全体の大域的なコンテキストから見たときの個々のテキストパッチの視覚解像度の低さから生じた。CTPNは単純に、関連性のある任意のテキストを、それらが水平方向で近ければ、単一の項目として捕捉する。したがって、本開示により、重なりを持たせて、複数の画像それぞれにおいて480×360pxのウィンドウがサンプリングされる。図8Aは、本開示の実施形態による、CTPNにより検出されたテキストボックスを示す。図8Aから、1つを超えるテキストパッチを含むテキストボックスがいくつかあることが分かるであろう。
本開示により、この問題を解決するために、検出された1つ以上の連結部からの情報が使用されるが、これは、各テキストパッチを、対応する連結部の末端が指し示していなければならないからである。よって、本開示の実施形態において、1つ以上のプロセッサ104は、ステップ212にて、1つ以上の連結部の末端を推定してクラスタリング法を使用することにより関連付けられた、関連する座標に基づいて、1つ以上の連結部それぞれを対応するテキストパッチにマッピングするように構成される。本開示により、クラスタリング法は、(i)K平均クラスタリング法、Kはバウンディングボックスそれぞれに関連付けられた連結部の数である、または(ii)平均シフトクラスタリング法、のいずれかとされ得る。検出された1つ以上の連結部がすべてバウンディングボックスに関連付けられると、クラスタの数が連結部の数と等しくなるようにテキストパッチがクラスタリングされる。よって、本開示の実施形態により、関連する矢印を2つ以上有するバウンディングボックスが存在する場合、連結部の数と同数のテキストパッチが獲得されて、それにより、各テキストボックスが連結部にマッピングされているのを示す図8Bに示されるように、各テキストパッチが確実に単一の連結部に関連するようにする必要がある。
テキスト読み取りが、図4Eに示されるようにダメージコードを識別する、パイプラインにおける次の段階である。よって、本開示の実施形態において1つ以上のプロセッサ104は、ステップ214にて、吹き出し除去画像、カプセルネットワーク(CapsNet)、および空間変換ネットワーク(STN)を使用して、情報交換用米国標準コード(ASCII)フォーマットで、各テキストパッチに関連するテキストを識別するように構成される。各テキストパッチに関連するテキストの識別における主な課題は、テキストを構成するダメージコードが必ずしも水平、直線に構成されているとは限らず、むしろ図9に示されるように工業検査シートの書き込みに利用できるスペースに依存して不均一な配列で複数行からなることから生じる。このような不規則性が理由で、テキストシーケンス全体をまとめて読み取るのは困難である。それ故、本開示に従い、一度に1つの文字が読み取られ、次に、最終的なシーケンスを生成するために適切な順序に配列される。各テキストパッチのセグメンテーションを行って、順序付けられていない1つ以上の文字を有するセグメントを生成するために、連結要素解析(CCA)が使用される。図9は、本開示の実施形態による、テキストパッチに対するセグメンテーションの出力を示す。CCAは、領域拡張法を使用し、重なり合っても共通の境界画素を有してもいない文字のみセグメント化することができる。したがって、CCA出力は、セグメント内に1つまたは1つを超える文字を有するかもしれない。実験は、セグメントがその中に最多で2つの文字を有したことを示した。セグメンテーションされた文字は、次に、並べ換えられ、人間が読むことができる形式(左から右または上から下)に配列された文字が獲得される。図10は、本開示の実施形態による、テキストパッチに対するセグメンテーションの出力であって、人間が読むことができる形式に配列された文字を獲得するためにセグメント中の文字が並べ換えられた後のものを示す。
本開示により、文字認識が2ステップのプロセスとして実施される。第1のステップは、セグメントが2つの文字を含むかどうか判断することである。1つを超える文字を有する生成されたセグメントを認識するために、CapsNetが使用される。CapsNetの標準的な編成が、画像中にいかなる文字もないことを表現する新たな出力クラス「None」を組み入れることにより変更された。その結果、単一の文字のみがセグメントにある場合、CapsNetは、2つのクラスのうちの1つとして「None」を予測する。CapsNetの性能は限定的であることが分かった。それ故、単一文字のセグメントを認識するためにSTNが使用された。STNは、CNNアーキテクチャのどこにでも、その幾何学的不変性を向上させるために挿入可能な、微分可能なモジュールからなる。結果として、STNは、画像中の文字の空間的方位におけるランダム性に対処するのにより効果的であり、その結果、認識性能を押し上げる。したがって、本開示により、CapsNet予測は、1つを超える文字を備えたセグメントを認識し、STNは、1文字のみを備えたセグメントを認識する。図11は、本開示の実施形態による、テキストパッチの中の関連するテキストを識別するためのカプセルネットワーク(CapsNet)および空間変換ネットワーク(STN)の使用を示す。
本開示の実施形態において、ドメイン知識を使用してニューラルネットワークの予測を補うために、訂正モジュールがシステム100に組み入れられてもよい。実施形態において、訂正は2つの部分を伴い得る。第1に、ダメージコードの文法を使用するルールベースのアプローチが、ネットワークの予測を調整するために実施されてもよい。例として、文法に従って、大文字の「B」は、丸括弧のペアの間にのみ存在でき、すなわち「(B)」である。ネットワークが「1B)」と予測すれば、訂正モジュールは、シーケンスのこの部分を、「1」を「(」で置き換えることにより訂正する。第2に、可能なダメージコードの網羅的なリストから、予測されたダメージシーケンスに最も近いシーケンスを発見する、編集距離ベースのアプローチが実装されてもよい。図12は、本開示の実施形態による、ダメージコードの文法に基づいて図11の出力に加えられた訂正を示す。
最後に、ダメージコードの画定済み区域に対する1対1マッピングが、1つ以上の連結部およびテキストパッチの座標についての知識を活用することにより、図4Fに示されるように実行される。よって、本開示の実施形態において1つ以上のプロセッサ104は、ステップ216にて、各テキストパッチに関連する識別されたテキストの、対応する機械の1つ以上の画定済み区域のうちの1つに対する1対1マッピングを、マッピングされた1つ以上の連結部および対応するテキストパッチの座標を使用して実行するように構成される。図13は、本開示の実施形態による、テキストパッチに関連する識別されたテキストの、対応する機械の1つ以上の画定済み区域のうちの1つに対する1対1マッピングを示す。1つ以上の連結部の矢じりは、対応する画定済み区域を指し示し、末端は、対応するテキストパッチを指し示す。実施形態において、レイキャスティング法が実装されてもよい。図13に示されるように、連結部が推定されるとき、それらが最初に交差する画定済み区域が、その末端にある対応するテキストパッチに関連付けられる関連性のある区域として識別されてもよい。
実験
10セットの画像に分散した、72の異なる種類の機械構造を有するデータセットを使用した。均等に分散された50のテスト用画像があった。これは、特定のセットが、静的背景を構成する同じ機械線図を有することを意味する。訓練目的で、同じ分散の背景機械線図セットを備えた450の画像の別個のセットを維持した。すべてのシートは、JPEGフォーマットで、正方画素3500×2400の解像度であった。これらを、前景が白で背景が黒の反転二値化バージョンに変換した。変換は、大津の二値化により行った。
ダイアログ吹き出しのセグメンテーション:この目的のために、SegNetアーキテクチャを200の画像に対して訓練した。吹き出し画素および背景画素を分類した。不均衡が見られたため、前景8.72および背景0.13でクラスを重み付けした。
矢印分類器:CNNは、6つの畳み込み層および2つの全結合層を、ReLU活性化とともに含む。最大プーリングおよびドロップアウト(0:5の確率)を正則化のために使用した。0:001の学習率を設定し、“A method for stochastic optimization”arXiv preprint arXiv:1412.6980でAdamにより提供されたオプティマイザを、交差エントロピー損失とともに使用し、クラスごとに等しい数の画像を用いて800の画像に対して訓練した。Xavierイニシャライザを使用してネットワークを初期化し、達成される最良の検査精度が50エポック後になるまで訓練した。ネットワークの収束を高速化するために、すべての畳み込み層とともにバッチ正則化を使用した。400の画像の均衡なテストセットに対してネットワークは99:7%の精度であった。画像のアスペクト比を乱さないように、パディングを用いて入力画像を(128×128)にサイズ変更した。
カプセルネットワーク:CapsNetを使用して、MNISTデータセットで重なった文字を分類した。学習率を0.0005に設定し、Adamオプティマイザを使用して、すべての単一文字、ならびに互いに近い文字の可能なペアすべてに対してネットワークを訓練した。
STN:これらは、1つまたはいくつかの空間変換モジュールを含む畳み込みニューラルネットワークである。これらのモジュールは、計算効率の高い形で、ネットワークを、その入力データに対して空間的に不変にしようと試み、より正確なオブジェクト分類結果につながる。“Advances in neural information processing systems”の“Spatial transformer networks”においてJaderbergらが提供したアーキテクチャを使用した。ネットワークを、このネットワークに対し31文字すべての画像に対して訓練した。すべての入力画像は、その元のアスペクト比を失わないように、パディングして32×32にサイズ変更した。
実験結果
表1は、テキスト抽出およびマッピングの個々の構成部分の精度を示す。
表2は、テキスト読み取りの個々の構成部分の精度を示す。
表3は、本開示の完全な枠組みの累積精度を示す。
テスト結果の解析
連結部検出の結果を表1に示している。429存在する矢印の中から、合計385の矢印を正しく位置特定した。検出は、テンプレートを消去した画像に対して実行した。偽陰性の大部分は、確率的ハフ線分が線分全体または線分の多くを見落とし、それを矢印フィルタリング段階の間に消去することにつながったことの結果として発生した。
CTPNを使用したテキストパッチ検出の結果を表1に示している。合計429のテキストパッチの中から392のテキストパッチを正しく検出した。少数のテキストパッチを完全に見落として少数の偽陰性が生じ、1つを超えるテキストを内部に含むバウンディングボックスを生成した。CTPNが検出した392のテキストパッチの中から、374を正しく矢印に関連付け、表1に示すパッチ関連付け精度が出た。
複数の矢印に関連したボックス(1つを超えるテキストパッチをCTPNが含めるという偽陰性)について、同じテキストパッチに属する連結した構成部分に対しK平均クラスタリングを適用した。クラスタリングを必要とした23の当該テキストパッチの中で、それらのうち22が、表1に示すように95.6%の総合精度を正しく生じた。
テキスト読み取り実験が、349の画像パッチに対して実行された。CCAの精度を、出力の合計数の中の正しい文字出力のパーセンテージとして計算した。並べ換え精度を、画像パッチの総数に基づいて、正しく行われた並べ換えのパーセンテージとして計算した。1つは重なり合った文字の認識であり、もう1つは重なり合っていない文字の場合の文字レベルの認識である、表2に記載の2つのタスクについて、CapsNetの性能を測定した。STNの精度は、CapsNetの文字レベルの精度よりも優れた文字レベルの精度を示す。表2に示すように、シーケンスレベルの精度を、真値、ならびに両訂正モジュールを通過するネットワークの最終的な予測を算出することにより測定した。予測は、予測されたストリングのすべての文字が正しい順序で真値と一致する場合に、且つその場合に限り、正しいものとみなした。本枠組みの累積精度を表3に示す。
このように、本開示のシステムおよび方法は、検出について87.1%、および読み取りについて94.63%の検出精度を提供し、その結果、高い精度を達成した。矢印、吹き出し、テキスト検出、および文字認識における種々のタイプのノイズに対して頑強であることも注目される。
記述された説明は、当業者が実施形態を作製および使用できるように、本明細書に主題を記載している。本主題の実施形態の範囲は、特許請求の範囲により定義され、当業者が想到する他の変更を含み得る。そのような他の変更は、特許請求の範囲の文字通りの用語と異ならない同様の要素を有する場合、または特許請求の範囲の文字通りの用語と非実質的な相違のある等価な要素を含む場合、特許請求の範囲に記載の範囲内にあるものとする。
当然のことながら、保護の範囲は、そのようなプログラム、およびさらに、メッセージをその中に有するコンピュータ可読手段に及ぶ。そうしたコンピュータ可読ストレージ手段は、プログラムがサーバもしくはモバイルデバイスまたは任意の適切なプログラマブルデバイス上で実行されると本方法の1つ以上のステップを実施するプログラムコード手段を含む。ハードウェアデバイスは、例えばサーバもしくはパーソナルコンピュータ、または同様のもの、またはそれらの任意の組み合わせのような任意の種類のコンピュータを含め、プログラム可能な任意の種類のデバイスとすることができる。デバイスはさらに、例えば特定用途向け集積回路(ASIC:application−specific integrated circuit)、フィールドプログラマブルゲートアレイ(FPGA:field−programmable gate array)などのようなハードウェア手段か、または例えばASICおよびFPGA、もしくは少なくとも1つのマイクロプロセッサおよびソフトウェアモジュールが中に位置する少なくとも1つのメモリなど、ハードウェア手段とソフトウェア手段との組み合わせか、とすることができる手段を含んでもよい。よって、手段はハードウェア手段およびソフトウェア手段の両方を含むことができる。本明細書に記載される方法の実施形態は、ハードウェアおよびソフトウェアにおいて実施可能であろう。デバイスはさらに、ソフトウェア手段を含んでもよい。あるいは、実施形態は、例えば複数のCPUを使用して、別々のハードウェアデバイス上において実施されてもよい。
本明細書の実施形態は、ハードウェア要素およびソフトウェア要素を備えることができる。ソフトウェアに実装される実施形態は、次に限定はされないが、ファームウェア、常駐ソフトウェア、マイクロコードなどを含む。本明細書に記載された様々なモジュールにより実行される機能は、他のモジュール、または他のモジュールの組み合わせにおいて実施されてもよい。本記載では、コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスにより使用される、またはそれに関連するプログラムを、備えること、格納すること、伝達すること、伝播させること、または輸送することができる任意の装置とすることができる。
示されたステップは、示された例示的な実施形態を説明するために記載されており、特定の機能が実行される形を進行中の技術開発が変化させるであろうことは予想されるべきである。これらの例は、限定ではなく例示を目的として本明細書で提示される。さらに、機能上のビルディングブロックの境界は、説明の便宜上、本明細書で任意に画定された。指定された機能およびそれらの関係が適切に実行される限り、代わりの境界が画定され得る。本明細書に含まれる教示に基づき、関連分野(単数または複数)の当業者には、代案(本明細書に記載されたものの等価物、拡張、変形、逸脱などを含む)が明らかであろう。そのような代案は、開示された実施形態の範囲および意図の範囲内にある。さらに、「備える(comprising)」、「有する(having)」、「含む(containing)」、および「含む(including)」という語、ならびに他の類似の形態は、意味において等価であるものとし、これらの語の任意のものに続く単数または複数の項目は、そのような単数または複数の項目の網羅的な列挙としては意図されておらず、列挙された単数または複数の項目のみに限定されることも意図されていないという点で、非限定型であるものとする。さらに、本明細書および添付の特許請求の範囲で使用される単数形の「a」、「an」、および「the」は、文脈により明確に別段規定されない限り、複数の指示を含むことに留意されたい。
さらに、1つ以上のコンピュータ可読ストレージ媒体が、本開示と整合する実施形態を実装する際に利用されてもよい。コンピュータ可読ストレージ媒体とは、プロセッサによる読み取りが可能な情報またはデータが格納され得る任意のタイプの物理メモリを指す。したがって、コンピュータ可読ストレージ媒体は、プロセッサ(単数または複数)に本明細書に記載された実施形態と整合するステップまたは段階を実行させる命令を含む、1つ以上のプロセッサにより実行される命令を格納してもよい。「コンピュータ可読媒体」という用語は、有形の項目を含み、搬送波および過渡信号は除く、すなわち非一時的であると理解されるべきである。例には、ランダムアクセスメモリ(RAM:random access memory)、読み取り専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、およびその他任意の周知の物理ストレージ媒体が含まれる。
本開示および各例は、例示的でしかないとみなされ、開示された実施形態の真の範囲および意図は、添付の特許請求の範囲により示されるものとする。

Claims (19)

  1. プロセッサに実装された方法(200)であって、
    1つ以上のハードウェアプロセッサによって、複数の画像を備えた入力を受信するステップであって、前記複数の画像は、同一の1つ以上のテンプレートにより特徴付けられ、前記1つ以上のテンプレートの中の各テンプレートは、1つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の前記1つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、前記受信するステップ(202)と、
    前記1つ以上のハードウェアプロセッサによって、前記動的部分を備えた複数のテンプレート除去画像を獲得するために、前記複数の画像それぞれから前記1つ以上のテンプレートを、前記画像中で識別された前記静的部分に基づいて削除するステップであって、前記手書きコンテンツは、1つ以上の連結部に関連する独立したテキストパッチおよび1つ以上のダイアログ吹き出しのうちの少なくとも1つを備え、前記1つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよび前記テキストパッチを囲む吹き出しを含む、前記削除するステップ(204)と、
    前記1つ以上のハードウェアプロセッサによって、複数の吹き出し除去画像を獲得するべく、前記1つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのSegNetアーキテクチャを使用して、前記複数のテンプレート除去画像をその前記1つ以上のダイアログ吹き出しを削除するために処理するステップであって、前記吹き出し除去画像は、複数のテキストパッチを備える、前記処理するステップ(206)と、
    前記1つ以上のハードウェアプロセッサによって、前記1つ以上の連結部を構成する1つ以上の矢印および1つ以上の線分のうちの少なくとも1つを検出するためにそれぞれ畳み込みニューラルネットワーク(CNN)分類器およびハフ線分変換を使用することにより、前記複数の吹き出し除去画像中の前記1つ以上の連結部を検出するステップ(208)と、
    前記1つ以上のハードウェアプロセッサによって、コネクショニストテキスト提案ネットワーク(CTPN)を使用して前記入力の前記複数の画像それぞれにおける各テキストパッチの座標を検出するステップであって、前記座標は、各テキストパッチの周りのバウンディングボックスを形成する、前記座標を検出するステップ(210)と、
    前記1つ以上のハードウェアプロセッサによって、前記1つ以上の連結部それぞれを対応するテキストパッチに、その関連する前記座標に基づいて、且つクラスタリング法を使用することによりマッピングするステップ(212)と、
    前記1つ以上のハードウェアプロセッサによって、前記吹き出し除去画像、カプセルネットワーク(CapsNet)、および空間変換ネットワーク(STN)を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード(ASCII)フォーマットで識別するステップ(214)と、
    前記1つ以上のハードウェアプロセッサによって、前記マッピングされた1つ以上の連結部および前記対応するテキストパッチの前記座標を使用することにより、各テキストパッチに関連する前記識別されたテキストの、前記対応する機械の前記1つ以上の画定済み区域のうちの1つに対する1対1マッピングを実行するステップであって、それによってそれらの間に視覚的関係を提供する、前記実行するステップ(216)と、
    を含む、プロセッサに実装された方法。
  2. 前記1つ以上のテンプレートを削除する前記ステップは、
    前記入力の中の前記複数の画像を反転するステップと、
    前記反転された複数の画像の空間方向の平均化を実行するステップと、
    前記1つ以上のテンプレートを抽出するために、前記平均化された画像に適応的閾値処理を適用するステップと、
    前記1つ以上のテンプレート中の各点と、前記入力との相関関係を獲得するために、前記抽出された1つ以上のテンプレートと前記入力とを、正規化相互相関法を使用して照合するステップと、
    最大の相関関係を呈する点に基づいて、前記1つ以上のテンプレートの位置を判断するステップと、
    前記入力から前記1つ以上のテンプレートを、その前記判断された位置に基づいて削除するステップと、
    を含む、請求項1に記載のプロセッサに実装された方法。
  3. 前記複数のテンプレート除去画像を処理する前記ステップは、
    背景クラス、境界クラス、およびダイアログ吹き出しクラスを含む3つのクラスを区別するように複数のダイアログ吹き出し画像のデータセットに対して事前訓練された前記SegNetアーキテクチャを使用して、前記1つ以上のダイアログ吹き出しに対してマスクを生成するステップと、
    前記複数の吹き出し除去画像を獲得するために、前記テンプレート除去画像から前記マスクを減算するステップと、
    を含む、請求項1に記載のプロセッサに実装された方法。
  4. 前記複数の吹き出し除去画像中の前記1つ以上の連結部を検出する前記ステップは、
    矢印クラスおよび背景クラスを含む2つのクラスを区別するように事前訓練された前記CNNを使用して、前記1つ以上の矢印を検出するステップと、
    前記1つ以上の線分の存在を検出するために前記ハフ線分変換を使用し、同じ傾きを有し50px(画素)未満のユークリッド距離を間に有する前記検出された1つ以上の線分を併合し、前記1つ以上の連結部の前記対応するテキストパッチに対する前記マッピングに基づいて前記1つ以上の線分をフィルタリングすることにより、前記1つ以上の線分を検出するステップと、
    を含む、請求項1に記載のプロセッサに実装された方法。
  5. 前記入力の中の前記複数の画像それぞれにおける各テキストパッチの座標を検出する前記ステップは、
    各テキストパッチの周りの前記バウンディングボックスを位置特定するために、前記CTPNを使用してテキスト行を位置特定するステップと、
    重なりを持たせて前記複数の画像それぞれにおいて480×360pxのウィンドウをサンプリングするステップと、
    を含む、請求項1に記載のプロセッサに実装された方法。
  6. 前記1つ以上の連結部それぞれを対応するテキストパッチにマッピングする前記ステップは、
    前記1つ以上の連結部の末端を推定することにより、前記1つ以上の連結部それぞれを各テキストパッチの周りの前記バウンディングボックスのうちの1つに関連付けるステップと、
    テキストパッチの数が前記1つ以上の連結部の数と等しくなるように、前記クラスタリング法を使用して前記テキストパッチをクラスタリングするステップと、
    を含む、請求項1に記載のプロセッサに実装された方法。
  7. 前記クラスタリング法は、(i)K平均クラスタリング法、Kは前記バウンディングボックスそれぞれに関連付けられた連結部の数である、または(ii)平均シフトクラスタリング法、のいずれかである、請求項1に記載のプロセッサに実装された方法。
  8. 各テキストパッチに関連するテキストを識別する前記ステップは、
    1つ以上の文字を中に有するセグメントを生成するために、連結要素解析(CCA)を使用して各テキストパッチのセグメンテーションを行うステップと、
    人間が読むことができる形式に配列された文字を獲得するために、順序付けられていない前記生成されたセグメント中の前記セグメンテーションされた文字を並べ換えるステップと、
    1つを超える文字を中に有する前記生成されたセグメントを認識するために、前記CapsNetを使用するステップと、
    1つの文字を中に有する前記生成されたセグメントを認識するために、前記STNを使用するステップと、
    を含む、請求項1に記載のプロセッサに実装された方法。
  9. 各テキストパッチに関連する前記識別されたテキストの、前記1つ以上の画定済み区域のうちの1つに対する1対1マッピングを実行する前記ステップは、前記テキストパッチが近くにあることが末端を示し画定済み区域に近いことが前記矢印の矢じりを示すような前記1つ以上の連結部の推定をするステップを含む、請求項に記載のプロセッサに実装された方法。
  10. 1つ以上のハードウェアプロセッサ(104)に動作結合され、命令を格納するように構成された、1つ以上のデータストレージデバイス(102)
    を備えるシステム(100)であって、前記命令は、
    複数の画像を備えた入力を受信することであって、前記複数の画像は、同一の1つ以上のテンプレートにより特徴付けられ、前記1つ以上のテンプレートの中の各テンプレートは、1つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の前記1つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、前記受信することと、
    前記動的部分を備えた複数のテンプレート除去画像を獲得するために、前記複数の画像それぞれから前記1つ以上のテンプレートを、前記画像中で識別された前記静的部分に基づいて削除することであって、前記手書きコンテンツは、1つ以上の連結部に関連する独立したテキストパッチおよび1つ以上のダイアログ吹き出しのうちの少なくとも1つを備え、前記1つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよび前記テキストパッチを囲む吹き出しを含む、前記削除することと、
    複数の吹き出し除去画像を獲得するべく、前記1つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのSegNetアーキテクチャを使用して、前記複数のテンプレート除去画像をその前記1つ以上のダイアログ吹き出しを削除するために処理することであって、前記吹き出し除去画像は、複数のテキストパッチを備える、前記処理することと、
    前記1つ以上の連結部を構成する1つ以上の矢印および1つ以上の線分のうちの少なくとも1つを検出するためにそれぞれ畳み込みニューラルネットワーク(CNN)分類器およびハフ線分変換を使用することにより、前記複数の吹き出し除去画像中の前記1つ以上の連結部を検出することと、
    コネクショニストテキスト提案ネットワーク(CTPN)を使用して前記入力の前記複数の画像それぞれにおける各テキストパッチの座標を検出することであって、前記座標は、各テキストパッチの周りのバウンディングボックスを形成する、前記座標を検出することと、
    前記1つ以上の連結部それぞれを対応するテキストパッチに、その関連する前記座標に基づいて、且つクラスタリング法を使用することによりマッピングすることと、
    前記吹き出し除去画像、カプセルネットワーク(CapsNet)、および空間変換ネットワーク(STN)を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード(ASCII)フォーマットで識別することと、
    前記マッピングされた1つ以上の連結部および前記対応するテキストパッチの前記座標を使用することにより、各テキストパッチに関連する前記識別されたテキストの、前記対応する機械の前記1つ以上の画定済み区域のうちの1つに対する1対1マッピングを実行することであって、それによってそれらの間に視覚的関係を提供する、前記実行することと、
    のために前記1つ以上のハードウェアプロセッサにより実行されるように構成される、システム。
  11. 前記1つ以上のプロセッサは、
    前記入力の中の前記複数の画像を反転することと、
    前記反転された複数の画像の空間方向の平均化を実行することと、
    前記1つ以上のテンプレートを抽出するために、前記平均化された画像に適応的閾値処理を適用することと、
    前記1つ以上のテンプレート中の各点と、前記入力との相関関係を獲得するために、前記抽出された1つ以上のテンプレートと前記入力とを、正規化相互相関法を使用して照合することと、
    最大の相関関係を呈する点に基づいて、前記1つ以上のテンプレートの位置を判断することと、
    前記入力から前記1つ以上のテンプレートを、その前記判断された位置に基づいて削除することと、
    によって、前記1つ以上のテンプレートを削除するようにさらに構成される、請求項10に記載のシステム。
  12. 前記1つ以上のプロセッサは、
    背景クラス、境界クラス、およびダイアログ吹き出しクラスを含む3つのクラスを区別するように複数のダイアログ吹き出し画像のデータセットに対して事前訓練された前記SegNetアーキテクチャを使用して、前記1つ以上のダイアログ吹き出しに対してマスクを生成することと、
    前記複数の吹き出し除去画像を獲得するために、前記テンプレート除去画像から前記マスクを減算することと、
    によって、前記複数のテンプレート除去画像を処理するようにさらに構成される、請求項10に記載のシステム。
  13. 前記1つ以上のプロセッサは、
    矢印クラスおよび背景クラスを含む2つのクラスを区別するように事前訓練された前記CNNを使用して、前記1つ以上の矢印を検出することと、
    前記1つ以上の線分の存在を検出するために前記ハフ線分変換を使用し、同じ傾きを有し50px(画素)未満のユークリッド距離を間に有する前記検出された1つ以上の線分を併合し、前記1つ以上の連結部の前記対応するテキストパッチに対する前記マッピングに基づいて前記1つ以上の線分をフィルタリングすることにより、前記1つ以上の線分を検出することと、
    によって、前記複数の吹き出し除去画像中の前記1つ以上の連結部を検出するようにさらに構成される、請求項10に記載のシステム。
  14. 前記1つ以上のプロセッサは、
    各テキストパッチの周りの前記バウンディングボックスを位置特定するために、前記CTPNを使用してテキスト行を位置特定することと、
    重なりを持たせて前記複数の画像それぞれにおいて480×360pxのウィンドウをサンプリングすることと、
    によって、前記入力の中の前記複数の画像それぞれにおける各テキストパッチの座標を検出するようにさらに構成される、請求項10に記載のシステム。
  15. 前記1つ以上のプロセッサは、
    前記1つ以上の矢印の末端を推定することにより、前記1つ以上の連結部それぞれを各テキストパッチの周りの前記バウンディングボックスのうちの1つに関連付けることと、
    テキストパッチの数が前記1つ以上の連結部の数と等しくなるように、前記クラスタリング法を使用して前記テキストパッチをクラスタリングすることと、
    によって、前記1つ以上の連結部それぞれを対応するテキストパッチにマッピングするようにさらに構成される、請求項10に記載のシステム。
  16. 前記クラスタリング法は、(i)K平均クラスタリング法、Kは前記バウンディングボックスそれぞれに関連付けられた連結部の数である、または(ii)平均シフトクラスタリング法、のいずれかである、請求項10に記載のシステム。
  17. 前記1つ以上のプロセッサは、
    1つ以上の文字を中に有するセグメントを生成するために、連結要素解析(CCA)を使用して各テキストパッチのセグメンテーションを行うことと、
    人間が読むことができる形式に配列された文字を獲得するために、順序付けられていない前記生成されたセグメント中の前記セグメンテーションされた文字を並べ換えることと、
    1つを超える文字を中に有する前記生成されたセグメントを認識するために、前記CapsNetを使用することと、
    1つの文字を中に有する前記生成されたセグメントを認識するために、前記STNを使用することと、
    によって、各テキストパッチに関連するテキストを識別するようにさらに構成される、請求項10に記載のシステム。
  18. 前記1つ以上のプロセッサは、各テキストパッチに関連する前記識別されたテキストの、1つ以上の画定済み区域に対する1対1マッピングを、前記テキストパッチが近くにあることが末端を示し画定済み区域に近いことが前記矢印の矢じりを示すような前記1つ以上の連結部の推定をすることにより実行するようにさらに構成される、請求項10に記載のシステム。
  19. 非一時的コンピュータ可読媒体において具現化されたコンピュータ可読プログラムを有する前記非一時的コンピュータ可読媒体を備えたコンピュータプログラム製品であって、前記コンピュータ可読プログラムは、コンピューティングデバイス上で実行されるときに、
    複数の画像を備えた入力を受信することであって、前記複数の画像は、同一の1つ以上のテンプレートにより特徴付けられ、前記1つ以上のテンプレートの中の各テンプレートは、1つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の前記1つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、前記受信することと、
    前記動的部分を備えた複数のテンプレート除去画像を獲得するために、前記複数の画像それぞれから前記1つ以上のテンプレートを、前記画像中で識別された前記静的部分に基づいて削除することであって、前記手書きコンテンツは、1つ以上の連結部に関連する独立したテキストパッチおよび1つ以上のダイアログ吹き出しのうちの少なくとも1つを備え、前記1つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよび前記テキストパッチを囲む吹き出しを含む、前記削除することと、
    複数の吹き出し除去画像を獲得するべく、前記1つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのSegNetアーキテクチャを使用して、前記複数のテンプレート除去画像をその前記1つ以上のダイアログ吹き出しを削除するために処理することであって、前記吹き出し除去画像は、複数のテキストパッチを備える、前記処理することと、
    前記1つ以上の連結部を構成する1つ以上の矢印および1つ以上の線分のうちの少なくとも1つを検出するためにそれぞれ畳み込みニューラルネットワーク(CNN)分類器およびハフ線分変換を使用することにより、前記複数の吹き出し除去画像中の前記1つ以上の連結部を検出することと、
    コネクショニストテキスト提案ネットワーク(CTPN)を使用して前記入力の前記複数の画像それぞれにおける各テキストパッチの座標を検出することであって、前記座標は、各テキストパッチの周りのバウンディングボックスを形成する、前記座標を検出することと、
    前記1つ以上の連結部それぞれを対応するテキストパッチに、その関連する前記座標に基づいて、且つクラスタリング法を使用することによりマッピングすることと、
    前記吹き出し除去画像、カプセルネットワーク(CapsNet)、および空間変換ネットワーク(STN)を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード(ASCII)フォーマットで識別することと、
    前記マッピングされた1つ以上の連結部および前記対応するテキストパッチの前記座標を使用することにより、各テキストパッチに関連する前記識別されたテキストの、前記対応する機械の前記1つ以上の画定済み区域のうちの1つに対する1対1マッピングを実行することであって、それによってそれらの間に視覚的関係を提供する、前記実行することと、
    を前記コンピューティングデバイスにさせる、コンピュータプログラム製品。
JP2019043349A 2018-11-28 2019-03-11 視覚的関係を推論することによる工業検査シートのデジタル化 Active JP6784791B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN201821044939 2018-11-28
IN201821044939 2018-11-28

Publications (2)

Publication Number Publication Date
JP2020087404A JP2020087404A (ja) 2020-06-04
JP6784791B2 true JP6784791B2 (ja) 2020-11-11

Family

ID=65494037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019043349A Active JP6784791B2 (ja) 2018-11-28 2019-03-11 視覚的関係を推論することによる工業検査シートのデジタル化

Country Status (6)

Country Link
US (1) US10970531B2 (ja)
EP (1) EP3660731A1 (ja)
JP (1) JP6784791B2 (ja)
CN (1) CN111241897B (ja)
AU (1) AU2019201380B1 (ja)
CA (1) CA3035387C (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11366968B2 (en) * 2019-07-29 2022-06-21 Intuit Inc. Region proposal networks for automated bounding box detection and text segmentation
CN113642228A (zh) * 2021-07-05 2021-11-12 北京电子工程总体研究所 一种基于CapsNet的未知类型故障预测方法
US20230127812A1 (en) * 2021-10-27 2023-04-27 Alectify Inc. Line diagram conversion platform and methods for use therewith

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4101712B2 (ja) * 2003-08-07 2008-06-18 株式会社日立製作所 図面の電子化保管方法と図面の電子化保管システム及び図面データ提供システム
US8995715B2 (en) * 2010-10-26 2015-03-31 Fotonation Limited Face or other object detection including template matching
US8438489B2 (en) * 2008-01-24 2013-05-07 Paulo Barthelmess System and method for document markup
US8566349B2 (en) * 2009-09-28 2013-10-22 Xerox Corporation Handwritten document categorizer and method of training
US10909313B2 (en) * 2016-06-22 2021-02-02 Sas Institute Inc. Personalized summary generation of data visualizations
US10062198B2 (en) * 2016-06-23 2018-08-28 LoomAi, Inc. Systems and methods for generating computer ready animation models of a human head from captured data images
US11531876B2 (en) * 2017-03-29 2022-12-20 University Of Florida Research Foundation, Incorporated Deep learning for characterizing unseen categories
CN111417961B (zh) * 2017-07-14 2024-01-12 纪念斯隆-凯特林癌症中心 弱监督的图像分类器
US10699410B2 (en) * 2017-08-17 2020-06-30 Siemes Healthcare GmbH Automatic change detection in medical images
US10733419B2 (en) * 2017-08-29 2020-08-04 Georgia Tech Research Corporation Systems and methods for cell membrane identification and tracking, and technique automation using the same
JP2019053428A (ja) * 2017-09-13 2019-04-04 株式会社東芝 図面修正装置
CN108345850B (zh) * 2018-01-23 2021-06-01 哈尔滨工业大学 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN108549893B (zh) * 2018-04-04 2020-03-31 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108595544A (zh) * 2018-04-09 2018-09-28 深源恒际科技有限公司 一种文档图片分类方法
US10997746B2 (en) * 2018-04-12 2021-05-04 Honda Motor Co., Ltd. Feature descriptor matching

Also Published As

Publication number Publication date
CN111241897A (zh) 2020-06-05
AU2019201380B1 (en) 2020-06-18
CN111241897B (zh) 2023-06-23
JP2020087404A (ja) 2020-06-04
EP3660731A1 (en) 2020-06-03
CA3035387C (en) 2021-08-03
US20200167557A1 (en) 2020-05-28
US10970531B2 (en) 2021-04-06
CA3035387A1 (en) 2020-05-28

Similar Documents

Publication Publication Date Title
EP3660743B1 (en) Systems and methods for automating information extraction from piping and instrumentation diagrams
US10685462B2 (en) Automatic data extraction from a digital image
US11195007B2 (en) Classification of piping and instrumental diagram information using machine-learning
US10635945B2 (en) Machine learning analysis of piping and instrumentation diagrams
JP6784791B2 (ja) 視覚的関係を推論することによる工業検査シートのデジタル化
TW201732651A (zh) 一種單詞的分割方法和裝置
JP2018136926A (ja) コンテナコード認識のための方法及びシステム
US11600088B2 (en) Utilizing machine learning and image filtering techniques to detect and analyze handwritten text
EP3776335A2 (en) Classification of piping and instrumental diagram information using machine-learning
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
JP6689903B2 (ja) ハンドマークされた工業用検査シートから情報を抽出する方法及びシステム
Yu et al. Convolutional neural networks for figure extraction in historical technical documents
Yoo et al. Mathematical formula recognition based on modified recursive projection profile cutting and labeling with double linked list
Abu-Ain et al. Automatic multi-lingual script recognition application
Rahul et al. Reading industrial inspection sheets by inferring visual relations
CN111488870A (zh) 文字识别方法和文字识别装置
Sowah et al. Intelligent instrument reader using computer vision and machine learning
US20230045646A1 (en) SYMBOL RECOGNITION FROM RASTER IMAGES OF P&IDs USING A SINGLE INSTANCE PER SYMBOL CLASS
Meehan et al. Utilising OpenCV with Tesseract to extract Bill of Materials (BOM) from Isometric Drawings
Zhao et al. Multivariable Recognition Method for Visual Symbols of Environmental Sign Based on Sequential Similarity.
Yazed et al. A Review of Neural Network Approach on Engineering Drawing Recognition and Future Directions
CN116740398A (zh) 一种目标检测及匹配方法、装置及可读存储介质
Rusiñol et al. Vectorial Signatures for Symbol Recognition and Spotting

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201023

R150 Certificate of patent or registration of utility model

Ref document number: 6784791

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250