JP6784791B2 - 視覚的関係を推論することによる工業検査シートのデジタル化 - Google Patents
視覚的関係を推論することによる工業検査シートのデジタル化 Download PDFInfo
- Publication number
- JP6784791B2 JP6784791B2 JP2019043349A JP2019043349A JP6784791B2 JP 6784791 B2 JP6784791 B2 JP 6784791B2 JP 2019043349 A JP2019043349 A JP 2019043349A JP 2019043349 A JP2019043349 A JP 2019043349A JP 6784791 B2 JP6784791 B2 JP 6784791B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- images
- patch
- templates
- text patch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims description 16
- 238000007689 inspection Methods 0.000 title description 26
- 238000000034 method Methods 0.000 claims description 75
- 238000013507 mapping Methods 0.000 claims description 25
- 230000003068 static effect Effects 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000013500 data storage Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 9
- 239000002775 capsule Substances 0.000 description 8
- 238000012937 correction Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
- G06V30/422—Technical drawings; Geographical maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0418—Architecture, e.g. interconnection topology using chaos or fractal principles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20061—Hough transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
Description
本願は、2018年11月28日出願のインド特許出願第201821044939号の優先権を主張する。前述した出願の内容全体が、参照により本明細書に組み入れられる。
本明細書の開示は、全般的に、工業検査シートを解析することに関し、特に、視覚的関係を推論することにより工業検査シートをデジタル化するシステムおよびコンピュータに実装された方法に関する。
10セットの画像に分散した、72の異なる種類の機械構造を有するデータセットを使用した。均等に分散された50のテスト用画像があった。これは、特定のセットが、静的背景を構成する同じ機械線図を有することを意味する。訓練目的で、同じ分散の背景機械線図セットを備えた450の画像の別個のセットを維持した。すべてのシートは、JPEGフォーマットで、正方画素3500×2400の解像度であった。これらを、前景が白で背景が黒の反転二値化バージョンに変換した。変換は、大津の二値化により行った。
表1は、テキスト抽出およびマッピングの個々の構成部分の精度を示す。
連結部検出の結果を表1に示している。429存在する矢印の中から、合計385の矢印を正しく位置特定した。検出は、テンプレートを消去した画像に対して実行した。偽陰性の大部分は、確率的ハフ線分が線分全体または線分の多くを見落とし、それを矢印フィルタリング段階の間に消去することにつながったことの結果として発生した。
Claims (19)
- プロセッサに実装された方法(200)であって、
1つ以上のハードウェアプロセッサによって、複数の画像を備えた入力を受信するステップであって、前記複数の画像は、同一の1つ以上のテンプレートにより特徴付けられ、前記1つ以上のテンプレートの中の各テンプレートは、1つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の前記1つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、前記受信するステップ(202)と、
前記1つ以上のハードウェアプロセッサによって、前記動的部分を備えた複数のテンプレート除去画像を獲得するために、前記複数の画像それぞれから前記1つ以上のテンプレートを、前記画像中で識別された前記静的部分に基づいて削除するステップであって、前記手書きコンテンツは、1つ以上の連結部に関連する独立したテキストパッチおよび1つ以上のダイアログ吹き出しのうちの少なくとも1つを備え、前記1つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよび前記テキストパッチを囲む吹き出しを含む、前記削除するステップ(204)と、
前記1つ以上のハードウェアプロセッサによって、複数の吹き出し除去画像を獲得するべく、前記1つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのSegNetアーキテクチャを使用して、前記複数のテンプレート除去画像をその前記1つ以上のダイアログ吹き出しを削除するために処理するステップであって、前記吹き出し除去画像は、複数のテキストパッチを備える、前記処理するステップ(206)と、
前記1つ以上のハードウェアプロセッサによって、前記1つ以上の連結部を構成する1つ以上の矢印および1つ以上の線分のうちの少なくとも1つを検出するためにそれぞれ畳み込みニューラルネットワーク(CNN)分類器およびハフ線分変換を使用することにより、前記複数の吹き出し除去画像中の前記1つ以上の連結部を検出するステップ(208)と、
前記1つ以上のハードウェアプロセッサによって、コネクショニストテキスト提案ネットワーク(CTPN)を使用して前記入力の前記複数の画像それぞれにおける各テキストパッチの座標を検出するステップであって、前記座標は、各テキストパッチの周りのバウンディングボックスを形成する、前記座標を検出するステップ(210)と、
前記1つ以上のハードウェアプロセッサによって、前記1つ以上の連結部それぞれを対応するテキストパッチに、その関連する前記座標に基づいて、且つクラスタリング法を使用することによりマッピングするステップ(212)と、
前記1つ以上のハードウェアプロセッサによって、前記吹き出し除去画像、カプセルネットワーク(CapsNet)、および空間変換ネットワーク(STN)を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード(ASCII)フォーマットで識別するステップ(214)と、
前記1つ以上のハードウェアプロセッサによって、前記マッピングされた1つ以上の連結部および前記対応するテキストパッチの前記座標を使用することにより、各テキストパッチに関連する前記識別されたテキストの、前記対応する機械の前記1つ以上の画定済み区域のうちの1つに対する1対1マッピングを実行するステップであって、それによってそれらの間に視覚的関係を提供する、前記実行するステップ(216)と、
を含む、プロセッサに実装された方法。 - 前記1つ以上のテンプレートを削除する前記ステップは、
前記入力の中の前記複数の画像を反転するステップと、
前記反転された複数の画像の空間方向の平均化を実行するステップと、
前記1つ以上のテンプレートを抽出するために、前記平均化された画像に適応的閾値処理を適用するステップと、
前記1つ以上のテンプレート中の各点と、前記入力との相関関係を獲得するために、前記抽出された1つ以上のテンプレートと前記入力とを、正規化相互相関法を使用して照合するステップと、
最大の相関関係を呈する点に基づいて、前記1つ以上のテンプレートの位置を判断するステップと、
前記入力から前記1つ以上のテンプレートを、その前記判断された位置に基づいて削除するステップと、
を含む、請求項1に記載のプロセッサに実装された方法。 - 前記複数のテンプレート除去画像を処理する前記ステップは、
背景クラス、境界クラス、およびダイアログ吹き出しクラスを含む3つのクラスを区別するように複数のダイアログ吹き出し画像のデータセットに対して事前訓練された前記SegNetアーキテクチャを使用して、前記1つ以上のダイアログ吹き出しに対してマスクを生成するステップと、
前記複数の吹き出し除去画像を獲得するために、前記テンプレート除去画像から前記マスクを減算するステップと、
を含む、請求項1に記載のプロセッサに実装された方法。 - 前記複数の吹き出し除去画像中の前記1つ以上の連結部を検出する前記ステップは、
矢印クラスおよび背景クラスを含む2つのクラスを区別するように事前訓練された前記CNNを使用して、前記1つ以上の矢印を検出するステップと、
前記1つ以上の線分の存在を検出するために前記ハフ線分変換を使用し、同じ傾きを有し50px(画素)未満のユークリッド距離を間に有する前記検出された1つ以上の線分を併合し、前記1つ以上の連結部の前記対応するテキストパッチに対する前記マッピングに基づいて前記1つ以上の線分をフィルタリングすることにより、前記1つ以上の線分を検出するステップと、
を含む、請求項1に記載のプロセッサに実装された方法。 - 前記入力の中の前記複数の画像それぞれにおける各テキストパッチの座標を検出する前記ステップは、
各テキストパッチの周りの前記バウンディングボックスを位置特定するために、前記CTPNを使用してテキスト行を位置特定するステップと、
重なりを持たせて前記複数の画像それぞれにおいて480×360pxのウィンドウをサンプリングするステップと、
を含む、請求項1に記載のプロセッサに実装された方法。 - 前記1つ以上の連結部それぞれを対応するテキストパッチにマッピングする前記ステップは、
前記1つ以上の連結部の末端を推定することにより、前記1つ以上の連結部それぞれを各テキストパッチの周りの前記バウンディングボックスのうちの1つに関連付けるステップと、
テキストパッチの数が前記1つ以上の連結部の数と等しくなるように、前記クラスタリング法を使用して前記テキストパッチをクラスタリングするステップと、
を含む、請求項1に記載のプロセッサに実装された方法。 - 前記クラスタリング法は、(i)K平均クラスタリング法、Kは前記バウンディングボックスそれぞれに関連付けられた連結部の数である、または(ii)平均シフトクラスタリング法、のいずれかである、請求項1に記載のプロセッサに実装された方法。
- 各テキストパッチに関連するテキストを識別する前記ステップは、
1つ以上の文字を中に有するセグメントを生成するために、連結要素解析(CCA)を使用して各テキストパッチのセグメンテーションを行うステップと、
人間が読むことができる形式に配列された文字を獲得するために、順序付けられていない前記生成されたセグメント中の前記セグメンテーションされた文字を並べ換えるステップと、
1つを超える文字を中に有する前記生成されたセグメントを認識するために、前記CapsNetを使用するステップと、
1つの文字を中に有する前記生成されたセグメントを認識するために、前記STNを使用するステップと、
を含む、請求項1に記載のプロセッサに実装された方法。 - 各テキストパッチに関連する前記識別されたテキストの、前記1つ以上の画定済み区域のうちの1つに対する1対1マッピングを実行する前記ステップは、前記テキストパッチが近くにあることが末端を示し画定済み区域に近いことが前記矢印の矢じりを示すような前記1つ以上の連結部の推定をするステップを含む、請求項1に記載のプロセッサに実装された方法。
- 1つ以上のハードウェアプロセッサ(104)に動作結合され、命令を格納するように構成された、1つ以上のデータストレージデバイス(102)
を備えるシステム(100)であって、前記命令は、
複数の画像を備えた入力を受信することであって、前記複数の画像は、同一の1つ以上のテンプレートにより特徴付けられ、前記1つ以上のテンプレートの中の各テンプレートは、1つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の前記1つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、前記受信することと、
前記動的部分を備えた複数のテンプレート除去画像を獲得するために、前記複数の画像それぞれから前記1つ以上のテンプレートを、前記画像中で識別された前記静的部分に基づいて削除することであって、前記手書きコンテンツは、1つ以上の連結部に関連する独立したテキストパッチおよび1つ以上のダイアログ吹き出しのうちの少なくとも1つを備え、前記1つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよび前記テキストパッチを囲む吹き出しを含む、前記削除することと、
複数の吹き出し除去画像を獲得するべく、前記1つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのSegNetアーキテクチャを使用して、前記複数のテンプレート除去画像をその前記1つ以上のダイアログ吹き出しを削除するために処理することであって、前記吹き出し除去画像は、複数のテキストパッチを備える、前記処理することと、
前記1つ以上の連結部を構成する1つ以上の矢印および1つ以上の線分のうちの少なくとも1つを検出するためにそれぞれ畳み込みニューラルネットワーク(CNN)分類器およびハフ線分変換を使用することにより、前記複数の吹き出し除去画像中の前記1つ以上の連結部を検出することと、
コネクショニストテキスト提案ネットワーク(CTPN)を使用して前記入力の前記複数の画像それぞれにおける各テキストパッチの座標を検出することであって、前記座標は、各テキストパッチの周りのバウンディングボックスを形成する、前記座標を検出することと、
前記1つ以上の連結部それぞれを対応するテキストパッチに、その関連する前記座標に基づいて、且つクラスタリング法を使用することによりマッピングすることと、
前記吹き出し除去画像、カプセルネットワーク(CapsNet)、および空間変換ネットワーク(STN)を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード(ASCII)フォーマットで識別することと、
前記マッピングされた1つ以上の連結部および前記対応するテキストパッチの前記座標を使用することにより、各テキストパッチに関連する前記識別されたテキストの、前記対応する機械の前記1つ以上の画定済み区域のうちの1つに対する1対1マッピングを実行することであって、それによってそれらの間に視覚的関係を提供する、前記実行することと、
のために前記1つ以上のハードウェアプロセッサにより実行されるように構成される、システム。 - 前記1つ以上のプロセッサは、
前記入力の中の前記複数の画像を反転することと、
前記反転された複数の画像の空間方向の平均化を実行することと、
前記1つ以上のテンプレートを抽出するために、前記平均化された画像に適応的閾値処理を適用することと、
前記1つ以上のテンプレート中の各点と、前記入力との相関関係を獲得するために、前記抽出された1つ以上のテンプレートと前記入力とを、正規化相互相関法を使用して照合することと、
最大の相関関係を呈する点に基づいて、前記1つ以上のテンプレートの位置を判断することと、
前記入力から前記1つ以上のテンプレートを、その前記判断された位置に基づいて削除することと、
によって、前記1つ以上のテンプレートを削除するようにさらに構成される、請求項10に記載のシステム。 - 前記1つ以上のプロセッサは、
背景クラス、境界クラス、およびダイアログ吹き出しクラスを含む3つのクラスを区別するように複数のダイアログ吹き出し画像のデータセットに対して事前訓練された前記SegNetアーキテクチャを使用して、前記1つ以上のダイアログ吹き出しに対してマスクを生成することと、
前記複数の吹き出し除去画像を獲得するために、前記テンプレート除去画像から前記マスクを減算することと、
によって、前記複数のテンプレート除去画像を処理するようにさらに構成される、請求項10に記載のシステム。 - 前記1つ以上のプロセッサは、
矢印クラスおよび背景クラスを含む2つのクラスを区別するように事前訓練された前記CNNを使用して、前記1つ以上の矢印を検出することと、
前記1つ以上の線分の存在を検出するために前記ハフ線分変換を使用し、同じ傾きを有し50px(画素)未満のユークリッド距離を間に有する前記検出された1つ以上の線分を併合し、前記1つ以上の連結部の前記対応するテキストパッチに対する前記マッピングに基づいて前記1つ以上の線分をフィルタリングすることにより、前記1つ以上の線分を検出することと、
によって、前記複数の吹き出し除去画像中の前記1つ以上の連結部を検出するようにさらに構成される、請求項10に記載のシステム。 - 前記1つ以上のプロセッサは、
各テキストパッチの周りの前記バウンディングボックスを位置特定するために、前記CTPNを使用してテキスト行を位置特定することと、
重なりを持たせて前記複数の画像それぞれにおいて480×360pxのウィンドウをサンプリングすることと、
によって、前記入力の中の前記複数の画像それぞれにおける各テキストパッチの座標を検出するようにさらに構成される、請求項10に記載のシステム。 - 前記1つ以上のプロセッサは、
前記1つ以上の矢印の末端を推定することにより、前記1つ以上の連結部それぞれを各テキストパッチの周りの前記バウンディングボックスのうちの1つに関連付けることと、
テキストパッチの数が前記1つ以上の連結部の数と等しくなるように、前記クラスタリング法を使用して前記テキストパッチをクラスタリングすることと、
によって、前記1つ以上の連結部それぞれを対応するテキストパッチにマッピングするようにさらに構成される、請求項10に記載のシステム。 - 前記クラスタリング法は、(i)K平均クラスタリング法、Kは前記バウンディングボックスそれぞれに関連付けられた連結部の数である、または(ii)平均シフトクラスタリング法、のいずれかである、請求項10に記載のシステム。
- 前記1つ以上のプロセッサは、
1つ以上の文字を中に有するセグメントを生成するために、連結要素解析(CCA)を使用して各テキストパッチのセグメンテーションを行うことと、
人間が読むことができる形式に配列された文字を獲得するために、順序付けられていない前記生成されたセグメント中の前記セグメンテーションされた文字を並べ換えることと、
1つを超える文字を中に有する前記生成されたセグメントを認識するために、前記CapsNetを使用することと、
1つの文字を中に有する前記生成されたセグメントを認識するために、前記STNを使用することと、
によって、各テキストパッチに関連するテキストを識別するようにさらに構成される、請求項10に記載のシステム。 - 前記1つ以上のプロセッサは、各テキストパッチに関連する前記識別されたテキストの、1つ以上の画定済み区域に対する1対1マッピングを、前記テキストパッチが近くにあることが末端を示し画定済み区域に近いことが前記矢印の矢じりを示すような前記1つ以上の連結部の推定をすることにより実行するようにさらに構成される、請求項10に記載のシステム。
- 非一時的コンピュータ可読媒体において具現化されたコンピュータ可読プログラムを有する前記非一時的コンピュータ可読媒体を備えたコンピュータプログラム製品であって、前記コンピュータ可読プログラムは、コンピューティングデバイス上で実行されるときに、
複数の画像を備えた入力を受信することであって、前記複数の画像は、同一の1つ以上のテンプレートにより特徴付けられ、前記1つ以上のテンプレートの中の各テンプレートは、1つ以上の画定済み区域を有する機械の線図表現である静的部分と、対応する機械の前記1つ以上の画定済み区域に関連する手書きコンテンツを備えた動的部分とを備える、前記受信することと、
前記動的部分を備えた複数のテンプレート除去画像を獲得するために、前記複数の画像それぞれから前記1つ以上のテンプレートを、前記画像中で識別された前記静的部分に基づいて削除することであって、前記手書きコンテンツは、1つ以上の連結部に関連する独立したテキストパッチおよび1つ以上のダイアログ吹き出しのうちの少なくとも1つを備え、前記1つ以上のダイアログ吹き出しのそれぞれは、テキストパッチおよび前記テキストパッチを囲む吹き出しを含む、前記削除することと、
複数の吹き出し除去画像を獲得するべく、前記1つ以上のダイアログ吹き出しのセグメンテーションのためにエンコーダ・デコーダベースのSegNetアーキテクチャを使用して、前記複数のテンプレート除去画像をその前記1つ以上のダイアログ吹き出しを削除するために処理することであって、前記吹き出し除去画像は、複数のテキストパッチを備える、前記処理することと、
前記1つ以上の連結部を構成する1つ以上の矢印および1つ以上の線分のうちの少なくとも1つを検出するためにそれぞれ畳み込みニューラルネットワーク(CNN)分類器およびハフ線分変換を使用することにより、前記複数の吹き出し除去画像中の前記1つ以上の連結部を検出することと、
コネクショニストテキスト提案ネットワーク(CTPN)を使用して前記入力の前記複数の画像それぞれにおける各テキストパッチの座標を検出することであって、前記座標は、各テキストパッチの周りのバウンディングボックスを形成する、前記座標を検出することと、
前記1つ以上の連結部それぞれを対応するテキストパッチに、その関連する前記座標に基づいて、且つクラスタリング法を使用することによりマッピングすることと、
前記吹き出し除去画像、カプセルネットワーク(CapsNet)、および空間変換ネットワーク(STN)を使用して、各テキストパッチに関連するテキストを情報交換用米国標準コード(ASCII)フォーマットで識別することと、
前記マッピングされた1つ以上の連結部および前記対応するテキストパッチの前記座標を使用することにより、各テキストパッチに関連する前記識別されたテキストの、前記対応する機械の前記1つ以上の画定済み区域のうちの1つに対する1対1マッピングを実行することであって、それによってそれらの間に視覚的関係を提供する、前記実行することと、
を前記コンピューティングデバイスにさせる、コンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201821044939 | 2018-11-28 | ||
IN201821044939 | 2018-11-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020087404A JP2020087404A (ja) | 2020-06-04 |
JP6784791B2 true JP6784791B2 (ja) | 2020-11-11 |
Family
ID=65494037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019043349A Active JP6784791B2 (ja) | 2018-11-28 | 2019-03-11 | 視覚的関係を推論することによる工業検査シートのデジタル化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10970531B2 (ja) |
EP (1) | EP3660731A1 (ja) |
JP (1) | JP6784791B2 (ja) |
CN (1) | CN111241897B (ja) |
AU (1) | AU2019201380B1 (ja) |
CA (1) | CA3035387C (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11366968B2 (en) * | 2019-07-29 | 2022-06-21 | Intuit Inc. | Region proposal networks for automated bounding box detection and text segmentation |
CN113642228A (zh) * | 2021-07-05 | 2021-11-12 | 北京电子工程总体研究所 | 一种基于CapsNet的未知类型故障预测方法 |
US20230127812A1 (en) * | 2021-10-27 | 2023-04-27 | Alectify Inc. | Line diagram conversion platform and methods for use therewith |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4101712B2 (ja) * | 2003-08-07 | 2008-06-18 | 株式会社日立製作所 | 図面の電子化保管方法と図面の電子化保管システム及び図面データ提供システム |
US8995715B2 (en) * | 2010-10-26 | 2015-03-31 | Fotonation Limited | Face or other object detection including template matching |
US8438489B2 (en) * | 2008-01-24 | 2013-05-07 | Paulo Barthelmess | System and method for document markup |
US8566349B2 (en) * | 2009-09-28 | 2013-10-22 | Xerox Corporation | Handwritten document categorizer and method of training |
US10909313B2 (en) * | 2016-06-22 | 2021-02-02 | Sas Institute Inc. | Personalized summary generation of data visualizations |
US10062198B2 (en) * | 2016-06-23 | 2018-08-28 | LoomAi, Inc. | Systems and methods for generating computer ready animation models of a human head from captured data images |
US11531876B2 (en) * | 2017-03-29 | 2022-12-20 | University Of Florida Research Foundation, Incorporated | Deep learning for characterizing unseen categories |
CN111417961B (zh) * | 2017-07-14 | 2024-01-12 | 纪念斯隆-凯特林癌症中心 | 弱监督的图像分类器 |
US10699410B2 (en) * | 2017-08-17 | 2020-06-30 | Siemes Healthcare GmbH | Automatic change detection in medical images |
US10733419B2 (en) * | 2017-08-29 | 2020-08-04 | Georgia Tech Research Corporation | Systems and methods for cell membrane identification and tracking, and technique automation using the same |
JP2019053428A (ja) * | 2017-09-13 | 2019-04-04 | 株式会社東芝 | 図面修正装置 |
CN108345850B (zh) * | 2018-01-23 | 2021-06-01 | 哈尔滨工业大学 | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 |
CN108549893B (zh) * | 2018-04-04 | 2020-03-31 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108595544A (zh) * | 2018-04-09 | 2018-09-28 | 深源恒际科技有限公司 | 一种文档图片分类方法 |
US10997746B2 (en) * | 2018-04-12 | 2021-05-04 | Honda Motor Co., Ltd. | Feature descriptor matching |
-
2019
- 2019-02-19 EP EP19158025.7A patent/EP3660731A1/en active Pending
- 2019-02-25 US US16/285,107 patent/US10970531B2/en active Active
- 2019-02-27 AU AU2019201380A patent/AU2019201380B1/en active Active
- 2019-02-28 CA CA3035387A patent/CA3035387C/en active Active
- 2019-03-11 JP JP2019043349A patent/JP6784791B2/ja active Active
- 2019-03-15 CN CN201910198486.7A patent/CN111241897B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111241897A (zh) | 2020-06-05 |
AU2019201380B1 (en) | 2020-06-18 |
CN111241897B (zh) | 2023-06-23 |
JP2020087404A (ja) | 2020-06-04 |
EP3660731A1 (en) | 2020-06-03 |
CA3035387C (en) | 2021-08-03 |
US20200167557A1 (en) | 2020-05-28 |
US10970531B2 (en) | 2021-04-06 |
CA3035387A1 (en) | 2020-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3660743B1 (en) | Systems and methods for automating information extraction from piping and instrumentation diagrams | |
US10685462B2 (en) | Automatic data extraction from a digital image | |
US11195007B2 (en) | Classification of piping and instrumental diagram information using machine-learning | |
US10635945B2 (en) | Machine learning analysis of piping and instrumentation diagrams | |
JP6784791B2 (ja) | 視覚的関係を推論することによる工業検査シートのデジタル化 | |
TW201732651A (zh) | 一種單詞的分割方法和裝置 | |
JP2018136926A (ja) | コンテナコード認識のための方法及びシステム | |
US11600088B2 (en) | Utilizing machine learning and image filtering techniques to detect and analyze handwritten text | |
EP3776335A2 (en) | Classification of piping and instrumental diagram information using machine-learning | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
JP6689903B2 (ja) | ハンドマークされた工業用検査シートから情報を抽出する方法及びシステム | |
Yu et al. | Convolutional neural networks for figure extraction in historical technical documents | |
Yoo et al. | Mathematical formula recognition based on modified recursive projection profile cutting and labeling with double linked list | |
Abu-Ain et al. | Automatic multi-lingual script recognition application | |
Rahul et al. | Reading industrial inspection sheets by inferring visual relations | |
CN111488870A (zh) | 文字识别方法和文字识别装置 | |
Sowah et al. | Intelligent instrument reader using computer vision and machine learning | |
US20230045646A1 (en) | SYMBOL RECOGNITION FROM RASTER IMAGES OF P&IDs USING A SINGLE INSTANCE PER SYMBOL CLASS | |
Meehan et al. | Utilising OpenCV with Tesseract to extract Bill of Materials (BOM) from Isometric Drawings | |
Zhao et al. | Multivariable Recognition Method for Visual Symbols of Environmental Sign Based on Sequential Similarity. | |
Yazed et al. | A Review of Neural Network Approach on Engineering Drawing Recognition and Future Directions | |
CN116740398A (zh) | 一种目标检测及匹配方法、装置及可读存储介质 | |
Rusiñol et al. | Vectorial Signatures for Symbol Recognition and Spotting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190614 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200721 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201023 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6784791 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |