JP7209238B2 - 処理装置および処理方法 - Google Patents

処理装置および処理方法 Download PDF

Info

Publication number
JP7209238B2
JP7209238B2 JP2021548339A JP2021548339A JP7209238B2 JP 7209238 B2 JP7209238 B2 JP 7209238B2 JP 2021548339 A JP2021548339 A JP 2021548339A JP 2021548339 A JP2021548339 A JP 2021548339A JP 7209238 B2 JP7209238 B2 JP 7209238B2
Authority
JP
Japan
Prior art keywords
processing
symbol
unit
input
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021548339A
Other languages
English (en)
Other versions
JPWO2021059612A1 (ja
Inventor
祥平 鎌田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2021059612A1 publication Critical patent/JPWO2021059612A1/ja
Application granted granted Critical
Publication of JP7209238B2 publication Critical patent/JP7209238B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

本開示は、処理技術、特に図面に対する処理を実行する処理装置および処理方法に関する。
インターネットのホームページ等で提供されるマンション等の物件情報には、例えば、間取り図、物件の住所や広さ等の情報等が含まれる。物件情報を生成するために、不動産物件の間取り図画像から、部屋領域が特定される。また、間取り図画像に含まれる文字列が認識されるとともに、間取り図画像に含まれる設置物記号が検出される。さらに、特定された部屋領域と、文字列の認識結果と、設置物記号の検出結果とをもとに部屋の種類が特定される。(例えば、特許文献1参照)。
国際公開第18/092382号
住宅、店舗、施設等のリニューアルを提案する際、既存の警報ベル、感知器等の機器の個数を建設図面から調べて、見積書が作成される。具体的には、機器を示す記号と名称の対応関係が示された凡例表が図面に記載されているので、作業者は、凡例表を見ながら記号を図面から抽出する。住宅、店舗、施設等の規模が大きくなるほど機器の個数が多くなるので、記号を数える作業の手間が増加する。このような作業を簡易化するために、建設図面を画像としてコンピュータに読み込ませ、記号の個数をコンピュータに数えさせる。その際、凡例表の認識が不正確であると、機器の名称に誤りが生じる。
本開示はこうした状況に鑑みなされたものであり、その目的は、互いに対応した記号と文字とを図面から認識する精度を向上する技術を提供することにある。
上記課題を解決するために、本開示のある態様の処理装置は、図面から抽出した記号を入力する第1入力部と、図面から抽出した第1の文字であって、かつ記号に対応すべき第1の文字を入力する第2入力部と、第1入力部に入力した記号と、第2入力部に入力した第1の文字との組合せに対して、複数種類の記号のそれぞれと、各記号に対応した文字との組合せで学習されたニューラルネットワークによる処理を実行する処理部と、処理部の処理結果として、第1入力部に入力した記号に対応した第2の文字を出力する出力部と、を備える。
本開示の別の態様は、処理方法である。この方法は、図面から抽出した記号を入力するステップと、図面から抽出した第1の文字であって、かつ記号に対応すべき第1の文字を入力するステップと、入力した記号と、入力した第1の文字との組合せに対して、複数種類の記号のそれぞれと、各記号に対応した文字との組合せで学習されたニューラルネットワークによる処理を実行するステップと、処理結果として、入力した記号に対応した第2の文字を出力するステップと、を備える。
なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、またはコンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本開示の態様として有効である。
本開示によれば、互いに対応した記号と文字とを図面から認識する精度を向上できる。
図1(a)-(d)は、従来の見積書の作成手順を示す図である。 実施例に係る記号集計装置の構成を示す図である。 図3(a)-(c)は、図2の記号処理部における処理の概要を示す図である。 図4(a)-(d)は、図2の処理部における処理の概要を示す図である。 図5(a)-(c)は、図2の処理部の構成を示す図である。 図6(a)-(c)は、図5(a)-(c)の組合せ層の処理の概要を示す図である。 図2の処理部の別の構成を示す図である。
本開示の実施例を具体的に説明する前に、本実施例の概要を説明する。実施例は、複数の記号が示されている建設図面から、記号の種類毎に個数を積算する記号集計装置に関する。建設図面には凡例表が記載されており、凡例表には、機器を示す記号と、当該記号に対応した名称の文字の対応関係が示される。作業者が、凡例表を見ながら建設図面から記号を抽出して、記号の種類毎に個数を積算する場合、建設図面が対象とする施設等の規模が大きくなるほど、作業の手間が増加するとともに誤りが発生しやすくなる。これらを改善するために、建設図面を画像としてコンピュータに読み込ませ、記号の個数をコンピュータに数えさせることが望ましいが、凡例表の認識が不正確であると、記号の名称に誤りが生じる。
これに対応するために、本実施例に係る記号集計装置は、建設図面を読み込み、建設図面の凡例表から記号と名称とを抽出する。記号集計装置は、2つの入力を有し、1つの入力として記号を受けつけ、もう1つの入力として名称を受けつける。記号と名称との組合せに対してニューラルネットワークの処理を実行させる。当該ニューラルネットワークは、記号と名称の組合せを教師データとして予め学習されているので、入力した名称の文字に誤りがあればこれを修正する。記号と名称という2種類の情報を組み合わせて、ニューラルネットワークの処理を実行するので、1種類の情報のみに対してニューラルネットワークの処理を実行するよりも認識精度が向上される。
図1(a)-(d)は、従来の見積書の作成手順を示す。図1(a)に示されるような建設図面が、電子メールあるいはFAXで受けつけられる。建設図面は数十枚になることもある。また、建設図面は、手書きの図面であったり、印刷された図面であったりする。図1(b)では、図1(a)における建設図面に記載された記号が作業者によって種類毎に集計される。一般的に、建設図面には、数百個以上の記号が含まれる。このように、現状では作業者が紙ベースで記号を積算しており、手間がかかっている。図1(c)では、図1(b)において集計した結果を作業者が確認する。作業者は、集計結果を既存のシステムに手入力する。図1(d)では、集計結果の入力をもとに見積書が作成される。
従来の見積書の作成手順では、作業者による手作業が多く、手間がかかるとともに誤りも発生しやすくなる。そのため、建設図面を画像として入力して、建設図面から記号を抽出し、見積書を自動的に作成する装置の実現が望まれる。このような装置は、建設図面に含まれた凡例表の内容をもとに、数えるべき記号を認識するので、凡例表の認識精度の向上が求められる。
図2は、記号集計装置1000の構成を示す。記号集計装置1000は、図面取得部10、凡例表検出部20、抽出部30、記号処理部100、記号集計部40を含む。抽出部30は、構造認識部300、実行部310を含み、構造認識部300は、2値化処理部320、第1生成部330、第2生成部340、解析部350を含む。記号処理部100は、第1入力部110、第2入力部112、処理部114、出力部118を含む。
図面取得部10は、建設図面を取得する。建設図面がPDF、CADデータ等の電子データである場合、図面取得部10は、建設図面を電子データのまま取得する。一方、建設図面が紙データである場合、図面取得部10は、スキャナにより建設図面を電子データに変換する。図3(a)-(c)は、記号処理部100における処理の概要を示す。図3(a)は、図面取得部10において取得される建設図面400である。建設図面400は、電子データであり、図1(a)と同様に複数毎によって構成されることもある。図3(b)-(c)は後述し、図2に戻る。図面取得部10は、電子データの建設図面400(以下、これもまた「建設図面400」という)を凡例表検出部20、記号集計部40に出力する。
凡例表検出部20は、図面取得部10から建設図面400を受けつける。凡例表検出部20は、建設図面400に対して、深層学習、例えば、FCN(Fully Convolutional Networks)等のニューラルネットワークの処理を実行することによって、建築画面に含まれた凡例表を自動検出する。ニューラルネットワークの処理には公知の技術が使用されればよいので、ここでは説明を省略する。凡例表を検出するために、ニューラルネットワークの処理以外が実行されてもよく、例えば、パターンマッチング処理が実行されてもよい。図3(b)は、検出された凡例表410を示す。凡例表410は、横方向の線と縦方向の線が組み合わされた表の構造を有するとともに、表の中に、複数の記号が縦方向に並べられるとともに、複数の記号の右側に複数の名称も縦方向に並べられる。このような複数の記号と複数の名称の配置の規則は予め定められている。複数の記号のそれぞれは建築画面に含まれる機器を示し、複数の名称のそれぞれは機器の名称である。名称は複数の文字の組合せにより構成される。図3(c)は後述し、図2に戻る。凡例表検出部20は、凡例表を抽出部30に出力する。
抽出部30の2値化処理部320は、凡例表検出部20から凡例表410を受けつける。2値化処理部320は、凡例表410の各画素の値を2値化する。例えば、凡例表410における線の色は「1」にされ、それ以外の色は「0」にされる。2値化処理部320は、2値化された複数の画素が含まれた凡例表410(以下、これもまた「凡例表410」という)を第1生成部330、第2生成部340に出力する。
第1生成部330は、2値化処理部320が2値化した各画素の値を受けつける。第1生成部330は、図3(c)に示されたx軸方向に並んだ各座標において、y方向に積算した積算値を導出する。x軸方向は前述の横方向に相当し、y軸方向は前述の縦方向に相当する。また、第1生成部330は、x方向に並んだ各座標の積算値を集めた第1データ群を生成する。第1生成部330は、第1データ群を解析部350に出力する。第2生成部340は、2値化処理部320が2値化した各画素の値を受けつける。第2生成部340は、図3(c)に示されたy軸方向に並んだ各座標において、x方向に積算した積算値を導出する。また、第2生成部340は、y方向に並んだ各座標の積算値を集めた第2データ群を生成する。第2生成部340は、第2データ群を解析部350に出力する。
解析部350は、第1生成部330において生成した第1データ群での積算値がしきい値以上となるx軸方向の座標を特定する。特定した座標には、凡例表410の表における縦方向の線が配置される。また、解析部350は、第2生成部340において生成した第2データ群での積算値がしきい値以上となるy軸方向の座標を座標を特定する。特定した座標には、凡例表410における横方向の線が配置される。さらに、解析部350は、縦方向の線が配置される座標と、横方向の線が配置される座標とを組み合わせることによって、凡例表410の構造を把握する。解析部350は、把握した凡例表410の構造に関する情報を実行部310に出力する。
実行部310は、凡例表検出部20から凡例表410を受けつけるとともに、解析部350から、凡例表410の構造に関する情報を受けつける。実行部310は、構造を把握した凡例表410から、複数の記号と複数の名称とを抽出する。その際、実行部310は、図2(b)における複数の記号と複数の名称の配置の規則を予め保持しており、その規則を抽出に利用する。また、抽出した複数の記号と複数の名称はいずれも画像データである。実行部310は、抽出した複数の記号のそれぞれを第1入力部110に出力する。
実行部310は、抽出した複数の名称のそれぞれを、OCR(Optical Character Recognition/Reader)により画像データから文字データに変換する。また、実行部310は、文字データの複数の名称に対して、Word2Vec等により文字データから特徴ベクトルに変換する。実行部310は、特徴ベクトルで示された複数の名称のそれぞれを第2入力部112に出力する。
記号処理部100の第1入力部110は、実行部310から複数の記号のそれぞれを画像データとして入力する。第2入力部112は、実行部310から複数の名称のそれぞれを特徴ベクトルとして入力する。図4(a)-(d)は、処理部114における処理の概要を示す。図4(a)は、第1入力部110に入力された複数の記号を示し、図4(b)は、第2入力部112に入力された複数の名称を示す。ここでは、一例として、「エレベータ「製」御盤」、「光学式スポット型感知器 2種 点検B「C」X付」、「差動式スポット型「知器」」、「定温式スポット型感知器 特種 65「C」」のような誤認識が含まれる。図2に戻る。
処理部114は、第1入力部110に入力した記号と、第2入力部112に入力した名称との組合せに対して、複数種類の記号のそれぞれと、各記号に対応した名称との組合せで学習されたニューラルネットワークによる処理を実行する。図5(a)-(c)は、処理部114の構成を示す。図5(a)-(c)は、処理部114の構成を示す。図5(a)は、処理部114の構成の一例を示す。処理部114は、畳み込み層142と総称される第1畳み込み層142aから第4畳み込み層142d、プーリング層144と総称される第1プーリング層144aから第4プーリング層144d、組合せ層146、全結合層148を含む。
組合せ層146は、図2の第1入力部110と第2入力部112に接続され、第1入力部110から記号記号を入力し、第2入力部112から名称を入力する。組合せ層146は、記号と名称とを組み合わせる。図6(a)-(c)は、図5(a)-(c)の組合せ層146の処理の概要を示す。第1入力情報200aは、組合せ層146に入力される記号を示し、第2入力情報200bは、組合せ層146に入力される名称を示し、記号、名称に何らかの処理がなされたものも含む。
図6(a)は、第1入力情報200aと第2入力情報200bが別のチャンネルとして1つに合併される。これは、第1入力情報200aと第2入力情報200bとをチャンネル方向に合併することに相当する。その結果、記号と名称の組合せが生成される。図6(b)では、2つのチャンネルの第1入力情報200a、第2入力情報200bが、x軸方向に並べることによって1つのチャンネルにされる。図6(c)では、2つのチャンネルの第1入力情報200a、第2入力情報200bが、y軸方向に並べることによって1つのチャンネルにされる。図6(b)-(c)では、第1入力情報200a、第2入力情報200bが1つの方向に並べることによって合併される。図5(a)に戻る。組合せ層146は、組み合わせた結果(以下、「組合せ結果」という)を第1畳み込み層142aに出力する。
畳み込み層142は、組合せ結果の各チャンネルに対して、2次元で示された情報のサイズよりも小さいサイズの空間フィルタをずらしながら空間フィルタリングを実行する。空間フィルタリングは公知の技術であるので、ここでは説明を省略するが、この空間フィルタリングが畳み込み処理に相当し、畳み込み処理によって情報の特徴量が抽出される。なお、畳み込み層142においてパディング等が実行されてもよい。さらに、畳み込み層142は、各チャンネルの情報に対して、複数の空間フィルタを並列に使用して、複数の空間フィルタリングを並列して実行してもよい。このような複数の空間フィルタの並列使用によって、情報が増加する。これは、組合せ結果におけるチャンネル数が増加することに相当する。
プーリング層144は、組合せ結果における各チャンネルの情報内の任意の領域に含まれた複数の要素を1つの要素にまとめることによって、情報のサイズを小さくする。ここで、複数の要素を1つの要素にまとめるために、平均プーリングあるいは最大プーリングが実行される。平均プーリングでは、領域内の複数の要素値の平均値が1つの要素に対して使用され、最大プーリングでは、領域内の複数の要素値のうちの最大値が1つの要素に対して使用される。プーリング処理は、着目領域における代表値あるいは平均値の並進移動に対してロバスト性を強化するためになされる。
ここでは、第1畳み込み層142a、第1プーリング層144a、第2畳み込み層142b、第2プーリング層144b、第3畳み込み層142c、第3プーリング層144c、第4畳み込み層142d、第4プーリング層144dの順に処理が実行される。つまり、組合せ結果に対して、畳み込み処理とプーリング処理とが繰り返し実行される。また、畳み込み処理とプーリング処理とが繰り返されることによって、各チャンネルの情報のサイズが順に小さくされる。第4プーリング層144dの処理結果は、全結合層148に出力される。
全結合層148は、第4プーリング層144dからの処理結果を受けつける。全結合層148は、処理結果の特徴量に基づいて、複数のクラスへの分類を実行することによって、記号と名称との組合せを識別する。複数のクラスは複数の記号に相当する。全結合層148における処理には公知の技術が使用されればよいので、ここでは説明を省略する。図4(c)は、全結合層148から出力される複数の記号を示し、図4(d)は、全結合層148から出力される複数の名称を示す。処理部114における処理の結果、「エレベータ「製」御盤」は「エレベータ「制」御盤」に修正され、「光学式スポット型感知器 2種 点検B「C」X付」は「光学式スポット型感知器 2種 点検B「O」X付」に修正される。また、「差動式スポット型「知器」」は「差動式スポット型「感知器」」に修正され、「定温式スポット型感知器 特種 65「C」」は「定温式スポット型感知器 特種 65「℃」」に修正される。また、修正前の文字を第1の文字と呼ぶ場合、修正後の文字は第2の文字と呼ばれる。
このような修正を可能にするために、処理部114は、前述のごとく、複数種類の記号のそれぞれと、各記号に対応した名称との組合せで学習されている。例えば、各畳み込み層142の空間フィルタの係数が学習されている。図5(a)に示された処理部114は、記号と名称とを組み合わせてから、組合せに対してニューラルネットワークの1以上の層の処理を実行する。
図5(b)は、処理部114の構成の別の一例を示す。処理部114は、畳み込み層142と総称される第1-1畳み込み層142aa、第1-2畳み込み層142ab、第1-3畳み込み層142ac、第2-1畳み込み層142ba、第2-2畳み込み層142bb、第2-3畳み込み層142bc、第4畳み込み層142d、プーリング層144と総称される第1-1プーリング層144aa、第1-2プーリング層144ab、第1-3プーリング層144ac、第2-1プーリング層144ba、第2-2プーリング層144bb、第2-3プーリング層144bc、第4プーリング層144d、組合せ層146、全結合層148を含む。
第1-1畳み込み層142aa、第1-1プーリング層144aa、第1-2畳み込み層142ab、第1-2プーリング層144ab、第1-3畳み込み層142ac、第1-3プーリング層144acは順に並べられる。これらは、第1入力部110に入力された記号に対して前述の処理を実行する。第2-1畳み込み層142ba、第2-1プーリング層144ba、第2-2畳み込み層142bb、第2-2プーリング層144bb、第2-3畳み込み層142bc、第2-3プーリング層144bcは順に並べられる。これらは、第2入力部112に入力された名称に対して前述の処理を実行する。
組合せ層146は、第1-3プーリング層144acからの処理結果と、第2-3プーリング層144bcからの処理結果とを入力する。第1-3プーリング層144acからの処理結果は記号に対する処理結果(以下、「第1処理結果」という)であり、第2-3プーリング層144bcからの処理結果は名称に対する処理結果(以下、「第2処理結果」という)である。ここで、第1処理結果と第2処理結果は複数のチャンネルによって構成されていてもよい。組合せ層146は、第1処理結果と第2処理結果とを組み合わせる。組合せは、前述のようになされればよい。組合せ層146は、組合せの結果(以下、これもまた「組合せ結果」という)を出力する。
第4畳み込み層142d、第4プーリング層144dは、組合せ結果に対して畳み込み処理とプーリング処理とを順次実行する。全結合層148は、図5(a)と同様に構成される。図5(b)に示された処理部114は、(1)記号に対してニューラルネットワークの1以上の層の処理を実行するとともに、名称に対してニューラルネットワークの1以上の層の処理を実行する。また、処理部114は、(2)記号に対する処理結果と名称に対する処理結果とを組合せ、(3)組合せに対してニューラルネットワークの1以上の層の処理を実行する。
図5(c)は、処理部114の構成のさらに別の一例を示す。処理部114は、畳み込み層142と総称される第1-1畳み込み層142aa、第1-2畳み込み層142ab、第1-3畳み込み層142ac、第1-4畳み込み層142ad、第2-1畳み込み層142ba、第2-2畳み込み層142bb、第2-3畳み込み層142bc、第2-4畳み込み層142bd、プーリング層144と総称される第1-1プーリング層144aa、第1-2プーリング層144ab、第1-3プーリング層144ac、第1-4プーリング層144ad、第2-1プーリング層144ba、第2-2プーリング層144bb、第2-3プーリング層144bc、第2-4プーリング層144bd、組合せ層146、全結合層148を含む。
第1-1畳み込み層142aa、第1-1プーリング層144aa、第1-2畳み込み層142ab、第1-2プーリング層144ab、第1-3畳み込み層142ac、第1-3プーリング層144ac、第1-4畳み込み層142ad、第1-4プーリング層144adは順に並べられる。これらは、第1入力部110に入力された記号に対して前述の処理を実行する。第2-1畳み込み層142ba、第2-1プーリング層144ba、第2-2畳み込み層142bb、第2-2プーリング層144bb、第2-3畳み込み層142bc、第2-3プーリング層144bc、第2-4畳み込み層142bd、第2-4プーリング層144bdは順に並べられる。これらは、第2入力部112に入力された名称に対して前述の処理を実行する。
組合せ層146は、第1-4プーリング層144adからの処理結果と、第2-4プーリング層144bdからの処理結果とを入力する。第1-4プーリング層144adからの処理結果は記号に対する処理結果(以下、これもまた「第1処理結果」という)であり、第2-4プーリング層144bdからの処理結果は名称に対する処理結果(以下、これもまた「第2処理結果」という)である。組合せ層146は、第1処理結果と第2処理結果とを組み合わせる。組合せは、前述のようになされればよい。組合せ層146は、組合せの結果(以下、これもまた「組合せ結果」という)を出力する。
図5(c)に示された処理部114は、(1)記号に対してニューラルネットワークの1以上の層の処理を実行するとともに、名称に対してニューラルネットワークの1以上の層の処理を実行する。また、処理部114は、(2)記号に対する処理結果と名称に対する処理結果とを組み合わせる。図5(a)-(c)の処理部114の構成から全結合層148が除外されてもよい。出力部118は、処理部114の処理結果として、修正した名称が含まれた凡例表410(以下、これもまた「凡例表410」という)を記号集計部40に出力する。これは、記号に対応した第2の文字を出力することに相当する。
記号集計部40は、図面取得部10から建設図面400を受けつけ、出力部118から凡例表410を受けつける。記号集計部40は、凡例表410をテンプレートとして、建設図面400に対してテンプレートマッチングを実行する。テンプレートマッチングには、例えば、Akazeマッチング、ニューラルネットワーク等の公知の技術が使用されればよい。その結果、記号集計部40は、凡例表410に示された記号と同一の記号の数を建設図面400から数えるとともに、数を数えた記号に対応した名称を特定する。さらに、記号集計部40は、データベースが保持する品番情報と、数えた記号の数をもとに見積書を生成して出力する。ここで、見積書は、SQL(Structured Query Language)等のデータベース形式、txt、csv、dat等のテキスト形式、PDFで生成される。
これまでの処理部114には、畳み込み層142、プーリング層144が含まれていたが、畳み込み層142、プーリング層144が含まれなくてもよい。図7は、処理部114の別の構成を示す。処理部114は、組合せ層146、全結合層148と総称される第1-1全結合層148aa、第1-2全結合層148ab、第1-3全結合層148ac、第2-1全結合層148ba、第2-2全結合層148bb、第2-3全結合層148bc、第4全結合層148dを含む。つまり、組合せ層146を除いて、全結合層148だけが含まれる。
第1-1全結合層148aaは、第1入力部110からの記号を受けつけ、第2-1全結合層148baは、第2入力部112からの名称を受けつける。第1-1全結合層148aaから第1-3全結合層148acは、記号に対して全結合層の処理を実行し、第2-1全結合層148baから第2-3全結合層148bcは、名称に対して全結合層の処理を実行する。組合せ層146は、第1-3全結合層148acと第2-3全結合層148bcから処理結果を受けつける。組合せ層146は、前述のようにこれらの処理結果を組み合わせる。組合せ層146は、組合せの結果(以下、これもまた「組合せ結果」という)を出力する。第4全結合層148dは、組合せ結果に対して全結合層の処理を実行する。
図7における組合せ層146は、図5(b)と同様に、記号に対する処理結果と、名称に対する処理結果とを入力し、組合せ結果に対して処理を実行させるために出力する。しかしながら、図5(a)と同様に、記号と名称とを入力し、組合せ結果に対して処理を実行させるために出力してもよい。また、図5(c)と同様に、記号に対する処理結果と、名称に対する処理結果とを入力し、組合せ結果を出力してもよい。
本開示における装置、システム、または方法の主体は、コンピュータを備えている。このコンピュータがプログラムを実行することによって、本開示における装置、システム、または方法の主体の機能が実現される。コンピュータは、プログラムにしたがって動作するプロセッサを主なハードウェア構成として備える。プロセッサは、プログラムを実行することによって機能を実現することができれば、その種類は問わない。プロセッサは、半導体集積回路(IC)、またはLSI(Large Scale Integration)を含む1つまたは複数の電子回路で構成される。複数の電子回路は、1つのチップに集積されてもよいし、複数のチップに設けられてもよい。複数のチップは1つの装置に集約されていてもよいし、複数の装置に備えられていてもよい。プログラムは、コンピュータが読み取り可能なROM、光ディスク、ハードディスクドライブなどの非一時的記録媒体に記録される。プログラムは、記録媒体に予め格納されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。
本実施例によれば、図面から抽出した記号と、図面から抽出した名称との組合せに対して、複数種類の記号のそれぞれと、各記号に対応した名称との組合せで学習されたニューラルネットワークによる処理を実行するので、対応した記号と名称とを図面から認識する精度を向上できる。また、記号は画像データであり、名称は、画像データから変換された特徴量であるので、さまざまな種類の入力に対応できる。また、記号は画像データであり、名称は画像データであるので、さまざまな種類の入力に対応できる。
また、記号と名称とを組み合わせてから、組合せに対して畳み込み層142の処理とプーリング層144の処理を実行するので、処理量の増加を抑制できる。また、記号と名称のそれぞれに対して畳み込み層142の処理とプーリング層144の処理を実行してから、これらの組合せに対して畳み込み層142の処理とプーリング層144の処理を実行するので、処理の精度を向上できる。また、記号と名称のそれぞれに対して畳み込み層142の処理とプーリング層144の処理を実行してから、これらを組み合わせるので、処理の精度を向上できる。また、組合せとして、2つの入力をチャンネル方向に合併するので、処理を簡易にできる。また、組合せとして、2つの入力を1つの方向に並べるので、処理を簡易にできる。
また、記号と名称とを組み合わせてから、組合せに対して全結合層148の処理を実行するので、構成の自由度を向上できる。また、記号に対して全結合層148の処理を実行するとともに、名称に対して全結合層148の処理を実行し、記号に対する処理結果と名称に対する処理結果との組合せに対して全結合層148の処理を実行するので、構成の自由度を向上できる。また、記号に対して全結合層148の処理を実行するとともに、名称に対して全結合層148の処理を実行し、記号に対する処理結果と名称に対する処理結果とを組み合わせるので、構成の自由度を向上できる。
また、図面に含まれた表から、記号と名称を抽出し、これらを別々に処理部114に入力するので、処理を簡易にできる。また、凡例表410を含んだ領域の各画素の値を2値化してから、凡例表410の構造を把握するので、処理の精度を向上できる。
本開示の一態様の概要は、次の通りである。本開示のある態様の記号処理部(100)は、図面から抽出した記号を入力する第1入力部(110)と、図面から抽出した第1の文字であって、かつ記号に対応すべき第1の文字を入力する第2入力部(112)と、第1入力部(110)に入力した記号と、第2入力部(112)に入力した第1の文字との組合せに対して、複数種類の記号のそれぞれと、各記号に対応した文字との組合せで学習されたニューラルネットワークによる処理を実行する処理部(114)と、処理部(114)の処理結果として、第1入力部(110)に入力した記号に対応した第2の文字を出力する出力部(118)と、を備える。
第1入力部(110)に入力される記号は画像データであり、第2入力部(112)に入力される第1の文字は、画像データから変換された特徴量であってもよい。
第1入力部(110)に入力される記号は画像データであり、第2入力部(112)に入力される第1の文字は画像データであってもよい。
処理部(114)は、(1)記号と第1の文字とを組み合わせてから、(2)組合せに対してニューラルネットワークの1以上の層の処理を実行してもよい。
処理部(114)は、(1)記号に対してニューラルネットワークの1以上の層の処理を実行するとともに、第1の文字に対してニューラルネットワークの1以上の層の処理を実行し、(2)記号に対する処理結果と第1の文字に対する処理結果とを組合せ、(3)組合せに対してニューラルネットワークの1以上の層の処理を実行してもよい。
処理部(114)は、(1)記号に対してニューラルネットワークの1以上の層の処理を実行するとともに、第1の文字に対してニューラルネットワークの1以上の層の処理を実行し、(2)記号に対する処理結果と第1の文字に対する処理結果とを組み合わせる。
処理部(114)は、組合せとして、2つの入力をチャンネル方向に合併してもよい。
処理部(114)は、組合せとして、2つの入力を1つの方向に並べることによって合併してもよい。
図面に含まれた表から、記号と第1の文字を抽出する抽出部(30)をさらに備えてもよい。抽出部(30)は、記号を第1入力部(110)に出力し、第1の文字を第2入力部(112)に出力してもよい。
抽出部(30)は、表を含んだ領域の各画素の値を2値化する2値化処理部(320)と、2値化処理部(320)が2値化した各画素の値に対して、第1方向に並んだ各座標において、第1方向とは異なった第2方向に積算した積算値を導出するとともに、第1方向に並んだ各座標の積算値を集めた第1データ群を生成する第1生成部(330)と、2値化処理部(320)が2値化した各画素の値に対して、第2方向に並んだ各座標において、第1方向に積算した積算値を導出するとともに、第2方向に並んだ各座標の積算値を集めた第2データ群を生成する第2生成部(340)と、第1生成部(330)において生成した第1データ群での積算値がしきい値以上となる座標と、第2生成部(340)において生成した第2データ群での積算値がしきい値以上となる座標とをもとに、表の構造を把握する解析部(350)と、解析部(350)において構造を把握した表から、記号と第1の文字を抽出する実行部(310)とを備えてもよい。
本開示の別の態様は、処理方法である。この方法は、図面から抽出した記号を入力するステップと、図面から抽出した第1の文字であって、かつ記号に対応すべき第1の文字を入力するステップと、入力した記号と、入力した第1の文字との組合せに対して、複数種類の記号のそれぞれと、各記号に対応した文字との組合せで学習されたニューラルネットワークによる処理を実行するステップと、処理結果として、入力した記号に対応した第2の文字を出力するステップと、を備える。
以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。
本実施例における処理部114の構成は、複数の畳み込み層142と複数のプーリング層144とが交互に並べんでいる。しかしながらこれに限らず例えば、処理部114は、GoogLeNet系、DenseNet系等の構成を有していてもよい。本変形例によれば、構成の自由度を向上できる。
本実施例における処理部114の構成は、複数の畳み込み層142と複数のプーリング層144とが交互に並べんでいる。しかしながらこれに限らず例えば、処理部114では、畳み込み層142のみが含まれて畳み込み処理だけが実行されてもよいし、プーリング層144のみが含まれてプーリング処理だけが実行されてもよい。本変形例によれば、構成の自由度を向上できる。
本実施例において、第2入力部112に入力される名称は特徴ベクトルである。しかしながらこれに限らず例えば、第2入力部112に入力される名称は画像データであってもよい。本変形例によれば、構成の自由度を向上できる。
本開示によれば、互いに対応した記号と文字とを図面から認識する精度を向上できる。
10 図面取得部、 20 凡例表検出部、 30 抽出部、 40 記号集計部、 100 記号処理部、 110 第1入力部、 112 第2入力部、 114 処理部、 118 出力部、 142 畳み込み層、 144 プーリング層、 146 組合せ層、 148 全結合層、 200 入力情報、 300 構造認識部、 310 実行部、 320 2値化処理部、 330 第1生成部、 340 第2生成部、 350 解析部、 400 建設図面、 410 凡例表、 1000 記号集計装置。

Claims (11)

  1. 図面から抽出した記号を入力する第1入力部と、
    前記図面から抽出した第1の文字であって、かつ前記記号に対応すべき第1の文字を入力する第2入力部と、
    前記第1入力部に入力した前記記号と、前記第2入力部に入力した前記第1の文字との組合せに対して、複数種類の記号のそれぞれと、各記号に対応した文字との組合せで学習されたニューラルネットワークによる処理を実行する処理部と、
    前記処理部の処理結果として、前記第1入力部に入力した前記記号に対応した第2の文字を出力する出力部と、
    を備えることを特徴とする処理装置。
  2. 前記第1入力部に入力される前記記号は画像データであり、
    前記第2入力部に入力される前記第1の文字は、画像データから変換された特徴量であることを特徴とする請求項1に記載の処理装置。
  3. 前記第1入力部に入力される前記記号は画像データであり、
    前記第2入力部に入力される前記第1の文字は画像データであることを特徴とする請求項1に記載の処理装置。
  4. 前記処理部は、(1)前記記号と前記第1の文字とを組み合わせてから、(2)組合せに対してニューラルネットワークの1以上の層の処理を実行することを特徴とする請求項1から3のいずれか1項に記載の処理装置。
  5. 前記処理部は、(1)前記記号に対してニューラルネットワークの1以上の層の処理を実行するとともに、前記第1の文字に対してニューラルネットワークの1以上の層の処理を実行し、(2)前記記号に対する処理結果と前記第1の文字に対する処理結果とを組合せ、(3)組合せに対してニューラルネットワークの1以上の層の処理を実行することを特徴とする請求項1から3のいずれか1項に記載の処理装置。
  6. 前記処理部は、(1)前記記号に対してニューラルネットワークの1以上の層の処理を実行するとともに、前記第1の文字に対してニューラルネットワークの1以上の層の処理を実行し、(2)前記記号に対する処理結果と前記第1の文字に対する処理結果とを組み合わせることを特徴とする請求項1から3のいずれか1項に記載の処理装置。
  7. 前記処理部は、組合せとして、2つの入力をチャンネル方向に合併することを特徴とする請求項4から6のいずれか1項に記載の処理装置。
  8. 前記処理部は、組合せとして、2つの入力を1つの方向に並べることによって合併することを特徴とする請求項4から6のいずれか1項に記載の処理装置。
  9. 前記図面に含まれた表から、前記記号と前記第1の文字を抽出する抽出部をさらに備え、
    前記抽出部は、前記記号を前記第1入力部に出力し、前記第1の文字を前記第2入力部に出力することを特徴とする請求項1から8のいずれか1項に記載の処理装置。
  10. 前記抽出部は、
    前記表を含んだ領域の各画素の値を2値化する2値化処理部と、
    前記2値化処理部が2値化した各画素の値に対して、第1方向に並んだ各座標において、前記第1方向とは異なった第2方向に積算した積算値を導出するとともに、前記第1方向に並んだ各座標の積算値を集めた第1データ群を生成する第1生成部と、
    前記2値化処理部が2値化した各画素の値に対して、前記第2方向に並んだ各座標において、前記第1方向に積算した積算値を導出するとともに、前記第2方向に並んだ各座標の積算値を集めた第2データ群を生成する第2生成部と、
    前記第1生成部において生成した前記第1データ群での積算値がしきい値以上となる座標と、前記第2生成部において生成した前記第2データ群での積算値がしきい値以上となる座標とをもとに、前記表の構造を把握する解析部と、
    前記解析部において構造を把握した前記表から、前記記号と前記第1の文字を抽出する実行部とを備えることを特徴とする請求項9に記載の処理装置。
  11. 図面から抽出した記号を入力するステップと、
    前記図面から抽出した第1の文字であって、かつ前記記号に対応すべき第1の文字を入力するステップと、
    入力した前記記号と、入力した前記第1の文字との組合せに対して、複数種類の記号のそれぞれと、各記号に対応した文字との組合せで学習されたニューラルネットワークによる処理を実行するステップと、
    処理結果として、入力した前記記号に対応した第2の文字を出力するステップと、
    を備えることを特徴とする処理方法。
JP2021548339A 2019-09-26 2020-06-10 処理装置および処理方法 Active JP7209238B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019175227 2019-09-26
JP2019175227 2019-09-26
PCT/JP2020/022811 WO2021059612A1 (ja) 2019-09-26 2020-06-10 処理装置および処理方法

Publications (2)

Publication Number Publication Date
JPWO2021059612A1 JPWO2021059612A1 (ja) 2021-04-01
JP7209238B2 true JP7209238B2 (ja) 2023-01-20

Family

ID=75166031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021548339A Active JP7209238B2 (ja) 2019-09-26 2020-06-10 処理装置および処理方法

Country Status (2)

Country Link
JP (1) JP7209238B2 (ja)
WO (1) WO2021059612A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234424A (ja) 2003-01-31 2004-08-19 Hitachi Ltd 図面認識方法及びその装置
JP2004259076A (ja) 2003-02-27 2004-09-16 Hitachi Ltd 画像認識方法及び装置
JP2006277121A (ja) 2005-03-28 2006-10-12 Toshiba Corp 移動経路作成装置、移動ロボット、移動経路作成方法および移動経路作成プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0256683A (ja) * 1988-08-23 1990-02-26 Oki Electric Ind Co Ltd 図面認識方式
JP6116746B1 (ja) * 2016-11-17 2017-04-19 株式会社ネクスト 情報処理装置、情報処理方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234424A (ja) 2003-01-31 2004-08-19 Hitachi Ltd 図面認識方法及びその装置
JP2004259076A (ja) 2003-02-27 2004-09-16 Hitachi Ltd 画像認識方法及び装置
JP2006277121A (ja) 2005-03-28 2006-10-12 Toshiba Corp 移動経路作成装置、移動ロボット、移動経路作成方法および移動経路作成プログラム

Also Published As

Publication number Publication date
JPWO2021059612A1 (ja) 2021-04-01
WO2021059612A1 (ja) 2021-04-01

Similar Documents

Publication Publication Date Title
CN111008597B (zh) Cad图纸的空间识别方法、装置、电子设备及存储介质
CN103714338B (zh) 图像处理装置和图像处理方法
KR102220174B1 (ko) 머신러닝 학습 데이터 증강장치 및 증강방법
US8792715B2 (en) System and method for forms classification by line-art alignment
JP2020087418A (ja) 配管および計装図からの情報抽出を自動化するためのシステムおよび方法
JP6557943B2 (ja) 画像照合装置、画像センサ、処理システム、画像照合方法
CN105574524B (zh) 基于对白和分镜联合识别的漫画图像版面识别方法和系统
JP5718781B2 (ja) 画像分類装置および画像分類方法
JP7396568B2 (ja) 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
KR20180129640A (ko) 화상 분류 프로그램, 분류 데이터 작성 프로그램 및 분류 데이터 작성 방법
CN110490237B (zh) 数据处理方法、装置、存储介质及电子设备
CN113222913B (zh) 一种电路板缺陷检测定位方法、装置和存储介质
JP2015011641A (ja) 画像処理フィルタの作成装置及びその方法
CN104103069B (zh) 图像处理装置、图像处理方法及记录介质
CN113420848A (zh) 神经网络模型的训练方法及装置、手势识别的方法及装置
JP2024016287A (ja) ビジョンシステムでラインを検出するためのシステム及び方法
JP2005310101A (ja) 視線誘導度算出システム、視線誘導度算出プログラムおよび記憶媒体、並びに視線誘導度算出方法
US10853640B2 (en) Method and system for extracting information from hand-marked industrial inspection sheets
JP7209238B2 (ja) 処理装置および処理方法
JP2018081629A (ja) 判定装置、判定方法および判定プログラム
JP6250993B2 (ja) センサ情報管理装置、センサ情報管理方法
JP6803578B2 (ja) 処理方法およびそれを利用した処理装置
CN111199050A (zh) 一种用于对病历进行自动脱敏的系统及应用
TW202348985A (zh) 鋼帶表面缺陷辨識方法與系統
JP4936250B2 (ja) 書込み抽出方法、書込み抽出装置および書込み抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221222

R151 Written notification of patent or utility model registration

Ref document number: 7209238

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151