JP7165970B2 - 学習データ生成装置および学習データ生成方法 - Google Patents

学習データ生成装置および学習データ生成方法 Download PDF

Info

Publication number
JP7165970B2
JP7165970B2 JP2018195585A JP2018195585A JP7165970B2 JP 7165970 B2 JP7165970 B2 JP 7165970B2 JP 2018195585 A JP2018195585 A JP 2018195585A JP 2018195585 A JP2018195585 A JP 2018195585A JP 7165970 B2 JP7165970 B2 JP 7165970B2
Authority
JP
Japan
Prior art keywords
data
handwritten
configuration diagram
learning
generation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018195585A
Other languages
English (en)
Other versions
JP2020064438A (ja
Inventor
亮 清水
慎一郎 近田
Original Assignee
ギリア株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ギリア株式会社 filed Critical ギリア株式会社
Priority to JP2018195585A priority Critical patent/JP7165970B2/ja
Publication of JP2020064438A publication Critical patent/JP2020064438A/ja
Application granted granted Critical
Publication of JP7165970B2 publication Critical patent/JP7165970B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

本発明は、学習データ生成装置および学習データ生成方法に関し、特に、図形認識のための学習装置において機械学習を行う際に使用する学習データを生成するための装置および方法に用いて好適なものである。
近年、人工知能(AI)の一手法である機械学習の発展が目覚ましい。機械学習は、主に教師あり学習と教師なし学習と強化学習とに大別される。このうち、教師あり学習は、入力とそれに対応すべき出力とから成るデータセット(学習データ、教師データ、あるいは訓練データなどと呼ばれる)を事前に与え、この学習データをガイドとして所定の演算を行うことによって学習モデル(予測モデルとも呼ばれる)を生成する手法をいう。精度の高い学習モデルを生成するためには、多くの学習データを用いて学習を行うことが求められる。
以上の観点から、学習データの生成に着目した技術が提案されている(例えば、特許文献1~5参照)。特許文献1に記載の学習装置では、テキスト事例集合と名詞辞書とから表層データを生成した後、この表層データと意味概念シソーラスとから決定木作成装置用学習データを生成し、この学習データから言語の意味解析ルールである多義性解消ルールを生成するようになされている。
特許文献2に記載の学習装置では、テキストデータ群の構造化データの各々から、指定された項目名リストと一致する項目の値を、抽出対象とする項目の値として抽出し、当該抽出した抽出対象とする項目の値であることを示すアノテーションが付与されたテキストを疑似教師データとして作成する。そして、疑似教師データのテキストから抽出される素性と、テキストに付与されたアノテーションとに基づいて、抽出対象とする項目の値をテキストから抽出するための抽出モデルを学習するようになされている。
特許文献3に記載の学習装置では、照応・省略関係のアノテーション済のテキストデータから複数の述語対を選択し、各々を解析し判別のための特徴量を抽出した後、アノテーションに従って、学習のための正例および負例を特徴量を用いて生成する。そして、この学習データを用い、入力される述語対が項を共有しているかを示すよう項共有判別器の学習を行うようになされている。
特許文献4に記載の文字認識装置では、文字が記された被検査物を撮影した検査画像を対象として、文字を細線化したのちに所定の太さに太線化することによって正規化画像を生成し、正規化画像の文字領域から求めた特徴量に基づいて、文字領域に写っている文字を識別する。そして、複数のモデル画像の文字部分相互間の相違領域を細分化した第1セルの輝度値を特徴量として、サポートベクターマシンの学習データを生成するようになされている。
特許文献5には、手書き文字等の大量のデータ収集が困難なシステムにおいて、収集された少量の教師データから多量の教師データを新たに作成することにより、ニューラルネットワークの学習効率を向上させることができるようにしたニューラルネットワークが開示されている。具体的には、特許文献5には、教師データとしてあらかじめ収集されたドットデータの線分の端点、曲点、交点等の特徴点を判別した後、判別した特徴点の中点を新たな特徴点として設定し、新たに設定した特徴点を線分で結ぶことによって新規の教師データを生成することが開示されている。
特開平8-329082号公報 特開2018-14003号公報 特開2016-192198号公報 特開2015-32088号公報 特開平8-96084号公報
上記特許文献5に記載されているように、学習の精度を上げるために本来は大量の学習データを用いることが望まれるのに対し、大量のデータ収集が困難な場合がある。すなわち、日常的に多くの場面で使われているウェブサイトのデータや、金融トランザクションや電子商取引のデータなどは元々大量に存在するため、学習データの収集が比較的容易である。これに対し、特許文献5に記載されている手書き文字のデータは、容易に収集できるような環境に蓄積されていないことが多く、収集が困難なデータの1つである。そのため、特許文献5に記載のシステムでは、与えられた数の学習データをもとに、その数以上の学習データを自動的に生成する仕組みを提供している。
しかしながら、特許文献5に記載のシステムでは、学習データとして与えられた手書き文字のドットデータの特徴点を求め、その特徴点をもとにドットデータを変形させることによって新たなドットデータを作っているだけである。そのため、新たに作られる学習データの数は、最初に与えられた学習データから抽出される特徴点の数以上には増やすことができず、作られる学習データの数はそれほど多くならないという問題があった。特許文献3,4に記載のシステムも基本的には同様で、与えられた学習データの特徴量を求め、その特徴量をもとに新たな学習データを作っているだけなので、作られる学習データの数には限界がある。
また、特許文献1~5の何れにおいても、手書きの図形に関する学習データを生成することについては開示していない。例えば、複数の図形を組み合わせて作成される手書きの構成図(有向/無向グラフやフローチャート、コンピュータシステム構成図、回路設計図など)のデータも、収集が困難なデータの1つであるが、このような手書き構成図のデータについて学習データを大量に生成する仕組みは、特許文献1~5には開示されていない。例えば、企業における会議などでホワイトボードに描かれた手書きの構成図や、個々の設計者が所有するノートやタブレット端末などに描かれた手書きの構成図は、学習データとして殆ど収集することができない。そのため、これに関する学習データを何らかの方法で大量に生成することが必要であるが、そのための有効な仕組みは提供されていない。
本発明は、このような問題を解決するために成されたものであり、複数の図形を組み合わせて作成される手書きの構成図に関して大量の学習データを容易に生成できるようにすることを目的とする。
上記した課題を解決するために、本発明では、複数の図形を組み合わせて成る構成図の意味をテキストデータにより表した意味データを複数生成する意味データ生成部と、生成された複数の意味データのそれぞれ毎に、複数の図形の大きさおよび配置位置をテキストデータにより表したアノテーションデータを複数生成するアノテーションデータ生成部と、生成された複数のアノテーションデータのそれぞれ毎に、1つの図形について複数の手書き図形データをあらかじめ保存したデータベースから複数の手書き図形データを読み出してアノテーションの通りに配置することにより、1つのアノテーションデータから複数の手書き構成図データを生成する手書き構成図データ生成部と、以上のように生成された意味データとそれから派生した手書き構成図データとを含んだデータセットから成る学習データを生成する学習データ生成部とを備える。
上記のように構成した本発明によれば、テキストデータから成る複数の意味データが自動生成され、複数の意味データのそれぞれからテキストデータから成る複数のアノテーションデータが自動生成され、複数のアノテーションデータのそれぞれから複数の手書き構成図データが生成され、意味データとそれから派生した手書き構成図データとを含んだデータセットから成る学習データが生成されるので、手書き構成図データが1つも存在しない状態からでも、大量の手書き構成図データを自動生成し、大量の学習データを得ることができる。このように、本発明によれば、複数の図形を組み合わせて作成される手書きの構成図に関して大量の学習データを容易に生成することが可能である。
本実施形態による学習データ生成装置の機能構成例を示すブロック図である。 本実施形態の意味データ生成部により生成される意味データの一例を示す図である。 本実施形態のアノテーションデータ生成部により生成されるアノテーションデータの一例を示す図である。 本実施形態の手書き構成図データ生成部により生成される手書き構成図データの一例を示す図である。 学習器の構成例を示す図である。 予測器の構成例を示す図である。
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態による学習データ生成装置10の機能構成例を示すブロック図である。本実施形態の学習データ生成装置10は、複数の図形を組み合わせて作成される手書きの構成図に関する学習データを自動的に生成するための装置である。構成図とは、有向/無向グラフやフローチャート、オブジェクト図、クラス図、コンピュータシステム構成図、回路設計図などに代表される図のことであり、構成要素として複数の図形を含み、かつ、複数の図形間に何らかの関係性を有するように形成された図の総称である。
図1に示すように、本実施形態の学習データ生成装置10は、その機能構成として、意味データ生成部11、アノテーションデータ生成部12、手書き構成図データ生成部13および学習データ生成部14を備えている。また、本実施形態の学習データ生成装置10は、記憶媒体として、手書き図形データ記憶部21および学習データ記憶部22を備えている。なお、手書き図形データ記憶部21および学習データ記憶部22は、学習データ生成装置10に接続される他の装置が備える構成としてもよい。
上記各機能ブロック11~14は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック11~14は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
手書き図形データ記憶部21は、1つの図形について複数の手書き図形データをあらかじめ保存したデータベースを記憶する。ここでいう「図形」とは、上述した各種構成図を形成している個々の要素図形のことであり、例えば四角形(正方形、長方形、平行四辺形、台形、菱形などの他、これ以外の変形的な四角形を含む)、三角形(正三角形、二等辺三角形、直角三角形などの他、これ以外の変形的な三角形を含む)、その他の多角形、円形、楕円形、矢印、線などを含む。また、図形は、構成図特有の基本図形(例えば、アナログ回路の抵抗、コイル、コンデンサといった各種電気素子を表す図形や、デジタル回路のAND回路、OR回路、NOT回路といった各種論理回路を表す図形など)であってもよい。また、図形は、平面図形であってもよいし、立体図形であってもよい。
また、「手書き図形データ」とは、上述の図形を手書きによって描画したデータのことであり、例えばビットマップにより手書き図形を表したデータである。ここで、手書き図形データは、手書き図形が内接する最小面積の矩形の白紙カンバス(白色ドットを並べた背景データ)上に、所定色(例えば黒色)のドット群で手書き図形が描画されたデータである。
この手書き図形データは、例えば、筆記具を使って媒体に手書きされた図形をカメラによる撮影またはスキャナによる光学的な読み取りによってデータ化したものであってもよいし、タッチスクリーン等に手書き入力またはペン入力された軌跡をデータ化したものであってもよい。カメラによる撮影またはスキャナによる光学的な読み取りによって手書き図形データを生成する場合、2値化処理を行うことによって、手書き図形の部分を黒色、それ以外の背景部分を白色で表したデータとする。なお、手書き図形データの作成法はこれに限定されるものではなく、任意の方法で作成したものであってよい。
なお、上記のように手書き図形データを生成した場合、矩形のカンバスサイズがバラバラになる。そこで、図形ごとにカンバスサイズが統一されるように正規化するようにしてもよい。例えば、四角形の手書き図形データについては四角形に関する規定のカンバスサイズに統一し、円形の手書き図形データについては円形に関する規定のカンバスサイズに統一するといったように、カンバスサイズを調整することにより、図形ごとに複数の手書き図形データの大きさが揃うようにしておいてもよい。
意味データ生成部11は、複数の図形の組み合わせから成る構成図の意味をテキストデータにより表した意味データを複数生成する。具体的には、意味データ生成部11は、構成図に含まれる個々の図形(図形間の接続関係を示す図形を含む)の意味をテキストデータにより表した各種構成図の意味データを複数生成する。例えば、意味データ生成部11は、このような意味データをランダムに複数生成する。ランダムというのは、構成図に含まれる個々の図形の種類や数、図形間の接続の仕方や種類などが任意という意味である。
ここで、意味データ生成部11は、複数種類の構成図に関する意味データをランダムに生成してもよいし、特定の種類の構成図に関する意味データのみをランダムに生成してもよい。例えば、アナログ回路の設計図として作成されるこのとのある構成図についてのみ学習データを生成したい場合に、当該アナログ回路についての構成図のみに関する意味データをランダムに複数生成するようにしてもよい。本実施形態の学習データ生成装置10は、特定の種類の構成図に関する学習データを生成する専用の装置として構成してもよいし、複数種類の構成図の中からユーザが任意に選択した構成図に関する学習データを生成可能な汎用の装置として構成してもよい。
図2は、意味データ生成部11により生成される意味データの一例を示す図である。図2において、意味データ生成部11により生成される1つの構成図に関する意味データ101は、「Square1→Circle1」および「Circle1→Square2」という2つのテキスト文から成る。「Square1→Circle1」は、「1つ目の四角形から1つ目の円に矢印が引かれている」という意味を表すテキスト文である。また、「Circle1→Square2」は、「1つ目の円から2つ目の四角形に矢印が引かれている」という意味を表すテキスト文である。意味データ生成部11は、このようなテキストデータから成る意味データ101,102,103,・・・を複数生成する。
アノテーションデータ生成部12は、意味データ生成部11により生成された複数の意味データ101,102,103,・・・のそれぞれ毎に、複数の図形の大きさおよび配置位置をテキストデータにより表したアノテーションデータを複数生成する。具体的には、アノテーションデータ生成部12は、構成図に含まれる個々の図形の座標と、図形によっては更にサイズとをテキストデータにより表したアノテーションデータを複数生成する。ここで、座標とは、あらかじめ設定した所定の2次元空間(x-y座標空間)における位置を表す座標のことであり、x座標値とy座標値との組み合わせにより表される。
例えば、図形が長方形(正方形を含む)の場合は、2つの対頂角の座標を特定すれば、その長方形の大きさと配置位置が一義的に決まる。よって、長方形に関するアノテーションデータは、2組の座標値で表すことが可能である。また、図形が平行四辺形の場合は、4つの頂点の座標を特定すれば、その平行四辺形の大きさと配置位置が一義的に決まる。よって、平行四辺形に関するアノテーションデータは、4組の座標値で表すことが可能である。また、図形が円の場合は、中心座標と半径を特定すれば、その円の大きさと配置位置が一義的に決まる。よって、円に関するアノテーションデータは、1組の座標値および半径(サイズ)で表すことが可能である。
このように、図形によって、必要となる座標値の組み合わせやサイズの情報が異なる。アノテーションデータ生成部12は、意味データ生成部11により生成された意味データを解釈し、意味データにより示されている個々の図形を特定した上で、それぞれの図形にとって必要な情報を含むアノテーションデータをそれぞれ生成する。例えば、アノテーションデータ生成部12は、このようなアノテーションデータをランダムに複数生成する。ランダムというのは、図形の大きさおよび配置位置が何れも任意という意味である。ただし、ここでいうランダムは、一定の条件の下でのランダムとするのが好ましい。
例えば、矢印や線などのように、2つの図形の結び付きや関係性、あるいは1つの図形に対する入出力関係などを示す図形の場合は、他の図形と接する位置、交わる位置または近接する位置に配置するという条件を設定する。この場合において、どの程度の量の交わりまたは近接までを許容するかという条件を更に設定するようにしてもよい。例えば、「Square1→Circle1」という意味データに対して「→(矢印)」の図形に対応するアノテーションデータを生成する場合、アノテーションデータ生成部12は、矢印の始点を「Square1」で示される四角形と接する位置、交わる位置または近接する位置に配置するとともに、矢印の終点を「Circle1」で示される円と接する位置、交わる位置または近接する位置に配置するという条件の下で、矢印の大きさと配置位置とをランダムに決めた複数のアノテーションデータを生成する。
図3は、アノテーションデータ生成部12により生成されるアノテーションデータの一例を示す図である。図3において、複数のアノテーションデータ201-1,201-2,201-3,・・・は、図2に示した1つの意味データ101から生成される複数のアノテーションデータである。また、複数のアノテーションデータ202-1,202-2,202-3,・・・は、図2に示した別の1つの意味データ102から生成される複数のアノテーションデータである。これ以外のアノテーションは図示を省略しているが、アノテーションデータ生成部12は、意味データ生成部11により生成された他の意味データ103,・・・からも複数のアノテーションデータを生成する。
図3において、アノテーションデータ201-1には、意味データの「Square1」で示される1つ目の四角形に関する2組の座標値(最初の2つの値が1つの頂点のx座標値およびy座標値、次の2つの値が対角上にある頂点のx座標値およびy座標値を示している)と、意味データの「→」で示される1つ目の矢印に関する2組の座標値(最初の2つの値が矢印の始点のx座標値およびy座標値、次の2つの値が矢印の終点のx座標値およびy座標値を示している)と、意味データの「Circle1」で示される円に関する1組の座標値および半径(最初の2つの値が円の中心点のx座標値およびy座標値、次の1つの値が半径を示している)と、意味データの「→」で示される2つ目の矢印に関する2組の座標値と、意味データの「Square2」で示される2つ目の四角形に関する2組の座標値とが含まれている。
手書き構成図データ生成部13は、アノテーションデータ生成部12により生成された複数のアノテーションデータのそれぞれ毎に、手書き図形データ記憶部21に記憶されているデータベースから複数の手書き図形データを読み出してアノテーションの通りに配置することにより、1つのアノテーションデータから複数の手書き構成図データを生成する。具体的には、手書き構成図データ生成部13は、アノテーションデータで示される個々の図形のそれぞれについて、データベースに記憶されている複数の手書き図形データをランダムに適用することにより、手書き図形データのランダムな組み合わせから成る複数の手書き構成図データを生成する。
ここで、手書き構成図データ生成部13は、アノテーションデータにより示される座標の位置に対し、手書き図形データのカンバスを合わせるようにして手書き図形データを配置する。例えば、四角形の場合、アノテーションデータにより示される2つの対頂角の座標の位置に対し、手書き図形データの矩形のカンバスの対頂角が一致するようにして、手書き図形データを配置する。このとき、アノテーションデータにより示される四角形のサイズと、手書き図形データのカンバスサイズとが一致しない場合は、手書き図形データを拡大または縮小した上で配置する。
また、例えば、円形の場合、アノテーションデータにより示される中心点の座標の位置に対し、手書き図形データのカンバスの中心点が一致するようにするようにして、手書き図形データを配置する。このとき、アノテーションデータにより示される円の半径と、手書き図形データのカンバスサイズ(一辺の長さの1/2の値)とが一致しない場合は、手書き図形データを拡大または縮小した上で配置する。
手書き構成図データ生成部13は、四角形や円形以外の他の図形についても同様に、アノテーションデータにより示される図形の大きさおよび配置位置と、手書き図形データのカンバスの大きさおよび配置位置とが一致するような態様によって、複数の手書き図形データをアノテーションの通りに配置することにより、手書き構成図データを生成する。手書き構成図データ生成部13により生成される手書き構成図データは、例えば手書き構成図がビットマップにより表された画像データである。
図4は、手書き構成図データ生成部13により生成される手書き構成図データの一例を示す図である。なお、ここでは図示の便宜上、カンバス上で手書き構成図がある部分のみを示しており、カンバスサイズは正確なものではない。
図4において、複数の手書き構成図データ301-1-1,301-1-2,301-1-3,・・・は、図3に示した1つのアノテーションデータ201-1から生成される手書き構成図データである。これ以外の手書き構成図データは図示を省略しているが、手書き構成図データ生成部13は、アノテーションデータ生成部12により生成された他のアノテーションデータ201-2,201-3,・・・,202-1,202-2,202-3,・・・からも複数の手書き構成図データを生成する。
図4において、手書き構成図データ301-1-1は、1つ目の手書きの四角形から手書きの円に向かって手書きの矢印が引かれるとともに、手書きの円から2つ目の手書きの四角形に向かって手書きの矢印が引かれて成る1つの手書き構成図を示している。この手書き構成図データ301-1-1は、図2に示した1つの意味データ101をもとに、図3に示した1つのアノテーションデータ201-1を中間データとして自動生成されたものである。図4に示す他の手書き構成図データ301-1-2,301-1-3,・・・も同様に、図2に示した1つの意味データ101をもとに自動生成されたものである。
ここで、手書き構成図データ生成部13は、手書き図形データ記憶部21のデータベースから読み出した手書き図形データに対して複数パターンの変形処理を行うことにより、1つの手書き図形データから複数の手書き図形データを生成するようにしてもよい。すなわち、手書き構成図データ生成部13は、図4に示される個々の図形(四角形、矢印、円のそれぞれ)に対し、複数パターンの変形処理を行うようにしてもよい。
手書き構成図データ生成部13が行う手書き図形データに対する変形処理は、例えば、回転、ゆがみ、色の変更、階調の変更、明るさ・コントラストの変更、シャープ度の変更などの各種画像処理の何れか1つまたは複数の組み合わせである。この変形処理は、実際にホワイトボードやノートなどに人が構成図を描くときにおける手書き図形自体の様々な状態や、これらのホワイトボードやノートなどを人が撮影またはスキャンするときにおける様々な周囲環境などの違いを考慮して、生成される手書き構成図データに更なるバリエーションを与えるために行うものである。
なお、手書き構成図データ生成部13が行う手書き図形データに対する変形処理は、以上の例に限定されない。例えば、機械学習の分野で公知の画像生成処理あるいは画像変形処理などを適用してもよい。具体的には、GAN(Generative Adversarial Network)を適用して手書き図形データに対する変形を行うようにしてもよい。GANは、ACGAN(Auxiliary Classifier GAN)、DCGAN(Deep Convolutional GAN)の何れでもよい。
学習データ生成部14は、意味データ生成部11により生成された複数の意味データと、手書き構成図データ生成部13により生成された複数の手書き構成図データとを用いて、意味データとそれから派生した手書き構成図データとをデータセットとする学習データを生成する。そして、生成した学習データを学習データ記憶部22に記憶させる。
上述したように、図2に示した1つの意味データ101から、図4に示した1つの手書き構成図データ301-1-1が生成される。学習データ生成部14は、この派生関係にある意味データ101と手書き構成図データ301-1-1とを1つのデータセットとして、1つの学習データを生成する。同様に、同じ1つの意味データ101から、図4に示した1つの手書き構成図データ301-1-2も生成されている。学習データ生成部14は、この派生関係にある意味データ101と手書き構成図データ301-1-2とを別のデータセットとして、別の学習データを生成する。これと同様の要領で、学習データ生成部14は、派生関係にある意味データと手書き構成図データとをデータセットとして多数の学習データを生成する。
なお、以上のように構成した学習データ生成装置10による学習データの生成手順は以下の通りである。
まず、意味データ生成部11が、複数の図形の組み合わせから成る構成図の意味をテキストデータにより表した意味データを複数生成する(第1のステップ)。次に、アノテーションデータ生成部12が、意味データ生成部11により生成された複数の意味データのそれぞれ毎に、複数の図形の大きさおよび配置位置をテキストデータにより表したアノテーションデータを複数生成する(第2のステップ)。
次いで、手書き構成図データ生成部13が、アノテーションデータ生成部12により生成された複数のアノテーションデータのそれぞれ毎に、手書き図形データ記憶部21のデータベースから複数の手書き図形データを読み出してアノテーションの通りに配置した後、個々の手書き図形データに対して変形処理を行うことにより、1つのアノテーションデータから複数の手書き構成図データを生成する(第3のステップ)。
そして、学習データ生成部14が、意味データ生成部11により生成された複数の意味データおよび手書き構成図データ生成部13により生成された複数の手書き構成図データを用いて、意味データとそれから派生した手書き構成図データとをデータセットとする学習データを生成する(第4のステップ)。
図5は、以上のようにして生成した多数の学習データを使用して機械学習(教師あり学習)を行う学習器の構成例を示す図である。図5に示すように、学習モデル生成部51は、公知の学習アルゴリズムに従って、学習データ記憶部22に記憶された多数の学習データを使用して機械学習を実行し、学習モデルを生成する。生成した学習モデルは、学習モデル記憶部23に記憶される。ここで適用する学習アルゴリズムは任意であるが、画像データの機械学習を行うのに適した学習アルゴリズムを用いるのが好ましい。
学習モデル生成部51が行う機械学習は、手書き構成図データ(手書き構成図が描かれたホワイトボードを撮影したりノートをスキャンしたりすることによって生成される画像データ)を入力として、その画像データ中に描画されている手書き構成図の意味を表す意味データを出力するための学習モデルを生成および最適化するための処理である。
ここで生成する学習モデルは、例えば、入力された画像データから意味データをダイレクトに導き出すような学習モデルである。なお、入力された画像データ中に含まれる個々の図形(四角形、円、矢印など)を認識してアノテーションデータを生成し、当該アノテーションデータから意味データを導き出すような学習モデルとすることも可能である。後者の場合、学習データ生成部14は、派生関係にある意味データとアノテーションデータと手書き構成図データとをデータセットとして学習データを生成するようにしてもよい。
図6は、学習モデル生成部51により生成された学習モデルを使用して、手書き構成図の画像データから意味データを予測(認識)する予測器の構成例を示す図である。図6に示すように、予測処理部61は、手書き構成図の画像データを入力し、これを学習モデル記憶部23に記憶された学習モデルに適用することにより、当該学習モデルによって導かれる意味データを出力する。なお、手書き構成図の画像データからいったんアノテーションデータを生成する学習モデルの場合、予測処理部61は、意味データに加えてアノテーションデータも出力するようにしてもよい。
予測処理部61により出力された意味データ(およびアノテーションデータ)は、種々のアプリケーションソフトウェアで使用され得る。例えば、電子回路の設計図に関する手書き構成図が描かれた画像データを予測処理部61に入力し、これによって出力された意味データをEDA(Electronic Design Automation)関連のアプリケーションソフトウェアに入力することにより、当該アプリケーションソフトウェアにおいて用意されている標準化された図形データを用いて生成された回路設計の構成図を得ることが可能となる。
以上詳しく説明したように、本実施形態では、テキストデータから成る複数の意味データを自動生成し、複数の意味データのそれぞれからテキストデータから成る複数のアノテーションデータを自動生成し、さらに、複数のアノテーションデータのそれぞれから複数の手書き構成図データを生成して、意味データとそれから派生した手書き構成図データとを含んだデータセットから成る学習データを生成するようにしている。これにより、手書き構成図データが1つも存在しない状態からであっても、大量の手書き構成図データを自動生成し、大量の学習データを得ることができる。
すなわち、意味データは単なるテキストデータであるから、コンピュータによって自動的に大量に生成することが可能である。また、アノテーションデータも単なるテキストデータであるから、コンピュータによって自動的に大量に生成することが可能である。しかも、1つの意味データから多数のアノテーションデータを生成できるので、多数の意味データをもとにして大量のアノテーションデータを生成することができる。さらに、大量に生成されたアノテーションデータのそれぞれに対し、個々の図形に対して手書き図形データを多数の組み合わせにより適用して手書き構成図データを生成しているので、多数の手書き構成図データを生成することができる。しかも、個々の手書き図形データに対して複数パターンの変形処理を施しているので、アノテーションデータに対する手書き図形データの組み合わせの数は膨大となり、この組み合わせによって得られる手書き構成図データの数も膨大なものとなる。
このように、本実施形態によれば、学習データの収集が困難な状況にある手書きの構成図に関して、大量の学習データを容易に生成することが可能である。
なお、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
11 意味データ生成部
12 アノテーションデータ生成部
13 手書き構成図データ生成部
14 学習データ生成部

Claims (3)

  1. 複数の図形を組み合わせて作成される手書きの構成図に関する学習データを生成するための学習データ生成装置であって、
    複数の図形の組み合わせから成る構成図の意味をテキストデータにより表した意味データを複数生成する意味データ生成部と、
    上記意味データ生成部により生成された複数の意味データのそれぞれ毎に、上記複数の図形の大きさおよび配置位置をテキストデータにより表したアノテーションデータを複数生成するアノテーションデータ生成部と、
    上記アノテーションデータ生成部により生成された複数のアノテーションデータのそれぞれ毎に、1つの図形について複数の手書き図形データをあらかじめ保存したデータベースから上記複数の手書き図形データを読み出してアノテーションの通りに配置することにより、1つのアノテーションデータから複数の手書き構成図データを生成する手書き構成図データ生成部と、
    上記意味データ生成部により生成された上記複数の意味データおよび上記手書き構成図データ生成部により生成された複数の手書き構成図データを少なくとも用いて、上記意味データとそれから派生した上記手書き構成図データとを含んだデータセットから成る学習データを生成する学習データ生成部とを備えたことを特徴とする学習データ生成装置。
  2. 上記手書き構成図データ生成部は、上記データベースから読み出した手書き図形データに対し複数パターンの変形処理を行うことにより、1つの手書き図形データから複数の手書き図形データを生成することを特徴とする請求項1に記載の学習データ生成装置。
  3. 複数の図形を組み合わせて作成される手書きの構成図に関する学習データを生成するための学習データ生成方法であって、
    学習データ生成装置の意味データ生成部が、複数の図形の組み合わせから成る構成図の意味をテキストデータにより表した意味データを複数生成する第1のステップと、
    上記学習データ生成装置のアノテーションデータ生成部が、上記意味データ生成部により生成された複数の意味データのそれぞれ毎に、上記複数の図形の大きさおよび配置位置をテキストデータにより表したアノテーションデータを複数生成する第2のステップと、
    上記学習データ生成装置の手書き構成図データ生成部が、上記アノテーションデータ生成部により生成された複数のアノテーションデータのそれぞれ毎に、1つの図形について複数の手書き図形データをあらかじめ保存したデータベースから上記複数の手書き図形データを読み出してアノテーションの通りに配置することにより、1つのアノテーションデータから複数の手書き構成図データを生成する第3のステップと、
    上記学習データ生成装置の学習データ生成部が、上記意味データ生成部により生成された上記複数の意味データおよび上記手書き構成図データ生成部により生成された複数の手書き構成図データを少なくとも用いて、上記意味データとそれから派生した上記手書き構成図データとを含んだデータセットから成る学習データを生成する第4のステップとを有することを特徴とする学習データ生成方法。
JP2018195585A 2018-10-17 2018-10-17 学習データ生成装置および学習データ生成方法 Active JP7165970B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018195585A JP7165970B2 (ja) 2018-10-17 2018-10-17 学習データ生成装置および学習データ生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018195585A JP7165970B2 (ja) 2018-10-17 2018-10-17 学習データ生成装置および学習データ生成方法

Publications (2)

Publication Number Publication Date
JP2020064438A JP2020064438A (ja) 2020-04-23
JP7165970B2 true JP7165970B2 (ja) 2022-11-07

Family

ID=70387280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018195585A Active JP7165970B2 (ja) 2018-10-17 2018-10-17 学習データ生成装置および学習データ生成方法

Country Status (1)

Country Link
JP (1) JP7165970B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120141032A1 (en) 2010-12-03 2012-06-07 Massachusetts Institute Of Technology Sketch recognition system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0896084A (ja) * 1994-09-26 1996-04-12 Matsushita Electric Ind Co Ltd ニューラルネットワーク

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120141032A1 (en) 2010-12-03 2012-06-07 Massachusetts Institute Of Technology Sketch recognition system

Also Published As

Publication number Publication date
JP2020064438A (ja) 2020-04-23

Similar Documents

Publication Publication Date Title
Siddiqui et al. Decnt: Deep deformable cnn for table detection
US10685462B2 (en) Automatic data extraction from a digital image
JP4745758B2 (ja) テキストおよびグラフィクスの空間認識およびグループ化
US20140313216A1 (en) Recognition and Representation of Image Sketches
TANG et al. Transformation-ring-projection (TRP) algorithm and its VLSI implementation
JP5340441B2 (ja) 編集可能な文書生成のための形状のパラメータ化
CN109690462B (zh) 管理手写图连接符的系统和方法
JPH05500874A (ja) ディジタル化書類における選択本文の自動抽出のための多角形準拠式方法
Karasneh et al. Extracting UML models from images
Schäfer et al. Arrow R-CNN for handwritten diagram recognition
MX2007010180A (es) Importacion inteligente de informacion de la interfaz de usuario de aplicacion del exterior utilizando inteligencia artificial.
EP3058513B1 (en) Multi-color channel detection for note recognition and management
JP2020140450A (ja) 構造化データ生成方法および構造化データ生成装置
US20230351115A1 (en) Document image processing including tokenization of non-textual semantic elements
Choudhary et al. A neural approach to cursive handwritten character recognition using features extracted from binarization technique
JP7165970B2 (ja) 学習データ生成装置および学習データ生成方法
Valois et al. Online recognition of sketched electrical diagrams
US11663761B2 (en) Hand-drawn diagram recognition using visual arrow-relation detection
Song et al. Retrieving geometric information from images: the case of hand-drawn diagrams
Obaidullah et al. An approach for automatic Indic script identification from handwritten document images
Al-Salman et al. Arabic online handwriting recognition: a survey
Keerthi Priya et al. Ai-Based Online Hand Drawn Engineering Symbol Classification and Recognition
Panchal et al. An investigation on feature and text extraction from images using image recognition in Android
Takagi A pattern recognition method of mathematical graphs
CN112395834A (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221018

R150 Certificate of patent or registration of utility model

Ref document number: 7165970

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150