JP2022012017A

JP2022012017A - 情報処理装置、情報処理方法、及びコンピュータプログラム

Info

Publication number: JP2022012017A
Application number: JP2020113508A
Authority: JP
Inventors: 貴衣島村; Kie SHIMAMURA; 知宏黒田; Tomohiro Kuroda; 征世秋定; Yukiyo Akisada; 誠新美; Makoto Niimi
Original assignee: Yokogawa Electric Corp
Current assignee: Yokogawa Electric Corp
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2022-01-17
Also published as: EP4174765A1; WO2022004097A1; US20230237823A1; EP4174765A4

Abstract

【課題】画像に含まれる図形と文字列とが何らかの関連性を有することを示す情報を自動的に生成可能な技術を提供する。【解決手段】情報処理装置は、図形と文字列とを含む画像を取得し、前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する制御部を備える。【選択図】図３

Description

本開示は、情報処理装置、情報処理方法、及びコンピュータプログラムに関する。

従来、画像に含まれる対象を識別し、その対象の画像における位置を認識する技術が知られている（例えば、特許文献１参照）。

また、スキャナに読み込まれるなどして生成された文字列を表す画像を解析して、文字列データに変換するＯＣＲ（Optical Character Recognition：光学文字認識）技術が知られている。

特開２０１３－１１４５９６号公報

図形と文字列とを含むアナログ図面（紙に印刷されている図面又は手書きにより描かれている図面等をいう。）が作成される場合、図形と文字列とが関連性を有する場合がある。例えば、システムの設計図において、システムの構成要素を示す図形と、その図形を説明する文字列が記載される場合、その図形と文字列とは関連性を有するといえる。そのようなアナログ図面がスキャナにより画像に変換されてコンピュータ上で利用される場合、図面の検索による再利用及び図面のデータ削減の観点から、図形と文字列との関連性を示す情報を利用できることが有用である。

しかし、従来の構成においては、画像に含まれる特定の対象を認識すること、及び、文字列を文字列データに変換することはできるものの、画像に含まれる図形と文字列とが何らかの関連性を有するかを識別することはできなかった。

本開示は、上述の点に鑑みてなされたものであり、画像に含まれる図形と文字列とが関連性を有することを示す情報を自動的に生成可能な技術を提供することを目的とする。

幾つかの実施形態に係る情報処理装置は、図形と文字列とを含む画像を取得し、前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する制御部を備える。これにより、図形と文字列との関連性を示す情報を自動的に生成することができる。

一実施形態に係る情報処理装置において、前記制御部は、前記位置関係として、前記図形と前記文字列との間の距離、及び、前記図形に対する前記文字列の方向の少なくともいずれかに基づき、前記関連性情報を生成してもよい。これにより、図形と文字列との関連性を精度よく示す情報を生成することができる。

一実施形態に係る情報処理装置において、前記制御部は、サンプルとなるサンプル図形の位置と、サンプルとなるサンプル文字列の位置と、前記サンプル図形と前記サンプル文字列との間の関連性とを教師データとして機械学習された関連性に関する予測モデルを取得し、前記関連性情報を生成する際は、前記関連性に関する予測モデルを用いて、前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を予測するようにしてもよい。これにより、図形と文字列とが関連性を有するか否かの基準を人手により予め設定することなく、図形と文字列との関連性を示す情報を生成することができる。

一実施形態に係る情報処理装置において、前記制御部は、前記画像から予め定められた種類の図形を検出し、前記検出された図形と前記文字列との位置関係に基づき前記関連性情報を生成するようにしてもよい。これにより、図形の種類を区別して関連性情報を生成することができる。

一実施形態に係る情報処理装置において、前記制御部は、前記種類と、前記種類の図形を示すサンプル画像とを教師データとして機械学習された図形検出に関する予測モデルを取得し、前記画像から前記種類の図形を検出する際は、前記図形検出に関する予測モデルを用いるようにしてもよい。これにより、図形の種類を区別するための基準を人手により予め設定することなく、図形の種類を区別して関連性情報を生成することができる。

一実施形態に係る情報処理装置において、前記制御部は、前記画像を解析して当該画像に含まれる文字列を取得し、前記検出された図形と前記取得された文字列との位置関係に基づき前記関連性情報を生成するようにしてもよい。これにより、画像から自動的に文字列を取得して、関連性情報を生成することができる。

一実施形態に係る情報処理装置において、前記制御部は、前記画像として、複数の図形と複数の文字列とを含む画像を取得し、前記複数の図形の各々について、当該図形と関連性を有する前記複数の文字列に含まれる文字列を示す情報を前記関連性情報として生成するようにしてもよい。これにより、複数の図形及び複数の文字列が画像内に存在する場合においても、図形ごとに関連性を有する文字列を識別して関連性情報を生成することができる。

幾つかの実施形態に係る情報処理方法は、制御部が、図形と文字列とを含む画像を取得し、前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する。これにより、図形と文字列との関連性を示す情報を自動的に生成することができる。

幾つかの実施形態に係るコンピュータプログラムは、図形と文字列とを含む画像を取得する処理と、前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する処理とをコンピュータに実行させる。これにより、図形と文字列との関連性を示す情報を自動的に生成することができる。

本開示によれば、画像に含まれる図形と文字列とが何らかの関連性を有することを示す情報を自動的に生成可能な技術が提供される。

比較例に係る装置により、図形と文字列とを含む図面の画像から図形と文字列とを関連付ける手順を模式的に示す図である。比較例に係る装置によりオブジェクトを検出する手順を模式的に示す図である。本開示の一実施形態に係る情報処理装置の構成を示すブロック図である。本開示の一実施形態に係る情報処理装置の動作を示すフローチャートである。手書きの図面の一例を示す図である。図５の図面にオブジェクト及びラベルの情報を連結したデータの一例を示す図である。図形検出に関する予測モデルが生成される例を示す図である。本開示の一実施形態に係る情報処理装置によるオブジェクト検出処理の例を示す図である。本開示の一実施形態に係る情報処理装置による関連性取得処理を示すフローチャートである。本開示の一実施形態に係る情報処理装置による関連性取得処理の例を示す図である。

（比較例）
図１は、比較例に係る装置により、図形と文字列とを含むアナログ図面の画像から図形と文字列とを関連付ける手順を模式的に示す図である。図１は、手書きにより配管図が記載された図面をＰＣ等の装置により処理する場合の例を示している。ＰＣは、Personal Computerの略称である。

ＰＣは、図面をスキャンし、スキャン画像を取得する（ステップＳ８１）。ステップＳ８１では、まず、ＰＣに接続されたスキャナが、図面を撮影する。ＰＣは、撮影した画像をビットマップデータに変換し、画像の状態に応じて、ビットマップデータを補正する。具体的には、ＰＣは、画像の傾き、ひずみ、及び裏面から透けた部分を補正する。ＰＣは、補正された画像を、ビットマップデータとしてメモリ上に保管する。以下、メモリ上に保管された画像は「スキャン画像」と称される。

次に、ＰＣは、スキャン画像から予め定められた各図形をピクセルデータとして抽出する（ステップＳ８２）。その際、ＰＣは、抽出された各図形の、スキャン画像上における位置を取得する。ＰＣは、例えば、特許文献１に記載の手法を用いて各図形を抽出してもよい。

次に、ＰＣは、スキャン画像に描かれている各文字列を認識して、文字列データを取得する（ステップＳ８３）。その際、ＰＣは、抽出された各文字列の、スキャン画像上における位置を取得する。ＰＣは、ＯＣＲにより文字列を認識してもよい。

次に、ユーザが、ＰＣを操作して、スキャン画像から抽出された各図形と、スキャン画像に描かれている各文字列とを関連付ける（ステップＳ８４）。図２は、比較例に係る装置により図形と文字列を関連付ける手順を模式的に示す図である。すなわち、ユーザは、ＰＣに接続されたモニタ上でスキャン画像９１を目視により確認し、スキャン画像９１内の各図形と各文字列とを照合して関連付ける（９２）。図２の例では、ユーザは照合の結果をＰＣに入力する。スキャン画像９１には、バルブを示す手書きの図形と、その図形の近傍に「バルブ用」との手書きの文字列とが存在する。そこで、ユーザは、バルブを示す図形と「バルブ用」との文字列を関連付けるための操作を行う。これに応じて、ＰＣは、図形の種類及び位置と、その図形に関連付けられた文字列との関連性を示す情報９３を生成する。図２の例では、情報９３において、図形の種類が「物体名：バルブ」により示されている。その図形のスキャン画像における位置が「位置：（２００，２００）」により示されている。その図形に関連付けられた文字列が「ラベル：バルブ用」により示されている。以下、図形に併記された図形を説明する文字列は「ラベル」と称される。

比較例においては、図形と文字列との関連付けを示す情報を取得するために、ユーザが、スキャン画像を目視により確認し、スキャン画像内の各図形と各文字列とを照合して関連付けるための操作をする必要があった。そのため、比較例では、ユーザの手作業が必要であり、例えば処理対象の図面が大量に存在する場合、処理に膨大な作業時間を要していた。また、比較例は、ユーザの手作業を必要とするため、スキャン画像内の各図形と各文字列とを関連付ける際に人為的な誤りが入り込む恐れがあった。

（本開示の実施形態）
以下では、添付図面を参照しながら本開示の一実施形態に係る情報処理装置の構成及び動作について主に説明する。図３は、本開示の一実施形態に係る情報処理装置１０の構成を示すブロック図である。

情報処理装置１０は、画像に含まれる図形と文字列との位置関係に基づき、図形と文字列との関連性を示す関連性情報を生成する。そのため、本開示の一実施形態に係る情報処理装置１０は、図形と文字列との関連性を示す情報を、人手を要さず自動的に生成することができる。なお、本実施形態では、文字列は、複数の文字からなるものだけでなく、１文字からなるものも含む。

情報処理装置１０は、１つ又は互いに通信可能な複数のサーバ装置である。情報処理装置１０は、これらに限定されず、ＰＣ等の任意の汎用の電子機器であってもよいし、専用の他の電子機器であってもよい。図３に示すように、情報処理装置１０は、制御部１１、記憶部１２、通信部１３、入力部１４、及び出力部１５を備える。

制御部１１は、１つ以上のプロセッサを含む。一実施形態において「プロセッサ」は、汎用のプロセッサ、又は特定の処理に特化した専用のプロセッサであるが、これらに限定されない。制御部１１は、情報処理装置１０を構成する各構成部と通信可能に接続され、情報処理装置１０全体の動作を制御する。

記憶部１２は、ＨＤＤ、ＳＳＤ、ＥＥＰＲＯＭ、ＲＯＭ、及びＲＡＭを含む任意の記憶モジュールを含む。記憶部１２は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部１２は、情報処理装置１０の動作に用いられる任意の情報を記憶する。例えば、記憶部１２は、システムプログラム、アプリケーションプログラム、及び通信部１３によって受信された各種情報等を記憶してもよい。記憶部１２は、情報処理装置１０に内蔵されているものに限定されず、ＵＳＢ等のデジタル入出力ポート等によって接続されている外付けのデータベース又は外付け型の記憶モジュールであってもよい。ＨＤＤはHard Disk Driveの略称である。ＳＳＤはSolid State Driveの略称である。ＥＥＰＲＯＭはElectrically Erasable Programmable Read-Only Memoryの略称である。ＲＯＭはRead-Only Memoryの略称である。ＲＡＭはRandom Access Memoryの略称である。ＵＳＢはUniversal Serial Busの略称である。

通信部１３は、任意の通信技術によってスキャナ等の他の装置と通信接続可能な、任意の通信モジュールを含む。通信部１３は、さらに、他の装置との通信を制御するための通信制御モジュール、及び他の装置との通信に必要となる識別情報等の通信用データを記憶する記憶モジュールを含んでもよい。

入力部１４は、ユーザの入力操作を受け付けて、ユーザの操作に基づく入力情報を取得する１つ以上の入力インタフェースを含む。例えば、入力部１４は、物理キー、静電容量キー、ポインティングディバイス、出力部１５のディスプレイと一体的に設けられたタッチスクリーン、又は音声入力を受け付けるマイク等であるが、これらに限定されない。

出力部１５は、ユーザに対して情報を出力し、ユーザに通知する１つ以上の出力インタフェースを含む。例えば、出力部１５は、情報を画像で出力するディスプレイ、又は情報を音声で出力するスピーカ等であるが、これらに限定されない。なお、上述の入力部１４及び出力部１５の少なくとも一方は、情報処理装置１０と一体に構成されてもよいし、別体として設けられてもよい。

情報処理装置１０の機能は、本実施形態に係るコンピュータプログラム（プログラム）を、制御部１１に含まれるプロセッサで実行することにより実現される。すなわち、情報処理装置１０の機能は、ソフトウェアにより実現される。コンピュータプログラムは、情報処理装置１０の動作に含まれるステップの処理をコンピュータに実行させることで、当該ステップの処理に対応する機能をコンピュータに実現させる。すなわち、コンピュータプログラムは、コンピュータを本実施形態に係る情報処理装置１０として機能させるためのプログラムである。

コンピュータプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、磁気記録装置、光ディスク、光磁気記録媒体、又は半導体メモリである。プログラムの流通は、例えば、プログラムを記録したＤＶＤ又はＣＤ－ＲＯＭなどの可搬型記録媒体を販売、譲渡、又は貸与することによって行う。「ＤＶＤ」は、Digital Versatile Discの略称である。「ＣＤ－ＲＯＭ」は、Compact Disc Read Only Memoryの略称である。プログラムをサーバのストレージに格納しておき、ネットワークを介して、サーバから他のコンピュータにプログラムを転送することにより、プログラムは流通されてもよい。プログラムはプログラムプロダクトとして提供されてもよい。

コンピュータは、例えば、可搬型記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、主記憶装置に格納する。そして、コンピュータは、主記憶装置に格納されたプログラムをプロセッサで読み取り、読み取ったプログラムに従った処理をプロセッサで実行する。コンピュータは、可搬型記録媒体から直接プログラムを読み取り、プログラムに従った処理を実行してもよい。コンピュータは、コンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行してもよい。このような処理は、サーバからコンピュータへのプログラムの転送を行わず、実行指示及び結果取得のみによって機能を実現する、いわゆるＡＳＰ型のサービスによって実行されてもよい。「ＡＳＰ」は、Application Service Providerの略称である。プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるものが含まれる。例えば、コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータは、「プログラムに準ずるもの」に該当する。

情報処理装置１０の一部又は全ての機能が、制御部１１に含まれる専用回路により実現されてもよい。すなわち、情報処理装置１０の一部又は全ての機能が、ハードウェアにより実現されてもよい。また、情報処理装置１０は単一の情報処理装置により実現されてもよいし、複数の情報処理装置の協働により実現されてもよい。

情報処理装置１０の動作が、図４を参照して説明される。図４を参照して説明する情報処理装置１０の動作は本実施形態に係る情報処理方法に相当し、各ステップの動作は制御部１１の制御に基づき実行される。

図４のステップＳ１１において、制御部１１は、図形及び文字列が記載されたアナログ図面の画像を取得する。具体的には、制御部１１は、スキャナにより取得された図面の画像データを、通信部１３を介して、そのスキャナから直接、又は、画像データを記憶する外部の記憶装置から取得する。これに代えて、制御部１１は、予め記憶部１２に記憶された画像データを取得してもよい。

図５は、画像データにより示される、手書きの図形及び文字列を含む画像の一例を示す図である。図５の画像５０には、６つの図形５１～５６が記載されている。文字列５７～６０は前述のラベルにあたる。図形５１の近くには、「タンク用」の文字列５７が記載されている。図形５２の近くには、「ボイラー用」の文字列５８が記載されている。図形５３の近くには、「貯水タンク」の文字列５９が記載されている。図形５４の近くには、「ボイラーＡ」の文字列６０が記載されている。図形５５及び図形５６の近くには文字列は記載されていない。

詳細は後述されるように、制御部１１は、画像５０に含まれる各図形５１～５６と文字列５７～６０との位置関係に基づき、図形と文字列との関連性を示す関連性情報を生成し、その関連性情報を画像５０に連結して構造化された画像を生成する。図６は、画像５０に基づき生成された、構造化された画像の一例を示す図である。図６において、構造化された画像６５には、図形５１～５６が画像５０と同一の位置関係を保って含まれている。図形５１～５４には、図形の種類及びラベルを示す情報６１～６４が付されている。

本実施形態では、情報６１～６４がＸＭＬ形式で記載された例を説明するが、これらの情報の形式はＸＭＬに限られない。例えば、これらの情報はＣＳＶ又はＪＳＯＮの形式で記載されてもよい。ＸＭＬは、Extensible Markup Languageの略称である。ＣＳＶはComma-Separated Valuesの略称である。ＪＳＯＮはJavaScript Object Notationの略称である。情報６１～６４において、「figure」タグは図形であることを示す。属性「name」は図形の種類を示す。属性「value」は図形に関連性を有するラベルの内容にあたる文字列を示す。例えば、情報６１においては、図形５１の種類は「バルブ」である。図形５１に関連性を有するラベルの内容にあたる文字列は「タンク用」である。

図６では理解の容易のため、図形５１～５４の近傍に対応する情報６１～６４が示されているが、画像６５が出力部１５のディスプレイに表示される際に、情報６１～６４は表示されない。情報６１～６４は、コンピュータが画像６５を用いて検索等の利用をする場合に利用される。ただし、情報６１～６４を対応する図形５１～５４の近傍に表示して、ユーザが各図形の種類及びラベルを確認できるようにしてもよい。また、図６では、対応するラベルが存在しない図形５５及び５６には図形の種類及びラベルの情報が付されていないが、付されるようにしてもよい。

図４のステップＳ１２において、制御部１１は、ステップＳ１１において取得された画像データをビットマップデータに変換し、画像の状態に応じて、ビットマップデータを補正する。具体的には、制御部１１は、画像の傾き、ひずみ、及び裏面から透けた部分を補正する。制御部１１は、補正された画像データを、ビットマップデータとして記憶部１２のメモリ上に保管する。以下、メモリ上に保管された画像は「スキャン画像」と称される。

図４のステップＳ１３において、制御部１１は、ステップＳ１２においてメモリ上に保管されたスキャン画像からオブジェクトを検出する。以下、スキャン画像内に含まれる各図形を抽象化し、各々を予め定義された図形検出モデルとして分類したものは、「オブジェクト」と称される。オブジェクトは、例えば、図形の種類及び位置を示す情報である。制御部１１は、スキャン画像から予め定められた種類の図形を検出して、オブジェクトを検出する。具体的には、制御部１１は、図形の種類と、その種類の図形を示すサンプル画像とを教師データとして機械学習された図形検出に関する予測モデルを取得し、この予測モデルを用いてオブジェクトを検出する。このように制御部１１は、機械学習により取得された予測モデルを用いてオブジェクト検出処理を行うが、ユーザが設定した基準に基づきオブジェクト検出処理が行われてもよい。

図７は、図形の種類と、その種類の図形を示すサンプル画像とを教師データとして機械学習を行い、図形検出に関する予測モデルを生成する例を模式的に示す図である。図７により示される予測モデルの生成は、制御部１１が、図形と文字列との関連性を示す関連性情報を生成する処理を行う前に行われる。予測モデルは、情報処理装置１０により生成されるが、他のコンピュータが生成したものが使用されてもよい。

図７の例では、情報処理装置１０においてコンピュータプログラムにより実現される機能要素であるモデル生成部２０が、予測モデル２２を生成する。図７の例では、「バルブ」という種類の図形を示す複数のサンプル画像２３～２５がモデル生成部２０に入力されている。モデル生成部２０は、「バルブ」という種類の図形にあたるこれらのサンプル画像２３～２５を教師データとして学習し（２１）、「バルブ」の図形を示す画像についての予測モデル２２を生成する。

制御部１１は、このようにして生成された予測モデルを用いて、スキャン画像からオブジェクトを検出する。図８は、オブジェクト検出処理の例を示す図である。制御部１１は、スキャン画像３１に対し、前述の予測モデルを用いてオブジェクトを検出するオブジェクト検出処理を行う（３２）。制御部１１は、検出したオブジェクトをＸＭＬ形式の情報３３として出力する。情報３３では、「Drawing」タグの「name」という属性によりスキャン画像の名前「配管図１」が記載される。「figure」タグは、「配管図１」のスキャン画像に含まれる各図形の情報を示す。「figure」タグ内の属性「name」は、図形の種類の名称を示す。属性「positionX」及び「positionY」は、図形の位置に対応するＸＹ座標を示す。例えば、スキャン画像３１において「貯水タンク」という手書きの文字列が付された図形については、「＜figure name＝“タンク” positionX＝“400” positionY＝“50”／＞」という情報が生成されている。この情報は、図形の種類は「タンク」、図形の位置は（４００，５０）であることを示す。なお、オブジェクトの情報の形式はＸＭＬに限られず、例えば、ＣＳＶ又はＪＳＯＮでもよい。

図４のステップＳ１４において、制御部１１は、スキャン画像を解析してスキャン画像に含まれる文字列をラベルとして取得する。この処理は、既存のＯＣＲ技術を用いて行われてよい。ステップＳ１４により取得される情報には、各文字列について、文字列の内容を示す文字列データ、及びスキャン画像におけるその文字列の位置を示す情報が含まれる。さらに、既存の形態素解析技術を使用して、文字列が単語又は文節に区分され、文節ごとに品詞が識別されてもよい。このような文字列の文法的な情報が文字列ごとに識別され、ラベルとして記録されることにより、そのような文法的な情報を用いてより精度の高い画像の検索を行うことが可能となる。

図４のステップＳ１５において、制御部１１は、ステップＳ１３で検出したオブジェクトと、ステップＳ１４で取得したラベルとの関連性を取得する。そして、ステップＳ１６において、制御部１１は、オブジェクトの情報に、関連性を有するラベルの情報を連結して付加する。

このようにして、制御部１１は、画像における図形と文字列との位置関係に基づき、図形と文字列との関連性を示す関連性情報を生成する。具体的には、制御部１１は、図形と文字列との位置関係として、図形と文字列との間の距離、及び、図形に対する文字列の方向の少なくともいずれかに基づき、関連性情報を生成する。制御部１１は、例えば、図形との距離が予め定めた値以内の近傍に存在する文字列を、その図形と関連性を有する文字列として取得してもよい。あるいは、制御部１１は、図形から見て特定の方向に存在する文字列を、その図形と関連性を有する文字列として取得してもよい。一般に、図形に関連性を有する文字列はその図形の文字列の近傍に記載されるため、図形と文字列との位置関係に基づき関連性の有無を判定することで、画像に含まれる図形と文字列が何らかの関連性を有することを示す情報を精度よく自動的に生成することができる。

また、このような図形と文字列との関連性の有無を判定する基準は、本実施形態では機械学習により取得された予測モデルとして制御部１１により予め取得される。すなわち、制御部１１は、サンプルとなるサンプル図形の位置と、サンプルとなるサンプル文字列の位置と、サンプル図形とサンプル文字列との間の関連性とを教師データとして、機械学習された関連性に関する予測モデルを取得する。さらに、制御部１１は、関連性情報を生成する際は、関連性に関する予測モデルを用いて、図形と文字列との位置関係に基づき、図形と文字列との関連性を予測する。これにより、図形と文字列とが関連性を有するか否かの基準を人手により予め設定することなく、図形と文字列との関連性を示す情報を生成することができる。

本実施形態では、スキャン画像に複数の図形及び複数の文字列が含まれる場合、制御部１１は、複数の図形の各々について、複数の文字列に含まれる文字列のうち図形と関連性を有するものを示す情報を関連性情報として生成する。したがって、複数の図形及び複数の文字列が画像内に存在する場合においても、図形ごとに関連性を有する文字列を識別して関連性情報を生成することができる。

図９は、スキャン画像に複数の図形が含まれる場合の関連性情報を生成する関連性取得処理の処理手順を示すフローチャートである。関連性取得処理において、制御部１１は、スキャン画像に含まれる図形に関するオブジェクトの各々について、関連付けるべきラベルが存在するか否かを判定し、存在する場合はラベルの情報をオブジェクトの情報に付加する処理を行う。

図９のステップＳ２１において、制御部１１は、注目しているオブジェクトの図形について、関連性を有するラベルが存在するか否かを判定する。この判定は、前述のように、図形と文字列との位置関係に基づき行われる。存在する場合（ステップＳ２１でＹＥＳ）、制御部１１は、ステップＳ２２の処理を行う。存在しない場合（ステップＳ２１でＮＯ）、制御部１１は、ステップＳ２３の処理を行う。

図９のステップＳ２２において、制御部１１は、注目しているオブジェクトの情報に、関連性を有するラベルの情報を付加する。そして、制御部１１は、ステップＳ２３処理を行う。

図９のステップＳ２３において、制御部１１は、スキャン画像に未処理のオブジェクトが存在するか否かを判定する。存在する場合（ステップＳ２３でＹＥＳ）、制御部１１は、ステップＳ２１の処理を行う。存在しない場合（ステップＳ２３でＮＯ）、制御部１１は、関連性取得処理を終了する。

図１０は、関連性取得処理の例を示す図である。制御部１１は、スキャン画像４１のオブジェクトの情報に対して、前述の関連性取得処理を行う（４２）。制御部１１は、オブジェクトの情報３３にラベルを付加したものをＸＭＬ形式の情報４３として出力する。図８の情報３３と図１０の情報４３とを比較すれば明らかなように、種類が「バルブ」の２つの図形、種類が「タンク」の図形、及び種類が「ボイラー」の図形には、関連性を有するラベルが存在するため、ラベルに相当する情報が付加されている。例えば、スキャン画像３１における「＜figure name＝“タンク” positionX＝“400” positionY＝“50”／＞」という情報には、「value＝“ボイラーA”」というラベルの情報が属性として付加されている。この情報は、（４００，５０）の位置に存在する「タンク」という種類の図形には「ボイラーＡ」というラベルと関連性を有することを示している。なお、関連性情報の形式はＸＭＬに限られず、例えば、ＣＳＶ又はＪＳＯＮでもよい。

図４のステップＳ１７において、制御部１１は、スキャン画像４１に対して、ステップＳ１６までに生成された関連性情報を連結して、図６を参照して前述した構造化された画像を生成する。そして、制御部１１は、処理を終了する。

上記のように、情報処理装置１０は、スキャン画像における図形と文字列との位置関係に基づき、図形と文字列との関連性を示す関連性情報を生成する。具体的には、位置関係として、図形と文字列との間の距離、及び、図形に対する文字列の方向の少なくともいずれかに基づき、関連性情報を生成する。したがって、人手を介することなく画像に含まれる図形と文字列とが何らかの関連性を有することを示す情報を自動的に生成することが可能である。このような構成によれば、手書きの図面に対して、その図面に含まれる図形とそれに関連する文字列の情報をコンピュータで利用可能な形で容易に付与することができる。したがって、手書き図面の検索など、コンピュータにおける手書き図面の用途を拡大することが可能となる。

本開示に係る実施形態について、諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は修正を行うことが容易であることに注意されたい。従って、これらの変形又は修正は本開示の範囲に含まれることに留意されたい。例えば、各構成部又は各ステップに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の構成部又はステップを１つに組み合わせたり、或いは分割したりすることが可能である。

１０情報処理装置
１１制御部
１２記憶部
１３通信部
１４入力部
１５出力部

Claims

図形と文字列とを含む画像を取得し、
前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する
制御部を備える情報処理装置。
前記制御部は、前記位置関係として、前記図形と前記文字列との間の距離、及び、前記図形に対する前記文字列の方向の少なくともいずれかに基づき、前記関連性情報を生成する請求項１に記載の情報処理装置。
前記制御部は、
サンプルとなるサンプル図形の位置と、サンプルとなるサンプル文字列の位置と、前記サンプル図形と前記サンプル文字列との間の関連性とを教師データとして機械学習された関連性に関する予測モデルを取得し、
前記関連性情報を生成する際は、前記関連性に関する予測モデルを用いて、前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を予測する
請求項１又は２に記載の情報処理装置。
前記制御部は、
前記画像から予め定められた種類の図形を検出し、
前記検出された図形と前記文字列との位置関係に基づき前記関連性情報を生成する
請求項１から３のいずれか１項に記載の情報処理装置。
前記制御部は、
前記種類と、前記種類の図形を示すサンプル画像とを教師データとして機械学習された図形検出に関する予測モデルを取得し、
前記画像から前記種類の図形を検出する際は、前記図形検出に関する予測モデルを用いる
請求項４に記載の情報処理装置。
前記制御部は、
前記画像を解析して当該画像に含まれる文字列を取得し、
前記検出された図形と前記取得された文字列との位置関係に基づき前記関連性情報を生成する
請求項４又は５に記載の情報処理装置。
前記制御部は、
前記画像として、複数の図形と複数の文字列とを含む画像を取得し、
前記複数の図形の各々について、当該図形と関連性を有する前記複数の文字列に含まれる文字列を示す情報を前記関連性情報として生成する
請求項１から６のいずれか１項に記載の情報処理装置。
制御部が、
図形と文字列とを含む画像を取得し、
前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する
情報処理方法。
図形と文字列とを含む画像を取得する処理と、
前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する処理と
をコンピュータに実行させるコンピュータプログラム。