JP2022012017A - 情報処理装置、情報処理方法、及びコンピュータプログラム - Google Patents

情報処理装置、情報処理方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP2022012017A
JP2022012017A JP2020113508A JP2020113508A JP2022012017A JP 2022012017 A JP2022012017 A JP 2022012017A JP 2020113508 A JP2020113508 A JP 2020113508A JP 2020113508 A JP2020113508 A JP 2020113508A JP 2022012017 A JP2022012017 A JP 2022012017A
Authority
JP
Japan
Prior art keywords
character string
image
information
control unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020113508A
Other languages
English (en)
Inventor
貴衣 島村
Kie SHIMAMURA
知宏 黒田
Tomohiro Kuroda
征世 秋定
Yukiyo Akisada
誠 新美
Makoto Niimi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yokogawa Electric Corp
Original Assignee
Yokogawa Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yokogawa Electric Corp filed Critical Yokogawa Electric Corp
Priority to JP2020113508A priority Critical patent/JP2022012017A/ja
Priority to US17/999,497 priority patent/US20230237823A1/en
Priority to PCT/JP2021/015334 priority patent/WO2022004097A1/ja
Priority to EP21833206.2A priority patent/EP4174765A4/en
Publication of JP2022012017A publication Critical patent/JP2022012017A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像に含まれる図形と文字列とが何らかの関連性を有することを示す情報を自動的に生成可能な技術を提供する。【解決手段】情報処理装置は、図形と文字列とを含む画像を取得し、前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する制御部を備える。【選択図】図3

Description

本開示は、情報処理装置、情報処理方法、及びコンピュータプログラムに関する。
従来、画像に含まれる対象を識別し、その対象の画像における位置を認識する技術が知られている(例えば、特許文献1参照)。
また、スキャナに読み込まれるなどして生成された文字列を表す画像を解析して、文字列データに変換するOCR(Optical Character Recognition:光学文字認識)技術が知られている。
特開2013-114596号公報
図形と文字列とを含むアナログ図面(紙に印刷されている図面又は手書きにより描かれている図面等をいう。)が作成される場合、図形と文字列とが関連性を有する場合がある。例えば、システムの設計図において、システムの構成要素を示す図形と、その図形を説明する文字列が記載される場合、その図形と文字列とは関連性を有するといえる。そのようなアナログ図面がスキャナにより画像に変換されてコンピュータ上で利用される場合、図面の検索による再利用及び図面のデータ削減の観点から、図形と文字列との関連性を示す情報を利用できることが有用である。
しかし、従来の構成においては、画像に含まれる特定の対象を認識すること、及び、文字列を文字列データに変換することはできるものの、画像に含まれる図形と文字列とが何らかの関連性を有するかを識別することはできなかった。
本開示は、上述の点に鑑みてなされたものであり、画像に含まれる図形と文字列とが関連性を有することを示す情報を自動的に生成可能な技術を提供することを目的とする。
幾つかの実施形態に係る情報処理装置は、図形と文字列とを含む画像を取得し、前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する制御部を備える。これにより、図形と文字列との関連性を示す情報を自動的に生成することができる。
一実施形態に係る情報処理装置において、前記制御部は、前記位置関係として、前記図形と前記文字列との間の距離、及び、前記図形に対する前記文字列の方向の少なくともいずれかに基づき、前記関連性情報を生成してもよい。これにより、図形と文字列との関連性を精度よく示す情報を生成することができる。
一実施形態に係る情報処理装置において、前記制御部は、サンプルとなるサンプル図形の位置と、サンプルとなるサンプル文字列の位置と、前記サンプル図形と前記サンプル文字列との間の関連性とを教師データとして機械学習された関連性に関する予測モデルを取得し、前記関連性情報を生成する際は、前記関連性に関する予測モデルを用いて、前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を予測するようにしてもよい。これにより、図形と文字列とが関連性を有するか否かの基準を人手により予め設定することなく、図形と文字列との関連性を示す情報を生成することができる。
一実施形態に係る情報処理装置において、前記制御部は、前記画像から予め定められた種類の図形を検出し、前記検出された図形と前記文字列との位置関係に基づき前記関連性情報を生成するようにしてもよい。これにより、図形の種類を区別して関連性情報を生成することができる。
一実施形態に係る情報処理装置において、前記制御部は、前記種類と、前記種類の図形を示すサンプル画像とを教師データとして機械学習された図形検出に関する予測モデルを取得し、前記画像から前記種類の図形を検出する際は、前記図形検出に関する予測モデルを用いるようにしてもよい。これにより、図形の種類を区別するための基準を人手により予め設定することなく、図形の種類を区別して関連性情報を生成することができる。
一実施形態に係る情報処理装置において、前記制御部は、前記画像を解析して当該画像に含まれる文字列を取得し、前記検出された図形と前記取得された文字列との位置関係に基づき前記関連性情報を生成するようにしてもよい。これにより、画像から自動的に文字列を取得して、関連性情報を生成することができる。
一実施形態に係る情報処理装置において、前記制御部は、前記画像として、複数の図形と複数の文字列とを含む画像を取得し、前記複数の図形の各々について、当該図形と関連性を有する前記複数の文字列に含まれる文字列を示す情報を前記関連性情報として生成するようにしてもよい。これにより、複数の図形及び複数の文字列が画像内に存在する場合においても、図形ごとに関連性を有する文字列を識別して関連性情報を生成することができる。
幾つかの実施形態に係る情報処理方法は、制御部が、図形と文字列とを含む画像を取得し、前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する。これにより、図形と文字列との関連性を示す情報を自動的に生成することができる。
幾つかの実施形態に係るコンピュータプログラムは、図形と文字列とを含む画像を取得する処理と、前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する処理とをコンピュータに実行させる。これにより、図形と文字列との関連性を示す情報を自動的に生成することができる。
本開示によれば、画像に含まれる図形と文字列とが何らかの関連性を有することを示す情報を自動的に生成可能な技術が提供される。
比較例に係る装置により、図形と文字列とを含む図面の画像から図形と文字列とを関連付ける手順を模式的に示す図である。 比較例に係る装置によりオブジェクトを検出する手順を模式的に示す図である。 本開示の一実施形態に係る情報処理装置の構成を示すブロック図である。 本開示の一実施形態に係る情報処理装置の動作を示すフローチャートである。 手書きの図面の一例を示す図である。 図5の図面にオブジェクト及びラベルの情報を連結したデータの一例を示す図である。 図形検出に関する予測モデルが生成される例を示す図である。 本開示の一実施形態に係る情報処理装置によるオブジェクト検出処理の例を示す図である。 本開示の一実施形態に係る情報処理装置による関連性取得処理を示すフローチャートである。 本開示の一実施形態に係る情報処理装置による関連性取得処理の例を示す図である。
(比較例)
図1は、比較例に係る装置により、図形と文字列とを含むアナログ図面の画像から図形と文字列とを関連付ける手順を模式的に示す図である。図1は、手書きにより配管図が記載された図面をPC等の装置により処理する場合の例を示している。PCは、Personal Computerの略称である。
PCは、図面をスキャンし、スキャン画像を取得する(ステップS81)。ステップS81では、まず、PCに接続されたスキャナが、図面を撮影する。PCは、撮影した画像をビットマップデータに変換し、画像の状態に応じて、ビットマップデータを補正する。具体的には、PCは、画像の傾き、ひずみ、及び裏面から透けた部分を補正する。PCは、補正された画像を、ビットマップデータとしてメモリ上に保管する。以下、メモリ上に保管された画像は「スキャン画像」と称される。
次に、PCは、スキャン画像から予め定められた各図形をピクセルデータとして抽出する(ステップS82)。その際、PCは、抽出された各図形の、スキャン画像上における位置を取得する。PCは、例えば、特許文献1に記載の手法を用いて各図形を抽出してもよい。
次に、PCは、スキャン画像に描かれている各文字列を認識して、文字列データを取得する(ステップS83)。その際、PCは、抽出された各文字列の、スキャン画像上における位置を取得する。PCは、OCRにより文字列を認識してもよい。
次に、ユーザが、PCを操作して、スキャン画像から抽出された各図形と、スキャン画像に描かれている各文字列とを関連付ける(ステップS84)。図2は、比較例に係る装置により図形と文字列を関連付ける手順を模式的に示す図である。すなわち、ユーザは、PCに接続されたモニタ上でスキャン画像91を目視により確認し、スキャン画像91内の各図形と各文字列とを照合して関連付ける(92)。図2の例では、ユーザは照合の結果をPCに入力する。スキャン画像91には、バルブを示す手書きの図形と、その図形の近傍に「バルブ用」との手書きの文字列とが存在する。そこで、ユーザは、バルブを示す図形と「バルブ用」との文字列を関連付けるための操作を行う。これに応じて、PCは、図形の種類及び位置と、その図形に関連付けられた文字列との関連性を示す情報93を生成する。図2の例では、情報93において、図形の種類が「物体名:バルブ」により示されている。その図形のスキャン画像における位置が「位置:(200,200)」により示されている。その図形に関連付けられた文字列が「ラベル:バルブ用」により示されている。以下、図形に併記された図形を説明する文字列は「ラベル」と称される。
比較例においては、図形と文字列との関連付けを示す情報を取得するために、ユーザが、スキャン画像を目視により確認し、スキャン画像内の各図形と各文字列とを照合して関連付けるための操作をする必要があった。そのため、比較例では、ユーザの手作業が必要であり、例えば処理対象の図面が大量に存在する場合、処理に膨大な作業時間を要していた。また、比較例は、ユーザの手作業を必要とするため、スキャン画像内の各図形と各文字列とを関連付ける際に人為的な誤りが入り込む恐れがあった。
(本開示の実施形態)
以下では、添付図面を参照しながら本開示の一実施形態に係る情報処理装置の構成及び動作について主に説明する。図3は、本開示の一実施形態に係る情報処理装置10の構成を示すブロック図である。
情報処理装置10は、画像に含まれる図形と文字列との位置関係に基づき、図形と文字列との関連性を示す関連性情報を生成する。そのため、本開示の一実施形態に係る情報処理装置10は、図形と文字列との関連性を示す情報を、人手を要さず自動的に生成することができる。なお、本実施形態では、文字列は、複数の文字からなるものだけでなく、1文字からなるものも含む。
情報処理装置10は、1つ又は互いに通信可能な複数のサーバ装置である。情報処理装置10は、これらに限定されず、PC等の任意の汎用の電子機器であってもよいし、専用の他の電子機器であってもよい。図3に示すように、情報処理装置10は、制御部11、記憶部12、通信部13、入力部14、及び出力部15を備える。
制御部11は、1つ以上のプロセッサを含む。一実施形態において「プロセッサ」は、汎用のプロセッサ、又は特定の処理に特化した専用のプロセッサであるが、これらに限定されない。制御部11は、情報処理装置10を構成する各構成部と通信可能に接続され、情報処理装置10全体の動作を制御する。
記憶部12は、HDD、SSD、EEPROM、ROM、及びRAMを含む任意の記憶モジュールを含む。記憶部12は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部12は、情報処理装置10の動作に用いられる任意の情報を記憶する。例えば、記憶部12は、システムプログラム、アプリケーションプログラム、及び通信部13によって受信された各種情報等を記憶してもよい。記憶部12は、情報処理装置10に内蔵されているものに限定されず、USB等のデジタル入出力ポート等によって接続されている外付けのデータベース又は外付け型の記憶モジュールであってもよい。HDDはHard Disk Driveの略称である。SSDはSolid State Driveの略称である。EEPROMはElectrically Erasable Programmable Read-Only Memoryの略称である。ROMはRead-Only Memoryの略称である。RAMはRandom Access Memoryの略称である。USBはUniversal Serial Busの略称である。
通信部13は、任意の通信技術によってスキャナ等の他の装置と通信接続可能な、任意の通信モジュールを含む。通信部13は、さらに、他の装置との通信を制御するための通信制御モジュール、及び他の装置との通信に必要となる識別情報等の通信用データを記憶する記憶モジュールを含んでもよい。
入力部14は、ユーザの入力操作を受け付けて、ユーザの操作に基づく入力情報を取得する1つ以上の入力インタフェースを含む。例えば、入力部14は、物理キー、静電容量キー、ポインティングディバイス、出力部15のディスプレイと一体的に設けられたタッチスクリーン、又は音声入力を受け付けるマイク等であるが、これらに限定されない。
出力部15は、ユーザに対して情報を出力し、ユーザに通知する1つ以上の出力インタフェースを含む。例えば、出力部15は、情報を画像で出力するディスプレイ、又は情報を音声で出力するスピーカ等であるが、これらに限定されない。なお、上述の入力部14及び出力部15の少なくとも一方は、情報処理装置10と一体に構成されてもよいし、別体として設けられてもよい。
情報処理装置10の機能は、本実施形態に係るコンピュータプログラム(プログラム)を、制御部11に含まれるプロセッサで実行することにより実現される。すなわち、情報処理装置10の機能は、ソフトウェアにより実現される。コンピュータプログラムは、情報処理装置10の動作に含まれるステップの処理をコンピュータに実行させることで、当該ステップの処理に対応する機能をコンピュータに実現させる。すなわち、コンピュータプログラムは、コンピュータを本実施形態に係る情報処理装置10として機能させるためのプログラムである。
コンピュータプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、磁気記録装置、光ディスク、光磁気記録媒体、又は半導体メモリである。プログラムの流通は、例えば、プログラムを記録したDVD又はCD-ROMなどの可搬型記録媒体を販売、譲渡、又は貸与することによって行う。「DVD」は、Digital Versatile Discの略称である。「CD-ROM」は、Compact Disc Read Only Memoryの略称である。プログラムをサーバのストレージに格納しておき、ネットワークを介して、サーバから他のコンピュータにプログラムを転送することにより、プログラムは流通されてもよい。プログラムはプログラムプロダクトとして提供されてもよい。
コンピュータは、例えば、可搬型記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、主記憶装置に格納する。そして、コンピュータは、主記憶装置に格納されたプログラムをプロセッサで読み取り、読み取ったプログラムに従った処理をプロセッサで実行する。コンピュータは、可搬型記録媒体から直接プログラムを読み取り、プログラムに従った処理を実行してもよい。コンピュータは、コンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行してもよい。このような処理は、サーバからコンピュータへのプログラムの転送を行わず、実行指示及び結果取得のみによって機能を実現する、いわゆるASP型のサービスによって実行されてもよい。「ASP」は、Application Service Providerの略称である。プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるものが含まれる。例えば、コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータは、「プログラムに準ずるもの」に該当する。
情報処理装置10の一部又は全ての機能が、制御部11に含まれる専用回路により実現されてもよい。すなわち、情報処理装置10の一部又は全ての機能が、ハードウェアにより実現されてもよい。また、情報処理装置10は単一の情報処理装置により実現されてもよいし、複数の情報処理装置の協働により実現されてもよい。
情報処理装置10の動作が、図4を参照して説明される。図4を参照して説明する情報処理装置10の動作は本実施形態に係る情報処理方法に相当し、各ステップの動作は制御部11の制御に基づき実行される。
図4のステップS11において、制御部11は、図形及び文字列が記載されたアナログ図面の画像を取得する。具体的には、制御部11は、スキャナにより取得された図面の画像データを、通信部13を介して、そのスキャナから直接、又は、画像データを記憶する外部の記憶装置から取得する。これに代えて、制御部11は、予め記憶部12に記憶された画像データを取得してもよい。
図5は、画像データにより示される、手書きの図形及び文字列を含む画像の一例を示す図である。図5の画像50には、6つの図形51~56が記載されている。文字列57~60は前述のラベルにあたる。図形51の近くには、「タンク用」の文字列57が記載されている。図形52の近くには、「ボイラー用」の文字列58が記載されている。図形53の近くには、「貯水タンク」の文字列59が記載されている。図形54の近くには、「ボイラーA」の文字列60が記載されている。図形55及び図形56の近くには文字列は記載されていない。
詳細は後述されるように、制御部11は、画像50に含まれる各図形51~56と文字列57~60との位置関係に基づき、図形と文字列との関連性を示す関連性情報を生成し、その関連性情報を画像50に連結して構造化された画像を生成する。図6は、画像50に基づき生成された、構造化された画像の一例を示す図である。図6において、構造化された画像65には、図形51~56が画像50と同一の位置関係を保って含まれている。図形51~54には、図形の種類及びラベルを示す情報61~64が付されている。
本実施形態では、情報61~64がXML形式で記載された例を説明するが、これらの情報の形式はXMLに限られない。例えば、これらの情報はCSV又はJSONの形式で記載されてもよい。XMLは、Extensible Markup Languageの略称である。CSVはComma-Separated Valuesの略称である。JSONはJavaScript Object Notationの略称である。情報61~64において、「figure」タグは図形であることを示す。属性「name」は図形の種類を示す。属性「value」は図形に関連性を有するラベルの内容にあたる文字列を示す。例えば、情報61においては、図形51の種類は「バルブ」である。図形51に関連性を有するラベルの内容にあたる文字列は「タンク用」である。
図6では理解の容易のため、図形51~54の近傍に対応する情報61~64が示されているが、画像65が出力部15のディスプレイに表示される際に、情報61~64は表示されない。情報61~64は、コンピュータが画像65を用いて検索等の利用をする場合に利用される。ただし、情報61~64を対応する図形51~54の近傍に表示して、ユーザが各図形の種類及びラベルを確認できるようにしてもよい。また、図6では、対応するラベルが存在しない図形55及び56には図形の種類及びラベルの情報が付されていないが、付されるようにしてもよい。
図4のステップS12において、制御部11は、ステップS11において取得された画像データをビットマップデータに変換し、画像の状態に応じて、ビットマップデータを補正する。具体的には、制御部11は、画像の傾き、ひずみ、及び裏面から透けた部分を補正する。制御部11は、補正された画像データを、ビットマップデータとして記憶部12のメモリ上に保管する。以下、メモリ上に保管された画像は「スキャン画像」と称される。
図4のステップS13において、制御部11は、ステップS12においてメモリ上に保管されたスキャン画像からオブジェクトを検出する。以下、スキャン画像内に含まれる各図形を抽象化し、各々を予め定義された図形検出モデルとして分類したものは、「オブジェクト」と称される。オブジェクトは、例えば、図形の種類及び位置を示す情報である。制御部11は、スキャン画像から予め定められた種類の図形を検出して、オブジェクトを検出する。具体的には、制御部11は、図形の種類と、その種類の図形を示すサンプル画像とを教師データとして機械学習された図形検出に関する予測モデルを取得し、この予測モデルを用いてオブジェクトを検出する。このように制御部11は、機械学習により取得された予測モデルを用いてオブジェクト検出処理を行うが、ユーザが設定した基準に基づきオブジェクト検出処理が行われてもよい。
図7は、図形の種類と、その種類の図形を示すサンプル画像とを教師データとして機械学習を行い、図形検出に関する予測モデルを生成する例を模式的に示す図である。図7により示される予測モデルの生成は、制御部11が、図形と文字列との関連性を示す関連性情報を生成する処理を行う前に行われる。予測モデルは、情報処理装置10により生成されるが、他のコンピュータが生成したものが使用されてもよい。
図7の例では、情報処理装置10においてコンピュータプログラムにより実現される機能要素であるモデル生成部20が、予測モデル22を生成する。図7の例では、「バルブ」という種類の図形を示す複数のサンプル画像23~25がモデル生成部20に入力されている。モデル生成部20は、「バルブ」という種類の図形にあたるこれらのサンプル画像23~25を教師データとして学習し(21)、「バルブ」の図形を示す画像についての予測モデル22を生成する。
制御部11は、このようにして生成された予測モデルを用いて、スキャン画像からオブジェクトを検出する。図8は、オブジェクト検出処理の例を示す図である。制御部11は、スキャン画像31に対し、前述の予測モデルを用いてオブジェクトを検出するオブジェクト検出処理を行う(32)。制御部11は、検出したオブジェクトをXML形式の情報33として出力する。情報33では、「Drawing」タグの「name」という属性によりスキャン画像の名前「配管図1」が記載される。「figure」タグは、「配管図1」のスキャン画像に含まれる各図形の情報を示す。「figure」タグ内の属性「name」は、図形の種類の名称を示す。属性「positionX」及び「positionY」は、図形の位置に対応するXY座標を示す。例えば、スキャン画像31において「貯水タンク」という手書きの文字列が付された図形については、「<figure name=“タンク” positionX=“400” positionY=“50”/>」という情報が生成されている。この情報は、図形の種類は「タンク」、図形の位置は(400,50)であることを示す。なお、オブジェクトの情報の形式はXMLに限られず、例えば、CSV又はJSONでもよい。
図4のステップS14において、制御部11は、スキャン画像を解析してスキャン画像に含まれる文字列をラベルとして取得する。この処理は、既存のOCR技術を用いて行われてよい。ステップS14により取得される情報には、各文字列について、文字列の内容を示す文字列データ、及びスキャン画像におけるその文字列の位置を示す情報が含まれる。さらに、既存の形態素解析技術を使用して、文字列が単語又は文節に区分され、文節ごとに品詞が識別されてもよい。このような文字列の文法的な情報が文字列ごとに識別され、ラベルとして記録されることにより、そのような文法的な情報を用いてより精度の高い画像の検索を行うことが可能となる。
図4のステップS15において、制御部11は、ステップS13で検出したオブジェクトと、ステップS14で取得したラベルとの関連性を取得する。そして、ステップS16において、制御部11は、オブジェクトの情報に、関連性を有するラベルの情報を連結して付加する。
このようにして、制御部11は、画像における図形と文字列との位置関係に基づき、図形と文字列との関連性を示す関連性情報を生成する。具体的には、制御部11は、図形と文字列との位置関係として、図形と文字列との間の距離、及び、図形に対する文字列の方向の少なくともいずれかに基づき、関連性情報を生成する。制御部11は、例えば、図形との距離が予め定めた値以内の近傍に存在する文字列を、その図形と関連性を有する文字列として取得してもよい。あるいは、制御部11は、図形から見て特定の方向に存在する文字列を、その図形と関連性を有する文字列として取得してもよい。一般に、図形に関連性を有する文字列はその図形の文字列の近傍に記載されるため、図形と文字列との位置関係に基づき関連性の有無を判定することで、画像に含まれる図形と文字列が何らかの関連性を有することを示す情報を精度よく自動的に生成することができる。
また、このような図形と文字列との関連性の有無を判定する基準は、本実施形態では機械学習により取得された予測モデルとして制御部11により予め取得される。すなわち、制御部11は、サンプルとなるサンプル図形の位置と、サンプルとなるサンプル文字列の位置と、サンプル図形とサンプル文字列との間の関連性とを教師データとして、機械学習された関連性に関する予測モデルを取得する。さらに、制御部11は、関連性情報を生成する際は、関連性に関する予測モデルを用いて、図形と文字列との位置関係に基づき、図形と文字列との関連性を予測する。これにより、図形と文字列とが関連性を有するか否かの基準を人手により予め設定することなく、図形と文字列との関連性を示す情報を生成することができる。
本実施形態では、スキャン画像に複数の図形及び複数の文字列が含まれる場合、制御部11は、複数の図形の各々について、複数の文字列に含まれる文字列のうち図形と関連性を有するものを示す情報を関連性情報として生成する。したがって、複数の図形及び複数の文字列が画像内に存在する場合においても、図形ごとに関連性を有する文字列を識別して関連性情報を生成することができる。
図9は、スキャン画像に複数の図形が含まれる場合の関連性情報を生成する関連性取得処理の処理手順を示すフローチャートである。関連性取得処理において、制御部11は、スキャン画像に含まれる図形に関するオブジェクトの各々について、関連付けるべきラベルが存在するか否かを判定し、存在する場合はラベルの情報をオブジェクトの情報に付加する処理を行う。
図9のステップS21において、制御部11は、注目しているオブジェクトの図形について、関連性を有するラベルが存在するか否かを判定する。この判定は、前述のように、図形と文字列との位置関係に基づき行われる。存在する場合(ステップS21でYES)、制御部11は、ステップS22の処理を行う。存在しない場合(ステップS21でNO)、制御部11は、ステップS23の処理を行う。
図9のステップS22において、制御部11は、注目しているオブジェクトの情報に、関連性を有するラベルの情報を付加する。そして、制御部11は、ステップS23処理を行う。
図9のステップS23において、制御部11は、スキャン画像に未処理のオブジェクトが存在するか否かを判定する。存在する場合(ステップS23でYES)、制御部11は、ステップS21の処理を行う。存在しない場合(ステップS23でNO)、制御部11は、関連性取得処理を終了する。
図10は、関連性取得処理の例を示す図である。制御部11は、スキャン画像41のオブジェクトの情報に対して、前述の関連性取得処理を行う(42)。制御部11は、オブジェクトの情報33にラベルを付加したものをXML形式の情報43として出力する。図8の情報33と図10の情報43とを比較すれば明らかなように、種類が「バルブ」の2つの図形、種類が「タンク」の図形、及び種類が「ボイラー」の図形には、関連性を有するラベルが存在するため、ラベルに相当する情報が付加されている。例えば、スキャン画像31における「<figure name=“タンク” positionX=“400” positionY=“50”/>」という情報には、「value=“ボイラーA”」というラベルの情報が属性として付加されている。この情報は、(400,50)の位置に存在する「タンク」という種類の図形には「ボイラーA」というラベルと関連性を有することを示している。なお、関連性情報の形式はXMLに限られず、例えば、CSV又はJSONでもよい。
図4のステップS17において、制御部11は、スキャン画像41に対して、ステップS16までに生成された関連性情報を連結して、図6を参照して前述した構造化された画像を生成する。そして、制御部11は、処理を終了する。
上記のように、情報処理装置10は、スキャン画像における図形と文字列との位置関係に基づき、図形と文字列との関連性を示す関連性情報を生成する。具体的には、位置関係として、図形と文字列との間の距離、及び、図形に対する文字列の方向の少なくともいずれかに基づき、関連性情報を生成する。したがって、人手を介することなく画像に含まれる図形と文字列とが何らかの関連性を有することを示す情報を自動的に生成することが可能である。このような構成によれば、手書きの図面に対して、その図面に含まれる図形とそれに関連する文字列の情報をコンピュータで利用可能な形で容易に付与することができる。したがって、手書き図面の検索など、コンピュータにおける手書き図面の用途を拡大することが可能となる。
本開示に係る実施形態について、諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は修正を行うことが容易であることに注意されたい。従って、これらの変形又は修正は本開示の範囲に含まれることに留意されたい。例えば、各構成部又は各ステップに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の構成部又はステップを1つに組み合わせたり、或いは分割したりすることが可能である。
10 情報処理装置
11 制御部
12 記憶部
13 通信部
14 入力部
15 出力部

Claims (9)

  1. 図形と文字列とを含む画像を取得し、
    前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する
    制御部を備える情報処理装置。
  2. 前記制御部は、前記位置関係として、前記図形と前記文字列との間の距離、及び、前記図形に対する前記文字列の方向の少なくともいずれかに基づき、前記関連性情報を生成する請求項1に記載の情報処理装置。
  3. 前記制御部は、
    サンプルとなるサンプル図形の位置と、サンプルとなるサンプル文字列の位置と、前記サンプル図形と前記サンプル文字列との間の関連性とを教師データとして機械学習された関連性に関する予測モデルを取得し、
    前記関連性情報を生成する際は、前記関連性に関する予測モデルを用いて、前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を予測する
    請求項1又は2に記載の情報処理装置。
  4. 前記制御部は、
    前記画像から予め定められた種類の図形を検出し、
    前記検出された図形と前記文字列との位置関係に基づき前記関連性情報を生成する
    請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記制御部は、
    前記種類と、前記種類の図形を示すサンプル画像とを教師データとして機械学習された図形検出に関する予測モデルを取得し、
    前記画像から前記種類の図形を検出する際は、前記図形検出に関する予測モデルを用いる
    請求項4に記載の情報処理装置。
  6. 前記制御部は、
    前記画像を解析して当該画像に含まれる文字列を取得し、
    前記検出された図形と前記取得された文字列との位置関係に基づき前記関連性情報を生成する
    請求項4又は5に記載の情報処理装置。
  7. 前記制御部は、
    前記画像として、複数の図形と複数の文字列とを含む画像を取得し、
    前記複数の図形の各々について、当該図形と関連性を有する前記複数の文字列に含まれる文字列を示す情報を前記関連性情報として生成する
    請求項1から6のいずれか1項に記載の情報処理装置。
  8. 制御部が、
    図形と文字列とを含む画像を取得し、
    前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する
    情報処理方法。
  9. 図形と文字列とを含む画像を取得する処理と、
    前記画像における前記図形と前記文字列との位置関係に基づき、前記図形と前記文字列との関連性を示す関連性情報を生成する処理と
    をコンピュータに実行させるコンピュータプログラム。
JP2020113508A 2020-06-30 2020-06-30 情報処理装置、情報処理方法、及びコンピュータプログラム Pending JP2022012017A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020113508A JP2022012017A (ja) 2020-06-30 2020-06-30 情報処理装置、情報処理方法、及びコンピュータプログラム
US17/999,497 US20230237823A1 (en) 2020-06-30 2021-04-13 Information processing apparatus, information processing method, and computer program
PCT/JP2021/015334 WO2022004097A1 (ja) 2020-06-30 2021-04-13 情報処理装置、情報処理方法、及びコンピュータプログラム
EP21833206.2A EP4174765A4 (en) 2020-06-30 2021-04-13 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND COMPUTER PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020113508A JP2022012017A (ja) 2020-06-30 2020-06-30 情報処理装置、情報処理方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2022012017A true JP2022012017A (ja) 2022-01-17

Family

ID=79315679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020113508A Pending JP2022012017A (ja) 2020-06-30 2020-06-30 情報処理装置、情報処理方法、及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US20230237823A1 (ja)
EP (1) EP4174765A4 (ja)
JP (1) JP2022012017A (ja)
WO (1) WO2022004097A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023144616A1 (en) 2022-01-28 2023-08-03 Ricoh Company, Ltd. Fixing device and image forming apparatus incorporating same

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11126216A (ja) * 1997-08-21 1999-05-11 Meidensha Corp 図面自動入力装置
JP6116746B1 (ja) * 2016-11-17 2017-04-19 株式会社ネクスト 情報処理装置、情報処理方法、及びプログラム
JP2020016946A (ja) * 2018-07-23 2020-01-30 日本生命保険相互会社 情報処理装置、情報処理方法、プログラム及び帳票読取システム
JP6651675B1 (ja) * 2018-09-14 2020-02-19 三菱電機株式会社 画像情報処理装置、画像情報処理方法、及び画像情報処理プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3104302B1 (en) * 2015-06-09 2018-05-23 ABB Schweiz AG A method of digitalising engineering documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11126216A (ja) * 1997-08-21 1999-05-11 Meidensha Corp 図面自動入力装置
JP6116746B1 (ja) * 2016-11-17 2017-04-19 株式会社ネクスト 情報処理装置、情報処理方法、及びプログラム
JP2020016946A (ja) * 2018-07-23 2020-01-30 日本生命保険相互会社 情報処理装置、情報処理方法、プログラム及び帳票読取システム
JP6651675B1 (ja) * 2018-09-14 2020-02-19 三菱電機株式会社 画像情報処理装置、画像情報処理方法、及び画像情報処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023144616A1 (en) 2022-01-28 2023-08-03 Ricoh Company, Ltd. Fixing device and image forming apparatus incorporating same

Also Published As

Publication number Publication date
EP4174765A1 (en) 2023-05-03
WO2022004097A1 (ja) 2022-01-06
US20230237823A1 (en) 2023-07-27
EP4174765A4 (en) 2024-06-05

Similar Documents

Publication Publication Date Title
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
EP3786814A1 (en) Intelligent extraction of information from a document
US20070098263A1 (en) Data entry apparatus and program therefor
KR102459123B1 (ko) 이미지를 처리하는 방법, 장치, 서버 및 저장 매체
US12026456B2 (en) Systems and methods for using optical character recognition with voice recognition commands
US5905811A (en) System for indexing document images
CN112464927B (zh) 一种信息提取方法、装置及系统
WO2022004097A1 (ja) 情報処理装置、情報処理方法、及びコンピュータプログラム
JP2019212115A (ja) 検査装置、検査方法、プログラム及び学習装置
CN113673294B (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
CN117275005B (zh) 文本检测、文本检测模型优化、数据标注的方法、装置
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
US10049107B2 (en) Non-transitory computer readable medium and information processing apparatus and method
JP2008027133A (ja) 帳票処理装置及び帳票処理方法ならびに帳票処理方法を実行するプログラムと記憶媒体
US11335108B2 (en) System and method to recognise characters from an image
JP2006252164A (ja) 中国語文書処理装置
JP2009140478A (ja) 画像処理装置及び画像処理方法
KR102709548B1 (ko) 초거대언어모델 학습데이터 생성을 위한 pdf 문서 내부의 표 텍스트 처리장치 및 그 장치의 구동방법
JP6960646B1 (ja) 読取システム、読取プログラムおよび読取方法
JP2006031129A (ja) 文書処理手法及び文書処理装置
JP4749438B2 (ja) 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
JPH07182441A (ja) 文字認識装置
JP2007066098A (ja) 帳票認識装置及び方法、プログラム
JP2007004429A (ja) 文書処理装置
JP2024081434A (ja) 計算機システム及びグラフ認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240709

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240823

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20240912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241017