JP2024081434A - 計算機システム及びグラフ認識方法 - Google Patents

計算機システム及びグラフ認識方法 Download PDF

Info

Publication number
JP2024081434A
JP2024081434A JP2022195068A JP2022195068A JP2024081434A JP 2024081434 A JP2024081434 A JP 2024081434A JP 2022195068 A JP2022195068 A JP 2022195068A JP 2022195068 A JP2022195068 A JP 2022195068A JP 2024081434 A JP2024081434 A JP 2024081434A
Authority
JP
Japan
Prior art keywords
processing
graph
evaluation block
result
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022195068A
Other languages
English (en)
Inventor
良介 大館
和秀 愛甲
絵理 照屋
俊介 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2022195068A priority Critical patent/JP2024081434A/ja
Publication of JP2024081434A publication Critical patent/JP2024081434A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

Figure 2024081434000001
【課題】ユーザの入力負担を低減し、かつ、精度が高い処理結果を出力するグラフ認識処理を実現する。
【解決手段】計算機システムは、複数のブロック処理から構成されるグラフ認識処理を実行する。ブロック処理は、処理結果の評価を行う評価ブロック処理を含み、評価ブロック処理は、処理結果及び確信度を出力として取得できる。グラフ認識処理を実行する計算機システムは、評価ブロック処理を実行した場合、処理結果及び確信度を取得し、確信度に基づいて、グラフ認識処理を継続するか否かを判定し、グラフ認識処理を継続しないと判定された場合、評価ブロック処理の処理結果に対する修正を受け付けるためのインタフェースを提示し、インタフェースを介してユーザの入力を受け付けた場合、評価ブロック処理の後のブロック処理を実行する。
【選択図】図4

Description

本発明は、文書に含まれるグラフの認識技術に関する。
データベースへの文書の記載内容の入力作業等、人が行っていた作業は、文字認識技術の発達に伴って自動化が進んでいる。
近年、文字認識処理を活用して、文書及び画像等のコンテンツに含まれるグラフの記載内容を自動的にデータベース化する試みも行われている。コンテンツに含まれるグラフの記載内容を自動的にデータベース化するためには、文字認識処理を用いて、グラフが記載されている領域の文字列を認識し、軸及び目盛りを特定し、プロット要素を認識する必要がある。
ここで、プロット要素とはグラフ内に配置されるシンボルを表し、棒グラフの場合は棒、直線及び曲線のグラフの場合は線、散布図の場合は丸及び三角等の記号等である。また、同一対象のプロット要素群をデータ系列と呼ぶ。
以下の説明では、コンテンツにおけるグラフが含まれる領域の文字列、グラフの軸及び目盛り、並びにプロット要素をグラフ要素と記載する。また、グラフ要素を認識し、グラフ要素の配置関係に基づいて、グラフを描写するためのデータ群を再現し、また、グラフの特徴的な数値及び傾向を抽出する処理を、グラフ認識処理と記載する。
グラフ認識処理の実現のため、文字認識処理とオブジェクト検出処理を用いた手法が検討されている。例えば、特許文献1には、「グラフ情報をイメージ画像として入力する画像入力手段と、この画像入力手段により入力されたグラフ情報を抽出するための格子を有する窓センサ手段と、この窓センサ手段を用い前記グラフ情報と前記窓センサ手段の格子との交点を抽出出力として抽出するグラフ抽出手段と、このグラフ抽出手段により抽出された抽出出力をグラフとして認識するグラフ認識手段と、このグラフ認識手段により認識された認識結果を保存する記憶手段とを具備したことを特徴とするデータ読取り装置。」が記載されている。
特許文献1に記載の技術を用いることで、画像からグラフを描写するためのデータ群を再現できる。
特開平5-233785号公報
特許文献1に記載の技術は、プロットエリアに罫線等が存在し、プロット要素との交点から数値を取得可能なグラフに対して適用できる。したがって、適用できるグラフに制限がある。
罫線が存在しないグラフ、複数のデータ系列が存在するグラフ等、グラフの描写は自由度が高いため、種々のグラフを完全に認識することは難しい。したがって、グラフ認識処理が失敗した場合、ユーザが手動でグラフの情報を入力する必要がある。
本開示の目的は、ユーザの入力負担を低減し、かつ、精度が高い処理結果を出力するグラフ認識処理を実現するシステム及び方法を提供することにある。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、グラフを含む画像の入力を受け付け、複数のブロック処理から構成されるグラフ認識処理を実行する計算機システムであって、少なくとも一つの計算機を含み、前記複数のブロック処理は、処理結果の評価を行う評価ブロック処理を少なくとも一つ含み、前記評価ブロック処理は、処理結果及び前記処理結果の確信度を出力として取得でき、前記グラフ認識処理を実行する前記少なくとも一つの計算機は、前記評価ブロック処理を実行した場合、前記処理結果及び前記処理結果の確信度を取得し、前記処理結果の確信度に基づいて、前記グラフ認識処理を継続するか否かを判定し、前記グラフ認識処理を継続しないと判定された場合、前記評価ブロック処理の処理結果に対する修正を受け付けるためのインタフェースを提示し、前記インタフェースを介してユーザの入力を受け付けた場合、前記ユーザの入力と、前記評価ブロック処理の前に実行された前記ブロック処理の処理結果を用いて、前記評価ブロック処理の後の前記ブロック処理を実行する。
本発明の一形態によれば、ユーザの入力負担を低減し、かつ、精度が高い処理結果を出力するグラフ認識処理を実現できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1の計算機のハードウェア構成及びソフトウェア構成を説明する図である。 実施例1のラベル情報の一例を示す図である。 実施例1の計算機が実行するグラフ認識処理の一例を説明するフローチャートである。 実施例1の計算機が実行するグラフ認識処理の一例を説明するフローチャートである。 実施例1の計算機が実行するグラフ認識処理の一例を説明するフローチャートである。 実施例1の計算機が実行する評価処理の一例を説明するフローチャートである。 実施例1の計算機がユーザに提示するGUIの一例を示す図である。 実施例1の計算機がユーザに提示するGUIの一例を示す図である。 実施例1の計算機がユーザに提示するGUIの一例を示す図である。 実施例1の計算機がユーザに提示するGUIの一例を示す図である。 実施例1の計算機がユーザに提示するGUIの一例を示す図である。
以下、本発明の実施例1について、図面を順番に参照して説明する。
なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。なお、以下に説明する実施例は特許請求の範囲にかかる発明を限定するものではない。また実施例において説明されている各要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
また、以下の説明では、情報の一例として「xxxデータ」といった表現を用いる場合があるが、情報のデータ構造はどのようなものでもよい。すなわち、情報がデータ構造に依存しないことを示すために、「xxxデータ」を「xxxテーブル」と言うことができる。また、以下の説明において、各情報の構成は一例であり、情報を分割して保持したり、結合して保持したりしてもよい。
図1は、実施例1の計算機のハードウェア構成及びソフトウェア構成を説明する図である。
計算機100は、グラフ認識処理を実行する。計算機100は、グラフ認識処理において、ユーザ入力を受け付けるためのGUIを提示する。グラフ認識処理は、複数のブロック処理を含む。複数のブロック処理には、処理結果の評価が行われるブロック処理が少なくとも一つ含まれる。以下の説明では、処理結果の評価が行われるブロック処理を評価ブロック処理と記載する。
実施例1のグラフ認識処理は、グラフ種判別処理、文字列認識処理、軸取得処理、プロット要素認識処理、プロット数値取得処理、プロット数値対応付処理、及びグラフ固有情報取得処理を含む。
計算機100は、プロセッサ101、入力装置102、出力装置103、主記憶装置104、副記憶装置105、及びネットワークインタフェース106を有する。各ハードウェア要素は内部バス等を介して互いに接続される。図1では、各ハードウェア要素の数は一つであるが、二つ以上でもよい。接続するネットワークの種類は限定されない。ネットワークや直接の接続を介して、他の計算機や記憶装置とデータの送受信や処理の分担をしてもよい。
プロセッサ101は、主記憶装置104に格納されるプログラムを実行する。プロセッサ101がプログラムにしたがって処理を実行することによって、特定の機能を実現する。以下の説明においてプログラム又はプログラムによって実現されるモジュールを主語に処理を説明する場合、プロセッサ101がプログラムを実行していることを示す。
入力装置102は、計算機100に対してデータを入力するための装置である。例えば、入力装置102は、キーボード、マウス、及びタッチパネル等の計算機操作のための機器を含む。また、入力装置102は、スキャナ、デジタルカメラ及びスマートフォン等の画像取得のための機器も含む。
出力装置103は、データの入力画面及び処理結果等を出力する装置である。出力装置103は、タッチパネル及びディスプレイ等を含む。
主記憶装置104は、プロセッサ101が実行するプログラム及びプログラムが使用する情報を格納する。また、主記憶装置104は、プログラムが一時的に使用するワークエリアを含む。主記憶装置104は、例えば、メモリ等が考えられる。
実施例1の主記憶装置104は、グラフ種判別モジュール111、文字列検出/認識モジュール112、軸取得モジュール113、プロット要素検出/認識モジュール114、プロット数値取得モジュール115、対応付モジュール116、及びグラフ固有情報取得モジュール117から構成されるグラフ認識プログラム110を格納する。なお、主記憶装置104は、モジュール単位でプログラムを格納してもよい。計算機100は、必要に応じて、モジュールのプログラム及び情報を主記憶装置104にロードする。
また、主記憶装置104は、ラベル情報120を格納する。ラベル情報120の詳細は図2で説明する。
副記憶装置105は、データを永続的に格納する。副記憶装置105は、例えば、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等が考えられる。なお、主記憶装置104に格納されるプログラム及び情報は、副記憶装置105に格納されてもよい。この場合、プロセッサ101が、副記憶装置105からプログラム及び情報を読み出し、主記憶装置104にロードする。
図2は、実施例1のラベル情報120の一例を示す図である。
ラベル情報120は、評価ブロック処理に対するユーザ入力をラベルデータとして管理するための情報である。ラベルデータは、ブロック処理に使用するモデルの機械学習で用いることができる。
ラベルデータは、グラフ画像ID201、グラフ種202、軸203、プロット要素204、及び対応付け205を含む。
グラフ画像ID201は、グラフ認識処理を実行したグラフ画像を一意に識別するための識別情報を格納するフィールドである。グラフ画像ID201には、例えば、番号、ファイル名等が格納される。
グラフ種202は、ユーザによって入力されたグラフ種の情報(グラフ種情報)を格納するフィールドである。軸203は、ユーザによって入力された軸の情報(軸情報)を格納するフィールドである。プロット要素204は、ユーザによって入力されたプロット要素の情報(プロット要素情報)を格納するフィールドである。ユーザによって入力されたプロット数値の対応付けの情報(対応付情報)を格納するフィールドである。
なお、ユーザ入力が必要ない評価ブロック処理のフィールドは空欄となる。
計算機100は、グラフを含む文書の入力を受け付ける。文書は画像データとして入力される。計算機100は、文書を構成するページ(画像)に対して公知の画像認識処理を実行することによって、グラフが記載されている領域を認識する。計算機100は、認識結果をグラフ画像としてワークエリアに格納する。計算機100は、グラフ画像ごとにグラフ認識処理を実行する。なお、ページに複数のグラフが記載されている場合、各グラフのグラフ画像が出力されるものとする。
図3A、図3B、及び図3Cは、実施例1の計算機100が実行するグラフ認識処理の一例を説明するフローチャートである。実施例1では、グラフ種判別処理、軸取得処理、プロット要素認識処理、及びプロット数値対応付処理が評価ブロック処理であるものとする。
グラフ認識プログラム110は、ワークエリアから処理対象のグラフ画像を選択する(ステップS301)。
グラフ認識プログラム110のグラフ種判別モジュール111は、グラフ種判別処理を実行する(ステップS302)。ここで、グラフ種は、棒グラフ、散布図等のグラフの分類を表す。グラフ種判別処理は、深層学習を用いたオブジェクト認識手法等、公知の手法を用いて実現可能である。なお、グラフ種判別処理では、判別結果及び判別の確信度が出力として得られる。ここで、確信度とは、処理結果の信頼性を表す確率等の数値である。例えば、深層学習ベースの手法を用いた多クラス分類の場合、処理の最終結果として、最も大きいクラスの所属確率が確信度として算出される。処理結果として0(出力無し)又は1(データ)で出力されるようなブロック処理の場合、これらの値が確信度として算出される。なお、処理結果を入力として確信度を算出するモデルを用いてもよい。
グラフ認識プログラム110は、グラフ種判別処理に対する評価処理を実行する(ステップS303)。評価処理の詳細は図4を用いて説明する。
グラフ認識プログラム110は、評価処理の結果に基づいて、グラフ認識処理を継続するか否かを判定する(ステップS304)。すなわち、ユーザ入力が必要であるか否かが判定される。
グラフ認識処理を継続すると判定された場合、グラフ認識プログラム110はステップS305に進む。
グラフ認識処理を継続しないと判定された場合、グラフ認識プログラム110は、ユーザ入力を受け付けるためのGUIを表示する(ステップS318)。GUIには、グラフ画像を含むページとともに、グラフ種判別処理の処理結果及び確信度等が表示される。GUIの詳細は図5Aで説明する。ユーザは、GUIを介して、グラフ種判別処理の処理結果を修正し、又は、抽出情報を入力する。抽出情報は、ユーザが所望するグラフの情報である。抽出情報には、グラフ種、軸、プロット要素、及びプロット数値の対応付等、グラフの情報として必要な全ての情報が含まれる。
グラフ認識プログラム110は、グラフ種判別処理の修正を受け付けたか否かを判定する(ステップS319)。抽出情報の入力を受け付けた場合、グラフ認識プログラム110は、グラフ種判別処理の修正を受け付けていないと判定する。
グラフ種判別処理の修正を受け付けていない場合、グラフ認識プログラム110は、グラフ画像とユーザから受け付けた抽出情報とを関連づけて副記憶装置105に保存し、グラフ認識処理を終了する。
グラフ種判別処理の修正を受け付けた場合、グラフ認識プログラム110は、ラベル情報120を更新し(ステップS320)、その後、ステップS305に進む。
具体的には、グラフ認識プログラム110は、グラフ画像ID201に、選択したグラフ画像の識別情報を設定したラベルデータを生成する。グラフ認識プログラム110は、ラベルデータのグラフ種202に、ユーザによって入力されたグラフ種情報を設定し、ラベル情報120に登録する。また、グラフ認識プログラム110は、グラフ種判別処理の処理結果の確信度として、取り得る値の最大値を設定する。
ステップS305では、グラフ認識プログラム110の文字列検出/認識モジュール112は文字列認識処理を実行する(ステップS305)。具体的には、文字列検出/認識モジュール112は、Faster R-CNN等の公知の手法を用いて、グラフ画像から文字列を検出し、CNN及びRNNを用いた認識手法等の公知の手法を用いて、文字列を識別する。文字列認識処理では、文字列及び文字列の配置が処理結果として得られる。
グラフ認識プログラム110の軸取得モジュール113は、文字列認識処理の処理結果に基づいて、グラフの軸を取得するための軸取得処理を実行する(ステップS306)。例えば、軸取得モジュール113は、文字列の配置に基づくルール又はオブジェクト検出手法を用いて、軸及び目盛りの罫線を認識する。軸取得処理では、処理結果及び処理結果の確信度が出力として得られる。
グラフ認識プログラム110は、軸取得処理に対する評価処理を実行する(ステップS307)。評価処理はステップS303と同様の処理である。
グラフ認識プログラム110は、評価処理の結果に基づいて、グラフ認識処理を継続するか否かを判定する(ステップS308)。
グラフ認識処理を継続すると判定された場合、グラフ認識プログラム110はステップS309に進む。
グラフ認識処理を継続しないと判定された場合、グラフ認識プログラム110は、ユーザ入力を受け付けるためのGUIを表示する(ステップS321)。GUIには、グラフ画像を含むページとともに、軸取得処理の処理結果及び確信度等が表示される。GUIの詳細は図5Bで説明する。ユーザは、GUIを介して、軸取得処理の処理結果を修正し、又は、抽出情報を入力する。
グラフ認識プログラム110は、軸取得処理の修正を受け付けたか否かを判定する(ステップS322)。抽出情報の入力を受け付けた場合、グラフ認識プログラム110は、軸取得処理の修正を受け付けていないと判定する。
軸取得処理の修正を受け付けていない場合、グラフ認識プログラム110は、グラフ画像とユーザから受け付けた抽出情報とを関連づけて副記憶装置105に保存し、グラフ認識処理を終了する。
軸取得処理の修正を受け付けた場合、グラフ認識プログラム110は、ラベル情報120を更新し(ステップS323)、その後、ステップS309に進む。
具体的には、グラフ認識プログラム110は、ラベル情報120を参照し、グラフ画像ID201に、選択したグラフ画像の識別情報が設定されたラベルデータが登録されているか否かを判定する。ラベルデータが登録されている場合、グラフ認識プログラム110は、当該ラベルデータの軸203に、ユーザによって入力された軸情報を設定する。ラベルデータが登録されていない場合、グラフ認識プログラム110は、グラフ画像ID201に、選択したグラフ画像の識別情報を設定したラベルデータを生成する。グラフ認識プログラム110は、ラベルデータの軸203に、ユーザによって入力された軸情報を設定し、ラベル情報120に登録する。また、グラフ認識プログラム110は、軸取得処理の処理結果の確信度として、取り得る値の最大値を設定する。
ステップS309では、グラフ認識プログラム110のプロット要素検出/認識モジュール114は、プロット要素認識処理を実行する(ステップS309)。例えば、プロット要素検出/認識モジュール114は、軸情報に基づいて、プロットエリアを特定し、プロットエリアに含まれるプロット要素を認識する。プロット要素は、ルール又はオブジェクト検出手法を用いることによって認識できる。プロット要素認識処理では、処理結果及び処理結果の確信度が出力として得られる。
グラフ認識プログラム110は、プロット要素認識処理に対する評価処理を実行する(ステップS310)。評価処理はステップS303と同様の処理である。
グラフ認識プログラム110は、評価処理の結果に基づいて、グラフ認識処理を継続するか否かを判定する(ステップS311)。
グラフ認識処理を継続すると判定された場合、グラフ認識プログラム110はステップS312に進む。
グラフ認識処理を継続しないと判定された場合、グラフ認識プログラム110は、ユーザ入力を受け付けるためのGUIを表示する(ステップS324)。GUIには、グラフ画像を含むページとともに、プロット要素認識処理の処理結果及び確信度等が表示される。GUIの詳細は図5Cで説明する。ユーザは、GUIを介して、プロット要素認識処理の処理結果を修正し、又は、抽出情報を入力する。
グラフ認識プログラム110は、プロット要素認識処理の修正を受け付けたか否かを判定する(ステップS325)。抽出情報の入力を受け付けた場合、グラフ認識プログラム110は、プロット要素認識処理の修正を受け付けていないと判定する。
プロット要素認識処理の修正を受け付けていない場合、グラフ認識プログラム110は、グラフ画像とユーザから受け付けた抽出情報とを関連づけて副記憶装置105に保存し、グラフ認識処理を終了する。
プロット要素認識処理の修正を受け付けた場合、グラフ認識プログラム110は、ラベル情報120を更新し(ステップS326)、その後、ステップS312に進む。
具体的には、グラフ認識プログラム110は、ラベル情報120を参照し、グラフ画像ID201に、選択したグラフ画像の識別情報が設定されたラベルデータが登録されているか否かを判定する。ラベルデータが登録されている場合、グラフ認識プログラム110は、当該ラベルデータのプロット要素204に、ユーザによって入力されたプロット要素情報を設定する。ラベルデータが登録されていない場合、グラフ認識プログラム110は、グラフ画像ID201に、選択したグラフ画像の識別情報を設定したラベルデータを生成する。グラフ認識プログラム110は、ラベルデータのプロット要素204に、ユーザによって入力されたプロット要素情報を設定し、ラベル情報120に登録する。また、グラフ認識プログラム110は、プロット要素認識処理の処理結果の確信度として、取り得る値の最大値を設定する。
ステップS312では、グラフ認識プログラム110のプロット数値取得モジュール115は、プロット数値取得処理を実行する(ステップS312)。具体的には、プロット数値取得モジュール115は、軸情報及びプロット要素情報に基づいて、プロットエリア内のプロット要素の位置を軸の数値に変換する。例えば、仮想罫線との交差を検出する方法等が考えられる。
グラフ認識プログラム110の対応付モジュール116は、プロット数値対応付処理を実行する(ステップS313)。例えば、対応付モジュール116は、データ系列とプロット数値との対応付け、又は、データ系列の名称とプロット数値との対応付けを行う。プロット数値対応付処理では、処理結果及び処理結果の確信度が出力として得られる。
グラフ認識プログラム110は、プロット数値対応付処理に対する評価処理を実行する(ステップS314)。評価処理はステップS303と同様の処理である。
グラフ認識プログラム110は、評価処理の結果に基づいて、グラフ認識処理を継続するか否かを判定する(ステップS315)。
グラフ認識処理を継続すると判定された場合、グラフ認識プログラム110はステップS316に進む。
グラフ認識処理を継続しないと判定された場合、グラフ認識プログラム110は、ユーザ入力を受け付けるためのGUIを表示する(ステップS327)。GUIには、グラフ画像を含むページとともに、処理結果及び確信度等が表示される。GUIの詳細は図5Dで説明する。ユーザは、GUIを介して、プロット数値対応付処理の処理結果を修正し、又は、抽出情報を入力する。
グラフ認識プログラム110は、プロット数値対応付処理の修正を受け付けたか否かを判定する(ステップS328)。抽出情報の入力を受け付けた場合、グラフ認識プログラム110は、プロット数値対応付処理の修正を受け付けていないと判定する。
プロット数値対応付処理の修正を受け付けていない場合、グラフ認識プログラム110は、グラフ画像とユーザから受け付けた抽出情報とを関連づけて副記憶装置105に保存し、グラフ認識処理を終了する。
プロット数値対応付処理の修正を受け付けた場合、グラフ認識プログラム110は、ラベル情報を更新し(ステップS329)、その後、ステップS316に進む。
具体的には、グラフ認識プログラム110は、ラベル情報120を参照し、グラフ画像ID201に、選択したグラフ画像の識別情報が設定されたラベルデータが登録されているか否かを判定する。ラベルデータが登録されている場合、グラフ認識プログラム110は、当該ラベルデータの対応付け205に、ユーザによって入力された対応付情報を設定する。ラベルデータが登録されていない場合、グラフ認識プログラム110は、グラフ画像ID201に、選択したグラフ画像の識別情報を設定したラベルデータを生成する。グラフ認識プログラム110は、ラベルデータの対応付け205に、ユーザによって入力された対応付情報を設定し、ラベル情報120に登録する。また、グラフ認識プログラム110は、プロット数値対応付処理の処理結果の確信度として、取り得る値の最大値を設定する。
ステップS316では、グラフ認識プログラム110のグラフ固有情報取得モジュール117はグラフ固有情報取得処理を実行する(ステップS316)。例えば、グラフ固有情報取得モジュール117は、応力ひずみ線図における降伏応力等、グラフの特徴を表す情報を取得する。
グラフ認識プログラム110は、グラフ画像と一連の認識結果と関連付けて副記憶装置105に保存し、認識結果をユーザに提示し(ステップS317)、その後、グラフ認識処理を終了する。なお、グラフ認識プログラム110は、認識結果の修正を受け付けてもよい。
図4は、実施例1の計算機100が実行する評価処理の一例を説明するフローチャートである。
グラフ認識プログラム110は、評価ブロック処理の確信度を取得し(ステップS401)、累積確信度を算出する(ステップS402)。
具体的には、グラフ認識プログラム110は、処理対象の評価ブロック処理の前に実行された評価ブロック処理の確信度と、処理対象の評価ブロック処理の確信度とを用いて累積確信度を算出する。例えば、確信度の合計、確信度の重み付き和、確信度の積、又は確信度の平均が累積確信度として算出される。
確信度は、評価ブロック処理の出力の精度を表す値であり、累積確信度は、評価対象の評価ブロック処理までの全てのブロック処理の出力の精度を表す値である。
グラフ認識プログラム110は、取得した確信度が閾値T1以上であるか否かを判定する(ステップS403)。閾値T1は、評価ブロック処理ごとに異なっていてもよいし、全ての評価ブロック処理で共通の値でもよい。
取得した確信度が閾値T1より小さい場合、グラフ認識プログラム110は、判定結果として「処理中断」を出力し(ステップS406)、評価処理を終了する。
取得した確信度が閾値T1以上である場合、グラフ認識プログラム110は、累積確信度が閾値T2以上であるか否かを判定する(ステップS404)。
累積確信度が閾値T2より小さい場合、グラフ認識プログラム110は、判定結果として「処理中断」を出力し(ステップS406)、評価処理を終了する。
累積確信度が閾値T2以上である場合、グラフ認識プログラム110は、判定結果として「処理継続」を出力し(ステップS405)、評価処理を終了する。
評価ブロック処理の確信度に対する閾値T1を低く設定することによって、精度を保ちつつ、グラフ認識処理の中断によるユーザ入力の回数を低減できる。また、累積確信度を用いた判定を行うことによって、計算機100は、グラフ認識処理全体の精度を考慮して、グラフ認識処理の継続の判定を行うことができる。
図5A、図5B、図5C、図5D、及び図5Eは、実施例1の計算機100がユーザに提示するGUIの一例を示す図である。
GUI500は、画像表示領域501及び編集領域502を含む。画像表示領域501には、グラフ画像を含むページと、評価ブロック処理の確信度、及び累積確信度が表示される。なお、評価対象の評価ブロック処理の前に実行された評価ブロック処理の確信度が表示されてもよい。また、最終的な処理結果を表示する場合、評価ブロック処理の確信度は表示されなくてもよい。編集領域502には、評価対象の評価ブロック処理、及び評価対象の評価ブロック処理の前に実行されたブロック処理による認識結果が表示される。編集領域502は、ユーザが編集可能であって、認識結果の修正、抽出情報の入力等を行うことができる。
図5Aは、ステップS304において処理中断と判定された場合に表示されるGUI500である。ユーザは、GUI500を介して、グラフ種の追加若しくは削除等の修正を行い、又は、抽出情報を入力する。
図5Bは、ステップS308において処理中断と判定された場合に表示されるGUI500である。ユーザは、GUI500を介して、軸の修正を行い、又は、抽出情報を入力する。なお、軸に関する値を入力する代わりに、画像表示領域501の軸部分を指定することによって、軸の修正が行われるように構成してもよい。
図5Cは、ステップS311において処理中断と判定された場合に表示されるGUI500である。ユーザは、GUI500を介して、プロット要素の修正を行い、又は、抽出情報を入力する。なお、プロット要素に関する値を入力する代わりに、画像表示領域501のプロット要素を指定することによって、プロット要素の修正が行われるように構成してもよい。
図5Dは、ステップS315において処理中断と判定された場合に表示されるGUI500である。ユーザは、GUI500を介して、データ系列に対するプロット数値の対応付けの修正を行い、又は、抽出情報を入力する。
図5Eは、ステップS317において表示されるGUI500である。
なお、GUI500には、GUI500の表示時点において実行済みのブロック処理の処理結果を表示してもよい。
確信度及び累積確信度を表示することによって、グラフ認識処理全体の精度は保たれているが、精度が悪い評価ブロック処理を把握することができる。
上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 計算機
101 プロセッサ
102 入力装置
103 出力装置
104 主記憶装置
105 副記憶装置
106 ネットワークインタフェース
110 グラフ認識プログラム
111 グラフ種判別モジュール
112 文字列検出/認識モジュール
113 軸取得モジュール
114 プロット要素検出/認識モジュール
115 プロット数値取得モジュール
116 対応付モジュール
117 グラフ固有情報取得モジュール
120 ラベル情報
500 GUI

Claims (8)

  1. グラフを含む画像の入力を受け付け、複数のブロック処理から構成されるグラフ認識処理を実行する計算機システムであって、
    少なくとも一つの計算機を含み、
    前記複数のブロック処理は、処理結果の評価を行う評価ブロック処理を少なくとも一つ含み、
    前記評価ブロック処理は、処理結果及び前記処理結果の確信度を出力として取得でき、
    前記グラフ認識処理を実行する前記少なくとも一つの計算機は、
    前記評価ブロック処理を実行した場合、前記処理結果及び前記処理結果の確信度を取得し、
    前記処理結果の確信度に基づいて、前記グラフ認識処理を継続するか否かを判定し、
    前記グラフ認識処理を継続しないと判定された場合、前記評価ブロック処理の処理結果に対する修正を受け付けるためのインタフェースを提示し、
    前記インタフェースを介してユーザの入力を受け付けた場合、前記ユーザの入力と、前記評価ブロック処理の前に実行された前記ブロック処理の処理結果を用いて、前記評価ブロック処理の後の前記ブロック処理を実行することを特徴とする計算機システム。
  2. 請求項1に記載の計算機システムであって、
    前記少なくとも一つの計算機は、前記処理結果の確信度と閾値との比較結果に基づいて、前記グラフ認識処理を継続するか否かを判定することを特徴とする計算機システム。
  3. 請求項1に記載の計算機システムであって、
    前記複数のブロック処理は、複数の前記評価ブロック処理を含み、
    前記少なくとも一つの計算機は、
    ターゲットとなる前記評価ブロック処理の前記処理結果の確信度及びターゲットとなる前記評価ブロック処理の前に実行された前記評価ブロック処理の前記処理結果の確信度に基づいて、累積確信度を算出し、
    ターゲットとなる前記評価ブロック処理の前記処理結果の確信度と閾値との比較結果、及び、前記累積確信度と閾値との比較結果に基づいて、前記グラフ認識処理を継続するか否かを判定することを特徴とする計算機システム。
  4. 請求項3に記載の計算機システムであって、
    前記少なくとも一つの計算機は、
    前記グラフ認識処理の処理結果とともに、前記複数の評価ブロック処理の前記処理結果の確信度を出力することを特徴とする計算機システム。
  5. 少なくとも一つの計算機を含む計算機システムが実行するグラフ認識方法であって、
    前記少なくとも一つの計算機が、グラフを含む画像の入力を受け付ける第1のステップと、
    前記少なくとも一つの計算機が、複数のブロック処理を含むグラフ認識処理を実行する第2のステップと、を含み、
    前記複数のブロック処理は、処理結果の評価を行う評価ブロック処理を少なくとも一つ含み、
    前記評価ブロック処理は、処理結果及び前記処理結果の確信度を出力として取得でき、
    前記第2のステップは、
    前記少なくとも一つの計算機が、前記評価ブロック処理を実行した場合、前記処理結果及び前記処理結果の確信度を取得し、前記処理結果の確信度に基づいて、前記グラフ認識処理を継続するか否かを判定する第3のステップと、
    前記グラフ認識処理を継続しないと判定された場合、前記少なくとも一つの計算機が、前記評価ブロック処理の処理結果に対する修正を受け付けるためのインタフェースを提示する第4のステップと、
    前記インタフェースを介してユーザの入力を受け付けた場合、前記少なくとも一つの計算機が、前記ユーザの入力と、前記評価ブロック処理の前に実行された前記ブロック処理の処理結果を用いて、前記評価ブロック処理の後の前記ブロック処理を実行する第5のステップと、を含むことを特徴とするグラフ認識方法。
  6. 請求項5に記載のグラフ認識方法であって、
    前記第3のステップは、前記少なくとも一つの計算機が、前記処理結果の確信度と閾値との比較結果に基づいて、前記グラフ認識処理を継続するか否かを判定するステップを含むことを特徴とするグラフ認識方法。
  7. 請求項5に記載のグラフ認識方法であって、
    前記複数のブロック処理は、複数の前記評価ブロック処理を含み、
    前記第3のステップは、
    前記少なくとも一つの計算機が、ターゲットとなる前記評価ブロック処理の前記処理結果の確信度及びターゲットとなる前記評価ブロック処理の前に実行された前記評価ブロック処理の前記処理結果の確信度に基づいて、累積確信度を算出するステップと、
    前記少なくとも一つの計算機が、ターゲットとなる前記評価ブロック処理の前記処理結果の確信度と閾値との比較結果、及び、前記累積確信度と閾値との比較結果に基づいて、前記グラフ認識処理を継続するか否かを判定するステップと、を含むことを特徴とするグラフ認識方法。
  8. 請求項7に記載のグラフ認識方法であって、
    前記少なくとも一つの計算機が、前記グラフ認識処理の処理結果とともに、前記複数の評価ブロック処理の前記処理結果の確信度を出力するステップを含むことを特徴とするグラフ認識方法。
JP2022195068A 2022-12-06 2022-12-06 計算機システム及びグラフ認識方法 Pending JP2024081434A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022195068A JP2024081434A (ja) 2022-12-06 2022-12-06 計算機システム及びグラフ認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022195068A JP2024081434A (ja) 2022-12-06 2022-12-06 計算機システム及びグラフ認識方法

Publications (1)

Publication Number Publication Date
JP2024081434A true JP2024081434A (ja) 2024-06-18

Family

ID=91486899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022195068A Pending JP2024081434A (ja) 2022-12-06 2022-12-06 計算機システム及びグラフ認識方法

Country Status (1)

Country Link
JP (1) JP2024081434A (ja)

Similar Documents

Publication Publication Date Title
US11514698B2 (en) Intelligent extraction of information from a document
CN107832662B (zh) 一种获取图片标注数据的方法和系统
JP2003308480A (ja) オンライン手書き文字パターン認識編集装置及び方法並びに当該方法を実現するコンピュータ実行可能なプログラム
JP6055297B2 (ja) 文字認識装置及び方法、文字認識プログラム
JP2012174222A (ja) 画像認識プログラム、方法及び装置
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
EP0687991A2 (en) Information processing method and apparatus
US11756321B2 (en) Information processing apparatus and non-transitory computer readable medium
WO2024055864A1 (zh) 结合rpa和ai实现ia的分类模型的训练方法及装置
CN113269101A (zh) 一种票据识别方法、装置和设备
JP2024081434A (ja) 計算機システム及びグラフ認識方法
CN116052176A (zh) 一种基于级联多任务学习的文本抽取方法
CN112541505B (zh) 文本识别方法、装置以及计算机可读存储介质
US11335108B2 (en) System and method to recognise characters from an image
WO2022004097A1 (ja) 情報処理装置、情報処理方法、及びコンピュータプログラム
CN111552780B (zh) 医用场景的搜索处理方法、装置、存储介质及电子设备
JP5134383B2 (ja) Ocr装置、証跡管理装置及び証跡管理システム
CN113177479A (zh) 图像分类方法、装置、电子设备及存储介质
JP2022043364A (ja) 学習装置、物体検出装置、学習方法、およびプログラム
JP7421384B2 (ja) 情報処理装置、修正候補表示方法、及びプログラム
CN116912867B (zh) 结合自动标注和召回补全的教材结构提取方法和装置
JPH11184976A (ja) 辞書学習方式および文字認識装置
US11693757B2 (en) Requirement gathering in process automation
JP2016212473A (ja) 情報処理装置および情報処理プログラム
JP2023046514A (ja) 計算機及び帳票種別の識別方法