JP2015191277A - データ識別方法、データ識別プログラム及びデータ識別装置 - Google Patents

データ識別方法、データ識別プログラム及びデータ識別装置 Download PDF

Info

Publication number
JP2015191277A
JP2015191277A JP2014066171A JP2014066171A JP2015191277A JP 2015191277 A JP2015191277 A JP 2015191277A JP 2014066171 A JP2014066171 A JP 2014066171A JP 2014066171 A JP2014066171 A JP 2014066171A JP 2015191277 A JP2015191277 A JP 2015191277A
Authority
JP
Japan
Prior art keywords
data
row
identified
cell
detail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014066171A
Other languages
English (en)
Other versions
JP6252296B2 (ja
Inventor
志洋 津嶋
Yukihiro Tsushima
志洋 津嶋
育男 大石
Ikuo Oishi
育男 大石
誠 佐々原
Makoto Sasahara
誠 佐々原
源 佐藤
Hajime Sato
源 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014066171A priority Critical patent/JP6252296B2/ja
Publication of JP2015191277A publication Critical patent/JP2015191277A/ja
Application granted granted Critical
Publication of JP6252296B2 publication Critical patent/JP6252296B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】表領域を含んだ対象物に出力される表形式データにおける各行の特徴を、正しく識別する。
【解決手段】表領域を含んだ対象物のデータから、表領域に出力される表形式データを取得する。そして、表形式データの各行について、各列のセルにおける実データの有無、及び行の特徴を示す属性パターンを識別する。ここで、実データを含まないセルが存在する行を識別した場合は、当該識別した行の属性パターン及び当該識別した行の直前の行の属性パターンに基づいて、実データを含まないセルにおいてデータ表示が省略されているか否かを判定する。その結果、実データを含まないセルにおいてデータ表示が省略されている場合に、直前の行から対応データを取得して、当該対応データを識別した行の実データを含まないセルに補完する。そして、識別した行に対応データが補完された状態で、当該識別した行の属性パターンを再識別する。
【選択図】 図10

Description

本発明は、表形式の出力データに含まれる行の特徴を識別する技術に関する。
電子帳票を利用する業務においては、帳票の閲覧、検索や印刷等を行うだけでなく、帳票データに含まれる表領域において表形式で出力される明細データを、他のアプリケーションや分析ツール等の入力データとして利用する場合がある。このような場合に、明細データから、特定の共通した特徴(属性)を有する明細行を抽出することがある。
ここで、帳票の明細データにおいては、例えばデータベースのテーブルや表計算ソフトの表等と異なり、同一の列のセルであっても、明細行によって、異なる項目内容のデータが不規則に配置される場合がある。したがって、明細行の特徴を規則的に自動識別することが難しい場合がある。
なお、従来技術の一例として、次のようなものがある。すなわち、当該技術では、電子帳票に含まれる文字列、文字列の位置情報、及び文字列の書式情報(フォント名、サイズ等)を含むテキストデータから、各行毎の特徴を示す行情報を抽出する。そして、電子帳票内の繰り返し明細の領域において抽出した行情報を解析する。これにより、繰り返し明細が何行単位で構成されているかを特定する。
特開2006−309611号公報
しかし、帳票の明細データでは、例えば、同一列のセルにおいて直前の明細行と同じ内容のデータが格納される箇所については、そのデータの表記(表示)を省略する場合がある。この場合、その列のセルは空欄となり、本来同じ意味を示すデータが格納されるはずのセルであっても、書式情報が異なるものとなる。また、例えば、文字列のフォントやサイズ等が同一であっても、特定の行に網掛けをしたりすることによって、ユーザに別の項目であることを示す場合もある。このため、従来技術を適用した場合、各行の特徴を正しく識別できない場合がある。
なお、このような問題は、帳票に限らず、表領域を含んだ他の態様の対象物においても発生し得るものである。
そこで、本発明の1つの側面では、表領域を含んだ対象物に出力される表形式データにおける各行の特徴を、正しく識別できるようにすることを目的とする。
本発明の1つの側面では、表領域を含んだ対象物のデータから、表領域に出力される表形式データを取得する。そして、表形式データの各行について、各列のセルにおける実データの有無、及び行の特徴を示す属性パターンを識別する。ここで、実データを含まないセルが存在する行を識別した場合は、当該識別した行の属性パターン及び当該識別した行の直前の行の属性パターンに基づいて、実データを含まないセルにおいてデータ表示が省略されているか否かを判定する。その結果、実データを含まないセルにおいてデータ表示が省略されている場合に、直前の行から対応データを取得して、当該対応データを識別した行の実データを含まないセルに補完する。そして、識別した行に対応データが補完された状態で、当該識別した行の属性パターンを再識別する。
本発明の1つの側面によれば、表領域を含んだ対象物に出力される表形式データにおける各行の特徴を、正しく識別することが可能となる。
本実施形態における帳票データの出力イメージの一例を示す説明図である。 本実施形態における帳票データの出力イメージの一例を示す説明図である。 本実施形態における分類済み明細データの一例を示す説明図である。 本実施形態におけるシステムの全体構成及び帳票提供サーバの機能構成の一例を示す説明図である。 本実施形態における帳票データ(項目情報)の一例を示す説明図である。 本実施形態における帳票データ(罫線情報)の一例を示す説明図である。 本実施形態におけるパターンリストの一例を示す説明図である。 本実施形態における補完形式リストの一例を示す説明図である。 本実施形態におけるデータ抽出処理の一例を示すフローチャートである。 本実施形態における明細行解析処理の一例を示すフローチャートである。 本実施形態における帳票提供サーバ及びクライアントのハードウェア構成の一例である。
[本実施形態の背景及び概要]
まず、本実施形態において処理対象とするデータと、本実施形態において実現するデータ抽出処理の概要について説明する。
本実施形態では、表領域を含んだ対象物のデータの一例として、帳票データを処理対象とする。図1及び図2に、本実施形態において処理対象とする帳票データの帳票印刷イメージ(出力イメージ)の一例を示す。図1は帳票印刷イメージの1ページ目、図2は2ページ目を示している。帳票データは、このような帳票を出力するために必要な情報、すなわち、帳票出力する対象となる文字列、各文字列の位置情報、データ型(文字、日付、数値等)、書式情報(フォント、網掛け、強調表示等のプロパティ)、及び罫線等の情報を有している。なお、具体的なデータ構造については後述する。
当該図1及び図2に示す帳票データの一例は、ヘッダ部分(帳票のタイトル、帳票の発行日付等、伝票番号等)、表領域の明細部分、フッタ部分(ページ番号等)を備える。このうち、明細部分に出力される表形式の明細データは、日次明細行(図1の明細部分では1〜3行目、5〜8行目及び10〜13行目、図2の明細部分では1〜2行目、4〜6行目)、月小計行(図1の明細部分では4行目及び9行目、図2の明細部分では3行目及び7行目)、及び合計行(図2の明細部分の8行目)の3種類の特徴を有する明細行を含む。
ここで、例えば当該帳票データの明細部分に出力される明細データのうち、日次明細行のデータを、他のアプリケーションや分析ツール等において利用する場合を想定する。この場合、当該帳票データの明細部分から、日次明細行を識別して抽出することとなる。
通常、同じ特徴を有する明細行は、各列のセルのデータ型が共通し、且つ共通する書式情報を有することが多い。換言すれば、明細行に含まれる各列のセルのデータ型及び行の書式情報を識別することで、その明細行の特徴を識別することができる。なお、本実施形態において、明細行に含まれる各列のセルのデータ型及び行の書式情報を含んだ情報を、明細行の属性パターンという。同じ特徴の明細行を抽出するには、同じ属性パターンを有する明細行を抽出すればよい。
しかし、例えば図1の明細部分の7行目の日次明細行に着目すると、月日の列のセルの実データが含まれず、空欄となっている。これは、1つ上の6行目の日次明細行の月日と、当該7行目の日次明細行の月日が同じであるため、帳票の見易さを向上するべく、7行目の月日の表記が省略されているためである。このような表記方法は、帳票では一般的に行われるものである。この場合、同じく日次明細行であっても、その属性パターンが明細行によって異なるものとなる。その結果、各明細行の属性パターンに応じて明細行の特徴を識別した場合、6行目と7行目は別の特徴を有する明細行として識別されてしまう。
このため、本実施形態では、明細行の特徴を示す属性パターンを識別する際において、実データが含まれないセルが存在する場合に、当該明細行の属性パターンと、直前の明細行の属性パターンとの比較をし、セルのデータ表示が省略されているのか、元々実データが存在しないのかを判定するようにする。そして、列のデータ表示が省略されている場合には、直前の明細行から、実データが含まれないセルと同一の列のセルの対応データを取得し、省略されたセルのデータを補完する。その上で、当該明細行の属性パターンを再識別する。これにより、同じ特徴を有する複数の明細行の一部においてセルのデータ表示が省略されていることにより、一見属性パターンが異なるように見えても、正しい属性パターンを識別することができ、同じ特徴を有する明細行として識別することができる。
なお、図2の明細行の1行目のように、明細行がページを跨って続いていて、かつ、1行目のデータ表示が省略されている場合がある。このため、本実施形態では、帳票データが複数のページを含んでいる場合、各ページにおける明細領域の位置に基づいて、明細行がページを跨って続いていることを検出する。そして、明細行がページを跨って続いている場合において、2ページ目以降の表領域の最初の明細行に実データが含まれないセルが存在する場合には、当該明細行の属性パターンと、直前ページの表領域の最後の明細行の属性パターンとの比較をして、データ表示が省略されている状態を検出する。そして、データ表示が省略されている場合には、直前ページの表領域の最後の明細行から対応データを取得して、省略されたセルのデータを補完する。
このような処理により、本実施形態では、各行の属性パターンを正確に識別することができる。その結果、図3に示すように、図1及び図2に示した帳票データの明細行を、省略されたセルのデータを補完した上で、明細行の特徴ごとに正確に分類することが可能となる。なお、当該図3に示すデータは、そのままクライアント端末に返信してもよいし、クライアント端末による要求に応じて、日次明細行のみを返信してもよい。
なお、そもそも帳票データは、テキストデータ(CSVデータ等)と、帳票のレイアウト等を予め定義した帳票定義体から生成される。このため、新規に生成する帳票については、帳票定義体に含まれる行の定義を帳票データ内の各行に関連付けておくことで、行の特徴を容易に識別することができる。しかし、すでに帳票データが生成され、元のテキストデータが消去されている場合には、このような関連付けをすることができない。本実施形態で説明する技術は、このように、帳票データがすでに生成され、データの抽出対象が帳票データのみとなっている状態において、特に有効に用いることができる。
また、本実施形態で説明する技術は、いわゆる帳票に限らず、表領域を含んだ他の態様の出力対象物においても適用可能である。
[システムの全体構成、帳票提供サーバの機能構成及びデータ構成]
図4は、本実施形態におけるシステムの全体構成、並びに帳票提供サーバ1の機能構成及びデータ構成を示す。
本システムは、帳票提供サーバ1及びクライアント端末2を備える。帳票提供サーバ1及びクライアント端末2は、ネットワーク3を介して相互に通信可能に接続されている。ネットワーク3は、例えばLAN(Local Area Network)やWAN(Wide Area Network)等であり、有線接続又は無線接続のいずれであってもよい。
帳票提供サーバ1は、ユーザが使用するクライアント端末2からの要求に応じて、帳票に関連する様々な情報を提供する。一般的な機能の一例として、クライアント端末2は、帳票提供サーバ1に対し、帳票を指定して帳票表示要求を行う。帳票提供サーバ1では、要求された帳票の帳票データ21をクライアントに返信する。クライアント側では、受信した帳票データ21を表示し、印刷等の処理を行う。
そして、本実施形態では、クライアント端末2は、帳票を指定して、分析ツール等の入力データとする特定の特徴を有する明細データの抽出を要求する。そして、帳票提供サーバ1では、指定された帳票に対応する帳票データ21から明細データを抽出し、さらに、明細データを、明細行の特徴ごとに分類する。そして、分類された明細データから、要求された特徴を有する明細行を抽出し、クライアント端末2に返信する。
以下、帳票提供サーバ1につき、図4に図示している、帳票データ21からの明細行の抽出に関連する機能及びデータについて説明を行う。なお、図4では、帳票提供サーバ1の機能及びデータのうち、明細行の抽出に関連するもの以外については図示を省略している。
帳票提供サーバ1は、プログラムがロードされ実行されることによってその機能が実現される、抽出要求受付部11、明細行取得部12、明細行解析部13(属性識別部14、データ補完部15及び属性再識別部16)、明細行分類部17を備える。
抽出要求受付部11は、クライアント端末2から受信した、帳票を指定したデータの抽出要求を受け付け、明細行取得部12に通知する。
明細行取得部12は、クライアント端末2からのデータ抽出要求において指定された帳票の帳票データ21から、帳票データ21に含まれる表領域に出力される表形式の明細データ(表形式データ)を特定して取得する。
明細行解析部13は、明細データの各明細行を解析し、各明細行の属性パターンを識別する。具体的には、明細行解析部13は、属性識別部14、データ補完部15及び属性再識別部16を含む。
属性識別部14は、帳票データ21を参照して、各明細行の各列のセルの実データの有無、並びに各列のセルのデータ型及び明細行の書式情報を特定し、これらの各列のセルのデータ型及び明細行の書式情報で特定される属性パターンを識別する。
データ補完部15は、空欄のセル(実データが含まれないセル)を含んだ明細行が存在するときに、当該明細行及び当該明細行の直前の明細行の属性パターンに応じて、当該実データが含まれないセルにおいてデータ表示が省略されているか否かを判定する。そして、データ表示が省略されているときに、当該実データが含まれないセルに、データを補完する。具体的には、データ補完部15は、直前の明細行から、実データが含まれないセルと同一の列のセルの対応データを取得して、当該対応データを、実データが含まれないセルを含んだ明細行における実データが含まれないセルに補完する。
属性再識別部16は、実データが含まれないセルを含んだ明細行に対応データが補完された状態で、当該明細行の属性パターンを再識別する。
明細行分類部17は、識別した各明細行の属性パターンに基づいて、属性パターンごと、すなわち明細行の特徴ごとに各明細行を分類した、分類済み明細データ24を生成する。そして、明細行分類部17は、分類済み明細データ24から、クライアント端末2の要求に応じた特徴を有する明細行を、クライアント端末2に返送する。
次に、帳票提供サーバ1が備える各データにつき、前述した図1〜図3、及び図5〜図8を参照しながら説明する。
帳票データ21は、帳票の出力内容を示す情報を有するデータである。帳票データ21は、図5に示すように、帳票出力されるページごとに、出力される文字列の位置情報である横位置(X座標)及び縦位置(Y座標)、出力される文字列、文字列のデータ型(文字、日付、数値等)及び書式情報(フォント、網掛け、太字等のプロパティ情報)を備える。また、帳票データ21は、帳票において描画される罫線情報を備える。罫線情報は、図6に示すように、帳票出力されるページごとに、描画される罫線の開始位置及び終了位置の横位置(X座標)及び縦位置(Y座標)をそれぞれ備える。なお、前述したように、図1及び図2が、これらの帳票データ21に基づいて出力された帳票印刷イメージを示している。
パターンリスト22は、各明細行について識別した属性パターンを記録するためのリストであり、明細行の属性パターン別に明細行を分類するためのリストである。パターンリスト22は、図7に示すように、明細行の各列のセルのデータ型及び明細行の書式情報を含んだ属性パターンと、属性パターンに該当する明細行の識別子とを備える。
補完形式リスト23は、明細行に空欄のセルがある場合において、当該空欄のセルにデータを補完する対象となり得るデータの表記形式が予め設定されたリストである。補完形式リスト23は、図8に示すように、データ型及び当該データ型における表記形式を備える。
分類済み明細データ24は、明細データを明細行の属性パターンごと、すなわち明細行の特徴ごとに分類した結果のデータである。分類済み明細データ24では、図3に示したように、明細行の特徴ごとに明細行がグルーピングされている。
[処理説明]
次に、帳票提供サーバ1において実行される処理につき、図9及び図10を用いて説明する。
図9は、帳票提供サーバ1において実行されるデータ抽出処理の全体を示すフローチャートである。帳票提供サーバ1は、クライアント端末2から、帳票を指定したデータ抽出要求を受信したときに、当該処理を実行する。
ステップS1で、抽出要求受付部11は、クライアント端末2から受信したデータ抽出要求を受け付け、明細行取得部12に通知する。
以下のステップS2〜ステップS8は、帳票に含まれるページごとに処理を行う。
ステップS2で、明細行取得部12は、クライアント端末2からのデータ抽出要求において指定された帳票の帳票データ21を取得し、明細行が配置されている表領域を特定する。具体的には、明細行取得部12は、例えば、帳票データ21に含まれる罫線情報を参照し、罫線の開始位置及び終了位置により、罫線が表を描画している表領域を特定することが可能である。そして、明細行取得部12は、帳票データ21の項目情報に含まれる各項目の横位置及び縦位置から、特定した表領域に配置されている明細データを特定して取得する。
ステップS3で、明細行取得部12は、取得した明細データが、直前のページから連続している明細データであるか否かを判定する。一般的に、帳票の明細データが複数ページに連続して出力される場合、1ページ目には、帳票の宛先等の諸情報が含まれる一方、2ページ目以降にはこのような情報が含まれないため、2ページ目以降の明細データが出力される表領域の上端は、1ページ目における表領域の上端よりも上方になることが多い。このため、明細行取得部12は、例えば、特定した表領域の横位置が、当該表領域に出力される明細データが出力される最初のページにおける表領域の横位置と一致している場合において、当該特定した表領域の上端の縦位置が、当該最初のページにおける表領域の上端の縦位置よりも所定閾値以上上方に位置するときに、当該特定した表領域が直前のページから連続していると判定することができる。なお、「所定閾値以上」上方に位置することを条件とするのは、本来同じ位置に配置されるべき明細データであっても若干のずれが生じる場合があり、このような場合に、直前のページから連続している明細データであると判定してしまうことを防ぐためである。特定した明細データが、直前のページから連続している場合には、ステップS5に進み(Yes)、そうでない場合(直前のページが存在しないか、存在しても明細データが連続していない場合)には、ステップS4に進む(No)。
ステップS4で、明細行取得部12は、新たなパターンリスト22を生成する。なお、この時点では、パターンリスト22はデータが空の状態である。
以下のステップS5〜ステップS8は、さらに明細行ごとに処理を行う。
ステップS5で、明細行解析部13は、各明細行を解析し、各明細行の属性パターンを識別する明細行解析処理を行う。明細行解析処理の詳細については後述する。
ステップS6で、明細行解析部13は、識別した明細行の属性パターンが、既にパターンリスト22に登録されているか否かを判定する。すでに登録されている場合には、ステップS8に進み(Yes)、まだ登録されていない場合には、ステップS7に進む(No)。
ステップS7で、明細行解析部13は、識別した明細行の属性パターンを、パターンリスト22に追加する。
ステップS8で、明細行解析部13は、パターンリスト22に、処理対象の明細行の識別子を、該当する属性パターンに対応付けて登録する。
ステップS9で、明細行解析部13は、本来同じ属性パターンの明細行が別の属性パターンに分類されてしまうケースの対応処理を行う。このようなケースの具体例として、明細行が、視認性のために1行おきに網掛けになっているケースがある。この場合、本来同じ種類に属する明細行であっても、書式情報が異なるため、後述する明細行解析処理によれば、別の属性パターンとして識別されてしまう。このため、明細行分類部17は、ある属性パターンと別の属性パターンとで網掛け以外の属性が全て一致し、かつ、それぞれの属性パターンに分類されている明細行の数の差が所定閾値(例えば1)以下の場合には、これらの属性パターンにそれぞれ分類されている明細行が全て同じ属性パターンであるものとして分類する。具体的には、明細行分類部17は、このような場合、パターンリスト22において、どちらか一方の属性パターンに明細行を統合する。なお、当該処理は、それぞれの属性パターンに分類されている明細行の数が所定閾値以上であること、又は、他の属性パターンに分類されている明細行の数よりも多いこと等を前提として行ってもよい。
ステップS10で、明細行分類部17は、パターンリスト22の各属性パターンに分類された明細行の識別子に基づき、帳票データ21の各明細行を属性パターンごとにグルーピングした分類済み明細データ24を生成する。換言すれば、明細行分類部17は、処理対象の明細行を、明細行の特徴に応じて分類する。
ステップS11で、明細行分類部17は、分類済み明細データ24から、クライアント端末2の要求に応じた特徴の明細行のデータを抽出し、クライアント端末2に返信する。
図10は、明細行解析処理を示すフローチャートである。
ステップS21で、属性識別部14は、帳票データ21における明細行の項目情報の書式情報を参照し、明細行単位で書式情報を特定する。なお、本実施形態では、1つの明細行に含まれる各列のセルは書式情報が共通していることを前提としている。
ステップS22で、属性識別部14は、帳票データ21における明細行の項目情報のデータ型を参照し、各列のセルごとに、データ型を特定する。なお、実データが含まれないセルが存在する場合、明細行解析部13は、当該列のデータ型を「空欄」として特定する。そして、明細行解析部13は、特定したデータ型及び書式情報に基づき、これらの情報を含んだ属性パターンを識別する。
ステップS23で、データ補完部15は、処理対象の明細行について特定したデータ型において、空欄のセルがあり、且つ当該明細行の前に明細行があるかを判定する。当該条件を満たす場合にはステップS24に進み(Yes)、当該条件を満たさない場合には明細行解析処理を終了する(No)。
ステップS24で、データ補完部15は、処理対象の明細行における空欄のセル以外の全てのセルのデータ型及び当該明細行の書式情報が、直前の明細行における、当該空欄のセルと同一の列のセル以外の全てのセルのデータ型及び当該直前の明細行の書式情報と一致するかを判定する。当該条件を満たす場合にはステップS25に進み(Yes)、当該条件を満たさない場合には明細行解析処理を終了する(No)。
ステップS25で、データ補完部15は、処理対象の明細行における空欄のセルと同一のセルにおける、直前の明細行の対応データの表記形式が、補完形式リスト23に含まれる表記形式と一致しているかを判定する。当該条件を満たす場合にはステップS26に進み(Yes)、当該条件を満たさない場合には明細行解析処理を終了する(No)。
なお、上記ステップS24及びステップS25における判定は、空欄のセルにつき、データ表示が省略されているのか、元々データが存在しないのかを判定するものである。
ステップS26で、データ補完部15は、処理対象の明細行における空欄のセルに、当該直前の明細行の対応データを補完する。
ステップS27で、属性再識別部16は、処理対象の明細行について、ステップS26で補完したデータを含め、当該データ補完後の属性パターンを再識別する。
[データ具体例を示した処理説明]
ここで、上記データ抽出処理及び明細行解析処理について、図5及び図6に示す帳票データ21から、日次明細行のデータを抽出する具体例を示して説明する。なお、当該説明では、図5及び図6に示す帳票データ21とともに、当該帳票データ21の出力イメージである図1及び図2を参照しながら説明する。
まず、帳票の1ページ目の明細の処理について説明する。
明細行取得部12は、図6に示す帳票データ21の1ページ目の罫線情報の横位置及び縦位置に基づいて、1ページ目において罫線が表を描画している表領域を特定する。これにより、明細行取得部12は、図5に示す帳票データ21の1ページ目の項目情報に含まれる各項目の横位置及び縦位置から、特定した表領域に配置されている明細データ、すなわち、図1に示す帳票イメージの明細行の1〜13行目に相当する明細データを特定して取得する(ステップS2)。
そして、明細行解析処理で、属性識別部14は、明細行の1行目について、明細行の書式情報、すなわち、「MSゴシック、12pt(網掛け、太字なし)」を特定する(ステップS21)。さらに、属性識別部14は、明細行の1行目について、各列のセルごとにデータ型を特定し、明細行に含まれる各列のセルのデータ型、すなわち、「日付 文字 文字 文字 数値」を特定する。これにより、属性識別部14は、明細行の1行目の属性パターンを識別する(ステップS22)。
ここで、明細行の1行目には、空欄のセルがないため(ステップS23の判定)、データ抽出処理に戻る。そして、明細行解析部13は、当該データ型及び書式情報を含んだ属性パターンが、初めて識別された属性パターンであるため(ステップS6の判定)、図7に示したパターンリスト22の1行目を追加する(ステップS7)。その上で、当該明細行が何行目かを示す行番号である「1」を、明細行の識別子として、パターンリスト22における当該属性パターンに対応する明細行の識別子に追加する。
さらに、明細行解析部13は明細行を順次処理していく。ここで、明細行の4行目の処理について説明する。属性識別部14は、明細行の4行目について、明細行の書式情報、すなわち、「MSゴシック、12pt、網掛け」を特定する(ステップS21)。さらに、属性識別部14は、明細行の4行目について、各列のセルごとにデータ型を特定し、明細行に含まれる各列のデータ型、すなわち、「空欄 空欄 空欄 文字 数値」を特定する(ステップS22)。ここで、当該明細行の4行目には、空欄のセルがあり、かつ、前に明細行がある(ステップS23の判定)。そして、空欄のセル以外のセル、すなわち、4つ目と5つ目の列のセルのデータ型である「文字、数値」が、1つ上の3行目における4つ目と5つ目の列のセルのデータ型と一致する。しかし、書式情報が、4行目は「MSゴシック、12pt、網掛け」であるのに対し、3行目は「MSゴシック、12pt」であるため、異なっている(ステップS24の判定)。このため、データ抽出処理に戻る。そして、明細行解析部13は、当該データ型及び書式情報を含んだ属性パターンが、初めて識別された属性パターンであるため、図7に示したパターンリスト22の2行目を追加する(ステップS6〜ステップS7)。その上で、当該明細行の行番号である「4」を、パターンリスト22における当該属性パターンに対応する明細行に追加する。
さらに、明細行解析部13は明細行を順次処理していく。ここで、明細行の7行目の処理について説明する。属性識別部14は、明細行の7行目について、明細行の書式情報、すなわち、「MSゴシック、12pt」を特定する(ステップS21)。さらに、属性識別部14は、明細行の4行目について、列のセルごとにデータ型を特定し、明細行に含まれる各列のデータ型、すなわち、「空欄 文字 文字 文字 数値」を特定する(ステップS22)。ここで、当該明細行の7行目には、空欄のセルがあり、かつ、前に明細行がある(ステップS23の判定)。そして、空欄のセル以外のセル、すなわち、2つ目〜5つ目の列のセルのデータ型である「文字 文字 文字 数値」が、1つ上の6行目における2つ目〜5つ目の列のセルのデータ型と一致する。さらに、明細行の書式情報も一致している(ステップS24の判定)。また、空欄のセルに対応する6行目のデータ、すなわち空欄のセルと同一の列のセルにおける「05/16」の表記形式が、図8に示した補完形式リスト23の「mm/dd」と一致している(ステップS25の判定)。このため、データ補完部15は、7行目の空欄のセルに、6行目の「05/16」を補完する(ステップS26)。その上で、属性再識別部16は、当該「05/16」を補完した状態の7行目につき、明細行の属性パターンを識別する。その結果、当該7行目のデータ型は、「日付 文字 文字 文字 数値」となる。
データ抽出処理に戻り、明細行解析部13は、当該7行目の属性パターンが、既に図7に示すパターンリスト22に登録されている属性パターンであると判定する(ステップS6の判定)。このため、明細行解析部13は、当該明細行の行番号である「7」を、パターンリスト22における当該属性パターンに対応する明細行の識別子に追加する。
また、明細行解析部13が明細行を順次処理し、13行目についても、上記7行目の処理と同様にして、1つ目の列に、12行目の「06/17」を補完する。
次に、帳票の2ページ目の処理に移る。
明細行取得部12は、図6に示す帳票データ21の2ページ目の罫線情報の縦位置及び横位置に基づいて、罫線が表を描画している表領域を特定する。そして、図5に示す帳票データ21の2ページ目の項目情報に含まれる各項目の横位置及び縦位置から、特定した表領域に配置されている明細行のデータ、すなわち、図2に示す帳票イメージの明細行の1〜8行目に相当するデータを特定して取得する(ステップS2)。ここで、当該2ページ目において罫線が描画する表領域の横位置が「8」〜「152」であり1ページ目と一致している。さらに、当該2ページ目における表領域の上端の縦位置が「38」であって、1ページ目における表領域の上端の縦位置である「78」よりも上方である。なお、項目情報を参照すると、当該表領域に含まれる明細データの位置の上端が「40」であって、1ページ目における表領域に含まれる明細データの上端の縦位置である「80」よりも上方である。いずれにしても、例えば所定閾値を「3」に設定しておいた場合、2ページ目における表領域の上端の縦位置は、1ページ目における表領域の上端の縦位置よりも所定閾値以上上方に位置する。このため、明細行取得部12は、当該特定した表領域が1ページ目から連続していると判定する(ステップS3の判定)。
さらに、明細行解析処理で、属性識別部14は、1ページ目と同様に、当該2ページ目の明細行の1行目について、明細行全体の書式情報、すなわち、「MSゴシック、12pt(網掛け、太字なし)」を特定する(ステップS21)。さらに、明細行解析部13は、明細行の1行目について、各列のセルごとにデータ型を特定し、明細行に含まれる各列のセルのデータ型、すなわち、「空欄 文字 文字 文字 数値」を特定する(ステップS22)。ここで、当該2ページ目の明細行の1行目には、空欄のセルがある。そして、当該2ページ目の明細行が配置された表領域は、ステップS3で判定したように1ページ目から連続しているため、当該2ページ目の明細行の1行目には、前に明細行があると判定する(ステップS23の判定)。そして、空欄のセル以外のセル、すなわち、2つ目〜5つ目の列のセルのデータ型である「文字 文字 文字 数値」が、直前の明細行、すなわち、1ページ目の13行目における2つ目〜5つ目の列のセルのデータ型と一致する。さらに、明細行の書式情報も一致している(ステップS24の判定)。また、前述したように、1ページ目の13行目のデータの空欄のセルには、すでに「06/17」が補完されている。このため、2ページ目の明細行の1行目における空欄のセルに対応する1ページ目の13行目のデータ、すなわち「06/17」の表記形式が、図8に示した補完形式リスト23の「mm/dd」と一致している(ステップS25の判定)。したがって、データ補完部15は、2ページ目の明細行の1行目の空欄のセルに、「06/17」を補完する(ステップS26)。その上で、属性再識別部16は、当該「06/17」を補完した状態の7行目につき、明細行の各列のセルのデータ型を特定する。その結果、当該7行目の各列のセルのデータ型は、「日付 文字 文字 文字 数値」となる。
データ抽出処理に戻り、明細行解析部13は、当該2ページ目の明細行の1行目の属性パターンが、既に図7に示すパターンリスト22に登録されている属性パターンであると判定する(ステップS6の判定)。このため、明細行解析部13は、当該明細行につき、1ページ目から連続した行番号である「14」を、パターンリスト22における当該属性パターンに対応する明細行の識別子に追加する。
以降の明細行についても同様にして処理をした後、明細行分類部17が、パターンリスト22の明細行に記録された各明細行の行番号に従って、帳票データ21の明細行のデータを分類する。この際、ステップS26でデータが補完された明細行については、補完された状態でデータを分類する。このようにして、明細行分類部17は、図3に示すように、明細行が分類された分類済み明細データ24を生成する(ステップS10)。さらに、当該分類済み明細データ24のうち、日次明細行のみをクライアントに返信する(ステップS11)。なお、どのグループの明細行のデータが日次明細行であるかは、次のように識別することができる。例えば、日次明細行の属性パターンをクライアントから受信するか予め記憶手段に保持しておき、当該属性パターンと一致する属性パターンに分類されたグループを、日次明細行として識別すればよい。
[本実施形態による効果、変形例等]
本実施形態によれば、帳票データ21から、特定の特徴の明細行のデータを抽出する場合において、明細行の一部の列のセルが空欄のときに、直前の明細行のデータを補完した上で、明細行の属性パターンを特定する。そして、当該属性パターンにしたがって明細行を分類し、データを抽出する。このため、明細行の一部のセルにおけるデータ表示が省略されている場合であっても、明細行の属性パターンを正しく識別することができる。また、このとき、当該明細行の属性パターンと直前の明細行の属性パターンとに基づいて、当該列のデータ表示が省略されているのか否かを判定する。具体的には、空欄のセルを含む明細行における当該空欄のセル以外の属性パターンが、直前の明細行における当該セルと同一の列のセル以外の属性パターンと一致するときに、セルのデータ表示が省略されていると判定する。そして、データ表示が省略されているときにのみ、データの補完をする。これにより、当該空欄がデータ表示の省略ではなく元々空欄である場合にまでデータを補完してしまうことを回避することができる。
そして、このように明細行の属性パターンを正しく識別することができることにより、特定の特徴を有する明細行のデータを正しく抽出することが可能となる。
また、本実施形態によれば、各ページに含まれる明細データが、前ページから連続しているか否かを判定し、連続している場合には、一連の明細データであるものとして、上記データの補完処理を行う。このため、明細行が複数ページに跨っている場合において、2ページ目以降の明細行の1行目の一部のセルの表記が省略されているような場合でも、適切に省略されたデータを補完し、明細行の属性パターンを識別することができる。
また、本実施形態によれば、明細行における空欄のセルに対応する、直前の明細行の対応データの表記形式が、補完形式リスト23に含まれる表記形式と一致しているときにのみ、上記データの補完を行う。このため、データ表示の省略が行われ得る表記形式を補完形式リスト23に設定しておくことで、当該空欄がデータ表示の省略ではなく元々空欄である場合にまでデータを補完してしまうことを、より高い精度で回避することができる。
また、本実施形態によれば、明細行が、視認性のために1行おきに網掛けになっていることによって本来同じ属性パターンの明細行が別の属性パターンに分類されてしまう場合に、これらの属性パターンに分類されている明細行の属性パターンを統合し、同じ属性パターンであるものとして分類する。これにより、一見属性パターンが異なっている場合であっても、本来同じ属性パターンの明細行を同じ属性パターンとして正しく分類することができる。
なお、本実施形態では、属性パターンが各列のデータ型及び明細行の書式情報を含むものとしているが、このような内容に限定されるものではない。属性パターンは、それぞれの帳票の特性に応じて、明細行を特徴ごとに分類するのに適切な内容とすればよい。
また、上記データ抽出処理は、帳票提供サーバ1側ではなく、クライアント端末2側で行ってもよい。すなわち、帳票提供サーバ1は、クライアント端末2から要求のあった帳票データ21をクライアント端末2に送信し、クライアント端末2側において、帳票データ21から、必要な明細行の抽出処理を行うようにしてもよい。
なお、本実施形態では、帳票データ21にデータ型の情報が保持されているが、帳票データ21においてこのような情報が保持されていなくても、本実施形態の技術を実現することは可能である。その場合には、例えば、帳票データ21に含まれる文字列の1つ1つの文字種別(文字、数値)を解析し、当該文字種別に基づいて、各列のセルのデータ型を特定すればよい。
また、本実施形態では帳票の例について記載したが、前述したように、帳票に限らず、表形式データを出力する他の態様の対象物にも、上記機能構成及び各処理を適用することが可能である。
[ハードウェア構成等]
前述した帳票提供サーバ1又はクライアント端末2として機能するコンピュータのハードウェア構成の一例を図11に示す。本コンピュータは、プロセッサ101、メモリ102、ストレージ103、可搬記憶媒体駆動装置104、入出力装置105及び通信インタフェース106を備える。
プロセッサ101は、制御ユニット、演算ユニット及び命令デコーダ等を含み、実行ユニットが、命令デコーダで解読されたプログラムの命令に従い、制御ユニットより出力される制御信号に応じ、演算ユニットを用いて算術・論理演算を実行する。かかるプロセッサ101は、制御に用いる各種情報が格納される制御レジスタ、既にアクセスしたメモリ2等の内容を一時的に格納可能なキャッシュ、及び、仮想記憶のページテーブルのキャッシュとしての機能を果たすTLBを備える。なお、プロセッサ101は、CPU(Central Processing Unit)コアが複数設けられている構成でもよい。
メモリ102は、例えばRAM(Random Access Memory)等の記憶装置であり、プロセッサ101で実行されるプログラムがロードされるとともに、プロセッサ101の処理に用いるデータが格納されるメインメモリである。また、ストレージ103は、例えばHDD(Hard Disk Drive)やフラッシュメモリ等の記憶装置であり、プログラムや各種データが格納される。可搬記憶媒体駆動装置104は、可搬記憶媒体107に記憶されたデータやプログラムを読み出す装置である。可搬記憶媒体107は、例えば磁気ディスク、光ディスク、光磁気ディスク又はフラッシュメモリ等である。プロセッサ101は、メモリ102やストレージ103と協働しつつ、ストレージ103や可搬記憶媒体107に格納されたプログラムを実行する。なお、プロセッサ101が実行するプログラムや、アクセス対象となるデータは、当該コンピュータと通信可能な他の装置に格納されていてもよい。なお、本実施形態で記載した帳票提供サーバ1の記憶手段とは、メモリ102、ストレージ103及び可搬記憶媒体107若しくは当該コンピュータと通信可能な他の装置の少なくともいずれかを示す。
入出力装置105は例えばキーボードやタッチパネル、ディスプレイ等であり、ユーザ操作等による動作命令を受け付ける一方、コンピュータによる処理結果を出力する。
通信インタフェース106は、例えば、例えばLAN(Local Area Network)カード等の他、無線周波受信機および送信機、ならびに光受信機および送信機を含むことができる。前述の受信機および送信機は、Wi−Fiネットワーク、ブルートゥース・ネットワーク、ロング・ターム・エボリューションなどの1つまたは複数の通信ネットワークにより動作するように実現することができる。
これらのコンピュータの各構成要素は、バス108で接続されている。
<その他>
なお、本明細書で説明したコンピュータの機能的構成及び物理的構成は、上述の態様に限るものではなく、例えば、各機能や物理資源を統合して実装したり、逆に、さらに分散して実装したりすることも可能である。
また、本明細書において、閾値等との比較において「〜以上」や「〜以下」とした記載箇所は、特記した場合を除き当該記載に限定されるものではなく、「〜より大きい(〜を上回る)」や「〜より小さい(〜を下回る)」に適宜置き換えることが可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
表領域を含んだ対象物のデータから、前記表領域に出力される表形式データを取得し、
前記表形式データの各行について、各列のセルにおける実データの有無、及び行の特徴を示す属性パターンを識別し、
実データを含まないセルが存在する行を識別した場合は、当該識別した行の前記属性パターン及び当該識別した行の直前の行の前記属性パターンに基づいて、前記実データを含まないセルにおいてデータ表示が省略されているか否かを判定し、
前記実データを含まないセルにおいてデータ表示が省略されている場合に、前記直前の行から対応データを取得して、当該対応データを前記識別した行の前記実データを含まないセルに補完し、
前記識別した行に前記対応データが補完された状態で、当該識別した行の前記属性パターンを再識別する
処理をコンピュータが実行するデータ識別方法。
(付記2)
前記属性パターンは、行に含まれる各列のセルのデータ型及び行の書式情報を含む、付記1記載のデータ識別方法。
(付記3)
前記取得する処理は、前記対象物のデータが複数のページの表領域に出力される表形式データを含んでいるときに、前記対象物のデータに含まれる位置情報に基づいて各ページの表領域の位置を特定し、当該表領域の位置に基づいて、複数のページのそれぞれの表領域に出力される前記表形式データが連続していることを検出し、
前記補完する処理は、前記識別した行が、2ページ目以降のページにおける表領域の最初の行であって、当該表領域に出力される前記表形式データが直前のページに出力される表形式データと連続しているときに、当該識別した行が出力されるページの直前のページに出力される表形式データの最後の行を前記直前の行とする、付記1又は2に記載のデータ識別方法。
(付記4)
前記補完する処理は、2ページ目以降のページにおける表領域の横位置が、直前のページに出力される前記表形式データが出力される最初のページにおける表領域の横位置と一致し、且つ、前記2ページ目以降のページにおける表領域の上端の縦位置が、前記最初のページにおける表領域の上端の縦位置よりも所定閾値以上上方であるときに、当該2ページ目以降のページに出力される前記表形式データが直前のページに出力される表形式データと連続していることを検出する、付記3記載のデータ識別方法。
(付記5)
前記補完する処理は、前記識別した行における前記実データを含まないセル以外の前記属性パターンが、前記直前の行における前記実データを含まないセルと同一の列以外の前記属性パターンと一致するときに、前記対応データを前記識別した行の前記データが無い列に補完する、付記1〜3のいずれか1項に記載のデータ識別方法。
(付記6)
前記補完する処理は、前記対応データの表記形式が、補完対象となり得るデータの所定の表記形式と一致するときに、前記対応データを前記識別した行の前記実データを含まないセルに補完する、付記1〜4のいずれか1項に記載のデータ識別方法。
(付記7)
前記対応データは、前記直前の行における、前記識別した行の前記実データが含まれないセルと同一の列のセルのデータである、付記1〜6のいずれか1項に記載のデータ識別方法。(図3)
(付記8)
前記識別した行に前記対応データが補完された状態で、前記表形式データの各行を前記属性パターンごとに分類した分類データを生成する処理をさらに含む、付記1〜5のいずれか1項に記載のデータ識別方法。
(付記9)
行の所定の書式情報が異なり且つ当該書式情報以外の属性パターンが一致している2つの前記属性パターンにそれぞれ該当する複数の行が存在する場合であって、それぞれの前記属性パターンに該当する行の行数の差分が所定閾値以下のときに、当該2つの前記属性パターンにそれぞれ該当する行を、同一の前記属性パターンとして統合する処理をさらに含む、付記1〜6のいずれか1項に記載のデータ識別方法。
(付記10)
前記表形式データが、帳票データに含まれる明細部分のデータである、付記1〜9のいずれか1項に記載のデータ識別方法。
(付記11)
表領域を含んだ対象物のデータから、前記表領域に出力される表形式データを取得し、
前記表形式データの各行について、各列のセルにおける実データの有無、及び行の特徴を示す属性パターンを識別し、
実データを含まないセルが存在する行を識別した場合は、当該識別した行の前記属性パターン及び当該識別した行の直前の行の前記属性パターンに基づいて、前記実データを含まないセルにおいてデータ表示が省略されているか否かを判定し、
前記実データを含まないセルにおいてデータ表示が省略されている場合に、前記直前の行から対応データを取得して、当該対応データを前記識別した行の前記実データを含まないセルに補完し、
前記識別した行に前記対応データが補完された状態で、当該識別した行の前記属性パターンを再識別する
処理をコンピュータに実行させるデータ識別プログラム。
(付記12)
表領域を含んだ対象物のデータから、前記表領域に出力される表形式データを取得するデータ取得部と、
前記表形式データの各行について、各列のセルにおける実データの有無、及び行の特徴を示す属性パターンを識別する属性識別部と、
実データを含まないセルが存在する行を識別した場合は、当該識別した行の前記属性パターン及び当該識別した行の直前の行の前記属性パターンに基づいて、前記実データを含まないセルにおいてデータ表示が省略されているか否かを判定し、前記実データを含まないセルにおいてデータ表示が省略されている場合に、前記直前の行から対応データを取得して、当該対応データを前記識別した行の前記実データを含まないセルに補完するデータ補完部と、
前記識別した行に前記対応データが補完された状態で、当該識別した行の前記属性パターンを再識別する属性再識別部と
を備えたデータ識別装置。
1…帳票提供サーバ、2…クライアント端末、3…ネットワーク、11…抽出要求受付部、12…明細行取得部、13…明細行解析部、14…属性識別部、15…データ補完部、16…属性再識別部、17…明細行分類部、21…帳票データ、22…パターンリスト、23…補完形式リスト、24…分類済み明細データ

Claims (9)

  1. 表領域を含んだ対象物のデータから、前記表領域に出力される表形式データを取得し、
    前記表形式データの各行について、各列のセルにおける実データの有無、及び行の特徴を示す属性パターンを識別し、
    実データを含まないセルが存在する行を識別した場合は、当該識別した行の前記属性パターン及び当該識別した行の直前の行の前記属性パターンに基づいて、前記実データを含まないセルにおいてデータ表示が省略されているか否かを判定し、
    前記実データを含まないセルにおいてデータ表示が省略されている場合に、前記直前の行から対応データを取得して、当該対応データを前記識別した行の前記実データを含まないセルに補完し、
    前記識別した行に前記対応データが補完された状態で、当該識別した行の前記属性パターンを再識別する
    処理をコンピュータが実行するデータ識別方法。
  2. 前記属性パターンは、行に含まれる各列のセルのデータ型及び行の書式情報を含む、請求項1記載のデータ識別方法。
  3. 前記取得する処理は、前記対象物のデータが複数のページの表領域に出力される表形式データを含んでいるときに、前記対象物のデータに含まれる位置情報に基づいて各ページの表領域の位置を特定し、当該表領域の位置に基づいて、複数のページのそれぞれの表領域に出力される前記表形式データが連続していることを検出し、
    前記補完する処理は、前記識別した行が、2ページ目以降のページにおける表領域の最初の行であって、当該表領域に出力される前記表形式データが直前のページに出力される表形式データと連続しているときに、当該識別した行が出力されるページの直前のページに出力される表形式データの最後の行を前記直前の行とする、請求項1又は2に記載のデータ識別方法。
  4. 前記補完する処理は、前記識別した行における前記実データを含まないセル以外の前記属性パターンが、前記直前の行における前記実データを含まないセルと同一の列以外の前記属性パターンと一致するときに、前記対応データを前記識別した行の前記データが無い列に補完する、請求項1〜3のいずれか1項に記載のデータ識別方法。
  5. 前記補完する処理は、前記対応データの表記形式が、補完対象となり得るデータの所定の表記形式と一致するときに、前記対応データを前記識別した行の前記実データを含まないセルに補完する、請求項1〜4のいずれか1項に記載のデータ識別方法。
  6. 前記識別した行に前記対応データが補完された状態で、前記表形式データの各行を前記属性パターンごとに分類した分類データを生成する処理をさらに含む、請求項1〜5のいずれか1項に記載のデータ識別方法。
  7. 行の所定の書式情報が異なり且つ当該書式情報以外の属性パターンが一致している2つの前記属性パターンにそれぞれ該当する複数の行が存在する場合であって、それぞれの前記属性パターンに該当する行の行数の差分が所定閾値以下のときに、当該2つの前記属性パターンにそれぞれ該当する行を、同一の前記属性パターンとして統合する処理をさらに含む、請求項1〜6のいずれか1項に記載のデータ識別方法。
  8. 表領域を含んだ対象物のデータから、前記表領域に出力される表形式データを取得し、
    前記表形式データの各行について、各列のセルにおける実データの有無、及び行の特徴を示す属性パターンを識別し、
    実データを含まないセルが存在する行を識別した場合は、当該識別した行の前記属性パターン及び当該識別した行の直前の行の前記属性パターンに基づいて、前記実データを含まないセルにおいてデータ表示が省略されているか否かを判定し、
    前記実データを含まないセルにおいてデータ表示が省略されている場合に、前記直前の行から対応データを取得して、当該対応データを前記識別した行の前記実データを含まないセルに補完し、
    前記識別した行に前記対応データが補完された状態で、当該識別した行の前記属性パターンを再識別する
    処理をコンピュータに実行させるデータ識別プログラム。
  9. 表領域を含んだ対象物のデータから、前記表領域に出力される表形式データを取得するデータ取得部と、
    前記表形式データの各行について、各列のセルにおける実データの有無、及び行の特徴を示す属性パターンを識別する属性識別部と、
    実データを含まないセルが存在する行を識別した場合は、当該識別した行の前記属性パターン及び当該識別した行の直前の行の前記属性パターンに基づいて、前記実データを含まないセルにおいてデータ表示が省略されているか否かを判定し、前記実データを含まないセルにおいてデータ表示が省略されている場合に、前記直前の行から対応データを取得して、当該対応データを前記識別した行の前記実データを含まないセルに補完するデータ補完部と、
    前記識別した行に前記対応データが補完された状態で、当該識別した行の前記属性パターンを再識別する属性再識別部と
    を備えたデータ識別装置。

JP2014066171A 2014-03-27 2014-03-27 データ識別方法、データ識別プログラム及びデータ識別装置 Active JP6252296B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014066171A JP6252296B2 (ja) 2014-03-27 2014-03-27 データ識別方法、データ識別プログラム及びデータ識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014066171A JP6252296B2 (ja) 2014-03-27 2014-03-27 データ識別方法、データ識別プログラム及びデータ識別装置

Publications (2)

Publication Number Publication Date
JP2015191277A true JP2015191277A (ja) 2015-11-02
JP6252296B2 JP6252296B2 (ja) 2017-12-27

Family

ID=54425759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014066171A Active JP6252296B2 (ja) 2014-03-27 2014-03-27 データ識別方法、データ識別プログラム及びデータ識別装置

Country Status (1)

Country Link
JP (1) JP6252296B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106257488A (zh) * 2016-07-07 2016-12-28 电子科技大学 一种基于邻域特征空间鉴别分析的雷达目标识别方法
JP2021149794A (ja) * 2020-03-23 2021-09-27 三菱電機Itソリューションズ株式会社 検証装置、検証方法、及び、検証プログラム
CN115630620A (zh) * 2022-10-31 2023-01-20 中诚智信工程咨询集团股份有限公司 工程造价分析数据采集与处理的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520494A (ja) * 1991-07-11 1993-01-29 Hitachi Ltd 帳票属性認識・表示方法
JP2002230468A (ja) * 2001-02-05 2002-08-16 Akimuragumi:Kk 請求情報出力システム、請求情報出力コンピュータ、請求情報出力方法、および請求情報出力プログラム
JP2002288194A (ja) * 2001-03-23 2002-10-04 Canon Inc 戸籍情報処理装置及び方法、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520494A (ja) * 1991-07-11 1993-01-29 Hitachi Ltd 帳票属性認識・表示方法
JP2002230468A (ja) * 2001-02-05 2002-08-16 Akimuragumi:Kk 請求情報出力システム、請求情報出力コンピュータ、請求情報出力方法、および請求情報出力プログラム
JP2002288194A (ja) * 2001-03-23 2002-10-04 Canon Inc 戸籍情報処理装置及び方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
[EXEL][VBA]空白のセルに上のデータを入力する方法, 教えて!GOO[オンライン], JPN6017040606, 19 August 2009 (2009-08-19), ISSN: 0003667929 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106257488A (zh) * 2016-07-07 2016-12-28 电子科技大学 一种基于邻域特征空间鉴别分析的雷达目标识别方法
CN106257488B (zh) * 2016-07-07 2019-11-19 电子科技大学 一种基于邻域特征空间鉴别分析的雷达目标识别方法
JP2021149794A (ja) * 2020-03-23 2021-09-27 三菱電機Itソリューションズ株式会社 検証装置、検証方法、及び、検証プログラム
CN115630620A (zh) * 2022-10-31 2023-01-20 中诚智信工程咨询集团股份有限公司 工程造价分析数据采集与处理的方法及系统
CN115630620B (zh) * 2022-10-31 2023-12-26 中诚智信工程咨询集团股份有限公司 工程造价分析数据采集与处理的方法及系统

Also Published As

Publication number Publication date
JP6252296B2 (ja) 2017-12-27

Similar Documents

Publication Publication Date Title
US20190251471A1 (en) Machine learning device
US11341322B2 (en) Table detection in spreadsheet
JP4682284B2 (ja) 文書差分検出装置
US9430716B2 (en) Image processing method and image processing system
WO2018188378A1 (zh) 一种给应用标注标签的方法、装置、终端及计算机可读存储介质
WO2016018683A1 (en) Image based search to identify objects in documents
US20170123606A1 (en) Electronic device and method for searching data
JP7203897B2 (ja) 文書レイアウト解析方法、装置、電子機器及び記憶媒体
CN114116441A (zh) 一种ui界面测试方法、装置、电子设备及存储介质
JP6252296B2 (ja) データ識別方法、データ識別プログラム及びデータ識別装置
WO2013121810A1 (ja) テキストの文書を解析する装置、プログラムおよび方法
WO2023038722A1 (en) Entry detection and recognition for custom forms
US9898523B2 (en) Tabular data parsing in document(s)
US9430528B2 (en) Grid queries
US10970478B2 (en) Tabular data analysis method, recording medium storing tabular data analysis program, and information processing apparatus
CN110874366A (zh) 数据处理、查询方法和装置
CN107909054A (zh) 图片文本的相似度评价方法及装置
US10824803B2 (en) System and method for logical identification of differences between spreadsheets
US20230177251A1 (en) Method, device, and system for analyzing unstructured document
US20140300563A1 (en) Control device and control method
CN114155547A (zh) 一种图表识别方法、装置、设备及存储介质
US20150135020A1 (en) Method of analysing memory usage and user terminal performing the same
US11170164B2 (en) System and method for cell comparison between spreadsheets
EP3432154A1 (en) Method and apparatus for providing search recommendation information
CN113111713B (zh) 一种图像检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171113

R150 Certificate of patent or registration of utility model

Ref document number: 6252296

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150