JP2014119939A - 情報処理装置、情報処理方法、プログラム、情報処理システム - Google Patents
情報処理装置、情報処理方法、プログラム、情報処理システム Download PDFInfo
- Publication number
- JP2014119939A JP2014119939A JP2012274218A JP2012274218A JP2014119939A JP 2014119939 A JP2014119939 A JP 2014119939A JP 2012274218 A JP2012274218 A JP 2012274218A JP 2012274218 A JP2012274218 A JP 2012274218A JP 2014119939 A JP2014119939 A JP 2014119939A
- Authority
- JP
- Japan
- Prior art keywords
- file
- search
- pdf file
- information
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】PDFファイルを電子帳票システムに帳票として登録した際に、ユーザにより任意に選択された当該帳票上の矩形領域に含まれる文字列に対して検索処理を行うことを可能とする。
【解決手段】PDFファイルから抽出された文字情報を含む検索用ファイルを生成し、取得されたPDFファイルと、生成された検索用ファイルとを対応付けて一つの帳票ファイルとしてデータベースに登録し、登録された帳票ファイルに対する閲覧要求に応じて、当該帳票ファイルに対応付けられるPDFファイルを用いて生成された帳票イメージデータを送信し、帳票イメージ上のユーザにより選択された任意の矩形領域を特定可能な矩形情報と、ユーザにより入力された検索条件とを受信し、受信された矩形情報と、検索用ファイルに含まれる文字情報とを用いて、当該矩形領域に配置される文字列を含む行であって、検索対象とすべき行を特定し、特定された行に対して、受信された検索条件を用いて、検索処理を実行する。
【選択図】図7
【解決手段】PDFファイルから抽出された文字情報を含む検索用ファイルを生成し、取得されたPDFファイルと、生成された検索用ファイルとを対応付けて一つの帳票ファイルとしてデータベースに登録し、登録された帳票ファイルに対する閲覧要求に応じて、当該帳票ファイルに対応付けられるPDFファイルを用いて生成された帳票イメージデータを送信し、帳票イメージ上のユーザにより選択された任意の矩形領域を特定可能な矩形情報と、ユーザにより入力された検索条件とを受信し、受信された矩形情報と、検索用ファイルに含まれる文字情報とを用いて、当該矩形領域に配置される文字列を含む行であって、検索対象とすべき行を特定し、特定された行に対して、受信された検索条件を用いて、検索処理を実行する。
【選択図】図7
Description
帳票を検索する技術分野に関する。
一般的に業務を行う際には、業務に必要な情報を収集する必要があるため、これまでは電子帳票システム内に格納されている帳票の中から、電子帳票システムの検索機能を利用して必要な情報を収集していた。電子帳票システムではきめ細かい検索が可能で、効率的に情報を収集することができていたためである。
一方、昨今では電子帳票システムに格納されない、マイクロソフト社の「Office」アプリケーションファイルや、メールに添付されるファイル(例えば、PDFファイルなど)、Webの情報など、オープン系のドキュメントが多くなってきているが、電子帳票システムのようにきめ細かい検索ができるわけではないため、これらの情報の中から業務に必要なドキュメント、情報を探す負荷は非常に高いものとなっている。また、これらの情報を検索する際には、分散しているシステムから、それぞれのシステムの機能を利用して帳票やドキュメントを検索する必要があるが、システムごとに検索機能に差異があり、十分な検索を行うことができず、必要なドキュメントを漏らしてしまう、関連性の低いドキュメントを抽出してしまう、といった不都合も発生している。
そのため、電子帳票のデータをPDFファイル等の汎用的なフォーマットに変換し、ファイリングシステムで一元管理するようなことも行われているが、一般的なファイリングシステムでは、検索機能に課題があることが多い。例えば、ドキュメントに対して、キーワードを登録したり、ドキュメント内部の全文検索を行ったりすることで検索機能を実現しているが、前者では、事前に必要なキーワードを網羅して登録できない場合に検索に引っかからない、また、後者では「東京」のような一般的な単語では多くのドキュメントでヒットしてしまい、効率的な検索ができないという問題がある。
また、PDFファイルは、その特性上、作成元アプリケーションや作成の仕方によって、見た目は同じでも内部的なデータの構造が異なることがあり、そのため、検索の方法を工夫せずに、検索機能を実装すると、見た目は同じでも検索を行った際に結果が異なる結果となってしまう。
例えば、マイクロソフト社の表計算ソフト「Excel」で帳票を作成し、そのファイルからPDFファイルを作成した場合に、検索がヒットする場合とヒットしない場合の説明を行う。
(1)ケース1
宛名として、「AAA株式会社」「田中太郎様」を2行のセルに配置し、「2012年12月10日」を一つのセルに配置した帳票をExcelファイルで作成した後、PDFファイルを生成した場合、後から、キーワード「AAA株式会社」、「2012年12月10日」で検索をかけた場合に、このPDFファイルはヒットする。
宛名として、「AAA株式会社」「田中太郎様」を2行のセルに配置し、「2012年12月10日」を一つのセルに配置した帳票をExcelファイルで作成した後、PDFファイルを生成した場合、後から、キーワード「AAA株式会社」、「2012年12月10日」で検索をかけた場合に、このPDFファイルはヒットする。
(2)ケース2
宛名として、「AAA株式会社」「田中太郎様」を2行のセルに配置してから一つのセルに結合し、「2012年12月10日」を一つのセルに配置した帳票をExcelファイルで作成した後、PDFファイルを生成した場合、後から、キーワード「AAA株式会社」、「2012年12月10日」で検索をかけた場合に、このPDFファイルはヒットしない。
宛名として、「AAA株式会社」「田中太郎様」を2行のセルに配置してから一つのセルに結合し、「2012年12月10日」を一つのセルに配置した帳票をExcelファイルで作成した後、PDFファイルを生成した場合、後から、キーワード「AAA株式会社」、「2012年12月10日」で検索をかけた場合に、このPDFファイルはヒットしない。
(3)ケース3
宛名として、「AAA株式会社」「田中太郎様」を1つのセルの中で改行して2行に配置し、「2012年12月10日」を一つのセルに配置した帳票をExcelファイルで作成した後、PDFファイルを生成した場合、後から、キーワード「AAA株式会社」、「2012年12月10日」で検索をかけた場合に、このPDFファイルはヒットしない。
宛名として、「AAA株式会社」「田中太郎様」を1つのセルの中で改行して2行に配置し、「2012年12月10日」を一つのセルに配置した帳票をExcelファイルで作成した後、PDFファイルを生成した場合、後から、キーワード「AAA株式会社」、「2012年12月10日」で検索をかけた場合に、このPDFファイルはヒットしない。
いずれも見た目は同じレイアウトの帳票として作成できるものであるが、文字列をセルにどのように配置するかによって、PDFファイル化した後に、検索がヒットする場合とヒットしない場合に分かれるため、検索漏れが生じることになってしまう。
したがって、表計算ファイルから変換したPDFファイルを電子帳票システムに登録できるようにした場合には、このPDFファイルについて、通常の帳票検索と同様の検索ができる仕組みが求められる。
一方、特許文献1には、一般のオフィスでやり取りされる文書ファイルを帳票ファイルとして取り扱い、当該文書ファイル内の情報について効率的に検索を行えるようにする技術が開示されている。具体的には、一般のオフィスでやり取りされる文書ファイルに基づき作成される帳票ファイルを、ホストコンピュータより入力される印刷データから変換された帳票ファイルと同様に取り扱えるようにすることを可能とするため、文書ファイルの登録時に、文書ファイルの内容を解析して帳票のイメージデータと検索用データを予め登録しておき、検索時にその検索用データを用いて、検索処理を行うものである。
しかしながら、特許文献1に記載の技術は、検索キーワードが入力された場合に、検索用データを用いて、同一行の結合を行い、その行の中に検索キーワードが含まれるかにより検索を行うものであることから、例えば、単純な繰り返し明細に対して検索を行う場合、ユーザは帳票上の任意の領域を選択することなく検索キーワードの入力を行うだけで、検索キーワードを含む明細行を特定するができるといったものであり、ユーザが任意に選択した矩形領域に含まれる文字列に対して検索を行うことについては何らの開示もなされていない。
本発明は、上記課題を解決するものであり、PDFファイルを電子帳票システムに帳票として登録した際に、ユーザにより任意に選択された当該帳票上の矩形領域に含まれる文字列に対して検索処理を行うことを可能とする仕組みを提供する。
本発明は、PDFファイルを帳票ファイルとして登録可能な情報処理装置であって、前記PDFファイルを取得する取得手段と、前記取得手段によりPDFファイルを取得したことに応じて、当該PDFファイルから抽出された文字情報を含む検索用ファイルを生成する生成手段と、前記取得手段により取得されたPDFファイルと、前記生成手段により生成された検索用ファイルとを対応付けて一つの帳票ファイルとしてデータベースに登録する登録手段と、前記登録手段によりデータベースに登録された帳票ファイルに対する閲覧要求に応じて、当該帳票ファイルに対応付けられるPDFファイルを用いて生成された帳票イメージデータを送信する送信手段と、前記送信手段により送信された帳票イメージデータを用いて表示される帳票イメージ上のユーザにより選択された任意の矩形領域を特定可能な矩形情報と、ユーザにより入力された検索条件とを受信する受信手段と、前記受信手段により受信された矩形情報と、前記閲覧要求がなされた帳票ファイルに対応付けられる前記登録手段によりデータベースに登録された検索用ファイルに含まれる文字情報とを用いて、当該矩形領域に配置される文字列を含む行であって、検索対象とすべき行を特定する特定手段と、前記特定手段により特定された行に対して、前記受信手段により受信された検索条件を用いて、検索処理を実行する検索手段とを備えることを特徴とする。
本発明によれば、PDFファイルを電子帳票システムに帳票として登録した際に、ユーザにより任意に選択された当該帳票上の矩形領域に含まれる文字列に対して検索処理を行うことを可能とする仕組みを提供することができる。
以下、本発明の実施形態について図面に基づいて説明する。
図1は、システム構成の一例を示す図である。図1において、ホストコンピュータ(ホストプリンタ)101は、電子帳票システム102に登録をする電子ファイル(実データともいう。)を生成する。また、本発明の実施の形態では、PDFファイルを電子帳票システムに送信することも行うものとする。このドキュメントは、ホストコンピュータが生成したものであっても、ユーザにより登録されたものであってもよい。なお、PDFファイルは、PDF作成アプリケーションにより、オリジナルで作成されたものや、任意のアプリケーションファイルから変換されたPDFファイルであってもよい。
電子帳票システム102は、電子ファイルを電子帳票(フォームファイルと実データとから構成される電子的なファイルであり、帳票ファイルともいう。)として登録して、ネットワーク105を介してクライアントPC103、104に対して、電子帳票の閲覧や検索等のサービスを提供する。本実施の形態では、PDFファイルをデータベースへ登録し、このドキュメントに対する検索サービスの提供も行う。また、電子帳票システムは、1つのサーバ(情報処理装置)により構成されているものとする。なお、電子帳票システムでは、PDFファイルを受信した際に、このPDFファイルを分析できる機能を備える。例えば、外部ライブラリ(API)を読み出す等により、PDFファイルの分析を行う方法などがある。
クライアントPC103、104は、電子帳票の閲覧及び計算結果の取得を行う者が使用するクライアント端末であり、ネットワーク105を介して、電子帳票システム102とデータの送受信が可能である。ネットワーク105は、例えばLAN(Local Area Network)やインターネット等である。なお、クライアントPCから、電子帳票システムに汎用的なフォーマットのドキュメントを送信してもよい。
なお、図1のネットワーク上に接続される各種端末の構成は一例であり、用途や目的に応じて様々な構成例がある。本実施の形態では、このシステムを情報処理システムという。
次に、図1の電子帳票システム102のハードウェア構成について、図2を用いて説明する。
図2は、電子帳票システムのハードウェア構成の一例を示す図である。
図1において、CPU201は、システムバス204に接続される各デバイスを統括的に制御する。また、ROM203或いは外部メモリ211には、CPU201の制御プログラムであるオペレーティングシステム(OS)や、後述する各種機能を実現するためのプログラムが記憶されている。
RAM202は、CPU201の主メモリ、ワークエリア、一時待避領域等として機能する。
入力コントローラ205は、入力部209からの入力を制御する。この入力部209としては、例えば、キーボード、マウス等のポインティングデバイスであってもよいし、タッチパネル、ボタン、スイッチ等であってもよい。
表示コントローラ206は、表示部210の表示を制御する。この表示部210としては、例えば、CRTや液晶等が挙げられる。
外部メモリコントローラ(MC)207は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、プリンタドライバ等を記憶する外部メモリ211へのアクセスを制御する。外部メモリ211には、加えて、各種テーブル、パラメー等が記憶されている。この外部メモリ211としては、ハードディスク(HD)やフレキシブルディスク(FD)、PCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)、スマートメディア等が挙げられる。
通信I/Fコントローラ208は、ネットワーク105を介して外部機器との通信制御処理を実行する。
本実施形態を実現するためのプログラム212は外部メモリ211に記録されており、必要に応じてRAM202にロードされることによりCPU201によって実行されるものである。更に、本実施形態に係るプログラム212が用いる帳票ファイル213は外部メモリ211(外部のデータベース)に格納されており、これらについての詳細な説明は後述する。
クライアントPC103、104やホスト101のハードウェア構成も電子帳票システム102と同様である。しかし、各装置のプログラムは、電子帳票システム102のプログラム212とは異なる。また、帳票ファイル213は、クライアントPC103が元来保持していることはないものである点等が異なる。
帳票ファイル213(電子帳票)は、帳票の形式を定義するフォームデータと帳票データとから生成された、帳票の表示用データを表すものであって、単独又は複数のファイルによって構成され、単数又は複数のページを含有している。電子帳票システム102の内部においては、複数の帳票ファイル213のうち同一種類のものをグループ化して管理しており、それぞれの帳票ファイル213はそのグループの中の世代と呼ばれる。
次に、PDFファイルを電子帳票システムに登録する処理の流れを説明する。
図3は、本発明の実施の形態における登録処理の流れを示すフローチャートである。
次に、PDFファイルを電子帳票システムに登録する処理の流れを説明する。
図3は、本発明の実施の形態における登録処理の流れを示すフローチャートである。
ステップS301において、電子帳票システムは、PDFファイルを受信する。PDFファイルは、ホストコンピュータやクライアントPC等から送信されるものである。そして、オリジナルのPDFファイルをデータベースに登録して、電子帳票として管理する。この際、このPDFファイルを電子帳票システムで識別するための帳票特定情報(ヘッダ情報、帳票ID、ディレクトリID、世代日付、ページ数など)が付与されることになる。
ステップS302において、電子帳票システムは、外部ライブラリのAPIを利用して、受信したPDFファイルを読み込む処理を行う。
ステップS302において、電子帳票システムは、外部ライブラリのAPIを利用して、受信したPDFファイルを読み込む処理を行う。
ステップS303において、電子帳票システムは、読み込んだPDFファイルからテキストデータ(文字列データ)を抽出する処理を行う。この際、ページに関する情報(各ページに何文字のテキストデータを含むかといった情報)も抽出する。
ステップS304において、電子帳票システムは、抽出したテキストデータ(文字列データ)に含まれる1文字毎に、4点座標、書誌情報(色情報、フォントサイズ、フォント情報)などを取得する。
ステップS305において、電子帳票システムは、抽出したテキストデータに含まれる全ての文字について、ステップS304の処理を行ったかを判定する。Yesの場合、S306へ進み、Noの場合、S304へ戻る。
ステップS306において、電子帳票システムは、PDFファイルの帳票特定情報に、抽出した、ページ情報、文字情報とを対応付けた検索ファイルをデータベースへ登録する処理を行う。検索ファイルの一例を図4に示す。
図4は、本発明の実施の形態における検索ファイルの一例を示す図である。
図4に示す通り、帳票特定情報401、ページ情報402、文字情報403がそれぞれ対応付けられている。
図4は、本発明の実施の形態における検索ファイルの一例を示す図である。
図4に示す通り、帳票特定情報401、ページ情報402、文字情報403がそれぞれ対応付けられている。
帳票特定情報401には、ヘッダ情報、帳票ID、ディレクトリID、世代日付、ページ数が含まれる。ヘッダ情報は、電子帳票の種別を特定する情報である。帳票IDは、電子帳票システムにおいて電子帳票を識別するためのIDである。ディレクトリIDは、電子帳票が保存されているディレクトリを示すIDである。世代日付とは、電子帳票の世代や日付を特定する情報である。ページ数は、電子帳票に含まれるページ数である。
ページ情報402には、ページ番号、ページ内文字数が含まれる。ページ番号は、電子帳票(PDFファイル)中のページ番号を示すものである。ページ内文字数は、該当ページ内に含まれる文字数を示すものである。
文字情報403には、印字文字の文字コード、座標情報(左上、右上、左下、右下)、色情報(R、G、B)、フォントサイズ、フォント情報が含まれる。印字文字の文字コードは、文字を特定するコードである。座標情報は、電子帳票(PDFファイル)上に文字が配置される位置を特定する情報であり、4点座標により特定している。色情報は、文字の色を特定する情報である。フォントサイズは、文字の大きさを特定する情報である。フォント情報は、文字のフォントの種別を特定する情報である。
以上、PDFファイルを電子帳票システムに登録する処理の流れを説明した。
次に、電子帳票システムに登録したPDFファイルに対して検索する処理の流れを説明する。
図5は、本発明の実施の形態における検索処理の流れを示すフローチャートである。
以上、PDFファイルを電子帳票システムに登録する処理の流れを説明した。
次に、電子帳票システムに登録したPDFファイルに対して検索する処理の流れを説明する。
図5は、本発明の実施の形態における検索処理の流れを示すフローチャートである。
ステップS501において、クライアント端末は、ユーザの操作に従って、電子帳票システムに対して、電子帳票システムで管理される電子帳票の一覧を要求する。なお、要求を行うアプリケーションは、専用アプリケーションであっても、Webブラウザを介したものであってもよい。専用アプリケーションで要求を行う場合は、電子帳票システムは、専用のサーバアプリケーションにより構成され、また、Webブラウザを介して要求を行う場合は、電子帳票システムは、Webアプリケーションとして構成されているものとする。
ステップS502において、電子帳票システムは、要求を受け付ける。
ステップS503において、電子帳票システムは、要求元のユーザの権限で参照することができる電子帳票の一覧情報を送信する。
ステップS504において、クライアント端末は、電子帳票の一覧情報を受信して、選択可能に表示させる。
ステップS502において、電子帳票システムは、要求を受け付ける。
ステップS503において、電子帳票システムは、要求元のユーザの権限で参照することができる電子帳票の一覧情報を送信する。
ステップS504において、クライアント端末は、電子帳票の一覧情報を受信して、選択可能に表示させる。
ステップS505において、クライアント端末は、一覧から任意の電子帳票の選択を受け付ける。なお、本発明の実施の形態では、電子帳票システムにおいて、電子帳票として管理されているPDFファイルが選択されたものとして以下に説明を行う。
ステップS506において、クライアント端末は、電子帳票システムに対して、選択を受け付けた電子帳票を要求する。
ステップS507において、電子帳票システムは、要求を受け付ける。
ステップS506において、クライアント端末は、電子帳票システムに対して、選択を受け付けた電子帳票を要求する。
ステップS507において、電子帳票システムは、要求を受け付ける。
ステップS508において、電子帳票システムは、要求を受けた電子帳票を送信する。ここでは、外部ライブラリを読み込んで、該当するPDFファイルから画像化したイメージデータを取得して、イメージデータを電子帳票として送信する。なお、本発明の実施の形態では、この選択時にイメージデータの取得を行っているが、PDFファイルの登録時に、あらかじめイメージデータの取得を行っておいてもよい。処理性能と記憶容量のトレードオフの関係となるため、利用ユーザのニーズに応じて任意に選択することができるものである。
ステップS509において、クライアント端末は、電子帳票(帳票イメージデータ)を受信する。
ステップS509において、クライアント端末は、電子帳票(帳票イメージデータ)を受信する。
ステップS510において、クライアント端末は、受信した帳票イメージデータを用いて帳票イメージを表示装置の表示する制御を行う。なお、帳票イメージは、専用アプリケーションもしくはWebブラウザ内に表示される。
ステップS511において、クライアント端末は、ユーザの操作に従って、表示された帳票イメージ上の任意に選択された矩形情報を取得する。例えば、マウスイベントによって指定された矩形情報(座標情報)を取得することとなる。図6に電子帳票のイメージから矩形を選択した一例を示す。図6は、本発明の実施の形態における矩形選択の一例を示す図である。図6の例では、矩形領域601、矩形領域602、矩形領域603の3つの矩形領域が選択されたことを示している。その後、検索条件入力欄(不図示)に入力された選択された矩形領域に対する検索条件を受け付ける。例えば、検索文字列(検索キーワード)の入力を受け付ける。
ステップS512において、クライアント端末は、電子帳票システムに対して、指定された矩形情報と検索条件とを送信して、検索処理を実行する旨の指示を行う。
ステップS513において、電子帳票システムは、矩形情報と検索条件とを含む検索要求を受け付ける。なお、矩形情報は、一つでなく、複数であってもよい。
ステップS514において、電子帳票システムは、検索処理を実行する。この検索処理は、図7を用いて、詳細に説明する。
図7は、本発明の実施の形態における検索処理の詳細な処理の流れを示すフローチャートである。
ステップS513において、電子帳票システムは、矩形情報と検索条件とを含む検索要求を受け付ける。なお、矩形情報は、一つでなく、複数であってもよい。
ステップS514において、電子帳票システムは、検索処理を実行する。この検索処理は、図7を用いて、詳細に説明する。
図7は、本発明の実施の形態における検索処理の詳細な処理の流れを示すフローチャートである。
ステップS701において、電子帳票システムは、検索用ファイルから、選択矩形範囲内の文字をテキスト集合として抽出する。より具体的には、現在選択されているPDFファイルに対応する検索ファイルから、ユーザにより選択を受け付けた帳票イメージ上の矩形の範囲を示す座標情報を用いて、その矩形に含まれるテキストデータをテキスト集合として抽出する。なお、矩形情報を複数受信していた場合は、矩形情報ごとに図7の処理が繰り返し行われるものとする。
ステップS702において、電子帳票システムは、テキスト集合から、中心点の座標が矩形領域に含まれ、最もY座標が大きく、最もX座標が小さい文字を基準文字Aとして検出する。
ステップS703において、電子帳票システムは、テキスト集合から、左上から1文字ずつ読み込む。読み込んだ文字を文字Bとする。
ステップS703において、電子帳票システムは、テキスト集合から、左上から1文字ずつ読み込む。読み込んだ文字を文字Bとする。
ステップS708において、電子帳票システムは、文字Aと文字Bを比較して、同一行であるかの判定を行う。Yesの場合、S705へ進み、Noの場合、S706へ進む。本発明の実施の形態における同一行の判定方法を、図8を用いて説明する。
図8は、本発明の実施の形態における同一行の判定方法を説明する図である。
図8は、本発明の実施の形態における同一行の判定方法を説明する図である。
同一行判定条件は、文字A「あ」の中心座標のY座標と、文字B「い」の中心座標のY座標との差が、同一行判定条件の設定値(矩形内で最も左上となる基準文字の高さに対する%指定)以内であるかにより判定する(この%指定された値を、設定値(%)という。)。したがって、「AyとByの差=<c」のときは同一行と判定し、「AyとByの差>c」のときは別の行と判定する。
ステップS705において、電子帳票システムは、1行化済データとして、行確定テーブルに、行番号、文字情報を格納する。なお、最初に同一行と判定された場合は、行番号を発番して、文字Aと文字Bの文字情報を格納する。次回以降は、文字Bの文字情報を追加して登録することとなる。ここで、行確定テーブルの一例を、図9に示す。
図9は、本発明の実施の形態における確定行テーブルの一例を示す図である。
図9は、本発明の実施の形態における確定行テーブルの一例を示す図である。
確定行テーブルには、帳票特定情報901、ページ情報902、ライン情報903、文字情報904が含まれる。なお、帳票特定情報901、ページ情報902、文字情報904は、図4に示す検索ファイルに含まれる帳票特定情報401、ページ情報402、文字情報404のフォーマットと同じフォーマットとなっている。また、ライン情報903は、一行化した行(ライン)を特定する識別情報である。
ステップS706において、電子帳票システムは、行未確定テーブルに、文字情報を追加して格納する。なお、行未確定テーブルのフォーマットは、図4に示す検索ファイルのフォーマットと同一のものとする。
ステップS707において、電子帳票システムは、テキスト集合の中で、未処理の文字があるかを判定する。Yesの場合、S709へ進み、Noの場合、S710へ進む。
ステップS709において、電子帳票システムは、行確定テーブルの行番号をインクリメントし、行未確定テーブルの全文字をテキスト集合として、ステップS702に戻り、処理を継続する。
ステップS710において、電子帳票システムは、行確定テーブルに対して、検索条件として受け付けた検索文字列で検索を行い、検索がヒットした行番号・文字列情報を含む検索結果を出力する。
ステップS515において、電子帳票システムは、出力した検索結果を送信する。
ステップS516において、クライアント端末は、検索結果を受信する。
ステップS517において、クライアント端末は、受信した検索結果をユーザに識別可能に表示する処理を行う。
以上、電子帳票システムに登録したPDFファイルに対して検索する処理の流れを説明した。
ステップS515において、電子帳票システムは、出力した検索結果を送信する。
ステップS516において、クライアント端末は、検索結果を受信する。
ステップS517において、クライアント端末は、受信した検索結果をユーザに識別可能に表示する処理を行う。
以上、電子帳票システムに登録したPDFファイルに対して検索する処理の流れを説明した。
上述した通り、本発明によれば、PDFファイルを電子帳票システムに帳票として登録した際に、ユーザにより任意に選択された当該帳票上の矩形領域に含まれる文字列に対して検索処理を行うことを可能とする仕組みを提供することができる。
また、「東京」などの一般的な用語であっても、電子帳票の特定の箇所を矩形として検索することで「東京支店」に関連する情報を検索することができるようになる。
また、適切な検索結果を返すことが出来るようになり、検索漏れ、非効率な検索を割けることができるようになる。
また、適切な検索結果を返すことが出来るようになり、検索漏れ、非効率な検索を割けることができるようになる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、
種々の変形・変更が可能である。
種々の変形・変更が可能である。
また、本発明の目的は、以下のようにすることによって達成される。即ち、上述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(又は記録媒体)を、システム或いは装置に供給する。そして、そのシステム或いは装置の中央演算処理手段(CPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行する。この場合、記憶媒体から読み出されたプログラムコード自体が上述した実施形態の機能を実現することになり、そのプログラムコードを記録した記憶媒体は本発明を構成することになる。
また、システム或いは装置の前記中央演算処理手段が読み出したプログラムコードを実行することにより、そのプログラムコードの指示に基づき、システム或いは装置上で稼働しているオペレーティングシステム(OS)等が実際の処理の一部又は全部を行う。その処理によって上述した実施形態の機能が実現される場合も含まれる。
更に、記憶媒体から読み出されたプログラムコードが、前記システム或いは装置に挿入された機能拡張カードや、接続された機能拡張ユニットに備わるメモリに書込まれたとする。その後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPU等が実際の処理の一部又は全部を行い、その処理によって上述した実施形態の機能が実現される場合も含まれる。
本発明を前記記憶媒体に適用する場合、その記憶媒体(コンピュータ読み取り可能な記憶媒体)には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
101 ホスト
102 電子帳票システム
103 クライアントPC
104 クライアントPC
102 電子帳票システム
103 クライアントPC
104 クライアントPC
Claims (6)
- PDFファイルを帳票ファイルとして登録可能な情報処理装置であって、
前記PDFファイルを取得する取得手段と、
前記取得手段によりPDFファイルを取得したことに応じて、当該PDFファイルから抽出された文字情報を含む検索用ファイルを生成する生成手段と、
前記取得手段により取得されたPDFファイルと、前記生成手段により生成された検索用ファイルとを対応付けて一つの帳票ファイルとしてデータベースに登録する登録手段と、
前記登録手段によりデータベースに登録された帳票ファイルに対する閲覧要求に応じて、当該帳票ファイルに対応付けられるPDFファイルを用いて生成された帳票イメージデータを送信する送信手段と、
前記送信手段により送信された帳票イメージデータを用いて表示される帳票イメージ上のユーザにより選択された任意の矩形領域を特定可能な矩形情報と、ユーザにより入力された検索条件とを受信する受信手段と、
前記受信手段により受信された矩形情報と、前記閲覧要求がなされた帳票ファイルに対応付けられる前記登録手段によりデータベースに登録された検索用ファイルに含まれる文字情報とを用いて、当該矩形領域に配置される文字列を含む行であって、検索対象とすべき行を特定する特定手段と、
前記特定手段により特定された行に対して、前記受信手段により受信された検索条件を用いて、検索処理を実行する検索手段と
を備えることを特徴とする情報処理装置。 - 前記特定手段は、検索用ファイルに含まれる文字情報を用いて、前記矩形領域に配置されるそれぞれの文字の配置位置から、所定の範囲内に配置される1または複数の文字を含む行を検索対象とすべき行として特定することを特徴とする請求項1に記載の情報処理装置。
- 前記特定手段は、検索用ファイルに含まれる文字情報を用いて、前記矩形領域に配置される基準となる文字の中心点から、所定の範囲内に中心点が配置される1または複数の文字を含む行を検索対象とすべき行として特定することを特徴とする請求項1に記載の情報処理装置。
- PDFファイルを帳票ファイルとして登録可能な情報処理装置において実行可能な情報処理方法であって、
前記PDFファイルを取得する取得ステップと、
前記取得ステップによりPDFファイルを取得したことに応じて、当該PDFファイルから抽出された文字情報を含む検索用ファイルを生成する生成ステップと、
前記取得ステップにより取得されたPDFファイルと、前記生成ステップにより生成された検索用ファイルとを対応付けて一つの帳票ファイルとしてデータベースに登録する登録ステップと、
前記登録ステップによりデータベースに登録された帳票ファイルに対する閲覧要求に応じて、当該帳票ファイルに対応付けられるPDFファイルを用いて生成された帳票イメージデータを送信する送信ステップと、
前記送信ステップにより送信された帳票イメージデータを用いて表示される帳票イメージ上のユーザにより選択された任意の矩形領域を特定可能な矩形情報と、ユーザにより入力された検索条件とを受信する受信ステップと、
前記受信ステップにより受信された矩形情報と、前記閲覧要求がなされた帳票ファイルに対応付けられる前記登録ステップによりデータベースに登録された検索用ファイルに含まれる文字情報とを用いて、当該矩形領域に配置される文字列を含む行であって、検索対象とすべき行を特定する特定ステップと、
前記特定ステップにより特定された行に対して、前記受信ステップにより受信された検索条件を用いて、検索処理を実行する検索ステップと
を含むことを特徴とする情報処理方法。 - PDFファイルを帳票ファイルとして登録可能な情報処理装置において実行可能なプログラムであって、
前記PDFファイルを取得する取得手段、
前記取得手段によりPDFファイルを取得したことに応じて、当該PDFファイルから抽出された文字情報を含む検索用ファイルを生成する生成手段、
前記取得手段により取得されたPDFファイルと、前記生成手段により生成された検索用ファイルとを対応付けて一つの帳票ファイルとしてデータベースに登録する登録手段、
前記登録手段によりデータベースに登録された帳票ファイルに対する閲覧要求に応じて、当該帳票ファイルに対応付けられるPDFファイルを用いて生成された帳票イメージデータを送信する送信手段、
前記送信手段により送信された帳票イメージデータを用いて表示される帳票イメージ上のユーザにより選択された任意の矩形領域を特定可能な矩形情報と、ユーザにより入力された検索条件とを受信する受信手段、
前記受信手段により受信された矩形情報と、前記閲覧要求がなされた帳票ファイルに対応付けられる前記登録手段によりデータベースに登録された検索用ファイルに含まれる文字情報とを用いて、当該矩形領域に配置される文字列を含む行であって、検索対象とすべき行を特定する特定手段、
前記特定手段により特定された行に対して、前記受信手段により受信された検索条件を用いて、検索処理を実行する検索手段
として前記情報処理装置を機能させることを特徴とするプログラム。 - クライアント端末と、PDFファイルを帳票ファイルとして登録可能な情報処理装置とが通信可能な情報処理装置であって、
前記情報処理装置は、
前記PDFファイルを取得する取得手段と、
前記取得手段によりPDFファイルを取得したことに応じて、当該PDFファイルから抽出された文字情報を含む検索用ファイルを生成する生成手段と、
前記取得手段により取得されたPDFファイルと、前記生成手段により生成された検索用ファイルとを対応付けて一つの帳票ファイルとしてデータベースに登録する登録手段と、
前記登録手段によりデータベースに登録された帳票ファイルに対する閲覧要求に応じて、当該帳票ファイルに対応付けられるPDFファイルを用いて生成された帳票イメージデータを送信する送信手段と、
前記送信手段により送信された帳票イメージデータを用いて表示される帳票イメージ上のユーザにより選択された任意の矩形領域を特定可能な矩形情報と、ユーザにより入力された検索条件とを受信する受信手段と、
前記受信手段により受信された矩形情報と、前記閲覧要求がなされた帳票ファイルに対応付けられる前記登録手段によりデータベースに登録された検索用ファイルに含まれる文字情報とを用いて、当該矩形領域に配置される文字列を含む行であって、検索対象とすべき行を特定する特定手段と、
前記特定手段により特定された行に対して、前記受信手段により受信された検索条件を用いて、検索処理を実行する検索手段とを備え、
前記クライアント端末は、
前記送信手段により送信された帳票イメージデータを用いて、帳票イメージを表示装置に表示させる制御を行う表示手段と、
前記表示手段により表示された帳票イメージ上の任意の矩形領域の選択と、検索条件の入力とを受け付ける入力手段と、
前記入力手段により入力された矩形領域を特定可能な矩形情報と、検索条件とを用いて、検索をさせる指示を行う検索指示手段と
を備えることを特徴とする情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012274218A JP2014119939A (ja) | 2012-12-17 | 2012-12-17 | 情報処理装置、情報処理方法、プログラム、情報処理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012274218A JP2014119939A (ja) | 2012-12-17 | 2012-12-17 | 情報処理装置、情報処理方法、プログラム、情報処理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014119939A true JP2014119939A (ja) | 2014-06-30 |
Family
ID=51174727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012274218A Pending JP2014119939A (ja) | 2012-12-17 | 2012-12-17 | 情報処理装置、情報処理方法、プログラム、情報処理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014119939A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016091131A (ja) * | 2014-10-31 | 2016-05-23 | キヤノンマーケティングジャパン株式会社 | 情報処理装置とその処理方法及びプログラム。 |
JP6818923B1 (ja) * | 2020-04-02 | 2021-01-27 | 株式会社スカイコム | 情報処理装置、データ連携システム、方法およびプログラム |
-
2012
- 2012-12-17 JP JP2012274218A patent/JP2014119939A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016091131A (ja) * | 2014-10-31 | 2016-05-23 | キヤノンマーケティングジャパン株式会社 | 情報処理装置とその処理方法及びプログラム。 |
JP6818923B1 (ja) * | 2020-04-02 | 2021-01-27 | 株式会社スカイコム | 情報処理装置、データ連携システム、方法およびプログラム |
JP2021163363A (ja) * | 2020-04-02 | 2021-10-11 | 株式会社スカイコム | 情報処理装置、データ連携システム、方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5353148B2 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
JP2010073114A6 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
JP5270018B1 (ja) | システム及び手書き文書管理方法 | |
JP2012221148A (ja) | 画像処理方法、及び、画像処理システム | |
JP6262708B2 (ja) | 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法 | |
JP2007179201A (ja) | 電子帳票管理装置、検索結果出力方法、プログラム及び記憶媒体 | |
US20090300001A1 (en) | Server apparatus, catalog processing method, and computer-readable storage medium | |
JP2014119939A (ja) | 情報処理装置、情報処理方法、プログラム、情報処理システム | |
JP2010092383A (ja) | 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム | |
JP2010020703A (ja) | 文書管理装置、文書管理方法及びプログラム | |
JP6140835B2 (ja) | 情報検索システムおよび情報検索方法 | |
US20120239662A1 (en) | Document management apparatus and document management method | |
JP2009163412A (ja) | 情報処理装置および方法 | |
JP2014010640A (ja) | 画像検索装置、情報処理方法、プログラム | |
JP5718630B2 (ja) | 情報処理装置、情報資産管理システム、情報資産管理方法、及びプログラム | |
JP2010267021A (ja) | 情報処理装置及び情報処理方法 | |
US9870185B2 (en) | Print manager server, print management method, and storage medium for predictive print preview of print jobs | |
JP6124640B2 (ja) | 文書管理装置、情報処理方法及びプログラム | |
US10895958B2 (en) | Electronic document management device, electronic document management system, and electronic document management program | |
JP2014207019A (ja) | 情報処理装置、その制御方法、及びプログラム、並びに情報処理システム、その制御方法、及びプログラム | |
JP5907101B2 (ja) | 文書管理装置及びプログラム | |
JP4248447B2 (ja) | 情報処理装置、情報処理システム、情報処理方法及びプログラム | |
JP2005190436A (ja) | 電子帳票管理サーバ装置、クライアント端末装置、出力データ作成システム、出力データ作成方法、コンピュータプログラム | |
JP2009245061A (ja) | 検索サーバ及びコンピュータプログラム | |
JP2005165452A (ja) | 情報処理装置、クライアント端末装置、情報処理方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20150410 |