JP5252902B2 - 業務文書処理システム - Google Patents

業務文書処理システム Download PDF

Info

Publication number
JP5252902B2
JP5252902B2 JP2007317243A JP2007317243A JP5252902B2 JP 5252902 B2 JP5252902 B2 JP 5252902B2 JP 2007317243 A JP2007317243 A JP 2007317243A JP 2007317243 A JP2007317243 A JP 2007317243A JP 5252902 B2 JP5252902 B2 JP 5252902B2
Authority
JP
Japan
Prior art keywords
search
business document
index
format
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007317243A
Other languages
English (en)
Other versions
JP2009140328A (ja
Inventor
俊子 松本
亮 中重
康行 野崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2007317243A priority Critical patent/JP5252902B2/ja
Publication of JP2009140328A publication Critical patent/JP2009140328A/ja
Application granted granted Critical
Publication of JP5252902B2 publication Critical patent/JP5252902B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書構造を利用した業務文書の検索技術に関する。
組織内に蓄積された膨大な量の業務文書に対して、検索により有効活用を図り、組織内の知識の共有を行おうとする動きがある。このような需要に対して、ファスト サーチ&トランスファ株式会社やグーグル株式会社などが高速な文書検索技術を提供しており、エンタープライズサーチと呼ばれる、企業内のサイトやデータを複数のサイト間で横断的・総合的に検索するシステムの市場が急速に形成されつつある。これらの検索において対象となるのは、文字列(plain text)データである。単語レベルやn-gramであらかじめインデックスを構築しておくことにより、高速な検索を可能としている。
一方、組織内で作成される文書はplain textであるとは限らず、マイクロソフト株式会社のMicrosoft Office Word・Microsoft Office Excelや、アドビシステムズ株式会社のAdobe PDFなどのフォーマットの文書も多く利用されている。これらのフォーマットの文書を検索対象とする場合は、ファイル内に含まれる文字列情報を抽出しておいて検索対象とする方法が一般的である。また、特許文献1に示すような、表を検索対象とする検索手法についても提案されている。
特開2007−179203号公報
ところで、組織内で作成される文書には、図1〜図3に例示するような表が含まれる文書、図4に例示するような、右寄せ・左寄せ・センタリングなど書式情報が指定された文書や、図5に例示するような、Microsoft Office Excel等の表計算ソフトで作成することで整形を行った文書などが多く含まれる。
従来のエンタープライズサーチでは、こういったファイルを対象として検索を行う際には、文書内に含まれる文字列を検索対象としていた。このため、図1〜図3および図5に例示した文書においては、表の各セルの位置関係が無視されて検索される。また、図4に例示した文書においては、書式情報が無視されて検索される。この結果、例えば、図1に例示した文書において、検索対象文字列は「登録日 2007年6月1日 分類名 パソコン 品番 A001 A002 A003 品名 HyperPC 001 …」などとなり、この文字列に対して検索用インデックスが作成される。したがって、「『品番』のセルの下に『品名』のセルがある」というセル同士の位置関係を指定した検索を行うことができない。また、例えば、図4に例示した文書において、検索対象文字列は「配布先:各課 2007年8月31日 返信不要 庶務課通達 第31号 2007年上期分 〆日の連絡 …」などとなり、「右寄せで『庶務課通達』と『第31号』とある」という書式情報を指定した検索を行うことができない。
また、図1〜図3および図5に示した例はいずれも、フォーマットに記入する種類の文書である。これらの文書は、未記入の状態では文書内に含まれる文字列は項目名だけであるが、「仕様一覧」、「登録日」、「分類名」など、きわめて一般的な語しか含まれない。このため、このような文書に対し、同じフォーマットの文書をまとめて探すことを目的として項目名を検索語として(セルの位置関係を指定することなしに)検索を行っても、きわめて一般的な語を検索語として用いることになってしまい、目的としない文書を大量に誤検出してしまう。図4に示した、書式が指定された文書についても、同様の問題が生じる。業務文書では定型表現が多いため(「御中」・「依頼」・「連絡」・「配布先」・「期限」・「緊急」・「提出」・「につきまして」・「よろしくお願いいたします」・「以上」など)、文書内の表現としてのバラエティが少ない。このため、検索エンジンの精度が下がってしまい、目的としない文書を大量に誤検出してしまう。
さらに、特許文献1に開示の方法は、罫線情報を基にセルを切り出し、検索クエリと比較するものなので、検索処理を高速に実行することができない。
本発明はこのような状況に鑑みてなされたものであり、表の各セルの位置関係や書式情報を指定した検索を高速に行うための文書処理を提供するものである。
上記課題を解決するために、文書中の表を文字列にエンコードした結果を用いて検索用インデックスを予め構築しておくことを特徴とする。これにより、エンタープライズサーチ分野で利用されている高速な文字列検索手法を活用して、表の各セルの位置関係を指定した検索を行うことができる。
本発明は、表内の隣接するセルの組に対し、両セル内の文字列を、隣接関係を示す記号でつないだ文字列にエンコードすることを特徴とする。例えば、図1に例示した文書に含まれる表の場合、「『登録日』のセルの右に『2007年6月1日』のセルがある」という隣接関係を「登録日→2007年6月1日」という文字列にエンコードし、「『登録日』のセルの下に『分類名』のセルがある」という隣接関係を「登録日↓分類名」という文字列にエンコードし、「『登録日』のセルの右下に『パソコン』のセルがある」という隣接関係を「登録日\パソコン」という文字列にエンコードし、「『分類名』のセルの下に『A002』と『A003』のセルがある」という隣接関係を「分類名↓A002」と「分類名↓A003」という文字列にエンコードする。これらのエンコード結果を基にインデックスを作成することにより、セル同士の位置関係を指定した検索が可能となる。
本発明は、文書中の書式を指定された文字列に対して、書式を埋め込んだ文字列にエンコードした結果を用いて検索用インデックスを予め構築しておく。これにより、エンタープライズサーチ分野で利用されている高速な文字列検索手法を活用して、書式情報を指定した検索を行う。
本発明は、書式を指定された文字列に対し、元々の文字列に加えて文字列内の各文字を、書式を示す記号でつないだ文字列にエンコードする。例えば、図4に例示した文書に含まれる文字列の場合、「2007年8月31日」に加えて「┤2┤0┤0┤7┤年┤8┤月┤3┤1┤日┤」とエンコードする。これにより、元々の文字列「2007年8月31日」に対して構築したインデックスを用いれば書式を指定しない検索を行うことができ、文字列内の各文字を、書式を示す記号でつないだ文字列「┤2┤0┤0┤7┤年┤8┤月┤3┤1┤日┤」に対して構築したインデックスを用いることにより、書式を指定した検索を行う。
即ち、本発明による業務文書処理装置は、業務文書の検索を実行する業務文書処理システムであって、複数の業務文書を蓄積するデータベースであって、業務文書の構造を符号化して生成された検索用インデックスを、複数の業務文書のそれぞれに対応して記憶する業務文書データベースと、利用者が入力し、業務文書の構造を示す検索クエリを受信する検索クエリ受信手段と、入力された検索クエリを符号化する検索クエリ符号化手段と、符号化された検索クエリを、業務文書データデースの検索用インデックスと比較して、検索クエリの条件に合致する業務文書を検索する検索実行手段と、検索結果を利用者に提示する検索結果提示手段と、を備える。ここで、業務文書の構造は、業務文書が表を含む場合には表を構成するセルの位置関係であり、業務文書が所定の書式で構成される場合には書式情報である。なお、業務文書が表を含む場合、検索クエリは、第1の検索語を含む第1のセルと第2の検索語を含む第2のセルとの位置関係を示すものである。また、業務文書が所定の書式で構成される場合、検索クエリは、検索語の書式情報を指定するものとなっている。
業務文書が表を含む場合、検索クエリ符号化手段は、第1のセルと第2のセルとの隣接関係を示す記号を用いて第1及び第2の検索語を結合することにより、検索クエリを符号化する。また、業務文書が所定の書式で構成される場合、検索クエリ符号化手段は、検索語を構成する文字列の各文字を、所定の書式を示す記号を用いて結合することにより検索クエリを符号化する。
本発明による業務文書処理システムは、業務文書をデータベースに登録する業務文書処理システムであって、登録すべき前記業務文書の構造を分析し、分析結果に基づいて、業務文書の構造を符号化して、符号化された業務文書の構造をインデックス情報とするインデックス情報生成手段と、業務文書とインデックス情報とを対応付けて、データベースに登録する登録手段と、を備えることを特徴とする。
業務文書が表を含む場合、インデックス情報生成手段は、第1の文言を含む第1のセルと第2の文言を含む第2のセルとの位置関係を示す記号を用いて、第1の文言と第2の文言とを結合して得られた情報をインデックス情報とする。この処理は、業務文書に含まれる表の全てのセルについて実行される。
業務文書が所定の書式で構成される場合、インデックス情報生成手段は、業務文書に含まれる符号化前文字列(元の文字列)の各文字を、所定の書式を示す記号を用いて結合して得られた符号化文字列をインデックス情報とする。このとき、符号化文字列と符号化前文字列を含む文字列をインデックス情報とするようにしてもよい。この処理は、業務文書に含まれる全ての文字列について実行される。
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
本発明によれば、表の各セルの位置関係や書式情報を指定した検索を高速に行うことができるようになる。
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
<業務文書処理装置の構成>
図8は、本発明の実施形態による業務文書処理装置の概略構成を示す機能ブロック図である。業務文書処理装置は、管理業務における文書およびそれに対して構築されたインデックスを保存した文書DB800と、データを表示するための表示装置801と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード802と、マウスなどのポインティングデバイス803と、必要な演算処理及び制御処理等を行う中央処理装置804と、中央処理装置804での処理に必要なプログラムを格納するプログラムメモリ805と、中央処理装置804での処理に必要なデータを格納するデータメモリ806と、を備えている。
中央処理装置804は、文書中の表を文字列にエンコードする表エンコード処理部807と、文書中の書式を指定された文字列を、書式を埋め込んだ文字列にエンコードする書式情報エンコード処理部808と、検索用インデックスを構築するインデックス構築処理部809と、構築したインデックスを用いて検索語の検索を行う検索処理部810と、を含んでいる。
データメモリ806は、文書中に含まれる表の各セルのデータを保持するセルデータ811および、表内のセルの隣接関係や書式情報を表現するための記号を保持するエンコード記号データ812を含んでいる。セルデータ811は、文書DB800に格納されたデータに基づいて生成されたデータである。
<セルデータとエンコード記号データ>
図9は、データメモリ806に含まれるセルデータ811およびエンコード記号データ812のデータ構造を示す図である。図9Aはセルデータ811のデータ構造を示し、図9Bはエンコード記号データのデータ構造を示している。
セルデータは、文字列900、最小行番号901、最大行番号902、最小列番号903、最大列番号904を含み、文字列900を含むセルの位置関係を示している。ここで、文字列900は、そのセル内に書かれている文字列である。最小行番号901および最大行番号902は、そのセルが表の何行目にあるかを示す。例えば、図1に示す表の場合、「品番」のセルは3行目にある(1行目は「登録日」と「2007年6月1日」のセル、2行目は「分類名」と「パソコン」のセル)。従って、最小行番号901および最大行番号902は両方とも“3”になる。「オプション」のセルのように複数行にまたがるセルにおいてはこれらの値が異なるものとなる。最小列番号903および最大列番号904は、同様に、そのセルが表の何列目にあるかを示す。例えば図1に示す表の場合、「品番」のセルは1〜2列目にまたがる(1列目には「オプション」のセルが、2列目には「マウス」などのセルがある)。従って、最小列番号903は“1”に、最大列番号904は“2”になる。
エンコード記号データは、エンコード記号データ812のデータ構造を示す。隣接関係905および書式情報906を含んでいる。隣接関係905は、表内のセルの隣接関係を表現するための記号を保持する。この例では、右に位置するセルを『→』で、下に位置するセルを『↓』で、右下に位置するセルを『\』で表現する様子を示している。書式情報906は、書式情報を表現するための記号を保持する。この例では、右寄せが指定された文字列は『┤』で、左寄せが指定された文字列は『├』で表現する様子を示している。
<検索処理及びインデックス構築処理>
次に、図10乃至12を参照して、本実施形態の業務文書処理装置において実行される検索処理及びインデックス構築処理について説明する。図10は、業務文書処理装置においける全体の処理を説明するためのフローチャートである。図11は、表のエンコード処理(S1001)の詳細を説明するためのフローチャートである。図12は、書式のエンコード処理(S1002)の詳細を説明するためのフローチャートである。
(1)図10において、まず、中央処理装置804は、ユーザの指示を受付け、その指示に対応する処理が検索処理であるかインデックス構築であるかを判断する(ステップS1000)。対象処理が検索対象の文書に対するインデックス構築である場合、まず、インデックス構築処理部は、業務文書のデータを分析し、表の有無及び書式(文書構造)を判断する。そして、表エンコード処理部807は、文書内に含まれる表のエンコードを行う(ステップS1001)。また、書式情報エンコード処理部808は、書式を指定された文字列のエンコードを行う(ステップS1002)。表の各セルの中に、所定の書式を含む場合には、セル内の文字列のエンコードを行うようにしても良い。その後、インデックス構築処理部809は、エンコードされた情報から業務文書のインデックス情報を構築する(ステップS1003)。よって、文書DB800には、業務文書とそれに対応するインデックス情報が組となって蓄積されることになる。なお、ステップS1001およびステップS1002における処理は、図11および図12において後に詳述する。また、ステップS1003において行う処理は、既存のエンタープライズサーチ分野における文字列検索技術を用いて行うことができる。
ステップS1000において、ユーザの指示した処理が検索処理である場合、中央処理装置804は、セルの隣接関係と書式のどちらが指定されたかを判断する(ステップS1004)。セルの隣接関係が指定された場合、表エンコード処理部807は、検索クエリで指定されたセルの隣接関係のエンコードを行う(ステップS1005)。一方、書式が指定された場合は、書式情報エンコード処理部808は、ユーザが検索クエリを用いて指定した書式のエンコードを行う(ステップS1006)。
そして、検索処理部810は、検索クエリを実行し(ステップS1007)、得られた検索結果を返す(ステップ1007)。なお、ステップS1005における処理では、例えば、図6のような検索クエリ設定画面で指定されたセルの隣接関係がエンコードされる。図6において、検索語2のように、他のセルとの隣接関係が指定された検索語について、表エンコード処理部807は、エンコート記号データにおける隣接関係905を参照し、両セル内の文字列を、隣接関係を示す記号でつないだ文字列にエンコードする。また、ステップS1006における処理では、例えば、図7のような検索クエリ設定画面で指定された書式情報がエンコードされる。図7において、検索語1および検索語2のように書式を指定された検索語について、書式情報エンコード処理部808は、エンコード記号データにおける書式情報906を参照し、文字列内の各文字を、書式を示す記号でつないだ文字列にエンコードする。また、ステップS1007における処理は、既存のエンタープライズサーチ分野における文字列検索技術を用いて行うことができる。さらに、ステップS1008における処理は、その結果を表示装置801に表示するものである。表示結果は、例えば、図13に示すようになるが、その詳細については後述する。また、検索クエリで指定された隣接関係を含む業務文書の検索結果を表示する場合、セル同士の位置関係を示す複数の画像(例えば、サムネイル画像)を画面に表示するようにしても良い(図示せず)。これにより、利用者は、業務文書におけるセルの配置が所望のものを選択することができるようになる。
(2)続いて、図10における、文書内に含まれる表のエンコードを行う処理S1001の詳細について、図11を参照しながら説明する。図11における各工程の動作主体は、特に断らない限り、表エンコード処理部807である。
まず、隣接関係を調べる対象の一方のセル番号の初期値が設定される(S1101)。i番目(最初はi=1)のセルが存在するか否かが判断され(S1102)、存在しない場合には、処理は終了する。一方、i番目のセルが存在する場合には、処理はステップS1103に移行し、隣接関係を調べる対象のもう一方のセル番号が指定される。
次に、j番目のセルが存在するか否かが判断される(S1104)。j番目のセルが存在しない場合には、iの数値が1つだけインクリメントされ(S1105)、処理はステップS1102に戻る。
一方、j番目のセルが存在すると判断されると、処理はステップS1106に移行する。ステップS1106では、i番目とj番目の2つのセルが互いに隣接しているかどうかが調べられる。例えば、1つ目のセル(i番目のセル)の最大行番号902が2つ目のセル(j番目のセル)の最小行番号901より1つ小さく、最小列番号903と最大列番号904で指定される範囲に共有部分がある場合、2つのセルは縦方向に隣接していることになる。また、1つ目のセルの最大列番号904が2つ目のセルの最小列番号903より1つ小さく、最小行番号901と最大行番号902で指定される範囲に共有部分がある場合、2つのセルは横方向に隣接していることになる。さらに、1つ目のセルの最大行番号902が2つ目のセルの最小行番号901より1つ小さく、1つ目のセルの最大列番号904(最小列番号903)が2つ目のセルの最小列番号903(最大列番号904)より1つ小さい(1つ大きい)場合、2つのセルは斜めに隣接していることになる。これらの確認の結果、2つのセルが隣接していた場合は、以下の処理を行う。
まず、隣接関係905が参照され、隣接関係を表す記号C隣接関係が調べられる(ステップS1107)。記号C隣接関係としては、「→」や「↓」や「\」が用いられることになる。
次に、2つのセル内の文字列は、ステップS1107で調べた記号C隣接関係で結合されて、エンコード結果文字列に加えられる(ステップS1108)。なお、ステップS1106での確認の結果、2つのセルが隣接していない場合は、jの数値が1つインクリメントされ(S1109)、エンコード処理は実行されない。エンコード処理が実行されない理由については図12の説明の後に詳述する。
(3)さらに、図10における、書式を指定された文字列のエンコードを行う処理S1002の詳細について、図12を参照しながら説明する。図12における各工程の動作主体は、特に断らない限り、書式情報エンコード処理部808である。
まず、エンコード対象の文字列番号の初期値が設定される(S1201)。そして、i番目(最初はi=1)の文字列Sが存在するか否かが判断される(S1202)。i番目の文字列が存在しない場合には、処理は終了する。i番目の文字列が存在する場合には処理はステップS1203に移行する。
次に、エンコード記号データにおける書式情報906が参照され、書式情報を表す記号C書式情報が調べられる(ステップS1203)。C書式情報としては、例えば、「┤」や「├」が用いられることになる。続いて、書式が指定された対象文字列S内の各文字は、C書式情報を用いて結合される(ステップ1204)。その後、元の文字列SとステップS1204で結合して生成された文字列が結合され、エンコード結果文字列として出力される(ステップS1205)。そして、次の文字列Sに関するエンコード処理に移行するため、iの数値が1つインクリメントされ(S1206)、処理はステップS1202に移行する。
(4)図13は、図10のステップS1008における、検索結果を画面表示する例を示す図である。ここでは、図6に示したようなセルの隣接関係を指定された検索クエリの結果、すなわち、「『登録日』のセルの下に『分類名』のセルがある」という条件を満たす文書を検索した結果を表示している。図13に示されるように、検索結果として得られた文書それぞれは、文書の一部分がプレビュー画面1300として表示される。ここで、「分類名」のセル1301、及び「登録日」のセル1032が表示されているように、プレビュー画面1300は、クエリで指定された部分を含む部分が切り出されて表示されている。このような表示を行うことにより、ユーザは指定したセルの隣接関係が含まれる文書が検索結果として得られていることを一瞥して確認できると共に、所望の文書を容易に探し出すことができる。
(5)前述のように、表のエンコードを行う際、ステップS1106でNOだった場合(2つのセルが隣接していない場合)はエンコード処理が実行されない。また、記号C隣接関係でつないだ文字列と元の文字列をつなげることはしない。これに対し、書式を指定された文字列のエンコードを行う際は、ステップS1205で説明した通り、記号C書式情報でつないだ文字列と元の文字列Sをつないでいる。この違いは次の2つの理由による。
1つ目の理由は、表においては全てのセルは何らかの他のセルと隣接関係にあるためである。したがって、各セルの組に対して処理を行えば、少なくとも一度はステップ1106でYES(2つのセルが隣接している)と判断される。このことから、エンコード結果文字列は、ステップS1106でYESと判断された場合に得られる文字列から作成することができる。
2つ目の理由は、表のエンコードを行う際はセル内の文字列がエンコード結果文字列に現れる(例えば、「『登録日』のセルの下に『分類名』のセルがある」という隣接関係を表した「登録日↓分類名」というエンコード結果文字列には、「登録日」という文字列が含まれる)ためである。したがって、元の文字列「登録日」をことさらつなげる処理を行わなくても、エンコード結果文字列から構築したインデックスを用いて「登録日」というクエリで検索を行える。これに対し、書式を指定された文字列のエンコードでは、ステップS1204では、一文字ずつを記号C書式情報でつなぐ処理を行う。このため元の文字列が一文字ずつに分断されてしまう。元の文字列Sとつなげたものを用いることにより、元の文字列を書式の指定なしでクエリとして検索を行った場合にも、書式を指定してクエリとして検索を行った場合にも、対応できる(例えば、図4に例示した文書に含まれる右寄せの「庶務課」に対して、「┤庶┤務┤課┤庶務課」をエンコード結果文字列としてインデックスを構築すれば、書式の指定がない「庶務課」というクエリにも、右寄せという書式を指定した「┤庶┤務┤課┤」というクエリにも対応できる)。
<その他>
なお、本実施形態で述べた表エンコード処理を行うことにより、例えば、図1に例示した表を「分類名パソコン」という検索語で検索することはできなくなる。しかし、このことは実用上問題ない。なぜならば、複数のセルにまたがって1つの単語を記述することは実際には考えにくく、「分類名」と「パソコン」という2つの検索語でアンド検索を行えば十分であるためである。
また、本実施形態で述べた書式を指定された文字列のエンコードを行うことにより、例えば、図4に例示した文書を書式なしの「8月31日返信不要」という検索語で検索することはできなくなる。しかし、上記と同様に、このことは実用上問題ない。なぜならば、異なる書式にまたがって一つの単語を記述することは実際には考えにくく、「8月31日」と「返信不要」という二つの検索語でアンド検索を行えば十分であるためである。
本実施形態で述べた書式を指定された文字列に対し一文字ずつ記号でつないでエンコードする方法は、文字列全体をまとめて記号ではさむ方法よりも優れている。なぜならば、例えばHTMLタグのように、図4に例示した文書を「┤庶務課通達┤」とエンコードした場合、各部分文字列はそのまま残される。このため、「右寄せで『庶務』となっている」などと部分文字列に対して書式情報を指定した検索を行うことができない。これに対して本発明で述べた方法では、各文字を記号でつなぐので、検索クエリを「┤庶┤務┤」とエンコードすれば良く、部分文字列に対しても書式情報を指定した検索が可能となるためである。
さらに、本実施形態においては、表内のセルの隣接関係や書式情報を表現するために「→」「↓」「\」「┤」などの記号を利用したが、利用できる文字はこれに限らない。検索語として入力される危険性のない、エスケープシーケンスを利用することも可能である。
また、本実施形態では、ワイルドカードを含む検索を行うこともできる。例えば、図1に示す表に対して「『登録日』のセルの右に何らかのセルがある」文書を検索したい場合、検索クエリを「登録日→」とエンコードすれば良い。さらに、図3に示す表に対して「一番下の行の『電話番号』のセルの右は空欄であること」についても同様に、空欄であることを示す記号を905(図9)に定義して(ここでは例として「△」とおく)、「電話番号→△」として検索用インデックスの構築および検索クエリのエンコードを行えばよい。さらに、図1に示す表に対して「『登録日』のセルの左には何もないこと」についても同様に、左に何もないことを示す記号を図9の905に定義して(ここでは「⇒」とおく)「⇒登録日」として検索用インデックスの構築および検索クエリのエンコードを行えばよい。「→」ではない記号を定義することにより、セルの有無を明示的に指定できる。
また、本実施形態において文書中に含まれる表の検索を行う際には、図6に示したようにセル間の隣接関係をユーザに指定させる方法のほか、表そのもの(または表の一部分)を検索クエリとしてユーザに指定させることも可能である。その場合は、ユーザが指定した表(または表の一部分)を、表エンコード処理部807を用いてエンコードし、クエリとして用いればよい。
さらに、本明細書においては、書式指定の例として右寄せと左寄せについて述べた。センタリング・フォント・フォントサイズについても同様に行うことができる。さらに、表のセルに書かれている文字列が、セルの中で(右寄せ・上寄せ・フォント・フォントサイズなど)書式指定されている場合についても同様に行うことができる。
<まとめ>
以上のように、本発明では、複数の業務文書を蓄積する業務文書データベースは、業務文書の構造(表の有無、所定の書式で構成されていること)を符号化して生成された検索用インデックスを、複数の業務文書のそれぞれに対応して記憶している。検索の際には、利用者は、業務文書の構造を示す検索クエリを指定し、そのクエリが符号化される。そして、業務文書データデースの検索用インデックスと比較され、検索クエリの条件に合致する業務文書が検索される。これにより、特殊な文書構造をなす業務文書であっても適切にかつ迅速に検索することができる。従って、組織内の膨大な業務文書を有効に活用することができるようになる。
より具体的には、本発明で述べた手法を用いれば、エンタープライズサーチ分野で利用されている高速な文字列検索手法を活用して、図6および図7に示すように、表の各セルの位置関係や書式情報を指定した検索を非常に高速に行うことができる。検索する際には、利用者は、検索クエリとしてセルの隣接関係を指定した検索語を指定する。そして、検索語を、隣接関係を示す記号でつないだ文字列にエンコードして用いることにより、隣接関係と検索語の包含の両方の条件を満たす文書を検索することができる。このように、検索手順も非常に簡単なので、利用者にとって非常に使い勝手の良い検索システムを構築することができる。
また、本発明で述べた手法は、図1〜図3および図5に示した例において、表のセルに書き込んだ文字列が長かったためにセルの行数が増えてしまった場合にも影響を受けない。また、例示したようなフォーマットに記入する種類の文書に対して、同じフォーマットの文書をまとめて探すことも容易かつ迅速となる。さらに、フォーマットを更新した際に、古いフォーマットの文書を網羅的に探すような検索も可能である。
組織全体では文書の検索を行う人は組織の構成員全体におよぶので非常に多く、本発明により各人において効率化を達成できるので、組織全体での効率化の効果はさらに大きいものとなる。
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フロッピィ(登録商標)ディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
また、実施の形態の機能を実現するソフトウェアのプログラムコードをネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
組織内で用いられる業務文書のうち、表を含む文書例(1)を示す図である。 組織内で用いられる業務文書のうち、表を含む文書例(2)を示す図である。 組織内で用いられる業務文書のうち、表を含む文書例(3)を示す図である。 組織内で用いられる業務文書のうち、書式が指定された文書例を示す図である。 組織内で用いられる業務文書のうち、表計算ソフトで当該文書を作成することで整形を行っている文書例を示す図である。 セルの隣接関係を指定して検索クエリを作成する画面の例である。 書式情報を指定して検索クエリを作成する画面の例である。 本発明の実施形態による業務文書処理装置の概略構成を示す機能ブロック図である。 セルデータ及びエンコード記号データのデータ構造例を示す図である。 業務文書処理装置による検索及びインデックス構築の処理全体を説明するためのフローチャートである。 文書内に含まれる表のエンコードを行う処理の詳細を説明するためのフローチャートである。 書式を指定された文字列のエンコードを行う処理の詳細を説明するためのフローチャートである。 検索結果として得られた文書を表示する画面の例を示す図である。
符号の説明
800・・・文書DB
801・・・表示装置
802・・・キーボード
803・・・ポインティングデバイス
804・・・中央処理装置
805・・・プログラムメモリ
806・・・データメモリ

Claims (7)

  1. 業務文書の検索を実行する業務文書処理システムであって、
    複数の業務文書を蓄積するデータベースであって、業務文書の構造を符号化して生成された検索用インデックスを、前記複数の業務文書のそれぞれに対応して記憶する業務文書データベースと、
    利用者が入力し、業務文書の構造を示す検索クエリを受信する検索クエリ受信手段と、
    前記入力された検索クエリを符号化する検索クエリ符号化手段と、
    前記符号化された検索クエリを、前記業務文書データデースの前記検索用インデックスと比較して、前記検索クエリの条件に合致する業務文書を検索する検索実行手段と、
    検索結果を前記利用者に提示する検索結果提示手段と、を備え
    前記業務文書の構造は、前記業務文書が表を含む場合には前記表を構成するセルの位置関係であり、前記業務文書が所定の書式で構成される場合には書式情報であり、
    前記業務文書データベースは、前記検索用インデックスとして、前記表に関して、表を構成する各セルの隣接関係の種類を示す記号で各隣接するセル内の文字列をつなぐことによって生成された第1種検索用インデックスと、前記書式情報に関して、書式の種類を示す記号で文字列を構成する各文字をつなぐことにより生成された第2種検索用インデックスと、を格納し、
    前記検索クエリ符号化手段は、前記入力された検索クエリがセルの隣接関係による検索及び書式による検索のどちらを指定するものかを判定し、前記入力された検索クエリが前記セルの隣接関係による検索を指定する場合には、前記隣接関係の種類を示す記号によって検索対象の隣接セルに含まれる各文字列を符号化し、前記入力された検索クエリが前記書式による検索を指定する場合には、前記書式の種類を示す記号によって検索対象の文字列を符号化し、
    前記検索実行手段は、前記符号化された検索クエリを、前記第1種検索用インデックス或いは前記第2種検索用インデックスと比較して前記検索結果を取得することを特徴とする業務文書処理システム。
  2. 前記第2種検索用インデックスは、前記業務文書における文字列の絶対的位置を示す記号を用いて当該文字列の各文字をつなぐことによって生成されたインデックスを含み、
    前記検索クエリ符号化手段は、前記入力された検索クエリが前記書式による検索を指定し、かつ、当該検索クエリに含まれる文字列の業務文書における絶対的位置を指定する場合には、業務文書における絶対的位置を示す記号で前記文字列を符号化することを特徴とする請求項1に記載の業務文書処理システム。
  3. 前記検索結果提示手段は、表示装置の表示画面に、前記検索結果に対応する前記業務文書の一部分をプレビューとして表示することを特徴とする請求項1又は2に記載の業務文書処理システム。
  4. 業務文書をデータベースに登録する業務文書処理システムであって、
    登録すべき前記業務文書の構造を分析し、当該分析結果に基づいて、前記業務文書の構造を符号化して、当該符号化された業務文書の構造をインデックス情報とするインデックス情報生成手段と、
    前記業務文書と前記インデックス情報とを対応付けて、前記データベースに登録する登録手段と、を備え
    前記業務文書の構造は、前記業務文書が表を含む場合には前記表を構成するセルの位置関係であり、前記業務文書が所定の書式で構成される場合には書式情報であり、
    前記インデックス情報生成手段は、前記インデックス情報として、前記表に関して、表を構成する各セルの隣接関係の種類を示す記号で各隣接するセル内の文字列をつなぐことによって第1種検索用インデックスを生成し、前記書式情報に関して、書式の種類を示す記号で文字列を構成する各文字をつなぐことにより第2種検索用インデックスを生成し、
    前記登録手段は、前記業務文書と、前記第1種及び第2種検索用インデックスとを対応付けて前記データベースに登録することを特徴とする業務文書処理システム。
  5. 前記インデックス情報生成手段は、前記業務文書における文字列の絶対的位置を示す記号を用いて当該文字列の各文字をつなぐことによって前記第2種検索用インデックスを生成することを特徴とする請求項に記載の業務文書処理システム。
  6. 前記インデックス情報生成手段は、前記業務文書に含まれる表の全てのセルについて前記第1種検索用インデックスを生成することを特徴とする請求項に記載の業務文書処理システム。
  7. 前記インデックス情報生成手段は、前記業務文書に含まれる全ての文字列について前記第2種検索用インデックスを生成することを特徴とする請求項に記載の業務文書処理システム。
JP2007317243A 2007-12-07 2007-12-07 業務文書処理システム Expired - Fee Related JP5252902B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007317243A JP5252902B2 (ja) 2007-12-07 2007-12-07 業務文書処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007317243A JP5252902B2 (ja) 2007-12-07 2007-12-07 業務文書処理システム

Publications (2)

Publication Number Publication Date
JP2009140328A JP2009140328A (ja) 2009-06-25
JP5252902B2 true JP5252902B2 (ja) 2013-07-31

Family

ID=40870853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007317243A Expired - Fee Related JP5252902B2 (ja) 2007-12-07 2007-12-07 業務文書処理システム

Country Status (1)

Country Link
JP (1) JP5252902B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101494963B1 (ko) 2013-06-24 2015-02-23 주식회사 포스코아이씨티 통합적인 자원 관리를 위한 정보 관리 시스템 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172474A (ja) * 2005-12-26 2007-07-05 Hitachi Software Eng Co Ltd 属性情報検索装置
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム

Also Published As

Publication number Publication date
JP2009140328A (ja) 2009-06-25

Similar Documents

Publication Publication Date Title
US11210456B2 (en) Method relating to preparation of a report
US8606607B2 (en) Translation processing using a translation memory
US8606606B2 (en) System and method for translation processing
BRPI0615572A2 (pt) designação, ajuste e descoberta de parámetros para documentos de planilha
US20100274803A1 (en) Document Preparation Support Apparatus, Document Preparation Support Method, and Document Preparation Support Program
EP1744254A1 (en) Information management device
JP5926470B1 (ja) 電子ファイルの構造、コンピュータ読み取り可能な記憶媒体、電子ファイル生成装置、電子ファイル生成方法、電子ファイル
US20120179702A1 (en) Method for setting metadata, system for setting metadata, and program
JP5252902B2 (ja) 業務文書処理システム
US20110307240A1 (en) Data modeling of multilingual taxonomical hierarchies
JPWO2005098698A1 (ja) 文書処理装置
JPH08106464A (ja) 文書生成装置
JP2005352774A (ja) 情報処理装置及び情報処理装置の制御方法、コンピュータプログラム及び記憶媒体
EP1816572A1 (en) Time sharing managing device, document creating device, document reading device, time sharing managing method, document creating method, and document reading method
JPH0822470A (ja) 資料作成支援システム
US9092747B2 (en) Statement of work analysis and resource participation assessment
JP2018180602A (ja) プログラム、情報処理方法及び情報処理装置
JP2001022736A (ja) 情報処理装置、情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
Simpson et al. AquaDocs Guide for Editors, Version 1
Mira et al. Editorial path and the visibility of scientific publications: an exploratory case study on the journal Tchê Química
JP2004341770A (ja) データ管理システム及びデータ管理方法
KR20160013482A (ko) 큐브 매트릭스 컨텐츠 생성방법 및 이를 응용한 문서작성 지원시스템
Pierce et al. MOS 2010 Study Guide for Microsoft Word Expert, Excel Expert, Access, and SharePoint Exams
JP2006113936A (ja) 特徴データ生成システムおよびその方法
Wempen Teach Yourself VISUALLY Access 2010

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120717

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130416

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees