JP2004013863A

JP2004013863A - 文書検索用文字処理方法およびシステム

Info

Publication number: JP2004013863A
Application number: JP2002170768A
Authority: JP
Inventors: Takako Ito; 伊藤　孝子; Hiroaki Ishii; 石井　宏明
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2002-06-12
Filing date: 2002-06-12
Publication date: 2004-01-15

Abstract

【課題】ルビを含む文書の全文検索を可能にするインデックスを作成する、文書検索用文字処理方法およびシステムを提供することを目的とする。
【解決手段】電子文書からフォント種類およびサイズ情報を付加したテキストデータを取得する段階と、テキストデータを一連の文字列単位に読み込む段階と、読み込んだ文字列内の文字種類を判定する段階と、文字種類の判断に基づき文字列を各々の格納場所に格納する段階と、文字列内の全ての判定および格納が終了した後各々の格納場所を所定の順序に従い並べてインデックスを作成する段階とを行うことを特徴とする、文書検索用のインデックスを作成する文字処理方法およびシステムを提供する。
【選択図】　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、電子文書の全文検索に関し、特に、ルビを含む文書の検索を可能にする文書検索用の文字処理に関するものである。
【０００２】
【従来の技術】
全文検索システムは、電子文書検索システムの一形式で、文書登録時に文書内の文字の並びを解析して索引（インデックス）を作成しておき、検索時にはキーワードを用いてインデックスを検索し、キーワードが存在した場合は該当する電子文書をリストアップする。更に、リスト内から利用者が電子文書を選択した場合は、文書本体を表示、または指定したリンクにジャンプするものである。
【０００３】
全文検索システムに登録する文書の形式は、テキスト（実際には文字コード）を取り出せるものであれば何でもよい。一般的にはフィルタと呼ばれるプログラムを通して元文書からプレーンなテキストのみを取り出し、これを用いて全文検索システム固有のインデックスを作成する。
【０００４】
ＨＴＭＬファイル、ワープロ文書ファイルなど、構造情報やレイアウト情報を含む文書は、各々特有の制御文字などを排除する専用のフィルタプログラムを通して、インデックスを作成する。
【０００５】
全文検索システムのキーワード検索の精度は、インデックスの正確さ、すなわち元文書に含まれているテキストの並びが正確かどうかにより左右される。横書きで文書書式なしのプレーンテキスト文書のように、人間が文書を読む方向とテキストの流れが完全に一致していることが好ましい。
【０００６】
しかしながら、紙への出力を前提としたレイアウト情報（縦組み、段組、回り込み設定、ノンブル付与等）を有する電子文書においては、人間が文書を読む方向と、フィルタプログラムによって取り出すテキストの流れが必ずしも一致しないことがある。特に、電子文書内にルビ（ふりがな）が振られた本文がある場合などは、一致しないことが顕著である。
【０００７】
このような場合、必要な単語が切れたり、順序が変わるようなことが生じ、ページ表示上では検索したい単語が存在するのに、全文検索では検索できない語句が発生するという問題がある。
【０００８】
ルビが含まれる場合について、図７を用いて具体的に説明する。ルビの振り方には、大別して図７（ａ）に示すモノルビ（個別対応ルビ）と、図７（ｂ）に示すグループルビ（群扱いルビ）の２つがある。モノルビは、親文字１字ずつに複数文字のルビを振るものであり、グループルビは、複数の親文字に対して複数文字のルビを振るものである。
【０００９】
電子文書の元になるデータをＤＴＰ用のページレイアウトソフト（以下、組版ソフトという）で作成する場合、ルビの指定は、使用する組版ソフトにより異なるが、凡そ組版ソフト上でモノルビとグループルビの別、文字間の離れ、揃え、親文字との位置などの設定を行うことによって行う。
【００１０】
組版ソフトで制作したルビ付きの文章を、電子文書にデータ変換した場合、電子文書内部におけるルビの部分の文字並びは、図８（ａ）または図８（ｂ）に示すようないくつかの異なる記述形式となる。
【００１１】
ルビと本文の並び順は、使用する組版ソフトによって決定されるが、図８（ｂ）に示す親文字の直後にルビ文字が並ぶ形式の組版ソフトを使用した電子文書の場合、親文字とルビ文字が交互に並ぶことになり、各々相手により分断されることになる。
【００１２】
このような電子文書からテキストを取り出した場合、テキスト中には「世界」や「せかい」といった文字の並びが存在しないことになり、これらの文字を用いて全文検索を行っても、検索できないことになる。
【００１３】
また、図８（ａ）に示す通常はルビと本文が異なる語となる組版ソフトの場合においても、２行に渡るルビを振ると、親文字の文字列に対してルビが挿入されてしまうことがあり、全文検索システムでは分断されたルビ文字および親文字が検索できないという問題もある。
【００１４】
【発明が解決しようとする課題】
本発明は上述の問題点に鑑みてなされたものであり、ルビを含む文書の全文検索を可能にするインデックスを作成する、文書検索用文字処理方法およびシステムを提供することを目的とする。
【００１５】
【課題を解決するための手段】
上記目的を達成するために、本発明の第１の態様は、電子文書からテキストデータを取り出し全文検索用のインデックスを作成する文字処理方法において、電子文書からフォント種類およびサイズ情報を付加したテキストデータを取得する段階と、前記テキストデータを一連の文字列単位に読み込む段階と、前記読み込んだ文字列内の文字種類を判定する段階と、前記文字種類の判断に基づき前記文字列を各々の格納場所に格納する段階と、前記文字列内の全ての判定および格納が終了した後各々の格納場所を所定の順序に従い並べてインデックスを作成する段階とを行うようにしたものである。
【００１６】
本発明の第２の態様は、上述の第１の態様に係る文書検索用文字処理方法において、前記一連の文字列単位を読み込む段階が、フォントの指定が連続して同じである複数の行を一連の文字列とするようにしたものである。
【００１７】
本発明の第３の態様は、上述の第１また２の態様に係る文書検索用文字処理方法において、前記文字列内の文字種類を判定する段階が、当該文字のフォントサイズが、前後の文字のフォントサイズより所定比率以下のフォントサイズの文字をルビと判定し、前後の文字のフォントサイズより所定比率より大きいフォントサイズの文字を本文と判定するようにしたものである。
【００１８】
本発明の第４の態様は、電子文書からテキストデータを取り出し全文検索用のインデックスを作成する文字処理システムにおいて、電子文書から作成したフォント種類およびサイズ情報を付加したテキストデータを読み込み文字列内の文字種類を判定する判定手段と、前記判定手段の判定に基づき、前記文字を文字種類別に格納する複数の格納領域と、前記文字列内の全ての判定および格納が終了した後複数の格納領域を所定の順序に従い並べる出力手段とを設けたものである。
【００１９】
以下、本発明を図示する実施形態に基づいて説明する。図１は、本発明の文書検索用文字処理システム２の一実施例の概要構成図であり、文書検索用文字処理システム２は、判定手段３と、格納領域４と、出力手段５を備えており、電子文書６からテキスト生成手段３により生成したテキストファイル７を介して、インデックス作成用ファイル８を得るものである。
【００２０】
テキスト生成手段１は、組版ソフトで制作した組版データから作成した電子文書ファイル６から、レイアウト情報などの不要な情報を取り除いたテキストデータ７を出力するものである。
【００２１】
判定手段３は、テキストデータ７から一連の文字列単位を読み込み、ルビなのか、本文なのかの当該文字列中の文字種類を判定するものである。
【００２２】
格納領域４は、予めルビ文字と親文字の各々のために用意した一時的な記憶領域であり、判定手段３の文字種類の判定に基づき、各々の文字種類の別に文字を格納するものである。
【００２３】
出力手段５は、一連の文字列単位の全ての文字に対する判定および格納が終了した後、所定の順序に従い複数の当該格納領域４を連続する文字列データとしてインデックス作成用ファイル８へ出力するものである。
【００２４】
なお、本明細書において電子文書６は、アドビシステムズ社（Ａｄｏｂｅ　Ｓｙｓｔｅｍｓ　Ｉｎｃ．）が提唱するＰＤＦ形式（Ｐｏｒｔａｂｌｅ　Ｄｏｃｕｍｅｎｔ　Ｆｏｒｍａｔ）の電子文書である。組版ソフトは、ＰＤＦを出力可能なソフトであれば、特に限定されるものではない。
【００２５】
ＰＤＦ形式の電子文書は、画像、各種フォント、文字サイズを含む複雑なページレイアウトを記述できる文書形式として、紙面レイアウトを重視する文書に多く利用されており、縦書きで段組したものや、画像が多用された雑誌などの紙面も、ＰＤＦ形式であれば印刷物と同じレイアウトで電子文書を表示することが可能である。
【００２６】
構造情報やレイアウト情報を有するＰＤＦ形式の電子文書においても、フィルタプログラムを利用してテキストファイルを取り出しインデックスを生成することにより、全文検索を行うことができる。
【００２７】
検索時には指定のキーワードが存在するか否かを生成したインデックスから探索し、キーワードが存在する文書を表示する場合は、インデックスの代わりに元のＰＤＦ形式の電子文書を表示する、といった処理が可能である。
【００２８】
また、テキストデータ７は、図２に示すようにフォント種類、サイズ、実際の文字などから構成される、マイクロソフト社が提唱する文書ファイルの１形式であるＲＴＦ（Ｒｉｃｈ　Ｔｅｘｔ　Ｆｏｒｍａｔ）形式などを用いる。
【００２９】
インデックス作成用ファイル８の内部構造は、使用する全文検索エンジンソフトにより異なる。全文検索エンジンは、テキスト形式のファイルから、全文検索エンジン固有のインデックスを生成するから、テキストからインデックスを生成可能な全文検索エンジンであれば、特に限定されるものではない。
【００３０】
次に、図３に示すフォローチャートに従い、本発明の文書検索用文字処理システム２の動作を詳細に説明する。
【００３１】
まず、組版ソフトで制作した組版データを、例えば、アクロバットディスティラー（Ａｃｒｏｂａｔ　Ｄｉｓｔｉｌｌｅｒ：アドビシステムズ社の登録商標）などのＰＤＦ制作ソフトを使用してＰＤＦ形式の電子文書６に変換する。
【００３２】
次に、変換したＰＤＦ形式の電子文書６を、テキスト生成手段１によりＰＤＦ形式の電子文書内のテキスト情報と、それぞれの文字のフォント種類とサイズ情報を、ＲＴＦ形式のテキストファイル７に変換する。
【００３３】
テキスト生成手段１は、実際にはアドビアクロバット（Ａｄｏｂｅ　Ａｃｒｏｂａｔ：アドビシステムズ社の登録商標）などのＰＤＦ処理ソフトの文書保存機能などを用いて良い。
【００３４】
取得したテキストファイル７から、まず前処理として、テキストファイル７のフォントテーブルを参照して、テキストファイル７で使用しているフォントの種類に係る情報を得る。
【００３５】
図４は、図２に示すテキストファイル７から、説明のためにフォントテーブルだけを抜き出したものである。このうち、各々「￥ｆ０」〜「￥ｆ３」で始まっている部分が一つ一つのフォントを示しているから、図２のテキストファイル７は、４種類のフォントを使用していることがわかる。
【００３６】
次に、例えば、同一フォントを使用した一連の文字列のフォントサイズを全て取得し、文字サイズの大小、変化率、倍率などから本文とルビを区別し、基準となるフォントサイズを取得する。
【００３７】
次に、判定手段３は、同一のフォントを使用している複数の文字列を順次読み込み、各文字列が条件に合致するか否かを判定する。文字列を判定する際は、改行、「｛」、「￥」などの制御文字に相当するものは無視する。これは、通常の全文検索において、改行等の非表示文字を検索対象文字として扱うことがないためである。
【００３８】
図５は、図２に示すテキストファイル７から、説明のために同じフォントを使用している文字列だけを抜き出したものである。これは、図２の７行目における「￥ｆ０」というフォントの指定から行単位に順に処理して、次の「￥ｆ２」というフォントの指定が登場するまでが同じフォントを使用しているものとして、処理する単位と考えられるものである。
【００３９】
判定手段３が判定に使用する条件として、１）フォントサイズが直前の文字に対し一定サイズ以下（ルビの場合は、通常１／２）である、２）ルビ候補の文字のコードが、平仮名またはカタカナなど指定した文字である、ことなどを指定する。
【００４０】
上記条件に合致する文字は、ルビであると判断して、処理中の文字列から取り出し、ルビ文字用に用意した格納領域４に順次格納していく。
【００４１】
上記条件に合致しない文字は、本文であると判断して、本文用に用意した格納領域４に順記格納していく。ルビ文字を取り出した部分には、置換文字などを入れず、次の本文と判断可能な文字を続けて格納する。
【００４２】
このようにして、同一のフォントを使用している文字列の全ての判定および格納を行った後、出力手段５は、所定の順序、例えばルビ文字、本文の順に従い、ルビ文字の格納領域４および本文の格納領域４を、インデックス作成用ファイル８へ出力する。
【００４３】
図６は、ルビ文字と親文字が交互に現れるテキストファイル７において、上述の判定および格納の動作を模式化したものである。図６（ａ）は、ＰＤＦ上の見え方を示している。図６（ｂ）から図６（ｄ）は、基準サイズを１４ポイントに設定し、５０％以下のサイズの文字をルビと判断する場合の格納領域４の状態を段階的に示したものである。
【００４４】
図６（ｅ）は、ルビ文字および本文の格納領域４を出力したインデックス作成用ファイル８を示したものである。ルビから「せかいあみだによらい」、本文から「世界阿弥陀如来」をこのインデックス作成用ファイル８に出力しているため、インデックス作成用ファイル８から作成したインデックスを用いることにより、ひらがなの読みでも、漢字でも検索することが可能になる。
【００４５】
上述の処理を、テキストファイル７に含まれる全ての文字列について行う。
【００４６】
以上、本発明を実施の形態に基づいて詳細に説明してきたが、本発明による文書検索用文字処理システムは、上述の実施の形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更が可能なことは当然のことである。
【００４７】
【発明の効果】
以上のとおり、本発明に係る文書検索用文字処理方法およびシステムによれば、モノルビや親文字の単語間に入るルビの振られた電子文書も、並べ替えによって全文検索システムの検索対象にすることができる。結果としてルビでも、本文でも検索が可能になる。
【図面の簡単な説明】
【図１】本発明の文書検索用文字処理システムの概要構造図である。
【図２】テキストファイルの一実施例の説明図である。
【図３】本発明の文書検索用文字処理システムの動作を示すフローチャートである。
【図４】テキストファイルのフォントテーブルの説明図である。
【図５】テキストファイルの文字列の説明図である。
【図６】本発明の文書検索用文字処理の動作の模式図である。
【図７】ルビの説明図である。
【図８】ルビ文字と親文字の位置関係を示す説明図である。
【符号の説明】
１　テキスト生成処理
２　文書検索用文字処理システム
３　判定手段
４　格納手段
５　出力手段
６　電子文書
７　テキストファイル
８　インデックス作成用ファイル

Claims

電子文書からテキストデータを取り出し、全文検索用のインデックスを作成する文字処理方法において、
電子文書からフォント種類およびサイズ情報を付加したテキストデータを取得する段階と、
前記テキストデータを一連の文字列単位に読み込む段階と、
前記読み込んだ文字列内の文字種類を判定する段階と、
前記文字種類の判断に基づき前記文字列を各々の格納場所に格納する段階と、
前記文字列内の全ての判定および格納が終了した後、各々の格納場所を所定の順序に従い並べてインデックスを作成する段階と、を設けたことを特徴とする文書検索用文字処理方法。
請求項１記載の文書検索用文字処理方法であって、
前記一連の文字列単位を読み込む段階が、
フォントの指定が連続して同じである複数の行を一連の文字列とする、
ことを特徴とする文書検索用文字処理方法。
請求項１または２記載の文書検索用文字処理方法であって、前記文字列内の文字種類を判定する段階が、
当該文字のフォントサイズが、前後の文字のフォントサイズより所定比率以下のフォントサイズの文字をルビと判定し、前後の文字のフォントサイズより所定比率より大きいフォントサイズの文字を本文と判定する、
ことを特徴とする文書検索用文字処理方法。
電子文書からテキストデータを取り出し、全文検索用のインデックスを作成する文字処理システムであって、
電子文書から作成したフォント種類およびサイズ情報を付加したテキストデータを読み込み、文字列内の文字種類を判定する判定手段と、
前記判定手段の判定に基づき、前記文字を文字種類別に格納する複数の格納領域と、
前記文字列内の全ての判定および格納が終了した後、複数の格納領域を所定の順序に従い並べる出力手段と、
を備えることを特徴とする文書検索用文字処理システム。