JP2004013863A - 文書検索用文字処理方法およびシステム - Google Patents

文書検索用文字処理方法およびシステム Download PDF

Info

Publication number
JP2004013863A
JP2004013863A JP2002170768A JP2002170768A JP2004013863A JP 2004013863 A JP2004013863 A JP 2004013863A JP 2002170768 A JP2002170768 A JP 2002170768A JP 2002170768 A JP2002170768 A JP 2002170768A JP 2004013863 A JP2004013863 A JP 2004013863A
Authority
JP
Japan
Prior art keywords
character
text
document
search
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002170768A
Other languages
English (en)
Inventor
Takako Ito
伊藤 孝子
Hiroaki Ishii
石井 宏明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2002170768A priority Critical patent/JP2004013863A/ja
Publication of JP2004013863A publication Critical patent/JP2004013863A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ルビを含む文書の全文検索を可能にするインデックスを作成する、文書検索用文字処理方法およびシステムを提供することを目的とする。
【解決手段】電子文書からフォント種類およびサイズ情報を付加したテキストデータを取得する段階と、テキストデータを一連の文字列単位に読み込む段階と、読み込んだ文字列内の文字種類を判定する段階と、文字種類の判断に基づき文字列を各々の格納場所に格納する段階と、文字列内の全ての判定および格納が終了した後各々の格納場所を所定の順序に従い並べてインデックスを作成する段階とを行うことを特徴とする、文書検索用のインデックスを作成する文字処理方法およびシステムを提供する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、電子文書の全文検索に関し、特に、ルビを含む文書の検索を可能にする文書検索用の文字処理に関するものである。
【0002】
【従来の技術】
全文検索システムは、電子文書検索システムの一形式で、文書登録時に文書内の文字の並びを解析して索引(インデックス)を作成しておき、検索時にはキーワードを用いてインデックスを検索し、キーワードが存在した場合は該当する電子文書をリストアップする。更に、リスト内から利用者が電子文書を選択した場合は、文書本体を表示、または指定したリンクにジャンプするものである。
【0003】
全文検索システムに登録する文書の形式は、テキスト(実際には文字コード)を取り出せるものであれば何でもよい。一般的にはフィルタと呼ばれるプログラムを通して元文書からプレーンなテキストのみを取り出し、これを用いて全文検索システム固有のインデックスを作成する。
【0004】
HTMLファイル、ワープロ文書ファイルなど、構造情報やレイアウト情報を含む文書は、各々特有の制御文字などを排除する専用のフィルタプログラムを通して、インデックスを作成する。
【0005】
全文検索システムのキーワード検索の精度は、インデックスの正確さ、すなわち元文書に含まれているテキストの並びが正確かどうかにより左右される。横書きで文書書式なしのプレーンテキスト文書のように、人間が文書を読む方向とテキストの流れが完全に一致していることが好ましい。
【0006】
しかしながら、紙への出力を前提としたレイアウト情報(縦組み、段組、回り込み設定、ノンブル付与等)を有する電子文書においては、人間が文書を読む方向と、フィルタプログラムによって取り出すテキストの流れが必ずしも一致しないことがある。特に、電子文書内にルビ(ふりがな)が振られた本文がある場合などは、一致しないことが顕著である。
【0007】
このような場合、必要な単語が切れたり、順序が変わるようなことが生じ、ページ表示上では検索したい単語が存在するのに、全文検索では検索できない語句が発生するという問題がある。
【0008】
ルビが含まれる場合について、図7を用いて具体的に説明する。ルビの振り方には、大別して図7(a)に示すモノルビ(個別対応ルビ)と、図7(b)に示すグループルビ(群扱いルビ)の2つがある。モノルビは、親文字1字ずつに複数文字のルビを振るものであり、グループルビは、複数の親文字に対して複数文字のルビを振るものである。
【0009】
電子文書の元になるデータをDTP用のページレイアウトソフト(以下、組版ソフトという)で作成する場合、ルビの指定は、使用する組版ソフトにより異なるが、凡そ組版ソフト上でモノルビとグループルビの別、文字間の離れ、揃え、親文字との位置などの設定を行うことによって行う。
【0010】
組版ソフトで制作したルビ付きの文章を、電子文書にデータ変換した場合、電子文書内部におけるルビの部分の文字並びは、図8(a)または図8(b)に示すようないくつかの異なる記述形式となる。
【0011】
ルビと本文の並び順は、使用する組版ソフトによって決定されるが、図8(b)に示す親文字の直後にルビ文字が並ぶ形式の組版ソフトを使用した電子文書の場合、親文字とルビ文字が交互に並ぶことになり、各々相手により分断されることになる。
【0012】
このような電子文書からテキストを取り出した場合、テキスト中には「世界」や「せかい」といった文字の並びが存在しないことになり、これらの文字を用いて全文検索を行っても、検索できないことになる。
【0013】
また、図8(a)に示す通常はルビと本文が異なる語となる組版ソフトの場合においても、2行に渡るルビを振ると、親文字の文字列に対してルビが挿入されてしまうことがあり、全文検索システムでは分断されたルビ文字および親文字が検索できないという問題もある。
【0014】
【発明が解決しようとする課題】
本発明は上述の問題点に鑑みてなされたものであり、ルビを含む文書の全文検索を可能にするインデックスを作成する、文書検索用文字処理方法およびシステムを提供することを目的とする。
【0015】
【課題を解決するための手段】
上記目的を達成するために、本発明の第1の態様は、電子文書からテキストデータを取り出し全文検索用のインデックスを作成する文字処理方法において、電子文書からフォント種類およびサイズ情報を付加したテキストデータを取得する段階と、前記テキストデータを一連の文字列単位に読み込む段階と、前記読み込んだ文字列内の文字種類を判定する段階と、前記文字種類の判断に基づき前記文字列を各々の格納場所に格納する段階と、前記文字列内の全ての判定および格納が終了した後各々の格納場所を所定の順序に従い並べてインデックスを作成する段階とを行うようにしたものである。
【0016】
本発明の第2の態様は、上述の第1の態様に係る文書検索用文字処理方法において、前記一連の文字列単位を読み込む段階が、フォントの指定が連続して同じである複数の行を一連の文字列とするようにしたものである。
【0017】
本発明の第3の態様は、上述の第1また2の態様に係る文書検索用文字処理方法において、前記文字列内の文字種類を判定する段階が、当該文字のフォントサイズが、前後の文字のフォントサイズより所定比率以下のフォントサイズの文字をルビと判定し、前後の文字のフォントサイズより所定比率より大きいフォントサイズの文字を本文と判定するようにしたものである。
【0018】
本発明の第4の態様は、電子文書からテキストデータを取り出し全文検索用のインデックスを作成する文字処理システムにおいて、電子文書から作成したフォント種類およびサイズ情報を付加したテキストデータを読み込み文字列内の文字種類を判定する判定手段と、前記判定手段の判定に基づき、前記文字を文字種類別に格納する複数の格納領域と、前記文字列内の全ての判定および格納が終了した後複数の格納領域を所定の順序に従い並べる出力手段とを設けたものである。
【0019】
以下、本発明を図示する実施形態に基づいて説明する。図1は、本発明の文書検索用文字処理システム2の一実施例の概要構成図であり、文書検索用文字処理システム2は、判定手段3と、格納領域4と、出力手段5を備えており、電子文書6からテキスト生成手段3により生成したテキストファイル7を介して、インデックス作成用ファイル8を得るものである。
【0020】
テキスト生成手段1は、組版ソフトで制作した組版データから作成した電子文書ファイル6から、レイアウト情報などの不要な情報を取り除いたテキストデータ7を出力するものである。
【0021】
判定手段3は、テキストデータ7から一連の文字列単位を読み込み、ルビなのか、本文なのかの当該文字列中の文字種類を判定するものである。
【0022】
格納領域4は、予めルビ文字と親文字の各々のために用意した一時的な記憶領域であり、判定手段3の文字種類の判定に基づき、各々の文字種類の別に文字を格納するものである。
【0023】
出力手段5は、一連の文字列単位の全ての文字に対する判定および格納が終了した後、所定の順序に従い複数の当該格納領域4を連続する文字列データとしてインデックス作成用ファイル8へ出力するものである。
【0024】
なお、本明細書において電子文書6は、アドビシステムズ社(Adobe Systems Inc.)が提唱するPDF形式(Portable Document Format)の電子文書である。組版ソフトは、PDFを出力可能なソフトであれば、特に限定されるものではない。
【0025】
PDF形式の電子文書は、画像、各種フォント、文字サイズを含む複雑なページレイアウトを記述できる文書形式として、紙面レイアウトを重視する文書に多く利用されており、縦書きで段組したものや、画像が多用された雑誌などの紙面も、PDF形式であれば印刷物と同じレイアウトで電子文書を表示することが可能である。
【0026】
構造情報やレイアウト情報を有するPDF形式の電子文書においても、フィルタプログラムを利用してテキストファイルを取り出しインデックスを生成することにより、全文検索を行うことができる。
【0027】
検索時には指定のキーワードが存在するか否かを生成したインデックスから探索し、キーワードが存在する文書を表示する場合は、インデックスの代わりに元のPDF形式の電子文書を表示する、といった処理が可能である。
【0028】
また、テキストデータ7は、図2に示すようにフォント種類、サイズ、実際の文字などから構成される、マイクロソフト社が提唱する文書ファイルの1形式であるRTF(Rich Text Format)形式などを用いる。
【0029】
インデックス作成用ファイル8の内部構造は、使用する全文検索エンジンソフトにより異なる。全文検索エンジンは、テキスト形式のファイルから、全文検索エンジン固有のインデックスを生成するから、テキストからインデックスを生成可能な全文検索エンジンであれば、特に限定されるものではない。
【0030】
次に、図3に示すフォローチャートに従い、本発明の文書検索用文字処理システム2の動作を詳細に説明する。
【0031】
まず、組版ソフトで制作した組版データを、例えば、アクロバットディスティラー(Acrobat Distiller:アドビシステムズ社の登録商標)などのPDF制作ソフトを使用してPDF形式の電子文書6に変換する。
【0032】
次に、変換したPDF形式の電子文書6を、テキスト生成手段1によりPDF形式の電子文書内のテキスト情報と、それぞれの文字のフォント種類とサイズ情報を、RTF形式のテキストファイル7に変換する。
【0033】
テキスト生成手段1は、実際にはアドビアクロバット(Adobe Acrobat:アドビシステムズ社の登録商標)などのPDF処理ソフトの文書保存機能などを用いて良い。
【0034】
取得したテキストファイル7から、まず前処理として、テキストファイル7のフォントテーブルを参照して、テキストファイル7で使用しているフォントの種類に係る情報を得る。
【0035】
図4は、図2に示すテキストファイル7から、説明のためにフォントテーブルだけを抜き出したものである。このうち、各々「¥f0」〜「¥f3」で始まっている部分が一つ一つのフォントを示しているから、図2のテキストファイル7は、4種類のフォントを使用していることがわかる。
【0036】
次に、例えば、同一フォントを使用した一連の文字列のフォントサイズを全て取得し、文字サイズの大小、変化率、倍率などから本文とルビを区別し、基準となるフォントサイズを取得する。
【0037】
次に、判定手段3は、同一のフォントを使用している複数の文字列を順次読み込み、各文字列が条件に合致するか否かを判定する。文字列を判定する際は、改行、「{」、「¥」などの制御文字に相当するものは無視する。これは、通常の全文検索において、改行等の非表示文字を検索対象文字として扱うことがないためである。
【0038】
図5は、図2に示すテキストファイル7から、説明のために同じフォントを使用している文字列だけを抜き出したものである。これは、図2の7行目における「¥f0」というフォントの指定から行単位に順に処理して、次の「¥f2」というフォントの指定が登場するまでが同じフォントを使用しているものとして、処理する単位と考えられるものである。
【0039】
判定手段3が判定に使用する条件として、1)フォントサイズが直前の文字に対し一定サイズ以下(ルビの場合は、通常1/2)である、2)ルビ候補の文字のコードが、平仮名またはカタカナなど指定した文字である、ことなどを指定する。
【0040】
上記条件に合致する文字は、ルビであると判断して、処理中の文字列から取り出し、ルビ文字用に用意した格納領域4に順次格納していく。
【0041】
上記条件に合致しない文字は、本文であると判断して、本文用に用意した格納領域4に順記格納していく。ルビ文字を取り出した部分には、置換文字などを入れず、次の本文と判断可能な文字を続けて格納する。
【0042】
このようにして、同一のフォントを使用している文字列の全ての判定および格納を行った後、出力手段5は、所定の順序、例えばルビ文字、本文の順に従い、ルビ文字の格納領域4および本文の格納領域4を、インデックス作成用ファイル8へ出力する。
【0043】
図6は、ルビ文字と親文字が交互に現れるテキストファイル7において、上述の判定および格納の動作を模式化したものである。図6(a)は、PDF上の見え方を示している。図6(b)から図6(d)は、基準サイズを14ポイントに設定し、50%以下のサイズの文字をルビと判断する場合の格納領域4の状態を段階的に示したものである。
【0044】
図6(e)は、ルビ文字および本文の格納領域4を出力したインデックス作成用ファイル8を示したものである。ルビから「せかいあみだによらい」、本文から「世界阿弥陀如来」をこのインデックス作成用ファイル8に出力しているため、インデックス作成用ファイル8から作成したインデックスを用いることにより、ひらがなの読みでも、漢字でも検索することが可能になる。
【0045】
上述の処理を、テキストファイル7に含まれる全ての文字列について行う。
【0046】
以上、本発明を実施の形態に基づいて詳細に説明してきたが、本発明による文書検索用文字処理システムは、上述の実施の形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更が可能なことは当然のことである。
【0047】
【発明の効果】
以上のとおり、本発明に係る文書検索用文字処理方法およびシステムによれば、モノルビや親文字の単語間に入るルビの振られた電子文書も、並べ替えによって全文検索システムの検索対象にすることができる。結果としてルビでも、本文でも検索が可能になる。
【図面の簡単な説明】
【図1】本発明の文書検索用文字処理システムの概要構造図である。
【図2】テキストファイルの一実施例の説明図である。
【図3】本発明の文書検索用文字処理システムの動作を示すフローチャートである。
【図4】テキストファイルのフォントテーブルの説明図である。
【図5】テキストファイルの文字列の説明図である。
【図6】本発明の文書検索用文字処理の動作の模式図である。
【図7】ルビの説明図である。
【図8】ルビ文字と親文字の位置関係を示す説明図である。
【符号の説明】
1 テキスト生成処理
2 文書検索用文字処理システム
3 判定手段
4 格納手段
5 出力手段
6 電子文書
7 テキストファイル
8 インデックス作成用ファイル

Claims (4)

  1. 電子文書からテキストデータを取り出し、全文検索用のインデックスを作成する文字処理方法において、
    電子文書からフォント種類およびサイズ情報を付加したテキストデータを取得する段階と、
    前記テキストデータを一連の文字列単位に読み込む段階と、
    前記読み込んだ文字列内の文字種類を判定する段階と、
    前記文字種類の判断に基づき前記文字列を各々の格納場所に格納する段階と、
    前記文字列内の全ての判定および格納が終了した後、各々の格納場所を所定の順序に従い並べてインデックスを作成する段階と、を設けたことを特徴とする文書検索用文字処理方法。
  2. 請求項1記載の文書検索用文字処理方法であって、
    前記一連の文字列単位を読み込む段階が、
    フォントの指定が連続して同じである複数の行を一連の文字列とする、
    ことを特徴とする文書検索用文字処理方法。
  3. 請求項1または2記載の文書検索用文字処理方法であって、前記文字列内の文字種類を判定する段階が、
    当該文字のフォントサイズが、前後の文字のフォントサイズより所定比率以下のフォントサイズの文字をルビと判定し、前後の文字のフォントサイズより所定比率より大きいフォントサイズの文字を本文と判定する、
    ことを特徴とする文書検索用文字処理方法。
  4. 電子文書からテキストデータを取り出し、全文検索用のインデックスを作成する文字処理システムであって、
    電子文書から作成したフォント種類およびサイズ情報を付加したテキストデータを読み込み、文字列内の文字種類を判定する判定手段と、
    前記判定手段の判定に基づき、前記文字を文字種類別に格納する複数の格納領域と、
    前記文字列内の全ての判定および格納が終了した後、複数の格納領域を所定の順序に従い並べる出力手段と、
    を備えることを特徴とする文書検索用文字処理システム。
JP2002170768A 2002-06-12 2002-06-12 文書検索用文字処理方法およびシステム Pending JP2004013863A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002170768A JP2004013863A (ja) 2002-06-12 2002-06-12 文書検索用文字処理方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002170768A JP2004013863A (ja) 2002-06-12 2002-06-12 文書検索用文字処理方法およびシステム

Publications (1)

Publication Number Publication Date
JP2004013863A true JP2004013863A (ja) 2004-01-15

Family

ID=30436902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002170768A Pending JP2004013863A (ja) 2002-06-12 2002-06-12 文書検索用文字処理方法およびシステム

Country Status (1)

Country Link
JP (1) JP2004013863A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008243155A (ja) * 2007-03-29 2008-10-09 Roland Corp 歌詞検索装置及び歌詞検索プログラム
CN102982011A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种用于识别失序文本的方法与设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008243155A (ja) * 2007-03-29 2008-10-09 Roland Corp 歌詞検索装置及び歌詞検索プログラム
CN102982011A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种用于识别失序文本的方法与设备

Similar Documents

Publication Publication Date Title
JP4229507B2 (ja) 位置指示情報を使用してドキュメントの要約を生成する方法とシステム
US7313754B2 (en) Method and expert system for deducing document structure in document conversion
US7958444B2 (en) Visualizing document annotations in the context of the source document
US20030007397A1 (en) Document processing apparatus, document processing method, document processing program and recording medium
EP1739574B1 (en) Method of identifying words in an electronic document
US20050261891A1 (en) System and method for text segmentation and display
JP2005526314A (ja) 文書構造識別器
WO2000063783A1 (en) Method and system for generating structured data from semi-structured data sources
MXPA04003187A (es) Separador de documentos que reconoce idioma.
US20200364452A1 (en) A heuristic method for analyzing content of an electronic document
JP5446877B2 (ja) 目次構造特定装置
JP2003186889A (ja) 文書に注釈付けし、文書イメージから要約を生成する方法及び装置
JP2004013863A (ja) 文書検索用文字処理方法およびシステム
JP2004021746A (ja) 検索結果文字列表示方法およびシステム
Bing et al. Primary content extraction with mountain model
JP2017091024A (ja) 入力支援装置
JP2002132789A (ja) 文書検索方法
JP2011070529A (ja) 文書処理装置
JP2005305719A (ja) 画像形成システム、情報処理装置、画像形成装置、画像形成方法、および画像形成用プログラム
JP2008102802A (ja) 文書支援システム及び文書支援プログラム
JP2005050175A (ja) イメージデータ文書検索システム
JP2005309533A (ja) 文書編集装置、文書視覚方法法およびそのプログラム
Ittner et al. Programmable contextual analysis
JP2020187755A (ja) 入力支援装置
Freytag Character foldings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080617

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081119