JPH10301940A - 情報処理装置及びその方法 - Google Patents

情報処理装置及びその方法

Info

Publication number
JPH10301940A
JPH10301940A JP9104739A JP10473997A JPH10301940A JP H10301940 A JPH10301940 A JP H10301940A JP 9104739 A JP9104739 A JP 9104739A JP 10473997 A JP10473997 A JP 10473997A JP H10301940 A JPH10301940 A JP H10301940A
Authority
JP
Japan
Prior art keywords
text data
internal code
character
conversion
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9104739A
Other languages
English (en)
Inventor
Yuji Ikeda
裕治 池田
Shiro Ito
史朗 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP9104739A priority Critical patent/JPH10301940A/ja
Publication of JPH10301940A publication Critical patent/JPH10301940A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 異体字や異なる使用文字コードを含むテキス
トデータの検索を効率良く検索することができる情報処
理装置及びその方法を提供する。 【解決手段】 テキストデータを被検索テキスト保持部
101に保持し、保持されているテキストデータを構成
する文字列の各文字を対応する内部コードに内部コード
変換部106を用いて被検索テキスト変換部102で変
換する。変換された内部コード列を変換前のテキストデ
ータと対応づけて変換テキスト保持部103で管理す
る。一方、入力された検索条件に対し被検索テキスト変
換部102による変換を行い、変換された検索条件に該
当する変換テキスト保持部103に管理されている内部
コードに対応するテキストデータを検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストデータを
検索する情報処理装置及びその方法に関するものであ
る。
【0002】
【従来の技術】文書データ中の全てのテキストデータを
対象として与えられた検索キーを含む文書データを検索
する全文検索装置等の情報処理装置では、大量のテキス
トデータを高速に検索するために、検索対象文書のイン
デックスを予め作成して、インデックスを用いて検索を
行なうインデックス技術が利用されている。インデック
ス技術の一例として、特開平4−205560公報で
は、文字位置インデックス技術について述べられてい
る。
【0003】文字位置インデックス技術の基本的な考え
方は、被検索テキストデータ中に出現する文字および文
字列の位置を文字ごとに1ずつ増加する整数で表わすこ
とにある。その上で、各文字および文字列ごとに、当該
文字および文字列をキーとして、当該文字および文字列
が現れる全ての位置を列挙する。このインデックスにお
いて、ある検索文字列を被検索テキストデータから検索
する場合には、当該検索文字列をインデックスのキーと
なっている文字および文字列に分解する。そして、分解
した文字および文字列の位置関係が、当該検索文字列に
おける位置関係に一致する組み合わせを探すことで検索
を行なう。
【0004】ここで、従来の情報処理装置の機能構成に
ついて、図11を用いて説明する。図11は従来の情報
処理装置の機能構成を示すブロック図である。図11に
おいて、501は被検索テキストデータを保持する被検
索テキスト保持部である。502は被検索テキスト保持
部501に保持されている被検索テキストデータに対し
て、被検索テキストデータ中の文字及び文字列ごとに、
被検索テキストデータ中での当該文字の位置を保持した
インデックスを作成するインデックス作成部である。5
03はインデックス作成部502で作成したインデック
スを保持するインデックス保持部である。504は検索
を行う文字列を保持する検索文字列保持部である。50
5はインデックス保持部503に保持されているインデ
ックスを用いて、検索文字列保持部504に保持されて
いる検索文字列に一致する被検索テキストデータ中の文
字列を検索する検索部である。506は検索部による検
索結果を保持する検索結果保持部である。
【0005】次に、従来の情報処理装置で実行されるイ
ンデックスを作成するインデックス作成処理について、
図12を用いて説明する。図12は従来の情報処理装置
で実行されるインデックス作成処理を示すフローチャー
トである。まず、ステップS601では、カウンタcの
初期化を行う。カウンタcは、処理の対象となっている
文字の位置を示すもので、これを0に初期化する。ステ
ップS602では、ポインタpの初期化を行う。ポイン
タpは、処理の対象となっている文字を指し示すもの
で、これを被検索テキストデータの先頭文字を指し示す
ように初期化する。
【0006】ステップS603では、ポインタpが被検
索テキストデータの最後の文字に達したか否かを判定す
る。最後に達している場合(ステップS603でYE
S)、インデックス作成処理を終了する。一方、最後に
達していない場合(ステップS603でNO)、ステッ
プS604に進む。ステップS604では、ポインタp
が指し示す位置にある文字について、インデックスの当
該文字の位置リストにカウンタcの値を追加する。ステ
ップS605では、カウンタcの値を1増やす。ステッ
プS606では、ポインタpが次の文字を指し示すよう
にポインタpを進め、ステップS603に戻る。
【0007】以上のインデックス作成処理により、例え
ば、図14に示す文書に対して、図15に示すようなイ
ンデックスが作成される。尚、図14及び図15では、
幾つかの文字以外については表示を省略している。ま
た、図15の各行が、各文字が現れる位置のリストとな
っている。例えば、文字「田」は、位置0、5、10、
…に出現していることがわかる。
【0008】次に従来の情報処理装置で実行される文字
列を検索する検索処理について、図13を用いて説明す
る。図13は従来の情報処理装置で実行される検索処理
を示すフローチャートである。まず、ステップS701
では、検索文字列保持部504に保持されている検索文
字列の長さをレジスタlに代入する。また、カウンタn
に1を代入する。例えば、検索文字列が「田淵」である
場合は、l=2、n=1となる。ステップS702で
は、検索文字列保持部504に保持されている検索文字
列の1番目の文字について、インデックスの読み込みを
行う。当該文字の文字位置全てを配列1に読み込む。図
16は、図15に示したインデックスを用いて検索文字
列「田淵」を検索しているときの配列1の状態を示して
いる。
【0009】ステップS703では、レジスタlの内容
とカウンタnの内容を比較する。カウンタnの内容<レ
ジスタlの内容である場合(ステップS703でYE
S)、ステップS704に進む。一方、カウンタnの内
容≧レジスタlの内容である場合(ステップS703で
NO)、ステップS707に進む。ステップS704で
は、カウンタnの値を1増やす。ステップS705で
は、検索文字列保持部504に保持されている検索文字
列のカウンタnの内容が示すn番目の文字について、イ
ンデックスの読み込みを行う。当該文字の全ての文字位
置から(n−1)を減じた値を配列2に読み込む。
【0010】ステップS706では、配列1と配列2か
ら、配列1と配列2の両方に存在している値を全て取り
出し、これらの値だけを新たに配列1の値とする。そし
て、ステップS703に戻る。図17は、図16に示し
た配列1と、その配列1に対する配列2において、n=
2の時の配列1の状態を示している。ステップS707
では、配列1が空でない場合は、検索文字列が検索され
たことを示す値として1を検索結果保持部506に保持
する。配列1が空の場合は、検索文字列が検索されなか
ったことを示す値として0を検索結果保持部506に保
持する。そして、検索処理を終了する。
【0011】以上の検索処理により、上述の例である検
索文字列「田淵」を検索すると、位置5に当該文字列が
あるので、このテキストは検索される。日本語の場合、
語の区切りを容易に求められないため、このように文字
列として一致するテキストを検索する検索方法は有効で
ある。
【0012】
【発明が解決しようとする課題】しかしながら、上記従
来の情報処理装置では、以下のような問題点があった。 ・異体字に対して、異なる文字コードが割り当てられて
いるので、使用者にとって同一に扱いたい文字がインデ
ックスでは別に割り当てられてしまう。そのため、異体
字をそれぞれに含む文字列の検索を行なうには、それぞ
れの文字列の論理和検索をしなければならない。また、
この状況で、異体字の存在を意識できなかった場合に
は、使用者が検索したい文字を検索できないことがあ
る。
【0013】・異種アーキテクチャの情報処理装置の異
なる使用文字コードによって、異なるインデックスを作
成しなければならない。そして、この異なる使用文字コ
ードにおいては、各アーキテクチャに対して独自の拡張
文字を用意している場合があり、この場合においても上
記の異体字で生じる問題が起きる。本発明は上記の問題
に鑑みてなされたものであり、異体字や異なる使用文字
コードを含むテキストデータの検索を効率良く検索する
ことができる情報処理装置及びその方法を提供すること
を目的とする。
【0014】
【課題を解決するための手段】上記の問題点を解決する
ための本発明による情報処理装置は以下の構成を備え
る。即ちテキストデータを検索する情報処理装置であっ
て、テキストデータを保持する保持手段と、前記保持手
段で保持されているテキストデータを構成する文字列の
各文字を対応する内部コードに変換する変換手段と、前
記変換手段で変換された内部コード列を変換前のテキス
トデータと対応づけて管理する管理手段と、入力された
検索条件に対し前記変換手段による変換を行い、変換さ
れた検索条件に該当する前記管理手段に管理されている
内部コードを検索する検索手段とを備える。
【0015】また、好ましくは、前記変換手段は、前記
文字列の各文字の内、異体字である文字群には、同一の
内部コードに変換する。また、好ましくは、前記管理手
段は、前記内部コード列の各内部コードの位置に関する
位置情報を作成する作成手段と、前記作成手段で作成し
た位置情報を保持する位置情報保持手段とを備える。
【0016】また、好ましくは、前記検索手段は、前記
位置情報保持手段に保持されている位置情報を参照し
て、変換された検索条件に該当する前記管理手段に管理
されている内部コードを検索する。また、好ましくは、
前記変換手段は、前記文字列の各文字の内、異なる文字
コード系で対応する文字群には、同一の内部コードに変
換する。
【0017】上記の目的を達成するための本発明による
情報処理装置は以下の構成を備える。即ち、テキストデ
ータを管理する情報処理装置であって、前記テキストデ
ータを構成する文字列の各文字を対応する内部コードに
変換する変換手段と、前記変換手段で変換された内部コ
ード列の位置に関する位置情報を作成する作成手段と、
前記作成手段で作成された位置情報と前記変換手段で変
換された内部コード列と変換前のテキストデータとを対
応づけて管理する管理手段とを備える。
【0018】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、テキストデ
ータを検索する情報処理方法であって、テキストデータ
を第1記憶媒体に保持する保持工程と、前記保持工程で
前記第1記憶媒体に保持されているテキストデータを構
成する文字列の各文字を対応する内部コードに変換する
変換工程と、前記変換工程で変換された内部コード列を
変換前のテキストデータと対応づけて第2記憶媒体に管
理する管理工程と、入力された検索条件に対し前記変換
工程による変換を行い、変換された検索条件に該当する
前記管理工程で前記第2記憶媒体に管理されている内部
コードを検索する検索工程とを備える。
【0019】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、テキストデ
ータを管理する情報処理方法であって、前記テキストデ
ータを構成する文字列の各文字を対応する内部コードに
変換する変換工程と、前記変換工程で変換された内部コ
ード列の位置に関する位置情報を作成する作成工程と、
前記作成工程で作成された位置情報と前記変換工程で変
換された内部コード列と変換前のテキストデータとを対
応づけて記憶媒体に管理する管理工程とを備えることを
特徴とする情報処理方法。
【0020】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
テキストデータを検索する情報処理装置の制御のプログ
ラムコードが格納されたコンピュータ可読メモリであっ
て、テキストデータを第1記憶媒体に保持する保持工程
のプログラムコードと、前記保持工程で前記第1記憶媒
体に保持されているテキストデータを構成する文字列の
各文字を対応する内部コードに変換する変換工程のプロ
グラムコードと、前記変換工程で変換された内部コード
列を変換前のテキストデータと対応づけて第2記憶媒体
に管理する管理工程のプログラムコードと、入力された
検索条件に対し前記変換工程による変換を行い、変換さ
れた検索条件に該当する前記管理工程で前記第2記憶媒
体に管理されている内部コードを検索する検索工程のプ
ログラムコードとを備える。
【0021】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
テキストデータを管理する情報処理装置の制御のプログ
ラムコードが格納されたコンピュータ可読メモリであっ
て、前記テキストデータを構成する文字列の各文字を対
応する内部コードに変換する変換工程のプログラムコー
ドと、前記変換工程で変換された内部コード列の位置に
関する位置情報を作成する作成工程のプログラムコード
と、前記作成工程で作成された位置情報と前記変換工程
で変換された内部コード列と変換前のテキストデータと
を対応づけて記憶媒体に管理する管理工程のプログラム
コードとを備える。
【0022】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。図1は本発明の実施形
態に係る情報処理装置の機能構成を示すブロック図であ
る。図1において、101は被検索テキストデータを保
持する被検索テキスト保持部である。102は被検索テ
キスト保持部101に保持されている被検索テキストデ
ータ中の各文字に対して、後述する内部コード変換部1
06を用いて、内部コードに変換する被検索テキスト変
換部である。103は被検索テキスト変換部により変換
されたテキストデータを保持する変換テキスト保持部で
ある。104は変換テキスト保持部103に保持されて
いる変換されたテキストデータに対して、変換されたテ
キストデータ中の内部コードごとに、変換されたテキス
トデータ中での当該文字の位置を列挙したインデックス
を保持するインデックス作成部である。
【0023】105はインデックス作成部104で作成
したインデックスを保持するインデックス保持部であ
る。106は被検索テキストデータや検索文字列を構成
する各文字から、インデックスを構成する内部コードへ
変換する内部コード変換部である。107は検索のキー
となる文字列あるいは単語を保持する検索文字列保持部
である。108は検索文字列保持部107に保持されて
いる検索文字列の各文字に対して、内部コード変換部1
06を用いて内部コードに変換する検索文字列変換部で
ある。109は検索文字列変換部108で変換された検
索文字列を保持する変換検索文字列保持部である。11
0はインデックス保持部105に保持されているインデ
ックスを用いて、変換検索文字列保持部109に保持さ
れている変換検索文字列に一致する文字列を検索する検
索部である。111は検索部110による検索結果を保
持する検索結果保持部である。
【0024】次に本発明の実施形態の情報処理装置の構
成について、図2を用いて説明する。図2は本発明の実
施形態の情報処理装置の構成を示すブロック図である。
図2において、201はCPUであり、後述する手順を
実現するプログラムに従って動作する。202はRAM
であり、被検索テキスト保持部101、変換テキスト保
持部103、内部コード変換部106、変換検索文字列
保持部109、検索結果保持部111と上記プログラム
の動作に必要な記憶領域とを提供する。203はROM
であり、後述する手順を実現するプログラムを保持す
る。204はディスク装置であり、インデックス保持部
105を実現する。205は情報処理装置の各種構成要
素を相互に接続するバスである。
【0025】以下、説明していく本発明の実施形態で実
行される処理は、インデックスを作成するインデックス
作成処理と文字列を検索する検索処理の2つに大きく分
かれる。まず、インデックス作成処理について、図3を
用いて説明する。図3は本発明の実施形態で実行される
インデックス作成処理を示すフローチャートである。
【0026】まず、ステップS301では、テキストデ
ータの変換処理を行う。被検索テキスト保持部101に
保持されているテキストデータの各文字を被検索テキス
ト変換部102が、内部コード変換部106に渡して、
内部コード変換部106で内部コードに変換する。そし
て、すべての文字が内部コードに変換された新たなテキ
ストデータを変換テキスト保持部103に保持する。例
えば、図14に示す文書の各文字を内部コードに変換す
る場合、図5に示すように、「淵」、「渕」、「渊」の
異体字は内部コード変換部106で、すべて同一の内部
コード0x385に変換される。ステップS302で
は、カウンタcの初期化を行う。カウンタcは、処理の
対象となっている文字の位置を示すもので、これを0に
初期化する。
【0027】ステップS303では、ポインタpの初期
化を行う。ポインタpは、処理の対象となっている文字
を指し示すもので、これを被検索テキストデータの先頭
文字を指し示すように初期化する。ステップS304で
は、ポインタpが被検索テキストデータの最後に達した
か否かを判定する。最後に達している場合(ステップS
304でYES)、インデックス作成処理を終了する。
一方、最後に達していない場合(ステップS304でN
O)、ステップS305に進む。
【0028】ステップS305では、ポインタpが指し
示す位置にある文字について、インデックスの当該文字
の位置リストにカウンタcの値を追加する。ステップS
306では、カウンタcの値を1増やす。ステップS3
07では、ポインタpが次の文字を指し示すようポイン
タpを進め、ステップS304に戻る。以上のインデッ
クス処理により、例えば、図14に示す文書に対して、
図6に示すインデックスが作成される。そして、図6の
各行が、各文字が現れる位置のリストとなっている。
【0029】次に本発明の実施形態で実行される検索処
理について、図4を用いて説明する。図4は本発明の実
施形態で実行される検索処理を示すフローチャートであ
る。まず、ステップS401では、検索文字列の変換処
理を行う。検索文字列保持部107に保持されている検
索文字列の各文字を検索文字列変換部108が、内部コ
ード変換部106に渡して、内部コード変換部106で
内部コードに変換する。そして、すべての文字が内部コ
ードに変換された新たな検索文字列を変換検索文字列保
持部109に保持する。例えば、検索文字列が「田淵」
である場合は、図5に示すように、内部コード「0x2
46」と「0x385」からなる検索文字列に変換され
る。
【0030】ステップS402では、変換検索文字列保
持部109に保持されている変換された検索文字列の長
さをレジスタlに代入する。また、カウンタnに1を代
入する。例えば、変換された検索文字列が、「田淵」で
ある場合は、l=2、n=1となる。ステップS403
では、変換検索文字列保持部109に保持されている変
換された検索文字列の1番目の文字について、インデッ
クスの読み込みを行なう。当該文字の文字位置全てを配
列1に読み込む。
【0031】ステップS404では、レジスタlの内容
とカウンタnの内容を比較する。カウンタnの内容<レ
ジスタlの内容である場合(ステップS404でYE
S)、ステップS405に進む。一方、カウンタnの内
容≧レジスタlの内容である場合(ステップS404で
NO)、ステップS408に進む。ステップS405で
は、カウンタnの値を1増やす。ステップS406で
は、変換検索文字列保持部109に保持されている検索
文字列のカウンタnの内容が示すn番目の文字につい
て、インデックスの読み込みを行う。当該文字の全ての
文字位置から(n−1)を減じた値を配列2に読み込
む。
【0032】ステップS407では、配列1と配列2か
ら、配列1と配列2の両方に存在している値を全て取り
出し、これらの値だけを新たに配列1の値とする。そし
て、ステップS404に戻る。図7は、上述した検索文
字列「田淵」において、n=2の時の配列1の状態を示
している。ステップS408では、配列1が空でない場
合は、検索文字列が検索されたことを示す値として1を
検索結果保持部111に保持する。配列1が空の場合
は、検索文字列が検索されなかったことを示す値として
0を検索結果保持部111に保持する。そして、検索処
理を終了する。
【0033】以上の検索処理により、図14の被検索テ
キストデータに対し、上述の例である検索文字列「田
淵」を用いて検索を行うと、位置0(「田渕」)と位置
5(「田淵」)と位置11(「田渊」)の異体字を含む
文字列が「田淵」に該当する文字列として検索すること
ができる。以上説明したように、本実施形態によれば、
異体字を同一の内部コードで管理しておくので、異体字
である文字を検索する場合、その異体字に該当するすべ
ての文字を一度に検索することができる。
【0034】尚、本実施形態においては、インデックス
作成処理と検索処理を同一の情報処理装置で実行する場
合について説明したが、これに限定されるものではな
い。インデックス作成処理と検索処理を異なる情報処理
装置で行ってもよい。この場合の各情報処理装置の機能
構成について、図8と図9を用いて説明する。尚、図8
に示す情報処理装置と、図9に示す情報処理装置は、ネ
ットワーク回線等で接続され互いにデータの授受を可能
とする構成になっている。
【0035】図8は本発明の他の実施形態に係る情報処
理装置の機能構成を示すブロック図である。図8におい
て、1501は被検索テキストデータを保持する被検索
テキスト保持部である。1502は被検索テキスト保持
部1501に保持されている被検索テキストデータ中の
各文字に対して、後述する内部コード変換部1505を
用いて、内部コードに変換する被検索テキスト変換部で
ある。1503は被検索テキスト変換部1502により
変換されたテキストデータを保持する変換テキスト保持
部である。1504は変換テキスト保持部1503に保
持されている変換されたテキストデータに対して、変換
されたテキストデータ中の内部コードごとに、変換され
たテキストデータ中での当該文字の位置を列挙したイン
デックスを保持するインデックス作成部である。150
5は被検索テキストデータや検索文字列を構成する各文
字から、インデックスを構成する内部コードへ変換する
内部コード変換部である。1506はインデックス作成
部1504で作成したインデックスを保持するインデッ
クス保持部である。
【0036】図9は本発明の他の実施形態に係る情報処
理装置の機能構成を示すブロック図である。図9におい
て、1601は被検索テキストデータや検索文字列を構
成する各文字から、インデックスを構成する内部コード
へ変換する内部コード変換部である。1602は検索の
キーとなる文字列あるいは単語を保持する検索文字列保
持部である。1603は検索文字列保持部1602に保
持されている検索文字列の各文字に対して、内部コード
変換部1601を用いて内部コードに変換する検索文字
列変換部である。1604は検索文字列変換部1603
で変換された検索文字列を保持する変換検索文字列保持
部である。1605は図8に示す情報処理装置で作成さ
れたインデックスを保持するインデックス保持部であ
る。1606はインデックス保持部1605に保持され
ているインデックスを用いて、変換検索文字列保持部1
604に保持されている変換された検索文字列に一致す
る文字列を検索する検索部である。1607は検索部1
606による検索結果を保持する検索結果保持部であ
る。
【0037】また、上記実施形態では、内部コード変換
部106で異体字を同一内部コードに変換させる処理
(内部コード変換処理:図3のステップS301と図4
のステップS401に対応)させることを、図5に示す
ようなテーブル形式のデータで処理する場合について説
明したが、これに限定されるものではない。例えば、R
AM等の記憶媒体に図10に示すようなフローチャート
からなるプログラムを記憶することで実現してもよい。
ここで、図10に示すフローチャートについて、簡単に
説明する。
【0038】図10は本発明の他の実施形態で実行され
る内部コード変換処理の処理フローを示すフローチャー
トである。まず、ステップS1701で、被検索テキス
ト保持部101に保持されている文字をレジスタcに入
力する。そして、レジスタcに保持されている文字が異
体字であるか否かを判定する(ステップS1702〜ス
テップS1704)。そして、異体字である場合は、そ
の異体字すべてを共通の内部コードに変換し、レジスタ
rに入力する(ステップS1707〜ステップS170
9)。一方、異体字でなければ、その文字に対応する内
部コードに変換し、レジスタrに入力する(ステップS
1705)。ステップS1706で、レジスタrに保持
された内部コードを被検索テキスト保持部101に保持
されている文字に対応する内部コードとして、内部コー
ド変換部106に送る。
【0039】また、上記実施形態においては、内部コー
ド変換部106で異体字を同一内部コードに変換する場
合について説明したが、これに限定されるものではな
い。異種アーキテクチャである情報処理装置の異なる使
用文字コードにおいて、同一内部コードに変換するよう
な構成にすることもできる。例えば、UNIXオペレー
ティングシステムとWINDOWSオペレーティングシ
ステムといった異種アーキテクチャの情報処理装置では
それぞれ、EUC文字コード系とS−JIS文字コード
系といった異なる文字コード系を用いている。このよう
な場合において、異種アーキテクチャで別々のインデッ
クスを作成すると記憶装置の使用効率が悪くなる。ま
た、最近ではネットワークによって複数アーキテクチャ
のコンピュータが同じ記憶装置を共有することができる
ので、このような状況では、インデックスを共有できる
ことがのぞましい。そのために、内部コード変換部10
6において、被検索テキスト変換部102と検索文字列
変換部108から渡される文字のコード系の種類に基づ
いて、以下に示す式で内部コードを変換する。ここで、
c1、c2は2バイトからなる日本語文字コードの上位
バイト、下位バイトをそれぞれ表現している。また、f
(c1,c2)が変換される内部コードの値を示すもの
とする。
【0040】 以上の変換式でEUC文字コード系とS−JIS文字コ
ード系のような異なる文字コード系の対応するすべての
文字を同一内部コードに変換することができる。
【0041】また、上記実施形態においては、EUC文
字コード系とS−JIS文字コード系の文字に対して内
部コード変換部で同一内部コードに変換する場合につい
て説明したが、これに限定されるものではない。Uni
code系や、EBCDIKコード系などのコード系に
も使用できる。また、これらの2つのコード系に限ら
ず、複数種類のコード系の文字に対して内部コード変換
部で同一内部コードに変換してもよい。
【0042】また、異なるコード系の文字を内部コード
変換部で変換するのに変換式を用いることで実現した
が、これに限定されるものではない。文字に対応する内
部コードをテーブルとして外部記憶装置に保持し、変換
時に外部記憶装置にアクセスしたり、最初に外部記憶装
置からRAM等の記憶媒体に読み込んだ後、そのテーブ
ルを参照することで内部コードに変換しても良い。
【0043】また、上記実施形態においては、被検索テ
キスト保持部101、変換テキスト保持部103、内部
コード変換部106、検索文字列保持部107、変換検
索文字列保持部109、検索結果保持部111をRAM
202で、インデックス保持部105をディスク装置2
04で実現する場合について説明したが、これに限定さ
れるものではなく、任意の記憶媒体を用いて実現しても
よい。
【0044】また、上記実施形態においては、プログラ
ムをROMに保持する場合について説明したが、これに
限定されるものではなく、任意の記憶媒体を用いて実現
してもよい。また、同様の動作をする回路で実現しても
よい。尚、本発明は、複数の機器(例えば、ホストコン
ピュータ、インタフェース機器、リーダ、プリンタ等)
から構成されるシステムに適用しても、一つの機器から
なる装置(例えば、複写機、ファクシミリ装置等)に適
用してもよい。
【0045】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
【0046】この場合、記憶媒体から読出されたプログ
ラムコード自体が上述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。プログラムコードを供
給するための記憶媒体としては、例えば、フロッピディ
スク、ハードディスク、光ディスク、光磁気ディスク、
CD−ROM、CD−R、磁気テープ、不揮発性のメモ
リカード、ROMなどを用いることができる。
【0047】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施の形態の機能
が実現される場合も含まれることは言うまでもない。
【0048】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書き込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0049】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになるが、簡単に説
明すると、図18、図19のメモリマップ例に示す各モ
ジュールを記憶媒体に格納することになる。すなわち、
図18に示すように、少なくとも「保持モジュール」、
「変換モジュール」、「管理モジュール」、および「検
索モジュール」の各モジュールのプログラムコードを記
憶媒体に格納すればよい。
【0050】尚、「保持モジュール」は、テキストデー
タを第1記憶媒体に保持する。「変換モジュール」は、
第1記憶媒体に保持されているテキストデータを構成す
る文字列の各文字を対応する内部コードに変換する。
「管理モジュール」は、変換された内部コード列を変換
前のテキストデータと対応づけて第2記憶媒体に管理す
る。「検索モジュール」は、入力された検索条件に対し
変換を行い、変換された検索条件に該当する第2記憶媒
体に管理されている内部コードに対応するテキストデー
タを検索する。
【0051】また、図19に示すように、少なくとも、
「変換モジュール」、「作成モジュール」および「管理
モジュール」の各モジュールのプログラムコードを記憶
媒体に格納すればよい。尚、「変換モジュール」は、テ
キストデータを構成する文字列の各文字を対応する内部
コードに変換する。「作成モジュール」は、変換された
内部コード列の位置に関する位置情報を作成する。「管
理モジュール」は、作成された位置情報と変換された内
部コード列と変換前のテキストデータとを対応づけて記
憶媒体に管理する。
【0052】
【発明の効果】以上説明したように、本発明によれば、
異体字や異なる使用文字コードを含むテキストデータの
検索を効率良く検索することができる情報処理装置及び
その方法を提供できる。
【図面の簡単な説明】
【図1】本発明の実施形態の情報処理装置の機能構成を
示すブロック図である。
【図2】本発明の実施形態の情報処理装置の構成を示す
ブロック図である。
【図3】本発明の実施形態で実行されるインデックス作
成処理を示すフローチャートである。
【図4】本発明の実施形態で実行される検索処理を示す
フローチャートである。
【図5】本発明の実施形態における内部コード変換の例
を示す図である。
【図6】本発明の実施形態におけるインデックスの例を
示す図である。
【図7】本発明の実施形態における配列1の一例を示す
図である。
【図8】本発明の他の実施形態に係る情報処理装置の機
能構成を示すブロック図である。
【図9】本発明の他の実施形態の情報処理装置の機能構
成を示すブロック図である。
【図10】本発明の他の実施形態で実行される内部コー
ド変換処理の処理フローを示すフローチャートである。
【図11】従来の情報処理装置の機能構成を示すブロッ
ク図である。
【図12】従来の情報処理装置で実行されるインデック
ス作成処理を示すフローチャートである。
【図13】従来の情報処理装置で実行される検索処理を
示すフローチャートである。
【図14】被検索テキストデータの一例を示す図であ
る。
【図15】従来のインデックスの一例を示す図である。
【図16】従来の配列1の状態の一例を示す図である。
【図17】従来の配列1の状態の一例を示す図である。
【図18】本発明の実施形態を実現するプログラムコー
ドを格納した記憶媒体のメモリマップの構造を示す図で
ある。
【図19】本発明の実施形態を実現するプログラムコー
ドを格納した記憶媒体のメモリマップの構造を示す図で
ある。
【符号の説明】
101 被検索テキスト保持部 102 被検索テキスト変換部 103 変換テキスト保持部 104 インデックス作成部 105 インデックス保持部 106 内部コード変換部 107 検索文字列保持部 108 検索文字列変換部 109 変換検索文字列保持部 110 検索部 111 検索結果保持部

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 テキストデータを検索する情報処理装置
    であって、 テキストデータを保持する保持手段と、 前記保持手段で保持されているテキストデータを構成す
    る文字列の各文字を対応する内部コードに変換する変換
    手段と、 前記変換手段で変換された内部コード列を変換前のテキ
    ストデータと対応づけて管理する管理手段と、 入力された検索条件に対し前記変換手段による変換を行
    い、変換された検索条件に該当する前記管理手段に管理
    されている内部コードに対応するテキストデータを検索
    する検索手段とを備えることを特徴とする情報処理装
    置。
  2. 【請求項2】 前記変換手段は、前記文字列の各文字の
    内、異体字である文字群には、同一の内部コードに変換
    することを特徴とする請求項1に記載の情報処理装置。
  3. 【請求項3】 前記管理手段は、前記内部コード列の各
    内部コードの位置に関する位置情報を作成する作成手段
    と、 前記作成手段で作成した位置情報を保持する位置情報保
    持手段とを備えることを特徴とする請求項1に記載の情
    報処理装置。
  4. 【請求項4】 前記検索手段は、前記位置情報保持手段
    に保持されている位置情報を参照して、変換された検索
    条件に該当する前記管理手段に管理されている内部コー
    ドに対応するテキストデータを検索することを特徴とす
    る請求項3に記載の情報処理装置。
  5. 【請求項5】 前記変換手段は、前記文字列の各文字の
    内、異なる文字コード系で対応する文字群には、同一の
    内部コードに変換することを特徴とする請求項1に記載
    の情報処理装置。
  6. 【請求項6】 テキストデータを管理する情報処理装置
    であって、 前記テキストデータを構成する文字列の各文字を対応す
    る内部コードに変換する変換手段と、 前記変換手段で変換された内部コード列の位置に関する
    位置情報を作成する作成手段と、 前記作成手段で作成された位置情報と前記変換手段で変
    換された内部コード列と変換前のテキストデータとを対
    応づけて管理する管理手段とを備えることを特徴とする
    情報処理装置。
  7. 【請求項7】 テキストデータを検索する情報処理方法
    であって、 テキストデータを第1記憶媒体に保持する保持工程と、 前記保持工程で前記第1記憶媒体に保持されているテキ
    ストデータを構成する文字列の各文字を対応する内部コ
    ードに変換する変換工程と、 前記変換工程で変換された内部コード列を変換前のテキ
    ストデータと対応づけて第2記憶媒体に管理する管理工
    程と、 入力された検索条件に対し前記変換工程による変換を行
    い、変換された検索条件に該当する前記管理工程で前記
    第2記憶媒体に管理されている内部コードに対応するテ
    キストデータを検索する検索工程とを備えることを特徴
    とする情報処理方法。
  8. 【請求項8】 前記変換工程は、前記文字列の各文字の
    内、異体字である文字群には、同一の内部コードに変換
    することを特徴とする請求項7に記載の情報処理方法。
  9. 【請求項9】 前記管理工程は、前記内部コード列の各
    内部コードの位置に関する位置情報を作成する作成工程
    と、 前記作成工程で作成した位置情報を第3記憶媒体に保持
    する位置情報保持工程とを備えることを特徴とする請求
    項7に記載の情報処理方法。
  10. 【請求項10】 前記検索工程は、前記位置情報保持工
    程で前記第3記憶媒体に保持されている位置情報を参照
    して、変換された検索条件に該当する前記管理工程で前
    記第2記憶媒体に管理されている内部コードに対応する
    テキストデータを検索することを特徴とする請求項9に
    記載の情報処理方法。
  11. 【請求項11】 前記変換工程は、前記文字列の各文字
    の内、異なる文字コード系で対応する文字群には、同一
    の内部コードに変換することを特徴とする請求項7に記
    載の情報処理方法。
  12. 【請求項12】 テキストデータを管理する情報処理方
    法であって、 前記テキストデータを構成する文字列の各文字を対応す
    る内部コードに変換する変換工程と、 前記変換工程で変換された内部コード列の位置に関する
    位置情報を作成する作成工程と、 前記作成工程で作成された位置情報と前記変換工程で変
    換された内部コード列と変換前のテキストデータとを対
    応づけて記憶媒体に管理する管理工程とを備えることを
    特徴とする情報処理方法。
  13. 【請求項13】 テキストデータを検索する情報処理装
    置の制御のプログラムコードが格納されたコンピュータ
    可読メモリであって、 テキストデータを第1記憶媒体に保持する保持工程のプ
    ログラムコードと、 前記保持工程で前記第1記憶媒体に保持されているテキ
    ストデータを構成する文字列の各文字を対応する内部コ
    ードに変換する変換工程のプログラムコードと、 前記変換工程で変換された内部コード列を変換前のテキ
    ストデータと対応づけて第2記憶媒体に管理する管理工
    程のプログラムコードと、 入力された検索条件に対し前記変換工程による変換を行
    い、変換された検索条件に該当する前記管理工程で前記
    第2記憶媒体に管理されている内部コードに対応するテ
    キストデータを検索する検索工程のプログラムコードと
    を備えることを特徴とするコンピュータ可読メモリ。
  14. 【請求項14】 テキストデータを管理する情報処理装
    置の制御のプログラムコードが格納されたコンピュータ
    可読メモリであって、 前記テキストデータを構成する文字列の各文字を対応す
    る内部コードに変換する変換工程のプログラムコード
    と、 前記変換工程で変換された内部コード列の位置に関する
    位置情報を作成する作成工程のプログラムコードと、 前記作成工程で作成された位置情報と前記変換工程で変
    換された内部コード列と変換前のテキストデータとを対
    応づけて記憶媒体に管理する管理工程のプログラムコー
    ドとを備えることを特徴とするコンピュータ可読メモ
    リ。
JP9104739A 1997-04-22 1997-04-22 情報処理装置及びその方法 Pending JPH10301940A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9104739A JPH10301940A (ja) 1997-04-22 1997-04-22 情報処理装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9104739A JPH10301940A (ja) 1997-04-22 1997-04-22 情報処理装置及びその方法

Publications (1)

Publication Number Publication Date
JPH10301940A true JPH10301940A (ja) 1998-11-13

Family

ID=14388876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9104739A Pending JPH10301940A (ja) 1997-04-22 1997-04-22 情報処理装置及びその方法

Country Status (1)

Country Link
JP (1) JPH10301940A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125915A (ja) * 1999-10-28 2001-05-11 Fujitsu Ltd 情報検索装置
JP2005346537A (ja) * 2004-06-04 2005-12-15 Dainippon Printing Co Ltd Xml異体字検索システムおよびxml異体字検索方法
JP2011154602A (ja) * 2010-01-28 2011-08-11 Fujitsu Frontech Ltd 文字列管理装置、文字列登録方法、文字列検索方法および文字列管理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125915A (ja) * 1999-10-28 2001-05-11 Fujitsu Ltd 情報検索装置
JP2005346537A (ja) * 2004-06-04 2005-12-15 Dainippon Printing Co Ltd Xml異体字検索システムおよびxml異体字検索方法
JP2011154602A (ja) * 2010-01-28 2011-08-11 Fujitsu Frontech Ltd 文字列管理装置、文字列登録方法、文字列検索方法および文字列管理プログラム

Similar Documents

Publication Publication Date Title
JP5437557B2 (ja) 検索処理方法及び検索システム
ES2214535T3 (es) Procedimiento y sistema portatil de indexacion de documentos utilizando la descomposicion de palabras en n-grams.
US7013304B1 (en) Method for locating digital information files
US8380012B2 (en) Document imaging and indexing system
JPWO2004111876A1 (ja) 検索条件を再利用する検索システムおよび方法
KR100459832B1 (ko) N-그램워드(n-gramword)분해원리를이용하여이식가능한문서를인덱싱하는시스템및방법
US20040143574A1 (en) System and method for creating a data file for use in searching a database
JPH10301940A (ja) 情報処理装置及びその方法
JPH1125084A (ja) 文字列変換装置およびそのプログラム記録媒体
JPH10285325A (ja) ファックス受信転送システム
JP2988304B2 (ja) 文字列管理装置
JP7378672B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP3854684B2 (ja) 情報処理装置及びその方法
JP3601869B2 (ja) 機械翻訳システム
JPH03137772A (ja) データベース利用システム
JPH10307840A (ja) 情報処理装置及びその方法
JPH10312394A (ja) 情報処理装置及びその方法
JPH08263512A (ja) 文書検索装置
JP3825873B2 (ja) 情報処理装置及び方法
JPH09114854A (ja) 文書検索システム
JPS61267828A (ja) 情報登録検索装置
JPH06139278A (ja) 文字コード変換機能を備えた文字列検索装置
JP3644765B2 (ja) 文書管理方式および文書管理方法
JP3972309B2 (ja) 情報変換装置及びプログラム
JPH11175553A (ja) 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040414

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040414

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20040414

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060825