JPH10283368A - 情報処理装置及びその方法 - Google Patents

情報処理装置及びその方法

Info

Publication number
JPH10283368A
JPH10283368A JP9092189A JP9218997A JPH10283368A JP H10283368 A JPH10283368 A JP H10283368A JP 9092189 A JP9092189 A JP 9092189A JP 9218997 A JP9218997 A JP 9218997A JP H10283368 A JPH10283368 A JP H10283368A
Authority
JP
Japan
Prior art keywords
position information
word
japanese
japanese character
creating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9092189A
Other languages
English (en)
Inventor
Noriko Machida
紀子 町田
Shiro Ito
史朗 伊藤
Shogo Shibata
昇吾 柴田
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP9092189A priority Critical patent/JPH10283368A/ja
Publication of JPH10283368A publication Critical patent/JPH10283368A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複数種類の言語で構成される文書データの検
索における検索精度を向上し、かつ高速に検索すること
ができる情報処理装置及びその方法を提供する。 【解決手段】 検索条件を検索キー入力部102より入
力し、入力した検索条件に含まれる日本語の各文字の位
置に関する日本語文字位置情報を日本語文字位置インデ
ックス作成部106で作成する。また、検索条件に含ま
れる日本語以外の言語の単語の位置を示す単語位置情報
を英単語位置インデックス作成部110で作成する。作
成された日本語文字位置情報及び前記単語位置情報に基
づいて、検索条件に該当する文書データを位置リスト組
み合わせ部116で検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日本語を含む、少
なくとも2種類以上の言語から構成される文書データを
管理する文書データベースを有し、該文書データベース
より所望の文書データを検索する情報処理装置及びその
方法に関するものである。
【0002】
【従来の技術】文書データ中の全てのテキストデータを
対象として与えられた検索キーを含む文書データを検索
する全文検索装置等の情報処理装置では、大量のテキス
トデータを高速に検索するために、検索対象文書のイン
デックスを予め作成して、インデックスを用いて検索を
行なうインデックス技術が利用されている。インデック
ス技術の一例として、特開平4−205560公報で
は、文字位置インデックス技術について述べられてい
る。
【0003】文字位置インデックス技術の基本的な考え
方は、被検索テキストデータ中に出現する文字および文
字列の位置を文字ごとに1ずつ増加する整数で表わすこ
とにある。その上で、各文字および文字列ごとに、当該
文字および文字列をキーとして、当該文字および文字列
が現れる全ての位置を列挙する。このインデックスにお
いて、ある検索文字列を被検索テキストデータから検索
する場合には、当該検索文字列をインデックスのキーと
なっている文字および文字列に分解する。そして、分解
した文字および文字列の位置関係が、当該検索文字列に
おける位置関係に一致する組み合わせを探すことで検索
を行なう。特に、検索テキストデータが日本語の場合、
語の区切りを容易に求められないため、このように文字
列として一致するテキストを検索する方法は有効であ
る。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の情報処理装置では、英語のように単語の区切りが明
確な言語に対して、単語として一致するテキストだけを
検索することができないという欠点があった。これは、
日本語における空白文字は語の区切りを表すものではな
いので、空白文字を読み飛ばしてインデックスを作成す
るためである。そのため、“form”という検索語に
対して、図10に示すような“informatio
n”という文字列が含まれている文書も検索されてしま
う。尚、この例では、日本語中のアルファベットの大文
字と小文字の表記の揺れを吸収するために、大文字は全
て小文字に変換してインデックスを作成している。
【0005】一方、単語ごとにインデックスを作成して
検索する方法もあるが、これでは日本語文書などのよう
に単語を容易に区切ることができない言語では、正しい
インデックスが作成されるとは限らず、検索結果に誤り
が生じる問題がある。本発明は上記の問題に鑑みてなさ
れたものであり、複数種類の言語で構成される文書デー
タの検索における検索精度を向上し、かつ高速に検索す
ることができる情報処理装置及びその方法を提供するこ
とを目的とする。
【0006】
【課題を解決するための手段】上記の目的を解決するた
めの本発明による情報処理装置は以下の構成を備える。
即ち、日本語を含む、少なくとも2種類以上の言語から
構成される文書データを管理する文書データベースを有
し、該文書データベースより所望の文書データを検索す
る情報処理装置であって、検索条件を入力する入力手段
と、前記検索条件に含まれる日本語の各文字の位置に関
する日本語文字位置情報を作成する日本語文字位置情報
作成手段と、前記検索条件に含まれる日本語以外の言語
の単語の位置を示す単語位置情報を作成する単語位置情
報作成手段と、前記日本語文字位置情報及び前記単語位
置情報に基づいて、前記検索条件に該当する文書データ
を検索する検索手段とを備える。
【0007】また、好ましくは、前記検索手段は、検索
された検索結果を表示する表示手段とを備える。また、
好ましくは、前記日本語文字位置情報作成手段は、作成
した日本語文字位置情報を格納する日本語文字位置情報
格納手段とを備える。
【0008】また、好ましくは、前記単語位置情報作成
手段は、作成した単語位置情報を格納する単語位置情報
を格納する単語位置情報格納手段とを備える。上記の目
的を達成するための本発明による情報処理装置は以下の
構成を備える。即ち、日本語を含む、少なくとも2種類
以上の言語から構成される文書データを管理する情報処
理装置であって、管理対象となる文書データに含まれる
日本語の各文字の位置に関する日本語文字位置情報を作
成する日本語文字位置情報作成手段と、前記日本語文字
位置情報作成手段で作成された日本語文字位置情報を格
納する日本語文字位置情報格納手段と、前記文書データ
に含まれる日本語以外の言語の単語の位置を示す単語位
置情報を作成する単語位置情報作成手段と、前記単語位
置情報作成手段で作成された単語位置情報を格納する単
語位置情報格納手段と、前記文書データを、前記日本語
文字位置情報と前記単語位置情報と対応づけて管理する
管理手段とを備える。
【0009】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、日本語を含
む、少なくとも2種類以上の言語から構成される文書デ
ータを管理する文書データベースを有し、該文書データ
ベースより所望の文書データを検索する情報処理方法で
あって、検索条件を入力する入力工程と、前記検索条件
に含まれる日本語の各文字の位置に関する日本語文字位
置情報を作成する日本語文字位置情報作成工程と、前記
検索条件に含まれる日本語以外の言語の単語の位置を示
す単語位置情報を作成する単語位置情報作成工程と、前
記日本語文字位置情報及び前記単語位置情報に基づい
て、前記検索条件に該当する文書データを検索する検索
工程とを備える。
【0010】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、日本語を含
む、少なくとも2種類以上の言語から構成される文書デ
ータを管理する情報処理方法であって、管理対象となる
文書データに含まれる日本語の各文字の位置に関する日
本語文字位置情報を作成する日本語文字位置情報作成工
程と、前記日本語文字位置情報作成工程で作成された日
本語文字位置情報を記憶媒体に格納する日本語文字位置
情報格納工程と、前記文書データに含まれる日本語以外
の言語の単語の位置を示す単語位置情報を作成する単語
位置情報作成工程と、前記単語位置情報作成工程で作成
された単語位置情報を記憶媒体に格納する単語位置情報
格納工程と、前記文書データを、前記日本語文字位置情
報と前記単語位置情報と対応づけて記憶媒体に管理する
管理工程とを備える。
【0011】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
日本語を含む、少なくとも2種類以上の言語から構成さ
れる文書データを管理する文書データベースを有し、該
文書データベースより所望の文書データを検索する情報
処理のプログラムコードが格納されたコンピュータ可読
メモリであって、検索条件を入力する入力工程のプログ
ラムコードと、前記検索条件に含まれる日本語の各文字
の位置に関する日本語文字位置情報を作成する日本語文
字位置情報作成工程のプログラムコードと、前記検索条
件に含まれる日本語以外の言語の単語の位置を示す単語
位置情報を作成する単語位置情報作成工程のプログラム
コードと、前記日本語文字位置情報及び前記単語位置情
報に基づいて、前記検索条件に該当する文書データを検
索する検索工程のプログラムコードとを備える。
【0012】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
日本語を含む、少なくとも2種類以上の言語から構成さ
れる文書データを管理する情報処理のプログラムコード
が格納されたコンピュータ可読メモリであって、管理対
象となる文書データに含まれる日本語の各文字の位置に
関する日本語文字位置情報を作成する日本語文字位置情
報作成工程のプログラムコードと、前記日本語文字位置
情報作成工程で作成された日本語文字位置情報を記憶媒
体に格納する日本語文字位置情報格納工程のプログラム
コードと、前記文書データに含まれる日本語以外の言語
の単語の位置を示す単語位置情報を作成する単語位置情
報作成工程のプログラムコードと、前記単語位置情報作
成工程で作成された単語位置情報を記憶媒体に格納する
単語位置情報格納工程のプログラムコードと、前記文書
データを、前記日本語文字位置情報と前記単語位置情報
と対応づけて記憶媒体に管理する管理工程のプログラム
コードとを備える。
【0013】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。図1は本発明の実施形
態に係る情報処理装置の機能構成を示すブロック図であ
る。図1において、101は検索対象となる文書データ
を保持する文書データベースである。102は文書デー
タの検索時に検索キーを入力する検索キー入力部であ
る。103は検索キー入力部102により入力された検
索キーを保持する検索キー保持部である。104は文書
データを検索するためのインデックス作成時には文書デ
ータベース101の文書データから、文書データの検索
時には検索キー保持部103に保持された検索キーから
英単語を抽出し、英単語情報を含んだ文書データ(検索
キー)に変換する文書変換部である。
【0014】105は文書変換部104で変換された文
書データ(検索キー)を保持する変換文書保持部であ
る。106は変換文書保持部105に保持された文書デ
ータ(検索キー)の日本語の各文字について、日本語文
字位置インデックスを作成する日本語文字位置インデッ
クス作成部である。107は日本語文字位置インデック
ス作成部106により作成された日本語文字位置インデ
ックスを格納する日本語文字位置インデックス格納部で
ある。108は日本語文字位置インデックス作成部10
6により作成された英単語位置を保持する英単語位置保
持部である。
【0015】109は文書変換部104で抽出された英
単語を保持する英単語保持部である。110は英単語保
持部109に保持された英単語について、英単語位置保
持部108に保持された英単語位置を参照して英単語位
置インデックスを作成する英単語位置インデックス作成
部である。111は英単語位置インデックス作成部11
0により作成された英単語位置インデックスを格納する
英単語位置インデックス格納部である。
【0016】112は日本語文字位置インデックス格納
部107に格納された日本語文字位置インデックスか
ら、変換文書保持部105に保持された検索キーに含ま
れる各日本語文字の位置を検索する日本語文字位置検索
部である。113は日本語文字位置検索部112により
検索された日本語文字の位置を示す日本語文字位置リス
トを保持する日本語文字位置リスト保持部である。
【0017】114は英単語位置インデックス格納部1
11に格納された英単語位置インデックスから、英単語
保持部109に保持された英単語の位置を検索する英単
語位置検索部である。115は英単語位置検索部114
により検索された英単語の位置を示す英単語位置リスト
を保持する英単語位置リスト保持部である。116は日
本語文字位置リスト保持部113に保持された日本語文
字位置リストと、英単語位置リスト保持部115に保持
された英単語位置リストを組み合わせて、検索結果を作
成する位置リスト組み合わせ部である。117は位置リ
スト組み合わせ部116により得られた検索結果を保持
する検索結果保持部である。118は検索結果保持部1
17に保持された検索結果を出力する検索結果出力部で
ある。
【0018】次に本発明の実施形態の情報処理装置のハ
ードウェア構成について、図2を用いて説明する。図2
は本発明の実施形態に係る情報処理装置のハードウェア
構成を示す図である。図2において、201は後述する
図3、図4のフローチャートに示す制御手順を記憶する
制御メモリである。制御メモリ201はROMであって
もよいし、RAMであっても良い。202はメモリで、
検索キー保持部103と変換文書保持部105と英単語
位置保持部108と英単語保持部109と日本語文字位
置リスト保持部113と英単語位置リスト保持部115
と検索結果保持部117と上記プログラムの動作に必要
な記憶領域とを提供する。203は制御メモリ201に
記憶されている制御手順に従って処理を行なう中央処理
装置である。204はディスクであり、文書データベー
ス101と日本語文字位置インデックス格納部107と
英単語位置インデックス格納部111を実現する。20
5はマウス・キーボード等の入力部であり、検索キー入
力部102を実現する。206は出力部であり、検索結
果出力部118を実現する。出力部206はCRT、液
晶ディスプレイ等の、どのような表示装置であってもよ
い。207はバスであり、上記の各構成を接続し、各構
成間におけるデータの授受を可能とする。
【0019】次に本発明の実施形態で実行される動作手
順のうち、まず、文書データを検索するためのインデッ
クスを作成するインデックス作成動作手順について、図
3を用いて説明する。図3は本発明の実施形態で実行さ
れるインデックス作成動作手順を示すフローチャートで
ある。
【0020】まず、ステップS301では、文書データ
ベース101の文書のうち、インデックス未作成の文書
データがあるか否かを調べる。インデックス未作成の文
書データがある場合(ステップS301であり)、ステ
ップS302へ進む。一方、インデックス未作成の文書
データがない場合(ステップS301でなし)、つま
り、全ての検索対象の文書データのインデックスが作成
されている場合は処理を終了する。
【0021】ステップS302では、文書変換部104
により検索対象となる文書データから英単語を抽出し、
英単語保持部109に保持する。さらに、検索対象とな
る文書データを英単語情報を含んだ文書に変換し、変換
文書保持部105に保持する。変換は以下の規則に基づ
いて行なう。 ・英単語を同バイト数の英単語を表す文字(例えば
“x”)で置換する。 ・英単語間の連続する空白文字は1つの英単語の区切り
を表す文字(例えば“A”)で置換する。
【0022】例えば、図5の上段に示される文書データ
を上述の規則に基づいて変換すると、図5の下段に示す
ように変換される。また、抽出した英単語は図6に示す
ようなリストで英単語保持部109に保持する。ステッ
プS303では、日本語文字位置インデックス作成部1
06により、変換文書保持部105に保持された変換文
書の日本語の各文字(英単語を表す文字と英単語の区切
りを表す文字以外の文字)について、日本語文字位置イ
ンデックスを作成し、日本語文字位置インデックス格納
部107に格納する。同時に、連続する英単語を表す文
字の先頭の文字位置を英単語位置として英単語位置保持
部108に保持する。例えば、図5の上段に示した文書
データに対する日本語文字位置インデックスは図7のよ
うになり、また、英単語位置は図8のようになる。
【0023】ステップS304では、英単語位置インデ
ックス作成部110により、英単語保持部109に保持
された英単語について、英単語位置保持部108に保持
された英単語位置を参照して英単語位置インデックスを
作成する。そして、その英単語位置インデックスを英単
語位置インデックス格納部111に格納して、ステップ
S301に戻る。例えば、図5の上段に示した文書デー
タに対する英単語位置インデックスは、図9のようにな
る。
【0024】次に本発明の実施形態で実行される文書デ
ータを検索する検索動作手順について、図4を用いて説
明する。図4は本発明の実施形態で実行される検索動作
手順を示すフローチャートである。まず、ステップS4
01では、検索キー入力部102よりの検索キー入力を
待機する。検索キー入力が行なわれると、入力された検
索キーは検索キー保持部103に保持される。ステップ
S402では、文書変換部104により検索キー保持部
103に保持された検索キーから英単語を抽出し、英単
語保持部109に保持する。更に、検索キーを英単語情
報を含んだ文字列に変換し、変換文書保持部105に保
持する。英単語抽出および文書変換の動作手順について
は、上述したインデックス作成の動作手順と同様であ
る。
【0025】ステップS403では、日本語文字位置検
索部112により、日本語文字位置インデックス格納部
107に格納された日本語文字位置インデックスから、
変換文書保持部105に保持された検索キーに含まれる
各日本語文字の位置を検索する。そして、検索された日
本語文字の位置を示す日本語文字位置リストを日本語文
字位置リスト保持部113に保持する。
【0026】ステップS404では、英単語位置検索部
114により、英単語位置インデックス格納部111に
格納された英単語位置インデックスから、英単語保持部
109に保持された英単語の位置を検索する。そして、
検索された英単語の位置を示す英単語位置リストを英単
語位置リスト保持部115に保持する。ステップS40
5では、位置リスト組み合わせ部116により、日本語
文字位置リスト保持部113に保持された日本語文字位
置リストと、英単語位置リスト保持部115に保持され
た英単語位置リストを組み合わせて、検索結果を作成
し、その検索結果を検索結果保持部117に保持する。
ステップS406では、検索結果出力部118により、
検索結果保持部117に保持された検索結果を出力し、
処理を終了する。
【0027】以上説明したように、本実施形態によれ
ば、文字位置インデックスと単語単位のインデックスを
組み合わせることで、文字列として一致するテキストの
検索と、単語として一致するテキストの検索を同時に行
なうことができる。尚、本実施形態では、説明を簡単化
するため、文書データベース内の全ての文書データにつ
いてインデックスを作成するよう説明しているが、イン
デックスを作成する文書データを指定して、一部分の文
書データについてインデックスを作成しても良い。
【0028】また、英単語位置インデックスを単なる英
単語の羅列で表現しているが、検索速度向上のために、
英単語を辞書順に並べ、それをB−tree構造や、他
のデータ構造(AVL木、双方向リストなど)により表
現することもできる。また、文書変換部104により英
単語部分と英単語の区切りの部分のみを変換すると説明
しているが、日本語中の適当な箇所に日本語の区切りを
表す文字を挿入し、単なる文字列ではない、区切りを考
慮した日本語の検索もできるような機能を付加すること
もできる。例えば、文書データに改行がある場合、その
改行は単語の区切れ目と判断する。そして、日本語の区
切りを表す文字を挿入して、区切り文字を付加して検索
キーで検索することにより、区切りのある箇所の文字列
のみ検索することができる。
【0029】また、日本語と英語の混じった文における
インデックス作成について説明しているが、これに限定
されない。例えば、フランス語やドイツ語など、言語ご
との単語位置インデックスを作成するようにすること
で、多言語の混じった文書データを検索対象とすること
もできる。また、検索時には1つのインデックスを使用
するよう説明しているが、別々に作成された複数のイン
デックスを同時に検索できるようにし、複数のインデッ
クスで同じ語を検索したい場合にも、1つずつインデッ
クスを検索対象に設定し、検索条件を指定しなくて済む
ようにすることもできる。
【0030】また、検索語と完全に一致する語を検索す
るように説明しているが、検索語と前方一致する単語を
検索することもできる。また、検索語と完全に一致する
語を検索するよう説明しているが、英単語位置インデッ
クス作成時に、通常の英単語位置インデックスに加え
て、英単語を構成するアルファベットを逆順に並べた語
でもインデックスを作成しておき、そのインデックスで
逆順にした検索語を前方一致検索することで、後方一致
検索も実現することもできる。
【0031】また、英語の動詞の活用や三単元の“s”
などの語尾変化を考慮していないが、変化規則や例外に
関する知識を用いて検索対象文書と検索語を変換するこ
とで、語尾変化を考慮した検索も可能となる。尚、本発
明は、複数の機器(例えば、ホストコンピュータ、イン
タフェース機器、リーダ、プリンタ等)から構成される
システムに適用しても、一つの機器からなる装置(例え
ば、複写機、ファクシミリ装置等)に適用してもよい。
【0032】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
【0033】この場合、記憶媒体から読出されたプログ
ラムコード自体が上述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。プログラムコードを供
給するための記憶媒体としては、例えば、フロッピディ
スク、ハードディスク、光ディスク、光磁気ディスク、
CD−ROM、CD−R、磁気テープ、不揮発性のメモ
リカード、ROMなどを用いることができる。
【0034】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施の形態の機能
が実現される場合も含まれることは言うまでもない。
【0035】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書き込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0036】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになるが、簡単に説
明すると、図11、図12のメモリマップ例に示す各モ
ジュールを記憶媒体に格納することになる。すなわち、
図11に示すように、少なくとも「入力モジュール」、
「日本語文字位置情報作成モジュール」、「単語位置情
報作成モジュール」および「検索モジュール」の各モジ
ュールのプログラムコードを記憶媒体に格納すればよ
い。
【0037】尚、「入力モジュール」は、検索条件を入
力する。「日本語文字位置情報作成モジュール」は、検
索条件に含まれる日本語の各文字の位置に関する日本語
文字位置情報を作成する。「単語位置情報作成モジュー
ル」は、検索条件に含まれる日本語以外の言語の単語の
位置を示す単語位置情報を作成する。「検索モジュー
ル」は、日本語文字位置情報及び前記単語位置情報に基
づいて、検索条件に該当する文書データを検索する。
【0038】また、図12に示すように、少なくとも
「日本語文字位置情報作成モジュール」、「日本語文字
位置情報格納モジュール」、「単語位置情報作成モジュ
ール」「単語位置情報格納モジュール」および「管理モ
ジュール」の各モジュールのプログラムコードを記憶媒
体に格納すればよい。尚、「日本語文字位置情報作成モ
ジュール」は、管理対象となる文書データに含まれる日
本語の各文字の位置に関する日本語文字位置情報を作成
する。「日本語位置文字情報格納モジュール」は、作成
された日本語文字位置情報を記憶媒体に格納する。「単
語位置情報作成モジュール」は、文書データに含まれる
日本語以外の言語の単語の位置を示す単語位置情報を作
成する。「単語位置情報格納モジュール」は、作成され
た単語位置情報を記憶媒体に格納する。「管理モジュー
ル」は、文書データを、日本語文字位置情報と単語位置
情報と対応づけて記憶媒体に管理する。
【0039】
【発明の効果】以上説明したように、本発明によれば、
複数種類の言語で構成される文書データの検索における
検索精度を向上し、かつ高速に検索することができる情
報処理装置及びその方法を提供できる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る情報処理装置の機能構
成を示すブロック図である。
【図2】本発明の実施形態に係る情報処理装置のハード
ウェア構成を示すブロック図である。
【図3】本発明の実施形態で実行されるインデックス作
成動作手順を示すフローチャートである。
【図4】本発明の実施形態で実行される検索動作手順を
示すフローチャートである。
【図5】本発明の実施形態に係る文書変換の一例を示す
図である。
【図6】本発明の実施形態に係る英単語リストの一例を
示す図である。
【図7】本発明の実施形態に係る日本語文字位置インデ
ックスの一例を示す図である。
【図8】本発明の実施形態に係る英単語位置リストの一
例を示す図である。
【図9】本発明の実施形態に係る英単語位置インデック
スの一例を示す図である。
【図10】従来の文字位置インデックスを用いた情報処
理装置における検索の失敗の一例を示す図である。
【図11】本発明の実施形態を実現するプログラムコー
ドを格納した記憶媒体のメモリマップの構造を示す図で
ある。
【図12】本発明の実施形態を実現するプログラムコー
ドを格納した記憶媒体のメモリマップの構造を示す図で
ある。
【符号の説明】
101 文書データベース 102 検索キー入力部 103 検索キー保持部 104 文書変換部 105 変換文書保持部 106 日本語文字位置インデックス作成部 107 日本語文字位置インデックス格納部 108 英単語位置保持部 109 英単語保持部 110 英単語位置インデックス作成部 111 英単語位置インデックス格納部 112 日本語文字位置検索部 113 日本語文字位置リスト保持部 114 英単語位置検索部 115 英単語位置リスト保持部 116 位置リスト組み合わせ部 117 検索結果保持部 118 検索結果出力部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 上田 隆也 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 日本語を含む、少なくとも2種類以上の
    言語から構成される文書データを管理する文書データベ
    ースを有し、該文書データベースより所望の文書データ
    を検索する情報処理装置であって、 検索条件を入力する入力手段と、 前記検索条件に含まれる日本語の各文字の位置に関する
    日本語文字位置情報を作成する日本語文字位置情報作成
    手段と、 前記検索条件に含まれる日本語以外の言語の単語の位置
    を示す単語位置情報を作成する単語位置情報作成手段
    と、 前記日本語文字位置情報及び前記単語位置情報に基づい
    て、前記検索条件に該当する文書データを検索する検索
    手段とを備えることを特徴とする情報処理装置。
  2. 【請求項2】 前記検索手段は、検索された検索結果を
    表示する表示手段とを備えることを特徴とする請求項1
    に記載の情報処理装置。
  3. 【請求項3】 前記日本語文字位置情報作成手段は、作
    成した日本語文字位置情報を格納する日本語文字位置情
    報格納手段とを備えることを特徴とする請求項1に記載
    の情報処理装置。
  4. 【請求項4】 前記単語位置情報作成手段は、作成した
    単語位置情報を格納する単語位置情報を格納する単語位
    置情報格納手段とを備えることを特徴とする請求項1に
    記載の情報処理装置。
  5. 【請求項5】 日本語を含む、少なくとも2種類以上の
    言語から構成される文書データを管理する情報処理装置
    であって、 管理対象となる文書データに含まれる日本語の各文字の
    位置に関する日本語文字位置情報を作成する日本語文字
    位置情報作成手段と、 前記日本語文字位置情報作成手段で作成された日本語文
    字位置情報を格納する日本語文字位置情報格納手段と、 前記文書データに含まれる日本語以外の言語の単語の位
    置を示す単語位置情報を作成する単語位置情報作成手段
    と、 前記単語位置情報作成手段で作成された単語位置情報を
    格納する単語位置情報格納手段と、 前記文書データを、前記日本語文字位置情報と前記単語
    位置情報と対応づけて管理する管理手段とを備えること
    を特徴とする情報処理装置。
  6. 【請求項6】 日本語を含む、少なくとも2種類以上の
    言語から構成される文書データを管理する文書データベ
    ースを有し、該文書データベースより所望の文書データ
    を検索する情報処理方法であって、 検索条件を入力する入力工程と、 前記検索条件に含まれる日本語の各文字の位置に関する
    日本語文字位置情報を作成する日本語文字位置情報作成
    工程と、 前記検索条件に含まれる日本語以外の言語の単語の位置
    を示す単語位置情報を作成する単語位置情報作成工程
    と、 前記日本語文字位置情報及び前記単語位置情報に基づい
    て、前記検索条件に該当する文書データを検索する検索
    工程とを備えることを特徴とする情報処理方法。
  7. 【請求項7】 前記検索工程は、検索された検索結果を
    表示する表示工程とを備えることを特徴とする請求項6
    に記載の情報処理方法。
  8. 【請求項8】 前記日本語文字位置情報作成工程は、作
    成した日本語文字位置情報を記憶媒体に格納する日本語
    文字位置情報格納工程とを備えることを特徴とする請求
    項6に記載の情報処理方法。
  9. 【請求項9】 前記単語位置情報作成工程は、作成した
    単語位置情報を格納する単語位置情報を記憶媒体に格納
    する単語位置情報格納工程とを備えることを特徴とする
    請求項6に記載の情報処理方法。
  10. 【請求項10】 日本語を含む、少なくとも2種類以上
    の言語から構成される文書データを管理する情報処理方
    法であって、 管理対象となる文書データに含まれる日本語の各文字の
    位置に関する日本語文字位置情報を作成する日本語文字
    位置情報作成工程と、 前記日本語文字位置情報作成工程で作成された日本語文
    字位置情報を記憶媒体に格納する日本語文字位置情報格
    納工程と、 前記文書データに含まれる日本語以外の言語の単語の位
    置を示す単語位置情報を作成する単語位置情報作成工程
    と、 前記単語位置情報作成工程で作成された単語位置情報を
    記憶媒体に格納する単語位置情報格納工程と、 前記文書データを、前記日本語文字位置情報と前記単語
    位置情報と対応づけて記憶媒体に管理する管理工程とを
    備えることを特徴とする情報処理方法。
  11. 【請求項11】 日本語を含む、少なくとも2種類以上
    の言語から構成される文書データを管理する文書データ
    ベースを有し、該文書データベースより所望の文書デー
    タを検索する情報処理のプログラムコードが格納された
    コンピュータ可読メモリであって、 検索条件を入力する入力工程のプログラムコードと、 前記検索条件に含まれる日本語の各文字の位置に関する
    日本語文字位置情報を作成する日本語文字位置情報作成
    工程のプログラムコードと、 前記検索条件に含まれる日本語以外の言語の単語の位置
    を示す単語位置情報を作成する単語位置情報作成工程の
    プログラムコードと、 前記日本語文字位置情報及び前記単語位置情報に基づい
    て、前記検索条件に該当する文書データを検索する検索
    工程のプログラムコードとを備えることを特徴とするコ
    ンピュータ可読メモリ。
  12. 【請求項12】 日本語を含む、少なくとも2種類以上
    の言語から構成される文書データを管理する情報処理の
    プログラムコードが格納されたコンピュータ可読メモリ
    であって、 管理対象となる文書データに含まれる日本語の各文字の
    位置に関する日本語文字位置情報を作成する日本語文字
    位置情報作成工程のプログラムコードと、 前記日本語文字位置情報作成工程で作成された日本語文
    字位置情報を記憶媒体に格納する日本語文字位置情報格
    納工程のプログラムコードと、 前記文書データに含まれる日本語以外の言語の単語の位
    置を示す単語位置情報を作成する単語位置情報作成工程
    のプログラムコードと、 前記単語位置情報作成工程で作成された単語位置情報を
    記憶媒体に格納する単語位置情報格納工程のプログラム
    コードと、 前記文書データを、前記日本語文字位置情報と前記単語
    位置情報と対応づけて記憶媒体に管理する管理工程のプ
    ログラムコードとを備えることを特徴とするコンピュー
    タ可読メモリ。
JP9092189A 1997-04-10 1997-04-10 情報処理装置及びその方法 Pending JPH10283368A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9092189A JPH10283368A (ja) 1997-04-10 1997-04-10 情報処理装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9092189A JPH10283368A (ja) 1997-04-10 1997-04-10 情報処理装置及びその方法

Publications (1)

Publication Number Publication Date
JPH10283368A true JPH10283368A (ja) 1998-10-23

Family

ID=14047500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9092189A Pending JPH10283368A (ja) 1997-04-10 1997-04-10 情報処理装置及びその方法

Country Status (1)

Country Link
JP (1) JPH10283368A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043228A (ja) * 1999-07-28 2001-02-16 Ricoh Co Ltd 文書検索システム、文書検索方法及び記憶媒体
JP2010128855A (ja) * 2008-11-28 2010-06-10 Saxa Inc データ検索装置、方法、およびプログラム
EP3306823A1 (en) 2016-10-06 2018-04-11 Fujitsu Limited Encoding program, encoding apparatus and encoding method
EP3312740A1 (en) 2016-10-21 2018-04-25 Fujitsu Limited Data search program, data search device, and data search method
US11055328B2 (en) 2017-03-29 2021-07-06 Fujitsu Limited Non-transitory computer readable medium, encode device, and encode method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043228A (ja) * 1999-07-28 2001-02-16 Ricoh Co Ltd 文書検索システム、文書検索方法及び記憶媒体
JP2010128855A (ja) * 2008-11-28 2010-06-10 Saxa Inc データ検索装置、方法、およびプログラム
EP3306823A1 (en) 2016-10-06 2018-04-11 Fujitsu Limited Encoding program, encoding apparatus and encoding method
US10224958B2 (en) 2016-10-06 2019-03-05 Fujitsu Limited Computer-readable recording medium, encoding apparatus, and encoding method
EP3312740A1 (en) 2016-10-21 2018-04-25 Fujitsu Limited Data search program, data search device, and data search method
JP2018067264A (ja) * 2016-10-21 2018-04-26 富士通株式会社 データ検索プログラム、データ検索装置およびデータ検索方法
US10922343B2 (en) 2016-10-21 2021-02-16 Fujitsu Limited Data search device, data search method, and recording medium
US11055328B2 (en) 2017-03-29 2021-07-06 Fujitsu Limited Non-transitory computer readable medium, encode device, and encode method

Similar Documents

Publication Publication Date Title
US5303150A (en) Wild-card word replacement system using a word dictionary
JP4911028B2 (ja) 単語翻訳装置、翻訳方法および翻訳プログラム
US6246976B1 (en) Apparatus, method and storage medium for identifying a combination of a language and its character code system
JPS63231674A (ja) コンピュータによる形態論的テキスト解析方法
JP2012248210A (ja) 日本語などの複雑言語のコンテンツを検索するシステム及び方法
GB2449516A (en) Transliteration of roman text to Arabic
JPS6211932A (ja) 情報検索方法
JP2002229981A (ja) 文字列の正規化表示を生成するシステム
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
JPH10283368A (ja) 情報処理装置及びその方法
JPH10307835A (ja) 情報処理装置及びその方法
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2002269116A (ja) 文書検索システム及びプログラム
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JP2002132789A (ja) 文書検索方法
JP2000322442A (ja) データベース検索装置およびデータベース検索プログラム記憶媒体
JP4283038B2 (ja) 文書登録装置、文書検索装置、プログラム及び記憶媒体
JP2621999B2 (ja) 文書処理装置
JP3854684B2 (ja) 情報処理装置及びその方法
JPH0232467A (ja) 機械翻訳方式
JPH08263508A (ja) 文書検索方法
JP4255253B2 (ja) 文書検索システム及び方法
JPH04330565A (ja) 自然言語処理システム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040312

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060718