JPH10269231A - 日英混在文書における文書検索方法 - Google Patents

日英混在文書における文書検索方法

Info

Publication number
JPH10269231A
JPH10269231A JP9071271A JP7127197A JPH10269231A JP H10269231 A JPH10269231 A JP H10269231A JP 9071271 A JP9071271 A JP 9071271A JP 7127197 A JP7127197 A JP 7127197A JP H10269231 A JPH10269231 A JP H10269231A
Authority
JP
Japan
Prior art keywords
document
index
word
search
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9071271A
Other languages
English (en)
Other versions
JP4031844B2 (ja
Inventor
Hisamitsu Kawaguchi
川口  久光
Natsuko Sugaya
菅谷  奈津子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP07127197A priority Critical patent/JP4031844B2/ja
Publication of JPH10269231A publication Critical patent/JPH10269231A/ja
Application granted granted Critical
Publication of JP4031844B2 publication Critical patent/JP4031844B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】本発明の目的は、日本語と英語が混在した文書
や、日本語文書と英語文書が混在した文書データベース
において、英単語における検索ノイズをなくすことがで
きるとともに高速な文書検索方法を実現することにあ
る。 【解決手段】インデクス登録プログラム2100によ
り、フロッピーディスク107に格納された登録文書か
ら、所定の部分文字列とその位置情報を抽出して、イン
デクスファイル8000として記憶し、インデクス検索
プログラム3100によりキーボード102で入力され
た検索語に含まれる部分文字列に対応する部分文字列を
抽出し、対応するインデクスを参照することにより所望
の文書を検索するものであって、文字列の英語部分の部
分文字列の抽出時には英単語を部分文字列として抽出す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザの指定する
質問語から所望の文書を検索する文書検索方法に係わ
り、データベース、文書ファイリングシステムおよびD
TP(Desk Top Publishing)シス
テムなどに適用されるものである。
【0002】
【従来の技術】従来より、文書を登録時に文字コード化
したテキストとして直接計算機に入力してデータベース
化し、検索時に指定された検索文字列(以下、検索ター
ムと呼ぶ)が含まれる文書を探し出すフルテキストサー
チ方法が「特開昭64―35627号公報」に開示され
ている。この従来例では、文書の登録時にデータベース
に登録する文書のテキストから文字連鎖と呼ばれる特定
数の文字が連続する文字列と、その文字連鎖のテキスト
における出現位置を示す情報をインデクスとして磁気デ
ィスク装置に格納しておく。検索時には、検索ターム中
に存在する文字連鎖を抽出し、これらに対応するインデ
クス中の文字連鎖の位置情報を比較し、抽出した文字連
鎖の検索ターム中の位置関係とインデクス中の文字連鎖
の位置情報の関係が等しいかを判定(以下、隣接判定と
呼ぶ)することによって、指定された検索タームが出現
する文書を探し出す方式が提案されている。
【0003】この従来例について、図2を用いて具体的
にその内容を説明する。この従来例では、特定文字数を
3に想定している。まず、文書の登録時にデータベース
に登録するテキスト201がインデクス作成部202に
読み込まれ、文字連鎖インデクス200が作成される。
この文字連鎖200には、テキスト201に出現する全
ての3文字の文字連鎖とその文字連鎖のテキスト201
における出現位置を示すポインタが格納される。
【0004】例えば、本図に示すテキスト201では、
“abc”という文字連鎖はpt1、pt2、・・・で
示される位置に現れるので、文字連鎖インデクス200
には、文字連鎖“abc”とこれに対応した形でポイン
タpt1、pt2、・・・が格納される。検索時には、
まず、検索タームが文字連鎖抽出部203に入力され、
検索ターム中に存在する全ての3文字の文字連鎖と、こ
れに対応する文字連鎖位置が生成される。次に、生成さ
れた文字連鎖とこれに対応する文字連鎖位置がインデク
ス検索部204に入力される。インデクス検索部204
では、検索タームから抽出された文字連鎖に対応するイ
ンデクスが文字連鎖インデクス200から読み込まれ、
これらのインデクスの間でポインタによって示される文
字位置が隣接しているものが抽出され検索結果として出
力される。例えば、検索タームとして“abcd”が入
力された場合には、まず、文字連鎖抽出部203におい
て<文字連鎖“abc”、文字連鎖位置“0”>と<文
字連鎖“bcd”、文字連鎖位置“1”>が抽出され
る。ここで、文字連鎖位置“0”は検索タームの先頭、
文字連鎖位置“1”はその次の文字位置を示している。
次に、インデクス検索部204において、文字連鎖イン
デクス200から文字連鎖“abc”および“bcd”
に対応するインデクスが読み込まれる。これらのインデ
クスにおける位置ポインタが文字連鎖位置“0”と文字
連鎖位置“1”のように連続するもの、すなわち隣接す
るものが抽出され検索結果として出力される。
【0005】本図では文字連鎖“abc”のポインタp
t1と文字連鎖“bcd”のポインタpt3が示す位置
が隣接するため、文字連鎖“abcd”が文字列として
存在することが分かり、テキスト中に検索ターム“ab
cd”が出現することが示される。
【0006】次に、日本語の文書を登録した場合につい
て説明する。本例では、前記従来例と同様に特定文字数
を3に想定している。
【0007】まず、文書の登録時にデータベースに登録
するテキスト201がインデクス作成部202に読み込
まれ、文字連鎖インデクス200が作成される。この文
字連鎖200には、テキスト201に出現する全ての3
文字の文字連鎖とその文字連鎖のテキスト201におけ
る出現位置を示すポインタが格納される。例えば、テキ
スト201として“96年度NASD加入名簿”という
文字連鎖を想定するとpt1、pt2、pt3、・・・
で示される位置に現れるので、文字連鎖インデクス20
0には、文字連鎖“96年”、“6年度”、“年度
N”、・・・、“NAS”、“ASD”、・・・、“入
名簿”とこれに対応した形でポインタpt1、pt2、
pt3、・・・が格納される。
【0008】検索時には、まず検索タームが文字連鎖抽
出部203に入力され、検索ターム中に存在する全ての
3文字の文字連鎖と、これに対応する文字連鎖位置が生
成される。次に、生成された文字連鎖とこれに対応する
文字連鎖位置がインデクス検索部204に入力される。
インデクス検索部204では、検索タームから抽出され
た文字連鎖に対応するインデクスが文字連鎖インデクス
200から読み込まれ、これらのインデクスの間でポイ
ンタによって示される文字位置が隣接しているものが抽
出され検索結果として出力される。例えば、検索ターム
として“NASD”が入力された場合には、まず、文字
連鎖抽出部203において<文字連鎖“NAS”、文字
連鎖位置“0”>と<文字連鎖“ASD”、文字連鎖位
置“1”>が抽出される。次に、インデクス検索部20
4において、文字連鎖インデクス200から文字連鎖
“NAS”および“ASD”に対応するインデクスが読
み込まれる。これらのインデクスにおける位置ポインタ
が文字連鎖位置“0”と文字連鎖位置“1”のように連
続するもの、すなわち隣接するものが抽出され検索結果
として出力される。本図では文字連鎖“NAS”のポイ
ンタpt5と文字連鎖“ASD”のポインタpt6が示
す位置が隣接するため、文字連鎖“NASD”が文字列
として存在することが分かり、テキスト中に検索ターム
“NASD”が出現することが示される。
【0009】このように、検索タームから抽出した文字
連鎖の検索ターム中における位置関係とインデクス中の
文字連鎖の位置情報を隣接判定することにより、指定さ
れた検索タームが出現する文書を探し出している。
【0010】
【発明が解決しようとする課題】しかしながら、この従
来例では、検索ターム“NASD”が指定された場合、
単語として一致しているかという判断を行っていないた
め、登録文書中に“NASDA”や“NASDAQ”が
存在し、インデクスに登録されている場合には、“NA
SDA”や“NASDAQ”の部分文字列が検索されて
しまい、検索ノイズが発生してしまうという問題が生じ
る。
【0011】本発明の目的は、日本語と英語が混在した
文書が登録された文書データーベースにおいて、検索タ
ームとして英単語が指定された場合に、検索タームが英
単語の部分文字列としてヒットすることなく英単語とし
てヒットさせることにより、検索ノイズの発生を抑止す
ることにある。
【0012】
【課題を解決するための手段】文書情報を文字コードデ
ータからなるテキストとして蓄積したテキストデータベ
ースを対象として、文書の登録時には上記テキストから
所定の部分文字列を抽出するとともにインデクスとして
記憶し、検索時には、指定された検索語から所定の部分
文字列を抽出するとともに該部分文字列に対応するイン
デクスを読み出すことにより所望の文書を検索する文書
検索方法において、上記テキスト中の文字の文字種を判
別し、英数字である場合には英数字が連続しているテキ
スト部分を単語抽出ステップに送出する文字種判別ステ
ップと、上記該当テキスト部分から区切り文字を検出す
ることにより単語を抽出する単語抽出ステップと、上記
抽出した単語をインデクスとして記憶する単語インデク
ス登録ステップから文書検索方法を構成する。
【0013】
【発明の実施の形態】以下、本発明の実施例を説明す
る。
【0014】まず、本発明が適用された文書検索システ
ムの構成について図1を用いて説明する。本システム
は、ディスプレイ101、キーボード102、CPU1
03、メモリ104、磁気ディスク105およびフロッ
ピーディスクドライブ(FDD)106から構成され
る。
【0015】ディスプレイ101、キーボード102、
メモリ104、磁気ディスク105およびFDD106
は、CPU103よりバスを介してアクセスされる。磁
気ディスク105には、インデックスファイル8000
が格納される。
【0016】メモリ104には、システム制御プログラ
ム5000、検索インタフェースプログラム6000、
登録制御プログラム2000、検索制御プログラム30
00、キーワード割り付けプログラム2100、インデ
ックス作成登録プログラム2200およびインデックス
検索プログラム3100がロードされ、ワークエリア4
000が確保される。
【0017】本文書検索システムの文書データベースに
登録される文書は、フロッピーディスク107に格納さ
れ、FDD106を介してCPU103によりアクセス
される。本システムでは、電源投入時CPU103によ
りシステム制御プログラム5000が起動され、システ
ム制御プログラム5000の制御のもとに登録制御プロ
グラム2000および検索制御プログラム3000が起
動される。
【0018】このような構成の本システムにおける文書
の登録処理の概略について説明する。
【0019】ユーザがキーボード102から入力した指
示に従って、システム制御プログラム5000が登録制
御プログラム2000を起動する。
【0020】登録制御プログラム2000では、最初、
文書を登録する前に、ユーザがキーボード102から入
力した指示に従い、インデクス登録プログラム2100
を起動し、インデックスファイル8000の初期設定を
行う。
【0021】インデックス作成登録プログラム2100
では、ユーザがキーボード102から入力した指示に従
い、フロッピーディスク107に格納された登録対象の
文書を、FDD106を介してメモリ104のワークエ
リア4000に読み込む。
【0022】この登録文書に文書番号を割付け、検索に
必要な所定の長さの部分文字列とその位置情報を抽出す
る。抽出した部分文字列に対応するインデックスファイ
ル8000の中のインデクスに文書番号と部分文字列の
位置情報を登録する。
【0023】次に、本システムにおける文書の検索動作
の概略について説明する。ユーザがキーボード102か
ら入力した指示に従い、システム制御プログラム500
0は検索制御プログラム3000と検索インタフェース
プログラム6000を起動する。
【0024】その後、ユーザがキーボード102から入
力した検索タームを含む質問語は、検索インタフェース
プログラム6000に入力され、検索制御プログラム3
000に送られる。
【0025】検索制御プログラム3000では、インデ
ックス検索プログラム3100を起動するとともに本プ
ログラムへ前記質問語を送る。
【0026】インデックス検索プログラム3100で
は、受け取った質問語に含まれる検索タームに対応する
インデックスから文書番号を読み出し、検索結果として
検索制御プログラム3000へ送出する。
【0027】本検索結果は、検索インタフェースプログ
ラム6000へと送られ、検索結果文書番号としてディ
スプレイ101に表示される。
【0028】次に、インデクス登録プログラム2100
の構成とインデクス登録処理について図3を用いて説明
する。
【0029】インデクス登録プログラム2100は、部
分文字列抽出ステップ2110、英単語抽出ステップ2
120、部分文字列削除ステップ2130およびインデ
クス追加ステップ2130から構成される。
【0030】まず、部分文字列抽出ステップ2110で
は、ワークエリア4000に格納された登録文書に、文
書毎にユニークな文書番号を割り付けるとともに、その
文書から所定の長さの部分文字列を全て抽出し、その位
置情報とともにワークエリア4000に格納する。この
位置情報とは、文書中における部分文字列が存在した文
字位置を示す。
【0031】次に、英単語抽出ステップ2120では、
ワークエリア4000に格納されている登録文書から英
数字が連続している英数字文字列を抽出し、区切り文字
を検出することにより、英数字文字列から単語を抽出す
る。このような英数字文字列から単語を抽出する技術
は、一般に知られており、その技術をそのまま用いる。
さらに、部分文字列削除ステップ2130では、抽出さ
れた単語に含まれるワークエリア4000に格納された
部分文字列を削除し、抽出した単語とその文書中におけ
る位置情報を新たな抽出部分文字列として、ワークエリ
ア4000に格納する。
【0032】その後、インデクス追加ステップ2140
では、ワークエリア4000に格納された抽出部分文字
列に対応するインデクスファイル8000におけるイン
デクスに、登録文書の文書番号とその抽出部分文字列に
対応する位置情報を追加登録する。
【0033】以上が、インデクス登録プログラム210
0の文書登録処理である。
【0034】次にインデクス検索プログラム3100の
構成とインデクス検索処理について、図4を用いて説明
する。
【0035】インデクス検索プログラム3100は、検
索ターム取得ステップ3110、部分文字列抽出ステッ
プ3120、英数字文字列判定ステップ3130、単語
抽出ステップ3140、部分文字列削除ステップ315
0、部分文字列マージステップ3160およびインデク
ス参照ステップ3170から構成される。
【0036】まず、検索ターム取得ステップ3110で
は、検索制御プログラム3000から送られた質問語を
ワークエリア4000を経由して取得し、その中に含ま
れる検索タームを抽出する。
【0037】次に、部分文字列抽出ステップ3120で
は、検索タームから所定の長さの部分文字列を全て抽出
し、検索ターム中における位置情報とともにワークエリ
ア4000に格納する。
【0038】さらに、英数字文字列判定ステップ313
0では、検索ターム中に英数字文字列が存在するかを検
索ターム中に英数字が連続している部分があるか否かで
判定し、存在する場合のみ、単語抽出ステップ314
0、部分文字列削除ステップ3150、部分文字列マー
ジステップ3160を実行する。
【0039】単語抽出ステップ3140では、抽出した
英数字文字列より区切り文字を検出することにより単語
を抽出し、検索ターム中における位置情報とともにワー
クエリア4000に格納する。次に、部分文字列削除ス
テップ3150では、すでに抽出した部分文字列の中で
単語に含まれてしまうものを削除する。これは、単語に
含まれている部分文字列を削除しないと、単語を意識し
た検索が実現できないからである。さらに、部分文字列
マージステップ3160では、抽出した単語およびその
位置情報をすでに抽出した部分文字列およびその位置情
報とマージする。このようにすることにより、単語を特
別に処理する必要がなく、部分文字列の一つとして検索
に用いることができる。
【0040】その後、インデクス参照ステップ3170
では、ワークエリア4000に格納した部分文字列とそ
の位置情報を用いて、インデクスファイル8000に格
納されている部分文字列に対応するインデクスを読み出
し、検索ターム中における部分文字列の位置関係と同じ
ものを探索する。そして、インデクスに格納されている
位置情報が、検索ターム中の全ての部分文字列が検索タ
ーム中の位置関係と同じ位置情報を持つ場合、この位置
情報に対応する文書番号を検索結果として取得する。こ
のように探索することにより検索タームを含む文書を検
索することができる。このインデクス参照ステップ31
70には、部分文字列を用いて検索を行う従来例をその
まま使用することができる。
【0041】本実施例について、具体例を用いて詳細に
説明する。ここでは、部分文字列の長さとして3文字を
想定する。
【0042】登録文書中に“NASDA”や“NASD
AQ”が存在している場合、登録時には、単語抽出ステ
ップ2120において、単語として“NASDA”と
“NASDAQ”を抽出し、その部分文字列がワークフ
ァイル4000に格納されている場合には、“NASD
A”や“NASDAQ”の部分文字列“NAS”、“A
SD”、…は部分文字列削除ステップ2130において
削除されてしまう。したがって、インデクスは“NAS
DA”や“NASDAQ”に対応するもののみがインデ
クス追加ステップ2140において作成されることにな
る。すなわち、単語のインデクスを作成することにな
る。
【0043】さらに、検索時には、検索タームとして
“NASD”が指定されたとすると英数字文字列判定ス
テップ3130は、検索タームに英数字が含まれている
と判断するため、単語抽出ステップ3140が実行さ
れ、検索タームから単語“NASD”を抽出する。次に
部分文字列削除ステップ3150が実行され、“NAS
D”の部分文字列である“NAS”や“ASD”を格納
されているワークファイル4000から削除する。次に
部分文字列マージステップ3160が実行され単語“N
ASD”は部分文字列“NASD”としてワークファイ
ル4000に格納される。その後、インデクス参照ステ
ップ3170が実行され“NASD”に対応するインデ
クスを参照する。この場合、“NASDA”や“NAS
DAQ”に含まれる部分文字列として“NASD”のイ
ンデクスは作成されておらず、単語“NASD”のみの
インデクスしか作成されていないので、検索ノイズを含
まずに検索することが実現できている。
【0044】本例では、日本語と英語が混在している文
書について説明してきたが、英語以外のフランス語やド
イツ語などのようにアルファベットを用い、単語を抽出
できる言語であれば、同様に本発明を適用することが可
能である。
【0045】また、日本文字とアルファベットに限定さ
れるのではなく、異なる種類の言語の文字が混在する文
書にも適用可能である。
【0046】以上により、日本語と英語が混在した文書
が登録された文書データーベースにおいて、検索ターム
として英単語が指定された場合に、検索タームが英単語
の部分文字列としてヒットすることなく英単語としてヒ
ットさせることにより、検索ノイズの発生を抑止するこ
とが可能となる。
【0047】
【発明の効果】日本語と英語が混在した文書が登録され
た文書データーベースにおいて、インデクスに所定の長
さの部分文字列とともに英単語を登録することにより、
英単語における検索ノイズをなくすことができる文書検
索方法を実現することが可能となる。
【図面の簡単な説明】
【図1】本発明が適用された文書検索システムの構成を
示す図である。
【図2】従来例のインデクスの例を示す図である。
【図3】本発明を用いたインデクス作成処理を示すPAD
図である。
【図4】本発明を用いたインデクス検索処理を示すPAD
図である。
【符号の説明】
101…ディスプレイ、102…キーボード、 103
…CPU、104…メモリ、 105…磁気ディス
ク、106…FDD、107…フロッピーディスク、
2000…登録制御プログラム、2100…
インデクス登録プログラム、 3000…検索制御プ
ログラム、3100…インデクス検索プログラム、
4000…ワークエリア、5000…システム制御プロ
グラム、6000…検索インタフェースプログラム、8
000…インデクスファイル。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】文書情報を文字コードデータからなるテキ
    ストとして蓄積したテキストデータベースを対象とし
    て、文書の登録時には上記テキストから所定の部分文字
    列を抽出するとともにインデクスとして記憶し、検索時
    には、指定された検索語から所定の部分文字列を抽出す
    るとともに該部分文字列に対応するインデクスを読み出
    すことにより所望の文書を検索する文書検索方法におい
    て、 上記テキスト中の文字の文字種を判別し、英数字である
    場合には英数字が連続しているテキスト部分を単語抽出
    ステップに送出する文字種判別ステップと、 上記該当テキスト部分から区切り文字を検出することに
    より単語を抽出する単語抽出ステップと、上記抽出した
    単語をインデクスとして記憶する単語インデクス登録ス
    テップとを有することを特徴とする文書検索方法。
  2. 【請求項2】請求項第1項の文書検索方法において、単
    語と該単語のテキスト中の文字位置情報を抽出する単語
    抽出ステップと、上記抽出した単語と該単語のテキスト
    中の文字位置情報をインデクスとして記憶する単語イン
    デクス登録ステップを有することを特徴とする文書検索
    方法。
  3. 【請求項3】請求項第1項の文書検索方法において、 上記検索時には、検索語から部分文字列を抽出する場
    合、該検索語に含まれる部分文字列の中から長い順に抽
    出することを特徴とする文書検索方法。
  4. 【請求項4】請求項第1項の文書検索方法において、 上記検索時には、検索語から部分文字列を抽出する場
    合、該検索語中の文字の文字種を判別し、英数字である
    場合には英数字が連続している部分文字列から単語を抽
    出することを特徴とする文書検索方法。
JP07127197A 1997-03-25 1997-03-25 検索方法およびシステム Expired - Fee Related JP4031844B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07127197A JP4031844B2 (ja) 1997-03-25 1997-03-25 検索方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07127197A JP4031844B2 (ja) 1997-03-25 1997-03-25 検索方法およびシステム

Publications (2)

Publication Number Publication Date
JPH10269231A true JPH10269231A (ja) 1998-10-09
JP4031844B2 JP4031844B2 (ja) 2008-01-09

Family

ID=13455897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07127197A Expired - Fee Related JP4031844B2 (ja) 1997-03-25 1997-03-25 検索方法およびシステム

Country Status (1)

Country Link
JP (1) JP4031844B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043228A (ja) * 1999-07-28 2001-02-16 Ricoh Co Ltd 文書検索システム、文書検索方法及び記憶媒体
JP2001067368A (ja) * 1999-08-26 2001-03-16 Matsushita Electric Ind Co Ltd 多言語文書処理装置、多言語文書処理方法及び記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05174064A (ja) * 1991-12-25 1993-07-13 Hitachi Ltd 文書検索方法及び装置
JPH08329116A (ja) * 1995-06-05 1996-12-13 Hitachi Ltd 構造化文書検索方法
JPH0916616A (ja) * 1995-06-30 1997-01-17 Toyo Joho Syst:Kk 索引データ生成検索装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05174064A (ja) * 1991-12-25 1993-07-13 Hitachi Ltd 文書検索方法及び装置
JPH08329116A (ja) * 1995-06-05 1996-12-13 Hitachi Ltd 構造化文書検索方法
JPH0916616A (ja) * 1995-06-30 1997-01-17 Toyo Joho Syst:Kk 索引データ生成検索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043228A (ja) * 1999-07-28 2001-02-16 Ricoh Co Ltd 文書検索システム、文書検索方法及び記憶媒体
JP2001067368A (ja) * 1999-08-26 2001-03-16 Matsushita Electric Ind Co Ltd 多言語文書処理装置、多言語文書処理方法及び記録媒体

Also Published As

Publication number Publication date
JP4031844B2 (ja) 2008-01-09

Similar Documents

Publication Publication Date Title
JP3696745B2 (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US5745745A (en) Text search method and apparatus for structured documents
JPH0765035A (ja) 構造化文書検索装置
JP2001318948A (ja) 文書検索方法及び装置並びにその処理プログラムを記憶した媒体
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JPH08147311A (ja) 構造化文書検索方法及び装置
JP4734400B2 (ja) 文書検索装置およびプログラム
JPH10269231A (ja) 日英混在文書における文書検索方法
JPH11143902A (ja) n−gramを用いた類似文書検索方法
JP3071703B2 (ja) 表作成装置およびその方法
JP3511724B2 (ja) 文書検索方法
JP3698400B2 (ja) 多言語文書処理装置、多言語文書処理方法及び記録媒体
JP4283038B2 (ja) 文書登録装置、文書検索装置、プログラム及び記憶媒体
JPH0635971A (ja) 文書検索装置
JPH08115330A (ja) 類似文書検索方法および装置
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
JP4294386B2 (ja) 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体
JPH1153400A (ja) 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体
JPH05307541A (ja) かな漢字変換システム
JPH11203279A (ja) かな漢字変換装置、かな漢字変換方法、及び記憶媒体
JPH07281879A (ja) アプリケーションプログラム編集装置
JPH0628391A (ja) 辞書生成システム
JPH038070A (ja) キーワード抽出方式
JP2002123546A (ja) 文書検索装置、文書検索方法、及び、記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040802

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041102

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041126

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041203

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050311

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060427

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071022

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101026

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111026

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121026

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121026

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131026

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees