JP3591109B2 - キーワード設定装置 - Google Patents
キーワード設定装置 Download PDFInfo
- Publication number
- JP3591109B2 JP3591109B2 JP01012596A JP1012596A JP3591109B2 JP 3591109 B2 JP3591109 B2 JP 3591109B2 JP 01012596 A JP01012596 A JP 01012596A JP 1012596 A JP1012596 A JP 1012596A JP 3591109 B2 JP3591109 B2 JP 3591109B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- user setting
- setting key
- index
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、索引を用いて文書を検索する文書検索装置で用いるキーワードを設定する装置に関し、特に、ユーザが設定するキーワードを扱うキーワード設定装置に関する。
【0002】
【従来の技術】
文書検索装置に文書を登録する際に、文書にキーワードを設定し、設定されたキーワードを対象にして検索する方法が知られている。更に、検索キーの設定の負担を軽くするために、ユーザとの対話や自動処理によって定められたキーワード(ユーザ設定キー)を登録文書に設定する装置も考案されている。
【0003】
このようなユーザ設定キーを扱う従来公知の技術としては、次のようなものが知られている。例えば、特開平3−252766号公報においては、
・データ登録時に、既に登録されたキーワードの一覧からキーワードを選択して登録データに付与し、データ検索時にはキーワードの一覧からキーワードを選択して検索する情報検索システムにおいて、キーワードに利用情報を付加し、この使用情報を使用して、検索時のキーワード一覧に登録データに付与されたキーワードのみを表示する方法
が開示されている。
【0004】
また、特開平4−127371号公報におけるデータ登録装置及び方法とデータ検索装置及び方法では、
・登録キーワードを単語に分割して登録単純キーワードを生成するとともに、この登録単純キーワードの各々に対応する登録データのインデックスを記憶する単純キーワード転置テーブルと、登録キーワードと登録単純キーワードとの対応関係も記憶するキーワード構成テーブルを設け、このうちのキーワード構成テーブルには、登録キーワードと登録単純キーワードとの対応関係とともに登録キーワード内での登録単純キーワードの単位を記録する
技術が開示されている。
【0005】
【発明が解決しようとする課題】
特開平3−252766号公報では、ユーザが設定するキーを一覧として表示されるように予め用意しておくことを基本としており、自由にキーワードを登録データに設定することができない。また、関連する文書であっても登録時にキーワードを設定していないと検索することができない。また、特開平4−127371号公報では、予めキーワードを用意しておく必要があって、登録時に任意のキーワードの設定はできず、また登録キーワード内の順位は記憶してあっても範囲や距離を記録していないため、検索時に何等脈略のないもの(例えば、登録単純キーワードが別々の段落に出現するもの)を検索してしまうといった危険性もあった。
【0006】
このように、上記従来装置では、設定するキーワードを予め用意する必要があり、登録時にユーザが任意に設定するキーワードに応じて設定機能を変更するような構成ではなかった。また、新規にキーワードを追加しても既に登録した文書に対してキーワードを自動的に設定するように構成されてはいなかった。なお、特開平4−127371号公報には、ユーザ設定キーを構成する語を自動抽出してキーワードの設定を自動化するという方法も示唆されてはいるが、この方法は不要な設定を招来する可能性が高く、実用的ではなかった。
【0007】
上述の如く、検索用の索引を有する文書検索装置に採用される上記従来のキーワード設定方法は、キーワード設定の融通性に欠け、既に登録された文書や以後に登録される文書間でのキーワードの関連付けができず、登録時にキーワードを設定しなかった文書については当該キーワードを用いて検索できず、検索漏れの増大を免れないという問題点があった。
【0008】
本発明は上記問題点を解消し、予め用意されたキーワード以外のキーワードを、登録済み文書と以後の登録文書の間で関連付けて効率良く設定でき、ユーザ設定キーを登録時に設定していない登録済み文書を該キーにより検索可能とし、かつその後の登録文書に既に設定済みのユーザ設定キーを反映させて該キーにより該当文書を検索可能にするキーワード設定装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
上記目的を達成するため、本発明は、登録情報記憶手段に記憶した文書を文書記憶手段に登録する際、該登録文書に対して指定されたユーザ設定キー及び該登録文書から索引語として抽出された抽出キーと当該登録文書の文書IDを対応付けて索引情報として索引記憶手段に登録するキーワード設定装置において、登録文書から索引語を抽出する際に文字列を解析するために用いる解析辞書と、以前の文書登録時に指定されたユーザ設定キーを記憶する解析辞書手段と、登録文書から前記解析辞書手段により解析された名詞性の単語及び該解析辞書手段に記憶されたユーザ設定キーを索引語として自動抽出する索引語抽出手段と、文書登録時、該文書の文書IDと当該文書に対して指定されたユーザ設定キーとを対応付けて索引情報として前記索引記憶手段に登録し、その際、前記指定されたユーザ設定キーが索引語として既に登録されているか否かを示す新規/既存情報を記憶すると共に、前記指定されたユーザ設定キーが既に登録されている場合には、該文書の文書IDを当該登録済みユーザ設定キーに対応付けて前記索引記憶手段の索引情報に追加する第1の処理、前記索引語抽出手段により前記解析辞書手段を用いて当該登録文書から前記索引語を抽出せしめると共に、該抽出された索引語がユーザ設定キーまたは抽出キーのいずれの種別かに応じて当該各種別毎に当該抽出された索引語と当該文書IDを対応付けて前記索引記憶手段の索引情報として追加登録する第2の処理、前記第1の処理で記憶したユーザ設定キーが索引語として既に存在していたか否かを前記新規/既存情報に基づき判定し、索引語として存在していなかったユーザ設定キーを前記解析辞書手段に登録する第3の処理、及び前記索引語抽出手段により、登録済み文書の中から、索引語として存在していなかった前記ユーザ設定キーを所定の条件で含む文書を検索し、該検索された文書の文書IDを、前記第1の処理で当該ユーザ設定キーに対応付けて登録されている登録文書の文書IDを含む索引情報に追加する第4の処理を行なう登録制御手段とを具備することを特徴とする。
【0010】
望ましくは、本発明において、前記登録制御手段は、前記第2の処理において、抽出された索引語が既に存在していれば該既に存在している索引語に対応して当該登録文書の文書IDを追加し、抽出された索引語が存在していなければ該索引語に対応して当該登録文書の文書IDを新規に登録することを特徴とする。
【0011】
また、本発明において、前記索引語抽出手段は、前記第2の処理において、登録文書から前記解析辞書手段に記憶されたユーザ設定キーについて抽出を行う場合、該ユーザ設定キーを含むという条件及び該ユーザ設定キーが複数の単語から構成される場合の当該各単語であるユーザ設定キー構成語を一文内に含むという条件を加味して当該ユーザ設定キーを抽出することを特徴とする。
【0012】
また、本発明において、前記登録制御手段は、前記第4の処理に係わる前記ユーザ設定キーを所定の条件で含む文書として、前記文書記憶手段内の前記ユーザ設定キーを含む文書若しくは前記ユーザ設定キーが複数の単語から構成される場合の当該各単語であるユーザ設定キー構成語を一文内に含む文書を検索対象とすることを特徴とする。
【0014】
【発明の実施の形態】
以下、本発明の一実施の形態について添付図面を参照して詳細に説明する。図1は、本発明の第1の実施の形態に係わるキーワード設定装置の概略構成を示す機能ブロック図である。このキーワード設定装置は、登録情報記憶手段1、文書記憶手段2、索引記憶手段3、索引語抽出手段4、解析辞書手段5、登録制御手段6を具備して構成される。
【0015】
登録情報記憶手段1は、登録する文書名、文書内容、利用者が設定したユーザ設定キー、更新フラグを記憶する手段である。文書記憶手段2は、登録された文書のID、文書名、索引を更新した日時、文書内容を記憶する手段である。
【0016】
索引記憶手段3は、ユーザ設定キーと索引語抽出手段4で抽出した自動抽出キーの2種類のキーワードに対応する文書IDを記憶する手段である。このうち、ユーザ設定キーに対応する文書IDについては、元々このキーワードが設定されていたかどうかの状態を示す情報「:u,:a」についても記憶する。ここで、「:u」はユーザ設定キーであることを示し、「:a」は自動抽出キーであることを示している。
【0017】
索引語抽出手段4は、登録文書を解析してキーワード(自動抽出キー)を抽出する手段である。解析辞書手段5は、文字列を解析するための情報(品詞、接続情報)やユーザ設定キーを記憶した辞書手段である。
【0018】
登録制御手段6は、文書名とその内容を文書記憶手段2に登録したり、ユーザ設定キーや自動抽出キーと文書IDを対応づけて索引記憶手段3に登録する手段である。この他、登録制御手段6は、登録情報記憶手段1に記憶された更新フラグがONの時、登録文書に設定されたユーザ設定キーが索引記憶手段3の索引語にあるかどうかを判定し、索引語として存在していない場合には索引記憶手段3の内容の更新と解析辞書手段5へのキーワードの追加の処理を行う。
【0019】
次に、この装置における文書記憶手段2、索引記憶手段3及び解析辞書手段5の記憶態様について具体例を用いて説明する。
【0020】
図2は、この装置における文書記憶手段2の内容の一例を概念的に示す図である。この例は、それぞれNo.1,No.2の文書IDを持つ2つの文書が登録された状態を示しており、これら2つの文書には、上記文書IDの他、文書名、文書毎に索引を更新した日時、文書の内容が各々同図に示す態様で記憶されている。
【0021】
図3は、文書記憶手段2に記憶された上記文書(図2に参照)に関する索引記憶手段3の内容の一例を概念的に示す図である。この索引記憶手段3は、索引語と該索引語に関連する文書ID列の関係とを対応付けた索引情報を記憶しており、この索引情報は、ユーザ設定キーと自動抽出キー毎に区別して記憶される。
【0022】
図3(a)は、索引記憶手段3に記憶されたユーザ設定キーに関する索引情報の一例を示したものである。この例では、文書ID=1の文書に対しては、当該文書の登録時、利用者が、「□□新聞」,「xx社」,「電子週刊誌」の3つのキーワードを設定し、同様に、文書ID=2の文書に対しては、「○○誌」,「WWW」の2のキーワードを設定した時の結果を示している。図3(a)において、文書ID欄の「:」の後の文字は抽出フラグである。すなわち、同欄の文書IDの後の「:u」は、ユーザ設定キーであることを意味する。抽出フラグとしては、この他、「:a」があり、同フラグがついた場合、自動抽出によるキーであることを意味している。ここで、「:u」,「:a」はあくまでも説明のため表記であって、実際には文書IDの内部ビット列の特定ビットの状態で識別するように構成される。
【0023】
図3(b)は、文書記憶手段2に記憶された上記文書(図2参照)の内容から索引語抽出手段4によって自動抽出されたキー(自動抽出キー)に関する索引情報の一例を示したものである。この索引情報は、本実施の形態に係わる索引語抽出手段4において、登録文書の文書内容から名詞性の単語を自動的に抽出するように構成した場合の例である。例えば、文書ID=1の文書からは、「インターネット」,「電子」,「週刊誌」,「発行」,「文章」,「画像」,「音声」,「情報」,「無料」,「発信」等の名詞性の単語が抽出され、これらの単語と文書ID=1が関連付けられて記憶されている。同様に、文書ID=2の文書からは、「ワールド」,「ワイド」,「ウェッブ」,「WWW」,「インターネット」,「利用」,「加速」等の名詞性の単語が抽出され、これらの単語と文書ID=2が関連付けられて記憶されている。
【0024】
図4は、この装置における解析辞書手段5の内容の一例を概念的に示す図である。この解析辞書手段5の記憶情報は、文書登録時に、索引語抽出手段4が当該登録文書から索引語を抽出する際の文書解析用の辞書として用いられる。
【0025】
図4(a)は、この種の解析辞書の代表的な例として、日本語の文章に一般的に出現する単語についての解析情報を記憶した例を示したものである。日本語の文章の解析にあたっては、更に、接続語についての解析情報を記憶した接続語テーブルが必要であるが、このテーブルについては周知技術の適用範囲であるため、ここでは詳しい説明を省略する。
【0026】
この解析辞書では、見出し、品詞、読み、コスト等の情報を一組にして、これを10万語以上記憶している。品詞情報は、単語間の接続判定や索引語抽出のために用いる。コスト情報は、接続可能な複数な解析結果からコストが最小となるものを選択する際のコスト計算に用いる。
【0027】
この他、本装置の解析辞書手段5には、ユーザ設定キーとその登録日時が記憶されており、これら記憶情報は、その後における文書の登録に際して、利用者からのユーザ設定キーの設定がない場合の当該登録文書に対するユーザ設定キーの自動付与のために用いられる。
【0028】
図4(b)は、文書記憶手段2に記憶された上記文書(図2参照)を扱った場合におけるユーザ設定キーとその登録日時の記憶態様を示すものである。この記憶態様は、「□□新聞」,「○○誌」,「xx社」,「WWW」,「電子週刊誌」というキーワードが、ユーザ設定キーとして登録されていることを意味している。ここで、ユーザ設定キーの登録日時は、図4(a)に示した辞書の保守に利用される。
【0029】
次に、本実施の形態に係わる装置におけるキーワード設定時の概略動作について、図5及び図6に示すフローチャートを参照して説明する。この装置での新たな文書の登録に際し、利用者は、図示しない入力手段を用いて、文書情報記憶手段1に上記登録しようとする文書の文書名とユーザ設定キーと文書内容とを入力し、更には、ユーザ設定キーに関連する索引や辞書の更新を行うかどうかの更新フラグを指定する(ステップ1)。
【0030】
上記入力及び指定が終了すると、登録制御手段6は、上記入力されたユーザ設定キーと、上記登録文書に対応する文書IDと、上記ユーザ設定キーに対する「抽出フラグ=:u」とを関係付けて、これらを索引情報として索引記憶手段3に登録する。また、その際、登録制御手段6は、後述するステップ7の処理のために、上記ユーザ設定キーが既に登録されていたかどうかの状態「新規/既存」のいずれかに対応する情報を自ら記憶する(ステップ2)。
【0031】
このステップ2の処理後、登録制御手段6は、入力された文書ID、文書名、索引の更新日時、文書内容を文書記憶手段2に登録し(ステップ3)、更には上記文書内容を索引語抽出手段4に渡す(ステップ4)。その後、索引語抽出手段4は、図4(a)及び(b)に示すような辞書から構成される解析辞書手段5を参照して、以下の条件(A)〜(C)を満たす語を索引語として抽出する。
【0032】
(A)図4(b)のユーザ設定キーについては、全て名詞性とみなし、上記登録文書の内容に含まれていればこれを抽出する。
【0033】
(B)図4(a)の単語については、名詞性の(品詞が名詞類やサ変化名詞等)を自動的に登録文書より抽出する。
【0034】
(C)辞書に登録されていない文字列については、英数字やカタカナ文字の連続する部分についてのみ、自動的に登録文書より抽出する。
【0035】
これら抽出した索引語は、ユーザ設定キーか、自動抽出キーかの種別をつけて、索引語抽出手段4で一時的に記憶した後、登録制御手段6に転送する(ステップ5)。
【0036】
引き続き、登録制御手段6は、上記抽出されたキー群と文書IDを対応付け、これらを索引情報として索引記憶手段3に登録する(ステップ6)。この時、登録制御手段6は、索引語に付けられた上記キー種別情報を基にして索引記憶手段2のどちらの索引(ユーザ設定キーの索引か自動抽出キーの索引)に登録するかを判断する。ここでもし、英数字やカタカナ語がユーザ設定キーとして解析辞書手段5に登録されている場合〔例えば、「WWW」が解析辞書手段5に登録されていた場合〕、ユーザ設定キーと同じものが自動抽出キーとして抽出される。この場合には、ユーザ設定キーと自動抽出キーのそれぞれに対応する索引に追加される。更に、ユーザ設定キーについては、自動抽出の意味を示すフラグ「:a」を文書IDに付加して登録する。
【0037】
次いで、登録制御手段6は、ステップ2で記憶したユーザ設定キーに関する「新規/既存」の状態を調べ、ユーザ設定キーが索引記憶手段3に索引語として存在していたかどうかを判定する(ステップ7)。
【0038】
ここで、全てのユーザ設定キーが索引語として存在していた場合(ステップ7YES)、処理を終了する。これに対して、ユーザ設定キーの一つでも索引語として存在していなかった場合(ステップ7NO)、次いで、登録制御手段6は、登録情報記憶手段1の更新フラグを調べ、ユーザ設定キーに関連する索引や辞書の更新の指定があるかどうかを調べる(ステップ8)。ここで、上記指定がなければ(ステップ8NO)、そのまま処理を終了する。
【0039】
一方、ユーザ設定キーに関連する索引や辞書の更新の指定があった場合(ステップ8YES)、更に、登録制御手段6は、ユーザ設定キーを登録日時とともに解析辞書手段5に登録する(ステップ9)。
【0040】
その後、登録制御手段6は、文書記憶手段2に既に登録済みの文書に対して上記ユーザ設定キーに関連する文書を検索し、この検索で見つかった文書について「ユーザ設定キー、文書ID、抽出フラグ=:a」を関係付け、これを索引情報として索引記憶手段4に追加登録する(ステップ10)。
【0041】
図6は、上記ステップ10の処理の詳細なフローチャートを示している。以下、同図を参照して、キーワードの更新処理について更に詳しく説明する。上記ステップ9において、ユーザ設定キーを登録日時とともに解析辞書手段5に登録した後、登録制御手段6は、上記ユーザ設定キーを索引語抽出手段に渡す(ステップ101)。
【0042】
ここで、索引語抽出手段4は、解析辞書手段5を参照してそのユーザ設定キーを構成する語(構成語)を抽出し、この構成語を登録制御手段6に返す(ステップ102)。
【0043】
次いで、登録制御手段6は、ユーザ設定キー毎にユーザ設定キー自身やその構成語を含む文書を文書記憶手段1より検索し、該検索結果をユーザ設定キー毎にまとめて検索結果テーブル(例えば、登録制御手段6の内部に設けられる)に格納する(ステップ103)。この格納結果テーブルの内容の一例を図15に示している。なお、ステップ103での文書の検索においては、上記ステップ2で登録した文書は検索対象から除外する。
【0044】
ステップ103の文書検索において、ユーザ設定キーあるいはその構成を含む文書が既に存在していれば、当該検索完了後、上記検索結果テーブルの各行には、ユーザ設定キー、該ユーザ設定キーの構成語、関連する文書IDのリストが記憶されていることになる。
【0045】
そこで、登録制御手段6は、上記ステップ103での検索終了後、検索結果テーブルに検索結果が格納されたかどうかを判断する(ステップ104)。ここで、検索結果が格納されていない場合(ステップ104NO)、ステップ105以降の処理をスキップし、処理を終了する。一方、検索結果が格納されている場合(ステップ104YES)、引き続き、登録制御手段6は、上記検索結果テーブルより1行を取り出し(ステップ105)、この1行の情報について、ユーザ設定キーやその構成語が所定の条件で出現するかどうかを判定する(ステップ106)。ここで、所定の条件としては、まず、ユーザ設定キーを含むという条件を用いる。所定の条件で出現するかどうかは、ユーザ設定キーに関連する文書ID毎に記憶する。
【0046】
ここで、ユーザ設定キーやその構成語が所定の条件で出現していなければ(ステップ106NO)、処理をステップ108へと進める。一方、ユーザ設定キーやその構成語が所定の条件で一つでも出現していれば(ステップ106YES)、登録制御手段6は、ユーザ設定キーに関連すると記録された文書について該ユーザ設定キーと検索された文書IDと抽出フラグ「:a」とを関係付けて索引情報として索引記憶手段3に登録する(ステップ107)。その際のユーザ設定キーに関する抽出フラグ「:a」は、索引語はユーザ設定であるが、設定自身はユーザ設定ではなく自動抽出であることを意味している。
【0047】
その後、登録制御手段6は、検索結果テーブルの全てについての処理が完了したかどうかを判定し(ステップ108)、処理が完了していれば(ステップ108YES)、処理を終了し、処理が完了していなければ(ステップ108NO)、完了するまでステップ105以降の処理を継続する。
【0048】
次に、実際の例を用いて各構成部の動作を説明する。ここで、例えば、文書記憶手段2に図2に示すような内容の文書1及び文書2が登録済みの状態で、更に、図7に示すような文書名と内容を持つ文書を新規に登録する場合について、図5に示すフローチャートに沿って各ステップ毎に説明する。
【0049】
この場合において、上記ステップ1で、これから登録しようとする文書(図7参照)に対して、ユーザ設定キーとして「インターネット」と「情報発信」を設定し、ユーザ設定キーに関連する索引や辞書の更新を行うことを指定した(更新フラグをONに設定した)ものとする。この場合の登録情報記憶手段1の内容は、図8に示す如くとなる。
【0050】
ステップ2において、登録制御手段6は、ユーザ設定キーと文書IDと「抽出フラグ=:u」を索引記憶手段3に登録する。この登録後における索引記憶手段3のユーザ設定キーに対応する部分の内容の一例を図9に示す。
【0051】
この登録にあたっては、ユーザ設定キーが索引記憶手段3に存在していれば文書IDの追加だけで良い。ユーザ設定キーが索引記憶手段3に存在していない場合は、新たに登録される索引情報は索引語の辞書式順序が昇順になるような位置に挿入される。この例の場合、ユーザ設定キー「インタネット」,「情報発信」は存在していないので、これら両ユーザ設定キーに関して、「インターネット→3:u」、「情報発信→3:u」という索引情報が「WWW」と「電子週刊誌」という索引語の間に挿入される。また、この索引語の挿入に関連して、登録制御手段6は、その後のステップ7での判定のために、上記「インターネット」と「情報発信」がそれぞれ「新規」登録であったことを自ら記憶/保持する。
【0052】
ステップ3において、登録制御手段6は、入力文書IDと索引の更新日時と文書内容とを文書記憶手段2に登録する。この例の場合における登録後の文書記憶手段2の内容は図10に示す如くのものとなる。ステップ4において、登録制御手段6は、図8に示す文書内容を索引語抽出手段4に渡す。
【0053】
ステップ5において、索引語抽出手段4は、上記文書内容に対して解析辞書手段5を参照して索引語の抽出を行い、この索引語を登録制御手段6に返す。このステップ5の処理において、索引語抽出手段4は、図4(a),(b)に示すような辞書内容を有する解析辞書手段5を参照して、名詞性の語を索引語として抽出する。
【0054】
具体的に、図4(b)に示すユーザ設定キーについては全て名詞性とみなし、該ユーザ設定キーが文書内容に含まれていれば抽出する。また、図4(a)に示す単語については、名詞性のもの(品詞が名詞やサ変名詞等)を抽出する。更に、上記辞書に登録されていない文字列については、英数字やカタカナ文字の連続する部分については、自動的に抽出する。
【0055】
抽出した索引語は、ユーザ設定キーか自動抽出キーかの種別を付加して、索引語抽出手段4で一時的に記憶する。この例の場合において、図8に示す登録文書の文書内容から抽出される索引語の一例を示したものが図11である。この例の場合、図10に示す文書内容には、図4(b)に示すユーザ設定キーが含まれていなかったので、抽出した索引語の種別は全て「自動抽出」になっている。
【0056】
ステップ6において、登録制御手段6は、上記抽出された図11に示す如くのキー群と文書ID(=3)を対応付けて索引記憶手段3に登録する。この登録は、ユーザ設定キーと自動抽出毎に行う。この例の場合、ユーザ設定キーは抽出されていないので、自動抽出キーに関連する索引だけを更新する。
【0057】
この登録後の索引記憶手段3の内容の一例を図12に示している。ユーザ設定キーが抽出されなかったというこの例の条件に対応して、図12では、索引記憶手段3の自動抽出キーに対する内容例のみを示している。なお、図11に示すような結果で抽出された索引語が自動抽出キーとして索引記憶手段3に存在していれば、この既に存在している索引語に対して文書IDのみを追加する。また、上記のような索引語が存在していなければ、抽出された索引語と文書ID(=3)の関係を新たに登録する。
【0058】
ステップ7において、登録制御手段6は、この例の場合のユーザ設定キーである「インターネット」と「情報発信」の全てが索引記憶手段3に索引語として存在していたかどうかを判断する。この例では、上記ステップ3において、これら両ユーザ設定キーが「新規」登録であると記憶しておいたため、登録制御手段6は、この記憶情報を参照してステップ8へと処理を進める。
【0059】
ステップ8において、登録制御手段6は、ステップ1で設定された登録情報記憶手段1の更新フラグを調べ、ユーザ設定キーに関連する索引や辞書の更新の指定があるかどうかを調べる。この例の場合、更新フラグがONに設定されているため、処理をステップ9に進める。
【0060】
ステップ9において、登録制御手段6は、ユーザ設定キー「インターネット」と「情報発信」とを、登録日時とともに解析辞書手段5に登録する。この登録は、ユーザ設定キーの辞書内に対して行われる。登録後の解析辞書手段5の内容の一例を図13に示している。
【0061】
ステップ10において、登録制御手段6は、登録済みの文書に対してユーザ設定キー「インターネット」と「情報発信』に関連する文書を検索し、検索された文書に関しては、「ユーザ設定キー、文書ID、抽出フラグ=:a」の情報要素によって成る索引情報を索引記憶手段4に追加する。
【0062】
次に、この具体例に関する上記ステップ10でのより詳細な動作を、図6に示すフローチャートに沿って各ステップ毎に説明する。ステップ101において、登録制御手段6は、まず、ユーザ設定キー「インターネット」と「情報発信」を索引語抽出手段4に渡す。
【0063】
ステップ102において、索引語抽出手段4は、解析辞書手段5を参照して上記ユーザ設定キー「インターネット」と「情報発信」の構成語を抽出し、登録制御手段6に返す。この例の場合における上記ユーザ設定キーから抽出された構成語の内容を図14に示している。同図に示すように、ユーザ設定キー「インターネット」からは構成語が抽出されないものの、ユーザ設定キー「情報発信」からは「情報」と「発信」という構成語が抽出される。
【0064】
ステップ103において、登録制御手段6は、索引語抽出手段4から返送された構成語の情報等を基に、上記ユーザ設定キー毎にユーザ設定キー自身やその構成語を含む文書を検索し、その検索結果をユーザ設定キー毎にまとめて検索結果テーブルに格納する。ここでの文書検索においては、ステップ2で登録した文書は検索対象から除外される。従って、この例の場合は、図2に示した文書1と文書2のみを対象として、上記ユーザ設定キーやその構成語を含む文書を見つけるための全文探索が行われる。
【0065】
上記検索結果テーブルは、例えば、登録制御手段6の内部に設けることができる。図15は、この例の場合における上記全文検索後の検索結果テーブルの内容の一例を示している。同図の例においては、ユーザ設定キー「インターネット」に対しては、文書IDが1と2の文書が検索され、「情報発信」に関しては文書IDが1の文書が検索された様子を示している。
【0066】
ステップ104において、登録制御手段6は、上記検索結果テーブルに検索結果が格納されたかどうかを判定し、検索結果が格納されていない場合は処理を終了する。この例の場合、図15に示したように、検索結果が格納されているので、ステップ105の処理に進む。
【0067】
ステップ105において、登録制御手段6は、検索結果テーブルより1行の情報(ユーザ設定キーと該キーに関連する文書IDのリスト)を取り出す。この例の場合、図15に示す検索結果テーブルから、No.1の行に相当する、『ユーザ設定キー「インターネット」:文書ID=(1,2)』というリスト情報がまず取り出される。
【0068】
ステップ106において、登録制御手段6は、そのリスト情報を基に、ユーザ設定キーやこの構成語が所定の条件で出現するかどうかを判定し、その判定結果を検索結果テーブルの文書IDに対応付けて記憶する。この回の上記No.1の行のリスト情報の処理では、「インターネット」というユーザ設定キーは文書IDが1と2の文書に共に含まれるとの判定結果を得て、その判定結果を、当該検索結果テーブル上に、例えば図16のNo.1の行に示すような態様で記憶した後、処理をステップ107に進める。
【0069】
ステップ107において、登録制御手段6は、ユーザ設定キーに関連すると記憶された文書について、このユーザ設定キーとこれに関連する文書ID:aとを索引記憶手段3に登録する。図17は、この例の場合における索引記憶手段の内容の一例を示したものであり、上記ユーザ設定キー「インターネット」に関する情報は、同図のNo.5の行に登録されている。
【0070】
このNo.5の行の情報は、ユーザ設定キー「インターネット」に関しては、文書IDが3の文書登録時にユーザ設定されたものであり、しかも、その登録時に既に登録されていた文書IDが1と2の文書から自動抽出されたキーであることを示している。
【0071】
ステップ108において、登録制御手段6は、検索結果テーブルの全ての情報を処理したかどうかを判定する。この回の処理に際して、検索結果テーブルのNo.2の行が残っているとの判定結果に従って、処理をステップ105へ戻す。
【0072】
ステップ105において、登録制御手段6は、検索結果テーブルより次の1行を取り出す。この回の処理では、図15に示すような内容の検索結果テーブルから、No.2の行に相当する、『ユーザ設定キー「情報発信」:文書ID=(1)』というリスト情報が取り出される。
【0073】
ステップ106において、登録制御手段6は、そのリスト情報を基に、ユーザ設定キーやこの構成語が所定の条件で出現するかどうかを判定し、その判定結果を検索結果テーブルの文書IDに対応付けて記憶する。この回の上記No.2の行のリスト情報の処理では、「情報発信」というユーザ設定キーは文書IDが1の文書に含まれないとの判定結果を得て、その判定結果を、検索結果テーブルに、例えば図16のNo.2の行に示すような態様で記憶した後、処理をステップ108に進める。
【0074】
ステップ108において、登録制御手段6は、上記検索結果テーブルの全ての情報を処理したかどうかを判定する。この回の処理では、検索結果テーブルのNo.2の行まで全て完了しているため、処理を終了する。
【0075】
このように、第1の実施の形態では、上記ステップ1からステップ3の処理において、文書の登録に際し、ユーザ設定キーを指定すると、このユーザ設定キーと登録文書の文書IDが対応付けられて索引情報として登録されるが、この登録処理に付随して、上記ステップ7及びステップ8の処理で、索引記憶手段3に記憶されていないユーザ設定キーがあり、かつこのユーザ設定キーについて、関連する索引情報や解析辞書の更新を行う旨の指示があると判定された場合、ステップ9でまず上記ユーザ設定キーを解析辞書に記憶した後、更にステップ10で、上記ユーザ設定キーを用いて既に登録済みの文書の検索を行い、該ユーザ設定キーを含む文書が検索された場合、この文書の文書IDも上記ユーザ設定キーと対応付けて索引情報として登録する。
【0076】
従って、利用者が登録時に設定したキーワード(上記の例では、「インターネット」)に対して該設定キーワードに関連する登録済みの文書IDも索引記憶手段3に記憶され、この設定キーワードに対して、過去に登録した文書の文書IDが索引付けられることになる。これにより、ユーザ設定キーを登録時に設定していない文書も、そのユーザー設定キー及びその関連語を含む文書であればこのユーザ設定キーを用いて検索可能であり、ユーザ設定キーによる検索漏れを大幅に低減できる。
【0077】
また、その後に登録される文書については、上記ステップ4からステップ6の処理において、登録文書の文書内容から索引語抽出手段4により索引語を自動抽出し、この抽出された索引語を登録文書の文書IDと対応付けて索引情報として登録する中で、該抽出された索引語の中に、それ以前に上記解析辞書手段5のユーザ設定キーエリア内に登録されたユーザ設定キーが存在する場合、索引記憶手段3における当該ユーザ設定キーの索引情報に関して、今回登録する文書の文書IDも対応付けるように更新登録を行う。これにより、ユーザ設定キーを利用者が設定しなくとも、キーワード設定装置が自動的にそのユーザ設定キーワードを抽出して設定でき、ユーザが設定したキーワードを含む新規登録文書を自動的に索引付けできるようになる。
【0078】
上記のように、ユーザ設定キーが設定された時点より前に登録された文書について、このユーザ設定キーやユーザ設定キーの構成語を所定の条件で含む文書を検出し、このユーザ設定キーから索引付けされるようにし、更には、索引抽出手段が参照する辞書にユーザ設定キーを索引語として登録し、その後に登録される文書からはこのユーザ設定キーが自動抽出できるようにすることによって、利用者が登録時に設定キーワードに関連する登録済みの文書も検索可能となり、その後に登録される文書に対してもこのキーワードが自動的に設定され、ユーザ設定キーに関連する文書の検索漏れを減らすことができる。
【0079】
なお、ユーザ設定キーが設定された時点より前に登録された文書について、このユーザ設定キーやユーザ設定キーの構成語を所定の条件で含む文書を検索する際の上記所定の条件として、上記実施の形態においては、
(1)ユーザ設定キーを含む。
【0080】
という条件を定めたが、この他、後述するように、
(2)ユーザ設定キーを構成する語(構成語)が一文内に存在する。
【0081】
(3)ユーザ設定キーの構成語が係り受け関係にある。
【0082】
等の条件を含めても良い。
【0083】
また、これら所定の条件を満足する文書を検索する際に、登録された文書の内容を全文探索するのではなく、ユーザ設定キーを構成語に分割し、登録時に自動的に抽出したキーによって作成した全文検索用の索引を参照するようにしても良い。この場合には、全文検索に比べて高速な検索を実現できる。併せて、この全文検索用の索引を用いる方法によれば、文書中に含まれる単語をユーザが高速に探索することも実現できる。
【0084】
更に、索引抽出手段が参照する辞書にユーザ設定キーを索引語として登録し、その後に登録される文書からこのユーザ設定キーを自動抽出する場合において、索引語と文書との対応には、ユーザが明示的に設定したものか、更新処理によって設定されたものかを識別する情報も付加する。この情報を参照することで、検索時にどの対応を使って検索可能かを指定できるようになる。
【0085】
次に、本発明の他の実施の形態について説明する。上記第1の実施の形態では、図6のフローチャートにおけるステップ106の処理でのユーザ設定キーのチェック条件として、「ユーザ設定キーを含む」という条件を用いていた。この第1の実施の形態によれば、「情報発信」の構成語の「情報」,「発信」を含むものとして文書IDが1の文書を確かに検索できたが、この文書1の上記構成語に関連する文書内容は、正確には、「情報を発信する」といった表現となっており「情報発信」とは一致せず、検索の対象とはなり得なかった。
【0086】
この点の対策として、第2の実施の形態では、上記ステップ106の処理においてユーザ設定キーをチェックする条件として、「ユーザ設定の構成語を一文内に含む」を加え、
(1)ユーザ設定キーを含む。
【0087】
(2)ユーザ設定キーの構成語が一文内に出現する。
【0088】
のうちのいずれかの条件を満たした場合に、ユーザ設定キーが含まれていたと判断するようにしている。ここで、1文とは句点や改行で区切られる文字列のことを言うものとする。
【0089】
上記(2)のチェック条件を加えた結果、「情報を発信する」と「情報発信」が一致するように判断される。これにより、第2の実施の形態では、上記第1の実施の形態と同様に図8に示すような条件に沿って文書を登録する場合、登録制御手段6内の検索結果テーブルの内容は、図16に示すような内容から図18に示すような内容に変化し、「情報発信」の構成語を含む文書IDの判定結果が<無し>から<有り>に変化する。その結果、図6におけるステップ107での文書検索処理は、「インターネット」に続き「情報発信」についても実行され、登録制御手段6は「情報発信」に関連する文書ID、すなわち1を索引記憶手段3に登録する。その結果、索引記憶手段3の内容は、図17に示すような内容から図19に示すような内容へと変化する。
【0090】
また、この第2の実施の形態では、ユーザ設定キーの構成語と元々のユーザ設定キーの関係についても解析辞書手段5に追加し、図5におけるステップ5でのユーザ設定キーの抽出処理に際しても、上記(2)のチェック条件も加味して抽出するようにする。ここで、構成語と元々のユーザ設定キーの関係を解析辞書手段5に登録する方法としては、図20に示すように、構成語の「その他情報」にユーザ設定キーへのポインタ(ユーザ設定キーの解析辞書での番号)を保持する方法が考えられる。このポインタは、複数存在するようにしても良い。図20に示す例では、「情報」,「発信」の各語については同一のポインタ「6」を付加することで元々のユーザ設定キー「情報発信」の構成語であることを、同様に、「電子」,「週刊誌」の各語については同一のポインタ「7」を付加することで元々のユーザ設定キー「電子週刊誌」の構成語であることを示している。
【0091】
このように、第2の実施の形態では、上記(2)の条件も加味して登録時にも索引語を抽出する様にしたため、「情報が発信された」といった内容を含む文書が登録された場合にも、「情報発信」というユーザ設定キーが抽出されることになる。その場合、この抽出されたキーに対する図11に示すような抽出結果の種別は、「ユーザ設定キー」となり、該抽出結果は、ユーザ設定キーに関する索引情報として索引記憶手段3に登録される。
【0092】
上記登録処理の結果、単純な文字列照合では検索できない文書もユーザが設定したキーワードで検索できるようになる。例えば、「情報発信」というキーワードに対して、「情報発信」,「情報を発信」,「情報の発信」,「情報を無料で発信する」,「発信された情報」といった表現との照合が可能になる。
【0093】
索引記憶手段3内の索引情報の内容に関する図17から図19への変化から分かるように、第2の実施の形態では、利用者が登録時に設定したキーワード(例えば、「インターネット」や「情報発信」)に関する登録済みの文書の文書IDも索引記憶手段3に記憶されるため、ユーザ設定キーによる検索漏れが更に減少する。また、登録時の索引語抽出に対しても構成語を一文内に含むという条件を追加することにより、ユーザ設定キーに関連する文書の自動索引付けの精度を高められ、ユーザ設定キーからの検索漏れをより低減できる。
【0094】
この他、本発明の第3の実施の形態としては、図1における機能ブロックのうち、索引記憶手段3と解析辞書手段5のキー記憶部分を共通化した構成が考えられる。具体的には、例えば、索引語、索引語の種別、登録日時、解析情報、関連する文書ID列を索引語毎に記憶する。
【0095】
このように、索引記憶手段3と解析辞書手段5のキー記憶エリアを共通化したの構成とした場合にも、上記第2の実施の形態と同様の効果が期待できる。併せて、この第3の実施の形態においては、ユーザ設定キーに関する登録や更新を索引記憶手段3と解析辞書手段5について2回行っていたのを1回に済ますことができるようになる。
【0096】
また、本発明の第4の実施の形態として、索引抽出手段4の動作に、キーワードと文書中の類似表記との差を標準化して照合させる処理を追加する方法が考えられる。具体的には、英数字については、ASCIIの小文字に変換し、ピリオドは削除する。また、カタカナについては変換ルールを適用して短縮表記を生成する。この変換した結果同士を比較し、両者が一致していれば照合したものとして処理を進める。かかる構成の第4の実施の形態においては、キーワードと文書中の表記が一致していなくても一致したものとして扱われ、更に抽出漏れを減らす効果を高めることができる。
【0097】
また、本発明の第5の実施の形態として、語と語の関係を記憶した関連語辞書を用いて、索引抽出手段4においてキーワードを関連語辞書を用いて展開し、展開された語に対して抽出処理を行なうようにしても良い。かかる構成とすることで、キーワード自身は文書中に含まれていないがその関連語が文書中に含まれている場合も、キーワードが含まれていたものとして扱われ、抽出漏れを減らす効果を更に向上させることができる。
【0098】
以上説明したように、本発明によれば、文書登録に際してユーザ設定キーの設定時点より前に登録された文書について、該ユーザ設定キーやその構成語を所定の条件で含む文書を検出し、該文書のIDをその検出に用いた上記ユーザ設定キーと対応付けて索引情報として登録するようにしたため、ユーザ設定キーが登録時に設定されていなくても、このユーザ設定キーに対して当該キーと関連のある文書を自動的に索引付けることができ、ユーザ設定キーを登録時に設定していない文書も検索可能となる。
特に、本発明では、文書登録時に、該文書中の所望の語を選んでユーザ設定キーとして新規に登録し、該新規登録ユーザ設定キーを用いて、当該新規登録ユーザ設定キーを含む登録済み文書の文書IDも該新規ユーザ設定キーと対応付けて索引情報に追加する処理を行うため、その後、文書検索を行う場合には、既に登録済みのユーザ設定キーの中から選択的に入力されるキーに対応する文書検索処理のみを行えば良く、文書検索時にユーザ設定キーを索引に追加する方式のように、ユーザ設定キーを入力し、該入力設定キーが存在しない場合には、該入力ユーザ設定キーを用いた登録済み文書検索を実行するといった無駄な処理を行わずに済み、検索処理が簡略化され、検索時間も短縮できる。
【0099】
併せて、本発明では、文書登録時にその登録文書から索引語を抽出する索引語抽出手段が参照する辞書内に既に設定されたユーザ設定キーも索引語として登録しておき、その後の文書登録に際して、上記索引語抽出手段により、上記辞書を参照しつつ登録済みのユーザ設定キーを自動抽出するようにしたため、ユーザ設定キーを登録時に設定しなくても既に登録済みのユーザ設定キーを用いて当該ユーザ設定キーに関連する文書の検索が可能となる。
【図面の簡単な説明】
【図1】第1の実施の形態に係わるキーワード設定装置の機能ブロック図。
【図2】図1における装置の文書記憶手段の記憶内容の一例を示す図。
【図3】図1における装置の索引記憶手段の索引情報の内容の一例を示す図。
【図4】図1における装置の解析辞書手段の解析情報の内容の一例を示す図。
【図5】図1における装置のキーワード設定処理動作を示すフローチャート。
【図6】図5におけるステップ10の詳細動作を示すフローチャート。
【図7】図1における装置で登録される文書の具体例を示す図。
【図8】図7の文書登録時の登録情報記憶手段の内容を示す図。
【図9】図7の文書登録時のステップ2実行後の索引記憶手段のユーザ設定キーに関する索引情報の内容を示す図。
【図10】図7の文書登録時のステップ3実行後の文書記憶手段の内容を示す図。
【図11】図7の文書登録時のステップ5実行後の抽出索引語の内容を示す図。
【図12】図7の文書登録時のステップ6実行後の索引記憶手段の自動抽出キーに関する索引情報の内容を示す図。
【図13】図7の文書登録時のステップ9実行後の解析辞書手段のユーザ設定キーに関する解析情報の内容を示す図。
【図14】図7の文書登録時のステップ102実行後のユーザ設定キーによる抽出構成語の内容を示す図。
【図15】図7の文書の登録時のステップ103実行後の検索結果テーブルの内容の一例を示す図。
【図16】図7の文書登録時のステップ106実行後の判定結果を検索結果テーブルに反映した結果を示す図。
【図17】図7の文書登録時のステップ107実行後の索引記憶手段のユーザ設定キーに関する索引情報の内容を示す図。
【図18】第2の実施の形態に係わる装置のステップ106実行後の判定結果を検索結果テーブルに反映した結果を示す図。
【図19】第2の実施の形態に係わる装置のステップ107実行後の索引記憶手段のユーザ設定キーに関する索引情報の内容を示す図。
【図20】第2の実施の形態に係わる装置のユーザ設定キーの構成語とユーザ設定キーとの関係を示す図。
【符号の説明】
1…登録情報記憶手段、2…文書記憶手段、3…索引記憶手段、4…索引語抽出手段、5…解析辞書手段、6…登録制御手段
Claims (4)
- 登録情報記憶手段に記憶した文書を文書記憶手段に登録する際、該登録文書に対して指定されたユーザ設定キー及び該登録文書から索引語として抽出された抽出キーと当該登録文書の文書IDを対応付けて索引情報として索引記憶手段に登録するキーワード設定装置において、
登録文書から索引語を抽出する際に文字列を解析するために用いる解析辞書と、以前の文書登録時に指定されたユーザ設定キーを記憶する解析辞書手段と、
登録文書から前記解析辞書手段により解析された名詞性の単語及び該解析辞書手段に記憶されたユーザ設定キーを索引語として自動抽出する索引語抽出手段と、
文書登録時、該文書の文書IDと当該文書に対して指定されたユーザ設定キーとを対応付けて索引情報として前記索引記憶手段に登録し、その際、前記指定されたユーザ設定キーが索引語として既に登録されているか否かを示す新規/既存情報を記憶すると共に、前記指定されたユーザ設定キーが既に登録されている場合には、該文書の文書IDを当該登録済みユーザ設定キーに対応付けて前記索引記憶手段の索引情報に追加する第1の処理、
前記索引語抽出手段により前記解析辞書手段を用いて当該登録文書から前記索引語を抽出せしめると共に、該抽出された索引語がユーザ設定キーまたは抽出キーのいずれの種別かに応じて当該各種別毎に当該抽出された索引語と当該文書IDを対応付けて前記索引記憶手段の索引情報として追加登録する第2の処理、
前記第1の処理で記憶したユーザ設定キーが索引語として既に存在していたか否かを前記新規/既存情報に基づき判定し、索引語として存在していなかったユーザ設定キーを前記解析辞書手段に登録する第3の処理、及び
前記索引語抽出手段により、登録済み文書の中から、索引語として存在していなかった前記ユーザ設定キーを所定の条件で含む文書を検索し、該検索された文書の文書IDを、前記第1の処理で当該ユーザ設定キーに対応付けて登録されている登録文書の文書IDを含む索引情報に追加する第4の処理
を行なう登録制御手段と
を具備することを特徴とするキーワード設定装置。 - 前記登録制御手段は、
前記第2の処理において、抽出された索引語が既に存在していれば該既に存在している索引語に対応して当該登録文書の文書IDを追加し、抽出された索引語が存在していなければ該索引語に対応して当該登録文書の文書IDを新規に登録する
ことを特徴とする請求項1記載のキーワード設定装置。 - 前記索引語抽出手段は、
前記第2の処理において、登録文書から前記解析辞書手段に記憶されたユーザ設定キーについて抽出を行う場合、該ユーザ設定キーを含むという条件及び該ユーザ設定キーが複数の単語から構成される場合の当該各単語であるユーザ設定キー構成語を一文内に含むという条件を加味して当該ユーザ設定キーを抽出する
ことを特徴とする請求項1記載のキーワード設定装置。 - 前記登録制御手段は、
前記第4の処理に係わる前記ユーザ設定キーを所定の条件で含む文書として、前記文書記憶手段内の前記ユーザ設定キーを含む文書若しくは前記ユーザ設定キーが複数の単語から構成される場合の当該各単語であるユーザ設定キー構成語を一文内に含む文書を検索対象とする
ことを特徴とする請求項1記載のキーワード設定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01012596A JP3591109B2 (ja) | 1996-01-24 | 1996-01-24 | キーワード設定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01012596A JP3591109B2 (ja) | 1996-01-24 | 1996-01-24 | キーワード設定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09204433A JPH09204433A (ja) | 1997-08-05 |
JP3591109B2 true JP3591109B2 (ja) | 2004-11-17 |
Family
ID=11741578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01012596A Expired - Fee Related JP3591109B2 (ja) | 1996-01-24 | 1996-01-24 | キーワード設定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3591109B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5848410A (en) * | 1997-10-08 | 1998-12-08 | Hewlett Packard Company | System and method for selective and continuous index generation |
JP2001337969A (ja) * | 2000-05-29 | 2001-12-07 | Nippon Telegr & Teleph Corp <Ntt> | 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06149889A (ja) * | 1992-11-12 | 1994-05-31 | Seiko Epson Corp | 電子ファイリングシステム |
JPH07239861A (ja) * | 1994-02-25 | 1995-09-12 | Ricoh Co Ltd | 文書検索装置 |
JPH0991311A (ja) * | 1995-09-26 | 1997-04-04 | Canon Inc | 情報蓄積検索装置およびその制御方法 |
-
1996
- 1996-01-24 JP JP01012596A patent/JP3591109B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH09204433A (ja) | 1997-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6466901B1 (en) | Multi-language document search and retrieval system | |
JP2693780B2 (ja) | テキストプロセシングシステム、及び単位又は化学式が正確且つ一貫して使用されているかどうかをテキストプロセシングシステムでチェックするための方法 | |
US5680628A (en) | Method and apparatus for automated search and retrieval process | |
US5745745A (en) | Text search method and apparatus for structured documents | |
EP0423683B1 (en) | Apparatus for automatically generating index | |
JP2002215617A (ja) | 品詞タグ付けをする方法 | |
US20070179932A1 (en) | Method for finding data, research engine and microprocessor therefor | |
JP4821039B2 (ja) | 地名情報抽出装置、その抽出方法及び記録媒体 | |
US20080040352A1 (en) | Method for creating a disambiguation database | |
JP2693914B2 (ja) | 検索システム | |
JP3591109B2 (ja) | キーワード設定装置 | |
JPH05250416A (ja) | データベースの登録・検索装置 | |
US7539611B1 (en) | Method of identifying and highlighting text | |
JPS6394365A (ja) | 日本文文書誤り検定装置 | |
JPS62249269A (ja) | 文書処理装置 | |
EP1072986A2 (en) | System and method for extracting data from semi-structured text | |
JPH03150668A (ja) | 検索システムの入力文字列正規化方式 | |
JP4031844B2 (ja) | 検索方法およびシステム | |
JPH05128159A (ja) | キーワード抽出方法及び装置 | |
JP3627850B2 (ja) | 文書検索装置 | |
JP2840258B2 (ja) | 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法 | |
JP2776069B2 (ja) | 文章検査装置 | |
JP2895137B2 (ja) | 日本文誤り自動検出および訂正装置 | |
JPH04330565A (ja) | 自然言語処理システム | |
JPH03123971A (ja) | 索引付け支援装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040323 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040816 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070903 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080903 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090903 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100903 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110903 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120903 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120903 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |