JPH1139347A - テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体 - Google Patents

テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体

Info

Publication number
JPH1139347A
JPH1139347A JP9213993A JP21399397A JPH1139347A JP H1139347 A JPH1139347 A JP H1139347A JP 9213993 A JP9213993 A JP 9213993A JP 21399397 A JP21399397 A JP 21399397A JP H1139347 A JPH1139347 A JP H1139347A
Authority
JP
Japan
Prior art keywords
word
attribute
text
speech
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9213993A
Other languages
English (en)
Inventor
Yoshimi Takemoto
義美 竹元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9213993A priority Critical patent/JPH1139347A/ja
Publication of JPH1139347A publication Critical patent/JPH1139347A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索過剰を抑制しつつ、異表記の同義語によ
る検索も可能にする。 【解決手段】 テキストから単語インデックス18を作成
する際、単語の見出しとその単語を含むテキストの情報
だけでなく、形態素解析で得られたその単語の品詞(例
えば「米」について固有名詞),属性追加手段100 で追
加されたその単語の属性(例えば「米」について国名)
の情報を登録する。また、単語の品詞や属性に基づき多
義性のある語(例えば「米」について「アメリカ」)を
展開して登録する。検索時、検索キー(例えば「アメリ
カ」)が入力されると、テキスト検索手段7はその単語
で単語インデックス18を検索し、「アメリカ」のみなら
ずその同義語である「米」を含むテキストの情報も得
る。また品詞や属性を検索条件とした検索キーが入力さ
れると、テキスト検索手段7は、単語と品詞または属性
の情報との双方を満たす単語を含むテキストの情報を単
語インデックス18から検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、指定された単語を
含むテキストを検索するテキスト検索システムに関す
る。
【0002】
【従来の技術】大量のテキストを対象に、指定された単
語を含むテキストを検索する手法の一つとして広く用い
られているものに、単語単位の見出しにその単語を含む
テキストの文書番号情報を持つインデックスを利用する
技術(例えば特開平7−182370号公報)がある。
【0003】図18は従来のテキスト検索システムの構
成を示すブロック図である。同図に示すように、従来の
テキスト検索システムは、テキスト記憶手段1,テキス
ト入力手段2,形態素解析手段3,単語インデックス作
成手段4,単語インデックス5,検索キー入力手段6,
テキスト検索手段7および検索結果記憶手段8で構成さ
れている。このうち、テキスト記憶手段1,テキスト入
力手段2,形態素解析手段3および単語インデックス作
成手段4が、インデックス作成装置を構成し、テキスト
記憶手段1に記憶されたテキストを処理して単語インデ
ックス5を作成する。検索キー入力手段6,テキスト検
索手段7および検索結果記憶手段8で構成されるテキス
ト検索装置は、上記作成された単語インデックス5を利
用してテキスト検索を行う。
【0004】形態素解析手段3は、テキスト記憶手段1
に格納されたテキストをテキスト入力手段2から入力
し、形態素解析を実行する。ここでの形態素解析は、入
力されたテキストを単語辞書を用いて単語単位に認定す
る解析処理であり、テキスト処理によく用いられてい
る。なお、形態素解析技術の詳細については、「国語辞
書の記憶と日本語文の自動分割」(長尾他、情報処理V
ol.19,No.6,1978年)などに記載されて
いる。
【0005】単語インデックス作成手段4は、形態素解
析手段3で認定された単語を見出しとして、その単語が
どのテキストに含まれるかの情報(例えばテキスト識別
子やそれに加えてテキスト中での位置情報)を付与した
単語インデックス5を作成する。
【0006】図19に単語インデックスの内容例を示
す。同図に示すように、従来の単語インデックスは、テ
キスト中に出現した単語を見出しとし、その単語の出現
したテキストの情報(図の例ではテキスト識別子)が検
索できるようになっている。
【0007】検索キー入力手段6はユーザが検索キーを
入力するための手段、テキスト検索手段7は検索キー入
力手段6により入力された検索キーを含むテキストを単
語インデックス5から検索する手段、検索結果記憶手段
8は検索結果を格納する手段である。
【0008】
【発明が解決しようとする課題】上述したように、従来
の単語インデックスは、テキスト中に出現した単語その
ものとテキスト情報との関係を保持しているに過ぎない
ため、検索キーと同じ表記であれば意味が異なる単語で
もヒットしてしまい、検索過剰を生じる問題がある。例
えば、「アメリカ」という意味で「米」を検索した場
合、「コメ」という意味の「米」もヒットしてしまい、
検索過剰となる。
【0009】この種のテキスト検索システムについては
従来より各種の改良技術が提案されているが、その多く
は検索漏れの解消にあり、検索過剰は余り問題としてい
ない。例えば特開平7−152778号公報では、イン
デックス中のキーワードとは別にその上位概念見出しを
設け、ユーザの入力したキーワードが上位概念見出しと
一致するか否かを調べている。また、特開平9−445
21号公報では、複数の異なる表記が用いられる語につ
いては、それら異なる表記の語に共通な識別子を対応さ
せてインデックスに登録しておき、検索時にユーザの入
力した語をその語に対応する識別子に変換し、識別子で
インデックスを検索している。何れも、検索漏れは少な
くなるが、検索過剰は却って目立つようになる。
【0010】本発明の目的は、検索キーと同じ表記でも
意味の異なる単語は検索されないようにして、検索過剰
をできるだけ抑制することにある。
【0011】
【課題を解決するための手段】本発明は上記の目的を達
成するために、以下のインデックス作成装置を提供す
る。
【0012】第1のインデックス作成装置は、検索対象
となるテキストを形態素解析し、テキスト中に含まれる
単語とその品詞とを検出する形態素解析手段と、検出さ
れた単語及び品詞とその単語が出現するテキストの情報
とを、単語インデックスに登録する単語インデックス作
成手段とを備えている。
【0013】第2のインデックス作成装置は、検索対象
となるテキストを形態素解析し、テキスト中に含まれる
単語とその品詞とを検出する形態素解析手段と、検出さ
れた単語に対し品詞以外の属性を決定して付与する属性
追加手段と、検出された単語,品詞,属性およびその単
語が出現するテキストの情報を、単語インデックスに登
録する単語インデックス作成手段とを備えている。
【0014】第3のインデックス作成装置においては、
検索対象となるテキストを形態素解析し、テキスト中に
含まれる単語とその品詞とを検出する形態素解析手段
と、検出された単語に対し品詞以外の属性を決定して付
与する属性追加手段と、検出された単語の品詞及び属性
を考慮して、検出された単語を同じ意味の異なる表記の
単語に展開する単語展開手段と、検出された単語,品
詞,属性およびその単語が出現するテキストの情報と、
展開して得られた単語,展開元の単語の品詞,属性およ
びその単語が出現するテキストの情報とを、単語インデ
ックスに登録する単語インデックス作成手段とを備えて
いる。
【0015】なお、第2および第3のインデックス作成
装置における属性追加手段は、たとえば、単語の品詞情
報とその属性情報とを記憶する属性記憶手段と、形態素
解析で検出された単語に対し、検出された品詞の情報と
前記属性記憶手段の記憶内容とに基づき属性を付与する
属性付与手段と、単語列に現れる品詞または属性の並び
のパターン等に基づき単語の属性を決定するルールを記
憶するルール記憶手段と、該ルール記憶手段に記憶され
たルールを適用して前記属性付与手段で付与された属性
を検査し必要に応じて修正する属性決定手段とで構成さ
れる。
【0016】また、上記の各インデックス作成装置と組
み合わされるテキスト検索装置として、本発明は以下の
ようなテキスト検索装置を提供する。
【0017】第1のテキスト検索装置は、品詞または属
性付きの検索キーを、単語とその品詞または属性の情報
とに解釈する検索キー解釈手段と、解釈された単語と品
詞または属性の情報との双方を満たす単語を含むテキス
トの情報を単語インデックスから検索するテキスト検索
手段とを備えている。
【0018】第2のテキスト検索装置は、単語とその品
詞または属性の候補とを記憶する候補記憶手段と、ユー
ザから入力された検索キーにかかる単語の品詞または属
性の候補を前記候補記憶手段から検索して表示し、その
内の一つをユーザに選択させる選択手段と、ユーザから
入力された検索キーにかかる単語と前記選択された品詞
または属性の情報との双方を満たす単語を含むテキスト
の情報を単語インデックスから検索するテキスト検索手
段とを備えている。
【0019】本発明のテキスト検索システムは、上記第
1,第2,第3のインデックス作成装置の何れか一つ
と、上記第1,第2のテキスト検索装置の何れか一つと
が組み合わされて構成される。
【0020】
【発明の実施の形態】次に本発明の実施の形態の例につ
いて図面を参照して詳細に説明する。
【0021】図1は本発明の第1の実施例のブロック図
である。この例のテキスト検索システムは、テキスト記
憶手段1,テキスト入力手段2,形態素解析手段3およ
び品詞付き単語インデックス作成手段11から構成され
るインデックス作成装置と、このインデックス作成装置
によって作成された品詞付き単語インデックス12,検
索キー入力手段6,検索キー解釈手段30,テキスト検
索手段7および検索結果記憶手段8から構成されるテキ
スト検索装置とを有している。
【0022】以下、インデックス作成装置とテキスト検
索装置とに分けて説明する。
【0023】○インデックス作成装置 テキスト記憶手段1には、検索対象となる複数のテキス
トが記憶されている。テキスト入力手段2は、テキスト
記憶手段1から一つずつテキストを読み込み、形態素解
析手段3に入力する。形態素解析手段3は、入力された
テキストについて形態素解析を実行する。ここでの形態
素解析は、入力されたテキストを単語辞書を用いて単語
単位に認定し、かつ各単語の品詞を認定する解析処理で
ある。
【0024】品詞付き単語インデックス作成手段11
は、形態素解析手段3の結果である単語と品詞の情報お
よび今回処理されたテキストの識別子とを、品詞付き単
語インデックス12に登録する。単語の品詞情報を追加
した点が、図19で説明した従来の単語インデックス5
との相違点である。
【0025】○テキスト検索装置 検索キー入力手段6は、ユーザが指定した検索キーを入
力する。検索キーは、従来は単語のみで構成されていた
が、本実施例では、単語に加えてその品詞を指定するこ
とができる。単語と品詞を指定した検索キーを品詞付き
検索キーと呼ぶ。検索キー解釈手段30は、品詞付き検
索キーが入力されると、それを解釈して、単語と品詞の
情報とを認識し、テキスト検索手段7に伝達する。
【0026】テキスト検索手段7は、検索キー解釈手段
30から渡された単語と品詞の情報との双方を満たす単
語を、品詞付き単語インデックス12から検索し、それ
に対応するテキストの情報を検索結果記憶手段8に格納
する。検索結果記憶手段8に検索結果を格納する代わり
に、またそれに加えて、図示しない表示装置やプリンタ
に検索結果を出力しても良い。
【0027】品詞付き検索キーでなく、従来と同じく、
単語のみからなる検索キーによる検索も可能である。こ
の場合、テキスト検索手段7は品詞付き単語インデック
ス12の品詞の情報を無視し、従来と同様の検索を行
う。
【0028】次に、具体例を挙げて本実施例の動作を説
明する。
【0029】テキスト記憶手段1に記憶されているテキ
ストが、図2に示すテキストA1,A2であるとする。
このテキストA1,A2について、形態素解析手段3が
形態素解析すると、例えば図3に示すような解析結果が
得られる。図3では、テキストA1について、「大
分」,「県」,「は」をそれぞれ単語と認定し、その品
詞をそれぞれ固有名詞,固有名詞接辞,助詞としてい
る。また、テキストA2について、「大分」,「昔」,
「に」をそれぞれ単語と認定し、その品詞をそれぞれ副
詞,名詞,助詞としている。この解析結果に基づき、品
詞付き単語インデックス作成手段11は、図4に示すよ
うな情報を品詞付き単語インデックス12に登録する。
【0030】ユーザは、固有名詞(県名)である「大
分」を含むテキストを検索したいとする。このときユー
ザは、単語「大分」と共にその品詞である固有名詞を指
定した品詞付き検索キー「大分@固有名詞」を入力す
る。ここで、@は単語と品詞の情報とを区切るマークで
ある。検索キー解釈手段30は、@の前の部分を単語、
@の後ろの部分を品詞の情報と解釈し、テキスト検索手
段7に伝達する。テキスト検索手段7は、単語「大分」
をキーに図4に示す品詞付き単語インデックス12を検
索すると、図2のテキストA1,A2が求まる。ここ
で、品詞を比較すると、テキストA1は合致するが、テ
キストA2の品詞は副詞で品詞付き検索キーで指定され
た固有名詞と異なるため、テキストA1のみを検索結果
とする。
【0031】これに対し、図18で説明した従来のテキ
スト検索装置では、品詞による絞り込みができないた
め、テキストA1だけでなくテキストA2も検索結果に
含まれることになり、検索過剰となる。
【0032】図5は本発明の第2の実施例のブロック図
である。この例のテキスト検索システムは、テキスト記
憶手段1,テキスト入力手段2,形態素解析手段3,属
性追加手段100および品詞・属性付き単語インデック
ス作成手段17から構成されるインデックス作成装置
と、このインデックス作成装置によって作成された品詞
・属性付き単語インデックス18,検索キー入力手段
6,検索キー解釈手段30,テキスト検索手段7および
検索結果記憶手段8から構成されるテキスト検索装置と
を有している。
【0033】本実施例は、各単語の品詞の情報に加え、
品詞以外の属性を単語に追加することにより、より一層
の絞り込みを可能としたものである。
【0034】以下、インデックス作成装置とテキスト検
索装置とに分けて説明する。
【0035】○インデックス作成装置 テキスト記憶手段1には、検索対象となる複数のテキス
トが記憶されている。テキスト入力手段2は、テキスト
記憶手段1から一つずつテキストを読み込み、形態素解
析手段3に入力する。形態素解析手段3は、入力された
テキストについて形態素解析を実行する。ここでの形態
素解析は、入力されたテキストを単語辞書を用いて単語
単位に認定し、かつ各単語の品詞を認定する解析処理で
ある。
【0036】属性追加手段100は、形態素解析手段3
で認定された単語に対し品詞以外の属性を決定して付与
する。属性追加手段100は、属性付与手段13と属性
記憶手段14と属性決定手段15とルール記憶手段16
とから構成される。
【0037】属性記憶手段14は、所定の単語毎に、そ
の単語の品詞と品詞以外のその単語の属性との関係を記
憶している。例えば、「アメリカ」という単語につい
て、品詞「固有名詞」と属性「国名」との対を記憶して
いる。
【0038】属性付与手段13は、形態素解析手段3の
解析結果の各単語に対して、若しその単語の属性が属性
記憶手段14に記憶されていれば、その属性をその単語
に付与する。このとき、解析結果の品詞と属性記憶手段
14中の品詞とが完全に一致しない場合は、未決定の印
(例えば?)を付けておく。例えば、解析結果中の単語
「アメリカ」が品詞「固有名詞」に認定されており、属
性記憶手段14に「アメリカ」について品詞「固有名
詞」と属性「国名」が記憶されていれば、単語「アメリ
カ」に属性「国名」を付与する。他方、解析結果中の単
語「米」が品詞「名詞」に認定されており、属性記憶手
段14に「米」について品詞「固有名詞」と属性「国
名」が記憶されている場合、単語「米」に属性「国名
?」を付与する。このように未決定の属性は、最終的に
属性決定手段15でその可否が決定される。
【0039】ルール記憶手段16は、属性付与手段13
によって付与された未決定の属性の妥当性を判断するた
めのルールを記憶する。属性決定手段15は、このルー
ルを適用して、属性付与手段13によって付与された未
決定の属性の妥当性を検査し、付与の可否を判断する。
ルール記憶手段16に格納されるルールは、形態素解析
手段3の結果得られる品詞や属性付与手段13によって
その単語に付与された属性の並びのパターンなどに基づ
いて記述される。以下に、未決定の属性「国名?」に利
用できるルールの例を示す。
【0040】「人名」+「国名?」+「人名接辞」の
パターンであれば、その「国名?」は「国名」である。 「国名?」+「政治機関名」のパターンであれば、そ
の「国名?」は「国名」である。 「国名?」+「通貨単位」のパターンであれば、その
「国名?」は「国名」である。 「国名?」+「で」(助詞)+「は」(助詞)のパタ
ーンであれば、その「国名?」は「国名」である。 「国名?」+「、」(読点)+「国名?」のパターン
であれば、その「国名?」は「国名」である。 「国名?」が連続(近接)するパターンであれば、そ
の「国名?」は「国名」である。
【0041】以上のようなルールを利用すれば、属性決
定手段15は、以下の未決定の属性「国名?」を「国
名」に決定することができる。 (a)「クリントン(固有名詞:人名)/米(名詞:国
名?)/大統領(名詞:人名接辞)」 (b)「米(名詞:国名?)/外務省(名詞:政治機関
名)」 (c)「米(名詞:国名?)/ドル(接辞:通貨単
位)」 (d)「米(名詞:国名?)/で(助詞)/は(助詞)
/、(読点)」 (e)「米(名詞:国名?)/、(読点)/仏(名詞:
国名?)/、(読点)/英(名詞:国名?)」 なお、括弧内で「:」より前の情報は形態素解析手段3
の結果得られる品詞情報であり、「:」以下の情報が属
性記憶手段14に記述されていて、属性付与手段13に
より付与された情報である。
【0042】品詞・属性付き単語インデックス作成手段
17は、形態素解析手段3の結果である単語と品詞の情
報ならびに属性追加手段100で追加された属性と、今
回処理されたテキストの識別子とを、品詞・属性付き単
語インデックス18に登録する。品詞の情報に加え、更
に品詞以外の属性を追加した点が、図1の実施例との相
違点である。
【0043】○テキスト検索装置 検索キー入力手段6は、ユーザが指定した検索キーを入
力する。検索キーは、従来は単語のみで構成されていた
が、本実施例では、単語に加えてその品詞や属性を指定
することができる。単語と品詞を指定した検索キーを品
詞付き検索キーと呼ぶ。単語と属性を指定した検索キー
を属性付き検索キーと呼ぶ。単語と品詞と属性を指定し
た検索キーを品詞・属性付き検索キーと呼ぶ。検索キー
解釈手段30は、検索キーが入力されると、それを解釈
して、単語と品詞と属性の情報とを認識し、テキスト検
索手段7に伝達する。
【0044】テキスト検索手段7は、検索キー解釈手段
30から単語と品詞の情報が渡されると、単語と品詞の
情報の双方を満たす単語を、品詞・属性付き単語インデ
ックス18から検索し、単語と属性の情報が渡される
と、単語と属性の情報の双方を満たす単語を、品詞・属
性付き単語インデックス18から検索し、単語と品詞と
属性の情報が渡されると、単語と品詞と属性の情報の全
てを満たす単語を、品詞・属性付き単語インデックス1
8から検索する。そして、それに対応するテキストの情
報を検索結果記憶手段8に格納する。検索結果記憶手段
8に検索結果を格納する代わりに、またそれに加えて、
図示しない表示装置やプリンタに検索結果を出力するよ
うにしても良い。
【0045】品詞や属性の付いた検索キーでなく、従来
と同じく、単語のみからなる検索キーによる検索も可能
である。この場合、テキスト検索手段7は品詞・属性付
き単語インデックス18の品詞,属性の情報を無視し、
従来と同様の検索を行う。
【0046】次に、具体例を挙げて本実施例の動作を説
明する。
【0047】テキスト記憶手段1に記憶されているテキ
ストが、図6に示すテキストB1,B2,B3であると
する。このテキストB1,B2,B3について、形態素
解析手段3が形態素解析すると、例えば図7に示すよう
な解析結果が得られる。図7では、テキストB1につい
て、「アメリカ」,「は」をそれぞれ単語と認定し、そ
の品詞をそれぞれ固有名詞,助詞としている。また、テ
キストB2について、「日」,「米」,「間」,
「の」,「貿易」をそれぞれ単語と認定し、その品詞を
それぞれ名詞,名詞,名詞,助詞,サ変名詞としてい
る。更に、テキストB3について、「新潟」,「産」,
「の」,「米」,「を」それぞれ単語と認定し、その品
詞をそれぞれ固有名詞,名詞,助詞,名詞,助詞として
いる。
【0048】属性記憶手段14に、図8に示すような属
性情報が格納されているとすると、属性付与手段13
は、図7の形態素解析結果中の単語「アメリカ」,
「日」,「米」,「新潟」に対して図9に示すような属
性情報を付与する。ここで、テキストB2中の「日」,
「米」と、テキストB3中の「米」とには、解析された
品詞が名詞,属性記憶手段14中の品詞が固有名詞であ
るため、未決定の属性「国名?」が付与される。
【0049】ルール記憶手段16に、前述した〜の
ルールが格納されているとすると、属性決定手段15
は、テキストB2中の「日」,「米」の属性だけ「国
名」に確定する。また、このとき、この「日」,「米」
の品詞情報を名詞から固有名詞に書き換える。他方、テ
キストB3中の「米」の属性「国名?」は消去する。こ
うして属性決定手段15は、図6の入力テキストに対し
て、図10のような解析結果を生成する。
【0050】この解析結果に基づき、品詞・属性付き単
語インデックス作成手段17は、図11に示すような情
報を品詞・属性付き単語インデックス18に登録する。
【0051】ユーザは、米国を意味する「米」を含むテ
キストを検索したいとする。このときユーザは、単語
「米」と共にその属性である「国名」を指定した属性付
き検索キー「米$国名」を入力する。ここで、$は単語
と属性の情報とを区切るマークである。検索キー解釈手
段30は、$の前の部分を単語、$の後ろの部分を属性
の情報と解釈し、テキスト検索手段7に伝達する。テキ
スト検索手段7は、単語「米」をキーに図11に示す品
詞・属性付き単語インデックス18を検索すると、図6
のテキストB2,B3が求まる。ここで、属性を比較す
ると、テキストB2は合致するが、テキストB3は合致
しないため、テキストB2のみを検索結果とする。
【0052】これに対し、図18で説明した従来のテキ
スト検索装置では、属性による絞り込みができないた
め、テキストB2だけでなくテキストB3も検索結果に
含まれることになり、検索過剰となる。
【0053】上記の例において、ユーザが、属性付き検
索キー「米$国名」の代わりに、単語「米」と共にその
品詞である「固有名詞」を指定した品詞付き検索キー
「米@固有名詞」を入力した場合には、図1の実施例と
同様の動作が行われる。また、ユーザが、単語「米」と
共にその品詞である「固有名詞」とその属性である「国
名」を指定した品詞・属性付き検索キー「米@固有名詞
$国名」を入力した場合には、品詞および属性の双方が
合致する単語を含むテキストが検索される。
【0054】図12は本発明の第3の実施例のブロック
図である。この例のテキスト検索システムは、テキスト
記憶手段1,テキスト入力手段2,形態素解析手段3,
属性追加手段100,単語展開手段19,展開知識記憶
手段20および品詞・属性付き単語インデックス作成手
段17から構成されるインデックス作成装置と、このイ
ンデックス作成装置によって作成された品詞・属性付き
単語インデックス18,検索キー入力手段6,検索キー
解釈手段30,テキスト検索手段7および検索結果記憶
手段8から構成されるテキスト検索装置とを有してい
る。
【0055】本実施例は、各単語の品詞の情報に加え、
品詞以外の属性を単語に付加すると共に、単語を同じ意
味を示す異なる表記の単語に正しく展開することによ
り、検索余剰を抑制しつつ、検索漏れを少なくするよう
にしたものである。
【0056】以下、インデックス作成装置とテキスト検
索装置とに分けて説明する。
【0057】○インデックス作成装置 テキスト記憶手段1には、検索対象となる複数のテキス
トが記憶されている。テキスト入力手段2は、テキスト
記憶手段1から一つずつテキストを読み込み、形態素解
析手段3に入力する。形態素解析手段3は、入力された
テキストについて形態素解析を実行する。ここでの形態
素解析は、入力されたテキストを単語辞書を用いて単語
単位に認定し、かつ各単語の品詞を認定する解析処理で
ある。続いて属性追加手段100が、図5の実施例と同
様に、単語に対し品詞以外の属性を決定して付与する。
【0058】次に単語展開手段19は、属性追加手段1
00までの処理で得られたテキスト中の単語及び品詞並
びに属性に基づき、展開知識記憶手段20に記憶された
知識を参照して、単語を同じ意味の異なる表記の単語に
展開する。展開知識記憶手段20には、単語の展開に関
する知識として、その品詞,属性との関係でその同義語
や概念語の辞書情報などが格納されている。単語の展開
は、解析された単語の品詞や属性に基づき行われるた
め、例えば単語「米」はその品詞が固有名詞、またはそ
の属性が「国名」である場合に限り、「アメリカ」等に
展開される。
【0059】品詞・属性付き単語インデックス作成手段
17は、単語展開手段19までの結果に基づき、形態素
解析手段3で検出された単語及び品詞並びに属性追加手
段100で付与された属性とその単語が出現するテキス
トの情報と、単語展開手段19で展開して得られた単語
及び展開元の単語の品詞並びに付与された属性とその単
語が出現するテキストの情報とを、品詞・属性付き単語
インデックス18に登録する。展開して得られた単語に
ついても登録している点が、図5の実施例との相違点で
ある。
【0060】○テキスト検索装置 検索キー入力手段6は、ユーザが指定した検索キーを入
力する。検索キーは、従来は単語のみで構成されていた
が、本実施例では、単語に加えてその品詞や属性を指定
することができる。検索キー解釈手段30は、検索キー
が入力されると、それを解釈して、単語と品詞と属性の
情報とを認識し、テキスト検索手段7に伝達する。
【0061】テキスト検索手段7は、検索キー解釈手段
30から単語と品詞の情報が渡されると、単語と品詞の
情報の双方を満たす単語を、品詞・属性付き単語インデ
ックス18から検索し、単語と属性の情報が渡される
と、単語と属性の情報の双方を満たす単語を、品詞・属
性付き単語インデックス18から検索し、単語と品詞と
属性の情報が渡されると、単語と品詞と属性の情報の全
てを満たす単語を、品詞・属性付き単語インデックス1
8から検索する。そして、それに対応するテキストの情
報を検索結果記憶手段8に格納する。検索結果記憶手段
8に検索結果を格納する代わりに、またはそれと共に、
図示しない表示装置やプリンタに検索結果を出力するよ
うにしても良い。
【0062】品詞や属性の付いた検索キーでなく、従来
と同じく、単語のみからなる検索キーによる検索も可能
である。この場合、テキスト検索手段7は品詞・属性付
き単語インデックス17の品詞,属性の情報を無視し、
従来と同様の検索を行う。
【0063】また、展開された単語を除外した検索も可
能である。この場合、検索キーで、展開情報を検索しな
い旨を指定する。指定の形式としては、検索キーの最後
に所定のマーク(例えば%)を付すことが考えれる。展
開された単語を除外した検索の指定は、単語のみからな
る検索キー,品詞付き検索キー、属性付き検索キー,品
詞・属性付き検索キーの何れでも可能である。
【0064】次に、具体例を挙げて本実施例の動作を説
明する。
【0065】テキスト記憶手段1に記憶されているテキ
ストが、図6に示すテキストB1,B2,B3であると
する。このテキストB1,B2,B3について、形態素
解析手段3および属性追加手段100において、図5の
実施例と同様の処理が施されることにより、図6の入力
テキストに対して、図10のような解析結果が生成され
る。
【0066】展開知識記憶手段20は、「日」(固有名
詞:国名)が「日本」(固有名詞:国名)と同義である
こと、「米」(固有名詞:国名)が「アメリカ」(固有
名詞:国名)および「米国」(固有名詞:国名)と同義
であることを、辞書情報として格納している。単語展開
手段19は、この辞書情報を用いて、テキストB2内の
「日」(固有名詞:国名)を「日本」(固有名詞:国
名)に、「米」(固有名詞:国名)を「アメリカ」(固
有名詞:国名)および「米国」(固有名詞:国名)に、
それぞれ展開する。
【0067】品詞・属性付き単語インデックス作成手段
17は、図13に示すように、図10の単語列に加え
て、「日本」(固有名詞:国名),「アメリカ」(固有
名詞:国名)および「米国」(固有名詞:国名)も品詞
・属性付き単語インデックス18に登録する。このと
き、展開して追加した語については、実際にはテキスト
に出現していないので、例えば属性欄に、その旨(展
開)を記録しておく。
【0068】ユーザが、「アメリカ」を含むテキストを
検索したいとする。また、単語のみ指定し、その品詞,
属性は指定しなかったとする。検索キー解釈手段30
は、検索キーの単語「アメリカ」をテキスト検索手段7
に渡し、テキスト検索手段7は、「アメリカ」をキーに
図13の品詞・属性付き単語インデックス18を検索す
る。その結果、テキストB1およびテキストB2を得る
ことができる。つまり、「アメリカ」を意味する「米」
を含むテキストB2も得ることができる。他方、「コ
メ」を意味する「米」を含むテキストB3は検索されな
い。こうして、検索余剰を抑制しつつ、検索漏れを少な
くすることができる。
【0069】これに対し、従来の単語の見出しだけをキ
ーとした検索装置では、テキストB1しかヒットしな
い。つまり、「アメリカ」を意味する「米」も検索対象
としたい場合に検索漏れとなる。また、検索漏れを防ぐ
ために、ユーザ自身が「アメリカ」だけでなく、それを
「米」に同義語展開して従来の検索装置で検索すると、
テキストB1〜B3の全てがヒットしてしまい、検索過
剰となる。
【0070】なお、「米」を含むテキストは検索対象と
せず、「アメリカ」だけを検索したい場合は、「アメリ
カ%」のように指定する。この場合、テキスト検索手段
7は、検索結果からテキストB2を除外し、テキストB
1だけを出力する。
【0071】その他、図5の実施例と同様に、単語の品
詞,属性を指定した検索も可能である。
【0072】別の具体例を挙げて本実施例の動作を説明
する。
【0073】テキスト記憶手段1に格納されているテキ
ストC1「…自社さ各党は…」が、テキスト入力手段2
で入力されたとする。
【0074】形態素解析手段3は、テキストC1を形態
素解析する。名詞「社」と「さ」の文法非接続性から形
態素解析に失敗し、「…自(名詞)/社(名詞)/さ
(未知語)/各党(名詞)/は(助詞)/…」のよう
に、「さ」の部分が未知語という結果が得られたとす
る。
【0075】属性記憶手段14に、「自」,「社」,
「さ」という単語は政党名であるという辞書情報が格納
されていると、属性付与手段13は、テキストC1に対
して、「…自(名詞:政党名?)/社(名詞:政党名
?)/さ(未知語:政党名?)/各党(名詞)/は(助
詞)/…」のように属性を付与する。
【0076】ルール記憶手段16に、『属性情報「政党
名?」が連続(近接)するパターンであれば、「政党名
?」は「政党名」である』というルールが格納されてい
ると、属性決定手段15は、テキストC1に対して、
「…自(名詞:政党名)/社(名詞:政党名)/さ(未
知語:政党名)/各党(名詞)/は(助詞)/…」のよ
うに属性を決定する。
【0077】展開知識記憶手段20は、「自」(固有名
詞:政党名)が「自民党」(固有名詞:政党名)および
「自民」(固有名詞:政党名)と同義であること、
「社」(固有名詞:政党名)が「社会党」(固有名詞:
政党名)および「社会」(固有名詞:政党名)と同義で
あること、「さ」(固有名詞:政党名)が「さきがけ」
(固有名詞:政党名)と同義であることを、辞書情報と
して格納している。
【0078】単語展開手段19は、この辞書情報を用い
て、テキストC1内の「自」(固有名詞:政党名)を
「自民党」(固有名詞:政党名)および「自民」(固有
名詞:政党名)に、「社」(固有名詞:政党名)を「社
会党」(固有名詞:政党名)および「社会」(固有名
詞:政党名)に、「さ」(固有名詞:政党名)を「さき
がけ」(固有名詞:政党名)に、それぞれ展開する。
【0079】品詞・属性付き単語インデックス作成手段
17は、テキストC1内の単語に加えて、「自民党」
(固有名詞:政党名),「自民」(固有名詞:政党
名),「社会党」(固有名詞:政党名),「さきがけ」
(固有名詞:政党名)を、品詞・属性付き単語インデッ
クス18に登録する。
【0080】この結果、ユーザが、「自民党」,「自民
$政党名」,「社会党」,「社会$政党名」,「さきが
け」といった検索キーを入力した場合、これらの単語は
テキスト中に実在しないものの、テキストC1を検索す
ることができる。
【0081】図14は本発明の第4の実施例のブロック
図である。この例のテキスト検索システムは、テキスト
記憶手段1,テキスト入力手段2,形態素解析手段3,
属性追加手段100および品詞・属性付き単語インデッ
クス作成手段17から構成されるインデックス作成装置
と、このインデックス作成装置によって作成された品詞
・属性付き単語インデックス18,検索キー入力手段
6,検索キー解釈手段30,テキスト検索手段7,検索
結果記憶手段8,品詞・属性候補検索手段33,品詞・
属性候補記憶手段34,品詞・属性候補表示手段35お
よび品詞・属性指定手段36から構成されるテキスト検
索装置とを有している。
【0082】本実施例は、図5で説明した実施例とテキ
スト検索装置の構成が相違している。インデックス作成
装置の構成と動作は図5の実施例と同じなので、以下、
テキスト検索装置についてのみ説明する。
【0083】○テキスト検索装置 検索キー入力手段6は、ユーザが指定した検索キーを入
力する。検索キーには、図5の実施例と同様に、単語に
加えてその品詞や属性を指定することができる。品詞や
属性が指定された場合の動作は図5の実施例と同じであ
る。単語のみの検索キーが入力された場合の動作は、以
下のように図5の実施例と相違する。
【0084】検索キー入力手段6から入力された検索キ
ーは、検索キー解釈手段30および品詞・属性候補検索
手段33に送られる。
【0085】品詞・属性候補記憶手段34は、多義性の
ある単語などについて、単語の見出しとその品詞・属性
候補を一つまたは複数記憶する辞書である。品詞・属性
候補検索手段33は、入力された検索キーが単語のみか
ら成る場合、その単語の品詞・属性候補を品詞・属性候
補記憶手段34から検索する。検索された品詞・属性候
補の一覧は、品詞・属性候補表示手段35によって図示
しないディスプレイなどに表示され、その選択がユーザ
に促される。品詞・属性指定手段36は品詞・属性候補
表示手段35で表示された品詞・属性候補の一覧の中か
らユーザが意図する品詞・属性を指定するための手段で
あり、例えばキーボードによる指定やマウスによる指定
を受け付ける。品詞・属性候補の一覧の中から指定(選
択)された品詞・属性は、検索キー解釈手段30に送ら
れる。
【0086】検索キー解釈手段30は、検索キー入力手
段6から入力された検索キーが単語のみからなる場合、
品詞・属性指定手段36から送られてくる品詞または属
性を、検索キーと共にテキスト検索手段7に送る。テキ
スト検索手段7は、検索キー解釈手段30から単語と品
詞または属性の情報が渡されると、単語と品詞または属
性の情報の双方を満たす単語を、品詞・属性付き単語イ
ンデックス18から検索し、それに対応するテキストの
情報を検索結果記憶手段8に格納する。検索結果記憶手
段8に検索結果を格納する代わりに、またそれに加え
て、図示しない表示装置やプリンタに検索結果を出力す
るようにしても良い。
【0087】次に、具体例を挙げて本実施例のテキスト
検索装置の動作を説明する。
【0088】検索キー入力手段6で、例えば単語「米」
だけを含む検索キーが入力されると、品詞・属性候補検
索手段33は「米」で品詞・属性候補記憶手段34を検
索する。品詞・属性候補記憶手段34には、「米」の品
詞・属性として一般名詞と固有名詞(国名)があること
が記述されている。品詞・属性候補検索手段33は、
「米」についてのこれら二つの品詞・属性を検索する
と、品詞・属性候補表示手段35によって、これらを図
15のようにメニュー形式でユーザに提示する。ユーザ
は、検索したい語が国名を意味する「米」であれば、品
詞・属性指定手段36によって「米(国名)」を選択す
れば、検索キー解釈手段30に、属性情報として(国
名)が渡される。また、ユーザは、検索したい語が「コ
メ」を意味する「米」であれば、「米(一般名詞)」を
選択すれば、検索キー解釈手段30に、品詞情報として
(一般名詞)が渡される。テキスト検索手段7は、これ
らの品詞・属性を考慮してテキスト検索を実行する。
【0089】このように本実施例では、ユーザは検索キ
ーを入力する段階で品詞・属性を必ずしも入力する必要
がない。多義性のある語などが検索キーとなった場合
に、本実施例のテキスト検索装置は、品詞・属性をメニ
ュー形式でユーザに提示し選択させるからである。これ
により、ユーザの検索意図に合った検索を実行できる。
また、品詞・属性の候補の一覧が表示されるため、ユー
ザが自ら品詞・属性を考えて指定する方法に比べて、よ
り初心者に向いている。
【0090】以上、本発明を幾つかの実施例を挙げて説
明したが、本発明は以上の実施例にのみ限定されず、そ
の他各種の付加変更が可能である。例えば、図16に示
すように、図12の実施例で用いたインデックス作成装
置と、図14の実施例で用いたテキスト検索装置とを組
み合わせた実施例(第5の実施例)も考えられる。ま
た、図1の実施例で用いたインデックス作成装置と、図
14の実施例で用いたテキスト検索装置を品詞に限定し
た装置とを組み合わせた実施例(第6の実施例)も考え
られる。
【0091】図17は本発明を適用したコンピュータシ
ステムの一例を示すブロック図である。この例のコンピ
ュータシステムは、CPUや主記憶等を有するコンピュ
ータ101と、キーボード102と、表示装置103
と、磁気ディスク装置等の記憶装置104と、記録媒体
105とから構成される。記憶装置104は、前述した
各実施例におけるテキスト記憶手段1や検索結果記憶手
段8等として使用される。記録媒体105は、磁気ディ
スク,CD−ROM,半導体メモリ等の機械読み取り可
能な記録媒体であり、ここに記録されたプログラムはコ
ンピュータ101に読み取られ、コンピュータ101の
動作を制御することにより、コンピュータ101上に、
前述した各実施例における構成要素を実現する。
【0092】即ち、図1の実施例にあっては、コンピュ
ータ101上に、テキスト入力手段2,形態素解析手段
3および品詞付き単語インデックス作成手段11から構
成されるインデックス作成装置と、このインデックス作
成装置によって作成された品詞付き単語インデックス1
2,検索キー入力手段6,検索キー解釈手段30および
テキスト検索手段7から構成されるテキスト検索装置と
を実現する。
【0093】また、図5の実施例にあっては、コンピュ
ータ101上に、テキスト入力手段2,形態素解析手段
3,属性追加手段100および品詞・属性付き単語イン
デックス作成手段17から構成されるインデックス作成
装置と、このインデックス作成装置によって作成された
品詞・属性付き単語インデックス18,検索キー入力手
段6,検索キー解釈手段30およびテキスト検索手段7
から構成されるテキスト検索装置とを実現する。
【0094】また、図12の実施例にあっては、コンピ
ュータ101上に、テキスト入力手段2,形態素解析手
段3,属性追加手段100,単語展開手段19,展開知
識記憶手段20および品詞・属性付き単語インデックス
作成手段17から構成されるインデックス作成装置と、
このインデックス作成装置によって作成された品詞・属
性付き単語インデックス18,検索キー入力手段6,検
索キー解釈手段30およびテキスト検索手段7から構成
されるテキスト検索装置とを実現する。
【0095】また、図14の実施例にあっては、コンピ
ュータ101上に、テキスト入力手段2,形態素解析手
段3,属性追加手段100および品詞・属性付き単語イ
ンデックス作成手段17から構成されるインデックス作
成装置と、このインデックス作成装置によって作成され
た品詞・属性付き単語インデックス18,検索キー入力
手段6,検索キー解釈手段30,テキスト検索手段7,
品詞・属性候補検索手段33,品詞・属性候補記憶手段
34,品詞・属性候補表示手段35および品詞・属性指
定手段36から構成されるテキスト検索装置とを実現す
る。
【0096】また、図16の実施例にあっては、コンピ
ュータ101上に、テキスト入力手段2,形態素解析手
段3,属性追加手段100,単語展開手段19,展開知
識記憶手段20および品詞・属性付き単語インデックス
作成手段17から構成されるインデックス作成装置と、
このインデックス作成装置によって作成された品詞・属
性付き単語インデックス18,検索キー入力手段6,検
索キー解釈手段30,テキスト検索手段7,品詞・属性
候補検索手段33,品詞・属性候補記憶手段34,品詞
・属性候補表示手段35および品詞・属性指定手段36
から構成されるテキスト検索装置とを実現する。
【0097】さらに、図1の実施例で用いたインデック
ス作成装置と図14の実施例で用いたテキスト検索装置
を品詞に限定した装置とを組み合わせた実施例(第6の
実施例)にあっては、コンピュータ101上に、テキス
ト入力手段2,形態素解析手段3および品詞付き単語イ
ンデックス作成手段11から構成されるインデックス作
成装置と、このインデックス作成装置によって作成され
た品詞付き単語インデックス12,検索キー入力手段
6,検索キー解釈手段30,テキスト検索手段7,品詞
候補検索手段(33),品詞候補記憶手段(34),品
詞候補表示手(35)および品詞指定手段(36)から
構成されるテキスト検索装置とを実現する。
【0098】
【発明の効果】以上説明したように本発明によれば以下
のような効果を得ることができる。
【0099】単語インデックスを作成する際に、従来の
ように単語の見出しとその単語を含むテキストの情報だ
けでなく、その単語の品詞,属性の情報を登録すること
によって、品詞,属性を検索条件とした検索が可能とな
り、特に多義性のある単語を検索キーとしたときの検索
過剰を抑制することができる。
【0100】また、形態素解析で得られた単語の品詞や
属性追加手段で追加された属性に基づいて多義性のある
語を展開して登録することにより、多義性のある語を正
しく展開した単語インデックスが生成できる。これによ
り、検索キーと異表記でも同義の語を検索することがで
きて検索漏れを低減でき、かつ、ユーザ自身が検索キー
を同義語に展開して検索する場合に比べて検索過剰を抑
えることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例のブロック図である。
【図2】入力テキストの一例を示す図である。
【図3】図2の入力テキストに対する形態素解析例を示
す図である。
【図4】品詞付き単語インデックスの例を示す図であ
る。
【図5】本発明の第2の実施例のブロック図である。
【図6】入力テキストの別の例を示す図である。
【図7】図6の入力テキストに対する形態素解析結果の
一例を示す図である。
【図8】属性記憶手段の記憶内容の例を示す図である。
【図9】図7の形態素解析結果中の単語に対して属性付
与手段が属性を付与した例を示す図である。
【図10】図7の形態素解析結果中の単語に対して最終
的に付与された属性例を示す図である。
【図11】品詞・属性付き単語インデックスの例を示す
図である。
【図12】本発明の第3の実施例のブロック図である。
【図13】展開語をも含む品詞・属性付き単語インデッ
クスの例を示す図である。
【図14】本発明の第4の実施例のブロック図である。
【図15】品詞・属性候補の一覧をユーザに提示するメ
ニューの例を示す図である。
【図16】本発明の第5の実施例のブロック図である。
【図17】本発明を適用したコンピュータシステムの一
例を示すブロック図である。
【図18】従来のテキスト検索システムの構成を示すブ
ロック図である。
【図19】従来の単語インデックスの内容例を示す図で
ある。
【符号の説明】
1…テキスト記憶手段 2…テキスト入力手段 3…形態素解析手段 4…単語インデックス作成手段 5…単語インデックス 6…検索キー入力手段 7…テキスト検索手段 8…検索結果記憶手段 11…品詞付き単語インデックス作成手段 12…品詞付き単語インデックス 13…属性付与手段 14…属性記憶手段 15…属性決定手段 16…ルール記憶手段 17…品詞・属性付き単語インデックス作成手段 18…品詞・属性付き単語インデックス 19…単語展開手段 20…展開知識記憶手段 30…検索キー解釈手段 33…品詞・属性候補検索手段 34…品詞・属性候補記憶手段 35…品詞・属性候補表示手段 36…品詞・属性指定手段

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 検索対象となるテキストを形態素解析
    し、テキスト中に含まれる単語とその品詞とを検出する
    形態素解析手段と、検出された単語及び品詞とその単語
    が出現するテキストの情報とを、単語インデックスに登
    録する単語インデックス作成手段とを備えるインデック
    ス作成装置。
  2. 【請求項2】 検索対象となるテキストを形態素解析
    し、テキスト中に含まれる単語とその品詞とを検出する
    形態素解析手段と、検出された単語に対し品詞以外の属
    性を決定して付与する属性追加手段と、検出された単
    語,品詞,属性およびその単語が出現するテキストの情
    報を、単語インデックスに登録する単語インデックス作
    成手段とを備えるインデックス作成装置。
  3. 【請求項3】 検索対象となるテキストを形態素解析
    し、テキスト中に含まれる単語とその品詞とを検出する
    形態素解析手段と、検出された単語に対し品詞以外の属
    性を決定して付与する属性追加手段と、検出された単語
    の品詞及び属性を考慮して、検出された単語を同じ意味
    の異なる表記の単語に展開する単語展開手段と、検出さ
    れた単語,品詞,属性およびその単語が出現するテキス
    トの情報と、展開して得られた単語,展開元の単語の品
    詞,属性およびその単語が出現するテキストの情報と
    を、単語インデックスに登録する単語インデックス作成
    手段とを備えるインデックス作成装置。
  4. 【請求項4】 前記属性追加手段は、単語の品詞情報と
    その属性情報とを記憶する属性記憶手段と、形態素解析
    で検出された単語に対し、検出された品詞の情報と前記
    属性記憶手段の記憶内容とに基づき属性を付与する属性
    付与手段と、単語列に現れる品詞または属性の並びのパ
    ターン等に基づき単語の属性を決定するルールを記憶す
    るルール記憶手段と、該ルール記憶手段に記憶されたル
    ールを適用して前記属性付与手段で付与された属性を検
    査し必要に応じて修正する属性決定手段とを含むことを
    特徴とする請求項2または3記載のインデックス作成装
    置。
  5. 【請求項5】 指定された単語を含むテキストを検索す
    るテキスト検索システムにおいて、 請求項1,2,3または4の何れか1項に記載されたイ
    ンデックス作成装置と、 品詞または属性付きの検索キーを、単語とその品詞また
    は属性の情報とに解釈する検索キー解釈手段と、解釈さ
    れた単語と品詞または属性の情報との双方を満たす単語
    を含むテキストの情報を前記インデックス作成装置で作
    成された単語インデックスから検索するテキスト検索手
    段とを含むテキスト検索装置とを有することを特徴とす
    るテキスト検索システム。
  6. 【請求項6】 単語とその品詞または属性の候補とを記
    憶する候補記憶手段と、ユーザから入力された検索キー
    にかかる単語の属性候補を前記候補記憶手段から検索し
    て表示し、その内の一つをユーザに選択させる選択手段
    と、ユーザから入力された検索キーにかかる単語と前記
    選択された属性の情報との双方を満たす単語を含むテキ
    ストの情報を単語インデックスから検索するテキスト検
    索手段とを含むテキスト検索装置。
  7. 【請求項7】 指定された単語を含むテキストを検索す
    るテキスト検索システムにおいて、 請求項1,2,3または4の何れか1項に記載されたイ
    ンデックス作成装置と、 請求項6に記載されたテキスト検索装置とを有するテキ
    スト検索システム。
  8. 【請求項8】 コンピュータを、 検索対象となるテキストを形態素解析し、テキスト中に
    含まれる単語とその品詞とを検出する形態素解析手段、 検出された単語及び品詞とその単語が出現するテキスト
    の情報とを、単語インデックスに登録する単語インデッ
    クス作成手段、 として機能させるプログラムを記録したコンピュータ読
    み取り可能な記録媒体。
  9. 【請求項9】 コンピュータを、 検索対象となるテキストを形態素解析し、テキスト中に
    含まれる単語とその品詞とを検出する形態素解析手段、 検出された単語に対し品詞以外の属性を決定して付与す
    る属性追加手段、 検出された単語,品詞,属性およびその単語が出現する
    テキストの情報を、単語インデックスに登録する単語イ
    ンデックス作成手段、 として機能させるプログラムを記録したコンピュータ読
    み取り可能な記録媒体。
  10. 【請求項10】 コンピュータを、 検索対象となるテキストを形態素解析し、テキスト中に
    含まれる単語とその品詞とを検出する形態素解析手段、 検出された単語に対し品詞以外の属性を決定して付与す
    る属性追加手段、 検出された単語の品詞及び属性を考慮して、検出された
    単語を同じ意味の異なる表記の単語に展開する単語展開
    手段、 検出された単語,品詞,属性およびその単語が出現する
    テキストの情報と、展開して得られた単語,展開元の単
    語の品詞,属性およびその単語が出現するテキストの情
    報とを、単語インデックスに登録する単語インデックス
    作成手段、 として機能させるプログラムを記録したコンピュータ読
    み取り可能な記録媒体。
JP9213993A 1997-07-24 1997-07-24 テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体 Pending JPH1139347A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9213993A JPH1139347A (ja) 1997-07-24 1997-07-24 テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9213993A JPH1139347A (ja) 1997-07-24 1997-07-24 テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JPH1139347A true JPH1139347A (ja) 1999-02-12

Family

ID=16648491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9213993A Pending JPH1139347A (ja) 1997-07-24 1997-07-24 テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JPH1139347A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005228033A (ja) * 2004-02-13 2005-08-25 Fuji Xerox Co Ltd 文書検索装置および方法
JP2014194608A (ja) * 2013-03-28 2014-10-09 Hitachi Systems Ltd 検索システム、検索方法、および検索プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172966A (ja) * 1989-12-01 1991-07-26 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索装置
JPH08171569A (ja) * 1994-10-28 1996-07-02 Fuji Xerox Co Ltd 文書検索装置
JPH0973460A (ja) * 1995-09-06 1997-03-18 Toshiba Corp 文書検索装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172966A (ja) * 1989-12-01 1991-07-26 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索装置
JPH08171569A (ja) * 1994-10-28 1996-07-02 Fuji Xerox Co Ltd 文書検索装置
JPH0973460A (ja) * 1995-09-06 1997-03-18 Toshiba Corp 文書検索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005228033A (ja) * 2004-02-13 2005-08-25 Fuji Xerox Co Ltd 文書検索装置および方法
JP2014194608A (ja) * 2013-03-28 2014-10-09 Hitachi Systems Ltd 検索システム、検索方法、および検索プログラム

Similar Documents

Publication Publication Date Title
US6424983B1 (en) Spelling and grammar checking system
EP0953192B1 (en) Natural language parser with dictionary-based part-of-speech probabilities
JP2002215617A (ja) 品詞タグ付けをする方法
WO2007099812A1 (ja) 質問回答装置、質問回答方法および質問回答用プログラム
Glass et al. A naive salience-based method for speaker identification in fiction books
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
JPH1139347A (ja) テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体
JP3136973B2 (ja) 言語解析システムおよび方法
JP3353647B2 (ja) 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体
JP3061855B2 (ja) かな漢字変換装置及びかな漢字変換方法
JPH01307865A (ja) 文字列検索方式
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JP3267168B2 (ja) 自然言語変換システム
JP2003256415A (ja) 辞書構築支援方法、装置及びプログラム
JP3884001B2 (ja) 言語解析システムおよび方法
JP2001265763A (ja) 形態素解析方法および形態素解析プログラムを記録した記録媒体
JPH09179865A (ja) 翻訳対象領域決定機能付き機械翻訳装置
JP2002183133A (ja) 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体
JPH103481A (ja) 文書検索装置
JPH06289890A (ja) 自然言語処理装置
JPH0239357A (ja) 日本文誤り自動検定・訂正装置
JP2001318945A (ja) 文書検索装置及び文書検索方法
JPH0887506A (ja) パターン照合併用型翻訳処理装置
JPH0816599A (ja) 翻訳支援装置