JP3191762B2 - 文書ファイル検索装置及びプログラムを記録した機械読み取り可能な記録媒体 - Google Patents

文書ファイル検索装置及びプログラムを記録した機械読み取り可能な記録媒体

Info

Publication number
JP3191762B2
JP3191762B2 JP12948598A JP12948598A JP3191762B2 JP 3191762 B2 JP3191762 B2 JP 3191762B2 JP 12948598 A JP12948598 A JP 12948598A JP 12948598 A JP12948598 A JP 12948598A JP 3191762 B2 JP3191762 B2 JP 3191762B2
Authority
JP
Japan
Prior art keywords
attribute
name
document file
attribute value
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP12948598A
Other languages
English (en)
Other versions
JPH11306205A (ja
Inventor
秀雄 島津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP12948598A priority Critical patent/JP3191762B2/ja
Publication of JPH11306205A publication Critical patent/JPH11306205A/ja
Application granted granted Critical
Publication of JP3191762B2 publication Critical patent/JP3191762B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書ファイル検索装
置に関し、特に自然言語による検索問い合わせを可能と
した文書ファイル検索装置に関する。
【0002】
【従来の技術】一般に情報検索において利用者の検索意
図をより精密に表現させようとする場合には、日本語や
英語のような自然言語によってそれを表現させる方法が
有効である。データベースに対する検索を自然言語で行
うシステムは既に存在し、自然言語インタフェースと呼
ばれている(参考文献:ディベロッピングアナチュラル
ランゲージインタフェースツーコンプレックスデータ、
ジー. ジー. ヘンドリックス他, “Developing a Natur
al Language Interface to Complex Data ”, ACM Tran
s. on Database Systems, 1978.)。
【0003】従来の自然言語インタフェースは、利用者
の自然言語による検索問い合わせを解釈して、その問い
合わせをデータベースの検索言語(SQL)の検索式に変換
し、その検索式をデータベースシステムに送り、データ
ベースシステムから戻された検索結果を利用者に提示す
るものである。
【0004】しかし、従来の自然言語インタフェース
は、既に商用化が始まって20年以上たったのにも関わら
ず、まだ実用のレベルに達していない。その理由の1つ
は、自然言語インタフェースシステムが利用者の自由な
問い合わせを解釈することができず、そのシステムが許
容する構文や語彙が明確に限定されているので、結局は
利用者はどういう言い回しが使えるかを覚えなくてはな
らないためである。従って、自然言語インタフェースと
いっても複雑なコマンド体系と変わらない。つまり、従
来の自然言語インタフェースは、利用者の自由な言い回
しを受け付けることが出来ないと言うことが問題であっ
た(参考文献:ディベロッピングアナチュラルランゲー
ジインタフェースツーコンプレックスデータ、ジー. ジ
ー. ヘンドリックス他, “Developing a Natural Langu
age Interface to Complex Data",ACM Trans. on Datab
ase Systems, 1978.)。とりわけ、簡単な質問について
は、利用者は完璧な自然言語でなく、簡潔な言い回しを
使いたいのに、それが許されないということが問題であ
った。簡潔な言い回しの例としては、キーワード列によ
る表現や非文法的な言い回し、あるいは自然言語文の一
部、等がある。
【0005】そこで本出願人は、先の特許出願におい
て、簡潔な言い回しの自然言語による検索を実現する
「自然言語解釈方法」を提案した(特開平5−6713
6号公報)。これは、属性の属性名とその属性の属性値
との組の集まりであるデータベースのテーブルを検索対
象とし、自然言語による問い合わせ文中の各単語を属性
名と属性値とその他とに分類し、属性名に分類された単
語は応答属性名として保存し、属性値に分類された単語
はその属性値とそれに対応する属性名とを組にして条件
属性値組群として保存し、この保存された条件属性値組
群中の属性値と属性名との組が全てテーブル中に存在す
る場合、前記応答属性名として保存された各属性名に対
応する前記テーブル中の属性値を、問い合わせに対する
回答として出力するものである。なお、これに類似する
従来技術として、やはり本出願人によって先に出願され
た特開平5−242147号公報にかかる「自然言語解
釈方法」がある。
【0006】他方、最近におけるWorld Wide Web (WWW)
の利用の拡大に伴い、WWW 上での検索技術の重要性が高
まっている。WWW の利用者がWWW 上で情報検索をすると
きに使う典型的なツールはサーチエンジンである。この
例としては、Altavista, Infoseek, Lycosなどが有名で
ある。しかし、サーチエンジンでは、キーワードを組み
合わせる検索の形式なので、利用者の検索の意図が直接
的に反映させられないことが多い。例えば、ホテルに関
する情報を探すときに、値段が150 ドルでペットを連れ
て行くのが可能で、しかもサンフランシスコ近辺にある
ホテルのホームページを見つけたいときに、そのような
検索意図をキーワードの並びのみで表現することは不可
能である。仮に、(1) 式で表現するように 150 ドル、サンフランシスコ、ホテル、ペット可能 … (1) とキーワードを並べたら、非常に大量のホームページの
リストが出力される。
【0007】自然言語インタフェースシステムを導入し
WWW のホームページを検索できれば、上の例のような精
密な検索条件を素直に表現し、適切なホームページのみ
が検索できることになる。しかしながら、WWW 上のホー
ムページの検索に対し自然言語インタフェースを適用し
た例は見当たらない。
【0008】なお、WWW のホームページに対する検索技
術の他の例として、特開平10-40262号公報に記載された
「情報検索装置」があるが、これは、感性表現データを
キーワードにした検索を可能にすることで、明確な検索
対象または検索条件を持たない利用者の感性に合った情
報検索を目的としているため、上の例のような精密な検
索条件による検索には向いていない。
【0009】
【発明が解決しようとする課題】上述した特開平5−6
7136号公報に記載された技術は、単純な方法で自然
言語による問い合わせを解釈することができるので、自
然言語インタフェースシステムを実用化する上で有効な
手段となり得るが、未だ解決すべき課題が残されてい
る。それは、自然言語による問い合わせ文中に或る属性
名が存在する場合、それが必ず応答属性名として扱わ
れ、問い合わせに対する回答中に含められるため、回答
が冗長になる場合があることである。
【0010】例えば、「属性名=書名,その属性値=人
間失格、属性名=著者,その属性値=太宰治」を持つテ
ーブルに対して、「書名=人間失格の著者は?」という
問い合わせを行った場合、まず、「書名」が属性名と判
定されて応答属性名として保存され、次いで「人間失
格」が属性値と判定されて属性値「人間失格」とその属
性名である「書名」との組が条件属性値組群として保存
され、次いで、「著者」が属性名と判定されて応答属性
名として保存される。そして、条件属性値組群中の属性
値「人間失格」と属性名「書名」との組を有する前記テ
ーブルが検索され、そのテーブルから応答属性名「書
名」と「著者」とに対応する属性値「人間失格」と「太
宰治」とが検索されて出力される。つまり、「人間失
格」をも出力している分、回答が冗長になっている。
【0011】そこで本発明の目的は、自然言語による検
索問い合わせに対する回答の冗長性を極力無くすことに
ある。
【0012】また、本発明の他の目的は、WWW のホーム
ページに対しても自然言語による検索問い合わせを可能
にすることにある。
【0013】
【課題を解決するための手段】(1)第1の発明 上述した特開平5−67136号公報に記載された技術
において、回答が冗長になっている理由は、自然言語に
よる問い合わせ文中に属性名が存在する場合、それに対
応する属性値を利用者が問い合わせ文中で記述している
にもかかわらず、一律に応答属性名として扱っているた
めである。そこで、本発明では、自然言語による問い合
わせ文中で検索条件を指定するために或る属性名とそれ
に対応する属性値とを記述する場合、利用者はそれらを
互いに隣接して記述する傾向にある点に着目し、同一の
属性の属性名と属性値とが隣どうしに現れる場合にその
属性名を応答属性名に含めないようにしている。より具
体的には、属性の属性名とその属性の属性値との対を内
蔵する文書ファイルを検索対象文書ファイルとし、検索
対象文書ファイルから、利用者が自然言語で指定した検
索条件に適合する部分を検索する文書ファイル検索装置
において、自然言語で表現した検索要求文を先頭から順
に探査し、属性名を表現する自然言語表現に対してはそ
の属性名を属性名インデックスとして出力し、属性値を
表現する自然言語表現に対してはその属性値と属性名と
の対を属性値インデックスとして出力することを順次行
うキーワード抽出部と、前記キーワード抽出部の出力を
入力して先頭から順に探査し、同一の属性の属性名イン
デックスと属性値インデックスとが隣どうしに存在する
場合のみ、前記属性名インデックスを削除し、それ以外
の部分はそのまま出力するキーワードフィルタ部と、検
索対象文書ファイル中に、前記キーワードフィルタ部か
ら出力された全ての属性値インデックスの属性名と属性
値との対が内蔵されているか否かを調べ、内蔵されてい
る場合、前記キーワードフィルタ部から出力された属性
名インデックスの属性名に対応する属性値を検索対象文
書ファイルから検索して出力する検索手段とを備えてい
る。
【0014】更に、検索要求文中のどの自然言語表現が
属性名を表現し、またどの自然言語表現が属性値を表現
しているかを正確に判定できるようにするために、検索
対象文書ファイル中に存在する属性名について、属性名
とその属性名を表現する自然言語表現との対を格納して
おく属性名格納辞書と、検索対象文書ファイル中に存在
する属性値について、属性値とその属性値に対応する属
性名とその属性値を表現する自然言語表現との3つ組を
格納しておく属性値格納辞書とを備え、前記キーワード
抽出部は、自然言語で表現した検索要求文を先頭から順
に探査し、属性名格納辞書を参照して、属性名を表現す
る自然言語表現が含まれていたら、その自然言語表現と
対である属性名を属性名インデックスとして出力し、属
性値格納辞書を参照して、属性値を表現する自然言語表
現が含まれていたら、その自然言語表現と3つ組である
属性値と属性名との対の集合を属性値インデックスとし
て出力する構成を有する。
【0015】このように構成された本発明の文書ファイ
ル検索装置にあっては、利用者が自然言語で表現した検
索要求文を入力すると、まずキーワード抽出部が、検索
要求文を先頭から順に探査し、属性名を表現する自然言
語表現に対してはその属性名を属性名インデックスとし
て出力し、属性値を表現する自然言語表現に対してはそ
の属性値と属性名との対を属性値インデックスとして出
力し、次いでキーワードフィルタ部が、キーワード抽出
部の出力を入力して先頭から順に探査し、同一の属性の
属性名インデックスと属性値インデックスとが隣どうし
に存在する場合のみ、属性名インデックスを削除し、次
いで、検索手段が、検索対象文書ファイル中に、キーワ
ードフィルタ部から出力された全ての属性値インデック
スの属性名と属性値との対が内蔵されているか否かを調
べ、内蔵されている場合、キーワードフィルタ部から出
力された属性名インデックスの属性名に対応する属性値
を検索対象文書ファイルから検索して出力することによ
り、利用者への回答が冗長になるのを防いでいる。
【0016】(2)第2の発明 WWW 上のホームページの検索に対し自然言語インタフェ
ースを適用するのが困難であった理由は、WWW のホーム
ページの中身が自然言語で書かれた文章や図から構成さ
れるファイルであり、データベースのように、属性名と
属性値の集合でないことである。つまり、従来の自然言
語インタフェースシステムが対象とするデータベース
は、属性名と属性値の集合だったため、従来の技術の項
の例で出てくるホテルのデータベースがあるとすると、 (名前:Xホテル、値段:$150 、ペット:可能、場
所:サンフランシスコ) (名前:Yホテル、値段:$200 、ペット:不可、場
所:ロサンゼルス) (名前:Zホテル、値段:$180 、ペット:不可、場
所:シアトル) のような形態で格納されており、利用者の問い合わせ
は、(2) 式で表現するように 「値段=$150 かつ ペット=可能 かつ 場所=サンフランシスコ」 … (2) のように変換できた。これは、SQL 言語にそのまま変換
される。しかし、WWW のホームページは、通常このよう
な属性名と属性値の情報が入っていないので、SQL の式
で表現できるような検索式に変換できない。つまり、従
来のWWW のホームページ作成言語はHTMLである(参考文
献:ワールドワイドウェブコンソーシアムのホームペー
ジ、URL http://www.w3.org)。HTMLでは、文書ファイル
中に、その構成を表現するための属性名と属性値の組が
内蔵されている。例えば、図6に示すのが、HTMLファイ
ルの例である。ここで、<と>に囲まれたものが属性タ
グであり、単独で使われるもの(例:<B>) と、開始
タグ(例:<TR>) と終了タグ(例:</TR >) の対で
使われるものとがある。HTMLのタグの特徴は、それが文
書ファイル中の外見の表現を定義するのに限定されてい
ることである。例えば、表的な表現にするタグは<TABL
E >であり、改行を表すタグは<P>で表現される。こ
のようなHTMLファイルをWWW ブラウザに読み込ませる
と、図7に示すような形態になってユーザに出力表示さ
れる。しかし、HTMLでは、文書中の意味を表現する為の
タグを定義することは出来ない。
【0017】そこで本発明では、WWW の文書ファイル
に、その文書ファイル中の意味を表現する属性名と属性
値との組を内蔵させる。具体的には、例えば、ファイル
中に文書の内容を属性タグとその属性値の対の集合で表
現できるように拡張したXML (Extensible Markup Langu
age)で文書を記述する(参考文献:ワールドワイドウェ
ブコンソーシアムのホームページ、「エクステンシブル
マークアップ ランゲージ 1.0」http://www.w3.org/
TR/PR-xml-971208) 。XML は、WWW の標準を決める機関
であるワールドワイドウェブコンソーシアム(参考文
献:ワールドワイドウェブコンソーシアムのホームペー
ジ、URL http://www.w3.org)によって1997年12月にその
仕様が提案された。XML で記述された文書では、文書の
内容を機械が可読になって内容による検索が可能にな
る。そこで、本発明ではそのことを利用してWWW のホー
ムページに対して自然言語による検索問い合わせを実現
する。
【0018】具体的には、文書中に書かれた意味を表現
する属性名のついたタグとその属性の属性値との対を内
蔵する文書ファイルを検索対象文書ファイルとし、検索
対象文書ファイルから、利用者が自然言語で指定した検
索条件に適合する部分を検索する文書ファイル検索装置
において、検索対象文書ファイル中に存在する属性名に
ついて、属性名とその属性名を表現する自然言語表現と
の対の集合を格納しておく属性名格納辞書と、検索対象
文書ファイル中に存在する属性値について、属性値とそ
の属性値に対応する属性名とその属性値を表現する自然
言語表現との3つ組の集合を格納しておく属性値格納辞
書と、自然言語で表現した検索要求文を先頭から順に探
査し、属性名格納辞書を参照して、属性名を表現する自
然言語表現が含まれていたら、その自然言語表現と対で
ある属性名を属性名インデックスとして出力し、属性値
格納辞書を参照して、属性値を表現する自然言語表現が
含まれていたら、その自然言語表現と3つ組である属性
値と属性名との対の集合を属性値インデックスとして出
力するキーワード抽出部と、キーワード抽出部の出力を
入力し、先頭から順に探査し、同一の属性の属性名イン
デックスと属性値インデックスとが隣どうしに存在する
場合のみ、前記属性名インデックスを削除し、それ以外
の部分はそのまま出力するキーワードフィルタ部と、検
索対象文書ファイル中に、前記キーワードフィルタ部か
ら出力された全ての属性値インデックスの属性名と属性
値との対に対応するタグが内蔵されているか否かを調
べ、内蔵されている場合、前記キーワードフィルタ部か
ら出力された属性名インデックスの属性名を持つタグの
属性値を検索対象文書ファイルから検索して出力する検
索手段とを備えている。
【0019】このように構成された本発明の文書ファイ
ル検索装置にあっては、利用者が自然言語で指定した検
索要求文を入力すると、キーワード抽出部が、検索要求
文を先頭から順に探査し、属性名を表現する自然言語表
現が含まれていたら、その属性名を属性名インデックス
として出力し、属性値を表現する自然言語表現が含まれ
ていたら、その属性値と属性名との対の集合を属性値イ
ンデックスとして出力し、次いで、キーワードフィルタ
部が、キーワード抽出部の出力を入力し、先頭から順に
探査し、同一の属性の属性名インデックスと属性値イン
デックスとが隣どうしに存在する場合のみ、前記属性名
インデックスを削除し、次いで、検索手段が、検索対象
文書ファイル中に、キーワードフィルタ部から出力され
た全ての属性値インデックスの属性名と属性値との対に
対応するタグが内蔵されているか否かを調べ、内蔵され
ている場合、キーワードフィルタ部から出力された属性
名インデックスの属性名を持つタグの属性値を検索対象
文書ファイルから検索して出力する。
【0020】また、予め登録された多数の文書ファイル
の内から利用者が自然言語で入力した検索条件を満たす
文書ファイルのみを選別し、さらにその中の利用者が必
要な部分を利用者に表示できるようにするために、文書
中に書かれた意味を表現する属性名のついたタグとその
属性の値との対を複数個内蔵する文書ファイルの集合か
ら、利用者が自然言語で指定した検索条件を満足する文
書ファイルを選択してその適合する部分を表示する文書
ファイル検索装置において、検索対象となるすべての文
書ファイルの名前と存在位置とを格納する文書ファイル
名辞書と、検索対象となる文書ファイル中に存在する属
性名について、属性名とその属性名を表現する自然言語
表現との対の集合を格納しておく属性名格納辞書と、検
索対象となる文書ファイル中に存在する属性値につい
て、属性値とその属性値に対応する属性名とその属性値
を表現する自然言語表現との3つ組の集合を格納してお
く属性値格納辞書と、利用者が、自然言語で表現した検
索要求文を入力すると、前記入力文を先頭から順に探査
し、属性名格納辞書を参照して、属性名を表現する自然
言語表現が含まれていたら、その自然言語表現と対であ
る属性名を属性名インデックスとして出力し、属性値格
納辞書を参照して、属性値を表現する自然言語表現が含
まれていたら、その自然言語表現と3つ組である属性値
と属性名との対の集合を属性値インデックスとして出力
することを順次行うキーワード抽出部と、キーワード抽
出部の出力を入力し、先頭から順に探査し、同一の属性
の属性名インデックスと属性値インデックスとが隣どう
しに存在する場合のみ、前記属性名インデックスを削除
し、それ以外の部分はそのまま出力するキーワードフィ
ルタ部と、文書ファイルの内容と属性値インデックスと
を入力すると、前記文書ファイルの内容中に、前記属性
値インデックス中の属性名を含むタグが存在するかどう
か調べ、存在する場合は、そのタグと対で存在する属性
値を取り出し、その値が前記属性値インデックス中の属
性値と等しいかどうか調べ、等しい場合は、合格の出力
をし、そうでない場合は不合格の出力をする文書内容検
査部と、文書ファイルの内容と1つ以上の属性値インデ
ックスとを入力すると、前記属性値インデックスから1
つずつ取り出し、前記文書ファイルの内容と前記取り出
した属性値インデックスを1つずつ文書内容検査部に渡
していき、すべての属性値インデックスに対してその出
力が合格のときは、合格を出力し、そうでないときは不
合格を出力する統合文書内容検査部と、文書ファイル名
辞書を参照して、1つずつ文書ファイルの内容を取り出
し、前記文書の内容とキーワードフィルタ部の出力のう
ちの属性値インデックスの部分とを統合文書内容検査部
に渡し、前記統合文書内容検査部の出力を受け取ること
を前記1つずつ取り出した文書ファイルのすべてに対し
て行い、前記出力が合格の文書ファイルの名前のみを出
力する合格文書ファイル名選別部と、文書ファイル名と
前記文書ファイル名の内容とキーワードフィルタ部の出
力である属性名インデックスとを入力すると、前記属性
名インデックスのうちの1つを取り出し、与えられた前
記文書ファイルの内容中に、前記取り出した属性名を含
むタグが存在するかどうか調べ、存在する場合は、その
属性名のタグの値と前記入力した文書ファイル名とを利
用者に表示し、存在しない場合には何も出力しないこと
を、前記入力した属性名インデックスのそれぞれに対し
て行う文書内容出力部と、前記合格文書ファイル名選別
部の出力である文書ファイル名の集合を入力し、文書フ
ァイル名格納辞書を参照して、前記入力した文書ファイ
ル名の集合の要素を1つずつ取り出し、文書内容出力部
に渡すことを、前記入力中の文書ファイル名のすべてに
対して行うことを繰り返す文書内容出力制御部とを備え
ている。
【0021】このように構成された本発明の文書ファイ
ル検索装置の作用を、その理解を容易にするために、例
を使って説明する。まず、利用者が検索する対象となる
WWW文書ファイルとして、図5(a),(b)に示した
ものを使用する。図5の文書ファイル中には、文章テキ
ストの他に、属性の属性名とその属性の属性値との対が
含まれている。また、利用者の検索文の例として、次の
文を使う。 検索入力文:「値段が150 ドルでペットを連れて行くの
が可能で、しかも、サンフランシスコ近辺にあるホテル
の情報を見つけたい」
【0022】まず、第1段階では、入力文をキーワード
列に変換する。キーワードの種類としては、2種類存在
する。1つ目は、属性名を参照する自然言語表現であ
り、属性名インデックスと呼ぶ。2つ目は、属性値を参
照する自然言語表現であり、属性値インデックスと呼
ぶ。
【0023】 生成されたキーワード列: { 価格(「価格」の属性名インデックス)、 $150ドル(「価格」の属性値インデックス)、 ペット(「ペット可能性」の属性名インデックス)、 可能(「ペット可能性」の属性値インデックス)、 サンフランシスコ(「場所」の属性値インデックス)、 ホテル(「ホテル名」の属性名インデックス) } …(4)
【0024】次に、属性名インデックスと属性値インデ
ックスの並び順を参照して、冗長な部分の統合を行う。
同一の属性に対する属性名インデックスと属性値インデ
ックスとが隣りどうしに並んでいるときには、属性名イ
ンデックスの方を削除する。上のキーワード列例は、次
のように圧縮される。 圧縮されたキーワード列: { $150ドル(「価格」の属性値インデックス)、 可能(「ペット可能性」の属性値インデックス)、 サンフランシスコ(「場所」の属性値インデックス)、 ホテル(「ホテル名」の属性名インデックス) } …(5)
【0025】次に、抽出したキーワード列を解釈する。
属性値インデックスは、それが参照する属性の値とし
て、属性値インデックスが保持する値を取ること、とい
う条件式と解釈する。例えば、 $150 ドル(「価格」の属性値インデックス) は、 「「価格」属性の値 = $150 」 という解釈をする。
【0026】複数の属性値インデックスが存在する場合
は、それらの解釈を論理積したものが全体の条件式とな
る。上の例では、以下のようになる。 全体の条件式 { 「「価格」属性の値 = $150 」 かつ 「「ペット可能性」属性の値 = 可能」 かつ 「「場所」属性の値 = サンフランシスコ」 } …(6)
【0027】属性名インデックスは、それが参照する属
性の値を出力せよ、という解釈になる。上の例では、以
下のようになる。 検索部分の特定 { ホテル(「ホテル名」の属性名インデックス)」 } …(7)
【0028】この意味は、「「ホテル名」属性の値を出
力せよ」という解釈となる。複数の属性名インデックス
があるときは、それら複数の属性名インデックスを順次
出力せよ、という意味になる。
【0029】入力文全体の解釈は、属性値インデックス
から生成される検索条件式を満足するWWW 上の文書ファ
イルを選択し、次に、それらの文書ファイル中から属性
名インデックスの解釈で指定される属性名の値を抽出し
てそれを利用者に表示すれば良い。
【0030】
【発明の実施の形態】図1を参照すると、本発明の実施
の形態の文書ファイル検索装置100は、文書ファイル
名辞書1と、属性名格納辞書2と、属性値格納辞書3
と、キーワード抽出部4と、キーワードフィルタ部5
と、文書内容検査部6と、統合文書内容検査部7と、合
格文書ファイル名選別部8と、文書内容出力部9と、文
書内容出力制御部10とから構成され、キーボード等の入
力装置101、CRTディスプレイ等の表示装置102
およびインターネット103に接続されている。
【0031】文書ファイル名辞書1には、検索対象とな
るすべての文書ファイルの名前とその物理的な位置とが
格納されている。検索対象となる文書ファイルがHTMLや
XMLで記述されている場合には、文書ファイルは、世界
中のWWW サーバに分散していることも可能である。その
場合、文書ファイルの位置は、「http://.....」という
URL 記述になる。
【0032】属性名格納辞書2には、検索対象となる文
書ファイル中に存在する属性タグの属性名とその属性名
を表現する自然言語表現との対が登録されている。ある
属性名を参照する自然言語表現の中の最も基本的なもの
は、その属性名そのものである。例えば、「ホテル」と
いう属性名を参照する自然言語表現としては、「ホテ
ル」である。しかし、それ以外にも、「ホテル」を参照
する表現がある。例えば、「宿泊場所」、「泊まるとこ
ろ」などの表現がある。これらが、下記の表1でで示す
ような対になって登録される。
【0033】
【表1】
【0034】属性値格納辞書3には、検索対象となる文
書ファイル中に存在する属性値について、属性値とその
属性値に対応する属性名とその属性値を表現する自然言
語表現との3つ組が格納される。ある属性値を参照する
自然言語表現としてもっとも基本的なものは、その属性
値そのものである。例えば、「Xホテル」という属性値
を参照する自然言語表現としては、「Xホテル」そのも
のがありこれ以外にはないかもしれない。しかし、別の
例では、「ペット」属性の属性値を表わす自然言語表現
としては、「可能」の他に「動物連れ込みOK」「ペット
同伴OK」「犬猫可」のような表現も登録しておいてもよ
い。属性値格納辞書3には、下記の表2で示すように3
つ組でデータが格納される。
【0035】
【表2】
【0036】キーワード抽出部4は、自然言語表現によ
る入力条件検索文を入力装置101 を通じて利用者から受
け取ると、属性名格納辞書2と属性値格納辞書3とを参
照して、その中の自然言語表現として登録されている表
現が入力条件検索文中にないかどうかを調べる。あった
場合には、それが属性名の場合には、属性名のみを出力
する。この出力のことを属性名インデックスと呼ぶ。他
方、それが属性値の場合には、属性値と対応する属性名
との対を出力する。この出力のことを属性値インデック
スと呼ぶ。これらは、入力条件検索文の先頭から調べて
いき、マッチするものが見つかったら、その順番に出力
していく。
【0037】キーワードフィルタ部5は、キーワード抽
出部4の出力をそのまま受け取り、先頭から順に探査
し、同一の属性の属性名インデックスと属性値インデッ
クスとが隣どうしに存在する場合は、その属性名インデ
ックスを削除し、それ以外の部分はそのまま素通しで出
力する。
【0038】文書内容検査部6は、統合文書内容検査部
7から文書ファイルの内容である文字列と属性値インデ
ックスとを入力として受け付ける。入力として受け取っ
た文書ファイルの内容文字列中に、受け取った属性値イ
ンデックス中の属性名を含むタグが存在するかどうか調
べ、存在する場合は、そのタグと対で存在する属性値を
取り出し、その値がこの属性値インデックス中の属性値
と等しいかどうか調べ等しい場合は、合格の出力をし、
そうでない場合は不合格の出力をする。文書内容検査部
6は、統合文書内容検査部7から呼び出されて動作する
一種のサブルーチン的役割を果たしている。
【0039】統合文書内容検査部7は、合格文書ファイ
ル名選別部8から文書ファイルの内容である文字列と1
つ以上の属性値インデックスとを入力として受け付け
る。与えられた属性値インデックスは、1つ1つが「属
性値インデックス中に記述された属性の値として、属性
値インデックス中に記述された値をとらねばならない」
という条件式を表現していると見做す。統合文書内容検
査部7の役割は、与えられた文字列中から、属性値イン
デックスに記述された属性表現を見つけて、その条件が
満足されているかを調べることである。入力として与え
られた1つ以上の属性値インデックスのすべての条件を
満足すれば、「合格」という値を出力し、そうでない場
合は、「不合格」という値を出力する。実際に、文書フ
ァイルの内容である文字列が1つの属性値インデックス
の条件を満足するかどうかを判定するのは、文書内容検
査部6が行う。統合文書内容検査部7は、複数の属性値
インデックスがあった場合に、属性値インデックス1つ
ずつを文書内容検査部6に順々に渡していく一種のルー
プ制御を行っている。統合文書内容検査部7も、合格文
書ファイル名選別部8から呼び出されるサブルーチン的
役割である。
【0040】合格文書ファイル名選別部8は、文書ファ
イル名辞書1を参照して、必要に応じてインターネット
103を通じて世界中に分散しているWWW サーバをアク
セスして1つずつ文書ファイルの内容を取り出し、この
文書の内容とキーワードフィルタ部5の出力のうち属性
値インデックスの部分とを統合文書内容検査部7に渡
し、統合文書内容検査部7の出力を受け取る。ここで出
力としては、「合格」または「不合格」の値が返され
る。この処理を文書ファイル名辞書1に登録されている
すべてのファイルに対して行い、統合文書内容検査部7
の出力が「合格」だったファイルに対してのみ、文書フ
ァイル名を文書内容出力制御部10に出力する。
【0041】文書内容出力部9は、文書ファイル名とこ
のファイルの内容とキーワードフィルタ部5の出力であ
る1つ以上の属性名インデックスとを入力する。入力し
た属性名インデックスのうちの1つを取り出し、入力し
た文書ファイルの内容中に、この属性名インデックス中
の属性名を含むタグが存在するかどうか調べ、存在する
場合は、その属性名タグに対応する属性値タグの値と入
力した文書ファイル名との対を表示装置102 を通じて利
用者に表示し、存在しなかった場合には何も出力しない
という処理を、入力したすべての属性名インデックスの
それぞれに対して行う。文書内容出力部9は、文書内容
出力制御部10によってサブルーチン的に呼び出される役
割をしている。なお、属性値タグの値と文書ファイル名
との対を出力する代わりに、属性値タグの値と文書ファ
イルの位置情報とを表示するようにしても良く、また、
属性値タグの値と文書ファイル名とその位置情報とを表
示するようにしても良い。
【0042】文書内容出力制御部10は、合格文書ファイ
ル名選別部8の出力である文書ファイル名の集合をその
まま自身の入力とし、文書ファイル名辞書1を参照し
て、入力した文書ファイル名の集合中の文書ファイルの
内容を必要に応じてインターネット103 を通じてWWW サ
ーバをアクセスして1つずつ取り出し、文書ファイル名
およびキーワードフィルタ部5で生成された属性名イン
デックスとともに文書内容出力部9に渡すことを、入力
中の文書ファイル名のすべてに対して行うことを繰り返
すものである。つまり、入力として合格した文書ファイ
ル名を3つ受け取った場合には、3回文書内容出力部9
を呼び出すことになる。なお、合格文書ファイル名選別
部8がインターネット103 を通じてWWWWサーバから取り
込んだ文書ファイルの内容が磁気ディスク装置等に保存
されている場合、文書内容出力制御部10はその内容を利
用することで、インターネット103 へのアクセス回数を
減らすことができる。
【0043】図2および図3は文書ファイル検索装置10
0 の処理例を示すフローチャートである。以下、本実施
の形態の動作について説明する。
【0044】キーワード抽出部4は、入力装置101 を通
じて利用者から自然言語表現による検索入力文を受け付
けると(ステップS1)、属性名格納辞書2と属性値格
納辞書3とを参照して、その中の自然言語表現として登
録されている表現が検索入力文にないかどうかを、検索
入力文の先頭から順に調べ、あった場合には、それが属
性名のときは属性名のみを含む属性名インデックスを出
力し、それが属性値のときは属性値と対応する属性名と
の対を含む属性値インデックスを出力する(ステップS
2)。
【0045】次にキーワードフィルタ部5は、キーワー
ド抽出部4から出力されたインデックスの並びを検査
し、同一の属性の属性名インデックスと属性値インデッ
クスとが連続している箇所を検出し、その箇所の属性名
インデックスを削除する(ステップS3)。
【0046】次に合格文書ファイル名選別部8は、文書
ファイル名辞書1中の1つの文書ファイル名に注目し、
その文書ファイル名の文書の内容を取り出して、キーワ
ードフィルタ部5から出力された全ての属性値インデッ
クスとともに統合文書内容検査部7に渡し、合否を判定
させる(ステップS4)。
【0047】統合文書内容検査部7は、渡された文書内
容を検査するために、まず渡された属性値インデックス
の1つに注目し、この属性値インデックスと文書ファイ
ルの内容とを文書内容検査部6に渡し、合否を判定させ
る(ステップS5)。
【0048】文書内容検査部6は、渡された文書ファイ
ルの内容中に、渡された属性値インデックスに含まれる
属性名を持つ属性名タグが存在し、かつ、その存在した
属性名タグと対になっている属性値タグの値が、渡され
た属性値インデックスに含まれる属性値と一致するかを
検査し、一致する場合には合格を、そのような属性名タ
グが存在しないか或いは存在してもその属性値が一致し
ない場合には不合格を、統合文書内容検査部7に通知す
る(ステップS6) 。
【0049】統合文書内容検査部7は、文書内容検査部
6から合格が通知された場合(ステップS7でYE
S)、合格文書ファイル名選別部8から通知された全て
の属性値インデックスについて検査し終えたか否かを調
べ、未だ検査し終えていないときは(ステップS8でN
O)、残りの属性値インデックスの1つに注目を移し、
その属性値インデックスと文書ファイルの内容とを文書
内容検査部6に渡し、合否を判定させる(ステップS
9)。そして、全ての属性値インデックスについて文書
内容検査部7で合格の判定が出た場合(ステップS8で
YES)、合格文書ファイル名選別部8に合格を通知
し、合格文書ファイル名選別部8は当該文書ファイルを
合格文書ファイルとし(ステップS10)、ステップS11
へと進む。他方、文書内容検査部6から不合格が通知さ
れた場合(ステップS7でNO)、統合文書内容検査部
7は合格文書ファイル名選別部8に不合格を通知し、合
格文書ファイル名選別部8はステップS11へと進む。
【0050】合格文書ファイル名選別部8は、1つの文
書ファイルについての合否判定が終わると、文書ファイ
ル名辞書1中に未処理の文書ファイルが残っている場合
(ステップS11でYES)、その内の1つの文書ファイ
ル名に注目を移し(ステップS12)、先の文書ファイル
と同様にして合否の判定を下す。
【0051】文書ファイル名辞書1中の全ての文書ファ
イルに対する合否判定を終えると(ステップS11でYE
S)、合格文書ファイル名選別部8は、少なくとも1つ
の合格ファイルがあったか否かを判定し(ステップS1
3)、1つもなければ、例えば入力された検索条件に合
致する文書ファイルは1つもなかった旨を利用者に表示
する等の処理を行って、処理を終了する。他方、1つで
も合格ファイルが存在した場合、その全ての合格ファイ
ルの文書ファイル名とキーワードフィルタ部5から出力
された全ての属性名インデックスとを文書内容出力制御
部10に通知して、文書内容出力制御を開始させる(ステ
ップS14)。
【0052】文書内容出力制御部10は、通知された1つ
の合格ファイル名に注目してその文書内容を取り出し、
通知された全ての属性名インデックスとともに文書内容
出力部9に渡し、当該文書の処理を開始させる(ステッ
プS15)。
【0053】文書内容出力部9は、通知された1つの属
性名インデックスに注目し(ステップS16)、その属性
名インデックスの属性名をもつ属性名タグが文書内にあ
るかを調べ(ステップS17)、あれば(ステップS18で
YES)、その属性名タグに対応する属性値タグの値と
当該文書ファイル名とを表示装置102に表示する(ス
テップS19)。なければ(ステップS18でNO)、ステ
ップS19をスキップする。次に文書内容出力部9は、通
知された属性名インデックスに未処理の属性名インデッ
クスが残っているか否かを調べ(ステップS20)、残っ
ていれば、その1つに注目を移し(ステップS21)、ス
テップS17に戻って上述した処理を繰り返す。
【0054】文書内容出力部9が通知された全ての属性
名インデックスについての処理を終えると(ステップS
20でNO)、文書内容出力制御部10は、合格文書ファイ
ル名選別部8から通知された文書ファイルに未処理のも
のが残っているか否かを調べ(ステップS22)、残って
いる場合にはその1つに注目を移し、その文書ファイル
名の文書内容を取り出して、合格文書ファイル名選別部
8から通知された全ての属性名インデックスとともに文
書内容出力部9に渡し、処理させる(ステップS23)。
全ての合格ファイルについての処理が終わると(ステッ
プS22でYES)、処理終了となる。
【0055】
【実施例】文書ファイル名辞書1に、図1に例示するよ
うに「ファイル1」,「ファイル2」,「ファイル3」
の3つの文書ファイル名とそのURLとが登録されてい
るとする。また、ファイル1の内容が図5(a)に示す
ものであり、ファイル2の内容が図5(b)に示すもの
であるとする。これらのファイル1,2はXML で記述さ
れており、文章テキストの他に属性と属性値が含まれて
いる。つまり、ファイル1には、<ホテル>Xホテル<
/ホテル>、<場所>サンフランシスコ</場所>、<
値段>$150</値段>、<ペット>可能</ペット
>といった、文書中に書かれた意味を表現する属性名の
ついたタグとその属性の値との対が含まれている。同様
に、ファイル2にも、<ホテル>Zホテル</ホテル
>、<場所>シアトル</場所>、<値段>$180<
/値段>、<ペット>不可</ペット>といったタグが
含まれている。
【0056】また、属性名格納辞書2には図1に例示す
るような属性名とその自然言語表現との対が事前に格納
されており、属性値格納辞書3には図1に例示するよう
な属性値と自然言語表現と属性名との3つ組が事前に格
納されているものとする。なお、属性値格納辞書3に全
ての価格をその実際値で登録すると、登録数が増えてし
まうので、変数を使用して登録するようにしても良い。
つまり、XXX を任意の数値とする場合、以下の表3に示
すように登録しておき、キーワード抽出部4は任意の数
値の後ろに「ドル」があれば、自然言語表現XXX ドルが
存在すると判断し、存在した実際値の頭に$を付けたも
のを属性値とする。
【表3】
【0057】このような前提で、利用者が以下のような
自然言語による検索入力文を入力した場合を例に、本実
施例の動作を説明する。 検索入力文:「値段が150 ドルでペットを連れて行くの
が可能で、しかも、サンフランシスコ近辺にあるホテル
の情報を見つけたい」
【0058】キーワード抽出部4は利用者からの検索入
力文を受け付けると、属性名格納辞書2および属性値格
納辞書3を参照して、検索入力文を以下のようにキーワ
ード列に変換する。
【0059】まず、検索入力文の先頭の自然言語表現
「値段」が属性名格納辞書2に存在するので、それと対
になって登録されている属性名「価格」を属性名インデ
ックスとして出力する。次に、自然言語表現「150 ド
ル」が属性値格納辞書3に存在するので、それと3つ組
で登録されている属性値「$150 」と属性名「価格」と
の対を属性値インデックスとして出力する。次に、自然
言語表現「ペット」が属性名格納辞書2に存在するの
で、それと対になって登録されている属性名「ペット」
を属性名インデックスとして出力する。次に、自然言語
表現「可能」が属性値格納辞書3に存在するので、それ
と3つ組で登録されている属性値「可能」と属性名「ペ
ット」との対を属性値インデックスとして出力する。次
に、自然言語表現「サンフランシスコ」が属性値格納辞
書3に存在するので、それと3つ組で登録されている属
性値「サンフランシスコ」と属性名「場所」との対を属
性値インデックスとして出力する。次に、「ホテル」が
属性名格納辞書2に存在するので、それと対になって登
録されている属性名「ホテル」を属性名インデックスと
して出力する。検索入力文中には、属性名格納辞書2お
よび属性値格納辞書3に登録された自然言語表現とマッ
チする他の自然言語表現はない。従って、以下のような
キーワード列が上から順に出力される。
【0060】属性名インデックス(属性名「価格」) 属性値インデックス(属性値「$150」、属性名「価
格」) 属性名インデックス(属性名「ペット」) 属性値インデックス(属性値「可能」、属性名「ペッ
ト」) 属性値インデックス(属性値「「サンフランシスコ」、
属性名「場所」) 属性名インデックス(属性名「ホテル」)
【0061】次にキーワードフィルタ部5は、属性名イ
ンデックスと属性値インデックスとの並び順を参照し
て、冗長な部分の統合を行う。上のキーワード列の場
合、属性名インデックス(属性名「価格」)と属性値イ
ンデックス(属性値「$150」、属性名「価格」)とは同
じ属性名「価格」で隣どうしに並んでいるので、属性名
インデックス(属性名「価格」)を削除する。また、属
性名インデックス(属性名「ペット」)と属性値インデ
ックス(属性値「可能」、属性名「ペット」)とは同じ
属性名「ペット」で隣どうしに並んでいるので、属性名
インデックス(属性名「ペット」)を削除する。他に削
除すべき属性名インデックスは存在しないので、上記の
キーワード列は最終的に以下のように圧縮される。
【0062】(a) 属性値インデックス(属性値「$15
0」、属性名「価格」) (b) 属性値インデックス(属性値「可能」、属性名「ペ
ット」) (c) 属性値インデックス(属性値「「サンフランシス
コ」、属性名「場所」) (d) 属性名インデックス(属性名「ホテル」)
【0063】次に、合格文書ファイル名選別部8は、文
書ファイル名辞書1中のファイル1の文書内容をそのU
RLを頼りにインターネット103 を通じて該当するサー
バから取得し、その文書内容と上記の属性値インデック
ス(a) 〜(c) とを統合文書内容検査部7に渡す。
【0064】統合文書内容検査部7は、ファイル1の文
書内容と、1つの属性値インデックス(a) とを文書内容
検査部6に渡す。
【0065】文書内容検査部6は、ファイル1の文書内
容中に、属性値インデックス(a) 中の属性名「価格」の
タグが存在するか否かを調べる。図5(a)のファイル
1の場合、該当するタグ<値段>$150</値段>がある
ので、その属性値「$150」が受け取った属性値インデッ
クス(a) 中の属性値「$150」と一致するか否かを調べ
る。今の例では、一致するので、合格を統合文書内容検
査部7に返却する。
【0066】統合文書内容検査部7は、ファイル1の文
書内容と、次の属性値インデックス(b) とを文書内容検
査部6に渡す。
【0067】文書内容検査部6は、ファイル1の文書内
容中に、属性値インデックス(b) 中の属性名「ペット」
のタグが存在するか否かを調べる。図5(a)のファイ
ル1の場合、該当するタグ<ペット>可能</ペット>
があるので、その属性値「可能」が受け取った属性値イ
ンデックス(b) 中の属性値「可能」と一致するか否かを
調べる。今の例では、一致するので、合格を統合文書内
容検査部7に返却する。
【0068】統合文書内容検査部7は、ファイル1の文
書内容と、次の属性値インデックス(c) とを文書内容検
査部6に渡す。
【0069】文書内容検査部6は、ファイル1の文書内
容中に、属性値インデックス(c) 中の属性名「場所」の
タグが存在するか否かを調べる。図5(a)のファイル
1の場合、該当するタグ<場所>サンフランシスコ</
場所>があるので、その属性値「サンフランシスコ」が
受け取った属性値インデックス(c) 中の属性値「サンフ
ランシスコ」と一致するか否かを調べる。今の例では、
一致するので、合格を統合文書内容検査部7に返却す
る。
【0070】統合文書内容検査部7は、ファイル1に関
し全ての属性値インデックスで合格の結果が得られたの
で、合格文書ファイル名選別部8に合格を通知し、合格
文書ファイル名選別部8はファイル1を合格ファイルと
する。
【0071】次に合格文書ファイル名選別部8は、文書
ファイル名辞書1に格納されたファイル2の文書内容を
そのURLを頼りにインターネット103 を通じて該当す
るサーバから取り込み、先のファイル1と同様に統合文
書内容検査部7を使って合否を判定する。この場合、ペ
ット属性、場所属性が満足しないので、ファイル2は不
合格となる。同様に、残りのファイル3についても合否
の判定が行われる。ここでは、ファイル3も不合格と判
定され、合格ファイルはファイル1のみであったとす
る。
【0072】次に合格文書ファイル名選別部8は、合格
ファイル名としてファイル名1を、属性名インデックス
(d) とともに文書内容出力制御部10に渡す。
【0073】文書内容出力制御部10は、文書ファイル名
辞書1からファイル名1のURLを取得し、それを頼り
にインターネット103 上のサーバをアクセスしてファイ
ル名1の文書内容を取得し、属性名インデックス(d) と
ともに文書内容出力部9に渡す。
【0074】文書内容出力部9は、ファイル1の文書内
容中に、属性名インデックス(d) の属性名「ホテル」を
持つ属性タグが存在するか否かを調べる。図5(a)の
ファイル1の場合、該当するタグ<ホテル>Xホテル<
/ホテル>が存在するので、その属性値「Xホテル」を
取り出し、ファイル名1と共に表示装置102 に表示す
る。
【0075】図4は本発明の文書ファイル検索装置のハ
ードウェア構成例を示すブロック図である。この例の文
書ファイル検索装置は、プロセッサ(CPU)200
と、磁気ディスク装置等の補助記憶装置201と、その
インタフェース202と、RAM等のメモリ203と、
インターネット103との間のインタフェース204
と、CD−ROM,半導体メモリ等の機械読み取り可能
な記録媒体205と、そのインタフェース206と、入
力装置101と、そのインタフェース207と、表示装
置102と、そのインタフェース208と、CPU20
0,メモリ203およびインタフェース202,20
4,206〜208間を接続するバス209とから構成
されている。
【0076】記録媒体205には、文書ファイル検索用
プログラムが記録されており、このプログラムがインタ
フェース206を介してインストールされることによ
り、メモリ203または補助記憶装置201上に図1の
文書ファイル名辞書1,属性名格納辞書2および属性値
格納辞書3がロードされる。また、同プログラムはCP
U200の動作を制御することにより、CPU200を
図1のキーワード抽出部4、キーワードフィルタ部5、
文書内容検査部6、統合文書内容検査部7、合格文書フ
ァイル名選別部8、文書内容出力部9、文書内容出力制
御部10として機能させる。
【0077】以上の実施の形態は本発明をWWW 上のホー
ムページの検索に適用したが、特開平5−67136号
公報に記載する技術と同様にデータベースに対する検索
に対しても適用可能である。
【0078】
【発明の効果】以上説明したように本発明によれば以下
のような効果が得られる。
【0079】自然言語による検索問い合わせに対する回
答の冗長性を極力無くすことができる。その理由は、キ
ーワード抽出部で抽出されたインデックス列をその先頭
から順に探査し、同一の属性の属性名インデックスと属
性値インデックスとが隣どうしに存在する場合に属性名
インデックスを削除するキーワードフィルタ部を備えて
いるからである。
【0080】WWW のホームページに対しても自然言語に
よる検索問い合わせが可能になる。その理由は、XML の
ように文書ファイル中にその意味を表現する属性名と属
性値のタグを内蔵させており、利用者が入力した自然言
語による検索条件を解釈して適合する属性名および属性
値をもつ文書ファイル中から、利用者の望む属性値を取
り出すことができるからである。これによって、文法的
に正しい自然言語表現、非文法的な表現、自然言語文の
断片、キーワード列等、種々の形の入力を受け付けて統
一的に解釈を行なう自然言語インタフェースによるWWW
文書検索システムを実現することが出来る。
【図面の簡単な説明】
【図1】本発明の実施の形態の文書ファイル検索装置の
ブロック図である。
【図2】本発明の実施の形態の文書ファイル検索装置処
理例を示すフローチャートである。
【図3】本発明の実施の形態の文書ファイル検索装置処
理例を示すフローチャートである。
【図4】本発明の文書ファイル検索装置のハードウェア
構成例を示すブロック図である。
【図5】XML を使った文書ファイルの記述例を示す図で
ある。
【図6】HTMLの記述例を示す図である。
【図7】図6のHTMLの記述例をブラウザで表示した例を
示す図である。
【符号の説明】
1は文書ファイル名辞書、2は属性名格納辞書、3は属
性値格納辞書、4はキーワード抽出部、5はキーワード
フィルタ部、6は文書内容検査部、7は統合文書内容検
査部、8は合格文書ファイル名選別部、9は文書内容出
力部、10は文書内容出力制御部、である。
フロントページの続き (56)参考文献 特開 平5−67136(JP,A) 特開 平5−242147(JP,A) 特開 平6−301721(JP,A) 特開 平6−28403(JP,A) 特開 平8−255155(JP,A) 島津秀雄他,「マルチモーダル自然言 語インタフェースSIMPLA」,NE C技報 Vol.47 No.8,1994 (平06−09−16),株式会社クリエイテ ィブ,pp.72−75 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 属性の属性名とその属性の属性値との対
    を内蔵する文書ファイルを検索対象文書ファイルとし、
    検索対象文書ファイルから、利用者が自然言語で指定し
    た検索条件に適合する部分を検索する文書ファイル検索
    装置において、 自然言語で表現した検索要求文を先頭から順に探査し、
    属性名を表現する自然言語表現に対してはその属性名を
    属性名インデックスとして出力し、属性値を表現する自
    然言語表現に対してはその属性値と属性名との対を属性
    値インデックスとして出力することを順次行うキーワー
    ド抽出部と、 前記キーワード抽出部の出力を入力して先頭から順に探
    査し、同一の属性の属性名インデックスと属性値インデ
    ックスとが隣どうしに存在する場合のみ、前記属性名イ
    ンデックスを削除し、それ以外の部分はそのまま出力す
    るキーワードフィルタ部と、 検索対象文書ファイル中に、前記キーワードフィルタ部
    から出力された全ての属性値インデックスの属性名と属
    性値との対が内蔵されているか否かを調べ、内蔵されて
    いる場合、前記キーワードフィルタ部から出力された属
    性名インデックスの属性名に対応する属性値を検索対象
    文書ファイルから検索して出力する検索手段とを備えた
    文書ファイル検索装置。
  2. 【請求項2】 検索対象文書ファイル中に存在する属性
    名について、属性名とその属性名を表現する自然言語表
    現との対を格納しておく属性名格納辞書と、 検索対象文書ファイル中に存在する属性値について、属
    性値とその属性値に対応する属性名とその属性値を表現
    する自然言語表現との3つ組を格納しておく属性値格納
    辞書とを備え、 前記キーワード抽出部は、自然言語で表現した検索要求
    文を先頭から順に探査し、属性名格納辞書を参照して、
    属性名を表現する自然言語表現が含まれていたら、その
    自然言語表現と対である属性名を属性名インデックスと
    して出力し、属性値格納辞書を参照して、属性値を表現
    する自然言語表現が含まれていたら、その自然言語表現
    と3つ組である属性値と属性名との対の集合を属性値イ
    ンデックスとして出力する構成を有することを特徴とす
    る請求項1記載の文書ファイル検索装置。
  3. 【請求項3】 文書中に書かれた意味を表現する属性名
    のついたタグとその属性の属性値との対を内蔵する文書
    ファイルを検索対象文書ファイルとし、検索対象文書フ
    ァイルから、利用者が自然言語で指定した検索条件に適
    合する部分を検索する文書ファイル検索装置において、 検索対象文書ファイル中に存在する属性名について、属
    性名とその属性名を表現する自然言語表現との対の集合
    を格納しておく属性名格納辞書と、 検索対象文書ファイル中に存在する属性値について、属
    性値とその属性値に対応する属性名とその属性値を表現
    する自然言語表現との3つ組の集合を格納しておく属性
    値格納辞書と、 自然言語で表現した検索要求文を先頭から順に探査し、
    属性名格納辞書を参照して、属性名を表現する自然言語
    表現が含まれていたら、その自然言語表現と対である属
    性名を属性名インデックスとして出力し、属性値格納辞
    書を参照して、属性値を表現する自然言語表現が含まれ
    ていたら、その自然言語表現と3つ組である属性値と属
    性名との対を属性値インデックスとして出力するキーワ
    ード抽出部と、 キーワード抽出部の出力を入力し、先頭から順に探査
    し、同一の属性の属性名インデックスと属性値インデッ
    クスとが隣どうしに存在する場合のみ、前記属性名イン
    デックスを削除し、それ以外の部分はそのまま出力する
    キーワードフィルタ部と、 検索対象文書ファイル中に、前記キーワードフィルタ部
    から出力された全ての属性値インデックスの属性名と属
    性値との対に対応するタグの対が内蔵されているか否か
    を調べ、内蔵されている場合、前記キーワードフィルタ
    部から出力された属性名インデックスの属性名を持つタ
    グの属性値を検索対象文書ファイルから検索して出力す
    る検索手段とを備えた文書ファイル検索装置。
  4. 【請求項4】 文書中に書かれた意味を表現する属性名
    のついたタグとその属性の値との対を複数個内蔵する文
    書ファイルの集合から、利用者が自然言語で指定した検
    索条件を満足する文書ファイルを選択してその適合する
    部分を表示する文書ファイル検索装置において、 検索対象となるすべての文書ファイルの名前と存在位置
    とを格納する文書ファイル名辞書と、 検索対象となる文書ファイル中に存在する属性名につい
    て、属性名とその属性名を表現する自然言語表現との対
    の集合を格納しておく属性名格納辞書と、 検索対象となる文書ファイル中に存在する属性値につい
    て、属性値とその属性値に対応する属性名とその属性値
    を表現する自然言語表現との3つ組の集合を格納してお
    く属性値格納辞書と、 利用者が、自然言語で表現した検索要求文を入力する
    と、前記入力文を先頭から順に探査し、属性名格納辞書
    を参照して、属性名を表現する自然言語表現が含まれて
    いたら、その自然言語表現と対である属性名を属性名イ
    ンデックスとして出力し、属性値格納辞書を参照して、
    属性値を表現する自然言語表現が含まれていたら、その
    自然言語表現と3つ組である属性値と属性名との対の集
    合を属性値インデックスとして出力することを順次行う
    キーワード抽出部と、 キーワード抽出部の出力を入力し、先頭から順に探査
    し、同一の属性の属性名インデックスと属性値インデッ
    クスとが隣通しに存在する場合のみ、前記属性名インデ
    ックスを削除し、それ以外の部分はそのまま出力するキ
    ーワードフィルタ部と、 文書ファイルの内容と属性値インデックスとを入力する
    と、前記文書ファイルの内容中に、前記属性値インデッ
    クス中の属性名を含むタグが存在するかどうか調べ、存
    在する場合は、そのタグと対で存在する属性値を取り出
    し、その値が前記属性値インデックス中の属性値と等し
    いかどうか調べ、等しい場合は、合格の出力をし、そう
    でない場合は不合格の出力をする文書内容検査部と、 文書ファイルの内容と1つ以上の属性値インデックスと
    を入力すると、前記属性値インデックスから1つずつ取
    り出し、前記文書ファイルの内容と前記取り出した属性
    値インデックスとを1つずつ文書内容検査部に渡してい
    き、すべての属性値インデックスに対してその出力が合
    格のときは、合格を出力し、そうでないときは不合格を
    出力する統合文書内容検査部と、 前記文書ファイル名辞書を参照して、1つずつ文書ファ
    イルの内容を取り出し、前記文書の内容とキーワードフ
    ィルタ部の出力のうちの属性値インデックスの部分とを
    統合文書内容検査部に渡し、前記統合文書内容検査部の
    出力を受け取ることを前記1つずつ取り出した文書ファ
    イルのすべてに対して行い、前記出力が合格の文書ファ
    イルの名前のみを出力する合格文書ファイル名選別部
    と、 文書ファイル名と前記文書ファイル名の内容とキーワー
    ドフィルタ部の出力である属性名インデックスとを入力
    すると、前記属性名インデックスのうちの1つを取り出
    し、与えられた前記文書ファイルの内容中に、前記取り
    出した属性名を含むタグが存在するかどうか調べ、存在
    する場合は、その属性名のタグの値と前記入力した文書
    ファイル名とを利用者に表示し、存在しない場合には何
    も出力しないことを、前記入力した属性名インデックス
    のそれぞれに対して行う文書内容出力部と、 前記合格文書ファイル名選別部の出力である文書ファイ
    ル名の集合を入力し、文書ファイル名格納辞書を参照し
    て、前記入力した文書ファイル名の集合の要素を1つず
    つ取り出し、文書内容出力部に渡すことを、前記入力中
    の文書ファイル名のすべてに対して行うことを繰り返す
    文書内容出力制御部とを備えることを特徴とする文書フ
    ァイル検索装置。
  5. 【請求項5】 属性の属性名とその属性の属性値との対
    を内蔵する文書ファイルを検索対象文書ファイルとし、
    検索対象文書ファイルから、利用者が自然言語で指定し
    た検索条件に適合する部分を検索する文書ファイル検索
    装置を構成するコンピュータを、 自然言語で表現した検索要求文を先頭から順に探査し、
    属性名を表現する自然言語表現に対してはその属性名を
    属性名インデックスとして出力し、属性値を表現する自
    然言語表現に対してはその属性値と属性名との対を属性
    値インデックスとして出力することを順次行うキーワー
    ド抽出部、 前記キーワード抽出部の出力を入力して先頭から順に探
    査し、同一の属性の属性名インデックスと属性値インデ
    ックスとが隣どうしに存在する場合のみ、前記属性名イ
    ンデックスを削除し、それ以外の部分はそのまま出力す
    るキーワードフィルタ部、 検索対象文書ファイル中に、前記キーワードフィルタ部
    から出力された全ての属性値インデックスの属性名と属
    性値との対が内蔵されているか否かを調べ、内蔵されて
    いる場合、前記キーワードフィルタ部から出力された属
    性名インデックスの属性名に対応する属性値を検索対象
    文書ファイルから検索して出力する検索手段、 として機能させるプログラムを記録した機械読み取り可
    能な記録媒体。
  6. 【請求項6】 文書中に書かれた意味を表現する属性名
    のついたタグとその属性の属性値との対を内蔵する文書
    ファイルを検索対象文書ファイルとし、検索対象文書フ
    ァイルから、利用者が自然言語で指定した検索条件に適
    合する部分を検索する文書ファイル検索装置を構成する
    コンピュータを、 検索対象文書ファイル中に存在する属性名について、属
    性名とその属性名を表現する自然言語表現との対の集合
    を格納しておく属性名格納辞書、 検索対象文書ファイル中に存在する属性値について、属
    性値とその属性値に対応する属性名とその属性値を表現
    する自然言語表現との3つ組の集合を格納しておく属性
    値格納辞書、 自然言語で表現した検索要求文を先頭から順に探査し、
    属性名格納辞書を参照して、属性名を表現する自然言語
    表現が含まれていたら、その自然言語表現と対である属
    性名を属性名インデックスとして出力し、属性値格納辞
    書を参照して、属性値を表現する自然言語表現が含まれ
    ていたら、その自然言語表現と3つ組である属性値と属
    性名との対を属性値インデックスとして出力するキーワ
    ード抽出部、 キーワード抽出部の出力を入力し、先頭から順に探査
    し、同一の属性の属性名インデックスと属性値インデッ
    クスとが隣どうしに存在する場合のみ、前記属性名イン
    デックスを削除し、それ以外の部分はそのまま出力する
    キーワードフィルタ部、 検索対象文書ファイル中に、前記キーワードフィルタ部
    から出力された全ての属性値インデックスの属性名と属
    性値との対に対応するタグの対が内蔵されているか否か
    を調べ、内蔵されている場合、前記キーワードフィルタ
    部から出力された属性名インデックスの属性名を持つタ
    グの属性値を検索対象文書ファイルから検索して出力す
    る検索手段、 として機能させるプログラムを記録した機械読み取り可
    能な記録媒体。
  7. 【請求項7】 文書中に書かれた意味を表現する属性名
    のついたタグとその属性の値との対を複数個内蔵する文
    書ファイルの集合から、利用者が自然言語で指定した検
    索条件を満足する文書ファイルを選択してその適合する
    部分を表示する文書ファイル検索装置を構成するコンピ
    ュータを、 検索対象となるすべての文書ファイルの名前と存在位置
    とを格納する文書ファイル名辞書、 検索対象となる文書ファイル中に存在する属性名につい
    て、属性名とその属性名を表現する自然言語表現との対
    の集合を格納しておく属性名格納辞書、 検索対象となる文書ファイル中に存在する属性値につい
    て、属性値とその属性値に対応する属性名とその属性値
    を表現する自然言語表現との3つ組の集合を格納してお
    く属性値格納辞書、 利用者が、自然言語で表現した検索要求文を入力する
    と、前記入力文を先頭から順に探査し、属性名格納辞書
    を参照して、属性名を表現する自然言語表現が含まれて
    いたら、その自然言語表現と対である属性名を属性名イ
    ンデックスとして出力し、属性値格納辞書を参照して、
    属性値を表現する自然言語表現が含まれていたら、その
    自然言語表現と3つ組である属性値と属性名との対の集
    合を属性値インデックスとして出力することを順次行う
    キーワード抽出部、 キーワード抽出部の出力を入力し、先頭から順に探査
    し、同一の属性の属性名インデックスと属性値インデッ
    クスとが隣通しに存在する場合のみ、前記属性名インデ
    ックスを削除し、それ以外の部分はそのまま出力するキ
    ーワードフィルタ部、 文書ファイルの内容と属性値インデックスとを入力する
    と、前記文書ファイルの内容中に、前記属性値インデッ
    クス中の属性名を含むタグが存在するかどうか調べ、存
    在する場合は、そのタグと対で存在する属性値を取り出
    し、その値が前記属性値インデックス中の属性値と等し
    いかどうか調べ、等しい場合は、合格の出力をし、そう
    でない場合は不合格の出力をする文書内容検査部、 文書ファイルの内容と1つ以上の属性値インデックスを
    入力すると、前記属性値インデックスから1つずつ取り
    出し、前記文書ファイルの内容と前記取り出した属性値
    インデックスとを1つずつ文書内容検査部に渡してい
    き、すべての属性値インデックスに対してその出力が合
    格のときは、合格を出力し、そうでないときは不合格を
    出力する統合文書内容検査部、 前記文書ファイル名辞書を参照して、1つずつ文書ファ
    イルの内容を取り出し、前記文書の内容とキーワードフ
    ィルタ部の出力のうちの属性値インデックスの部分とを
    統合文書内容検査部に渡し、前記統合文書内容検査部の
    出力を受け取ることを前記1つずつ取り出した文書ファ
    イルのすべてに対して行い、前記出力が合格の文書ファ
    イルの名前のみを出力する合格文書ファイル名選別部、 文書ファイル名と前記文書ファイル名の内容とキーワー
    ドフィルタ部の出力である属性名インデックスとを入力
    すると、前記属性名インデックスのうちの1つを取り出
    し、与えられた前記文書ファイルの内容中に、前記取り
    出した属性名を含むタグが存在するかどうか調べ、存在
    する場合は、その属性名のタグの値と前記入力した文書
    ファイル名とを利用者に表示し、存在しない場合には何
    も出力しないことを、前記入力した属性名インデックス
    のそれぞれに対して行う文書内容出力部、 前記合格文書ファイル名選別部の出力である文書ファイ
    ル名の集合を入力し、文書ファイル名格納辞書を参照し
    て、前記入力した文書ファイル名の集合の要素を1つず
    つ取り出し、文書内容出力部に渡すことを、前記入力中
    の文書ファイル名のすべてに対して行うことを繰り返す
    文書内容出力制御部、 として機能させるプログラムを記録した機械読み取り可
    能な記録媒体。
JP12948598A 1998-04-23 1998-04-23 文書ファイル検索装置及びプログラムを記録した機械読み取り可能な記録媒体 Expired - Fee Related JP3191762B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12948598A JP3191762B2 (ja) 1998-04-23 1998-04-23 文書ファイル検索装置及びプログラムを記録した機械読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12948598A JP3191762B2 (ja) 1998-04-23 1998-04-23 文書ファイル検索装置及びプログラムを記録した機械読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH11306205A JPH11306205A (ja) 1999-11-05
JP3191762B2 true JP3191762B2 (ja) 2001-07-23

Family

ID=15010656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12948598A Expired - Fee Related JP3191762B2 (ja) 1998-04-23 1998-04-23 文書ファイル検索装置及びプログラムを記録した機械読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3191762B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6331324B1 (en) 1998-01-14 2001-12-18 Morinaga Milk Industry Co., Ltd. Soybean curd puree, and process and apparatus for preparing the same

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100362380B1 (ko) * 1999-12-27 2002-11-23 한국전자통신연구원 엑스엠엘 기반 멀티미디어 데이터 제작 및 검색 장치와 그를 이용한 멀티미디어 데이터 생성 방법
EP1379947B1 (en) 2001-01-19 2012-09-05 Hostbridge Technology, LLC An improved system, method and apparatus to allow communication between cics and non-cics software applications
US6785685B2 (en) 2001-08-22 2004-08-31 International Business Machines Corporation Approach for transforming XML document to and from data objects in an object oriented framework for content management applications
KR100494078B1 (ko) * 2002-08-23 2005-06-13 엘지전자 주식회사 확장성 표기 언어 기반의 전자문서 요청/제공 방법
JP4469410B1 (ja) * 2009-09-29 2010-05-26 キャンバスマップル株式会社 情報検索装置、情報検索方法、及びコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
島津秀雄他,「マルチモーダル自然言語インタフェースSIMPLA」,NEC技報 Vol.47 No.8,1994(平06−09−16),株式会社クリエイティブ,pp.72−75

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6331324B1 (en) 1998-01-14 2001-12-18 Morinaga Milk Industry Co., Ltd. Soybean curd puree, and process and apparatus for preparing the same

Also Published As

Publication number Publication date
JPH11306205A (ja) 1999-11-05

Similar Documents

Publication Publication Date Title
JP4467184B2 (ja) 知識創造可能性を有するドキュメントの意味論的分析及び選択
US7209876B2 (en) System and method for automated answering of natural language questions and queries
US8255381B2 (en) Expanded text excerpts
US7774328B2 (en) Browseable fact repository
US7702677B2 (en) Information retrieval from a collection of data
US7840893B2 (en) Display and manipulation of web page-based search results
US8645405B2 (en) Natural language expression in response to a query
US8037068B2 (en) Searching through content which is accessible through web-based forms
US6714905B1 (en) Parsing ambiguous grammar
US5523945A (en) Related information presentation method in document processing system
US20050203900A1 (en) Associative retrieval system and associative retrieval method
WO2006039012A1 (en) User interface for presentation of a document
US20030093427A1 (en) Personalized web page
JPH10232883A (ja) 多言語対応文書検索システム
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP2008511075A (ja) 法律上の要点をサーチするシステム及び方法
DE60101668T2 (de) Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument
CN115438162A (zh) 基于知识图谱的疾病问答方法、系统、设备及存储介质
JP3191762B2 (ja) 文書ファイル検索装置及びプログラムを記録した機械読み取り可能な記録媒体
US8640017B1 (en) Bootstrapping in information access systems
Lehmann et al. BNCweb
US7127450B1 (en) Intelligent discard in information access system
JP4621680B2 (ja) 定義付けシステムおよび方法
CN109284364B (zh) 一种用于语音连麦互动的互动词汇更新方法及装置
JP2003108595A (ja) 情報検索装置、情報検索方法及び情報検索プログラム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090525

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100525

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140525

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees