JP2000076274A - 構文情報を用いた検索方法およびシステム - Google Patents
構文情報を用いた検索方法およびシステムInfo
- Publication number
- JP2000076274A JP2000076274A JP10245050A JP24505098A JP2000076274A JP 2000076274 A JP2000076274 A JP 2000076274A JP 10245050 A JP10245050 A JP 10245050A JP 24505098 A JP24505098 A JP 24505098A JP 2000076274 A JP2000076274 A JP 2000076274A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- search
- target document
- partial order
- parsing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000000284 extract Substances 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 101000900567 Pisum sativum Disease resistance response protein Pi49 Proteins 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】構文解析の精度とスピードのバランスのとれた
検索方法及びシステムを提供することである。 【解決手段】検索要求文を構文解析し、構文解析結果か
ら、キーワードと機能語(FNWORD)の位置制約情報を半
順序関係として取り出す。そして検索対象文書を構文解
析をすることなく、それらの半順序関係を満たす文を検
索対象文書から検索する。またこの時、検索対象文書か
ら半順序関係を満たす文を検索するにあたり、半順序関
係を満たす文脈の長さが短い文を、より類似度の高い文
として検索する。
検索方法及びシステムを提供することである。 【解決手段】検索要求文を構文解析し、構文解析結果か
ら、キーワードと機能語(FNWORD)の位置制約情報を半
順序関係として取り出す。そして検索対象文書を構文解
析をすることなく、それらの半順序関係を満たす文を検
索対象文書から検索する。またこの時、検索対象文書か
ら半順序関係を満たす文を検索するにあたり、半順序関
係を満たす文脈の長さが短い文を、より類似度の高い文
として検索する。
Description
【0001】
【産業上の利用分野】本願は、構文情報を活用した検索
方法およびそのシステムに関し、特に検索要求に対して
だけ構文解析を行い文書検索を行う方法およびそのシス
テムに関する。
方法およびそのシステムに関し、特に検索要求に対して
だけ構文解析を行い文書検索を行う方法およびそのシス
テムに関する。
【0002】
【従来の技術】現在使われているワールドワイドウェブ
(WWW)上の検索システムは、キーワード型か全文検
索型のどちらかが使われているのが普通であり、この様
なシステムでは検索結果が非常に大量に提示され、目指
すドキュメントにたどり着くまでに大変な苦労をすると
いう問題がある。このような問題に対処するために様々
な試みがされてきた。その一つが、検索要求を幾つかの
キーワードの論理積や論理和ではなく文章にし、この検
索要求文章と似たものを検索するというものである。こ
の方式は技術的に以下の方式に分類することができる。
(WWW)上の検索システムは、キーワード型か全文検
索型のどちらかが使われているのが普通であり、この様
なシステムでは検索結果が非常に大量に提示され、目指
すドキュメントにたどり着くまでに大変な苦労をすると
いう問題がある。このような問題に対処するために様々
な試みがされてきた。その一つが、検索要求を幾つかの
キーワードの論理積や論理和ではなく文章にし、この検
索要求文章と似たものを検索するというものである。こ
の方式は技術的に以下の方式に分類することができる。
【0003】 (1) ベクタースペースモデル (2) キーワード位置制約型マッチング方式 (3) 構文マッチング方式
【0004】(1)のベクタースペースモデル(Salton,
G., ”Automatic Text Processing: the transformatio
n, analysis, and retrieval of information by compu
ter,”Addison-Wesley Publishing, 1989.)は、文書と
検索要求それぞれをキーワードを軸としたベクターとみ
なし、そのベクター間の距離により類似度を計算する方
式である。しかし、この方式は結局検索要求中のキーワ
ードを単に独立に出現したと考えているため、大きな文
書の中にたまたま検索要求中のキーワードが含まれてい
たというような場合に対処できないという欠点がある。
(2)のキーワード位置制約型マッチング方式(田中英
輝、「長い日本語表現の高速類似検索手法」、情報処理
学会言語処理研究会資料 NLWG121-10, 1997)とは、検
索要求からキーワードを取り出し、それらキーワードの
出現位置に関する全順序関係を満たすものをマッチする
とするものである。この方式は(1)よりも良いが、やは
りキーワード間の出現位置だけを制約にしている点で
(3)に劣る。(3)は、検索要求と文書をともに構文解析
し、構文木レベルでのマッチングを取る方式である。こ
の手法は理想形であるが、残念ながら構文解析の精度と
スピードの問題があり、広く普及するに至っていない。
G., ”Automatic Text Processing: the transformatio
n, analysis, and retrieval of information by compu
ter,”Addison-Wesley Publishing, 1989.)は、文書と
検索要求それぞれをキーワードを軸としたベクターとみ
なし、そのベクター間の距離により類似度を計算する方
式である。しかし、この方式は結局検索要求中のキーワ
ードを単に独立に出現したと考えているため、大きな文
書の中にたまたま検索要求中のキーワードが含まれてい
たというような場合に対処できないという欠点がある。
(2)のキーワード位置制約型マッチング方式(田中英
輝、「長い日本語表現の高速類似検索手法」、情報処理
学会言語処理研究会資料 NLWG121-10, 1997)とは、検
索要求からキーワードを取り出し、それらキーワードの
出現位置に関する全順序関係を満たすものをマッチする
とするものである。この方式は(1)よりも良いが、やは
りキーワード間の出現位置だけを制約にしている点で
(3)に劣る。(3)は、検索要求と文書をともに構文解析
し、構文木レベルでのマッチングを取る方式である。こ
の手法は理想形であるが、残念ながら構文解析の精度と
スピードの問題があり、広く普及するに至っていない。
【0005】
【発明が解決しようとする課題】従って、本発明が解決
しようとする課題は、構文解析の精度とスピードのバラ
ンスのとれた検索方法及びシステムを提供することであ
る。また別の課題は、ネットワーク上での検索を効率よ
く行う方法及びシステムを提供することである。また別
の課題は、検索対象文書を構文解析しない、検索方法及
びシステムを提供することである。また別の課題は、検
索要求文の位置制約情報を用いて検索を行う方法及びシ
ステムを提供することである。
しようとする課題は、構文解析の精度とスピードのバラ
ンスのとれた検索方法及びシステムを提供することであ
る。また別の課題は、ネットワーク上での検索を効率よ
く行う方法及びシステムを提供することである。また別
の課題は、検索対象文書を構文解析しない、検索方法及
びシステムを提供することである。また別の課題は、検
索要求文の位置制約情報を用いて検索を行う方法及びシ
ステムを提供することである。
【0006】
【課題を解決するための手段】上記課題を解決するため
に、まず検索要求文を構文解析し、構文解析結果から、
キーワードと機能語(FNWORD)の位置制約情報を半順序
関係として取り出す。そして検索対象文書を構文解析を
することなく、それらの半順序関係を満たす文を検索対
象文書から検索する。またこの時、検索対象文書から半
順序関係を満たす文を検索するにあたり、半順序関係を
満たす文脈の長さが短い文を、より類似度の高い文とし
て検索する。このようの構成することにより、(2)のキ
ーワード位置制約型マッチング方式に比べて構文解析を
行うことによりより詳細な位置制約を抽出できる。ま
た、(3)の構文マッチング方式に比べて検索対象文書を
構文解析をしないため構文解析の不完全さに起因するマ
ッチング精度の悪さとスピードの遅さという問題点を回
避できる。
に、まず検索要求文を構文解析し、構文解析結果から、
キーワードと機能語(FNWORD)の位置制約情報を半順序
関係として取り出す。そして検索対象文書を構文解析を
することなく、それらの半順序関係を満たす文を検索対
象文書から検索する。またこの時、検索対象文書から半
順序関係を満たす文を検索するにあたり、半順序関係を
満たす文脈の長さが短い文を、より類似度の高い文とし
て検索する。このようの構成することにより、(2)のキ
ーワード位置制約型マッチング方式に比べて構文解析を
行うことによりより詳細な位置制約を抽出できる。ま
た、(3)の構文マッチング方式に比べて検索対象文書を
構文解析をしないため構文解析の不完全さに起因するマ
ッチング精度の悪さとスピードの遅さという問題点を回
避できる。
【0007】図1に本発明の検索方法の基本フローチャ
ートを示す。ますステップ110で検索要求文を構文解
析する。次にブロック120で解析結果から得られる位
置制約情報(半順序関係)を取り出す。そして最後にス
テップ130で位置制約情報(半順序関係)にマッチン
グする文を、検索対象文書から検索する。
ートを示す。ますステップ110で検索要求文を構文解
析する。次にブロック120で解析結果から得られる位
置制約情報(半順序関係)を取り出す。そして最後にス
テップ130で位置制約情報(半順序関係)にマッチン
グする文を、検索対象文書から検索する。
【0008】検索要求文の構文解析をより詳細に説明す
る。 検索要求文をQSとすると、その構文解析木QTは一
般に以下のように表現できる。
る。 検索要求文をQSとすると、その構文解析木QTは一
般に以下のように表現できる。
【数1】 ここで、FUNCはHEADとTREEの間の係り受けの関係を表
す。以下に、検索要求の解析木の例を示す。
す。以下に、検索要求の解析木の例を示す。
【数2】 上記の様な構文解析木からHEADとCHILDの間の位置情報
を位置制約情報として用いる。取り出す位置制約情報は
以下の様になる。
を位置制約情報として用いる。取り出す位置制約情報は
以下の様になる。
【0009】・順序制約 ... CHILDとHEADはその位置関
係を保持しなければならない。例えば、CHILDの後方にH
EADがあることは、CHILD => HEADと記述する。 ・近傍順序制約 ... NODEのHEADワードとFNワードはそ
の位置関係を保持するとともに近傍になければならな
い。ただし、近傍とはパラメータとして与えられる数値
の語数以内にあることである。例えば、NODEの後方近傍
にFNWORDがあることは、NODE −> FNWORD と記述す
る。
係を保持しなければならない。例えば、CHILDの後方にH
EADがあることは、CHILD => HEADと記述する。 ・近傍順序制約 ... NODEのHEADワードとFNワードはそ
の位置関係を保持するとともに近傍になければならな
い。ただし、近傍とはパラメータとして与えられる数値
の語数以内にあることである。例えば、NODEの後方近傍
にFNWORDがあることは、NODE −> FNWORD と記述す
る。
【0010】よって、上記の日本語文の例からは以下の
様な位置制約情報が得られる。
様な位置制約情報が得られる。
【数3】 また、英語文の例からは以下の様な位置制約情報が得ら
れる。
れる。
【数4】 これらの位置制約情報を検索に使うことになる。ただ
し、その際に、一文、二文、一段落とこれらの制約を満
たす文脈が小さい方がマッチングの類似度が高くなるよ
うにする。
し、その際に、一文、二文、一段落とこれらの制約を満
たす文脈が小さい方がマッチングの類似度が高くなるよ
うにする。
【0011】従来技術(1)のベクタースペースモデルに
比べると、キーワードの位置制約を用いている点で(2)
のキーワード位置制約型マッチング方式と同様にすぐれ
ているのは明らかである。また、(3)の構文マッチング
方式に比べると、検索対象文書を構文解析しないことに
より、構文解析の不完全さと構文木どうしのマッチング
のスピードの遅さの問題がない点で優れている。(2)の
キーワード位置制約型マッチング方式に比べると、構文
木の依存関係から選られる位置制約により、より柔軟な
検索が行える。例えば、以下のように検索要求中にA、
B、C、D,E,Fという6つのキーワードがこの順番
で存在し、以下の様な構文木を形成するものである場
合、
比べると、キーワードの位置制約を用いている点で(2)
のキーワード位置制約型マッチング方式と同様にすぐれ
ているのは明らかである。また、(3)の構文マッチング
方式に比べると、検索対象文書を構文解析しないことに
より、構文解析の不完全さと構文木どうしのマッチング
のスピードの遅さの問題がない点で優れている。(2)の
キーワード位置制約型マッチング方式に比べると、構文
木の依存関係から選られる位置制約により、より柔軟な
検索が行える。例えば、以下のように検索要求中にA、
B、C、D,E,Fという6つのキーワードがこの順番
で存在し、以下の様な構文木を形成するものである場
合、
【数5】 (2)のキーワード位置制約型マッチング方式では文書1
としかマッチできないが、本発明の手法では文書1から
4まですべてのバリエーションにマッチ可能である。本
手法では、あるHEAD語に係っている要素が複数ある場合
にそれらが任意の順番で存在することを許したマッチン
グになっている。すなわち、(2)のキーワード位置制約
型マッチング方式の手法はキーワードの位置制約を全順
序関係として捉えているが、本手法では構文構造から得
られる半順序関係として捉えている。さらに、本発明で
は機能語を用いていることにより、(2)のキーワード位
置制約型マッチング方式に比べて絞り込みが可能であ
る。従って上記の点を考慮することにより、(2)のキー
ワード位置制約型マッチング方式よりも高精度な検索が
可能である。
としかマッチできないが、本発明の手法では文書1から
4まですべてのバリエーションにマッチ可能である。本
手法では、あるHEAD語に係っている要素が複数ある場合
にそれらが任意の順番で存在することを許したマッチン
グになっている。すなわち、(2)のキーワード位置制約
型マッチング方式の手法はキーワードの位置制約を全順
序関係として捉えているが、本手法では構文構造から得
られる半順序関係として捉えている。さらに、本発明で
は機能語を用いていることにより、(2)のキーワード位
置制約型マッチング方式に比べて絞り込みが可能であ
る。従って上記の点を考慮することにより、(2)のキー
ワード位置制約型マッチング方式よりも高精度な検索が
可能である。
【0012】
【発明の実施の形態】本発明の方法をネットワーク上で
の検索システムに応用した実施例を説明する。特にイン
ターネット上での検索では、検索結果が非常に大量に提
示されるが本発明のネットワーク上での検索システム
は、構文解析の精度とスピードのバランスのとれた検索
が可能である。図4に本発明のネットワーク上での検索
システムの処理の流れを示す。まずステップ410で検
索要求文をネットワークを通じて受信する。次にステッ
プ420で該検索要求文を構文解析する。構文解析で得
られた構文解析木から位置制約情報を取り出す。この位
置制約情報は、図2で示されるようにまずHEAD,C
HILDの順序制約の取り出し,およびHEAD,FN
WORDの近傍順序制約の取り出しから構成される。こ
れらを半順序関係と呼ぶ。次に処理は図4のステップ4
40移り、得られた位置制約情報(半順序関係)を用い
て検索対象文書データベース450から検索する。この
とき、検索対象文書から半順序関係を満たす文を検索す
るにあたり、半順序関係を満たす文脈の長さが短い文
を、より類似度の高い文として検索するようにする。そ
してステップ460で検索結果を検索要求元へ送信す
る。なお検索結果をこのとき表示するようにしてもよ
い。
の検索システムに応用した実施例を説明する。特にイン
ターネット上での検索では、検索結果が非常に大量に提
示されるが本発明のネットワーク上での検索システム
は、構文解析の精度とスピードのバランスのとれた検索
が可能である。図4に本発明のネットワーク上での検索
システムの処理の流れを示す。まずステップ410で検
索要求文をネットワークを通じて受信する。次にステッ
プ420で該検索要求文を構文解析する。構文解析で得
られた構文解析木から位置制約情報を取り出す。この位
置制約情報は、図2で示されるようにまずHEAD,C
HILDの順序制約の取り出し,およびHEAD,FN
WORDの近傍順序制約の取り出しから構成される。こ
れらを半順序関係と呼ぶ。次に処理は図4のステップ4
40移り、得られた位置制約情報(半順序関係)を用い
て検索対象文書データベース450から検索する。この
とき、検索対象文書から半順序関係を満たす文を検索す
るにあたり、半順序関係を満たす文脈の長さが短い文
を、より類似度の高い文として検索するようにする。そ
してステップ460で検索結果を検索要求元へ送信す
る。なお検索結果をこのとき表示するようにしてもよ
い。
【0013】図3に本発明において使用される検索シス
テムのハードウェア構成例を示す。システム100は、
中央処理装置(CPU)1とメモリ4とを含んでいる。
CPU1とメモリ4は、バス2を介して、補助記憶装置
としてのハードディスク装置13(またはMO、CD−
ROM23、DVD等の記憶媒体駆動装置)とIDEコ
ントローラ25を介して接続してある。同様にCPU1
とメモリ4は、バス2を介して、補助記憶装置としての
ハードディスク装置30(またはMO28、CD−RO
M23、DVD等の記憶媒体駆動装置)とSCSIコン
トローラ27を介して接続してある。フロッピーディス
ク装置20はフロッピーディスクコントローラ19を介
してバス2へ接続されている。
テムのハードウェア構成例を示す。システム100は、
中央処理装置(CPU)1とメモリ4とを含んでいる。
CPU1とメモリ4は、バス2を介して、補助記憶装置
としてのハードディスク装置13(またはMO、CD−
ROM23、DVD等の記憶媒体駆動装置)とIDEコ
ントローラ25を介して接続してある。同様にCPU1
とメモリ4は、バス2を介して、補助記憶装置としての
ハードディスク装置30(またはMO28、CD−RO
M23、DVD等の記憶媒体駆動装置)とSCSIコン
トローラ27を介して接続してある。フロッピーディス
ク装置20はフロッピーディスクコントローラ19を介
してバス2へ接続されている。
【0014】フロッピーディスク装置20には、フロッ
ピーディスクが挿入され、このフロッピーディスク等や
ハードディスク装置13(またはMO、CD−ROM、
DVD等の記憶媒体)、ROM14には、オペレーティ
ングシステムと協働してCPU等に命令を与え、本発明
を実施するためのコンピュータ・プログラムのコード若
しくはデータを記録することができ、メモリ4にロード
されることによって実行される。このコンピュータ・プ
ログラム(OS,検索プログラムなど)のコードは圧縮
し、または、複数に分割して、複数の媒体に記録するこ
ともできる。
ピーディスクが挿入され、このフロッピーディスク等や
ハードディスク装置13(またはMO、CD−ROM、
DVD等の記憶媒体)、ROM14には、オペレーティ
ングシステムと協働してCPU等に命令を与え、本発明
を実施するためのコンピュータ・プログラムのコード若
しくはデータを記録することができ、メモリ4にロード
されることによって実行される。このコンピュータ・プ
ログラム(OS,検索プログラムなど)のコードは圧縮
し、または、複数に分割して、複数の媒体に記録するこ
ともできる。
【0015】システム100は更に、ユーザ・インター
フェース・ハードウェアを備え、入力をするためのポイ
ンティング・デバイス(マウス、ジョイスティック等)
7またはキーボード6や、検索要求文、検索結果データ
等をユーザに提示するためのディスプレイ12を有する
ことができる。また、パラレルポート16を介してプリ
ンタを接続することや、シリアルポート15を介してモ
デムを接続することが可能である。このシステム100
は、シリアルポート15およびモデムまたは通信アダプ
タ18(イーサネットやトークンリング・カード)等を介
してネットワークに接続し、他のコンピュータ等と通信
を行う。好ましくは通信アダプタ18を介して、検索要
求文を受け取り、検索結果を該アダプタから送信する。
またシリアルポート15若しくはパラレルポート16
に、遠隔送受信機器を接続して、赤外線若しくは電波に
よりデータの送受信を行うことも可能である。
フェース・ハードウェアを備え、入力をするためのポイ
ンティング・デバイス(マウス、ジョイスティック等)
7またはキーボード6や、検索要求文、検索結果データ
等をユーザに提示するためのディスプレイ12を有する
ことができる。また、パラレルポート16を介してプリ
ンタを接続することや、シリアルポート15を介してモ
デムを接続することが可能である。このシステム100
は、シリアルポート15およびモデムまたは通信アダプ
タ18(イーサネットやトークンリング・カード)等を介
してネットワークに接続し、他のコンピュータ等と通信
を行う。好ましくは通信アダプタ18を介して、検索要
求文を受け取り、検索結果を該アダプタから送信する。
またシリアルポート15若しくはパラレルポート16
に、遠隔送受信機器を接続して、赤外線若しくは電波に
よりデータの送受信を行うことも可能である。
【0016】スピーカ23は、オーディオ・コントロー
ラ21によってD/A(デジタル/アナログ変換)変換
された音声信号を、アンプ22を介して受領し、音声と
して出力する。また、オーディオ・コントローラ21
は、マイクロフォン24から受領した音声情報をA/D
(アナログ/デジタル)変換し、システム外部の音声情
報をシステムにとり込むことを可能にしている。
ラ21によってD/A(デジタル/アナログ変換)変換
された音声信号を、アンプ22を介して受領し、音声と
して出力する。また、オーディオ・コントローラ21
は、マイクロフォン24から受領した音声情報をA/D
(アナログ/デジタル)変換し、システム外部の音声情
報をシステムにとり込むことを可能にしている。
【0017】このように、本発明の検索システムは、通
常のパーソナルコンピュータ(PC)やワークステーシ
ョン、ノートブックPC、パームトップPC、ネットワ
ークコンピュータ、コンピュータを内蔵したテレビ等の
各種家電製品、通信機能を有するゲーム機、電話、FA
X、携帯電話、PHS、電子手帳、等を含む通信機能有
する通信端末、または、これらの組合せによって実施可
能であることを容易に理解できるであろう。ただし、こ
れらの構成要素は例示であり、その全ての構成要素が本
発明の必須の構成要素となるわけではない。
常のパーソナルコンピュータ(PC)やワークステーシ
ョン、ノートブックPC、パームトップPC、ネットワ
ークコンピュータ、コンピュータを内蔵したテレビ等の
各種家電製品、通信機能を有するゲーム機、電話、FA
X、携帯電話、PHS、電子手帳、等を含む通信機能有
する通信端末、または、これらの組合せによって実施可
能であることを容易に理解できるであろう。ただし、こ
れらの構成要素は例示であり、その全ての構成要素が本
発明の必須の構成要素となるわけではない。
【0018】
【発明の効果】本発明により、従来の検索手法で実現困
難であった構文情報を反映した検索が可能となる。全て
構文木でマッチするというフルに構文解析を使用した手
法に比べて十分高速かつ、単なるキーワードの位置情報
制約を使う手法に比べてより詳細なマッチングが可能と
なる。さらに大量の検索結果が出てしまう現状のインタ
ーネット検索の問題点に対して、速度とスピードと精度
の観点でバランスの取れた検索手法を提供できる。
難であった構文情報を反映した検索が可能となる。全て
構文木でマッチするというフルに構文解析を使用した手
法に比べて十分高速かつ、単なるキーワードの位置情報
制約を使う手法に比べてより詳細なマッチングが可能と
なる。さらに大量の検索結果が出てしまう現状のインタ
ーネット検索の問題点に対して、速度とスピードと精度
の観点でバランスの取れた検索手法を提供できる。
【0019】
【図1】本発明の検索方法の基本フローチャートであ
る。
る。
【図2】位置制約情報における半順序関係の取り出しを
示す図である。
示す図である。
【図3】本発明において使用される検索システムのハー
ドウェア構成例である。
ドウェア構成例である。
【図4】本発明のネットワーク上での検索システムのフ
ローチャートである。
ローチャートである。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 渡辺 日出雄 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 Fターム(参考) 5B075 ND03 PP24 PR10 QM05 QM08 UU06 5B091 AA15 CA05 CD03
Claims (7)
- 【請求項1】検索要求文を検索対象文書から検索する、
検索システムであって、、(1)検索要求文を構文解析
する手段と、(2)前記構文解析結果から、位置制約情
報を半順序関係として取り出す手段と、(3)検索対象
文書を構文解析をすることなく、前記半順序関係を満た
す文を検索対象文書から検索する手段と、を具備するこ
とを特徴とする、検索システム。 - 【請求項2】前記検索する手段(3)が、前記検索対象
文書から前記半順序関係を満たす文を検索するにあた
り、前記半順序関係を満たす文脈の長さが短い文を、よ
り類似度の高い文として検索する手段である、請求項1
記載のシステム。 - 【請求項3】検索要求文を検索対象文書から検索する、
ネットワーク上の検索システムであって、(1)検索要
求文をネットワークを通じて受信する手段と、(2)検
索要求文を構文解析する手段と、(3)前記構文解析結
果から、位置制約情報を半順序関係として取り出す手段
と、(4)検索対象文書を構文解析をすることなく、前
記半順序関係を満たす文を検索対象文書から検索する手
段と、(5)検索結果を送信する手段と、を具備するこ
とを特徴とする、検索システム。 - 【請求項4】前記検索する手段(4)が、前記検索対象
文書から前記半順序関係を満たす文を検索するにあた
り、前記半順序関係を満たす文脈の長さが短い文を、よ
り類似度の高い文として検索する手段である、請求項3
記載のシステム。 - 【請求項5】検索要求文を検索対象文書から検索する、
検索方法であって、、(1)検索要求文を構文解析する
段階と、(2)前記構文解析結果から、位置制約情報を
半順序関係として取り出す段階と、(3)検索対象文書
を構文解析をすることなく、前記半順序関係を満たす文
を検索対象文書から検索する段階と、を有することを特
徴とする、検索方法。 - 【請求項6】前記検索する手段(3)が、前記検索対象
文書から前記半順序関係を満たす文を検索するにあた
り、前記半順序関係を満たす文脈の長さが短い文を、よ
り類似度の高い文として検索する段階である、請求項5
記載の方法。 - 【請求項7】検索要求文を検索対象文書から検索するプ
ログラムを含む媒体であって、該プログラムが、(1)
検索要求文を構文解析する機能と、(2)前記構文解析
結果から、位置制約情報を半順序関係として取り出す機
能と、(3)検索対象文書を構文解析をすることなく、
前記半順序関係を満たす文を検索対象文書から検索する
機能と、を具備することを特徴とする、プログラムを含
む媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24505098A JP3309077B2 (ja) | 1998-08-31 | 1998-08-31 | 構文情報を用いた検索方法およびシステム |
US09/384,124 US6219664B1 (en) | 1998-08-31 | 1999-08-27 | Search method and system using syntactic information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24505098A JP3309077B2 (ja) | 1998-08-31 | 1998-08-31 | 構文情報を用いた検索方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000076274A true JP2000076274A (ja) | 2000-03-14 |
JP3309077B2 JP3309077B2 (ja) | 2002-07-29 |
Family
ID=17127844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24505098A Expired - Fee Related JP3309077B2 (ja) | 1998-08-31 | 1998-08-31 | 構文情報を用いた検索方法およびシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US6219664B1 (ja) |
JP (1) | JP3309077B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002010977A1 (en) * | 2000-07-06 | 2002-02-07 | Si Han Kim | Information searching system and method thereof |
WO2002029637A1 (en) * | 2000-09-30 | 2002-04-11 | Soo Sung Lee | System and method for searching a web site having an english-based domain name mapped to another language-based domain name by employing a web browser |
WO2005091170A1 (ja) * | 2004-03-18 | 2005-09-29 | Nec Corporation | テキストマイニング装置、その方法及びプログラム |
JP2020021501A (ja) * | 2019-10-04 | 2020-02-06 | 株式会社インタラクティブソリューションズ | スライド検索装置、スライド検索システム、スライド検索方法及びスライド検索プログラム |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7526425B2 (en) * | 2001-08-14 | 2009-04-28 | Evri Inc. | Method and system for extending keyword searching to syntactically and semantically annotated data |
US7584161B2 (en) * | 2004-09-15 | 2009-09-01 | Contextware, Inc. | Software system for managing information in context |
US20080059416A1 (en) * | 2004-09-15 | 2008-03-06 | Forbes David I | Software system for rules-based searching of data |
EP1949273A1 (en) | 2005-11-16 | 2008-07-30 | Evri Inc. | Extending keyword searching to syntactically and semantically annotated data |
WO2008113045A1 (en) | 2007-03-14 | 2008-09-18 | Evri Inc. | Query templates and labeled search tip system, methods, and techniques |
US8594996B2 (en) | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
EP2212772A4 (en) | 2007-10-17 | 2017-04-05 | VCVC lll LLC | Nlp-based content recommender |
US8645372B2 (en) * | 2009-10-30 | 2014-02-04 | Evri, Inc. | Keyword-based search engine results using enhanced query strategies |
US8645125B2 (en) | 2010-03-30 | 2014-02-04 | Evri, Inc. | NLP-based systems and methods for providing quotations |
US8725739B2 (en) | 2010-11-01 | 2014-05-13 | Evri, Inc. | Category-based content recommendation |
US9116995B2 (en) | 2011-03-30 | 2015-08-25 | Vcvc Iii Llc | Cluster-based identification of news stories |
JP5642054B2 (ja) * | 2011-12-19 | 2014-12-17 | 株式会社東芝 | 医用画像検索システム |
US9720905B2 (en) | 2015-06-22 | 2017-08-01 | International Business Machines Corporation | Augmented text search with syntactic information |
US10713329B2 (en) * | 2018-10-30 | 2020-07-14 | Longsand Limited | Deriving links to online resources based on implicit references |
CN112115344B (zh) * | 2019-06-20 | 2024-07-09 | 百度(中国)有限公司 | 搜索结果的自动评估方法、装置、系统及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5123103A (en) * | 1986-10-17 | 1992-06-16 | Hitachi, Ltd. | Method and system of retrieving program specification and linking the specification by concept to retrieval request for reusing program parts |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
JP3067966B2 (ja) * | 1993-12-06 | 2000-07-24 | 松下電器産業株式会社 | 画像部品を検索する装置及びその方法 |
US5761496A (en) * | 1993-12-14 | 1998-06-02 | Kabushiki Kaisha Toshiba | Similar information retrieval system and its method |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5907836A (en) * | 1995-07-31 | 1999-05-25 | Kabushiki Kaisha Toshiba | Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore |
JP3040945B2 (ja) * | 1995-11-29 | 2000-05-15 | 松下電器産業株式会社 | 文書検索装置 |
US5911139A (en) * | 1996-03-29 | 1999-06-08 | Virage, Inc. | Visual image database search engine which allows for different schema |
US5893091A (en) * | 1997-04-11 | 1999-04-06 | Immediata Corporation | Multicasting with key words |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US5983221A (en) * | 1998-01-13 | 1999-11-09 | Wordstream, Inc. | Method and apparatus for improved document searching |
-
1998
- 1998-08-31 JP JP24505098A patent/JP3309077B2/ja not_active Expired - Fee Related
-
1999
- 1999-08-27 US US09/384,124 patent/US6219664B1/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002010977A1 (en) * | 2000-07-06 | 2002-02-07 | Si Han Kim | Information searching system and method thereof |
WO2002029637A1 (en) * | 2000-09-30 | 2002-04-11 | Soo Sung Lee | System and method for searching a web site having an english-based domain name mapped to another language-based domain name by employing a web browser |
WO2005091170A1 (ja) * | 2004-03-18 | 2005-09-29 | Nec Corporation | テキストマイニング装置、その方法及びプログラム |
JPWO2005091170A1 (ja) * | 2004-03-18 | 2008-02-07 | 日本電気株式会社 | テキストマイニング装置、その方法及びプログラム |
JP4525936B2 (ja) * | 2004-03-18 | 2010-08-18 | 日本電気株式会社 | テキストマイニング装置、その方法及びプログラム |
US8612207B2 (en) | 2004-03-18 | 2013-12-17 | Nec Corporation | Text mining device, method thereof, and program |
JP2020021501A (ja) * | 2019-10-04 | 2020-02-06 | 株式会社インタラクティブソリューションズ | スライド検索装置、スライド検索システム、スライド検索方法及びスライド検索プログラム |
JP7126168B2 (ja) | 2019-10-04 | 2022-08-26 | 株式会社インタラクティブソリューションズ | スライド検索装置、スライド検索システム、スライド検索方法及びスライド検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3309077B2 (ja) | 2002-07-29 |
US6219664B1 (en) | 2001-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3309077B2 (ja) | 構文情報を用いた検索方法およびシステム | |
JP5788015B2 (ja) | 複数の粒度でのテキスト分割 | |
JP4173774B2 (ja) | 重み付き編集距離に基づく例文の自動検索用システムおよび方法 | |
JP4726528B2 (ja) | マルチセンスクエリについての関連語提案 | |
US7519903B2 (en) | Converting a structured document using a hash value, and generating a new text element for a tree structure | |
CN112035598A (zh) | 一种智能语义检索方法、系统和电子设备 | |
JP3266586B2 (ja) | データ分析システム | |
JP2005302041A (ja) | キーワードとWebサイトのコンテンツとの間の関連性の検証 | |
JP2015525929A (ja) | 検索品質を改善するための重みベースのステミング | |
CN109657053A (zh) | 多文本摘要生成方法、装置、服务器及存储介质 | |
AU2018250372A1 (en) | Method to construct content based on a content repository | |
JP2004280574A (ja) | 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体 | |
CN112836057A (zh) | 知识图谱的生成方法、装置、终端以及存储介质 | |
KR20220130863A (ko) | 음성-텍스트 변환 영상 리소스 매칭 기반 멀티미디어 변환 콘텐츠 제작 서비스 제공 장치 | |
JP6787755B2 (ja) | 文書検索装置 | |
JP4170325B2 (ja) | 辞書の妥当性を評価する装置、方法およびプログラム | |
JP4298342B2 (ja) | 重要度算出装置 | |
KR20220130864A (ko) | 음성 데이터를 멀티미디어 변환 콘텐츠로 제작하는 서비스 제공 시스템 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP2962287B2 (ja) | 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体 | |
JP2004086307A (ja) | 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム | |
CN111931026A (zh) | 一种基于词性扩展的搜索优化方法及系统 | |
JP4484957B1 (ja) | 検索式生成装置、検索式生成方法、およびプログラム | |
JP5644087B2 (ja) | 構成要素ハイライト装置、プログラム、及び方法 | |
JP2002251401A (ja) | 文書検索装置および方法ならびに記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |