JP5127751B2 - 情報検索装置及び方法 - Google Patents
情報検索装置及び方法 Download PDFInfo
- Publication number
- JP5127751B2 JP5127751B2 JP2009068899A JP2009068899A JP5127751B2 JP 5127751 B2 JP5127751 B2 JP 5127751B2 JP 2009068899 A JP2009068899 A JP 2009068899A JP 2009068899 A JP2009068899 A JP 2009068899A JP 5127751 B2 JP5127751 B2 JP 5127751B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- unit
- specific expression
- class
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下に添付図面を参照して、この発明にかかる情報検索装置の最良な実施の形態を詳細に説明する。ここで、情報検索装置のハードウェア構成について説明する。本実施の形態の情報検索装置は、装置全体を制御するCPU(Central Processing Unit)等の制御部と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部と、これらを接続するバスとを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、情報検索装置には、情報を表示する表示部と、ユーザの指示入力を受け付けるキーボードやマウス等の操作入力部と、外部装置の通信を制御する通信I/F(interface)とが有線又は無線により各々接続される。
次に、本実施の形態にかかる情報検索装置20の行う情報検索処理の手順について図7を用いて説明する。ステップS1では、情報検索装置20は、まず、検索文入力受付部201の機能により、ユーザが入力した検索文の入力を受け付ける。例えば、上述した「和食のレシピが知りたい」という検索文の入力が受け付けられる。ステップS2では、情報検索装置20は、固有表現抽出部202の機能により、ステップS1で入力が受け付けられた検索文に対して形態素解析を行って、図3に例示したように、検索文を形態素単位に分解する。ステップS3では、情報検索装置20は、ステップS2で分解した形態素の中から第1のキーワードとなる言葉を抽出して、固有表現辞書200を参照して、図4に例示したように、当該言葉に対応する固有表現クラスを取得する。
次に、情報検索装置及び方法の第2の実施の形態について説明する。なお、上述の第1の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
上述の第1の実施の形態においては、情報検索装置20は、固有表現クラス、キーワード及び手がかり表現を用いて内部文書データベース209を検索した結果、該当の番組情報が存在しない場合、拡張した固有表現クラス及びキーワードを用いて共起語を検索した。本実施の形態においては、情報検索装置20は、この共起語を検索する前に、拡張した固有表現クラスに属する言葉(拡張語という)を内部文書データベース209において取得した後に、この拡張語及びキーワードを用いて共起語を検索する。このように共起語の候補を絞り込んだ上で、情報検索装置20は、共起語及びキーワードを用いて外部文書データベース210を検索する。このような本実施の形態にかかる情報検索装置20の機能的構成が上述の第1の実施の形態と異なる点は以下の通りである。
本実施の形態にかかる情報検索装置20の行う情報検索処理の手順について図16を用いて説明する。ステップS1〜S10は上述の第1の実施の形態と同様である。ステップS20では、情報検索装置20は、ステップS9で拡張された固有表現クラスを用いて、検索部206の機能により、内部文書データベース209を検索し、固有表現クラス拡張部207により拡張された固有表現クラスに属する拡張語を取得する。例えば、固有表現クラスが「料理名」である場合、情報検索装置20は、固有表現クラスが「料理名」に属する言葉を拡張語として内部文書データベース209より取得する。図17は、固有表現クラス「料理名」に属する拡張語を例示する図である。同図に示されるように、内部文書データベース209における検索の結果、「鱚の天ぷら」や「おからのおやき」といった「和食」に関する料理名だけでなく、「ハンバーグ」や「回鍋肉」等の「和食」とは異なる料理ジャンル名に関する料理名が拡張語として得られる。
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
上述した各実施の形態において、情報検索装置20で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。
上述した各実施の形態において、内部文書データベース209には検索の対象となる文書情報として番組情報が記憶されるようにしたが、これに限らず、例えば、内部文書データベース209には、検索の対象として、楽曲に関する楽曲情報や、楽曲情報を含む楽曲自体が記憶されるようにしても良い。このような内部文書データベース209を有する情報検索装置は、例えば、楽曲を再生する音楽再生機器に相当する。
上述した各実施の形態において、情報検索装置20は、固有表現知識格納部204を備えたが、これを備えないようにしても良い。この場合、固有表現クラス拡張知識蓄積部205には、例えば、複数の検索文やWebサーバ等の外部文書データベースに記憶された文書情報に基づいて予め取得された手がかり表現及び固有表現クラスの組を予め記憶させておけば良い。
上述した各実施の形態において、外部文書データベース210を検索するように構成したが、内部文書データベース209のみを検索するようにしても良い。
上述した各実施の形態において、検索結果提示部211は、検索の結果得られた番組情報を、拡張した固有表現クラスの頻度情報を用いてソートしてユーザに提示するようにしたが、頻度情報を用いずに、当該番組情報をランダムにユーザに提示しても良い。
上述した第2の実施の形態において、ステップS20では、情報検索装置20は、ステップS4で取得したジャンル(例えば「料理」)を用いて、内部文書データベース209の検索対象を予め絞り込んでも良い。即ち、ステップS20では、情報検索装置20は、ステップS9で拡張された固有表現クラス及びステップS4で取得したジャンルに共起する言葉を拡張語として取得する。このような構成によれば、拡張語をより効率的に取得することが可能になる。
200 固有表現辞書
201 検索文入力受付部
202 固有表現抽出部
203 検索文解析部
204 固有表現知識格納部
205 固有表現クラス拡張知識蓄積部
206 検索部
207 固有表現クラス拡張部
208 共起語探索部
209 内部文書データベース
210 外部文書データベース
211 検索結果提示部
Claims (10)
- 文書データベースを検索する情報検索装置において、
検索文の入力を受け付ける入力受付部と、
前記検索文を解析して、前記検索文に含まれる少なくとも1つの言葉の属するクラスである固有表現クラス、検索に用いるキーワード及び前記固有表現クラスを拡張する手がかりとなる手がかり表現を取得する解析部と、
前記手がかり表現と、取得された前記固有表現クラスを含む少なくとも1つ以上の前記固有表現クラスとを対応付けて記憶する記憶部と、
前記手がかり表現と対応付けられて記憶された前記固有表現クラスを用いて、前記解析部が取得した前記固有表現クラスを拡張する拡張部と、
前記キーワード及び拡張された前記固有表現クラスを用いて、前記文書データベースから、共起語を検索する第1検索部と、
前記キーワード及び前記共起語を用いて前記文書データベースを検索する第2検索部と、
前記第2検索部の検索結果を出力する出力部とを備える
ことを特徴とする情報検索装置。 - 前記記憶部は、前記手がかり表現と、前記固有表現クラスと、当該手がかり表現及び当該固有表現クラスとが共起する出現頻度とを対応付けて記憶し、
前記解析部が取得した前記固有表現クラス及び前記手がかり表現が前記記憶部に記憶されていない場合、これらを前記出現頻度と共に前記記憶部に記憶させ、前記固有表現クラス及び前記手がかり表現が前記記憶部に記憶されている場合、その前記出現頻度を更新する記憶制御部を更に備える
ことを特徴とする請求項1に記載の情報検索装置。 - 前記出力部は、前記出現頻度を用いて前記検索の結果をソートして出力する
ことを特徴とする請求項2に記載の情報検索装置。 - 前記拡張部は、前記解析部が取得した前記キーワード及び前記固有表現クラスを用いて前記第2検索部が前記文書データベースを検索した結果が得られない場合に、前記固有表現クラスを拡張する
ことを特徴とする請求項1乃至3のいずれか一項に記載の情報検索装置。 - 前記拡張部は、前記解析部が取得した前記固有表現クラスとは異なるクラスであって、前記解析部が取得した前記手がかり表現と対応付けられて前記記憶部に記憶されている前記固有表現クラスを取得することにより、前記固有表現クラスを拡張する
ことを特徴とする請求項1乃至4のいずれか一項に記載の情報検索装置。 - 前記第1検索部は、前記キーワード及び拡張された前記固有表現クラスと共起する言葉である前記共起語を、前記文書データベースから検索する
ことを特徴とする請求項1乃至5のいずれか一項に記載の情報検索装置。 - 他の文書データベースに接続され、
前記第1検索部は、前記文書データベース及び前記他の文書データベースのうち少なくとも一方において前記共起語を検索する
ことを特徴とする請求項1乃至6のいずれか一項に記載の情報検索装置。 - 他の文書データベースに接続され、
拡張された前記固有表現クラスに属する言葉である拡張語を前記文書データベースにおいて検索する第3検索部を更に備え、
前記第1検索部は、前記キーワード及び前記拡張語と共起する言葉である前記共起語を、前記他の文書データベースから検索する
ことを特徴とする請求項1乃至5のいずれか一項に記載の情報検索装置。 - 名詞に分類される言葉及び前記固有表現クラスを予め対応付けて記憶する辞書記憶部を更に備え、
前記解析部は、
前記検索文を形態素解析して、当該検索文に含まれ名詞であると解析された少なくとも1つの言葉に対応付けられて前記辞書記憶部に記憶されている前記固有表現クラスを取得する第1取得部と、
前記検索文を解析して、前記キーワード及び前記手がかり表現を取得する第2取得部とを有する
ことを特徴とする請求項1乃至8のいずれか一項に記載の情報検索装置。 - 入力受付部と、解析部と、記憶制御部と、拡張部と、第1検索部と、第2検索部と、出力部とを備え、文書データベースを検索する情報検索装置で実行される情報検索方法であって、
前記入力受付部が、検索文の入力を受け付ける入力受付ステップと、
前記解析部が、前記検索文を解析して、前記検索文に含まれる少なくとも1つの言葉の属するクラスである固有表現クラス、検索に用いるキーワード及び前記固有表現クラスを拡張する手がかりとなる手がかり表現を取得する解析ステップと、
前記記憶制御部が、前記手がかり表現と、取得された前記固有表現クラスを含む少なくとも1つ以上の前記固有表現クラスとを対応付けて記憶部に記憶する記憶制御ステップと、
前記拡張部が、前記手がかり表現と対応付けられて記憶された前記固有表現クラスを用いて、前記解析部が取得した前記固有表現クラスを拡張する拡張ステップと、
前記第1検索部が、前記キーワード及び拡張された前記固有表現クラスを用いて、前記文書データベースから、共起語を検索する第1検索ステップと、
前記第2検索部が、前記キーワード及び前記共起語を用いて前記文書データベースを検索する第2検索ステップと、
前記出力部が、前記第2検索ステップの検索の結果を出力する出力ステップとを含む
ことを特徴とする情報検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009068899A JP5127751B2 (ja) | 2009-03-19 | 2009-03-19 | 情報検索装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009068899A JP5127751B2 (ja) | 2009-03-19 | 2009-03-19 | 情報検索装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010224675A JP2010224675A (ja) | 2010-10-07 |
JP5127751B2 true JP5127751B2 (ja) | 2013-01-23 |
Family
ID=43041823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009068899A Active JP5127751B2 (ja) | 2009-03-19 | 2009-03-19 | 情報検索装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5127751B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931509A (zh) * | 2020-08-28 | 2020-11-13 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2970443B2 (ja) * | 1994-12-09 | 1999-11-02 | 松下電器産業株式会社 | 文書検索装置 |
JP4888677B2 (ja) * | 2001-07-06 | 2012-02-29 | 独立行政法人情報通信研究機構 | 文書検索システム |
JP4452527B2 (ja) * | 2004-03-05 | 2010-04-21 | 株式会社ジャストシステム | 文書検索装置、文書検索方法、および文書検索プログラム |
JP2006106970A (ja) * | 2004-10-01 | 2006-04-20 | Canon Inc | 情報検索装置、情報検索方法およびコンピュータプログラム |
JP4398992B2 (ja) * | 2007-03-29 | 2010-01-13 | 株式会社東芝 | 情報検索装置、情報検索方法及び情報検索プログラム |
-
2009
- 2009-03-19 JP JP2009068899A patent/JP5127751B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010224675A (ja) | 2010-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8041718B2 (en) | Processing apparatus and associated methodology for keyword extraction and matching | |
US20070118519A1 (en) | Question answering system, data search method, and computer program | |
US8161056B2 (en) | Database constructing apparatus and method | |
JPWO2006046390A1 (ja) | 情報検索装置 | |
JP6584795B2 (ja) | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム | |
JP2008287406A (ja) | 情報処理装置および情報処理方法、プログラム、並びに、記録媒体 | |
JPH10275157A (ja) | データ処理装置 | |
KR20000050225A (ko) | 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법 | |
JP2006343925A (ja) | 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム | |
JP5127751B2 (ja) | 情報検索装置及び方法 | |
JP2007199315A (ja) | コンテンツ提供装置 | |
JP2003308314A (ja) | 文書作成支援装置 | |
JP2011053996A (ja) | Webブラウザ選択方法および装置 | |
JP4477931B2 (ja) | 検索リクエスト装置、検索リクエスト方法、検索リクエストプログラムおよび検索リクエストプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2002288189A (ja) | 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体 | |
JP2003108584A (ja) | 情報検索システム及びプログラム | |
JP6687078B2 (ja) | 会議支援装置、会議支援装置の制御方法、及びプログラム | |
JP2008250893A (ja) | 情報検索装置、情報検索方法およびそのプログラム | |
JP2009217741A (ja) | メタデータ付与方法及び装置、並びにメタデータ付与プログラム | |
JP2008084192A (ja) | 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム | |
JP2004152041A (ja) | 重要語句抽出装置、プログラムおよび記録媒体 | |
JP2009266065A (ja) | 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム | |
JP2002269136A (ja) | 文書検索システム及びプログラム | |
JP5843235B2 (ja) | Web情報処理装置、web情報処理方法、およびプログラム | |
JP2009217367A (ja) | 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121002 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121030 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5127751 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151109 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |