JP5127751B2 - 情報検索装置及び方法 - Google Patents

情報検索装置及び方法 Download PDF

Info

Publication number
JP5127751B2
JP5127751B2 JP2009068899A JP2009068899A JP5127751B2 JP 5127751 B2 JP5127751 B2 JP 5127751B2 JP 2009068899 A JP2009068899 A JP 2009068899A JP 2009068899 A JP2009068899 A JP 2009068899A JP 5127751 B2 JP5127751 B2 JP 5127751B2
Authority
JP
Japan
Prior art keywords
search
unit
specific expression
class
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009068899A
Other languages
English (en)
Other versions
JP2010224675A (ja
Inventor
康顕 有賀
寛子 藤井
優 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009068899A priority Critical patent/JP5127751B2/ja
Publication of JP2010224675A publication Critical patent/JP2010224675A/ja
Application granted granted Critical
Publication of JP5127751B2 publication Critical patent/JP5127751B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報検索装置及び方法に関する。
近年では、インターネットの普及や文書などの情報の電子化の普及に伴い、様々な情報が電子的に蓄積され、それらに対して検索が行われている。こうした検索の際にユーザは、キーワードや自然文を用いた入力を行って所望の情報へアクセスしている。このような検索は、例えば、HDDレコーダ内に備えられるデータベース内でテレビの番組情報や音楽再生機器内に備えられるデータベース内で楽曲について行なわれることがある。このようなデータベースに対して検索を行う場合、入力された複数のキーワードのAND条件を求めたり、自然文のテキストを解析してキーワードを抽出したりして、キーワードを含む情報を検索する方法がある。しかしながらこの方法では、ユーザが入力するキーワードやユーザが想到するキーワードが、対象のデータベースに記憶されている情報自体に含まれているとは限らないという問題がある。
この問題を解決する方法として、キーワードを拡張するための工夫が提案されている。例えば特許文献1では、共起する言葉についての拡張データベースを利用してキーワードを拡張する技術が開示されている。また、特許文献2では、検索文から取得されたキーワードから、統計的に頻度が高い関連語を取得しこれをキーワードとして用いて検索を行う技術が開示されている。
特開2004−29906号公報 特許第3607462号公報
しかしながら、特許文献1の技術では、例えばテレビの番組情報の検索であればキーワードとなりえる人名として新規な人名が日々現れる可能性などがあり、全てのキーワードについて拡張データベースを構築することが困難である。一方、特許文献2の技術では、抽象的なキーワードに対して具体的なキーワードが取得できるとは限らず、キーワードの候補が多岐にわたって提示されるため、ユーザが実際に所望している情報に必ずしもたどり着けない問題がある。例えばテレビの番組情報の検索において、「和食のレシピが知りたい」という検索文に対し、具体的な料理名ではなく、「簡単」、「家庭料理」や「朝食」という関連語がキーワードの候補として取得される。このようなキーワードを用いて検索を行った場合、ユーザが実際に所望している情報とは異なる情報が数多く得られる可能性があり、ユーザが所望する情報を見つけ出すことは困難であった。
本発明は、上記に鑑みてなされたものであって、情報の検索において、ユーザの操作にかかる負荷を減少させると共に、ユーザが所望する文書情報を容易に得ることを支援可能な情報検索装置及び方法を提供する。
上述した課題を解決し、目的を達成するために、本発明は、文書データベースを検索する情報検索装置において、検索文の入力を受け付ける入力受付部と、前記検索文を解析して、前記検索文に含まれる少なくとも1つの言葉の属するクラスである固有表現クラス、検索に用いるキーワード及び前記固有表現クラスを拡張する手がかりとなる手がかり表現を取得する解析部と、前記手がかり表現と、取得された前記固有表現クラスを含む少なくとも1つ以上の前記固有表現クラスとを対応付けて記憶する記憶部と、前記手がかり表現と対応付けられて記憶された前記固有表現クラスを用いて、前記解析部が取得した前記固有表現クラスを拡張する拡張部と、前記キーワード及び拡張された前記固有表現クラスを用いて、前記文書データベースから、共起語を検索する第1検索部と、前記キーワード及び前記共起語を用いて前記文書データベースを検索する第2検索部と、前記第2検索部の検索結果を出力する出力部とを備えることを特徴とする。
また、本発明は、入力受付部と、解析部と、記憶制御部と、拡張部と、第1検索部と、第2検索部と、出力部とを備え、文書データベースを検索する情報検索装置で実行される情報検索方法であって、前記入力受付部が、検索文の入力を受け付ける入力受付ステップと、前記解析部が、前記検索文を解析して、前記検索文に含まれる少なくとも1つの言葉の属するクラスである固有表現クラス、検索に用いるキーワード及び前記固有表現クラスを拡張する手がかりとなる手がかり表現を取得する解析ステップと、前記記憶制御部が、前記手がかり表現と、取得された前記固有表現クラスを含む少なくとも1つ以上の前記固有表現クラスとを対応付けて記憶部に記憶する記憶制御ステップと、前記拡張部が、前記手がかり表現と対応付けられて記憶された前記固有表現クラスを用いて、前記解析部が取得した前記固有表現クラスを拡張する拡張ステップと、前記第1検索部が、前記キーワード及び拡張された前記固有表現クラスを用いて、前記文書データベースから、共起語を検索する第1検索ステップと、前記第2検索部が、前記キーワード及び前記共起語を用いて前記文書データベースを検索する第2検索ステップと、前記出力部が、前記第2検索ステップの検索の結果を出力する出力ステップとを含むことを特徴とする。
本発明によれば、情報の検索において、ユーザの操作にかかる負荷を減少させると共に、ユーザが所望する文書情報を容易に得ることが支援可能になる。
図1は、第1の実施の形態にかかる情報検索装置20の機能的構成を例示する図である。 図2は、内部文書データベース209に記憶された番組情報を例示する図である。 図3は、検索文の形態素解析の結果を例示する図である。 図4は、図3の例に対し、第1のキーワードとなる言葉に対応する固有表現クラスを例示する図である。 図5は、固有表現クラス拡張知識蓄積部205に対応付けて記憶されている手がかり表現、固有表現クラス及びその頻度情報を例示する図である。 図6は、外部文書データベース210に記憶された文書情報を例示する図である。 図7は、同実施の形態にかかる情報検索装置20の行う情報検索処理の手順を示すフローチャートである。 図8は、検索文についての解析結果を例示する図である。 図9は、固有表現クラス拡張知識蓄積部205に対応付けて記憶されている手がかり表現、固有表現クラス及びその頻度情報を例示する図である。 図10は、図8に示した検索文の解析結果について、固有表現クラスを拡張した例を示す図である。 図11は、ステップS9で拡張した固有表現クラス及びその頻度情報を例示する図である。 図12は、共起語を検索するために用いるキーワード及び拡張された固有表現クラスを例示する図である。 図13は、検索の結果得られた共起語を例示する図である。 図14は、ステップS13で検索を行なう際の検索条件を例示する図である。 図15は、提示される検索結果を例示する図である。 図16は、第2の実施の形態にかかる情報検索装置20の行う情報検索処理の手順を示すフローチャートである。 図17は、固有表現クラス「料理名」に属する拡張語を例示する図である。
以下に添付図面を参照して、この発明にかかる情報検索装置及び方法の最良な実施の形態を詳細に説明する。
(1)構成
以下に添付図面を参照して、この発明にかかる情報検索装置の最良な実施の形態を詳細に説明する。ここで、情報検索装置のハードウェア構成について説明する。本実施の形態の情報検索装置は、装置全体を制御するCPU(Central Processing Unit)等の制御部と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部と、これらを接続するバスとを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、情報検索装置には、情報を表示する表示部と、ユーザの指示入力を受け付けるキーボードやマウス等の操作入力部と、外部装置の通信を制御する通信I/F(interface)とが有線又は無線により各々接続される。
次に、このようなハードウェア構成において、情報検索装置のCPUが記憶装置や外部記憶部に記憶された各種プログラムを実行することにより実現される各種機能について説明する。図1は、情報検索装置20の機能的構成を例示する図である。情報検索装置20は、検索文入力受付部201、固有表現抽出部202、検索文解析部203、固有表現知識格納部204、固有表現クラス拡張知識蓄積部205、検索部206、固有表現クラス拡張部207、共起語探索部208、内部文書データベース209、検索結果提示部211及び固有表現辞書200を有する。検索文入力受付部201、固有表現抽出部202、検索文解析部203、固有表現知識格納部204、検索部206、固有表現クラス拡張部207、共起語探索部208及び検索結果提示部211は、CPUのプログラム実行時にRAMなどの記憶部上に生成されるものである。固有表現クラス拡張知識蓄積部205、内部文書データベース209及び固有表現辞書200は、HDDなどの記憶部に記憶されるものである。尚、同図において示される外部文書データベース210は、情報検索装置20の外部にあるWebサーバに備えられ、例えばネットワーク(図示せず)を介して情報検索装置20と接続される。ネットワークとは、例えば、LAN(Local Area Network)、イントラネット、イーサネット(登録商標)又はインターネットなどである。
固有表現辞書200は、固有表現と固有表現クラスとを対応付けて記憶する。固有表現とは、例えば固有名詞や数量表現といった名詞に分類される言葉を少なくとも1つ含む。具体的には、固有表現は、普通名詞である「和食」や、固有名詞である「卵焼き」や「鱚の天ぷら」などである。また、固有表現を、「「魚」の「天ぷら」」などのように普通名詞と固有名詞との組み合わせにより構成し、魚に該当する「鱚」や「鯵」や「鰯」などの固有名詞と「天ぷら」との組み合わせを全て1つの固有表現に含むようにしても良い。固有表現クラスとは、例えば、固有表現となる言葉の属するクラスであり、料理名、料理ジャンル名、人名、組織名、地名、金額や、テレビの番組名、番組の放送の日付、番組の放送の時間などである。例えば、「和食」という固有表現に対しては、「料理ジャンル名」と固有表現クラスが対応付けられている。
内部文書データベース209は、文書情報を記憶する。ここでは、内部文書データベース209は、限定的な文書情報としてテレビの番組情報を記憶する。図2は、内部文書データベース209に記憶された番組情報を例示する図である。番組情報は、テキスト形式の情報であり、例えば電子番組表(EPG)における番組名や出演者名、放送局名や、番組内容のカテゴリーとしてのジャンルなどの各情報を含む。尚、このような内部文書データベース209を有する情報検索装置20は、例えば、テレビやHDDレコーダなどの家庭電化機器に相当する。
検索文入力受付部201は、ユーザの所望する情報を検索するための検索文の入力を受け付ける。検索文は、例えば、キーボードなどの操作入力部や、操作入力部と表示部とが一体的に構成されたタッチパネルなどを介してユーザにより入力される。尚、情報検索装置20はマイクなどの音声入力部を備え、音声入力部を介して入力された音声を文字列に変換し、検索文入力受付部201はこの文字列を検索文としてその入力を受け付けるようにしても良い。また、情報検索装置20がカメラなどの撮影部を備え、ユーザが紙などに書いた検索文を表す画像を撮影部を介して取得し、検索文入力受付部201は、当該画像を解析して検索文を取得するようにしても良い。
固有表現抽出部202は、検索文入力受付部201が入力を受け付けた検索文に対して形態素解析を行なって、検索文を形態素単位に分解し、分解した形態素の中から第1のキーワードとなる言葉を抽出し、固有表現辞書200を用いて、当該言葉の属する固有表現クラスを取得する。図3は、例えば「和食のレシピが知りたい」という検索文の形態素解析の結果を例示する図である。同図に示されるように、検索文に含まれる全ての語が、「名詞」、「付属語」、「動詞」などの各形態素に各々分類されて分解される。尚、第1のキーワードとなる言葉は、例えば、名詞であると解析された形態素のうち少なくとも1つであるとする。図4は、図3の例に対し、第1のキーワードとなる言葉に対応する固有表現クラスを例示する図である。同図においては、第1のキーワードとして「和食」が抽出され、これに対応する固有表現クラスとして「料理ジャンル名」が取得されることが示されている。
検索文解析部203は、検索文入力受付部201が入力を受け付けた検索文を解析して、第2のキーワード、当該第2のキーワードに関連する手がかり表現、ジャンル及びユーザの意図するタスクを取得する。手がかり表現とは、固有表現クラスを拡張する手がかりとなる表現である。この手がかり表現は、例えば、「のレシピ」「の試合」「のライブ」などであり、HDDなどの外部記憶部に予め記憶されている。また、手がかり表現は、第2のキーワードを特定するものとなる。ここでは、この手がかり表現に前置される名詞が第2のキーワードとして特定される。例えば、「和食のレシピが知りたい」という検索文については、手がかり表現「のレシピ」に対して「和食」が第2のキーワードとして特定される。尚、上述の第1のキーワードと第2のキーワードとは同一であっても良いし異なっていても良い。ジャンルは、上述した番組情報によって示されるものであり、例えば、手がかり表現に含まれる「レシピ」という言葉から推測される。この推測は、例えば、言葉とジャンルとを対応付けて記憶するジャンル推定辞書(図示せず)を用いて行なう。タスクの解析は、質問応答技術における回答タイプ判定などを用いることで実現できる。
固有表現知識格納部204は、固有表現抽出部202で取得した固有表現クラス及び検索文解析部203で取得した手がかり表現について、これらが固有表現クラス拡張知識蓄積部205に既に記憶されていれば、これらの頻度情報を更新する。頻度情報は、手がかり表現と固有表現クラスとが共起した頻度を示す情報であり、過去に検索文解析部203が解析した検索文において手がかり表現及び固有表現クラスが同時に出現した頻度(出現頻度という)を示す。尚、固有表現抽出部202で取得した固有表現クラス及び検索文解析部203で取得した手がかり表現が固有表現クラス拡張知識蓄積部205に記憶されていなければ、固有表現知識格納部204は、これらと、「1」を示す頻度情報とを対応付けて固有表現クラス拡張知識蓄積部205に記憶させる。図5は、固有表現クラス拡張知識蓄積部205に対応付けて記憶されている手がかり表現、固有表現クラス及びその頻度情報を例示する図である。同図においては、手がかり表現は「のレシピ」、「の試合」、「のライブ」であることが示されている。また、「のレシピ」という手がかり表現に対応する各固有表現クラスは、「料理名」、「料理ジャンル名」、「人名」であることが示されている。また、手がかり表現及び固有表現クラスの各組について、これらが共起した頻度(出現頻度)が頻度情報として各々示されている。
固有表現クラス拡張知識蓄積部205は、固有表現知識格納部204の制御の下、固有表現クラス、手がかり表現及び頻度情報を対応付けて記憶し、固有表現クラス拡張部207からの問い合わせに応じて、手がかり表現、固有表現クラス及び頻度情報を出力する。
検索部206は、固有表現抽出部202が取得した固有表現クラス、検索文解析部203が取得した第2のキーワード及び手がかり表現を用いて、内部文書データベース209を検索する。この検索の結果該当する番組情報が存在しない場合、検索部206は、検索文解析部203が取得した第2のキーワード及び後述する共起語探索部208が検索した共起語を用いて、内部文書データベース209を検索する。
固有表現クラス拡張部207は、固有表現抽出部202が取得した固有表現クラスを用いて検索部206が検索を行なった結果該当する番組情報が存在しない場合、固有表現クラスを拡張すると共に、拡張した固有表現クラスの頻度情報を取得する。具体的には、固有表現クラス拡張部207は、検索部206が検索に用いた手がかり表現を用いて、固有表現クラス拡張知識蓄積部205に記憶されている固有表現クラスのうち、検索部206が検索に用いていない固有表現クラスを取得することにより、固有表現クラスを拡張する。また、固有表現クラス拡張部207は、拡張した固有表現クラス及び手がかり表現の組に対応付けられている頻度情報を取得する。
共起語探索部208は、固有表現抽出部202が取得した固有表現クラスを用いて検索部206が検索を行なった結果該当する番組情報が存在しない場合、検索文解析部203が取得した第2のキーワード及び固有表現クラス拡張部207が拡張した固有表現クラスと共起する言葉(共起語という)を、内部文書データベース209及び外部文書データベース210のうち少なくとも一方において検索する。尚、共起語を検索する方法には従来から知られている方法を用いれば良い。
検索結果提示部211は、検索部206が内部文書データベース209を検索して得られた番組情報を、検索部206が参照した固有表現クラスの頻度情報を用いてソートして出力することにより、検索結果をユーザに提示する。例えば、検索結果提示部211は、番組情報のリストを生成してこれを表示部に表示させる。また、情報検索装置20が音声を出力する音声出力部を備え、当該番組情報を表す音声を音声出力部から出力するようにしても良い。
外部文書データベース210は、例えばHTML(HyperText Markup Language)で記述された文書情報や画像などの各種情報を記憶する。図6は、外部文書データベース210に記憶された文書情報を例示する図である。外部文書データベース210には、上述した番組情報に限定されず、様々な文書情報が記憶され得る。
(2)動作
次に、本実施の形態にかかる情報検索装置20の行う情報検索処理の手順について図7を用いて説明する。ステップS1では、情報検索装置20は、まず、検索文入力受付部201の機能により、ユーザが入力した検索文の入力を受け付ける。例えば、上述した「和食のレシピが知りたい」という検索文の入力が受け付けられる。ステップS2では、情報検索装置20は、固有表現抽出部202の機能により、ステップS1で入力が受け付けられた検索文に対して形態素解析を行って、図3に例示したように、検索文を形態素単位に分解する。ステップS3では、情報検索装置20は、ステップS2で分解した形態素の中から第1のキーワードとなる言葉を抽出して、固有表現辞書200を参照して、図4に例示したように、当該言葉に対応する固有表現クラスを取得する。
ステップS4では、情報検索装置20は、検索文解析部203の機能により、検索文を解析して、第2のキーワード、当該第2のキーワードに関連する手がかり表現、ジャンル及びユーザの意図するタスクを取得する。図8は、「和食のレシピが知りたい」という検索文についての解析結果を例示する図である。尚、同図においては、ステップS3で取得したキーワードと固有表現クラスが示されている。また、第1のキーワードと第2のキーワードとが同一の「和食」であることが示されている。尚、第1のキーワードと第2のキーワードとを区別する必要がない場合、以降、単にキーワードと記載する。同図には、キーワードに対応する固有表現クラスは「料理ジャンル名」であり、手がかり表現は「のレシピ」であり、ジャンルが「料理」であり、タスクが「検索」であることが示されている。
図7の説明に戻る。ステップS5では、情報検索装置20は、固有表現知識格納部204の機能により、ステップS3で取得した固有表現クラス及びステップS4で取得した手がかり表現について、これらが固有表現クラス拡張知識蓄積部205に既に記憶されていれば、これらの頻度情報を更新する。ステップS3で取得した固有表現クラス及びステップS4で取得した手がかり表現が固有表現クラス拡張知識蓄積部205に記憶されていなければ、情報検索装置20は、これらと、「1」を示す頻度情報とを対応付けて固有表現クラス拡張知識蓄積部205に記憶させる。図8の例では固有表現クラスが「料理ジャンル名」であり手がかり表現は「のレシピ」である。これらの固有表現クラス及び手がかり表現については、固有表現クラス拡張知識蓄積部205に既に記憶されている。このため、ステップS6では、その出現頻度が「1」インクリメントされ、固有表現クラス拡張知識蓄積部205では、図5に示した状態から図9に示した状態に頻度情報が更新される。
図7の説明に戻る。ステップS7では、情報検索装置20は、検索部206の機能により、ステップS3で取得した固有表現クラス、ステップS4で取得したキーワード及び手がかり表現を用いて内部文書データベース209を検索する。具体的には、検索文が「和食のレシピを知りたい」である場合、情報検索装置20は、キーワード「和食」、固有表現クラス「料理ジャンル名」及び手がかり表現「のレシピ」を用いて内部文書データベース209を検索する。ステップS8では、情報検索装置20は、検索の結果、該当する番組情報があったか否かを判定する。該当する番組情報が存在する場合には(ステップS8:NO)、ステップS14に進む。該当する番組情報がなかった場合(ステップS8:YES)、ステップS9では、情報検索装置20は、固有表現クラス拡張部207の機能により、ステップS7で検索に用いた手がかり表現に対応して固有表現クラス拡張知識蓄積部205に記憶されている固有表現クラスを参照し、このうち、ステップS7で検索に用いたもの以外の固有表現クラスを取得する。これにより、情報検索装置20は、検索に用いる固有表現クラスを拡張する。図10は、図8に示した検索文の解析結果について、固有表現クラスを拡張した例を示す図である。同図では、「料理名」及び「人名」が、拡張された固有表現クラスとして示されている。
図7の説明に戻る。ステップS10では、情報検索装置20は、ステップS9で拡張した固有表現クラスの頻度情報を固有表現クラス拡張知識蓄積部205から取得する。図11は、ステップS9で拡張した固有表現クラス及びその頻度情報を例示する図である。同図には、図8,10に示した固有表現クラス拡張知識蓄積部205に記憶された該当の固有表現クラス及びその頻度情報が示されている。ステップS11では、情報検索装置20は、共起語探索部208の機能により、ステップS9で拡張した固有表現クラス及びステップS4で取得したキーワードを用いて、これらと共起する共起語を内部文書データベース209及び外部文書データベース210のうち少なくとも一方において検索する。図12は、共起語を検索するために用いるキーワード及び拡張された固有表現を例示する図である。同図に示されるように、共起語の検索には、キーワード「和食」と、拡張された固有表現である「料理名」及び「人名」とが用いられる。
図13は、検索の結果得られた共起語を例示する図である。同図に示されるように、キーワード「和食」と固有表現クラス「料理名」の共起語として「鱚の天ぷら」や「おからのおやき」などの具体的な料理名が得られる。本実施の形態においてはオントロジには含まれていない可能性が高いこのような具体的な料理名を得ることができる。また、キーワード「和食」と固有表現クラス「人名」の共起語として「場道三六郎」や「村中明孝」などの具体的な人名が得られる。
図7の説明に戻る。ステップS12では、情報検索装置20は、ステップS4で取得した手がかり表現のうち処理を行っていない他の手がかり表現があるか否かを判定する。他の手がかり表現がある場合(ステップS12:YES)、ステップS9に戻る。他の手がかり表現がない場合(ステップS12:NO)、ステップS13では、情報検索装置20は、ステップS11で取得した共起語とステップS4で取得した第2のキーワード、ジャンル及びタスクとに基づいて、検索部206の機能により、内部文書データベース209を検索する。図14は、ステップS13で検索を行なう際の検索条件を例示する図である。同図には、第2のキーワード「和食」と、当該第2のキーワードと拡張された固有表現クラスとの共起語である「鱚の天ぷら」や「おからのおやき」や「場道三六郎」等を第3のキーワードとし、これらとジャンル「料理」とを用いて、タスクである「検索」を行なうことが検索条件として示されている。
図7の説明に戻る。ステップS14では、情報検索装置20は、検索結果提示部211の機能により、ステップS13の検索の結果得られた番組情報をユーザに提示する。尚、ステップS8の判定結果が肯定的となりステップS10〜S13の処理を行っている場合には、情報検索装置20は、ステップS13の検索の結果得られた番組情報を、ステップS10で取得した、固有表現クラスの頻度情報に応じてソートしてユーザに提示する。図15は、提示される検索結果を例示する図である。同図に示されるように、検索結果として得られた各番組情報の番組名が、拡張した固有表現クラスの頻度情報によって示される出現頻度が高い順に配列されている。このような検索によれば、抽象的なキーワードである「和食」という言葉が番組情報に含まれていない場合であっても、「和食」に関連する具体的な料理名である「鱚の天ぷら」や人名である「場道三六郎」といった言葉をキーワードとして検索に用いることができる。このため、ユーザの意図した検索が行うことができ、ユーザの所望する番組情報を容易に得ることが可能になる。
以上のようにして、検索文を解析して、固有表現クラス、キーワード及び手がかり表現を取得し、固有表現クラス及び手がかり表現をその頻度情報と共に記憶し、当該キーワード及び固有表現クラスを用いて検索を行なう。その検索の結果該当の番組情報が存在しない場合には、手がかり表現を用いて固有表現クラスを拡張し、拡張した固有表現クラス及びキーワードに共起する共起語を検索して、当該共起語を用いて再度検索を行なう。この結果、ユーザは明示していないもののその意図を反映した具体的なキーワードを用いて検索を行なうことができ、番組情報などの限定的な文書情報を記憶する文書データベースに対してもユーザの意図を適切に反映した検索が行うことができる。従って、ユーザが所望する文書情報を容易に得ることを支援することができる。
[第2の実施の形態]
次に、情報検索装置及び方法の第2の実施の形態について説明する。なお、上述の第1の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
(1)構成
上述の第1の実施の形態においては、情報検索装置20は、固有表現クラス、キーワード及び手がかり表現を用いて内部文書データベース209を検索した結果、該当の番組情報が存在しない場合、拡張した固有表現クラス及びキーワードを用いて共起語を検索した。本実施の形態においては、情報検索装置20は、この共起語を検索する前に、拡張した固有表現クラスに属する言葉(拡張語という)を内部文書データベース209において取得した後に、この拡張語及びキーワードを用いて共起語を検索する。このように共起語の候補を絞り込んだ上で、情報検索装置20は、共起語及びキーワードを用いて外部文書データベース210を検索する。このような本実施の形態にかかる情報検索装置20の機能的構成が上述の第1の実施の形態と異なる点は以下の通りである。
検索部206は、固有表現抽出部202が取得した固有表現クラス、検索文解析部203が取得した第2のキーワード及び当該第2のキーワードに関連する手がかり表現を用いて内部文書データベース209を検索した結果、該当する番組情報が存在しない場合、固有表現クラス拡張部207が拡張した固有表現クラスに属する拡張語を内部文書データベース209において検索する。拡張語とは、例えば、内容文書データベース209に対して固有表現クラスの抽出により取得された言葉の中で、拡張された当該固有表現クラスと同一の固有表現クラスに属する言葉である。そして、検索部206は、検索文解析部203が取得した第2のキーワード及び後述する共起語探索部208が検索した共起語を用いて、内部文書データベース209を検索する。
共起語探索部208は、固有表現抽出部202が取得した固有表現クラスを用いて検索部206が検索を行なった結果該当する番組情報が存在しない場合、検索文解析部203が取得した拡張語のうち、検索文解析部203が取得した第2のキーワードと共起する共起語となる拡張語を、外部文書データベース210において検索する。その他の機能的構成については上述の第1の実施の形態と同様であるためその説明を省略する。
(2)動作
本実施の形態にかかる情報検索装置20の行う情報検索処理の手順について図16を用いて説明する。ステップS1〜S10は上述の第1の実施の形態と同様である。ステップS20では、情報検索装置20は、ステップS9で拡張された固有表現クラスを用いて、検索部206の機能により、内部文書データベース209を検索し、固有表現クラス拡張部207により拡張された固有表現クラスに属する拡張語を取得する。例えば、固有表現クラスが「料理名」である場合、情報検索装置20は、固有表現クラスが「料理名」に属する言葉を拡張語として内部文書データベース209より取得する。図17は、固有表現クラス「料理名」に属する拡張語を例示する図である。同図に示されるように、内部文書データベース209における検索の結果、「鱚の天ぷら」や「おからのおやき」といった「和食」に関する料理名だけでなく、「ハンバーグ」や「回鍋肉」等の「和食」とは異なる料理ジャンル名に関する料理名が拡張語として得られる。
図16の説明に戻る。ステップS21では、情報検索装置20は、共起語探索部208の機能により、外部文書データベース210において、ステップS20で取得した拡張語のうち、ステップS4で取得したキーワードと共起する共起語となる拡張語を検索する。図17の例では、同図に示される拡張語のうち、「和食」というキーワードと共起する「鱚の天ぷら」や「おからのおやき」といった拡張語が、共起語の検索結果として得られる。ステップS12以降は上述の第1の実施の形態と同様である。尚、ステップS13では、ステップS21で得られた共起語と、ステップS4で取得したキーワード、ジャンル及びタスクとに基づいて、内部文書データベース209が検索されることになる。
以上のように、拡張した固有表現クラス及びキーワードと共起する共起語の検索の前に、拡張した固有表現クラスに属する拡張語を内部文書データベース209に予め取得して、共起語の範囲を予め絞り込む。これにより、検索の結果得られる番組情報の数が膨大になることを防ぎ、従って、ユーザが所望する番組情報を容易に得ることを支援することができる。例えば、拡張された固有表現クラス及びキーワードと共起する共起語が外部文書データベース210にて多数存在する場合に特に有効である。
[変形例]
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
<変形例1>
上述した各実施の形態において、情報検索装置20で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。
<変形例2>
上述した各実施の形態において、内部文書データベース209には検索の対象となる文書情報として番組情報が記憶されるようにしたが、これに限らず、例えば、内部文書データベース209には、検索の対象として、楽曲に関する楽曲情報や、楽曲情報を含む楽曲自体が記憶されるようにしても良い。このような内部文書データベース209を有する情報検索装置は、例えば、楽曲を再生する音楽再生機器に相当する。
また、情報検索装置20は、パーソナルコンピュータや携帯電話やゲーム機などの各種のコンピュータであっても良い。
<変形例3>
上述した各実施の形態において、情報検索装置20は、固有表現知識格納部204を備えたが、これを備えないようにしても良い。この場合、固有表現クラス拡張知識蓄積部205には、例えば、複数の検索文やWebサーバ等の外部文書データベースに記憶された文書情報に基づいて予め取得された手がかり表現及び固有表現クラスの組を予め記憶させておけば良い。
<変形例4>
上述した各実施の形態において、外部文書データベース210を検索するように構成したが、内部文書データベース209のみを検索するようにしても良い。
<変形例5>
上述した各実施の形態において、検索結果提示部211は、検索の結果得られた番組情報を、拡張した固有表現クラスの頻度情報を用いてソートしてユーザに提示するようにしたが、頻度情報を用いずに、当該番組情報をランダムにユーザに提示しても良い。
<変形例6>
上述した第2の実施の形態において、ステップS20では、情報検索装置20は、ステップS4で取得したジャンル(例えば「料理」)を用いて、内部文書データベース209の検索対象を予め絞り込んでも良い。即ち、ステップS20では、情報検索装置20は、ステップS9で拡張された固有表現クラス及びステップS4で取得したジャンルに共起する言葉を拡張語として取得する。このような構成によれば、拡張語をより効率的に取得することが可能になる。
20 情報検索装置
200 固有表現辞書
201 検索文入力受付部
202 固有表現抽出部
203 検索文解析部
204 固有表現知識格納部
205 固有表現クラス拡張知識蓄積部
206 検索部
207 固有表現クラス拡張部
208 共起語探索部
209 内部文書データベース
210 外部文書データベース
211 検索結果提示部

Claims (10)

  1. 文書データベースを検索する情報検索装置において、
    検索文の入力を受け付ける入力受付部と、
    前記検索文を解析して、前記検索文に含まれる少なくとも1つの言葉の属するクラスである固有表現クラス、検索に用いるキーワード及び前記固有表現クラスを拡張する手がかりとなる手がかり表現を取得する解析部と、
    前記手がかり表現と、取得された前記固有表現クラスを含む少なくとも1つ以上の前記固有表現クラスとを対応付けて記憶する記憶部と、
    前記手がかり表現と対応付けられて記憶された前記固有表現クラスを用いて、前記解析部が取得した前記固有表現クラスを拡張する拡張部と、
    前記キーワード及び拡張された前記固有表現クラスを用いて、前記文書データベースから、共起語を検索する第1検索部と、
    前記キーワード及び前記共起語を用いて前記文書データベースを検索する第2検索部と、
    前記第2検索部の検索結果を出力する出力部とを備える
    ことを特徴とする情報検索装置。
  2. 前記記憶部は、前記手がかり表現と、前記固有表現クラスと、当該手がかり表現及び当該固有表現クラスとが共起する出現頻度とを対応付けて記憶し、
    前記解析部が取得した前記固有表現クラス及び前記手がかり表現が前記記憶部に記憶されていない場合、これらを前記出現頻度と共に前記記憶部に記憶させ、前記固有表現クラス及び前記手がかり表現が前記記憶部に記憶されている場合、その前記出現頻度を更新する記憶制御部を更に備える
    ことを特徴とする請求項1に記載の情報検索装置。
  3. 前記出力部は、前記出現頻度を用いて前記検索の結果をソートして出力する
    ことを特徴とする請求項2に記載の情報検索装置。
  4. 前記拡張部は、前記解析部が取得した前記キーワード及び前記固有表現クラスを用いて前記第2検索部が前記文書データベースを検索した結果が得られない場合に、前記固有表現クラスを拡張する
    ことを特徴とする請求項1乃至3のいずれか一項に記載の情報検索装置。
  5. 前記拡張部は、前記解析部が取得した前記固有表現クラスとは異なるクラスであって、前記解析部が取得した前記手がかり表現と対応付けられて前記記憶部に記憶されている前記固有表現クラスを取得することにより、前記固有表現クラスを拡張する
    ことを特徴とする請求項1乃至4のいずれか一項に記載の情報検索装置。
  6. 前記第1検索部は、前記キーワード及び拡張された前記固有表現クラスと共起する言葉である前記共起語を、前記文書データベースから検索する
    ことを特徴とする請求項1乃至5のいずれか一項に記載の情報検索装置。
  7. 他の文書データベースに接続され、
    前記第1検索部は、前記文書データベース及び前記他の文書データベースのうち少なくとも一方において前記共起語を検索する
    ことを特徴とする請求項1乃至6のいずれか一項に記載の情報検索装置。
  8. 他の文書データベースに接続され、
    拡張された前記固有表現クラスに属する言葉である拡張語を前記文書データベースにおいて検索する第3検索部を更に備え、
    前記第1検索部は、前記キーワード及び前記拡張語と共起する言葉である前記共起語を、前記他の文書データベースから検索する
    ことを特徴とする請求項1乃至5のいずれか一項に記載の情報検索装置。
  9. 名詞に分類される言葉及び前記固有表現クラスを予め対応付けて記憶する辞書記憶部を更に備え、
    前記解析部は、
    前記検索文を形態素解析して、当該検索文に含まれ名詞であると解析された少なくとも1つの言葉に対応付けられて前記辞書記憶部に記憶されている前記固有表現クラスを取得する第1取得部と、
    前記検索文を解析して、前記キーワード及び前記手がかり表現を取得する第2取得部とを有する
    ことを特徴とする請求項1乃至8のいずれか一項に記載の情報検索装置。
  10. 入力受付部と、解析部と、記憶制御部と、拡張部と、第1検索部と、第2検索部と、出力部とを備え、文書データベースを検索する情報検索装置で実行される情報検索方法であって、
    前記入力受付部が、検索文の入力を受け付ける入力受付ステップと、
    前記解析部が、前記検索文を解析して、前記検索文に含まれる少なくとも1つの言葉の属するクラスである固有表現クラス、検索に用いるキーワード及び前記固有表現クラスを拡張する手がかりとなる手がかり表現を取得する解析ステップと、
    前記記憶制御部が、前記手がかり表現と、取得された前記固有表現クラスを含む少なくとも1つ以上の前記固有表現クラスとを対応付けて記憶部に記憶する記憶制御ステップと、
    前記拡張部が、前記手がかり表現と対応付けられて記憶された前記固有表現クラスを用いて、前記解析部が取得した前記固有表現クラスを拡張する拡張ステップと、
    前記第1検索部が、前記キーワード及び拡張された前記固有表現クラスを用いて、前記文書データベースから、共起語を検索する第1検索ステップと、
    前記第2検索部が、前記キーワード及び前記共起語を用いて前記文書データベースを検索する第2検索ステップと、
    前記出力部が、前記第2検索ステップの検索の結果を出力する出力ステップとを含む
    ことを特徴とする情報検索方法。
JP2009068899A 2009-03-19 2009-03-19 情報検索装置及び方法 Active JP5127751B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009068899A JP5127751B2 (ja) 2009-03-19 2009-03-19 情報検索装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009068899A JP5127751B2 (ja) 2009-03-19 2009-03-19 情報検索装置及び方法

Publications (2)

Publication Number Publication Date
JP2010224675A JP2010224675A (ja) 2010-10-07
JP5127751B2 true JP5127751B2 (ja) 2013-01-23

Family

ID=43041823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009068899A Active JP5127751B2 (ja) 2009-03-19 2009-03-19 情報検索装置及び方法

Country Status (1)

Country Link
JP (1) JP5127751B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2970443B2 (ja) * 1994-12-09 1999-11-02 松下電器産業株式会社 文書検索装置
JP4888677B2 (ja) * 2001-07-06 2012-02-29 独立行政法人情報通信研究機構 文書検索システム
JP4452527B2 (ja) * 2004-03-05 2010-04-21 株式会社ジャストシステム 文書検索装置、文書検索方法、および文書検索プログラム
JP2006106970A (ja) * 2004-10-01 2006-04-20 Canon Inc 情報検索装置、情報検索方法およびコンピュータプログラム
JP4398992B2 (ja) * 2007-03-29 2010-01-13 株式会社東芝 情報検索装置、情報検索方法及び情報検索プログラム

Also Published As

Publication number Publication date
JP2010224675A (ja) 2010-10-07

Similar Documents

Publication Publication Date Title
US8041718B2 (en) Processing apparatus and associated methodology for keyword extraction and matching
US20070118519A1 (en) Question answering system, data search method, and computer program
US8161056B2 (en) Database constructing apparatus and method
JPWO2006046390A1 (ja) 情報検索装置
JP6584795B2 (ja) 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム
JP2008287406A (ja) 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
JPH10275157A (ja) データ処理装置
KR20000050225A (ko) 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
JP5127751B2 (ja) 情報検索装置及び方法
JP2007199315A (ja) コンテンツ提供装置
JP2003308314A (ja) 文書作成支援装置
JP2011053996A (ja) Webブラウザ選択方法および装置
JP4477931B2 (ja) 検索リクエスト装置、検索リクエスト方法、検索リクエストプログラムおよび検索リクエストプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JP2003108584A (ja) 情報検索システム及びプログラム
JP6687078B2 (ja) 会議支援装置、会議支援装置の制御方法、及びプログラム
JP2008250893A (ja) 情報検索装置、情報検索方法およびそのプログラム
JP2009217741A (ja) メタデータ付与方法及び装置、並びにメタデータ付与プログラム
JP2008084192A (ja) 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム
JP2004152041A (ja) 重要語句抽出装置、プログラムおよび記録媒体
JP2009266065A (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム
JP2002269136A (ja) 文書検索システム及びプログラム
JP5843235B2 (ja) Web情報処理装置、web情報処理方法、およびプログラム
JP2009217367A (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121030

R151 Written notification of patent or utility model registration

Ref document number: 5127751

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350