JP2006215717A - 情報検索装置、情報検索方法および情報検索プログラム - Google Patents

情報検索装置、情報検索方法および情報検索プログラム Download PDF

Info

Publication number
JP2006215717A
JP2006215717A JP2005026491A JP2005026491A JP2006215717A JP 2006215717 A JP2006215717 A JP 2006215717A JP 2005026491 A JP2005026491 A JP 2005026491A JP 2005026491 A JP2005026491 A JP 2005026491A JP 2006215717 A JP2006215717 A JP 2006215717A
Authority
JP
Japan
Prior art keywords
search
document
synonym
keyword
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005026491A
Other languages
English (en)
Inventor
Yoshimi Saito
佳美 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005026491A priority Critical patent/JP2006215717A/ja
Publication of JP2006215717A publication Critical patent/JP2006215717A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ユーザにとって有用な情報を高精度で検索する情報検索装置を提供する。
【解決手段】検索を要求する式または文である検索要求情報から検索用語となりうるすべてのキーワードを抽出するキーワード抽出部102と、抽出したキーワードの類義語を類義語辞書120から取得する類義語取得部104と、キーワード抽出部102が抽出したキーワードと、類義語取得部104が取得した類義語とを指定して、検索対象の文書を記憶する検索対象文書DB123から文書を検索する文書検索部107と、文書検索部107が検索した文書のうち、少なくとも検索要求情報に含まれる係り受け関係にある複数の単語の対と、文書検索部107が検索した文書に含まれる係り受け関係にある複数の単語の対との関連する度合いを示す係り受け類似度が大きい文書ほど文書の優先順位を高く評価する検索結果評価部108とを備えた。
【選択図】 図1

Description

本発明は、大量の文書からユーザの希望する内容の文書を検索する情報検索装置、情報検索方法および情報検索プログラムに関し、特に、単にキーワードの一致する文書だけでなく、キーワードの意味内容が一致する文書を検索できる情報検索装置、情報検索方法および情報検索プログラムに関するものである。
近年、インターネットの検索エンジンに代表されるように、ユーザの検索要求に適合する文書を検索し、優先順位を付けて検索結果を提供する文書検索技術が広く普及している。一般的に、文書検索においては、なんらかの方法で入力されたキーワードまたは入力された文章から抽出されたキーワードを指定して文書を検索する。
一方、自然言語においては、ある言葉と同じような意味を別の言葉で表現することが可能である。例えば「文字列の頻度を認識する」という表現と「単語が出現した回数をカウントする」という表現は、どちらも同じような意味を表している。このため、上述のようなキーワードを指定した検索においては、前者を検索要求として指定した場合、抽出されたキーワード「文字列」「頻度」「認識」から、後者の文を検索することが困難となる。
これに対し、ある表現に対し同じ意味内容を表す別の表現であるパラフレーズ表現の候補を検索するパラフレーズ表現検索と呼ばれる技術が開発されている。このようなパラフレーズ表現検索の一手法としては、予め定義された類義語の辞書を参照し、キーワードを類義語に置き換えた検索要求により検索を行うという技術が開発されている。
また、入力された文章から抽出されたキーワード間の構文情報、意味情報、文脈情報などの概念情報を事前に登録し、情報検索時のこの概念情報を利用することにより、情報検索の精度を向上させる技術が開示されている(例えば、特許文献1)。
特開平11−259524号公報
しかしながら、キーワードを類義語に置き換えて検索する方法においては、置き換える類義語の数を増加させれば、ユーザが求める文書がより多く検索されるようになるが、不必要な文書が検索される数も多くなるという問題があった。すなわち、ユーザにとって有用でない不適切な文書が検索されてしまうという問題があった。
また、特許文献1の方法においては、文章中のキーワード間の概念情報を利用することにより、概念が一致しない文書を排除して検索の精度を高めることができるが、類義語を使用して対象を広げる検索や、検索キーワードと検索された文書との類似度などを評価して検索結果の選別を行うような検索については行われていないため、ユーザにとって有用な情報を適切に検索することができない場合があるという問題があった。
本発明は、上記に鑑みてなされたものであって、検索条件を広げた場合であっても、不適切な検索候補文書を排除することにより、ユーザにとって有用な情報を高精度で検索することができる情報検索装置、情報検索方法および情報検索プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、情報検索装置において、検索対象の文書を記憶する検索対象文書記憶手段と、類義語を保持する類義語辞書を記憶する類義語辞書記憶手段と、検索を要求する式または文である検索要求情報から検索用語となりうるすべてのキーワードを抽出するキーワード抽出手段と、前記キーワード抽出手段が抽出したキーワードの類義語を前記類義語辞書から取得する類義語取得手段と、前記キーワード抽出手段が抽出したキーワードと、前記類義語取得手段が取得した類義語とを指定して、前記検索対象文書記憶手段から文書を検索する文書検索手段と、前記文書検索手段が検索した文書のうち、少なくとも前記検索要求情報に含まれる係り受け関係にある複数の単語の対と、前記文書検索手段が検索した文書に含まれる係り受け関係にある複数の単語の対との関連する度合いを示す係り受け類似度を算出し、算出した前記係り受け類似度が大きい文書ほど文書の優先順位を高く評価する検索結果評価手段と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる情報検索方法および情報検索プログラムである。
本発明によれば、検索を要求する式または文である検索要求情報に含まれる係り受け関係にある複数の単語の対と検索文書に含まれる係り受け関係にある複数の単語の対との関連する度合いを示す係り受け類似度が大きい文書ほど優先順位を高くすることができる。このため、類義語を使用することにより検索条件を広げて文書を検索した場合であっても、不適切な検索候補文書を排除し、ユーザが頻繁に使用するキーワードに関連した有用な情報を高精度で取得することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる情報検索装置、情報検索方法および情報検索プログラムの最良な実施の形態を詳細に説明する。
本実施の形態にかかる情報検索装置は、検索対象とする文書および検索キーワードを事前に登録し、入力された検索要求情報から抽出されたキーワードおよびそのキーワードの類義語や意味属性を使用して検索対象とする文書から情報を検索した結果を、検索要求情報と検索文書の係り受け類似度等により優先順位付けして画面に表示するものである。
ここで、検索要求情報とは、検索を要求する式または文であり、検索を要求する文は、ユーザが直接入力してもよいし、予め記憶手段に保存された文章を一意に識別する識別子を指定することにより、その文章全体を、検索を要求する文として指定してもよい。以下、検索要求情報の種類として、検索を要求する式を「検索式」、ユーザが直接入力する文を「検索要求文」、識別子による文書の指定を「文書指定」と呼ぶ。
また、意味属性とは、単語の表記そのものではなく、意味や概念を表す属性をいう。例えば、単語「乗員」、「乗客」の意味属性は「人」であり、単語「旅客機」、「ジェット機」、「航空機」の意味属性は「乗り物」である。
また、係り受け類似度とは、検索要求情報に含まれる係り受け関係にある複数の単語の対と、検索した文書に含まれる係り受け関係にある複数の単語の対との関連する度合いを示す値をいう。係り受け類似度の算出方法については後述する。
図1は、本実施の形態にかかる情報検索装置100の構成を示すブロック図である。同図に示すように、情報検索装置100は、入出力制御部101と、キーワード抽出部102と、類義語取得部104と、検索対象文書登録部105と、意味属性取得部106と、文書検索部107と、検索結果評価部108とを備えている。また、本実施の形態にかかる情報検索装置100は、ハードディスクドライブ装置(HDD:Hard Disk Drive)に類義語を保持する類義語辞書120と、文書DB(DataBase)121と、意味属性情報122と、検索対象文書DB123と、検索類義語リスト124と、検索キーワードリスト125とを備えている。
本実施の形態にかかる情報検索装置100は、インターネットやLAN(Local Area Network)などのネットワーク130を介して、検索要求の入力や検索結果の表示を行う入出力部132を備えるクライアント131と接続されている。
類義語辞書120は、単語と当該単語の類義語を対応付けて格納する辞書である。この辞書を参照することにより、後述する類義語取得部104が、検索のためのキーワードに対する類義語を取得することが可能となる。
入出力制御部101は、クライアント131上の入出力部132においてユーザにより入力された検索要求を受付け、検索結果をクライアント131上の入出力部132に出力する処理を制御する。
キーワード抽出部102は、形態素解析辞書(図示せず)を参照して検索要求情報を形態素解析し、検索用語となりうるすべてのキーワードを抽出する。検索類義語抽出部103は、検索要求情報内に並列または上位下位の関係にありその意味が互いに類似する複数の単語が存在する場合にそれらを類義語として抽出する処理を行う。類義語取得部104は、類義語辞書120を参照し、キーワード抽出部102が抽出したキーワードに対する類義語を取得する。
検索対象文書登録部105は、キーワード抽出部102が抽出したキーワードを使用して、文書DB121から文書を検索し、検索した文書を分割して検索対象文書DB123に登録する。
意味属性取得部106は、形態素解析辞書を参照して検索要求情報を形態素解析し、検索要求情報に含まれるキーワードを抽出するとともに、抽出したキーワードの意味属性を形態素解析辞書から取得する。
文書検索部107は、キーワード抽出部102が抽出したキーワード、類義語取得部104が取得した類義語、意味属性取得部106が取得した意味属性を使用して、検索対象文書DB123から文書を検索する。また、文書検索部107は、検索結果から、検索によりマッチしたキーワード、類義語、意味属性を含み、改行または句読点を境界とする文字数が最小となる文書である最小部分文書を取得する。
検索結果評価部108は、検索結果に含まれる単語と検索キーワードとが一致した個数、検索結果に含まれる単語の類義語と検索キーワードの類義語とが一致した個数、検索結果に含まれる単語の意味属性と検索キーワードの意味属性とが一致した個数、または係り受け類似度を判断し、これらの個数または類似度の値が大きいものほど優先順位を高くするように、検索結果の文書の優先順位づけを行う。
本実施の形態においては、検索結果評価部108は、検索結果に含まれる係り受け関係にある単語の対と検索キーワードに含まれる係り受け関係にある単語の対とのうち係り受け関係が一致した個数およびそのときの係り受けの距離の逆数の和、検索結果に含まれる係り受け関係にある単語の対のうち事前に登録された検索キーワードを含む対の個数が大きい場合に、係り受け類似度を大きく算出するように構成している。なお、これらは一例であり、検索要求情報に含まれる係り受け関係にある複数の単語の対と、文書検索部107が検索した文書に含まれる係り受け関係にある複数の単語の対との関連する度合いを示す値であれば、これらに限られるものではない。
文書DB121は、検索対象となる文書の基となる全文書を格納しているデータベースである。図2は、文書DB121のデータ構造の一例を示す説明図である。同図に示すように、文書DB121は、文書を一意に識別するための文書IDと、文書の内容とを対応付けて格納している。
意味属性情報122は、意味属性取得部106や、情報検索装置100以外の外部システムにより文書DB121内の各文書の意味属性を解析した結果を格納するものである。意味属性情報122は、検索対象文書DB123にキーワードの意味属性を格納する際に参照される。
図3は、意味属性情報122のデータ構造の一例を示す説明図である。同図に示すように、意味属性情報122は、文書DB121に格納された文書を一意に識別するための文書IDと、文書IDに対応する文書の先頭からの文字数を表す出現位置と、その位置における文字列と、当該文字列の意味属性とを対応付けて格納している。
検索対象文書DB123は、文書DB121を基にした検索の結果得られた文書を分割した部分文書と、検索に使用したキーワードやそのキーワードの意味属性を格納する。図4は、検索対象文書DB123のデータ構造の一例を示す説明図である。同図に示すように、検索対象文書DB123は、部分文書を一意に識別するための部分文書IDと、部分文書の内容と、部分文書の基になった文書の文書IDと、検索に使用したキーワードと、部分文書に含まれる単語の意味属性とを対応付けて格納している。検索対象文書DB123は、本発明における検索対象文書記憶手段に相当する。
検索類義語リスト124は、検索要求情報から検索類義語抽出部103が互いに類似する意味を有する複数の単語であるとして抽出した類義語のリストを格納する。検索類義語リスト124は、後に情報検索処理を実行するとき、類義語辞書120とともに、または類義語辞書120より優先的に参照して類義語を取得することにより、類義語取得の精度を高めるために使用される。
図5は、検索類義語リスト124のデータ構造の一例を示す説明図である。同図に示すように、検索類義語リスト124は、検索類義語のリストを一意に識別するためのIDと、検索類義語のリストとを対応付けて格納している。検索類義語リスト124は、本発明における検索類義語記憶手段に相当する。
同図に示す例では、例えば、「気流による、旅客機、ジェット機などの航空機のトラブル」という検索要求文が入力され、この検索要求文から互いに類似する意味を有する複数の単語として“旅客機”、“ジェット機”、“航空機”が抽出され、検索類義語リスト124に格納された状態が示されている。
検索キーワードリスト125は、検索に使用したキーワードのリストを格納する。検索キーワードリスト125は、後に情報検索処理を実行するとき、検索結果を評価するために参照される。検索キーワードリスト125は、本発明における検索キーワード記憶手段に相当する。
図6は、検索キーワードリスト125のデータ構造の一例を示す説明図である。同図に示すように、検索キーワードリスト125は、検索キーワードのリストを一意に識別するためのIDと、検索キーワードのリストとを対応付けて格納している。
同図に示す例では、例えば、「気流による、旅客機、ジェット機などの航空機のトラブル」という検索要求文が入力され、この検索要求文から検索用語として利用しうるキーワードとして“旅客機”、“ジェット機”、“航空機”、“気流”が抽出され、検索キーワードリスト125に格納された状態が示されている。
このように、検索類義語リスト124には、検索要求情報に含まれる単語のうち、互いに類似する意味を有する複数の単語のみが類義語として抽出され格納されるのに対し、検索キーワードリスト125には、検索要求情報に含まれる単語のうち検索キーワードとなりうるすべての単語が抽出され格納される点が異なっている。
次に、このように構成された本実施の形態にかかる情報検索装置100による情報検索処理について説明する。図7は、本実施の形態にかかる情報検索装置100おいて、検索対象文書を登録する処理の全体の流れを示すフローチャートである。
本実施の形態にかかる情報検索装置100においては、情報検索処理の前段階として、文書DB121から検索対象文書を取得し、そのときに使用した検索キーワードを検索キーワードリスト125に登録するとともに、取得した文書を検索対象文書DB123に登録する検索対象文書登録処理を実行する。通常、情報検索処理を実行する前に、システム管理者等により検索対象文書登録処理が実行される。また、ユーザが情報検索処理を実行するときに、同時に検索対象文書登録処理を行うように構成してもよい。以下、この検索対象文書登録処理について説明する。
まず、ユーザがクライアント131上の入出力部132から検索要求を入力すると、入出力制御部101が検索要求を受付ける(ステップS701)。次に、入出力制御部101が、検索要求情報の種類について判断する(ステップS702)。
ここで、検索要求情報の種類として、ユーザは検索式、検索要求文、文書指定の3種類を指定することができる。検索式の場合は、和(|)や積(&)などの一般的な論理式を使用して検索要求を指定する。検索要求文の場合は、自然言語の文章として検索要求を指定する。文書指定の場合は、文書DB121内の文書の文書IDを指定することにより検索要求を指定する。
図8は、検索要求情報の種類と指定の一例を示す説明図である。同図においては、検索要求として、検索式801、検索要求文802、文書指定803が示されている。検索式801は、“航空機”または“ジェット機”または“旅客機”を含み、かつ、“気流”を含む文書を検索する要求を表している。検索要求文802は、自然言語文の形式により、“気流による、旅客機、ジェット機などの航空機のトラブル”を検索要求として指定している。文書指定803は、文書IDが“0001”で指定される文書を指定している。
文書IDを指定した場合、形態素解析辞書を参照し、指定された文書IDに対応する文書を形態素解析して検索用語となりうるすべてのキーワードを抽出し、検索用のキーワードとする。このように、文書IDを指定して文書DB121を検索可能とすることにより、文書DB121から検索対象文書を取得する処理を効率的に実行することができるようになる。
図7に戻り、検索要求情報の種類が検索要求文であると判断された場合は(ステップS702:検索要求文)、キーワード抽出部102が、形態素解析辞書を参照して検索要求文を形態素解析し、検索用語となりうるすべてのキーワードを抽出する(ステップS703)。例えば、形態素解析の結果得られた単語のうち、すべての自立語を検索用のキーワードとして抽出するように構成することができる。
検索要求情報の種類が文書指定であると判断された場合は(ステップS702:文書指定)、キーワード抽出部102が、指定された文書IDに対応する文書を文書DB121から取得し、形態素解析辞書を参照して取得した文書を形態素解析し、キーワードを抽出する(ステップS704)。さらに、キーワード抽出部102が、抽出したキーワードから、出現頻度の高い順に予め定めた件数のキーワードを取得する(ステップS705)。
検索要求情報の種類が検索式であると判断された場合(ステップS702:検索式)、またはステップS703においてキーワードが抽出された後、またはステップS705においてキーワードが取得された後、検索類義語抽出部103が、検索要求内に含まれる互いに類似する意味を有する複数の単語を類義語情報として取得する(ステップS706)。
類義語情報の取得方法としては、例えば、検索式の中で論理式が和で表されている部分から並列関係にある単語を類義語として取り出す方法、検索要求文を形態素解析し、解析結果をパターンマッチングすることにより並列関係にある単語を類義語として取り出す方法が適用できる。なお、類義語情報の取得方法はこれらに限られるものではなく、検索要求内から類義語の関係にある複数の単語を取得する方法であればどのような方法であってもよい。
次に、検索類義語抽出部103が、ステップS706において取得した類義語情報と当該類義語情報を一意に識別するためのIDとを対応づけて検索類義語リスト124に登録する(ステップS707)。これにより、後に情報検索処理を実行するとき、類義語辞書120だけでなく、検索類義語リスト124に登録された類義語情報からも類義語を取得できるようになり、類義語取得の精度を高めることができる。
次に、類義語取得部104が、検索要求から抽出されたキーワードである抽出キーワード、すなわち、検索式内のキーワード、または検索要求文から抽出されたキーワード、または文書指定された文書から抽出され、出現頻度を参照して取得されたキーワードの類義語を、類義語辞書120から取得する(ステップS708)。
さらに、類義語取得部104が、抽出キーワードと、類義語辞書120から取得した類義語を検索キーワードとして、当該検索キーワードを一意に識別するためのIDと対応づけて検索キーワードリスト125に登録する(ステップS709)。ここで登録された検索キーワードは、後の情報検索処理の実行時に参照され、検索結果の評価に使用される。検索結果評価処理の詳細については後述する。
次に、検索対象文書登録部105が、抽出キーワードと抽出キーワードに対応する類義語とからなる検索キーワードを指定して、文書DB121から文書の検索を実行する(ステップS710)。検索対象文書登録部105は、検索の結果得られた文書を分割する(ステップS711)。分割は以下のような手順により行うことができる。
まず、得られた文書に含まれる1文の文字数が、予め定められた文字数を超えない場合は、その1文を単位として分割する。得られた文書に含まれる1文の文字数が、予め定められた文字数を超える場合は、予め定められた文字数を超えないように改行や読点の位置で分割する。
この後、検索対象文書登録部105が、検索した文書を分割した結果である部分文書と当該部分文書を一意に識別するためのIDとを対応づけて、検索対象文書DB123に登録する(ステップS712)。検索対象文書DB123に格納するキーワードの意味属性は、意味属性情報122などを参照して取得することができる。検索対象文書登録部105が、検索対象文書DB123に部分文書を登録した後、検索対象文書登録処理が終了する。
次に、このように構成された本実施の形態にかかる情報検索装置100による情報検索処理について説明する。図9は、本実施の形態にかかる情報検索装置100おいて、検索対象文書DB123から文書を検索する処理の全体の流れを示すフローチャートである。
まず、ユーザがクライアント131上の入出力部132からパラフレーズ表現の原表現の入力を実行すると、入出力制御部101がその入力を受付ける(ステップS901)。ここで、パラフレーズ表現の原表現とは、同じ意味内容を表す別の表現(パラフレーズ表現)の基になる表現をいう。図10は、パラフレーズ表現の原表現の入力の一例を示す説明図である。
同図に示す例では、パラフレーズ表現の原表現1001は、画面に表示された文章の一部を範囲指定した下線により指定されている。なお、パラフレーズ表現の原表現をユーザが直接テキストにより入力するように構成してもよい。
次に、キーワード抽出部102が、形態素解析辞書を参照して入力された原表現を形態素解析し、キーワードを抽出する(ステップS902)。さらに、類義語取得部104が、キーワード抽出部102が抽出したキーワードに対応づけられた類義語を類義語辞書120から取得する(ステップS903)。なお、類義語取得部104が、抽出したキーワードを含む検索類義語のリストを検索類義語リスト124から検索し、検索したリストに含まれる単語のうち、抽出したキーワード以外の単語を類義語として取得するように構成してもよい。この場合、類義語取得部104は、類義語辞書120だけでなく、検索類義語リスト124に登録された類義語情報からも類義語を取得するため、類義語取得の精度を高めることができるという利点がある。
なお、類義語取得部104は、検索類義語リスト124に記載された類義語を、類義語辞書120に記載された類義語より優先して抽出するように構成してもよい。これにより、類義語取得部104は、以前検索条件として指定された類義語、すなわち、使用頻度の高い類義語だけを取得することができ、これを検索キーワードとして使用することにより検索の精度を高めることが可能となる。
次に、意味属性取得部106が、形態素解析辞書を参照して入力された原表現を形態素解析し、原表現に含まれるキーワードを取得するとともにその意味属性を形態素解析辞書から取得する(ステップS904)。次に、キーワード抽出部102が抽出したキーワード(抽出キーワード)、類義語取得部104が取得した抽出キーワードの類義語、および意味属性取得部106が取得した抽出キーワードの意味属性をそれぞれOR(和(|))条件とする検索式を指定し、文書検索部107が、検索対象文書DB123から文書を検索する(ステップS905)。
次に、文書検索部107が、検索結果である各部分文書から、検索によりマッチしたキーワード、類義語、意味属性を含み、改行または句読点を境界とする文字数が最小となる文書である最小部分文書を抽出し、当該最小部分文書を一意に識別するためのIDと対応づけて最小部分文書リストに登録する(ステップS906)。
図11は、最小部分文書リストの一例を示す説明図である。同図に示すように、最小部分文書リストは、最小部分文書リストを一意に識別するためのIDと、抽出された最小部分文書と、当該最小部分文書の基になった文書DB121内の文書の文書IDと、当該最小部分文書の基になった検索対象文書DB123内の部分文書の部分文書IDと、検索によりマッチしたキーワードおよび類義語および意味属性と、検索結果評価部108が当該最小部分文書を評価した結果である評価点とを対応付けて格納している。なお、最小部分文書を抽出し登録する時点では、検索結果は評価されていないため、評価点に値は設定されていない。
次に、検索結果評価部108が、検索結果評価処理を実行する(ステップS907〜ステップS910)。まず、検索結果評価部108は、検索に使用したキーワードと検索キーワードリスト125内の検索キーワードとを照合し、文書設定キーワードに含まれるか否かを示すフラグ、検索キーワードから取得した類義語および意味属性を照合結果として照合リストに登録する(ステップS907)。ここで、文書設定キーワードとは、検索対象文書登録時に使用したキーワード、すなわち検索キーワードリスト125に登録されているキーワードをいう。
図12は、照合リストの一例を示す説明図である。同図に示すように、照合リストは、検索に使用されたキーワードと、文書設定キーワードに含まれるか否かを示すフラグと、照合した検索キーワードリスト125から取得したキーワードの類義語と、キーワードの意味属性とを対応付けて格納している。検索に使用されたキーワードが、検索キーワードリスト125に登録されているキーワードと一致する場合は、文書設定キーワードに含まれるか否かを示すフラグには“○”が設定される。
次に、検索結果評価部108が、原表現について構文解析および単語間の係り受けの解析を行い、原表現中で係り受け関係にある単語の対と各単語の意味属性、係り受けの距離、係り受けの関係、文書設定キーワードに含まれるか否かを示すフラグを解析結果として原表現係り受け関係リストに登録する(ステップS908)。
ここで、係り受けの距離とは、構文解析によって得られたツリー構造の各ノード間のリンクの数をいう。また、係り受けの関係とは、単語間の意味関係を表す助詞である“に”、“の”、“が”などをいう。図13は、原表現係り受け関係リストの一例を示す説明図である。同図に示すように、原表現係り受け関係リストは、原表現に含まれる2つの単語の意味属性と、係り受けの距離と、係り受けの関係と文書設定キーワードに含まれるか否かを示すフラグとを対応付けて格納している。
図14は、係り受けの距離の一例を示す説明図である。同図に示す例では、“上空の乱気流が続き航空機の運行がストップした”という文章を構文解析した結果が示されている。同図に示すように、例えば、ノード“航空機”とノード“ストップ”との間のリンク数は2であるため、係り受けの距離は2であり、ノード“上空”とノード“ストップ”との間のリンク数は3であるため、係り受けの距離は3である。
原表現係り受け関係リストにおける文書設定キーワードに含まれるか否かを示すフラグは、上述の照合リストにおける文書設定キーワードに含まれるか否かを示すフラグを参照して設定される。
次に、検索結果評価部108が、最小部分文書について構文解析、単語間の係り受けの解析を行った上で、最小部分文書から、原表現中に含まれる単語、または原表現中に含まれる単語の類義語と一致する単語、または原表現中に含まれる単語の意味属性と意味属性が一致する単語のみを含むような係り受け関係を抽出し、抽出した結果を最小部分文書係り受け関係リストに登録する(ステップS909)。図15は、最小部分文書係り受け関係リストの一例を示す説明図である。
同図に示すように、最小部分文書係り受け関係リストは、最小部分文書リストに格納されている最小部分文書のIDと、最小部分文書に含まれる2つの単語の意味属性と、係り受けの距離と、係り受けの関係と、距離の逆数と、最小部分文書に含まれる2つの単語の係り受けの関係が原表現中の対応する2つの単語の原表現中における係り受け関係と一致するか否かを示すフラグと、最小部分文書に含まれる2つの単語のいずれか1つが文書設定キーワードに含まれるか否かを示すフラグとを対応付けて格納している。
最小部分文書係り受け関係リストにおける文書設定キーワードに含まれるか否かを示すフラグは、上述の照合リストにおける文書設定キーワードに含まれるか否かを示すフラグを参照して設定される。
次に、検索結果評価部108が、検索要求情報に含まれる係り受け関係にある複数の単語の対と、検索した文書に含まれる係り受け関係にある複数の単語の対との係り受け類似度を算出し、算出した係り受け類似度から最小部分文書の評価点の算出を行う(ステップS910)。係り受け類似度の算出は、上記のように作成された最小部分文書係り受け関係リストに含まれる係り受け関係にある単語の対を参照して行う。例えば、図15のID=001の最小部分文書においては、「乱気流」と「遭遇」、および「ジェット機」と「遭遇」の2つの単語の対が存在する。検索結果評価部108は、各単語対の距離の逆数の和を計算することにより、係り受け類似度を算出する。従って、単語対の距離が近いものほど、係り受け類似度が大きくなる。
なお、検索結果評価部108は、原表現係り受け関係リストに含まれる単語の対のうち係り受けの関係が一致する対の個数が大きいほど係り受け類似度を大きく算出するように構成してもよい。また、検索結果評価部108は、最小部分文書係り受け関係リストに含まれる係り受け関係にある単語の対に、検索キーワードリスト125に含まれる単語が存在する場合に係り受け類似度を大きく算出するように構成してもよい。
検索結果評価部108は、このようにして算出した係り受け類似度が大きい最小部分文書ほど、評価点を大きく算出する。この他、検索結果評価部108は、原表現中のキーワードのうち検索した文書内の単語と一致したキーワードの個数、原表現中の単語の類義語のうち検索した文書内の単語と一致した類義語の個数、原表現中の単語の意味属性のうち検索した文書内の単語の意味属性と一致した意味属性の個数が大きい文書ほど評価点を大きく算出するように構成してもよい。
図16は、評価点を算出する式の一例を示す説明図である。同図に示すように、評価点を算出する式は、上述した評価点の算出に使用される各要素について、一定の重み付けの点数を付与して評価点を算出するように構成することができる。同図に示す例では、評価点を算出する式は、一致したキーワードの個数の重み付けを2点とし、一致した意味属性の個数の重み付けを0.5点とし、それ以外は1点とするように構成されている。なお、これは一例であり、各要素の重要度に応じて重み付けの点数を任意に設定することができる。
図17は、評価点を算出した後の最小部分文書リストの一例を示す説明図である。IDが001の最小部分文書は、一致したキーワードが1つ(乱気流)、一致した類義語が1つ(ジェット機)、一致した意味属性が1つ(出会い)、一致した対の距離の逆数の和が2(図15におけるID=001の対の距離の逆数の和が2)、関係が一致した対の数が2(図15におけるID=001の2つの対が、対応する図13における対の関係と一致)、文書設定時のキーワードを含む対の数が2(図15におけるID=001の2つの対が文書設定時のキーワードを含む)であるため、これらの値を図16に示す評価点算出の式に代入し、1×2+1×1+1×0.5+2+2+2=9.5が評価点として得られる。同様に、IDが002の最小部分文書に対しては、8.0が評価点として得られる。
この後、検索結果評価部108が算出した各最小部分文書の評価点の高い順に、入出力制御部101が検索結果を検索結果表示画面に表示する(ステップS911)。図18は、検索結果表示画面の一例を示す説明図である。同図に示すように、検索結果表示画面1801は、検索の基になったパラフレーズ表現の原表現1810と、パラフレーズ表現検索結果の表示欄1811に、検索された文書の順位と、評価点と、最小部分文書を含む検索対象文書とを表示している。
なお、検索結果表示画面への結果表示は、検索結果の全文書を表示するように構成してもよいし、優先順位の最も高い文書のみ、または優先順位が予め定められた値以上の文書のみ、または評価点が予め定められた値以上の文書のみを表示するように構成してもよい。
また、本実施の形態においては、事前に検索対象文書を文書DB121から検索して検索対象文書DB123に登録し、このときの検索に使用した検索キーワードおよび類義語を検索キーワードリスト125および検索類義語リスト124に格納しているが、パラフレーズ表現検索時に使用された検索キーワードおよび類義語をさらに格納するように構成してもよい。
このように、本実施の形態にかかる情報検索装置は、入力された文書から抽出したキーワードだけでなく、そのキーワードの類義語や意味属性を使用して情報を検索することができる。これにより、検索条件を広げて、ユーザにとって有用な情報を漏れなく取得することができる。また、本実施の形態にかかる情報検索装置は、過去に使用した検索キーワードおよび類義語の情報を参照して情報の検索や検索結果の評価を行うことができる。これにより、不適切な候補を排除し、ユーザが頻繁に使用するキーワードに関連した有用な情報を高精度で取得することができる。
本実施の形態にかかる情報検索装置は、CPUなどの制御装置と、ROMやRAMなどの記憶装置と、HDD、CDドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えた、通常のコンピュータを利用したハードウェア構成とすることができる。
本実施の形態にかかる情報検索装置で実行される情報検索プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施の形態にかかる情報検索装置で実行される情報検索プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施の形態にかかる情報検索装置で実行される情報検索プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施の形態の情報検索プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態にかかる情報検索装置で実行される情報検索プログラムは、上述した各部(入出力制御部、キーワード抽出部、検索類義語抽出部、類義語取得部、検索対象文書登録部、意味属性取得部、文書検索部、検索結果評価部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体から情報検索プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、入出力制御部、キーワード抽出部、検索類義語抽出部、類義語取得部、検索対象文書登録部、意味属性取得部、文書検索部、検索結果評価部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる情報検索装置、情報検索方法および情報検索プログラムは、類義語や意味属性などを使用して意味内容が共通する文書を検索するパラフレーズ表現検索を実行する情報検索システムに適している。
本実施の形態にかかる情報検索装置の構成を示すブロック図である。 文書DBのデータ構造の一例を示す説明図である。 意味属性情報のデータ構造の一例を示す説明図である。 検索対象文書DBのデータ構造の一例を示す説明図である。 検索類義語リストのデータ構造の一例を示す説明図である。 検索キーワードリストのデータ構造の一例を示す説明図である。 検索対象文書を登録する処理の全体の流れを示すフローチャートである。 検索要求情報の種類と指定の一例を示す説明図である。 検索対象文書から文書を検索する処理の全体の流れを示すフローチャートである。 パラフレーズ表現の原表現の入力の一例を示す説明図である。 最小部分文書リストの一例を示す説明図である。 照合リストの一例を示す説明図である。 原表現係り受け関係リストの一例を示す説明図である。 係り受けの距離の一例を示す説明図である。 最小部分文書係り受け関係リストの一例を示す説明図である。 評価点を算出する式の一例を示す説明図である。 評価点を算出した後の最小部分文書リストの一例を示す説明図である。 検索結果表示画面の一例を示す説明図である。
符号の説明
100 情報検索装置
101 入出力制御部
102 キーワード抽出部
103 検索類義語抽出部
104 類義語取得部
105 検索対象文書登録部
106 意味属性取得部
107 文書検索部
108 検索結果評価部
120 類義語辞書
121 文書DB
122 意味属性情報
123 検索対象文書DB
124 検索類義語リスト
125 検索キーワードリスト
130 ネットワーク
131 クライアント
132 入出力部
801 検索式
802 検索要求文
803 文書指定
1001 原表現
1801 検索結果表示画面
1810 原表現
1811 表示欄

Claims (8)

  1. 検索対象の文書を記憶する検索対象文書記憶手段と、
    類義語を保持する類義語辞書を記憶する類義語辞書記憶手段と、
    検索を要求する式または文である検索要求情報から検索用語となりうるすべてのキーワードを抽出するキーワード抽出手段と、
    前記キーワード抽出手段が抽出したキーワードの類義語を前記類義語辞書から取得する類義語取得手段と、
    前記キーワード抽出手段が抽出したキーワードと、前記類義語取得手段が取得した類義語とを指定して、前記検索対象文書記憶手段から文書を検索する文書検索手段と、
    前記文書検索手段が検索した文書のうち、少なくとも前記検索要求情報に含まれる係り受け関係にある複数の単語の対と、前記文書検索手段が検索した文書に含まれる係り受け関係にある複数の単語の対との関連する度合いを示す係り受け類似度を算出し、算出した前記係り受け類似度が大きい文書ほど文書の優先順位を高く評価する検索結果評価手段と、
    を備えたことを特徴とする情報検索装置。
  2. 前記キーワード抽出手段が抽出したキーワードおよび前記類義語取得手段が取得した類義語の意味や概念を表す属性である意味属性を取得する意味属性取得手段と、をさらに備え、
    前記文書検索手段は、前記キーワード抽出手段が抽出したキーワードと、前記類義語取得手段が取得した類義語と、前記意味属性取得手段が取得した前記意味属性とを指定して、前記検索対象文書記憶手段から文書を検索することを特徴とする請求項1に記載の情報検索装置。
  3. 前記検索要求情報から互いに類似する意味を有する複数の単語を類義語として抽出する検索類義語抽出手段と、
    前記検索類義語抽出手段が抽出した類義語を記憶する検索類義語記憶手段をさらに備え、
    前記類義語取得手段は、前記キーワード抽出手段が抽出したキーワードの類義語を前記類義語辞書と前記検索類義語記憶手段とから取得することを特徴とする請求項1または2に記載の情報検索装置。
  4. 検索に使用したキーワードを記憶する検索キーワード記憶手段をさらに備え、
    前記検索結果評価手段は、少なくとも前記文書検索手段が検索した文書に含まれる係り受け関係にある複数の単語の対が、前記キーワード記憶手段に記憶されたキーワードを含む場合、前記キーワード記憶手段に記憶されたキーワードを含まない場合より前記係り受け類似度を大きく算出することを特徴とする請求項1〜3のいずれか1つに記載の情報検索装置。
  5. 前記検索結果評価手段は、少なくとも前記係り受け類似度または検索に使用したキーワードのうち検索した文書内の単語と一致したキーワードの個数または検索に使用した類義語のうち検索した文書内の単語と一致した類義語の個数が大きい文書ほど文書の優先順位を高く評価することを特徴とする請求項1〜3のいずれか1つに記載の情報検索装置。
  6. 前記検索結果評価手段は、少なくとも前記係り受け類似度または検索に使用したキーワードのうち検索した文書内の単語と一致したキーワードの個数または検索に使用した類義語のうち検索した文書内の単語と一致した類義語の個数または検索に使用した意味属性のうち検索した文書内の単語の意味属性と一致した意味属性の個数が大きい文書ほど文書の優先順位を高く評価することを特徴とする請求項2に記載の情報検索装置。
  7. 検索を要求する式または文である検索要求情報から検索用語となりうるすべてのキーワードを抽出するキーワード抽出ステップと、
    前記キーワード抽出ステップが抽出したキーワードの類義語を記憶手段に記憶された類義語辞書から取得する類義語取得ステップと、
    前記キーワード抽出ステップが抽出したキーワードと、前記類義語取得ステップが取得した類義語とを指定して、記憶手段に記憶された検索対象の文書から文書を検索する文書検索ステップと、
    前記文書検索ステップが検索した文書のうち、少なくとも前記検索要求情報に含まれる係り受け関係にある複数の単語の対と、前記文書検索ステップが検索した文書に含まれる係り受け関係にある複数の単語の対との関連する度合いを示す係り受け類似度を算出し、算出した前記係り受け類似度が大きい文書の優先順位を高く評価する検索結果評価ステップと、
    を備えたことを特徴とする情報検索方法。
  8. 検索を要求する式または文である検索要求情報から検索用語となりうるすべてのキーワードを抽出するキーワード抽出手順と、
    前記キーワード抽出手順が抽出したキーワードの類義語を記憶手段に記憶された類義語辞書から取得する類義語取得手順と、
    前記キーワード抽出手順が抽出したキーワードと、前記類義語取得手順が取得した類義語とを指定して、記憶手段に記憶された検索対象の文書から文書を検索する文書検索手順と、
    前記文書検索手順が検索した文書のうち、少なくとも前記検索要求情報に含まれる係り受け関係にある複数の単語の対と、前記文書検索手順が検索した文書に含まれる係り受け関係にある複数の単語の対との関連する度合いを示す係り受け類似度を算出し、算出した前記係り受け類似度が大きい文書の優先順位を高く評価する検索結果評価手順と、
    をコンピュータに実行させる情報検索プログラム。
JP2005026491A 2005-02-02 2005-02-02 情報検索装置、情報検索方法および情報検索プログラム Pending JP2006215717A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005026491A JP2006215717A (ja) 2005-02-02 2005-02-02 情報検索装置、情報検索方法および情報検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005026491A JP2006215717A (ja) 2005-02-02 2005-02-02 情報検索装置、情報検索方法および情報検索プログラム

Publications (1)

Publication Number Publication Date
JP2006215717A true JP2006215717A (ja) 2006-08-17

Family

ID=36978923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005026491A Pending JP2006215717A (ja) 2005-02-02 2005-02-02 情報検索装置、情報検索方法および情報検索プログラム

Country Status (1)

Country Link
JP (1) JP2006215717A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075747A (ja) * 2007-09-19 2009-04-09 Toshiba Corp 類似文検索システム及びプログラム
JP2013130929A (ja) * 2011-12-20 2013-07-04 Nec Corp 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
US8572082B2 (en) 2011-03-24 2013-10-29 Casio Computer Co., Ltd Method and device for generating a similar meaning term list and search method and device using the similar meaning term list
JP2015132915A (ja) * 2014-01-10 2015-07-23 三菱電機株式会社 検索システム、検索装置、検索方法及びプログラム
JP2016009297A (ja) * 2014-06-24 2016-01-18 帝国商事株式会社 店舗信託システム
WO2016045567A1 (zh) * 2014-09-22 2016-03-31 北京国双科技有限公司 网页数据分析方法及装置
US9659004B2 (en) 2013-09-17 2017-05-23 Fujitsu Limited Retrieval device and method
JP2021086580A (ja) * 2019-11-29 2021-06-03 株式会社AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
KR20220032194A (ko) * 2020-09-07 2022-03-15 주식회사 한글과컴퓨터 검색 키워드 분석을 통해 전자 문서에 대한 상세 검색을 지원하는 전자 장치 및 그 동작 방법

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075747A (ja) * 2007-09-19 2009-04-09 Toshiba Corp 類似文検索システム及びプログラム
JP4602388B2 (ja) * 2007-09-19 2010-12-22 株式会社東芝 類似文検索システム及びプログラム
US8572082B2 (en) 2011-03-24 2013-10-29 Casio Computer Co., Ltd Method and device for generating a similar meaning term list and search method and device using the similar meaning term list
JP2013130929A (ja) * 2011-12-20 2013-07-04 Nec Corp 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
US9659004B2 (en) 2013-09-17 2017-05-23 Fujitsu Limited Retrieval device and method
JP2015132915A (ja) * 2014-01-10 2015-07-23 三菱電機株式会社 検索システム、検索装置、検索方法及びプログラム
JP2016009297A (ja) * 2014-06-24 2016-01-18 帝国商事株式会社 店舗信託システム
WO2016045567A1 (zh) * 2014-09-22 2016-03-31 北京国双科技有限公司 网页数据分析方法及装置
US10621245B2 (en) 2014-09-22 2020-04-14 Beijing Gridsum Technology Co., Ltd. Webpage data analysis method and device
JP2021086580A (ja) * 2019-11-29 2021-06-03 株式会社AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
KR20220032194A (ko) * 2020-09-07 2022-03-15 주식회사 한글과컴퓨터 검색 키워드 분석을 통해 전자 문서에 대한 상세 검색을 지원하는 전자 장치 및 그 동작 방법
KR102395674B1 (ko) * 2020-09-07 2022-05-09 주식회사 한글과컴퓨터 검색 키워드 분석을 통해 전자 문서에 대한 상세 검색을 지원하는 전자 장치 및 그 동작 방법

Similar Documents

Publication Publication Date Title
US11210468B2 (en) System and method for comparing plurality of documents
JP2006215717A (ja) 情報検索装置、情報検索方法および情報検索プログラム
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP2011118689A (ja) 検索方法及びシステム
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
JP2006227823A (ja) 情報処理装置及びその制御方法
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP2003150624A (ja) 情報抽出装置および情報抽出方法
JP2019148933A (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JPH0844771A (ja) 情報検索装置
JPH1145274A (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP7216241B1 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4206266B2 (ja) 全文検索装置、処理方法、処理プログラム及び記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090714