JP2009122807A

JP2009122807A - 連想検索システム

Info

Publication number: JP2009122807A
Application number: JP2007294022A
Authority: JP
Inventors: Toshihiro Yanai; 敏弘箭内; Manabu Ise; 学伊勢; Osamu Oshima; 修大島; Hideo Komuro; 秀夫小室
Original assignee: Nomura Research Institute Ltd; Nomura Securities Co Ltd
Current assignee: Nomura Research Institute Ltd; Nomura Securities Co Ltd
Priority date: 2007-11-13
Filing date: 2007-11-13
Publication date: 2009-06-04

Abstract

【課題】自己の関心のあるテーマに関連した投資信託をユーザが簡便に検索できるシステムの実現。
【解決手段】一般キーワードＤＢ24と、キーワード間の共起性に基づく関連度を算出してキーワード関連度表ＤＢ34に格納する関連度算出部26と、各キーワードと関連度の高い他のキーワードを連想語ＤＢ38に格納する連想語抽出部36と、投資信託の目論見書等の文書データを銘柄コードに関連付けて格納しておく投信関連文書ＤＢ16と、投信関連文書データから複数のキーワードを抽出し、銘柄コードに関連付けて投信キーワードＤＢ22に格納するキーワード抽出部20と、検索語が入力された場合に、連想語ＤＢ38を参照して検索語の連想語を取得すると共に、投信キーワードＤＢ22を参照して検索語及び連想語に関連付けられた銘柄コードを特定する検索処理部40を備えた。
【選択図】図１

Description

この発明は連想検索システムに係り、特に、入力された検索語と関連の深い投資信託の銘柄を提示可能な連想検索システムに関する。

膨大な情報の中から必要とする情報を抽出するために検索システムが用いられるが、一般的な検索システムの場合、入力された検索語と同一または類似の概念を含む情報を抽出する仕組みを備えている。例えば、多数の企業の情報を格納したデータベースに対して「富士」という検索語を与えると、検索システムは「富士」という文字列を名称中に含む企業のリストを正確に出力することができる。また、インターネットの検索サイトにおいて「環境問題」と入力すれば、「環境問題」という文字列を含んだWebページのリストがディスプレイに表示される。
この結果ユーザは、目的の情報に辿り着くことが可能となるのであるが、そこでの検索結果はあくまでも予想の範囲のものであり、検索結果リストを眺めても意外な発見を期待することはできなかった。もちろん、検索結果リスト中の個々のデータの詳細を検討する過程で新しい知見を得ることはできるが、検索語と関連の深い他の用語を含む情報を直接的に抽出することはできなかった。

この点に関し、特許文献１で開示された「連想検索システム」の場合には、各用語の関連用語を記憶した関連用語記憶手段と、各用語と共起性の高い（同一文書中に登場する確率が高い）企業名を記憶した共起企業名記憶手段を備えており、検索語が入力された場合にはこれと関連する用語を抽出した後、各用語に対する共起性の高い企業名を抽出する仕組みを備えている。
特開２００４−１１０３８６号個人投資家のための投信資料館／エコファンドのチェックポイントインターネットURL:http://www.toushin.com/guide/check/eco.htm検索日：平成１９年９月２０日地球温暖化防止関連株ファンドインターネットURL:http://www.toyota-fss.com/fund/06312066_prom1.html検索日：平成１９年９月２０日

この結果ユーザは、検索語として「環境問題」を入力すると、環境問題に係る文書中に登場することの多い企業名をリストアップすることが可能となり、環境問題に積極的に取り組む企業を認識し、投資行動につなげることができるようになる。

しかしながら、この従来の連想検索システムの場合、検索対象は企業名に限定されるため、株式投資の対象企業を探す目的には使えるとしても、自分の興味あるテーマに合致する投資信託を探す目的には使えないという問題があった。
最近では、一般投資家の間で投資信託に対する関心が高まっており、例えば非特許文献１及び２に示すように、環境問題の解決をテーマにしたエコファンドなども登場しているが、自己の問題意識に合致するファンドをユーザ自身で探す手間があった。

この発明は、このような現状を打開するために案出されたものであり、自己の関心のあるテーマに関連した投資信託をユーザが簡便に検索できるシステムの実現を目的としている。

上記の目的を達成するため、請求項１に記載した連想検索システムは、予め複数の一般文書データから抽出したキーワードを格納しておく一般キーワード記憶手段と、各キーワードの各文書データ中における出現頻度データを用いて、キーワード間の共起性に基づく関連度を算出し、キーワード関連度記憶手段に格納する関連度算出手段と、複数の投資信託に係る投信関連文書データを、各銘柄に関連付けて格納しておく投信関連文書記憶手段と、上記の投信関連文書データから複数のキーワードを抽出し、それぞれを当該投資信託の銘柄に関連付けて投信キーワード記憶手段に格納するキーワード抽出手段と、検索語が入力された場合に、上記キーワード関連度記憶手段を参照し、当該検索語に対して所定以上の関連度を有するキーワードを連想語として抽出する手段と、上記投信キーワード記憶手段を参照し、上記検索語及び連想語に関連付けられた投資信託の銘柄を特定する手段と、当該投資信託の銘柄を示す情報のリストを出力する手段とを備えたことを特徴としている。
ここで「共起性」とは、同一文書中に登場する割合（程度）を意味している。
上記の「出力」とは、例えばディスプレイに表示することや、プリンタを介してプリントアウトすること、あるいはサーバによって生成された画面をネットワーク経由でクライアント端末に送信することが該当する。

請求項２に記載した連想検索システムは、予め複数の一般文書データから抽出したキーワードを格納しておく一般キーワード記憶手段と、各キーワードの各文書データ中における出現頻度データを用いて、キーワード間の共起性に基づく関連度を算出し、キーワード関連度記憶手段に格納する関連度算出手段と、キーワード毎に他のキーワードとの間の関連度をソートした後、関連度の高い上位所定数のキーワードを当該キーワードの連想語として抽出し、連想語記憶手段に格納する手段と、複数の投資信託に係る投信関連文書データを、各銘柄に関連付けて格納しておく投信関連文書記憶手段と、上記の投信関連文書データから複数のキーワードを抽出し、それぞれを当該投資信託の銘柄に関連付けて投信キーワード記憶手段に格納するキーワード抽出手段と、検索語が入力された場合に、上記連想語記憶手段を参照して当該検索語の連想語を取得する手段と、上記投信キーワード記憶手段を参照し、上記検索語及び連想語に関連付けられた投資信託の銘柄を特定する手段と、当該投資信託の銘柄を示す情報のリストを出力する手段とを備えたことを特徴としている。
上記の「出力」とは、例えばディスプレイに表示することや、プリンタを介してプリントアウトすること、あるいはサーバによって生成された画面をネットワーク経由でクライアント端末に送信することが該当する。

請求項３に記載した連想検索システムは、請求項１または２のシステムであって、さらに上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、少なくとも複数のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴としている。

請求項４に記載した連想検索システムは、請求項３のシステムであって、さらに上記フィルタの一つが、(1)各投信関連文書データ中に含まれる名詞を注目語として抽出し、(2)各注目語の全投信関連文書データ中における出現頻度を算出し、(3)各注目語の一つ前及び／又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出し、(4)上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全投信関連文書データ中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、(5)最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴としている。
ここで「形態素」とは、意味を有する最小の言語単位を指す。例えば、「私の名前は鈴木です」を形態素に分解すると、「私（代名詞）」「の（助詞）」「名前（一般名詞）」「は（係助詞）」「鈴木（固有名詞）」「です（助動詞）」となる。

請求項５に記載した連想検索システムは、請求項１〜４のシステムであって、さらに上記関連度算出手段が、(1)一般文書データ単位で、当該一般文書データ中に出現実績があり、関連度算出の対象とすべきキーワードを選別する処理と、(2)一般文書データ単位で、各選別キーワード間の出現頻度を乗算し、その積を所定の記憶手段に記録する処理と、(3)一般文書データ単位で、各選別キーワードの出現頻度を二乗し、その値を所定の記憶手段に記録する処理と、(4)上記選別キーワード間の積を、全一般文書データに亘って集計する処理と、(5)各選別キーワードの出現頻度の二乗値を、全一般文書データに亘って集計する処理と、(6)上記(5)の集計値の平方根を算出する処理と、(7)各キーワードの上記(6)の平方根同士を加算し、その和で上記(4)の集計値を除することにより、両キーワード間の関連度を算出する処理とを実行することを特徴としている。

請求項１及び２に記載した連想検索システムにあっては、ユーザが検索語を入力した際に、当該検索語との共起性に基づいてピックアップされた連想語の範囲まで検索対象が拡張され、これらのキーワードを目論見書等の投信関連文書中に含んでいる投資信託の銘柄が検索結果としてリストアップされる仕組みであるため、ユーザの意に沿った投資信託を幅広く抽出し、投資対象として提示することが可能となる。

請求項３及び４に記載した連想検索システムの場合、複数のフィルタを用いて文書データ中からそれぞれ独自にキーワード候補を抽出させ、これらの中で少なくとも複数のフィルタによって抽出されたものを正式なキーワードと認定する仕組みを備えているため、重要なキーワードの取りこぼしを防止すると同時に、重要でないノイズがキーワード中に混入することを防止できる。
特に請求項４のシステムの場合、キーワード候補の抽出に際し、複数の文書データ中における出現頻度に基づいてある注目語をキーワード候補として選定するか否かを判断する仕組みを備えているため、選定されたキーワード候補の重要度に対して客観性を持たせることが可能となる。

請求項５に記載した連想検索システムによれば、まず文書データ単位で、出現頻度がゼロのため他のキーワードとの関連度算出が不要なキーワードを事前に排除し、出現実績のあるキーワード間で関連度を算出した後、全文書単位に集計する手法を採用している結果、全体の計算処理を簡素化できる。
また、新規の文書データが追加された場合でも、当該新規文書データ単位で(1)〜(3)の処理を行い、この算出結果を(4)及び(5)の既存の集計値に加算した後、(6)及び(7)の計算をやり直すだけで済み、文書データ追加時における関連度の再計算処理が容易化される利点がある。
さらに、古くなった文書データの影響を排除する必要がある場合にも、当該旧文書データに係る(2)及び(3)の値を(4)及び(5)の集計値から減算した後、(6)及び(7)の計算をやり直すだけで済むため、キーワード間の関連度を最新のものに維持することが容易となる。

図１は、この発明に係る連想検索システム10の全体構成を示すブロック図であり、Webファイル収集部12と、巡回先ＤＢ13と、テキスト生成部14と、投信関連文書ＤＢ16と、一般文書ＤＢ18と、キーワード抽出部20と、投信キーワードＤＢ22と、投信属性情報ＤＢ23と、一般キーワードＤＢ24と、関連度算出部26と、キーワード共起頻度表ＤＢ28と、キーワード組合せ頻度総和表ＤＢ30と、キーワード頻度総和表ＤＢ32と、キーワード関連度表ＤＢ34と、連想語抽出部36と、連想語ＤＢ38と、検索処理部40とを備えている。
また、この連想検索システム10は、インターネット42を介して多数のWebサーバ44及びユーザのPC端末46と接続されている。

連想検索システム10を構成している上記のWebファイル収集部12、テキスト生成部14、キーワード抽出部20、関連度算出部26、連想語抽出部36及び検索処理部40は、サーバコンピュータのCPU が、OS及び専用のアプリケーションプログラムに従って必要な処理を実行することによって実現される。
また、上記の巡回先ＤＢ13、投信関連文書ＤＢ16、一般文書ＤＢ18、投信キーワードＤＢ22、投信属性情報ＤＢ23、一般キーワードＤＢ24、キーワード共起頻度表ＤＢ28、キーワード組合せ頻度総和表ＤＢ30、キーワード頻度総和表ＤＢ32、キーワード関連度表ＤＢ34及び連想語ＤＢ38は、同コンピュータのハードディスク内に設けられている。
巡回先ＤＢ13には、予め多数のURLがカテゴリ別に登録されている。また、投信属性情報ＤＢ23には、各投資信託の銘柄名、運用会社名、関連URL等の属性情報が、銘柄コードに関連付けられて登録されている。

上記のキーワード抽出部20は、図２に示すように、係り受け表現抽出フィルタ50、区切り文字抽出フィルタ52、文字列頻度統計フィルタ54、TermExtractフィルタ56、多数決フィルタ58を備えている。

つぎに、図３のフローチャートに従い、一般キーワードの抽出工程について説明する。
まずWebファイル収集部12は、インターネット42上で文書データを公開しているニュースサイト等の複数のWebサーバ44を定期的に巡回し、Webファイルを大量に収集する（Ｓ10）。この際、Webファイル収集部12は巡回先ＤＢ13を参照し、アクセスすべきWebサイトのURLを取得する。

これらのWebファイルは、テキスト生成部14において不要なHtmlタグが除去され、プレーンなテキストデータに整形される（Ｓ12）。
テキスト生成部14によって生成されたテキストデータよりなる文書ファイルは、ユニークな文書IDに関連付けられて一般文書ＤＢ18に格納される（Ｓ14）。

つぎにキーワード抽出部20は、一般文書ＤＢ18内に蓄積された各文書ファイルに係り受け表現抽出フィルタ50を適用し、各文書ファイルから所定の係り受け表現を備えた文字列を抽出する（Ｓ16）。
すなわち、係り受け表現抽出フィルタ50には、「○○メーカー」、「○○が主力」、「○○を生産」という係り受け表現パターンが予め多数用意されており、キーワード抽出部20は、これに当てはまる表現パターンを検出した後、「○○」に相当する文字列をキーワード候補として抽出する。

つぎにキーワード抽出部20は、各文書ファイルに区切り文字抽出フィルタ52を適用し、「○○」、"○○"、（○○）、［○○］、,○○,のように、カンマや括弧、スペース、タブ等の区切り文字で囲まれた○○の部分をキーワード候補として抽出する（Ｓ18）。

つぎにキーワード抽出部20は、各文書ファイルに文字列頻度統計フィルタ54を適用し、各文書ファイルに含まれる各文字列が他の文書も含めて何回登場するのかを集計し、一定範囲の出現頻度を備えた文字列をキーワード候補として抽出する（Ｓ20）。
まず文字列頻度統計フィルタ54は、図４に示すように、文書中の名詞（ここでは「ＤＶＤ」）に注目し、このＤＶＤという注目語が一般文書ＤＢ18内に蓄積された各文書ファイル中に出現する数を集計する。つぎに、文字列頻度統計フィルタ54は、この注目語の前後の形態素に範囲を拡張し、それぞれの全文書中に登場する頻度を集計し、出現頻度が一定以下（例えば20以下）となった時点で文字範囲拡張を停止する。

例えば、ＤＶＤの一つ前の形態素を含む「したＤＶＤ」の出現頻度は「２」と低いため、これ以上前の形態素に範囲が拡張されることはない。これに対し、ＤＶＤの一つ後の形態素を含む「ＤＶＤレコーダー」の出現頻度は「８６２」と多いため、その一つ後の形態素を含む「ＤＶＤレコーダーでは」の出現頻度を集計する。そして、この出現頻度は「５」と低いため、これ以降の形態素に範囲を拡張することが停止される。

つぎに文字列頻度統計フィルタ54は、「ＤＶＤ」及び「ＤＶＤレコーダー」が所定範囲（例えば20〜5,000）内の出現頻度を備えていることを理由にキーワード候補として抽出する。これに対し、「したＤＶＤ」及び「ＤＶＤレコーダーでは」は上記の範囲外であるため、キーワード候補から除外される。
全文書中における出現頻度が20未満のものはそもそも重要語とはいえず、また5,000を越えるものは逆に特徴のない汎用語あるいは一般語と考えられるからであるが、この範囲設定は文書ファイルの分量や検索システムの使用目的に応じて適宜調整される。

ところで、一般文書ＤＢ18内に蓄積された多量の文書ファイルに含まれる各文字列に関して、それぞれの出現頻度を集計するには膨大な時間を要するため、図５に示すように、一般文書ＤＢ18内には予め全文書ファイルに登場する各形態素が、個々の文書ファイル中に存在しているか否かを一覧表にまとめたインデックス（所謂転置インデックス）が生成されている。このため、キーワード抽出部20はこのインデックスを参照することにより、比較的短時間でその出現頻度を取得することが可能となる。

つぎにキーワード抽出部20は、一般文書ＤＢ18内に蓄積された文書ファイルにTermExtractフィルタ56を適用し、各文書ファイルから所定以上のスコアを備えた文字列をキーワード候補として抽出する（Ｓ22）。
このTermExtractは、専門分野のコーパス（主として研究目的で収集され、電子化された自然言語の文章からなる巨大なテキストデータ）から専門用語を自動抽出するために案出された文字列抽出アルゴリズムであり、文書ファイル中から単名詞及び複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtract自体は公知技術であるため、これ以上の説明は省略する。

つぎにキーワード抽出部20は、係り受け表現抽出フィルタ50、区切り文字抽出フィルタ52、文字列頻度統計フィルタ54、TermExtractフィルタ56によって抽出された各キーワード候補を多数決フィルタ58に入力し、キーワードを絞り込む。
多数決フィルタ58では、各フィルタによってリストアップされたキーワード候補同士をマッチングし、２以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定し、一般キーワードＤＢ24に格納する（Ｓ24）。

このように、係り受け表現抽出フィルタ50、区切り文字抽出フィルタ52、文字列頻度統計フィルタ54、TermExtractフィルタ56の４つのフィルタを用いることにより、文書ファイルからキーワードを抽出する際に重要語が漏れ落ちることを防止すると共に、多数決フィルタ58を用いて絞り込むことにより、不要なキーワード（ノイズ）が混入することを防止できる。

上記のように４つのフィルタ中の２以上のフィルタによって選別されたキーワード候補を正式なキーワードと認定するのは一例であり、３以上のフィルタによって選別されることをキーワード認定の要件とすることもできる。
また、フィルタの数も上記に限定されるものではなく、他の有効なキーワード候補抽出フィルタをキーワード抽出部20に設けることもできる。

つぎに、図６のフローチャートに従い、関連度算出部26による各キーワード間の関連度算出工程について説明する。
まず関連度算出部26は、各キーワードの各文書ファイル中における出現頻度を集計してキーワード共起頻度表を生成し、キーワード共起頻度表ＤＢ28に格納する（Ｓ30）。
図７は、キーワード共起頻度表ＤＢ28に格納されたキーワード共起頻度表の具体例を示すものであり、一般文書ＤＢ18に格納された各文書D1〜Dnごとに、各キーワードKW-1〜nの出現頻度が記述されている。

ここで、あるキーワードＸとＹとの間の関連度は、数１のiにキーワード共起頻度表ＤＢ28に記載されたＸとＹの出現頻度を代入することにより、理論的には算出可能である。

この数１の分子は、キーワードＸ、Ｙの文書毎の出現頻度の積の全文書に亘る総和を意味するため、Ｘ、Ｙが同じ文書に出現する頻度が高いほど値は大きくなる。もっとも、特定の文書中におけるＸ及びＹの出現頻度の絶対数が多ければそれにつられて分子の値は高くなってしまい、必ずしもＸとＹの共起性の高さを表しているとはいえない。これに対し分母は、キーワードＸ、Ｙの文書毎の出現頻度の二乗の全文書に亘る総和の平方根同士を加算したものであり、Ｘ、Ｙの特定文書中の出現頻度が高いほど値が大きくなる。このため、分子の値を分母の値で除算することにより、特定文書中におけるＸ、Ｙの出現頻度の絶対数が多いことの影響を排除し、Ｘ、Ｙ間の共起性の高さに基づく関連度を導くことが可能となる。

ただし、単純に数１の計算を行うやり方では、文書ファイルの分量及びキーワードの総数が多い場合には膨大な計算量が発生し、多くの処理時間を要することとなる。
そこで、この実施の形態では、キーワード共起頻度表に基づいてキーワード組合せ頻度総和表及びキーワード頻度総和表を生成することにより、計算工程の簡素化を図っている。

図８は、その要領を例示するものである。この場合、キーワード共起頻度表にはキーワードKW-1〜KW-5の文書D1における出現頻度が記載されているが、この中KW-3及びKW-4の出現頻度は０であるため、実際に関連度を算出すべきキーワードの組合せは以下の３パターンで済むこととなる。
（KW-1, KW-2）、（KW-1, KW-5）、（KW-2, KW-5）
つぎに関連度算出部26は、各組合せ毎に出現頻度を乗じた値を記述したキーワード組合せ頻度総和表と、各キーワードの出現頻度を二乗した値を記述したキーワード頻度総和表を生成し、キーワード組合せ頻度総和表ＤＢ30及びキーワード頻度総和表ＤＢ32に格納する（Ｓ32、Ｓ34）。

図８のキーワード組合せ頻度総和表では、文書D1についての値のみが記述されているが、関連度算出部26は同様の処理を各文書毎に実行し、その結果に基づいて値を加算していく。
同じく、図８のキーワード頻度総和表では、文書D1についての値のみが記述されているが、関連度算出部26は同様の処理を各文書毎に実行し、各文書における各キーワードの出現頻度を二乗した値を加算していく。

最後に関連度算出部26は、図９に示すように、キーワード組合せ頻度総和表ＤＢ30からキーワードＸ，Ｙの組合せ頻度の総和を読み込むと共に、キーワード頻度総和表ＤＢ32からキーワードＸの二乗値の総和とキーワードＹの二乗値の総和を読み込み、各二乗値の総和の平方根を求めた後、これらの値を数１に代入することにより、キーワードＸ，Ｙ間の関連度を算出し、キーワード関連度表ＤＢ34に格納する（Ｓ36）。すべてのキーワードの組合せについて処理が終了するまで、関連度算出部26は処理を繰り返す。

上記のように、文書ファイル毎に各キーワード間の組合せパターンを抽出し、それぞれの積値及び各キーワードの二乗値を求めた上で、各文書ファイルの値を加算していくことにより、出現頻度が０のキーワードに係る計算処理を省くことが可能となる。

また、一般文書ＤＢ18に新規の文書ファイルが追加された場合には、この新規文書ファイル中の各キーワードに係る値を、キーワード組合せ頻度総和表ＤＢ30及びキーワード頻度総和表ＤＢ32に格納された既存の集計値に加算することによって、簡単にキーワード間の関連度が再計算可能となる。
古くなった文書ファイルの影響を排除する場合にも、当該文書ファイル中の各キーワードに係る値をキーワード組合せ頻度総和表ＤＢ30及びキーワード頻度総和表ＤＢ32に格納された既存の集計値から減算することによって、簡単にキーワード間の関連度を最新の状態に維持することが可能となる。

最後に連想語抽出部36が起動し、各キーワードの連想語をキーワード関連度表ＤＢ34から抽出し、連想語ＤＢ38に格納する（Ｓ38）。
すなわち、連想語抽出部36は各キーワード毎に他のキーワードとの関連度の値をソートし、関連度の高い上位所定数（例えば50件）のキーワードを連想語と認定し、各連想語を当該キーワードと関連付けて連想語ＤＢ38に格納する。

つぎに、図１０のフローチャートに従い、投信キーワードの抽出工程について説明する。
まずWebファイル収集部12は、投資信託販売会社や委託会社等のWebサーバ44を定期的に巡回し、各種投資信託の目論見書やレポート、運用報告書等に対応したWebファイルやPDFファイル、DOCファイルを自動的に収集する（Ｓ40）。この際、Webファイル収集部12は巡回先ＤＢ13を参照し、アクセスすべきWebサイトのURLを取得する。

これらの投信関連文書ファイルは、テキスト生成部14において不要なHtmlタグの除去やファイル形式の変換処理が実行され、プレーンなテキストデータに整形される（Ｓ42）。
テキスト生成部14によって生成されたテキストデータよりなる投信関連文書ファイルは、各投資信託の銘柄コードに関連付けられた上で、投信関連文書ＤＢ16に格納される（Ｓ44）。

なお、上記のようにWebファイル収集部12及びテキスト生成部14を介して多数のWebサーバ44から投信関連文書ファイルを取得する代わりに、システム運用者の手によって事前に必要な投資信託の目論見書等を入手し、それぞれの内容をテキストファイル化したものを投信関連文書ＤＢ16に登録しておくこともできる。

つぎにキーワード抽出部20は、上記と同様の要領で、投信関連文書ＤＢ16内に蓄積された各文書ファイルに係り受け表現抽出フィルタ50を適用し、各文書ファイルから所定の係り受け表現を備えた文字列を抽出する（Ｓ46）。

つぎにキーワード抽出部20は、各文書ファイルに区切り文字抽出フィルタ52を適用し、特定の区切り文字で囲まれた文字列をキーワード候補として抽出する（Ｓ48）。

つぎにキーワード抽出部20は、各文書ファイルに文字列頻度統計フィルタ54を適用し、各文書ファイルに含まれる各文字列が他の投信関連文書ファイルも含めて何回登場するのかを集計し、一定範囲の出現頻度を備えた文字列をキーワード候補として抽出する（Ｓ50）。

つぎにキーワード抽出部20は、各文書ファイルにTermExtractフィルタ56を適用し、各文書ファイルから所定以上のスコアを備えた文字列をキーワード候補として抽出する（Ｓ52）。

つぎにキーワード抽出部20は、係り受け表現抽出フィルタ50、区切り文字抽出フィルタ52、文字列頻度統計フィルタ54、TermExtractフィルタ56によって抽出された各キーワード候補を多数決フィルタ58に入力し、キーワードを絞り込む。
多数決フィルタ58では、各フィルタによってリストアップされたキーワード候補同士をマッチングし、２以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定し、銘柄コードに関連付けて投信キーワードＤＢ22に格納する（Ｓ54）。

以上のようにして、連想語ＤＢ38及び投信キーワードＤＢ22に対する必要データの蓄積が完了した時点で、このシステム10による検索処理が可能となる。
以下、図１１のフローチャートに従い、このシステム10による連想検索処理の手順について説明する。

まず、ユーザがPC端末46からこのシステム10にアクセスし、「環境問題」の検索語を入力すると、これを受け付けた検索処理部40は（Ｓ50）、連想語ＤＢ38を参照し、当該検索語に関連付けられた全連想語を取得する（Ｓ52）。

つぎに検索処理部40は、投信キーワードＤＢ22を参照し、検索語及びその連想語と一致する投信キーワードに関連付けられた銘柄コードを取得する（Ｓ54）。
最後に検索処理部40は、検索結果表示画面を生成し、ユーザのPC端末46に送信する（Ｓ56）。

図１２は、この検索結果表示画面の一例を示すものであり、検索語の「環境問題」をクリックすると、検索語及びその連想語が一列に展開される。この際、各連想語は、検索語との関連度が高い順に配置されている。
つぎにユーザが任意の検索語あるいは連想語をクリックすると、当該検索語あるいは連想語に関連付けられた投資信託の銘柄コードが個別に展開される。

この結果ユーザは、最初は比較的抽象的な「環境問題」を検索語として入力しても、CO2削減やハイブリッド車、ソーラー発電といったより具体的な連想語に辿り着くことができ、さらにその中の一つを選択することにより、これらの技術や商品、サービスに関連の深い具体的な投資信託の銘柄コードを得ることが可能となる。
すなわち、このシステム10を利用することにより、漠然とした問題意識しか持ち合わせていないユーザであっても、より具体的なテーマを見出すことができ、これをきっかけに特定の投資信託を投資対象として認識することが可能となる。

これら銘柄コード中の一つをユーザがクリックすると、検索処理部40は投信属性情報ＤＢ23を参照して、銘柄名、運用会社名、関連URLが記述された詳細表示画面を生成し、PC端末46に送信する。
これによりユーザは、リストアップされた投資信託の各銘柄について、より詳細な情報をその場で確認することが可能となる。

元来、投資信託の目論見書やレポート類には比較的簡潔な文書が記載されている場合が多く、ユーザが入力した検索語に基づいて投信キーワードＤＢ22内を検索しても、ヒットする確率が低くなる傾向がある。
これに対し、このシステム10の場合には上記のように連想語ＤＢ38を参照して当該検索語に関連の深い連想語を抽出し、検索語＋連想語の範囲まで検索キーを拡張して投信キーワードＤＢ22を検索する方式であるため、一定の関連性を備えた投資信託がヒットする確率を高めることができ、ユーザの意に合致した投資対象を提示することが可能となる。

この実施の形態にあっては、予め連想語抽出部36によってキーワード毎に関連度の比較的高い他のキーワードが連想語として選別され、連想語ＤＢ38に登録されていることが前提となっているが、この発明はこれに限定されるものではない。
すなわち、ユーザからの検索語を受け付けた時点で、検索処理部40がキーワード関連度表示ＤＢ34を参照し、当該検索語に対して所定以上の関連度を備えたキーワードを連想語として抽出するように構成することもできる。

この発明に係る連想検索システムの機能構成を示すブロック図である。キーワード抽出部の構成を示すブロック図である。一般キーワードの抽出工程を示すフローチャートである。文字列頻度統計フィルタの動作を示す説明図である。一般文書ＤＢ内に形態素インデックスが形成されている様子を示す説明図である。キーワード間の関連度算出工程及び連想語抽出工程を示すフローチャートである。キーワード共起頻度表の一例を示す説明図である。関連度算出処理を簡略化する方法を示す説明図である。キーワード組合せ頻度総和表及びキーワード頻度総和表に基づいてキーワード関連度表が生成される様子を示す説明図である。投信キーワードの抽出工程を示すフローチャートである。連想検索処理の手順を示すフローチャートである。検索結果表示画面の一例を示す図である。

符号の説明

10 連想検索システム
12 Webファイル収集部
13 巡回先ＤＢ
14 テキスト生成部
16 投信関連文書ＤＢ
18 一般文書ＤＢ
20 キーワード抽出部
22 投信キーワードＤＢ
23 投信属性情報ＤＢ
24 一般キーワードＤＢ
26 関連度算出部
28 キーワード共起頻度表ＤＢ
30 キーワード組合せ頻度総和表ＤＢ
32 キーワード頻度総和表ＤＢ
34 キーワード関連度表ＤＢ
36 連想語抽出部
38 連想語ＤＢ
40 検索処理部
42 インターネット
44 Webサーバ
46 PC端末
50 係り受け表現抽出フィルタ
52 区切り文字抽出フィルタ
54 文字列頻度統計フィルタ
56 TermExtractフィルタ
58 多数決フィルタ

Claims

予め複数の一般文書データから抽出したキーワードを格納しておく一般キーワード記憶手段と、
各キーワードの各文書データ中における出現頻度データを用いて、キーワード間の共起性に基づく関連度を算出し、キーワード関連度記憶手段に格納する関連度算出手段と、
複数の投資信託に係る投信関連文書データを、各銘柄に関連付けて格納しておく投信関連文書記憶手段と、
上記の投信関連文書データから複数のキーワードを抽出し、それぞれを当該投資信託の銘柄に関連付けて投信キーワード記憶手段に格納するキーワード抽出手段と、
検索語が入力された場合に、上記キーワード関連度記憶手段を参照し、当該検索語に対して所定以上の関連度を有するキーワードを連想語として抽出する手段と、
上記投信キーワード記憶手段を参照し、上記検索語及び連想語に関連付けられた投資信託の銘柄を特定する手段と、
当該投資信託の銘柄を示す情報のリストを出力する手段と、
を備えたことを特徴とする連想検索システム。
予め複数の一般文書データから抽出したキーワードを格納しておく一般キーワード記憶手段と、
各キーワードの各文書データ中における出現頻度データを用いて、キーワード間の共起性に基づく関連度を算出し、キーワード関連度記憶手段に格納する関連度算出手段と、
キーワード毎に他のキーワードとの間の関連度をソートした後、関連度の高い上位所定数のキーワードを当該キーワードの連想語として抽出し、連想語記憶手段に格納する手段と、
複数の投資信託に係る投信関連文書データを、各銘柄に関連付けて格納しておく投信関連文書記憶手段と、
上記の投信関連文書データから複数のキーワードを抽出し、それぞれを当該投資信託の銘柄に関連付けて投信キーワード記憶手段に格納するキーワード抽出手段と、
検索語が入力された場合に、上記連想語記憶手段を参照して当該検索語の連想語を取得する手段と、
上記投信キーワード記憶手段を参照し、上記検索語及び連想語に関連付けられた投資信託の銘柄を特定する手段と、
当該投資信託の銘柄を示す情報のリストを出力する手段と、
を備えたことを特徴とする連想検索システム。
上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、
各フィルタによって抽出されたキーワード候補をマッチングし、少なくとも複数のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴とする請求項１または２に記載の連想検索システム。
上記フィルタの一つが、
(1) 各投信関連文書データ中に含まれる名詞を注目語として抽出し、
(2) 各注目語の全投信関連文書データ中における出現頻度を算出し、
(3) 各注目語の一つ前及び／又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出し、
(4) 上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全投信関連文書データ中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、
(5) 最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴とする請求項３に記載の連想検索システム。
上記関連度算出手段が、
(1) 一般文書データ単位で、当該一般文書データ中に出現実績があり、関連度算出の対象とすべきキーワードを選別する処理と、
(2) 一般文書データ単位で、各選別キーワード間の出現頻度を乗算し、その積を所定の記憶手段に記録する処理と、
(3) 一般文書データ単位で、各選別キーワードの出現頻度を二乗し、その値を所定の記憶手段に記録する処理と、
(4) 上記選別キーワード間の積を、全一般文書データに亘って集計する処理と、
(5) 各選別キーワードの出現頻度の二乗値を、全一般文書データに亘って集計する処理と、
(6) 上記(5)の集計値の平方根を算出する処理と、
(7) 各キーワードの上記(6)の平方根同士を加算し、その和で上記(4)の集計値を除することにより、両キーワード間の関連度を算出する処理と、
を実行することを特徴とする請求項１〜４の何れかに記載の連想検索システム。