JP2012068755A - 検索システム及び検索プログラム - Google Patents

検索システム及び検索プログラム Download PDF

Info

Publication number
JP2012068755A
JP2012068755A JP2010211332A JP2010211332A JP2012068755A JP 2012068755 A JP2012068755 A JP 2012068755A JP 2010211332 A JP2010211332 A JP 2010211332A JP 2010211332 A JP2010211332 A JP 2010211332A JP 2012068755 A JP2012068755 A JP 2012068755A
Authority
JP
Japan
Prior art keywords
keyword
group
document
storage means
selection screen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010211332A
Other languages
English (en)
Inventor
Eiji Suenaga
英治 末永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2010211332A priority Critical patent/JP2012068755A/ja
Publication of JP2012068755A publication Critical patent/JP2012068755A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の検索条件の選択による絞り込みの過程で、キーワード選択の適否や検索結果の多寡についてユーザが認識できるように支援する技術の提供。
【解決手段】検索処理部22は、キーワードグループ毎に複数キーワードが選択可能に配置されると共に、各キーワードが全文書中における出現頻度に応じた表示サイズによって表現されたキーワード選択画面を生成・出力する。また、2番目以降のキーワード選択画面においては、それまでに選択されたキーワードが中心に配置されると共に、この既選択キーワードとの共起頻度に応じた距離で各選択対象キーワードが配置される。
【選択図】図1

Description

この発明は検索システム及び検索プログラムに係り、特に、複数の検索条件を用いて検索対象記事や文書を絞り込んでいき、必要な文書のリストを出力する技術に関する。
インターネット上のニュースサイトなどにおいては、ユーザの利便性を考慮し、記事の絞り込み検索機能を用意している場合がある。
その一例として、非特許文献1に示すニュースサイトの場合、図19に示すように、記事のジャンル、関連産業、関連地域を指定するための検索条件選択フィールド90, 92, 94がWebページの上部に設けられている。
これに対しユーザは、各検索条件選択フィールドの三角ボタン95をクリックしてプルダウンメニュー96を開き、リストアップされたキーワードを順次選択していく。
ここで、例えばユーザが「ジャンル:経済」、「関連産業:金融・保険」、「関連地域:南関東」を選択し、実行ボタン98をクリックすると、「経済&金融・保険&南関東」の検索条件がニュースサイトに送信される。
これを受けたニュースサイトのサーバは、記事データベースに格納された多数の記事データに設定されたタグ情報をチェックし、ユーザが指定した検索条件に合致する記事データ(タイトル+要約)のリストを生成する。
つぎにサーバは、上記リストが掲載されたWebファイルを生成し、ユーザのクライアント端末に送信する。
この結果、図示は省略したが、クライアント端末のWebブラウザ上に検索結果のリスト画面が表示される。
このリスト中の任意の記事のタイトルをユーザがクリックすると、記事の本文が掲載されたWebファイルがサーバからクライアント端末に送信され、Webブラウザ上に本文が表示される。
このように、カテゴリ毎に複数のキーワード候補を列記した検索条件選択フィールドを用意しておくことにより、ユーザは自分自身でキーワード候補を考える必要がなくなり、より簡便に目的の記事に辿り着くことが可能となる。
日本経済新聞 絞り込み検索 インターネットURL:http://www.nikkei.com/news/category/at=DGXZZO0195164008122009000000検索日:平成22年8月27日
しかしながら、従来の絞り込み検索は、上記のように複数のキーワードを選択した上で実行ボタンをクリックする方式であり、各カテゴリに属するキーワードの特性(特殊性/汎用性)やキーワード間の関連性が見えないまま検索結果を待つことになるため、満足のいく検索結果を得るまでに試行錯誤を繰り返す必要があった。
例えば、「ジャンル:経済」+「関連産業:金融・保険」+「関連地域:すべて」で検索を掛けたところ、「件数が多すぎて表示できません」というメッセージが表示されたため、「ジャンル:経済」+「関連産業:金融・保険」+「関連地域:北海道」に限定して検索し直したら、今度は「検索条件に合致する記事はありません」というメッセージが表示され、検索条件の再検討を余儀なくされることは、誰もが一度は経験するところである。
この発明は、従来の絞り込み検索における上記問題を解決するために案出されたものであり、複数の検索条件の選択による絞り込みの過程で、キーワード選択の適否や検索結果の多寡についてユーザが認識できるように支援する技術の提供を目的としている。
上記の目的を達成するため、請求項1に記載した検索システムは、検索対象となる複数の文書ファイルを格納しておく対象文書記憶手段と、複数のキーワードグループ毎に、当該キーワードグループに属する複数の同種キーワードを規定しておくキーワードグループ定義記憶手段と、各キーワード毎に、当該キーワードと同一視すべき関連キーワードを定義しておく関連キーワード定義記憶手段と、解析結果記憶手段と、文書解析手段と、検索処理手段とを備えた検索システムであって、上記文書解析手段は、上記の各文書ファイル中に含まれる文書を形態素単位に分解する処理と、上記のキーワードグループ定義記憶手段及び関連キーワード定義記憶手段を参照し、上記文書ファイル中の各形態素または形態素列に対して、対応するキーワードタグを付与する処理と、各キーワードタグに基づいて、各キーワードの出現頻度を文書及びキーワードグループ毎に算出し、この算出結果を上記解析結果記憶手段に格納する処理を実行し、上記検索処理部は、(1) 上記キーワードグループ定義記憶手段を参照し、最初のキーワードグループに属するキーワードを特定する処理と、(2)上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、(3) この表示サイズで表現された各キーワードが、選択可能な状態で配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、(4) 一のキーワードの選択情報が入力された場合に、上記キーワードグループ定義記憶手段を参照し、次のキーワードグループに属するキーワードを特定する処理と、(5) 上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、(6) 上記解析結果記憶手段を参照し、先のキーワード選択画面において選択された既選択キーワードと、次のキーワードグループに属する各キーワードとの共起頻度を算出する処理と、(7) 各キーワードが、上記の(5)において割り当てられた表示サイズで選択可能な状態で配置されると共に、既選択キーワードが中心に配置され、かつ、各キーワードは既選択キーワードとの共起頻度の高さに応じて近い距離に配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、(8) 一のキーワードの選択情報が入力された場合に、上記キーワードグループ定義記憶手段を参照し、次のキーワードグループに属するキーワードを特定する処理と、(9) 上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、(10) 上記解析結果記憶手段を参照し、先のキーワード選択画面において選択された各既選択キーワードと、次のキーワードグループに属する各キーワードとの共起頻度を算出する処理と、(11) 各キーワードが、上記の(9)において割り当てられた表示サイズで選択可能な状態で配置されると共に、各既選択キーワードが中心に配置され、かつ、各キーワードは各既選択キーワードとの共起頻度の高さに応じて近い距離に配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、(12) 上記(8)〜(11)の処理を次のキーワードグループが存在しなくなるまで繰り返した後、それまでに選択されたキーワードを含む文書ファイルを上記対象文書記憶手段から検索して検索結果のリストを生成し、出力する処理を実行することを特徴としている。
請求項2に記載した検索システムは、請求項1のシステムを前提とし、さらに上記検索処理部は、上記(7)及び(11)の処理に際し、上記キーワード表示領域に中心から周辺に向けて直径が段階的に拡大する複数の同心円によって構成された複数の目盛を表示させると共に、共起頻度の範囲と上記目盛との対応関係を規定した距離換算テーブルを参照して、各キーワードを配置する目盛を特定することを特徴としている。
請求項3に記載した検索システムは、請求項1または2のシステムを前提とし、さらに、上記キーワード選択画面のキーワード表示領域は、1本の境界線によって2つの領域に区分されると共に、各領域には文書ファイルを2分割するための異なった条件が割り当てられており、上記検索処理部は、上記(2)の処理に際し、2分割された文書グループ毎に各キーワードの出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに重複して割り当て、上記(3)の処理に際して、文書グループ毎に別々の表示サイズが割り当てられた各キーワードを、2つの領域に重複配置させたキーワード選択画面を生成し、上記(5)及び(9)の処理に際し、2分割された文書グループ毎に各キーワードの出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに重複して割り当て、上記(6)及び(10)の処理に際して、先のキーワード選択画面において選択されたキーワードと、次のキーワードグループに属する各キーワードとの共起頻度を、文書グループ毎に算出し、上記(7)及び(11)の処理に際して、文書グループ毎に別々の表示サイズが割り当てられた各キーワードを、2つの領域に、それぞれ既選択キーワードとの共起頻度の高さに応じて近い距離に重複配置させたキーワード選択画面を生成し、上記(12)の処理に際して、それまでに選択されたキーワードを含む文書を、各選択キーワードが表示された領域に関連付けられた文書グループの中から検索することを特徴としている。
請求項4に記載した検索システムは、請求項1または2のシステムを前提とし、さらに、上記キーワード選択画面のキーワード表示領域は、2本の交差する境界線によって4つの領域に区分されると共に、各領域には文書ファイルを4分割するための異なった条件が割り当てられており、上記検索処理部は、上記(2)の処理に際し、4分割された文書グループ毎に各キーワードの出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに重複して割り当て、上記(3)の処理に際して、文書グループ毎に別々の表示サイズが割り当てられた各キーワードを、4つの領域に重複配置させたキーワード選択画面を生成し、上記(5)及び(9)の処理に際し、4分割された文書グループ毎に各キーワードの出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに重複して割り当て、上記(6)及び(10)の処理に際して、先のキーワード選択画面において選択されたキーワードと、次のキーワードグループに属する各キーワードとの共起頻度を、文書グループ毎に算出し、上記(7)及び(11)の処理に際して、文書グループ毎に別々の表示サイズが割り当てられた各キーワードを、4つの領域に、それぞれ既選択キーワードとの共起頻度の高さに応じて近い距離に重複配置させたキーワード選択画面を生成し、上記(12)の処理に際して、それまでに選択されたキーワードを含む文書を、各選択キーワードが表示された領域に関連付けられた文書グループの中から検索することを特徴としている。
請求項5に記載した検索プログラムは、コンピュータを、検索対象となる複数の文書ファイルを格納しておく対象文書記憶手段、複数のキーワードグループ毎に、当該キーワードグループに属する複数の同種キーワードを規定しておくキーワードグループ定義記憶手段、各キーワード毎に、当該キーワードと同一視すべき関連キーワードを定義しておく関連キーワード定義記憶手段、解析結果記憶手段、文書解析手段、検索処理手段として機能させるものであって、上記文書解析手段は、上記の各文書ファイル中に含まれる文書を形態素単位に分解する処理と、上記のキーワードグループ定義記憶手段及び関連キーワード定義記憶手段を参照し、上記文書ファイル中の各形態素または形態素列に対して、対応するキーワードタグを付与する処理と、各キーワードタグに基づいて、各キーワードの出現頻度を文書及びキーワードグループ毎に算出し、この算出結果を上記解析結果記憶手段に格納する処理を実行し、上記検索処理部は、(1) 上記キーワードグループ定義記憶手段を参照し、最初のキーワードグループに属するキーワードを特定する処理と、(2)上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、(3) この表示サイズで表現された各キーワードが、選択可能な状態で配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、(4) 一のキーワードの選択情報が入力された場合に、上記キーワードグループ定義記憶手段を参照し、次のキーワードグループに属するキーワードを特定する処理と、(5) 上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、(6) 上記解析結果記憶手段を参照し、先のキーワード選択画面において選択された既選択キーワードと、次のキーワードグループに属する各キーワードとの共起頻度を算出する処理と、(7) 各キーワードが、上記の(5)において割り当てられた表示サイズで選択可能な状態で配置されると共に、既選択キーワードが中心に配置され、かつ、各キーワードは既選択キーワードとの共起頻度の高さに応じて近い距離に配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、(8) 一のキーワードの選択情報が入力された場合に、上記キーワードグループ定義記憶手段を参照し、次のキーワードグループに属するキーワードを特定する処理と、(9) 上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、(10) 上記解析結果記憶手段を参照し、先のキーワード選択画面において選択された各既選択キーワードと、次のキーワードグループに属する各キーワードとの共起頻度を算出する処理と、(11) 各キーワードが、上記の(9)において割り当てられた表示サイズで選択可能な状態で配置されると共に、各既選択キーワードが中心に配置され、かつ、各キーワードは各既選択キーワードとの共起頻度の高さに応じて近い距離に配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、(12) 上記(8)〜(11)の処理を次のキーワードグループが存在しなくなるまで繰り返した後、それまでに選択されたキーワードを含む文書ファイルを上記対象文書記憶手段から検索して検索結果のリストを生成し、出力する処理を実行することを特徴としている。
請求項1に記載した検索システム及び請求項5に記載した検索プログラムによれば、キーワードグループ毎にキーワードが選択可能に配置されたキーワード表示領域上において、各キーワードの全文書中における出現頻度がその大きさによって表現されていると共に、各キーワードとそれまでに選択したキーワードとの共起頻度が、両者間の距離によって表現されている。この結果ユーザは、絞り込み検索の条件を選択していく過程で、キーワード選択の適否や検索結果の多寡について認識することが可能となる。
請求項2に記載した検索システムの場合、目盛の存在により、既選択キーワードと今回の選択対象キーワードとの間の距離が把握しやすくなる利点を備えている。
請求項3に記載した検索システムの場合、1本の境界線によってキーワード表示領域が2つの領域に区分されると共に、各領域には文書ファイルを2分割するための異なった条件が割り当てられているため、ユーザは何れかの領域におけるキーワードの選択行為によって、検索条件を容易に追加することが可能となる。
しかも、領域毎にキーワードの表示サイズや既選択キーワードとの距離が異なって表現されているため、ユーザは検索条件の追加が検索結果に与える影響について事前に認識することが可能となる。
請求項4に記載した検索システムの場合、2本の境界線によってキーワード表示領域が4つの領域に区分されると共に、各領域には文書ファイルを4分割するための異なった条件が割り当てられているため、ユーザは何れかの領域におけるキーワードの選択行為によって、より複雑な検索条件を容易に追加することが可能となる。
しかも、領域毎にキーワードの表示サイズや既選択キーワードとの距離が異なって表現されているため、ユーザは検索条件の追加が検索結果に与える影響について事前に認識することが可能となる。
図1は、この発明に係る検索システム10の機能構成を示すブロック図であり、文書解析部12と、対象文書記憶部14と、解析結果記憶部16と、キーワードグループ定義記憶部18と、関連キーワード定義記憶部20と、検索処理部22とを備えている。
上記の文書解析部12及び検索処理部22は、サーバコンピュータのCPUが、専用のアプリケーションプログラムに従って必要な処理を実行することにより、実現される。また、上記の対象文書記憶部14、解析結果記憶部16、キーワードグループ定義記憶部18、関連キーワード定義記憶部20は、同コンピュータのハードディスク内に設けられている。
上記検索処理部22には、ネットワークを介してWebサーバ24が接続されている。また、Webサーバ24には、インターネット26を介して多数のクライアント端末28が接続されている。
クライアント端末28は、Webブラウザプログラムを搭載したPCやPDA等よりなる。
キーワードグループ定義記憶部18には、図2に示すように、第1〜第5グループ毎に、各キーワードグループを構成するキーワードが定義されている。
ここで、「キーワードグループ」とは、検索条件として用意された個別のキーワードを様々な観点から分類した検索カテゴリを意味している。
例えば、第1グループは「商品種別」のカテゴリに対応しており、「投信」、「保険」、「外貨」、「その他の商品」のキーワードが設定されている。
また、第2グループは「個別商品」のカテゴリに対応しており、「タムラ・ボンド・インカム・オープン」、「五井住元・ドル円戦略ファンド」、「ローカル・ソブリン・オープン」、「ローカル高金利通貨ファンド」等のキーワードが設定されている。
第3グループは「取引内容」のカテゴリに対応しており、「購入」、「解約」、「クレーム」、「お問い合せ」、「その他の手続」のキーワードが設定されている。
第4グループは「顧客年齢層」のカテゴリに対応しており、「若者」、「中年」、「高齢者」のキーワードが設定されている。
第5グループは「取引結果」のカテゴリに対応しており、「見送り」、「交渉中」、「手続完了」、「その他の結果」のキーワードが設定されている。
関連キーワード定義記憶部20には、図3〜図5に示すように、各キーワードグループに属する個別キーワード毎に、当該キーワードと同視すべき関連キーワードが定義されている。
まず、図3は第1グループに属する「投信」や「保険」、「外貨」等のキーワードに係る関連キーワードを例示するものであり、例えば「投信」の関連キーワードとして、「投信」の他に、「投資信託」、「ファンド」の類義語や、「タムラ・ボンド・インカム・オープン」、「五井住元・ドル円戦略ファンド」といった、商品種別「投信」に従属する下位概念としての個別商品名が格納されている。
図4は、第2グループに属する個別商品の関連キーワードを示すものであり、例えば「タムラ・ボンド・インカム・オープン」の関連キーワードとして、「タムラ・ボンド・インカム・オープン」の他に「タムラボンドインカムオープン」、「タムラボンド」、「インカムオープン」、「インカムOP」等の略語が格納されている。
また、各関連キーワードには、「上位キーワード」として「投信」や「保険」等の第1グループに属する商品種別が設定されている。
図5は、第4グループに属する顧客年齢層の関連キーワードを示すものであり、例えば「若者」の関連キーワードとして、「若者」の他に、「ヤング」、「20代」、「20才/20歳」〜「29才/29歳」といった、若者に該当する呼称や具体的な年代が格納されている。
その他、図示は省略したが、第3グループ(取引内容)に属する各キーワードの類義語や、第5グループ(取引結果)に属する各キーワードの類義語についても、関連キーワード定義記憶部20内に格納されている。
対象文書記憶部14には、金融機関の窓口担当者や営業担当者が日々記録した報告書のテキストデータが、登録年月日、担当者ID、支店コード、部署コード等に関連付けて大量に蓄積されている。
文書解析部12は、対象文書記憶部14に格納された各報告書データに対して、キーワードのタグを付けたり、各キーワードの頻度を集計する処理を実行する。以下、図6のフローチャートに従い、文書解析部12による解析処理の手順を説明する。
まず文書解析部12は、対象文書記憶部14に格納された各文書データを形態素単位に分解する(S10)。
つぎに文書解析部12は、キーワードグループ定義記憶部18及び関連キーワード定義記憶部20を参照し、当該文書データ中の該当形態素(形態素列を含む)に対して「キーワードタグ」を付与する(S12)。
例えば、図7に示すように、(a)〜(c)の3つの文を含むある報告書が対象文書記憶部14に格納されていた場合、文書解析部12は(a)の文中の「40歳」の形態素列が関連キーワード定義記憶部20において「キーワード:中年(第4グループ)」の関連キーワードとして登録されていることを認識し、これに<中年>のキーワードタグを付与する。
また、文書解析部12は、(a)及び(b)の文中の「タムラボンド」の形態素が、関連キーワード定義記憶部20において「キーワード:投信(第1グループ)」の関連キーワードとして登録されていると共に、「キーワード:タムラ・ボンド・インカム・オープン(第2グループ)」の関連キーワードとしても登録されていることを認識し、それぞれに<投信>及び<タムラ・ボンド・インカム・オープン>のキーワードタグを付与する。
また、文書解析部12は、(a)の文中の「ローソブ」の形態素が、関連キーワード定義記憶部20において「キーワード:投信(第1グループ)」の関連キーワードとして登録されていると共に、「キーワード:ローカル・ソブリン・オープン(第2グループ)」の関連キーワードとしても登録されていることを認識し、それぞれに<投信>及び<ローカル・ソブリン・オープン>のキーワードタグを付与する。
また、文書解析部12は、(b)の文中の「新規お申し込み」の形態素列が、関連キーワード定義記憶部20において「キーワード:購入(第3グループ)」の関連キーワードとして登録されていることを認識し、これに<購入>のキーワードタグを付与する。
また、文書解析部12は、(c)の文中の「完了」の形態素が、関連キーワード定義記憶部20において「キーワード:手続完了(第5グループ)」の関連キーワードとして登録されていることを認識し、これに<手続完了>のキーワードタグを付与する。
一つの文書に対するタグ付けを完了した文書解析部12は、キーワードグループ毎に各キーワードの出現頻度(度数)を集計した後(S14)、解析結果を解析結果記憶部16に格納する(S16)。
図8は、この解析結果データを例示するものであり、文書単位で「NO」、「登録日」、「文書」、「第1グループ(商品種別)」〜「第5グループ(取引結果)」等のデータ項目を備えたレコードが、解析結果記憶部16に登録されている。
「第1グループ(商品種別)」〜「第5グループ(取引結果)」のデータ項目には、キーワード毎の出現頻度が記録されている。
なお、図示は省略したが、「文書」の項目に格納されたテキストには、上記のキーワードタグが該当の形態素または形態素列に関連付けられている。
つぎに、図9及び図10のフローチャートに従い、検索処理部22による検索処理の手順について説明する。
まず、Webサーバ24経由でクライアント端末28からの文書の検索リクエストを受信すると(S30)、検索処理部22はキーワードグループ定義記憶部18及び解析結果記憶部16を参照し(S32)、第1グループに属する各キーワードのサイズを決定する(S34)。このサイズの決定方法については、後に詳述する。
つぎに検索処理部22は、第1グループのキーワード選択画面を生成し、Webサーバ24に送信する(S36)。
このキーワード選択画面は、Webサーバ24からクライアント端末28に送信され、Webブラウザ上に表示される。
図11は、この第1グループのキーワード選択画面40を示すものであり、矩形状のキーワード表示領域42が画面中に設けられている。
このキーワード表示領域42には、第1グループに属する「投信」、「保険」、「外貨」、「その他の商品」の4つのクリッカブルな文字列が、相互に適当な間隔をおいて配置されている。
各キーワードは、「投信=50pt」、「保険=42pt」、「外貨=32pt」、「その他の商品=24pt」のように、それぞれの出現頻度に対応した異なるフォントサイズによって表示されている。
以下、検索処理部22よるフォントサイズの決定方法について説明する。
まず検索処理部22は、キーワードグループ定義記憶部18を参照して、第1グループに属する個々のキーワードを特定した後、解析結果記憶部16を参照し、全文書中における各キーワードの出現頻度をカウントする。
この際、同一文書中に同一キーワードが複数回登場したとしても、検索処理部22は「出現数=1」と認定する。例えば、図7に例示した文書の場合、「投信」のキーワードタグが文(a)〜(c)を通じて3回登場しているが、同文書における「投信」の出現数は「1」と判定される。
つぎに検索処理部22は、各キーワードの全文書を通じた出現頻度をポイント換算テーブルに当てはめることにより、具体的なフォントサイズを特定する。
ポイント換算テーブルには、例えば以下のような出現頻度帯とフォントサイズとの対応関係が規定されている。
出現頻度:100回以上→50pt
出現頻度:90〜99回→46pt
出現頻度:80〜89回→42pt
出現頻度:70〜79回→38pt
出現頻度:60〜69回→34pt
出現頻度:50〜59回→30pt
出現頻度:40〜49回→28pt
出現頻度:30〜39回→26pt
出現頻度:20〜29回→24pt
出現頻度:10〜19回→22pt
出現頻度:10回未満→20pt
もちろん、出現頻度帯の範囲設定や具体的なフォントサイズの割当てはこれに限定されるものではない。
このように、各キーワードが当該キーワードの出現頻度に対応したフォントサイズによって表現されているため、ユーザは自己が選択しようとしているキーワードの重要性を一目で認識することができる。
なお、図示は省略したが、出現頻度帯毎に異なった文字色を割り当てておき、フォントサイズと共に色彩によっても出現頻度の多寡が表現されるようにすることが望ましい。例えば、複数段階にランク分けされた出現頻度帯に対し、頻度の高い順に「赤→橙→黄→緑→青→藍→紫…」の各色を割り当てることが該当する。
ユーザは、このキーワード選択画面40において、任意のキーワード(例えば「投信」)をクライアント端末28の入力装置を介して選択する。
すなわち、クライアント端末28がタッチパネルを搭載したPDAやPCの場合、ユーザは画面上でクリッカブルに表示されたキーワードの一部を、指やスタイラスペンでタッチして選択する。
また、クライアント端末28がタッチパネル非搭載のPCである場合、ユーザは画面上でマウスポインタをキーワードの一部に重ねた上でクリックし、一のキーワードを選択する。
このユーザによるキーワード選択情報を、Webサーバ24経由で受信した検索処理部22は(S38)、キーワードグループ定義記憶部18及び解析結果記憶部16を参照し(S40)、第2グループに属する各キーワードの中で、ユーザが前画面において選択した「投信」を上位キーワードとするものを特定すると共に、そのサイズ及び表示位置を決定する(S42)。
各キーワードのフォントサイズは、上記と同様、検索処理部22が解析結果記憶部16を参照して全文書中における各キーワードの出現頻度をカウントした後、各キーワードの全文書を通じた出現頻度を上記のポイント換算テーブルに当てはめることにより、特定される。表示位置の決定方法については、後に詳述する。
つぎに検索処理部22は、第2グループのキーワード選択画面を生成し、Webサーバ24に送信する(S44)。
このキーワード選択画面は、Webサーバ24からクライアント端末28に送信され、Webブラウザ上に表示される。
図12は、この第2グループのキーワード選択画面46を示すものであり、矩形状のキーワード表示領域48が画面中に設けられている。
このキーワード表示領域48には、まずユーザが前画面において選択した「投信」が中心部に配置されている。またキーワード表示領域48上には、直径が画面中心から周辺部に向けて一定幅で段々に拡大する複数の円50が、それぞれの中心点が画面の中心点と重なるように、同心円状に配置されている。この結果、各円50は画面中心からの距離を示す目盛の役割を果たしている。
このキーワード表示領域48上には、さらに第2のキーワードグループに属するキーワード群の中、「投信」を上位キーワードとするものが、それぞれの出現頻度に対応したフォントサイズで表示されている。
この際、出現頻度が「0」のキーワードであっても、その存在自体を明示する必要性から、最小のフォント数で欄外(各同心円50によって構成される目盛から外れた位置)に表示されている。図中の「インデックスファンド225」及び「NRI豪ドル債券ファンド」が、これに該当する。
ただし、第2グループにおいては個別商品名がキーワードとして設定されており、個々のキーワードの語長が区々となるため、検索処理部22は所定のルールに従って語長の調整処理を実行する。
例えば、片仮名や英数記号文字が5語以上連続している場合には半角文字に変換することや、全角10文字分以上の長さのキーワードについては、適当な箇所で改行を入れて複数行表記とすることで、1行の表示幅が所定文字数以内となるように調整することが該当する。
各キーワードの表示位置は、中心に配置された既選択キーワードとの間における、同一文書中における共起頻度の多寡に基づいて決定される。
すなわち、ある文書Aにおいて、第1グループのキーワードとして「投信」が登場し、同文書において第2グループのキーワードとして「タムラ・ボンド・インカム・オープン」が登場していた場合、「タムラ・ボンド・インカム・オープン」の「投信」に対する共起頻度として「1」が加算される。この際、同文書において「タムラ・ボンド・インカム・オープン」が複数回登場していたとしても、全体として共起頻度は「1」とカウントされる。
同様に、他の文書Bにおいて、第1のキーワードグループのキーワードとして「投信」が登場し、同文書において第2のキーワードグループのキーワードとして「タムラ・ボンド・インカム・オープン」が登場していた場合、「タムラ・ボンド・インカム・オープン」の「投信」に対する共起頻度としてさらに「1」が加算され、共起頻度は「2」となる。
以上の処理を、第2グループ中で「投信」を上位キーワードとする各キーワードに対して実行し、それぞれの「投信」に対する共起頻度を求めた上で、その共起頻度を所定の距離換算テーブルに当てはめることにより、具体的な距離を決定する。
距離換算テーブルには、例えば以下のような共起頻度帯と距離(同心円50による目盛)との対応関係が規定されている。
共起頻度:10回以上 →目盛1
共起頻度:9回 →目盛2
共起頻度:8回 →目盛3
共起頻度:6回〜7回→目盛4
共起頻度:4回〜5回→目盛5
共起頻度:2回〜3回→目盛6
共起頻度:1回 →目盛7
共起頻度:0回 →目盛8
もちろん、共起頻度帯の範囲設定や具体的な目盛の割当てはこれに限定されるものではない。
検索処理部22は、上記の距離換算テーブルに従って、各キーワードの中心からの距離(目盛)を割り出した後、各キーワードの具体的な位置を以下のような配置ルールに従って決定する。
(1) まず、表示すべきキーワードの数に対応した軸数で360度を割り算し、各軸間の角度を求める。例えば、表示すべきキーワード数が「4」である場合、360÷4=90度となる。
(2) つぎに、キーワード表示領域48上の各同心円50を、図13に示すように、4本の分割軸52a〜52dによって分割し、各分割軸にキーワードを割り付ける。各分割軸52a〜52dは、それぞれの一端が各同心円50の中心Xに接しており、相互間の角度が90度となるように配置されている。
(3) つぎに、各キーワードの外縁部(上端・下端・左端・右端)に接する外接長方形54を生成する。
(4) つぎに、外接長方形54の中心点56が、当該キーワードに割り当てられた分割軸52aと当該キーワードの目盛4との交点に重なるように、キーワードを配置させる。
なお、各キーワードの大きさや行数、幅が異なるため、分割軸の数が多い場合には相互に重複する場合も想定される。
このような場合には、所定の重複最小化ロジックに従って各キーワードの位置を上下左右にずらし、相互の重複面積を最小化させることが望ましい。
以上のようにして、各キーワードの大きさで当該キーワードの出現頻度を表現することにより、ユーザは自己が選択しようとしているキーワードの重要性や汎用性を一目で認識することが可能となる。
また、先に選択したキーワードとの共起頻度が当該キーワードとの距離として表現されているため、それによって絞り込み検索の結果の多寡を判断することが可能になる。すなわち、中心に配置されたキーワードから遠いキーワードを選択すると、最終的なヒット件数が少なくなり、中心に配置されたキーワードに近いキーワードを選択すると、最終的なヒット件数が多くなることが理解できる。
ただし、第1グループに含まれるキーワードと、第2グループに含まれるキーワードとの間には、上下関係が予め設定されており、「タムラ・ボンド・インカム・オープン」等の個別商品名が登場した文書に対しては、必ず「投信」のキーワードも設定されることとなるため、この第2グループのキーワード選択画面46においては、各キーワードの中心からの距離は等しくなる。
ユーザは、この第2グループのキーワード表示領域48において、任意のキーワード(例えば「タムラ・ボンド・インカム・オープン」)をタッチやクリックによって選択する。
このユーザによるキーワード選択情報を、Webサーバ24経由で受信した検索処理部22は(S46)、キーワードグループ定義記憶部18、関連キーワード定義記憶部20及び解析結果記憶部16を参照し(S48)、第3グループに属する各キーワードを特定すると共に、そのサイズ及び表示位置を決定する(S50)。
つぎに検索処理部22は、第3グループのキーワード選択画面を生成し、Webサーバ24に送信する(図10のS52)。
このキーワード選択画面は、Webサーバ24からクライアント端末28に送信され、Webブラウザ上に表示される。
図14は、この第3グループのキーワード選択画面60を示すものであり、矩形状のキーワード表示領域62が画面中に設けられている。
このキーワード表示領域62には、まずユーザが前画面において選択した、第1グループに属するキーワードである「投信」と、第2グループに属するキーワードである「タムラ・ボンド・インカム・オープン」が、中心部に重ね合わせた状態で配置されている。また、キーワード表示領域62には上記と同様、直径の異なる複数の円50が、同心円状に配置されている。これらの同心円50は、画面中心からの距離を表す目盛の役割を果たす。
このキーワード表示領域62上にはさらに、第3グループに属する各キーワードが、固有のフォントサイズで表示されている。各キーワードのフォントサイズは、上記と同様、検索処理部22が解析結果記憶部16を参照して全文書中における各キーワードの出現頻度をカウントした後、これを上記のポイント換算テーブルに当てはめることにより、特定される。
この際、出現頻度が「0」のキーワードであっても、その存在自体を明示する必要性から、最小のフォント数で欄外(各同心円50から外れた位置)に表示されている。図中の「その他の手続」が、これに該当する。
各キーワードの表示位置は、中心に配置された両キーワードとの間における、同一文書中における共起頻度の多寡に基づいて決定される。
すなわち、ある文書Cにおいて、第1グループのキーワードとして「投信」が登場すると共に、同文書において第2グループのキーワードとして「タムラ・ボンド・インカム・オープン」が登場し、なおかつ第3グループのキーワードである「購入」も登場した場合には、「購入」の「投信&タムラ・ボンド・インカム・オープン」に対する共起頻度として「1」が加算される。この際、同文書において「購入」が複数回登場していたとしても、共起頻度は「1」とカウントされる。
検索処理部22は、以上の処理を第3グループに属する各キーワードに対して実行し、それぞれの「投信&タムラ・ボンド・インカム・オープン」に対する共起頻度を求めた上で、その共起頻度を所定の距離換算テーブルに当てはめることにより、具体的な距離(目盛)を決定する。この距離換算テーブルには上記と同様、複数の共起頻度帯と目盛との対応関係が規定されているが、キーワードの数が増えた分、共起頻度帯の範囲は上記よりも低めに設定されたものが適用される。
つぎに検索処理部22は、各キーワードの具体的な表示位置を、上記と同様な配置ルールに従って決定する。
ユーザは、この第3グループのキーワード選択画面60において、任意のキーワード(例えば「購入」)をタッチやクリックによって選択する。
このユーザによるキーワード選択情報を、Webサーバ24経由で受信した検索処理部22は(S54)、キーワードグループ定義記憶部18及び解析結果記憶部16を参照し(S56)、第4グループに属する各キーワードを特定すると共に、そのサイズ及び表示位置を決定する(S58)。
つぎに検索処理部22は、第4グループのキーワード選択画面を生成し、Webサーバ24に送信する(S60)。
このキーワード選択画面は、Webサーバ24からクライアント端末28に送信され、Webブラウザ上に表示される。
図15は、この第4グループのキーワード選択画面64を示すものであり、矩形状のキーワード表示領域66が画面中に設けられている。
このキーワード表示領域66には、まずユーザがこれまでに選択した第1グループに属する「投信」と、第2グループに属する「タムラ・ボンド・インカム・オープン」と、第3グループに属する「購入」が、中心部に重ね合わせた状態で配置されている。ユーザがマウスポインタ67を中心部に翳すか、あるいは中心部をタッチすると、中心部に配置された既選択キーワードを列記したポップアップウィンドウ68が表示されるため、ユーザこれまでに選択したキーワードを確認することができる。
また、キーワード表示領域66上には上記と同様、画面中心からの距離を表す目盛の役割を果たす直径の異なる複数の円50が、同心円状に配置されている。
このキーワード表示領域66上にはさらに、第4グループに属する各キーワードが、固有のフォントサイズで表示されている。各キーワードのフォントサイズは、上記と同様、検索処理部22が解析結果記憶部16を参照して全文書中における各キーワードの出現頻度をカウントした後、これを上記のポイント換算テーブルに当てはめることにより、特定される。
また各キーワードの表示位置も、上記と同様、中心に配置された各キーワードとの間における、同一文書中における共起頻度の多寡に基づいて決定される。
すなわち、検索処理部22は第4グループに属する各キーワードの「投信&タムラ・ボンド・インカム・オープン&購入」に対する共起頻度を求めた上で、その共起頻度を所定の距離換算テーブルに当てはめることにより、具体的な距離(目盛)を決定する。
つぎに検索処理部22は、各キーワードの具体的な表示位置を、上記と同様な配置ルールに従って決定する。
ユーザは、この第4グループのキーワード選択画面64において、任意のキーワード(例えば「中年」)をタッチやクリックによって選択する。
このユーザによるキーワード選択情報を、Webサーバ24経由で受信した検索処理部22は(S62)、キーワードグループ定義記憶部18及び解析結果記憶部16を参照し(S64)、第5グループに属する各キーワードを特定すると共に、そのサイズ及び表示位置を決定する(S66)。
つぎに検索処理部22は、第5グループのキーワード選択画面を生成し、Webサーバ24に送信する(S68)。
このキーワード選択画面は、Webサーバ24からクライアント端末28に送信され、Webブラウザ上に表示される。
図16は、この第5グループのキーワード選択画面70を示すものであり、矩形状のキーワード表示領域72が画面中に設けられている。
このキーワード表示領域72には、まずユーザがこれまでに選択した第1グループに属するキーワードである「投信」と、第2グループに属するキーワードである「タムラ・ボンド・インカム・オープン」と、第3グループに属する「購入」と、第4グループに属する「中年」とが、中心部に重ね合わせた状態で配置されている。また、画面上には上記と同様、画面中心からの距離を表す目盛の役割を果たす直径の異なる複数の円50が、同心円状に配置されている。
このキーワード表示領域72上にはさらに、第5グループに属する各キーワードが、固有のフォントサイズで表示されている。各キーワードのフォントサイズは、上記と同様、検索処理部22が解析結果記憶部16を参照して全文書中における各キーワードの出現頻度をカウントした後、各キーワードの全文書を通じた出現頻度を上記のポイント換算テーブルに当てはめることにより、特定される。
各キーワードの表示位置も、上記と同様、中心に配置された各キーワードとの間における、同一文書中における共起頻度の多寡に基づいて決定される。
すなわち、検索処理部22は第5グループに属する各キーワードの「投信&タムラ・ボンド・インカム・オープン&購入&中年」に対する共起頻度を求めた上で、その共起頻度を所定の距離換算テーブルに当てはめることにより、具体的な距離(目盛)を決定する。
つぎに検索処理部22は、各キーワードの具体的な表示位置を、上記と同様な配置ルールに従って決定する。
ユーザは、この第5グループのキーワード選択画面70において、任意のキーワード(例えば「手続完了」)をタッチやクリックによって選択する。
このユーザによるキーワード選択情報を、Webサーバ24経由で受信した検索処理部22は(S70)、これまでにユーザが選択した検索条件(投信&タムラ・ボンド・インカム・オープン&購入&中年&手続完了)にマッチするキーワードタグが付与された文書を解析結果記憶部16から抽出し、リスト画面を生成する(S72)。
このリスト画面は、Webサーバ24を経由してクライアント端末28に送信され、Webブラウザ上に表示される。
図示は省略したが、このリスト画面には、各文書の一部が少なくとも列記されており、検索条件に該当するキーワードの部分が強調表示されている。
このリスト画面において各文書をチェックし、詳細を知りたいと感じたユーザが当該文書を選択すると、検索処理部22が対象文書記憶部14から当該文書データを抽出し、文書全文が掲載されたWebファイルがWebサーバ24からクライアント端末28に送信される。
上記のように、この検索システム10の場合、各キーワードグループ毎に複数のキーワードが選択可能に配置された選択画面がクライアント端末28のWebブラウザ上に表示され、この際、各キーワードの全文書中における出現頻度がその大きさによって表現されている。また、各キーワードとそれまでに選択したキーワードとの共起頻度が、両者間の距離(目盛数)によって表現されている。この結果、ユーザは絞り込み検索の条件を選択していく過程で、絞り過ぎか否かや、最終的な出力結果の有無等について大凡の予測が可能となる。
また、明確な目的意識を持たないまま、フォントサイズが比較的大きなキーワードや中心近くに配置されたキーワードを順に選択していくことで、思いがけない検索結果に出会える可能性もある。
なお、ユーザは必ずしも第1グループ〜第5グループのすべてのキーワードを選択する必要はなく、途中のキーワード選択画面において検索ボタン30をクリックまたはタッチすることもできる。この場合、検索処理部22はユーザがそれまでに選択したキーワードを検索条件として、解析結果記憶部16から該当の文書を抽出する。
ユーザは、各キーワード選択画面において前画面ボタン32をクリックまたはタッチすることにより、前のキーワード選択画面に戻り、キーワードの選択をやり直すこともできる。
またユーザは、各キーワード選択画面において次画面ボタン34をクリックすることにより、当該キーワードグループに属するキーワードの選択をスキップすることもできる。検索処理部22は、ユーザが選択をスキップしたキーワードグループに関しては、検索条件が指定されなかったものとして上記の検索処理を実行する。
図17は、第3グループのキーワード選択画面60の変形例を示すものであり、キーワード表示領域62を1本の境界線74によって上下に2分割した上で、各同心円50の上側の第1の領域75に「2009年12月31日以前」の時間的条件を、また下側の第2の領域76に「2010年1月1日以降」の時間的条件を割り当て、上下の領域それぞれに第3グループに属する各キーワードを重複配置させた例を示している。
この画面を生成するために、検索処理部22はまず解析結果記憶部16に蓄積された解析結果データを、文書の登録年月日に基づいて2009年12月31日以前と2010年1月1日以降とに二分した後、各キーワードの出現頻度や共起頻度を分割された文書グループ単位で集計する。
この結果、各キーワードのフォントサイズや中心からの距離も、領域毎に異なってくる。このためユーザは、例えば「購入」のフォントサイズが2009年12月31日以前よりも2010年1月1日以降の方が大きいことから、「投信&タムラ・ボンド・インカム・オープン」に関しては、「購入」に係る報告書が増加傾向にあることを一目で認識できる。
この画面においてユーザが、「2009年12月31日以前」の第1の領域75に表示された「購入」のキーワードを選択した場合、絞り込みの検索条件として「2009年12月31日以前」が付加されることになる。
この結果、検索処理部22は最終的に「2009年12月31日」以前の文書の中から、ユーザ選択した検索条件にマッチする文書を抽出し、リストアップすることになる。
図18は、第3グループのキーワード選択画面60の他の変形例を示すものであり、キーワード表示領域62を縦横2本の直交する境界線74, 77によって上下左右に4分割した上で、各同心円50の上側に「2009年12月31日以前」の時間的条件を、また下側に「2010年1月1日以降」の時間的条件を割り当てると共に、各同心円50の左側に「報告者性別:女性」の条件を、右側に「報告者性別:男性」の条件を割り当て、4つの領域(第1の領域78, 第2の領域79, 第3の領域80, 第4の領域81)にそれぞれ第3グループに属する各キーワードを重複配置させた例を示している。
この画面を生成するために、検索処理部22はまず解析結果記憶部16に蓄積された解析結果データを、文書の登録年月日に基づいて2009年12月31日以前と2010年1月1日以降とに分割した後、さらに文書作成者の性別に応じてそれぞれの文書グループを分割した上で、各キーワードの出現頻度や共起頻度を4分割された文書グループ単位で集計する。
この際、検索処理部22は各文書に関連付けられた担当者のIDに基づき、図示しない社員マスターテーブルを参照して、当該担当者の性別を取得する。
この画面を見たユーザは、例えば「2010年1月1日以降では、女性担当者による購入報告が増えてはいるが、『投信&タムラ・ボンド・インカム・オープン』とは比較的距離があるため、当該銘柄以外の商品に関する購入実績が多い。これに対し男性担当者による場合には、購入報告自体は女性担当者よりも少ないが、『投信&タムラ・ボンド・インカム・オープン』については比較的距離が短いため、当該銘柄の購入実績が多い。」ということを直感的に把握することが可能となる。
上記した付加的な検索条件は一例であり、その他にも例えば報告者の所属地域や年代等、様々な観点からキーワード表示領域を2分割あるいは4分割し、各領域にキーワードを重複表示させることができる。
このように、キーワード表示領域を1本または2本の境界線を用いて複数の領域に分割することにより、付加的な検索条件を付与することは、第3グループのキーワード表示領域62に限定されるものではなく、他のキーワードグループに係るキーワード表示領域に適用することもできる。
ただし、あるキーワードグループのキーワード表示領域において「2009年12月31日以前」の領域からキーワードを選択した後、他のキーワードグループのキーワード表示領域において「2010年1月1日以降」の領域からキーワードを選択するというように、相互に矛盾した選択がなされた場合にはエラーメッセージを画面上に表示し、再選択を促すことが望ましい。
この発明に係る検索システムの機能構成を示すブロック図である。 キーワードグループ定義の一例を示す図である。 関連キーワード定義の一例を示す図である。 関連キーワード定義の一例を示す図である。 関連キーワード定義の一例を示す図である。 文書解析部による文書解析処理の手順を示すフローチャートである。 文書解析部による文書解析処理の内容を示す図である。 解析結果データの一例を示す図である。 検索処理部による検索処理の手順を示すフローチャートである。 検索処理部による検索処理の手順を示すフローチャートである。 第1グループのキーワード選択画面を示す図である。 第2グループのキーワード選択画面を示す図である。 キーワード配置ルールを説明する図である。 第3グループのキーワード選択画面を示す図である。 第4グループのキーワード選択画面を示す図である。 第5グループのキーワード選択画面を示す図である。 第3グループのキーワード選択画面の変形例を示す図である。 第3グループのキーワード選択画面の他の変形例を示す図である。 従来の絞り込み検索画面を示す図である。
10 検索システム
12 文書解析部
14 対象文書記憶部
16 解析結果記憶部
18 キーワードグループ定義記憶部
20 関連キーワード定義記憶部
22 検索処理部
24 Webサーバ
26 インターネット
28 クライアント端末
30 検索ボタン
32 前画面ボタン
34 次画面ボタン
40 第1グループのキーワード選択画面
42 第1グループのキーワード表示領域
46 第2グループのキーワード選択画面
48 第2グループのキーワード表示領域
50 同心円
52a 分割軸
52b 分割軸
52c 分割軸
52d 分割軸
54 外接長方形
56 中心点
60 第3グループのキーワード選択画面
62 第3グループのキーワード表示領域
64 第4グループのキーワード選択画面
66 第4グループのキーワード表示領域
67 マウスポインタ
68 ポップアップウィンドウ
70 第5グループのキーワード選択画面
72 第5グループのキーワード表示領域
74 境界線
77 境界線
75 第1の領域
76 第2の領域
78 第1の領域
79 第2の領域
80 第3の領域
82 第4の領域

Claims (5)

  1. 検索対象となる複数の文書ファイルを格納しておく対象文書記憶手段と、
    複数のキーワードグループ毎に、当該キーワードグループに属する複数の同種キーワードを規定しておくキーワードグループ定義記憶手段と、
    各キーワード毎に、当該キーワードと同一視すべき関連キーワードを定義しておく関連キーワード定義記憶手段と、
    解析結果記憶手段と、
    文書解析手段と、
    検索処理手段とを備えた検索システムであって、
    上記文書解析手段は、上記の各文書ファイル中に含まれる文書を形態素単位に分解する処理と、
    上記のキーワードグループ定義記憶手段及び関連キーワード定義記憶手段を参照し、上記文書ファイル中の各形態素または形態素列に対して、対応するキーワードタグを付与する処理と、
    各キーワードタグに基づいて、各キーワードの出現頻度を文書及びキーワードグループ毎に算出し、この算出結果を上記解析結果記憶手段に格納する処理を実行し、
    上記検索処理部は、
    (1) 上記キーワードグループ定義記憶手段を参照し、最初のキーワードグループに属するキーワードを特定する処理と、
    (2)上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、
    (3) この表示サイズで表現された各キーワードが、選択可能な状態で配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、
    (4) 一のキーワードの選択情報が入力された場合に、上記キーワードグループ定義記憶手段を参照し、次のキーワードグループに属するキーワードを特定する処理と、
    (5) 上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、
    (6) 上記解析結果記憶手段を参照し、先のキーワード選択画面において選択された既選択キーワードと、次のキーワードグループに属する各キーワードとの共起頻度を算出する処理と、
    (7) 各キーワードが、上記の(5)において割り当てられた表示サイズで選択可能な状態で配置されると共に、既選択キーワードが中心に配置され、かつ、各キーワードは既選択キーワードとの共起頻度の高さに応じて近い距離に配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、
    (8) 一のキーワードの選択情報が入力された場合に、上記キーワードグループ定義記憶手段を参照し、次のキーワードグループに属するキーワードを特定する処理と、
    (9) 上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、
    (10) 上記解析結果記憶手段を参照し、先のキーワード選択画面において選択された各既選択キーワードと、次のキーワードグループに属する各キーワードとの共起頻度を算出する処理と、
    (11) 各キーワードが、上記の(9)において割り当てられた表示サイズで選択可能な状態で配置されると共に、各既選択キーワードが中心に配置され、かつ、各キーワードは各既選択キーワードとの共起頻度の高さに応じて近い距離に配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、
    (12) 上記(8)〜(11)の処理を次のキーワードグループが存在しなくなるまで繰り返した後、それまでに選択されたキーワードを含む文書ファイルを上記対象文書記憶手段から検索して検索結果のリストを生成し、出力する処理を実行することを特徴とする検索システム。
  2. 上記検索処理部は、上記(7)及び(11)の処理に際し、上記キーワード表示領域に中心から周辺に向けて直径が段階的に拡大する複数の同心円によって構成された複数の目盛を表示させると共に、共起頻度の範囲と上記目盛との対応関係を規定した距離換算テーブルを参照して、各キーワードを配置する目盛を特定することを特徴とする請求項1に記載の検索システム。
  3. 上記キーワード選択画面のキーワード表示領域は、1本の境界線によって2つの領域に区分されると共に、各領域には文書ファイルを2分割するための異なった条件が割り当てられており、
    上記検索処理部は、上記(2)の処理に際し、2分割された文書グループ毎に各キーワードの出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに重複して割り当て、
    上記(3)の処理に際して、文書グループ毎に別々の表示サイズが割り当てられた各キーワードを、2つの領域に重複配置させたキーワード選択画面を生成し、
    上記(5)及び(9)の処理に際し、2分割された文書グループ毎に各キーワードの出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに重複して割り当て、
    上記(6)及び(10)の処理に際して、先のキーワード選択画面において選択されたキーワードと、次のキーワードグループに属する各キーワードとの共起頻度を、文書グループ毎に算出し、
    上記(7)及び(11)の処理に際して、文書グループ毎に別々の表示サイズが割り当てられた各キーワードを、2つの領域に、それぞれ既選択キーワードとの共起頻度の高さに応じて近い距離に重複配置させたキーワード選択画面を生成し、
    上記(12)の処理に際して、それまでに選択されたキーワードを含む文書を、各選択キーワードが表示された領域に関連付けられた文書グループの中から検索することを特徴とする請求項1または2に記載の検索システム。
  4. 上記キーワード選択画面のキーワード表示領域は、2本の交差する境界線によって4つの領域に区分されると共に、各領域には文書ファイルを4分割するための異なった条件が割り当てられており、
    上記検索処理部は、上記(2)の処理に際し、4分割された文書グループ毎に各キーワードの出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに重複して割り当て、
    上記(3)の処理に際して、文書グループ毎に別々の表示サイズが割り当てられた各キーワードを、4つの領域に重複配置させたキーワード選択画面を生成し、
    上記(5)及び(9)の処理に際し、4分割された文書グループ毎に各キーワードの出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに重複して割り当て、
    上記(6)及び(10)の処理に際して、先のキーワード選択画面において選択されたキーワードと、次のキーワードグループに属する各キーワードとの共起頻度を、文書グループ毎に算出し、
    上記(7)及び(11)の処理に際して、文書グループ毎に別々の表示サイズが割り当てられた各キーワードを、4つの領域に、それぞれ既選択キーワードとの共起頻度の高さに応じて近い距離に重複配置させたキーワード選択画面を生成し、
    上記(12)の処理に際して、それまでに選択されたキーワードを含む文書を、各選択キーワードが表示された領域に関連付けられた文書グループの中から検索することを特徴とする請求項1または2に記載の検索システム。
  5. コンピュータを、
    検索対象となる複数の文書ファイルを格納しておく対象文書記憶手段、
    複数のキーワードグループ毎に、当該キーワードグループに属する複数の同種キーワードを規定しておくキーワードグループ定義記憶手段、
    各キーワード毎に、当該キーワードと同一視すべき関連キーワードを定義しておく関連キーワード定義記憶手段、
    解析結果記憶手段、
    文書解析手段、
    検索処理手段として機能させるプログラムであって、
    上記文書解析手段は、上記の各文書ファイル中に含まれる文書を形態素単位に分解する処理と、
    上記のキーワードグループ定義記憶手段及び関連キーワード定義記憶手段を参照し、上記文書ファイル中の各形態素または形態素列に対して、対応するキーワードタグを付与する処理と、
    各キーワードタグに基づいて、各キーワードの出現頻度を文書及びキーワードグループ毎に算出し、この算出結果を上記解析結果記憶手段に格納する処理を実行し、
    上記検索処理部は、
    (1) 上記キーワードグループ定義記憶手段を参照し、最初のキーワードグループに属するキーワードを特定する処理と、
    (2)上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、
    (3) この表示サイズで表現された各キーワードが、選択可能な状態で配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、
    (4) 一のキーワードの選択情報が入力された場合に、上記キーワードグループ定義記憶手段を参照し、次のキーワードグループに属するキーワードを特定する処理と、
    (5) 上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、
    (6) 上記解析結果記憶手段を参照し、先のキーワード選択画面において選択された既選択キーワードと、次のキーワードグループに属する各キーワードとの共起頻度を算出する処理と、
    (7) 各キーワードが、上記の(5)において割り当てられた表示サイズで選択可能な状態で配置されると共に、既選択キーワードが中心に配置され、かつ、各キーワードは既選択キーワードとの共起頻度の高さに応じて近い距離に配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、
    (8) 一のキーワードの選択情報が入力された場合に、上記キーワードグループ定義記憶手段を参照し、次のキーワードグループに属するキーワードを特定する処理と、
    (9) 上記解析結果記憶手段を参照して、各キーワードの全文書中における出現頻度を集計し、その出現頻度の高さに対応した表示サイズを各キーワードに割り当てる処理と、
    (10) 上記解析結果記憶手段を参照し、先のキーワード選択画面において選択された各既選択キーワードと、次のキーワードグループに属する各キーワードとの共起頻度を算出する処理と、
    (11) 各キーワードが、上記の(9)において割り当てられた表示サイズで選択可能な状態で配置されると共に、各既選択キーワードが中心に配置され、かつ、各キーワードは各既選択キーワードとの共起頻度の高さに応じて近い距離に配置されたキーワード表示領域を備えたキーワード選択画面を生成し、出力する処理と、
    (12) 上記(8)〜(11)の処理を次のキーワードグループが存在しなくなるまで繰り返した後、それまでに選択されたキーワードを含む文書ファイルを上記対象文書記憶手段から検索して検索結果のリストを生成し、出力する処理を実行することを特徴とする検索プログラム。
JP2010211332A 2010-09-21 2010-09-21 検索システム及び検索プログラム Pending JP2012068755A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010211332A JP2012068755A (ja) 2010-09-21 2010-09-21 検索システム及び検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010211332A JP2012068755A (ja) 2010-09-21 2010-09-21 検索システム及び検索プログラム

Publications (1)

Publication Number Publication Date
JP2012068755A true JP2012068755A (ja) 2012-04-05

Family

ID=46166004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010211332A Pending JP2012068755A (ja) 2010-09-21 2010-09-21 検索システム及び検索プログラム

Country Status (1)

Country Link
JP (1) JP2012068755A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017068848A (ja) * 2015-09-30 2017-04-06 株式会社日立製作所 自動分析方法
JP2017078960A (ja) * 2015-10-20 2017-04-27 ヤフー株式会社 表示装置、表示方法、及び表示プログラム
JP7032582B1 (ja) * 2021-01-29 2022-03-08 Kpmgコンサルティング株式会社 情報解析プログラム、情報解析方法及び情報解析装置
JP7400408B2 (ja) 2019-11-28 2023-12-19 株式会社リコー 検索根拠可視化システム、プログラム、および方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017068848A (ja) * 2015-09-30 2017-04-06 株式会社日立製作所 自動分析方法
JP2017078960A (ja) * 2015-10-20 2017-04-27 ヤフー株式会社 表示装置、表示方法、及び表示プログラム
JP7400408B2 (ja) 2019-11-28 2023-12-19 株式会社リコー 検索根拠可視化システム、プログラム、および方法
JP7032582B1 (ja) * 2021-01-29 2022-03-08 Kpmgコンサルティング株式会社 情報解析プログラム、情報解析方法及び情報解析装置

Similar Documents

Publication Publication Date Title
US10699349B2 (en) Computerized system and method for data field pre-filling and pre-filling prevention
US9430470B2 (en) Automated report service tracking system and method
US9501799B2 (en) System and method for determination of insurance classification of entities
US11294910B2 (en) Patent claim mapping
JP5683037B2 (ja) 取引関係マップ生成システム及びプログラム
US20140330594A1 (en) System and method for determination of insurance classification and underwriting determination for entities
US9588955B2 (en) Systems, methods, and software for manuscript recommendations and submissions
US20120290330A1 (en) System and method for web-based industrial classification
Zahran et al. A Critical Analysis of E‑government Evaluation Models at National and Local Municipal Levels
US20090240560A1 (en) Document data display process method, document data display process system and software program for document data display process
US20110246921A1 (en) Visualizing sentiment of online content
Shneiderman et al. Innovation trajectories for information visualizations: Comparing treemaps, cone trees, and hyperbolic trees
Tanudjaja et al. Exploring bibliometric mapping in NUS using BibExcel and VOSviewer
Nauhaus et al. Strategic decision making in the digital age: Expert sentiment and corporate capital allocation
Ajibade et al. Bibliometric Analysis of Citation Trends and Publications on E-government in Southern African Countries: A Human-computer Interactions and IT Alignment Debate.
Bhatia et al. Machine Learning with R Cookbook: Analyze data and build predictive models
JP2012068755A (ja) 検索システム及び検索プログラム
JP7065718B2 (ja) 判断支援装置および判断支援方法
Ampornklinkaew A bibliometric review of research on customer commitment
US11977722B2 (en) Interactive patent visualization systems and methods
Ohsawa et al. Data mining for design and marketing
Lu et al. Clustering e-commerce search engines based on their search interface pages using WISE-Cluster
Stahl et al. Marketplaces for data: An initial survey
Kotsokechagia Predictive model for customer satisfaction in e-commerce
Koseoglu et al. Intellectual structure of the hospitality literature via topic modeling analysis