本実施例の検索システムは、情報検索の際に、利用者の嗜好性を示すデータが格納された記憶部を参照し、検索対象情報から抽出された表示候補情報の文体傾向と利用者の嗜好性とを比較して表示順を決定することで利用者毎にとって読み易い情報を優先させた検索結果の表示を行う。
以下、本発明の実施形態を図面に基づいて説明する。図1は検索システムの一例の構成図である。図1の検索システム100は、サーバ200、クライアント300A〜300Nが、インターネットやLAN(Local Area Network)等のネットワーク40を介してデータ通信可能に接続されている。以下の説明では、クライアント300A〜300Nの何れでもよい場合はクライアント300と呼ぶ。また、図1はネットワーク40を利用する例を示しているが、ネットワーク40を利用せず、一台のコンピュータで実現してもよい。
サーバ200は、クライアント300において入力された検索文字列に基づき検索を行い、その結果をクライアント300の表示装置に表示させる。クライアント300は利用者により操作される。利用者はクライアント300の表示装置に表示された入力画面に検索文字列を入力することで、サーバ200の有するデータベース内の情報を検索できる。
サーバ200では、例えば特定の機能を実行させる操作画面の操作を助けるヘルプ情報が格納されたデータベースを有しており、検索システム100では、このヘルプ情報に係る検索が行われても良い。またデータベースに格納される情報は、ヘルプ情報以外の情報であっても良い。
検索プログラムがインストールされているサーバ200は、コンピュータであり、検索装置の一例である。以下に検索プログラムがインストールされているコンピュータのハードウェア構成を説明する。
コンピュータは、検索装置と同様の機能を有する検索プログラムを実行する。図2はコンピュータの一例のハードウェア構成図である。コンピュータ20は入力装置21、表示装置22、コンピュータ本体23を有する。コンピュータ本体23はバス24で相互に接続されている主記憶装置31、演算処理装置32、インターフェース装置33、記録媒体読取装置34及び補助記憶装置35を有する。また、バス24には入力装置21及び表示装置22が接続されている。
バス24で相互に接続されている入力装置21、表示装置22、主記憶装置31、演算処理装置32、インターフェース装置33、記録媒体読取装置34及び補助記憶装置35は、演算処理装置32による管理下で相互にデータの送受を行うことができる。演算処理装置32は、コンピュータ20全体の動作制御を司る中央処理装置である。
インターフェース装置33は他のコンピュータからのデータを受信し、そのデータの内容を演算処理装置32に渡す。さらに、インターフェース装置33は演算処理装置32からの指示に応じて他のコンピュータにデータを送信する。
補助記憶装置35には、検索装置と同様の機能をコンピュータ20に発揮させるプログラムの一部として、少なくとも検索装置における検索処理をコンピュータ20に実行させる検索プログラムが記憶されている。
そして、コンピュータ20は、演算処理装置32が検索プログラムを補助記憶装置35から読み出して実行することで、検索装置として機能する。検索プログラムは演算処理装置32とアクセス可能な主記憶装置31に格納されていても良い。入力装置21は演算処理装置32の管理下でデータの入力を受付ける。検索プログラムはコンピュータ20が読み取り可能な記録媒体36に記録しておくことができる。
コンピュータ20で読み取り可能な記録媒体36には、磁気記録媒体、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録媒体には、HDD、フレキシブルディスク(FD)、磁気テープ(MT)などがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc − Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。また、光磁気記録媒体には、MO(Magneto − Optical disk)などがある。検索プログラムを流通させる場合には、例えば検索プログラムが記録されたDVD、CD−ROM等の可搬型の記録媒体36を販売することが考えられる。
そして、検索プログラムを実行するコンピュータ20は、例えば記録媒体読取装置34が検索プログラムを記録した記録媒体36から、検索プログラムを読み出す。演算処理装置32は、読み出された検索プログラムを主記憶装置31若しくは補助記憶装置35に格納する。
そして、コンピュータ20は、自己の記憶装置である主記憶装置31若しくは補助記憶装置35から検索プログラムを読み取り、検索プログラムに従った処理を実行する。
尚本実施例のクライアント300も、コンピュータであり、コンピュータ20と同様のハードウェア構成を有する。
図3は、検索装置の機能構成例を示すブロック図である。
検索装置400は、情報登録部410、検索処理部420、記憶領域500を有する。演算処理装置32が対応するプログラムを実行することによって、情報登録部410及び検索処理部420が実現される。記憶領域500は、例えば主記憶装置31又は/及び補助記憶装置35の領域であり、登録情報データベース430、有用情報データベース440、分析項目テーブル450、文体傾向データベース460、嗜好情報データベース470が記憶されている。各データベース430〜470は、それぞれ対象となるデータを記憶する記憶部に相当する。また本実施例では、登録情報データベース430と、有用情報データベース440とで検索対象情報記憶部441を構成しても良い。
検索装置400において、情報登録部410は、例えば登録情報データベース430
から有用な情報を抽出し、有用情報データベース440へ登録する。さらに情報登録部410は、有用情報データベース440に登録された有用情報を分析して分析結果のデータを該当するデータベースへ登録する。検索処理部420は、利用者によりクライアント300を介して入力された検索文字列に基づき有用情報データベース440を検索する。そして検索処理部420は、検索結果を嗜好情報データベース470に格納された嗜好情報に従った順にクライアント300の表示装置へ表示させる。
以下に検索装置400の詳細について説明する。
本実施例の登録情報データベース430には、検索対象となる情報が格納されている。具体的には例えば、特定の機能を実行させる操作画面の操作を助けるヘルプ情報であっても良い。また本実施例の登録情報データベース430に登録された情報は、例えば複数の文章を含む文例集等である。
本実施例の有用情報データベース440は、登録情報データベース430に格納された情報から、後述する方法により抽出された有用情報が格納されている。
情報登録部410は、情報入力部411、有用情報抽出部412、文体傾向分析部413、全体分析部414、利用者毎情報管理部415、嗜好文体分析部416、苦手文体分析部417、嗜好判定部418、分析結果更新部419を有する。
情報入力部411は、利用者の操作するクライアント300からの情報の登録、更新要求を受け付け、登録情報データベース430への情報の登録、更新を行う。情報入力部411により登録される情報は、クライアント300による検索対象となる情報であっても良い。
有用情報抽出部412は、登録情報データベース430に登録された情報から、利用者にとって有用な情報を抽出し、有用情報データベース440へ登録する。以下に本実施例の有用情報抽出部412による有用な情報の抽出について説明する。
有用情報抽出部412は、登録情報データベース430に登録された情報毎の重要度及び鮮度を算出し、重要度と鮮度の高い順に登録情報データベース430から情報を抽出する。そして有用情報抽出部412は、抽出した情報を有用情報として有用情報データベース440へ格納する。本実施例の有用情報抽出部412は、情報に対して利用者から入力された評価値と、情報の参照回数と登録日又は更新日に基づき情報の重要度及び鮮度を算出しても良い。尚重要度及び鮮度の算出の方法は、上記の方法に限定されない。例えば重要度は、情報に含まれるキーワード等により算出されても良い。
また本実施例の有用情報抽出部412は、例えば登録情報データベース430から重要度と鮮度が高い順に所定個数の情報を抽出し、有用情報としても良い。また本実施例の有用情報は、登録情報データベース430から抽出された情報に、利用者から入力された評価値が付加された情報であることが好ましい。
文体傾向分析部413は、後述する分析項目テーブル450を参照し、有用情報データベース430に格納された有用情報の文体の傾向を分析する。そして文体傾向分析部413は、分析結果を分析対象の有用情報と対応付けた文体傾向データ461とし、文体傾向データベース460へ格納する。すなわち文体傾向データベース460には、有用情報毎の文体傾向データ461が格納されている。
全体分析部414は、全ての文体傾向データ461から平均のデータを算出し、全体傾向データ462として文体傾向データベース460へ格納する。文体傾向データ461及び全体傾向データ462の詳細は後述する。
利用者毎情報管理部416は、後述する高評価データ481、低評価データ482、嗜好文体データ471、嗜好文体傾向データ472、苦手文体データ473、苦手文体傾向データ474、嗜好文体判定データ475、重視項目476を含む利用者毎の嗜好情報を利用者毎嗜好データ480として嗜好情報データベース470に格納する。上記各データの詳細、重視項目476の詳細及び嗜好情報データベース470の詳細は後述する。
嗜好文体分析部416は、利用者により高い評価が付与された有用情報である高評価データ481の文体を分析し、分析結果を嗜好文体データ471、嗜好文体傾向データ472として嗜好情報データベース470へ蓄積する。苦手文体分析部417は、利用者により低い評価が付与された有用情報である低評価データ482の文体を分析し、分析結果を苦手文体データ473、苦手文体傾向データ474として嗜好情報データベース470へ蓄積する。
嗜好判定部418は、嗜好文体傾向データ472と苦手文体傾向データ474とに基づき利用者毎の文体の嗜好の傾向を判定し、判定結果から嗜好文体判定データ475と重視項目476とを算出する。嗜好文体判定データ475と重視項目476とは、嗜好情報データベース470へ格納される。
分析結果更新部419は、定期的に嗜好情報データベース470の更新処理を行う。
検索処理部420は、検索要求受付部421、表示候補情報取得部422、文体傾向算出部423、文体傾向比較部424、重み付け処理部425、表示順決定部426、表示制御部427を有する。
検索要求受付部421は、利用者がクライアント300において検索文字列を入力し、検索処理の実行を指示すると、この指示と検索文字列を検索要求として受け付ける。表示候補情報取得部422は、検索文字列により有用情報データベース440を検索し、表示候補となる表示候補情報を取得する。尚本実施例の検索処理部420は、有用情報データベース440を検索した結果、該当する表示候補情報が見つからなかった場合に、登録情報データベース430を検出しても良い。
文体傾向算出部423は、表示候補情報取得部422により取得された表示候補情報の文体の傾向を後述する方法で取得する。文体傾向比較部424は、文体傾向算出部423により取得された表示候補情報の文体の傾向と、嗜好情報データベース470の嗜好文体判定データ475とを後述する方法により比較する。
重み付け処理部425は、文体傾向比較部424の比較結果にしたがって、表示候補情報に重み付けを行う。重み付けの詳細は後述する。表示順決定部426は、重み付け処理部425により付加された重みにしたがって、表示候補情報の表示順を決定する。表示制御部427は、表示順決定部426により決定された順にしたがって、表示候補情報をクライアント300の表示装置等に表示させる。
以下に図4を参照して検索システム100の処理の概略について説明する。図4は、検索システムの処理の概略を説明する図である。
図4(A)は情報登録部410の処理の概略を説明する図であり、図4(B)は検索処理部420の処理の概略を説明する図である。
情報登録部410は、登録情報データベース430から利用者に参照された情報を抽出する。そして情報登録部410は、利用者により付加されたこの情報に対する評価値等から算出された重要度と鮮度等に基づき、参照された情報からさらに有用な情報を抽出し、有用情報として有用情報データベース440に格納する(ステップS41)。
次に情報登録部410は、有用情報において利用者の評価が高い有用情報と、利用者の評価が低い有用情報とを嗜好情報データベース470へ利用者毎に蓄積し、蓄積された有用情報から利用者毎の嗜好傾向を分析する(ステップS42)。そして情報登録部410は、分析結果を利用者毎の嗜好情報として嗜好情報データベース470へ格納する(ステップS43)。
検索処理部420は、クライアント300を介して検索要求を受けると、有用情報データベース440から検索結果の有用情報群を抽出する(ステップS44)。次に検索処理部420は、利用者の嗜好情報を参照して、抽出した有用情報群から優先して表示させる利用者の嗜好にあった情報を取得する(ステップS45)。そして検索処理部420は、利用者の嗜好にあった情報を、嗜好に合っている度合いが高い順に並べ替えてクライアント300の表示装置に表示させる(ステップS46)。
以下に、情報登録部410の処理の詳細を説明する。本実施例の情報登録部410は、利用者毎の嗜好傾向を分析するために、まず有用情報データベース440内の有用情報の文体の分析を行う。続いて情報登録部410は、有用情報の分析結果と、有用情報に付加された利用者の評価とに基づき、利用者毎の嗜好傾向を分析し、その結果を嗜好情報データベース470へ登録する。
図5は、情報登録部による有用情報の分析を説明するフローチャートである。
本実施例の情報登録部410において、文体傾向分析部413は、有用情報データベース440の有用情報が新たに登録された場合又は更新された場合、登録又は更新された有用情報の分析を行う。具体的には文体傾向分析部413は、分析項目テーブル450に設定された分析項目にしたがって有用情報を分析する(ステップS51)。本実施例の分析項目とは、例えば有用情報である文例に含まれる漢字の比率、ひらがなの比率、カタカナの比率、専門用語の比率、注目語の比率等である。分析項目テーブル450の詳細は後述する。
また有用情報を分析する際の手法としては、例えば統計的文章解析を基にした文体分析、形態素解析を基にした文体分析、構文解析を基にした文体分析等が挙げられる。
続いて文体傾向分析部413は、分析対象の有用情報と分析結果とを紐付けて、文体傾向データ461として文体傾向データベース460へ格納する(ステップS52)。文体傾向データ461の詳細は後述する。
続いて情報登録部410の全体分析部414は、新たに登録又は更新された有用情報に対応した文体傾向データを含む全ての文体傾向データ461を集める(ステップS53)。続いて全体分析部414は、集めた文体傾向データ461から、分析項目毎の平均値を算出する(ステップS54)。続いて全体分析部414は、分析項目毎の平均値を、全体傾向データ462として文体傾向データベース460へ格納する(ステップS55)。
本実施例では、この全体傾向データ462が、利用者毎の嗜好傾向を分析するための基準値となる。全体傾向データ462の詳細は後述する。
以下に、本実施例の分析項目テーブル450、文体傾向データベース460について説明する。
図6は、分析項目テーブルの一例を示す図である。分析項目テーブル450は、有用情報データベース440に格納された有用情報を分析する際の項目と、各項目の定義とが対応付けられたテーブルである。本実施例では、分析項目として漢字比率、ひらがな比率、カタカナ比率、数字・記号比率、空白比率、英語比率、専門用語比率、句読点比率、改行比率、注目語の利用、一文の文字量、全体文書量、情報種別の有無が設定されている。
漢字比率は情報全体の文字数における漢字の割合であり、ひらがな比率は情報全体の文字数におけるひらがなの割合であり、カタカナ比率は情報全体の文字数におけるカタカナの割合である。数字・記号比率は情報全体の文字数における数字・記号の割合であり、空白比率は情報全体の文字数における空白の割合であり、英語比率は情報全体の文字数における英語の割合である。
専門用語比率は、情報内で予め設定された単位文字数当たりに専門用語が登場する割合である。尚専門用語は、専門分野毎の単語辞書内に登録された文字又は文字列である。句読点比率は、情報全体の文字数における句読点の割合である。改行比率は、情報全体の文字数における改行の割合である。
注目語の利用は、注目語に該当する文字数を示す。注目語とは、注目語を示す文字列が登録された単語辞書内に当てはまるものを言う。
一文文字量は、情報内で句読点までの平均文字数であり、全体文書量は情報全体の文字量である。情報種別の有無は情報内で扱う情報の種類である。情報の種類とは、例えば動画、静止画、リンク、操作ログ等である。
本実施例の文体傾向分析部413は、分析項目テーブル450に設定された項目について有用情報の分析を行い、分析結果を分析対象の有用情報と対応付けた文体傾向データ461として文体傾向データベース460へ格納する。
次に、図7乃至図10を参照して、文体傾向データベース460について説明する。文体傾向データベース460には、有用情報毎の文体傾向データ461と、全体傾向データ462とが格納されている。
図7は、文体傾向データの第一の例を示す図である。図7に示す文体傾向データ461Aは、有用情報データベース440に格納された有用情報のひとつである文例1に対応した文体傾向データであり、文体傾向データ461に含まれるデータである。
文体傾向データ461Aは、文例1と、結果ファイル1と、情報テーブル1とが対応付けられたデータである。文体傾向データ461Aでは、文例1が有用情報に該当し、結果ファイル1と情報テーブル1とが、文例1を分析項目テーブル450に設定された項目について分析した分析結果に該当する。
結果ファイル1には、文例1に含まれる文章毎の分析結果が含まれる。すなわち結果ファイル1には、文例1に含まれる文章71の分析結果72が含まれる。分析結果72には、文章71に含まれる英字の文字数、漢字の文字数、空白の数、数字・記号の数等が格納されている。また結果ファイル1には、文例1に含まれる文章73の分析結果74、文例1に含まれる文章75の分析結果76が含まれる。さらに結果ファイル1には、分析結果72、74、76の項目毎に値を合計した合計値と、文例1に含まれる3つの文章の文字数の平均値とが含まれる分析結果77が含まれる。
情報テーブル1には、結果ファイル1を用いて文例1の分析項目毎に算出された分析値が格納されている。また情報テーブル1には、文例1を識別するための情報IDとして、対象種別IDと連番とが含まれる。対象種別IDとは、有用情報データベース440において文例1が含まれる有用情報の種別を識別するための識別子である。本実施例の種別には、例えば特定のアプリケーションのヘルプ情報を示す種別や、有用情報のジャンルを示す種別等があっても良い。連番は同一の識別子で登録された文例の連番である。情報テーブル1では、文例1が含まれる種別の識別子はSE001であり、識別子SE001で識別される種別における文例1の連番が001である。
図8は、文体傾向データの第二の例を示す図である。図8に示す文体傾向データ461Bは、有用情報データベース440に格納された有用情報である文例2に対応した文体傾向データであり、文体傾向データ461に含まれるデータである。文体傾向データ461Bには、文例2、結果ファイル2、情報テーブル2が含まれる。
文体傾向データ461Bでは、文例2が有用情報に該当し、結果ファイル2と、情報テーブル2とが、文例2を分析項目テーブル450に設定された項目について分析した分析結果に該当する。結果ファイル2には、文例2に含まれる文章81の分析結果82が含まれる。情報テーブル2には、結果ファイル2を用いて分析項目毎に算出された分析値が格納されている。
分析傾向データ461Bの情報テーブル2では、文例2が含まれる種別の識別子はSE001であり、識別子SE001で識別される種別における文例2の連番が002である。したがって文例1と文例2とは、同じ種別に含まれる情報であることがわかる。
図9は、文体傾向データの第三の例を示す図である。図9に示す文体傾向データ461Cは、有用情報データベース440に格納された有用情報である文例3に対応した文体傾向データであり、文体傾向データ461に含まれるデータである。文体傾向データ461Cには、文例3、結果ファイル3、情報テーブル3が含まれる。
文体傾向データ461Cでは、文例3が有用情報に該当し、結果ファイル3と、情報テーブル3とが、文例3を分析項目テーブル450に設定された項目について分析した分析結果に該当する。結果ファイル3には、文例3に含まれる文章91の分析結果92、文章93の分析結果94、分析結果92、94の項目毎に合計した合計値と、文例3に含まれる2つ文章の文字数の平均値とが含まれる分析結果95が含まれる。情報テーブル3には、結果ファイル3を用いて分析項目毎に算出された分析値が格納されている。
分析傾向データ461Cの情報テーブル3では、文例3が含まれる種別の識別子はSE001であり、識別子SE001で識別される種別における文例3の連番が003である。したがって文例3は、文例1、文例2と同じ種別に含まれる情報であることがわかる。
図10は、全体傾向データの例を示す図である。図10に示す全体傾向データ462は、分析傾向データ461に含まれる全ての情報テーブルに格納された分析値の分析項目毎の平均値を示すデータである。
図10の全体傾向データ462は、例えば文体傾向データ461に含まれる情報テーブル1〜Nの各分析値を分析項目毎に平均した値を有する。この全体傾向データ462に含まれる値が、後の利用者の嗜好傾向を判定する際に基準値となる。
図11は、情報登録部による利用者毎の嗜好傾向の分析を説明するフローチャートである。
本実施例の情報登録部410は、有用情報に付与された利用者からの評価に基づき、利用者毎の好みの文体と苦手な文体とを蓄積する(ステップS111)。続いて情報登録部410は、利用者の好みの文体と苦手な文体とをそれぞれ分析する(ステップS112)。続いて情報登録部410は、ステップS112の分析結果から利用者の嗜好の傾向を分析する(ステップS113)。そして情報登録部410は、ステップS111からステップS113までの処理を定期的に更新する(ステップS114)。
以下に、ステップS111乃至ステップS113の処理の詳細を説明する。まず、ステップS111の詳細を説明する。
本実施例では、利用者に参照されたり利用された有用情報には、その都度利用者の好みを示す評価が付与される。利用者毎情報管理部415は、個々の有用情報に対する評価結果を利用者毎に記録する(ステップS1111)。
続いて利用者毎情報管理部415は、後述する嗜好判定の実施日から所定期間内の利用者の評価結果を元に、利用者毎に評価の高い文例集と評価の低い文例集とを管理する(ステップS1112)。本実施例の利用者毎情報管理部415は、評価の高い文例集を高評価データ481とし、評価の低い文例集を低評価データ482とし、嗜好情報データベース470に蓄積する。本実施例では、高評価データ481と低評価データ482は、利用者毎のデータである利用者毎嗜好データ480の一部として管理される。
次にステップS112の詳細を説明する。
情報登録部410において、嗜好文体分析部416は、高評価データ481の分析を行い、分析結果の平均値を算出する(ステップS1121)。嗜好文体分析部416は、この平均値である嗜好文体データ471を、利用者毎嗜好データ480に含めて嗜好情報データベース470に格納する。
次に嗜好文体分析部416は、算出した平均値(嗜好文体データ471)と、有用情報全体の平均値である全体傾向データ462との差分を算出する(ステップS1122)。続いて嗜好文体分析部416は、算出した差分を利用者の嗜好文体傾向を示す嗜好文体傾向データ472を嗜好情報データベース470へ格納する(ステップS1123)。
次に情報登録部410において、苦手文体分析部417は、低評価データ482の分析を行い、分析結果の平均値を算出する(ステップS1124)。苦手文体分析部417は、この平均値である苦手文体データ473を、利用者毎嗜好データ480に含めて嗜好情報データベース470に格納する。
次に苦手文体分析部417は、算出した平均値(苦手文体データ473)と、有用情報全体の平均値である全体傾向データ462との差分を算出する(ステップS1125)。続いて苦手文体分析部417は、算出した差分を利用者の苦手文体傾向を示す苦手文体傾向データ474を嗜好情報データベース470へ格納する(ステップS1126)。
次にステップS113の詳細を説明する。
情報登録部410において、嗜好判定部418は、算出した嗜好文体傾向データ472と苦手文体傾向データ474とを加算する(ステップS1131)。次に嗜好判定部418は、加算結果を嗜好文体判定データ475として、嗜好情報データベース470に格納する(ステップS1132)。
続いて嗜好判定部418は、嗜好文体判定データ475に含まれる項目のうち、絶対値が所定の閾値以上の項目を、嗜好傾向の重視項目476として嗜好情報データベース470に格納する(ステップS1133)。本実施例の重視項目476とは、利用者の嗜好の傾向に影響する主要な項目である。
本実施例の情報登録部410において、分析結果更新部419は、上記のステップS1111からステップS1133までの処理を定期的に行い、嗜好情報データベース470の利用者毎嗜好データ480を更新する。
以下に、図12乃至14を参照して嗜好情報データベース470について説明する。本実施例の嗜好情報データベース470に格納された利用者毎嗜好データ480には、高評価データ481、嗜好文体データ471、嗜好文体傾向データ472、低評価データ482、苦手分析データ473、苦手文体傾向データ474、嗜好文体判定データ475、重視項目476が含まれる。尚利用者毎嗜好データ480には、図示されていないが、利用者を特定するための識別情報等が含まれる。
図12は、嗜好情報データベースを説明する第一の図である。図12(A)では、高評価データ481、嗜好文体データ471の例を示し、図12(B)では低評価データ482、苦手文体データ472の例を示している。
本実施例の高評価データ481は、利用者に付加された評価値が高い有用情報に対応した情報テーブルと、利用者に付与された評価値483とが含まれる。本実施例では、評価値は5段階の数値で付与されるものとした。また高評価データ481は、評価値5が付与された有用情報の情報テーブルが含まれるものとした。
嗜好文体データ471は、高評価データ481に含まれる全ての情報テーブルの分析項目毎の平均値を求めたデータである。例えば図12の嗜好文体データ471によれば、利用者はひらがな比率が50.00%、英語比率が2.00%の有用情報に高評価を付与している。したがってこの利用者は、全体の文字数に対し、ひらがなが半数程度であり、英語が少ない文体を好む傾向があることがわかる。
本実施例の低評価データ482は、利用者に付加された評価値が低い有用情報に対応した情報テーブルと、利用者に付与された評価値483とが含まれる。低評価データ482は、評価値1が付与された有用情報の情報テーブルが含まれる。
苦手文体データ473は、低評価データ482に含まれる全ての情報テーブルの分析項目毎の平均値を求めたデータである。例えば図12の苦手文体データ473によれば、利用者は漢字比率が60.00%、専門用語比率が56.00%の有用情報に低評価を付与している。したがってこの利用者は、全体の文字数に対し、漢字が半分以上であり、専門用語が半数程度を占める文体を苦手とする傾向があることがわかる。
尚本実施例では、評価値5の有用情報を高評価データ481とし、評価値1の有用情報を低評価データ482としたが、高評価データ481と低評価データ482の分類の仕方はこれに限定されない。例えば有用情報を高評価データ481と低評価データ482とに分類するための評価値の閾値を設け、この閾値と有用情報に付与された評価値とにより有用情報の分類を行っても良い。
図13は、嗜好情報データベースを説明する第二の図である。図13(A)は、嗜好文体傾向データ472、苦手文体傾向データ474、嗜好文体判定データ475を示す図であり、図13(B)は重視項目476を説明する図である。
嗜好文体傾向データ472は、分析項目毎に嗜好文体データ471の各分析項目の値から全体傾向データ462の各分析項目の値を減算したデータである。嗜好文体傾向データ472において、正の差分値は平均以上に好む傾向であること示し、負の差分値は平均程には嗜好傾向にないことを示している。尚本実施例では、嗜好文体傾向データ472に含まれる分析項目は、値が比率で示される項目のみとする。よって、例えば一文の文字量等のように値が比率以外の数値で示される項目は含まれていない。
苦手文体傾向データ474は、分析項目毎に全体傾向データ462の各分析項目の値から苦手文体データ473の各分析項目の値を減算したデータである。苦手文体傾向データ474において、正の差分値は平均程に苦手傾向ではないこと示し、負の差分値は平均以上に苦手傾向であることを示している。尚苦手文体傾向データ474に含まれる分析項目は、嗜好文体傾向データ472と同様である。
嗜好文体判定データ475は、嗜好文体傾向データ472の各分析項目の値と、苦手文体傾向データ474の各分析項目の値と合算したデータである。合算することにより、平均に対してどれだけ嗜好傾向にあるのか、又は苦手傾向にあるのかを客観的に表すことができる。
このように嗜好文体判定データ475を構成することで、より嗜好傾向又はより苦手傾向にあるかを判断することができる。
本実施例では、嗜好文体判定データ475に含まれる分析項目において、絶対値が、予め設定された所定値以上の項目を重視項目476とする。本実施例では、所定値を10とする。
図13(B)では、嗜好文体判定データ475の分析項目毎の値を棒グラフとしている。図13(B)に示す嗜好文体判定データ475では、分析項目の絶対値が10以上の項目は、漢字比率、ひらがな比率、カタカナ比率、英語比率、専門用語率である。よって、嗜好文体判定データ475に対応した利用者の嗜好の傾向は、有用情報に含まれる漢字比率、ひらがな比率、カタカナ比率等によって変化しやすいことがわかる。
本実施例では、以上のように全体傾向データ462を基準として、利用者個人の主観による嗜好文体傾向データ472と苦手文体傾向データ474とを比較することにより、客観的な傾向を知ることが可能となる。また上述したように合算することで、利用者毎の嗜好の傾向に影響する重視項目476を把握することができる。
図14は、嗜好文体判定データの別の例を示す図である。図14(A)は、嗜好文体傾向データ472A、苦手文体傾向データ474Aから求められた嗜好文体判定データ475Aを示している。
図14(B)は、嗜好文体判定データ475Aの分析項目毎の値を棒グラフとした図である。図14(B)の例では、絶対値が10以上の分析項目は、専門用語比率のみである。よって嗜好文体判定データ475Aに対応した利用者の嗜好の傾向は、有用情報に含まれる専門用語比率に影響されることがわかる。
次に、本実施例の検索処理部420の処理について説明する。本実施例の検索処理部420は、利用者の嗜好文体判定データ475を参照して、検索文字列にしたがって抽出した有用情報を利用者の嗜好にあった順にクライアント300の表示装置へ表示させる。図15は、検索処理部による検索及び表示制御を説明するフローチャートである。
本実施例の検索処理部420において、検索要求受付部421は、利用者によりクライアント300から検索文字列が入力されると、検索要求として受け付ける(ステップS151)。尚検索要求には、検索要求を行った利用者を識別できるように利用者ID等が含まれるものとした。続いて検索処理部420は、表示候補情報取得部422により、検索文字列で有用情報データベース430を検索し、表示候補情報を取得する(ステップS152)。
続いて検索処理部420は、表示候補情報毎の文体傾向データ461から算出した表示候補情報毎の分析結果と、検索要求を行った利用者と対応した嗜好文体判定データ475と、を比較する。そして検索処理部420は、比較の結果に基づき表示候補情報に重み付けを行う(ステップS153)。本実施例の検索処理部420は、ステップS153の処理をステップS152で取得した全ての表示候補情報に対して行う。続いて検索処理部420は、重み付けの結果にしたがって表示候補情報の表示順を決定し、クライアント300の表示装置に表示候補情報を表示させる(ステップS154)。
以下に、ステップS153とステップS154の詳細を説明する。
検索処理部420において、文体傾向算出部422は、各表示候補情報の文体傾向を算出する。具体的には文体傾向算出部422は、表示候補情報として取得された有用情報に対応する文体傾向データ461を文体傾向データベース460から取得する。文体傾向算出部422は、全体傾向データ462の分析項目毎の値から、取得した文体傾向データ461の分析項目毎の値を減算した値を表示候補情報の文体傾向とし、記憶領域500へ記録する(ステップS1531)。
続いて文体傾向比較部424は、算出した文体傾向と、嗜好文体判定データ475とを比較し、比較結果に基づき重み付け処理部425により後述する手法により重み付けを行う(ステップS1532)。
続いて検索処理部420は、表示順決定部426により、表示候補情報を偏り判定かが大きい順にソートする(ステップS1541)。続いて検索処理部420は、表示制御部427により、表示順決定部426により決定された順にしたがって、表示候補情報をクライアント300の表示装置等に表示させる(ステップS1542)。
図16は、検索処理部による表示候補情報の文体傾向の算出を説明する図である。図16では、表示候補情報161の文体傾向の算出を示している。図16(A)は表示候補情報161と対応した文体傾向データ160を示す図であり、図16(B)は、表示候補情報161の文体傾向を示す図である。
文体傾向データ160には、表示候補情報161と、結果ファイル162と、情報テーブル163とが含まれる。表示候補情報161は、検索結果として抽出された有用情報である。結果ファイル162、情報テーブル162は、表示候補情報161を分析した結果である。
本実施例の文体傾向算出部423は、全体傾向データ462の各分析項目の値から情報テーブル162に含まれる各分析項目の値を減算し、文体傾向164を算出する。
図17は、検索処理部による重み付けと表示順の決定を説明する図である。図17(A)は重み付けを説明する図であり、図17(B)は偏り判定を説明する図である。図17(C)は表示順を説明する図であり、図17(D)は表示例を示す図である。
図17(A)において、重み付け処理部425は、表示候補情報161の文体傾向164と、嗜好文体判定データ475とを比較し、比較結果を偏り判定値165として算出する。本実施例の偏り判定値165は、文体傾向164が嗜好文体判定データ475と合致している度合いを示す値である。本実施例の重み付け処理部425は、例えば、t検定により2つの母集団がいずれも正規分布に従うと仮定した上での、平均が等しいかどうかの検定を行うようにして、偏り判定値165を求めても良い。
図17(B)に示すように、重み付け処理部425は、表示候補情報毎に偏り判定値165を求める。尚本実施例において表示候補情報は、表示候補情報毎の文体傾向データ461に含まれる対象種別IDと連番に基づき管理される。図17(B)では、表示候補情報161以外に、表示候補情報171〜179について偏り判定値165が算出された例を示している。表示候補情報171〜179は、表示候補情報161が抽出された検索処理により、表示候補情報161と一緒に抽出された情報であっても良い。
抽出された表示候補情報毎に偏り判定値165が算出されると、図17(C)に示すように、表示順決定部426により表示候補情報の表示順が決定される。本実施例では、偏り判定値165の値が大きいほど利用者の嗜好に合致しているものとした。したがって表示順決定部426は、偏り判定αの値が大きい順に表示候補情報の表示順を決定する。
表示順が決定されると、表示制御部427は、表示順が上位の表示候補情報が画面上一上にくるように、クライアント300の表示装置へ画面を表示させる。図17(D)の画面70は、表示候補情報の一覧が表示された例である。画面70では、偏り判定αの値が大きい順に、表示候補情報が画面70の上から表示されている。また表示制御部427は、画面71のように、表示候補情報を個別に表示させても良い。
また本実施例では、画面70のように、表示候補情報と共に、各表示候補情報の偏り判定値165の値を表示させても良い。偏り判定値165を表示させることで、利用者は表示候補情報と利用者の嗜好との合致の度合いを知ることができ、適切な情報選択により表示させることができる。また、好みの文体の情報を表示させるための繰り返し操作を軽減させることができ、利便性を向上させることができる。
また本実施例の表示制御部427は、表示候補情報と共に、表示候補情報の種別を表示させても良い。この場合表示候補情報の種別は、表示候補情報に対応した対象種別IDに基づき表示される。種別を表示させることで、利用者の好む情報の種別と苦手な情報の種別とを利用者に把握させることができる。例えば対象種別IDが有用情報のジャンルを示す場合は、対象種別IDに基づき、利用者が好むジャンルと苦手なジャンルとを把握することができる。したがって本実施例は、音楽、動画、ニュース等の種々の情報検索に適用することが可能である。
以上に説明したように、本実施例の検索装置400では、検索対象となる有用情報データベース440に格納された有用について、有用情報毎に文体の傾向を分析する。また本実施例の検索装置400は、検索システム100の利用者毎に利用者の好みの文体と苦手な文体とを分析し、利用者の嗜好を判定する。そして検索装置400は、利用者が有用情報データベース440の検索を行ったとき、検索結果として抽出された有用情報の文体の傾向と利用者の嗜好とに基づき、利用者の嗜好にあった有用情報をクライアント300に表示させる。本実施例では、これにより、クライアント300へ利用者にとっての読みやすさを考慮した表示を行うことができる。
本発明の実施形態は、以下に記載する付記のような構成が考えられる。
(付記1)
コンピュータが、情報検索を行い、検索結果を表示させる検索方法であって、該コンピュータが、
利用者から文字列の入力を受付け、
文章を含む検索対象情報を記憶する検索対象情報記憶部から、前記文字列に関する検索対象情報を表示候補情報として取得し、
前記検索対象情報に対して前記利用者により付加された評価に基づいて生成された前記利用者の嗜好性の判定に用いる嗜好文体判定データが格納された嗜好情報記憶部から、前記嗜好文体判定データを抽出し、
前記表示候補情報を分析して算出した文体傾向と、抽出した前記嗜好文体判定データとを比較し、
前記比較の結果に基づき前記表示候補情報の少なくとも一部の表示順を決定する検索方法。
(付記2)
複数の前記表示候補情報各々について、前記文体傾向と前記嗜好文体判定データとの比較結果に基づいた重み付けを行う付記1記載の検索方法。
(付記3)
前記検索対象情報の文体傾向を分析した結果である全体傾向データと、前記表示候補情報を所定の分析項目にしたがって分析した結果の文体傾向データとが格納された文体傾向記憶部を参照して前記表示候補情報の文体傾向を算出する付記1又は2記載の検索方法。
(付記4)
前記文体傾向データは、
文体の分析に係る分析項目と、前記分析項目の定義とが対応付けられて記憶領域に格納された分析項目テーブルを参照して前記検索対象情報毎に文体を分析し、
前記分析の結果と、分析対象の前記検索対象情報とを対応させたデータである付記3記載の検索方法。
(付記5)
前記全体傾向データは、
前記検索対象情報毎の前記文体傾向データの前記分析項目毎の平均値である付記4記載の検索方法。
(付記6)
前記検索対象情報に付与された前記利用者の評価の値が、前記利用者が前記文体を好むことを示す値であるとき、前記検索対象情報を高評価データに分類し、
前記利用者の評価の値が、前記利用者が前記文体を苦手とすることを示す値であるとき、前記検索対象情報を低評価データに分類し、
前記高評価データを、前記利用者を識別する情報と対応付けて前記嗜好情報記憶部へ記憶し、
前記低評価データを、前記利用者を識別する情報と対応付けて前記嗜好情報記憶部へ記憶し、
前記高評価データを前記分析項目テーブルに基づき分析し、
前記高評価データを分析した結果の前記分析項目毎の平均値を嗜好文体データとして、前記利用者を識別する情報と対応付けて前記嗜好情報記憶部へ記憶し、
前記低評価データを前記分析項目テーブルに基づき分析し、
前記低評価データを分析した結果の前記分析項目毎の平均値を苦手文体データとして、前記利用者を識別する情報と対応付けて前記嗜好情報記憶部へ記憶する付記4又は5記載の検索方法。
(付記7)
前記嗜好文体データの前記分析項目毎の値と、前記全体傾向データの前記分析項目毎の値とに基づき嗜好文体傾向データを算出し、
前記苦手文体データの前記分析項目毎の値と、前記全体傾向データの前記分析項目毎の値とに基づき苦手文体傾向データを算出し、
前記嗜好文体傾向データと前記苦手文体傾向データとに基づき前記嗜好文体判定データを算出し、
前記嗜好文体傾向データと、前記苦手文体傾向データと、前記嗜好文体判定データとを前記利用者毎嗜好データの一部として前記嗜好情報記憶部へ格納する付記6記載の検索方法。
(付記8)
前記検索対象情報は、前記利用者を含む複数の利用者による参照の回数、前記複数の利用者による参照の頻度を含む情報により有用と判断された有用情報である付記1乃至7の何れか一項に記載の検索方法。
(付記9)
利用者から文字列の入力を受付け、
文章を含む検索対象情報を記憶する検索対象情報記憶部から、前記文字列に関する検索対象情報を表示候補情報として取得し、
前記検索対象情報に対して前記利用者により付加された評価に基づいて生成された前記利用者の嗜好性の判定に用いる嗜好文体判定データが格納された嗜好情報記憶部から、前記嗜好文体判定データを抽出し、
前記表示候補情報を分析して算出した文体傾向と、抽出した前記嗜好文体判定データとを比較し、
前記比較の結果に基づき前記表示候補情報の少なくとも一部の表示順を決定する処理をコンピュータに実行させる検索プログラム。
(付記10)
情報検索を行い、検索結果を表示させる検索装置であって、
文章を含む検索対象情報を記憶する検索対象情報記憶部から、前記文字列に関する検索対象情報を表示候補情報として取得する表示候補情報取得部と、
前記検索対象情報に対して前記利用者により付加された評価に基づいて生成された前記利用者の嗜好性の判定に用いる嗜好文体判定データが格納された嗜好情報記憶部と、
前記嗜好情報記憶部から前記嗜好文体判定データを抽出し、前記表示候補情報を分析して算出した文体傾向と、抽出した前記嗜好文体判定データとを比較する文体傾向比較部と、
前記比較の結果に基づき前記表示候補情報の少なくとも一部の表示順を決定する表示順決定部と、を有する検索装置。
(付記11)
情報検索を行い、検索結果を表示させる検索装置と、前記検出装置と接続されたクライアントとを有する検索システムであって、
前記検索装置は、
文章を含む検索対象情報を記憶する検索対象情報記憶部から、前記文字列に関する検索対象情報を表示候補情報として取得する表示候補情報取得部と、
前記検索対象情報に対して前記利用者により付加された評価に基づいて生成された前記利用者の嗜好性の判定に用いる嗜好文体判定データが格納された嗜好情報記憶部と、
前記嗜好情報記憶部から前記嗜好文体判定データを抽出し、前記表示候補情報を分析して算出した文体傾向と、抽出した前記嗜好文体判定データとを比較する文体傾向比較部と、
前記比較の結果に基づき前記表示候補情報の少なくとも一部の表示順を決定する表示順決定部と、を有し、
前記クライアントは、
前記表示順にしたがって前記表示候補情報を表示させる表示部と、を有する検索システム。
本発明の実施形態は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。