JP2021092925A

JP2021092925A - データ生成装置およびデータ生成方法

Info

Publication number: JP2021092925A
Application number: JP2019222380A
Authority: JP
Inventors: 布目　光生; Mitsuo Nunome; 光生布目
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-06-17
Anticipated expiration: 2039-12-09
Also published as: US20210173857A1; US11954137B2; JP7520500B2

Abstract

【課題】システムの稼働開始時であっても、ユーザの属性に応じたより適切な検索結果のランキングを可能とするデータ生成装置及びデータ生成方法を提供する。【解決手段】データ生成装置１００は、分類部１０３と推定部１０４とを備える。分類部１０３は、複数のユーザそれぞれの属性を示すユーザ情報に基づいて、属性が相互に類似する複数のユーザを複数のクラスタのいずれかに分類する。推定部１０４は、検索結果に含まれる情報と、複数のクラスタの属性を示す情報との類似度に基づいて、検索結果がユーザに有益か否かを推定し、検索結果と、検索結果が有益か否かを示す推定情報と、を含む、複数の検索結果の順序を決定するためのランキングモデルの学習データを出力する。【選択図】図１

Description

本発明の実施形態は、データ生成装置およびデータ生成方法に関する。

文書を検索し、検索した文書を重要度などに基づいて決定した順序で出力する検索システムが知られている。また、検索システムの一例として、企業内に蓄積されている多種多様な業務文書の検索を実現するエンタープライズサーチシステムが知られている。

特開２０１６−０４２３７３号公報

Akifumi Okuno et al., Thomas Huang, "Graph Embedding with Shifted Inner Product Similarity and Its Improved Approximation Capability", in arXiv: 1810.03463 22 Feb. 2019.

しかしながら、従来技術では、順序付け（ランキング）が適切に実行されず、ユーザが必要な文書を効率的に探すことができない場合があった。

実施形態のデータ生成装置は、分類部と推定部とを備える。分類部は、複数のユーザそれぞれの属性を示すユーザ情報に基づいて、属性が相互に類似する複数のユーザを複数のクラスタのいずれかに分類する。推定部は、検索結果に含まれる情報と、複数のクラスタの属性を示す情報との類似度に基づいて、検索結果がユーザに有益か否かを推定し、検索結果と、検索結果が有益か否かを示す推定情報と、を含むデータであって、複数の検索結果の順序を決定するためのランキングモデルの学習データを出力する。

実施形態にかかるデータ生成装置のブロック図。実施形態のデータ生成処理のフローチャート。ＲＤＦにより表現したグラフの一例を示す図。ＲＤＦにより表現したグラフの一例を示す図。推定情報のデータ構造の一例を示す図。実施形態の検索処理の一例を示すフローチャート。検索結果の出力方法の一例を示す図。実施形態の推定処理の詳細を説明するための図。実施形態の更新処理の一例を示すフローチャート。実施形態にかかるデータ生成装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかるデータ生成装置の好適な実施形態を詳細に説明する。

例えば上記のようなエンタープライズサーチシステムは、一般的なウェブ検索と異なり、文書間に明示的なリンクが存在しないため、ページランク等の重みづけ手法が使えない場合がある。その結果、キーワード検索では大量の無関係な文書がヒットするとともに、提示されたランキングの妥当性が低くなり、ユーザが必要な文書を探すことが困難となる場合がある。

また、エンタープライズサーチシステムでは、利用ユーザが小規模であり、かつ、ユーザの専門分野が偏る場合がある。このような場合、例えばソーシャルフィルタを検索結果に対して適用すると、検索結果の偏りおよび固定化を招く恐れがあり、稼働開始時から有用な検索システムを提供することが困難となる。

そこで、本実施形態では、個々のユーザの属性を示すユーザ情報（ユーザプロフィールなど）を用いて複数のユーザを抽象化したユーザモデルを作成する。そして、ユーザモデルの属性と検索結果との類似性を用いて、検索結果のランキングを実行するためのモデル（ランキングモデル）を学習するための学習データを生成する。

このようにして生成される学習データによって学習したランキングモデルを用いることにより、例えばシステムの稼働開始時であっても、ユーザの属性に応じたより適切な検索結果のランキングが可能となる。この結果、ユーザは必要な文書をより効率的に探すことが可能となる。

本実施形態では、個々のユーザの属性が抽象化されたユーザモデルとの類似性によって、検索結果の順序を調整してユーザへ提示する。このため、検索クエリとなるキーワード、および、このキーワードの周辺に出現する語またはフレーズが一致していなくても、文脈での使われ方が似ている（埋め込み表現が類似する）未知のキーワードや専門用語を含む文書を、上位の検索結果として提示可能となる。

図１は、本実施形態にかかるデータ生成装置１００の構成の一例を示すブロック図である。図１に示すように、データ生成装置１００は、記憶部１２１と、表示部１２２と、受付部１０１と、解析部１０２と、分類部１０３と、推定部１０４と、学習部１０５と、検索部１０６と、出力制御部１０７と、更新部１０８と、を備えている。

記憶部１２１は、データ生成装置１００が実行する各種処理で用いられる各種データを記憶する。例えば記憶部１２１は、検索処理の対象となる情報（文書など）、各ユーザの属性が含まれるユーザプロフィール、および、ランキングモデルに関する情報などを記憶する。なおこれらの情報の一部または全部は、データ生成装置１００の外部の記憶装置などに記憶されてもよい。

記憶部１２１は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

表示部１２２は、情報を表示する液晶ディスプレイなどの表示装置である。表示部１２２は、出力制御部１０７の制御に従って情報を表示する。

受付部１０１は、処理対象とする各種データを受け付ける。例えば受付部１０１は、ユーザプロフィール、および、検索クエリとなるキーワードなどの入力を受け付ける。

解析部１０２は、文書の解析処理を実行する。例えば解析部１０２は、ユーザプロフィールを解析し、ユーザの属性を抽出する。また、解析部１０２は、ユーザプロフィールに含まれる情報を例えば形態素解析し、検索クエリとなりうるキーワードを抽出する。抽出されたキーワードは、検索処理をシミュレーションするときの検索クエリとして用いられる。

なお、ユーザプロフィールなどからユーザの属性が既に作成されている場合は、作成済みの情報を取得して使用してもよい。この場合、解析部１０２は、ユーザの属性を抽出する機能は備えなくてもよい。また、検索クエリとなるキーワードは、ユーザプロフィール以外の情報（例えば記憶部１２１に記憶された文書）から抽出されてもよい。予め定められたキーワード（管理者が指定するキーワードなど）が、シミュレーションで用いる検索クエリとして用いられてもよい。

分類部１０３は、個々のユーザを、属性が抽象化されたユーザモデルのいずれかに分類する。例えば分類部１０３は、個々のユーザの属性（ユーザプロフィール）を用いて、属性が相互に類似する複数のユーザを複数のクラスタのいずれかに分類する。各クラスタが、複数のユーザを抽象化したユーザモデルに相当する。また、分類部１０３は、複数のクラスタそれぞれの属性を決定する。例えば分類部１０３は、クラスタに分類された複数のユーザの属性のうち、複数のユーザ間で類似すると判定された属性を、クラスタの属性として決定する。

推定部１０４は、検索処理をシミュレーションして得られた検索結果がユーザにとって有益か否かを推定し、推定結果を示す推定情報を含む学習データを生成する。例えば推定部１０４は、解析部１０２により抽出された検索クエリを仮想的な検索クエリ（仮想クエリ）として検索処理（検索シミュレーション）を実行する。推定部１０４は、検索シミュレーションの検索結果に含まれる情報と、複数のクラスタそれぞれの属性を示す情報との類似度に基づいて、検索結果がユーザに有益か否かを推定する。

検索結果がユーザに有益か否かの推定は、ユーザが検索結果を選択（クリックなど）するか否かの推定と解釈することができる。例えば、ユーザが検索結果を選択することが、検索結果が有益であることに相当し、ユーザが検索結果を選択しないことが、検索結果が有益でないことに相当する。推定部１０４は、例えば、検索結果に含まれる情報と、複数のクラスタの属性を示す情報とが類似する場合に、ユーザが検索結果を選択すると推定する。

推定部１０４は、検索シミュレーションの検索結果と、検索結果に対して推定した推定情報と、を含む学習データを出力する。推定部１０４は、類似性により推定した推定情報をランダムに変更し、変更した推定情報を含む学習データを出力してもよい。例えば推定部１０４は、類似性により推定した推定情報のうち、ランダムに選択した一定の割合（例えば２０％）の推定情報を変更する。例えば推定部１０４は、検索結果が有益である（ユーザが選択する）ことを示す推定情報を、有益でない（ユーザが選択しない）ことを示す推定情報に変更する処理、および、この逆の処理を行う。

学習部１０５は、推定部１０４により出力された学習データを用いてランキングモデルを学習する。ランキングモデル、および、学習方法は、どのようなモデルおよび方法であってもよい。例えば学習部１０５は、ＸＧＢｏｏｓｔ（eXtreme Gradient Boosting）などの決定木を用いたモデル、および、このモデルに適用可能な学習方法を使用することができる。

検索部１０６は、検索処理を実行する。例えば検索部１０６は、記憶部１２１に記憶された文書を対象とする検索処理を実行して複数の検索結果を求め、学習されたランキングモデルを用いて複数の検索結果の順序を決定する。

出力制御部１０７は、各種処理で用いられる各種情報の出力を制御する。例えば出力制御部１０７は、検索部１０６により決定された順序で、検索処理の複数の検索結果を出力する。出力方法はどのような方法であってもよいが、例えば、表示部１２２に表示する方法、プリンタなどの画像形成装置に出力する方法、および、ネットワーク（インターネットなど）を介して外部装置に送信する方法などを適用できる。

更新部１０８は、ユーザプロフィールの更新処理を行う。例えば更新部１０８は、ユーザによる情報の検索処理の履歴に基づいて、ユーザが属するクラスタを推定し、推定したクラスタの属性のうち、ユーザに対して設定されていない属性の属性値を、ユーザから指定された属性値に更新する。

上記各部（受付部１０１、解析部１０２、分類部１０３、推定部１０４、学習部１０５、検索部１０６、出力制御部１０７、および、更新部１０８）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

なお、データ生成装置１００は、上記各部のすべてを備える必要はなく、少なくともランキングモデルの学習データを生成するために必要な構成部を備えていればよい。本実施形態のデータ生成装置１００は、ランキングモデルを学習する機能（学習部１０５）、および、ランキングモデルを用いる検索処理を実行する機能（検索部１０６）などを備えているが、これらの機能の一部または全部を１以上の他の装置に備えるように構成してもよい。

またデータ生成装置１００は、物理的に１つの装置によって構成されてもよいし、物理的に複数の装置によって構成されてもよい。例えばデータ生成装置１００は、クラウド環境上で構築されてもよい。

次に、このように構成された本実施形態にかかるデータ生成装置１００によるデータ生成処理について説明する。図２は、本実施形態におけるデータ生成処理の一例を示すフローチャートである。

解析部１０２は、例えば記憶部１２１に記憶されているユーザプロフィールを解析し、ユーザの属性を抽出する（ステップＳ１０１）。ユーザプロフィールは、例えば、業務における役職、役割、専門性、経験年数、勤務プラント、取得済みの資格、および、教育受講履歴などの情報を含む作業員情報である。例えば解析部１０２は、このようなユーザプロフィールから、予め定められた属性と、この属性に対して設定された値（属性値）とを抽出する。解析部１０２は、ユーザごとに、ユーザプロフィールからの属性値の抽出処理を実行する。

解析部１０２は、さらに、ユーザプロフィールから、検索シミュレーションで用いるキーワードを抽出し、抽出したキーワードのリスト（仮想クエリリスト）を生成する（ステップＳ１０２）。ユーザプロフィールは、資格名およびプラント名などのほか、配管溶接およびタービン据付などの作業内容、並びに、ユーザが専門な知識をもつ機器および装置名などの、ユーザの専門性を示す情報を含む。解析部１０２は、形態素解析処理、および、複合語抽出処理などにより、このような情報をユーザプロフィールからキーワードとして抽出する。

次に分類部１０３は、ユーザの属性を示すグラフを生成する（ステップＳ１０３）。例えば分類部１０３は、ユーザごとに、抽出された属性の名称（見出し）、および、この属性に対する属性値を取得し、複数の属性間の関係を示すグラフを生成する。グラフは、例えば、ＲＤＦ（Resource Description Framework）によるトリプル表現などのように、主語、述語、および、目的語の３つ組みで表現できるが、これに限定されるものではない。

図３および図４は、ＲＤＦにより表現したグラフの一例を示す図である。グラフ３０１のように、相互にエッジで接続された複数のノードを含む閉じたグラフそれぞれが、一人のユーザの属性を表す。

図４は、あるユーザのグラフを拡大表示した図である。ノード４０１は、あるユーザを識別する情報（氏名、ユーザＩＤなど）に対応するノードである。ノード４０２、４０３、４０４、および、４０５は、それぞれ、ノード４０１のユーザの年齢、取得資格、一次会社、および、所属会社に対応するノードである。

図２に戻り、分類部１０３は、グラフを用いてユーザをクラスタに分類する（ステップＳ１０４）。例えば分類部１０３は、各グラフに含まれる属性が相互に類似するグラフが同じクラスタに属するように、複数のグラフをいずれかのクラスタに分類（クラスタリング）する。このような処理により、類似する属性を有するユーザをクラスタに抽象化すること、すなわち、複数のユーザを属性の類似性によって同じクラスタにまとめることができる。クラスタに分類する方法は、例えばトップダウンアプローチによるGirvan-Newmanアルゴリズム、および、ボトムアップアプローチによるNewmanアルゴリズムなどがある。また、ニューラルネットワークを用いたグラフ埋め込み手法（例えば非特許文献１）も提案されている。

さらに分類部１０３は、抽象化された各クラスタから、代表語を抽出する（ステップＳ１０５）。代表語は、各クラスタの特徴を示す用語であり、例えば、クラスタ構築の際に、類似性の手がかりとして採用された用語などが該当する。例えば、「火器取扱責任者」および「防火管理者」という用語が類似と判断され、ボトムアップクラスタリングの過程で、これらのキーワードを含むノードが同一クラスタにまとめ上げられたとする。この場合、分類部１０３は、それぞれのキーワード、および、それらを形態素解析した結果得られる形態素「火器」「取扱」「責任者」「防火」「管理者」などを代表語として抽出する。抽出された代表語は、例えば記憶部１２１に記憶される。代表語は、クラスタの属性を示す属性値であると解釈することもできる。

この後、クラスタリングにより抽象化されたユーザ情報を用いて、検索シミュレーションが実行される。

まず検索部１０６は、ステップＳ１０２で生成された仮想クエリリストを用いて、記憶部１２１に記憶された文書の検索処理を実行する（ステップＳ１０６）。例えば検索部１０６は、仮想クエリリストに含まれる１以上のキーワードをランダムに選択し、選択したキーワードを検索クエリとして文書を検索する。

次に、推定部１０４は、検索結果である文書のうち１つを取得する（ステップＳ１０７）。推定部１０４は、取得した文書がユーザにとって有益か否かを推定する（ステップＳ１０８）。推定部１０４は、例えば、現在検索を実施していると仮定するユーザが属するクラスタの属性を示す情報と、文書に含まれる情報との類似度によって、文書が有益か否かを推定する。従って、推定部１０４は、まず、検索の主体となるユーザまたはユーザが属するクラスタを仮定する。そして推定部１０４は、仮定したユーザが属するクラスタ、または、仮定したクラスタの属性と、検索された文書との類似度を判定する。推定部１０４による推定処理の詳細は後述する。

推定部１０４は、推定結果を示す推定情報を出力する（ステップＳ１０９）。図５は、推定情報のデータ構造の一例を示す図である。図５に示すように、推定情報は、クリック有無、クエリＩＤ、文書ＩＤ、および、複数の属性（属性１、属性２、属性３、属性４）を含む。

クリック有無は、文書が有益か否かを示す情報の一例であり、クリック有（１）のとき文書が有益であり、クリック無（０）のとき文書が有益でないことを示す。クエリＩＤは、検索シミュレーションで用いられた検索クエリを識別する情報である。文書ＩＤは、検索された文書を識別する情報である。属性１〜４は、検索シミュレーションで仮定されたユーザの属性値、あるいは、仮定されたユーザが属するクラスタまたは仮定されたクラスタの属性値が設定される。

推定部１０４は、さまざまな検索クエリ、仮定するユーザ（クラスタ）、および、検索結果の文書の組み合わせについて、図５のような推定情報を生成し、例えば記憶部１２１に記憶する。

図５の推定情報は、ユーザが文書をクリックしたか否かを示すクリックログの例であると解釈することもできる。図５のクリックログは、検索を実行したユーザ、または、このユーザと同じクラスタに属するユーザと関連する用語が多く含まれるほど、クリックされる可能性が高い、という仮定で生成される。

図２に戻り、推定部１０４は、検索されたすべての文書を処理したか否かを判定する（ステップＳ１１０）。すべての文書を処理していない場合（ステップＳ１１０：Ｎｏ）、推定部１０４は、ステップＳ１０７に戻り、次の未処理の文書を選択して処理を繰り返す。

すべての文書を処理した場合（ステップＳ１１０：Ｙｅｓ）、学習部１０５は、推定された推定情報（クリックログ）を学習データとして、ランキングモデルを学習する（ステップＳ１１１）。例えば学習部１０５は、ペアワイズ（pairwise）法により、ある検索クエリに対して文書Ｘと文書Ｙのいずれがよい文書であるか（クリックされやすいか）を学習する。

次に、学習されたランキングモデルを用いる検索処理について説明する。図６は、検索処理の一例を示すフローチャートである。

受付部１０１は、ユーザなどにより入力されたキーワードを受け付ける（ステップＳ２０１）。検索部１０６は、受け付けられたキーワードを検索クエリとして、記憶部１２１などに記憶された文書を検索する（ステップＳ２０２）。検索部１０６は、学習済みのランキングモデルを用いて、検索された検索結果の上位Ｎ件（Ｎは１以上の整数）の並び替えを実行する（ステップＳ２０３）。このように、ランキングモデルは、例えば検索された上位Ｎ件の検索結果に対して適用され、Ｎ件の検索結果の順序の並び替え処理に使用される。なお、検索部１０６が上位Ｎ件の検索結果を得るときに、ランキングモデルを適用するように構成してもよい。出力制御部１０７は、並び替え処理が実行された検索結果を出力し（ステップＳ２０４）、検索処理を終了する。

図７は、検索結果の出力方法の一例を示す図である。図７は、検索を実行したユーザの属性として「Ｂ−３」というプラントでの作業経験があること、および、「配管」系統に専門性があることが設定されており、「配管」という検索クエリが用いられた場合の検索結果の例を示している。また、図７では、並び替えられた上位１０件の検索結果のタイトルとともに、文書に対応する「経験」および「専門」の情報が出力される例が示されている。図７に示すように、検索を実行したユーザの属性により関連している検索結果が、より上位に出力される。

次に、推定部１０４による推定処理の詳細について説明する。図８は、推定処理の詳細を説明するための図である。

上記のように、解析部１０２がユーザプロフィールを解析して抽出したユーザの属性から、分類部１０３がユーザモデル（クラスタ）を生成し、ユーザモデル（クラスタ）ごとの属性を決定する。この属性が推定部１０４による推定処理に用いられる。図８では、複数の属性それぞれがワンホットベクトル形式で表される例が示されている。属性の表現形式はこれに限られるものではない。

また、解析部１０２により抽出されたキーワードを用いた検索シミュレーションによる検索結果が、属性との比較に用いられる。

推定部１０４は、入力層５０３ａおよび中間層５０３ｂを含むニューラルネットワークを用いて推定処理を実行する。

入力生成部５０１は、検索部１０６による検索結果から、ニューラルネットワークに入力するための情報を生成する。例えば入力生成部５０１は、検索結果から、予め定められた項目を抽出し、ニューラルネットワークの入力層５０３ａに入力する情報とする。

例えばプラントなどで行われる作業に関する文書は、発生した事象（事実）、および、作業内容を示す情報（本文）などのように、記載する項目が定められている場合がある。入力生成部５０１は、このような項目を抽出してニューラルネットワークに入力する情報として生成する。図８では、タイトル、本文、および、事象が予め定められた項目として抽出される例が示されている。

タイトルエンコーダ５０２ａ、本文エンコーダ５０２ｂ、事象エンコーダ５０２ｃ、および、キーワードエンコーダ５０２ｄは、それぞれタイトル、本文、事象、および、検索クエリとされたキーワードを、ニューラルネットワークに入力する形式に符号化する。ニューラルネットワークには、これらのエンコーダが符号化した情報を要素とする多次元（例えば２００次元）のベクトル形式の情報が入力される。

図５に示す入力生成部５０１、タイトルエンコーダ５０２ａ、本文エンコーダ５０２ｂ、事象エンコーダ５０２ｃ、および、キーワードエンコーダ５０２ｄは、推定部１０４の機能の一部として実現されてもよい。

ニューラルネットワークは、例えば、入力された情報がどのような種類の情報であるかを出力するように学習される。中間層５０３ｂの出力は、例えば、ユーザモデルの属性と比較可能な形式（ワンホットベクトルなど）で表される。推定部１０４は、中間層５０３ｂの出力と、ユーザモデルの属性とを比較し、類似度を算出する。推定部１０４は、例えば類似度が閾値より大きい場合に、文書がユーザにとって有益である（クリック有）と推定し、類似度が閾値未満の場合に、文書がユーザにとって有益でない（クリック無）と推定する。推定部１０４は、このようにして推定した推定結果５０４を出力する。

学習部１０５には、入力生成部５０１から出力される検索結果と、この検索結果に対する推定結果５０４とが、学習データとして入力される。

推定部１０４による推定処理は図８に示す方法に限られるものではない。例えば推定部１０４は、上記の情報に加えてユーザモデルの属性も入力し、クリック有無を出力するように学習されたニューラルネットワークを用いて推定処理を実行するように構成してもよい。

検索システムを管理する管理者などが検索結果の出力順序を制御できるようにするための機能が備えられてもよい。例えば、受付部１０１は、生成された学習データに付与する重みとしてユーザ（管理者など）により指定された情報の入力を受け付ける。推定部１０４は、指定された重みを含む学習データを出力する。学習部１０５は、ある検索結果（第１検索結果）より重みの値が大きい他の検索結果（第２検索結果）が、第１検索結果より前の順序となるように、ランキングモデルを学習する。

管理者により指定された学習データの個数を増加させるように構成してもよい。この場合、ランキングモデルは、学習データの個数が多いほど、対応する検索結果が上位となるように学習されるモデルが用いられる。

次に、更新部１０８によるユーザプロフィールの更新処理について説明する。

例えばユーザプロフィールとして想定される作業員情報は、作業員が頻繁に入れ替わることなどに起因して正しく作成されない場合、および、作成されたとしてもその後は継続的に更新されない場合がある。そのため、ユーザプロフィールの少なくとも一部の情報が欠落し、内容が不十分となる場合が生じうる。更新部１０８は、このような場合に、適切な内容となるようにユーザプロフィールを更新するために用いられる。

図９は、更新処理の一例を示すフローチャートである。例えば更新部１０８は、各ユーザがある検索クエリにより検索した検索結果のうち、いずれの検索結果の詳細を閲覧したかを示すクリックログ（検索処理の履歴の一例）から、当該ユーザが、いずれのクラスタに近いか（いずれのクラスタに属するか）を推定する（ステップＳ３０１）。

更新部１０８は、推定したクラスタの属性のうち、当該ユーザがユーザプロフィールで指定していない属性があれば、その属性の属性値の入力を促す情報をユーザに出力する（ステップＳ３０２）。例えば、更新部１０８は、出力制御部１０７を介して、表示部１２２に属性の入力を促す情報を表示させる。出力制御部１０７は、属性の入力を促す情報を含むメッセージ（電子メールなど）をユーザに対して送信してもよい。

出力した情報に応じてユーザが属性値を入力した場合、更新部１０８は、入力された属性値によりユーザプロフィールを更新する（ステップＳ３０３）。

このような機能により、ユーザのユーザプロフィールが不十分な場合であっても、ユーザプロフィールの更新を促し、ユーザプロフィールを拡充させることが可能となる。

検索部１０６が、更新部１０８により推定されたクラスタに属するユーザであると仮定して検索処理を実行するように構成してもよい。

以上のように、本実施形態によれば、事前に蓄積されているユーザプロフィールを活用することで、特に業務および用途が特定の領域に特化されている場合でも、検索システムの稼働開始時から、ユーザの特性に応じた、ユーザにより適した検索結果を上位に提示することが可能となる。

次に、本実施形態にかかるデータ生成装置のハードウェア構成について図１０を用いて説明する。図１０は、本実施形態にかかるデータ生成装置のハードウェア構成例を示す説明図である。

本実施形態にかかるデータ生成装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

本実施形態にかかるデータ生成装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

本実施形態にかかるデータ生成装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、本実施形態にかかるデータ生成装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかるデータ生成装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

本実施形態にかかるデータ生成装置で実行されるプログラムは、コンピュータを上述したデータ生成装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００データ生成装置
１０１受付部
１０２解析部
１０３分類部
１０４推定部
１０５学習部
１０６検索部
１０７出力制御部
１０８更新部
１２１記憶部
１２２表示部

Claims

複数のユーザそれぞれの属性を示すユーザ情報に基づいて、前記属性が相互に類似する複数のユーザを複数のクラスタのいずれかに分類する分類部と、
検索結果に含まれる情報と、複数の前記クラスタの属性を示す情報との類似度に基づいて、前記検索結果がユーザに有益か否かを推定し、前記検索結果と、前記検索結果が有益か否かを示す推定情報と、を含むデータであって、複数の検索結果の順序を決定するためのランキングモデルの学習データを出力する推定部と、
を備えるデータ生成装置。
前記分類部は、複数の前記クラスタそれぞれについて、前記クラスタに分類された複数のユーザの属性のうち、複数のユーザ間で類似すると判定された属性を、前記クラスタの属性として決定する、
請求項１に記載のデータ生成装置。
前記推定情報は、ユーザが前記検索結果を選択するか否かを示し、
前記推定部は、前記検索結果に含まれる情報と、複数の前記クラスタの属性を示す情報とが類似する場合に、ユーザが前記検索結果を選択すると推定する、
請求項１に記載のデータ生成装置。
ユーザによる情報の検索処理の履歴に基づいて、前記ユーザが属する前記クラスタを推定し、推定した前記クラスタの属性のうち、前記ユーザに対して設定されていない属性の属性値を更新する更新部をさらに備える、
請求項１に記載のデータ生成装置。
前記ランキングモデルを、前記学習データを用いて学習する学習部をさらに備える、
請求項１に記載のデータ生成装置。
前記推定部は、指定された重みをさらに含む前記学習データを出力し、
前記学習部は、第１検索結果より前記重みの値が大きい第２検索結果が、前記第１検索結果より前の順序となるように、前記ランキングモデルを学習する、
請求項５に記載のデータ生成装置。
検索処理を実行して複数の検索結果を求め、学習された前記ランキングモデルを用いて複数の前記検索結果の順序を決定する検索部と、
決定された順序で複数の前記検索結果を出力する出力制御部と、をさらに備える、
請求項５に記載のデータ生成装置。
前記推定部は、前記推定情報をランダムに変更し、変更した前記推定情報を含む前記学習データを出力する、
請求項１に記載のデータ生成装置。
複数のユーザそれぞれの属性を示すユーザ情報に基づいて、前記属性が相互に類似する複数のユーザを複数のクラスタのいずれかに分類する分類ステップと、
検索結果に含まれる情報と、複数の前記クラスタの属性を示す情報との類似度に基づいて、前記検索結果がユーザに有益か否かを推定し、前記検索結果と、前記検索結果が有益か否かを示す推定情報と、を含むデータであって、複数の検索結果の順序を決定するためのランキングモデルの学習データを出力する推定ステップと、
を含むデータ生成方法。