JP5454827B1

JP5454827B1 - 文書評価装置、文書評価方法、及びプログラム

Info

Publication number: JP5454827B1
Application number: JP2013536946A
Authority: JP
Inventors: 優輔村岡; 大久寿居; 幸貴楠村; 弘紀水口
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-02-24
Filing date: 2013-02-18
Publication date: 2014-03-26
Anticipated expiration: 2033-02-18
Also published as: US9249287B2; WO2013125482A1; US20130332401A1; JPWO2013125482A1

Abstract

特徴量が欠損している文書サンプルが訓練データとして含まれる場合であっても、文書を評価するための関数を精度良く学習するため、文書評価装置は、第１特徴ベクトルの欠損パターンに基づき、文書サンプルの集合を分類するデータ分類部３と、評価値を分類毎に重みづけした第１スコアを計算する第１計算式を、第１特徴ベクトルにおいて欠損していない特徴量及び前記評価値を用いて、分類毎に学習する第１学習部４と、第１スコアを用いて、各分類に対応する特徴量を算出し、算出した特徴量を有する第２特徴ベクトルを生成する特徴ベクトル生成部５と、評価対象となる文書を評価するための第２スコアを計算する第２計算式を、第２特徴ベクトル及び評価値を用いて学習する第２学習部６と、を備えている。

Description

本発明は、文書評価装置、文書評価方法、及びこれらを実現するプログラムに関し、特に、文書を評価する際、訓練データの特徴ベクトルの一部の値が欠損している場合でも学習を行える文書評価装置、文書評価方法、及びプログラムに関する。

検索システムにおいて、目的の文書を迅速に見つけ出すためには、検索結果文書のランキングが重要である。このランキング手法として、多くの評価者が良いと評価した文書が上位にランキングされる手法が一般的に知られている。

ところで、上述したランキング手法では、作成されて間もない文書等のような、評価が少ないか又は未評価の文書が、不当にランキングの下位(または上位)になってしまうという問題がある。そこで、ユーザが文書を評価したログを用いた学習により、文書の筆者、文書の作成日時等の特徴量から文書の評価値を推定し、この評価値をランキングに用いるという手法が知られている。

しかし、これら特徴量の値が、記録漏れなどの要因で、欠損している場合がある。このように特徴量の値が欠損している場合、通常の学習アルゴリズムでは学習が不可能である。このような問題に対して、特許文献１には、特徴量の値が欠損している訓練データを扱う、学習システムの一例が記載されている。

図１４に示すように、この特許文献１に記載された学習システム１０は、欠損値補完部１１と予測モデル学習部１２とから構成されており、次のように動作する。まず、欠損値補完部１１は、特徴量が欠損している文書サンプルと、欠損していない文書サンプルとが混じった訓練データの入力を受け付ける。すると、欠損値補完部１１は、特徴量の値が欠損していない文書サンプルを入力として、値が欠損している特徴量を他の特徴量から推定する関数を学習する。

次に、推定した関数を用いて、値が欠損している特徴量を補完し、欠損値が補完された文書サンプルの集合を予測モデル学習部１２に出力する。そして、予測モデル学習部１２は、この欠損値が補完された文書サンプルを含む訓練データを用いて、特徴量に基づき目的変数を推定する関数を学習する。以上のように、上述した特許文献１に記載された学習システム１０においては、特徴量が欠損している文書サンプルが訓練データに含まれている場合、この欠損している特徴量を補完してから、目的変数を推定する関数を学習している。

特開２００８−２３４３５２号公報

しかし、上述した特許文献１による関数の学習では、欠損している特徴量が文書の評価に大きく影響する特徴量である場合に次の問題が生じる。すなわち、欠損している特徴量を補完してから関数の学習を行ったが、この特徴量の評価への寄与が低い関数を学習することになってしまう場合がある。この結果、特徴量が欠損していない文書に比べて、特徴量が欠損している文書を不当に順位を低くまたは高くランキングしてしまうという問題があった。

そこで、本発明の目的の一例は、特徴量が欠損している文書サンプルが訓練データとして含まれる場合であっても、文書を評価するための関数を精度良く学習することができる文書評価装置、文書評価方法、及びプログラムを提供することにある。

上記目的を達成するため、本発明の一側面における文書評価装置は、複数の特徴量からなる第１特徴ベクトルと文書の評価値とを有する文書サンプルの集合を用いて文書を評価するための文書評価装置であって、
前記第１特徴ベクトルにおいて欠損している特徴量のパターンを示す欠損パターンに基づき、前記文書サンプルの集合を分類するデータ分類部と、
前記評価値を前記分類毎に重みづけした第１スコアを計算する第１計算式を、前記第１特徴ベクトルにおいて欠損していない特徴量及び前記評価値を用いて、前記分類毎に学習する第１学習部と、
前記第１スコアを用いて、各分類に対応した特徴量を算出し、算出した特徴量を有する第２特徴ベクトルを生成する特徴ベクトル生成部と、
評価対象となる文書を評価するための第２スコアを計算する第２計算式を、前記第２特徴ベクトル及び前記評価値を用いて学習する第２学習部と、
を備えることを特徴とする。

また、上記目的を達成するため、本発明の一側面における文書評価方法は、複数の特徴量からなる第１特徴ベクトルと文書の評価値とを有する文書サンプルの集合を用いて文書を評価するための文書評価方法であって、
（ａ）前記第１特徴ベクトルにおいて欠損している特徴量のパターンを示す欠損パターンに基づき、前記文書サンプルの集合を分類するステップと、
（ｂ）前記各評価値を前記分類毎に重みづけした第１スコアを計算する第１計算式を、前記第１特徴ベクトルにおいて欠損していない特徴量及び前記評価値を用いて、前記分類毎に学習するステップと、
（ｃ）前記第１スコアを用いて、各分類に対応する特徴量を算出し、算出した特徴量を有する第２特徴ベクトルを生成するステップと、
（ｄ）評価対象となる文書を評価するための第２スコアを計算する第２計算式を、前記第２特徴ベクトル及び前記評価値を用いて学習するステップと、
を有することを特徴とする。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータによって、複数の特徴量からなる第１特徴ベクトルと文書の評価値とを有する文書サンプルの集合を用いて文書を評価するためのプログラムであって、
前記コンピュータに、
（ａ）前記第１特徴ベクトルにおいて欠損している特徴量のパターンを示す欠損パターンに基づき、前記文書サンプルの集合を分類するステップと、
（ｂ）前記各評価値を前記分類毎に重みづけした第１スコアを計算する第１計算式を、前記第１特徴ベクトルにおいて欠損していない特徴量及び前記評価値を用いて、前記分類毎に学習するステップと、
（ｃ）前記第１スコアを用いて、各分類に対応する特徴量を算出し、算出した特徴量を有する第２特徴ベクトルを生成するステップと、
（ｄ）評価対象となる文書を評価するための第２スコアを計算する第２計算式を、前記第２特徴ベクトル及び前記評価値を用いて学習するステップと、
を実行させる、ことを特徴とする。

以上のように本発明によれば、特徴量が欠損している文書サンプルが訓練データとして含まれる場合であっても、文書を評価するための関数を精度良く学習することができる。

図１は本発明の実施形態における文書評価装置の構成を示すブロック図である。図２は本発明の実施形態における文書評価装置の動作の一部を示すフロー図である。図３は本発明の実施形態における文書評価装置の動作の一部を示すフロー図である。図４は本発明の実施形態における文書評価装置を実現するコンピュータの一例を示すブロック図である。図５は本発明の実施例における文書サンプルの特徴量及び評価値の一例を示す図である。図６は本発明の実施例における出現頻度のデータを示す図である。図７は本発明の実施例において欠損パターン記憶部に登録されるデータを示す図である。図８は本発明の実施例において欠損パターン数削減部が出力するデータを示す図である。図９は本発明の実施例においてデータ分類部が出力するデータを示す図である。図１０は本発明の実施例において第１学習部が出力するデータを示す図である。図１１は本発明の実施例において特徴ベクトル生成部が出力するデータを示す図である。図１２は本発明の実施例においてランキング部に入力される文書のデータを示す図である。図１３は本発明の実施例においてランキング部によって生成された第２特徴ベクトルのデータを示す図である。図１４は特許文献１に記載の学習システムの構成を示すブロック図である。

（実施形態）
次に、発明の実施形態における文書評価装置、文書評価方法、及びプログラムについて図１〜図４を参照して詳細に説明する。

［文書評価装置］
最初に図１を用いて、本実施形態における文書評価装置１の構成について説明する。図１は、本実施形態における文書評価装置の構成を示すブロック図である。

図１に示すように、本実施形態における文書評価装置１は、複数の特徴量からなる第１特徴ベクトルと文書の評価値とを有する文書サンプルの集合を用いて文書を評価するための文書評価装置である。この文書評価装置１は、データ分類部３と、第１学習部４と、特徴ベクトル生成部５と、第２学習部６とを備えている。

データ分類部３は、第１特徴ベクトルにおいて欠損している特徴量のパターンを示す欠損パターンに基づき、文書サンプルの集合を分類する。第１学習部４は、評価値を分類毎に重みづけした第１スコアを計算する第１計算式を、第１特徴ベクトルにおいて欠損していない特徴量及び評価値を用いて、分類毎に学習する。

特徴ベクトル生成部５は、分類に対応する特徴量を有する第２特徴ベクトルを生成する。この各特徴量は対応する分類に属する第１スコアを用いて算出される。第２学習部６は、評価対象となる文書を評価するための第２スコアを計算する第２計算式を、第２特徴ベクトル及び評価値を用いて学習する。

このように、文書評価装置１は、欠損していない特徴量及び文書の評価値に基づいて、最終的に第２スコアを算出する第２計算式を学習する。この第２計算式は、欠損している特徴量を別の値で補完することなく学習されているため、評価に影響の大きい特徴量を重視して文書を評価することができる。

ここで、文書評価装置１の構成を更に具体的に説明する。図１に示すように、本実施形態では、文書評価装置１は、欠損パターン数削減部２と、欠損パターン記憶部７と、ランキング部８とを更に備えている。なお、本実施形態における文書サンプルは、複数の特徴量からなる第１特徴ベクトルと、文書サンプルの評価値とを含んでおり、訓練データとして用いられる。この文書サンプルの評価値とは、例えば、当該文書を読んだユーザが記録した評価や、閲覧された回数、貼られているリンクの本数などを示す。また、文書サンプルの特徴量としては、例えば、文書の更新日時や、クエリと文書との類似度、筆者の信頼度等を挙げることができる。

欠損パターン記憶部７は、欠損している特徴量のパターンを示す欠損パターンを記憶する。欠損パターンとしては、例えば、更新日時が欠損しているパターン、更新日時及び筆者の信頼度が欠損しているパターン、及びいずれの特徴量も欠損していないパターンなどがある。

欠損パターン数削減部２は、出現頻度の低い欠損パターンに対して、出現頻度の高い欠損パターンと一致するように欠損パターンを変更することにより、欠損パターンの数を削減する。詳細には、まず、欠損パターン数削減部２は、文書サンプルの集合、及び閾値パラメータの入力を受け付ける。そして、欠損パターン数削減部２は、欠損パターン毎の文書サンプルの出現頻度を数える。

欠損パターン数削減部２は、閾値パラメータよりも大きい出現頻度の欠損パターンを欠損パターン記憶部７に登録する。そして、欠損パターン数削減部２は、この欠損パターン記憶部７に登録された欠損パターン（登録欠損パターン）を有する文書サンプルについては、そのままの状態で次のデータ分類部３に出力する。

一方、欠損パターン数削減部２は、閾値パラメータ以下の出現頻度である欠損パターン、すなわち、欠損パターン記憶部７に登録されていない欠損パターン（未登録欠損パターン）を有する文書サンプルについては、以下の処理を行った後、次のデータ分類部３に出力する。

まず、欠損パターン数削減部２は、欠損パターン記憶部７を参照し、当該未登録欠損パターンとの差分が最も小さい登録欠損パターンを選ぶ。そして、欠損パターン数削減部２は、この選んだ登録欠損パターンと一致するように、未登録欠損パターンの欠損パターンを変更する。

具体的には、欠損パターン数削減部２は、未登録欠損パターンの欠損している特徴量を推定して欠損していない状態としたり、未登録欠損パターンの欠損していない特徴量を欠損している状態としたりする。その結果、欠損パターン数削減部２は、選んだ登録欠損パターンに未登録欠損パターンを一致させる。

なお、欠損している特徴量の推定には、例えば、他の特徴量から欠損している特徴量を推定する関数を用いてもよい。欠損パターン数削減部２は、この関数を、文書サンプルの集合のうち、推定したい特徴量が欠損していない文書サンプルを用いて学習することができる。この学習には、例えば線形回帰、又はサポートベクトル回帰（SVR）を用いることができる。また、欠損パターン数削減部２は、推定したい特徴量が欠損していない複数の文書サンプルから、平均値、最頻値などの代表値を算出し、これを欠損している特徴量として推定することもできる。

データ分類部３は、本実施形態では、各文書サンプルを、欠損パターンに応じて分類し、この分類結果を対応させた文書サンプルの集合を次の第１学習部４に出力する。

第１学習部４は、本実施形態では、欠損していない特徴量及び評価値に基づき、データ分類部３による分類毎に第１計算式を学習する。各第１計算式は、欠損していない特徴量から、各文書サンプルに対して第１スコアを計算する式である。第１スコアは、文書サンプルの評価値が高いものほど大きくなるスコアであり、分類毎に評価値を重みづけしたものである。

具体的には、第１学習部４は、第１計算式を機械学習法によって学習することができる。この機械学習法としては、例えば、文書の評価値を第１スコアとし、各文書サンプルの欠損していない特徴量から第１スコアを予測する第１計算式を学習するような線形回帰法、又はサポートベクトル回帰法（ＳＶＲ）等を用いることができる。なお、サポートベクトル回帰法による学習方法は、例えば、文献「”A tutorial on Support Vector Regression” Alex J. Smola and Bernhard Sch¨olkopf」に記載された方法を用いることができる。

また、その他の機械学習法として、例えば、２つの文書サンプルのペアを比較したときに、評価値が高い文書サンプルの第１スコアが高くなるような第１計算式を学習する方法(pairwise法、例えばranking SVM)を用いることもできる。さらに他の機械学習法として、文書サンプルのリストを評価値の高い順に並べたときに、その順に第１スコアが大きくなるような第１計算式を学習する方法(listwiseな方法、例えばListNet)を用いてもよい。なお、ranking SVMによって第１計算式を学習する方法については、文献「“A Support Vector Method for Multivariate Performance Measures”T. Joachim」に記載の方法を用いることができる。また、ListNetによって第1計算式を学習する方法については、文献「“Learning to rank: from pairwise approach to listwise approach” Z. Cao, T.Qin, T.-Y. Liu, M.-F. Tsai, H. Li」に記載の方法を用いることができる。

そして、第１学習部４は、データ分類部３から入力された文書サンプルそれぞれに第１スコアを対応付け、この第１スコアが対応付けられた文書サンプルを次の特徴ベクトル生成部５へ出力する。

特徴ベクトル生成部５は、本実施形態では、第２特徴ベクトルを構成する各特徴量を、対応する分類に属する第１スコアから算出する。ここで、各特徴量は、第１スコアを所定範囲内に収まるよう正規化されたものであってもよい。

第２学習部６は、本実施形態では、第２計算式によって算出される第２スコアが、文書サンプルの評価値が高いものほど大きくなるように第２計算式を学習する。第２学習部６は、機械学習によって第２計算式を学習することができる。例えば、第２学習部６は、上述した線形回帰法、サポートベクトル回帰法、ranking SVM、又はListNetなどにより第２計算式を学習することができる。

ランキング部８は、文書の集合と各文書の第１特徴ベクトルが入力されると、文書毎に第２計算式を用いて第２スコアを計算し、第２スコアに基づいて各文書を順位付けして出力する。

具体的には、ランキング部８は、まず、入力された各文書の欠損パターンが、欠損パターン記憶部７に登録されているか否か、すなわち登録欠損パターンと一致するか否かを判定する。

ランキング部８は、入力された文書の欠損パターンが登録欠損パターンと一致すれば、第１学習部の出力した第１計算式を用いて第１スコアをまず算出する。次に、ランキング部８は、この第１スコアを用いて第２特徴ベクトルを生成する。そして、ランキング部８は、第２特徴ベクトルから、第２学習部６の出力した第２計算式を用いて、各文書に対し、第２スコアを計算する。そして、ランキング部８は、第２スコアが高い順に順序を付与した文書の集合を出力する。

一方、入力された文書の欠損パターンが登録欠損パターンと一致しなければ、ランキング部８は、欠損パターン数削減部２と同様に、当該欠損パターンを欠損パターン記憶部７に登録されている欠損パターンと差分が最も小さい欠損パターンと一致させる処理を行う。そして、ランキング部８は、入力された文書に対して、欠損パターンが登録欠損パターンと一致する場合と同様に第２スコアを計算して、第２スコアが高い順に順序を付与した文書の集合を出力する。

［文書評価装置の動作］
次に、本発明の実施形態における文書評価装置１の動作について、図１を適宜参酌しつつ、図２及び図３を用いて説明する。なお、本実施形態では、文書評価装置１を動作させることによって文書評価方法が実施されるため、本実施形態における文書評価方法の説明は以下の文書評価装置１の動作説明に代える。

最初に、文書評価装置１が、文書を評価する際に使用する第１計算式及び第２計算式を学習する動作について図２を参照しつつ説明する。図２は、本実施形態における文書評価装置１が第１計算式及び第２計算式を学習する動作を示すフロー図である。図２に示すように、まず、欠損パターン数削減部２が、文書サンプルの集合及び閾値パラメータの入力を受け付ける（ステップＡ１）。

次に、欠損パターン数削減部２は、各文書サンプルの欠損パターンを特定し、欠損パターン毎に文書サンプルの出現頻度を数え上げ、その出現頻度が閾値パラメータよりも大きい欠損パターンを欠損パターン記憶部７に登録する（ステップＡ２）。

次に、欠損パターン数削減部２は、登録されていない欠損パターン、すなわち、出現頻度が閾値パラメータ以下の欠損パターン（未登録欠損パターン）を抽出する。欠損パターン数削減部２は、この未登録欠損パターンとの差分が最も小さい欠損パターンを、欠損パターン記憶部７に登録された欠損パターン（登録欠損パターン）の中から選択する。そして、欠損パターン数削減部２は、選択した登録欠損パターンと一致するよう、抽出した未登録欠損パターンの欠損パターンを変更する（ステップＡ３）。

以上のように、欠損パターン数削減部２は、未登録欠損パターンを有する文書サンプルについては、その欠損パターンを変更してデータ分類部３へ出力する。一方、登録欠損パターンを予め有する文書サンプルについては、そのままの状態でデータ分類部３へ出力する。

次に、データ分類部３は、入力された文書サンプルそれぞれを、欠損パターンに応じて分類する（ステップＡ４）。そして、データ分類部３は、分類結果が対応付けられた文書サンプルの集合を第１学習部４に出力する。

続いて、第１学習部４は、欠損していない特徴量及び評価値を用いて、第１スコアを計算する第１計算式を分類毎に学習する（ステップＡ５）。そして、第１学習部４は、学習によって得た第１計算式を用いて、データ分類部３から入力した文書サンプルそれぞれに第１のスコアを対応付け、分類及び第１スコアが対応付けられた文書サンプルの集合を特徴ベクトル生成部５に出力する。

次に、特徴ベクトル生成部５は、第１スコアを用いて第２特徴ベクトルを生成する（ステップＡ６）。そして、特徴ベクトル生成部５は、第２特徴ベクトルと文書の評価値とを第２学習部６に出力する。

次に、第２学習部６は、文書サンプルの評価値が高いものほど大きくなる第２スコアを計算する第２計算式を第２特徴ベクトル及び評価値に基づいて学習する（ステップＡ７）。

続いて、文書評価装置１が、上記第１計算式及び第２計算式を用いて、入力された文書に順序付けする動作について図３を参照しつつ説明する。図３は、本実施形態における文書評価装置１が、入力された文書を順序付けする動作を示すフロー図である。

図３に示すように、ランキング部８は、ランキング対象となる文書集合と各文書の第１特徴ベクトルの入力を受け付ける（ステップＡ１１）。ランキング部８は、文書集合の入力を受け付けると、各文書の欠損パターンを特定する（ステップＡ１２）。

ランキング部８は、欠損パターン記憶部７を参照し、ステップＡ１２において特定された各文書の欠損パターンが登録欠損パターンと一致するか否か判定する（ステップＡ１３）。

ランキング部８は、登録欠損パターンと一致する欠損パターンを有する文書については、そのまま欠損パターンを変更することなく後述するステップＡ１５を実行する。一方、ランキング部８は、未登録欠損パターンを有する文書については、次のステップＡ１４を実行する。

ステップＡ１４において、ランキング部８は、未登録欠損パターンを有する文書の欠損パターンと最も差分が小さい登録欠損パターンを、欠損パターン記憶部７に登録されている欠損パターンから選ぶ。そして、ランキング部８は、当該文書の欠損している特徴量を推定して補完したり、欠損していない特徴量を欠損している状態とすることで、当該文書の欠損パターンを変更する。この結果、ランキング部８は、文書の欠損パターンを登録欠損パターンに一致させる。

次に、ランキング部８は、第１学習部４が出力した学習結果と、第２学習部６が出力した学習結果、すなわち、第１計算式及び第２計算式を用いて第２スコアを計算し、この第２スコアを各文書に対応付ける（ステップＡ１５）。

ランキング部８は、各文書に対し、ステップＡ１５で計算された第２スコアが大きい順に順位を付けし、順位付けされた文書集合を外部に出力する（ステップＡ１６）。

以上、本実施形態における文書評価装置１によれば、欠損している特徴量を有する文書であっても、その欠損している特徴量を補完することなく第２計算式を学習することができる。このため、第２計算式から算出される第２のスコアを用いて文書を評価することで、評価に影響の大きい特徴量を重視して文書を評価することができる。

また、本実施形態の文書評価装置１は、第１学習部４によって得られる第１スコアから文書を順位付けするのではなく、特徴ベクトル生成部５及び第２学習部６によって得られる第２スコアで文書を順位付けする。このため、分類ごとに文書を順位付けするのではなく、分類を問わずに文書の集合全てに対して、評価の高い文書サンプルに類似している文書が上位になるように文書の集合を順位付けすることができる。

また、本実施形態の文書評価装置１は、欠損パターン数削減部２によって、文書サンプルの出現頻度が低い欠損パターンを出現頻度が高い欠損パターンに変更することで、欠損パターンの数を減らすことができる。このため、文書評価装置１は、第１特徴ベクトルの次元が高くなり欠損パターンの種類が増えた場合であっても、第２計算式の学習を精度良く行うことができる。

［プログラム］
本発明の実施形態におけるプログラムは、コンピュータに、図２に示すステップＡ１〜Ａ７、図３に示すステップＡ１１〜Ａ１６を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし実行することによって、本実施形態における文書評価装置と文書評価方法とを実現することができる。この場合、コンピュータのＣＰＵ（Central Processing Unit）は、欠損パターン数削減部２、データ分類部３、第１学習部４、特徴ベクトル生成部５、第２学習部６、及びランキング部８して機能し、処理を行う。また、コンピュータに備えられた記憶装置は、欠損パターン記憶部７として機能する。

［コンピュータ］
ここで、本実施形態におけるプログラムを実行することによって、文書評価装置１を実現するコンピュータについて図４を用いて説明する。図４は、本実施形態における文書評価装置を実現するコンピュータの一例を示すブロック図である。

図４に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記憶媒体、又はＣＤ−ＲＯＭ（Compact Disk Read Only Memory）などの光学記憶媒体が挙げられる。

次に、本実施形態における文書評価装置１の動作を、図２、図３、図５〜図１３を参照しつつ、実施例を用いて具体的に説明する。なお、本実施例では、質問及びその回答が記載された文書がランキングの対象となる。また、ランキングはキーワード検索の結果の表示に際して行われる。

［ステップＡ１］
まず、図５に示すような文書サンプルの特徴量、評価値、及び閾値パラメータの入力を欠損パターン数削減部２が受け付ける（ステップＡ１）。なお、本実施例において、訓練データに用いる文書サンプルの個数は１３７０であり、以下では、説明の簡略化のため、文書ＩＤ１〜６の６つの文書サンプルを代表として説明を行う。また、閾値パラメータは１００とする。

各文書サンプルは、Ｆ１：更新日時(ある日時からの差分)、Ｆ２：クエリと文書の類似度、Ｆ３：筆者の信頼度、Ｆ４：クエリと質問部分の類似度、Ｆ５：解決済みか、といった各特徴量と、評価値とを含む。

ここで評価値とは、例えば文書を読んだユーザが記録した評価、閲覧された回数、又は貼られているリンクの本数などから算出された値である。また、Ｆ２：クエリと文書の類似度は、コサイン類似度によって求めることができる。また、Ｆ４：クエリと質問部分の類似度は、類似度測定システムが文書中の「質問」の部分を自動で抽出し、その部分とクエリとの類似度をコサイン類似度によって求めたものとする。なお、「質問」の部分が抽出できなかった文書に対しては、Ｆ４の特徴量が欠損している。

また、図５中の「NA」とは、特徴量が欠損していることを表す。例えば、「Ｆ３：筆者の信頼度」について、筆者がユーザ登録していた場合は評価値があるが、筆者がユーザ登録していない場合は、Ｆ３に関する特徴量が欠損している。

［ステップＡ２］
次に、欠損パターン数削減部２は、ステップＡ２を実行する。すなわち、欠損パターン数削減部２は、まず、文書サンプルそれぞれについて欠損パターンを特定し、欠損パターン毎の文書サンプルの出現頻度をカウントする。このカウントした結果が図６である。

図６に示すように、「欠損なし」のパターン、「Ｆ３のみが欠損している」パターン、「Ｆ３及びＦ４が欠損している」パターンの３つの欠損パターンは、その出現頻度が閾値パラメータの１００よりも大きい。このため、欠損パターン数削減部２は、これら３つの欠損パターン{欠損なし、(F3),(F3,F4)}の出現頻度が閾値パラメータより大きいと判定する。そして、欠損パターン数削減部２は、これら３つの欠損パターンを登録欠損パターンとして、欠損パターン記憶部７に登録する。なお、欠損パターン記憶部７は、例えば図７のようなデータを保持する。

［ステップＡ３］
次に、欠損パターン数削減部２は、入力された各文書サンプルに対し、その欠損パターンが未登録欠損パターンである文書サンプルを抽出し、この文書サンプルの欠損パターンを変更する（ステップＡ３）。詳細に説明すると、欠損パターン数削減部２は、文書ＩＤ１，２，３，４，５の文書サンプルの欠損パターンは登録欠損パターンと一致するため、これら文書サンプルの欠損パターンは変更しない。一方、欠損パターン数削減部２は、文書ＩＤ６の文書サンプルの欠損パターン（Ｆ４のみが欠損するパターン）は未登録欠損パターンであるため、この文書ＩＤ６の文書サンプルを抽出して以下の処理を行う。

欠損パターン数削減部２は、文書ＩＤ６の文書サンプルの欠損パターンと最も差分の小さい登録欠損パターンを選択する。文書ＩＤ６の文書サンプルは、「Ｆ４のみが欠損している」という欠損パターンである。この欠損パターンと最も差分の小さい登録欠損パターンは、「欠損なし」の欠損パターンか、「Ｆ３及びＦ４が欠損している」欠損パターンである。このように候補の登録欠損パターンが複数ある場合、欠損パターン数削減部２は、例えば登録が最も古い「欠損なし」の欠損パターンを差分が最も小さい登録欠損パターンとして選ぶ。

続いて、欠損パターン数削減部２は、文書ＩＤ６の文書サンプルを欠損パターンなしの登録欠損パターンと一致させるために、文書ＩＤ６の欠損していない特徴Ｆ１，Ｆ２，Ｆ３，Ｆ５の各特徴量からＦ４の特徴量の推定を行う。なお、本実施例において、欠損パターン数削減部２は、線形回帰により、以下の数１のように特徴Ｆ４の特徴量ｆ_４を他の特徴Ｆ１、Ｆ２，Ｆ３，Ｆ５の特徴量ｆ_１、ｆ_２、ｆ_３、ｆ_５から推定する。

なお、ａ_０、ａ₁、ａ₂、ａ₃、ａ₅は、以下の数２の連立方程式から求めることができる。

ここで、上記数１を算出するために使用する文書サンプルは、特徴量が欠損していない文書サンプル（文書ID２，５、・・・）であり、この文書ＩＤ列を若い番号から順にσ_１、σ_２、・・・とする（σ_１＝２、σ_２＝５、・・・）。また、文書ＩＤｎの特徴Ｆ_ｋの特徴量をｆ_ｎｋとする。この場合、例えば、文書ＩＤ２の更新日時Ｆ１の特徴量は、ｆ_{σ１１}（又はｆ_{２１}）と表される。

本実施例では、以上の数１によって求められた文書ＩＤ６のＦ４の特徴量が0.02となったとする。そして、欠損パターン数削減部２は、以上のように算出した特徴量で補完することで、文書ＩＤ６の文書サンプルの欠損パターンを欠損無しパターンとし、図８に示すデータを出力する。

［ステップＡ４］
次に、データ分類部３は、欠損パターン数削減部２が出力した図８のデータを入力とし、欠損パターンに基づいて各文書サンプルを分類し、各文書サンプルに分類番号を付与した図９のデータを出力する（ステップＡ４）。

［ステップＡ５］
次に、第１学習部４は、データ分類部３の出力した図９のデータを入力とし、分類毎に、第１計算式の学習を行う（ステップＡ５）。すなわち、第１学習部４は、分類番号１の文書サンプル（ＩＤ２、５、６、・・・）の各特徴量から、評価値が高いほどスコアが大きくなる第１計算式の学習を行う。その結果得られた式の一例を数４に示す。同様に、第1学習部４は、分類番号２の文書サンプル（ＩＤ３、４、・・・）の各特徴量から、数５に示した式の一例を第１計算式として学習する。また、第１学習部４は、分類番号３の文書サンプル（ＩＤ１、・・・）の各特徴量から、数６に示した式の一例を第１計算式として学習する。

なお、数４〜数６の式は、線形回帰を用いて得ることができ、具体的には、以下の数３の連立方程式を解いた結果のａ_ξkの値によって得られる。ここで、文書ＩＤ
ｎの特徴Ｆ_ｋの特徴量をｆ_ｎ
_ξｋ、文書ＩＤｎの評価値をｅ_ｎで表す。また、対象の分類に属する文書ＩＤのＩＤ列を若い番号から順にσ_１、σ_２、・・・σ_ｉ、と表し、その対象の分類の欠損していない特徴量を若い特徴番号から順にｆ_{σi ξ１}、ｆ_σi
_ξ２、・・・ｆ_{σi ξk}と表す。なお、ξ_kは、対象分類における欠損していない特徴量の番号を表す数列である。

次に、第１学習部４は、分類番号１の文書サンプルに対しては数４の第１計算式、分類番号２の文書サンプルに対しては数５の第１計算式、分類番号３の文書サンプルに対しては数６の第１計算式を用いて第１スコアを算出する。そして、第１学習部４は、この算出した各第１スコアを対応させた図１０のデータを出力する。

［ステップＡ６］
次に、特徴ベクトル生成部５は、第１学習部４の出力した、図１０のデータを入力として、第２特徴ベクトルを生成する（ステップＡ６）。第２特徴ベクトルは、特徴として、Ｇ１，Ｇ２，Ｇ３を有している。そして、分類ｊの文書サンプルは、第１スコアを［０，１］に収まるよう正規化した値を特徴Ｇｊ（ｊ＝１，２，３）の特徴量とし、特徴Ｇｊ以外の特徴量は０とする。

例えば、文書ＩＤ１の文書サンプルは分類番号３であるため、特徴ベクトル生成部５は、第１スコアを正規化した値を特徴Ｇ３の特徴量とし、特徴Ｇ１，Ｇ２の特徴量は０とする第２特徴ベクトルを生成する。また、特徴ベクトル生成部５は、文書ＩＤ２，５，６の文書サンプルは分類番号１であるため、各第１スコアを正規化した値を、特徴Ｇ１の特徴量とし、特徴Ｇ２、Ｇ３の特徴量は０とする第２特徴ベクトルを生成する。また、特徴ベクトル生成部５は、文書ＩＤ３，４の文書サンプルは分類番号２であるため、第１スコアを正規化した値を、特徴Ｇ２の特徴量とし、特徴Ｇ１，Ｇ３の特徴量を０とする第２特徴ベクトルを生成する。以上のように、特徴ベクトル生成部５は、各文書サンプルの第２特徴ベクトルを生成した結果、図１１のデータを出力する。

次に、第２学習部６は、特徴ベクトル生成部５の出力した、図１１のデータを入力として、以下の数８に示した式を第２計算式として学習する（ステップＡ７）。具体的には、以下の数７の連立方程式を解いた結果得られたｂ_１、ｂ_２、ｂ_３を用いて、数８に示した第２計算式を得る。なお、文書ＩＤｉの分類ｊの第２特徴ベクトルの値をｇ_ｉｊで表す。以下の式は分類番号ｊが１〜ｃまである場合であるが、本実施例では、図７に示すように、分類番号ｊは１〜３であり、数７によってb₁= 1.5、b₂= 1、b₃= 1.2が得られたとする。

こうして学習された結果（第１計算式、及び第２計算式）を、新たなクエリによって得られた新たな文書集合に対して用いる。まず、ランキング部８は、新たな文書集合の入力を受け付ける（ステップＡ１１）。

次に、ランキング部８は、各文書の欠損パターンを特定する（ステップＡ１２）。例えば、図１２に示すような特徴量を有する文書に対して、欠損パターン数削減部２は、「Ｆ３及びＦ４が欠損している」欠損パターンであると欠損パターンを特定する。そして、欠損パターン数削減部２は、欠損パターン記憶部７を参照して、この文書の欠損パターンが登録欠損パターンと一致していると判定する（ステップＡ１３）。

この欠損パターンは分類番号３であるため、ランキング部８は、まず、数６の式を用いて以下の数９のように第１スコアを計算する。

そして、この第１スコア0.775を［０，１］の範囲に収まるように以下の数１０のように正規化する。

なお、この正規化の方法は、（第１スコア−最小値）／（最大値−最小値）であり、本実施例の分類番号３に属する文書サンプルにおける第１スコアの最大値が3.8、最小値が0.005であるとする。よって、この文書の第２特徴ベクトルは、図１３のようになる。

続いて、ランキング部８は、この第２特徴ベクトルから、数８に示す第2計算式を用いて、以下の数１１のように第２スコアが0.2436であることを算出する。

そして、ランキング部８は、入力された各文書に対して、同様に第２スコアを算出し、この第２スコアが大きい順に順序を付与して出力する。

また、本実施形態の効果について上記実施例を用いて説明する。まず、従来の方法では、欠損している特徴量を平均値で補完して学習する。例えば、文書サンプルの集合のＦ３の特徴量の平均値が０の場合、Ｆ３の特徴量が欠損している文書ＩＤ１，３，４に対して、単純にＦ３に０を代入することとなる。

ここで、本来、Ｆ３は文書の評価値と相関が高いため、Ｆ３の特徴量が大きい文書は高い評価値となり、最終的に得られるスコアも大きいものが割り当てられることが望ましい。しかし、上述したように欠損している特徴量を単純に補完すると、文書ＩＤ１，３，及び４と、文書ＩＤ６とを比較した場合、Ｆ３の特徴量が小さい文書ＩＤ１，３，及び４の文書サンプルの方が高い評価値となり、Ｆ３の特徴量が大きい文書ＩＤ６の方が低い評価値となってしまう。この結果、Ｆ３の特徴量が大きい文書ＩＤ６に対して、小さいスコアが割り当てられることになってしまう。

以上のように、従来の方法は、評価値に大きな影響のある特徴量が欠損している場合、その影響を不当に軽視することになり、評価値の高い文書に大きなスコアをつけられないという問題が生じてしまう。

一方で、本実施例によれば、Ｆ３の特徴量が欠損していない文書ＩＤ２，５，６のサンプルについては、これらのみから、第２スコアの計算式を学習するため、Ｆ３の特徴量が大きい文書は最終的に得られる第２スコアも大きくなっている。また、Ｆ３の特徴量が欠損している文書サンプルについては、欠損していない特徴量に基づいて評価値が大きい文書サンプルほど最終的に得られる第２のスコアが大きくなっている。

以上のように、本実施例では、欠損している特徴量を別の値で補完することがないため、評価値に影響の大きい特徴を重視して第２スコアを計算することができ、評価値の高い文書に大きなスコアをつけることができる。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）〜（付記１２）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
複数の特徴量からなる第１特徴ベクトルと文書の評価値とを有する文書サンプルの集合を用いて文書を評価するための文書評価装置であって、
前記第１特徴ベクトルにおいて欠損している特徴量のパターンを示す欠損パターンに基づき、前記文書サンプルの集合を分類するデータ分類部と、
前記評価値を前記分類毎に重みづけした第１スコアを計算する第１計算式を、前記第１特徴ベクトルにおいて欠損していない特徴量及び前記評価値を用いて、前記分類毎に学習する第１学習部と、
前記第１スコアを用いて、各分類に対応する特徴量を算出し、算出した特徴量を有する第２特徴ベクトルを生成する特徴ベクトル生成部と、
評価対象となる文書を評価するための第２スコアを計算する第２計算式を、前記第２特徴ベクトル及び前記評価値を用いて学習する第２学習部と、
を備えることを特徴とする文書評価装置。

（付記２）
前記文書サンプルの集合から、前記欠損パターン毎の前記文書サンプルの出現頻度を計測し、前記出現頻度が設定した閾値以下の欠損パターンを、当該欠損パターンと最も類似し且つ前記出現頻度が前記閾値よりも大きい欠損パターンと一致させる欠損パターン数削減部をさらに備えることを特徴とする付記１に記載の文書評価装置。

（付記３）
文書の集合の入力を受け付け、前記第２計算式に基づいて、前記文書集合を構成する各文書に対して前記第２スコアを算出し、前記第２スコアに基づいて前記各文書を順位付けするランキング部をさらに備えることを特徴とする付記１又は２に記載の文書評価装置。

（付記４）
前記特徴ベクトル生成部は、前記第１スコアを設定した範囲内に収まるように正規化して前記第２特徴ベクトルを構成する特徴量を生成する、付記１から３のいずれかに記載の文書評価装置。

（付記５）
複数の特徴量からなる第１特徴ベクトルと文書の評価値とを有する文書サンプルの集合を用いて文書を評価するための文書評価方法であって、
（ａ）前記第１特徴ベクトルにおいて欠損している特徴量のパターンを示す欠損パターンに基づき、前記文書サンプルの集合を分類するステップと、
（ｂ）前記各評価値を前記分類毎に重みづけした第１スコアを計算する第１計算式を、前記第１特徴ベクトルにおいて欠損していない特徴量及び前記評価値を用いて、前記分類毎に学習するステップと、
（ｃ）前記第１スコアを用いて、各分類に対応する特徴量を算出し、算出した特徴量を有する第２特徴ベクトルを生成するステップと、
（ｄ）評価対象となる文書を評価するための第２スコアを計算する第２計算式を、前記第２特徴ベクトル及び前記評価値を用いて学習するステップと、
を有する、文書評価方法。

（付記６）
（ｅ）前記文書サンプルの集合から、前記欠損パターン毎の前記文書サンプルの出現頻度を計測し、前記出現頻度が設定した閾値以下の欠損パターンを、当該欠損パターンと最も類似し且つ前記出現頻度が前記閾値よりも大きい欠損パターンと一致させるステップ、をさらに有することを特徴とする付記５に記載の文書評価方法。

（付記７）
（ｆ）文書の集合の入力を受け付け、前記第２計算式に基づいて、前記各文書に対して前記第２スコアを算出し、前記第２スコアに基づいて前記各文書を順位付けするステップをさらに有することを特徴とする付記５又は６に記載の文書評価方法。

（付記８）
前記（ｃ）のステップにおいて、前記第１スコアを設定した範囲内に収まるように正規化して前記第２特徴ベクトルを構成する特徴量を生成する、付記５から７のいずれかに記載の文書評価方法。

（付記９）
コンピュータによって、複数の特徴量からなる第１特徴ベクトルと文書の評価値とを有する文書サンプルの集合を用いて文書を評価するためのプログラムであって、
前記コンピュータに、
（ａ）前記第１特徴ベクトルにおいて欠損している特徴量のパターンを示す欠損パターンに基づき、前記文書サンプルの集合を分類するステップと、
（ｂ）前記各評価値を前記分類毎に重みづけした第１スコアを計算する第１計算式を、前記第１特徴ベクトルにおいて欠損していない特徴量及び前記評価値を用いて、前記分類毎に学習するステップと、
（ｃ）前記第１スコアを用いて、各分類に対応する特徴量を算出し、算出した特徴量を有する第２特徴ベクトルを生成するステップと、
（ｄ）評価対象となる文書を評価するための第２スコアを計算する第２計算式を、前記第２特徴ベクトル及び前記評価値を用いて学習するステップと、
を実行させる、プログラム。

（付記１０）
（ｅ）前記文書サンプルの集合から、前記欠損パターン毎の前記文書サンプルの出現頻度を計測し、前記出現頻度が設定した閾値以下の欠損パターンを、当該欠損パターンと最も類似し且つ前記出現頻度が前記閾値よりも大きい欠損パターンと一致させるステップ、をさらに前記コンピュータに実行させることを特徴とする付記９に記載のプログラム。

（付記１１）
（ｆ）文書の集合の入力を受け付け、前記第２計算式に基づいて、前記各文書に対して前記第２スコアを算出し、前記第２スコアに基づいて前記各文書を順位付けするステップをさらに前記コンピュータに実行させることを特徴とする付記９又は１０に記載のプログラム。

（付記１２）
前記（ｃ）のステップにおいて、前記第１スコアを設定した範囲内に収まるように正規化して前記第２特徴ベクトルを構成する特徴量を生成する、付記９から１１のいずれかに記載のプログラム。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１２年２月２４日に出願された日本出願特願２０１２−３８２８６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、ユーザから高い評価がされた文書と類似の文書を上位に表示する検索システムや推薦システムといった用途に適用できる。

１文書評価装置
２欠損パターン数削減部
３データ分類部
４第１学習部
５特徴ベクトル生成部
６第２学習部
７欠損パターン記憶部
８ランキング部
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

Claims

複数の特徴量からなる第１特徴ベクトルと文書の評価値とを有する文書サンプルの集合を用いて文書を評価するための文書評価装置であって、
前記第１特徴ベクトルにおいて欠損している特徴量のパターンを示す欠損パターンに基づき、前記文書サンプルの集合を分類するデータ分類部と、
前記評価値を前記分類毎に重みづけした第１スコアを計算する第１計算式を、前記第１特徴ベクトルにおいて欠損していない特徴量及び前記評価値を用いて、前記分類毎に学習する第１学習部と、
前記第１スコアを用いて、各分類に対応する特徴量を算出し、算出した特徴量を有する第２特徴ベクトルを生成する特徴ベクトル生成部と、
評価対象となる文書を評価するための第２スコアを計算する第２計算式を、前記第２特徴ベクトル及び前記評価値を用いて学習する第２学習部と、
を備えることを特徴とする文書評価装置。
前記文書サンプルの集合から、前記欠損パターン毎の前記文書サンプルの出現頻度を計測し、前記出現頻度が設定した閾値以下の欠損パターンを、当該欠損パターンと最も類似し且つ前記出現頻度が前記閾値よりも大きい欠損パターンと一致させる欠損パターン数削減部をさらに備えることを特徴とする請求項１に記載の文書評価装置。
評価対象となる文書の集合の入力を受け付け、前記第２計算式に基づいて、前記各文書に対して前記第２スコアを算出し、前記第２スコアに基づいて前記各文書を順位付けするランキング部をさらに備えることを特徴とする請求項１又は２に記載の文書評価装置。
前記特徴ベクトル生成部は、前記第１スコアを設定した範囲内に収まるように正規化して前記第２特徴ベクトルを構成する特徴量を生成する、請求項１から３のいずれかに記載の文書評価装置。
複数の特徴量からなる第１特徴ベクトルと文書の評価値とを有する文書サンプルの集合を用いて文書を評価するための文書評価方法であって、
（ａ）コンピュータによって、前記第１特徴ベクトルにおいて欠損している特徴量のパターンを示す欠損パターンに基づき、前記文書サンプルの集合を分類するステップと、
（ｂ）前記コンピュータによって、前記各評価値を前記分類毎に重みづけした第１スコアを計算する第１計算式を、前記第１特徴ベクトルにおいて欠損していない特徴量及び前記評価値を用いて、前記分類毎に学習するステップと、
（ｃ）前記コンピュータによって、前記第１スコアを用いて、各分類に対応する特徴量を算出し、算出した特徴量を有する第２特徴ベクトルを生成するステップと、
（ｄ）前記コンピュータによって、評価対象となる文書を評価するための第２スコアを計算する第２計算式を、前記第２特徴ベクトル及び前記評価値を用いて学習するステップと、
を有する、文書評価方法。
（ｅ）前記コンピュータによって、前記文書サンプルの集合から、前記欠損パターン毎の前記文書サンプルの出現頻度を計測し、前記出現頻度が設定した閾値以下の欠損パターンを、当該欠損パターンと最も類似し且つ前記出現頻度が前記閾値よりも大きい欠損パターンと一致させるステップ、をさらに有することを特徴とする請求項５に記載の文書評価方法。
（ｆ）前記コンピュータによって、文書の集合の入力を受け付け、前記第２計算式に基づいて、前記各文書に対して前記第２スコアを算出し、前記第２スコアに基づいて前記各文書を順位付けするステップをさらに有することを特徴とする請求項５又は６に記載の文書評価方法。
前記（ｃ）のステップにおいて、前記第１スコアを設定した範囲内に収まるように正規化して前記第２特徴ベクトルを構成する特徴量を生成する、請求項５から７のいずれかに記載の文書評価方法。
コンピュータによって、複数の特徴量からなる第１特徴ベクトルと文書の評価値とを有する文書サンプルの集合を用いて文書を評価するためのプログラムであって、
前記コンピュータに、
（ａ）前記第１特徴ベクトルにおいて欠損している特徴量のパターンを示す欠損パターンに基づき、前記文書サンプルの集合を分類するステップと、
（ｂ）前記各評価値を前記分類毎に重みづけした第１スコアを計算する第１計算式を、前記第１特徴ベクトルにおいて欠損していない特徴量及び前記評価値を用いて、前記分類毎に学習するステップと、
（ｃ）前記第１スコアを用いて、各分類に対応する特徴量を算出し、算出した特徴量を有する第２特徴ベクトルを生成するステップと、
（ｄ）評価対象となる文書を評価するための第２スコアを計算する第２計算式を、前記第２特徴ベクトル及び前記評価値を用いて学習するステップと、
を実行させる、プログラム。
（ｅ）前記文書サンプルの集合から、前記欠損パターン毎の前記文書サンプルの出現頻度を計測し、前記出現頻度が設定した閾値以下の欠損パターンを、当該欠損パターンと最も類似し且つ前記出現頻度が前記閾値よりも大きい欠損パターンと一致させるステップ、をさらに前記コンピュータに実行させることを特徴とする請求項９に記載のプログラム。
（ｆ）文書の集合の入力を受け付け、前記第２計算式に基づいて、前記各文書に対して前記第２スコアを算出し、前記第２スコアに基づいて前記各文書を順位付けするステップをさらに前記コンピュータに実行させることを特徴とする請求項９又は１０に記載のプログラム。
前記（ｃ）のステップにおいて、前記第１スコアを設定した範囲内に収まるように正規化して前記第２特徴ベクトルを構成する特徴量を生成する、請求項９から１１のいずれかに記載のプログラム。