JP2013131075A

JP2013131075A - 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法

Info

Publication number: JP2013131075A
Application number: JP2011280547A
Authority: JP
Inventors: Mariko Kawaba; 真理子川場; Toru Hirano; 徹平野; Toshiaki Makino; 俊朗牧野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-12-21
Filing date: 2011-12-21
Publication date: 2013-07-04

Abstract

【課題】学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することができるようにする。
【解決手段】学習用テキスト取得部２４によって、複数のブログ文書からなる学習用文書集合に対して、ブログとは異なる種類の他種レビュー文書を追加する。形態素解析部２５によって、学習用文書集合の各文書について形態素解析を行う。素性抽出部２６によって、学習用文書集合の各文書について、文書の特徴を示す素性を抽出する。学習部２７によって、学習用文書集合の各文書について抽出された素性の各々に基づいて、入力された文書がレビュー文書であるか否かを分類するための分類モデルを学習する。
【選択図】図１

Description

本発明は、分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法に係り、特に、文書がレビュー文書であるか否かを分類するための分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法に関する。

blog等の文書中の単語の分布を利用して、文書を分類する分類方法がある（例えば、非特許文献１）。この分類方法では、特定の分野に出現しやすい単語とそうでない単語があり、それらの分布を利用して分野ごとに文書を分類している。

平野耕一、古林紀哉、高橋淳一、「日本語圏ブログの自動分類」、情報処理学会研究報告、2005年

しかしながら、blog等のソーシャルメディアにおいて得られる文書から、レビュー文書を抽出する場合、レビュー文書になりえる文書数が、非レビュー文書と比べて少ない。例えば、飲食店に関するブログの内、全体の８割が非レビュー文書であり、レビュー文書は全体の２割程度しか存在しない。そのため、学習器を利用する際に正例と負例のバランスが悪くなり、学習結果として得られる分類モデルの分類性能の低下を招く場合がある。

本発明は、上記の事情を鑑みてなされたもので、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することができる分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法を提供することを目的とする。

上記の目的を達成するために第１の発明に係る分類モデル学習方法は、文書追加手段によって、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加するステップと、素性抽出手段によって、前記学習用文書集合の各文書について、前記文書の特徴を示す素性を抽出するステップと、学習手段によって、前記学習用文書集合の各文書について抽出された前記素性の各々に基づいて、入力された文書が前記レビュー文書であるか否かを分類するための分類モデルを学習するステップと、を含む。

第２の発明に係る分類モデル学習装置は、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加する文書追加手段と、前記学習用文書集合の各文書について、前記文書の特徴を示す素性を抽出する素性抽出手段と、前記学習用文書集合の各文書について抽出された前記素性の各々に基づいて、入力された文書が前記レビュー文書であるか否かを分類するための分類モデルを学習する学習手段と、を含んで構成されている。

第１の発明に係る分類モデル学習方法及び第２の発明に係る分類モデル学習装置によれば、文書追加手段によって、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加する。

そして、素性抽出手段によって、前記学習用文書集合の各文書について、前記文書の特徴を示す素性を抽出する。学習手段によって、前記学習用文書集合の各文書について抽出された前記素性の各々に基づいて、入力された文書が前記レビュー文書であるか否かを分類するための分類モデルを学習する。

このように、学習用文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合の各文書について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することができる。

第３の発明に係る分類モデル学習方法は、文書追加手段によって、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加するステップと、文分割手段によって、前記学習用文書集合の各文書を、文単位で分割するステップと、素性抽出手段によって、前記文分割手段によって分割された前記学習用文書集合の各文書の各文について、前記文の特徴を示す素性を抽出するステップと、学習手段によって、前記学習用文書集合の各文書の各文について抽出された前記素性の各々に基づいて、入力された文が前記レビュー文書内の文であるか否かを分類するための分類モデルを学習するステップと、を含む。

このように、学習用文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合の各文書の各文について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することができる。

第４の発明に係るレビュー文書分類方法は、入力素性抽出手段によって、入力された文書の特徴を示す素性を抽出するステップと、分類手段によって、上記第１の発明に係る分類モデル学習方法によって学習された前記分類モデルと、前記入力素性抽出手段によって抽出された前記素性とに基づいて、前記入力された文書が前記レビュー文書であるか否かを分類するステップと、を含む。

このように、学習用文書とは異なる種類のレビュー文書を追加した学習用文書集合の各文書について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力された文書がレビュー文書であるか否かを分類することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。

第５の発明に係るレビュー文書分類方法は、入力文分割手段によって、入力された文書を、文単位で分割するステップと、入力素性抽出手段によって、前記入力された文書の各文の素性を抽出するステップと、分類手段によって、第３の発明に係る分類モデル学習方法によって学習された前記分類モデルと、前記入力素性抽出手段によって抽出された各文の前記素性とに基づいて、前記入力された文書の各文について、前記レビュー文書内の文であるか否かを分類するステップと、判定手段によって、前記分類手段によって分類された前記文書の各文の分類結果に基づいて、前記入力された文書が前記レビュー文書であるか否かを判定するステップと、を含む。

このように、学習用文書とは異なる種類のレビュー文書を追加した学習用文書集合の各文書の各文について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力された文書がレビュー文書であるか否かを判定することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。

第６の発明に係るプログラムは、コンピュータに、上記の分類モデル学習方法、あるいは上記のレビュー文書分類方法の各ステップを実行させるためのプログラムである。

以上説明したように、本発明の分類モデル学習方法、装置、及びプログラムによれば、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することができる、という効果が得られる。

また、本発明のレビュー文書分類方法及びプログラムによれば、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる、という効果が得られる。

本発明の第１の実施の形態に係るレビュー文書分類装置の構成を示す概略図である。入力されるブログ文書を示す図である。本発明の第１の実施の形態に係るレビュー文書分類装置における学習処理ルーチンの内容を示すフローチャートである。本発明の第１の実施の形態に係るレビュー文書分類装置における文書分類処理ルーチンの内容を示すフローチャートである。本発明の第２の実施の形態に係るレビュー文書分類装置の構成を示す概略図である。レビュー文と非レビュー文とを説明するための図である。（Ａ）入力されるブログ文書を示す図、（Ｂ）文に分割した結果を示す図、及び（Ｃ）各文について抽出された素性を示す図である。各文に対する分類結果を示す図である。本発明の第２の実施の形態に係るレビュー文書分類装置における学習処理ルーチンの内容を示すフローチャートである。本発明の第２の実施の形態に係るレビュー文書分類装置における文書分類処理ルーチンの内容を示すフローチャートである。本発明の第３の実施の形態に係るレビュー文書分類装置の構成を示す概略図である。（Ａ）入力されるブログ文書を示す図、（Ｂ）形態素解析結果を示す図、及び（Ｃ）評価文書を示す図である。本発明の第３の実施の形態に係るレビュー文書分類装置における学習処理ルーチンの内容を示すフローチャートである。本発明の第３の実施の形態に係るレビュー文書分類装置における文書分類処理ルーチンの内容を示すフローチャートである。本発明の第４の実施の形態に係るレビュー文書分類装置の構成を示す概略図である。レビュー文書と非レビュー文書から得られる学習データを説明するための図である。各評価文について抽出された素性を示す図である。本発明の第４の実施の形態に係るレビュー文書分類装置における学習処理ルーチンの内容を示すフローチャートである。本発明の第４の実施の形態に係るレビュー文書分類装置における文書分類処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

[第１の実施の形態]
＜システム構成＞
本発明の第１の実施の形態に係るレビュー文書分類装置１００は、ソーシャルメディア（例えば、ブログ)において得られたブログ文書が入力され、特定対象（例えば、店舗や商品)に関する客観的な情報または主観的な情報（例えば、口コミ情報などの意見）が記載されたレビュー文書であるか否かの判定結果を出力する。１つのブログ文書は１つ以上の文からなるテキストデータである。このレビュー文書分類装置１００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチン及び文書分類処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図１に示すように、レビュー文書分類装置１００は、入力部１０と、演算部２０と、出力部３０とを備えている。

入力部１０は、学習用文書として入力された複数のブログ文書からなる文書群を受け付ける。例えば、ブログ文書として図２に示すようなデータを入力することができる。入力部１０は、学習用文書としてのブログ文書と共に、当該ブログ文書が、特定対象に関するレビュー文書であるか否かを示す教師情報の入力を、ブログ文書毎に受け付ける。

また、入力部１０は、入力された、ブログ文書以外のレビュー文書である複数の他種レビュー文書からなる他種文書群を受け付ける。例えば、特定対象に関するレビューサイトで得られたレビュー文書を入力することができる。１つの他種レビュー文書は１つ以上の文からなるテキストデータである。入力部１０は、他種文書群と共に、他種文書群の各他種レビュー文書が、特定対象に関するレビュー文書であることを示す教師情報の入力を受け付ける。また、入力される他種レビュー文書は、学習用文書としてのブログ文書とドメインを統一する。例えば、ブログ文書が飲食店に関するものであれば、他種レビュー文書も飲食店に関するものとする。

また、入力部１０は、分類対象として入力されたブログ文書を受け付ける。

なお、入力されるブログ文書は形態素解析済みであってもよく、この場合には、後述する形態素解析部２５、３１を省略することができる。

演算部２０は、ブログ文書データベース２１、レビュー文書データベース２２、レビュー文書抽出部２３、学習用テキスト取得部２４、形態素解析部２５、素性抽出部２６、学習部２７、及びモデル記憶部２８を備えている。なお、学習用テキスト取得部２４は、文書追加手段の一例である。

ブログ文書データベース２１は、入力部１０により受け付けた学習用文書としての複数のブログ文書からなる文書群及びブログ文書毎の教師情報を記憶する。

レビュー文書データベース２２は、入力部１０により受け付けた他種文書群及び他種レビュー文書毎の教師情報を記憶する。

レビュー文書抽出部２３は、レビュー文書データベース２２から、文の数が所定範囲内である他種レビュー文書を抽出する。例えば、一般的なブログ文書の文数は１１文であるため、１１文前後（１０文以上１２文以下の範囲）の他種レビュー文書を抽出する。また、レビュー文書は、評価表現、感性表現などを多く含む文書の方がよいため、他種レビュー文書の各々について、予め定めた評価表現及び感性表現を抽出し、抽出された数が所定値以上となる他種レビュー文書を抽出するようにしてもよい。

学習用テキスト取得部２４は、ブログ文書データベース２１の各ブログ文書の教師情報に基づいて、レビュー文書であるブログ文書の数に対する非レビュー文書であるブログ文書の数の比率を算出し、当該比率を所定の比率（例えば、１：１）とするために追加すべき他種レビュー文書の数を決定する。学習用テキスト取得部２４は、レビュー文書抽出部２３から抽出された他種レビュー文書から、決定した数の他種レビュー文書を取得し、学習用文書の集合に追加するように、ブログ文書データベース２１に、取得した他種レビュー文書を記憶する。

なお、以下では、ブログ文書データベース２１に記憶されたブログ文書及び他種レビュー文書を総称して、学習用文書と呼ぶこととする。

形態素解析部２５は、各学習用文書について、既存の技術である形態素解析によって、当該文書を単語に区切り、さらに各単語に品詞を付与し出力する。たとえば、ブログ文書が、ブログ文書が、「表参道に行ったところ、すごい行列だったので覗いてみたら新商品の発売が始まっていました。買うつもりはなかったのですが、ついつられて、A社の新商品を買ってしまいました。・・・」である場合、形態素解析結果として、「・・・（略）・・・A社（名詞）/の（格助詞）/新商品（名詞）/を（格助詞）/買（動詞語幹）/っ（動詞活用語尾）/て（動詞接尾辞）/しま（動詞語幹）/い（動詞活用語尾）/ました（動詞接尾辞）・・・（略）・・・」が得られる。

素性抽出部２６は、各学習用文書について、形態素解析によって得られた結果を利用して、機械学習に用いる、文書の特徴を示す素性を作成する。例えば、文書の素性として、文書中の形態素の頻度分布（ヒストグラム)などを用いる。

レビュー文書には特定の感性表現および評価表現が多く出現することがある。そのため、感性表現・評価表現の有無および種類を素性として利用してもよい。また、顔文字・絵文字等を素性として利用してもよい。

素性抽出部２６は、レビュー文書である学習用文書の素性を、正例の学習データとしてメモリ（図示省略）に記憶する。また、素性抽出部２６は、非レビュー文書である学習用文書の素性を、負例の学習データとしてメモリに記憶する。

学習部２７は、学習用文書の集合から得られた正例の学習データ（レビュー文書の素性）及び負例の学習データ（非レビュー文書の素性）を用いて、機械学習によって、入力された文書がレビュー文書であるか否かを分類するための分類モデルを作成して、モデル記憶部２８に記憶する。機械学習アルゴリズムとしては、例えばサポートベクトルマシン（SVM）やMarkov Logic Network (MLN)などのアルゴリズムを利用することができる。

モデル記憶部２８に記憶される分類モデルは、例えば、各素性に関する重みの数値を格納したものである。

また、演算部２０は、形態素解析部３１、素性抽出部３２、及び分類部３３を備えている。なお、素性抽出部３２は、入力素性抽出手段の一例である。

形態素解析部３１は、形態素解析部２５と同様に、分類対象のブログ文書について、形態素解析によって、当該文書を単語に区切り、さらに各単語に品詞を付与し出力する。

素性抽出部３２は、分類対象のブログ文書について、形態素解析によって得られた結果を利用して、素性抽出部２６と同様に、文書の特徴を示す素性を作成する。

分類部３３は、分類対象のブログ文書について、抽出された素性と、モデル記憶部２８に記憶された分類モデルとに基づいて、当該ブログ文書が、レビュー文書であるか否かを分類する。例えば、抽出された素性を示す数値に、分類モデルが持つ対応する重みを乗算した数値の各々を要素とする特徴ベクトルを用いて、サポートベクトルマシンのアルゴリズムにより、当該文書が、レビュー文書であるか否かを分類する。

分類部３３による分類結果が、出力部３０より出力される。

＜レビュー文書分類装置の作用＞
次に、第１の実施の形態に係るレビュー文書分類装置１００の作用について説明する。まず、学習用文書としての複数のブログ文書である文書群と、当該複数のブログ文書の各々がレビュー文書であるか否かを示す教師情報とがレビュー文書分類装置１００に入力されると、レビュー文書分類装置１００によって、入力された文書群及び教師情報が、ブログ文書データベース２１へ格納される。また、複数の他種レビュー文書である他種文書群と、当該複数の他種レビュー文書の各々がレビュー文書であることを示す教師情報とがレビュー文書分類装置１００に入力されると、レビュー文書分類装置１００によって、入力された他種文書群及び教師情報が、レビュー文書データベース２２へ格納される。

そして、レビュー文書分類装置１００によって、図３に示す学習処理ルーチンが実行される。

まず、ステップＳ１０１において、レビュー文書抽出部２３によって、レビュー文書データベース２２から、文の数が所定範囲内の他種レビュー文書を抽出する。ステップＳ１０２では、学習用テキスト取得部２４によって、ブログ文書データベース２１の各ブログ文書の教師情報に基づいて、レビュー文書の数と非レビュー文書の数とを取得する。そして、ステップＳ１０３において、上記ステップＳ１０２で取得した数に基づいて、レビュー文書と非レビュー文書との比率が所定比率となるように、追加すべき他種レビュー文書の数を決定し、決定された数だけ、上記ステップＳ１０１で抽出した他種レビュー文書を、学習用文書として、ブログ文書データベース２１に格納する。

そして、ステップＳ１０４において、ブログ文書データベース２１から１つの学習用文書（ブログ文書または他種レビュー文書）を取り出す。そして、ステップＳ１０５において、形態素解析部２５によって、上記ステップＳ１０４において取り出された学習用文書に対して、形態素解析処理を行う。

次のステップＳ１０６では、素性抽出部２６によって、学習用文書について、上記ステップＳ１０５で得られた形態素解析結果に基づいて素性を抽出し、ステップＳ１０７において、当該学習用文書がレビュー文書であれば、上記ステップＳ１０６で抽出された学習用文書の素性を、レビュー文書の素性（正例の学習データ）としてメモリに記憶し、当該学習用文書が非レビュー文書であれば、上記ステップＳ１０６で抽出された学習用文書の素性を、非レビュー文書の素性（負例の学習データ）としてメモリに記憶する。

ステップＳ１０８では、ブログ文書データベース２１に記憶されている全ての学習用文書について、上記ステップＳ１０４〜Ｓ１０７の処理を実行したか否かを判定し、上記ステップＳ１０４〜Ｓ１０７の処理を実行していない学習用文書が存在する場合には、上記ステップＳ１０４へ戻り、当該学習用文書を取り出す。一方、全ての学習用文書について、上記ステップＳ１０４〜Ｓ１０７の処理を実行した場合には、ステップＳ１０９へ進む。

ステップＳ１０９において、学習部２７によって、メモリに記憶された正例の学習データ及び負例の学習データを用いて、機械学習によって、分類モデルを学習し、ステップＳ１１０において、モデル記憶部２８に分類モデルを格納し、学習処理ルーチンを終了する。

そして、分類対象のブログ文書がレビュー文書分類装置１００に入力されると、レビュー文書分類装置１００によって、図４に示す文書分類処理ルーチンが実行される。

まず、ステップＳ１１１において、入力部１０により入力されたブログ文書を受け付ける。そして、ステップＳ１１２において、形態素解析部３１によって、上記ステップＳ１１１において入力されたブログ文書に対して、形態素解析処理を行う。

次のステップＳ１１３では、素性抽出部３２によって、入力されたブログ文書について、素性を抽出する。ステップＳ１１４では、分類部３３によって、上記ステップＳ１１３で抽出された素性と、モデル記憶部２８に記憶された分類モデルとに基づいて、当該ブログ文書が、レビュー文書であるか分類する。

そして、ステップＳ１１５では、上記ステップＳ１１４の分類結果を出力部３０により出力して、文書分類処理ルーチンを終了する。

以上説明したように、第１の実施の形態に係るレビュー文書分類装置によれば、学習用のブログ文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合の各文書について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することが可能な分類モデルを学習することができる。

また、学習用のブログ文書とは異なる種類のレビュー文書を追加した学習用文書集合の各文書について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力されたブログ文書がレビュー文書であるか否かを分類することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。

ブログ文書中のレビュー文書の数は非レビュー文書と比較するとあまり多くないが、ブログ以外のテキストのレビュー文書は比較的容易に一定数を集めることができる。そこで、本実施の形態では、ブログのレビュー文書に加えて、ブログ以外のテキストのレビュー文書を正例として加えることで、正例を増やすことができる。

［第２の実施の形態］
＜システム構成＞
次に、第２の実施の形態に係るレビュー文書分類装置について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第２の実施の形態では、ブログ文書を文単位で分割し、各文の素性を抽出して、分類モデルの学習を行っている点が、第１の実施の形態と異なっている。

図５に示すように、第２の実施の形態に係るレビュー文書分類装置２００の演算部２２０は、ブログ文書データベース２１、レビュー文書データベース２２、レビュー文書抽出部２３、学習用テキスト取得部２４、文分割部２２４、形態素解析部２５、素性抽出部２２６、学習部２２７、及びモデル記憶部２８を備えている。

文分割部２２４は、ブログ文書データベース２１に記憶された学習用文書の集合に含まれる各学習用文書を、文単位に分割する。文分割の方法は既知の技術を用いればよく、例えば句読点や改行などが出現する箇所で分割すればよい。また、ブログ等のソーシャルメディアで得られる文書を利用する際には、顔文字、絵文字等が文区切りに利用されていることが多い。そのため、絵文字や顔文字を文区切りに利用してもよい。

形態素解析部２５は、各学習用文書について、分割された文ごとに、形態素解析によって、当該文を単語に区切り、さらに各単語に品詞を付与し出力する。

素性抽出部２２６は、各学習用文書について、分割された各文ごとに、形態素解析によって得られた結果を利用して、機械学習に用いる、文の特徴を示す素性を作成する。例えば、文の素性として、文中の形態素の頻度分布（ヒストグラム)などを用いる。

また、ブログのようなソーシャルメディアのテキストでは、複数の文にまたいで評価している場合がある。そのため、前後の文の評価表現、形態素の頻度などを素性として利用しても良い。

素性抽出部２２６は、図６に示すように、レビュー文書である学習用文書から抽出された各文の素性を、正例の学習データとしてメモリ（図示省略）に記憶する。また、素性抽出部２２６は、非レビュー文書である学習用文書から抽出された各文の素性を、負例の学習データとしてメモリに記憶する。

学習部２２７は、学習用文書の集合から得られた正例の学習データ（レビュー文書の各文の素性）及び負例の学習データ（非レビュー文書の各文の素性）を用いて、機械学習によって、入力された文がレビュー文書内の文であるか否かを分類するための分類モデルを作成して、モデル記憶部２８に記憶する。

また、演算部２２０は、文分割部２３１、形態素解析部３１、素性抽出部２３２、分類部２３３、及びレビュー文書判定部２３４を備えている。なお、文分割部２３１は、入力文分割手段の一例であり、素性抽出部２３２は、入力素性抽出手段の一例である。

文分割部２３１は、文分割部２２４と同様に、図７（Ａ）に示すような入力された分類対象のブログ文書を、図７（Ｂ）に示すように文単位に分割する。

形態素解析部３１は、形態素解析部２５と同様に、分類対象のブログ文書について、分割された文ごとに、形態素解析によって、当該文を単語に区切り、さらに各単語に品詞を付与し出力する。

素性抽出部２３２は、分類対象のブログ文書について、図７（Ｃ）に示すように、分割された文ごとに、形態素解析によって得られた結果を利用して、素性抽出部２２６と同様に、文の特徴を示す素性を作成する。

分類部２３３は、分類対象のブログ文書の各文について、抽出された素性と、モデル記憶部２８に記憶された分類モデルとに基づいて、当該文が、レビュー文書内の文であるか否かを分類する。例えば、抽出された素性を示す数値に、分類モデルが持つ対応する重みを乗算した数値の各々を要素とする特徴ベクトルを用いて、サポートベクトルマシンのアルゴリズムにより、当該文が、レビュー文書内の文であるか否かを分類する。これによって、図８に示すように、各文が、レビュー文であるか、非レビュー文であるかに分類される。

レビュー文書判定部２３４は、分類対象のブログ文書について、レビュー文と分類された文の割合が、閾値（例えば、４割）以上である場合には、レビュー文書であると判定し、閾値未満である場合には、非レビュー文書であると判定する。

レビュー文書判定部２３４による判定結果が、出力部３０より出力される。

＜レビュー文書分類装置の作用＞
次に、第２の実施の形態に係るレビュー文書分類装置２００の作用について説明する。なお、第１の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。

まず、レビュー文書分類装置２００によって、図９に示す学習処理ルーチンが実行される。

まず、ステップＳ１０１において、レビュー文書抽出部２３によって、レビュー文書データベース２２から、文の数が所定範囲内の他種レビュー文書を抽出する。ステップＳ１０２では、学習用テキスト取得部２４によって、レビュー文書の数と非レビュー文書の数とを取得する。そして、ステップＳ１０３において、レビュー文書と非レビュー文書との比率が所定比率となるように、追加すべき他種レビュー文書の数を決定し、決定された数だけ、上記で抽出した他種レビュー文書を、学習用文書として、ブログ文書データベース２１に格納する。

そして、ステップＳ１０４において、ブログ文書データベース２１から１つの学習用文書を取り出す。そして、ステップＳ２０１において、文分割部２２４によって、上記ステップＳ１０４において取り出された学習用文書を、文単位で分割する。ステップＳ１０５において、形態素解析部２５によって、上記ステップＳ１０４において取り出された学習用文書の各文に対して、形態素解析処理を行う。

次のステップＳ２０２では、素性抽出部２２６によって、学習用文書の各文について、上記ステップＳ１０５で得られた形態素解析結果に基づいて素性を抽出し、ステップＳ２０３において、当該学習用文書がレビュー文書であれば、上記ステップＳ２０２で抽出された各文の素性を、レビュー文の素性（正例の学習データ）としてメモリに記憶し、当該学習用文書が非レビュー文書であれば、上記ステップＳ２０２で抽出された各文の素性を、非レビュー文の素性（負例の学習データ）としてメモリに記憶する。

ステップＳ１０８では、ブログ文書データベース２１に記憶されている全ての学習用文書について、上記ステップＳ１０４、Ｓ２０１、Ｓ１０５、Ｓ２０２、Ｓ２０３の処理を実行したか否かを判定し、上記ステップＳ１０４、Ｓ２０１、Ｓ１０５、Ｓ２０２、Ｓ２０３の処理を実行していない学習用文書が存在する場合には、上記ステップＳ１０４へ戻り、当該学習用文書を取り出す。一方、全ての学習用文書について、上記ステップＳ１０４、Ｓ２０１、Ｓ１０５、Ｓ２０２、Ｓ２０３の処理を実行した場合には、ステップＳ２０４へ進む。

ステップＳ２０４において、学習部２２７によって、メモリに記憶された正例の学習データ及び負例の学習データを用いて、機械学習によって、分類モデルを学習し、ステップＳ１１０において、モデル記憶部２８に分類モデルを格納し、学習処理ルーチンを終了する。

そして、分類対象のブログ文書がレビュー文書分類装置２００に入力されると、レビュー文書分類装置２００によって、図１０に示す文書分類処理ルーチンが実行される。

まず、ステップＳ１１１において、入力部１０により入力されたブログ文書を受け付ける。そして、ステップＳ２１１において、文分割部２３１によって、上記ステップＳ１１１において入力されたブログ文書を、文単位で分割する。ステップＳ１１２において、形態素解析部３１によって、上記ステップＳ１１１において入力されたブログ文書の各文に対して、形態素解析処理を行う。

次のステップＳ２１２では、素性抽出部２３２によって、入力されたブログ文書の各文について、素性を抽出する。ステップＳ２１３では、分類部２３３によって、ブログ文書の各文について、上記ステップＳ２１２で抽出された素性と、モデル記憶部２８に記憶された分類モデルとに基づいて、当該文が、レビュー文であるか非レビュー文であるか分類する。

そして、ステップＳ２１４では、レビュー文書判定部２３４によって、上記ステップＳ２１３でレビュー文であると分類された文の割合に基づいて、ブログ文書がレビュー文書であるか否かを判定する。ステップＳ２１５において、上記ステップＳ２１４の判定結果を出力部３０により出力して、文書分類処理ルーチンを終了する。

以上説明したように、第２の実施の形態に係るレビュー文書分類装置によれば、学習用のブログ文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合の各文書の各文について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することが可能な分類モデルを学習することができる。

また、学習用のブログ文書とは異なる種類のレビュー文書を追加した学習用文書集合の各文書の各文について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力されたブログ文書がレビュー文書であるか否かを判定することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。

また、学習用文書の各々を文単位に分割し、学習用文書の各文について抽出された素性の各々に基づいて、分類モデルを学習することにより、少量の学習データで、レビュー文書であるか否かを適切に分類することができる分類モデルを得ることができる。

［第３の実施の形態］
＜システム構成＞
次に、第３の実施の形態に係るレビュー文書分類装置について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第３の実施の形態では、ブログ文書から評価文を抽出して、評価文のみからなる評価文書の素性を抽出して、分類モデルの学習を行っている点が、第１の実施の形態と異なっている。

図１１に示すように、第３の実施の形態に係るレビュー文書分類装置３００の演算部３２０は、ブログ文書データベース２１、レビュー文書データベース２２、レビュー文書抽出部２３、学習用テキスト取得部２４、形態素解析部２５、評価文抽出部３２５、素性抽出部３２６、学習部２７、及びモデル記憶部２８を備えている。

評価文抽出部３２５は、各学習用文書について、形態素解析結果に基づいて、予め用意された評価表現が出現する評価文のみを抽出して、評価文のみで構成された評価文書（非評価文が取り除かれた文書）を作成することにより、評価文のみで構成された評価文書の集合を作成する。このとき、当該評価文書の集合から、評価文の出現しない文書は削除される。

例えば、ブログ文書が、図１２（Ａ）に示すように、「A社の新商品を買ってしまいました。・・・」であり、形態素解析結果として、図１２（Ｂ）に示すように、「A社（名詞）/の（格助詞）/新商品（名詞）/を（格助詞）/買（動詞語幹）/っ（動詞活用語尾）/て（動詞接尾辞）/しま（動詞語幹）/い（動詞活用語尾）/ました（動詞接尾辞）・・・（略）・・・」が得られた場合には、図１２（Ｃ）に示すような評価文のみで構成された評価文書が作成される。

ここで、評価文は非レビュー文書と比べると、レビュー文書に多く出現する傾向にある。
入力された学習用のブログ文書から、非評価文を抜き取ることで、評価文書の集合中の非レビュー文書の割合を減少させることが可能になる。

評価表現はあらかじめ作成した評価表現の辞書に基づいて取得される。評価表現の辞書には、例えば、「美味しい」、「綺麗」、「美しい」、「可愛い」、「おしゃれ」、「大きい」、「小さい」、「少ない」、「態度が悪い」、「汚い」、「まずい」などが含まれる。対象がブログのようなソーシャルメディアである場合、顔文字や絵文字、記号などを評価表現として利用しても良い。

素性抽出部３２６は、各評価文書について、作成された評価文書ごとに、形態素解析によって得られた結果を利用して、機械学習に用いる、文書の特徴を示す素性を作成する。

素性抽出部３２６は、レビュー文書である学習用文書から作成された評価文書の素性を、正例の学習データとしてメモリ（図示省略）に記憶する。また、素性抽出部３２６は、非レビュー文書である学習用文書から作成された評価文書の素性を、負例の学習データとしてメモリに記憶する。

学習部２７は、学習用文書の集合から得られた正例の学習データ（レビュー文書である学習用文書から作成された評価文書の素性）及び負例の学習データ（非レビュー文書である学習用文書から作成された評価文書の素性）を用いて、機械学習によって、入力された文書がレビュー文書であるか否かを分類するための分類モデルを作成して、モデル記憶部２８に記憶する。

また、演算部３２０は、形態素解析部３１、評価文抽出部３３１、素性抽出部３３２、及び分類部３３を備えている。

評価文抽出部３３１は、評価文抽出部３２５と同様に、分類対象のブログ文書について、形態素解析結果に基づいて、予め用意された評価表現が出現する評価文のみを抽出して、評価文書（非評価文が取り除かれた文書）を作成する。このとき、分類対象のブログ文書が評価文の出現しない文書である場合には、後段の処理を行わずに、非レビュー文書であると分類すればよい。

素性抽出部３３２は、分類対象のブログ文書から作成された評価文書について、形態素解析によって得られた結果を利用して、素性抽出部３２６と同様に、文書の特徴を示す素性を作成する。

分類部３３は、例えば、分類対象のブログ文書から作成された評価文書について、抽出された素性と、分類モデルとを用いて、当該ブログ文書が、レビュー文書であるか否かを分類する。

＜レビュー文書分類装置の作用＞
次に、第３の実施の形態に係るレビュー文書分類装置３００の作用について説明する。なお、第１の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。

まず、レビュー文書分類装置３００によって、図１３に示す学習処理ルーチンが実行される。

ステップＳ１０１において、レビュー文書抽出部２３によって、レビュー文書データベース２２から、文の数が所定範囲内の他種レビュー文書を抽出する。ステップＳ１０２では、学習用テキスト取得部２４によって、レビュー文書の数と非レビュー文書の数とを取得する。そして、ステップＳ１０３において、レビュー文書と非レビュー文書との比率が所定比率となるように、追加すべき他種レビュー文書の数を決定し、決定された数だけ、上記ステップＳ１０１で抽出した他種レビュー文書を、学習用文書として、ブログ文書データベース２１に格納する。

そして、ステップＳ１０４において、ブログ文書データベース２１から１つの学習用文書を取り出す。そして、ステップＳ１０５において、形態素解析部２５によって、取り出された学習用文書に対して、形態素解析処理を行う。

次のステップＳ３０１では、評価文抽出部３２５によって、上記ステップＳ１０５で得られた形態素解析結果と、予め用意した評価表現の辞書とに基づいて、学習用文書から評価文を抽出し、評価文書を作成する。ステップＳ３０２では、素性抽出部３２６によって、上記ステップＳ３０１で作成された評価文書について、上記ステップＳ１０５で得られた形態素解析結果に基づいて素性を抽出し、ステップＳ３０３において、当該学習用文書がレビュー文書であれば、上記ステップＳ３０２で抽出された評価文書の素性を、レビュー文書の素性（正例の学習データ）としてメモリに記憶し、当該学習用文書が非レビュー文書であれば、上記ステップＳ３０２で抽出された評価文書の素性を、非レビュー文書の素性（負例の学習データ）としてメモリに記憶する。

ステップＳ１０８では、ブログ文書データベース２１に記憶されている全ての学習用文書について、上記ステップＳ１０４、Ｓ１０５、Ｓ３０１〜Ｓ３０３の処理を実行したか否かを判定し、上記ステップＳ１０４、Ｓ１０５、Ｓ３０１〜Ｓ３０３の処理を実行していない学習用文書が存在する場合には、上記ステップＳ１０４へ戻り、当該学習用文書を取り出す。一方、全ての学習用文書について、上記ステップＳ１０４、Ｓ１０５、Ｓ３０１〜Ｓ３０３の処理を実行した場合には、ステップＳ１０９へ進む。

そして、分類対象のブログ文書がレビュー文書分類装置３００に入力されると、レビュー文書分類装置３００によって、図１４に示す文書分類処理ルーチンが実行される。

まず、ステップＳ１１１において、入力部１０により入力されたブログ文書を受け付ける。そして、ステップＳ１１２において、形態素解析部３１によって、上記ステップＳ１１１において入力されたブログ文書の各文に対して、形態素解析処理を行う。

次のステップＳ３１１では、評価文抽出部３３１によって、上記ステップＳ１１２で得られた形態素解析結果と、予め用意した評価表現の辞書とに基づいて、ブログ文書から評価文を抽出し、評価文書を作成する。

次のステップＳ３１２では、素性抽出部３３２によって、入力されたブログ文書の評価文書について、素性を抽出する。ステップＳ３１３では、分類部３３によって、ブログ文書について、上記ステップＳ３１２で抽出された素性と、モデル記憶部２８に記憶された分類モデルとに基づいて、当該ブログ文書が、レビュー文書であるか非レビュー文書であるか分類する。ステップＳ１１５において、上記ステップＳ３１３の判定結果を出力部３０により出力して、文書分類処理ルーチンを終了する。

以上説明したように、第３の実施の形態に係るレビュー文書分類装置によれば、学習用のブログ文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合から作成された各評価文書について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することが可能な分類モデルを学習することができる。

また、学習用のブログ文書とは異なる種類のレビュー文書を追加した学習用文書集合から作成された各評価文書について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力されたブログ文書がレビュー文書であるか否かを分類することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。

また、複数の学習用文書の各々から評価文を抽出し、評価文が含まれていた学習用文書から作成された評価文書の各々について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを更に調整することができる。

［第４の実施の形態］
＜システム構成＞
次に、第４の実施の形態に係るレビュー文書分類装置について説明する。なお、第１の実施の形態〜第３の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第４の実施の形態では、学習用文書を文単位で分割し、各評価文の素性を抽出して、分類モデルの学習を行っている点が、第３の実施の形態と異なっている。

図１５に示すように、第４の実施の形態に係るレビュー文書分類装置４００の演算部４２０は、ブログ文書データベース２１、レビュー文書データベース２２、レビュー文書抽出部２３、学習用テキスト取得部２４、文分割部２２４、形態素解析部２５、評価文抽出部３２５、素性抽出部４２６、学習部４２７、及びモデル記憶部２８を備えている。

素性抽出部４２６は、各学習用文書について、抽出された評価文ごとに、形態素解析によって得られた結果を利用して、機械学習に用いる、文の特徴を示す素性を作成する。

素性抽出部４２６は、図１６に示すように、レビュー文書である学習用文書から抽出された各評価文の素性を、正例の学習データとしてメモリ（図示省略）に記憶する。また、素性抽出部４２６は、非レビュー文書である学習用文書から抽出された各評価文の素性を、負例の学習データとしてメモリに記憶する。

学習部４２７は、学習用文書の集合から得られた正例の学習データ（レビュー文書である学習用文書から抽出された評価文の素性）及び負例の学習データ（非レビュー文書である学習用文書から抽出された評価文の素性）を用いて、機械学習によって、入力された文がレビュー文書内の文であるか否かを分類するための分類モデルを作成して、モデル記憶部２８に記憶する。

また、演算部４２０は、文分割部２３１、形態素解析部３１、評価文抽出部３３１、素性抽出部４３２、分類部４３３、及びレビュー文書判定部４３４を備えている。なお、文分割部２３１は、入力文分割手段の一例であり、素性抽出部４３２は、入力素性抽出手段の一例である。

素性抽出部４３２は、分類対象のブログ文書について、図１７に示すように、抽出された評価文ごとに、形態素解析によって得られた結果を利用して、素性抽出部４２６と同様に、文の特徴を示す素性を作成する。

分類部４３３は、分類対象のブログ文書の各評価文について、抽出された素性と、分類モデルとに基づいて、当該評価文が、レビュー文書内の文であるか否かを分類する。

レビュー文書判定部４３４は、分類対象のブログ文書について、レビュー文と分類された評価文の割合が、閾値以上である場合には、レビュー文書であると判定し、閾値未満である場合には、非レビュー文書であると判定する。

＜レビュー文書分類装置の作用＞
次に、第４の実施の形態に係るレビュー文書分類装置４００の作用について説明する。なお、第１の実施の形態及び第３の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。

まず、レビュー文書分類装置４００によって、図１８に示す学習処理ルーチンが実行される。

そして、ステップＳ１０４において、ブログ文書データベース２１から１つの学習用文書を取り出す。ステップＳ４０１では、文分割部２２４によって、上記ステップＳ１０４において取り出された学習用文書を、文単位で分割する。そして、ステップＳ１０５において、形態素解析部２５によって、取り出された学習用文書の各文に対して、形態素解析処理を行う。

次のステップＳ３０１では、評価文抽出部３２５によって、学習用文書の各文から評価文を抽出する。ステップＳ４０２では、素性抽出部４２６によって、上記ステップＳ３０１で抽出された各評価文について、上記ステップＳ１０５で得られた形態素解析結果に基づいて素性を抽出し、ステップＳ４０３において、当該学習用文書がレビュー文書であれば、上記ステップＳ４０２で抽出された各評価文の素性を、レビュー文の素性（正例の学習データ）としてメモリに記憶し、当該学習用文書が非レビュー文書であれば、上記ステップＳ４０２で抽出された各評価文の素性を、非レビュー文の素性（負例の学習データ）としてメモリに記憶する。

ステップＳ１０８では、ブログ文書データベース２１に記憶されている全ての学習用文書について、上記ステップＳ１０４、Ｓ４０１、Ｓ１０５、Ｓ３０１、Ｓ４０２、Ｓ４０３の処理を実行したか否かを判定し、上記ステップＳ１０４、Ｓ４０１、Ｓ１０５、Ｓ３０１、Ｓ４０２、Ｓ４０３の処理を実行していない学習用文書が存在する場合には、上記ステップＳ１０４へ戻り、当該学習用文書を取り出す。一方、全ての学習用文書について、上記ステップＳ１０４、Ｓ４０１、Ｓ１０５、Ｓ３０１、Ｓ４０２、Ｓ４０３の処理を実行した場合には、ステップＳ４０４へ進む。

ステップＳ４０４において、学習部４２７によって、メモリに記憶された正例の学習データ及び負例の学習データを用いて、機械学習によって、分類モデルを学習し、ステップＳ１１０において、モデル記憶部２８に分類モデルを格納し、学習処理ルーチンを終了する。

そして、分類対象のブログ文書がレビュー文書分類装置４００に入力されると、レビュー文書分類装置４００によって、図１９に示す文書分類処理ルーチンが実行される。

まず、ステップＳ１１１において、入力部１０により入力されたブログ文書を受け付ける。そして、ステップＳ４１１において、文分割部２３１によって、上記ステップＳ１１１において入力されたブログ文書を、文単位で分割する。ステップＳ１１２において、形態素解析部３１によって、上記ステップＳ１１１において入力されたブログ文書の各文に対して、形態素解析処理を行う。

次のステップＳ３１１では、評価文抽出部３３１によって、ブログ文書から評価文を抽出し、評価文書を作成する。

次のステップＳ４１２では、素性抽出部４３２によって、入力されたブログ文書の各評価文について、素性を抽出する。ステップＳ４１３では、分類部４３３によって、ブログ文書の各評価文について、上記ステップＳ４１２で抽出された素性と、モデル記憶部２８に記憶された分類モデルとに基づいて、当該評価文が、レビュー文であるか非レビュー文であるか分類する。

そして、ステップＳ４１４では、レビュー文書判定部４３４によって、上記ステップＳ４１３でレビュー文であると分類された評価文の割合に基づいて、ブログ文書がレビュー文書であるか否かを判定する。ステップＳ４１５において、上記ステップＳ４１４の判定結果を出力部３０により出力して、文書分類処理ルーチンを終了する。

以上説明したように、第４の実施の形態に係るレビュー文書分類装置によれば、学習用のブログ文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合の各文書の各評価文について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することが可能な分類モデルを学習することができる。

また、学習用のブログ文書とは異なる種類のレビュー文書を追加した学習用文書集合の各文書の各評価文について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力されたブログ文書がレビュー文書であるか否かを判定することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、入力される他種文書群に、複数のドメインの他種レビュー文書が含まれていてもよい。この場合には、入力された他種文書群の他種レビュー文書の各々に、ドメイン情報を付与しておき、レビュー文書抽出部２３が、学習用文書としてのブログ文書のドメインとして指定されたドメイン情報と同じドメイン情報が付与された他種レビュー文書を抽出するようにすればよい。

また、入力される他種文書群に、ブログ以外の種類の非レビュー文書が含まれていてもよい。また、学習用文書集合に、他種文書群内のレビュー文書だけでなく非レビュー文書も追加しても構わない。

また、上記の第３の実施の形態、第４の実施の形態において、評価文を含む学習用のブログ文書から、非評価文を取り除かないようにしてもよい。すなわち、学習用のブログ文書から非評価文を取り除いた評価文書を作成せずに、評価文を含まない学習用文書を、学習用文書の集合から削除するだけでもよい。上記の第３の実施の形態のように文書を文に分割しない場合には、評価文を含む学習用文書について文書の素性を抽出して、分類モデルを学習すればよい。また、分類対象のブログ文書について文書の素性を抽出し、分類モデルを用いて、当該ブログ文書がレビュー文書であるか否かを分類すればよい。また、上記の第４の実施の形態のように文書を文に分割する場合には、評価文を含む学習用文書について各文（評価文、非評価文)の素性を抽出して、分類モデルを学習すればよい。また、分類対象のブログ文書について各文の素性を抽出し、分類モデルを用いて、当該ブログ文書の各文がレビュー文であるか否かを分類し、レビュー文であると分類された文の割合に基づいて、当該ブログ文書がレビュー文書であるか否かを判定すればよい。

また、上記の第２の実施の形態、第４の実施の形態において、学習用文書の各文（各評価文）について、特定対象に関する客観的な情報又は主観的な情報が記載されたレビュー文であるか、あるいは非レビュー文であるかを手入力するようにしてもよい。この場合には、学習用文書の各文（各評価文）のうちレビュー文の各々について抽出された素性の各々を正例の学習データとし、学習用文書の各文（各評価文）のうち非レビュー文の各々について抽出された素性の各々を負例の学習データとして、学習部によって分類モデルを学習するようにすればよい。また、上記の第４の実施の形態において、評価文を含む学習用文書から非評価文を取り除かない場合には、評価文を含む学習用文書の各文について、レビュー文であるか、あるいは非レビュー文であるかを手入力するようにしてもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０入力部
２０、２２０、３２０、４２０演算部
２１ブログ文書データベース
２２レビュー文書データベース
２３レビュー文書抽出部
２４学習用テキスト取得部
２５、３１形態素解析部
２６、３２、２２６、２３２、３２６、３３２、４２６、４３２素性抽出部
２７、２２７、４２７学習部
２８モデル記憶部
３３、２３３、４３３分類部
１００、２００、３００、４００レビュー文書分類装置
２２４、２３１文分割部
２３４、４３４レビュー文書判定部
３２５、３３１評価文抽出部

Claims

文書追加手段によって、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加するステップと、
素性抽出手段によって、前記学習用文書集合の各文書について、前記文書の特徴を示す素性を抽出するステップと、
学習手段によって、前記学習用文書集合の各文書について抽出された前記素性の各々に基づいて、入力された文書が前記レビュー文書であるか否かを分類するための分類モデルを学習するステップと、
を含む分類モデル学習方法。
文書追加手段によって、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加するステップと、
文分割手段によって、前記学習用文書集合の各文書を、文単位で分割するステップと、
素性抽出手段によって、前記文分割手段によって分割された前記学習用文書集合の各文書の各文について、前記文の特徴を示す素性を抽出するステップと、
学習手段によって、前記学習用文書集合の各文書の各文について抽出された前記素性の各々に基づいて、入力された文が前記レビュー文書内の文であるか否かを分類するための分類モデルを学習するステップと、
を含む分類モデル学習方法。
評価文抽出手段によって、前記学習用文書集合の各文書から、予め定められた評価表現を含む評価文を抽出するステップを更に含み、
前記素性抽出手段によって抽出するステップは、前記評価文抽出手段によって前記評価文が抽出された前記文書の各々について、前記文書から抽出された前記評価文からなる評価文書の特徴を示す素性、又は前記文書の特徴を示す素性を抽出し、
前記学習手段によって学習するステップは、前記レビュー文書である前記文書について抽出された前記素性の各々を正例の素性とし、前記レビュー文書でない前記文書について抽出された前記素性の各々を負例の素性として、前記分類モデルを学習する請求項１記載の分類モデル学習方法。
評価文抽出手段によって、前記学習用文書集合の各文書から、予め定められた評価表現を含む評価文を抽出するステップを更に含み、
前記素性抽出手段によって抽出するステップは、前記評価文抽出手段によって前記評価文が抽出された前記文書の各々について、前記文書から抽出された前記評価文の各々の特徴を示す素性、又は前記文書の各文の素性を抽出し、
前記学習手段によって学習するステップは、前記文書の各評価文又は各文について抽出された前記素性の各々に基づいて、前記分類モデルを学習する請求項２記載の分類モデル学習方法。
入力素性抽出手段によって、入力された文書の特徴を示す素性を抽出するステップと、
分類手段によって、請求項１又は３記載の分類モデル学習方法によって学習された前記分類モデルと、前記入力素性抽出手段によって抽出された前記素性とに基づいて、前記入力された文書が前記レビュー文書であるか否かを分類するステップと、
を含むレビュー文書分類方法。
入力文分割手段によって、入力された文書を、文単位で分割するステップと、
入力素性抽出手段によって、前記入力された文書の各文の素性を抽出するステップと、
分類手段によって、請求項２又は４記載の分類モデル学習方法によって学習された前記分類モデルと、前記入力素性抽出手段によって抽出された各文の前記素性とに基づいて、前記入力された文書の各文について、前記レビュー文書内の文であるか否かを分類するステップと、
判定手段によって、前記分類手段によって分類された前記文書の各文の分類結果に基づいて、前記入力された文書が前記レビュー文書であるか否かを判定するステップと、
を含むレビュー文書分類方法。
特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加する文書追加手段と、
前記学習用文書集合の各文書について、前記文書の特徴を示す素性を抽出する素性抽出手段と、
前記学習用文書集合の各文書について抽出された前記素性の各々に基づいて、入力された文書が前記レビュー文書であるか否かを分類するための分類モデルを学習する学習手段と、
を含む分類モデル学習装置
コンピュータに、請求項１〜請求項４の何れか１項記載の分類モデル学習方法、あるいは請求項５又は６記載のレビュー文書分類方法の各ステップを実行させるためのプログラム。