JP2013131075A - 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法 - Google Patents

分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法 Download PDF

Info

Publication number
JP2013131075A
JP2013131075A JP2011280547A JP2011280547A JP2013131075A JP 2013131075 A JP2013131075 A JP 2013131075A JP 2011280547 A JP2011280547 A JP 2011280547A JP 2011280547 A JP2011280547 A JP 2011280547A JP 2013131075 A JP2013131075 A JP 2013131075A
Authority
JP
Japan
Prior art keywords
document
learning
review
sentence
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011280547A
Other languages
English (en)
Inventor
Mariko Kawaba
真理子 川場
Toru Hirano
徹 平野
Toshiaki Makino
俊朗 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011280547A priority Critical patent/JP2013131075A/ja
Publication of JP2013131075A publication Critical patent/JP2013131075A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することができるようにする。
【解決手段】学習用テキスト取得部24によって、複数のブログ文書からなる学習用文書集合に対して、ブログとは異なる種類の他種レビュー文書を追加する。形態素解析部25によって、学習用文書集合の各文書について形態素解析を行う。素性抽出部26によって、学習用文書集合の各文書について、文書の特徴を示す素性を抽出する。学習部27によって、学習用文書集合の各文書について抽出された素性の各々に基づいて、入力された文書がレビュー文書であるか否かを分類するための分類モデルを学習する。
【選択図】図1

Description

本発明は、分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法に係り、特に、文書がレビュー文書であるか否かを分類するための分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法に関する。
blog等の文書中の単語の分布を利用して、文書を分類する分類方法がある(例えば、非特許文献1)。この分類方法では、特定の分野に出現しやすい単語とそうでない単語があり、それらの分布を利用して分野ごとに文書を分類している。
平野耕一、古林紀哉、高橋淳一、「日本語圏ブログの自動分類」、情報処理学会研究報告、2005年
しかしながら、blog等のソーシャルメディアにおいて得られる文書から、レビュー文書を抽出する場合、レビュー文書になりえる文書数が、非レビュー文書と比べて少ない。例えば、飲食店に関するブログの内、全体の8割が非レビュー文書であり、レビュー文書は全体の2割程度しか存在しない。そのため、学習器を利用する際に正例と負例のバランスが悪くなり、学習結果として得られる分類モデルの分類性能の低下を招く場合がある。
本発明は、上記の事情を鑑みてなされたもので、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することができる分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法を提供することを目的とする。
上記の目的を達成するために第1の発明に係る分類モデル学習方法は、文書追加手段によって、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加するステップと、素性抽出手段によって、前記学習用文書集合の各文書について、前記文書の特徴を示す素性を抽出するステップと、学習手段によって、前記学習用文書集合の各文書について抽出された前記素性の各々に基づいて、入力された文書が前記レビュー文書であるか否かを分類するための分類モデルを学習するステップと、を含む。
第2の発明に係る分類モデル学習装置は、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加する文書追加手段と、前記学習用文書集合の各文書について、前記文書の特徴を示す素性を抽出する素性抽出手段と、前記学習用文書集合の各文書について抽出された前記素性の各々に基づいて、入力された文書が前記レビュー文書であるか否かを分類するための分類モデルを学習する学習手段と、を含んで構成されている。
第1の発明に係る分類モデル学習方法及び第2の発明に係る分類モデル学習装置によれば、文書追加手段によって、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加する。
そして、素性抽出手段によって、前記学習用文書集合の各文書について、前記文書の特徴を示す素性を抽出する。学習手段によって、前記学習用文書集合の各文書について抽出された前記素性の各々に基づいて、入力された文書が前記レビュー文書であるか否かを分類するための分類モデルを学習する。
このように、学習用文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合の各文書について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することができる。
第3の発明に係る分類モデル学習方法は、文書追加手段によって、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加するステップと、文分割手段によって、前記学習用文書集合の各文書を、文単位で分割するステップと、素性抽出手段によって、前記文分割手段によって分割された前記学習用文書集合の各文書の各文について、前記文の特徴を示す素性を抽出するステップと、学習手段によって、前記学習用文書集合の各文書の各文について抽出された前記素性の各々に基づいて、入力された文が前記レビュー文書内の文であるか否かを分類するための分類モデルを学習するステップと、を含む。
このように、学習用文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合の各文書の各文について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することができる。
第4の発明に係るレビュー文書分類方法は、入力素性抽出手段によって、入力された文書の特徴を示す素性を抽出するステップと、分類手段によって、上記第1の発明に係る分類モデル学習方法によって学習された前記分類モデルと、前記入力素性抽出手段によって抽出された前記素性とに基づいて、前記入力された文書が前記レビュー文書であるか否かを分類するステップと、を含む。
このように、学習用文書とは異なる種類のレビュー文書を追加した学習用文書集合の各文書について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力された文書がレビュー文書であるか否かを分類することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。
第5の発明に係るレビュー文書分類方法は、入力文分割手段によって、入力された文書を、文単位で分割するステップと、入力素性抽出手段によって、前記入力された文書の各文の素性を抽出するステップと、分類手段によって、第3の発明に係る分類モデル学習方法によって学習された前記分類モデルと、前記入力素性抽出手段によって抽出された各文の前記素性とに基づいて、前記入力された文書の各文について、前記レビュー文書内の文であるか否かを分類するステップと、判定手段によって、前記分類手段によって分類された前記文書の各文の分類結果に基づいて、前記入力された文書が前記レビュー文書であるか否かを判定するステップと、を含む。
このように、学習用文書とは異なる種類のレビュー文書を追加した学習用文書集合の各文書の各文について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力された文書がレビュー文書であるか否かを判定することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。
第6の発明に係るプログラムは、コンピュータに、上記の分類モデル学習方法、あるいは上記のレビュー文書分類方法の各ステップを実行させるためのプログラムである。
以上説明したように、本発明の分類モデル学習方法、装置、及びプログラムによれば、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することができる、という効果が得られる。
また、本発明のレビュー文書分類方法及びプログラムによれば、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる、という効果が得られる。
本発明の第1の実施の形態に係るレビュー文書分類装置の構成を示す概略図である。 入力されるブログ文書を示す図である。 本発明の第1の実施の形態に係るレビュー文書分類装置における学習処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態に係るレビュー文書分類装置における文書分類処理ルーチンの内容を示すフローチャートである。 本発明の第2の実施の形態に係るレビュー文書分類装置の構成を示す概略図である。 レビュー文と非レビュー文とを説明するための図である。 (A)入力されるブログ文書を示す図、(B)文に分割した結果を示す図、及び(C)各文について抽出された素性を示す図である。 各文に対する分類結果を示す図である。 本発明の第2の実施の形態に係るレビュー文書分類装置における学習処理ルーチンの内容を示すフローチャートである。 本発明の第2の実施の形態に係るレビュー文書分類装置における文書分類処理ルーチンの内容を示すフローチャートである。 本発明の第3の実施の形態に係るレビュー文書分類装置の構成を示す概略図である。 (A)入力されるブログ文書を示す図、(B)形態素解析結果を示す図、及び(C)評価文書を示す図である。 本発明の第3の実施の形態に係るレビュー文書分類装置における学習処理ルーチンの内容を示すフローチャートである。 本発明の第3の実施の形態に係るレビュー文書分類装置における文書分類処理ルーチンの内容を示すフローチャートである。 本発明の第4の実施の形態に係るレビュー文書分類装置の構成を示す概略図である。 レビュー文書と非レビュー文書から得られる学習データを説明するための図である。 各評価文について抽出された素性を示す図である。 本発明の第4の実施の形態に係るレビュー文書分類装置における学習処理ルーチンの内容を示すフローチャートである。 本発明の第4の実施の形態に係るレビュー文書分類装置における文書分類処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
[第1の実施の形態]
<システム構成>
本発明の第1の実施の形態に係るレビュー文書分類装置100は、ソーシャルメディア(例えば、ブログ)において得られたブログ文書が入力され、特定対象(例えば、店舗や商品)に関する客観的な情報または主観的な情報(例えば、口コミ情報などの意見)が記載されたレビュー文書であるか否かの判定結果を出力する。1つのブログ文書は1つ以上の文からなるテキストデータである。このレビュー文書分類装置100は、CPUと、RAMと、後述する学習処理ルーチン及び文書分類処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、レビュー文書分類装置100は、入力部10と、演算部20と、出力部30とを備えている。
入力部10は、学習用文書として入力された複数のブログ文書からなる文書群を受け付ける。例えば、ブログ文書として図2に示すようなデータを入力することができる。入力部10は、学習用文書としてのブログ文書と共に、当該ブログ文書が、特定対象に関するレビュー文書であるか否かを示す教師情報の入力を、ブログ文書毎に受け付ける。
また、入力部10は、入力された、ブログ文書以外のレビュー文書である複数の他種レビュー文書からなる他種文書群を受け付ける。例えば、特定対象に関するレビューサイトで得られたレビュー文書を入力することができる。1つの他種レビュー文書は1つ以上の文からなるテキストデータである。入力部10は、他種文書群と共に、他種文書群の各他種レビュー文書が、特定対象に関するレビュー文書であることを示す教師情報の入力を受け付ける。また、入力される他種レビュー文書は、学習用文書としてのブログ文書とドメインを統一する。例えば、ブログ文書が飲食店に関するものであれば、他種レビュー文書も飲食店に関するものとする。
また、入力部10は、分類対象として入力されたブログ文書を受け付ける。
なお、入力されるブログ文書は形態素解析済みであってもよく、この場合には、後述する形態素解析部25、31を省略することができる。
演算部20は、ブログ文書データベース21、レビュー文書データベース22、レビュー文書抽出部23、学習用テキスト取得部24、形態素解析部25、素性抽出部26、学習部27、及びモデル記憶部28を備えている。なお、学習用テキスト取得部24は、文書追加手段の一例である。
ブログ文書データベース21は、入力部10により受け付けた学習用文書としての複数のブログ文書からなる文書群及びブログ文書毎の教師情報を記憶する。
レビュー文書データベース22は、入力部10により受け付けた他種文書群及び他種レビュー文書毎の教師情報を記憶する。
レビュー文書抽出部23は、レビュー文書データベース22から、文の数が所定範囲内である他種レビュー文書を抽出する。例えば、一般的なブログ文書の文数は11文であるため、11文前後(10文以上12文以下の範囲)の他種レビュー文書を抽出する。また、レビュー文書は、評価表現、感性表現などを多く含む文書の方がよいため、他種レビュー文書の各々について、予め定めた評価表現及び感性表現を抽出し、抽出された数が所定値以上となる他種レビュー文書を抽出するようにしてもよい。
学習用テキスト取得部24は、ブログ文書データベース21の各ブログ文書の教師情報に基づいて、レビュー文書であるブログ文書の数に対する非レビュー文書であるブログ文書の数の比率を算出し、当該比率を所定の比率(例えば、1:1)とするために追加すべき他種レビュー文書の数を決定する。学習用テキスト取得部24は、レビュー文書抽出部23から抽出された他種レビュー文書から、決定した数の他種レビュー文書を取得し、学習用文書の集合に追加するように、ブログ文書データベース21に、取得した他種レビュー文書を記憶する。
なお、以下では、ブログ文書データベース21に記憶されたブログ文書及び他種レビュー文書を総称して、学習用文書と呼ぶこととする。
形態素解析部25は、各学習用文書について、既存の技術である形態素解析によって、当該文書を単語に区切り、さらに各単語に品詞を付与し出力する。たとえば、ブログ文書が、ブログ文書が、「 表参道に行ったところ、すごい行列だったので覗いてみたら新商品の発売が始まっていました。買うつもりはなかったのですが、ついつられて、A社の新商品を買ってしまいました。・・・」である場合、形態素解析結果として、「・・・(略)・・・A社(名詞)/の(格助詞)/新商品(名詞)/を(格助詞)/買(動詞語幹)/っ(動詞活用語尾)/て(動詞接尾辞)/しま(動詞語幹)/い(動詞活用語尾)/ました(動詞接尾辞)・・・(略)・・・」が得られる。
素性抽出部26は、各学習用文書について、形態素解析によって得られた結果を利用して、機械学習に用いる、文書の特徴を示す素性を作成する。例えば、文書の素性として、文書中の形態素の頻度分布(ヒストグラム)などを用いる。
レビュー文書には特定の感性表現および評価表現が多く出現することがある。そのため、感性表現・評価表現の有無および種類を素性として利用してもよい。また、顔文字・絵文字等を素性として利用してもよい。
素性抽出部26は、レビュー文書である学習用文書の素性を、正例の学習データとしてメモリ(図示省略)に記憶する。また、素性抽出部26は、非レビュー文書である学習用文書の素性を、負例の学習データとしてメモリに記憶する。
学習部27は、学習用文書の集合から得られた正例の学習データ(レビュー文書の素性)及び負例の学習データ(非レビュー文書の素性)を用いて、機械学習によって、入力された文書がレビュー文書であるか否かを分類するための分類モデルを作成して、モデル記憶部28に記憶する。機械学習アルゴリズムとしては、例えばサポートベクトルマシン(SVM)やMarkov Logic Network (MLN)などのアルゴリズムを利用することができる。
モデル記憶部28に記憶される分類モデルは、例えば、各素性に関する重みの数値を格納したものである。
また、演算部20は、形態素解析部31、素性抽出部32、及び分類部33を備えている。なお、素性抽出部32は、入力素性抽出手段の一例である。
形態素解析部31は、形態素解析部25と同様に、分類対象のブログ文書について、形態素解析によって、当該文書を単語に区切り、さらに各単語に品詞を付与し出力する。
素性抽出部32は、分類対象のブログ文書について、形態素解析によって得られた結果を利用して、素性抽出部26と同様に、文書の特徴を示す素性を作成する。
分類部33は、分類対象のブログ文書について、抽出された素性と、モデル記憶部28に記憶された分類モデルとに基づいて、当該ブログ文書が、レビュー文書であるか否かを分類する。例えば、抽出された素性を示す数値に、分類モデルが持つ対応する重みを乗算した数値の各々を要素とする特徴ベクトルを用いて、サポートベクトルマシンのアルゴリズムにより、当該文書が、レビュー文書であるか否かを分類する。
分類部33による分類結果が、出力部30より出力される。
<レビュー文書分類装置の作用>
次に、第1の実施の形態に係るレビュー文書分類装置100の作用について説明する。まず、学習用文書としての複数のブログ文書である文書群と、当該複数のブログ文書の各々がレビュー文書であるか否かを示す教師情報とがレビュー文書分類装置100に入力されると、レビュー文書分類装置100によって、入力された文書群及び教師情報が、ブログ文書データベース21へ格納される。また、複数の他種レビュー文書である他種文書群と、当該複数の他種レビュー文書の各々がレビュー文書であることを示す教師情報とがレビュー文書分類装置100に入力されると、レビュー文書分類装置100によって、入力された他種文書群及び教師情報が、レビュー文書データベース22へ格納される。
そして、レビュー文書分類装置100によって、図3に示す学習処理ルーチンが実行される。
まず、ステップS101において、レビュー文書抽出部23によって、レビュー文書データベース22から、文の数が所定範囲内の他種レビュー文書を抽出する。ステップS102では、学習用テキスト取得部24によって、ブログ文書データベース21の各ブログ文書の教師情報に基づいて、レビュー文書の数と非レビュー文書の数とを取得する。そして、ステップS103において、上記ステップS102で取得した数に基づいて、レビュー文書と非レビュー文書との比率が所定比率となるように、追加すべき他種レビュー文書の数を決定し、決定された数だけ、上記ステップS101で抽出した他種レビュー文書を、学習用文書として、ブログ文書データベース21に格納する。
そして、ステップS104において、ブログ文書データベース21から1つの学習用文書(ブログ文書または他種レビュー文書)を取り出す。そして、ステップS105において、形態素解析部25によって、上記ステップS104において取り出された学習用文書に対して、形態素解析処理を行う。
次のステップS106では、素性抽出部26によって、学習用文書について、上記ステップS105で得られた形態素解析結果に基づいて素性を抽出し、ステップS107において、当該学習用文書がレビュー文書であれば、上記ステップS106で抽出された学習用文書の素性を、レビュー文書の素性(正例の学習データ)としてメモリに記憶し、当該学習用文書が非レビュー文書であれば、上記ステップS106で抽出された学習用文書の素性を、非レビュー文書の素性(負例の学習データ)としてメモリに記憶する。
ステップS108では、ブログ文書データベース21に記憶されている全ての学習用文書について、上記ステップS104〜S107の処理を実行したか否かを判定し、上記ステップS104〜S107の処理を実行していない学習用文書が存在する場合には、上記ステップS104へ戻り、当該学習用文書を取り出す。一方、全ての学習用文書について、上記ステップS104〜S107の処理を実行した場合には、ステップS109へ進む。
ステップS109において、学習部27によって、メモリに記憶された正例の学習データ及び負例の学習データを用いて、機械学習によって、分類モデルを学習し、ステップS110において、モデル記憶部28に分類モデルを格納し、学習処理ルーチンを終了する。
そして、分類対象のブログ文書がレビュー文書分類装置100に入力されると、レビュー文書分類装置100によって、図4に示す文書分類処理ルーチンが実行される。
まず、ステップS111において、入力部10により入力されたブログ文書を受け付ける。そして、ステップS112において、形態素解析部31によって、上記ステップS111において入力されたブログ文書に対して、形態素解析処理を行う。
次のステップS113では、素性抽出部32によって、入力されたブログ文書について、素性を抽出する。ステップS114では、分類部33によって、上記ステップS113で抽出された素性と、モデル記憶部28に記憶された分類モデルとに基づいて、当該ブログ文書が、レビュー文書であるか分類する。
そして、ステップS115では、上記ステップS114の分類結果を出力部30により出力して、文書分類処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係るレビュー文書分類装置によれば、学習用のブログ文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合の各文書について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することが可能な分類モデルを学習することができる。
また、学習用のブログ文書とは異なる種類のレビュー文書を追加した学習用文書集合の各文書について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力されたブログ文書がレビュー文書であるか否かを分類することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。
ブログ文書中のレビュー文書の数は非レビュー文書と比較するとあまり多くないが、ブログ以外のテキストのレビュー文書は比較的容易に一定数を集めることができる。そこで、本実施の形態では、ブログのレビュー文書に加えて、ブログ以外のテキストのレビュー文書を正例として加えることで、正例を増やすことができる。
[第2の実施の形態]
<システム構成>
次に、第2の実施の形態に係るレビュー文書分類装置について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、ブログ文書を文単位で分割し、各文の素性を抽出して、分類モデルの学習を行っている点が、第1の実施の形態と異なっている。
図5に示すように、第2の実施の形態に係るレビュー文書分類装置200の演算部220は、ブログ文書データベース21、レビュー文書データベース22、レビュー文書抽出部23、学習用テキスト取得部24、文分割部224、形態素解析部25、素性抽出部226、学習部227、及びモデル記憶部28を備えている。
文分割部224は、ブログ文書データベース21に記憶された学習用文書の集合に含まれる各学習用文書を、文単位に分割する。文分割の方法は既知の技術を用いればよく、例えば句読点や改行などが出現する箇所で分割すればよい。また、ブログ等のソーシャルメディアで得られる文書を利用する際には、顔文字、絵文字等が文区切りに利用されていることが多い。そのため、絵文字や顔文字を文区切りに利用してもよい。
形態素解析部25は、各学習用文書について、分割された文ごとに、形態素解析によって、当該文を単語に区切り、さらに各単語に品詞を付与し出力する。
素性抽出部226は、各学習用文書について、分割された各文ごとに、形態素解析によって得られた結果を利用して、機械学習に用いる、文の特徴を示す素性を作成する。例えば、文の素性として、文中の形態素の頻度分布(ヒストグラム)などを用いる。
また、ブログのようなソーシャルメディアのテキストでは、複数の文にまたいで評価している場合がある。そのため、前後の文の評価表現、形態素の頻度などを素性として利用しても良い。
素性抽出部226は、図6に示すように、レビュー文書である学習用文書から抽出された各文の素性を、正例の学習データとしてメモリ(図示省略)に記憶する。また、素性抽出部226は、非レビュー文書である学習用文書から抽出された各文の素性を、負例の学習データとしてメモリに記憶する。
学習部227は、学習用文書の集合から得られた正例の学習データ(レビュー文書の各文の素性)及び負例の学習データ(非レビュー文書の各文の素性)を用いて、機械学習によって、入力された文がレビュー文書内の文であるか否かを分類するための分類モデルを作成して、モデル記憶部28に記憶する。
また、演算部220は、文分割部231、形態素解析部31、素性抽出部232、分類部233、及びレビュー文書判定部234を備えている。なお、文分割部231は、入力文分割手段の一例であり、素性抽出部232は、入力素性抽出手段の一例である。
文分割部231は、文分割部224と同様に、図7(A)に示すような入力された分類対象のブログ文書を、図7(B)に示すように文単位に分割する。
形態素解析部31は、形態素解析部25と同様に、分類対象のブログ文書について、分割された文ごとに、形態素解析によって、当該文を単語に区切り、さらに各単語に品詞を付与し出力する。
素性抽出部232は、分類対象のブログ文書について、図7(C)に示すように、分割された文ごとに、形態素解析によって得られた結果を利用して、素性抽出部226と同様に、文の特徴を示す素性を作成する。
分類部233は、分類対象のブログ文書の各文について、抽出された素性と、モデル記憶部28に記憶された分類モデルとに基づいて、当該文が、レビュー文書内の文であるか否かを分類する。例えば、抽出された素性を示す数値に、分類モデルが持つ対応する重みを乗算した数値の各々を要素とする特徴ベクトルを用いて、サポートベクトルマシンのアルゴリズムにより、当該文が、レビュー文書内の文であるか否かを分類する。これによって、図8に示すように、各文が、レビュー文であるか、非レビュー文であるかに分類される。
レビュー文書判定部234は、分類対象のブログ文書について、レビュー文と分類された文の割合が、閾値(例えば、4割)以上である場合には、レビュー文書であると判定し、閾値未満である場合には、非レビュー文書であると判定する。
レビュー文書判定部234による判定結果が、出力部30より出力される。
<レビュー文書分類装置の作用>
次に、第2の実施の形態に係るレビュー文書分類装置200の作用について説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
まず、レビュー文書分類装置200によって、図9に示す学習処理ルーチンが実行される。
まず、ステップS101において、レビュー文書抽出部23によって、レビュー文書データベース22から、文の数が所定範囲内の他種レビュー文書を抽出する。ステップS102では、学習用テキスト取得部24によって、レビュー文書の数と非レビュー文書の数とを取得する。そして、ステップS103において、レビュー文書と非レビュー文書との比率が所定比率となるように、追加すべき他種レビュー文書の数を決定し、決定された数だけ、上記で抽出した他種レビュー文書を、学習用文書として、ブログ文書データベース21に格納する。
そして、ステップS104において、ブログ文書データベース21から1つの学習用文書を取り出す。そして、ステップS201において、文分割部224によって、上記ステップS104において取り出された学習用文書を、文単位で分割する。ステップS105において、形態素解析部25によって、上記ステップS104において取り出された学習用文書の各文に対して、形態素解析処理を行う。
次のステップS202では、素性抽出部226によって、学習用文書の各文について、上記ステップS105で得られた形態素解析結果に基づいて素性を抽出し、ステップS203において、当該学習用文書がレビュー文書であれば、上記ステップS202で抽出された各文の素性を、レビュー文の素性(正例の学習データ)としてメモリに記憶し、当該学習用文書が非レビュー文書であれば、上記ステップS202で抽出された各文の素性を、非レビュー文の素性(負例の学習データ)としてメモリに記憶する。
ステップS108では、ブログ文書データベース21に記憶されている全ての学習用文書について、上記ステップS104、S201、S105、S202、S203の処理を実行したか否かを判定し、上記ステップS104、S201、S105、S202、S203の処理を実行していない学習用文書が存在する場合には、上記ステップS104へ戻り、当該学習用文書を取り出す。一方、全ての学習用文書について、上記ステップS104、S201、S105、S202、S203の処理を実行した場合には、ステップS204へ進む。
ステップS204において、学習部227によって、メモリに記憶された正例の学習データ及び負例の学習データを用いて、機械学習によって、分類モデルを学習し、ステップS110において、モデル記憶部28に分類モデルを格納し、学習処理ルーチンを終了する。
そして、分類対象のブログ文書がレビュー文書分類装置200に入力されると、レビュー文書分類装置200によって、図10に示す文書分類処理ルーチンが実行される。
まず、ステップS111において、入力部10により入力されたブログ文書を受け付ける。そして、ステップS211において、文分割部231によって、上記ステップS111において入力されたブログ文書を、文単位で分割する。ステップS112において、形態素解析部31によって、上記ステップS111において入力されたブログ文書の各文に対して、形態素解析処理を行う。
次のステップS212では、素性抽出部232によって、入力されたブログ文書の各文について、素性を抽出する。ステップS213では、分類部233によって、ブログ文書の各文について、上記ステップS212で抽出された素性と、モデル記憶部28に記憶された分類モデルとに基づいて、当該文が、レビュー文であるか非レビュー文であるか分類する。
そして、ステップS214では、レビュー文書判定部234によって、上記ステップS213でレビュー文であると分類された文の割合に基づいて、ブログ文書がレビュー文書であるか否かを判定する。ステップS215において、上記ステップS214の判定結果を出力部30により出力して、文書分類処理ルーチンを終了する。
以上説明したように、第2の実施の形態に係るレビュー文書分類装置によれば、学習用のブログ文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合の各文書の各文について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することが可能な分類モデルを学習することができる。
また、学習用のブログ文書とは異なる種類のレビュー文書を追加した学習用文書集合の各文書の各文について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力されたブログ文書がレビュー文書であるか否かを判定することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。
また、学習用文書の各々を文単位に分割し、学習用文書の各文について抽出された素性の各々に基づいて、分類モデルを学習することにより、少量の学習データで、レビュー文書であるか否かを適切に分類することができる分類モデルを得ることができる。
[第3の実施の形態]
<システム構成>
次に、第3の実施の形態に係るレビュー文書分類装置について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第3の実施の形態では、ブログ文書から評価文を抽出して、評価文のみからなる評価文書の素性を抽出して、分類モデルの学習を行っている点が、第1の実施の形態と異なっている。
図11に示すように、第3の実施の形態に係るレビュー文書分類装置300の演算部320は、ブログ文書データベース21、レビュー文書データベース22、レビュー文書抽出部23、学習用テキスト取得部24、形態素解析部25、評価文抽出部325、素性抽出部326、学習部27、及びモデル記憶部28を備えている。
評価文抽出部325は、各学習用文書について、形態素解析結果に基づいて、予め用意された評価表現が出現する評価文のみを抽出して、評価文のみで構成された評価文書(非評価文が取り除かれた文書)を作成することにより、評価文のみで構成された評価文書の集合を作成する。このとき、当該評価文書の集合から、評価文の出現しない文書は削除される。
例えば、ブログ文書が、図12(A)に示すように、「A社の新商品を買ってしまいました。・・・」であり、 形態素解析結果として、図12(B)に示すように、「A社(名詞)/の(格助詞)/新商品(名詞)/を(格助詞)/買(動詞語幹)/っ(動詞活用語尾)/て(動詞接尾辞)/しま(動詞語幹)/い(動詞活用語尾)/ました(動詞接尾辞)・・・(略)・・・」が得られた場合には、図12(C)に示すような評価文のみで構成された評価文書が作成される。
ここで、評価文は非レビュー文書と比べると、レビュー文書に多く出現する傾向にある。
入力された学習用のブログ文書から、非評価文を抜き取ることで、評価文書の集合中の非レビュー文書の割合を減少させることが可能になる。
評価表現はあらかじめ作成した評価表現の辞書に基づいて取得される。評価表現の辞書には、例えば、「美味しい」、「綺麗」、「美しい」、「可愛い」、「おしゃれ」、「大きい」、「小さい」、「少ない」、「態度が悪い」、「汚い」、「まずい」などが含まれる。対象がブログのようなソーシャルメディアである場合、顔文字や絵文字、記号などを評価表現として利用しても良い。
素性抽出部326は、各評価文書について、作成された評価文書ごとに、形態素解析によって得られた結果を利用して、機械学習に用いる、文書の特徴を示す素性を作成する。
素性抽出部326は、レビュー文書である学習用文書から作成された評価文書の素性を、正例の学習データとしてメモリ(図示省略)に記憶する。また、素性抽出部326は、非レビュー文書である学習用文書から作成された評価文書の素性を、負例の学習データとしてメモリに記憶する。
学習部27は、学習用文書の集合から得られた正例の学習データ(レビュー文書である学習用文書から作成された評価文書の素性)及び負例の学習データ(非レビュー文書である学習用文書から作成された評価文書の素性)を用いて、機械学習によって、入力された文書がレビュー文書であるか否かを分類するための分類モデルを作成して、モデル記憶部28に記憶する。
また、演算部320は、形態素解析部31、評価文抽出部331、素性抽出部332、及び分類部33を備えている。
評価文抽出部331は、評価文抽出部325と同様に、分類対象のブログ文書について、形態素解析結果に基づいて、予め用意された評価表現が出現する評価文のみを抽出して、評価文書(非評価文が取り除かれた文書)を作成する。このとき、分類対象のブログ文書が評価文の出現しない文書である場合には、後段の処理を行わずに、非レビュー文書であると分類すればよい。
素性抽出部332は、分類対象のブログ文書から作成された評価文書について、形態素解析によって得られた結果を利用して、素性抽出部326と同様に、文書の特徴を示す素性を作成する。
分類部33は、例えば、分類対象のブログ文書から作成された評価文書について、抽出された素性と、分類モデルとを用いて、当該ブログ文書が、レビュー文書であるか否かを分類する。
<レビュー文書分類装置の作用>
次に、第3の実施の形態に係るレビュー文書分類装置300の作用について説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
まず、レビュー文書分類装置300によって、図13に示す学習処理ルーチンが実行される。
ステップS101において、レビュー文書抽出部23によって、レビュー文書データベース22から、文の数が所定範囲内の他種レビュー文書を抽出する。ステップS102では、学習用テキスト取得部24によって、レビュー文書の数と非レビュー文書の数とを取得する。そして、ステップS103において、レビュー文書と非レビュー文書との比率が所定比率となるように、追加すべき他種レビュー文書の数を決定し、決定された数だけ、上記ステップS101で抽出した他種レビュー文書を、学習用文書として、ブログ文書データベース21に格納する。
そして、ステップS104において、ブログ文書データベース21から1つの学習用文書を取り出す。そして、ステップS105において、形態素解析部25によって、取り出された学習用文書に対して、形態素解析処理を行う。
次のステップS301では、評価文抽出部325によって、上記ステップS105で得られた形態素解析結果と、予め用意した評価表現の辞書とに基づいて、学習用文書から評価文を抽出し、評価文書を作成する。ステップS302では、素性抽出部326によって、上記ステップS301で作成された評価文書について、上記ステップS105で得られた形態素解析結果に基づいて素性を抽出し、ステップS303において、当該学習用文書がレビュー文書であれば、上記ステップS302で抽出された評価文書の素性を、レビュー文書の素性(正例の学習データ)としてメモリに記憶し、当該学習用文書が非レビュー文書であれば、上記ステップS302で抽出された評価文書の素性を、非レビュー文書の素性(負例の学習データ)としてメモリに記憶する。
ステップS108では、ブログ文書データベース21に記憶されている全ての学習用文書について、上記ステップS104、S105、S301〜S303の処理を実行したか否かを判定し、上記ステップS104、S105、S301〜S303の処理を実行していない学習用文書が存在する場合には、上記ステップS104へ戻り、当該学習用文書を取り出す。一方、全ての学習用文書について、上記ステップS104、S105、S301〜S303の処理を実行した場合には、ステップS109へ進む。
ステップS109において、学習部27によって、メモリに記憶された正例の学習データ及び負例の学習データを用いて、機械学習によって、分類モデルを学習し、ステップS110において、モデル記憶部28に分類モデルを格納し、学習処理ルーチンを終了する。
そして、分類対象のブログ文書がレビュー文書分類装置300に入力されると、レビュー文書分類装置300によって、図14に示す文書分類処理ルーチンが実行される。
まず、ステップS111において、入力部10により入力されたブログ文書を受け付ける。そして、ステップS112において、形態素解析部31によって、上記ステップS111において入力されたブログ文書の各文に対して、形態素解析処理を行う。
次のステップS311では、評価文抽出部331によって、上記ステップS112で得られた形態素解析結果と、予め用意した評価表現の辞書とに基づいて、ブログ文書から評価文を抽出し、評価文書を作成する。
次のステップS312では、素性抽出部332によって、入力されたブログ文書の評価文書について、素性を抽出する。ステップS313では、分類部33によって、ブログ文書について、上記ステップS312で抽出された素性と、モデル記憶部28に記憶された分類モデルとに基づいて、当該ブログ文書が、レビュー文書であるか非レビュー文書であるか分類する。ステップS115において、上記ステップS313の判定結果を出力部30により出力して、文書分類処理ルーチンを終了する。
以上説明したように、第3の実施の形態に係るレビュー文書分類装置によれば、学習用のブログ文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合から作成された各評価文書について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することが可能な分類モデルを学習することができる。
また、学習用のブログ文書とは異なる種類のレビュー文書を追加した学習用文書集合から作成された各評価文書について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力されたブログ文書がレビュー文書であるか否かを分類することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。
また、複数の学習用文書の各々から評価文を抽出し、評価文が含まれていた学習用文書から作成された評価文書の各々について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを更に調整することができる。
[第4の実施の形態]
<システム構成>
次に、第4の実施の形態に係るレビュー文書分類装置について説明する。なお、第1の実施の形態〜第3の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第4の実施の形態では、学習用文書を文単位で分割し、各評価文の素性を抽出して、分類モデルの学習を行っている点が、第3の実施の形態と異なっている。
図15に示すように、第4の実施の形態に係るレビュー文書分類装置400の演算部420は、ブログ文書データベース21、レビュー文書データベース22、レビュー文書抽出部23、学習用テキスト取得部24、文分割部224、形態素解析部25、評価文抽出部325、素性抽出部426、学習部427、及びモデル記憶部28を備えている。
素性抽出部426は、各学習用文書について、抽出された評価文ごとに、形態素解析によって得られた結果を利用して、機械学習に用いる、文の特徴を示す素性を作成する。
素性抽出部426は、図16に示すように、レビュー文書である学習用文書から抽出された各評価文の素性を、正例の学習データとしてメモリ(図示省略)に記憶する。また、素性抽出部426は、非レビュー文書である学習用文書から抽出された各評価文の素性を、負例の学習データとしてメモリに記憶する。
学習部427は、学習用文書の集合から得られた正例の学習データ(レビュー文書である学習用文書から抽出された評価文の素性)及び負例の学習データ(非レビュー文書である学習用文書から抽出された評価文の素性)を用いて、機械学習によって、入力された文がレビュー文書内の文であるか否かを分類するための分類モデルを作成して、モデル記憶部28に記憶する。
また、演算部420は、文分割部231、形態素解析部31、評価文抽出部331、素性抽出部432、分類部433、及びレビュー文書判定部434を備えている。なお、文分割部231は、入力文分割手段の一例であり、素性抽出部432は、入力素性抽出手段の一例である。
素性抽出部432は、分類対象のブログ文書について、図17に示すように、抽出された評価文ごとに、形態素解析によって得られた結果を利用して、素性抽出部426と同様に、文の特徴を示す素性を作成する。
分類部433は、分類対象のブログ文書の各評価文について、抽出された素性と、分類モデルとに基づいて、当該評価文が、レビュー文書内の文であるか否かを分類する。
レビュー文書判定部434は、分類対象のブログ文書について、レビュー文と分類された評価文の割合が、閾値以上である場合には、レビュー文書であると判定し、閾値未満である場合には、非レビュー文書であると判定する。
<レビュー文書分類装置の作用>
次に、第4の実施の形態に係るレビュー文書分類装置400の作用について説明する。なお、第1の実施の形態及び第3の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
まず、レビュー文書分類装置400によって、図18に示す学習処理ルーチンが実行される。
ステップS101において、レビュー文書抽出部23によって、レビュー文書データベース22から、文の数が所定範囲内の他種レビュー文書を抽出する。ステップS102では、学習用テキスト取得部24によって、レビュー文書の数と非レビュー文書の数とを取得する。そして、ステップS103において、レビュー文書と非レビュー文書との比率が所定比率となるように、追加すべき他種レビュー文書の数を決定し、決定された数だけ、上記ステップS101で抽出した他種レビュー文書を、学習用文書として、ブログ文書データベース21に格納する。
そして、ステップS104において、ブログ文書データベース21から1つの学習用文書を取り出す。ステップS401では、文分割部224によって、上記ステップS104において取り出された学習用文書を、文単位で分割する。そして、ステップS105において、形態素解析部25によって、取り出された学習用文書の各文に対して、形態素解析処理を行う。
次のステップS301では、評価文抽出部325によって、学習用文書の各文から評価文を抽出する。ステップS402では、素性抽出部426によって、上記ステップS301で抽出された各評価文について、上記ステップS105で得られた形態素解析結果に基づいて素性を抽出し、ステップS403において、当該学習用文書がレビュー文書であれば、上記ステップS402で抽出された各評価文の素性を、レビュー文の素性(正例の学習データ)としてメモリに記憶し、当該学習用文書が非レビュー文書であれば、上記ステップS402で抽出された各評価文の素性を、非レビュー文の素性(負例の学習データ)としてメモリに記憶する。
ステップS108では、ブログ文書データベース21に記憶されている全ての学習用文書について、上記ステップS104、S401、S105、S301、S402、S403の処理を実行したか否かを判定し、上記ステップS104、S401、S105、S301、S402、S403の処理を実行していない学習用文書が存在する場合には、上記ステップS104へ戻り、当該学習用文書を取り出す。一方、全ての学習用文書について、上記ステップS104、S401、S105、S301、S402、S403の処理を実行した場合には、ステップS404へ進む。
ステップS404において、学習部427によって、メモリに記憶された正例の学習データ及び負例の学習データを用いて、機械学習によって、分類モデルを学習し、ステップS110において、モデル記憶部28に分類モデルを格納し、学習処理ルーチンを終了する。
そして、分類対象のブログ文書がレビュー文書分類装置400に入力されると、レビュー文書分類装置400によって、図19に示す文書分類処理ルーチンが実行される。
まず、ステップS111において、入力部10により入力されたブログ文書を受け付ける。そして、ステップS411において、文分割部231によって、上記ステップS111において入力されたブログ文書を、文単位で分割する。ステップS112において、形態素解析部31によって、上記ステップS111において入力されたブログ文書の各文に対して、形態素解析処理を行う。
次のステップS311では、評価文抽出部331によって、ブログ文書から評価文を抽出し、評価文書を作成する。
次のステップS412では、素性抽出部432によって、入力されたブログ文書の各評価文について、素性を抽出する。ステップS413では、分類部433によって、ブログ文書の各評価文について、上記ステップS412で抽出された素性と、モデル記憶部28に記憶された分類モデルとに基づいて、当該評価文が、レビュー文であるか非レビュー文であるか分類する。
そして、ステップS414では、レビュー文書判定部434によって、上記ステップS413でレビュー文であると分類された評価文の割合に基づいて、ブログ文書がレビュー文書であるか否かを判定する。ステップS415において、上記ステップS414の判定結果を出力部30により出力して、文書分類処理ルーチンを終了する。
以上説明したように、第4の実施の形態に係るレビュー文書分類装置によれば、学習用のブログ文書とは異なる種類のレビュー文書を、学習用文書集合に追加して、学習用文書集合の各文書の各評価文について抽出された素性の各々に基づいて、分類モデルを学習することにより、学習データの正例と負例のバランスを調整することができ、レビュー文書であるか否かを精度よく分類することが可能な分類モデルを学習することができる。
また、学習用のブログ文書とは異なる種類のレビュー文書を追加した学習用文書集合の各文書の各評価文について抽出された素性の各々に基づいて学習した分類モデルを用いて、入力されたブログ文書がレビュー文書であるか否かを判定することにより、正例と負例のバランスを調整した学習データで、レビュー文書であるか否かを精度よく分類することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、入力される他種文書群に、複数のドメインの他種レビュー文書が含まれていてもよい。この場合には、入力された他種文書群の他種レビュー文書の各々に、ドメイン情報を付与しておき、レビュー文書抽出部23が、学習用文書としてのブログ文書のドメインとして指定されたドメイン情報と同じドメイン情報が付与された他種レビュー文書を抽出するようにすればよい。
また、入力される他種文書群に、ブログ以外の種類の非レビュー文書が含まれていてもよい。また、学習用文書集合に、他種文書群内のレビュー文書だけでなく非レビュー文書も追加しても構わない。
また、上記の第3の実施の形態、第4の実施の形態において、評価文を含む学習用のブログ文書から、非評価文を取り除かないようにしてもよい。すなわち、学習用のブログ文書から非評価文を取り除いた評価文書を作成せずに、評価文を含まない学習用文書を、学習用文書の集合から削除するだけでもよい。上記の第3の実施の形態のように文書を文に分割しない場合には、評価文を含む学習用文書について文書の素性を抽出して、分類モデルを学習すればよい。また、分類対象のブログ文書について文書の素性を抽出し、分類モデルを用いて、当該ブログ文書がレビュー文書であるか否かを分類すればよい。また、上記の第4の実施の形態のように文書を文に分割する場合には、評価文を含む学習用文書について各文(評価文、非評価文)の素性を抽出して、分類モデルを学習すればよい。また、分類対象のブログ文書について各文の素性を抽出し、分類モデルを用いて、当該ブログ文書の各文がレビュー文であるか否かを分類し、レビュー文であると分類された文の割合に基づいて、当該ブログ文書がレビュー文書であるか否かを判定すればよい。
また、上記の第2の実施の形態、第4の実施の形態において、学習用文書の各文(各評価文)について、特定対象に関する客観的な情報又は主観的な情報が記載されたレビュー文であるか、あるいは非レビュー文であるかを手入力するようにしてもよい。この場合には、学習用文書の各文(各評価文)のうちレビュー文の各々について抽出された素性の各々を正例の学習データとし、学習用文書の各文(各評価文)のうち非レビュー文の各々について抽出された素性の各々を負例の学習データとして、学習部によって分類モデルを学習するようにすればよい。また、上記の第4の実施の形態において、評価文を含む学習用文書から非評価文を取り除かない場合には、評価文を含む学習用文書の各文について、レビュー文であるか、あるいは非レビュー文であるかを手入力するようにしてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20、220、320、420演算部
21 ブログ文書データベース
22 レビュー文書データベース
23 レビュー文書抽出部
24 学習用テキスト取得部
25、31 形態素解析部
26、32、226、232、326、332、426、432 素性抽出部
27、227、427 学習部
28 モデル記憶部
33、233、433 分類部
100、200、300、400 レビュー文書分類装置
224、231文分割部
234、434レビュー文書判定部
325、331評価文抽出部

Claims (8)

  1. 文書追加手段によって、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加するステップと、
    素性抽出手段によって、前記学習用文書集合の各文書について、前記文書の特徴を示す素性を抽出するステップと、
    学習手段によって、前記学習用文書集合の各文書について抽出された前記素性の各々に基づいて、入力された文書が前記レビュー文書であるか否かを分類するための分類モデルを学習するステップと、
    を含む分類モデル学習方法。
  2. 文書追加手段によって、特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加するステップと、
    文分割手段によって、前記学習用文書集合の各文書を、文単位で分割するステップと、
    素性抽出手段によって、前記文分割手段によって分割された前記学習用文書集合の各文書の各文について、前記文の特徴を示す素性を抽出するステップと、
    学習手段によって、前記学習用文書集合の各文書の各文について抽出された前記素性の各々に基づいて、入力された文が前記レビュー文書内の文であるか否かを分類するための分類モデルを学習するステップと、
    を含む分類モデル学習方法。
  3. 評価文抽出手段によって、前記学習用文書集合の各文書から、予め定められた評価表現を含む評価文を抽出するステップを更に含み、
    前記素性抽出手段によって抽出するステップは、前記評価文抽出手段によって前記評価文が抽出された前記文書の各々について、前記文書から抽出された前記評価文からなる評価文書の特徴を示す素性、又は前記文書の特徴を示す素性を抽出し、
    前記学習手段によって学習するステップは、前記レビュー文書である前記文書について抽出された前記素性の各々を正例の素性とし、前記レビュー文書でない前記文書について抽出された前記素性の各々を負例の素性として、前記分類モデルを学習する請求項1記載の分類モデル学習方法。
  4. 評価文抽出手段によって、前記学習用文書集合の各文書から、予め定められた評価表現を含む評価文を抽出するステップを更に含み、
    前記素性抽出手段によって抽出するステップは、前記評価文抽出手段によって前記評価文が抽出された前記文書の各々について、前記文書から抽出された前記評価文の各々の特徴を示す素性、又は前記文書の各文の素性を抽出し、
    前記学習手段によって学習するステップは、前記文書の各評価文又は各文について抽出された前記素性の各々に基づいて、前記分類モデルを学習する請求項2記載の分類モデル学習方法。
  5. 入力素性抽出手段によって、入力された文書の特徴を示す素性を抽出するステップと、
    分類手段によって、請求項1又は3記載の分類モデル学習方法によって学習された前記分類モデルと、前記入力素性抽出手段によって抽出された前記素性とに基づいて、前記入力された文書が前記レビュー文書であるか否かを分類するステップと、
    を含むレビュー文書分類方法。
  6. 入力文分割手段によって、入力された文書を、文単位で分割するステップと、
    入力素性抽出手段によって、前記入力された文書の各文の素性を抽出するステップと、
    分類手段によって、請求項2又は4記載の分類モデル学習方法によって学習された前記分類モデルと、前記入力素性抽出手段によって抽出された各文の前記素性とに基づいて、前記入力された文書の各文について、前記レビュー文書内の文であるか否かを分類するステップと、
    判定手段によって、前記分類手段によって分類された前記文書の各文の分類結果に基づいて、前記入力された文書が前記レビュー文書であるか否かを判定するステップと、
    を含むレビュー文書分類方法。
  7. 特定対象に関する情報が記載されたレビュー文書を含む特定種類の複数の学習用文書からなる学習用文書集合に対して、前記特定種類とは異なる種類の文書であって、かつ、前記レビュー文書である他種レビュー文書を追加する文書追加手段と、
    前記学習用文書集合の各文書について、前記文書の特徴を示す素性を抽出する素性抽出手段と、
    前記学習用文書集合の各文書について抽出された前記素性の各々に基づいて、入力された文書が前記レビュー文書であるか否かを分類するための分類モデルを学習する学習手段と、
    を含む分類モデル学習装置
  8. コンピュータに、請求項1〜請求項4の何れか1項記載の分類モデル学習方法、あるいは請求項5又は6記載のレビュー文書分類方法の各ステップを実行させるためのプログラム。
JP2011280547A 2011-12-21 2011-12-21 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法 Pending JP2013131075A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011280547A JP2013131075A (ja) 2011-12-21 2011-12-21 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011280547A JP2013131075A (ja) 2011-12-21 2011-12-21 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法

Publications (1)

Publication Number Publication Date
JP2013131075A true JP2013131075A (ja) 2013-07-04

Family

ID=48908566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011280547A Pending JP2013131075A (ja) 2011-12-21 2011-12-21 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法

Country Status (1)

Country Link
JP (1) JP2013131075A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5576544B1 (ja) * 2013-10-17 2014-08-20 株式会社プリファードインフラストラクチャー 情報処理装置
JP2018041297A (ja) * 2016-09-08 2018-03-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2018165942A (ja) * 2017-03-28 2018-10-25 日本電信電話株式会社 可視化装置、可視化方法、及びプログラム
JP2019016122A (ja) * 2017-07-06 2019-01-31 日本放送協会 モデル学習装置、情報判定装置およびそれらのプログラム
US10353975B2 (en) 2015-12-08 2019-07-16 Samsung Electronics Co., Ltd. Terminal, server and event suggesting methods thereof
JP2019215886A (ja) * 2017-03-28 2019-12-19 日本電信電話株式会社 可視化装置、可視化方法、及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5576544B1 (ja) * 2013-10-17 2014-08-20 株式会社プリファードインフラストラクチャー 情報処理装置
US10353975B2 (en) 2015-12-08 2019-07-16 Samsung Electronics Co., Ltd. Terminal, server and event suggesting methods thereof
JP2018041297A (ja) * 2016-09-08 2018-03-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2018165942A (ja) * 2017-03-28 2018-10-25 日本電信電話株式会社 可視化装置、可視化方法、及びプログラム
JP2019215886A (ja) * 2017-03-28 2019-12-19 日本電信電話株式会社 可視化装置、可視化方法、及びプログラム
JP2019016122A (ja) * 2017-07-06 2019-01-31 日本放送協会 モデル学習装置、情報判定装置およびそれらのプログラム

Similar Documents

Publication Publication Date Title
US9542477B2 (en) Method of automated discovery of topics relatedness
Ur-Rahman et al. Textual data mining for industrial knowledge management and text classification: A business oriented approach
Nurdeni et al. Sentiment analysis on Covid19 vaccines in Indonesia: from the perspective of Sinovac and Pfizer
Miura et al. TeamX: A sentiment analyzer with enhanced lexicon mapping and weighting scheme for unbalanced data
CN106777957B (zh) 不平衡数据集上生物医学多参事件抽取的新方法
JP2013131075A (ja) 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法
Syed Applying sentiment and emotion analysis on brand tweets for digital marketing
CN104850617A (zh) 短文本处理方法及装置
Chakraborty et al. Sentiment analysis of covid-19 tweets using evolutionary classification-based LSTM model
Gülle et al. Topic modeling on user stories using word mover's distance
Bhakuni et al. Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis
Jabreel et al. Sentirich: Sentiment analysis of tweets based on a rich set of features
CN103268346A (zh) 半监督分类方法及系统
Chong et al. Comparison of naive bayes and SVM classification in grid-search hyperparameter tuned and non-hyperparameter tuned healthcare stock market sentiment analysis
CN114138969A (zh) 文本处理方法及装置
Hong et al. Competitive self-training technique for sentiment analysis in mass social media
Hussain et al. A technique for perceiving abusive bangla comments
JP6522446B2 (ja) ラベル付与装置、方法およびプログラム
WO2018220688A1 (ja) 辞書生成装置、辞書生成方法、及びプログラム
Chaurasia et al. Sentiment Analysis of Twitter Data by Natural Language Processing and Machine Learning
CN108205542A (zh) 一种歌曲评论的分析方法和系统
CN112905796A (zh) 基于再注意力机制的文本情绪分类方法及系统
Dhanya et al. Comparative performance of machine learning algorithms in detecting offensive speech in malayalam-english code-mixed data
Silva et al. A method for detecting the profile of an author
Kuttiyapillai et al. Improved text analysis approach for predicting effects of nutrient on human health using machine learning techniques