JP2019016122A - モデル学習装置、情報判定装置およびそれらのプログラム - Google Patents

モデル学習装置、情報判定装置およびそれらのプログラム Download PDF

Info

Publication number
JP2019016122A
JP2019016122A JP2017132386A JP2017132386A JP2019016122A JP 2019016122 A JP2019016122 A JP 2019016122A JP 2017132386 A JP2017132386 A JP 2017132386A JP 2017132386 A JP2017132386 A JP 2017132386A JP 2019016122 A JP2019016122 A JP 2019016122A
Authority
JP
Japan
Prior art keywords
learning
posted
model
information determination
classes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017132386A
Other languages
English (en)
Inventor
太郎 宮▲崎▼
Taro Miyazaki
太郎 宮▲崎▼
後藤 淳
Atsushi Goto
淳 後藤
友香 武井
Yuka Takei
友香 武井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2017132386A priority Critical patent/JP2019016122A/ja
Publication of JP2019016122A publication Critical patent/JP2019016122A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ソーシャルメディアから取得した情報である投稿文が、どの種別の情報であるかを判定する情報判定装置を提供する。
【解決手段】情報判定装置1は、種別が既知のクラスに分類した正例の投稿文と、その他の種別を1つのクラスとした負例の投稿文とから、未知の投稿文がどのクラスに属するかを判定するためのニューラルネットワークを初期モデルとして学習する初期モデル学習手段11と、負例の投稿文の特徴ベクトルを算出する特徴ベクトル算出手段12と、特徴ベクトルに基づいて負例の投稿文を複数のクラスに分類するクラスタリング手段13と、初期モデルの出力層のノード数を変えて、正例の投稿文と複数のクラスに分類された負例の投稿文とを用いて学習し、情報判定モデルを生成する情報判定モデル学習手段14と、情報判定モデルを用いて未知の投稿文の種別を判定する判定手段15と、を備える
【選択図】図1

Description

本発明は、ソーシャルメディアから取得した情報が、どのような種別の情報であるかを判定する情報判定用のモデルを学習するモデル学習装置、当該モデルを用いた情報判定装置およびそれらのプログラムに関する。
近年、ソーシャル・ネットワーキング・サービス(SNS:Social Networking Service)の発達により、個人が、容易にかつリアルタイムで情報を発信することが可能になった。例えば、SNSには、火事、事故等の現場に偶然居合わせた人から、その現場の目撃情報等が投稿されることが多くなっている。これらの投稿は、現場の写真や映像を付加したものがあり、火事、事故等の発生した瞬間をとらえた画像、映像として、ニュース番組等に活用されることも多い。そこで、放送局等では、SNSを監視する等、人手により、これらの情報を抽出している。
人手により、このようなSNSから必要な情報を抽出する手法は、キーワード検索を用いることが多い。しかしながら、例えば、SNSの投稿では、「○○線が遅れている」といった路線名が書かれている場合、「△△駅での事故で電車が遅れている」といった駅名が書かれている場合等があり、SNSの表現の方法が多岐にわたっている。そのため、これらの表現をすべてカバーするキーワードを作成することは困難である。
そこで、これらの問題を解決するために、機械学習を用いた投稿の抽出手法が多く研究されている。例えば、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)により、ツイート〔登録商標〕がニュース制作に役立つ情報であるか否かを判定する手法が開示されている(特許文献1参照)。また、例えば、SNSへの投稿のn−gramと気象状況の関連度とを算出し、この関連度を機械学習することにより、気象事象に関連する有用な投稿を抽出する手法が開示されている(非特許文献1参照)。
宮崎太郎,鳥海心,武井友香,山田一郎,後藤淳,"ニュース制作に役立つtweetの自動抽出手法",言語処理学会,第23回年次大会発表論文集,pp.418-421,2017年3月 萩行正嗣,"選択式天気情報を用いたソーシャルメディアからの有用投稿抽出",言語処理学会,第22回年次大会発表論文集,pp.397-400,2016年3月
前記した従来の手法は、予めSNSから情報を収集し学習を行っている。
一般に、ツイート等のSNSの情報から所望の情報を抽出する場合、正例(例えば、ニュースに役立つ情報)は、負例(例えば、ニュースに役立たない情報)よりもはるかに数が少ない。例えば、「事故」等のニュースに役立つ情報の正例が200件、負例が100,000件等のように、学習データに大きな偏りが生じている。
正例と負例とのそれぞれのクラスにデータ量の大きな差がある場合、機械学習の精度が低下することが知られている。これは、確率モデルとして、正例に対して、負例の発生確率が大きくなるため、正例のクラスに属する情報であっても、誤って負例のクラスに属する情報であると誤判定してしまうからである。
なお、この問題は、正例をさらに細かく分類する場合、例えば、「ニュース」を、「火事」、「自動車事故」、「電車事故」等の種別に分類して学習する場合、種別ごとの正例のクラスに属する学習データと負例のクラスに属する学習データとに、さらにデータ量の大きな偏りが生じてしまう。
このように、従来の手法は、正例と負例とのそれぞれのクラスに属する学習データに偏りが生じ、機械学習を精度よく行うことができないという問題がある。
そこで、本発明は、学習データの偏りを軽減することで、ソーシャルメディア情報がどの種別の情報であるかを精度よく判定するためのモデル学習装置、情報判定装置およびそれらのプログラムを提供することを目的とする。
前記課題を解決するため、本発明に係るモデル学習装置は、ソーシャルメディアから取得した情報である投稿文が、当該投稿文の投稿内容を分類したどの種別に属する情報かを判定するための情報判定モデルを学習するモデル学習装置であって、初期モデル学習手段と、特徴ベクトル算出手段と、クラスタリング手段と、情報判定モデル学習手段と、を備える構成とした。
かかる構成において、モデル学習装置は、初期モデル学習手段によって、予め、種別が既知である1以上のクラスに分類した正例の投稿文と、正例の投稿文が属する種別以外の1つのクラスに分類した負例の投稿文とを学習データとして、第1段階目の学習として、ニューラルネットワークを初期モデルとして学習する。この初期モデルは、種別が未知である投稿文がどのクラスに属するかを判定するためのモデルである。この初期モデルの出力層は、判定対象となる種別が既知のクラスの数と、それ以外の種別を1つのクラスとしたクラス数をノード数としたものである。
そして、モデル学習装置は、特徴ベクトル算出手段によって、負例の投稿文の特徴ベクトルを算出する。この特徴ベクトルは、初期モデルの中間層の出力を用いてもよいし、投稿文を構成する単語ごとの分散表現ベクトルの加算平均を用いてもよい。
そして、モデル学習装置は、クラスタリング手段によって、特徴ベクトル算出手段で算出された特徴ベクトルに基づいて、負例の投稿文を複数のクラスに分類する。このように、モデル学習装置は、学習データである負例の投稿文を、複数のクラスに分類することで、正例のクラスの学習データのデータ量との偏りを軽減した負例のクラスの学習データを生成することができる。
そして、モデル学習装置は、情報判定モデル学習手段によって、初期モデルの出力層のノード数を、正例の投稿文のクラス数と、クラスタリング手段で分類された負例の投稿文のクラス数とを加算したクラス数に変える。さらに、モデル学習装置は、情報判定モデル学習手段によって、正例の投稿文と複数のクラスに分類された負例の投稿文とを学習データとして、出力層のノード数を変更したモデルに対して、第2段階目の学習を行うことで、情報判定モデルを生成する。
このように、出力層のノード数を正例のクラス数と負例のクラス数との和として学習することで、モデル学習装置は、種別が未知である投稿文が、予め定めた種別のどのクラスに属するか、あるいは、予め定めた種別以外のどのクラスに属するのかを判定可能な情報判定モデルを生成することができる。
なお、モデル学習装置は、コンピュータを、前記した各手段として機能させるためのモデル学習プログラムで動作させることができる。
また、前記課題を解決するため、本発明に係る情報判定装置は、ソーシャルメディアから取得した情報である投稿文が、当該投稿文の投稿内容を分類したどの種別に属する情報かを判定する情報判定装置であって、初期モデル学習手段と、特徴ベクトル算出手段と、クラスタリング手段と、情報判定モデル学習手段と、判定手段と、を備える構成とした。
かかる構成において、情報判定装置は、初期モデル学習手段によって、予め、種別が既知である1以上のクラスに分類した正例の投稿文と、正例の投稿文が属する種別以外の1つのクラスに分類した負例の投稿文とを学習データとして、第1段階目の学習として、ニューラルネットワークを初期モデルとして学習する。
そして、情報判定装置は、特徴ベクトル算出手段によって、負例の投稿文の特徴ベクトルを算出する。
そして、情報判定装置は、クラスタリング手段によって、特徴ベクトル算出手段で算出された特徴ベクトルに基づいて、負例の投稿文を複数のクラスに分類する。
そして、情報判定装置は、情報判定モデル学習手段によって、初期モデルの出力層のノード数を、正例の投稿文のクラス数と、クラスタリング手段で分類された負例の投稿文のクラス数とを加算したクラス数に変える。さらに、情報判定装置は、情報判定モデル学習手段によって、正例の投稿文と複数のクラスに分類された負例の投稿文とを学習データとして、出力層のノード数を変更したモデルに対して、第2段階目の学習を行うことで、情報判定モデルを生成する。
そして、情報判定装置は、判定手段によって、情報判定モデルを用いて、種別が未知である投稿文がどの種別に属する情報かを判定する。このとき、情報判定装置は、投稿文を、種別が予め定められたクラスに属すると判定すれば、そのクラスに対応する種別を判定結果とする。また、情報判定装置は、投稿文を、種別が予め定められていないクラスに属すると判定すれば、判定対象外の種別である旨を判定結果とする。
なお、情報判定装置は、コンピュータを、前記した各手段として機能させるための情報判定プログラムで動作させることができる。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、正例に対して多く存在する負例の学習データをクラスタリングすることで、正例のクラスの学習データと、負例のクラスの学習データとのデータの偏りを軽減することができ、機械学習の精度を高めることができる。
これによって、本発明は、SNSにおいて個人が発信する大量のソーシャル・ビッグデータであっても、投稿文の種別の判定精度を高めることができ、ニュース等の情報源として有効に活用することができる。
本発明の実施形態に係る情報判定装置の構成を示すブロック構成図である。 本発明の実施形態に係る情報判定装置が学習するニューラルネットワークの例であって、中間層に双方向LSTMを用いたネットワーク構成図である。 図1の初期モデル学習手段が学習する初期モデルの出力層の構造を説明するための説明図である。 図2の双方向LSTMを構成するLSTMの構造を示す構造図である。 図1のクラスタリング手段の動作概要を説明するための説明図である。 図1の情報判定モデル学習手段が学習する情報判定モデルの出力層の構造を説明するための説明図である。 本発明の実施形態に係る情報判定装置の動作を示すフローチャートである。 本発明の変形例に係るモデル学習装置の構成を示すブロック構成図である。 本発明の変形例に係る情報判定装置の構成を示すブロック構成図である。 本発明の実施形態に係る情報判定装置が学習するニューラルネットワークの他の例を示すネットワーク構成図である。
以下、本発明の実施形態について図面を参照して説明する。
[情報判定装置の構成]
最初に、図1を参照して、本発明の実施形態に係る情報判定装置1の構成について説明する。
情報判定装置1は、SNSで発信される情報(投稿単位のテキストデータであるツイート〔登録商標〕等、以下、投稿文という)が、予め定めたどの種別(カテゴリ)に属する情報であるかを判定するものである。
この情報判定装置1は、学習データ記憶装置2に予め記憶されている学習データに基づいて、投稿文がどの種別に属する情報であるかを判定するためのモデル(情報判定モデル)を学習し、学習したモデルに基づいて、種別が未知である投稿文の種別を判定する。
学習データ記憶装置2は、情報判定装置1が学習を行うための学習データを予め記憶するもので、ハードディスク装置等の一般的は記憶装置である。
この学習データ記憶装置2には、判定を行いたい種別に属する投稿文である種別が既知である正例の学習データと、判定を行いたい種別に属さない投稿文である負例の学習データとを、予め人手により登録しておく。
正例の学習データは、判定を行いたい種別に属する投稿文を種別ごと複数のクラスに分類したものである。この正例の学習データには、判定を行いたい種別、例えば、ニュースの種類である「火事」、「自動車事故」、「電車事故」等の種別が既知である投稿文を、種別ごとにクラス分けしたものを用いる。この各クラスには、種別の内容を示すラベル(「火事」等)を対応付けておく。なお、ここでは、正例の学習データが予め複数の種別にクラス分けされた例を示すが、1つの種別、例えば、「ニュースに役立つ情報」のみの1つのクラスであっても構わない。
負例の学習データは、判定を行いたい種別に属さない投稿文を単一のクラスにまとめたものである。この負例の学習データには、多くの学習パターンを収集するため、例えば、取得可能なすべての投稿文からランダムに抽出した投稿文で、判定を行いたい種別に属さない投稿文を用いる。
図1に示すように、情報判定装置1は、制御部10と記憶部20とで構成される。
制御部10は、情報判定装置1の動作を制御するものである。
制御部10は、初期モデル学習手段11と、特徴ベクトル算出手段12と、クラスタリング手段13と、情報判定モデル学習手段14と、判定手段15と、を備える。
初期モデル学習手段11は、種別ごと投稿文を複数クラスに分類した正例の学習データと、その他の種別の投稿文を単一クラスにまとめた負例の学習データとを用いて、投稿文がどのクラスに属するかを判定するモデル(初期モデル)を機械学習するものである。
この初期モデル学習手段11は、学習データ記憶装置2に記憶されている学習データである投稿文を入力し、その投稿文が、学習データ記憶装置2に記憶されているクラス(正例:複数クラス、負例:単一クラス)の中のどのクラスに属するかを判定するモデルをニューラルネットワークにより学習する。例えば、初期モデル学習手段11は、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)の一種である双方向LSTM(Bidirectional Long short-term memory)を中間層に用いた順伝播型ニューラルネットワーク(FFNN:Feed Forward Neural Network)として、初期モデルを学習する。
図2は、双方向LSTMを用いた初期モデルM1の構成図である。
図2に示すように、初期モデルM1は、入力層L1、中間層L2および出力層L3を有するニューラルネットワークである。
入力層L1は、投稿文を文字(始端記号<s>、終端記号<e>を含む)ごとに入力する。ここで、文字はベクトル表現とする。なお、文字のベクトル表現は、次元数を全文字種数とし、表現する文字の成分のみを“1”、他を“0”とする「one−hot表現」とする。
中間層L2は、順方向のLSTMと逆方向のLSTMとで構成される。順方向のLSTMは、投稿文の始端記号から順に文字(文字ベクトル)を入力層L1から入力し、終端記号までLSTMの演算を繰り返す。また、逆方向のLSTMは、投稿文の終端記号から順に文字(文字ベクトル)を入力層L1から入力し、始端記号までLSTMの演算を繰り返す。そして、双方向のLSTMの演算結果であるそれぞれのベクトルを連結したベクトルを中間層L2の出力ベクトル(中間層出力V)とする。
出力層L3は、中間層出力Vの各要素の値に重みを付加して加算し正規化することで、出力ノードにおける確率値を計算する。この確率値が最大となるノードに対応するクラスが判定結果となる。
初期モデルの出力層L3は、図3に示すように、次元数(ノード数)を、正例のクラスの数(n)と、負例のクラスの数(ここでは、“1”)を加算したクラス数(n+1)とする。
初期モデル学習手段11は、入力した投稿文が学習データとしてクラスが既知(教師データ)であるため、この出力層L3の出力に対して、誤差を小さくする方向に初期モデルM1のモデルパラメータ(LSTM内の重み行列、中間層出力Vから出力層L3へのノード間の重み行列等)を学習する。なお、誤差を小さくするには、一般的な誤差逆伝播法(Back Propagation)を用いればよい。
図2中、中間層L2を構成するLSTMは、一般的なものであるため、詳細な説明は省略するが、図4を参照して簡単に説明しておく。
LSTMは、RNNの系列データを扱うモデルであって、図4に示すように、入力ゲートG、忘却ゲートG、出力ゲートGの3つのゲートを持ち、メモリセル(CEC:Constant Error Carousel)への状態の取り込みおよび忘却と、メモリセルからの出力とを制御するものである。
LSTMは、以下の式(1)〜式(5)の演算を行う。
Figure 2019016122
ここで、wは投稿文のt番目の文字ベクトル、hはw入力時のLSTMの出力ベクトル、σはシグモイド関数(活性化関数)を示す。また、i,f,o,cはそれぞれ入力ゲートG、忘却ゲートG、出力ゲートG、メモリセル(CEC)の状態(出力ベクトル)を示す。また、◎はベクトルの要素ごとの積(アダマール積)を示す。
また、W,U(下付き文字省略)は重み行列、b(下付き文字省略)はバイアスである。このW,U,bは、学習対象となるパラメータである。
このように、ニューラルネットワークとして、文字単位のRNNを用いることで、内容が多岐にわたり、出現語彙数が膨大な投稿文であっても、精度よくクラス判定を行うことができる。
なお、図2に示した初期モデルM1の双方向LSTMは、非特許文献1に記載されているように、アテンションメカニズムを導入し、双方向のLSTMの演算結果(出力ベクトル)に対して、投稿文全体における文字の重みを付加してもよい。
図1に戻って、情報判定装置1の構成について説明を続ける。
初期モデル学習手段11は、学習した初期モデルを、初期モデル記憶手段21に書き込み記憶する。また、初期モデル学習手段11は、学習を完了した時点で、完了した旨を特徴ベクトル算出手段12に通知する。
特徴ベクトル算出手段12は、学習データ記憶装置2に記憶されている単一クラスにまとめられた負例の学習データ(投稿文)の特徴ベクトルを投稿文ごとに算出するものである。
この特徴ベクトル算出手段12は、初期モデル学習手段11に記憶されている初期モデルを用いて、投稿文の特徴ベクトルを算出する。具体的には、特徴ベクトル算出手段12は、図2で説明した初期モデルM1において、負例の学習データである投稿文を入力し、中間層L2の出力(中間層出力V)を特徴ベクトルとして算出する。
このように、生成対象となるモデルの中間層の出力を特徴ベクトルとすることで、その特徴ベクトルは、投稿文の種別を判定するために適した特徴量となる。
特徴ベクトル算出手段12は、算出した特徴ベクトルを、対応する負例の学習データとともに、クラスタリング手段13に出力する。
クラスタリング手段13は、特徴ベクトル算出手段12で算出された特徴ベクトルに基づいて、負例の学習データ(投稿文)を複数のクラスに分類(クラスタリング)するものである。
クラスタリング手段13におけるクラスタリング手法は、一般的な手法を用いればよく、例えば、k-means法、Repeated bisection法を用いることができる。
なお、クラスタリングを行う際のクラスタ数は、予め外部から設定されるものとする。このクラスタ数は、厳密な値である必要はなく、正例のクラスと負例のクラスとの学習データの数に大きな偏りが発生しない範囲で、予め操作者が設定すればよい。
例えば、ニュースの種別を行うモデルであれば、ニュースの種別(「火災」,「自動車事故」,「爆発」等)である正例が23種類に対して、負例のクラスを10程度とする。
このクラスタリング手段13は、クラスタリングしたそれぞれの負例のクラスに固有の識別子を割当て、当該識別子と、当該クラスに属する負例の学習データとを対応付けて、学習データ記憶手段22に書き込み記憶する。
これによって、クラスタリング手段13は、図5に示すように、単一の負例クラスNに属している複数の学習データD,D,…,Dを、複数の負例クラスN,N,…,N(識別子)に対応付けて分類する。
なお、クラスタリング手段13は、学習データ記憶装置2に記憶されているすでに複数のクラスに分類されている正例の学習データについては、そのまま、学習データ記憶手段22に書き込み記憶する。
これによって、学習データ記憶手段22には、種別ごとに複数のクラスに分類した正例の学習データと、種別は未知であるが複数のクラスに分類した負例の学習データとが記憶されることになる。
クラスタリング手段13は、クラスタリングを完了した時点で、完了した旨を情報判定モデル学習手段14に通知する。
情報判定モデル学習手段14は、種別ごとに投稿文を複数クラスに分類した正例の学習データと、その他の種別の投稿文を複数クラスに分類した負例の学習データとを用いて、投稿文がどの種別(クラス)に属するかを判定するモデル(情報判定モデル)を機械学習するものである。
この情報判定モデル学習手段14は、学習データ記憶手段22に記憶されている学習データである投稿文を入力し、その投稿文が、学習データ記憶手段22に記憶されているクラス(正例:複数クラス、負例:複数クラス)の中のどのクラスに属するかを判定するモデルをニューラルネットワークにより学習する。
ここでは、情報判定モデル学習手段14は、初期モデル学習手段11で学習した初期モデルのモデルパラメータを初期値としてさらに学習を行うことで、情報判定モデルを生成する。このように、第1段階の学習を行った初期モデルに、さらに第2段階の学習を行うことで、情報判定モデルの精度を高めることができる。
もちろん、情報判定モデル学習手段14は、初期モデル学習手段11で学習した初期モデルのモデルパラメータを用いずに、最初から、学習データ記憶手段22に記憶されている学習データで、情報判定モデルを学習することとしても構わない。
具体的には、情報判定モデル学習手段14は、図2,図3に示した初期モデルM1に対して出力層のノード数を変えて情報判定モデルM2を学習する。
初期モデルM1と情報判定モデルM2との違いは、出力層L3のノード数である。
初期モデルM1の出力層L3のノード数は、図3に示したように、正例のクラスP,P,…,Pの数(n)と、負例のクラスNの数(ここでは、“1”)を加算したクラス数(n+1)である。一方、情報判定モデルM2の出力層L3のノード数は、図6に示すように、正例のクラスP,P,…,Pの数(n)と、負例のクラスN,N,…,Nの数(m)を加算したクラス数(n+m)である。
これによって、情報判定モデルM2は、負例のクラスを判定することが可能になる。
また、情報判定モデル学習手段14は、正例のクラスについては、既知の種別の内容を示すラベルを対応付けておき、負例のクラスについては、ラベル無し、あるいは、判定対象の種別ではないことを示すラベルを対応付けておく。
情報判定モデル学習手段14は、学習した情報判定モデルを、情報判定モデル記憶手段23に書き込み記憶する。
判定手段15は、情報判定モデル学習手段14に記憶されている情報判定モデルを用いて、入力した種別が未知である投稿文(未知データ)が、どの種別に属する投稿文であるのかを判定するものである。
具体的には、判定手段15は、未知データをベクトル表現に変換し、図2に示したニューラルネットワークで構成した情報判定モデルM2の入力層L1に、順方向および逆方向から、順次、文字ベクトルを入力する。
そして、判定手段15は、中間層L2において、情報判定モデルM2のパラメータ(重み行例等)を用いて、順方向のLSTMと逆方向のLSTMとで、それぞれLSTMの演算を繰り返す。その後、順方向のLSTMと逆方向のLSTMとの出力を連結したベクトル(中間層出力V)を生成する。
そして、判定手段15は、図6に示すように、中間層出力Vの各要素の値に重みを付加して出力層L3に伝搬させて、各ノードの確率値を計算する。
ここで、判定手段15は、確率値が最大のノードに対応するクラスが正例のクラスであれば、そのクラスに対応する種別に対応するラベルを判定結果として出力する。また、判定手段15は、確率値が最大のノードに対応するクラスが負例のクラスであれば、予め定めた種別ではない旨を判定結果として出力する。
記憶部20は、情報判定装置1の動作で使用または生成する各種データを記憶するものである。記憶部20は、初期モデル記憶手段21と、学習データ記憶手段22と、情報判定モデル記憶手段23と、を備える。
これら各記憶手段は、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。なお、ここでは、記憶部20において、各記憶手段を個別に設けているが、1つの記憶装置の記憶領域を複数に区分して各記憶手段としてもよい。また、記憶部20を外部記憶装置として、情報判定装置1の構成から省いてもよい。
初期モデル記憶手段21は、初期モデル学習手段11で学習した初期モデル(図2,図3参照)を記憶するものである。この初期モデル記憶手段21に記憶される初期モデルは、特徴ベクトル算出手段12および情報判定モデル学習手段14が参照する。
学習データ記憶手段22は、クラスタリング手段13で複数のクラスに分類された負例の学習データと、予め種別ごとに複数のクラスに分類された正例の学習データとを記憶するものである。この学習データ記憶手段22に記憶される学習データは、情報判定モデル学習手段14が参照する。
情報判定モデル記憶手段23は、情報判定モデル学習手段14で学習した情報判定モデル(図2,図6参照)を記憶するものである。この情報判定モデル記憶手段23に記憶される情報判定モデルは、判定手段15が参照する。
以上説明したように情報判定装置1を構成することで、情報判定装置1は、負例のクラスを1つではなく複数にクラス分けすることで、正例と負例とのそれぞれのクラスにおける学習データのデータ量の偏りを軽減することができる。
これによって、情報判定装置1は、従来の手法に比べて、投稿文の種別判定の精度を高めることができる。
なお、情報判定装置1は、一般的なコンピュータを、前記した制御部10の各手段として機能させるプログラム(情報判定プログラム)で動作させることができる。
[情報判定装置の動作]
次に、図7を参照(構成については、適宜図1参照)して、本発明の実施形態に係る情報判定装置1の動作について説明する。なお、学習データ記憶装置2には、判定を行いたい種別に属する投稿文である正例の学習データと、判定を行いたい種別に属さない投稿文である負例の学習データとが、予め記憶されているものとする。
ステップS1において、情報判定装置1の初期モデル学習手段11は、学習データ記憶装置2に記憶されている学習データである投稿文を入力し、その投稿文が、学習データ記憶装置2に記憶されているクラス(正例:複数クラス、負例:単一クラス)の中のどのクラスに属するかを判定するモデル(初期モデル)をニューラルネットワークにより学習する。
ステップS2において、情報判定装置1の初期モデル学習手段11は、すべての学習データを用いた学習が終了したか否かを判定する。
このステップS2で、学習が終了していないと判定した場合(No)、情報判定装置1は、ステップS1に戻って学習動作を継続する。
一方、ステップS2で、学習が終了したと判定した場合(Yes)、情報判定装置1は、ステップS3において、学習した初期モデルを、初期モデル記憶手段21に書き込み記憶する。
このステップS3までの動作によって、情報判定装置1は、機械学習により、既知の種別に対応した複数のクラスと、その他の種別に対応した単一のクラスとを判定することが可能な初期モデルを生成する。
次に、ステップS4において、情報判定装置1の特徴ベクトル算出手段12は、初期モデルを用いて、学習データ記憶装置2に記憶されている単一クラスにまとめられた負例の学習データについて、それぞれの投稿文から、特徴ベクトルを算出する。このとき、特徴ベクトル算出手段12は、初期モデルにおいて、負例の学習データを入力層に入力したときの中間層の出力を特徴ベクトルとして算出する。
ステップS5において、情報判定装置1のクラスタリング手段13は、ステップS4で算出した特徴ベクトルに基づいて、k-means法等により、負例の学習データを複数のクラスに分類(クラスタリング)する。
ステップS6において、情報判定装置1のクラスタリング手段13は、ステップS5でクラスタリングした負例のクラスの学習データと、学習データ記憶装置2に記憶されているすでに複数のクラスに分類されている正例の学習データとを、学習データ記憶手段22に書き込み記憶する。
これによって、複数クラスの正例の投稿文と、複数クラスの負例の投稿文とが、新たな学習データとして、学習データ記憶手段22に記憶される。
ステップS7において、情報判定装置1の情報判定モデル学習手段14は、学習データ記憶手段22に記憶されている学習データである投稿文を入力し、その投稿文が、学習データ記憶手段22に記憶されているクラス(正例:複数クラス、負例:複数クラス)の中のどのクラスに属するかを判定するモデル(情報判定モデル)をニューラルネットワークにより学習する。
このとき、情報判定モデル学習手段14は、出力層のノード数のみを変えて、初期モデル学習手段11で学習した初期モデルに対してさらに学習を行うことで、情報判定モデルを生成する。
ステップS8において、情報判定装置1の初期モデル学習手段11は、すべての学習データを用いた学習が終了したか否かを判定する。
このステップS8で、学習が終了していないと判定した場合(No)、情報判定装置1は、ステップS7に戻って学習動作を継続する。
一方、ステップS8で、学習が終了したと判定した場合(Yes)、情報判定装置1は、ステップS9において、学習した情報判定モデルを、情報判定モデル記憶手段23に書き込み記憶する。
このステップS9までの動作によって、情報判定装置1は、機械学習により、既知の種別に対応した複数のクラスと、その他の種別に対応した複数のクラスとを判定することが可能な情報判定モデルを生成する。
次に、ステップS10において、情報判定装置1の判定手段15は、情報判定モデルを用いて、外部から入力される種別が未知である投稿文(未知データ)が、どのクラス(種別)に属する情報であるかを判定する。このとき、判定手段15は、未知データに対応するクラスが正例クラスであれば、そのクラス(種別)に対応するラベルを判定結果として出力する。また、判定手段15は、未知データに対応するクラスが負例クラスであれば、予め定めた種別ではない旨を判定結果として出力する。
このステップS10の動作は、判定を行いたい未知データが複数存在する場合、その数だけ、未知データを入力し、判定を行う。なお、このステップS10の動作は、ステップS9までの動作が完了した後、情報判定装置1は、任意のタイミングで、未知データを入力し判定を行うことができる。
以上の動作によって、情報判定装置1は、負例の学習データを複数のクラスに分類することで、クラスごとの学習データの偏りを軽減することができ、投稿文の種別判定の精度を高めることができる。
以上、本発明の実施形態に係る情報判定装置1の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
[変形例]
(変形例1)
ここでは、情報判定装置1は、情報判定モデルを学習する動作と、情報判定モデルを用いて、種別が未知である投稿文が、どの種別に属する情報であるかを判定する動作との2つの動作を1つの装置で行うものとした。
しかし、これらの動作は、別々の装置で行うこととしても構わない。
具体的には、情報判定モデルの学習動作を実現する装置は、図8に示すモデル学習装置3として構成することができる。
モデル学習装置3は、図8に示すように、図1で説明した情報判定装置1から、判定手段15を省いて構成すればよい。この構成は、図1で説明した情報判定装置1と同じ、情報判定モデルを学習する動作のみを行う。なお、モデル学習装置3の動作は、図7で説明したステップS1からS9までの動作と同じである。
このモデル学習装置3は、コンピュータを前記した各手段として機能させるためのプログラム(モデル学習プログラム)で動作させることができる。
また、情報判定モデルを用いて、種別が未知である投稿文が、どの種別に属する情報であるかを判定する動作を実現する装置は、図9に示す情報判定装置1Bとして構成することができる。
情報判定装置1Bは、図9に示すように、図1で説明した情報判定装置1の判定手段15と、情報判定モデル記憶手段23とで構成すればよい。なお、情報判定装置1Bの動作は、図7で説明したステップS10の動作と同じである。
この情報判定装置1Bは、コンピュータを前記した各手段として機能させるためのプログラム(情報判定プログラム)で動作させることができる。
このように、学習動作と判定動作とを異なる装置で動作させることで、1つのモデル学習装置3で学習した情報判定モデルを、複数の情報判定装置1Bで利用することが可能になる。
(変形例2)
ここでは、初期モデル学習手段11および情報判定モデル学習手段14(学習手段11,14)が学習するモデル(初期モデルおよび情報判定モデル)として、双方向LSTMを中間層とする順伝播型ニューラルネットワーク(FFNN)を用いた。しかし、これらのモデルには、一般的なFFNNを用いてもよい。
図10に一般的なFFNNで構成した初期モデルMD1および情報判定モデルMD2の例を示す。
図10に示すように各モデルMD1,MD2は、入力層L1と、複数の階層で構成された中間層L2と、出力層L3とで構成される。入力層L1には、投稿文ごとに、予め定めた次元数の分散表現ベクトルを入力し、重みを付加して各層を伝搬させて、出力層L3から出力する。
なお、中間層L2の出力ベクトル(中間層出力V)と、出力層L3との関係は、図3および図6と同じである。初期モデルMD1の出力層L3のノード数は、図3と同様、正例のクラスの数(n)と、負例のクラスの数(“1”)を加算したクラス数(n+1)である。また、情報判定モデルMD2の出力層L3のノード数は、図6と同様、正例のクラスの数(n)と、負例のクラスの数(m)を加算したクラス数(n+m)である。
この各モデルMD1,MD2に入力される投稿文の分散表現ベクトルは、例えば、Word2Vec、GloVe等の一般的な分散表現ベクトル生成手法により生成した、単語ごとの予め定めた次元数のベクトルを、投稿文に含まれる単語数分加算し、平均化したものである。
例えば、学習手段11,14は、投稿文「消防車おるけど火事?」を、形態素解析により、「消防車/おる/けど/火事/?」のように単語に分割する。
そして、学習手段11,14は、各単語を分散表現ベクトルに変換して加算し、単語数で除算することで、当該投稿文に対応する分散表現ベクトルを生成する。
これによって、異なる単語数の投稿文であっても、同一次元の分散表現ベクトルで、初期モデルMD1および情報判定モデルMD2の学習を行うことができる。
(変形例3)
ここでは、特徴ベクトル算出手段12は、初期モデルの中間層の出力ベクトルを負例の学習データ(投稿文)の特徴ベクトルとして算出することとした。
しかし、この特徴ベクトルは、投稿文の各単語の分散表現ベクトルを加算平均したものとしてもよい。この投稿文の分散表現ベクトルは、変形例2で説明したものと同様、Word2Vec、GloVe等の一般的な分散表現ベクトル生成手法により生成した、単語ごとの予め定めた次元数のベクトルを、投稿文に含まれる単語数分加算し、平均化したものである。
なお、特徴ベクトル算出手段12は、初期モデルの中間層の出力ベクトルを特徴ベクトルとして算出することが好ましい。初期モデルの中間層の出力ベクトルは、情報判定モデルと同じ学習データを用いて学習した結果を反映したものであり、精度のよい特徴ベクトルを算出することができるからである。
1,1B 情報判定装置
11 初期モデル学習手段
12 特徴ベクトル算出手段
13 クラスタリング手段
14 情報判定モデル学習手段
15 判定手段
21 初期モデル記憶手段
22 学習データ記憶手段
23 情報判定モデル記憶手段
2 学習データ記憶装置
3 モデル学習装置

Claims (8)

  1. ソーシャルメディアから取得した情報である投稿文が、当該投稿文の投稿内容を分類したどの種別に属する前記情報かを判定するための情報判定モデルを学習するモデル学習装置であって、
    予め、前記種別が既知である1以上のクラスに分類した正例の投稿文と、前記正例の投稿文が属する種別以外の1つのクラスに分類した負例の投稿文とを学習データとして、前記種別が未知である投稿文が、どのクラスに属するかを判定するためのニューラルネットワークを初期モデルとして学習する初期モデル学習手段と、
    前記負例の投稿文の特徴ベクトルを算出する特徴ベクトル算出手段と、
    前記特徴ベクトル算出手段で算出された特徴ベクトルに基づいて、前記負例の投稿文を複数のクラスに分類するクラスタリング手段と、
    前記初期モデルの出力層のノード数を、前記正例の投稿文のクラス数と、前記クラスタリング手段で分類された負例の投稿文のクラス数とを加算したクラス数に変えて、前記正例の投稿文と複数のクラスに分類された負例の投稿文とを学習データとして学習することで、前記情報判定モデルを生成する情報判定モデル学習手段と、
    を備えることを特徴とするモデル学習装置。
  2. 前記特徴ベクトル算出手段は、前記負例の投稿文に対する前記初期モデルの中間層から出力された出力ベクトルを、前記特徴ベクトルとして算出することを特徴とする請求項1に記載のモデル学習装置。
  3. 前記ニューラルネットワークの中間層を双方向LSTMで構成することを特徴とする請求項1または請求項2に記載のモデル学習装置。
  4. ソーシャルメディアから取得した情報である投稿文が、当該投稿文の投稿内容を分類したどの種別に属する前記情報かを判定する情報判定装置であって、
    予め、前記種別が既知である1以上のクラスに分類した正例の投稿文と、前記正例の投稿文が属する種別以外の1つのクラスに分類した負例の投稿文とを学習データとして、前記種別が未知である投稿文が、どのクラスに属するかを判定するためのニューラルネットワークを初期モデルとして学習する初期モデル学習手段と、
    前記負例の投稿文の特徴ベクトルを算出する特徴ベクトル算出手段と、
    前記特徴ベクトル算出手段で算出された特徴ベクトルに基づいて、前記負例の投稿文を複数のクラスに分類するクラスタリング手段と、
    前記初期モデルの出力層のノード数を、前記正例の投稿文のクラス数と、前記クラスタリング手段で分類された負例の投稿文のクラス数とを加算したクラス数に変えて、前記正例の投稿文と複数のクラスに分類された負例の投稿文とを学習データとして学習することで、情報判定モデルを生成する情報判定モデル学習手段と、
    前記情報判定モデルを用いて、前記種別が未知である投稿文が、どの種別に属する情報かを判定する判定手段と、
    を備えることを特徴とする情報判定装置。
  5. 前記特徴ベクトル算出手段は、前記負例の投稿文に対する前記初期モデルの中間層からの出力ベクトルを、前記特徴ベクトルとして算出することを特徴とする請求項4に記載の情報判定装置。
  6. 前記ニューラルネットワークの中間層を双方向LSTMで構成することを特徴とする請求項4または請求項5に記載の情報判定装置。
  7. コンピュータを、請求項1から請求項3のいずれか一項に記載のモデル学習装置として機能させるためのモデル学習プログラム。
  8. コンピュータを、請求項4から請求項6のいずれか一項に記載の情報判定装置として機能させるための情報判定プログラム。
JP2017132386A 2017-07-06 2017-07-06 モデル学習装置、情報判定装置およびそれらのプログラム Pending JP2019016122A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017132386A JP2019016122A (ja) 2017-07-06 2017-07-06 モデル学習装置、情報判定装置およびそれらのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017132386A JP2019016122A (ja) 2017-07-06 2017-07-06 モデル学習装置、情報判定装置およびそれらのプログラム

Publications (1)

Publication Number Publication Date
JP2019016122A true JP2019016122A (ja) 2019-01-31

Family

ID=65358520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017132386A Pending JP2019016122A (ja) 2017-07-06 2017-07-06 モデル学習装置、情報判定装置およびそれらのプログラム

Country Status (1)

Country Link
JP (1) JP2019016122A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860580A (zh) * 2020-06-09 2020-10-30 北京百度网讯科技有限公司 识别模型获取及类别识别方法、装置及存储介质
WO2023195238A1 (ja) * 2022-04-06 2023-10-12 株式会社日立製作所 情報処理装置、情報処理システム及び情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013131075A (ja) * 2011-12-21 2013-07-04 Nippon Telegr & Teleph Corp <Ntt> 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法
JP2017107391A (ja) * 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013131075A (ja) * 2011-12-21 2013-07-04 Nippon Telegr & Teleph Corp <Ntt> 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法
JP2017107391A (ja) * 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宮▲崎▼ 太郎: "ニュース制作に役立つtweetの自動抽出手法", 言語処理学会第23回年次大会 発表論文集, JPN6020042723, 6 March 2017 (2017-03-06), JP, pages 418 - 421, ISSN: 0004433297 *
小池 竜之祐 他2名: "音による危険察知のための評価指標の検討", 電子情報通信学会技術研究報告, vol. 113, no. 500, JPN6021002444, 17 March 2014 (2014-03-17), JP, pages 183 - 188, ISSN: 0004433298 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860580A (zh) * 2020-06-09 2020-10-30 北京百度网讯科技有限公司 识别模型获取及类别识别方法、装置及存储介质
CN111860580B (zh) * 2020-06-09 2024-02-20 北京百度网讯科技有限公司 识别模型获取及类别识别方法、装置及存储介质
WO2023195238A1 (ja) * 2022-04-06 2023-10-12 株式会社日立製作所 情報処理装置、情報処理システム及び情報処理方法

Similar Documents

Publication Publication Date Title
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
Jose et al. Prediction of election result by enhanced sentiment analysis on twitter data using classifier ensemble Approach
Bergsma et al. Language identification for creating language-specific twitter collections
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
Wahid et al. Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model
KR20230013793A (ko) 어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법
Karanasou et al. Scalable and real-time sentiment analysis of twitter data
US11615129B2 (en) Electronic message text classification framework selection
JP7153477B2 (ja) 情報判定モデル学習装置およびそのプログラム
CN115309910B (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
Samonte et al. Sentence-level sarcasm detection in English and Filipino tweets
CN112800225A (zh) 一种微博评论情绪分类方法和系统
Ramkissoon et al. Legitimacy: an ensemble learning model for credibility based fake news detection
JP2019144706A (ja) 関係性推定モデル学習装置、方法、及びプログラム
Mahmud et al. Deep learning based sentiment analysis from Bangla text using glove word embedding along with convolutional neural network
JP2019016122A (ja) モデル学習装置、情報判定装置およびそれらのプログラム
Lhasiw et al. A bidirectional LSTM model for classifying Chatbot messages
Moin et al. Framework for rumors detection in social media
JP2018142131A (ja) 情報判定モデル学習装置、情報判定装置およびそれらのプログラム
JP6839001B2 (ja) モデル学習装置、情報判定装置およびそれらのプログラム
Marbouti et al. Social Media Analyst Responding Tool: A Visual Analytics Prototype to Identify Relevant Tweets in Emergency Events.
Nisha et al. Deep KNN Based Text Classification for Cyberbullying Tweet Detection
Giri et al. Automated and Interpretable Fake News Detection With Explainable Artificial Intelligence
Sood et al. Voting Classification Approach for Sentiment Analysis of Twitter Data
Siddiqui et al. An ensemble approach for the identification and classification of crime tweets in the English language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210115

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210202