JP6806589B2 - 情報判定モデル学習装置、情報判定装置およびそれらのプログラム - Google Patents

情報判定モデル学習装置、情報判定装置およびそれらのプログラム Download PDF

Info

Publication number
JP6806589B2
JP6806589B2 JP2017035283A JP2017035283A JP6806589B2 JP 6806589 B2 JP6806589 B2 JP 6806589B2 JP 2017035283 A JP2017035283 A JP 2017035283A JP 2017035283 A JP2017035283 A JP 2017035283A JP 6806589 B2 JP6806589 B2 JP 6806589B2
Authority
JP
Japan
Prior art keywords
information
vector
information determination
phrase
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017035283A
Other languages
English (en)
Other versions
JP2018142131A (ja
Inventor
友香 武井
友香 武井
後藤 淳
淳 後藤
太郎 宮▲崎▼
太郎 宮▲崎▼
山田 一郎
一郎 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2017035283A priority Critical patent/JP6806589B2/ja
Publication of JP2018142131A publication Critical patent/JP2018142131A/ja
Application granted granted Critical
Publication of JP6806589B2 publication Critical patent/JP6806589B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ソーシャルメディア情報が現実に発生している事象を示す情報であるか否かを判定する情報判定技術に関する。
近年、ソーシャル・ネットワーキング・サービス(SNS:Social Networking Service)の発達により、個人が、容易にかつリアルタイムで情報を発信することが可能になった。このような個人が発信するソーシャル・ビッグデータは、有力な情報源となり、様々な社会問題の解決に活用されている。
例えば、放送局では、人がSNSを常時監視し、事件、事故、災害等に関する情報を取得している。これによって、放送局は、事件等の情報を、ほぼリアルタイムで放送することができる。
しかし、膨大なソーシャル・ビッグデータの中から、有益な情報を手動で取得するには、多大な労力を必要としている。
そこで、有益な情報を効率的に取得するため、特定のテーマに依存して危険表現となりうる単語やフレーズをニューラルネットワークにより学習し、ソーシャル・ビッグデータから、特定のテーマに依存して危険表現となりうる単語やフレーズを抽出する手法が開示されている(特許文献1参照)。
特開2015−72614号公報
従来の手法は、危険表現に該当する単語やフレーズを学習するのみであるため、現実には発生していない事件等の情報も抽出してしまう。
例えば、「海外の事例を対岸の火事と楽観視できない。」、「火事になったらまずいから、火災保険に入っておこう。」、「大河ドラマの大火事シーンがリアルに再現されていた。」等、「火事」という事件、事故等に関連する単語が含まれている場合でも、現実には「火事」は発生していない。しかし、従来の手法は、現実に事件等が発生しているか否かに関わらず、危険表現に関連する情報を抽出してしまう。
このように、従来の手法は、現実に発生していない情報を抽出してしまうため、抽出した情報をニュース等の情報源として活用するには、現実に発生しているか否かを判別する手間がかかってしまうという問題がある。
そこで、本発明は、ソーシャルメディア情報が現実に発生している事象に関連する情報であるか否かを高精度に判定するための情報判定モデル学習装置、情報判定装置およびそれらのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る情報判定モデル学習装置は、現実の発生事象を示すか否かが既知の投稿単位のテキストデータである複数のソーシャルメディア情報を教師データとして、判定対象のソーシャルメディア情報が現実の発生事象を示す情報か否かを判定するための情報判定モデルを学習する情報判定モデル学習装置であって、ベクトル化手段と、語句判定手段と、ベクトル拡張手段と、学習手段と、を備える構成とした。
かかる構成において、情報判定モデル学習装置は、ベクトル化手段によって、教師データを入力して、予めword2vec等の手法により学習して記憶手段に記憶されている単語ごとの分散表現ベクトルから、投稿文を構成する単語の分散表現ベクトルを平均化して、投稿単位の分散表現ベクトルを生成する。単語ごとの分散表現ベクトルは、単語の分布から、近似する意味内容を示す単語ほど、近い数値ベクトルを与えたものである。これによって、ベクトル化手段は、投稿文そのものの意味内容を加味したベクトルを生成する。
そして、情報判定モデル学習装置は、語句判定手段によって、ベクトル化手段で生成された投稿単位の分散表現ベクトルに対応するソーシャルメディア情報が、現実の発生事象を表していないことを示す予め定めた複数の語句を単語として含むか否かを判定する。この現実の発生事象を表していないことを示す語句には、発生事象に関連する慣用句、仮定形表現、あるいは、番組の出演者、ゲームのキャラクター等の固有名詞がある。
そして、情報判定モデル学習装置は、ベクトル拡張手段によって、語句判定手段で含まれていると判定された語句の有無をベクトル化して投稿単位の分散表現ベクトルに付加し、拡張分散表現ベクトルを生成する。この拡張分散表現ベクトルには、投稿文そのものの意味内容の特徴以外に、現実には事象が発生していないことを示す特徴が加味されることになる。
そして、情報判定モデル学習装置は、学習手段によって、ベクトル拡張手段で生成された拡張分散表現ベクトルを、機械学習することで情報判定モデルを生成する。この学習手段は、教師データが現実の発生事象を示すときの拡張分散表現ベクトルと、教師データが現実の発生事象を示さないときの拡張分散表現ベクトルとにより2つの状態を学習する。
これによって、情報判定モデル学習装置は、任意のソーシャルメディア情報が、現実の発生事象を示した情報であるか否かを判定するための情報判定モデルを学習する。
なお、情報判定モデル学習装置は、コンピュータを、前記した各手段として機能させるための情報判定モデル学習プログラムで動作させることができる。
また、前記課題を解決するため、本発明に係る情報判定装置は、情報判定モデル学習装置で学習した情報判定モデルを用いて、判定対象のソーシャルメディア情報である未知データが現実の発生事象を示す情報か否かを判定する情報判定装置であって、ベクトル化手段と、語句判定手段と、ベクトル拡張手段と、判定手段と、を備える構成とした。
かかる構成において、情報判定装置は、ベクトル化手段によって、未知データを入力して、予め記憶手段に記憶されている単語ごとの分散表現ベクトルから、投稿文を構成する単語の分散表現ベクトルを平均化して、投稿単位の分散表現ベクトルを生成する。
そして、情報判定装置は、語句判定手段によって、ベクトル化手段で生成された投稿単位の分散表現ベクトルに対応するソーシャルメディア情報が、現実の発生事象を表していないことを示す予め定めた複数の語句を単語として含むか否かを判定する。
そして、情報判定装置は、ベクトル拡張手段によって、語句判定手段で含まれていると判定された語句の有無をベクトル化して投稿単位の分散表現ベクトルに付加し、拡張分散表現ベクトルを生成する。
そして、情報判定装置は、判定手段によって、ベクトル拡張手段で生成された拡張分散表現ベクトルにより、情報判定モデルを用いて、未知データが現実の発生事象を示す情報か否かを判定する。
また、前記課題を解決するため、本発明に係る情報判定装置は、現実の発生事象を示すか否かが既知の投稿単位のテキストデータである複数のソーシャルメディア情報を教師データとして情報判定モデルを学習し、判定対象のソーシャルメディア情報である未知データが現実の発生事象を示す情報か否かを判定する情報判定装置であって、ベクトル化手段と、語句判定手段と、ベクトル拡張手段と、学習手段と、判定手段と、を備える構成とした。
かかる構成において、情報判定装置は、ベクトル化手段によって、情報判定モデルを学習する学習モードにおいては教師データを入力し、情報判定モデルを用いた判定を行う評価モードにおいては未知データを入力して、予め記憶手段に記憶されている単語ごとの分散表現ベクトルから、投稿単位の分散表現ベクトルを生成する。
そして、情報判定装置は、語句判定手段によって、ベクトル化手段で生成された投稿単位の分散表現ベクトルに対応するソーシャルメディア情報が、現実の発生事象を表していないことを示す予め定めた複数の語句を単語として含むか否かを判定する。
さらに、情報判定装置は、ベクトル拡張手段によって、語句判定手段で含まれていると判定された語句の有無をベクトル化して投稿単位の分散表現ベクトルに付加し、拡張分散表現ベクトルを生成する。
そして、情報判定装置は、学習手段によって、学習モードにおいて、教師データに対応するソーシャルメディア情報から生成された拡張分散表現ベクトルを機械学習することで情報判定モデルを生成する。
また、情報判定装置は、判定手段によって、評価モードにおいて、未知データに対応するソーシャルメディア情報から生成された拡張分散表現ベクトルにより、情報判定モデルを用いて、未知データが現実の発生事象を示す情報か否かを判定する。
なお、情報判定装置は、コンピュータを、前記した各手段として機能させるための情報判定プログラムで動作させることができる。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、ソーシャルメディア情報が、現実に発生している事象に関連する情報であるか否かを、高精度に判定することができる。
これによって、本発明は、SNSにおいて個人が発信するソーシャル・ビッグデータを、ニュース等の情報源として有効に活用することができる。
本発明の実施形態に係る情報判定装置の構成を示すブロック構成図である。 ベクトル化手段の処理内容を説明するための図であって、(a)はメディア情報を単語に分割する例、(b)は単語の分散表現ベクトルから投稿文の分散表現ベクトルを算出する例を説明するための説明図である。 特徴語句記憶手段に記憶する語句の例を示す図であって、(a)は慣用句、(b)は仮定形表現、(c)は指定固有名詞の例を示す。 仮定形表現の係り受け関係を説明するための説明図である。 ベクトル拡張手段が生成する拡張分散表現ベクトルの一例を示すデータ構成図である。 情報判定モデルの一例であるフィードフォワードニューラルネットワークの構成を示す図である。 本発明の実施形態に係る情報判定装置の学習モードの動作を示すフローチャートである。 本発明の実施形態に係る情報判定装置の評価モードの動作を示すフローチャートである。 ベクトル拡張手段が生成する拡張分散表現ベクトルの他の例を示すデータ構成図である。 本発明の他の実施形態に係る情報判定モデル学習装置の構成を示すブロック構成図である。 本発明の他の実施形態に係る情報判定装置の構成を示すブロック構成図である。
以下、本発明の実施形態について図面を参照して説明する。
[情報判定装置の構成]
最初に、図1を参照して、本発明の実施形態に係る情報判定装置1の構成について説明する。
情報判定装置1は、制御部10と記憶部20とで構成される。
情報判定装置1は、SNSで発信される情報(投稿単位のテキストデータであるツイート〔登録商標〕等)が、現実に発生している予め定めた所定の事象に関連する情報であるか否かを判定するものである。
制御部10は、図1に示すように、分散表現ベクトル生成手段11と、ベクトル化手段12と、語句判定手段13と、ベクトル拡張手段14と、学習手段15と、判定手段16と、を備える。
制御部10は、情報判定装置1の動作を制御するものである。制御部10は、2つの動作モードで動作する。動作モードの1つは、現実に発生している事象に関連する情報であるか否かが既知のソーシャルメディア情報(以下、単にメディア情報)から、未知のメディア情報が、現実に発生している事象に関連する情報であるか否かを判定する情報判定モデルを学習する学習モードである。動作モードのもう1つは、学習した情報判定モデルを用いて、未知のメディア情報が、現実に発生している事象に関連する情報であるか否かを判定する評価モードである。
本実施形態においては、現実に発生している事象として、事件、事故、災害等に関連するメディア情報の中で最も大きい割合を占める「火事」を例として説明する。もちろん、この事象は、現実に発生する事象であれば、火事に限定されるものではなく、交通事故、鉄道事故、気象災害等の予め定めた事象であればよい。
分散表現ベクトル生成手段11は、既存のメディア情報等の大量の学習データ(分散表現学習データ)から、単語ごとの分散表現ベクトルを生成するものである。なお、分散表現ベクトルとは、分散表現学習データにおいて、意味が近い(分散の特徴が近い)単語を近いベクトルに対応させて、単語を有限の高次元(例えば、200次元)の数値ベクトルで表現したものである。
分散表現ベクトル生成手段11は、分散表現学習データを形態素(単語)に分割し、分散表現学習データ全体の形態素に分割した単語を対象に分散表現ベクトルを生成する。なお、分散表現ベクトルの生成の手法は既知であり、例えば、word2vec、GloVe(Global Vectors for Word Representation)等の一般的な手法により生成することができる。ここでは、分散表現ベクトルの生成の詳細な説明は省略する。
この分散表現ベクトル生成手段11は、生成した分散表現ベクトルを、単語に対応付けて分散表現ベクトル記憶手段21に記憶する。
ベクトル化手段12は、メディア情報を、分散表現ベクトルとして、ベクトル化するものである。
このベクトル化手段12は、学習モードにおいては、所定の事象(ここでは、「火事」)に関連する情報であるか否かが既知のメディア情報(教師データ)を入力する。なお、教師データには、テキストデータ以外に、所定の事象に関連する情報であるか否か(正例または負例)を示す情報が含まれ、後記する学習手段15は、正例または負例を示す情報(例えば、“1”,“0”)を入力する。
また、ベクトル化手段12は、評価モードにおいては、所定の事象(ここでは、「火事」)に関連する情報であることが未知のメディア情報を入力する。
そして、ベクトル化手段12は、分散表現ベクトル記憶手段21に記憶されている単語ごとの分散表現ベクトルから、投稿文を構成する単語の分散表現ベクトルを平均化して、投稿単位の分散表現ベクトルを生成する。
具体的には、ベクトル化手段12は、テキストデータであるメディア情報を投稿ごとに入力し、投稿文を形態素解析により単語に分割する。そして、ベクトル化手段12は、分散表現ベクトル記憶手段21から、分割した単語に対応する分散表現ベクトルを読み出して加算する。
そして、ベクトル化手段12は、加算した分散表現ベクトルを当該投稿文に含まれる単語数で除算することで、ベクトルを正規化し、投稿文の分散表現ベクトル(文分散表現ベクトル)を生成する。ベクトル化手段12は、入力したメディア情報を語句判定手段13に出力するとともに、生成した文分散表現ベクトルをベクトル拡張手段14に出力する。
ここで、図2を参照(適宜図1参照)して、ベクトル化手段12が生成する文分散表現ベクトルについて説明する。
図2(a)に示すように、メディア情報の投稿文の一例を「隣町で民家が火事だ。」とした場合、ベクトル化手段12は、当該投稿文を「隣/町/で/民家/が/火事/だ/。」と分割する。
そして、ベクトル化手段12は、分割した単語ごとに、対応する分散表現ベクトルを分散表現ベクトル記憶手段21から読み出す。例えば、図2(b)に示すように、単語「隣」に対応する次元数がn個(例えば、200次元)の分散表現ベクトル「0.1,0.3,0.4,0.1,0.8,0.9,0.2,…,0.9」を読み出す。
そして、ベクトル化手段12は、投稿文を構成する単語数だけ分散表現ベクトルを加算して、全単語合計(図2(b)の例では、「6.4,1.6,2.4,3.2,3.2,6.4,4.0,…,5.6」)を算出する。
その後、ベクトル化手段12は、分散表現ベクトルの全単語合計を、投稿文を構成する単語数(図2の例では、8個)で除算することで、文分散表現ベクトル(図2(b)の例では、「0.8,0.2,0.3,0.4,0.4,0.8,0.5,…,0.7」)を算出する。
これによって、ベクトル化手段12は、メディア情報から、投稿文ごとに文分散表現ベクトルを生成する。
図1に戻って、情報判定装置1の構成について説明を続ける。
語句判定手段13は、入力されたメディア情報に、予め定めた所定の事象が発生していないと予測される特徴的な語句(特徴語句)が含まれているか否かを判定するものである。語句判定手段13は、ベクトル化手段12を介して入力されるメディア情報内に、特徴語句記憶手段22に記憶されている特徴語句が含まれているか否かを判定する。
所定の事象が発生していないと予測される特徴語句には、図3(a)に例示する慣用句(ことわざを含む)がある。メディア情報として、「喧嘩を止めるつもりが、『火に油を注ぐ』結果になってしまった。」が入力された場合、「火」、「火事」を含んでいても、現実には火事という事象は発生していない。
そこで、語句判定手段13は、メディア情報に、予め定めた事象に関連する単語(ここでは、「火」、「火事」)を含む慣用句が含まれている場合に、特徴語句が含まれていると判定する。
また、所定の事象が発生していないと予測される特徴語句には、図3(b)に例示する仮定形表現がある。メディア情報として、「『火事』になったら、どこへ逃げたら、いいだろう。」が入力された場合、「火」、「火事」を含んでいても、現実には火事という事象は発生していない。このとき、語句判定手段13は、メディア情報を係り受け解析し、予め定めた事象に関連する単語(ここでは、「火」、「火事」)と同じ文節内、または、係り受け関係にある場合に、メディア情報に特徴語句(仮定形表現)が含まれていると判定する。
例えば、図4に示すように、「火事に」と係り受け関係がある「なったら」に、仮定形表現(〜たら)がある場合、語句判定手段13は、メディア情報に特徴語句が含まれていると判定する。また、図4の例では、「どこへ」と係り受け関係にある「逃げたら」にも仮定形表現(〜たら)が存在するが、「火事に」とは係り受け関係がないため除外する。
また、所定の事象が発生していないと予測される特徴語句には、図3(c)に例示するテレビ番組の番組名、出演者、登場人物等の予め指定された固有名詞(指定固有名詞)がある。メディア情報として、「精霊の△△人の火事のシーンはどうやって撮影しているのかな。」が入力された場合、「火」、「火事」を含んでいても、現実には火事という事象は発生していない。
そこで、語句判定手段13は、メディア情報に、予め定めた指定された固有名詞が含まれている場合に、特徴語句が含まれていると判定する。
特徴語句として仮定形表現を用いる場合、「火事」等の所定の事象は、外部から語句判定手段13に設定されるものとする。もちろん、所定の事象を記憶手段、例えば特徴語句記憶手段22に予め記憶しておき、語句判定手段13が参照することとしてもよい。
なお、指定固有名詞は、必ずしも番組に関連する固有名詞に限定されず、例えば、映画、ゲームに関連するタイトル、キャラクター等の固有名詞であっても構わない。
この語句判定手段13は、メディア情報に特徴語句が含まれていると判定した場合、特徴語句を識別する予め定めた情報(固有の識別子)を、ベクトル拡張手段14に出力する。また、語句判定手段13は、メディア情報に特徴語句が含まれていない場合、含まれていないことを示す予め定めた識別子(例えば、NULL)を、ベクトル拡張手段14に出力する。
ベクトル拡張手段14は、ベクトル化手段12で生成されたメディア情報の分散表現ベクトル(文分散表現ベクトル)に対して、語句判定手段13で判定された特徴語句の有無を示すベクトルを拡張するものである。
ベクトル拡張手段14は、図5に示すように、次元数がn個の文分散表現ベクトルに対して、慣用句の個数(m個)、仮定形表現の個数(k個)、指定固有名詞の個数(i個)に応じた次元数だけ、ベクトルを拡張する。
ここで、拡張する慣用句のm個分のベクトルは、特徴語句記憶手段22に記憶されている個々の慣用句ごとに、メディア情報に含まれているか否かを示す。メディア情報に含まれている慣用句については、その位置に対応する要素の値を“1”、含まれていない慣用句については、その位置に対応する要素の値を“0”とする。
また、拡張する仮定形表現のk個分のベクトルは、特徴語句記憶手段22に記憶されている個々の仮定形表現ごとに、メディア情報に含まれているか否かを示す。メディア情報に含まれている仮定形表現については、その位置に対応する要素の値を“1”、含まれていない仮定形表現については、その位置に対応する要素の値を“0”とする。
また、拡張する指定固有名詞のi個分のベクトルは、特徴語句記憶手段22に記憶されている個々の指定固有名詞ごとに、メディア情報に含まれているか否かを示す。メディア情報に含まれている指定固有名詞については、その位置に対応する要素の値を“1”、含まれていない指定固有名詞については、その位置に対応する要素の値を“0”とする。
このように、ベクトル拡張手段14は、文分散表現ベクトルに、特徴語句(慣用句、仮定形表現、指定固有名詞)が含まれているか否か示すベクトルを拡張した拡張分散表現ベクトルを生成する。この拡張分散表現ベクトルは、メディア情報が有する投稿文そのものの特徴に加え、当該メディア情報が所定の事象(ここでは、「火事」)に関連する情報ではないことを示す特徴量となる。
ベクトル拡張手段14は、学習モードにおいては、拡張分散表現ベクトルを学習手段15に出力する。また、ベクトル拡張手段14は、評価モードにおいては、拡張分散表現ベクトルを判定手段16に出力する。
学習手段15は、学習モードにおいて、ベクトル拡張手段14で生成される複数の拡張分散表現ベクトルから、メディア情報が現実に発生している予め定めた所定の事象に関連する情報であるか否かを判定するモデル(情報判定モデル)を学習するものである。
この学習手段15に入力される拡張分散表現ベクトルは、現実に発生している事象に関連しているか否かが既知(正例または負例かが既知)の教師データである。
学習手段15は、例えば、ニューラルネットワークにより情報判定モデルを学習する。
具体的には、学習手段15は、図6に示す入力層L1、隠れ層L2、出力層L3で構成される順伝播ニューラルネットワーク(Feed Forward Neural Network:FFNN)により情報判定モデルを学習する。
図6に示すFFNNは、入力層L1に、文分散表現ベクトルと拡張ベクトルとからなる拡張分散表現ベクトルを入力する。そして、FFNNは、隠れ層L2において、入力層L1に入力された拡張分散表現ベクトルの各要素の値に重みを付加して伝搬させて、出力層L3から、判定結果を出力する。ここで、出力層L3は、例えば、次元数を2とし、一方のノードが、拡張分散表現ベクトルが現実に発生している事象に関連する投稿文のベクトルであることを示す確率を正規化して出力する。また、他方のノードが、拡張分散表現ベクトルが現実に発生している事象に関連する投稿文のベクトルではないことを示す確率を正規化して出力する。
そして、学習手段15は、教師データが正例の場合、一方のノードの出力が、拡張分散表現ベクトルが現実に発生している事象に関連する投稿文のベクトルであることを示す確率値“1”、他方のノードの出力が確率値“0”となるように、各層の重みを情報判定モデルのパラメータとして学習する。また、教師データが負例の場合、一方のノードの出力が“0”、他方のノードの出力が“1” となるように、各層の重みを情報判定モデルのパラメータとして学習する。なお、FFNNの学習には、例えば、誤差逆伝播法(Back Propagation)を用いる。
この学習手段15は、教師データを用いた学習を所定回数行うか、パラメータ誤差が予め定めた誤差内に収束した段階で学習を終了する。
学習手段15は、学習した情報判定モデルを、情報判定モデル記憶手段23に書き込み記憶する。
判定手段16は、メディア情報が、現実に発生している事象に関連する情報であるか否かを判定するものである。
判定手段16は、評価モードにおいて、現実に発生している事象に関連する情報であることが未知のメディア情報を入力する。また、判定手段16は、そのメディア情報から、ベクトル化手段12およびベクトル拡張手段14を介して生成される拡張分散表現ベクトルを入力する。
判定手段16は、情報判定モデル記憶手段23に記憶されている情報判定モデルを用いて、入力した拡張分散表現ベクトルが、現実に発生している事象に関連する情報に対応するベクトルであるか否かを判定する。具体的には、判定手段16は、図6に示したFFNNの入力層L1に拡張分散表現ベクトルを入力し、出力層L3から出力される結果に基づいて判定を行う。図6の例では、判定手段16は、出力層L3の一方のノードの出力である現実に発生している事象に関連する確率値から、他方のノードから出力される確率値を減算し、正であれば、メディア情報が、現実に発生している事象に関連する情報であると判定する。一方、負であれば、判定手段16は、メディア情報が、現実に発生している事象に関連する情報ではないと判定する。
これによって、判定手段16は、メディア情報が現実に発生している事象に関連する情報か否かを判定することができる。判定手段16は、この判定結果を外部に出力する。
記憶部20は、分散表現ベクトル記憶手段21と、特徴語句記憶手段22と、情報判定モデル記憶手段23と、を備える。記憶部20は、情報判定装置1の動作で使用または生成する各種データを記憶するものである。
これら各記憶手段は、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。なお、ここでは、記憶部20において、各記憶手段を個別に設けているが、1つの記憶装置の記憶領域を複数に区分して各記憶手段としてもよい。また、記憶部20を外部記憶装置として、情報判定装置1の構成から省いてもよい。
分散表現ベクトル記憶手段21は、分散表現ベクトル生成手段11で生成される分散表現ベクトルを単語に対応付けて記憶するものである。
特徴語句記憶手段22は、予め定めた所定の事象が発生していないと予測される特徴的な語句(特徴語句)を記憶するものである。この特徴語句記憶手段22は、所定の事象が発生していないと予測される慣用句(図3(a)参照)、仮定形表現(図3(b)参照)、指定固有名詞(図3(c)参照)を予め記憶しておく。
この情報判定装置1は、図示を省略した通信手段を備え、電子番組表を提供するサーバから、電子番組表を取得し、番組名、出演者等を特徴語句記憶手段22に記憶することとしてもよい。
情報判定モデル記憶手段23は、学習手段15で学習した情報判定モデルを記憶するものである。この情報判定モデル記憶手段23に記憶される情報判定モデルは、判定手段16が参照する。
以上説明したように情報判定装置1を構成することで、情報判定装置1は、教師データである予め定めた所定の事象に関連する情報であるか否かが既知のメディア情報から、情報判定モデルを学習することができる。
そして、情報判定装置1は、情報判定モデルを用いて、未知のメディア情報が現実に発生している事象に関連する情報であるか否かを判定することができる。
なお、情報判定装置1は、一般的なコンピュータを、前記した制御部10の各手段として機能させるプログラム(情報判定プログラム)で動作させることができる。
[情報判定装置の動作]
次に、図7,図8を参照して、本発明の実施形態に係る情報判定装置1の動作について説明する。なお、特徴語句記憶手段22には、予め慣用句、仮定形表現、指定固有名詞が記憶されているものとする。ここでは、情報判定装置1の動作を、学習モードと評価モードとに分けて説明する。
(学習モード)
まず、図7を参照(構成については適宜図1参照)して、情報判定装置1の学習モードの動作について説明する。
ステップS1において、情報判定装置1の分散表現ベクトル生成手段11は、既存のメディア情報等の大量の学習データ(分散表現学習データ)から、単語ごとの分散表現ベクトルを生成する。この単語ごとの分散表現ベクトルは、分散表現ベクトル記憶手段21に記憶される。
そして、ステップS2において、情報判定装置1のベクトル化手段12は、所定の事象(ここでは、「火事」)に関連する情報であるか否かが既知のメディア情報(教師データ)を投稿ごとに入力する。
そして、ステップS3において、情報判定装置1のベクトル化手段12は、ステップS2で入力した投稿文に含まれる単語に対応するステップS1で生成された分散表現ベクトルを単語数分だけ加算する。
さらに、ステップS4において、情報判定装置1のベクトル化手段12は、ステップS3で加算された分散表現ベクトルを、投稿文に含まれる単語数で除算することで、投稿文ごとの正規化したベクトル(文分散表現ベクトル)を生成する。
ここで、ステップS5において、情報判定装置1の語句判定手段13は、ステップS2で入力されたメディア情報に、特徴語句記憶手段22に記憶されている特徴語句(慣用句、仮想的表現、指定固有名詞)が含まれているか否かを判定する。
このステップS5で、メディア情報に特徴語句が含まれていると判定された場合(Yes)、情報判定装置1のベクトル拡張手段14は、ステップS6において、ステップS4で生成された文分散表現ベクトルに、ステップS5でメディア情報内に含まれていると判定された特徴語句に対応するベクトルの位置に値“1”を設定したベクトルを拡張して、拡張分散表現ベクトルを生成する(図5参照)。そして、情報判定装置1は、ステップS7に動作を進める。
一方、ステップS5で、メディア情報に特徴語句が含まれていないと判定された場合(No)、情報判定装置1は、ステップS7に動作を進める。ただし、厳密には、ベクトル拡張手段14は、ステップS6で拡張するベクトルと同次数で要素の値をすべて“0”とする空のベクトルを文分散表現ベクトルに付加して拡張分散表現ベクトルとする。
ステップS7において、情報判定装置1の学習手段15は、拡張分散表現ベクトルと、ステップS2で入力した教師データとから、メディア情報が現実に発生している事象に関連する情報であるか否かを判定する情報判定モデルを学習する。
そして、ステップS8において、情報判定装置1の学習手段15は、教師データを用いた学習を所定回数行うか、情報判定モデルのパラメータ誤差が収束したかにより、学習が終了したか否かを判定する。
このステップS8で、学習が終了していないと判定された場合(No)、情報判定装置1は、ステップS2に戻って学習動作を継続する。
一方、ステップS8で、学習が終了したと判定された場合(Yes)、情報判定装置1は、ステップS9において、学習した情報判定モデルを、情報判定モデル記憶手段23に書き込む。
以上の動作によって、情報判定装置1は、教師データから、未知のメディア情報が現実に発生している事象に関連する情報であるか否かを判定するための情報判定モデルを生成することができる。
(評価モード)
次に、図8を参照(構成については適宜図1参照)して、情報判定装置1の評価モードの動作について説明する。この評価モードの動作は、図7で説明した学習モードの動作の後に行われる。
ステップS10において、情報判定装置1のベクトル化手段12は、現実に発生している事象に関連する情報であることが未知のメディア情報を投稿ごとに入力する。
そして、ステップS11において、情報判定装置1のベクトル化手段12は、ステップS10で入力した投稿文に含まれる単語に対応する分散表現ベクトル記憶手段21に記憶されている分散表現ベクトルを単語数分だけ加算する。
さらに、ステップS12において、情報判定装置1のベクトル化手段12は、ステップS11で加算された分散表現ベクトルを、投稿文に含まれる単語数で除算することで、投稿文ごとの正規化したベクトル(文分散表現ベクトル)を生成する。
ここで、ステップS13において、情報判定装置1の語句判定手段13は、ステップS10で入力されたメディア情報に、特徴語句記憶手段22に記憶されている特徴語句(慣用句、仮想的表現、指定固有名詞)が含まれているか否かを判定する。
このステップS13で、メディア情報に特徴語句が含まれていると判定された場合(Yes)、情報判定装置1のベクトル拡張手段14は、ステップS14において、ステップS12で生成された文分散表現ベクトルに、ステップS13でメディア情報内に含まれていると判定された特徴語句に対応するベクトルの位置に値“1”を設定したベクトルを拡張して、拡張分散表現ベクトルを生成する(図5参照)。そして、情報判定装置1は、ステップS15に動作を進める。
一方、ステップS13で、メディア情報に特徴語句が含まれていないと判定された場合(No)、情報判定装置1は、ステップS15に動作を進める。ただし、厳密には、ベクトル拡張手段14は、ステップS14で拡張するベクトルと同次数で要素の値をすべて“0”とする空のベクトルを文分散表現ベクトルに付加して拡張分散表現ベクトルとする。
ステップS15において、情報判定装置1の判定手段16は、情報判定モデル記憶手段23に記憶されている情報判定モデルを用いて、拡張分散表現ベクトルが、現実に発生している事象に関連する情報に対応するベクトルであるか否かを判定する。さらに、ステップS16において、情報判定装置1の判定手段16は、ステップS15で判定した結果を外部に出力する。
ステップS17において、情報判定装置1は、さらにメディア情報が入力されるか否かにより、評価モードの動作の終了を判定する。
このステップS17で、さらにメディア情報が入力され、評価モードの動作が終了していない場合(No)、情報判定装置1は、ステップS10に動作を戻って、判定動作を継続する。
一方、ステップS17で、新たなメディア情報が入力されず、評価モードの動作が終了した場合(Yes)、動作を終了する。
以上の動作によって、情報判定装置1は、未知のメディア情報が、現実に発生している事象に関連する情報であるか否かを判定することができる。
以上、本発明の実施形態に係る情報判定装置1の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
ここでは、情報判定装置1は、特徴語句記憶手段22に記憶する特徴語句として、慣用句、仮定形表現、指定固有名詞のすべてを用いた。
しかし、情報判定装置1は、特徴語句として、慣用句、仮定形表現、指定固有名詞の少なくとも1つを用いることとしてもよい。このように、限定して特徴語句を用いても、従来に比べて、ニュース素材となるメディア情報の候補を減らすことができ、最終的に人がメディア情報をニュース素材として活用することができるか否かの判定作業を減らすことができる。
また、ここでは、ベクトル拡張手段14が、特徴語句記憶手段22に記憶されている特徴語句のそれぞれの特徴語句が含まれているか否かを示すベクトルを分散表現ベクトルに追加した(図5参照)。
しかし、ベクトル拡張手段14は、慣用句、仮定形表現、指定固有名詞ごとに、いずれかの特徴語句が含まれているか否かを示すベクトルを分散表現ベクトルに追加してもよい。また、仮定形表現については、仮定形表現が、予め定めた事象に関連する単語(例えば、「火」、「火事」)を含む文節からの距離ごとに拡張するベクトルを生成してもよい。
例えば、図9に示すように、ベクトル拡張手段14は、慣用句については、特徴語句記憶手段22に記憶されているいずれかの慣用句が含まれている場合、ベクトルに1次元の要素を割り当てる。また、ベクトル拡張手段14は、指定固有名詞についても同様に、特徴語句記憶手段22に記憶されているいずれかの指定固有名詞が含まれている場合、ベクトルに1次元の要素を割り当てる。
また、ベクトル拡張手段14は、仮定形表現については、予め定めた事象に関連する単語(例えば、「火」、「火事」)を含む文節からの距離として、例えば、“−3”〜“3”までの7次元の要素を割り当てる。
これによって、図5に示した拡張分散表現ベクトルよりも次元数を抑えることができ、演算コストを抑えることができる。
また、ここでは、現実に発生している事象として、事件、事故等を例に説明したが、この事象は、現実に発生する事象であればなんでもよい。例えば、メディア情報が、現実の「風邪」に関する情報であるか否かを判定する場合、ドラマの演技上の風邪に関する情報を除外することができる。また、メディア情報が、現実の「交通情報」に関する情報であるか否かを判定する場合、ゲーム上で発生する交通情報に関する情報を除外することができる。
また、ここでは、情報判定装置1は、情報判定モデルを学習する学習動作と、情報判定モデルを用いて、未知のメディア情報が、現実に発生している事象に関連する情報であるか否かを判定する判定動作との2つの動作を1つの装置で行うものとした。
しかし、これらの動作は、別々の装置で動作させても構わない。
具体的には、情報判定モデルを学習する学習動作を実現する装置は、図10に示す情報判定モデル学習装置3として構成することができる。
情報判定モデル学習装置3は、図10に示すように、図1で説明した情報判定装置1から、判定手段16を省いて構成すればよい。この構成は、図1で説明した情報判定装置1と同じ、情報判定モデルを学習する学習動作のみを行う。なお、情報判定モデル学習装置3の動作は、図7で説明した動作と同じである。
この情報判定モデル学習装置3は、コンピュータを前記した各手段として機能させるためのプログラム(情報判定モデル学習プログラム)で動作させることができる。
また、情報判定モデルを用いて、未知のメディア情報が、現実に発生している事象に関連する情報であるか否かを判定する判定動作を実現する装置は、図11に示す情報判定装置1Bとして構成することができる。
情報判定装置1Bは、図11に示すように、図1で説明した情報判定装置1から、分散表現ベクトル生成手段11と学習手段15を省いて構成すればよい。この構成は、図1で説明した情報判定装置1と同じ、未知のメディア情報が、現実に発生している事象に関連する情報を判定する判定動作のみを行う。なお、情報判定装置1Bの動作は、図8で説明した動作と同じである。
この情報判定装置1Bは、コンピュータを前記した各手段として機能させるためのプログラム(情報判定プログラム)で動作させることができる。
このように、学習動作と判定動作とを、異なる装置で動作させることで、1つの情報判定モデル学習装置3で学習した情報判定モデルを、複数の情報判定装置1Bで利用することが可能になる。
また、ここでは、学習手段15が学習する情報判定モデルを、教師あり学習により学習するニューラルネットワークとした。しかし、この教師あり学習は、他の一般的な機械学習を用いることができる。例えば、サポートベクタマシン(SVM:Support Vector Machine)、条件付確率場(CRF:Conditional Random Fields)等を用いることができる。
1,1B 情報判定装置
11 分散表現ベクトル生成手段
12 ベクトル化手段
13 語句判定手段
14 ベクトル拡張手段
15 学習手段
16 判定手段
21 分散表現ベクトル記憶手段
22 特徴語句記憶手段
23 情報判定モデル記憶手段
3 情報判定モデル学習装置

Claims (6)

  1. 現実の発生事象を示すか否かが既知の投稿単位のテキストデータである複数のソーシャルメディア情報を教師データとして、判定対象のソーシャルメディア情報が現実の発生事象を示す情報か否かを判定するための情報判定モデルを学習する情報判定モデル学習装置であって、
    前記教師データを入力して、予め記憶手段に記憶されている単語ごとの分散表現ベクトルから、投稿文を構成する単語の分散表現ベクトルを平均化して、投稿単位の分散表現ベクトルを生成するベクトル化手段と、
    前記ベクトル化手段で生成された投稿単位の分散表現ベクトルに対応するソーシャルメディア情報が、現実の発生事象を表していないことを示す予め定めた複数の語句を単語として含むか否かを判定する語句判定手段と、
    前記語句判定手段で含まれていると判定された語句の有無をベクトル化して前記投稿単位の分散表現ベクトルに付加し、拡張分散表現ベクトルを生成するベクトル拡張手段と、
    前記ベクトル拡張手段で生成された拡張分散表現ベクトルを機械学習することで前記情報判定モデルを生成する学習手段と、
    を備えることを特徴とする情報判定モデル学習装置。
  2. 前記語句判定手段は、前記発生事象に関連する慣用句、仮定形表現、および、前記発生事象に関連しない語句として予め指定された固有名詞の少なくとも1種類の語句群が前記ソーシャルメディア情報に含まれるか否かを判定することを特徴とする請求項1に記載の情報判定モデル学習装置。
  3. 請求項1または請求項2に記載の情報判定モデル学習装置で学習した情報判定モデルを用いて、判定対象のソーシャルメディア情報である未知データが現実の発生事象を示す情報か否かを判定する情報判定装置であって、
    前記未知データを入力して、予め記憶手段に記憶されている単語ごとの分散表現ベクトルから、投稿文を構成する単語の分散表現ベクトルを平均化して、投稿単位の分散表現ベクトルを生成するベクトル化手段と、
    前記ベクトル化手段で生成された投稿単位の分散表現ベクトルに対応するソーシャルメディア情報が、現実の発生事象を表していないことを示す予め定めた複数の語句を単語として含むか否かを判定する語句判定手段と、
    前記語句判定手段で含まれていると判定された語句の有無をベクトル化して前記投稿単位の分散表現ベクトルに付加し、拡張分散表現ベクトルを生成するベクトル拡張手段と、
    前記ベクトル拡張手段で生成された拡張分散表現ベクトルにより、前記情報判定モデルを用いて、前記未知データが現実の発生事象を示す情報か否かを判定する判定手段と、
    を備えることを特徴とする情報判定装置。
  4. 現実の発生事象を示すか否かが既知の投稿単位のテキストデータである複数のソーシャルメディア情報を教師データとして情報判定モデルを学習し、判定対象のソーシャルメディア情報である未知データが現実の発生事象を示す情報か否かを判定する情報判定装置であって、
    前記情報判定モデルを学習する学習モードにおいては前記教師データを入力し、前記情報判定モデルを用いた判定を行う評価モードにおいては前記未知データを入力して、予め記憶手段に記憶されている単語ごとの分散表現ベクトルから、投稿文を構成する単語の分散表現ベクトルを平均化して、投稿単位の分散表現ベクトルを生成するベクトル化手段と、
    前記ベクトル化手段で生成された投稿単位の分散表現ベクトルに対応するソーシャルメディア情報が、現実の発生事象を表していないことを示す予め定めた複数の語句を単語として含むか否かを判定する語句判定手段と、
    前記語句判定手段で含まれていると判定された語句の有無をベクトル化して前記投稿単位の分散表現ベクトルに付加し、拡張分散表現ベクトルを生成するベクトル拡張手段と、
    前記学習モードにおいて、前記教師データに対応するソーシャルメディア情報から生成された前記拡張分散表現ベクトルを機械学習することで前記情報判定モデルを生成する学習手段と、
    前記評価モードにおいて、前記未知データに対応するソーシャルメディア情報から生成された前記拡張分散表現ベクトルにより、前記情報判定モデルを用いて、前記未知データが現実の発生事象を示す情報か否かを判定する判定手段と、
    を備えることを特徴とする情報判定装置。
  5. コンピュータを、請求項1または請求項2に記載の情報判定モデル学習装置として機能させるための情報判定モデル学習プログラム。
  6. コンピュータを、請求項3または請求項4に記載の情報判定装置として機能させるための情報判定プログラム。
JP2017035283A 2017-02-27 2017-02-27 情報判定モデル学習装置、情報判定装置およびそれらのプログラム Active JP6806589B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017035283A JP6806589B2 (ja) 2017-02-27 2017-02-27 情報判定モデル学習装置、情報判定装置およびそれらのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017035283A JP6806589B2 (ja) 2017-02-27 2017-02-27 情報判定モデル学習装置、情報判定装置およびそれらのプログラム

Publications (2)

Publication Number Publication Date
JP2018142131A JP2018142131A (ja) 2018-09-13
JP6806589B2 true JP6806589B2 (ja) 2021-01-06

Family

ID=63528088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017035283A Active JP6806589B2 (ja) 2017-02-27 2017-02-27 情報判定モデル学習装置、情報判定装置およびそれらのプログラム

Country Status (1)

Country Link
JP (1) JP6806589B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6883561B2 (ja) * 2018-09-27 2021-06-09 Kddi株式会社 脆弱性推定装置及び脆弱性推定方法
JP7175244B2 (ja) * 2019-07-30 2022-11-18 Kddi株式会社 分類装置、学習装置、分類方法及びプログラム
JP7438808B2 (ja) 2020-03-26 2024-02-27 株式会社野村総合研究所 ニーズマッチング装置およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096799A (ja) * 1995-06-19 1997-01-10 Sharp Corp 文書分類装置及び文書検索装置
JP5795580B2 (ja) * 2009-07-16 2015-10-14 ブルーフィン ラボズ インコーポレイテッド タイムベースメディアにおけるソーシャルインタレストの推定および表示
JP6061337B2 (ja) * 2013-01-17 2017-01-18 Kddi株式会社 規則生成装置及び抽出装置
JP6411800B2 (ja) * 2014-07-17 2018-10-24 株式会社Nttドコモ 情報管理装置、情報管理システム、及び情報管理プログラム

Also Published As

Publication number Publication date
JP2018142131A (ja) 2018-09-13

Similar Documents

Publication Publication Date Title
Oprea et al. isarcasm: A dataset of intended sarcasm
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US10318405B2 (en) Applying consistent log levels to application log messages
US8990327B2 (en) Location estimation of social network users
US11144581B2 (en) Verifying and correcting training data for text classification
US20240046399A1 (en) Machine learning modeling for protection against online disclosure of sensitive data
US10032448B1 (en) Domain terminology expansion by sensitivity
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
US10629053B2 (en) Automatic detection and alert of an emergency from social media communication
JP6806589B2 (ja) 情報判定モデル学習装置、情報判定装置およびそれらのプログラム
US11657811B2 (en) Modification of voice commands based on sensitivity
CN111783450A (zh) 语料文本中的短语提取方法、装置、存储介质及电子设备
Suanpang et al. Sentiment analysis with a TextBlob package implications for tourism
Shabbir et al. Nubot: Embedded knowledge graph with rasa framework for generating semantic intents responses in roman urdu
CN116541517A (zh) 文本信息处理方法、装置、设备、软件程序以及存储介质
US20200173889A1 (en) Component testing plan considering distinguishable and undistinguishable components
Lhasiw et al. A bidirectional LSTM model for classifying Chatbot messages
Huttunen et al. Predicting relevance of event extraction for the end user
JP6839001B2 (ja) モデル学習装置、情報判定装置およびそれらのプログラム
US11899910B2 (en) Multi-location copying and context based pasting
US11516137B2 (en) Content propagation control
Hitkul et al. Aspect-based sentiment analysis of financial headlines and microblogs
CN112989054A (zh) 一种文本处理方法和装置
Kershaw et al. Language innovation and change in on-line social networks
Gautam et al. Automatic identification and ranking of emergency aids in social media macro community

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201204

R150 Certificate of patent or registration of utility model

Ref document number: 6806589

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250