JP2017201437A - ニュース素材抽出装置及びプログラム - Google Patents

ニュース素材抽出装置及びプログラム Download PDF

Info

Publication number
JP2017201437A
JP2017201437A JP2016092211A JP2016092211A JP2017201437A JP 2017201437 A JP2017201437 A JP 2017201437A JP 2016092211 A JP2016092211 A JP 2016092211A JP 2016092211 A JP2016092211 A JP 2016092211A JP 2017201437 A JP2017201437 A JP 2017201437A
Authority
JP
Japan
Prior art keywords
feature
news material
social media
information
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016092211A
Other languages
English (en)
Inventor
後藤 淳
Atsushi Goto
淳 後藤
山田 一郎
Ichiro Yamada
一郎 山田
菊佳 望月
Kikuka Mochizuki
菊佳 望月
太郎 宮▲崎▼
Taro Miyazaki
太郎 宮▲崎▼
庄衛 佐藤
Shoe Sato
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2016092211A priority Critical patent/JP2017201437A/ja
Publication of JP2017201437A publication Critical patent/JP2017201437A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】多数のソーシャルメディア情報のうち教師有り機械学習によりニュース素材となりうるソーシャルメディア情報を自動的に抽出するニュース素材抽出装置及びプログラムを提供する。
【解決手段】本発明のニュース素材抽出装置1は、個々のソーシャルメディア情報から特徴ベクトルの特徴量とする素性を生成又は抽出する素性生成抽出部111、この素性による特徴ベクトルを生成する特徴ベクトル生成部112、機械学習用の学習モデルを生成する学習モデル生成部113、機械学習判定対象のソーシャルメディア情報に対しニュース素材となりうるか否かを判定する機械学習判定部114及びニュース素材候補のソーシャルメディア情報について表示装置2に提示又は記憶部12に蓄積する手段115,116、好適には学習モデルの更新を制御する手段117を備える。本発明のプログラムは、コンピュータをニュース素材抽出装置1として機能させる。
【選択図】図1

Description

本発明は、多数のソーシャルメディア情報のうち教師有り機械学習によりニュース素材となりうるソーシャルメディア情報を自動的に抽出するニュース素材抽出装置及びプログラムに関する。
近年、報道機関ではtwitter(登録商標)やfacebook(登録商標)などのソーシャルメディアに発信される個々の情報(本願明細書中、「ソーシャルメディア情報」と称する。)を取得して、そのソーシャルメディア情報を精査し、放送番組等に反映させている。これまでの取材対象の警察、消防、新聞、通信社などの情報源と比較して、広範囲でリアルタイムな情報を取得することができるためである。
実際、2015年に起こった新幹線での放火事件では、たまたま同じ新幹線に乗り合わせた人からtweet(登録商標)が発信されており、迅速な報道に繋がったケースもある。
現状、報道現場では、所定のリアルタイム検索サービス(例えば、非特許文献1参照)を利用して、或るキーワードが含まれているtweet(登録商標)のみを取得し、ニュース素材となりうるか否かを複数人のオペレータがチェックしている。オペレータが、1つずつのtweet(登録商標)を開覧して、人手で番組に有用な情報を拾い上げることは非常にコストがかかる。また、このような所定のtweet検索サービスに対しキーワードを複数用意して検索しても、ニュース素材の取得量として十分ではない。
ところで、twitter(登録商標)の投稿内容から、鉄道の運行トラブルに関する発生状況、復旧状況、混雑状況などの詳細情報を機械学習させて自動取得する技法が知られている(例えば、非特許文献2参照)。
また、twitter(登録商標)の投稿内容と投稿位置の情報を用いて、地震と台風の発生時間や発生位置を機械学習させて自動的に特定する技法が知られている(例えば、非特許文献3参照)。
"リアルタイム検索"、[online]、Yahoo! Japan、[平成28年4月13日検索]、インターネット〈URL:http://search.yahoo.co.jp/realtime〉 土屋,豊田,喜連川、"マイクロブログを用いた鉄道の運行トラブル状況抽出に関する一検討"、社団法人電子情報通信学会、信学技報、[online]、[平成28年4月13日検索]、インターネット〈http://www.tkl.iis.u-tokyo.ac.jp/top/modules/newdb/extract/1288/data/main.pdf〉 Takeshi Sakaki,Makoto Okazaki,Yutaka Matsuo、"Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors"、[online]、[平成28年4月13日検索]、インターネット〈http://www.ymatsuo.com/papers/www2010.pdf〉
上述したように、オペレータにより所定のリアルタイム検索サービスを利用して、ニュース素材となりうるか否かを判別することは、非常にコストがかかり、ニュース素材の取得量として十分ではない。
また、非特許文献1や非特許文献2等に開示される技法をニュース素材の抽出に応用しても、ニュース素材の抽出に適した素性を用いていないために所望の抽出成果が得られない。仮に、非特許文献1や非特許文献2等に開示される技法を基に、ニュース素材の抽出に沿うようソーシャルメディア情報における本文の情報及び位置情報を用いて機械学習によりニュース素材の抽出を行うよう構成しても十分な成果が期待できない。即ち、ニュース素材に関連付ける素性の種類及び情報量の少なさ、並びに判定の信頼性の強化不足に起因して、これを特徴量とする特徴ベクトルによる機械学習の出力として、ニュース素材の抽出量やその抽出精度の観点で課題が残る。
従って、ソーシャルメディア情報からニュース素材を抽出するにあたり、ニュース素材の抽出漏れをより少なくし、尚且つ、その抽出精度をより高いものとする技法が望まれる。そして、例えば放送番組等で利用するニュース素材の自動抽出により、利用現場の負荷を軽減する技法が望まれる。
本発明の目的は、上述の問題に鑑みて、多数のソーシャルメディア情報のうち教師有り機械学習によりニュース素材となりうるソーシャルメディア情報を自動的に抽出し、ニュース素材の抽出量及びその抽出精度を向上可能とするニュース素材抽出装置及びプログラムを提供することにある。
本発明によるニュース素材抽出装置は、多数のソーシャルメディア情報のうち教師有り機械学習によりニュース素材となりうるソーシャルメディア情報を自動的に抽出するニュース素材抽出装置であって、個々のソーシャルメディア情報から特徴ベクトルの特徴量とする素性を生成又は抽出する素性生成抽出手段と、前記素性を特徴量とし前記素性の数に応じた次元数で構成される特徴ベクトルを生成する特徴ベクトル生成手段と、ニュース素材として実績のあるソーシャルメディア情報を正例の教師データとして前記特徴ベクトルにより機械学習を行い、学習モデルを生成する学習モデル生成手段と、判定対象として入力される当該個々のソーシャルメディア情報に対し、前記学習モデルを用いた当該機械学習によりニュース素材となりうるソーシャルメディア情報であるか否かを判定する機械学習判定手段と、前記機械学習判定手段の判定結果を基に、ニュース素材となりうるソーシャルメディア情報をニュース素材候補として表示装置に提示するか、又は所定の記憶部に蓄積するニュース素材提示・記憶手段と、を備えることを特徴とする。
また、本発明によるニュース素材抽出装置において、前記素性生成抽出手段は、前記ソーシャルメディア情報内の本文情報から、所定のn−gram素性、所定の係り受け素性、所定の否定素性、所定の本文内URLのn‐gram素性、所定の固有表現素性、所定の特定語彙素性、及び所定の顔文字素性を生成する手段を有することを特徴とする。
また、本発明によるニュース素材抽出装置において、前記素性生成抽出手段は、前記ソーシャルメディア情報内の添付情報から、所定の指定オブジェクト素性、所定の画像内n‐gram素性、及び所定の音声内n‐gram素性を抽出する手段を有することを特徴とする。
また、本発明によるニュース素材抽出装置において、前記素性生成抽出手段は、前記ソーシャルメディア情報内の属性情報から、所定の発信時刻素性、所定の発信都道府県素性、所定の引用素性決定、及び所定の居住都道府県素性を抽出する手段を有することを特徴とする。
また、本発明によるニュース素材抽出装置において、前記素性生成抽出手段は、前記ソーシャルメディア情報内の属性情報から、所定のフォロー数・フォロワー数素性、所定の過去発現数素性、所定のアカウント作成日素性、及び所定のボット素性を抽出する手段を有することを特徴とする。
また、本発明によるニュース素材抽出装置において、前記素性生成抽出手段は、ニュース素材に関する実績情報を基に、所定のユーザー名履歴素性、所定の提示選択時間素性、及び所定の実績回数素性を抽出する手段を有することを特徴とする。
また、本発明によるニュース素材抽出装置において、前記ニュース素材提示・記憶手段は、前記機械学習判定手段の判定結果を基に前記表示装置へ提示するソーシャルメディア情報のうち、前記ニュース素材候補のソーシャルメディア情報を強調表示するよう前記表示装置へ提示するニュース素材候補提示手段を有することを特徴とする。
また、本発明によるニュース素材抽出装置において、前記ニュース素材候補提示手段は、当該機械学習によりニュース素材候補であるか否かの判定により得られるニュース素材候補の確度の高さを示すスコアに応じて、前記表示装置に対し所定閾値より高いスコアの当該ニュース素材候補については強調表示し、所定閾値より低いスコアのソーシャルメディア情報については非表示とするよう提示することを特徴とする。
また、本発明によるニュース素材抽出装置において、前記ニュース素材候補提示手段は、前記操作用ダイアログ上でオペレータによりニュース素材として利用するとして選択するか否かを決定させるためのユーザーインターフェースを含む対話形式の操作用ダイアログで当該ニュース素材候補及び非ニュース素材候補のソーシャルメディア情報を提示することを特徴とする。
また、本発明によるニュース素材抽出装置において、前記ニュース素材提示・記憶手段は、前記ニュース素材候補提示手段により前記対話形式の操作用ダイアログで提示する当該ニュース素材候補及び非ニュース素材候補のソーシャルメディア情報について、当該オペレータによりニュース素材として利用するものとして選択されたソーシャルメディア情報とを対応付けて監視し、当該ニュース素材候補及び当該オペレータによりニュース素材として利用するものとして選択されたソーシャルメディア情報を識別可能に、尚且つ当該提示してからオペレータが選択するまでの時間を計測し、当該計測した時間の情報を前記学習モデルの更新時の素性に利用可能に付与して当該所定の記憶部に履歴情報リストとして保存するニュース素材選択監視手段を更に備えることを特徴とする。
また、本発明によるニュース素材抽出装置において、前記学習モデルの更新を行うよう前記素性生成抽出手段及び前記特徴ベクトル生成手段を制御する学習モデル更新制御手段を更に備え、前記学習モデル更新制御手段は、前記ニュース素材選択監視手段からの通知を基に非ニュース素材候補がオペレータにより選択されていると判別した際に、その都度、前記学習モデルの更新を行うか、一定量の非ニュース素材候補が前記履歴情報リストに保存されたときに前記学習モデルの更新を行うか、前回更新時から所定期間経過したときに前記学習モデルの更新を行うかの少なくとも1つ以上の契機に基づいて、前記学習モデルの更新を行うよう制御することを特徴とする。
また、本発明によるプログラムは、コンピュータを、本発明のニュース素材抽出装置として機能させるためのプログラムである。
本発明によれば、膨大に投稿されるソーシャルメディア情報から自動でニュース素材を抽出することができる。特に、本発明によれば、教師有り機械学習により自動的に抽出したニュース素材となりうるソーシャルメディア情報をニュース素材候補として表示装置に提示するため、オペレータは、検索対象とした全てのソーシャルメディア情報を確認することなく、ニュース素材となりうる情報を効率よく取得できるようになる。
また、本発明によれば、ニュース素材候補がオペレータにより実際にニュース素材として採用されたか否かの実績情報を取得するためのユーザーインターフェース(UI)を表示装置に提示し、当該実績情報を基に、教師有り機械学習における学習モデルを自動的に更新するため、利用する用途によって学習モデルを精度よく更新し適応化させることができる。
本発明による一実施形態のニュース素材抽出装置の概略構成を示すブロック図である。 本発明による一実施形態のニュース素材抽出装置における本文素性生成部の概略構成を示すブロック図である。 本発明による一実施形態のニュース素材抽出装置における属性素性抽出部の概略構成を示すブロック図である。 本発明による一実施形態のニュース素材抽出装置における添付情報素性生成部の概略構成を示すブロック図である。 本発明による一実施形態のニュース素材抽出装置における履歴情報素性抽出部の概略構成を示すブロック図である。 本発明による一実施形態のニュース素材抽出装置の動作例を示すフローチャートである。 本発明による一実施形態のニュース素材抽出装置におけるニュース素材選択監視部及び学習モデル更新制御部の動作例を示すフローチャートである。 (a),(b)は、それぞれ本発明による一実施形態のニュース素材抽出装置における添付情報素性生成部の画像認識処理及び文字認識処理の説明図である。 本発明による一実施形態のニュース素材抽出装置における特徴ベクトルの説明図である。 本発明による一実施形態のニュース素材抽出装置におけるニュース素材候補提示部の説明図である。
以下、図面を参照して、本発明による一実施形態のニュース素材抽出装置1及びそのプログラムを説明する。
〔装置全体構成〕
図1は、本発明による一実施形態のニュース素材抽出装置1の概略構成を示すブロック図である。ニュース素材抽出装置1は、twitter(登録商標)やfacebook(登録商標)などのソーシャルメディアに発信される個々の情報(ソーシャルメディア情報)を取得可能に有線又は無線でネットワークに接続され、リアルタイムに取得する膨大数のソーシャルメディア情報のうちニュース素材となりうるソーシャルメディア情報を抽出し表示装置2へ提示する装置である。
特に、ニュース素材抽出装置1は、学習フェーズで、これまで報道現場等でオペレータが選択したソーシャルメディア情報(ニュース素材として実績のあるソーシャルメディア情報)を正例の教師データとして機械学習させておき、判定フェーズで新たに入力されるソーシャルメディア情報のうちニュース素材となりうるソーシャルメディア情報(ニュース素材候補)を当該機械学習により判定し、自動的にニュース素材候補を抽出して表示装置2へ提示する。
より具体的に、ニュース素材抽出装置1は、制御部11及び記憶部12により構成される。ニュース素材抽出装置1は、コンピュータとして機能させることができ、当該コンピュータに、制御部11の各構成要素を実現させるためのプログラムは、当該コンピュータのメモリに記憶される。当該コンピュータに備えられる中央演算処理装置(CPU)などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、当該メモリから読み込んで各構成要素の機能を当該コンピュータに実現させることができる。ここで、記憶部12は、当該メモリの一部の領域で構成することができる。
制御部11は、素性生成抽出部111、特徴ベクトル生成部112、学習モデル生成部113、機械学習判定部114、ニュース素材候補提示部115、ニュース素材選択監視部116、及び学習モデル更新制御部117を備える。
また、記憶部12は、特定語彙リストを格納する特定語彙データベース(DB)121、顔文字リストを格納する顔文字DB122、及び履歴情報リストを格納する履歴情報DB123の記憶領域を有する。
素性生成抽出部111は、個々のソーシャルメディア情報から特徴ベクトルの特徴量とする素性を生成又は抽出し、特徴ベクトル生成部112へ出力する機能部である。特徴ベクトルの生成に関する詳細は後述する。
特徴ベクトル生成部112は、素性生成抽出部111から得られる素性を特徴量としその素性の数に応じた次元数で構成される高次元の特徴ベクトルを生成し、学習フェーズでは学習モデル生成部113へ、判定フェーズでは機械学習判定部114へ出力する機能部である。尚、素性生成抽出部111及び特徴ベクトル生成部112は、後述する学習モデル更新制御部117によって新たに素性及び特徴ベクトルの更新を行うよう制御され、以下に説明する学習モデル生成部113における学習モデルの更新を行う。
学習モデル生成部113は、学習フェーズで、これまで報道現場等でオペレータが選択したソーシャルメディア情報(ニュース素材として実績のあるソーシャルメディア情報)を正例の教師データとして、特徴ベクトル生成部112から得られる特徴ベクトルにより機械学習を行い、その学習モデルを生成する機能部である。生成される学習モデルは、学習モデル生成部113から機械学習判定部114で利用可能に出力され、或いは機械学習判定部114で利用可能に記憶部12に保持される。機械学習は、サポートベクタ―マシン(SVM:Support Vector Machine)、決定木、ランダムフォレスト、及びディープニューラルネットワーク(DNN)などのアルゴリズムを利用したものとすることができる。
機械学習判定部114は、判定フェーズで、学習モデル生成部113で生成した学習モデルを用いて、新たに入力される多数のソーシャルメディア情報のうちニュース素材となりうるソーシャルメディア情報(ニュース素材候補)を当該機械学習により判定し、その判定結果を当該新たに入力されるソーシャルメディア情報に付与してニュース素材候補提示部115に出力する機能部である。ここで、機械学習判定部114は、ニュース素材候補であるか否かの判定により得られるニュース素材候補の確度の高さを示すスコアを当該新たに入力されるソーシャルメディア情報に付与してニュース素材候補提示部115に出力する。
ニュース素材候補提示部115は、機械学習判定部114により判定したニュース素材候補を抽出して表示装置2へ提示する。このとき、ニュース素材候補提示部115は、ニュース素材候補となるソーシャルメディア情報だけでなく、非ニュース素材として判定されたソーシャルメディア情報も提示する。そして、ニュース素材候補提示部115は、当該機械学習によりニュース素材候補であるか否かの判定により得られるニュース素材候補の確度の高さを示すスコアに応じて、表示装置2に対し所定閾値より高いスコアの当該ニュース素材候補については強調表示し、ニュース素材となりえない所定閾値より低いスコアのソーシャルメディア情報については非表示とするよう提示するのが好適である。これにより、オペレータが確認する総数を減少させることができる。
また、ニュース素材候補提示部115は、表示装置2に対しニュース素材候補を含むソーシャルメディア情報の提示を対話形式とするよう、表示装置2にはユーザーインターフェース(UI)部21が提示される。より具体的に、UI部21は操作用ダイアログで構成され、オペレータによりニュース素材として利用するとして選択するか否かを決定させるためのユーザーインターフェース(後述する図10に示す選択ボタンD2,D3等)も提示される。
ニュース素材選択監視部116は、ニュース素材候補提示部115が表示装置2に提示したソーシャルメディア情報と、UI部21を経てオペレータによりニュース素材として利用するものとして選択されたソーシャルメディア情報とを対応付けて監視する機能部である。この監視を経て、ニュース素材選択監視部116は、ニュース素材候補提示部115によりニュース素材候補として提示したソーシャルメディア情報、及び、オペレータにより選択されたソーシャルメディア情報をそのままそれぞれ識別可能に、尚且つ当該提示してからオペレータが選択するまでの時間を計測し、その計測時間の情報を当該学習モデルの更新時の素性に利用可能に付与して、履歴情報リストとして記憶部12の履歴情報DB123に保存する。このため、履歴情報DB123に保存された当該ソーシャルメディア情報は、オペレータによる操作で、随時、記憶部12から読み出し、表示装置2に表示することや、メンテナンス時には随時、記憶部12から削除することができる。
また、ニュース素材選択監視部116は、表示装置2に提示される同一のソーシャルメディア情報に対し、オペレータにより複数回選択された時(複数人のオペレータによる選択や、単一人のオペレータによる複数回の選択を含む)を識別できるように、その実績回数の情報も当該オペレータにより選択されたソーシャルメディア情報に付与して履歴情報リストとして記憶部12の履歴情報DB123に保存している。
また、ニュース素材選択監視部116は、UI部21を経てオペレータにより選択されたソーシャルメディア情報が機械学習判定部114によりニュース素材候補として判定したソーシャルメディア情報と一致しているか否かを示す情報を、自動的に学習モデル更新制御部117へ通知する。
学習モデル更新制御部117は、ニュース素材選択監視部116からの通知を受け付け、履歴情報DB123の履歴情報リストに保存された当該ソーシャルメディア情報を用いて学習モデルの更新を制御する機能部である。学習モデル更新制御部117は、ニュース素材選択監視部116からの通知を基に非ニュース素材候補がオペレータにより選択されていると判別した際に、その都度、学習モデルの更新を行うことができる。或いは、学習モデル更新制御部117は、一定量の非ニュース素材候補が履歴情報DB123内の履歴情報リストに保存されたときに学習モデルの更新を行うことができる。或いは、学習モデル更新制御部117は、前回更新時から所定期間経過したときに履歴情報DB123に保存された当該ソーシャルメディア情報を用いて学習モデルの更新を行うことができる。これらの学習モデルの更新の制御は、図7を参照して後述するが、外部設定によりいずれかの更新制御を行うよう一連の処理として構成することができる。
そして、学習モデル更新制御部117は、学習モデルの更新を行う際には、その旨を示す情報を素性生成抽出部111(より具体的には、後述する履歴情報素性抽出部500)、及び特徴ベクトル生成部112に出力することで制御する。これにより、特徴ベクトル生成部112は、判定フェーズの状態から学習フェーズの状態へと移行させ、素性生成抽出部111から履歴情報DB123に保存された当該ソーシャルメディア情報を用いて新たな素性で再構成した特徴量を取得し特徴ベクトルを改めて自動生成し、学習モデル生成部113へ出力する。
本実施形態のニュース素材抽出装置1は、上記の動作を全て自動的に行う全自動モードとして構成している。ただし、機械学習の結果はかならずしも100%の抽出精度とはならないことを考慮して、ニュース素材抽出装置1に半自動モードも設けることもできる。半自動モードでは、ニュース素材候補提示部115は機械学習の結果を履歴情報DB123へ自動保存せず表示装置2へ強調表示するのみであり、ニュース素材選択監視部116は、オペレータにより選択されたソーシャルメディア情報(ニュース素材候補及び非ニュース素材候補を含む)について履歴情報DB123に自動保存する。
以上のように、全自動モード及び半自動モードのいずれにおいても、オペレータにより選択されたソーシャルメディア情報は、学習モデルの更新時に自動的に利用される。例えば、表示装置2における当該判定結果を示す操作用ダイアログ上で、強調表示されたソーシャルメディア情報(ニュース素材候補)であるにも関わらずオペレータにより選択されなかった場合や、強調表示されていないソーシャルメディア情報(非ニュース素材候補)がオペレータにより選択された場合には、新たな特徴ベクトルの素性を構成するために有効である。また、特徴ベクトル生成部112は、強調表示されたソーシャルメディア情報が選択された場合はその素性を強化するように学習モデル生成部113に対し学習モデルを生成させることで、より頑健な機械学習が可能となる。
以下、図1に示す素性生成抽出部111の構成について、ソーシャルメディア情報としてtweet(登録商標)を対象とする例を、より具体的に説明する。
まず、tweet(登録商標)は、twitter(登録商標)社が行っているソーシャルネットワーキングサービス(SNS)における、ユーザーから投稿されるデータ(本文のテキスト、属性情報及び添付情報を含む)のことである。1つのtweet(登録商標)の本文は現在140字であり、ユーザーは自分の意見や状況をリアルタイムに投稿することができる。
このtweet(登録商標)内に、ニュース素材となりうる事件や事故の現場などに遭遇しており、その状況を伝えるものもある。そこで、本実施形態のニュース素材抽出装置1は、このニュース素材となりうるtweet(登録商標)を特定するために、これまで報道現場で利用したtweet(登録商標)を教師データとして機械学習した学習モデルを生成する。そして、ニュース素材抽出装置1は、教師有り学習で作成された学習モデルを用いて、新たに入力されたtweet(登録商標)からニュース素材となりうるtweet(登録商標)を抽出し、表示装置2を介してオペレータに提示する。
そこで、素性生成抽出部111は、tweet(登録商標)の本文情報から取得できる素性、属性情報から取得できる素性、tweet(登録商標)に添付される動画や静止画、或いは音声の添付情報から取得できる素性、及び、オペレータによりニュース素材候補を示す操作用ダイアログ上で選択されたtweet(登録商標)に関する履歴情報から取得できる素性から、大別して4種類の特徴量を生成又は抽出する。
このため、素性生成抽出部111は、当該4種類の特徴量を生成又は抽出するために本文素性生成部200、属性素性抽出部300、添付情報素性生成部400、及び履歴情報素性抽出部500を備える。以下、具体的に、素性生成抽出部111による当該4種類の特徴量の生成又は抽出について順に、図2乃至図5を参照して説明する。
〔本文素性生成部の構成〕
図2は、本発明による一実施形態のニュース素材抽出装置1における本文素性生成部200の概略構成を示すブロック図である。本文素性生成部200は、tweet(登録商標)本文のテキストデータに含まれる情報から、後述するように条件付き確率場(CRF:Conditional Random Fields)やSVMなどの機械学習ベースや、各種リストからの辞書ベースで素性を生成する。
本文素性生成部200は、形態素解析処理部201、n‐gram解析処理部202、n−gram素性決定部203、構文解析処理部204、係り受け素性決定部205、否定素性決定部206、URL抽出処理部207、URL_n‐gram解析処理部208、URL_n‐gram素性決定部209、固有表現抽出処理部210、固有表現素性決定部211、特定語彙抽出処理部212、特定語彙素性決定部213、顔文字抽出処理部214、及び顔文字素性決定部215を備える。
(本文のn‐gram素性)
形態素解析処理部201は、本文情報に対し、機械学習ベースで形態素解析処理を実行し、その結果をn‐gram解析処理部202及び構文解析処理部204へ出力する。n‐gram解析処理部202は、外部設定されるパラメータn1(言語単位数として1〜3)により当該形態素解析結果から構文上連続する形態素(或いは連続する文字)を解析し、その解析結果をn‐gram素性決定部203へ出力する。n‐gram素性決定部203は、パラメータn1に応じた構文上連続する形態素(或いは構文上連続する文字)の有無を判別し、構文上連続する形態素(或いは構文上連続する文字)が有るときは1、無いときは0とする2値の素性を本文のn‐gram素性として決定し特徴ベクトル生成部112へ出力する。例えば、パラメータn1=3とし、「A:渋谷で火事が起こっている」という本文からは、(「渋谷」、「で」、「火事」、「が」、「起こっている」)とする形態素に対し、n‐gram解析処理部202は、3gram以上、形態素が構文上連続していることを判別することができ、この場合にはn−gram素性決定部203はn‐gram素性として1を特徴ベクトル生成部112へ出力する。形態素解析処理の実行は、未知語の解析にも有効であり、適宜、記憶部12内の形態素解析処理に利用する所定のデータベース(図示せず)に記録する。
(本文内の名詞の係り受け素性)
構文解析処理部204は、形態素解析処理部201による本文情報に対する形態素解析処理の結果を基に構文解析処理を実行し、その構文内の名詞の係り受けパターンを係り受け素性決定部205及び否定素性決定部206へ出力する。例えば、構文解析処理により、係り受けパターンとして、「A:渋谷で火事が起こっている」という本文からは、(「A:渋谷」、「Aで起こる」)という2つ組のユーナリーパターンと、(「AでBが起こる」、「A:渋谷」、「B:火事」)という3つ組のバイナリーパターンが得られる。係り受け素性決定部205は、その係り受けパターンの有無を判別し、係り受けパターンが有るときは1とする2値の素性を係り受け素性として決定し特徴ベクトル生成部112へ出力する。
(本文の構文上の否定素性)
否定素性決定部206は、構文解析処理部204による本文情報に対する構文解析処理の結果を基に、その構文に対し否定判定処理を実行し、構文内の単語の係り先が否定表現であれば1とする2値の素性を否定素性として決定し特徴ベクトル生成部112へ出力する。例えば、「A:渋谷で火事が起こってない」という本文からは、否定素性決定部206は、否定表現であると判別することができ、否定素性として1を特徴ベクトル生成部112へ出力する。
(本文内URLのn‐gram素性)
本文内にニュース記事や放送番組、ブログの記事などのURLが記載されていることがある。そこで、URL抽出処理部207は、予め用意したURL取得用の正規表現を用いて、該当文字列を抽出し、URL_n‐gram解析処理部208へ出力する。例えば、「http」や「https」で始まり、「html」で終了する文字列が抽出対象となる。URL_n‐gram解析処理部208は、当該推定されたURLの半角文字列に対し“/”で分割した文字列を順に取得し、外部設定されるパラメータn2(言語単位数として1〜3)により連続するURL_n‐gramを取得し、その結果をURL_n‐gram素性決定部209へ出力する。例えば“http://www.nhk.or.jp/index.html”の場合、1gramは「www.nhk.or.jp」、「index.html」、2gramは「www.nhk.or.jp index.html」となる。
URL_n‐gram素性決定部209は、パラメータn2に応じたURL_n‐gramの有無を判別し、URL_n‐gramが有るときは1とする2値の素性を本文内URLのn‐gram素性として決定し特徴ベクトル生成部112へ出力する。
(本文内の地名、組織名、人名などの固有表現素性)
固有表現抽出処理部210は、本文情報に対し、機械学習ベース或いは辞書ベースで固有表現を探索し、その探索結果を固有表現素性決定部211へ出力する。固有表現素性決定部211は、当該探索結果から固有表現が有るときは1とする素性を固有表現素性として決定し特徴ベクトル生成部112へ出力する。機械学習ベースでは、新聞や文書等などから固有表現を抽出するためのコーパスが整備されており、SVMやCRFなどの教師有り学習アルゴリズムにより固有表現を抽出することができる。例えば、CRFを利用する場合、固有表現抽出を系列ラベル問題として解き、CRF++のようなツール(例えば、“CRF++:Yet Another CRF toolkit”、[online]、[平成28年4月13日検索]、インターネット〈https://taku910.github.io/crfpp/〉』参照) を利用することもできる。
(本文内の特定語彙素性)
特定語彙抽出処理部212は、特定語彙データベース(DB)121に格納される特定語彙リストを参照して、本文情報に対し、「火事」「殺人」「強盗」などのニュース素材として関連性の高い語彙(特定語彙)を探索し、その探索結果を特定語彙素性決定部213へ出力する。特定語彙素性決定部213は、当該探索結果から特定語彙が有るときは1とする素性を特定語彙素性として決定し特徴ベクトル生成部112へ出力する。特定語彙リストは、公開されているリスト(例えば、『ALAGIN 言語資源・音声資源サイト』、“負担・トラブル表現リスト”、[online]、[平成28年4月13日検索]、インターネット〈https://alaginrc.nict.go.jp/resources/nict-resource/li-info/li-outline.html〉』参照)を用いることもできる。
(本文内の顔文字素性)
本文内で、ユーザーの感情や自信の有無を表現する顔文字が用いられている場合がある。そこで、顔文字抽出処理部214は、顔文字DB122に格納される顔文字リストを参照して、本文情報に対し、顔文字を探索し、その探索結果を特定語彙素性決定部213へ出力する。特定語彙素性決定部213は、当該探索結果から顔文字表現の有無、またそれに対応する極性の素性を特定語彙素性として決定し特徴ベクトル生成部112へ出力する。例えば、顔文字を取得できれば、顔文字の素性が1となる。さらに極性を判定できる情報があれば、「(ToT)」は負の極性の素性を1となり、「(・∀・)」は正の極性の素性を1とする。また、顔文字抽出処理部214は、辞書ベースによらず、顔文字を表わす正規表現の抽出器や機械学習による抽出器を利用して、顔文字を探索し、その探索結果に肯定的、否定的、その中間を識別するフラグを付与して特定語彙素性決定部213へ出力するよう構成してもよい。
以上のように、本文素性生成部200は、本文情報から、n−gram素性、係り受け素性、否定素性、本文内URLのn‐gram素性、固有表現素性、特定語彙素性、及び顔文字素性を生成し、特徴ベクトル生成部112へ出力する。
〔属性素性抽出部の構成〕
図3は、本発明による一実施形態のニュース素材抽出装置1における属性素性抽出部300の概略構成を示すブロック図である。属性素性抽出部300は、tweet(登録商標)本文に係るJSON形式の属性情報から、様々な属性に基づく素性を抽出する。本実施形態の例では以下のものであるが、当該属性情報に含まれる全ての属性を利用することができる。
属性素性抽出部300は、発信時刻抽出処理部301、発信時刻素性決定部302、GPS情報抽出処理部303、発信都道府県素性決定部304、引用判定処理部305、引用素性決定部306、居住地情報抽出処理部307、居住都道府県素性決定部308、フォロー数・フォロワー数抽出処理部309、フォロー数・フォロワー数素性決定部310、過去発現数抽出処理部311、過去発現数素性決定部312、アカウント作成日抽出処理部313、アカウント作成日素性決定部314、ユーザー名ボット判定処理部315、及びボット素性決定部316を備える。
(発信時刻素性)
発信時刻抽出処理部301は、属性情報からtweet(登録商標)が発信された時刻を抽出し、発信時刻素性決定部302へ出力する。発信時刻素性決定部302は、当該抽出された発信時刻の情報を24時間刻みで区分し、この区分した数値の素性を発信時刻素性として決定し特徴ベクトル生成部112へ出力する。例えば、「23時30分」の発信時刻の場合には、「24」は1とする素性となる。
(発信都道府県素性)
GPS情報抽出処理部303は、属性情報からGPS(Global Positioning System)情報を抽出し、発信都道府県素性決定部304へ出力する。発信都道府県素性決定部304は、当該抽出されたGPS情報を基に47都道府県を識別可能とする数値の素性を発信都道府県素性として決定し特徴ベクトル生成部112へ出力する。例えば、GPS情報から「世田谷区砧」が特定された場合には、「東京」に1とする素性となる。
(引用素性)
引用判定処理部305は、属性情報から発信されたtweet(登録商標)がリツィートであるか否か、即ち引用であるか否かの情報を抽出し、引用素性決定部306へ出力する。引用素性決定部306は、当該抽出された情報を基に引用であるか否かを識別可能とする数値の素性を引用素性として決定し特徴ベクトル生成部112へ出力する。例えば、発信されたtweet(登録商標)がリツィートである場合には1とする素性となる。
(居住都道府県素性)
居住地情報抽出処理部307は、属性情報から居住地情報を抽出し居住都道府県素性決定部308へ出力する。居住都道府県素性決定部308は、当該抽出された居住地情報を基に47都道府県を識別可能とする数値の素性を居住都道府県素性として決定し特徴ベクトル生成部112へ出力する。例えば、居住地情報から「世田谷区砧」が特定された場合には、「東京」に1とする素性となる。
(フォロー数・フォロワー数素性)
フォロー数・フォロワー数抽出処理部309は、属性情報からフォロー数とフォロワー数の情報を抽出し、フォロー数・フォロワー数素性決定部310へ出力する。フォロー数・フォロワー数素性決定部310は、当該フォロー数とフォロワー数の情報をそれぞれ例えば10倍刻みで区分し、この区分した数値のそれぞれの素性を連結したフォロー数・フォロワー数素性として決定し特徴ベクトル生成部112へ出力する。例えば、フォロー数について、それぞれ10、100、1000、100000で区分する10倍刻みの素性とすると、フォロワー数が150人であった場合には「1000」を示すビット列「1,0,0,0」とする素性となる。ただし、このような素性の量子化は任意設定可能とする。尚、フォロー数とフォロワー数の素性の連結は、その順序を逆としてもよいし、いずれか一方のみを素性としてもよい。フォロー数及びフォロワー数が多いほど信頼性が高いとする指標となる。
(過去発言数素性)
過去発現数抽出処理部311は、属性情報から当該tweet(登録商標)のユーザーID(又はユーザー名)による過去の発言数の情報を抽出し、過去発現数素性決定部312へ出力する。過去発現数素性決定部312は、当該過去の発言数の情報を例えば10倍刻みで区分し、この区分した数値の素性を過去発現数素性として決定し特徴ベクトル生成部112へ出力する。例えば、過去の発言数について、それぞれ10、100、1000、100000で区分する10倍刻みの素性とすると、過去の発言数が13回であった場合には「100」を示すビット列「1,0,0」とする素性となる。ただし、このような素性の量子化は任意設定可能とする。過去の発言数が多いほど信頼性が高いとする指標となる。
(アカウント作成日素性)
アカウント作成日抽出処理部313は、属性情報から当該tweet(登録商標)のアカウントの作成日を示す情報を抽出し、アカウント作成日素性決定部314へ出力する。アカウント作成日素性決定部314は、当該アカウント作成日の情報をそのままアカウント作成日素性として決定し特徴ベクトル生成部112へ出力する。当該アカウント作成日の情報は古いほど信頼性が高いとする指標となる。
(ボット素性)
ユーザー名ボット判定処理部315は、属性情報から当該tweet(登録商標)のユーザー名の情報を抽出し、例えば特定の時間に自動でtweet(登録商標)するようなボットであるか否かを示すボット判定処理を実行して、その判定結果をボット素性決定部316へ出力する。ボット素性決定部316は、当該ボット判定処理の判定結果を基に、ボットでないときは1、ボットであるときは0とする2値の素性をボット素性として決定し特徴ベクトル生成部112へ出力する。ボット判定処理は、自動でtweet(登録商標)を投稿するボットである可能性が高い所定の文字列、例えば「bot」などが含まれているか否かを判定する文字n‐gram解析処理である。ボットであるとして判定されるものは信頼性が低いとする指標となる。
以上のように、属性素性抽出部300は、添付情報から、ニュース素材の特徴量として関連性の高いものとなるよう、少なくとも発信時刻素性、発信都道府県素性、引用素性決定、及び居住都道府県素性を抽出する。より好適に、属性素性抽出部300は、添付情報から、ニュース素材としてその信頼性を特徴量として示すものとなるよう、フォロー数・フォロワー数素性、過去発現数素性、アカウント作成日素性、及びボット素性を更に抽出し、特徴ベクトル生成部112へ出力する。
〔添付情報素性生成部の構成〕
図4は、本発明による一実施形態のニュース素材抽出装置1における添付情報素性生成部400の概略構成を示すブロック図である。Twitter(登録商標)には、「Video on Twitter」と呼ばれる動画や静止画、音声を添付情報として投稿できる機能が追加されている。そこで、添付情報素性生成部400は、この添付情報に含まれている音声の音声認識結果の文字列、動画や静止画に映っている看板等の文字認識結果の文字列、パトカーや消防車などの事故に関連する指定オブジェクトの有無を素性として生成する。
添付情報素性生成部400は、画像認識処理部401、指定オブジェクト素性決定部402、文字認識処理部403、形態素解析処理部404、画像内n‐gram解析処理部405、画像内n‐gram素性決定部406、音声認識処理部407、文字認識処理部408、形態素解析処理部409、音声内n‐gram解析処理部410、及び音声内n‐gram素性決定部411を備える。
(指定オブジェクト素性)
画像認識処理部401は、ソーシャルメディア情報(tweet(登録商標))内の添付情報に動画又は静止画が含まれているか否かを判定し、動画又は静止画が含まれている際に、動画の或るフレーム画像又は静止画に対し消防車やパトカーなどの指定オブジェクト、及び看板等の文字表示体の抽出に関する画像認識処理を実行し、指定オブジェクトの抽出処理の結果を指定オブジェクト素性決定部402へ、看板等の文字表示体の抽出の結果を文字認識処理部403へ出力する。指定オブジェクト素性決定部402は、画像認識処理の処理結果を基に当該指定オブジェクトが有る場合には1、無い場合には0とする素性を指定オブジェクト素性として決定し特徴ベクトル生成部112へ出力する。
指定オブジェクトや文字表示体の抽出に関する画像認識処理として、例えば画像に映っているオブジェクトを画像解析して認識する技法を利用することができる(例えば、特許第5243888号明細書、特開2013−120482号公報、特開2014−99027号公報、或いは『一般財団法人NHKエンジニアリングシステム、“画像解析によるオブジェクト認識技術”、[online]、[平成28年4月13日検索]、インターネット〈http://www.nes.or.jp/transfer/catalog/2016/01/49a/〉』参照)。
例えば、図8(a)に示すように、画像認識処理部401は、添付情報内の画像F1に対し指定オブジェクトの抽出に関する画像認識処理を実行すると、“消防車”S1や“パトカー”S2の存在の有無を検出することができる。
また、図8(b)に示すように、画像認識処理部401は、添付情報内の画像F2に対し看板等の文字表示体の抽出に関する画像認識処理を実行すると、“ラジオ”S3,“秋葉原”S4,“テレビ”S5等の文字領域を検出し、テキストデータ形式の文字列へと変換することができる。
(画像内n‐gram素性)
文字認識処理部403は、画像認識処理部401による動画又は静止画が含まれている際の看板等の文字表示体の抽出の結果を基に、動画の或るフレーム画像又は静止画に対し文字認識処理を実行し、その文字列を抽出して形態素解析処理部404へ出力する。形態素解析処理部404は、当該文字列に対し、機械学習ベースで形態素解析処理を実行し、その結果を画像内n‐gram解析処理部405へ出力する。画像内n‐gram解析処理部405は、外部設定されるパラメータn3(言語単位数として1〜3)により当該形態素解析結果から構文上連続する形態素(或いは連続する文字)を解析し、その解析結果を画像内n‐gram素性決定部406へ出力する。画像内n‐gram素性決定部406は、パラメータn3に応じた構文上連続する形態素(或いは構文上連続する文字)の有無を判別し、構文上連続する形態素(或いは構文上連続する文字)が有るときは1、無いときは0とする2値の素性を画像内n‐gram素性として決定し特徴ベクトル生成部112へ出力する。
尚、文字認識のアルゴリズムとしては、様々な既存の処理を利用できる(例えば、“大町真一郎ほか、実環境文字認識のための面積比による付加情報埋込、電子情報通信学会論文誌,D,情報・システム電子情報通信学会論文誌.D,情報・システム J90-(12),pp.6‐3256,2007年12月1日”参照)。
このように、添付情報に動画や静止画があり、看板等の文字表示体の情報がある場合に、その情報を素性として利用することで、例えばGPS情報がないときや、tweet(登録商標)本文に該当情報がない場合にも、その添付情報からニュース素材となりうる情報やその場所を特定する情報を得ることが可能となる。
(音声内n‐gram素性)
添付情報に添付される動画には音声が収録されていることもある。そこで、音声認識処理部407は、tweet(登録商標)内の添付情報に音声が含まれているか否かを判定し、音声が含まれている際に、その音声データを抽出して文字認識処理部408へ出力する。文字認識処理部408は、画像認識処理部401による抽出した音声データに対し文字認識処理を実行し、その文字列を抽出して形態素解析処理部409へ出力する。形態素解析処理部409は、当該文字列に対し、機械学習ベースで形態素解析処理を実行し、その結果を音声内n‐gram解析処理部410へ出力する。音声内n‐gram解析処理部410は、外部設定されるパラメータn4(言語単位数として1〜3)により当該形態素解析結果から構文上連続する形態素(或いは連続する文字)を解析し、その解析結果を音声内n‐gram素性決定部411へ出力する。
音声内n‐gram素性決定部411は、パラメータn4に応じた構文上連続する形態素(或いは構文上連続する文字)の有無を判別し、構文上連続する形態素(或いは構文上連続する文字)が有るときは1、無いときは0とする2値の素性を音声内n‐gram素性として決定し特徴ベクトル生成部112へ出力する。例えば、「あ、電気街が火事みたい。煙がいっぱい上がっている。」などの音声認識結果に基づく文字列の構文を、tweet(登録商標)本文の形態素解析によるn−gram判定と同様に素性とすることで、「電気街」、「火事」、「煙」などのニュース素材となりうる情報を取得できる。音声認識処理には、雑音状況下にロバストなアルゴリズムを利用することが望ましい。
以上のように、添付情報素性生成部400は、添付情報から、指定オブジェクト素性、画像内n‐gram素性、及び音声内n‐gram素性を生成し、特徴ベクトル生成部112へ出力する。
〔履歴情報素性抽出部の構成〕
図5は、本発明による一実施形態のニュース素材抽出装置1における履歴情報素性抽出部500の概略構成を示すブロック図である。本実施形態のニュース素材抽出装置1に対する利用現場での実績は、上述したように、図1に示すニュース素材選択監視部116の処理によって、自動的に履歴情報リストとして記憶部12の履歴情報DB123に保存される。
即ち、ニュース素材選択監視部116は、当該ニュース素材候補として提示したソーシャルメディア情報、及び、オペレータにより選択されたソーシャルメディア情報をそのままそれぞれ識別可能とし、尚且つ当該提示してからオペレータが選択するまでの時間を計測し、その計測時間の情報を付与する態様で、履歴情報リストとして記憶部12の履歴情報DB123に保存している。
また、ニュース素材選択監視部116は、表示装置2に提示される同一のソーシャルメディア情報に対し、オペレータにより複数回選択された時(複数人のオペレータによる選択や、単一人のオペレータによる複数回の選択を含む)を識別できるように、その実績回数の情報も当該オペレータにより選択されたソーシャルメディア情報に付与して履歴情報リストとして記憶部12の履歴情報DB123に保存している。また、履歴情報リストには、初期学習時点の学習フェーズで正例又は負例としたソーシャルメディア情報(例えば、tweet(登録商標))も格納されている。
そこで、履歴情報素性抽出部500は、これまでにニュース記事として採用したユーザー名(或いはユーザーID)であるか否かなどの実績を素性に利用することで、ニュース素材候補の抽出精度及びその信頼性を向上させる。
履歴情報素性抽出部500は、ユーザー名履歴判定処理部501、ユーザー名履歴素性決定部502、提示選択時間判定処理部503、提示選択時間素性決定部504、実績回数判定処理部505、及び実績回数素性決定部506を備える。
(ユーザー名履歴素性)
ユーザー名履歴判定処理部501は、学習フェーズ及び判定フェーズで、当該tweet(登録商標)の属性情報から当該tweet(登録商標)のユーザー名(又はユーザーID)を抽出し、履歴情報リストを参照してこれまでにニュース記事(即ち、ニュース素材)として採用したユーザー名(又はユーザーID)であるか否かを判定し、その判定結果をユーザー名履歴素性決定部502へ出力する。ユーザー名履歴素性決定部502は、ユーザー名履歴判定処理部501による判定結果を基に、採用実績の有るユーザー名(又はユーザーID)であるときは1とする素性をユーザー名履歴素性として決定し特徴ベクトル生成部112へ出力する。
(提示選択時間素性)
提示選択時間判定処理部503は、学習フェーズで、履歴情報リストを参照して正例とする当該tweet(登録商標)に関して、ニュース素材候補を提示してからオペレータが選択するまでの計測時間(提示選択時間)の情報を抽出し、その提示選択時間の情報を提示選択時間素性決定部504へ出力する。
提示選択時間素性決定部504は、当該抽出された提示選択時間の情報をそのまま提示選択時間素性として決定し、当該提示選択時間素性を特徴ベクトル生成部112へ出力する。尚、学習フェーズで履歴情報リストを参照して負例とする当該tweet(登録商標)に関しては、提示選択時間の情報を付与しないか、或いは長時間の数値が割り当てられている。即ち、当該提示選択時間素性を提示してからオペレータが選択するまでの時間として長時間化するほど事実確認されている可能性があるため、提示選択時間判定処理部503は、当該提示選択時間素性の信頼性が高いなどの指標として学習できるようにする。当該抽出された提示選択時間の情報は秒単位で表される。
(実績回数素性)
実績回数判定処理部505は、学習フェーズで、履歴情報リストを参照して正例とする当該tweet(登録商標)に関して、オペレータにより複数回選択された回数(複数人のオペレータによる選択や、単一人のオペレータによる複数回の選択を含む)を識別できる実績回数の情報を抽出し、その実績回数の情報を実績回数素性決定部506へ出力する。実績回数素性決定部506は、当該抽出された提示選択時間の情報をそのまま提示選択時間素性として決定し特徴ベクトル生成部112へ出力する。尚、学習フェーズで負例とする当該tweet(登録商標)に関しては、実績回数の情報を付与しないか、或いは実績回数として0回の数値が割り当てられている。即ち、実績回数が多いほど信頼性が高いものとして学習できるようにする。例えば、報道現場では、同じtweet(登録商標)を複数人のオペレータが選択することがある。また、単一人のオペレータであっても、複数回で選択されたtweet(登録商標)は、機械学習時に強化させることができる。
以上のように、添付情報素性生成部400は、履歴情報リストからのニュース素材に関する実績情報を基に、ユーザー名履歴素性、提示選択時間素性、及び実績回数素性を抽出し、特徴ベクトル生成部112へ出力する。
図1に示す素性生成抽出部111は、上記大別して4種類に分類される各素性を生成又は抽出し、これらをすべて接続することにより、大別して4種類の特徴量を持つ特徴ベクトルを生成する。この大別して4種類の各素性にそれぞれ重みを加えることも可能である。最終的な特徴ベクトルの次元数は、当該大別して4種類の各素性を特徴量とするベクトルの次元の総和となる。例えば、図9に示すように、最終的な特徴ベクトルは、各ソーシャルメディア情報(例えば、tweet(登録商標))に正例(+1)及び負例(−1)を示すフラグに続いて、素性が存在する次元番号を示す数値列で表現することができる。この正例(+1)及び負例(−1)を示すフラグは学習フェーズで利用され、学習モデル更新制御部117は、学習モデルの更新時に、このフラグの値や上記素性の数値を書き換えるよう、素性生成抽出部111及び特徴ベクトル生成部112を制御する。
〔装置全体動作〕
次に、本実施形態のニュース素材抽出装置1の全体動作について、図6を参照して説明する。図6は、本発明による一実施形態のニュース素材抽出装置1の動作を示すフローチャートである。
ニュース素材抽出装置1は、学習モデルを生成するための学習フェーズと、学習モデルを用いて各ソーシャルメディア情報がニュース素材となりうるか否かを判定する判定フェーズがある。このため、ニュース素材抽出装置1は、学習モデルを生成するための初期学習が必要であるが、一旦学習モデルが生成されると直ちに判定フェーズへ移行でき、更に学習モデルを自動的に更新する。このときの動作の一例を図6に示している。
図6を参照するに、ニュース素材抽出装置1は、学習モデル更新制御部117の制御によって、学習フェーズを実行するか否かを判定する(ステップS1)。学習モデルが無いときの初期学習時や学習モデルの更新時に、学習モデル更新制御部117は、学習フェーズを実行するよう素性生成抽出部111及び特徴ベクトル生成部112を制御する(ステップS1:Yes)。一方、学習モデルが有り、学習モデルの更新時ではないとき、学習モデル更新制御部117はステップS5へ移行する(ステップS1:No)。
続いて、ニュース素材抽出装置1は、素性生成抽出部111により、履歴情報リストに含まれている正例・負例のソーシャルメディア情報から素性を生成及び抽出する(ステップS2)。
続いて、ニュース素材抽出装置1は、特徴ベクトル生成部112により、当該生成及び抽出した素性から特徴ベクトルを生成する(ステップS3)。
続いて、ニュース素材抽出装置1は、学習モデル生成部113により、当該生成した特徴ベクトルを用いて教師有り機械学習を実行し、学習モデルを生成する(ステップS4)。
学習モデルが生成されると、自動的に、ニュース素材抽出装置1は、判定フェーズに移行する(ステップS5)。
判定フェーズに移行すると、ニュース素材抽出装置1は、素性生成抽出部111により、入力されるソーシャルメディア情報から素性を生成及び抽出する(ステップS6)。
続いて、ニュース素材抽出装置1は、特徴ベクトル生成部112により、当該入力されるソーシャルメディア情報について生成及び抽出した素性から特徴ベクトルを生成する(ステップS7)。
続いて、ニュース素材抽出装置1は、機械学習判定部114により、学習モデルを用いて機械学習による判定処理を実行し、ニュース素材候補提示部115により、ニュース素材候補となるソーシャルメディア情報と非ニュース素材として判定されたソーシャルメディア情報を併せて表示装置2に提示する(ステップS8)。
続いて、ニュース素材抽出装置1は、ニュース素材選択監視部116により、表示装置2のUIB21を経てオペレータによるニュース素材の選択実績を監視し、学習モデル更新制御部117に通知することで、学習モデル更新制御部117による学習モデル更新制御を実行するようステップS1へ移行する(ステップS9)。
(UI部の構成例)
まず、図1に示すニュース素材候補提示部115は、表示装置2に対し、図10に例示するような対話形式の操作用ダイアログDwでUI部21を構成し、ソーシャルメディア情報を提示することができる。
特に、図10に例示するように、ニュース素材抽出装置1に逐次流入してくるソーシャルメディア情報のうち、機械学習判定部114により判定したニュース素材候補のソーシャルメディア情報I3については操作用ダイアログDw内で強調表示される(図示D1の他と異なる領域色)。換言すれば、強調表示されていないソーシャルメディア情報I1,I2,I4,I5は、機械学習判定部114により非ニュース素材として判定されたものであり、オペレータはニュース素材候補であるか否かを容易に判別できるようになっている。尚、操作用ダイアログDw(UI部21)にて提示するソーシャルメディア情報の数は一定量に制限され、ソーシャルメディア情報が流入される度に逐次更新される。
また、図10に例示する操作用ダイアログDw内に提示されるソーシャルメディア情報(本例ではtweet(登録商標))I1〜I5等の各々には、オペレータによりニュース素材として利用するとして選択するか否かを決定させるための選択ボタン(図示D2,D3等)も提示される。
また、図10に例示するように、ニュース素材候補提示部115の制御により、ニュース素材となりえないtweet(登録商標)は非表示としている。これにより、オペレータが確認する総数を減少させている。
そして、図1に示すニュース素材選択監視部116は、オペレータによる選択実績を監視しており、ニュース素材候補として判定したソーシャルメディア情報と一致しているか否かを示す情報を自動的に学習モデル更新制御部117に通知するようになっている。
(学習モデルの更新動作例)
そこで、図10で例示する操作用ダイアログDwを参照しながら、図7を参照してニュース素材選択監視部116及び学習モデル更新制御部117による動作例を説明する。図7は、本実施形態のニュース素材抽出装置1におけるニュース素材選択監視部116及び学習モデル更新制御部117の動作例を示すフローチャートである。
まず、ニュース素材選択監視部116は、操作用ダイアログDw(UI部21)にて、選択ボタン(例えば図示D2,D3)を経てオペレータにより、ニュース素材候補又は非ニュース素材候補のソーシャルメディア情報(図10に示す例ではtweet(登録商標))が選択されるのを監視する(ステップS11)。
続いて、ニュース素材選択監視部116は、ニュース素材候補又は非ニュース素材候補のtweet(登録商標)の選択を検知すると、その旨を学習モデル更新制御部117に通知する。この通知を受け付けた学習モデル更新制御部117は、事前の外部設定に基づいて、学習モデルを直ちに更新するか否かを判定する(ステップS12)。学習モデルを直ちに更新するときは(ステップS12:Yes)、ステップS15に移行する。尚、ニュース素材選択監視部116は、個々のtweet(登録商標)の選択回数を履歴情報DB123の履歴情報リストに記録する。また、本例では、ニュース素材選択監視部116は、自動的にニュース素材候補を履歴情報リストに記録し、非ニュース素材候補の選択を検知したときには、非ニュース素材候補のtweet(登録商標)も履歴情報リストに記録する。
続いて、学習モデル更新制御部117は、学習モデルを直ちに更新しない場合(ステップS12:No)、尚且つ非ニュース素材候補の選択の検知の通知を受け付けた場合に、履歴情報リストに非ニュース素材候補が一定量蓄積されているか否かを判定する(ステップS13)。非ニュース素材候補が一定量蓄積されている場合(ステップS13:Yes)、ステップS15に移行する。
続いて、学習モデル更新制御部117は、非ニュース素材候補が一定量蓄積されていない場合(ステップS13:No)、前回更新時から所定期間経過したか否かを判定する(ステップS14)。前回更新時から所定期間経過していない場合にはステップS1に移行し、前回更新時から所定期間経過している場合にはステップS15に移行する。
ステップS15において、学習モデル更新制御部117は、学習モデルの更新を実行する。
このように、表示装置2におけるニュース素材候補を示すtweet(登録商標)の提示を対話形式とすることで、オペレータにより選択されたtweet(登録商標)の情報は、学習モデルの更新時に利用できる。ニュース素材候補として判定したtweet(登録商標)や、オペレータにより選択されたtweet(登録商標)は、そのまま記憶部12に保存される。例えば、強調表示されたtweet(登録商標)であるにも関わらず選択されなかった場合や、強調表示されていないtweet(登録商標)が選択された場合には、新たな特徴ベクトルの素性を構成するために有効である。尚、強調表示されたtweet(登録商標)が選択された場合は、学習モデル更新制御部117は、その素性を強化するように素性生成部111及び特徴ベクトル112を制御して、学習モデル生成部113により教師有り機械学習による学習モデルを生成させる。
以上のように構成した本実施形態のニュース素材抽出装置1及びそのプログラムによれば、膨大に投稿されるソーシャルメディア情報から自動でニュース素材(或いはニュース素材候補)を抽出することができる。
特に、本実施形態のニュース素材抽出装置1及びそのプログラムによれば、教師有り機械学習により自動的に抽出したニュース素材となりうるソーシャルメディア情報をニュース素材候補として表示装置2に提示するため、オペレータは、検索対象とした全てのソーシャルメディア情報を確認することなく、ニュース素材となりうる情報を取得できるようになる。
また、本実施形態のニュース素材抽出装置1及びそのプログラムによれば、ニュース素材候補がオペレータにより実際にニュース素材として採用されたか否かの実績情報を取得するためのUI部21を表示装置2に提示し、当該実績情報を基に、教師有り機械学習における学習モデルを自動的に更新するため、利用する用途によって学習モデルを精度よく更新し適応化させることができる。
以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述した実施形態の例では、主として、提示するニュース素材候補を含むソーシャルメディア情報について、オペレータによる選択を可能とする対話形式の例を説明したが、当該ニュース素材候補を単に記憶部12の所定の格納領域へ蓄積するのみの構成としてもよい。この場合、オペレータによって、随意、当該記憶部12の所定の格納領域に蓄積されたニュース素材候補を確認できるようにする。これにより、オペレータの探索負担を軽減させることができる。
また、上述した実施形態の例では、オペレータによる選択をトリガとして学習モデルの更新を行う例を主として説明したが、随意、オペレータは、学習モデルの更新を行うようニュース素材抽出装置1に対し指示することができる。当該指示を受け付けたニュース素材抽出装置1は、学習モデル更新制御部117の制御を実行させて学習モデルを更新する。
また、上述した実施形態の例では、放送番組に用いることを意図してソーシャルメディア情報から自動でニュース素材(或いはニュース素材候補)を抽出する例を説明したが、このようなニュース素材は、警察、消防、新聞社等によるニュース素材の探索用途にも適応化させることができる。
本発明によれば、膨大に投稿されるソーシャルメディア情報から自動でニュース素材(或いはニュース素材候補)を抽出することができるので、ニュース素材の探索を要する用途に有用である。
1 ニュース素材抽出装置
2 表示装置
11 制御部
12 記憶部
21 ユーザーインターフェース(UI)部
111 素性生成抽出部
112 特徴ベクトル生成部
113 学習モデル生成部
114 機械学習判定部
115 ニュース素材候補提示部
116 ニュース素材選択監視部
117 学習モデル更新制御部
121 特定語彙データベース(DB)
122 顔文字DB
123 履歴情報DB
200 本文素性生成部
201 形態素解析処理部
202 n‐gram解析処理部
203 n−gram素性決定部
204 構文解析処理部
205 係り受け素性決定部
206 否定素性決定部
207 URL抽出処理部
208 URL_n‐gram解析処理部
209 URL_n‐gram素性決定部
210 固有表現抽出処理部
211 固有表現素性決定部
212 特定語彙抽出処理部
213 特定語彙素性決定部
214 顔文字抽出処理部
215 顔文字素性決定部
300 属性素性抽出部
301 発信時刻抽出処理部
302 発信時刻素性決定部
303 GPS情報抽出処理部
304 発信都道府県素性決定部
305 引用判定処理部
306 引用素性決定部
307 居住地情報抽出処理部
308 居住都道府県素性決定部
309 フォロー数・フォロワー数抽出処理部
310 フォロー数・フォロワー数素性決定部
311 過去発現数抽出処理部
312 過去発現数素性決定部
313 アカウント作成日抽出処理部
314 アカウント作成日素性決定部
315 ユーザー名ボット判定処理部
316 ボット素性決定部
400 添付情報素性生成部
401 画像認識処理部
402 指定オブジェクト素性決定部
403 文字認識処理部
404 形態素解析処理部
405 画像内n‐gram解析処理部
406 画像内n‐gram素性決定部
407 音声認識処理部
408 文字認識処理部
409 形態素解析処理部
410 音声内n‐gram解析処理部
411 音声内n‐gram素性決定部
500 履歴情報素性抽出部
501 ユーザー名履歴判定処理部
502 ユーザー名履歴素性決定部
503 提示選択時間判定処理部
504 提示選択時間素性決定部
505 実績回数判定処理部
506 実績回数素性決定部

Claims (12)

  1. 多数のソーシャルメディア情報のうち教師有り機械学習によりニュース素材となりうるソーシャルメディア情報を自動的に抽出するニュース素材抽出装置であって、
    個々のソーシャルメディア情報から特徴ベクトルの特徴量とする素性を生成又は抽出する素性生成抽出手段と、
    前記素性を特徴量とし前記素性の数に応じた次元数で構成される特徴ベクトルを生成する特徴ベクトル生成手段と、
    ニュース素材として実績のあるソーシャルメディア情報を正例の教師データとして前記特徴ベクトルにより機械学習を行い、学習モデルを生成する学習モデル生成手段と、
    判定対象として入力される当該個々のソーシャルメディア情報に対し、前記学習モデルを用いた当該機械学習によりニュース素材となりうるソーシャルメディア情報であるか否かを判定する機械学習判定手段と、
    前記機械学習判定手段の判定結果を基に、ニュース素材となりうるソーシャルメディア情報をニュース素材候補として表示装置に提示するか、又は所定の記憶部に蓄積するニュース素材提示・記憶手段と、
    を備えることを特徴とするニュース素材抽出装置。
  2. 前記素性生成抽出手段は、前記ソーシャルメディア情報内の本文情報から、所定のn−gram素性、所定の係り受け素性、所定の否定素性、所定の本文内URLのn‐gram素性、所定の固有表現素性、所定の特定語彙素性、及び所定の顔文字素性を生成する手段を有することを特徴とする、請求項1に記載のニュース素材抽出装置。
  3. 前記素性生成抽出手段は、前記ソーシャルメディア情報内の添付情報から、所定の指定オブジェクト素性、所定の画像内n‐gram素性、及び所定の音声内n‐gram素性を抽出する手段を有することを特徴とする、請求項1又は2に記載のニュース素材抽出装置。
  4. 前記素性生成抽出手段は、前記ソーシャルメディア情報内の属性情報から、所定の発信時刻素性、所定の発信都道府県素性、所定の引用素性決定、及び所定の居住都道府県素性を抽出する手段を有することを特徴とする、請求項1から3のいずれか一項に記載のニュース素材抽出装置。
  5. 前記素性生成抽出手段は、前記ソーシャルメディア情報内の属性情報から、所定のフォロー数・フォロワー数素性、所定の過去発現数素性、所定のアカウント作成日素性、及び所定のボット素性を抽出する手段を有することを特徴とする、請求項4に記載のニュース素材抽出装置。
  6. 前記素性生成抽出手段は、ニュース素材に関する実績情報を基に、所定のユーザー名履歴素性、所定の提示選択時間素性、及び所定の実績回数素性を抽出する手段を有することを特徴とする、請求項1から5のいずれか一項に記載のニュース素材抽出装置。
  7. 前記ニュース素材提示・記憶手段は、前記機械学習判定手段の判定結果を基に前記表示装置へ提示するソーシャルメディア情報のうち、前記ニュース素材候補のソーシャルメディア情報を強調表示するよう前記表示装置へ提示するニュース素材候補提示手段を有することを特徴とする、請求項1から6のいずれか一項に記載のニュース素材抽出装置。
  8. 前記ニュース素材候補提示手段は、当該機械学習によりニュース素材候補であるか否かの判定により得られるニュース素材候補の確度の高さを示すスコアに応じて、前記表示装置に対し所定閾値より高いスコアの当該ニュース素材候補については強調表示し、所定閾値より低いスコアのソーシャルメディア情報については非表示とするよう提示することを特徴とする、請求項7に記載のニュース素材抽出装置。
  9. 前記ニュース素材候補提示手段は、前記操作用ダイアログ上でオペレータによりニュース素材として利用するとして選択するか否かを決定させるためのユーザーインターフェースを含む対話形式の操作用ダイアログで当該ニュース素材候補及び非ニュース素材候補のソーシャルメディア情報を提示することを特徴とする、請求項7又は8に記載のニュース素材抽出装置。
  10. 前記ニュース素材提示・記憶手段は、前記ニュース素材候補提示手段により前記対話形式の操作用ダイアログで提示する当該ニュース素材候補及び非ニュース素材候補のソーシャルメディア情報について、当該オペレータによりニュース素材として利用するものとして選択されたソーシャルメディア情報とを対応付けて監視し、当該ニュース素材候補及び当該オペレータによりニュース素材として利用するものとして選択されたソーシャルメディア情報を識別可能に、尚且つ当該提示してからオペレータが選択するまでの時間を計測し、当該計測した時間の情報を前記学習モデルの更新時の素性に利用可能に付与して当該所定の記憶部に履歴情報リストとして保存するニュース素材選択監視手段を更に備えることを特徴とする、請求項9に記載のニュース素材抽出装置。
  11. 前記学習モデルの更新を行うよう前記素性生成抽出手段及び前記特徴ベクトル生成手段を制御する学習モデル更新制御手段を更に備え、
    前記学習モデル更新制御手段は、前記ニュース素材選択監視手段からの通知を基に非ニュース素材候補がオペレータにより選択されていると判別した際に、その都度、前記学習モデルの更新を行うか、一定量の非ニュース素材候補が前記履歴情報リストに保存されたときに前記学習モデルの更新を行うか、前回更新時から所定期間経過したときに前記学習モデルの更新を行うかの少なくとも1つ以上の契機に基づいて、前記学習モデルの更新を行うよう制御することを特徴とする、請求項10に記載のニュース素材抽出装置。
  12. コンピュータを、請求項1から11のいずれか一項に記載のニュース素材抽出装置として機能させるためのプログラム。
JP2016092211A 2016-05-02 2016-05-02 ニュース素材抽出装置及びプログラム Pending JP2017201437A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016092211A JP2017201437A (ja) 2016-05-02 2016-05-02 ニュース素材抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016092211A JP2017201437A (ja) 2016-05-02 2016-05-02 ニュース素材抽出装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2017201437A true JP2017201437A (ja) 2017-11-09

Family

ID=60264832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016092211A Pending JP2017201437A (ja) 2016-05-02 2016-05-02 ニュース素材抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2017201437A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133565A (ja) * 2018-02-02 2019-08-08 日本放送協会 ニュース素材分類装置、プログラム及び学習モデル
JP2019215705A (ja) * 2018-06-13 2019-12-19 日本放送協会 情報判定モデル学習装置およびそのプログラム
JP2020086623A (ja) * 2018-11-19 2020-06-04 日本放送協会 ボット判定スコア算出装置及びそのプログラム
JP2020173774A (ja) * 2019-04-08 2020-10-22 バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド ナレーションを生成するための方法、装置、サーバー、コンピュータ可読記憶媒体及びコンピュータプログラム
JP2020197957A (ja) * 2019-06-04 2020-12-10 コニカミノルタ株式会社 発想支援装置、発想支援システム及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015041157A (ja) * 2013-08-20 2015-03-02 東芝テック株式会社 商品認識装置およびその制御プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015041157A (ja) * 2013-08-20 2015-03-02 東芝テック株式会社 商品認識装置およびその制御プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
興梠 紗和 外3名: "SNS上で拡散するwebニュース説明文の調査と自動選択", 電子情報通信学会論文誌D, vol. 99, no. 4, JPN6020013727, 1 April 2016 (2016-04-01), pages 408 - 414, ISSN: 0004368373 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133565A (ja) * 2018-02-02 2019-08-08 日本放送協会 ニュース素材分類装置、プログラム及び学習モデル
JP7181693B2 (ja) 2018-02-02 2022-12-01 日本放送協会 ニュース素材分類装置、プログラム及び学習モデル
JP2019215705A (ja) * 2018-06-13 2019-12-19 日本放送協会 情報判定モデル学習装置およびそのプログラム
JP7153477B2 (ja) 2018-06-13 2022-10-14 日本放送協会 情報判定モデル学習装置およびそのプログラム
JP2020086623A (ja) * 2018-11-19 2020-06-04 日本放送協会 ボット判定スコア算出装置及びそのプログラム
JP7133446B2 (ja) 2018-11-19 2022-09-08 日本放送協会 ボット判定スコア算出装置及びそのプログラム
JP2020173774A (ja) * 2019-04-08 2020-10-22 バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド ナレーションを生成するための方法、装置、サーバー、コンピュータ可読記憶媒体及びコンピュータプログラム
JP7030095B2 (ja) 2019-04-08 2022-03-04 バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド ナレーションを生成するための方法、装置、サーバー、コンピュータ可読記憶媒体及びコンピュータプログラム
US11687711B2 (en) 2019-04-08 2023-06-27 Baidu.Com Times Technology (Beijing) Co., Ltd. Method and apparatus for generating commentary
JP2020197957A (ja) * 2019-06-04 2020-12-10 コニカミノルタ株式会社 発想支援装置、発想支援システム及びプログラム
JP7363107B2 (ja) 2019-06-04 2023-10-18 コニカミノルタ株式会社 発想支援装置、発想支援システム及びプログラム

Similar Documents

Publication Publication Date Title
US11599714B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
Shiha et al. The effects of emoji in sentiment analysis
US10162816B1 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
Endarnoto et al. Traffic condition information extraction & visualization from social media twitter for android mobile application
US8688791B2 (en) Methods and systems for analysis of real-time user-generated text messages
JP2017201437A (ja) ニュース素材抽出装置及びプログラム
US20150154249A1 (en) Data ingestion module for event detection and increased situational awareness
CN109145104B (zh) 用于对话交互的方法和装置
US8972498B2 (en) Mobile-based realtime location-sensitive social event engine
US10621181B2 (en) System and method for screening social media content
CN108701128A (zh) 解释和解析条件自然语言查询
WO2016012493A1 (en) System and method for social event detection
CN108563753A (zh) 消息推送文案的生成方法、装置及计算机可读存储介质
KR102089804B1 (ko) IoT 환경에서 개인 성향분석을 이용한 디지털 사이니지 시스템
KR102207632B1 (ko) 전문가 긴급 추천 서비스 시스템
CN111314566A (zh) 一种语音质检方法、装置与系统
CN109522399B (zh) 用于生成信息的方法和装置
CN112597775A (zh) 信贷风险预测方法及装置
KR20140047226A (ko) 이슈 일지를 제공하는 단말기, 이슈 일지를 생성하는 서버 및 이슈 일지 제공 및 생성 방법
US20190005125A1 (en) Categorizing electronic content
KR102422844B1 (ko) 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법
KR101614843B1 (ko) 사회 이슈에 대한 은폐를 탐지하는 방법 및 판단 장치
García-Santa et al. Controlling and monitoring crisis
JP2018036756A (ja) メッセージ分類システム、メッセージ分類方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200414

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201020