JP2017201437A

JP2017201437A - ニュース素材抽出装置及びプログラム

Info

Publication number: JP2017201437A
Application number: JP2016092211A
Authority: JP
Inventors: 後藤　淳; Atsushi Goto; 淳後藤; 山田　一郎; Ichiro Yamada; 一郎山田; 菊佳望月; Kikuka Mochizuki; 太郎宮▲崎▼; Taro Miyazaki; 庄衛佐藤; Shoe Sato
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2016-05-02
Filing date: 2016-05-02
Publication date: 2017-11-09

Abstract

【課題】多数のソーシャルメディア情報のうち教師有り機械学習によりニュース素材となりうるソーシャルメディア情報を自動的に抽出するニュース素材抽出装置及びプログラムを提供する。
【解決手段】本発明のニュース素材抽出装置１は、個々のソーシャルメディア情報から特徴ベクトルの特徴量とする素性を生成又は抽出する素性生成抽出部１１１、この素性による特徴ベクトルを生成する特徴ベクトル生成部１１２、機械学習用の学習モデルを生成する学習モデル生成部１１３、機械学習判定対象のソーシャルメディア情報に対しニュース素材となりうるか否かを判定する機械学習判定部１１４及びニュース素材候補のソーシャルメディア情報について表示装置２に提示又は記憶部１２に蓄積する手段１１５，１１６、好適には学習モデルの更新を制御する手段１１７を備える。本発明のプログラムは、コンピュータをニュース素材抽出装置１として機能させる。
【選択図】図１

Description

本発明は、多数のソーシャルメディア情報のうち教師有り機械学習によりニュース素材となりうるソーシャルメディア情報を自動的に抽出するニュース素材抽出装置及びプログラムに関する。

近年、報道機関ではｔｗｉｔｔｅｒ（登録商標）やｆａｃｅｂｏｏｋ（登録商標）などのソーシャルメディアに発信される個々の情報（本願明細書中、「ソーシャルメディア情報」と称する。）を取得して、そのソーシャルメディア情報を精査し、放送番組等に反映させている。これまでの取材対象の警察、消防、新聞、通信社などの情報源と比較して、広範囲でリアルタイムな情報を取得することができるためである。

実際、２０１５年に起こった新幹線での放火事件では、たまたま同じ新幹線に乗り合わせた人からｔｗｅｅｔ（登録商標）が発信されており、迅速な報道に繋がったケースもある。

現状、報道現場では、所定のリアルタイム検索サービス（例えば、非特許文献１参照）を利用して、或るキーワードが含まれているｔｗｅｅｔ（登録商標）のみを取得し、ニュース素材となりうるか否かを複数人のオペレータがチェックしている。オペレータが、１つずつのｔｗｅｅｔ（登録商標）を開覧して、人手で番組に有用な情報を拾い上げることは非常にコストがかかる。また、このような所定のｔｗｅｅｔ検索サービスに対しキーワードを複数用意して検索しても、ニュース素材の取得量として十分ではない。

ところで、ｔｗｉｔｔｅｒ（登録商標）の投稿内容から、鉄道の運行トラブルに関する発生状況、復旧状況、混雑状況などの詳細情報を機械学習させて自動取得する技法が知られている（例えば、非特許文献２参照）。

また、ｔｗｉｔｔｅｒ（登録商標）の投稿内容と投稿位置の情報を用いて、地震と台風の発生時間や発生位置を機械学習させて自動的に特定する技法が知られている（例えば、非特許文献３参照）。

"リアルタイム検索"、［online］、Yahoo! Japan、［平成28年4月13日検索］、インターネット〈URL：http://search.yahoo.co.jp/realtime〉土屋，豊田，喜連川、"マイクロブログを用いた鉄道の運行トラブル状況抽出に関する一検討"、社団法人電子情報通信学会、信学技報、［online］、［平成28年4月13日検索］、インターネット〈http://www.tkl.iis.u-tokyo.ac.jp/top/modules/newdb/extract/1288/data/main.pdf〉 Takeshi Sakaki，Makoto Okazaki，Yutaka Matsuo、"Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors"、［online］、［平成28年4月13日検索］、インターネット〈http://www.ymatsuo.com/papers/www2010.pdf〉

上述したように、オペレータにより所定のリアルタイム検索サービスを利用して、ニュース素材となりうるか否かを判別することは、非常にコストがかかり、ニュース素材の取得量として十分ではない。

また、非特許文献１や非特許文献２等に開示される技法をニュース素材の抽出に応用しても、ニュース素材の抽出に適した素性を用いていないために所望の抽出成果が得られない。仮に、非特許文献１や非特許文献２等に開示される技法を基に、ニュース素材の抽出に沿うようソーシャルメディア情報における本文の情報及び位置情報を用いて機械学習によりニュース素材の抽出を行うよう構成しても十分な成果が期待できない。即ち、ニュース素材に関連付ける素性の種類及び情報量の少なさ、並びに判定の信頼性の強化不足に起因して、これを特徴量とする特徴ベクトルによる機械学習の出力として、ニュース素材の抽出量やその抽出精度の観点で課題が残る。

従って、ソーシャルメディア情報からニュース素材を抽出するにあたり、ニュース素材の抽出漏れをより少なくし、尚且つ、その抽出精度をより高いものとする技法が望まれる。そして、例えば放送番組等で利用するニュース素材の自動抽出により、利用現場の負荷を軽減する技法が望まれる。

本発明の目的は、上述の問題に鑑みて、多数のソーシャルメディア情報のうち教師有り機械学習によりニュース素材となりうるソーシャルメディア情報を自動的に抽出し、ニュース素材の抽出量及びその抽出精度を向上可能とするニュース素材抽出装置及びプログラムを提供することにある。

本発明によるニュース素材抽出装置は、多数のソーシャルメディア情報のうち教師有り機械学習によりニュース素材となりうるソーシャルメディア情報を自動的に抽出するニュース素材抽出装置であって、個々のソーシャルメディア情報から特徴ベクトルの特徴量とする素性を生成又は抽出する素性生成抽出手段と、前記素性を特徴量とし前記素性の数に応じた次元数で構成される特徴ベクトルを生成する特徴ベクトル生成手段と、ニュース素材として実績のあるソーシャルメディア情報を正例の教師データとして前記特徴ベクトルにより機械学習を行い、学習モデルを生成する学習モデル生成手段と、判定対象として入力される当該個々のソーシャルメディア情報に対し、前記学習モデルを用いた当該機械学習によりニュース素材となりうるソーシャルメディア情報であるか否かを判定する機械学習判定手段と、前記機械学習判定手段の判定結果を基に、ニュース素材となりうるソーシャルメディア情報をニュース素材候補として表示装置に提示するか、又は所定の記憶部に蓄積するニュース素材提示・記憶手段と、を備えることを特徴とする。

また、本発明によるニュース素材抽出装置において、前記素性生成抽出手段は、前記ソーシャルメディア情報内の本文情報から、所定のｎ−ｇｒａｍ素性、所定の係り受け素性、所定の否定素性、所定の本文内ＵＲＬのｎ‐ｇｒａｍ素性、所定の固有表現素性、所定の特定語彙素性、及び所定の顔文字素性を生成する手段を有することを特徴とする。

また、本発明によるニュース素材抽出装置において、前記素性生成抽出手段は、前記ソーシャルメディア情報内の添付情報から、所定の指定オブジェクト素性、所定の画像内ｎ‐ｇｒａｍ素性、及び所定の音声内ｎ‐ｇｒａｍ素性を抽出する手段を有することを特徴とする。

また、本発明によるニュース素材抽出装置において、前記素性生成抽出手段は、前記ソーシャルメディア情報内の属性情報から、所定の発信時刻素性、所定の発信都道府県素性、所定の引用素性決定、及び所定の居住都道府県素性を抽出する手段を有することを特徴とする。

また、本発明によるニュース素材抽出装置において、前記素性生成抽出手段は、前記ソーシャルメディア情報内の属性情報から、所定のフォロー数・フォロワー数素性、所定の過去発現数素性、所定のアカウント作成日素性、及び所定のボット素性を抽出する手段を有することを特徴とする。

また、本発明によるニュース素材抽出装置において、前記素性生成抽出手段は、ニュース素材に関する実績情報を基に、所定のユーザー名履歴素性、所定の提示選択時間素性、及び所定の実績回数素性を抽出する手段を有することを特徴とする。

また、本発明によるニュース素材抽出装置において、前記ニュース素材提示・記憶手段は、前記機械学習判定手段の判定結果を基に前記表示装置へ提示するソーシャルメディア情報のうち、前記ニュース素材候補のソーシャルメディア情報を強調表示するよう前記表示装置へ提示するニュース素材候補提示手段を有することを特徴とする。

また、本発明によるニュース素材抽出装置において、前記ニュース素材候補提示手段は、当該機械学習によりニュース素材候補であるか否かの判定により得られるニュース素材候補の確度の高さを示すスコアに応じて、前記表示装置に対し所定閾値より高いスコアの当該ニュース素材候補については強調表示し、所定閾値より低いスコアのソーシャルメディア情報については非表示とするよう提示することを特徴とする。

また、本発明によるニュース素材抽出装置において、前記ニュース素材候補提示手段は、前記操作用ダイアログ上でオペレータによりニュース素材として利用するとして選択するか否かを決定させるためのユーザーインターフェースを含む対話形式の操作用ダイアログで当該ニュース素材候補及び非ニュース素材候補のソーシャルメディア情報を提示することを特徴とする。

また、本発明によるニュース素材抽出装置において、前記ニュース素材提示・記憶手段は、前記ニュース素材候補提示手段により前記対話形式の操作用ダイアログで提示する当該ニュース素材候補及び非ニュース素材候補のソーシャルメディア情報について、当該オペレータによりニュース素材として利用するものとして選択されたソーシャルメディア情報とを対応付けて監視し、当該ニュース素材候補及び当該オペレータによりニュース素材として利用するものとして選択されたソーシャルメディア情報を識別可能に、尚且つ当該提示してからオペレータが選択するまでの時間を計測し、当該計測した時間の情報を前記学習モデルの更新時の素性に利用可能に付与して当該所定の記憶部に履歴情報リストとして保存するニュース素材選択監視手段を更に備えることを特徴とする。

また、本発明によるニュース素材抽出装置において、前記学習モデルの更新を行うよう前記素性生成抽出手段及び前記特徴ベクトル生成手段を制御する学習モデル更新制御手段を更に備え、前記学習モデル更新制御手段は、前記ニュース素材選択監視手段からの通知を基に非ニュース素材候補がオペレータにより選択されていると判別した際に、その都度、前記学習モデルの更新を行うか、一定量の非ニュース素材候補が前記履歴情報リストに保存されたときに前記学習モデルの更新を行うか、前回更新時から所定期間経過したときに前記学習モデルの更新を行うかの少なくとも１つ以上の契機に基づいて、前記学習モデルの更新を行うよう制御することを特徴とする。

また、本発明によるプログラムは、コンピュータを、本発明のニュース素材抽出装置として機能させるためのプログラムである。

本発明によれば、膨大に投稿されるソーシャルメディア情報から自動でニュース素材を抽出することができる。特に、本発明によれば、教師有り機械学習により自動的に抽出したニュース素材となりうるソーシャルメディア情報をニュース素材候補として表示装置に提示するため、オペレータは、検索対象とした全てのソーシャルメディア情報を確認することなく、ニュース素材となりうる情報を効率よく取得できるようになる。

また、本発明によれば、ニュース素材候補がオペレータにより実際にニュース素材として採用されたか否かの実績情報を取得するためのユーザーインターフェース（ＵＩ）を表示装置に提示し、当該実績情報を基に、教師有り機械学習における学習モデルを自動的に更新するため、利用する用途によって学習モデルを精度よく更新し適応化させることができる。

本発明による一実施形態のニュース素材抽出装置の概略構成を示すブロック図である。本発明による一実施形態のニュース素材抽出装置における本文素性生成部の概略構成を示すブロック図である。本発明による一実施形態のニュース素材抽出装置における属性素性抽出部の概略構成を示すブロック図である。本発明による一実施形態のニュース素材抽出装置における添付情報素性生成部の概略構成を示すブロック図である。本発明による一実施形態のニュース素材抽出装置における履歴情報素性抽出部の概略構成を示すブロック図である。本発明による一実施形態のニュース素材抽出装置の動作例を示すフローチャートである。本発明による一実施形態のニュース素材抽出装置におけるニュース素材選択監視部及び学習モデル更新制御部の動作例を示すフローチャートである。（ａ），（ｂ）は、それぞれ本発明による一実施形態のニュース素材抽出装置における添付情報素性生成部の画像認識処理及び文字認識処理の説明図である。本発明による一実施形態のニュース素材抽出装置における特徴ベクトルの説明図である。本発明による一実施形態のニュース素材抽出装置におけるニュース素材候補提示部の説明図である。

以下、図面を参照して、本発明による一実施形態のニュース素材抽出装置１及びそのプログラムを説明する。

〔装置全体構成〕
図１は、本発明による一実施形態のニュース素材抽出装置１の概略構成を示すブロック図である。ニュース素材抽出装置１は、ｔｗｉｔｔｅｒ（登録商標）やｆａｃｅｂｏｏｋ（登録商標）などのソーシャルメディアに発信される個々の情報（ソーシャルメディア情報）を取得可能に有線又は無線でネットワークに接続され、リアルタイムに取得する膨大数のソーシャルメディア情報のうちニュース素材となりうるソーシャルメディア情報を抽出し表示装置２へ提示する装置である。

特に、ニュース素材抽出装置１は、学習フェーズで、これまで報道現場等でオペレータが選択したソーシャルメディア情報（ニュース素材として実績のあるソーシャルメディア情報）を正例の教師データとして機械学習させておき、判定フェーズで新たに入力されるソーシャルメディア情報のうちニュース素材となりうるソーシャルメディア情報（ニュース素材候補）を当該機械学習により判定し、自動的にニュース素材候補を抽出して表示装置２へ提示する。

より具体的に、ニュース素材抽出装置１は、制御部１１及び記憶部１２により構成される。ニュース素材抽出装置１は、コンピュータとして機能させることができ、当該コンピュータに、制御部１１の各構成要素を実現させるためのプログラムは、当該コンピュータのメモリに記憶される。当該コンピュータに備えられる中央演算処理装置（ＣＰＵ）などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、当該メモリから読み込んで各構成要素の機能を当該コンピュータに実現させることができる。ここで、記憶部１２は、当該メモリの一部の領域で構成することができる。

制御部１１は、素性生成抽出部１１１、特徴ベクトル生成部１１２、学習モデル生成部１１３、機械学習判定部１１４、ニュース素材候補提示部１１５、ニュース素材選択監視部１１６、及び学習モデル更新制御部１１７を備える。

また、記憶部１２は、特定語彙リストを格納する特定語彙データベース（ＤＢ）１２１、顔文字リストを格納する顔文字ＤＢ１２２、及び履歴情報リストを格納する履歴情報ＤＢ１２３の記憶領域を有する。

素性生成抽出部１１１は、個々のソーシャルメディア情報から特徴ベクトルの特徴量とする素性を生成又は抽出し、特徴ベクトル生成部１１２へ出力する機能部である。特徴ベクトルの生成に関する詳細は後述する。

特徴ベクトル生成部１１２は、素性生成抽出部１１１から得られる素性を特徴量としその素性の数に応じた次元数で構成される高次元の特徴ベクトルを生成し、学習フェーズでは学習モデル生成部１１３へ、判定フェーズでは機械学習判定部１１４へ出力する機能部である。尚、素性生成抽出部１１１及び特徴ベクトル生成部１１２は、後述する学習モデル更新制御部１１７によって新たに素性及び特徴ベクトルの更新を行うよう制御され、以下に説明する学習モデル生成部１１３における学習モデルの更新を行う。

学習モデル生成部１１３は、学習フェーズで、これまで報道現場等でオペレータが選択したソーシャルメディア情報（ニュース素材として実績のあるソーシャルメディア情報）を正例の教師データとして、特徴ベクトル生成部１１２から得られる特徴ベクトルにより機械学習を行い、その学習モデルを生成する機能部である。生成される学習モデルは、学習モデル生成部１１３から機械学習判定部１１４で利用可能に出力され、或いは機械学習判定部１１４で利用可能に記憶部１２に保持される。機械学習は、サポートベクタ―マシン（ＳＶＭ：Support Vector Machine）、決定木、ランダムフォレスト、及びディープニューラルネットワーク（ＤＮＮ）などのアルゴリズムを利用したものとすることができる。

機械学習判定部１１４は、判定フェーズで、学習モデル生成部１１３で生成した学習モデルを用いて、新たに入力される多数のソーシャルメディア情報のうちニュース素材となりうるソーシャルメディア情報（ニュース素材候補）を当該機械学習により判定し、その判定結果を当該新たに入力されるソーシャルメディア情報に付与してニュース素材候補提示部１１５に出力する機能部である。ここで、機械学習判定部１１４は、ニュース素材候補であるか否かの判定により得られるニュース素材候補の確度の高さを示すスコアを当該新たに入力されるソーシャルメディア情報に付与してニュース素材候補提示部１１５に出力する。

ニュース素材候補提示部１１５は、機械学習判定部１１４により判定したニュース素材候補を抽出して表示装置２へ提示する。このとき、ニュース素材候補提示部１１５は、ニュース素材候補となるソーシャルメディア情報だけでなく、非ニュース素材として判定されたソーシャルメディア情報も提示する。そして、ニュース素材候補提示部１１５は、当該機械学習によりニュース素材候補であるか否かの判定により得られるニュース素材候補の確度の高さを示すスコアに応じて、表示装置２に対し所定閾値より高いスコアの当該ニュース素材候補については強調表示し、ニュース素材となりえない所定閾値より低いスコアのソーシャルメディア情報については非表示とするよう提示するのが好適である。これにより、オペレータが確認する総数を減少させることができる。

また、ニュース素材候補提示部１１５は、表示装置２に対しニュース素材候補を含むソーシャルメディア情報の提示を対話形式とするよう、表示装置２にはユーザーインターフェース（ＵＩ）部２１が提示される。より具体的に、ＵＩ部２１は操作用ダイアログで構成され、オペレータによりニュース素材として利用するとして選択するか否かを決定させるためのユーザーインターフェース（後述する図１０に示す選択ボタンＤ２，Ｄ３等）も提示される。

ニュース素材選択監視部１１６は、ニュース素材候補提示部１１５が表示装置２に提示したソーシャルメディア情報と、ＵＩ部２１を経てオペレータによりニュース素材として利用するものとして選択されたソーシャルメディア情報とを対応付けて監視する機能部である。この監視を経て、ニュース素材選択監視部１１６は、ニュース素材候補提示部１１５によりニュース素材候補として提示したソーシャルメディア情報、及び、オペレータにより選択されたソーシャルメディア情報をそのままそれぞれ識別可能に、尚且つ当該提示してからオペレータが選択するまでの時間を計測し、その計測時間の情報を当該学習モデルの更新時の素性に利用可能に付与して、履歴情報リストとして記憶部１２の履歴情報ＤＢ１２３に保存する。このため、履歴情報ＤＢ１２３に保存された当該ソーシャルメディア情報は、オペレータによる操作で、随時、記憶部１２から読み出し、表示装置２に表示することや、メンテナンス時には随時、記憶部１２から削除することができる。

また、ニュース素材選択監視部１１６は、表示装置２に提示される同一のソーシャルメディア情報に対し、オペレータにより複数回選択された時（複数人のオペレータによる選択や、単一人のオペレータによる複数回の選択を含む）を識別できるように、その実績回数の情報も当該オペレータにより選択されたソーシャルメディア情報に付与して履歴情報リストとして記憶部１２の履歴情報ＤＢ１２３に保存している。

また、ニュース素材選択監視部１１６は、ＵＩ部２１を経てオペレータにより選択されたソーシャルメディア情報が機械学習判定部１１４によりニュース素材候補として判定したソーシャルメディア情報と一致しているか否かを示す情報を、自動的に学習モデル更新制御部１１７へ通知する。

学習モデル更新制御部１１７は、ニュース素材選択監視部１１６からの通知を受け付け、履歴情報ＤＢ１２３の履歴情報リストに保存された当該ソーシャルメディア情報を用いて学習モデルの更新を制御する機能部である。学習モデル更新制御部１１７は、ニュース素材選択監視部１１６からの通知を基に非ニュース素材候補がオペレータにより選択されていると判別した際に、その都度、学習モデルの更新を行うことができる。或いは、学習モデル更新制御部１１７は、一定量の非ニュース素材候補が履歴情報ＤＢ１２３内の履歴情報リストに保存されたときに学習モデルの更新を行うことができる。或いは、学習モデル更新制御部１１７は、前回更新時から所定期間経過したときに履歴情報ＤＢ１２３に保存された当該ソーシャルメディア情報を用いて学習モデルの更新を行うことができる。これらの学習モデルの更新の制御は、図７を参照して後述するが、外部設定によりいずれかの更新制御を行うよう一連の処理として構成することができる。

そして、学習モデル更新制御部１１７は、学習モデルの更新を行う際には、その旨を示す情報を素性生成抽出部１１１（より具体的には、後述する履歴情報素性抽出部５００）、及び特徴ベクトル生成部１１２に出力することで制御する。これにより、特徴ベクトル生成部１１２は、判定フェーズの状態から学習フェーズの状態へと移行させ、素性生成抽出部１１１から履歴情報ＤＢ１２３に保存された当該ソーシャルメディア情報を用いて新たな素性で再構成した特徴量を取得し特徴ベクトルを改めて自動生成し、学習モデル生成部１１３へ出力する。

本実施形態のニュース素材抽出装置１は、上記の動作を全て自動的に行う全自動モードとして構成している。ただし、機械学習の結果はかならずしも１００％の抽出精度とはならないことを考慮して、ニュース素材抽出装置１に半自動モードも設けることもできる。半自動モードでは、ニュース素材候補提示部１１５は機械学習の結果を履歴情報ＤＢ１２３へ自動保存せず表示装置２へ強調表示するのみであり、ニュース素材選択監視部１１６は、オペレータにより選択されたソーシャルメディア情報（ニュース素材候補及び非ニュース素材候補を含む）について履歴情報ＤＢ１２３に自動保存する。

以上のように、全自動モード及び半自動モードのいずれにおいても、オペレータにより選択されたソーシャルメディア情報は、学習モデルの更新時に自動的に利用される。例えば、表示装置２における当該判定結果を示す操作用ダイアログ上で、強調表示されたソーシャルメディア情報（ニュース素材候補）であるにも関わらずオペレータにより選択されなかった場合や、強調表示されていないソーシャルメディア情報（非ニュース素材候補）がオペレータにより選択された場合には、新たな特徴ベクトルの素性を構成するために有効である。また、特徴ベクトル生成部１１２は、強調表示されたソーシャルメディア情報が選択された場合はその素性を強化するように学習モデル生成部１１３に対し学習モデルを生成させることで、より頑健な機械学習が可能となる。

以下、図１に示す素性生成抽出部１１１の構成について、ソーシャルメディア情報としてｔｗｅｅｔ（登録商標）を対象とする例を、より具体的に説明する。

まず、ｔｗｅｅｔ（登録商標）は、ｔｗｉｔｔｅｒ（登録商標）社が行っているソーシャルネットワーキングサービス（ＳＮＳ）における、ユーザーから投稿されるデータ（本文のテキスト、属性情報及び添付情報を含む）のことである。１つのｔｗｅｅｔ（登録商標）の本文は現在１４０字であり、ユーザーは自分の意見や状況をリアルタイムに投稿することができる。

このｔｗｅｅｔ（登録商標）内に、ニュース素材となりうる事件や事故の現場などに遭遇しており、その状況を伝えるものもある。そこで、本実施形態のニュース素材抽出装置１は、このニュース素材となりうるｔｗｅｅｔ（登録商標）を特定するために、これまで報道現場で利用したｔｗｅｅｔ（登録商標）を教師データとして機械学習した学習モデルを生成する。そして、ニュース素材抽出装置１は、教師有り学習で作成された学習モデルを用いて、新たに入力されたｔｗｅｅｔ（登録商標）からニュース素材となりうるｔｗｅｅｔ（登録商標）を抽出し、表示装置２を介してオペレータに提示する。

そこで、素性生成抽出部１１１は、ｔｗｅｅｔ（登録商標）の本文情報から取得できる素性、属性情報から取得できる素性、ｔｗｅｅｔ（登録商標）に添付される動画や静止画、或いは音声の添付情報から取得できる素性、及び、オペレータによりニュース素材候補を示す操作用ダイアログ上で選択されたｔｗｅｅｔ（登録商標）に関する履歴情報から取得できる素性から、大別して４種類の特徴量を生成又は抽出する。

このため、素性生成抽出部１１１は、当該４種類の特徴量を生成又は抽出するために本文素性生成部２００、属性素性抽出部３００、添付情報素性生成部４００、及び履歴情報素性抽出部５００を備える。以下、具体的に、素性生成抽出部１１１による当該４種類の特徴量の生成又は抽出について順に、図２乃至図５を参照して説明する。

〔本文素性生成部の構成〕
図２は、本発明による一実施形態のニュース素材抽出装置１における本文素性生成部２００の概略構成を示すブロック図である。本文素性生成部２００は、ｔｗｅｅｔ（登録商標）本文のテキストデータに含まれる情報から、後述するように条件付き確率場（ＣＲＦ：Conditional Random Fields）やＳＶＭなどの機械学習ベースや、各種リストからの辞書ベースで素性を生成する。

本文素性生成部２００は、形態素解析処理部２０１、ｎ‐ｇｒａｍ解析処理部２０２、ｎ−ｇｒａｍ素性決定部２０３、構文解析処理部２０４、係り受け素性決定部２０５、否定素性決定部２０６、ＵＲＬ抽出処理部２０７、ＵＲＬ_ｎ‐ｇｒａｍ解析処理部２０８、ＵＲＬ_ｎ‐ｇｒａｍ素性決定部２０９、固有表現抽出処理部２１０、固有表現素性決定部２１１、特定語彙抽出処理部２１２、特定語彙素性決定部２１３、顔文字抽出処理部２１４、及び顔文字素性決定部２１５を備える。

（本文のｎ‐ｇｒａｍ素性）
形態素解析処理部２０１は、本文情報に対し、機械学習ベースで形態素解析処理を実行し、その結果をｎ‐ｇｒａｍ解析処理部２０２及び構文解析処理部２０４へ出力する。ｎ‐ｇｒａｍ解析処理部２０２は、外部設定されるパラメータｎ１（言語単位数として１〜３）により当該形態素解析結果から構文上連続する形態素（或いは連続する文字）を解析し、その解析結果をｎ‐ｇｒａｍ素性決定部２０３へ出力する。ｎ‐ｇｒａｍ素性決定部２０３は、パラメータｎ１に応じた構文上連続する形態素（或いは構文上連続する文字）の有無を判別し、構文上連続する形態素（或いは構文上連続する文字）が有るときは１、無いときは０とする２値の素性を本文のｎ‐ｇｒａｍ素性として決定し特徴ベクトル生成部１１２へ出力する。例えば、パラメータｎ１＝３とし、「Ａ:渋谷で火事が起こっている」という本文からは、（「渋谷」、「で」、「火事」、「が」、「起こっている」）とする形態素に対し、ｎ‐ｇｒａｍ解析処理部２０２は、３ｇｒａｍ以上、形態素が構文上連続していることを判別することができ、この場合にはｎ−ｇｒａｍ素性決定部２０３はｎ‐ｇｒａｍ素性として１を特徴ベクトル生成部１１２へ出力する。形態素解析処理の実行は、未知語の解析にも有効であり、適宜、記憶部１２内の形態素解析処理に利用する所定のデータベース（図示せず）に記録する。

（本文内の名詞の係り受け素性）
構文解析処理部２０４は、形態素解析処理部２０１による本文情報に対する形態素解析処理の結果を基に構文解析処理を実行し、その構文内の名詞の係り受けパターンを係り受け素性決定部２０５及び否定素性決定部２０６へ出力する。例えば、構文解析処理により、係り受けパターンとして、「Ａ:渋谷で火事が起こっている」という本文からは、（「Ａ:渋谷」、「Ａで起こる」）という２つ組のユーナリーパターンと、（「ＡでＢが起こる」、「Ａ:渋谷」、「Ｂ:火事」）という３つ組のバイナリーパターンが得られる。係り受け素性決定部２０５は、その係り受けパターンの有無を判別し、係り受けパターンが有るときは１とする２値の素性を係り受け素性として決定し特徴ベクトル生成部１１２へ出力する。

（本文の構文上の否定素性）
否定素性決定部２０６は、構文解析処理部２０４による本文情報に対する構文解析処理の結果を基に、その構文に対し否定判定処理を実行し、構文内の単語の係り先が否定表現であれば１とする２値の素性を否定素性として決定し特徴ベクトル生成部１１２へ出力する。例えば、「Ａ:渋谷で火事が起こってない」という本文からは、否定素性決定部２０６は、否定表現であると判別することができ、否定素性として１を特徴ベクトル生成部１１２へ出力する。

（本文内ＵＲＬのｎ‐ｇｒａｍ素性）
本文内にニュース記事や放送番組、ブログの記事などのＵＲＬが記載されていることがある。そこで、ＵＲＬ抽出処理部２０７は、予め用意したＵＲＬ取得用の正規表現を用いて、該当文字列を抽出し、ＵＲＬ_ｎ‐ｇｒａｍ解析処理部２０８へ出力する。例えば、「ｈｔｔｐ」や「ｈｔｔｐｓ」で始まり、「ｈｔｍｌ」で終了する文字列が抽出対象となる。ＵＲＬ_ｎ‐ｇｒａｍ解析処理部２０８は、当該推定されたＵＲＬの半角文字列に対し“/”で分割した文字列を順に取得し、外部設定されるパラメータｎ２（言語単位数として１〜３）により連続するＵＲＬ_ｎ‐ｇｒａｍを取得し、その結果をＵＲＬ_ｎ‐ｇｒａｍ素性決定部２０９へ出力する。例えば“http://www.nhk.or.jp/index.html”の場合、１ｇｒａｍは「www.nhk.or.jp」、「index.html」、２ｇｒａｍは「www.nhk.or.jp index.html」となる。

ＵＲＬ_ｎ‐ｇｒａｍ素性決定部２０９は、パラメータｎ２に応じたＵＲＬ_ｎ‐ｇｒａｍの有無を判別し、ＵＲＬ_ｎ‐ｇｒａｍが有るときは１とする２値の素性を本文内ＵＲＬのｎ‐ｇｒａｍ素性として決定し特徴ベクトル生成部１１２へ出力する。

（本文内の地名、組織名、人名などの固有表現素性）
固有表現抽出処理部２１０は、本文情報に対し、機械学習ベース或いは辞書ベースで固有表現を探索し、その探索結果を固有表現素性決定部２１１へ出力する。固有表現素性決定部２１１は、当該探索結果から固有表現が有るときは１とする素性を固有表現素性として決定し特徴ベクトル生成部１１２へ出力する。機械学習ベースでは、新聞や文書等などから固有表現を抽出するためのコーパスが整備されており、ＳＶＭやＣＲＦなどの教師有り学習アルゴリズムにより固有表現を抽出することができる。例えば、ＣＲＦを利用する場合、固有表現抽出を系列ラベル問題として解き、ＣＲＦ＋＋のようなツール（例えば、“CRF++:Yet Another CRF toolkit”、［online］、［平成28年4月13日検索］、インターネット〈https://taku910.github.io/crfpp/〉』参照）を利用することもできる。

（本文内の特定語彙素性）
特定語彙抽出処理部２１２は、特定語彙データベース（ＤＢ）１２１に格納される特定語彙リストを参照して、本文情報に対し、「火事」「殺人」「強盗」などのニュース素材として関連性の高い語彙（特定語彙）を探索し、その探索結果を特定語彙素性決定部２１３へ出力する。特定語彙素性決定部２１３は、当該探索結果から特定語彙が有るときは１とする素性を特定語彙素性として決定し特徴ベクトル生成部１１２へ出力する。特定語彙リストは、公開されているリスト（例えば、『ＡＬＡＧＩＮ言語資源・音声資源サイト』、“負担・トラブル表現リスト”、［online］、［平成28年4月13日検索］、インターネット〈https://alaginrc.nict.go.jp/resources/nict-resource/li-info/li-outline.html〉』参照）を用いることもできる。

（本文内の顔文字素性）
本文内で、ユーザーの感情や自信の有無を表現する顔文字が用いられている場合がある。そこで、顔文字抽出処理部２１４は、顔文字ＤＢ１２２に格納される顔文字リストを参照して、本文情報に対し、顔文字を探索し、その探索結果を特定語彙素性決定部２１３へ出力する。特定語彙素性決定部２１３は、当該探索結果から顔文字表現の有無、またそれに対応する極性の素性を特定語彙素性として決定し特徴ベクトル生成部１１２へ出力する。例えば、顔文字を取得できれば、顔文字の素性が１となる。さらに極性を判定できる情報があれば、「（ＴｏＴ）」は負の極性の素性を１となり、「（・∀・）」は正の極性の素性を１とする。また、顔文字抽出処理部２１４は、辞書ベースによらず、顔文字を表わす正規表現の抽出器や機械学習による抽出器を利用して、顔文字を探索し、その探索結果に肯定的、否定的、その中間を識別するフラグを付与して特定語彙素性決定部２１３へ出力するよう構成してもよい。

以上のように、本文素性生成部２００は、本文情報から、ｎ−ｇｒａｍ素性、係り受け素性、否定素性、本文内ＵＲＬのｎ‐ｇｒａｍ素性、固有表現素性、特定語彙素性、及び顔文字素性を生成し、特徴ベクトル生成部１１２へ出力する。

〔属性素性抽出部の構成〕
図３は、本発明による一実施形態のニュース素材抽出装置１における属性素性抽出部３００の概略構成を示すブロック図である。属性素性抽出部３００は、ｔｗｅｅｔ（登録商標）本文に係るＪＳＯＮ形式の属性情報から、様々な属性に基づく素性を抽出する。本実施形態の例では以下のものであるが、当該属性情報に含まれる全ての属性を利用することができる。

属性素性抽出部３００は、発信時刻抽出処理部３０１、発信時刻素性決定部３０２、ＧＰＳ情報抽出処理部３０３、発信都道府県素性決定部３０４、引用判定処理部３０５、引用素性決定部３０６、居住地情報抽出処理部３０７、居住都道府県素性決定部３０８、フォロー数・フォロワー数抽出処理部３０９、フォロー数・フォロワー数素性決定部３１０、過去発現数抽出処理部３１１、過去発現数素性決定部３１２、アカウント作成日抽出処理部３１３、アカウント作成日素性決定部３１４、ユーザー名ボット判定処理部３１５、及びボット素性決定部３１６を備える。

（発信時刻素性）
発信時刻抽出処理部３０１は、属性情報からｔｗｅｅｔ（登録商標）が発信された時刻を抽出し、発信時刻素性決定部３０２へ出力する。発信時刻素性決定部３０２は、当該抽出された発信時刻の情報を２４時間刻みで区分し、この区分した数値の素性を発信時刻素性として決定し特徴ベクトル生成部１１２へ出力する。例えば、「２３時３０分」の発信時刻の場合には、「２４」は１とする素性となる。

（発信都道府県素性）
ＧＰＳ情報抽出処理部３０３は、属性情報からＧＰＳ（Global Positioning System）情報を抽出し、発信都道府県素性決定部３０４へ出力する。発信都道府県素性決定部３０４は、当該抽出されたＧＰＳ情報を基に４７都道府県を識別可能とする数値の素性を発信都道府県素性として決定し特徴ベクトル生成部１１２へ出力する。例えば、ＧＰＳ情報から「世田谷区砧」が特定された場合には、「東京」に１とする素性となる。

（引用素性）
引用判定処理部３０５は、属性情報から発信されたｔｗｅｅｔ（登録商標）がリツィートであるか否か、即ち引用であるか否かの情報を抽出し、引用素性決定部３０６へ出力する。引用素性決定部３０６は、当該抽出された情報を基に引用であるか否かを識別可能とする数値の素性を引用素性として決定し特徴ベクトル生成部１１２へ出力する。例えば、発信されたｔｗｅｅｔ（登録商標）がリツィートである場合には１とする素性となる。

（居住都道府県素性）
居住地情報抽出処理部３０７は、属性情報から居住地情報を抽出し居住都道府県素性決定部３０８へ出力する。居住都道府県素性決定部３０８は、当該抽出された居住地情報を基に４７都道府県を識別可能とする数値の素性を居住都道府県素性として決定し特徴ベクトル生成部１１２へ出力する。例えば、居住地情報から「世田谷区砧」が特定された場合には、「東京」に１とする素性となる。

（フォロー数・フォロワー数素性）
フォロー数・フォロワー数抽出処理部３０９は、属性情報からフォロー数とフォロワー数の情報を抽出し、フォロー数・フォロワー数素性決定部３１０へ出力する。フォロー数・フォロワー数素性決定部３１０は、当該フォロー数とフォロワー数の情報をそれぞれ例えば１０倍刻みで区分し、この区分した数値のそれぞれの素性を連結したフォロー数・フォロワー数素性として決定し特徴ベクトル生成部１１２へ出力する。例えば、フォロー数について、それぞれ１０、１００、１０００、１０００００で区分する１０倍刻みの素性とすると、フォロワー数が１５０人であった場合には「１０００」を示すビット列「１，０，０，０」とする素性となる。ただし、このような素性の量子化は任意設定可能とする。尚、フォロー数とフォロワー数の素性の連結は、その順序を逆としてもよいし、いずれか一方のみを素性としてもよい。フォロー数及びフォロワー数が多いほど信頼性が高いとする指標となる。

（過去発言数素性）
過去発現数抽出処理部３１１は、属性情報から当該ｔｗｅｅｔ（登録商標）のユーザーＩＤ（又はユーザー名）による過去の発言数の情報を抽出し、過去発現数素性決定部３１２へ出力する。過去発現数素性決定部３１２は、当該過去の発言数の情報を例えば１０倍刻みで区分し、この区分した数値の素性を過去発現数素性として決定し特徴ベクトル生成部１１２へ出力する。例えば、過去の発言数について、それぞれ１０、１００、１０００、１０００００で区分する１０倍刻みの素性とすると、過去の発言数が１３回であった場合には「１００」を示すビット列「１，０，０」とする素性となる。ただし、このような素性の量子化は任意設定可能とする。過去の発言数が多いほど信頼性が高いとする指標となる。

（アカウント作成日素性）
アカウント作成日抽出処理部３１３は、属性情報から当該ｔｗｅｅｔ（登録商標）のアカウントの作成日を示す情報を抽出し、アカウント作成日素性決定部３１４へ出力する。アカウント作成日素性決定部３１４は、当該アカウント作成日の情報をそのままアカウント作成日素性として決定し特徴ベクトル生成部１１２へ出力する。当該アカウント作成日の情報は古いほど信頼性が高いとする指標となる。

（ボット素性）
ユーザー名ボット判定処理部３１５は、属性情報から当該ｔｗｅｅｔ（登録商標）のユーザー名の情報を抽出し、例えば特定の時間に自動でｔｗｅｅｔ（登録商標）するようなボットであるか否かを示すボット判定処理を実行して、その判定結果をボット素性決定部３１６へ出力する。ボット素性決定部３１６は、当該ボット判定処理の判定結果を基に、ボットでないときは１、ボットであるときは０とする２値の素性をボット素性として決定し特徴ベクトル生成部１１２へ出力する。ボット判定処理は、自動でｔｗｅｅｔ（登録商標）を投稿するボットである可能性が高い所定の文字列、例えば「bot」などが含まれているか否かを判定する文字ｎ‐ｇｒａｍ解析処理である。ボットであるとして判定されるものは信頼性が低いとする指標となる。

以上のように、属性素性抽出部３００は、添付情報から、ニュース素材の特徴量として関連性の高いものとなるよう、少なくとも発信時刻素性、発信都道府県素性、引用素性決定、及び居住都道府県素性を抽出する。より好適に、属性素性抽出部３００は、添付情報から、ニュース素材としてその信頼性を特徴量として示すものとなるよう、フォロー数・フォロワー数素性、過去発現数素性、アカウント作成日素性、及びボット素性を更に抽出し、特徴ベクトル生成部１１２へ出力する。

〔添付情報素性生成部の構成〕
図４は、本発明による一実施形態のニュース素材抽出装置１における添付情報素性生成部４００の概略構成を示すブロック図である。Ｔｗｉｔｔｅｒ（登録商標）には、「Video on Twitter」と呼ばれる動画や静止画、音声を添付情報として投稿できる機能が追加されている。そこで、添付情報素性生成部４００は、この添付情報に含まれている音声の音声認識結果の文字列、動画や静止画に映っている看板等の文字認識結果の文字列、パトカーや消防車などの事故に関連する指定オブジェクトの有無を素性として生成する。

添付情報素性生成部４００は、画像認識処理部４０１、指定オブジェクト素性決定部４０２、文字認識処理部４０３、形態素解析処理部４０４、画像内ｎ‐ｇｒａｍ解析処理部４０５、画像内ｎ‐ｇｒａｍ素性決定部４０６、音声認識処理部４０７、文字認識処理部４０８、形態素解析処理部４０９、音声内ｎ‐ｇｒａｍ解析処理部４１０、及び音声内ｎ‐ｇｒａｍ素性決定部４１１を備える。

（指定オブジェクト素性）
画像認識処理部４０１は、ソーシャルメディア情報（ｔｗｅｅｔ（登録商標））内の添付情報に動画又は静止画が含まれているか否かを判定し、動画又は静止画が含まれている際に、動画の或るフレーム画像又は静止画に対し消防車やパトカーなどの指定オブジェクト、及び看板等の文字表示体の抽出に関する画像認識処理を実行し、指定オブジェクトの抽出処理の結果を指定オブジェクト素性決定部４０２へ、看板等の文字表示体の抽出の結果を文字認識処理部４０３へ出力する。指定オブジェクト素性決定部４０２は、画像認識処理の処理結果を基に当該指定オブジェクトが有る場合には１、無い場合には０とする素性を指定オブジェクト素性として決定し特徴ベクトル生成部１１２へ出力する。

指定オブジェクトや文字表示体の抽出に関する画像認識処理として、例えば画像に映っているオブジェクトを画像解析して認識する技法を利用することができる（例えば、特許第５２４３８８８号明細書、特開２０１３−１２０４８２号公報、特開２０１４−９９０２７号公報、或いは『一般財団法人ＮＨＫエンジニアリングシステム、“画像解析によるオブジェクト認識技術”、［online］、［平成28年4月13日検索］、インターネット〈http://www.nes.or.jp/transfer/catalog/2016/01/49a/〉』参照）。

例えば、図８（ａ）に示すように、画像認識処理部４０１は、添付情報内の画像Ｆ１に対し指定オブジェクトの抽出に関する画像認識処理を実行すると、“消防車”Ｓ１や“パトカー”Ｓ２の存在の有無を検出することができる。

また、図８（ｂ）に示すように、画像認識処理部４０１は、添付情報内の画像Ｆ２に対し看板等の文字表示体の抽出に関する画像認識処理を実行すると、“ラジオ”Ｓ３，“秋葉原”Ｓ４，“テレビ”Ｓ５等の文字領域を検出し、テキストデータ形式の文字列へと変換することができる。

（画像内ｎ‐ｇｒａｍ素性）
文字認識処理部４０３は、画像認識処理部４０１による動画又は静止画が含まれている際の看板等の文字表示体の抽出の結果を基に、動画の或るフレーム画像又は静止画に対し文字認識処理を実行し、その文字列を抽出して形態素解析処理部４０４へ出力する。形態素解析処理部４０４は、当該文字列に対し、機械学習ベースで形態素解析処理を実行し、その結果を画像内ｎ‐ｇｒａｍ解析処理部４０５へ出力する。画像内ｎ‐ｇｒａｍ解析処理部４０５は、外部設定されるパラメータｎ３（言語単位数として１〜３）により当該形態素解析結果から構文上連続する形態素（或いは連続する文字）を解析し、その解析結果を画像内ｎ‐ｇｒａｍ素性決定部４０６へ出力する。画像内ｎ‐ｇｒａｍ素性決定部４０６は、パラメータｎ３に応じた構文上連続する形態素（或いは構文上連続する文字）の有無を判別し、構文上連続する形態素（或いは構文上連続する文字）が有るときは１、無いときは０とする２値の素性を画像内ｎ‐ｇｒａｍ素性として決定し特徴ベクトル生成部１１２へ出力する。

尚、文字認識のアルゴリズムとしては、様々な既存の処理を利用できる（例えば、“大町真一郎ほか、実環境文字認識のための面積比による付加情報埋込、電子情報通信学会論文誌，D，情報・システム電子情報通信学会論文誌.D，情報・システム J90-(12),pp.6‐3256，2007年12月1日”参照）。

このように、添付情報に動画や静止画があり、看板等の文字表示体の情報がある場合に、その情報を素性として利用することで、例えばＧＰＳ情報がないときや、ｔｗｅｅｔ（登録商標）本文に該当情報がない場合にも、その添付情報からニュース素材となりうる情報やその場所を特定する情報を得ることが可能となる。

（音声内ｎ‐ｇｒａｍ素性）
添付情報に添付される動画には音声が収録されていることもある。そこで、音声認識処理部４０７は、ｔｗｅｅｔ（登録商標）内の添付情報に音声が含まれているか否かを判定し、音声が含まれている際に、その音声データを抽出して文字認識処理部４０８へ出力する。文字認識処理部４０８は、画像認識処理部４０１による抽出した音声データに対し文字認識処理を実行し、その文字列を抽出して形態素解析処理部４０９へ出力する。形態素解析処理部４０９は、当該文字列に対し、機械学習ベースで形態素解析処理を実行し、その結果を音声内ｎ‐ｇｒａｍ解析処理部４１０へ出力する。音声内ｎ‐ｇｒａｍ解析処理部４１０は、外部設定されるパラメータｎ４（言語単位数として１〜３）により当該形態素解析結果から構文上連続する形態素（或いは連続する文字）を解析し、その解析結果を音声内ｎ‐ｇｒａｍ素性決定部４１１へ出力する。

音声内ｎ‐ｇｒａｍ素性決定部４１１は、パラメータｎ４に応じた構文上連続する形態素（或いは構文上連続する文字）の有無を判別し、構文上連続する形態素（或いは構文上連続する文字）が有るときは１、無いときは０とする２値の素性を音声内ｎ‐ｇｒａｍ素性として決定し特徴ベクトル生成部１１２へ出力する。例えば、「あ、電気街が火事みたい。煙がいっぱい上がっている。」などの音声認識結果に基づく文字列の構文を、ｔｗｅｅｔ（登録商標）本文の形態素解析によるｎ−ｇｒａｍ判定と同様に素性とすることで、「電気街」、「火事」、「煙」などのニュース素材となりうる情報を取得できる。音声認識処理には、雑音状況下にロバストなアルゴリズムを利用することが望ましい。

以上のように、添付情報素性生成部４００は、添付情報から、指定オブジェクト素性、画像内ｎ‐ｇｒａｍ素性、及び音声内ｎ‐ｇｒａｍ素性を生成し、特徴ベクトル生成部１１２へ出力する。

〔履歴情報素性抽出部の構成〕
図５は、本発明による一実施形態のニュース素材抽出装置１における履歴情報素性抽出部５００の概略構成を示すブロック図である。本実施形態のニュース素材抽出装置１に対する利用現場での実績は、上述したように、図１に示すニュース素材選択監視部１１６の処理によって、自動的に履歴情報リストとして記憶部１２の履歴情報ＤＢ１２３に保存される。

即ち、ニュース素材選択監視部１１６は、当該ニュース素材候補として提示したソーシャルメディア情報、及び、オペレータにより選択されたソーシャルメディア情報をそのままそれぞれ識別可能とし、尚且つ当該提示してからオペレータが選択するまでの時間を計測し、その計測時間の情報を付与する態様で、履歴情報リストとして記憶部１２の履歴情報ＤＢ１２３に保存している。

また、ニュース素材選択監視部１１６は、表示装置２に提示される同一のソーシャルメディア情報に対し、オペレータにより複数回選択された時（複数人のオペレータによる選択や、単一人のオペレータによる複数回の選択を含む）を識別できるように、その実績回数の情報も当該オペレータにより選択されたソーシャルメディア情報に付与して履歴情報リストとして記憶部１２の履歴情報ＤＢ１２３に保存している。また、履歴情報リストには、初期学習時点の学習フェーズで正例又は負例としたソーシャルメディア情報（例えば、tweet（登録商標））も格納されている。

そこで、履歴情報素性抽出部５００は、これまでにニュース記事として採用したユーザー名（或いはユーザーＩＤ）であるか否かなどの実績を素性に利用することで、ニュース素材候補の抽出精度及びその信頼性を向上させる。

履歴情報素性抽出部５００は、ユーザー名履歴判定処理部５０１、ユーザー名履歴素性決定部５０２、提示選択時間判定処理部５０３、提示選択時間素性決定部５０４、実績回数判定処理部５０５、及び実績回数素性決定部５０６を備える。

（ユーザー名履歴素性）
ユーザー名履歴判定処理部５０１は、学習フェーズ及び判定フェーズで、当該ｔｗｅｅｔ（登録商標）の属性情報から当該ｔｗｅｅｔ（登録商標）のユーザー名（又はユーザーＩＤ）を抽出し、履歴情報リストを参照してこれまでにニュース記事（即ち、ニュース素材）として採用したユーザー名（又はユーザーＩＤ）であるか否かを判定し、その判定結果をユーザー名履歴素性決定部５０２へ出力する。ユーザー名履歴素性決定部５０２は、ユーザー名履歴判定処理部５０１による判定結果を基に、採用実績の有るユーザー名（又はユーザーＩＤ）であるときは１とする素性をユーザー名履歴素性として決定し特徴ベクトル生成部１１２へ出力する。

（提示選択時間素性）
提示選択時間判定処理部５０３は、学習フェーズで、履歴情報リストを参照して正例とする当該ｔｗｅｅｔ（登録商標）に関して、ニュース素材候補を提示してからオペレータが選択するまでの計測時間（提示選択時間）の情報を抽出し、その提示選択時間の情報を提示選択時間素性決定部５０４へ出力する。

提示選択時間素性決定部５０４は、当該抽出された提示選択時間の情報をそのまま提示選択時間素性として決定し、当該提示選択時間素性を特徴ベクトル生成部１１２へ出力する。尚、学習フェーズで履歴情報リストを参照して負例とする当該ｔｗｅｅｔ（登録商標）に関しては、提示選択時間の情報を付与しないか、或いは長時間の数値が割り当てられている。即ち、当該提示選択時間素性を提示してからオペレータが選択するまでの時間として長時間化するほど事実確認されている可能性があるため、提示選択時間判定処理部５０３は、当該提示選択時間素性の信頼性が高いなどの指標として学習できるようにする。当該抽出された提示選択時間の情報は秒単位で表される。

（実績回数素性）
実績回数判定処理部５０５は、学習フェーズで、履歴情報リストを参照して正例とする当該ｔｗｅｅｔ（登録商標）に関して、オペレータにより複数回選択された回数（複数人のオペレータによる選択や、単一人のオペレータによる複数回の選択を含む）を識別できる実績回数の情報を抽出し、その実績回数の情報を実績回数素性決定部５０６へ出力する。実績回数素性決定部５０６は、当該抽出された提示選択時間の情報をそのまま提示選択時間素性として決定し特徴ベクトル生成部１１２へ出力する。尚、学習フェーズで負例とする当該ｔｗｅｅｔ（登録商標）に関しては、実績回数の情報を付与しないか、或いは実績回数として０回の数値が割り当てられている。即ち、実績回数が多いほど信頼性が高いものとして学習できるようにする。例えば、報道現場では、同じｔｗｅｅｔ（登録商標）を複数人のオペレータが選択することがある。また、単一人のオペレータであっても、複数回で選択されたｔｗｅｅｔ（登録商標）は、機械学習時に強化させることができる。

以上のように、添付情報素性生成部４００は、履歴情報リストからのニュース素材に関する実績情報を基に、ユーザー名履歴素性、提示選択時間素性、及び実績回数素性を抽出し、特徴ベクトル生成部１１２へ出力する。

図１に示す素性生成抽出部１１１は、上記大別して４種類に分類される各素性を生成又は抽出し、これらをすべて接続することにより、大別して４種類の特徴量を持つ特徴ベクトルを生成する。この大別して４種類の各素性にそれぞれ重みを加えることも可能である。最終的な特徴ベクトルの次元数は、当該大別して４種類の各素性を特徴量とするベクトルの次元の総和となる。例えば、図９に示すように、最終的な特徴ベクトルは、各ソーシャルメディア情報（例えば、ｔｗｅｅｔ（登録商標））に正例（＋１）及び負例（−１）を示すフラグに続いて、素性が存在する次元番号を示す数値列で表現することができる。この正例（＋１）及び負例（−１）を示すフラグは学習フェーズで利用され、学習モデル更新制御部１１７は、学習モデルの更新時に、このフラグの値や上記素性の数値を書き換えるよう、素性生成抽出部１１１及び特徴ベクトル生成部１１２を制御する。

〔装置全体動作〕
次に、本実施形態のニュース素材抽出装置１の全体動作について、図６を参照して説明する。図６は、本発明による一実施形態のニュース素材抽出装置１の動作を示すフローチャートである。

ニュース素材抽出装置１は、学習モデルを生成するための学習フェーズと、学習モデルを用いて各ソーシャルメディア情報がニュース素材となりうるか否かを判定する判定フェーズがある。このため、ニュース素材抽出装置１は、学習モデルを生成するための初期学習が必要であるが、一旦学習モデルが生成されると直ちに判定フェーズへ移行でき、更に学習モデルを自動的に更新する。このときの動作の一例を図６に示している。

図６を参照するに、ニュース素材抽出装置１は、学習モデル更新制御部１１７の制御によって、学習フェーズを実行するか否かを判定する（ステップＳ１）。学習モデルが無いときの初期学習時や学習モデルの更新時に、学習モデル更新制御部１１７は、学習フェーズを実行するよう素性生成抽出部１１１及び特徴ベクトル生成部１１２を制御する（ステップＳ１：Ｙｅｓ）。一方、学習モデルが有り、学習モデルの更新時ではないとき、学習モデル更新制御部１１７はステップＳ５へ移行する（ステップＳ１：Ｎｏ）。

続いて、ニュース素材抽出装置１は、素性生成抽出部１１１により、履歴情報リストに含まれている正例・負例のソーシャルメディア情報から素性を生成及び抽出する（ステップＳ２）。

続いて、ニュース素材抽出装置１は、特徴ベクトル生成部１１２により、当該生成及び抽出した素性から特徴ベクトルを生成する（ステップＳ３）。

続いて、ニュース素材抽出装置１は、学習モデル生成部１１３により、当該生成した特徴ベクトルを用いて教師有り機械学習を実行し、学習モデルを生成する（ステップＳ４）。

学習モデルが生成されると、自動的に、ニュース素材抽出装置１は、判定フェーズに移行する（ステップＳ５）。

判定フェーズに移行すると、ニュース素材抽出装置１は、素性生成抽出部１１１により、入力されるソーシャルメディア情報から素性を生成及び抽出する（ステップＳ６）。

続いて、ニュース素材抽出装置１は、特徴ベクトル生成部１１２により、当該入力されるソーシャルメディア情報について生成及び抽出した素性から特徴ベクトルを生成する（ステップＳ７）。

続いて、ニュース素材抽出装置１は、機械学習判定部１１４により、学習モデルを用いて機械学習による判定処理を実行し、ニュース素材候補提示部１１５により、ニュース素材候補となるソーシャルメディア情報と非ニュース素材として判定されたソーシャルメディア情報を併せて表示装置２に提示する（ステップＳ８）。

続いて、ニュース素材抽出装置１は、ニュース素材選択監視部１１６により、表示装置２のＵＩＢ２１を経てオペレータによるニュース素材の選択実績を監視し、学習モデル更新制御部１１７に通知することで、学習モデル更新制御部１１７による学習モデル更新制御を実行するようステップＳ１へ移行する（ステップＳ９）。

（ＵＩ部の構成例）
まず、図１に示すニュース素材候補提示部１１５は、表示装置２に対し、図１０に例示するような対話形式の操作用ダイアログＤｗでＵＩ部２１を構成し、ソーシャルメディア情報を提示することができる。

特に、図１０に例示するように、ニュース素材抽出装置１に逐次流入してくるソーシャルメディア情報のうち、機械学習判定部１１４により判定したニュース素材候補のソーシャルメディア情報Ｉ３については操作用ダイアログＤｗ内で強調表示される（図示Ｄ１の他と異なる領域色）。換言すれば、強調表示されていないソーシャルメディア情報Ｉ１，Ｉ２，Ｉ４，Ｉ５は、機械学習判定部１１４により非ニュース素材として判定されたものであり、オペレータはニュース素材候補であるか否かを容易に判別できるようになっている。尚、操作用ダイアログＤｗ（ＵＩ部２１）にて提示するソーシャルメディア情報の数は一定量に制限され、ソーシャルメディア情報が流入される度に逐次更新される。

また、図１０に例示する操作用ダイアログＤｗ内に提示されるソーシャルメディア情報（本例ではｔｗｅｅｔ（登録商標））Ｉ１〜Ｉ５等の各々には、オペレータによりニュース素材として利用するとして選択するか否かを決定させるための選択ボタン（図示Ｄ２，Ｄ３等）も提示される。

また、図１０に例示するように、ニュース素材候補提示部１１５の制御により、ニュース素材となりえないｔｗｅｅｔ（登録商標）は非表示としている。これにより、オペレータが確認する総数を減少させている。

そして、図１に示すニュース素材選択監視部１１６は、オペレータによる選択実績を監視しており、ニュース素材候補として判定したソーシャルメディア情報と一致しているか否かを示す情報を自動的に学習モデル更新制御部１１７に通知するようになっている。

（学習モデルの更新動作例）
そこで、図１０で例示する操作用ダイアログＤｗを参照しながら、図７を参照してニュース素材選択監視部１１６及び学習モデル更新制御部１１７による動作例を説明する。図７は、本実施形態のニュース素材抽出装置１におけるニュース素材選択監視部１１６及び学習モデル更新制御部１１７の動作例を示すフローチャートである。

まず、ニュース素材選択監視部１１６は、操作用ダイアログＤｗ（ＵＩ部２１）にて、選択ボタン（例えば図示Ｄ２，Ｄ３）を経てオペレータにより、ニュース素材候補又は非ニュース素材候補のソーシャルメディア情報（図１０に示す例ではｔｗｅｅｔ（登録商標））が選択されるのを監視する（ステップＳ１１）。

続いて、ニュース素材選択監視部１１６は、ニュース素材候補又は非ニュース素材候補のｔｗｅｅｔ（登録商標）の選択を検知すると、その旨を学習モデル更新制御部１１７に通知する。この通知を受け付けた学習モデル更新制御部１１７は、事前の外部設定に基づいて、学習モデルを直ちに更新するか否かを判定する（ステップＳ１２）。学習モデルを直ちに更新するときは（ステップＳ１２：Ｙｅｓ）、ステップＳ１５に移行する。尚、ニュース素材選択監視部１１６は、個々のｔｗｅｅｔ（登録商標）の選択回数を履歴情報ＤＢ１２３の履歴情報リストに記録する。また、本例では、ニュース素材選択監視部１１６は、自動的にニュース素材候補を履歴情報リストに記録し、非ニュース素材候補の選択を検知したときには、非ニュース素材候補のｔｗｅｅｔ（登録商標）も履歴情報リストに記録する。

続いて、学習モデル更新制御部１１７は、学習モデルを直ちに更新しない場合（ステップＳ１２：Ｎｏ）、尚且つ非ニュース素材候補の選択の検知の通知を受け付けた場合に、履歴情報リストに非ニュース素材候補が一定量蓄積されているか否かを判定する（ステップＳ１３）。非ニュース素材候補が一定量蓄積されている場合（ステップＳ１３：Ｙｅｓ）、ステップＳ１５に移行する。

続いて、学習モデル更新制御部１１７は、非ニュース素材候補が一定量蓄積されていない場合（ステップＳ１３：Ｎｏ）、前回更新時から所定期間経過したか否かを判定する（ステップＳ１４）。前回更新時から所定期間経過していない場合にはステップＳ１に移行し、前回更新時から所定期間経過している場合にはステップＳ１５に移行する。

ステップＳ１５において、学習モデル更新制御部１１７は、学習モデルの更新を実行する。

このように、表示装置２におけるニュース素材候補を示すｔｗｅｅｔ（登録商標）の提示を対話形式とすることで、オペレータにより選択されたｔｗｅｅｔ（登録商標）の情報は、学習モデルの更新時に利用できる。ニュース素材候補として判定したｔｗｅｅｔ（登録商標）や、オペレータにより選択されたｔｗｅｅｔ（登録商標）は、そのまま記憶部１２に保存される。例えば、強調表示されたｔｗｅｅｔ（登録商標）であるにも関わらず選択されなかった場合や、強調表示されていないｔｗｅｅｔ（登録商標）が選択された場合には、新たな特徴ベクトルの素性を構成するために有効である。尚、強調表示されたｔｗｅｅｔ（登録商標）が選択された場合は、学習モデル更新制御部１１７は、その素性を強化するように素性生成部１１１及び特徴ベクトル１１２を制御して、学習モデル生成部１１３により教師有り機械学習による学習モデルを生成させる。

以上のように構成した本実施形態のニュース素材抽出装置１及びそのプログラムによれば、膨大に投稿されるソーシャルメディア情報から自動でニュース素材（或いはニュース素材候補）を抽出することができる。

特に、本実施形態のニュース素材抽出装置１及びそのプログラムによれば、教師有り機械学習により自動的に抽出したニュース素材となりうるソーシャルメディア情報をニュース素材候補として表示装置２に提示するため、オペレータは、検索対象とした全てのソーシャルメディア情報を確認することなく、ニュース素材となりうる情報を取得できるようになる。

また、本実施形態のニュース素材抽出装置１及びそのプログラムによれば、ニュース素材候補がオペレータにより実際にニュース素材として採用されたか否かの実績情報を取得するためのＵＩ部２１を表示装置２に提示し、当該実績情報を基に、教師有り機械学習における学習モデルを自動的に更新するため、利用する用途によって学習モデルを精度よく更新し適応化させることができる。

以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述した実施形態の例では、主として、提示するニュース素材候補を含むソーシャルメディア情報について、オペレータによる選択を可能とする対話形式の例を説明したが、当該ニュース素材候補を単に記憶部１２の所定の格納領域へ蓄積するのみの構成としてもよい。この場合、オペレータによって、随意、当該記憶部１２の所定の格納領域に蓄積されたニュース素材候補を確認できるようにする。これにより、オペレータの探索負担を軽減させることができる。

また、上述した実施形態の例では、オペレータによる選択をトリガとして学習モデルの更新を行う例を主として説明したが、随意、オペレータは、学習モデルの更新を行うようニュース素材抽出装置１に対し指示することができる。当該指示を受け付けたニュース素材抽出装置１は、学習モデル更新制御部１１７の制御を実行させて学習モデルを更新する。

また、上述した実施形態の例では、放送番組に用いることを意図してソーシャルメディア情報から自動でニュース素材（或いはニュース素材候補）を抽出する例を説明したが、このようなニュース素材は、警察、消防、新聞社等によるニュース素材の探索用途にも適応化させることができる。

本発明によれば、膨大に投稿されるソーシャルメディア情報から自動でニュース素材（或いはニュース素材候補）を抽出することができるので、ニュース素材の探索を要する用途に有用である。

１ニュース素材抽出装置
２表示装置
１１制御部
１２記憶部
２１ユーザーインターフェース（ＵＩ）部
１１１素性生成抽出部
１１２特徴ベクトル生成部
１１３学習モデル生成部
１１４機械学習判定部
１１５ニュース素材候補提示部
１１６ニュース素材選択監視部
１１７学習モデル更新制御部
１２１特定語彙データベース（ＤＢ）
１２２顔文字ＤＢ
１２３履歴情報ＤＢ
２００本文素性生成部
２０１形態素解析処理部
２０２ｎ‐ｇｒａｍ解析処理部
２０３ｎ−ｇｒａｍ素性決定部
２０４構文解析処理部
２０５係り受け素性決定部
２０６否定素性決定部
２０７ＵＲＬ抽出処理部
２０８ＵＲＬ_ｎ‐ｇｒａｍ解析処理部
２０９ＵＲＬ_ｎ‐ｇｒａｍ素性決定部
２１０固有表現抽出処理部
２１１固有表現素性決定部
２１２特定語彙抽出処理部
２１３特定語彙素性決定部
２１４顔文字抽出処理部
２１５顔文字素性決定部
３００属性素性抽出部
３０１発信時刻抽出処理部
３０２発信時刻素性決定部
３０３ＧＰＳ情報抽出処理部
３０４発信都道府県素性決定部
３０５引用判定処理部
３０６引用素性決定部
３０７居住地情報抽出処理部
３０８居住都道府県素性決定部
３０９フォロー数・フォロワー数抽出処理部
３１０フォロー数・フォロワー数素性決定部
３１１過去発現数抽出処理部
３１２過去発現数素性決定部
３１３アカウント作成日抽出処理部
３１４アカウント作成日素性決定部
３１５ユーザー名ボット判定処理部
３１６ボット素性決定部
４００添付情報素性生成部
４０１画像認識処理部
４０２指定オブジェクト素性決定部
４０３文字認識処理部
４０４形態素解析処理部
４０５画像内ｎ‐ｇｒａｍ解析処理部
４０６画像内ｎ‐ｇｒａｍ素性決定部
４０７音声認識処理部
４０８文字認識処理部
４０９形態素解析処理部
４１０音声内ｎ‐ｇｒａｍ解析処理部
４１１音声内ｎ‐ｇｒａｍ素性決定部
５００履歴情報素性抽出部
５０１ユーザー名履歴判定処理部
５０２ユーザー名履歴素性決定部
５０３提示選択時間判定処理部
５０４提示選択時間素性決定部
５０５実績回数判定処理部
５０６実績回数素性決定部

Claims

多数のソーシャルメディア情報のうち教師有り機械学習によりニュース素材となりうるソーシャルメディア情報を自動的に抽出するニュース素材抽出装置であって、
個々のソーシャルメディア情報から特徴ベクトルの特徴量とする素性を生成又は抽出する素性生成抽出手段と、
前記素性を特徴量とし前記素性の数に応じた次元数で構成される特徴ベクトルを生成する特徴ベクトル生成手段と、
ニュース素材として実績のあるソーシャルメディア情報を正例の教師データとして前記特徴ベクトルにより機械学習を行い、学習モデルを生成する学習モデル生成手段と、
判定対象として入力される当該個々のソーシャルメディア情報に対し、前記学習モデルを用いた当該機械学習によりニュース素材となりうるソーシャルメディア情報であるか否かを判定する機械学習判定手段と、
前記機械学習判定手段の判定結果を基に、ニュース素材となりうるソーシャルメディア情報をニュース素材候補として表示装置に提示するか、又は所定の記憶部に蓄積するニュース素材提示・記憶手段と、
を備えることを特徴とするニュース素材抽出装置。
前記素性生成抽出手段は、前記ソーシャルメディア情報内の本文情報から、所定のｎ−ｇｒａｍ素性、所定の係り受け素性、所定の否定素性、所定の本文内ＵＲＬのｎ‐ｇｒａｍ素性、所定の固有表現素性、所定の特定語彙素性、及び所定の顔文字素性を生成する手段を有することを特徴とする、請求項１に記載のニュース素材抽出装置。
前記素性生成抽出手段は、前記ソーシャルメディア情報内の添付情報から、所定の指定オブジェクト素性、所定の画像内ｎ‐ｇｒａｍ素性、及び所定の音声内ｎ‐ｇｒａｍ素性を抽出する手段を有することを特徴とする、請求項１又は２に記載のニュース素材抽出装置。
前記素性生成抽出手段は、前記ソーシャルメディア情報内の属性情報から、所定の発信時刻素性、所定の発信都道府県素性、所定の引用素性決定、及び所定の居住都道府県素性を抽出する手段を有することを特徴とする、請求項１から３のいずれか一項に記載のニュース素材抽出装置。
前記素性生成抽出手段は、前記ソーシャルメディア情報内の属性情報から、所定のフォロー数・フォロワー数素性、所定の過去発現数素性、所定のアカウント作成日素性、及び所定のボット素性を抽出する手段を有することを特徴とする、請求項４に記載のニュース素材抽出装置。
前記素性生成抽出手段は、ニュース素材に関する実績情報を基に、所定のユーザー名履歴素性、所定の提示選択時間素性、及び所定の実績回数素性を抽出する手段を有することを特徴とする、請求項１から５のいずれか一項に記載のニュース素材抽出装置。
前記ニュース素材提示・記憶手段は、前記機械学習判定手段の判定結果を基に前記表示装置へ提示するソーシャルメディア情報のうち、前記ニュース素材候補のソーシャルメディア情報を強調表示するよう前記表示装置へ提示するニュース素材候補提示手段を有することを特徴とする、請求項１から６のいずれか一項に記載のニュース素材抽出装置。
前記ニュース素材候補提示手段は、当該機械学習によりニュース素材候補であるか否かの判定により得られるニュース素材候補の確度の高さを示すスコアに応じて、前記表示装置に対し所定閾値より高いスコアの当該ニュース素材候補については強調表示し、所定閾値より低いスコアのソーシャルメディア情報については非表示とするよう提示することを特徴とする、請求項７に記載のニュース素材抽出装置。
前記ニュース素材候補提示手段は、前記操作用ダイアログ上でオペレータによりニュース素材として利用するとして選択するか否かを決定させるためのユーザーインターフェースを含む対話形式の操作用ダイアログで当該ニュース素材候補及び非ニュース素材候補のソーシャルメディア情報を提示することを特徴とする、請求項７又は８に記載のニュース素材抽出装置。
前記ニュース素材提示・記憶手段は、前記ニュース素材候補提示手段により前記対話形式の操作用ダイアログで提示する当該ニュース素材候補及び非ニュース素材候補のソーシャルメディア情報について、当該オペレータによりニュース素材として利用するものとして選択されたソーシャルメディア情報とを対応付けて監視し、当該ニュース素材候補及び当該オペレータによりニュース素材として利用するものとして選択されたソーシャルメディア情報を識別可能に、尚且つ当該提示してからオペレータが選択するまでの時間を計測し、当該計測した時間の情報を前記学習モデルの更新時の素性に利用可能に付与して当該所定の記憶部に履歴情報リストとして保存するニュース素材選択監視手段を更に備えることを特徴とする、請求項９に記載のニュース素材抽出装置。
前記学習モデルの更新を行うよう前記素性生成抽出手段及び前記特徴ベクトル生成手段を制御する学習モデル更新制御手段を更に備え、
前記学習モデル更新制御手段は、前記ニュース素材選択監視手段からの通知を基に非ニュース素材候補がオペレータにより選択されていると判別した際に、その都度、前記学習モデルの更新を行うか、一定量の非ニュース素材候補が前記履歴情報リストに保存されたときに前記学習モデルの更新を行うか、前回更新時から所定期間経過したときに前記学習モデルの更新を行うかの少なくとも１つ以上の契機に基づいて、前記学習モデルの更新を行うよう制御することを特徴とする、請求項１０に記載のニュース素材抽出装置。
コンピュータを、請求項１から１１のいずれか一項に記載のニュース素材抽出装置として機能させるためのプログラム。