JP2022122297A

JP2022122297A - データ評価システムおよび投稿評価方法

Info

Publication number: JP2022122297A
Application number: JP2021019407A
Authority: JP
Inventors: 進吾足立; Shingo Adachi; 陽平長谷川; Yohei Hasegawa; 仁貴藤原; Masaki Fujiwara; 三揮米原; Mitsuki Yonehara
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2022-08-23

Abstract

【課題】各有用な投稿を抽出する上で、現地の詳細情報の迅速な把握と、誤情報の除外を両立する投稿評価装置を提供する。【解決手段】投稿評価システム１００において、投稿評価装置１０１は、テキストデータを含む投稿データを取得する投稿データ取得部と、高信頼情報を取得する高信頼情報取得部と、テキストデータから所定の現象の有無に関する第１の情報を抽出する投稿構造化部と、高信頼情報から所定の現象の有無に関する第２の情報を抽出し、第２の情報に基づいて所定の現象の有無が確定している場合には、第２の情報と矛盾する第１の情報を誤と判定し、第２の情報に基づいて所定の現象の有無が確定していない場合には、第１の情報を正と判定することにより、投稿データの正確性指標を計算する正確性評価部と、正確性指標に基づいて、投稿データの有用性の指標を計算する有用性指標計算部とを備える。【選択図】図１

Description

本発明は、ＳＮＳ（Social Networking Service）等によってされる投稿などのデータの内容的評価に関する。

特許文献１には、「ある事象の発生を知らせる投稿の内容を解析して、前記事象の発生場所を特定する事象特定部と、１つ以上の機器により観測されている場所と前記１つ以上の機器を管理している管理主体の問い合わせ先とを対応付けるデータを格納する問い合わせ先データベースを検索して、前記事象特定部により特定された場所に対応する問い合わせ先を特定する問い合わせ先特定部と、前記事象の発生有無を前記１つ以上の機器の観測結果から確認する要求を、前記問い合わせ先特定部により特定された問い合わせ先に送信し、前記要求への応答を受信する問い合わせ部と、前記投稿の内容の真偽を、前記問い合わせ部により受信された応答に示されている確認結果から判断し、判断結果に応じた処理を前記投稿に対して実行する結果反映部とを備える虚偽投稿フィルタ装置」という記載がある。

ＷＯ２０１８／２１６１７３Ａ１

特許文献１の技術では、観測結果からの確認に時間を要する場合、投稿の取扱いを決められずに情報を迅速に活用できない。しかしながら、現地に居合わせた人がＳＮＳに投稿した情報のほうが、早く正確な現地の情報を含むことも多いため、迅速に情報を活用できることが望ましい。

そこで、本発明では、各有用な投稿を抽出する上で、現地の詳細情報の迅速な把握と、誤情報の除外を両立する投稿評価装置を提供する。

本願発明の一側面は、テキストデータを含む第１のデータを取得する第１の取得部と、第２のデータを取得する第２の取得部と、前記テキストデータから所定の現象の有無に関する第１の情報を抽出する構造化部と、前記第２のデータから前記所定の現象の有無に関する第２の情報を抽出し、前記第２の情報に基づいて前記所定の現象の有無が確定している場合には、前記第２の情報と矛盾する前記第１の情報を誤と判定し、前記第２の情報に基づいて前記所定の現象の有無が確定していない場合には、前記第１の情報を正と判定することにより、前記第１のデータの正確性指標を計算する正確性評価部と、前記正確性指標に基づいて、前記第１のデータの有用性の指標を計算する有用性指標計算部とを備えたデータ評価システムである。

本願発明の他の一側面は、第１の取得部、第２の取得部を備え、前記第１の取得部および前記第２の取得部から得られる情報を処理する情報処理システムを用いた方法であって、前記第１の取得部で、第１の情報源から投稿されたテキスト情報からなる第１の情報を取得し、前記第２の取得部で、第２の情報源から項目と前記項目に対するデータからなる第２の情報を取得し、前記第１の情報に基づいて解釈される判断対象の現象の有無と、前記第２の情報に基づいて解釈される判断対象の現象の有無を比較して、前記第１の情報の正否を判定し、判定した前記第１の情報の正否を用いて、前記第１の情報の有用性指標を計算し、前記第１の情報の正否を判定する際に、前記第１の情報に基づいて解釈される判断対象の現象の有無と、前記第２の情報に基づいて解釈される判断対象の現象の有無が一致したときは、前記第１の情報を正とし、前記第１の情報に基づいて解釈される判断対象の現象の有無と、前記第２の情報に基づいて解釈される判断対象の現象の有無が一致しないときは、前記第１の情報を誤とし、前記第２の情報に基づいて解釈される判断対象の現象の有無が未確定のときは、前記第１の情報を正とする、投稿評価方法である。

本発明によれば、各有用な投稿を抽出する上で、現地の詳細情報の迅速な把握と、誤情報の除外を両立する投稿評価装置を提供することができる。

上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。

投稿評価システムの構成を示すブロック図。投稿評価装置のハードウェアブロック図。投稿評価の対象となる鉄道路線の一部を示す模式図。投稿データを示す表図。投稿構造化部の処理フローを示す流れ図。固有表現分類の一覧を示す表図。固有表現の抽出結果の例を示す概念図。構造化済投稿データを示す表図。列車の運行計画ダイヤを例に示す表図。列車の在線情報を示す表図。正確性評価部の処理フローを示す流れ図。投稿単位で示す構造化済個別投稿データの例1の表図。投稿単位で示す構造化済個別投稿データの例２の表図。高信頼情報から抽出した遅延情報の例を示す表図。正確性評価部が利用する判定表を示す表図。詳細度評価部の処理フローを示す流れ図。情報源評価部の処理フローを示す流れ図。評価済み投稿データを示す表図。投稿評価結果の概要表示を示すイメージ図。投稿評価結果の路線詳細を示すイメージ図。正確性評価部の処理フローを示す流れ図。正確性評価部が入力とする駅構内の設備点検に関する高信頼情報を示す表図。正確性評価部が入力とする構造化済投稿データのうち１つの投稿例を示す表図。

以下、図面を用いて実施例を説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する実施例の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。

同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。

本明細書等における「第１」、「第２」、「第３」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。

図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。

本明細書で引用した刊行物、特許および特許出願は、そのまま本明細書の説明の一部を構成する。

本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。

実施例１は、交通情報、特に鉄道列車運行の遅れ（遅延）の有無に関するＳＮＳ投稿について、誤情報を除外しつつ、詳細情報を迅速に抽出するように投稿の有用性を評価する投稿評価装置を例にして説明する。

図１は、実施例の投稿評価システム１００の構成を示すブロック図である。投稿評価システム１００は、投稿評価装置１０１と情報表示装置１０５からなる。

投稿評価装置１０１は、投稿データ取得部１１１と、高信頼情報取得部１１２と、投稿構造化部１２１と、詳細度評価部１２２と、正確性評価部１２３と、情報源評価部１２４と、有用性指標計算部１２５と、評価済投稿記憶部１３１と、評価更新部１４１と、配信部１５１とを備える。後述するように、投稿評価装置１０１は、例えばサーバのような情報処理装置で構成することができる。図１では、サーバが当然有する構成を省略して、機能的なブロックを示している。

投稿評価装置１０１は、例えば携帯用情報端末のような投稿端末１０２から、不特定多数のユーザによって投稿された投稿を、ＳＮＳサーバ１０３を経由して収集することができる。また、高信頼情報配信サーバ１０４からの情報を収集することができる。また、投稿評価装置１０１で処理した情報は、情報表示装置１０５に出力することができる。情報表示装置１０５は、投稿評価装置１０１に直結された画像モニタのような表示装置であってもよいし、例えばネットワークを経由して接続された携帯用情報端末であってもよい。

投稿データ取得部１１１は、ＳＮＳサーバ１０３に対して、評価対象の鉄道路線に関わるＳＮＳ投稿データをリクエストし、ＳＮＳ投稿データを受信する。評価対象の鉄道路線に関わるＳＮＳ投稿データを抽出するためには、公知の検索エンジンを利用して、評価対象とする鉄道路線に関わるキーワード、例えば鉄道事業者名、路線名、駅名、を含む投稿を収集することができる。収集のタイミングは、例えば定期的（例：１分ごと）にリクエストし、追加された投稿を時々刻々と受信する。これにより、定常的にＳＮＳ投稿をモニタリングすることができる。また、定常的な収集に加え、あるいはこれに代えて、任意のタイミングで投稿を収集することにしてもよい。投稿データ取得部１１１は、受信した投稿データを投稿構造化部１２１に送信する。投稿データについて具体的には図４で説明する。

高信頼情報取得部１１２は、高信頼情報配信サーバ１０４に対して、評価対象の鉄道路線の遅延に関する高信頼情報をリクエストし、高信頼情報を受信する。高信頼情報配信サーバ１０４は、例えば評価対象の鉄道を管理、運営する鉄道事業者が管理、運営するサーバであり、ＳＮＳサーバ１０３とは異なる情報源を構成する。高信頼情報は、鉄道事業者が収集した情報であり、一般にはＳＮＳ投稿データよりも精度が高いことが期待される。高信頼情報は、例えばデータベース化され、場所と時間と事象の情報を含む管理データである。

高信頼情報取得部１１２は、受信した高信頼情報を正確性評価部１２３に送信する。高信頼情報について具体的には図９、図１０で説明する。

投稿構造化部１２１は、投稿データ取得部１１１から投稿データを受信する。投稿構造化部１２１は、各投稿に対して、形態素解析、固有表現抽出、正規化の処理を行うことで、鉄道列車運行の遅延などに関する場所、時間、事象の情報を抽出し、投稿に含まれる交通情報を構造化する。形態素解析や正規化は、文書構造化のための公知の技術を援用することができる。固有表現抽出は、固有表現抽出モデルを使用したり、固有表現を記憶した辞書を参照したりすることで可能である。

場所の情報は、例えば路線、駅、方面（進行方向）などを含む。事象の情報としては、例えば遅延の有無や程度、その原因などを含む。投稿構造化部１２１は、構造化済投稿データを、詳細度評価部１２２、正確性評価部１２３、情報源評価部１２４にそれぞれ送信する。投稿構造化部１２１の詳細は図５～図７で説明する。

詳細度評価部１２２は、投稿構造化部１２１から構造化済投稿データを受信する。詳細度評価部１２２は、固有表現抽出結果に含まれる固有表現数に基づいて、投稿の情報詳細度の指標を計算する。詳細度評価部１２２は、計算した投稿の情報詳細度の指標値を有用性指標計算部１２５に送信する。詳細度評価部１２２の詳細は図１６で説明する。

正確性評価部１２３は、投稿構造化部１２１から構造化済投稿データを受信する。また、正確性評価部１２３は、高信頼情報取得部１１２から高信頼情報を受信する。正確性評価部１２３は、構造化済投稿データが言及している場所（路線・方面）、時間について、高信頼情報から列車運行の遅延実績情報を集計する。

正確性評価部１２３は、投稿が言及する時間において、高信頼情報で遅延実績がない場合、今後遅延が確認されうる予定の時刻を計算し、確定予定時刻が現在時刻（処理時刻）よりも将来である場合には遅延の有無は未確定とする。

また、正確性評価部１２３は、遅延の有無が確定する時刻（確定時刻）としては、例えば走行中列車の次駅到着予定時刻と停車中列車の発車予定時刻の最も遅い時間を集計する。走行中列車の次駅到着予定時刻や停車中列車の発車予定時刻は、後述するように例えば鉄道ダイヤにより明らかになる。集計した確定時刻には、時刻どおりに列車が次駅に到着しているかどうかや、列車が駅を発射しているかどうかが確定するので、確定時刻を過ぎたときには、評価更新部１４１は、投稿の正確性評価の更新指示を行う。

正確性評価部１２３は、高信頼情報の集計結果との比較を通じて投稿が言及する遅延の有無の正誤を判定し、正確性の指標を定める。正確性評価部１２３は、遅延実績がなく遅延有無の集計結果が未確定の場合、投稿が言及する遅延の有無は仮に正しいと判定する。正確性評価部１２３は、計算した投稿の正確性の指標値を有用性指標計算部１２５に送信する。正確性評価部１２３の詳細は図１１～図１５で説明する。

また、正確性評価部１２３は、評価更新部１４１から、未確定で仮計算した投稿の正確性の指標値の更新指示を受信した場合、その時点では既に遅延の有無は確定しているため、前記同様の処理を行うことで確定した正確性の指標値を計算して更新する。

情報源評価部１２４は、投稿構造化部１２１から構造化済投稿データを受信する。また、情報源評価部１２４は、評価済投稿記憶部１３１から評価済投稿データを受信する。情報源評価部１２４は、各投稿に対して、発信者の属性および過去の投稿内容や、投稿内容が伝聞と推定されるかに基づいて投稿内容の情報源に関する指標を計算する。情報源評価部１２４は、計算した投稿の情報源の指標値を有用性指標計算部１２５に送信する。情報源評価部１２４の詳細は図１７で説明する。

有用性指標計算部１２５は、詳細度評価部１２２、正確性評価部１２３、情報源評価部１２４からそれぞれの投稿の指標値を受信する。有用性指標計算部１２５は、各指標値に基づいて有用性指標を計算する。有用性指標計算部１２５は、有用性指標を計算した評価済み投稿データを、評価済投稿記憶部１３１に記録する。評価済み投稿データの詳細は図１８で説明する。

評価更新部１４１は、周期的（例：１分）に起動する。評価更新部１４１は、評価済投稿記憶部１３１から評価済投稿データを受信する。評価更新部１４１は、評価済投稿データのうち、高信頼情報が未確定であり、現在時刻が確定予定時刻を過ぎた投稿を更新対象として抽出する。評価更新部１４１は、更新対象投稿に対する正確性指標の更新（再計算）の指示を正確性評価部１２３に送信する。評価更新部１４１が、高信頼情報が未確定で正確性指標を仮計算した投稿について、確定した高信頼情報に基づいて正確性指標を更新することで、誤情報の除外の精度を向上できる。

配信部１５１は、評価済投稿記憶部１３１から評価済投稿データを受信する。配信部１５１は、例えば直近所定期間内の投稿を有用性指標の高い順に抽出し、情報表示装置１０５に対して評価済投稿の情報を送信する。送信する情報は、抽出した投稿だけでなく、抽出した投稿の情報を集約するテキストや数値情報を含めることができる。また、送信する情報は、有用性の高い投稿から重要な部分のみを要約したテキスト、複数の投稿に高い頻度で含まれるキーワードを抽出して構築したワードクラウドや、投稿数のカウントなどを含めてもよい。また、高信頼情報のうち路線の運転状況を集約した情報として、遅延の有無、遅延時分などをあわせて送信することもできる。

送信先としては、情報表示装置１０５だけでなく、ＳＮＳサーバに評価済投稿の情報を送信することもできる。例えば、投稿評価装置１０１を投稿者として、有用性指標値の高い投稿を引用する投稿をＳＮＳに投稿することが考えられる。

情報表示装置１０５は、投稿評価装置１０１の配信部１５１から評価済投稿の情報を受信し、有用性の高い投稿のテキストや、そのサマリ情報を画面に表示する。交通事業者の従業員、例えば乗客に対して運行状況を案内する乗務員や駅係員が前記画面表示を確認して情報を把握することで、当該情報を知らない場合に比べて乗客への案内業務を改善できる。また、交通事業者の運行計画を定める指令員が前記画面表示を確認して情報を把握することで、乗客の期待にあった運行計画を選択できる可能性がある。

また、交通機関の乗客が前記画面表示を確認して情報を把握することで、移動目的にあった交通機関の利用方法を選択できる。例えば、今後利用する予定であった路線の遅延情報をいち早く知ることで、別の経路を利用する、あるいは、移動時間を後ろ倒しするなどの選択を取ることで高い効用を得られると考えられる。情報表示装置１０５の詳細は図２０、図２１で説明する。

ＳＮＳサーバ１０３は、投稿端末１０２から送信された投稿を受信し、リクエストに応じて投稿評価システム１００に対して投稿データを送信する。

高信頼情報配信サーバ１０４は、鉄道列車運行管理システム等から列車運行計画ダイヤや列車在線情報などを受信・集約し、リクエストに応じて投稿評価システム１００に対して投稿データを送信する。

図２は、投稿評価装置のハードウェアブロック図である。図２を参照して、投稿評価装置１０１のハードウェア構成を説明する。図２において、投稿評価装置１０１は、ＣＰＵ（Central Processing Unit）２０１と、メモリ２０２と、メディア入出力部２０３と、通信制御部２０４と、入力部２０５と、表示部２０６と、周辺機器ＩＦ（Interface）部２０７と、バス２１０とから構成されている。

ＣＰＵ２０１は、メモリ２０２上のプログラムを実行することで、図１に示した各種機能ブロックの機能を実現する。メモリ２０２は、プログラム、テーブル等を一時記憶する。メディア入出力部２０３は、プログラム、テーブル等を保持する。

入力部２０５は、キーボード、マウス等である。通信制御部２０４は、ネットワーク２２０と接続されている。ネットワーク２２０は、ＳＮＳサーバ１０３や高信頼情報配信サーバ１０４などの他の装置との通信を可能とする。表示部２０６は、例えばディスプレイである。周辺機器ＩＦ部２０７は、プリンタ等のインタフェースである。バス２１０は、ＣＰＵ２０１、メモリ２０２、メディア入出力部２０３、通信制御部２０４、入力部２０５、表示部２０６、周辺機器ＩＦ部２０７を相互接続する。

図１と図２との対比から明らかなように、図１の投稿評価装置１０１は、ＣＰＵ２０１がプログラムを実行することで実現している。もっとも、各機能ブロックの少なくとも一部をハードウェアで構成してもよい。また、図２の例では、投稿評価装置１０１は単一のサーバで構成されるものとしているが、複数のサーバが協働することで同様の機能を実現することも可能である。

図３は、投稿評価の対象となる鉄道路線の一部を示す模式図である。本路線図には、Ｘ線３９１と、Ｙ線３９２の２つの鉄道路線を含む。

Ｘ線３９１は、Ａ駅３０１、Ｂ駅３０２、Ｃ駅３０３、Ｄ駅３０４などの駅間で旅客輸送を行う複線路線であり、Ｐ方面とＱ方面の２方面で列車運行を行う。図３では、Ｑ方面の列車３１１がＡ駅３０１とＢ駅３０２の駅間を走行中であり、列車３１２はＣ駅３０３に停車中であることを示す。同様にＰ方面には列車３２１、３２２、３２３が運行している。

Ｙ線３９２は、Ｘ線３９１とＢ駅３０２で乗り換え可能な路線である。Ｙ線３９２は、Ｂ駅３０２からみてＫ駅３０６の先でＳ方面とＵ方面に分岐している。

路線において他鉄道事業者の路線と相互直通運転を行っている場合、相互直通運転先の路線を含めて同一の路線として取り扱ってもよい。

図４は、投稿データを示す表図である。投稿データ４００は、ＳＮＳサーバ１０３から受信したＸ線あるいはＹ線に関わる投稿データの例である。投稿データ４００の各行が一つの投稿を表している。一つの行は、投稿を一意に識別する投稿ＩＤ４０１、例えばＳＮＳサーバ１０３が投稿を受信した日時を示す投稿日時４０２、投稿内容テキスト４０３、投稿者を一意に示す投稿者ＩＤ４０４等を含む。投稿内容テキスト４０３には、投稿者が参照したＵＲＬ（Uniform Resource Locator）を含んでもよい。投稿日時４０２は、いわゆるタイムスタンプである。

図５は、投稿内容を構造化する、投稿構造化部１２１の処理フローを示す図である。

ステップ５０１は、処理開始を示す。処理はリアルタイム処理でもよいし、バッチ処理でもよい。即時性のある情報を抵抗するためには、リアルタイム処理に近いほうがよい。

ステップ５０２は、データ受信であり、投稿構造化部１２１は、投稿データ取得部１１１から図４の例のような投稿データを受信する。

ステップ５０３は、固有表現抽出であり、投稿データの投稿内容テキスト４０３を入力として、例えば機械学習技術で構築した固有表現抽出モデルを用いることで、投稿テキストから場所、時間、事象に言及しているフレーズを抽出する。

抽出するフレーズを定める固有表現には、図６で後述するように、例えば大分類、中分類、小分類の最大３階層の構造を定義して用いてもよい。定義は、システムの使用目的や用途に応じて任意に定めてよい。

本実施例では、固有表現抽出モデルには、ＣＲＦ（Conditional Random Field）等の機械学習モデルを用いる。なお、固有表現抽出モデルを構築するときに、路線名、駅名、設備名、事象名等の単語をあらかじめ登録することで、固有表現抽出の精度が向上する。投稿の固有表現抽出の例を図７に示す。

ステップ５０４は、正規化であり、前ステップ５０３で抽出したフレーズを正規化し、図８に示す構造化済投稿データを作成する。正規化手法としては公知の技術を使用できるが、例えば場所は、交通事業者、路線、駅、方面、列車名などのフレーズに表記ゆれがあれば正式名称に統一する。駅名から該当する駅が含まれる路線名を補完するように、ある項目から該当フレーズのない項目が補完できる場合は補完する。

投稿が言及している日時として、該当フレーズが投稿に含まれない場合は、投稿日時を用いる。「さっき」、「前」などの過去時制のフレーズがあれば、投稿日時を起点にフレーズの典型的な用法をふまえて言及日時を推定する。例えば、「さっき」は、投稿日時の３０分前～投稿日時を言及している日時の時間帯とする。

ステップ５０５では、結果を次の機能ブロックに送信し、ステップ５０６で処理を終了する。

図６は、投稿構造化部１２１で特定する固有表現分類の一覧を示す図である。固有表現の内容や分類、階層構造は、ユーザが予め任意に定義することができる。この例では、大分類、中分類、小分類の最大３階層の構造を定義している。

大分類は、「場所」、「時間」、「事象」と、それらのいずれにも該当しない「その他」としている。大分類「場所」（あるいは「対象」）に関する中分類としては、「交通事業者名」、「路線」、「駅」、「方面」、「列車名」、普通、快速などの列車の「種別」、改札口、トイレなどの「設備」等がある。

大分類「時間」の中分類としては、「１４時」、「１４：１５」などの具体的な「時刻」や、「さっき」、「少し前」などの表現による「過去時制」、「朝」、「昼」、「夕」、「夜」などの表現による「時間帯」とする。

大分類「事象」（あるいは「状況」）の中分類としては、「運転状況」、「遅延」、「事故」、「混雑」、「設備」などがある。例えば「遅延」の小分類としては、「ひどい」「すこし」など遅延の「度合い」の定性表現や、「５分」のように遅延を定量的に表現した「時分」があり。「事故」や「混雑」の小分類としても、定性的、定量的な度合いの表現を含めることができる。また、「設備」の小分類として、「故障」や「使用禁止」などの「状態」の表現がある。以上は一例であり、固有表現は、ユーザが目的や用途に応じて自由に定めることができる。

図７は、投稿構造化部１２１による固有表現の抽出結果の例を示す概念図である。投稿内容テキスト「Ｘ線のＣ駅でＱ方面が５分遅れて来たすし詰めで混んでいるから見送ろうかな」に対して、固有表現として抽出した場所、事象に関するフレーズに下線を付した。また、該当する固有表現の分類を下線の下に示す。例えば、「すし詰め」は、大分類「事象」、中分類「混雑」、小分類「度合い」に分類される。下線をつけていない語・フレーズは、大分類「その他」に該当する。たとえば、「見送ろうかな」は「その他」に分類される。

図８は、投稿構造化部１２１が出力する構造化済投稿データをテーブルで示す表図である。投稿構造化部が図４の投稿データを処理した出力の一部を抜粋して示す。構造化済投稿データ８００のテーブルの一つの行が、一つの投稿に対応している。一つの行は、投稿を一意に示す投稿ＩＤ８０１（図４の４０１と同じである）、投稿のテキストを処理した結果得られる固有表現分類８０２～８０６は、例えば図６で示した分類に従って付与される。固有表現抽出結果８０７は、例えば図７に示す固有表現抽出結果のデータを格納する。

例えば、図７の投稿ＩＤ「１４３７１」の投稿は、投稿が言及している内容に基づいて、固有表現分類「場所：路線」８０２が「Ｘ（線）」、「場所：駅」８０３が「Ｃ（駅）」、「日時」８０４が投稿日時４０２に基づく「１２：０４」、「事象：遅延」８０５が「遅れあり」、「事象：遅延：時分」８０６が「５分」のようになる。このように、路線、駅、投稿が言及している日時、遅延への言及、遅延時分の項目について、投稿構造化部１２１が投稿内容から抽出したフレーズに基づく情報が設定されている。

図９は、高信頼情報のうち列車の運行計画ダイヤ９００の一例を示す表図である。この例では、ダイヤ改正日９０２、平日・休日区分９０３、路線９０４、方面９０５、列車番号９０６、種別（普通、快速など）９０７の組み合わせごとにＩＤ９０１が振られ、当該列車の出発駅９０８と到着駅９０９、および出発駅の出発時刻９１０と到着駅の到着時刻９１１が駅区間別に示されている。一般的には、運行計画ダイヤ９００は、列車を運営する鉄道会社などにより定められており、各列車は運行計画ダイヤ９００の内容に従って運行される。

図１０は、高信頼情報のうち列車の在線情報１０００を示す表図である。列車番号１００４と情報の更新日時１００２ごとに異なるＩＤ１００１が割り当てられた行となっている。この例では、列車番号１００４で特定される列車の、路線１００３、種別１００５、始発駅１００６、終着駅１００７、方面１００８が含まれているが、これらの情報は、通常は、列車番号１００４に対応して運行計画ダイヤ９００から得られる固定データである。

在線情報１０００では、更新日時１００２における当該列車の在線位置を、停車中の駅、あるいは、最後の出発駅１００９と次の到着予定の駅１０１０の組により示す。例えば、ＩＤ「２１」の行は、列車番号「Ｋ８８８８」の列車が、Ｂ駅とＣ駅の間にあることを示す。また、ＩＤが「２２」の行は、列車番号「Ｊ４５６７」の列車がＢ駅に停車中であることを示す。これらのデータは、列車を運営する鉄道会社などが、列車の運行を制御するために通常使用するデータであり、線路に設置するセンサ、あるいはオペレータの入力などにより得ることができる。

図１１は、正確性評価部１２３の処理フローを示す流れ図である。本実施例の正確性評価部１２３は、ＳＮＳなどで投稿された情報の正確性を判定し、利用価値のある投稿を抽出する。図９および図１０で説明した高信頼情報は、例えば鉄道運用者が鉄道の正確な運行のために使用するデータであるから、内容は正確であることが期待できる。例えば、運行計画ダイヤ９００と在線情報１０００を比較すれば、列車の遅延の状況が正確に把握できる。しかし、高信頼情報は情報の即時性という点では、一般にＳＮＳなどで投稿された情報に劣る。

一般に高信頼情報は、項目と項目に対する情報（記号、数値、テキストなど）で整理され体系化されている。一方、投稿された情報は、一般に自由な形式で記述されたテキスト情報である。正確性評価部１２３では、投稿された情報を高信頼情報と比較することで、投稿情報の正確性を評価する。投稿したテキスト情報については、そのままでは比較が難しいため、投稿構造化部１２１が、必要に応じて先に述べた構造化などの処理を行う。

ステップ１１０１は、処理開始を示す。開始タイミングは任意だが、例えば通常は待ち受け状態として、定期的に起動する。例えば、正確性評価部１２３は、１０分間隔で起動し、直近の１０分間の投稿情報を処理する。

ステップ１１０２は、データ受信であり、正確性評価部１２３は、投稿構造化部１２１から構造化済投稿データ８００を受信する。具体的な投稿の例は、図１２および図１３で説明する。また、正確性評価部１２３は、高信頼情報取得部１１２から高信頼情報９００，１０００を受信する。

正確性評価部１２３が受信するデータは、例えば直近の１０分間に投稿された全ての構造化済投稿データおよび更新された全ての高信頼情報であってもよいが、処理量を圧縮するためには、着目する情報に応じて抽出された情報を受信しても良い。この例では、鉄道の運行に関し「路線Ｘ」の「遅延」に関する情報を収集したい場合を説明する。

図１２、図１３は、投稿構造化部１２１から得られる構造化済投稿データ８００の投稿の例を、投稿単位で示す構造化済個別投稿データ１２００，１３００の表図である。項目１２０１，１３０１の、「投稿ＩＤ」、「投稿内容」、「投稿時刻」、固有表現の「場所」、「時間」、「事象」などの内容１２０２，１３０２は、構造化済投稿データ８００の投稿ＩＤ８０１、固有表現分類８０２～８０６、および固有表現抽出結果８０７の引用である。

図１２、図１３の投稿は、一例として収集したい情報に基づくキーワードを用いて投稿全体から抽出し、「路線Ｘ」、「遅延」の固有表現を持つ「2020-12-17 13:50-14:00」に投稿された情報が抽出されている。高信頼情報については、例えば、在線情報（例：図１０）の更新日時が当該時間帯「13:50-14:00」に含まれる当該路線「Ｘ」の列車全てを対象として抽出する。

ステップ１１０３は、遅延情報抽出であり、運行計画ダイヤ９００と抽出した在線情報１０００を比較することで、駅発着の遅延時分を算出する。すなわち、特定の対象（列車）の位置と時間の目標値である計画ダイヤと、特定の対象の実際の位置と時間である剤線情報を比較することで、目標値に対するずれ（通常は遅れ）を算出する。合わせて、運行計画ダイヤ９００より、次の着発予定時刻として、駅停車中の列車は発車時刻、駅間走行中の列車は次の駅の到着時刻を取得する。

図１４は、正確性評価部１２３がステップ１１０３において高信頼情報から抽出した遅延情報の例を示す表図である。図１４では、「路線Ｘ」の「2020-12-17 13:50-14:00」について、本ステップ１１０３で抽出した遅延情報の例を示す。この例では、図１０で上記条件に該当するＩＤ「２１」と「２３」の状態を、図１０の計画ダイヤと比較することで、図１４の遅延情報１４００を得る。この場合は両者とも遅れはない。

なお、図１２、図１３の例では投稿に方面の言及がないため、路線Ｘで当該時間帯に運行している全列車を対象に抽出する。投稿に方面の言及がある場合は、言及されている方面で該時間帯に運行している列車を対象に抽出する。投稿に特定の列車への言及があれば、当該列車のみを対象とする。

ステップ１１０４は、遅延情報集計であり、投稿ごとに、前ステップ１１０３で抽出した遅延情報を集計し、遅延実績の有無、遅延時分、情報の確定・未確定の区別、情報未確定の場合は確定予定時刻を算出する。抽出した列車のいずれかで所定時間（例：１分）以上の遅延時分がある場合、遅延実績ありとする。遅延時分は、抽出した列車のなかで最大の遅延時分とする。情報は確定とする。

抽出した列車で所定時間以上の遅延時分がない場合、遅延実績なしとする。遅延時分は０分とする。抽出した列車の次の着発予定時刻のいずれかが、正確性評価部による本処理の時刻よりも将来である場合は、情報は未確定とする。そうでない場合、情報は確定とする。なお、未確定の場合、確定予定時刻は、抽出した列車の次の着発予定時刻のなかで最も遅い時刻とする。

ステップ１１０５は、正誤判定であり、投稿ごとに、構造化済投稿データが言及している遅延の情報を前ステップ１１０４の集計結果と比較して正誤判定し、正確性の指標値を定める。

図１５は正確性評価部１２３が投稿の正誤を判定する際に参照する判定表を示す表図である。各投稿について、「１」を正、「－１」を誤、「０」を不確定（評価なし）とする。高信頼情報から抽出・集計した遅延実績と情報の確定・未確定、構造化済投稿データの遅延への言及とその内容（遅延の有無）によって、表のうちの該当する値を正確性の指標値とする。特に、高信頼情報が未確定で投稿に遅延への言及がある場合、指標値を仮に１（正）とする。

図１５に基づいて、例えば、「2020-12-17 13:50-14:00」の時間帯の、「Ｘ線」の列車「Ｋ８８８８」の「遅延」情報を例にして説明する。

高信頼情報の「遅延実績あり」は、例えば計画ダイヤ上、上記時間帯に列車「Ｋ８８８８」が所定駅に到着するはずのところ、在線情報では未だ到着していない場合である。

高信頼情報の「遅延実績なし」「確定」は、例えば計画ダイヤ上、上記時間帯に列車「Ｋ８８８８」が所定駅に到着するはずのところ、在線情報では定刻通り到着している場合である。

なお、遅延実績の有無については、たとえば１分以内の遅延は無視するなどの条件を設けてもよい。すなわち、現象の有無については任意に定義が可能である。

高信頼情報の「遅延実績なし」「未確定」は、例えば計画ダイヤと在線情報を比較しても、遅延実績の有無を判定できない場合であり、例えば、計画ダイヤ上、上記時間帯に列車「Ｋ８８８８」はいずれの駅にも発着しない場合である。

投稿の「遅延」「あり」は、投稿情報の中に遅延があるという固有表現が含まれている場合である。たとえば、「Ｋ８８８８遅れそう」である。

投稿の「遅延」「なし」は、投稿情報の中に遅延がないという固有表現が含まれている場合である。たとえば、「Ｋ８８８８定刻どおりだ」である。

投稿の「遅延言及なし」は、投稿情報の中に遅延に関する言及がない場合である。

高信頼情報と投稿情報が矛盾する場合には、原則として高信頼情報が正しく、投稿情報を誤りとして投稿の正誤を評価するが、高信頼情報が未確定の場合には、投稿情報を仮に正しいとして採用する。

なお、上記の例では、「Ｘ線」の列車「Ｋ８８８８」についての投稿の評価であるが、「Ｘ線」全体についての投稿を評価してもよい。その場合には、例えば以下の例がある。

高信頼情報の「遅延実績あり」は、例えば計画ダイヤ上、上記時間帯に「Ｘ線」上にある列車のうち所定駅に到着するものがあるはずのところ、在線情報では未だ到着していないものがひとつでもある場合である。

高信頼情報の「遅延実績なし」「確定」は、例えば計画ダイヤ上、上記時間帯に「Ｘ線」上にある列車のうち所定駅に到着するものがあるはずのところ、在線情報では全て定刻通り到着している場合である。

なお、遅延実績の有無については、たとえば過半数の列車が定刻に対して遅延している場合のみ「遅延実績あり」のような条件で判断してもよい。あるいは、１分以内の遅延は無視するなどの条件を設けてもよい。すなわち、現象の有無については任意に定義が可能である。

高信頼情報の「遅延実績なし」「未確定」は、例えば計画ダイヤと在線情報を比較しても、遅延実績の有無を判定できない場合である。

投稿の「遅延」「あり」は、投稿情報の中に遅延があるという固有表現が含まれている場合である。たとえば、「Ｘ線遅れそう」である。

投稿の「遅延」「なし」は、投稿情報の中に遅延がないという固有表現が含まれている場合である。たとえば、「Ｘ線定刻どおりだ」である。

ステップ１１０６は、結果送信であり、計算した投稿の正確性の指標値と、情報の確定・未確定の区分、未確定の場合は確定予定時刻を有用性指標計算部１２５に送信する。

ステップ１１０７で、処理終了とする。

図１２は、正確性評価部１２３が入力とする構造化済投稿データのうち１つの投稿例を示す図である。この投稿はＸ線の８分の遅延実績について言及している。高信頼情報においても遅延実績ありと集計されていれば、投稿の正確性の指標値が「１」になる。

図１３は、正確性評価部１２３が入力とする構造化済投稿データのうち別の１つの投稿例を示す図である。この投稿は駅間で停車したこと、Ｘ線に遅延が生じる可能性について言及している。この投稿内容の状況では、列車の次駅への到着予定時刻を過ぎるまで高信頼情報で遅延実績はないまま（未確定）となる。上述した正確性評価部１２３の処理では、高信頼情報の遅延情報を未確定として扱い、この投稿の言及を仮に正しいと判定することで、ＳＮＳ投稿から迅速に情報を抽出できる。あるいは、仮の正判定は値「１」とせずに「０.８」のように区別し、高信頼情報で遅延が確定した時点で「１」に更新してもよい。

図１６は、詳細度評価部１２２の処理フローを示す流れ図である。

ステップ１６０１は、処理開始である。

ステップ１６０２は、データ受信であり、投稿構造化部１２１から構造化済投稿データ８００を受信する。

ステップ１６０３は、抽出固有表現数集計であり、各投稿について、固有表現抽出結果に含まれる場所、時間、事象に関する固有表現の数に基づいて、投稿の情報詳細度の指標を計算する。図７の投稿の例では、「大分類：場所」の固有表現が３つ、「大分類：事象」の固有表現が４つ抽出されており、情報詳細度の指標値を抽出された固有表現の数である３＋４＝７とする。指標は、固有表現の数に限定されるものではなく、投稿内容テキストに含まれる単語数に対する固有表現の数の比率、分類の深さ、固有表現の種類に対する重みづけその他の関数等を用いることもできる。

ステップ１６０４は、結果送信であり、計算した投稿の情報詳細度の指標値を有用性指標計算部１２５に送信する。

ステップ１６０５で、処理終了とする。

図１７は、情報源評価部１２４の処理フローを示す流れ図である。

ステップ１７０１で、処理を開始する。

ステップ１７０２で、データを受信する。データ受信では、投稿構造化部１２１から構造化済投稿データ８００を受信するとともに、評価済投稿記憶部１３１から評価済投稿データ１８００を受信する。

ステップ１７０３は、投稿者判定である。投稿者ＩＤ８０１等に基づいて、投稿者の属性および過去の投稿内容に基づいて投稿を評価する。例えば、現地の詳細情報の迅速な把握の点で有用性の低い投稿が多いと考えられる投稿者の一覧を用意しておき、その一覧に含まれる投稿者からの投稿を低く評価する。また、評価済投稿記憶部１３１に記録された評価済投稿データ１８００を参照して、同じ投稿者の投稿の有用性指標１８０８の平均値を計算し、例えば、その値が所定の値よりも大きい（有用性が高い）場合に高く評価する。

ステップ１７０４は、伝聞判定である。投稿内容が伝聞と推定されるかに基づいて投稿を評価する。例えば、投稿内容テキストにリンクや引用が含まれる場合は、現場で体験した情報ではなく、ＳＮＳやニュース・記事等を参照して得た情報である可能性が高いため、現場の情報ではない投稿内容として低く評価する。また、具体的な情報源（車内放送、駅構内放送など）を示さずに、「らしい」「だそうだ」などの伝聞表現が使われている投稿は、現場で体験した情報ではない可能性が高いため低く評価する。

ステップ１７０５は、指標計算である。ステップ１７０３、１７０４で挙げた観点を組み合わせて情報源に関する指標を計算する。例えば高く評価できる観点の数を指標値とする。あるいは各観点に適宜重みをつけてもよい。

ステップ１７０６は、結果送信である。計算した投稿の情報源の指標値を有用性指標計算部１２５に送信する。

ステップ１７０７で、処理を終了する。

図１８は、有用性指標計算部１２５の出力する評価済み投稿データを示す表図である。評価済投稿データ１８００の、投稿ＩＤ１８０１で特定される一つの列がひとつの投稿を示している。投稿ＩＤ１８０１や更新日時１８０２は、構造化済投稿データ８００の「投稿ＩＤ」８０１や「日時」８０４を引用すればよい。

列１８０８の有用性指標は、詳細度評価部１２２から得た詳細度１８０３、正確性評価部１２３から得た正確性１８０４、情報源評価部１２４から得た情報源の指標値１８０７に基づいて計算される。投稿ＩＤ「１４３７１」では、確定・未確定の区分１８０５の値が未確定に「該当」となっており、正確性が「１」で「正」になってはいるが、対応する高信頼情報では現象は未確定であり、確定予定時刻１８０６が示す「14:14」に確定予定であることが示されている。タグ付き投稿内容１８０９は、図７に示すようなデータである。

有用性指標計算部１２５は、詳細度評価部１２２、正確性評価部１２３、情報源評価部１２４から各投稿の指標値を受信する。合わせて、正確性評価部１２３からは、各投稿の情報の確定・未確定の区分１８０５、未確定の場合の確定予定時刻１８０６を受信する。

有用性指標計算部１２５は、各指標値に基づいて有用性指標１８０８を計算する。例えば、有用性指標が０から１の間の値をとり、情報表示装置１０５で評価済投稿を確認する利用者にとって有用な投稿ほど大きな指標値となるように、標準シグモイド関数σと係数１～４を用いて下記の式で計算する。
（有用性指標）＝σ（（係数１）×（詳細度指標）＋（係数２）×（正確性指標）＋（係数３）×（情報源指標）＋（係数４））
ここで、標準シグモイド関数は、指数関数ｅｘｐ（ｘ）を用いてσ（ｘ）＝１／（１＋ｅｘｐ（ｘ））と定義される。
上記式は一例であり、他の関数や重みを用いてもよい。

各投稿について受信した情報と有用性指標とをあわせた評価済投稿データ１８００を評価済投稿記憶部１３１に記録する
有用性指標計算部１２５の上記の処理により、詳細度、正確性、情報源の観点で投稿の有用性を評価し、有用性指標値に統合することで、詳細情報の迅速な把握と、誤情報の除外を両立する。

図１９は、情報表示装置１０５に表示される投稿評価結果の概要表示を示すイメージ図である。概要表示のウィンドウ１９０１は、評価時刻を示す表示１９０２、概要表示テーブル１９０３を含む。

概要表示テーブル１９０３の各行は、対象路線ごとの評価済み投稿および高信頼情報のサマリを示す。

行１９２１は路線Ｘ、１９２２は路線Ｙを示す。列１９１１は路線名を示す。

列１９１２は高信頼情報の運転状況のサマリであり、平常運転か、遅延ありかどうかを表示する。

列１９１３には投稿数の時系列トレンドのグラフを表示する。横軸が時間、縦軸が投稿数である。当該路線に関する投稿の総数と、有用性評価指標が所定値を上回ったフィルタ後の投稿数を表示する。

列１９１４には所定期間のうちで有用性指標の値が最大の投稿、あるいは、フィルタ後で投稿日時が最新の投稿などの代表的な投稿を表示する。

列１９１５には、フィルタ後の投稿の情報を集約する情報を表示する。具体的には、所定期間のうちでフィルタ後の投稿で頻出するキーワードをワードクラウドとして表示する。

列１９１６には、図２０に示す路線についての詳細表示に遷移するボタンを表示する。

図１９の例では、高信頼情報では運転状況１９１２で「平常運転」の状況が示されている。しかし、ＳＮＳで投稿されている情報からは、遅延や混雑を想起させる情報が抽出される。このように、本実施例ではＳＮＳのように信頼性が保証されていない情報から、確度の比較的高い情報を早期に抽出することができる。

図２０は、情報表示装置１０５に表示される投稿評価結果の路線詳細を示すイメージ図である。路線詳細表示のウィンドウ２００１は、表示対象の路線名をパネル２０１１に表示する。

パネル２０１２には、評価済投稿記憶部１３１のうち当該路線の情報を抜粋してテーブル形式で示す。情報表示装置１０５の利用者が、投稿時刻の新しい順や、有用性指標の高い順などで並び替えられるようにする。抜粋は、評価済投稿データ１８００から、路線名や当該路線に属する駅名、列車名をキーワードにして抽出すればよい。さらに、投稿時刻や言及時刻、場所の絞り込み、有用性指標の値によるフィルタなどの調整ができるようにしてもよい。

投稿内容テキストの表示は、評価済投稿データ１８００そのもの、あるいは、評価済投稿データ１８００から適宜抜粋した項目を表示することができる。図７のように、抽出した場所、時間、事象に関する固有表現を強調して表示することで、情報表示装置１０５の利用者が投稿内容のポイントを早く把握できる。

上記、図１９および図２０で説明した情報表示により、交通事業者の従業員や乗客が、詳細情報の迅速な把握と、誤情報を除外した情報取得を両立できることで、運行状況の案内業務や移動経路・時間の選択を改善できると考えられる。

本実施例は、設備異常に関するＳＮＳ投稿について、誤情報を除外しつつ、詳細情報を迅速に抽出するように投稿の有用性を評価する投稿評価装置について説明する。駅構内におけるホームやトイレなどの設備を具体例として、実施例１との主要な差分について投稿評価装置の処理を説明する。特に説明のない部分は、実施例１と同様でよい。

図１で、正確性評価部１２３は、投稿構造化部１２１から構造化済投稿データを受信し、高信頼情報取得部１１２から高信頼情報を受信する。この例では、正確性評価部１２３は、構造化済投稿データを全て受信し、後工程で必要な情報をフィルタリングするものとして説明する。

構造化済投稿データが言及している場所（路線・方面）、時間、事象（設備異常）について、高信頼情報から事象の実績情報を集計する。高信頼情報で事象（設備異常）の実績がない場合、今後事象（設備異常）が確認されうる予定の時刻を計算し、確定予定時刻が処理時刻よりも将来である場合には事象（設備異常）有無は未確定とする。

事象（設備異常）の有無が確定する時刻としては、例えば当該の場所の次の点検予定時刻、あるいは、異常を検知するセンサのデータ取得予定時刻とする。集計結果との比較を通じて投稿が言及する事象（設備異常）の有無の正誤を判定し、正確性の指標を定める。事象（設備異常）実績がなく事象（設備異常）有無が未確定の場合、投稿が言及する事象（設備異常）有無は仮に正しいと判定する。計算した投稿の正確性の指標値を有用性指標計算部１２５に送信する。

図２１を参照して、実施例２における正確性評価部１２３の処理フローを説明する。
ステップ２１０１で、処理を開始する。
ステップ２１０２で、データを受信する。投稿構造化部１２１から構造化済投稿データを受信する。

図２２は、高信頼情報取得部１１２から取得する高信頼情報の例を示す。この例は、設備の維持、管理のためのメンテナンスデータ２２００であり、データＩＤ２２０１、データ更新日時２２０２、設備がある駅２２０３、設備名２２０４、異常有無２２０５、対応済・未済２２０６、次回点検予定時刻２２０７等を含む。

図２３は、投稿データ取得部１１１から取得する具体的な投稿の例を示す。
ステップ２１０３で、異常情報を抽出する。投稿ごとに、構造化済投稿データが言及している場所（路線・方面）、時間について、高信頼情報から設備の異常情報を抽出する。

図２３の投稿の場合、構造化済投稿データ２３００に含まれる固有表現に基づいて、メンテナンスデータ２２００を検索し、Ｄ駅の北口トイレについての設備点検の情報を抽出する。具体的には図２２のテーブルから、Ｄ駅の北口トイレの記録の行（ＩＤ７）を取り出す。なお、構造化済投稿データの言及で設備を１つに特定できない場合は、該当する可能性のある複数の設備の記録の行を取り出す。

ステップ２１０４で、異常情報を集計する。投稿ごとに、前ステップ２１０３で抽出した異常情報を集計し、異常有無２２０５から異常実績の有無、対応済・未済２２０６から異常対応済・未済、次回点検予定時刻２２０７から情報確定予定時刻を算出する。

情報の確定・未確定の区別は、抽出した異常情報のうちで異常有無２２０５が異常あり、かつ、対応済・未済２２０６で対応未済の設備がある場合、異常実績あり（確定）とする。それ以外は、基本的に未確定として扱い、点検時刻においてのみ情報が確定するものとする。

図２３の投稿の例では、図２２の高信頼情報のＩＤ７の行が取り出される。高信頼情報によると１１時時点ではＤ駅の北口トイレは「異常なし」だが、異常の有無が確定するのは、次回点検予定時刻である１５時である。よって、高信頼情報は未確定であり、投稿によるＤ駅の北口トイレに異常ありという情報が仮に正しいと判定される。仮の判定は、１５時に更新される。

上記の手法では、高信頼情報は、異常有無２２０５が異常あり、かつ、対応済・未済２２０６で対応未済の設備がある「異常実績あり（確定）」以外は未確定とした。別の手法として、抽出した異常情報で異常あり、かつ、対応未済の設備は一つもない場合、高信頼情報は「異常実績なし（確定）」とする。これは、異常に対応した直後は正常の状態が続くという前提に基づく。それ以外の場合は、異常有無は未確定とし、確定予定時刻は、次回点検予定時刻のなかで最も遅い時刻とする。次回点検予定時刻のいずれかが、正確性評価部による本処理の時刻よりも将来である場合は、情報は未確定とする。

ステップ２１０５で、正誤判定をする。投稿ごとに、構造化済投稿データが言及している異常の情報を前ステップの集計結果と比較して正誤判定し、正確性の指標値を定める。

判定表は図１５の「遅延」を「異常」に読み替えたものを用いて、実施例１と同様の判定を行う。特に、情報が未確定で投稿に異常への言及がある場合、指標値を仮に「１」（正）とする。

ステップ２１０６で、結果を送信する。計算した投稿の正確性の指標値と、情報の確定・未確定の区分、未確定の場合は確定予定時刻を有用性指標計算部１２５に送信する。

ステップ２１０７で、処理を終了する。

図２２は、正確性評価部１２３が入力とする駅構内の設備点検に関する高信頼情報を示す表図である。各設備の点検と異常有無、対応の済・未済と次回点検予定時刻が含まれている。

図２３は、正確性評価部１２３が入力とする構造化済投稿データのうち１つの投稿例を示す表図である。

上述した正確性評価部１２３の処理では、高信頼情報の点検記録と今後の点検予定から未確定な期間を定めることで、高信頼情報が未確定な期間の異常情報についてＳＮＳ投稿から迅速に情報を抽出できる。

評価更新部１４１は、周期的（例：１分）に起動する。評価更新部１４１は、評価済投稿記憶部１３１から評価済投稿データを受信し、高信頼情報取得部１１２から高信頼情報を受信する。評価済投稿のうち、高信頼情報が未確定である投稿を更新対象として抽出する。特に、当該投稿の正確性評価で参照した設備の高信頼情報が更新された投稿を更新対象とする。更新対象投稿に対する正確性指標の更新（再計算）の指示を正確性評価部１２３に送信する。高信頼情報が未確定で正確性指標を仮計算した投稿について、確定した高信頼情報に基づいて正確性指標を更新することで、誤情報の除外の精度を向上できる。

実施例２の設備異常については、異常情報に関する投稿を迅速に配信することで、設備を管理する事業者の従業員・係員が当該設備を速やかに、すなわち、次の点検予定よりも早めて点検し、異常への対応を早められる。従業員・係員が点検を実施し、その情報が高信頼情報に反映された場合は、上記の評価更新部１４１の処理によって誤情報の除外の精度を向上させることができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

以上説明した実施例によれば、高信頼情報では不確定な事項も考慮に入れて投稿情報を評価することで、関連情報の収集範囲が広がり、有意な情報を収集しやすい。また、詳細度、正確性、情報源の観点で投稿の有用性を評価することで、詳細情報の迅速な把握と、誤情報の除外を両立することができる。

１００投稿評価システム
１０１投稿評価装置
１２２詳細度評価部
１２３正確性評価部
１２４情報源評価部
１２５有用性指標計算部

Claims

テキストデータを含む第１のデータを取得する第１の取得部と、
第２のデータを取得する第２の取得部と、
前記テキストデータから所定の現象の有無に関する第１の情報を抽出する構造化部と、
前記第２のデータから前記所定の現象の有無に関する第２の情報を抽出し、前記第２の情報に基づいて前記所定の現象の有無が確定している場合には、前記第２の情報と矛盾する前記第１の情報を誤と判定し、前記第２の情報に基づいて前記所定の現象の有無が確定していない場合には、前記第１の情報を正と判定することにより、前記第１のデータの正確性指標を計算する正確性評価部と、
前記正確性指標に基づいて、前記第１のデータの有用性の指標を計算する有用性指標計算部と、
を備えたデータ評価システム。
前記正確性評価部は、前記第２の情報に基づいて前記所定の現象の有無が確定していない場合には、前記第１の情報を仮に正と判定し、前記第２の情報に基づいて前記所定の現象の有無が確定する確定予定時刻を計算し、前記確定予定時刻を経過した場合に前記第１のデータの正確性指標を更新する、
請求項１記載のデータ評価システム。
さらに詳細度評価部を備え、
前記構造化部は、前記第１の情報として、前記所定の現象を記述する場所と時間と事象の固有表現を抽出し、
前記詳細度評価部は、前記固有表現の数に基づいて詳細度指標を計算し、
前記有用性指標計算部は、前記正確性指標および前記詳細度指標に基づいて、前記第１のデータの有用性の指標を計算する、
請求項１記載のデータ評価システム。
さらに情報源評価部を備え、
前記情報源評価部は、前記第１のデータの情報源に関わる評価情報に基づいて情報源指標を計算し、
前記有用性指標計算部は、前記正確性評価部および前記情報源指標に基づいて、前記第１のデータの有用性の指標を計算する、
請求項１記載のデータ評価システム。
前記第１のデータは、不特定のユーザによって投稿された投稿であり、
前記第２のデータは、場所と時間と事象の情報を含む管理データである、
請求項１記載のデータ評価システム。
前記管理データは、交通機関の運行計画ダイヤおよび在線情報であり、
前記正確性評価部は、前記交通機関の運行の遅延という現象の有無について前記投稿の内容と前記管理データを比較する、
請求項５記載のデータ評価システム。
前記管理データは、設備の管理情報であり、
前記正確性評価部は、前記設備の異常という現象の有無について前記投稿の内容と前記管理データを比較する、
請求項５記載のデータ評価システム。
第１の取得部、第２の取得部を備え、前記第１の取得部および前記第２の取得部から得られる情報を処理する情報処理システムを用いた方法であって、
前記第１の取得部で、第１の情報源から投稿されたテキスト情報からなる第１の情報を取得し、
前記第２の取得部で、第２の情報源から項目と前記項目に対するデータからなる第２の情報を取得し、
前記第１の情報に基づいて解釈される判断対象の現象の有無と、前記第２の情報に基づいて解釈される判断対象の現象の有無を比較して、前記第１の情報の正否を判定し、
判定した前記第１の情報の正否を用いて、前記第１の情報の有用性指標を計算し、
前記第１の情報の正否を判定する際に、
前記第１の情報に基づいて解釈される判断対象の現象の有無と、前記第２の情報に基づいて解釈される判断対象の現象の有無が一致したときは、前記第１の情報を正とし、
前記第１の情報に基づいて解釈される判断対象の現象の有無と、前記第２の情報に基づいて解釈される判断対象の現象の有無が一致しないときは、前記第１の情報を誤とし、
前記第２の情報に基づいて解釈される判断対象の現象の有無が未確定のときは、前記第１の情報を正とする、
投稿評価方法。
前記第１の取得部は、携帯端末から入力された投稿時刻付きテキスト情報からなる投稿である第１の情報を取得し、
前記テキスト情報に対して、固有表現の抽出と正規化の処理を行って、前記判断対象の現象の有無に係る情報を抽出し、
前記第２の取得部は、データベースに格納された項目と前記項目に対するデータを第２の情報として取得し、
前記第２の情報は、所定時刻における前記判断対象の現象の有無を記述する情報を含み、
前記第２の情報に基づいて解釈される判断対象の現象の有無が未確定のときとは、前記投稿時刻を基準とした所定時間内に前記所定時刻が含まれ、当該所定時刻においては前記判断対象の現象がまだ無いとされている場合である、
請求項８記載の投稿評価方法。
前記データベースに格納されたデータの更新予定時刻を計算し、
前記更新予定時刻以後に、前記第１の情報の正否の判定を再度行う、
請求項９記載の投稿評価方法。