JP2022122297A - データ評価システムおよび投稿評価方法 - Google Patents
データ評価システムおよび投稿評価方法 Download PDFInfo
- Publication number
- JP2022122297A JP2022122297A JP2021019407A JP2021019407A JP2022122297A JP 2022122297 A JP2022122297 A JP 2022122297A JP 2021019407 A JP2021019407 A JP 2021019407A JP 2021019407 A JP2021019407 A JP 2021019407A JP 2022122297 A JP2022122297 A JP 2022122297A
- Authority
- JP
- Japan
- Prior art keywords
- information
- data
- post
- phenomenon
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 134
- 238000011157 data evaluation Methods 0.000 title claims description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 38
- 230000005856 abnormality Effects 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 230000010365 information processing Effects 0.000 claims description 3
- 230000008094 contradictory effect Effects 0.000 claims 1
- 230000007717 exclusion Effects 0.000 abstract description 3
- 238000007689 inspection Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 13
- 230000001934 delay Effects 0.000 description 11
- 230000003111 delayed effect Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】各有用な投稿を抽出する上で、現地の詳細情報の迅速な把握と、誤情報の除外を両立する投稿評価装置を提供する。【解決手段】投稿評価システム100において、投稿評価装置101は、テキストデータを含む投稿データを取得する投稿データ取得部と、高信頼情報を取得する高信頼情報取得部と、テキストデータから所定の現象の有無に関する第1の情報を抽出する投稿構造化部と、高信頼情報から所定の現象の有無に関する第2の情報を抽出し、第2の情報に基づいて所定の現象の有無が確定している場合には、第2の情報と矛盾する第1の情報を誤と判定し、第2の情報に基づいて所定の現象の有無が確定していない場合には、第1の情報を正と判定することにより、投稿データの正確性指標を計算する正確性評価部と、正確性指標に基づいて、投稿データの有用性の指標を計算する有用性指標計算部とを備える。【選択図】図1
Description
本発明は、SNS(Social Networking Service)等によってされる投稿などのデータの内容的評価に関する。
特許文献1には、「ある事象の発生を知らせる投稿の内容を解析して、前記事象の発生場所を特定する事象特定部と、1つ以上の機器により観測されている場所と前記1つ以上の機器を管理している管理主体の問い合わせ先とを対応付けるデータを格納する問い合わせ先データベースを検索して、前記事象特定部により特定された場所に対応する問い合わせ先を特定する問い合わせ先特定部と、前記事象の発生有無を前記1つ以上の機器の観測結果から確認する要求を、前記問い合わせ先特定部により特定された問い合わせ先に送信し、前記要求への応答を受信する問い合わせ部と、前記投稿の内容の真偽を、前記問い合わせ部により受信された応答に示されている確認結果から判断し、判断結果に応じた処理を前記投稿に対して実行する結果反映部とを備える虚偽投稿フィルタ装置」という記載がある。
特許文献1の技術では、観測結果からの確認に時間を要する場合、投稿の取扱いを決められずに情報を迅速に活用できない。しかしながら、現地に居合わせた人がSNSに投稿した情報のほうが、早く正確な現地の情報を含むことも多いため、迅速に情報を活用できることが望ましい。
そこで、本発明では、各有用な投稿を抽出する上で、現地の詳細情報の迅速な把握と、誤情報の除外を両立する投稿評価装置を提供する。
本願発明の一側面は、テキストデータを含む第1のデータを取得する第1の取得部と、第2のデータを取得する第2の取得部と、前記テキストデータから所定の現象の有無に関する第1の情報を抽出する構造化部と、前記第2のデータから前記所定の現象の有無に関する第2の情報を抽出し、前記第2の情報に基づいて前記所定の現象の有無が確定している場合には、前記第2の情報と矛盾する前記第1の情報を誤と判定し、前記第2の情報に基づいて前記所定の現象の有無が確定していない場合には、前記第1の情報を正と判定することにより、前記第1のデータの正確性指標を計算する正確性評価部と、前記正確性指標に基づいて、前記第1のデータの有用性の指標を計算する有用性指標計算部とを備えたデータ評価システムである。
本願発明の他の一側面は、第1の取得部、第2の取得部を備え、前記第1の取得部および前記第2の取得部から得られる情報を処理する情報処理システムを用いた方法であって、前記第1の取得部で、第1の情報源から投稿されたテキスト情報からなる第1の情報を取得し、前記第2の取得部で、第2の情報源から項目と前記項目に対するデータからなる第2の情報を取得し、前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の有無を比較して、前記第1の情報の正否を判定し、判定した前記第1の情報の正否を用いて、前記第1の情報の有用性指標を計算し、前記第1の情報の正否を判定する際に、前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の有無が一致したときは、前記第1の情報を正とし、前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の有無が一致しないときは、前記第1の情報を誤とし、前記第2の情報に基づいて解釈される判断対象の現象の有無が未確定のときは、前記第1の情報を正とする、投稿評価方法である。
本発明によれば、各有用な投稿を抽出する上で、現地の詳細情報の迅速な把握と、誤情報の除外を両立する投稿評価装置を提供することができる。
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
以下、図面を用いて実施例を説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する実施例の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。
本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
本明細書で引用した刊行物、特許および特許出願は、そのまま本明細書の説明の一部を構成する。
本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。
実施例1は、交通情報、特に鉄道列車運行の遅れ(遅延)の有無に関するSNS投稿について、誤情報を除外しつつ、詳細情報を迅速に抽出するように投稿の有用性を評価する投稿評価装置を例にして説明する。
図1は、実施例の投稿評価システム100の構成を示すブロック図である。投稿評価システム100は、投稿評価装置101と情報表示装置105からなる。
投稿評価装置101は、投稿データ取得部111と、高信頼情報取得部112と、投稿構造化部121と、詳細度評価部122と、正確性評価部123と、情報源評価部124と、有用性指標計算部125と、評価済投稿記憶部131と、評価更新部141と、配信部151とを備える。後述するように、投稿評価装置101は、例えばサーバのような情報処理装置で構成することができる。図1では、サーバが当然有する構成を省略して、機能的なブロックを示している。
投稿評価装置101は、例えば携帯用情報端末のような投稿端末102から、不特定多数のユーザによって投稿された投稿を、SNSサーバ103を経由して収集することができる。また、高信頼情報配信サーバ104からの情報を収集することができる。また、投稿評価装置101で処理した情報は、情報表示装置105に出力することができる。情報表示装置105は、投稿評価装置101に直結された画像モニタのような表示装置であってもよいし、例えばネットワークを経由して接続された携帯用情報端末であってもよい。
投稿データ取得部111は、SNSサーバ103に対して、評価対象の鉄道路線に関わるSNS投稿データをリクエストし、SNS投稿データを受信する。評価対象の鉄道路線に関わるSNS投稿データを抽出するためには、公知の検索エンジンを利用して、評価対象とする鉄道路線に関わるキーワード、例えば鉄道事業者名、路線名、駅名、を含む投稿を収集することができる。収集のタイミングは、例えば定期的(例:1分ごと)にリクエストし、追加された投稿を時々刻々と受信する。これにより、定常的にSNS投稿をモニタリングすることができる。また、定常的な収集に加え、あるいはこれに代えて、任意のタイミングで投稿を収集することにしてもよい。投稿データ取得部111は、受信した投稿データを投稿構造化部121に送信する。投稿データについて具体的には図4で説明する。
高信頼情報取得部112は、高信頼情報配信サーバ104に対して、評価対象の鉄道路線の遅延に関する高信頼情報をリクエストし、高信頼情報を受信する。高信頼情報配信サーバ104は、例えば評価対象の鉄道を管理、運営する鉄道事業者が管理、運営するサーバであり、SNSサーバ103とは異なる情報源を構成する。高信頼情報は、鉄道事業者が収集した情報であり、一般にはSNS投稿データよりも精度が高いことが期待される。高信頼情報は、例えばデータベース化され、場所と時間と事象の情報を含む管理データである。
高信頼情報取得部112は、受信した高信頼情報を正確性評価部123に送信する。高信頼情報について具体的には図9、図10で説明する。
投稿構造化部121は、投稿データ取得部111から投稿データを受信する。投稿構造化部121は、各投稿に対して、形態素解析、固有表現抽出、正規化の処理を行うことで、鉄道列車運行の遅延などに関する場所、時間、事象の情報を抽出し、投稿に含まれる交通情報を構造化する。形態素解析や正規化は、文書構造化のための公知の技術を援用することができる。固有表現抽出は、固有表現抽出モデルを使用したり、固有表現を記憶した辞書を参照したりすることで可能である。
場所の情報は、例えば路線、駅、方面(進行方向)などを含む。事象の情報としては、例えば遅延の有無や程度、その原因などを含む。投稿構造化部121は、構造化済投稿データを、詳細度評価部122、正確性評価部123、情報源評価部124にそれぞれ送信する。投稿構造化部121の詳細は図5~図7で説明する。
詳細度評価部122は、投稿構造化部121から構造化済投稿データを受信する。詳細度評価部122は、固有表現抽出結果に含まれる固有表現数に基づいて、投稿の情報詳細度の指標を計算する。詳細度評価部122は、計算した投稿の情報詳細度の指標値を有用性指標計算部125に送信する。詳細度評価部122の詳細は図16で説明する。
正確性評価部123は、投稿構造化部121から構造化済投稿データを受信する。また、正確性評価部123は、高信頼情報取得部112から高信頼情報を受信する。正確性評価部123は、構造化済投稿データが言及している場所(路線・方面)、時間について、高信頼情報から列車運行の遅延実績情報を集計する。
正確性評価部123は、投稿が言及する時間において、高信頼情報で遅延実績がない場合、今後遅延が確認されうる予定の時刻を計算し、確定予定時刻が現在時刻(処理時刻)よりも将来である場合には遅延の有無は未確定とする。
また、正確性評価部123は、遅延の有無が確定する時刻(確定時刻)としては、例えば走行中列車の次駅到着予定時刻と停車中列車の発車予定時刻の最も遅い時間を集計する。走行中列車の次駅到着予定時刻や停車中列車の発車予定時刻は、後述するように例えば鉄道ダイヤにより明らかになる。集計した確定時刻には、時刻どおりに列車が次駅に到着しているかどうかや、列車が駅を発射しているかどうかが確定するので、確定時刻を過ぎたときには、評価更新部141は、投稿の正確性評価の更新指示を行う。
正確性評価部123は、高信頼情報の集計結果との比較を通じて投稿が言及する遅延の有無の正誤を判定し、正確性の指標を定める。正確性評価部123は、遅延実績がなく遅延有無の集計結果が未確定の場合、投稿が言及する遅延の有無は仮に正しいと判定する。正確性評価部123は、計算した投稿の正確性の指標値を有用性指標計算部125に送信する。正確性評価部123の詳細は図11~図15で説明する。
また、正確性評価部123は、評価更新部141から、未確定で仮計算した投稿の正確性の指標値の更新指示を受信した場合、その時点では既に遅延の有無は確定しているため、前記同様の処理を行うことで確定した正確性の指標値を計算して更新する。
情報源評価部124は、投稿構造化部121から構造化済投稿データを受信する。また、情報源評価部124は、評価済投稿記憶部131から評価済投稿データを受信する。情報源評価部124は、各投稿に対して、発信者の属性および過去の投稿内容や、投稿内容が伝聞と推定されるかに基づいて投稿内容の情報源に関する指標を計算する。情報源評価部124は、計算した投稿の情報源の指標値を有用性指標計算部125に送信する。情報源評価部124の詳細は図17で説明する。
有用性指標計算部125は、詳細度評価部122、正確性評価部123、情報源評価部124からそれぞれの投稿の指標値を受信する。有用性指標計算部125は、各指標値に基づいて有用性指標を計算する。有用性指標計算部125は、有用性指標を計算した評価済み投稿データを、評価済投稿記憶部131に記録する。評価済み投稿データの詳細は図18で説明する。
評価更新部141は、周期的(例:1分)に起動する。評価更新部141は、評価済投稿記憶部131から評価済投稿データを受信する。評価更新部141は、評価済投稿データのうち、高信頼情報が未確定であり、現在時刻が確定予定時刻を過ぎた投稿を更新対象として抽出する。評価更新部141は、更新対象投稿に対する正確性指標の更新(再計算)の指示を正確性評価部123に送信する。評価更新部141が、高信頼情報が未確定で正確性指標を仮計算した投稿について、確定した高信頼情報に基づいて正確性指標を更新することで、誤情報の除外の精度を向上できる。
配信部151は、評価済投稿記憶部131から評価済投稿データを受信する。配信部151は、例えば直近所定期間内の投稿を有用性指標の高い順に抽出し、情報表示装置105に対して評価済投稿の情報を送信する。送信する情報は、抽出した投稿だけでなく、抽出した投稿の情報を集約するテキストや数値情報を含めることができる。また、送信する情報は、有用性の高い投稿から重要な部分のみを要約したテキスト、複数の投稿に高い頻度で含まれるキーワードを抽出して構築したワードクラウドや、投稿数のカウントなどを含めてもよい。また、高信頼情報のうち路線の運転状況を集約した情報として、遅延の有無、遅延時分などをあわせて送信することもできる。
送信先としては、情報表示装置105だけでなく、SNSサーバに評価済投稿の情報を送信することもできる。例えば、投稿評価装置101を投稿者として、有用性指標値の高い投稿を引用する投稿をSNSに投稿することが考えられる。
情報表示装置105は、投稿評価装置101の配信部151から評価済投稿の情報を受信し、有用性の高い投稿のテキストや、そのサマリ情報を画面に表示する。交通事業者の従業員、例えば乗客に対して運行状況を案内する乗務員や駅係員が前記画面表示を確認して情報を把握することで、当該情報を知らない場合に比べて乗客への案内業務を改善できる。また、交通事業者の運行計画を定める指令員が前記画面表示を確認して情報を把握することで、乗客の期待にあった運行計画を選択できる可能性がある。
また、交通機関の乗客が前記画面表示を確認して情報を把握することで、移動目的にあった交通機関の利用方法を選択できる。例えば、今後利用する予定であった路線の遅延情報をいち早く知ることで、別の経路を利用する、あるいは、移動時間を後ろ倒しするなどの選択を取ることで高い効用を得られると考えられる。情報表示装置105の詳細は図20、図21で説明する。
SNSサーバ103は、投稿端末102から送信された投稿を受信し、リクエストに応じて投稿評価システム100に対して投稿データを送信する。
高信頼情報配信サーバ104は、鉄道列車運行管理システム等から列車運行計画ダイヤや列車在線情報などを受信・集約し、リクエストに応じて投稿評価システム100に対して投稿データを送信する。
図2は、投稿評価装置のハードウェアブロック図である。図2を参照して、投稿評価装置101のハードウェア構成を説明する。図2において、投稿評価装置101は、CPU(Central Processing Unit)201と、メモリ202と、メディア入出力部203と、通信制御部204と、入力部205と、表示部206と、周辺機器IF(Interface)部207と、バス210とから構成されている。
CPU201は、メモリ202上のプログラムを実行することで、図1に示した各種機能ブロックの機能を実現する。メモリ202は、プログラム、テーブル等を一時記憶する。メディア入出力部203は、プログラム、テーブル等を保持する。
入力部205は、キーボード、マウス等である。通信制御部204は、ネットワーク220と接続されている。ネットワーク220は、SNSサーバ103や高信頼情報配信サーバ104などの他の装置との通信を可能とする。表示部206は、例えばディスプレイである。周辺機器IF部207は、プリンタ等のインタフェースである。バス210は、CPU201、メモリ202、メディア入出力部203、通信制御部204、入力部205、表示部206、周辺機器IF部207を相互接続する。
図1と図2との対比から明らかなように、図1の投稿評価装置101は、CPU201がプログラムを実行することで実現している。もっとも、各機能ブロックの少なくとも一部をハードウェアで構成してもよい。また、図2の例では、投稿評価装置101は単一のサーバで構成されるものとしているが、複数のサーバが協働することで同様の機能を実現することも可能である。
図3は、投稿評価の対象となる鉄道路線の一部を示す模式図である。本路線図には、X線391と、Y線392の2つの鉄道路線を含む。
X線391は、A駅301、B駅302、C駅303、D駅304などの駅間で旅客輸送を行う複線路線であり、P方面とQ方面の2方面で列車運行を行う。図3では、Q方面の列車311がA駅301とB駅302の駅間を走行中であり、列車312はC駅303に停車中であることを示す。同様にP方面には列車321、322、323が運行している。
Y線392は、X線391とB駅302で乗り換え可能な路線である。Y線392は、B駅302からみてK駅306の先でS方面とU方面に分岐している。
路線において他鉄道事業者の路線と相互直通運転を行っている場合、相互直通運転先の路線を含めて同一の路線として取り扱ってもよい。
図4は、投稿データを示す表図である。投稿データ400は、SNSサーバ103から受信したX線あるいはY線に関わる投稿データの例である。投稿データ400の各行が一つの投稿を表している。一つの行は、投稿を一意に識別する投稿ID401、例えばSNSサーバ103が投稿を受信した日時を示す投稿日時402、投稿内容テキスト403、投稿者を一意に示す投稿者ID404等を含む。投稿内容テキスト403には、投稿者が参照したURL(Uniform Resource Locator)を含んでもよい。投稿日時402は、いわゆるタイムスタンプである。
図5は、投稿内容を構造化する、投稿構造化部121の処理フローを示す図である。
ステップ501は、処理開始を示す。処理はリアルタイム処理でもよいし、バッチ処理でもよい。即時性のある情報を抵抗するためには、リアルタイム処理に近いほうがよい。
ステップ502は、データ受信であり、投稿構造化部121は、投稿データ取得部111から図4の例のような投稿データを受信する。
ステップ503は、固有表現抽出であり、投稿データの投稿内容テキスト403を入力として、例えば機械学習技術で構築した固有表現抽出モデルを用いることで、投稿テキストから場所、時間、事象に言及しているフレーズを抽出する。
抽出するフレーズを定める固有表現には、図6で後述するように、例えば大分類、中分類、小分類の最大3階層の構造を定義して用いてもよい。定義は、システムの使用目的や用途に応じて任意に定めてよい。
本実施例では、固有表現抽出モデルには、CRF(Conditional Random Field)等の機械学習モデルを用いる。なお、固有表現抽出モデルを構築するときに、路線名、駅名、設備名、事象名等の単語をあらかじめ登録することで、固有表現抽出の精度が向上する。投稿の固有表現抽出の例を図7に示す。
ステップ504は、正規化であり、前ステップ503で抽出したフレーズを正規化し、図8に示す構造化済投稿データを作成する。正規化手法としては公知の技術を使用できるが、例えば場所は、交通事業者、路線、駅、方面、列車名などのフレーズに表記ゆれがあれば正式名称に統一する。駅名から該当する駅が含まれる路線名を補完するように、ある項目から該当フレーズのない項目が補完できる場合は補完する。
投稿が言及している日時として、該当フレーズが投稿に含まれない場合は、投稿日時を用いる。「さっき」、「前」などの過去時制のフレーズがあれば、投稿日時を起点にフレーズの典型的な用法をふまえて言及日時を推定する。例えば、「さっき」は、投稿日時の30分前~投稿日時を言及している日時の時間帯とする。
ステップ505では、結果を次の機能ブロックに送信し、ステップ506で処理を終了する。
図6は、投稿構造化部121で特定する固有表現分類の一覧を示す図である。固有表現の内容や分類、階層構造は、ユーザが予め任意に定義することができる。この例では、大分類、中分類、小分類の最大3階層の構造を定義している。
大分類は、「場所」、「時間」、「事象」と、それらのいずれにも該当しない「その他」としている。大分類「場所」(あるいは「対象」)に関する中分類としては、「交通事業者名」、「路線」、「駅」、「方面」、「列車名」、普通、快速などの列車の「種別」、改札口、トイレなどの「設備」等がある。
大分類「時間」の中分類としては、「14時」、「14:15」などの具体的な「時刻」や、「さっき」、「少し前」などの表現による「過去時制」、「朝」、「昼」、「夕」、「夜」などの表現による「時間帯」とする。
大分類「事象」(あるいは「状況」)の中分類としては、「運転状況」、「遅延」、「事故」、「混雑」、「設備」などがある。例えば「遅延」の小分類としては、「ひどい」「すこし」など遅延の「度合い」の定性表現や、「5分」のように遅延を定量的に表現した「時分」があり。「事故」や「混雑」の小分類としても、定性的、定量的な度合いの表現を含めることができる。また、「設備」の小分類として、「故障」や「使用禁止」などの「状態」の表現がある。以上は一例であり、固有表現は、ユーザが目的や用途に応じて自由に定めることができる。
図7は、投稿構造化部121による固有表現の抽出結果の例を示す概念図である。投稿内容テキスト「X線のC駅でQ方面が5分遅れて来た すし詰めで混んでいるから見送ろうかな」に対して、固有表現として抽出した場所、事象に関するフレーズに下線を付した。また、該当する固有表現の分類を下線の下に示す。例えば、「すし詰め」は、大分類「事象」、中分類「混雑」、小分類「度合い」に分類される。下線をつけていない語・フレーズは、大分類「その他」に該当する。たとえば、「見送ろうかな」は「その他」に分類される。
図8は、投稿構造化部121が出力する構造化済投稿データをテーブルで示す表図である。投稿構造化部が図4の投稿データを処理した出力の一部を抜粋して示す。構造化済投稿データ800のテーブルの一つの行が、一つの投稿に対応している。一つの行は、投稿を一意に示す投稿ID801(図4の401と同じである)、投稿のテキストを処理した結果得られる固有表現分類802~806は、例えば図6で示した分類に従って付与される。固有表現抽出結果807は、例えば図7に示す固有表現抽出結果のデータを格納する。
例えば、図7の投稿ID「14371」の投稿は、投稿が言及している内容に基づいて、固有表現分類「場所:路線」802が「X(線)」、「場所:駅」803が「C(駅)」、「日時」804が投稿日時402に基づく「12:04」、「事象:遅延」805が「遅れあり」、「事象:遅延:時分」806が「5分」のようになる。このように、路線、駅、投稿が言及している日時、遅延への言及、遅延時分の項目について、投稿構造化部121が投稿内容から抽出したフレーズに基づく情報が設定されている。
図9は、高信頼情報のうち列車の運行計画ダイヤ900の一例を示す表図である。この例では、ダイヤ改正日902、平日・休日区分903、路線904、方面905、列車番号906、種別(普通、快速など)907の組み合わせごとにID901が振られ、当該列車の出発駅908と到着駅909、および出発駅の出発時刻910と到着駅の到着時刻911が駅区間別に示されている。一般的には、運行計画ダイヤ900は、列車を運営する鉄道会社などにより定められており、各列車は運行計画ダイヤ900の内容に従って運行される。
図10は、高信頼情報のうち列車の在線情報1000を示す表図である。列車番号1004と情報の更新日時1002ごとに異なるID1001が割り当てられた行となっている。この例では、列車番号1004で特定される列車の、路線1003、種別1005、始発駅1006、終着駅1007、方面1008が含まれているが、これらの情報は、通常は、列車番号1004に対応して運行計画ダイヤ900から得られる固定データである。
在線情報1000では、更新日時1002における当該列車の在線位置を、停車中の駅、あるいは、最後の出発駅1009と次の到着予定の駅1010の組により示す。例えば、ID「21」の行は、列車番号「K8888」の列車が、B駅とC駅の間にあることを示す。また、IDが「22」の行は、列車番号「J4567」の列車がB駅に停車中であることを示す。これらのデータは、列車を運営する鉄道会社などが、列車の運行を制御するために通常使用するデータであり、線路に設置するセンサ、あるいはオペレータの入力などにより得ることができる。
図11は、正確性評価部123の処理フローを示す流れ図である。本実施例の正確性評価部123は、SNSなどで投稿された情報の正確性を判定し、利用価値のある投稿を抽出する。図9および図10で説明した高信頼情報は、例えば鉄道運用者が鉄道の正確な運行のために使用するデータであるから、内容は正確であることが期待できる。例えば、運行計画ダイヤ900と在線情報1000を比較すれば、列車の遅延の状況が正確に把握できる。しかし、高信頼情報は情報の即時性という点では、一般にSNSなどで投稿された情報に劣る。
一般に高信頼情報は、項目と項目に対する情報(記号、数値、テキストなど)で整理され体系化されている。一方、投稿された情報は、一般に自由な形式で記述されたテキスト情報である。正確性評価部123では、投稿された情報を高信頼情報と比較することで、投稿情報の正確性を評価する。投稿したテキスト情報については、そのままでは比較が難しいため、投稿構造化部121が、必要に応じて先に述べた構造化などの処理を行う。
ステップ1101は、処理開始を示す。開始タイミングは任意だが、例えば通常は待ち受け状態として、定期的に起動する。例えば、正確性評価部123は、10分間隔で起動し、直近の10分間の投稿情報を処理する。
ステップ1102は、データ受信であり、正確性評価部123は、投稿構造化部121から構造化済投稿データ800を受信する。具体的な投稿の例は、図12および図13で説明する。また、正確性評価部123は、高信頼情報取得部112から高信頼情報900,1000を受信する。
正確性評価部123が受信するデータは、例えば直近の10分間に投稿された全ての構造化済投稿データおよび更新された全ての高信頼情報であってもよいが、処理量を圧縮するためには、着目する情報に応じて抽出された情報を受信しても良い。この例では、鉄道の運行に関し「路線X」の「遅延」に関する情報を収集したい場合を説明する。
図12、図13は、投稿構造化部121から得られる構造化済投稿データ800の投稿の例を、投稿単位で示す構造化済個別投稿データ1200,1300の表図である。項目1201,1301の、「投稿ID」、「投稿内容」、「投稿時刻」、固有表現の「場所」、「時間」、「事象」などの内容1202,1302は、構造化済投稿データ800の投稿ID801、固有表現分類802~806、および固有表現抽出結果807の引用である。
図12、図13の投稿は、一例として収集したい情報に基づくキーワードを用いて投稿全体から抽出し、「路線X」、「遅延」の固有表現を持つ「2020-12-17 13:50-14:00」に投稿された情報が抽出されている。高信頼情報については、例えば、在線情報(例:図10)の更新日時が当該時間帯「13:50-14:00」に含まれる当該路線「X」の列車全てを対象として抽出する。
ステップ1103は、遅延情報抽出であり、運行計画ダイヤ900と抽出した在線情報1000を比較することで、駅発着の遅延時分を算出する。すなわち、特定の対象(列車)の位置と時間の目標値である計画ダイヤと、特定の対象の実際の位置と時間である剤線情報を比較することで、目標値に対するずれ(通常は遅れ)を算出する。合わせて、運行計画ダイヤ900より、次の着発予定時刻として、駅停車中の列車は発車時刻、駅間走行中の列車は次の駅の到着時刻を取得する。
図14は、正確性評価部123がステップ1103において高信頼情報から抽出した遅延情報の例を示す表図である。図14では、「路線X」の「2020-12-17 13:50-14:00」について、本ステップ1103で抽出した遅延情報の例を示す。この例では、図10で上記条件に該当するID「21」と「23」の状態を、図10の計画ダイヤと比較することで、図14の遅延情報1400を得る。この場合は両者とも遅れはない。
なお、図12、図13の例では投稿に方面の言及がないため、路線Xで当該時間帯に運行している全列車を対象に抽出する。投稿に方面の言及がある場合は、言及されている方面で該時間帯に運行している列車を対象に抽出する。投稿に特定の列車への言及があれば、当該列車のみを対象とする。
ステップ1104は、遅延情報集計であり、投稿ごとに、前ステップ1103で抽出した遅延情報を集計し、遅延実績の有無、遅延時分、情報の確定・未確定の区別、情報未確定の場合は確定予定時刻を算出する。抽出した列車のいずれかで所定時間(例:1分)以上の遅延時分がある場合、遅延実績ありとする。遅延時分は、抽出した列車のなかで最大の遅延時分とする。情報は確定とする。
抽出した列車で所定時間以上の遅延時分がない場合、遅延実績なしとする。遅延時分は0分とする。抽出した列車の次の着発予定時刻のいずれかが、正確性評価部による本処理の時刻よりも将来である場合は、情報は未確定とする。そうでない場合、情報は確定とする。なお、未確定の場合、確定予定時刻は、抽出した列車の次の着発予定時刻のなかで最も遅い時刻とする。
ステップ1105は、正誤判定であり、投稿ごとに、構造化済投稿データが言及している遅延の情報を前ステップ1104の集計結果と比較して正誤判定し、正確性の指標値を定める。
図15は正確性評価部123が投稿の正誤を判定する際に参照する判定表を示す表図である。各投稿について、「1」を正、「-1」を誤、「0」を不確定(評価なし)とする。高信頼情報から抽出・集計した遅延実績と情報の確定・未確定、構造化済投稿データの遅延への言及とその内容(遅延の有無)によって、表のうちの該当する値を正確性の指標値とする。特に、高信頼情報が未確定で投稿に遅延への言及がある場合、指標値を仮に1(正)とする。
図15に基づいて、例えば、「2020-12-17 13:50-14:00」の時間帯の、「X線」の列車「K8888」の「遅延」情報を例にして説明する。
高信頼情報の「遅延実績あり」は、例えば計画ダイヤ上、上記時間帯に列車「K8888」が所定駅に到着するはずのところ、在線情報では未だ到着していない場合である。
高信頼情報の「遅延実績なし」「確定」は、例えば計画ダイヤ上、上記時間帯に列車「K8888」が所定駅に到着するはずのところ、在線情報では定刻通り到着している場合である。
なお、遅延実績の有無については、たとえば1分以内の遅延は無視するなどの条件を設けてもよい。すなわち、現象の有無については任意に定義が可能である。
高信頼情報の「遅延実績なし」「未確定」は、例えば計画ダイヤと在線情報を比較しても、遅延実績の有無を判定できない場合であり、例えば、計画ダイヤ上、上記時間帯に列車「K8888」はいずれの駅にも発着しない場合である。
投稿の「遅延」「あり」は、投稿情報の中に遅延があるという固有表現が含まれている場合である。たとえば、「K8888遅れそう」である。
投稿の「遅延」「なし」は、投稿情報の中に遅延がないという固有表現が含まれている場合である。たとえば、「K8888定刻どおりだ」である。
投稿の「遅延言及なし」は、投稿情報の中に遅延に関する言及がない場合である。
高信頼情報と投稿情報が矛盾する場合には、原則として高信頼情報が正しく、投稿情報を誤りとして投稿の正誤を評価するが、高信頼情報が未確定の場合には、投稿情報を仮に正しいとして採用する。
なお、上記の例では、「X線」の列車「K8888」についての投稿の評価であるが、「X線」全体についての投稿を評価してもよい。その場合には、例えば以下の例がある。
高信頼情報の「遅延実績あり」は、例えば計画ダイヤ上、上記時間帯に「X線」上にある列車のうち所定駅に到着するものがあるはずのところ、在線情報では未だ到着していないものがひとつでもある場合である。
高信頼情報の「遅延実績なし」「確定」は、例えば計画ダイヤ上、上記時間帯に「X線」上にある列車のうち所定駅に到着するものがあるはずのところ、在線情報では全て定刻通り到着している場合である。
なお、遅延実績の有無については、たとえば過半数の列車が定刻に対して遅延している場合のみ「遅延実績あり」のような条件で判断してもよい。あるいは、1分以内の遅延は無視するなどの条件を設けてもよい。すなわち、現象の有無については任意に定義が可能である。
高信頼情報の「遅延実績なし」「未確定」は、例えば計画ダイヤと在線情報を比較しても、遅延実績の有無を判定できない場合である。
投稿の「遅延」「あり」は、投稿情報の中に遅延があるという固有表現が含まれている場合である。たとえば、「X線遅れそう」である。
投稿の「遅延」「なし」は、投稿情報の中に遅延がないという固有表現が含まれている場合である。たとえば、「X線定刻どおりだ」である。
投稿の「遅延言及なし」は、投稿情報の中に遅延に関する言及がない場合である。
ステップ1106は、結果送信であり、計算した投稿の正確性の指標値と、情報の確定・未確定の区分、未確定の場合は確定予定時刻を有用性指標計算部125に送信する。
ステップ1107で、処理終了とする。
図12は、正確性評価部123が入力とする構造化済投稿データのうち1つの投稿例を示す図である。この投稿はX線の8分の遅延実績について言及している。高信頼情報においても遅延実績ありと集計されていれば、投稿の正確性の指標値が「1」になる。
図13は、正確性評価部123が入力とする構造化済投稿データのうち別の1つの投稿例を示す図である。この投稿は駅間で停車したこと、X線に遅延が生じる可能性について言及している。この投稿内容の状況では、列車の次駅への到着予定時刻を過ぎるまで高信頼情報で遅延実績はないまま(未確定)となる。上述した正確性評価部123の処理では、高信頼情報の遅延情報を未確定として扱い、この投稿の言及を仮に正しいと判定することで、SNS投稿から迅速に情報を抽出できる。あるいは、仮の正判定は値「1」とせずに「0.8」のように区別し、高信頼情報で遅延が確定した時点で「1」に更新してもよい。
図16は、詳細度評価部122の処理フローを示す流れ図である。
ステップ1601は、処理開始である。
ステップ1602は、データ受信であり、投稿構造化部121から構造化済投稿データ800を受信する。
ステップ1603は、抽出固有表現数集計であり、各投稿について、固有表現抽出結果に含まれる場所、時間、事象に関する固有表現の数に基づいて、投稿の情報詳細度の指標を計算する。図7の投稿の例では、「大分類:場所」の固有表現が3つ、「大分類:事象」の固有表現が4つ抽出されており、情報詳細度の指標値を抽出された固有表現の数である3+4=7とする。指標は、固有表現の数に限定されるものではなく、投稿内容テキストに含まれる単語数に対する固有表現の数の比率、分類の深さ、固有表現の種類に対する重みづけその他の関数等を用いることもできる。
ステップ1604は、結果送信であり、計算した投稿の情報詳細度の指標値を有用性指標計算部125に送信する。
ステップ1605で、処理終了とする。
図17は、情報源評価部124の処理フローを示す流れ図である。
ステップ1701で、処理を開始する。
ステップ1702で、データを受信する。データ受信では、投稿構造化部121から構造化済投稿データ800を受信するとともに、評価済投稿記憶部131から評価済投稿データ1800を受信する。
ステップ1703は、投稿者判定である。投稿者ID801等に基づいて、投稿者の属性および過去の投稿内容に基づいて投稿を評価する。例えば、現地の詳細情報の迅速な把握の点で有用性の低い投稿が多いと考えられる投稿者の一覧を用意しておき、その一覧に含まれる投稿者からの投稿を低く評価する。また、評価済投稿記憶部131に記録された評価済投稿データ1800を参照して、同じ投稿者の投稿の有用性指標1808の平均値を計算し、例えば、その値が所定の値よりも大きい(有用性が高い)場合に高く評価する。
ステップ1704は、伝聞判定である。投稿内容が伝聞と推定されるかに基づいて投稿を評価する。例えば、投稿内容テキストにリンクや引用が含まれる場合は、現場で体験した情報ではなく、SNSやニュース・記事等を参照して得た情報である可能性が高いため、現場の情報ではない投稿内容として低く評価する。また、具体的な情報源(車内放送、駅構内放送など)を示さずに、「らしい」「だそうだ」などの伝聞表現が使われている投稿は、現場で体験した情報ではない可能性が高いため低く評価する。
ステップ1705は、指標計算である。ステップ1703、1704で挙げた観点を組み合わせて情報源に関する指標を計算する。例えば高く評価できる観点の数を指標値とする。あるいは各観点に適宜重みをつけてもよい。
ステップ1706は、結果送信である。計算した投稿の情報源の指標値を有用性指標計算部125に送信する。
ステップ1707で、処理を終了する。
図18は、有用性指標計算部125の出力する評価済み投稿データを示す表図である。評価済投稿データ1800の、投稿ID1801で特定される一つの列がひとつの投稿を示している。投稿ID1801や更新日時1802は、構造化済投稿データ800の「投稿ID」801や「日時」804を引用すればよい。
列1808の有用性指標は、詳細度評価部122から得た詳細度1803、正確性評価部123から得た正確性1804、情報源評価部124から得た情報源の指標値1807に基づいて計算される。投稿ID「14371」では、確定・未確定の区分1805の値が未確定に「該当」となっており、正確性が「1」で「正」になってはいるが、対応する高信頼情報では現象は未確定であり、確定予定時刻1806が示す「14:14」に確定予定であることが示されている。タグ付き投稿内容1809は、図7に示すようなデータである。
有用性指標計算部125は、詳細度評価部122、正確性評価部123、情報源評価部124から各投稿の指標値を受信する。合わせて、正確性評価部123からは、各投稿の情報の確定・未確定の区分1805、未確定の場合の確定予定時刻1806を受信する。
有用性指標計算部125は、各指標値に基づいて有用性指標1808を計算する。例えば、有用性指標が0から1の間の値をとり、情報表示装置105で評価済投稿を確認する利用者にとって有用な投稿ほど大きな指標値となるように、標準シグモイド関数σと係数1~4を用いて下記の式で計算する。
(有用性指標)=σ((係数1)×(詳細度指標)+(係数2)×(正確性指標)+(係数3)×(情報源指標)+(係数4))
ここで、標準シグモイド関数は、指数関数exp(x)を用いてσ(x)=1/(1+exp(x))と定義される。
上記式は一例であり、他の関数や重みを用いてもよい。
(有用性指標)=σ((係数1)×(詳細度指標)+(係数2)×(正確性指標)+(係数3)×(情報源指標)+(係数4))
ここで、標準シグモイド関数は、指数関数exp(x)を用いてσ(x)=1/(1+exp(x))と定義される。
上記式は一例であり、他の関数や重みを用いてもよい。
各投稿について受信した情報と有用性指標とをあわせた評価済投稿データ1800を評価済投稿記憶部131に記録する
有用性指標計算部125の上記の処理により、詳細度、正確性、情報源の観点で投稿の有用性を評価し、有用性指標値に統合することで、詳細情報の迅速な把握と、誤情報の除外を両立する。
有用性指標計算部125の上記の処理により、詳細度、正確性、情報源の観点で投稿の有用性を評価し、有用性指標値に統合することで、詳細情報の迅速な把握と、誤情報の除外を両立する。
図19は、情報表示装置105に表示される投稿評価結果の概要表示を示すイメージ図である。概要表示のウィンドウ1901は、評価時刻を示す表示1902、概要表示テーブル1903を含む。
概要表示テーブル1903の各行は、対象路線ごとの評価済み投稿および高信頼情報のサマリを示す。
行1921は路線X、1922は路線Yを示す。列1911は路線名を示す。
列1912は高信頼情報の運転状況のサマリであり、平常運転か、遅延ありかどうかを表示する。
列1913には投稿数の時系列トレンドのグラフを表示する。横軸が時間、縦軸が投稿数である。当該路線に関する投稿の総数と、有用性評価指標が所定値を上回ったフィルタ後の投稿数を表示する。
列1914には所定期間のうちで有用性指標の値が最大の投稿、あるいは、フィルタ後で投稿日時が最新の投稿などの代表的な投稿を表示する。
列1915には、フィルタ後の投稿の情報を集約する情報を表示する。具体的には、所定期間のうちでフィルタ後の投稿で頻出するキーワードをワードクラウドとして表示する。
列1916には、図20に示す路線についての詳細表示に遷移するボタンを表示する。
図19の例では、高信頼情報では運転状況1912で「平常運転」の状況が示されている。しかし、SNSで投稿されている情報からは、遅延や混雑を想起させる情報が抽出される。このように、本実施例ではSNSのように信頼性が保証されていない情報から、確度の比較的高い情報を早期に抽出することができる。
図20は、情報表示装置105に表示される投稿評価結果の路線詳細を示すイメージ図である。路線詳細表示のウィンドウ2001は、表示対象の路線名をパネル2011に表示する。
パネル2012には、評価済投稿記憶部131のうち当該路線の情報を抜粋してテーブル形式で示す。情報表示装置105の利用者が、投稿時刻の新しい順や、有用性指標の高い順などで並び替えられるようにする。抜粋は、評価済投稿データ1800から、路線名や当該路線に属する駅名、列車名をキーワードにして抽出すればよい。さらに、投稿時刻や言及時刻、場所の絞り込み、有用性指標の値によるフィルタなどの調整ができるようにしてもよい。
投稿内容テキストの表示は、評価済投稿データ1800そのもの、あるいは、評価済投稿データ1800から適宜抜粋した項目を表示することができる。図7のように、抽出した場所、時間、事象に関する固有表現を強調して表示することで、情報表示装置105の利用者が投稿内容のポイントを早く把握できる。
上記、図19および図20で説明した情報表示により、交通事業者の従業員や乗客が、詳細情報の迅速な把握と、誤情報を除外した情報取得を両立できることで、運行状況の案内業務や移動経路・時間の選択を改善できると考えられる。
本実施例は、設備異常に関するSNS投稿について、誤情報を除外しつつ、詳細情報を迅速に抽出するように投稿の有用性を評価する投稿評価装置について説明する。駅構内におけるホームやトイレなどの設備を具体例として、実施例1との主要な差分について投稿評価装置の処理を説明する。特に説明のない部分は、実施例1と同様でよい。
図1で、正確性評価部123は、投稿構造化部121から構造化済投稿データを受信し、高信頼情報取得部112から高信頼情報を受信する。この例では、正確性評価部123は、構造化済投稿データを全て受信し、後工程で必要な情報をフィルタリングするものとして説明する。
構造化済投稿データが言及している場所(路線・方面)、時間、事象(設備異常)について、高信頼情報から事象の実績情報を集計する。高信頼情報で事象(設備異常)の実績がない場合、今後事象(設備異常)が確認されうる予定の時刻を計算し、確定予定時刻が処理時刻よりも将来である場合には事象(設備異常)有無は未確定とする。
事象(設備異常)の有無が確定する時刻としては、例えば当該の場所の次の点検予定時刻、あるいは、異常を検知するセンサのデータ取得予定時刻とする。集計結果との比較を通じて投稿が言及する事象(設備異常)の有無の正誤を判定し、正確性の指標を定める。事象(設備異常)実績がなく事象(設備異常)有無が未確定の場合、投稿が言及する事象(設備異常)有無は仮に正しいと判定する。計算した投稿の正確性の指標値を有用性指標計算部125に送信する。
図21を参照して、実施例2における正確性評価部123の処理フローを説明する。
ステップ2101で、処理を開始する。
ステップ2102で、データを受信する。投稿構造化部121から構造化済投稿データを受信する。
ステップ2101で、処理を開始する。
ステップ2102で、データを受信する。投稿構造化部121から構造化済投稿データを受信する。
図22は、高信頼情報取得部112から取得する高信頼情報の例を示す。この例は、設備の維持、管理のためのメンテナンスデータ2200であり、データID2201、データ更新日時2202、設備がある駅2203、設備名2204、異常有無2205、対応済・未済2206、次回点検予定時刻2207等を含む。
図23は、投稿データ取得部111から取得する具体的な投稿の例を示す。
ステップ2103で、異常情報を抽出する。投稿ごとに、構造化済投稿データが言及している場所(路線・方面)、時間について、高信頼情報から設備の異常情報を抽出する。
ステップ2103で、異常情報を抽出する。投稿ごとに、構造化済投稿データが言及している場所(路線・方面)、時間について、高信頼情報から設備の異常情報を抽出する。
図23の投稿の場合、構造化済投稿データ2300に含まれる固有表現に基づいて、メンテナンスデータ2200を検索し、D駅の北口トイレについての設備点検の情報を抽出する。具体的には図22のテーブルから、D駅の北口トイレの記録の行(ID7)を取り出す。なお、構造化済投稿データの言及で設備を1つに特定できない場合は、該当する可能性のある複数の設備の記録の行を取り出す。
ステップ2104で、異常情報を集計する。投稿ごとに、前ステップ2103で抽出した異常情報を集計し、異常有無2205から異常実績の有無、対応済・未済2206から異常対応済・未済、次回点検予定時刻2207から情報確定予定時刻を算出する。
情報の確定・未確定の区別は、抽出した異常情報のうちで異常有無2205が異常あり、かつ、対応済・未済2206で対応未済の設備がある場合、異常実績あり(確定)とする。それ以外は、基本的に未確定として扱い、点検時刻においてのみ情報が確定するものとする。
図23の投稿の例では、図22の高信頼情報のID7の行が取り出される。高信頼情報によると11時時点ではD駅の北口トイレは「異常なし」だが、異常の有無が確定するのは、次回点検予定時刻である15時である。よって、高信頼情報は未確定であり、投稿によるD駅の北口トイレに異常ありという情報が仮に正しいと判定される。仮の判定は、15時に更新される。
上記の手法では、高信頼情報は、異常有無2205が異常あり、かつ、対応済・未済2206で対応未済の設備がある「異常実績あり(確定)」以外は未確定とした。別の手法として、抽出した異常情報で異常あり、かつ、対応未済の設備は一つもない場合、高信頼情報は「異常実績なし(確定)」とする。これは、異常に対応した直後は正常の状態が続くという前提に基づく。それ以外の場合は、異常有無は未確定とし、確定予定時刻は、次回点検予定時刻のなかで最も遅い時刻とする。次回点検予定時刻のいずれかが、正確性評価部による本処理の時刻よりも将来である場合は、情報は未確定とする。
ステップ2105で、正誤判定をする。投稿ごとに、構造化済投稿データが言及している異常の情報を前ステップの集計結果と比較して正誤判定し、正確性の指標値を定める。
判定表は図15の「遅延」を「異常」に読み替えたものを用いて、実施例1と同様の判定を行う。特に、情報が未確定で投稿に異常への言及がある場合、指標値を仮に「1」(正)とする。
ステップ2106で、結果を送信する。計算した投稿の正確性の指標値と、情報の確定・未確定の区分、未確定の場合は確定予定時刻を有用性指標計算部125に送信する。
ステップ2107で、処理を終了する。
図22は、正確性評価部123が入力とする駅構内の設備点検に関する高信頼情報を示す表図である。各設備の点検と異常有無、対応の済・未済と次回点検予定時刻が含まれている。
図23は、正確性評価部123が入力とする構造化済投稿データのうち1つの投稿例を示す表図である。
上述した正確性評価部123の処理では、高信頼情報の点検記録と今後の点検予定から未確定な期間を定めることで、高信頼情報が未確定な期間の異常情報についてSNS投稿から迅速に情報を抽出できる。
評価更新部141は、周期的(例:1分)に起動する。評価更新部141は、評価済投稿記憶部131から評価済投稿データを受信し、高信頼情報取得部112から高信頼情報を受信する。評価済投稿のうち、高信頼情報が未確定である投稿を更新対象として抽出する。特に、当該投稿の正確性評価で参照した設備の高信頼情報が更新された投稿を更新対象とする。更新対象投稿に対する正確性指標の更新(再計算)の指示を正確性評価部123に送信する。高信頼情報が未確定で正確性指標を仮計算した投稿について、確定した高信頼情報に基づいて正確性指標を更新することで、誤情報の除外の精度を向上できる。
実施例2の設備異常については、異常情報に関する投稿を迅速に配信することで、設備を管理する事業者の従業員・係員が当該設備を速やかに、すなわち、次の点検予定よりも早めて点検し、異常への対応を早められる。従業員・係員が点検を実施し、その情報が高信頼情報に反映された場合は、上記の評価更新部141の処理によって誤情報の除外の精度を向上させることができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
以上説明した実施例によれば、高信頼情報では不確定な事項も考慮に入れて投稿情報を評価することで、関連情報の収集範囲が広がり、有意な情報を収集しやすい。また、詳細度、正確性、情報源の観点で投稿の有用性を評価することで、詳細情報の迅速な把握と、誤情報の除外を両立することができる。
100 投稿評価システム
101 投稿評価装置
122 詳細度評価部
123 正確性評価部
124 情報源評価部
125 有用性指標計算部
101 投稿評価装置
122 詳細度評価部
123 正確性評価部
124 情報源評価部
125 有用性指標計算部
Claims (10)
- テキストデータを含む第1のデータを取得する第1の取得部と、
第2のデータを取得する第2の取得部と、
前記テキストデータから所定の現象の有無に関する第1の情報を抽出する構造化部と、
前記第2のデータから前記所定の現象の有無に関する第2の情報を抽出し、前記第2の情報に基づいて前記所定の現象の有無が確定している場合には、前記第2の情報と矛盾する前記第1の情報を誤と判定し、前記第2の情報に基づいて前記所定の現象の有無が確定していない場合には、前記第1の情報を正と判定することにより、前記第1のデータの正確性指標を計算する正確性評価部と、
前記正確性指標に基づいて、前記第1のデータの有用性の指標を計算する有用性指標計算部と、
を備えたデータ評価システム。 - 前記正確性評価部は、前記第2の情報に基づいて前記所定の現象の有無が確定していない場合には、前記第1の情報を仮に正と判定し、前記第2の情報に基づいて前記所定の現象の有無が確定する確定予定時刻を計算し、前記確定予定時刻を経過した場合に前記第1のデータの正確性指標を更新する、
請求項1記載のデータ評価システム。 - さらに詳細度評価部を備え、
前記構造化部は、前記第1の情報として、前記所定の現象を記述する場所と時間と事象の固有表現を抽出し、
前記詳細度評価部は、前記固有表現の数に基づいて詳細度指標を計算し、
前記有用性指標計算部は、前記正確性指標および前記詳細度指標に基づいて、前記第1のデータの有用性の指標を計算する、
請求項1記載のデータ評価システム。 - さらに情報源評価部を備え、
前記情報源評価部は、前記第1のデータの情報源に関わる評価情報に基づいて情報源指標を計算し、
前記有用性指標計算部は、前記正確性評価部および前記情報源指標に基づいて、前記第1のデータの有用性の指標を計算する、
請求項1記載のデータ評価システム。 - 前記第1のデータは、不特定のユーザによって投稿された投稿であり、
前記第2のデータは、場所と時間と事象の情報を含む管理データである、
請求項1記載のデータ評価システム。 - 前記管理データは、交通機関の運行計画ダイヤおよび在線情報であり、
前記正確性評価部は、前記交通機関の運行の遅延という現象の有無について前記投稿の内容と前記管理データを比較する、
請求項5記載のデータ評価システム。 - 前記管理データは、設備の管理情報であり、
前記正確性評価部は、前記設備の異常という現象の有無について前記投稿の内容と前記管理データを比較する、
請求項5記載のデータ評価システム。 - 第1の取得部、第2の取得部を備え、前記第1の取得部および前記第2の取得部から得られる情報を処理する情報処理システムを用いた方法であって、
前記第1の取得部で、第1の情報源から投稿されたテキスト情報からなる第1の情報を取得し、
前記第2の取得部で、第2の情報源から項目と前記項目に対するデータからなる第2の情報を取得し、
前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の有無を比較して、前記第1の情報の正否を判定し、
判定した前記第1の情報の正否を用いて、前記第1の情報の有用性指標を計算し、
前記第1の情報の正否を判定する際に、
前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の有無が一致したときは、前記第1の情報を正とし、
前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の有無が一致しないときは、前記第1の情報を誤とし、
前記第2の情報に基づいて解釈される判断対象の現象の有無が未確定のときは、前記第1の情報を正とする、
投稿評価方法。 - 前記第1の取得部は、携帯端末から入力された投稿時刻付きテキスト情報からなる投稿である第1の情報を取得し、
前記テキスト情報に対して、固有表現の抽出と正規化の処理を行って、前記判断対象の現象の有無に係る情報を抽出し、
前記第2の取得部は、データベースに格納された項目と前記項目に対するデータを第2の情報として取得し、
前記第2の情報は、所定時刻における前記判断対象の現象の有無を記述する情報を含み、
前記第2の情報に基づいて解釈される判断対象の現象の有無が未確定のときとは、前記投稿時刻を基準とした所定時間内に前記所定時刻が含まれ、当該所定時刻においては前記判断対象の現象がまだ無いとされている場合である、
請求項8記載の投稿評価方法。 - 前記データベースに格納されたデータの更新予定時刻を計算し、
前記更新予定時刻以後に、前記第1の情報の正否の判定を再度行う、
請求項9記載の投稿評価方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021019407A JP2022122297A (ja) | 2021-02-10 | 2021-02-10 | データ評価システムおよび投稿評価方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021019407A JP2022122297A (ja) | 2021-02-10 | 2021-02-10 | データ評価システムおよび投稿評価方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022122297A true JP2022122297A (ja) | 2022-08-23 |
Family
ID=82939673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021019407A Pending JP2022122297A (ja) | 2021-02-10 | 2021-02-10 | データ評価システムおよび投稿評価方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022122297A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117035692A (zh) * | 2023-09-28 | 2023-11-10 | 江苏龙虎网信息科技股份有限公司 | 一种基于多维度数据的智能评议管理系统及方法 |
-
2021
- 2021-02-10 JP JP2021019407A patent/JP2022122297A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117035692A (zh) * | 2023-09-28 | 2023-11-10 | 江苏龙虎网信息科技股份有限公司 | 一种基于多维度数据的智能评议管理系统及方法 |
CN117035692B (zh) * | 2023-09-28 | 2023-12-08 | 江苏龙虎网信息科技股份有限公司 | 一种基于多维度数据的智能评议管理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210216928A1 (en) | Systems and methods for dynamic risk analysis | |
Ghofrani et al. | Recent applications of big data analytics in railway transportation systems: A survey | |
Velasco et al. | Social media and internet‐based data in global systems for public health surveillance: a systematic review | |
Arkun et al. | Emergency department crowding: factors influencing flow | |
Bahk et al. | Comparing timeliness, content, and disease severity of formal and informal source outbreak reporting | |
Ge et al. | Review of transit data sources: potentials, challenges and complementarity | |
Zhang et al. | Identifying secondary crashes using text mining techniques | |
Edwards et al. | Geocoding Large Population‐level Administrative Datasets at Highly Resolved Spatial Scales | |
Guo et al. | Modelling waiting time for passengers transferring from rail to buses | |
Gal-Tzur et al. | An improved methodology for extracting information required for transport-related decisions from Q&A forums: A case study of TripAdvisor | |
Weng et al. | Real-time bus travel speed estimation model based on bus GPS data | |
Gong et al. | An application-oriented model of passenger waiting time based on bus departure time intervals | |
JP2014213697A (ja) | 混雑状況情報集配信システム | |
Barabino et al. | Regularity analysis on bus networks and route directions by automatic vehicle location raw data | |
JP2012242997A (ja) | 乗換時間計算システム及び乗換時間計算方法 | |
Drosio et al. | The Big Data concept as a contributor of added value to crisis decision support systems | |
JP2012073976A (ja) | 情報提供装置、情報提供方法および情報提供システム | |
JP2022122297A (ja) | データ評価システムおよび投稿評価方法 | |
Cong et al. | Impact estimation of unplanned urban rail disruptions on public transport passengers: A multi-agent based simulation approach | |
Firestone et al. | A public health informatics solution to improving food safety in restaurants: putting the missing piece in the puzzle | |
Li et al. | Train operation conflict detection for high-speed railways: a naive Bayes approach | |
Hugh et al. | Homelessness and open city data: Addressing a global challenge | |
Khoso et al. | Comparison of highway crash reporting in Pakistan with the World Health Organization injury surveillance guidelines | |
WO2016007608A1 (en) | System and method for monitoring mobile vehicles | |
Liu et al. | Predicting subway incident delays using text analysis based accelerated failure time model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230428 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240313 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240423 |