JP7523379B2 - Data evaluation system and submission evaluation method - Google Patents

Data evaluation system and submission evaluation method Download PDF

Info

Publication number
JP7523379B2
JP7523379B2 JP2021019407A JP2021019407A JP7523379B2 JP 7523379 B2 JP7523379 B2 JP 7523379B2 JP 2021019407 A JP2021019407 A JP 2021019407A JP 2021019407 A JP2021019407 A JP 2021019407A JP 7523379 B2 JP7523379 B2 JP 7523379B2
Authority
JP
Japan
Prior art keywords
information
data
post
absence
phenomenon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021019407A
Other languages
Japanese (ja)
Other versions
JP2022122297A (en
Inventor
進吾 足立
陽平 長谷川
仁貴 藤原
三揮 米原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2021019407A priority Critical patent/JP7523379B2/en
Publication of JP2022122297A publication Critical patent/JP2022122297A/en
Application granted granted Critical
Publication of JP7523379B2 publication Critical patent/JP7523379B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、SNS(Social Networking Service)等によってされる投稿などのデータの内容的評価に関する。 The present invention relates to the content evaluation of data such as posts made via SNS (Social Networking Service) etc.

特許文献1には、「ある事象の発生を知らせる投稿の内容を解析して、前記事象の発生場所を特定する事象特定部と、1つ以上の機器により観測されている場所と前記1つ以上の機器を管理している管理主体の問い合わせ先とを対応付けるデータを格納する問い合わせ先データベースを検索して、前記事象特定部により特定された場所に対応する問い合わせ先を特定する問い合わせ先特定部と、前記事象の発生有無を前記1つ以上の機器の観測結果から確認する要求を、前記問い合わせ先特定部により特定された問い合わせ先に送信し、前記要求への応答を受信する問い合わせ部と、前記投稿の内容の真偽を、前記問い合わせ部により受信された応答に示されている確認結果から判断し、判断結果に応じた処理を前記投稿に対して実行する結果反映部とを備える虚偽投稿フィルタ装置」という記載がある。 Patent Document 1 states that "a false post filter device includes an event identification unit that analyzes the content of a post notifying the occurrence of an event and identifies the location where the event occurred; a contact identification unit that searches a contact database that stores data that associates locations observed by one or more devices with contacts of management entities that manage the one or more devices and identifies the contact corresponding to the location identified by the event identification unit; a contact unit that transmits a request to the contact identified by the contact identification unit to confirm whether the event has occurred based on the observation results of the one or more devices and receives a response to the request; and a result reflection unit that determines the authenticity of the content of the post based on the confirmation result indicated in the response received by the contact unit and executes a process on the post according to the determination result."

WO2018/216173 A1WO2018/216173 A1

特許文献1の技術では、観測結果からの確認に時間を要する場合、投稿の取扱いを決められずに情報を迅速に活用できない。しかしながら、現地に居合わせた人がSNSに投稿した情報のほうが、早く正確な現地の情報を含むことも多いため、迅速に情報を活用できることが望ましい。 With the technology of Patent Document 1, if it takes time to confirm the observation results, it is not possible to decide how to handle the post and the information cannot be used quickly. However, since information posted to SNS by people who happen to be in the area often contains faster and more accurate information about the area, it is desirable to be able to use the information quickly.

そこで、本発明では、各有用な投稿を抽出する上で、現地の詳細情報の迅速な把握と、誤情報の除外を両立する投稿評価装置を提供する。 Therefore, the present invention provides a post evaluation device that extracts useful posts while simultaneously quickly grasping detailed local information and eliminating erroneous information.

本願発明の一側面は、テキストデータを含む第1のデータを取得する第1の取得部と、第2のデータを取得する第2の取得部と、前記テキストデータから所定の現象の有無に関する第1の情報を抽出する構造化部と、前記第2のデータから前記所定の現象の有無に関する第2の情報を抽出し、前記第2の情報に基づいて前記所定の現象の有無が確定している場合には、前記第2の情報と矛盾する前記第1の情報を誤と判定し、前記第2の情報に基づいて前記所定の現象の有無が確定していない場合には、前記第1の情報を正と判定することにより、前記第1のデータの正確性指標を計算する正確性評価部と、前記正確性指標に基づいて、前記第1のデータの有用性の指標を計算する有用性指標計算部とを備えたデータ評価システムである。 One aspect of the present invention is a data evaluation system including a first acquisition unit that acquires first data including text data, a second acquisition unit that acquires second data, a structuring unit that extracts first information on the presence or absence of a predetermined phenomenon from the text data, an accuracy evaluation unit that extracts second information on the presence or absence of the predetermined phenomenon from the second data, and determines the first information that contradicts the second information to be false if the presence or absence of the predetermined phenomenon has been determined based on the second information, and determines the first information to be true if the presence or absence of the predetermined phenomenon has not been determined based on the second information, thereby calculating an accuracy index of the first data, and a usefulness index calculation unit that calculates an index of usefulness of the first data based on the accuracy index.

本願発明の他の一側面は、第1の取得部、第2の取得部を備え、前記第1の取得部および前記第2の取得部から得られる情報を処理する情報処理システムを用いた方法であって、前記第1の取得部で、第1の情報源から投稿されたテキスト情報からなる第1の情報を取得し、前記第2の取得部で、第2の情報源から項目と前記項目に対するデータからなる第2の情報を取得し、前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の有無を比較して、前記第1の情報の正否を判定し、判定した前記第1の情報の正否を用いて、前記第1の情報の有用性指標を計算し、前記第1の情報の正否を判定する際に、前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の有無が一致したときは、前記第1の情報を正とし、前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の有無が一致しないときは、前記第1の情報を誤とし、前記第2の情報に基づいて解釈される判断対象の現象の有無が未確定のときは、前記第1の情報を正とする、投稿評価方法である。 Another aspect of the present invention is a method using an information processing system that includes a first acquisition unit and a second acquisition unit and processes information obtained from the first acquisition unit and the second acquisition unit, in which the first acquisition unit acquires first information consisting of text information posted from a first information source, the second acquisition unit acquires second information consisting of items and data for the items from a second information source, and compares the presence or absence of a phenomenon to be judged that is interpreted based on the first information with the presence or absence of a phenomenon to be judged that is interpreted based on the second information to determine whether the first information is correct or not, and This is a posting evaluation method in which a usefulness index of the first information is calculated using the true/false, and when determining the true/false of the first information, if the presence or absence of the phenomenon to be judged interpreted based on the first information matches the presence or absence of the phenomenon to be judged interpreted based on the second information, the first information is judged to be true, if the presence or absence of the phenomenon to be judged interpreted based on the first information does not match the presence or absence of the phenomenon to be judged interpreted based on the second information, the first information is judged to be false, and if the presence or absence of the phenomenon to be judged interpreted based on the second information is uncertain, the first information is judged to be true.

本発明によれば、各有用な投稿を抽出する上で、現地の詳細情報の迅速な把握と、誤情報の除外を両立する投稿評価装置を提供することができる。 The present invention provides a post evaluation device that extracts useful posts while simultaneously quickly grasping detailed local information and eliminating erroneous information.

上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。 Problems, configurations and advantages other than those mentioned above will become clear from the description of the embodiments below.

投稿評価システムの構成を示すブロック図。FIG. 1 is a block diagram showing a configuration of a posting evaluation system. 投稿評価装置のハードウェアブロック図。FIG. 2 is a hardware block diagram of the posting evaluation device. 投稿評価の対象となる鉄道路線の一部を示す模式図。A schematic diagram showing part of the railway line that is subject to posted evaluations. 投稿データを示す表図。1 is a table showing posted data. 投稿構造化部の処理フローを示す流れ図。11 is a flowchart showing the process flow of a post structuring unit. 固有表現分類の一覧を示す表図。A table showing a list of named entity classifications. 固有表現の抽出結果の例を示す概念図。FIG. 13 is a conceptual diagram showing an example of a named entity extraction result. 構造化済投稿データを示す表図。FIG. 13 is a table showing structured post data. 列車の運行計画ダイヤを例に示す表図。A table showing an example of a train operation schedule. 列車の在線情報を示す表図。A table showing train location information. 正確性評価部の処理フローを示す流れ図。11 is a flowchart showing the process flow of an accuracy evaluation unit. 投稿単位で示す構造化済個別投稿データの例1の表図。Table diagram of Example 1 of structured individual post data shown on a post-by-post basis. 投稿単位で示す構造化済個別投稿データの例2の表図。FIG. 11 is a table diagram of Example 2 of structured individual post data shown on a post-by-post basis. 高信頼情報から抽出した遅延情報の例を示す表図。FIG. 11 is a table showing an example of delay information extracted from highly reliable information. 正確性評価部が利用する判定表を示す表図。FIG. 13 is a table showing a judgment table used by the accuracy evaluation unit. 詳細度評価部の処理フローを示す流れ図。11 is a flowchart showing the process flow of a detail level evaluation unit. 情報源評価部の処理フローを示す流れ図。11 is a flowchart showing the process flow of an information source evaluation unit. 評価済み投稿データを示す表図。13 is a table showing rated post data. 投稿評価結果の概要表示を示すイメージ図。FIG. 13 is an image showing an overview of the posting evaluation results. 投稿評価結果の路線詳細を示すイメージ図。An illustration showing route details based on posted evaluation results. 正確性評価部の処理フローを示す流れ図。11 is a flowchart showing the process flow of an accuracy evaluation unit. 正確性評価部が入力とする駅構内の設備点検に関する高信頼情報を示す表図。A table showing highly reliable information regarding equipment inspections within stations input by the accuracy evaluation unit. 正確性評価部が入力とする構造化済投稿データのうち1つの投稿例を示す表図。11 is a table showing an example of one post among the structured post data input by the accuracy evaluation unit.

以下、図面を用いて実施例を説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。 The following describes the embodiments with reference to the drawings. However, the present invention should not be interpreted as being limited to the description of the embodiments shown below. Those skilled in the art will easily understand that the specific configuration can be changed without departing from the concept or spirit of the present invention.

以下に説明する実施例の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。 In the configurations of the embodiments described below, the same parts or parts having similar functions are designated by the same reference numerals in different drawings, and duplicate descriptions may be omitted.

同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。 When there are multiple elements with the same or similar functions, they may be described using the same reference numerals with different subscripts. However, when there is no need to distinguish between multiple elements, the subscripts may be omitted.

本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。 The designations "first," "second," "third," and the like in this specification are used to identify components and do not necessarily limit the number, order, or content. Furthermore, numbers for identifying components are used in different contexts, and a number used in one context does not necessarily indicate the same configuration in another context. Furthermore, this does not prevent a component identified by a certain number from also serving the function of a component identified by another number.

図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。 The position, size, shape, range, etc. of each component shown in the drawings, etc. may not represent the actual position, size, shape, range, etc., in order to facilitate understanding of the invention. Therefore, the present invention is not necessarily limited to the position, size, shape, range, etc. disclosed in the drawings, etc.

本明細書で引用した刊行物、特許および特許出願は、そのまま本明細書の説明の一部を構成する。 The publications, patents and patent applications cited herein are incorporated by reference in their entirety into the present specification.

本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。 In this specification, elements expressed in the singular include the plural unless the context clearly indicates otherwise.

実施例1は、交通情報、特に鉄道列車運行の遅れ(遅延)の有無に関するSNS投稿について、誤情報を除外しつつ、詳細情報を迅速に抽出するように投稿の有用性を評価する投稿評価装置を例にして説明する。 In the first embodiment, a post evaluation device is used to evaluate the usefulness of SNS posts regarding traffic information, particularly regarding the presence or absence of delays in train service, so as to quickly extract detailed information while filtering out false information.

図1は、実施例の投稿評価システム100の構成を示すブロック図である。投稿評価システム100は、投稿評価装置101と情報表示装置105からなる。 Figure 1 is a block diagram showing the configuration of a posting evaluation system 100 according to an embodiment. The posting evaluation system 100 includes a posting evaluation device 101 and an information display device 105.

投稿評価装置101は、投稿データ取得部111と、高信頼情報取得部112と、投稿構造化部121と、詳細度評価部122と、正確性評価部123と、情報源評価部124と、有用性指標計算部125と、評価済投稿記憶部131と、評価更新部141と、配信部151とを備える。後述するように、投稿評価装置101は、例えばサーバのような情報処理装置で構成することができる。図1では、サーバが当然有する構成を省略して、機能的なブロックを示している。 The post evaluation device 101 includes a post data acquisition unit 111, a highly reliable information acquisition unit 112, a post structuring unit 121, a level of detail evaluation unit 122, an accuracy evaluation unit 123, an information source evaluation unit 124, a usefulness index calculation unit 125, an evaluated post storage unit 131, an evaluation update unit 141, and a distribution unit 151. As described below, the post evaluation device 101 can be configured as an information processing device such as a server. In FIG. 1, the functional blocks are shown, omitting the components that a server naturally has.

投稿評価装置101は、例えば携帯用情報端末のような投稿端末102から、不特定多数のユーザによって投稿された投稿を、SNSサーバ103を経由して収集することができる。また、高信頼情報配信サーバ104からの情報を収集することができる。また、投稿評価装置101で処理した情報は、情報表示装置105に出力することができる。情報表示装置105は、投稿評価装置101に直結された画像モニタのような表示装置であってもよいし、例えばネットワークを経由して接続された携帯用情報端末であってもよい。 The post evaluation device 101 can collect posts posted by an unspecified number of users from a posting terminal 102, such as a portable information terminal, via an SNS server 103. It can also collect information from a highly reliable information distribution server 104. The information processed by the post evaluation device 101 can be output to an information display device 105. The information display device 105 may be a display device such as an image monitor directly connected to the post evaluation device 101, or may be, for example, a portable information terminal connected via a network.

投稿データ取得部111は、SNSサーバ103に対して、評価対象の鉄道路線に関わるSNS投稿データをリクエストし、SNS投稿データを受信する。評価対象の鉄道路線に関わるSNS投稿データを抽出するためには、公知の検索エンジンを利用して、評価対象とする鉄道路線に関わるキーワード、例えば鉄道事業者名、路線名、駅名、を含む投稿を収集することができる。収集のタイミングは、例えば定期的(例:1分ごと)にリクエストし、追加された投稿を時々刻々と受信する。これにより、定常的にSNS投稿をモニタリングすることができる。また、定常的な収集に加え、あるいはこれに代えて、任意のタイミングで投稿を収集することにしてもよい。投稿データ取得部111は、受信した投稿データを投稿構造化部121に送信する。投稿データについて具体的には図4で説明する。 The post data acquisition unit 111 requests SNS post data related to the railway line to be evaluated from the SNS server 103 and receives the SNS post data. In order to extract SNS post data related to the railway line to be evaluated, a publicly known search engine can be used to collect posts that include keywords related to the railway line to be evaluated, such as the name of a railway operator, the name of a line, and the names of stations. The collection is requested, for example, periodically (e.g., every minute), and added posts are received every moment. This makes it possible to constantly monitor SNS posts. In addition to or instead of the constant collection, posts may be collected at any timing. The post data acquisition unit 111 transmits the received post data to the post structuring unit 121. The post data will be described in detail with reference to FIG. 4.

高信頼情報取得部112は、高信頼情報配信サーバ104に対して、評価対象の鉄道路線の遅延に関する高信頼情報をリクエストし、高信頼情報を受信する。高信頼情報配信サーバ104は、例えば評価対象の鉄道を管理、運営する鉄道事業者が管理、運営するサーバであり、SNSサーバ103とは異なる情報源を構成する。高信頼情報は、鉄道事業者が収集した情報であり、一般にはSNS投稿データよりも精度が高いことが期待される。高信頼情報は、例えばデータベース化され、場所と時間と事象の情報を含む管理データである。 The highly reliable information acquisition unit 112 requests highly reliable information regarding delays on the railway line to be evaluated from the highly reliable information distribution server 104 and receives the highly reliable information. The highly reliable information distribution server 104 is, for example, a server managed and operated by a railway operator that manages and operates the railway to be evaluated, and constitutes an information source different from the SNS server 103. Highly reliable information is information collected by the railway operator, and is generally expected to be more accurate than SNS posted data. Highly reliable information is, for example, managed data that is organized into a database and includes information on location, time, and event.

高信頼情報取得部112は、受信した高信頼情報を正確性評価部123に送信する。高信頼情報について具体的には図9、図10で説明する。 The highly reliable information acquisition unit 112 transmits the received highly reliable information to the accuracy evaluation unit 123. The highly reliable information is described in detail in Figures 9 and 10.

投稿構造化部121は、投稿データ取得部111から投稿データを受信する。投稿構造化部121は、各投稿に対して、形態素解析、固有表現抽出、正規化の処理を行うことで、鉄道列車運行の遅延などに関する場所、時間、事象の情報を抽出し、投稿に含まれる交通情報を構造化する。形態素解析や正規化は、文書構造化のための公知の技術を援用することができる。固有表現抽出は、固有表現抽出モデルを使用したり、固有表現を記憶した辞書を参照したりすることで可能である。 The post structuring unit 121 receives post data from the post data acquisition unit 111. The post structuring unit 121 performs morphological analysis, named entity extraction, and normalization on each post to extract information on location, time, and events related to train operation delays, etc., and to structure the traffic information contained in the post. The morphological analysis and normalization can be carried out using publicly known techniques for document structuring. Named entity extraction is possible by using a named entity extraction model or by referring to a dictionary that stores named entities.

場所の情報は、例えば路線、駅、方面(進行方向)などを含む。事象の情報としては、例えば遅延の有無や程度、その原因などを含む。投稿構造化部121は、構造化済投稿データを、詳細度評価部122、正確性評価部123、情報源評価部124にそれぞれ送信する。投稿構造化部121の詳細は図5~図7で説明する。 Location information includes, for example, the line, station, direction (travel direction), etc. Event information includes, for example, the presence or absence of a delay, the extent of the delay, and the cause. The post structuring unit 121 transmits the structured post data to the detail level evaluation unit 122, the accuracy evaluation unit 123, and the information source evaluation unit 124. Details of the post structuring unit 121 will be described with reference to Figures 5 to 7.

詳細度評価部122は、投稿構造化部121から構造化済投稿データを受信する。詳細度評価部122は、固有表現抽出結果に含まれる固有表現数に基づいて、投稿の情報詳細度の指標を計算する。詳細度評価部122は、計算した投稿の情報詳細度の指標値を有用性指標計算部125に送信する。詳細度評価部122の詳細は図16で説明する。 The detail level evaluation unit 122 receives structured post data from the post structuring unit 121. The detail level evaluation unit 122 calculates an index of the information detail level of the post based on the number of named entities included in the named entity extraction result. The detail level evaluation unit 122 transmits the calculated index value of the information detail level of the post to the usefulness index calculation unit 125. Details of the detail level evaluation unit 122 are described in FIG. 16.

正確性評価部123は、投稿構造化部121から構造化済投稿データを受信する。また、正確性評価部123は、高信頼情報取得部112から高信頼情報を受信する。正確性評価部123は、構造化済投稿データが言及している場所(路線・方面)、時間について、高信頼情報から列車運行の遅延実績情報を集計する。 The accuracy evaluation unit 123 receives structured post data from the post structuring unit 121. The accuracy evaluation unit 123 also receives highly reliable information from the highly reliable information acquisition unit 112. The accuracy evaluation unit 123 compiles actual train operation delay information from the highly reliable information for the location (route/direction) and time mentioned in the structured post data.

正確性評価部123は、投稿が言及する時間において、高信頼情報で遅延実績がない場合、今後遅延が確認されうる予定の時刻を計算し、確定予定時刻が現在時刻(処理時刻)よりも将来である場合には遅延の有無は未確定とする。 If there is no history of delays in the highly reliable information at the time mentioned in the post, the accuracy evaluation unit 123 calculates the scheduled time at which a delay may be confirmed in the future, and if the confirmed scheduled time is in the future than the current time (processing time), the presence or absence of a delay is left unconfirmed.

また、正確性評価部123は、遅延の有無が確定する時刻(確定時刻)としては、例えば走行中列車の次駅到着予定時刻と停車中列車の発車予定時刻の最も遅い時間を集計する。走行中列車の次駅到着予定時刻や停車中列車の発車予定時刻は、後述するように例えば鉄道ダイヤにより明らかになる。集計した確定時刻には、時刻どおりに列車が次駅に到着しているかどうかや、列車が駅を発射しているかどうかが確定するので、確定時刻を過ぎたときには、評価更新部141は、投稿の正確性評価の更新指示を行う。 In addition, the accuracy evaluation unit 123 counts, for example, the latest of the scheduled arrival time of a moving train at the next station and the scheduled departure time of a stopped train as the time when the presence or absence of a delay is confirmed (confirmed time). The scheduled arrival time of a moving train at the next station and the scheduled departure time of a stopped train are made clear, for example, by a railway timetable, as described below. The collected confirmed time determines whether or not a train will arrive at the next station on time or leave the station, so when the confirmed time has passed, the evaluation update unit 141 issues an instruction to update the accuracy evaluation of the post.

正確性評価部123は、高信頼情報の集計結果との比較を通じて投稿が言及する遅延の有無の正誤を判定し、正確性の指標を定める。正確性評価部123は、遅延実績がなく遅延有無の集計結果が未確定の場合、投稿が言及する遅延の有無は仮に正しいと判定する。正確性評価部123は、計算した投稿の正確性の指標値を有用性指標計算部125に送信する。正確性評価部123の詳細は図11~図15で説明する。 The accuracy evaluation unit 123 determines whether the delay mentioned in the post is correct through a comparison with the tabulation results of highly reliable information, and determines an accuracy index. When there is no record of delays and the tabulation results of the delay are unconfirmed, the accuracy evaluation unit 123 provisionally determines that the delay mentioned in the post is correct. The accuracy evaluation unit 123 transmits the calculated index value of the accuracy of the post to the usefulness index calculation unit 125. Details of the accuracy evaluation unit 123 are described in Figures 11 to 15.

また、正確性評価部123は、評価更新部141から、未確定で仮計算した投稿の正確性の指標値の更新指示を受信した場合、その時点では既に遅延の有無は確定しているため、前記同様の処理を行うことで確定した正確性の指標値を計算して更新する。 In addition, when the accuracy evaluation unit 123 receives an instruction from the evaluation update unit 141 to update the unconfirmed and provisionally calculated index value of the post's accuracy, the presence or absence of a delay has already been determined at that point, so the accuracy evaluation unit 123 performs the same processing as described above to calculate and update the confirmed index value of the accuracy.

情報源評価部124は、投稿構造化部121から構造化済投稿データを受信する。また、情報源評価部124は、評価済投稿記憶部131から評価済投稿データを受信する。情報源評価部124は、各投稿に対して、発信者の属性および過去の投稿内容や、投稿内容が伝聞と推定されるかに基づいて投稿内容の情報源に関する指標を計算する。情報源評価部124は、計算した投稿の情報源の指標値を有用性指標計算部125に送信する。情報源評価部124の詳細は図17で説明する。 The information source evaluation unit 124 receives structured post data from the post structuring unit 121. The information source evaluation unit 124 also receives evaluated post data from the evaluated post storage unit 131. For each post, the information source evaluation unit 124 calculates an index related to the information source of the post content based on the sender's attributes and past post content, and whether the post content is presumed to be hearsay. The information source evaluation unit 124 transmits the calculated index value of the information source of the post to the usefulness index calculation unit 125. Details of the information source evaluation unit 124 will be described in FIG. 17.

有用性指標計算部125は、詳細度評価部122、正確性評価部123、情報源評価部124からそれぞれの投稿の指標値を受信する。有用性指標計算部125は、各指標値に基づいて有用性指標を計算する。有用性指標計算部125は、有用性指標を計算した評価済み投稿データを、評価済投稿記憶部131に記録する。評価済み投稿データの詳細は図18で説明する。 The usefulness index calculation unit 125 receives index values of each post from the detail evaluation unit 122, the accuracy evaluation unit 123, and the information source evaluation unit 124. The usefulness index calculation unit 125 calculates a usefulness index based on each index value. The usefulness index calculation unit 125 records the evaluated post data for which the usefulness index has been calculated in the evaluated post storage unit 131. Details of the evaluated post data will be described in FIG. 18.

評価更新部141は、周期的(例:1分)に起動する。評価更新部141は、評価済投稿記憶部131から評価済投稿データを受信する。評価更新部141は、評価済投稿データのうち、高信頼情報が未確定であり、現在時刻が確定予定時刻を過ぎた投稿を更新対象として抽出する。評価更新部141は、更新対象投稿に対する正確性指標の更新(再計算)の指示を正確性評価部123に送信する。評価更新部141が、高信頼情報が未確定で正確性指標を仮計算した投稿について、確定した高信頼情報に基づいて正確性指標を更新することで、誤情報の除外の精度を向上できる。 The rating update unit 141 starts periodically (e.g., once a minute). The rating update unit 141 receives evaluated post data from the evaluated post storage unit 131. From the evaluated post data, the rating update unit 141 extracts posts for which high reliability information is unconfirmed and for which the current time has passed the scheduled confirmation time as posts to be updated. The rating update unit 141 sends an instruction to the accuracy evaluation unit 123 to update (recalculate) the accuracy index for the post to be updated. For posts for which high reliability information is unconfirmed and an accuracy index has been provisionally calculated, the rating update unit 141 updates the accuracy index based on the confirmed high reliability information, thereby improving the accuracy of excluding misinformation.

配信部151は、評価済投稿記憶部131から評価済投稿データを受信する。配信部151は、例えば直近所定期間内の投稿を有用性指標の高い順に抽出し、情報表示装置105に対して評価済投稿の情報を送信する。送信する情報は、抽出した投稿だけでなく、抽出した投稿の情報を集約するテキストや数値情報を含めることができる。また、送信する情報は、有用性の高い投稿から重要な部分のみを要約したテキスト、複数の投稿に高い頻度で含まれるキーワードを抽出して構築したワードクラウドや、投稿数のカウントなどを含めてもよい。また、高信頼情報のうち路線の運転状況を集約した情報として、遅延の有無、遅延時分などをあわせて送信することもできる。 The distribution unit 151 receives evaluated post data from the evaluated post storage unit 131. The distribution unit 151 extracts posts within a certain period of time, for example, in descending order of usefulness index, and transmits information about the evaluated posts to the information display device 105. The information to be transmitted can include not only the extracted posts, but also text and numerical information that consolidates the information about the extracted posts. The information to be transmitted may also include text summarizing only the important parts from highly useful posts, a word cloud constructed by extracting keywords that are frequently included in multiple posts, and a count of the number of posts. Furthermore, the presence or absence of delays, the duration of delays, and other information that consolidates the operating status of the line from among the highly reliable information can also be transmitted.

送信先としては、情報表示装置105だけでなく、SNSサーバに評価済投稿の情報を送信することもできる。例えば、投稿評価装置101を投稿者として、有用性指標値の高い投稿を引用する投稿をSNSに投稿することが考えられる。 Information on evaluated posts can be sent to a destination other than the information display device 105, as well as to an SNS server. For example, it is conceivable to post a post on an SNS that quotes a post with a high usefulness index value, with the post evaluation device 101 as the poster.

情報表示装置105は、投稿評価装置101の配信部151から評価済投稿の情報を受信し、有用性の高い投稿のテキストや、そのサマリ情報を画面に表示する。交通事業者の従業員、例えば乗客に対して運行状況を案内する乗務員や駅係員が前記画面表示を確認して情報を把握することで、当該情報を知らない場合に比べて乗客への案内業務を改善できる。また、交通事業者の運行計画を定める指令員が前記画面表示を確認して情報を把握することで、乗客の期待にあった運行計画を選択できる可能性がある。 The information display device 105 receives information on evaluated posts from the distribution unit 151 of the post evaluation device 101, and displays the text of highly useful posts and their summary information on the screen. Employees of the transportation company, such as crew members and station staff who inform passengers of operation status, can check the screen display and understand the information, which can improve the guidance provided to passengers compared to when they are unaware of the information. In addition, dispatchers who determine the transportation company's operation plans can check the screen display and understand the information, which may enable them to select operation plans that meet passenger expectations.

また、交通機関の乗客が前記画面表示を確認して情報を把握することで、移動目的にあった交通機関の利用方法を選択できる。例えば、今後利用する予定であった路線の遅延情報をいち早く知ることで、別の経路を利用する、あるいは、移動時間を後ろ倒しするなどの選択を取ることで高い効用を得られると考えられる。情報表示装置105の詳細は図20、図21で説明する。 In addition, passengers of public transport can check the screen display and understand the information, allowing them to select how to use the public transport that best suits their travel purpose. For example, by quickly learning about delays on a route they had planned to use, they can choose to use a different route or postpone their travel time, which is thought to be highly beneficial. Details of the information display device 105 will be described in Figures 20 and 21.

SNSサーバ103は、投稿端末102から送信された投稿を受信し、リクエストに応じて投稿評価システム100に対して投稿データを送信する。 The SNS server 103 receives posts sent from the posting terminal 102 and transmits the post data to the post evaluation system 100 in response to a request.

高信頼情報配信サーバ104は、鉄道列車運行管理システム等から列車運行計画ダイヤや列車在線情報などを受信・集約し、リクエストに応じて投稿評価システム100に対して投稿データを送信する。 The highly reliable information distribution server 104 receives and aggregates train operation schedules and train location information from railway train operation management systems and the like, and transmits posting data to the posting evaluation system 100 upon request.

図2は、投稿評価装置のハードウェアブロック図である。図2を参照して、投稿評価装置101のハードウェア構成を説明する。図2において、投稿評価装置101は、CPU(Central Processing Unit)201と、メモリ202と、メディア入出力部203と、通信制御部204と、入力部205と、表示部206と、周辺機器IF(Interface)部207と、バス210とから構成されている。 Figure 2 is a hardware block diagram of the posting evaluation device. The hardware configuration of the posting evaluation device 101 will be described with reference to Figure 2. In Figure 2, the posting evaluation device 101 is composed of a CPU (Central Processing Unit) 201, a memory 202, a media input/output unit 203, a communication control unit 204, an input unit 205, a display unit 206, a peripheral device IF (Interface) unit 207, and a bus 210.

CPU201は、メモリ202上のプログラムを実行することで、図1に示した各種機能ブロックの機能を実現する。メモリ202は、プログラム、テーブル等を一時記憶する。メディア入出力部203は、プログラム、テーブル等を保持する。 The CPU 201 executes programs on the memory 202 to realize the functions of the various functional blocks shown in FIG. 1. The memory 202 temporarily stores programs, tables, etc. The media input/output unit 203 holds the programs, tables, etc.

入力部205は、キーボード、マウス等である。通信制御部204は、ネットワーク220と接続されている。ネットワーク220は、SNSサーバ103や高信頼情報配信サーバ104などの他の装置との通信を可能とする。表示部206は、例えばディスプレイである。周辺機器IF部207は、プリンタ等のインタフェースである。バス210は、CPU201、メモリ202、メディア入出力部203、通信制御部204、入力部205、表示部206、周辺機器IF部207を相互接続する。 The input unit 205 is a keyboard, a mouse, etc. The communication control unit 204 is connected to a network 220. The network 220 enables communication with other devices such as the SNS server 103 and the highly reliable information distribution server 104. The display unit 206 is, for example, a display. The peripheral device IF unit 207 is an interface for a printer or the like. The bus 210 interconnects the CPU 201, the memory 202, the media input/output unit 203, the communication control unit 204, the input unit 205, the display unit 206, and the peripheral device IF unit 207.

図1と図2との対比から明らかなように、図1の投稿評価装置101は、CPU201がプログラムを実行することで実現している。もっとも、各機能ブロックの少なくとも一部をハードウェアで構成してもよい。また、図2の例では、投稿評価装置101は単一のサーバで構成されるものとしているが、複数のサーバが協働することで同様の機能を実現することも可能である。 As is clear from a comparison between FIG. 1 and FIG. 2, the posting evaluation device 101 in FIG. 1 is realized by the CPU 201 executing a program. However, at least a part of each functional block may be configured with hardware. Also, in the example of FIG. 2, the posting evaluation device 101 is configured with a single server, but it is also possible to realize the same function by multiple servers working together.

図3は、投稿評価の対象となる鉄道路線の一部を示す模式図である。本路線図には、X線391と、Y線392の2つの鉄道路線を含む。 Figure 3 is a schematic diagram showing a portion of the railway line that is the subject of post evaluation. This route map includes two railway lines, Line X 391 and Line Y 392.

X線391は、A駅301、B駅302、C駅303、D駅304などの駅間で旅客輸送を行う複線路線であり、P方面とQ方面の2方面で列車運行を行う。図3では、Q方面の列車311がA駅301とB駅302の駅間を走行中であり、列車312はC駅303に停車中であることを示す。同様にP方面には列車321、322、323が運行している。 X-line 391 is a double-track line that transports passengers between stations such as A Station 301, B Station 302, C Station 303, and D Station 304, and trains operate in two directions, P and Q. Figure 3 shows that train 311 in the Q direction is running between A Station 301 and B Station 302, and train 312 is stopped at C Station 303. Similarly, trains 321, 322, and 323 are operating in the P direction.

Y線392は、X線391とB駅302で乗り換え可能な路線である。Y線392は、B駅302からみてK駅306の先でS方面とU方面に分岐している。 The Y line 392 is a line that can be transferred to the X line 391 at station B 302. From station B 302, the Y line 392 branches off into the S and U directions beyond station K 306.

路線において他鉄道事業者の路線と相互直通運転を行っている場合、相互直通運転先の路線を含めて同一の路線として取り扱ってもよい。 If a line has mutual through service with lines operated by other railway operators, the line and the other line may be treated as the same line.

図4は、投稿データを示す表図である。投稿データ400は、SNSサーバ103から受信したX線あるいはY線に関わる投稿データの例である。投稿データ400の各行が一つの投稿を表している。一つの行は、投稿を一意に識別する投稿ID401、例えばSNSサーバ103が投稿を受信した日時を示す投稿日時402、投稿内容テキスト403、投稿者を一意に示す投稿者ID404等を含む。投稿内容テキスト403には、投稿者が参照したURL(Uniform Resource Locator)を含んでもよい。投稿日時402は、いわゆるタイムスタンプである。 Figure 4 is a table showing post data. Post data 400 is an example of post data related to X-rays or Y-rays received from the SNS server 103. Each row of post data 400 represents one post. One row includes a post ID 401 that uniquely identifies the post, a post date and time 402 that indicates, for example, the date and time when the SNS server 103 received the post, post content text 403, a poster ID 404 that uniquely indicates the poster, etc. Post content text 403 may include a URL (Uniform Resource Locator) referenced by the poster. Post date and time 402 is what is known as a timestamp.

図5は、投稿内容を構造化する、投稿構造化部121の処理フローを示す図である。 Figure 5 shows the processing flow of the post structuring unit 121, which structures the post content.

ステップ501は、処理開始を示す。処理はリアルタイム処理でもよいし、バッチ処理でもよい。即時性のある情報を抵抗するためには、リアルタイム処理に近いほうがよい。 Step 501 indicates the start of processing. The processing may be real-time processing or batch processing. To process information with immediacy, it is better to be closer to real-time processing.

ステップ502は、データ受信であり、投稿構造化部121は、投稿データ取得部111から図4の例のような投稿データを受信する。 Step 502 is data reception, and the post structuring unit 121 receives post data such as the example shown in Figure 4 from the post data acquisition unit 111.

ステップ503は、固有表現抽出であり、投稿データの投稿内容テキスト403を入力として、例えば機械学習技術で構築した固有表現抽出モデルを用いることで、投稿テキストから場所、時間、事象に言及しているフレーズを抽出する。 Step 503 is named entity extraction, in which the posted content text 403 of the posted data is used as input to extract phrases referring to places, times, and events from the posted text using a named entity extraction model constructed using machine learning technology, for example.

抽出するフレーズを定める固有表現には、図6で後述するように、例えば大分類、中分類、小分類の最大3階層の構造を定義して用いてもよい。定義は、システムの使用目的や用途に応じて任意に定めてよい。 For the named entities that define the phrases to be extracted, a structure of up to three levels, for example, major categories, medium categories, and minor categories, may be defined and used, as described later in Figure 6. The definition may be determined arbitrarily depending on the purpose and application of the system.

本実施例では、固有表現抽出モデルには、CRF(Conditional Random Field)等の機械学習モデルを用いる。なお、固有表現抽出モデルを構築するときに、路線名、駅名、設備名、事象名等の単語をあらかじめ登録することで、固有表現抽出の精度が向上する。投稿の固有表現抽出の例を図7に示す。 In this embodiment, a machine learning model such as CRF (Conditional Random Field) is used as the named entity extraction model. When constructing the named entity extraction model, the accuracy of named entity extraction can be improved by registering words such as line names, station names, facility names, and event names in advance. An example of named entity extraction from a post is shown in Figure 7.

ステップ504は、正規化であり、前ステップ503で抽出したフレーズを正規化し、図8に示す構造化済投稿データを作成する。正規化手法としては公知の技術を使用できるが、例えば場所は、交通事業者、路線、駅、方面、列車名などのフレーズに表記ゆれがあれば正式名称に統一する。駅名から該当する駅が含まれる路線名を補完するように、ある項目から該当フレーズのない項目が補完できる場合は補完する。 Step 504 is normalization, in which the phrases extracted in the previous step 503 are normalized to create the structured post data shown in FIG. 8. Publicly known techniques can be used as the normalization method, but for example, for locations, if there are variations in the notation of phrases such as transportation company, line, station, direction, and train name, they are unified to the official name. Just as a line name that includes a corresponding station is completed from a station name, an item without a corresponding phrase is completed if possible.

投稿が言及している日時として、該当フレーズが投稿に含まれない場合は、投稿日時を用いる。「さっき」、「前」などの過去時制のフレーズがあれば、投稿日時を起点にフレーズの典型的な用法をふまえて言及日時を推定する。例えば、「さっき」は、投稿日時の30分前~投稿日時を言及している日時の時間帯とする。 If the post does not contain the relevant phrase, the posting date and time is used as the date and time the post refers to. If there is a past tense phrase such as "just now" or "before," the posting date and time is estimated based on the typical usage of the phrase, starting from the posting date and time. For example, "just now" refers to the period from 30 minutes before the posting date and time to the date and time the posting date and time are being mentioned.

ステップ505では、結果を次の機能ブロックに送信し、ステップ506で処理を終了する。 In step 505, the result is sent to the next function block, and the process ends in step 506.

図6は、投稿構造化部121で特定する固有表現分類の一覧を示す図である。固有表現の内容や分類、階層構造は、ユーザが予め任意に定義することができる。この例では、大分類、中分類、小分類の最大3階層の構造を定義している。 Figure 6 shows a list of named entity classifications identified by the post structuring unit 121. The content, classification, and hierarchical structure of the named entity can be arbitrarily defined in advance by the user. In this example, a maximum three-level structure is defined, consisting of major classification, medium classification, and minor classification.

大分類は、「場所」、「時間」、「事象」と、それらのいずれにも該当しない「その他」としている。大分類「場所」(あるいは「対象」)に関する中分類としては、「交通事業者名」、「路線」、「駅」、「方面」、「列車名」、普通、快速などの列車の「種別」、改札口、トイレなどの「設備」等がある。 The major categories are "location," "time," "event," and "other" that does not fall into any of the above categories. Subcategories related to the major category "location" (or "object") include "transportation company name," "route," "station," "direction," "train name," "type" of train (such as local or rapid), and "facilities" such as ticket gates and toilets.

大分類「時間」の中分類としては、「14時」、「14:15」などの具体的な「時刻」や、「さっき」、「少し前」などの表現による「過去時制」、「朝」、「昼」、「夕」、「夜」などの表現による「時間帯」とする。 Subcategories of the major category "time" include specific "times" such as "14:00" or "14:15", "past tense" using expressions such as "just now" or "a little while ago", and "time periods" using expressions such as "morning", "afternoon", "evening", and "night".

大分類「事象」(あるいは「状況」)の中分類としては、「運転状況」、「遅延」、「事故」、「混雑」、「設備」などがある。例えば「遅延」の小分類としては、「ひどい」「すこし」など遅延の「度合い」の定性表現や、「5分」のように遅延を定量的に表現した「時分」があり。「事故」や「混雑」の小分類としても、定性的、定量的な度合いの表現を含めることができる。また、「設備」の小分類として、「故障」や「使用禁止」などの「状態」の表現がある。以上は一例であり、固有表現は、ユーザが目的や用途に応じて自由に定めることができる。 Subcategories of the major category "event" (or "situation") include "operation status," "delay," "accident," "congestion," and "facilities." For example, subcategories of "delay" include qualitative expressions of the "degree" of the delay, such as "severe" or "slight," and "hours" that quantitatively express the delay, such as "5 minutes." Subcategories of "accident" and "congestion" can also include expressions of qualitative and quantitative degrees. Subcategories of "facilities" include "condition" expressions, such as "breakdown" and "prohibited from use." The above are just a few examples, and users can freely define named expressions according to their purpose and use.

図7は、投稿構造化部121による固有表現の抽出結果の例を示す概念図である。投稿内容テキスト「X線のC駅でQ方面が5分遅れて来た すし詰めで混んでいるから見送ろうかな」に対して、固有表現として抽出した場所、事象に関するフレーズに下線を付した。また、該当する固有表現の分類を下線の下に示す。例えば、「すし詰め」は、大分類「事象」、中分類「混雑」、小分類「度合い」に分類される。下線をつけていない語・フレーズは、大分類「その他」に該当する。たとえば、「見送ろうかな」は「その他」に分類される。 Figure 7 is a conceptual diagram showing an example of the results of extraction of named entities by the post structuring unit 121. In the post content text "The train for Q arrived 5 minutes late at station C on the X line. It's so crowded with sushi, I think I'll let it go," phrases related to places and events extracted as named entities are underlined. In addition, the classification of the corresponding named entities is shown below the underline. For example, "packed with sushi" is classified into the major category "events," the medium category "crowding," and the minor category "degree." Words and phrases that are not underlined fall into the major category "other." For example, "I think I'll let it go" is classified into "other."

図8は、投稿構造化部121が出力する構造化済投稿データをテーブルで示す表図である。投稿構造化部が図4の投稿データを処理した出力の一部を抜粋して示す。構造化済投稿データ800のテーブルの一つの行が、一つの投稿に対応している。一つの行は、投稿を一意に示す投稿ID801(図4の401と同じである)、投稿のテキストを処理した結果得られる固有表現分類802~806は、例えば図6で示した分類に従って付与される。固有表現抽出結果807は、例えば図7に示す固有表現抽出結果のデータを格納する。 Figure 8 is a table showing the structured post data output by the post structuring unit 121. An excerpt of the output obtained when the post structuring unit processes the post data of Figure 4 is shown. One row in the table of structured post data 800 corresponds to one post. One row includes a post ID 801 (same as 401 in Figure 4) that uniquely identifies the post, and named entity classifications 802 to 806 obtained as a result of processing the text of the post, which are assigned according to the classification shown in Figure 6, for example. Named entity extraction result 807 stores the data of the named entity extraction result shown in Figure 7, for example.

例えば、図7の投稿ID「14371」の投稿は、投稿が言及している内容に基づいて、固有表現分類「場所:路線」802が「X(線)」、「場所:駅」803が「C(駅)」、「日時」804が投稿日時402に基づく「12:04」、「事象:遅延」805が「遅れあり」、「事象:遅延:時分」806が「5分」のようになる。このように、路線、駅、投稿が言及している日時、遅延への言及、遅延時分の項目について、投稿構造化部121が投稿内容から抽出したフレーズに基づく情報が設定されている。 For example, in the post with post ID "14371" in Figure 7, the named entity classification "Location: Line" 802 is "X (line)", "Location: Station" 803 is "C (station)", "Date and Time" 804 is "12:04" based on the posting date and time 402, "Event: Delay" 805 is "Delayed", and "Event: Delay: Hours and Minutes" 806 is "5 minutes" based on the content mentioned in the post. In this way, information based on phrases extracted from the post content by the post structuring unit 121 is set for the items of line, station, date and time mentioned in the post, mention of delay, and delay time.

図9は、高信頼情報のうち列車の運行計画ダイヤ900の一例を示す表図である。この例では、ダイヤ改正日902、平日・休日区分903、路線904、方面905、列車番号906、種別(普通、快速など)907の組み合わせごとにID901が振られ、当該列車の出発駅908と到着駅909、および出発駅の出発時刻910と到着駅の到着時刻911が駅区間別に示されている。一般的には、運行計画ダイヤ900は、列車を運営する鉄道会社などにより定められており、各列車は運行計画ダイヤ900の内容に従って運行される。 Figure 9 is a table diagram showing an example of a train operation plan timetable 900 from the highly reliable information. In this example, an ID 901 is assigned to each combination of timetable revision date 902, weekday/holiday classification 903, line 904, direction 905, train number 906, and type (local, rapid, etc.) 907, and the departure station 908 and arrival station 909 of the train, as well as departure time 910 from the departure station and arrival time 911 at the arrival station are shown for each station section. Generally, the operation plan timetable 900 is determined by the railway company that operates the train, and each train operates according to the contents of the operation plan timetable 900.

図10は、高信頼情報のうち列車の在線情報1000を示す表図である。列車番号1004と情報の更新日時1002ごとに異なるID1001が割り当てられた行となっている。この例では、列車番号1004で特定される列車の、路線1003、種別1005、始発駅1006、終着駅1007、方面1008が含まれているが、これらの情報は、通常は、列車番号1004に対応して運行計画ダイヤ900から得られる固定データである。 Figure 10 is a table showing train location information 1000 from the highly reliable information. A different ID 1001 is assigned to each train number 1004 and information update date and time 1002. In this example, the line 1003, type 1005, starting station 1006, terminal station 1007, and direction 1008 of the train identified by the train number 1004 are included, but this information is usually fixed data obtained from the operation plan timetable 900 corresponding to the train number 1004.

在線情報1000では、更新日時1002における当該列車の在線位置を、停車中の駅、あるいは、最後の出発駅1009と次の到着予定の駅1010の組により示す。例えば、ID「21」の行は、列車番号「K8888」の列車が、B駅とC駅の間にあることを示す。また、IDが「22」の行は、列車番号「J4567」の列車がB駅に停車中であることを示す。これらのデータは、列車を運営する鉄道会社などが、列車の運行を制御するために通常使用するデータであり、線路に設置するセンサ、あるいはオペレータの入力などにより得ることができる。 In the train location information 1000, the train's location at the update date and time 1002 is shown by the station where the train is currently stopped, or by a pair of the last departure station 1009 and the next scheduled arrival station 1010. For example, the row with ID "21" indicates that a train with train number "K8888" is between stations B and C. Also, the row with ID "22" indicates that a train with train number "J4567" is stopped at station B. This data is normally used by railway companies and others who operate trains to control train operations, and can be obtained from sensors installed on the tracks or input from an operator.

図11は、正確性評価部123の処理フローを示す流れ図である。本実施例の正確性評価部123は、SNSなどで投稿された情報の正確性を判定し、利用価値のある投稿を抽出する。図9および図10で説明した高信頼情報は、例えば鉄道運用者が鉄道の正確な運行のために使用するデータであるから、内容は正確であることが期待できる。例えば、運行計画ダイヤ900と在線情報1000を比較すれば、列車の遅延の状況が正確に把握できる。しかし、高信頼情報は情報の即時性という点では、一般にSNSなどで投稿された情報に劣る。 Figure 11 is a flow chart showing the processing flow of the accuracy evaluation unit 123. In this embodiment, the accuracy evaluation unit 123 judges the accuracy of information posted on SNS or the like, and extracts posts that are useful. The highly reliable information described in Figures 9 and 10 is data used by, for example, railway operators for the accurate operation of railways, and therefore the content can be expected to be accurate. For example, by comparing the operation plan timetable 900 with the on-track information 1000, the status of train delays can be accurately grasped. However, in terms of the immediacy of information, highly reliable information is generally inferior to information posted on SNS or the like.

一般に高信頼情報は、項目と項目に対する情報(記号、数値、テキストなど)で整理され体系化されている。一方、投稿された情報は、一般に自由な形式で記述されたテキスト情報である。正確性評価部123では、投稿された情報を高信頼情報と比較することで、投稿情報の正確性を評価する。投稿したテキスト情報については、そのままでは比較が難しいため、投稿構造化部121が、必要に応じて先に述べた構造化などの処理を行う。 Highly reliable information is generally organized and systematized by items and information for each item (symbols, numbers, text, etc.). On the other hand, posted information is generally text information written in a free format. The accuracy evaluation unit 123 evaluates the accuracy of the posted information by comparing it with highly reliable information. Since it is difficult to compare posted text information as it is, the post structuring unit 121 performs processing such as the structuring described above as necessary.

ステップ1101は、処理開始を示す。開始タイミングは任意だが、例えば通常は待ち受け状態として、定期的に起動する。例えば、正確性評価部123は、10分間隔で起動し、直近の10分間の投稿情報を処理する。 Step 1101 indicates the start of processing. The start timing is arbitrary, but for example, the accuracy evaluation unit 123 is usually activated periodically in a standby state. For example, the accuracy evaluation unit 123 is activated at 10-minute intervals and processes posted information from the last 10 minutes.

ステップ1102は、データ受信であり、正確性評価部123は、投稿構造化部121から構造化済投稿データ800を受信する。具体的な投稿の例は、図12および図13で説明する。また、正確性評価部123は、高信頼情報取得部112から高信頼情報900,1000を受信する。 Step 1102 is data reception, where the accuracy evaluation unit 123 receives structured post data 800 from the post structuring unit 121. Specific examples of posts are described in Figures 12 and 13. The accuracy evaluation unit 123 also receives highly reliable information 900, 1000 from the highly reliable information acquisition unit 112.

正確性評価部123が受信するデータは、例えば直近の10分間に投稿された全ての構造化済投稿データおよび更新された全ての高信頼情報であってもよいが、処理量を圧縮するためには、着目する情報に応じて抽出された情報を受信しても良い。この例では、鉄道の運行に関し「路線X」の「遅延」に関する情報を収集したい場合を説明する。 The data received by the accuracy evaluation unit 123 may be, for example, all structured post data posted in the last 10 minutes and all updated highly reliable information, but in order to reduce the amount of processing, information extracted according to the information of interest may be received. In this example, a case will be described in which it is desired to collect information regarding "delays" on "Route X" in relation to train operations.

図12、図13は、投稿構造化部121から得られる構造化済投稿データ800の投稿の例を、投稿単位で示す構造化済個別投稿データ1200,1300の表図である。項目1201,1301の、「投稿ID」、「投稿内容」、「投稿時刻」、固有表現の「場所」、「時間」、「事象」などの内容1202,1302は、構造化済投稿データ800の投稿ID801、固有表現分類802~806、および固有表現抽出結果807の引用である。 Figures 12 and 13 are table diagrams of structured individual post data 1200, 1300 showing examples of posts of structured post data 800 obtained from the post structuring unit 121, on a post-by-post basis. The contents 1202, 1302 of items 1201, 1301, such as "post ID", "post content", "post time", and named entity "location", "time", and "event", are citations of post ID 801, named entity classifications 802-806, and named entity extraction result 807 of structured post data 800.

図12、図13の投稿は、一例として収集したい情報に基づくキーワードを用いて投稿全体から抽出し、「路線X」、「遅延」の固有表現を持つ「2020-12-17 13:50-14:00」に投稿された情報が抽出されている。高信頼情報については、例えば、在線情報(例:図10)の更新日時が当該時間帯「13:50-14:00」に含まれる当該路線「X」の列車全てを対象として抽出する。 As an example, the posts in Figures 12 and 13 are extracted from all posts using keywords based on the information to be collected, and information posted on "2020-12-17 13:50-14:00" that has the unique expressions "Route X" and "Delay" is extracted. For highly reliable information, for example, all trains on the relevant route "X" whose update dates and times of the on-line information (e.g., Figure 10) fall within the relevant time period "13:50-14:00" are extracted.

ステップ1103は、遅延情報抽出であり、運行計画ダイヤ900と抽出した在線情報1000を比較することで、駅発着の遅延時分を算出する。すなわち、特定の対象(列車)の位置と時間の目標値である計画ダイヤと、特定の対象の実際の位置と時間である剤線情報を比較することで、目標値に対するずれ(通常は遅れ)を算出する。合わせて、運行計画ダイヤ900より、次の着発予定時刻として、駅停車中の列車は発車時刻、駅間走行中の列車は次の駅の到着時刻を取得する。 Step 1103 is delay information extraction, where delay times for departures and arrivals at stations are calculated by comparing the operation plan timetable 900 with the extracted track information 1000. In other words, the deviation from the target value (usually a delay) is calculated by comparing the planned timetable, which is the target value for the position and time of a specific object (train), with the track information, which is the actual position and time of the specific object. Additionally, the next scheduled arrival and departure times are obtained from the operation plan timetable 900, which is the departure time for trains stopped at a station and the arrival time at the next station for trains traveling between stations.

図14は、正確性評価部123がステップ1103において高信頼情報から抽出した遅延情報の例を示す表図である。図14では、「路線X」の「2020-12-17 13:50-14:00」について、本ステップ1103で抽出した遅延情報の例を示す。この例では、図10で上記条件に該当するID「21」と「23」の状態を、図10の計画ダイヤと比較することで、図14の遅延情報1400を得る。この場合は両者とも遅れはない。 Figure 14 is a table diagram showing an example of delay information extracted by the accuracy evaluation unit 123 from the highly reliable information in step 1103. Figure 14 shows an example of delay information extracted in this step 1103 for "Route X" on "2020-12-17 13:50-14:00". In this example, the delay information 1400 in Figure 14 is obtained by comparing the states of IDs "21" and "23" that meet the above conditions in Figure 10 with the planned timetable in Figure 10. In this case, there is no delay for either.

なお、図12、図13の例では投稿に方面の言及がないため、路線Xで当該時間帯に運行している全列車を対象に抽出する。投稿に方面の言及がある場合は、言及されている方面で該時間帯に運行している列車を対象に抽出する。投稿に特定の列車への言及があれば、当該列車のみを対象とする。 In the examples of Figures 12 and 13, since the post does not mention a destination, all trains operating on route X during that time period are extracted. If the post mentions a destination, trains operating in the mentioned destination during that time period are extracted. If the post mentions a specific train, only that train is extracted.

ステップ1104は、遅延情報集計であり、投稿ごとに、前ステップ1103で抽出した遅延情報を集計し、遅延実績の有無、遅延時分、情報の確定・未確定の区別、情報未確定の場合は確定予定時刻を算出する。抽出した列車のいずれかで所定時間(例:1分)以上の遅延時分がある場合、遅延実績ありとする。遅延時分は、抽出した列車のなかで最大の遅延時分とする。情報は確定とする。 Step 1104 is delay information aggregation, where the delay information extracted in the previous step 1103 is aggregated for each post, and the presence or absence of a delay, the delay duration, whether the information is confirmed or unconfirmed, and the confirmed scheduled time are calculated if the information is unconfirmed. If any of the extracted trains has a delay duration of a specified period (e.g., 1 minute) or more, it is considered to have a delay. The delay duration is considered to be the maximum delay duration among the extracted trains. The information is considered to be confirmed.

抽出した列車で所定時間以上の遅延時分がない場合、遅延実績なしとする。遅延時分は0分とする。抽出した列車の次の着発予定時刻のいずれかが、正確性評価部による本処理の時刻よりも将来である場合は、情報は未確定とする。そうでない場合、情報は確定とする。なお、未確定の場合、確定予定時刻は、抽出した列車の次の着発予定時刻のなかで最も遅い時刻とする。 If the extracted train does not have a delay of more than the specified time, it is considered to have no actual delay. The delay time is considered to be 0 minutes. If any of the next scheduled arrival/departure times of the extracted train are in the future than the time of this processing by the accuracy evaluation unit, the information is considered to be unconfirmed. If not, the information is considered to be confirmed. In the case of unconfirmed, the confirmed scheduled time is considered to be the latest of the next scheduled arrival/departure times of the extracted trains.

ステップ1105は、正誤判定であり、投稿ごとに、構造化済投稿データが言及している遅延の情報を前ステップ1104の集計結果と比較して正誤判定し、正確性の指標値を定める。 Step 1105 is a determination of accuracy, in which the delay information mentioned in the structured post data is compared with the aggregated results from the previous step 1104 for each post to determine whether it is accurate or not, and an index value for accuracy is determined.

図15は正確性評価部123が投稿の正誤を判定する際に参照する判定表を示す表図である。各投稿について、「1」を正、「-1」を誤、「0」を不確定(評価なし)とする。高信頼情報から抽出・集計した遅延実績と情報の確定・未確定、構造化済投稿データの遅延への言及とその内容(遅延の有無)によって、表のうちの該当する値を正確性の指標値とする。特に、高信頼情報が未確定で投稿に遅延への言及がある場合、指標値を仮に1(正)とする。 Figure 15 is a table diagram showing a judgment table that the accuracy evaluation unit 123 refers to when judging the accuracy of a post. For each post, "1" is correct, "-1" is incorrect, and "0" is uncertain (no evaluation). Depending on the delay record extracted and aggregated from the highly reliable information, the confirmed or unconfirmed information, and the reference to delay in the structured post data and its content (presence or absence of delay), the corresponding value in the table is used as the accuracy index value. In particular, if the highly reliable information is unconfirmed and the post contains a reference to delay, the index value is provisionally set to 1 (positive).

図15に基づいて、例えば、「2020-12-17 13:50-14:00」の時間帯の、「X線」の列車「K8888」の「遅延」情報を例にして説明する。 Based on Figure 15, we will explain the "delay" information for the "X-Ray" train "K8888" for the time period "2020-12-17 13:50-14:00" as an example.

高信頼情報の「遅延実績あり」は、例えば計画ダイヤ上、上記時間帯に列車「K8888」が所定駅に到着するはずのところ、在線情報では未だ到着していない場合である。 Highly reliable information such as "Delays have been recorded" refers to the case where, for example, train "K8888" is supposed to arrive at a specific station during the above time period according to the planned timetable, but the on-track information indicates that it has not yet arrived.

高信頼情報の「遅延実績なし」「確定」は、例えば計画ダイヤ上、上記時間帯に列車「K8888」が所定駅に到着するはずのところ、在線情報では定刻通り到着している場合である。 Highly reliable information such as "No delays" and "Confirmed" refers to the case where, for example, train "K8888" is supposed to arrive at a specific station during the above time period according to the planned timetable, but the on-track information shows that it is arriving on time.

なお、遅延実績の有無については、たとえば1分以内の遅延は無視するなどの条件を設けてもよい。すなわち、現象の有無については任意に定義が可能である。 Regarding whether there has been a delay, for example, a condition may be set to ignore delays of less than one minute. In other words, the presence or absence of a phenomenon can be defined arbitrarily.

高信頼情報の「遅延実績なし」「未確定」は、例えば計画ダイヤと在線情報を比較しても、遅延実績の有無を判定できない場合であり、例えば、計画ダイヤ上、上記時間帯に列車「K8888」はいずれの駅にも発着しない場合である。 Highly reliable information such as "No actual delays" and "Unconfirmed" refers to cases where, for example, even when comparing the planned timetable with on-track information, it is not possible to determine whether or not there has been an actual delay. For example, according to the planned timetable, train "K8888" does not depart or arrive at any station during the above time period.

投稿の「遅延」「あり」は、投稿情報の中に遅延があるという固有表現が含まれている場合である。たとえば、「K8888遅れそう」である。 A post's "delay" or "present" refers to a case where the posted information contains a specific expression indicating that there is a delay. For example, "K8888 looks like it will be delayed."

投稿の「遅延」「なし」は、投稿情報の中に遅延がないという固有表現が含まれている場合である。たとえば、「K8888定刻どおりだ」である。 The "delay" and "no delay" in posts are cases where the posted information contains a unique expression indicating no delay. For example, "K8888, right on time."

投稿の「遅延言及なし」は、投稿情報の中に遅延に関する言及がない場合である。 A post with "no mention of delay" means that there is no mention of a delay in the post information.

高信頼情報と投稿情報が矛盾する場合には、原則として高信頼情報が正しく、投稿情報を誤りとして投稿の正誤を評価するが、高信頼情報が未確定の場合には、投稿情報を仮に正しいとして採用する。 When there is a contradiction between highly reliable information and posted information, in principle the highly reliable information is correct and the posted information is incorrect, and the accuracy of the post is evaluated. However, when the highly reliable information is unconfirmed, the posted information is provisionally adopted as correct.

なお、上記の例では、「X線」の列車「K8888」についての投稿の評価であるが、「X線」全体についての投稿を評価してもよい。その場合には、例えば以下の例がある。 In the above example, posts about the "X-Ray" train "K8888" are evaluated, but posts about the "X-Ray" as a whole may also be evaluated. In that case, for example, the following is an example.

高信頼情報の「遅延実績あり」は、例えば計画ダイヤ上、上記時間帯に「X線」上にある列車のうち所定駅に到着するものがあるはずのところ、在線情報では未だ到着していないものがひとつでもある場合である。 The highly reliable information "record of delays" refers to, for example, a case where, according to the planned timetable, there is a train on the "X-line" that should arrive at the specified station during the above time period, but according to the on-track information, there is at least one train that has not yet arrived.

高信頼情報の「遅延実績なし」「確定」は、例えば計画ダイヤ上、上記時間帯に「X線」上にある列車のうち所定駅に到着するものがあるはずのところ、在線情報では全て定刻通り到着している場合である。 Highly reliable information such as "No record of delays" and "Confirmed" refers to, for example, trains on the "X-line" during the above time period that should be arriving at the designated station according to the planned timetable, but all trains are arriving on schedule according to the on-track information.

なお、遅延実績の有無については、たとえば過半数の列車が定刻に対して遅延している場合のみ「遅延実績あり」のような条件で判断してもよい。あるいは、1分以内の遅延は無視するなどの条件を設けてもよい。すなわち、現象の有無については任意に定義が可能である。 The presence or absence of a delay may be determined based on a condition such as "a delay has occurred" only if the majority of trains are delayed from their scheduled times. Alternatively, a condition may be set such that delays of less than one minute are ignored. In other words, the presence or absence of a phenomenon can be defined arbitrarily.

高信頼情報の「遅延実績なし」「未確定」は、例えば計画ダイヤと在線情報を比較しても、遅延実績の有無を判定できない場合である。 Highly reliable information such as "No actual delays" and "Unconfirmed" refers to cases where, for example, even when comparing the planned timetable with on-track information, it is not possible to determine whether or not there has been a delay.

投稿の「遅延」「あり」は、投稿情報の中に遅延があるという固有表現が含まれている場合である。たとえば、「X線遅れそう」である。 The "delayed" and "present" comments in posts are when the posted information contains a specific expression indicating a delay. For example, "X-ray looks like it's going to be delayed."

投稿の「遅延」「なし」は、投稿情報の中に遅延がないという固有表現が含まれている場合である。たとえば、「X線定刻どおりだ」である。 The "delay" and "no delay" in posts are cases where the posted information contains the proper expression that there is no delay. For example, "X-rays are on time."

投稿の「遅延言及なし」は、投稿情報の中に遅延に関する言及がない場合である。 A post with "no mention of delay" means that there is no mention of a delay in the post information.

ステップ1106は、結果送信であり、計算した投稿の正確性の指標値と、情報の確定・未確定の区分、未確定の場合は確定予定時刻を有用性指標計算部125に送信する。 Step 1106 is the transmission of the results, in which the calculated index value of the accuracy of the post, the classification of the information as confirmed or unconfirmed, and the scheduled confirmation time if the information is unconfirmed are transmitted to the usefulness index calculation unit 125.

ステップ1107で、処理終了とする。 The process ends in step 1107.

図12は、正確性評価部123が入力とする構造化済投稿データのうち1つの投稿例を示す図である。この投稿はX線の8分の遅延実績について言及している。高信頼情報においても遅延実績ありと集計されていれば、投稿の正確性の指標値が「1」になる。 Figure 12 is a diagram showing an example of one of the structured post data input by the accuracy evaluation unit 123. This post mentions an actual delay of eight minutes for an X-ray. If the highly reliable information is also counted as having a delay, the index value of the accuracy of the post will be "1".

図13は、正確性評価部123が入力とする構造化済投稿データのうち別の1つの投稿例を示す図である。この投稿は駅間で停車したこと、X線に遅延が生じる可能性について言及している。この投稿内容の状況では、列車の次駅への到着予定時刻を過ぎるまで高信頼情報で遅延実績はないまま(未確定)となる。上述した正確性評価部123の処理では、高信頼情報の遅延情報を未確定として扱い、この投稿の言及を仮に正しいと判定することで、SNS投稿から迅速に情報を抽出できる。あるいは、仮の正判定は値「1」とせずに「0.8」のように区別し、高信頼情報で遅延が確定した時点で「1」に更新してもよい。 Figure 13 is a diagram showing another example of a post among the structured post data input by the accuracy evaluation unit 123. This post mentions that the train stopped between stations and that there may be a delay in the X-ray. In the situation of the post content, there will be no actual delay in the highly reliable information (unconfirmed) until the scheduled arrival time of the train at the next station. In the processing of the accuracy evaluation unit 123 described above, the delay information in the highly reliable information is treated as unconfirmed, and the mention of this post is provisionally determined to be correct, thereby enabling information to be extracted quickly from the SNS post. Alternatively, the provisional correct determination may be distinguished as a value such as "0.8" rather than "1", and updated to "1" when the delay is confirmed by the highly reliable information.

図16は、詳細度評価部122の処理フローを示す流れ図である。 Figure 16 is a flow chart showing the processing flow of the detail evaluation unit 122.

ステップ1601は、処理開始である。 Step 1601 is where processing begins.

ステップ1602は、データ受信であり、投稿構造化部121から構造化済投稿データ800を受信する。 Step 1602 is data reception, in which structured post data 800 is received from the post structuring unit 121.

ステップ1603は、抽出固有表現数集計であり、各投稿について、固有表現抽出結果に含まれる場所、時間、事象に関する固有表現の数に基づいて、投稿の情報詳細度の指標を計算する。図7の投稿の例では、「大分類:場所」の固有表現が3つ、「大分類:事象」の固有表現が4つ抽出されており、情報詳細度の指標値を抽出された固有表現の数である3+4=7とする。指標は、固有表現の数に限定されるものではなく、投稿内容テキストに含まれる単語数に対する固有表現の数の比率、分類の深さ、固有表現の種類に対する重みづけその他の関数等を用いることもできる。 Step 1603 is a count of the number of extracted named entities, and an index of the information detail of the post is calculated for each post based on the number of named entities related to location, time, and event contained in the named entity extraction results. In the example post of FIG. 7, three named entities in "major category: location" and four named entities in "major category: event" are extracted, and the index value of the information detail is set to the number of extracted named entities, 3 + 4 = 7. The index is not limited to the number of named entities, and it is also possible to use the ratio of the number of named entities to the number of words contained in the post content text, the depth of classification, weighting of the types of named entities, or other functions.

ステップ1604は、結果送信であり、計算した投稿の情報詳細度の指標値を有用性指標計算部125に送信する。 Step 1604 is the transmission of the results, in which the calculated index value of the information detail of the post is transmitted to the usefulness index calculation unit 125.

ステップ1605で、処理終了とする。 The process ends in step 1605.

図17は、情報源評価部124の処理フローを示す流れ図である。 Figure 17 is a flow chart showing the processing flow of the information source evaluation unit 124.

ステップ1701で、処理を開始する。 Processing begins in step 1701.

ステップ1702で、データを受信する。データ受信では、投稿構造化部121から構造化済投稿データ800を受信するとともに、評価済投稿記憶部131から評価済投稿データ1800を受信する。 In step 1702, data is received. In data reception, structured post data 800 is received from the post structuring unit 121, and rated post data 1800 is received from the rated post storage unit 131.

ステップ1703は、投稿者判定である。投稿者ID801等に基づいて、投稿者の属性および過去の投稿内容に基づいて投稿を評価する。例えば、現地の詳細情報の迅速な把握の点で有用性の低い投稿が多いと考えられる投稿者の一覧を用意しておき、その一覧に含まれる投稿者からの投稿を低く評価する。また、評価済投稿記憶部131に記録された評価済投稿データ1800を参照して、同じ投稿者の投稿の有用性指標1808の平均値を計算し、例えば、その値が所定の値よりも大きい(有用性が高い)場合に高く評価する。 Step 1703 is poster determination. The poster's attributes and past posting content are evaluated based on the poster ID 801, etc. For example, a list of posters who are thought to post many posts that are not very useful in terms of quickly understanding local detailed information is prepared, and posts from posters included in the list are rated low. Also, by referring to the evaluated post data 1800 recorded in the evaluated post storage unit 131, the average value of the usefulness index 1808 of posts from the same poster is calculated, and posts that are greater than a predetermined value (high usefulness) are rated high, for example.

ステップ1704は、伝聞判定である。投稿内容が伝聞と推定されるかに基づいて投稿を評価する。例えば、投稿内容テキストにリンクや引用が含まれる場合は、現場で体験した情報ではなく、SNSやニュース・記事等を参照して得た情報である可能性が高いため、現場の情報ではない投稿内容として低く評価する。また、具体的な情報源(車内放送、駅構内放送など)を示さずに、「らしい」「だそうだ」などの伝聞表現が使われている投稿は、現場で体験した情報ではない可能性が高いため低く評価する。 Step 1704 is hearsay determination. The post is evaluated based on whether the post content is presumed to be hearsay. For example, if the post content text contains links or quotations, it is highly likely that the information was obtained by referring to social media, news, articles, etc., rather than information experienced at the site, so the post is rated low as not containing information from the site. In addition, posts that use hearsay expressions such as "seems to be" or "it seems to be" without indicating a specific source of information (such as in-car announcements or station announcements) are highly likely not information experienced at the site, so they are rated low.

ステップ1705は、指標計算である。ステップ1703、1704で挙げた観点を組み合わせて情報源に関する指標を計算する。例えば高く評価できる観点の数を指標値とする。あるいは各観点に適宜重みをつけてもよい。 Step 1705 is index calculation. The perspectives listed in steps 1703 and 1704 are combined to calculate an index for the information source. For example, the number of highly rated perspectives is set as the index value. Alternatively, each perspective may be weighted appropriately.

ステップ1706は、結果送信である。計算した投稿の情報源の指標値を有用性指標計算部125に送信する。 Step 1706 is result transmission. The calculated index value of the post's information source is transmitted to the usefulness index calculation unit 125.

ステップ1707で、処理を終了する。 The process ends in step 1707.

図18は、有用性指標計算部125の出力する評価済み投稿データを示す表図である。評価済投稿データ1800の、投稿ID1801で特定される一つの列がひとつの投稿を示している。投稿ID1801や更新日時1802は、構造化済投稿データ800の「投稿ID」801や「日時」804を引用すればよい。 Figure 18 is a table diagram showing the evaluated post data output by the usefulness index calculation unit 125. One column of the evaluated post data 1800, identified by a post ID 1801, indicates one post. The post ID 1801 and update date/time 1802 can be obtained by quoting the "post ID" 801 and "date/time" 804 from the structured post data 800.

列1808の有用性指標は、詳細度評価部122から得た詳細度1803、正確性評価部123から得た正確性1804、情報源評価部124から得た情報源の指標値1807に基づいて計算される。投稿ID「14371」では、確定・未確定の区分1805の値が未確定に「該当」となっており、正確性が「1」で「正」になってはいるが、対応する高信頼情報では現象は未確定であり、確定予定時刻1806が示す「14:14」に確定予定であることが示されている。タグ付き投稿内容1809は、図7に示すようなデータである。 The usefulness index in column 1808 is calculated based on the level of detail 1803 obtained from the level of detail evaluation unit 122, the accuracy 1804 obtained from the accuracy evaluation unit 123, and the information source index value 1807 obtained from the information source evaluation unit 124. For post ID "14371", the value of the confirmed/unconfirmed category 1805 is "applicable" to unconfirmed, and the accuracy is "1" which is "positive", but the corresponding highly reliable information indicates that the phenomenon is unconfirmed, and that it is scheduled to be confirmed at "14:14", as indicated by the scheduled confirmation time 1806. Tagged post content 1809 is data such as that shown in FIG. 7.

有用性指標計算部125は、詳細度評価部122、正確性評価部123、情報源評価部124から各投稿の指標値を受信する。合わせて、正確性評価部123からは、各投稿の情報の確定・未確定の区分1805、未確定の場合の確定予定時刻1806を受信する。 The usefulness index calculation unit 125 receives index values for each post from the detail evaluation unit 122, accuracy evaluation unit 123, and information source evaluation unit 124. In addition, it receives from the accuracy evaluation unit 123 the classification 1805 of the information of each post as confirmed or unconfirmed, and the scheduled confirmation time 1806 in the case of unconfirmed information.

有用性指標計算部125は、各指標値に基づいて有用性指標1808を計算する。例えば、有用性指標が0から1の間の値をとり、情報表示装置105で評価済投稿を確認する利用者にとって有用な投稿ほど大きな指標値となるように、標準シグモイド関数σと係数1~4を用いて下記の式で計算する。
(有用性指標)=σ((係数1)×(詳細度指標)+(係数2)×(正確性指標)+(係数3)×(情報源指標)+(係数4))
ここで、標準シグモイド関数は、指数関数exp(x)を用いてσ(x)=1/(1+exp(x))と定義される。
上記式は一例であり、他の関数や重みを用いてもよい。
The usefulness index calculation unit 125 calculates a usefulness index 1808 based on each index value. For example, the usefulness index takes a value between 0 and 1, and the more useful a post is to a user who checks the evaluated posts on the information display device 105, the higher the index value is. In this way, the calculation is performed using the standard sigmoid function σ and coefficients 1 to 4 according to the following formula.
(Usefulness index) = σ ((Coefficient 1) × (Detail index) + (Coefficient 2) × (Accuracy index) + (Coefficient 3) × (Information source index) + (Coefficient 4))
Here, the standard sigmoid function is defined as σ(x)=1/(1+exp(x)) where exponential function exp(x) is used.
The above formula is an example, and other functions and weights may be used.

各投稿について受信した情報と有用性指標とをあわせた評価済投稿データ1800を評価済投稿記憶部131に記録する
有用性指標計算部125の上記の処理により、詳細度、正確性、情報源の観点で投稿の有用性を評価し、有用性指標値に統合することで、詳細情報の迅速な把握と、誤情報の除外を両立する。
The evaluated post data 1800, which combines the information received for each post and the usefulness index, is recorded in the evaluated post memory unit 131.By the above-mentioned processing of the usefulness index calculation unit 125, the usefulness of the post is evaluated in terms of detail, accuracy, and information source, and integrated into a usefulness index value, it is possible to quickly grasp detailed information while eliminating incorrect information.

図19は、情報表示装置105に表示される投稿評価結果の概要表示を示すイメージ図である。概要表示のウィンドウ1901は、評価時刻を示す表示1902、概要表示テーブル1903を含む。 Figure 19 is an image diagram showing an overview display of the posting evaluation results displayed on the information display device 105. The overview display window 1901 includes a display 1902 showing the evaluation time and an overview display table 1903.

概要表示テーブル1903の各行は、対象路線ごとの評価済み投稿および高信頼情報のサマリを示す。 Each row in the summary display table 1903 shows a summary of the rated posts and highly reliable information for each target route.

行1921は路線X、1922は路線Yを示す。列1911は路線名を示す。 Row 1921 indicates route X, and row 1922 indicates route Y. Column 1911 indicates the route name.

列1912は高信頼情報の運転状況のサマリであり、平常運転か、遅延ありかどうかを表示する。 Column 1912 is a summary of the operation status of the highly reliable information, showing whether operation is normal or there are delays.

列1913には投稿数の時系列トレンドのグラフを表示する。横軸が時間、縦軸が投稿数である。当該路線に関する投稿の総数と、有用性評価指標が所定値を上回ったフィルタ後の投稿数を表示する。 Column 1913 displays a graph of the time series trend of the number of posts. The horizontal axis is time, and the vertical axis is the number of posts. It displays the total number of posts related to the route and the number of filtered posts whose usefulness evaluation index exceeds a specified value.

列1914には所定期間のうちで有用性指標の値が最大の投稿、あるいは、フィルタ後で投稿日時が最新の投稿などの代表的な投稿を表示する。 Column 1914 displays representative posts, such as the post with the highest usefulness index value within a specified period of time, or the post with the most recent posting date and time after filtering.

列1915には、フィルタ後の投稿の情報を集約する情報を表示する。具体的には、所定期間のうちでフィルタ後の投稿で頻出するキーワードをワードクラウドとして表示する。 Column 1915 displays information that aggregates the information of the filtered posts. Specifically, it displays keywords that frequently appear in the filtered posts over a given period of time as a word cloud.

列1916には、図20に示す路線についての詳細表示に遷移するボタンを表示する。 Column 1916 displays a button that transitions to a detailed display of the route shown in FIG. 20.

図19の例では、高信頼情報では運転状況1912で「平常運転」の状況が示されている。しかし、SNSで投稿されている情報からは、遅延や混雑を想起させる情報が抽出される。このように、本実施例ではSNSのように信頼性が保証されていない情報から、確度の比較的高い情報を早期に抽出することができる。 In the example of FIG. 19, the highly reliable information indicates that operation status 1912 is "operating normally." However, information that suggests delays or congestion is extracted from information posted on SNS. In this way, in this embodiment, information with a relatively high degree of accuracy can be extracted early on from information whose reliability is not guaranteed, such as SNS.

図20は、情報表示装置105に表示される投稿評価結果の路線詳細を示すイメージ図である。路線詳細表示のウィンドウ2001は、表示対象の路線名をパネル2011に表示する。 Figure 20 is an image diagram showing route details of the posting evaluation results displayed on the information display device 105. The route details display window 2001 displays the name of the route to be displayed on the panel 2011.

パネル2012には、評価済投稿記憶部131のうち当該路線の情報を抜粋してテーブル形式で示す。情報表示装置105の利用者が、投稿時刻の新しい順や、有用性指標の高い順などで並び替えられるようにする。抜粋は、評価済投稿データ1800から、路線名や当該路線に属する駅名、列車名をキーワードにして抽出すればよい。さらに、投稿時刻や言及時刻、場所の絞り込み、有用性指標の値によるフィルタなどの調整ができるようにしてもよい。 Panel 2012 shows an excerpt of information about the line from the rated post storage unit 131 in table format. The user of the information display device 105 can sort the information by most recent posting time, highest usefulness index, etc. The excerpt can be extracted from the rated post data 1800 using keywords such as the line name, station names and train names that belong to the line. Furthermore, it may be possible to narrow down the time of posting, time of mention, and location, and adjust filters based on the value of the usefulness index, etc.

投稿内容テキストの表示は、評価済投稿データ1800そのもの、あるいは、評価済投稿データ1800から適宜抜粋した項目を表示することができる。図7のように、抽出した場所、時間、事象に関する固有表現を強調して表示することで、情報表示装置105の利用者が投稿内容のポイントを早く把握できる。 The posted content text can be displayed as the evaluated posted data 1800 itself, or as appropriate items extracted from the evaluated posted data 1800. As shown in FIG. 7, by highlighting and displaying unique entities related to the extracted location, time, and event, the user of the information display device 105 can quickly grasp the key points of the posted content.

上記、図19および図20で説明した情報表示により、交通事業者の従業員や乗客が、詳細情報の迅速な把握と、誤情報を除外した情報取得を両立できることで、運行状況の案内業務や移動経路・時間の選択を改善できると考えられる。 The information display described above in Figures 19 and 20 will enable transportation company employees and passengers to quickly grasp detailed information while eliminating erroneous information, which is believed to improve operation status guidance and route and time selection.

本実施例は、設備異常に関するSNS投稿について、誤情報を除外しつつ、詳細情報を迅速に抽出するように投稿の有用性を評価する投稿評価装置について説明する。駅構内におけるホームやトイレなどの設備を具体例として、実施例1との主要な差分について投稿評価装置の処理を説明する。特に説明のない部分は、実施例1と同様でよい。 In this embodiment, a post evaluation device is described that evaluates the usefulness of SNS posts about equipment abnormalities so as to quickly extract detailed information while filtering out false information. Using facilities such as platforms and toilets in train stations as concrete examples, the processing of the post evaluation device is described with the main differences from the first embodiment. Portions that are not specifically described may be the same as the first embodiment.

図1で、正確性評価部123は、投稿構造化部121から構造化済投稿データを受信し、高信頼情報取得部112から高信頼情報を受信する。この例では、正確性評価部123は、構造化済投稿データを全て受信し、後工程で必要な情報をフィルタリングするものとして説明する。 In FIG. 1, the accuracy evaluation unit 123 receives structured post data from the post structuring unit 121, and receives highly reliable information from the highly reliable information acquisition unit 112. In this example, the accuracy evaluation unit 123 is described as receiving all structured post data and filtering out the information required in a later process.

構造化済投稿データが言及している場所(路線・方面)、時間、事象(設備異常)について、高信頼情報から事象の実績情報を集計する。高信頼情報で事象(設備異常)の実績がない場合、今後事象(設備異常)が確認されうる予定の時刻を計算し、確定予定時刻が処理時刻よりも将来である場合には事象(設備異常)有無は未確定とする。 Actual event information is collected from high reliability information for the location (route/direction), time, and event (equipment abnormality) mentioned in the structured posted data. If there is no actual event (equipment abnormality) in the high reliability information, the planned time when the event (equipment abnormality) may be confirmed in the future is calculated, and if the planned confirmation time is in the future than the processing time, the presence or absence of the event (equipment abnormality) is considered unconfirmed.

事象(設備異常)の有無が確定する時刻としては、例えば当該の場所の次の点検予定時刻、あるいは、異常を検知するセンサのデータ取得予定時刻とする。集計結果との比較を通じて投稿が言及する事象(設備異常)の有無の正誤を判定し、正確性の指標を定める。事象(設備異常)実績がなく事象(設備異常)有無が未確定の場合、投稿が言及する事象(設備異常)有無は仮に正しいと判定する。計算した投稿の正確性の指標値を有用性指標計算部125に送信する。 The time when the presence or absence of an event (equipment abnormality) is determined may be, for example, the scheduled time for the next inspection of the location in question, or the scheduled time for data acquisition from a sensor that detects the abnormality. The accuracy of the presence or absence of the event (equipment abnormality) mentioned in the post is determined through comparison with the aggregated results, and an accuracy index is established. If there is no record of an event (equipment abnormality) and the presence or absence of an event (equipment abnormality) is undetermined, the presence or absence of the event (equipment abnormality) mentioned in the post is provisionally determined to be correct. The calculated index value of the accuracy of the post is sent to the usefulness index calculation unit 125.

図21を参照して、実施例2における正確性評価部123の処理フローを説明する。
ステップ2101で、処理を開始する。
ステップ2102で、データを受信する。投稿構造化部121から構造化済投稿データを受信する。
The process flow of the accuracy evaluation part 123 in the second embodiment will be described with reference to FIG.
In step 2101, the process begins.
In step 2102, data is received. Structured post data is received from the post structuring unit 121.

図22は、高信頼情報取得部112から取得する高信頼情報の例を示す。この例は、設備の維持、管理のためのメンテナンスデータ2200であり、データID2201、データ更新日時2202、設備がある駅2203、設備名2204、異常有無2205、対応済・未済2206、次回点検予定時刻2207等を含む。 Figure 22 shows an example of highly reliable information acquired from the highly reliable information acquisition unit 112. This example is maintenance data 2200 for maintaining and managing the equipment, and includes a data ID 2201, a data update date and time 2202, a station where the equipment is located 2203, an equipment name 2204, the presence or absence of an abnormality 2205, whether or not an action has been taken 2206, and a scheduled time of the next inspection 2207.

図23は、投稿データ取得部111から取得する具体的な投稿の例を示す。
ステップ2103で、異常情報を抽出する。投稿ごとに、構造化済投稿データが言及している場所(路線・方面)、時間について、高信頼情報から設備の異常情報を抽出する。
FIG. 23 shows an example of a specific post acquired from the post data acquisition unit 111. In FIG.
In step 2103, anomaly information is extracted. For each post, facility anomaly information is extracted from highly reliable information for the location (route/direction) and time mentioned in the structured post data.

図23の投稿の場合、構造化済投稿データ2300に含まれる固有表現に基づいて、メンテナンスデータ2200を検索し、D駅の北口トイレについての設備点検の情報を抽出する。具体的には図22のテーブルから、D駅の北口トイレの記録の行(ID7)を取り出す。なお、構造化済投稿データの言及で設備を1つに特定できない場合は、該当する可能性のある複数の設備の記録の行を取り出す。 In the case of the post in FIG. 23, the maintenance data 2200 is searched based on the named entities contained in the structured post data 2300, and information on facility inspections for the restrooms at the north exit of Station D is extracted. Specifically, the row (ID7) of the record for the restrooms at the north exit of Station D is extracted from the table in FIG. 22. Note that if a single facility cannot be identified from the mentions in the structured post data, the rows of records for multiple possibly applicable facilities are extracted.

ステップ2104で、異常情報を集計する。投稿ごとに、前ステップ2103で抽出した異常情報を集計し、異常有無2205から異常実績の有無、対応済・未済2206から異常対応済・未済、次回点検予定時刻2207から情報確定予定時刻を算出する。 In step 2104, the anomaly information is aggregated. For each post, the anomaly information extracted in the previous step 2103 is aggregated, and the presence or absence of an anomaly is calculated from Abnormality Presence 2205, whether the anomaly has been handled or not is calculated from Handled/Not Handled 2206, and the scheduled time for information confirmation is calculated from the next scheduled inspection time 2207.

情報の確定・未確定の区別は、抽出した異常情報のうちで異常有無2205が異常あり、かつ、対応済・未済2206で対応未済の設備がある場合、異常実績あり(確定)とする。それ以外は、基本的に未確定として扱い、点検時刻においてのみ情報が確定するものとする。 The distinction between confirmed and unconfirmed information is made as follows: if the extracted anomaly information indicates that there is an anomaly in Abnormality Presence 2205 and there is equipment for which action has not been taken in Action Taken/Not Taken 2206, then there is an anomaly record (confirmed). Anything other than that is basically treated as unconfirmed, and the information is confirmed only at the time of inspection.

図23の投稿の例では、図22の高信頼情報のID7の行が取り出される。高信頼情報によると11時時点ではD駅の北口トイレは「異常なし」だが、異常の有無が確定するのは、次回点検予定時刻である15時である。よって、高信頼情報は未確定であり、投稿によるD駅の北口トイレに異常ありという情報が仮に正しいと判定される。仮の判定は、15時に更新される。 In the example post of Figure 23, the row of ID7 of the highly reliable information in Figure 22 is extracted. According to the highly reliable information, there is "no abnormality" in the north exit toilets of Station D as of 11:00, but the presence or absence of an abnormality will not be confirmed until 15:00, the next scheduled inspection time. Therefore, the highly reliable information is unconfirmed, and the information posted that there is an abnormality in the north exit toilets of Station D is provisionally determined to be correct. The provisional determination is updated at 15:00.

上記の手法では、高信頼情報は、異常有無2205が異常あり、かつ、対応済・未済2206で対応未済の設備がある「異常実績あり(確定)」以外は未確定とした。別の手法として、抽出した異常情報で異常あり、かつ、対応未済の設備は一つもない場合、高信頼情報は「異常実績なし(確定)」とする。これは、異常に対応した直後は正常の状態が続くという前提に基づく。それ以外の場合は、異常有無は未確定とし、確定予定時刻は、次回点検予定時刻のなかで最も遅い時刻とする。次回点検予定時刻のいずれかが、正確性評価部による本処理の時刻よりも将来である場合は、情報は未確定とする。 In the above method, the highly reliable information is deemed unconfirmed unless "Abnormality history (confirmed)" is indicated in Abnormality presence/absence 2205 and there is equipment that has not yet been addressed in Addressed/not yet 2206. As another method, if the extracted anomaly information indicates an abnormality and there is no equipment that has not yet been addressed, the highly reliable information is deemed "No abnormality history (confirmed)". This is based on the premise that a normal state will continue immediately after an abnormality is addressed. In all other cases, the presence/absence of an abnormality is deemed unconfirmed, and the scheduled confirmation time is set to the latest of the next scheduled inspection times. If any of the next scheduled inspection times is in the future than the time of this process by the accuracy evaluation unit, the information is deemed unconfirmed.

ステップ2105で、正誤判定をする。投稿ごとに、構造化済投稿データが言及している異常の情報を前ステップの集計結果と比較して正誤判定し、正確性の指標値を定める。 In step 2105, a determination is made as to whether the data is correct or not. For each post, the information on the anomaly mentioned in the structured post data is compared with the aggregated results from the previous step to determine whether the data is correct or not, and an index value for accuracy is determined.

判定表は図15の「遅延」を「異常」に読み替えたものを用いて、実施例1と同様の判定を行う。特に、情報が未確定で投稿に異常への言及がある場合、指標値を仮に「1」(正)とする。 The judgment table in FIG. 15 is used with "delay" replaced with "abnormality", and the same judgment as in Example 1 is made. In particular, if the information is unconfirmed and the post mentions an abnormality, the index value is provisionally set to "1" (positive).

ステップ2106で、結果を送信する。計算した投稿の正確性の指標値と、情報の確定・未確定の区分、未確定の場合は確定予定時刻を有用性指標計算部125に送信する。 In step 2106, the results are transmitted. The calculated index value of the accuracy of the post, the classification of the information as confirmed or unconfirmed, and the scheduled confirmation time if the information is unconfirmed are transmitted to the usefulness index calculation unit 125.

ステップ2107で、処理を終了する。 The process ends in step 2107.

図22は、正確性評価部123が入力とする駅構内の設備点検に関する高信頼情報を示す表図である。各設備の点検と異常有無、対応の済・未済と次回点検予定時刻が含まれている。 Figure 22 is a table showing highly reliable information on equipment inspections within stations that is input by the accuracy evaluation unit 123. It includes the inspection of each piece of equipment, whether there are any abnormalities, whether the measures have been taken, and the scheduled time of the next inspection.

図23は、正確性評価部123が入力とする構造化済投稿データのうち1つの投稿例を示す表図である。 Figure 23 is a table showing an example of one post from the structured post data input by the accuracy evaluation unit 123.

上述した正確性評価部123の処理では、高信頼情報の点検記録と今後の点検予定から未確定な期間を定めることで、高信頼情報が未確定な期間の異常情報についてSNS投稿から迅速に情報を抽出できる。 In the processing of the accuracy evaluation unit 123 described above, by determining the uncertain period from the inspection records of highly reliable information and future inspection plans, it is possible to quickly extract information from SNS posts about abnormal information during the period when highly reliable information is uncertain.

評価更新部141は、周期的(例:1分)に起動する。評価更新部141は、評価済投稿記憶部131から評価済投稿データを受信し、高信頼情報取得部112から高信頼情報を受信する。評価済投稿のうち、高信頼情報が未確定である投稿を更新対象として抽出する。特に、当該投稿の正確性評価で参照した設備の高信頼情報が更新された投稿を更新対象とする。更新対象投稿に対する正確性指標の更新(再計算)の指示を正確性評価部123に送信する。高信頼情報が未確定で正確性指標を仮計算した投稿について、確定した高信頼情報に基づいて正確性指標を更新することで、誤情報の除外の精度を向上できる。 The evaluation update unit 141 starts periodically (e.g., once a minute). The evaluation update unit 141 receives evaluated post data from the evaluated post storage unit 131, and receives high reliability information from the high reliability information acquisition unit 112. Of the evaluated posts, posts for which high reliability information has not been confirmed are extracted as update targets. In particular, posts for which high reliability information of equipment referenced in the accuracy evaluation of the post has been updated are targeted for update. An instruction to update (recalculate) the accuracy index for the post to be updated is sent to the accuracy evaluation unit 123. For posts for which high reliability information has not been confirmed and an accuracy index has been provisionally calculated, the accuracy of excluding erroneous information can be improved by updating the accuracy index based on confirmed high reliability information.

実施例2の設備異常については、異常情報に関する投稿を迅速に配信することで、設備を管理する事業者の従業員・係員が当該設備を速やかに、すなわち、次の点検予定よりも早めて点検し、異常への対応を早められる。従業員・係員が点検を実施し、その情報が高信頼情報に反映された場合は、上記の評価更新部141の処理によって誤情報の除外の精度を向上させることができる。 Regarding the equipment abnormality in Example 2, by quickly distributing posts regarding the abnormality information, employees/staff of the business operator managing the equipment can inspect the equipment promptly, i.e., earlier than the next scheduled inspection, and can speed up the response to the abnormality. When an employee/staff inspects the equipment and the information is reflected in the highly reliable information, the accuracy of excluding erroneous information can be improved by the processing of the evaluation update unit 141 described above.

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。 Note that the present invention is not limited to the above-mentioned embodiment, and various modified examples are included. For example, the above-mentioned embodiment has been described in detail to explain the present invention in an easy-to-understand manner, and is not necessarily limited to those having all of the described configurations. In addition, it is possible to replace a part of the configuration of a certain embodiment with the configuration of another embodiment, and it is also possible to add the configuration of another embodiment to the configuration of a certain embodiment. In addition, it is possible to add, delete, or replace a part of the configuration of each embodiment with another configuration. In addition, each of the above-mentioned configurations, functions, processing units, processing means, etc. may be realized in hardware by designing them as integrated circuits, for example, in part or in whole. In addition, each of the above-mentioned configurations, functions, etc. may be realized in software by a processor interpreting and executing a program that realizes each function. Information such as programs, tables, files, etc. that realize each function can be placed in a memory, a recording device such as a hard disk or SSD (Solid State Drive), or a recording medium such as an IC card, SD card, or DVD.

以上説明した実施例によれば、高信頼情報では不確定な事項も考慮に入れて投稿情報を評価することで、関連情報の収集範囲が広がり、有意な情報を収集しやすい。また、詳細度、正確性、情報源の観点で投稿の有用性を評価することで、詳細情報の迅速な把握と、誤情報の除外を両立することができる。 According to the embodiment described above, by evaluating posted information while taking into account uncertain matters in highly reliable information, the range of related information collected is expanded, making it easier to collect meaningful information. In addition, by evaluating the usefulness of posts in terms of level of detail, accuracy, and source of information, it is possible to quickly grasp detailed information while eliminating erroneous information.

100 投稿評価システム
101 投稿評価装置
122 詳細度評価部
123 正確性評価部
124 情報源評価部
125 有用性指標計算部
Reference Signs List 100 Post evaluation system 101 Post evaluation device 122 Detail level evaluation unit 123 Accuracy evaluation unit 124 Information source evaluation unit 125 Usefulness index calculation unit

Claims (10)

テキストデータを含む第1のデータを取得する第1の取得部と、
第2のデータを取得する第2の取得部と、
前記テキストデータから所定の現象の有無に関する第1の情報を抽出する構造化部と、
前記第2のデータから前記所定の現象の有無および現象の有無の確定・未確定の区別に関する第2の情報を抽出し、前記第2の情報に基づいて前記所定の現象の有無が確定している場合には、前記第2の情報と矛盾する前記第1の情報を誤と判定し、前記第2の情報に基づいて前記所定の現象の有無が確定していない場合には、前記第1の情報を正と判定することにより、前記第1のデータの正確性指標を計算する正確性評価部と、
前記正確性指標に基づいて、前記第1のデータの有用性の指標を計算する有用性指標計算部と、
を備えたデータ評価システム。
a first acquisition unit that acquires first data including text data;
a second acquisition unit that acquires second data;
a structuring unit that extracts first information regarding the presence or absence of a predetermined phenomenon from the text data;
an accuracy evaluation unit that calculates an accuracy index of the first data by extracting second information on the presence or absence of the predetermined phenomenon and on whether the presence or absence of the phenomenon is confirmed or not confirmed from the second data, and determining that the first information that contradicts the second information is incorrect when the presence or absence of the predetermined phenomenon is confirmed based on the second information, and determining that the first information is correct when the presence or absence of the predetermined phenomenon is not confirmed based on the second information;
a usefulness index calculation unit that calculates an index of usefulness of the first data based on the accuracy index;
A data evaluation system equipped with:
前記正確性評価部は、前記第2の情報に基づいて前記所定の現象の有無が確定する確定予定時刻を計算し、前記確定予定時刻を経過した場合に、前記第2の情報に基づいて前記所定の現象の有無が確定していない場合に正と判定していた前記第1のデータの正確性指標を更新する、
請求項1記載のデータ評価システム。
the accuracy evaluation unit calculates an expected determination time at which the presence or absence of the predetermined phenomenon will be determined based on the second information, and when the expected determination time has passed , updates the accuracy index of the first data that has been determined to be positive when the presence or absence of the predetermined phenomenon has not been determined based on the second information .
2. The data evaluation system according to claim 1.
さらに詳細度評価部を備え、
前記構造化部は、前記第1の情報として、前記所定の現象を記述する場所と時間と事象の固有表現を抽出し、
前記詳細度評価部は、前記固有表現の数に基づいて詳細度指標を計算し、
前記有用性指標計算部は、前記正確性指標および前記詳細度指標に基づいて、前記第1のデータの有用性の指標を計算する、
請求項1記載のデータ評価システム。
Further, a detail level evaluation unit is provided,
The structuring unit extracts, as the first information, a unique expression of a place, a time, and an event that describes the predetermined phenomenon;
The detailedness evaluation unit calculates a detailedness index based on the number of named entities;
The usefulness index calculation unit calculates an index of usefulness of the first data based on the accuracy index and the detail index.
2. The data evaluation system according to claim 1.
さらに情報源評価部を備え、
前記情報源評価部は、前記第1のデータの情報源に関わる評価情報に基づいて情報源指標を計算し、
前記有用性指標計算部は、前記正確性評価部および前記情報源指標に基づいて、前記第1のデータの有用性の指標を計算する、
請求項1記載のデータ評価システム。
It further comprises an information source evaluation unit,
The information source evaluation unit calculates an information source index based on evaluation information related to an information source of the first data,
The usefulness index calculation unit calculates an index of usefulness of the first data based on the accuracy evaluation unit and the information source index.
2. The data evaluation system according to claim 1.
前記第1のデータは、不特定のユーザによって投稿された投稿であり、
前記第2のデータは、場所と時間と事象の情報を含む管理データである、
請求項1記載のデータ評価システム。
the first data is a post posted by an unspecified user,
The second data is management data including location, time and event information.
2. The data evaluation system according to claim 1.
前記管理データは、交通機関の運行計画ダイヤおよび在線情報であり、
前記正確性評価部は、前記交通機関の運行の遅延という現象の有無について前記投稿の内容と前記管理データを比較する、
請求項5記載のデータ評価システム。
The management data is a transportation operation plan and a train location information,
The accuracy evaluation unit compares the content of the post with the management data regarding the presence or absence of a phenomenon of a delay in the operation of the transportation facility.
6. The data evaluation system according to claim 5.
前記管理データは、設備の管理情報であり、
前記正確性評価部は、前記設備の異常という現象の有無について前記投稿の内容と前記管理データを比較する、
請求項5記載のデータ評価システム。
The management data is management information of a facility,
The accuracy evaluation unit compares the content of the post with the management data regarding the presence or absence of a phenomenon of an abnormality in the equipment.
6. The data evaluation system according to claim 5.
第1の取得部、第2の取得部を備え、前記第1の取得部および前記第2の取得部から得られる情報を処理する情報処理システムを用いた方法であって、
前記第1の取得部で、第1の情報源から投稿されたテキスト情報からなる第1の情報を取得し、
前記第2の取得部で、第2の情報源から項目と前記項目に対するデータからなる第2の情報を取得し、
前記第2の情報は、所定時刻における判断対象の現象の有無および現象の有無の確定・未確定の区別を記述する情報を含み、
前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の有無および現象の有無の確定・未確定の区別に基づいて、前記第1の情報の正否を判定し、
判定した前記第1の情報の正否を用いて、前記第1の情報の有用性指標を計算し、
前記第1の情報の正否を判定する際に、
前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の確定した有無が一致したときは、前記第1の情報を正とし、
前記第1の情報に基づいて解釈される判断対象の現象の有無と、前記第2の情報に基づいて解釈される判断対象の現象の確定した有無が一致しないときは、前記第1の情報を誤とし、
前記第2の情報に基づいて解釈される判断対象の現象の有無が未確定のときは、前記第1の情報を正とする、
投稿評価方法。
A method using an information processing system including a first acquisition unit and a second acquisition unit, the information processing system processing information obtained from the first acquisition unit and the second acquisition unit,
The first acquisition unit acquires first information consisting of text information posted from a first information source;
The second acquisition unit acquires second information consisting of items and data for the items from a second information source;
the second information includes information describing the presence or absence of the phenomenon to be judged at a predetermined time and whether the presence or absence of the phenomenon is confirmed or not confirmed;
determining whether the first information is correct or not based on the presence or absence of the phenomenon to be judged interpreted based on the first information, the presence or absence of the phenomenon to be judged interpreted based on the second information, and whether the presence or absence of the phenomenon is confirmed or not ;
Calculating a usefulness index of the first information using the determined correctness of the first information;
When determining whether the first information is correct,
When the presence or absence of the phenomenon to be judged interpreted based on the first information coincides with the confirmed presence or absence of the phenomenon to be judged interpreted based on the second information, the first information is regarded as positive;
When the presence or absence of the phenomenon to be judged interpreted based on the first information does not match the confirmed presence or absence of the phenomenon to be judged interpreted based on the second information, the first information is judged to be erroneous;
When the presence or absence of the phenomenon to be judged based on the second information is undetermined, the first information is regarded as positive.
How to rate posts.
前記第1の取得部は、携帯端末から入力された投稿時刻付きテキスト情報からなる投稿である第1の情報を取得し、
前記テキスト情報に対して、固有表現の抽出と正規化の処理を行って、前記判断対象の現象の有無に係る情報を抽出し、
前記第2の取得部は、データベースに格納された項目と前記項目に対するデータを第2の情報として取得し
記第2の情報に基づいて解釈される判断対象の現象の有無が未確定のときとは、前記投稿時刻を基準とした所定時間内に前記所定時刻が含まれ、当該所定時刻においては前記判断対象の現象がまだ無いとされている場合である、
請求項8記載の投稿評価方法。
The first acquisition unit acquires first information, which is a post including text information with a posting time input from a mobile terminal;
extracting named entities and normalizing the text information to extract information related to the presence or absence of the phenomenon to be determined;
The second acquisition unit acquires items stored in a database and data for the items as second information ,
The case where the presence or absence of the phenomenon to be judged based on the second information is undetermined means a case where the predetermined time is included within a predetermined time based on the posting time, and the phenomenon to be judged is not yet present at the predetermined time.
The post evaluation method according to claim 8.
前記データベースに格納されたデータの更新予定時刻を計算し、
前記更新予定時刻以後に、前記第1の情報の正否の判定を再度行う、
請求項9記載の投稿評価方法。
Calculating a scheduled update time for data stored in said database;
After the scheduled update time, the validity of the first information is determined again.
The post evaluation method according to claim 9.
JP2021019407A 2021-02-10 2021-02-10 Data evaluation system and submission evaluation method Active JP7523379B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021019407A JP7523379B2 (en) 2021-02-10 2021-02-10 Data evaluation system and submission evaluation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021019407A JP7523379B2 (en) 2021-02-10 2021-02-10 Data evaluation system and submission evaluation method

Publications (2)

Publication Number Publication Date
JP2022122297A JP2022122297A (en) 2022-08-23
JP7523379B2 true JP7523379B2 (en) 2024-07-26

Family

ID=82939673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021019407A Active JP7523379B2 (en) 2021-02-10 2021-02-10 Data evaluation system and submission evaluation method

Country Status (1)

Country Link
JP (1) JP7523379B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117035692B (en) * 2023-09-28 2023-12-08 江苏龙虎网信息科技股份有限公司 Intelligent assessment management system and method based on multidimensional data

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190431A (en) 2003-12-26 2005-07-14 Sony Corp Contribution receiving server, contribution supporting method, and program therefor
JP2013161326A (en) 2012-02-07 2013-08-19 Navitime Japan Co Ltd Information processing system, information processing device, server, terminal device, information processing method and computer program
JP2013168021A (en) 2012-02-15 2013-08-29 Nifty Corp Event detection device
JP2013197717A (en) 2012-03-16 2013-09-30 Nec Access Technica Ltd Communication device, communication method and program
JP2014089663A (en) 2012-10-31 2014-05-15 Yupiteru Corp Driving assistance system, contribution terminal, notification terminal, server program, contribution program, and notification program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190431A (en) 2003-12-26 2005-07-14 Sony Corp Contribution receiving server, contribution supporting method, and program therefor
JP2013161326A (en) 2012-02-07 2013-08-19 Navitime Japan Co Ltd Information processing system, information processing device, server, terminal device, information processing method and computer program
JP2013168021A (en) 2012-02-15 2013-08-29 Nifty Corp Event detection device
JP2013197717A (en) 2012-03-16 2013-09-30 Nec Access Technica Ltd Communication device, communication method and program
JP2014089663A (en) 2012-10-31 2014-05-15 Yupiteru Corp Driving assistance system, contribution terminal, notification terminal, server program, contribution program, and notification program

Also Published As

Publication number Publication date
JP2022122297A (en) 2022-08-23

Similar Documents

Publication Publication Date Title
Ghofrani et al. Recent applications of big data analytics in railway transportation systems: A survey
US20210216928A1 (en) Systems and methods for dynamic risk analysis
Mirabadi et al. Application of association rules in Iranian Railways (RAI) accident data analysis
AU2011353879B2 (en) Travel process prediction system, travel process prediction apparatus and computer program
Mo et al. Capacity-constrained network performance model for urban rail systems
Yan et al. Cash transportation vehicle routing and scheduling under stochastic travel times
JP2014213697A (en) System for collection and delivery correspondence of information on congestion situation
Gal-Tzur et al. An improved methodology for extracting information required for transport-related decisions from Q&A forums: A case study of TripAdvisor
CN111539864A (en) LBS big data-based treading event information analysis method and device
Ma et al. Public transportation big data mining and analysis
Gong et al. An application-oriented model of passenger waiting time based on bus departure time intervals
JP7523379B2 (en) Data evaluation system and submission evaluation method
JP2012073976A (en) Information service device, information service method, and information service system
Sharma et al. A Study on Decision‐Making of the Indian Railways Reservation System during COVID‐19
Yona et al. Data science and GIS-based system analysis of transit passenger complaints to improve operations and planning
Sharma et al. Machine learning methods for commercial vehicle wait time prediction at a border crossing
Cong et al. Impact estimation of unplanned urban rail disruptions on public transport passengers: A multi-agent based simulation approach
Diab et al. Subway service down again? Assessing the effects of subway service interruptions on local surface transit performance
US8874458B1 (en) System and method for managing transportation transactions
EP3327660A1 (en) Transportation service information providing apparatus, and transportation service information providing method
Khoso et al. Comparison of highway crash reporting in Pakistan with the World Health Organization injury surveillance guidelines
JP5658593B2 (en) Vehicle congestion rate prediction apparatus and method
JP2008046746A (en) Process managing system
CN102402610A (en) Method and system for automatically classifying and informing logs
JP2015049813A (en) Information provision system, program, and information provision method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240716

R150 Certificate of patent or registration of utility model

Ref document number: 7523379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150