JP6763732B2 - Extractor - Google Patents
Extractor Download PDFInfo
- Publication number
- JP6763732B2 JP6763732B2 JP2016189749A JP2016189749A JP6763732B2 JP 6763732 B2 JP6763732 B2 JP 6763732B2 JP 2016189749 A JP2016189749 A JP 2016189749A JP 2016189749 A JP2016189749 A JP 2016189749A JP 6763732 B2 JP6763732 B2 JP 6763732B2
- Authority
- JP
- Japan
- Prior art keywords
- congestion
- document
- event
- information
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 claims description 77
- 239000000284 extract Substances 0.000 claims description 42
- 238000000034 method Methods 0.000 description 42
- 238000004891 communication Methods 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 235000017399 Caesalpinia tinctoria Nutrition 0.000 description 3
- 241000388430 Tara Species 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 240000005109 Cryptomeria japonica Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Description
本発明は、文書から語を抽出する抽出装置に関する。 The present invention relates to an extraction device that extracts words from a document.
従来から、ある場所(例えば、イベント会場)の混雑を予測(推定)する技術が提案されている。例えば、特許文献1では、移動体の位置情報を用いて混雑予測をする技術が提案されている。 Conventionally, a technique for predicting (estimating) congestion in a certain place (for example, an event venue) has been proposed. For example, Patent Document 1 proposes a technique for predicting congestion using the position information of a moving body.
しかしながら、上記のような移動体の位置情報を用いた場合、当該移動体が位置していた場所の混雑を推定することができるが、他の場所の混雑の推定を行うことは困難である。そこで、場所を示す情報(例えば、場所の名称、イベント名)を含む文書の内容に基づいて混雑を推定することが考えられる。 However, when the position information of the moving body as described above is used, it is possible to estimate the congestion at the place where the moving body was located, but it is difficult to estimate the congestion at another place. Therefore, it is conceivable to estimate the congestion based on the contents of the document including the information indicating the location (for example, the name of the location and the name of the event).
例えば、推定対象のイベントのイベント名又は告知文を含む文書を形態素解析することにより語に分割し、語の集合(Bag of Words)を当該イベントの特徴量として、当該特徴量と、過去に混雑したイベントの特徴量との類似度を計算することで、推定対象の場所が混雑しそうか否かを判断する方法が考えられる。しかしながら、混雑の推定に関係のない語(ノイズ)が多く含まれるため、推定対象のイベントが混雑するか否かを正確に推定できない場合がある。イベント名を含む文書の集合に対し、逆文書頻度(IDF(Inverse Document Frequency))を単に適用したとしても、混雑の推定には関係無いイベントに特化した語まで抽出してしまうので、適切な語を抽出できない。 For example, a document containing the event name or announcement of the event to be estimated is divided into words by morphological analysis, and a set of words (Bag of Words) is used as the feature of the event, and the feature and congestion in the past. A method of determining whether or not the estimated target location is likely to be congested can be considered by calculating the degree of similarity with the feature quantity of the event. However, since many words (noise) that are not related to the estimation of congestion are included, it may not be possible to accurately estimate whether or not the event to be estimated is congested. Even if the inverse document frequency (IDF) is simply applied to a set of documents including the event name, words specific to the event that are not related to the estimation of congestion will be extracted, so it is appropriate. I can't extract words.
本発明は、上記の問題点に鑑みてなされたものであり、混雑状況推定対象の場所に対応する文書の内容に基づいて、混雑状況推定対象の場所の混雑状況を推定するための語を適切に抽出する抽出装置を提供することを目的とする。 The present invention has been made in view of the above problems, and appropriate terms for estimating the congestion status of the location of the congestion status estimation target based on the contents of the document corresponding to the location of the congestion status estimation target. It is an object of the present invention to provide an extraction apparatus for extracting into.
上述の課題を解決するために、本発明の抽出装置は、混雑状況推定対象の場所に対応する文書の内容に基づいて混雑状況推定対象の場所の混雑状況を推定する際に用いる語である混雑関連特徴語を抽出する抽出装置であって、抽出元となる文書と、当該文書の内容に対応する場所の混雑状況を示す混雑情報とを取得する情報取得部と、情報取得部により取得された混雑情報が予め設定された条件を満たす混雑状況の場所に対応する文書における語の出現度合いに基づいて、抽出元となる文書から混雑関連特徴語を抽出する抽出部と、を備える。 In order to solve the above-mentioned problems, the extraction device of the present invention is a term used when estimating the congestion status of the location of the congestion status estimation target based on the contents of the document corresponding to the congestion status estimation target location. It is an extraction device that extracts related feature words, and is acquired by an information acquisition unit that acquires a document that is an extraction source and congestion information that indicates the congestion status of a place corresponding to the content of the document, and an information acquisition unit. It is provided with an extraction unit that extracts congestion-related characteristic words from a document that is an extraction source, based on the degree of appearance of words in a document corresponding to a location of a congestion situation in which the congestion information satisfies a preset condition.
この発明によれば、所定条件を満たす混雑状況の場所に対応する文書に特有の混雑関連特徴語を適切に抽出することができる。この結果、混雑状況推定対象を示す情報を含む文書(例えば、将来実施予定のイベントの場所に関する文書)に、抽出した語を含むか否かを判断した結果に基づいて、当該文書に対応する場所の混雑状況を推定することができる。このように、混雑状況推定対象を示す情報を含む文書の内容に基づいて、混雑状況推定対象の場所の混雑状況を推定するための混雑関連特徴語を適切に抽出することができる。 According to the present invention, it is possible to appropriately extract congestion-related characteristic words peculiar to a document corresponding to a place in a congestion situation that satisfies a predetermined condition. As a result, the location corresponding to the document based on the result of determining whether or not the extracted word is included in the document containing the information indicating the congestion status estimation target (for example, the document regarding the location of the event scheduled to be held in the future). It is possible to estimate the congestion situation of. In this way, it is possible to appropriately extract congestion-related characteristic words for estimating the congestion status of the location of the congestion status estimation target based on the content of the document including the information indicating the congestion status estimation target.
本発明によれば、混雑状況推定対象の場所に対応する文書の内容に基づいて、混雑状況推定対象の場所の混雑状況を推定するための語を適切に抽出することができる。 According to the present invention, it is possible to appropriately extract words for estimating the congestion status of the location of the congestion status estimation target based on the content of the document corresponding to the congestion status estimation target location.
以下、図面と共に本発明に係る抽出装置の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 Hereinafter, embodiments of the extraction device according to the present invention will be described in detail together with the drawings. In the description of the drawings, the same elements are designated by the same reference numerals, and duplicate description will be omitted.
図1に本実施形態に係る推定装置10を示す。推定装置10(抽出装置)は、混雑状況推定対象の場所に対応する文書の内容に基づいて、混雑状況推定対象の場所の混雑状況を推定する装置である。また、推定装置10は、混雑状況推定対象の場所の混雑状況を推定する際に、混雑関連特徴語を用いる。推定装置10は、上記推定の前に、混雑状況推定対象の場所に対応する文書以外の文書から当該混雑関連特徴語を抽出する。混雑状況推定対象の場所とは、例えば、イベントの開催場所である。「イベント」とは、例えばイベント名称、開催場所、及び開催期間によって一意に特定される任意の催しである。イベントの具体例として、例えばスポーツイベント、バンドのライブイベント等の規模の大きいイベント(参加人数が多いと想定されるイベント)もあれば、例えばCDのリリースイベント、ミニライブ等の規模の小さいイベント(参加人数が少ないと想定されるイベント)もある。
FIG. 1 shows the
上記文書は、例えば、インターネット上で様々なユーザによってマイクロブログに投稿されたテキストデータである。この場合、1つの投稿のテキストデータを、1つの文書とする。この文書には、イベントに関する情報が含まれ得る。推定装置10は、文書からイベント情報を抽出する。ここでイベント情報とは、イベントを示す情報であり、イベント名称、開催場所、及び開催期間を示す情報を含む。
The above document is, for example, text data posted on a microblog by various users on the Internet. In this case, the text data of one post is regarded as one document. This document may contain information about the event. The
推定装置10は、上記の文書を取得(受信)できるように、文書を出力するテキスト出力装置(例えば、マイクロブログのサービスを提供するサーバ)とインターネット等のネットワークを介して接続されており、情報の送受信を行うことができるようになっている。
The
推定装置10は、上記文書からイベント情報を抽出し、イベント情報のイベントの混雑状況を判断して、当該判断結果に基づいて文書から混雑関連特徴語を抽出する。また、推定装置10は、イベント(例えば、将来開催されるイベント)に関する文書(混雑状況推定対象の場所に対応する文書)を参照して、抽出した混雑関連特徴語を用いて、当該イベントの混雑状況を推定する。
The
推定装置10は、情報取得部11と、抽出文書データベース12と、POIデータベース13と、動態人数データベース14と、イベントデータベース15と、抽出部16と、推定対象文書データベース17と、推定部18と、を備える。
The
情報取得部11は、抽出元となる文書と、当該文書の内容に対応する場所の混雑状況を示す混雑情報とを取得する。また、情報取得部11は、取得した文書の内容に基づいて当該文書の内容に対応する場所を特定し、当該場所の混雑度合いを示す指標値を取得し、当該指標値に基づいて混雑情報を生成することにより、混雑情報を取得する。
The
情報取得部11は、所定のタイミング(例えば、月に1度)でテキスト出力装置に対して、抽出元となる文書の送信要求をすることで、テキスト出力装置から文書を取得する。
The
なお、情報取得部11は、各ユーザの文書全てをテキスト出力装置から取得することとしてもよいし、例えば、過去一か月分等の一定期間にユーザによって投稿された文書のみを取得することとしてもよい。情報取得部11は、取得した文書を抽出文書データベース12へ記憶する。抽出文書データベース12は、文書を記憶する手段である。
The
情報取得部11は、所定のタイミング(例えば、月に1度)で、抽出文書データベース12から文書を取得して、当該文書からイベント情報を抽出する。情報取得部11は、例えば、参考文献1(マイクロブログを用いたイベント情報抽出技術、山田渉,菊池悠,落合桂一,鳥居大祐,稲村浩,太田賢、情報処理学会論文誌 Vol.57 No.1 123-132(Jan.2016))に示されるようなSVM(Support Vector Machine)及びCRF(Conditional Random Fields)等を用いた手法によりイベント情報を抽出する。この手法によれば、上述のような文書からイベント名称、開催期間、及び開催場所を示す文字列をそれぞれ抽出することができる。このように、情報取得部11は、取得した文書の内容に基づいて当該文書の内容に対応する開催場所を特定する。
The
例えば、「5/2(土) AチームvsBチーム レフト外野指定席ペアチケット 2015プロ野球Aチーム主催試合AチームvsBチームレフト外野指定席2連番のチケットです。日付2015年5月2日(土)14時試合開始C野球場座席レフト外野8http://t.co/xxyyzz」という文書がある場合、イベント名称として「AチームvsBチーム」、開催期間として「2015年5月2日」、開催場所を示す施設名称(POI(Point of interest)名称)として「C野球場」を抽出し、抽出したイベント情報と、抽出元の文書とを対応付ける。
For example, "5/2 (Sat) A team vs B team left outfield reserved
情報取得部11は、抽出文書データベース12に記憶されている文書を参照して、当該文書から上記手法によりイベント情報を抽出した場合、イベント情報と、当該文書とを対応付ける。続いて、情報取得部11は、抽出したイベント情報のPOI名称が示すPOIの混雑状況を判断し、判断した結果に基づいて混雑情報を生成する。抽出したイベント情報のPOI名称が示すPOIの混雑状況を判断する方法として、POIの人気度に基づいて判断する方法(方式1)と、イベント開催による動態人数の増分の大小の比により混雑状況を判断する方法(方式2)とがある。
When the
方式1による混雑状況を判断する方法から説明する。まず、情報取得部11は、POIデータベース13を参照し、抽出したイベント情報のPOI名称に対応するPOIの人気度(指標値)を取得する。POIの人気度とは、当該POIに人が集まる度合いを示す。ここで、POIデータベース13のデータ例を図2に示す。人気度が高い場合、人が多く集まる傾向にあるので、混雑する可能性が高いことを示す。上記POIの人気度は、例えば、ユーザにより入力されたPOIの評価値、POIを示すキーワードで検索された回数を集計した値等であり、公知のPOIの人気度算出方法により算出された値である。
The method for determining the congestion status according to the method 1 will be described first. First, the
POIデータベース13は、POI毎に、POIの人気度を示す情報を対応付けたデータベースである。図2に示すデータベースは、「POI名称」と、「緯度経度」と、「メッシュコード」と、「人気度」と、を対応付けて記憶している。
The
「POI名称」は、POIを示す名称である。このPOI名称は、POIデータベース13のレコード間で一意な情報(ID)である。「緯度経度」は、POIの位置を示す情報であり、緯度経度の値である。「メッシュコード」は、POIの緯度経度に対応するメッシュの識別子を示す。メッシュとは、緯度経度に基づいて地域をメッシュ状(矩形状)に区切った範囲をいう。「人気度」は、当該POIの人気度である。
The "POI name" is a name indicating POI. This POI name is information (ID) unique among the records of the
情報取得部11は、POIデータベース13を参照して、抽出した全てのイベント情報それぞれのPOI名称を含むレコードの人気度を取得する。すなわち、情報取得部11は、抽出した全てのイベント情報それぞれのPOI名称を検索キーとして、POIデータベース13を参照して、当該POI名称に対応する人気度を取得する。情報取得部11は、全てのイベント情報のPOI名称に対応する人気度を取得すると、当該全てのイベント情報のPOI名称が示すPOI間の人気度を比較する。情報取得部11は、当該比較をした結果、POI名称に対応する人気度が予め定められている上位一定の割合(例えば、上位10%)に含まれる人気度であるPOI名称が示すPOIのイベントの混雑状況が、混雑であると判断する。情報取得部11は、上記比較をした結果、POI名称に対応する人気度が予め定められている下位一定の割合(例えば、下位10%)に含まれる人気度であるPOI名称が示すPOIのイベントの混雑状況が、非混雑であると判断する。ここで、非混雑とは、空いている(参加する人数が少ない)ことをいう。このように、方式1では、POI名称に対応する人気度によりPOI名称が示すPOIのイベントの混雑状況を判断する。
The
続いて、方式2による混雑状況を判断する方法を説明する。まず、情報取得部11は、抽出したイベント情報の開催期間を参照し、現状の時刻より前であるか否かを判断する。すなわち、情報取得部11は、イベント情報のイベントが過去のものであるか否か(イベントが終了しているか否か)を判断する。情報取得部11は、イベント情報のイベントが過去のイベントではない場合、抽出したイベント情報を破棄する。続いて、情報取得部11は、POIデータベース13を参照し、抽出したイベント情報のうち、破棄したイベント情報を除く全てのイベント情報それぞれのPOI名称を検索キーとして、POIデータベース13を参照して当該POI名称に対応するメッシュコードを取得する。続いて、情報取得部11は、動態人数データベース14を参照し、当該メッシュコードに対応する各時刻の推計人数を取得する。ここで、動態人数データベース14のデータ例を図3に示す。
Subsequently, a method of determining the congestion status by the method 2 will be described. First, the
動態人数データベース14は、メッシュコード毎に、各時刻の推計人数を記憶するデータベースである。図3に示すデータベースは、「メッシュコード」と、「時刻」と、「推計人数」と、を対応付けて記憶している。
The
「メッシュコード」は、推計したメッシュを示すメッシュコードである。「時刻」は、推計人数を計測した時刻である。なお、この「時刻」には、推計人数を計測した期間を示す情報(例えば、計測開始時刻と計測終了時刻)が入力されてもよい。「推計人数」は、上記「時刻」にメッシュコードが示すメッシュ内に位置していた推計人数である。この推計人数は、例えば、端末装置の位置情報に基づいて各メッシュに位置する端末装置の数を特定し、当該端末装置の数に基づいて算出された値である。 The "mesh code" is a mesh code indicating an estimated mesh. The "time" is the time when the estimated number of people is measured. In addition, information (for example, measurement start time and measurement end time) indicating the period in which the estimated number of people was measured may be input to this "time". The "estimated number of people" is the estimated number of people located in the mesh indicated by the mesh code at the above "time". This estimated number of people is, for example, a value calculated based on the number of terminal devices located in each mesh by specifying the number of terminal devices based on the position information of the terminal devices.
情報取得部11は、動態人数データベース14を参照し、当該メッシュコードに対応する各時刻の推計人数を取得する。具体的に、情報取得部11は、メッシュコードを検索キーとして、イベント情報それぞれの開催期間及び当該開催期間の前の一定期間(例えば、2週間)の推計人数を取得する。なお、イベント情報のPOI名称のメッシュコードにおける各時刻の推計人数が取得できなかった場合、イベント情報のイベントが混雑しているか否かを判断できないため、当該イベント情報を破棄する。
The
情報取得部11は、メッシュコードに対応する各時刻の推計人数を取得した後、開催期間に対応する時刻の推計人数の平均人数(イベント開催中平均人数)を算出する。続いて、情報取得部11は、開催期間の前の過去一定期間の平均人数を算出し、この人数を平常時人数とする。情報取得部11は、イベント開催中平均人数から平常時人数を減算した減算値、又はイベント開催中平均人数を平常時人数で除算した除算値を算出する。当該減算値又は除算値(指標値)が、予め定めている混雑閾値以上の場合、情報取得部11は、対象のイベント情報のイベントが混雑していると判断する。また、情報取得部11は、上記減算値又は除算値が、予め定めている非混雑閾値未満である場合、対象のイベント情報のイベントが非混雑であると判断する。なお、混雑閾値は、非混雑閾値以上である。上記減算値又は除算値が、混雑閾値未満であり、且つ非混雑閾値以上である場合、情報取得部11は、対象のイベント情報のイベントが混雑しておらず、且つ非混雑でもないと判断する。このように、方式2では、イベントの開催期間中の推計人数と、通常時の推計人数とを比較した結果に基づいて、イベント情報のイベントの混雑状況を判断する。
After acquiring the estimated number of people at each time corresponding to the mesh code, the
情報取得部11は、方式1又は方式2により各イベント情報のイベントの混雑状況を判断すると、当該判断に基づいて、混雑情報として、混雑であるか否かを示すフラグ情報(混雑フラグ)と、非混雑であるか否かを示すフラグ情報(非混雑フラグ)とを生成する。情報取得部11は、混雑状況を判断した結果、混雑したと判断した場合、混雑フラグを「True」として、非混雑フラグを「False」とする。情報取得部11は、イベント情報のイベントが非混雑であると判断した場合、混雑フラグを「False」として、非混雑フラグを「True」とする。また、情報取得部11は、混雑状況を判断した結果、イベント情報のイベントが、混雑ではなく、非混雑でもないと判断した場合、混雑フラグ及び非混雑フラグを「False」とする。すなわち、混雑フラグ及び非混雑フラグが「False」となるイベントもあり得る。このように、情報取得部11は、イベント情報のPOI名称の混雑状況を示す混雑フラグ及び非混雑フラグを生成することにより、混雑情報を取得する。なお、情報取得部11は、混雑フラグ及び非混雑フラグの何れか一方を生成するようにしてもよい。情報取得部11は、各イベント情報のイベントの混雑フラグ及び非混雑フラグを生成した後、イベント情報と、文書と、混雑フラグと、非混雑フラグとを対応付けた情報をイベントデータとして、当該イベントデータをイベントデータベース15に記憶する。ここで、イベントデータベース15のデータ例を図4に示す。
When the
イベントデータベース15は、「イベント名称」と、「POI名称」と、「開催期間」と、「投稿文」と、「混雑フラグ」と、「非混雑フラグ」とを対応付けて記憶している。
The
「イベント名称」は、イベント情報のイベント名称である。「POI名称」は、イベント情報のPOI名称である。「開催期間」は、イベント情報の開催期間である。「投稿文」は、イベント情報に対応する文書である。「混雑フラグ」は、情報取得部11が生成した混雑フラグである。「非混雑フラグ」は、情報取得部11が生成した非混雑フラグである。
The "event name" is the event name of the event information. The "POI name" is the POI name of the event information. The "holding period" is the holding period of event information. The "posted text" is a document corresponding to the event information. The “congestion flag” is a congestion flag generated by the
情報取得部11は、文書からイベント情報を抽出し、抽出した全てのイベント情報のイベントデータをイベントデータベース15に記憶した後、イベントデータを記憶した旨を抽出部16へ通知する。抽出部16は、これに応じて混雑関連特徴語を抽出する。
The
抽出部16は、混雑フラグ又は非混雑フラグが予め設定された条件を満たす混雑状況の場所に対応する文書における語の出現度合いに基づいて、抽出元となる文書から混雑関連特徴語を抽出する部分である。また、抽出部16は、混雑フラグ又は非混雑フラグが予め設定された第1の条件を満たす混雑状況の場所に対応する文書における語の出現度合いと、当該第1の条件とは異なる第2の条件を満たす混雑状況の場所に対応する文書における語の出現度合いとに基づいて混雑関連特徴語を抽出する。
The
抽出部16は、イベントデータがイベントデータベース15に記憶された旨の通知を情報取得部11から受信すると、混雑関連特徴語の抽出処理を開始する。具体的に、抽出部16は、混雑時の混雑関連特徴語を抽出する場合、混雑フラグが「True」である(第1の条件)イベントの文書を公知技術により形態素解析して、混雑関連特徴語の候補として、形態素を抽出する。抽出部16は、抽出した形態素毎に、当該形態素が混雑関連特徴語となるか否かを判断するためのスコアを算出する。抽出部16は、混雑フラグが「True」であるイベントデータの文書の集合(混雑時イベント集合)における、抽出した形態素の出現頻度を算出する。また、抽出部16は、全てのイベントデータの文書の集合(混雑フラグが「True」又は混雑フラグが「False」である(第2の条件)イベントデータの文書の集合)における、抽出した形態素の出現頻度を算出する。抽出部16は、上記混雑時イベント集合の文書数を算出し、算出した文書数と、混雑時イベント集合における、抽出した形態素の出現頻度と、全てのイベントデータの文書の集合における抽出した形態素の出現頻度とに基づいた、スコアを算出する。例えば、以下の式(1)により、混雑時における混雑関連特徴語の候補となる形態素のスコアを算出する(ダイス係数を用いた場合)。Scorewordは、混雑時の混雑関連特徴語の候補となる形態素のスコアである。df(word in setcongestion)は、混雑時イベント集合における形態素の出現頻度である。num(setcongestion)は、上記の混雑時イベント集合の文書数である。df(word in setevent)は、全てのイベントデータの文書の集合における形態素の出現頻度である。
Scoreword=2×df(word in setcongestion)/{num(setcongestion)+df(word in setevent)} ・・・(1)
When the
Score word = 2 × df (word in set setting ) / {num (set setting ) + df (word in set event )} ・ ・ ・ (1)
上記の式は、混雑フラグが「True」である文書の集合だけでなく、全てのイベントデータの文書の集合における形態素の出現頻度(混雑フラグが「True」でないイベントデータの文書も含む集合における形態素の出現頻度)にも基づいている。すなわち、イベントデータの混雑フラグが「True」である文書における形態素の出現度合いと、全てのイベントデータの文書における形態素の出現度合いとに基づいてスコアを算出し、当該スコアに基づいて混雑関連特徴語を抽出する。全てのイベントデータの文書の集合における形態素の出現頻度が高いと、混雑時イベント集合における形態素の出現頻度が高くてもスコアが高くならない。よって、形態素が、混雑時イベント集合に特有の語であれば、スコアが高くなる。なお、上記全てのイベントデータの文書の集合の代わりに、混雑フラグが「True」であるイベントデータの文書の集合と、非混雑フラグが「True」であるイベントデータの文書の集合とを合わせた集合としてもよい。 The above formula is not only the set of documents whose congestion flag is "True", but also the appearance frequency of morphological elements in the set of documents of all event data (the morphological elements in the set including the documents of event data whose congestion flag is not "True"). It is also based on the frequency of appearance of. That is, a score is calculated based on the appearance degree of the morpheme in the document in which the congestion flag of the event data is "True" and the appearance degree of the morpheme in the document of all event data, and the congestion-related characteristic word is calculated based on the score. Is extracted. If the frequency of appearance of morphemes in the set of documents of all event data is high, the score will not be high even if the frequency of appearance of morphemes in the set of events during congestion is high. Therefore, if the morpheme is a word peculiar to the event set at the time of congestion, the score will be high. Instead of the set of all the above event data documents, the set of event data documents whose congestion flag is "True" and the set of event data documents whose non-congestion flag is "True" are combined. It may be a set.
なお、非混雑時の混雑関連特徴語を抽出する場合、抽出部16は、非混雑フラグが「True」であるイベントの文書を形態素解析して、非混雑時における混雑関連特徴語の候補として形態素を抽出し、形態素毎に以下の式(2)に示すスコアを算出する。Scorewordは、非混雑時の混雑関連特徴語の候補となる形態素のスコアである。df(word in setvacant)は、非混雑時イベント集合(非混雑フラグが「True」であるイベントデータの文書の集合)における形態素の出現頻度である。num(setvacant)は、非混雑時イベント集合の文書数である。df(word in setevent)は、全てのイベントデータの文書の集合における形態素の出現頻度である。
Scoreword=2×df(word in setvacant)/{num(setvacant)+df(word in setevent)} ・・・(2)
When extracting the congestion-related feature words during non-congestion, the
Score word = 2 × df (word in set vacant ) / {num (set vacant ) + df (word in set event )} ・ ・ ・ (2)
抽出部16は、スコアを算出すると、算出したスコアが予め定められているスコア閾値(例えば、0.3)以上である場合、当該スコアの混雑関連特徴語の候補の形態素を混雑関連特徴語として記憶する。このように、抽出部16は、混雑関連特徴語を抽出する。
When the
抽出部16は、例えば、図4に示したイベントデータベース15のレコードR1の文書に含まれる「外野指定席」と「チケット」を混雑時の混雑関連特徴語(イベントの規模が大きいことを示唆する語)として抽出する。また、抽出部16は、イベントデータベース15のレコードR2の文書に含まれる「ミニライブ」、「サイン会」、「CD」を非混雑時の混雑関連特徴語(イベントの規模が小さいことを示唆する語)として抽出する。また、抽出部16は、イベントデータベース15のレコードR3の文書に含まれる「チケ」を混雑時の混雑関連特徴語として抽出する。また、抽出部16は、イベントデータベース15のレコードR4の文書に含まれる「生中継」を混雑時の混雑関連特徴語として抽出する。また、抽出部16は、イベントデータベース15のレコードR5の文書に含まれる「リリース」、「タワーレコード」を非混雑時の混雑関連特徴語として抽出する。抽出部16は、混雑関連特徴語の抽出を完了すると、推定部18へ混雑関連特徴語の抽出が完了した旨を通知する。
For example, the
推定部18は、混雑状況推定対象の場所に対応する文書を取得し、抽出部16により抽出された混雑関連特徴語が、当該文書に含まれているか否かに基づいて上記場所の混雑状況を推定する。
The
まず、推定部18は、過去のイベントで、混雑有無のフラグが付与されたデータ(イベントデータ)を用いて機械学習により判別器(モデル)を作成する。具体的に、推定部18は、抽出部16から混雑関連特徴語の抽出が完了した旨の通知を受け付けると、イベントデータベース15を参照し、各イベントデータを取得する。また、推定部18は、抽出部16から混雑時の混雑関連特徴語及び非混雑時の混雑関連特徴語を取得する。続いて、推定部18は、抽出部16によって抽出された混雑時の混雑関連特徴語に対応する要素のそれぞれが、当該混雑関連特徴語がイベントデータの文書に含まれるか否かを示す(例えば、混雑時の混雑関連特徴語のそれぞれの有無をフラグ付けした)混雑判断用の特徴ベクトルを生成する。この特徴ベクトルの次元数は、混雑関連特徴語の数である。また、推定部18は、抽出部16によって抽出された非混雑時の混雑関連特徴語に対応する要素のそれぞれが、当該混雑関連特徴語がイベントデータの文書に含まれるか否かを示す非混雑判断用の特徴ベクトルを生成する。続いて、推定部18は、上記混雑判断用の特徴ベクトルを説明変数とし、イベントデータの混雑フラグを目的変数とした混雑判断用の学習データを生成する。また、推定部18は、上記非混雑判断用の特徴ベクトルを説明変数とし、イベントデータの非混雑フラグを目的変数とした非混雑判断用の学習データを生成する。そして、推定部18は、混雑判断用の学習データを用いて機械学習を実行し、混雑時の混雑関連特徴語のそれぞれを文書に含むか否かを示す特徴ベクトルを入力として、混雑フラグを出力するモデルを生成する。また、推定部18は、非混雑判断用の学習データを用いて機械学習を実行し、非混雑時の混雑関連特徴語のそれぞれを文書を含むか否かを示す特徴ベクトルを入力として、非混雑フラグを出力するモデルを生成する。
First, the
このような機械学習の手法としては、例えば、サポートベクターマシン(SVM)、ニューラルネットワーク、及びナイーブベイズに代表されるブースティング等の教師あり機械学習を用いることができる。 As such a machine learning method, for example, supervised machine learning such as a support vector machine (SVM), a neural network, and boosting represented by Naive Bayes can be used.
推定部18は、当該モデルを用いて混雑推定対象の文書が示すイベントの混雑状態を示す情報を生成する。推定部18は、混雑関連特徴語が抽出された後(抽出部16から混雑関連特徴語が抽出された旨の情報を取得した後)に、推定対象文書として文書をテキスト出力装置から取得した場合、当該文書から上述と同様の方法によりイベント情報を抽出して、当該イベント情報と文書とを対応付けて推定対象文書データベース17へ記憶する。
The
推定部18は、当該文書が上記混雑時の混雑関連特徴語又は非混雑時の混雑関連特徴語のそれぞれを含むか否かを示す特徴ベクトルを生成し、当該特徴ベクトルを入力値として、上記モデルを用いて、混雑フラグ又は非混雑フラグを出力する。推定部18は、出力した混雑フラグ又は非混雑フラグを推定対象文書データベース17に記憶されている上記文書に対応付けて記憶する。推定部18は、他の装置からイベントの混雑状況の確認要求があった場合、推定対象文書データベース17を参照して、当該イベントに対応する混雑フラグ又は非混雑フラグの情報に基づいて混雑状況を出力する。
The
なお、推定部18は、上記のように、テキスト出力装置から取得した文書に示されるイベントの混雑状況を示す混雑フラグ又は非混雑フラグを記憶するだけでなく、当該混雑フラグ又は非混雑フラグに基づいて、イベントの混雑状況を示す文章の情報を生成し、生成した文章の情報をユーザへ提供するようにしてもよい。例えば、推定部18は、当該文章の情報をテキスト出力装置へ送信し、テキスト出力装置が、ユーザへ当該文章の情報を送信するようにしてもよい。
As described above, the
このように、推定部18は、テキスト出力装置から取得した文書に示されるイベントについて、混雑フラグ又は非混雑フラグを出力することにより、当該イベントの混雑状況を推定した結果を出力する。
In this way, the
続いて、図5に本実施形態に係る推定装置10のハードウェア構成を示す。推定装置10の機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
Subsequently, FIG. 5 shows the hardware configuration of the
例えば、本発明の一実施の形態における推定装置10などは、混雑関連特徴語を抽出するコンピュータとして機能してもよい。上述の推定装置10は、物理的には、プロセッサ101、メモリ102、ストレージ103、及び通信モジュール104などを含むコンピュータ装置として構成されてもよい。
For example, the
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。推定装置10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
In the following description, the word "device" can be read as a circuit, a device, a unit, or the like. The hardware configuration of the
推定装置10における各機能は、プロセッサ101、メモリ102などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ101が演算を行い、通信モジュール104による通信や、メモリ102及びストレージ103におけるデータの読み出し及び/又は書き込みを制御することで実現される。
Each function in the
プロセッサ101は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ101は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、上述の抽出部16及び推定部18などは、プロセッサ101で実現されてもよい。
The
また、プロセッサ101は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ103及び/又は通信モジュール104からメモリ102に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、推定装置10は、メモリ102に格納され、プロセッサ101で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ101で実行される旨を説明してきたが、2以上のプロセッサ101により同時又は逐次に実行されてもよい。プロセッサ101は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されてもよい。
Further, the
メモリ102は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ202は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ202は、本発明の一実施の形態に係る方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
The
ストレージ103は、コンピュータ読み取り可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ103は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ102及び/又はストレージ103を含むデータベース、サーバその他の適切な媒体であってもよい。
The
通信モジュール104は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカードなどともいう。
The
また、プロセッサ101やメモリ102などの各装置は、情報を通信するためのバス105で接続される。バス105は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
Further, each device such as the
また、推定装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ101は、これらのハードウェアの少なくとも1つで実装されてもよい。以上が、本実施形態に係る推定装置10の構成である。
Further, the
続いて、図6のフローチャートを用いて、本実施形態に係る推定装置10の動作方法である抽出方法を説明する。本処理では、まず、情報取得部11が、抽出元の文書である文書を取得すると、当該文書を抽出文書データベース12へ登録する(ステップS1)。情報取得部11は、所定のタイミングで、抽出文書データベース12に記憶されている文書からイベントの名称、POI名称、及び開催期間を抽出する。また、情報取得部11は、抽出したPOI名称に対応するPOIデータベース13のPOI名称の人気度に基づいて、イベント名称、POI名称、及び開催期間に混雑フラグを紐付けることによって、イベントデータを生成し、生成したイベントデータをイベントデータベース15へ登録する(ステップS2)。
Subsequently, the extraction method, which is the operation method of the
抽出部16は、イベントデータベース15に記憶されているイベントデータの内、混雑フラグが「True」であるイベントデータの文書に対して形態素解析をして、形態素毎にスコアを算出して、当該スコアが所定閾値以上である場合、当該形態素を混雑関連特徴語として抽出する。また、抽出部16は、イベントデータベース15に記憶されているイベントデータの内、非混雑フラグが「True」である文書に対して形態素解析をして、形態素毎にスコアを算出して、当該スコアが所定閾値以上である場合、当該形態素を混雑関連特徴語として抽出する。このように、抽出部16は、混雑関連特徴語を抽出する(ステップS3)。混雑関連特徴語を抽出した後に、推定部18が、推定対象文書となる文書を取得し、推定対象文書データベース17へ記憶する(ステップS4)。推定部18は、イベントデータベース15に記憶されている情報と、抽出部16により抽出された混雑関連特徴語とに基づいてモデルを生成する。推定部18は、推定対象文書データベース17に記憶されている文書からイベント情報を抽出し、当該モデルを用いて、文書から抽出されるイベントの混雑状況を推定する(ステップS5)。
The
上述の実施形態では、1語の形態素を混雑関連特徴語とする場合について述べたが、複数の語からなるフレーズを混雑関連特徴語とするようにしてもよい。例えば、図7に示すように、「××に来たら人が多すぎて大変。」という文を含む文書がある場合、抽出部16は、形態素解析して、「××」、「に」、「来」、「たら」、「人」、「が」、「多」、「すぎ」、「て」、「大変。」と形態素に分ける。続いて、抽出部16は、公知の方法により、助詞及び句読点を除去して、上記の形態素の内、対象とする形態素を「××」、「来」、「たら」、「人」、「多」、「すぎ」、「大変」とする。続いて、抽出部16は、公知の方法により、接尾辞(たら、すぎ)を語幹(来、多)と結合し、「××」、「来たら」、「人」、「多すぎ」、「大変」に分ける。続いて、抽出部16は、上記の形態素の内、混雑関連特徴語の候補として、2語の形態素の組を生成する(すなわち、上記各形態素を1文字と仮定して2−gramを抽出)。例えば、抽出部16は、(××、来たら)、(来たら、人)、(人、多すぎ)、(多すぎ、大変)という混雑関連特徴語の候補となる形態素の組を生成する。生成した形態素の組が混雑関連特徴語の抽出対象となるか否かを判断する方法は、上述のスコアを算出して、当該スコアに基づいて判断する方法と同じである。この結果、抽出部16は、(人、多すぎ)という組のスコアが閾値を上回る場合、当該(人、多すぎ)という組を混雑関連特徴語として抽出する。このように、抽出部16は、混雑関連特徴語として、複数の語の組み合わせを抽出してもよい。この場合、「人が多い」、「すごい人」、「黒山の人」、「身動きできない」、「長い行列」、「混雑がやばい」を示す複数の語の組み合わせを抽出することができる。すなわち、語ではなく、「特定の語と近傍に出現する語の組み合わせ」により混雑関連特徴語群を定義、または抽出してもよい。例えば、「人」と「すごい、多い、黒山」の組み合わせにより、「すごい人」「人が多い」「黒山の人」などを抽出する。なお、N−gram(上記の例では2−gram)を形成する形態素の組の一部を予め記憶しておき、記憶している語と、文書を形態素解析した結果得られる形態素との組を生成するようにしてもよい。また、N−gram(上記の例では2−gram)を形成する形態素の組の全部又は一部を予め記憶しておき、当該形態素の組についてのスコアを上述と同様の方法により算出し、算出したスコアに基づいて混雑関連特徴語を抽出するようにしてもよい。
In the above-described embodiment, the case where one word morpheme is used as a congestion-related feature word has been described, but a phrase composed of a plurality of words may be used as a congestion-related feature word. For example, as shown in FIG. 7, when there is a document containing the sentence "If you come to XX, there are too many people and it is difficult." , "Come", "Tara", "People", "Ga", "Many", "Sugi", "Te", "Difficult." Subsequently, the
上述の実施形態では、イベントの場所の混雑を判断する場合について述べたが、文書に含まれる場所(例えば、観光スポット)を示す情報(場所を示す名称、位置)を抽出して、抽出した場所の混雑の有無を判断するようにしてもよい。この場合に、方式2により混雑判断する場合、文書が投稿された時刻が、上述のイベント開催期間を示す時刻に対応する。 In the above-described embodiment, the case of determining the congestion of the event location has been described, but the information (name, location indicating the location) indicating the location (for example, a tourist spot) included in the document is extracted and the extracted location. You may decide whether or not there is congestion. In this case, when the congestion is determined by the method 2, the time when the document is posted corresponds to the time indicating the above-mentioned event holding period.
上述の実施形態では、場所を示す情報(イベントの開催場所の情報)を含む文書を取得する場合について述べたが、場所に関連することが予め定められている文書を取得するようにしてもよい。 In the above-described embodiment, the case of acquiring the document including the information indicating the place (information of the venue of the event) has been described, but the document which is predetermined to be related to the place may be acquired. ..
上述の実施形態では、方式2として、イベント開催による動態人数の増分の大小により混雑していたか否かを判断する場合について述べたが、各イベント会場のチェックイン数の大小により混雑していたか否かを判断するようにしてもよい。 In the above-described embodiment, as method 2, a case where it is determined whether or not the event is crowded depending on the magnitude of the increase in the number of dynamic people due to the holding of the event has been described, but whether or not the event venue is crowded depending on the number of check-ins. You may try to judge.
上述したように、推定装置10の情報取得部11は、抽出元となる文書と、文書の内容に対応するイベント場所の混雑フラグ、非混雑フラグとを取得する。抽出部16は、混雑フラグが予め設定された条件を満たす文書における語の出現度合いに基づいて、文書から混雑関連特徴語として抽出する。
As described above, the
この場合、推定装置10は、所定条件を満たす混雑状況の場所に対応する文書に特有の混雑関連特徴語を適切に抽出することができる。すなわち、推定装置10は、イベントの特徴語のうち、イベントの混雑を示唆する語、または混雑しないことを示唆する語を抽出することができる。この結果、推定装置10は、混雑状況推定対象を示す情報を含む文書(例えば、将来実施予定のイベントの場所に関する文書等の、イベントの説明文)に、抽出した語を含むか否かを判断した結果に基づいて、当該文書に対応する場所の混雑状況を推定することができる。すなわち、将来実施予定のイベントの場所に関する文書に、上記抽出した語を含むか否かを判断することにより、未来の混雑状態を推定することができる。また、現在実施中のイベント又は過去に実施されたイベントの場所に関する文書に、上記抽出した語を含むか否かを判断することにより、現状又は過去の混雑状態を推定することができる。このように、推定装置10は、混雑状況推定対象を示す情報を含む文書の内容に基づいて、混雑状況推定対象の場所の混雑状況を推定するための混雑関連特徴語を適切に抽出することができる。
In this case, the
また、抽出部16は、混雑フラグが予め設定された条件(混雑フラグがTrue)を満たす文書における語の出現度合いと、混雑フラグが予め設定された別の条件(混雑フラグがFalse)を満たす文書における語の出現度合いとに基づいて、混雑関連特徴語を抽出する。この場合、推定装置10は、混雑状況が互いに異なる文書の集合における語の出現度合いの場所に対応する文書に基づいて混雑関連特徴語を抽出するので、一方の条件を満たす混雑状況の場所に対応する文書のみに頻出する語を特定することができる。この結果、当該条件を満たす混雑状況に特有の混雑関連特徴語を適切に抽出することができる。なお、抽出部16は、混雑フラグが予め設定された条件(混雑フラグがTrue)を満たす文書における語の出現度合いのみに基づいて、混雑関連特徴語を抽出するようにしてもよい。抽出部16は、当該出現度合いが予め定められた閾値以上である場合に、当該混雑関連特徴語の候補を混雑関連特徴語として抽出する。
Further, the
情報取得部11は、取得した文書(抽出文書データベース12に記憶されている文書)の内容に基づいて、文書の内容に対応する場所(イベント情報のPOI名称)を特定し、当該場所の混雑度合いを示す指標値(POIの人気度、動態人数の比率)を取得し、当該指標値に基づいて、混雑フラグを生成することにより混雑フラグを取得する。
The
この場合、推定装置10は、他の装置から混雑フラグを取得する必要がなく、簡易な構成で文書の内容に対応する場所の混雑状況を推定するための語を抽出できる。なお、情報取得部11は、文書の内容に対応する場所の混雑状況を判断せずに、他の装置から混雑状況の判断に基づいた混雑フラグ又は非混雑フラグを含むイベントデータを取得するようにしてもよい。
In this case, the
抽出部16は、混雑関連特徴語として、複数の語の組み合わせを抽出する。この場合、一語では混雑状況を推定できないが、複数語を組み合わせることにより混雑状況を推定できる語を抽出することができる。
The
推定部18は、混雑状況推定対象を示す文書を取得し、抽出部16により抽出された混雑関連特徴語が、当該文書が含まれているか否かに基づいて、当該文書に対応する場所の混雑状況を推定する。
The
この場合、混雑関連特徴語を含むか否かを判断した結果に基づいて、当該文書に対応する場所の混雑状況を適切に推定することができる。また、推定装置10は、混雑関連特徴語を用いて推定するので、動態人数の統計処理がリアルタイムでない場合でも、混雑状況の推定結果を提示することができる。また、推定装置10は、動態人数に基づいた数値ではなく、上記の混雑フラグに基づいて、イベントの混雑状況を示す文章で表示すれば、分かりやすい情報を提示することができる。なお、推定装置10では、抽出部16により抽出された混雑関連特徴語を用いて混雑状況推定対象を示す文書に対応する場所の混雑状況を推定したが、当該推定処理を他の装置で行うようにしてもよい。
In this case, the congestion status of the place corresponding to the document can be appropriately estimated based on the result of determining whether or not the congestion-related characteristic words are included. Further, since the
イベントが開催されるPOIの人気度や規模に基づいて、混雑の有無を判定する方法では、同一POIで参加人数の規模が異なるイベントが同時に行われることもあるので、適切に混雑状況を推定することができない。しかし、上記のように混雑関連特徴語が、文書に含まれているか否かに基づいて混雑状況を推定すれば、混雑状況推定対象の場所の人気度を用いずに混雑状況に特有の特徴語の有無に基づいて推定するので、適切に混雑状況を推定することができる。 In the method of determining the presence or absence of congestion based on the popularity and scale of the POI where the event is held, events with the same POI but different scales of participants may be held at the same time, so the congestion situation is estimated appropriately. Can't. However, if the congestion status is estimated based on whether or not the congestion-related characteristic words are included in the document as described above, the characteristic words peculiar to the congestion status are not used without using the popularity of the place where the congestion status is estimated. Since the estimation is based on the presence or absence of, the congestion situation can be estimated appropriately.
また、イベントが開催されるPOIを含むエリアの動態人数の情報を用いて、混雑を推定する場合、当該イベントの場所の混雑状況を推定することができるが、他のイベントの混雑状況を推定することができない。しかし、上記のように混雑関連特徴語が、文書に含まれているか否かに基づいて混雑状況を推定すれば、混雑状況推定対象の場所の動態人数を用いずに混雑状況に特有の特徴語の有無に基づいて推定するので、適切に混雑状況を推定することができる。 In addition, when estimating congestion using information on the number of dynamic people in the area including the POI where the event is held, the congestion status at the location of the event can be estimated, but the congestion status of other events is estimated. Can't. However, if the congestion status is estimated based on whether or not the congestion-related feature words are included in the document as described above, the feature words peculiar to the congestion status are not used for the dynamic number of people at the location where the congestion status is estimated. Since the estimation is based on the presence or absence of, the congestion situation can be estimated appropriately.
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。 Software is an instruction, instruction set, code, code segment, program code, program, subprogram, software module, whether called software, firmware, middleware, microcode, hardware description language, or another name. , Applications, software applications, software packages, routines, subroutines, objects, executable files, execution threads, procedures, features, etc. should be broadly interpreted to mean.
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。 Further, software, instructions, and the like may be transmitted and received via a transmission medium. For example, the software uses wired technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to websites, servers, or other When transmitted from a remote source, these wired and / or wireless technologies are included within the definition of transmission medium.
本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。 The information, signals, etc. described herein may be represented using any of a variety of different techniques. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description may be voltage, current, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。 The terms described herein and / or the terms necessary for understanding the present specification may be replaced with terms having the same or similar meanings.
本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。 The terms "system" and "network" as used herein are used interchangeably.
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。 Further, the information, parameters, etc. described in the present specification may be represented by an absolute value, a relative value from a predetermined value, or another corresponding information. ..
また、本明細書で使用する「判断(determining)」という用語は、多種多様な動作を包含する。「判断」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」したとみなす事などを含み得る。また、「判断」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」したとみなす事などを含み得る。また、「判断」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」したとみなす事を含み得る。つまり、「判断」は、何らかの動作を「判断」したとみなす事を含み得る。 Also, the term "determining" as used herein includes a wide variety of actions. A "judgment" is, for example, judging, calculating, computing, processing, deriving, investigating, looking up (eg, table, database or another). (Search in the data structure of), confirming (ascertaining) can be regarded as "judgment", etc. Also, "judgment" includes receiving (eg, receiving information), transmitting (eg, transmitting information), input, output, accessing (accessing) ( For example, it may include the fact that (accessing the data in the memory) is regarded as "judgment". In addition, "judgment" may include that "judgment" is regarded as "resolving", "selecting", "choosing", "establishing", "comparing", and the like. That is, "judgment" may include considering some action as "judgment".
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 The phrase "based on" as used herein does not mean "based on" unless otherwise stated. In other words, the statement "based on" means both "based only" and "at least based on".
また、上記の各装置の構成における「手段」を、「部」、「回路」、「デバイス」等に置き換えてもよい。 Further, the "means" in the configuration of each of the above devices may be replaced with a "part", a "circuit", a "device" and the like.
本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 When the terms "first", "second", etc. are used herein, any reference to the elements does not generally limit the quantity or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted there, or that the first element must somehow precede the second element.
「含む(including)」、「含んでいる(comprising)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。 As long as "inclusion," "comprising," and variations thereof are used herein or in the claims, these terms are as comprehensive as the term "comprising." Intended to be targeted. Furthermore, the term "or" as used herein or in the claims is intended not to be an exclusive OR.
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。 In the present specification, a plurality of devices shall be included unless the device is apparently only one in the context or technically.
また、本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G、5G、FRA(Future Radio Access)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 In addition, each aspect / embodiment described in the present specification includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W. -CDMA®, GSM®, CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-WideBand) ), Bluetooth®, and other systems that utilize suitable systems and / or extended next-generation systems based on them.
また、本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 Further, the order of the processing procedures, sequences, flowcharts, etc. of each aspect / embodiment described in the present specification may be changed as long as there is no contradiction. For example, the methods described herein present elements of various steps in an exemplary order, and are not limited to the particular order presented.
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 The input / output information and the like may be stored in a specific location (for example, memory), or may be managed by a management table. Input / output information and the like can be overwritten, updated, or added. The output information and the like may be deleted. The entered information and the like may be deleted. The input information or the like may be transmitted to another device.
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。 Each aspect / embodiment described in the present specification may be used alone, in combination, or switched with execution. Further, the notification of predetermined information (for example, the notification of "being X") is not limited to the explicit notification, but is performed implicitly (for example, the notification of the predetermined information is not performed). May be good.
本開示の全体において、明らかに単数であることを示しているものではない限り、単数および複数の両方のものを含むものとする。 The entire disclosure shall include both singular and plural, unless it clearly indicates that it is singular.
以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。 Although the present invention has been described in detail above, it is clear to those skilled in the art that the present invention is not limited to the embodiments described in the present specification. The present invention can be implemented as modifications and modifications without departing from the gist and scope of the present invention determined by the description of the claims. Therefore, the description of the present specification is for the purpose of exemplification and does not have any limiting meaning to the present invention.
10…推定装置、11…情報取得部、12…抽出文書データベース、13…POIデータベース、14…動態人数データベース、15…イベントデータベース、16…抽出部、17…推定対象文書データベース、18…推定部、101…プロセッサ、102…メモリ、103…ストレージ、104…通信モジュール、105…バス。 10 ... estimation device, 11 ... information acquisition unit, 12 ... extracted document database, 13 ... POI database, 14 ... dynamic number database, 15 ... event database, 16 ... extraction unit, 17 ... estimation target document database, 18 ... estimation unit, 101 ... processor, 102 ... memory, 103 ... storage, 104 ... communication module, 105 ... bus.
Claims (4)
抽出元となる文書と、当該文書の内容に対応する場所の混雑状況を示す混雑情報とを取得する情報取得部と、
前記情報取得部により取得された混雑情報が予め設定された条件を満たす混雑状況の場所に対応する文書における語の出現度合いに基づいて、抽出元となる文書から混雑関連特徴語を抽出する抽出部と、
を備え、
前記情報取得部は、取得した文書の内容に基づいて当該文書の内容に対応する場所を特定し、当該場所の人が集まる度合いを示す人気度、又は当該場所にいた人数を示す指標値を取得し、当該指標値に基づいて当該文書の場所の混雑状況を示す混雑情報を生成することにより、混雑情報を取得する、抽出装置。 It is an extraction device that extracts congestion-related characteristic words, which are words used when estimating the congestion status of the location of the congestion status estimation target based on the contents of the document corresponding to the congestion status estimation target location.
An information acquisition unit that acquires a document to be extracted and congestion information indicating the congestion status of a place corresponding to the content of the document.
An extraction unit that extracts congestion-related characteristic words from a document that is an extraction source based on the degree of appearance of words in a document corresponding to a location in a congestion situation in which the congestion information acquired by the information acquisition unit satisfies a preset condition. When,
Equipped with a,
The information acquisition unit identifies a place corresponding to the content of the document based on the content of the acquired document, and acquires a popularity degree indicating the degree of gathering of people in the place or an index value indicating the number of people in the place. An extraction device that acquires congestion information by generating congestion information indicating the congestion status of the location of the document based on the index value .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016189749A JP6763732B2 (en) | 2016-09-28 | 2016-09-28 | Extractor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016189749A JP6763732B2 (en) | 2016-09-28 | 2016-09-28 | Extractor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018055346A JP2018055346A (en) | 2018-04-05 |
JP6763732B2 true JP6763732B2 (en) | 2020-09-30 |
Family
ID=61834101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016189749A Active JP6763732B2 (en) | 2016-09-28 | 2016-09-28 | Extractor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6763732B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210049630A1 (en) * | 2018-04-24 | 2021-02-18 | Ntt Docomo, Inc. | Area popularity calculation device |
JP6702626B2 (en) * | 2018-07-03 | 2020-06-03 | ヤフー株式会社 | Information processing apparatus, information processing method, and information processing program |
JP6832322B2 (en) | 2018-11-02 | 2021-02-24 | 株式会社トヨタマップマスター | Search device, search method, search program and recording medium |
CN109933647A (en) * | 2019-02-12 | 2019-06-25 | 北京百度网讯科技有限公司 | Determine method, apparatus, electronic equipment and the computer storage medium of description information |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5023176B2 (en) * | 2010-03-19 | 2012-09-12 | 株式会社東芝 | Feature word extraction apparatus and program |
JP5345987B2 (en) * | 2010-08-18 | 2013-11-20 | 日本電信電話株式会社 | Document search apparatus, document search method, and document search program |
JP5786567B2 (en) * | 2011-08-31 | 2015-09-30 | アイシン・エィ・ダブリュ株式会社 | Statistical information providing system, statistical information providing apparatus, statistical information providing method, and computer program |
JP2016012054A (en) * | 2014-06-30 | 2016-01-21 | 株式会社Nttドコモ | Information providing system and information providing method |
-
2016
- 2016-09-28 JP JP2016189749A patent/JP6763732B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018055346A (en) | 2018-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6763732B2 (en) | Extractor | |
CN107679211B (en) | Method and device for pushing information | |
JP6173654B2 (en) | Mobility support device, mobility support server, and mobility support system | |
US10467308B2 (en) | Method and system for processing social media data for content recommendation | |
US10594573B2 (en) | Systems and methods for rule quality estimation | |
US20130325975A1 (en) | Location estimation of social network users | |
CN109857908B (en) | Method and apparatus for matching videos | |
JP6929445B2 (en) | Evaluation device | |
CN106844685B (en) | Method, device and server for identifying website | |
US10210214B2 (en) | Scalable trend detection in a personalized search context | |
JP2016045504A (en) | Method, system, and program for generating teacher data for eliminating ambiguity | |
JP6666521B2 (en) | Place popularity estimation system | |
JP6656131B2 (en) | Text extraction device | |
US9817471B2 (en) | Method for adding information and server apparatus | |
CN109947526B (en) | Method and apparatus for outputting information | |
JP2018081495A (en) | Parallel translation sentence pair output device | |
CN111814036A (en) | Wireless hotspot and interest point matching method based on search engine, electronic device and storage medium | |
US20180081499A1 (en) | Method and system for processing crowd-sensed data to generate actionable insights of geographical areas | |
JPWO2019187107A1 (en) | Information processing equipment, control methods, and programs | |
CN111339776B (en) | Resume parsing method and device, electronic equipment and computer-readable storage medium | |
US10701513B2 (en) | Raising priorities of information based on social media relationships | |
US11604831B2 (en) | Interactive device | |
CN114564581A (en) | Text classification display method, device, equipment and medium based on deep learning | |
US11651246B2 (en) | Question inference device | |
CN113076932A (en) | Method for training audio language recognition model, video detection method and device thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200326 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200414 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200713 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20200722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200818 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200910 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6763732 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |