JP2014235597A - Specific point name determination apparatus, specific point name determination method, and specific point name determination program - Google Patents
Specific point name determination apparatus, specific point name determination method, and specific point name determination program Download PDFInfo
- Publication number
- JP2014235597A JP2014235597A JP2013117083A JP2013117083A JP2014235597A JP 2014235597 A JP2014235597 A JP 2014235597A JP 2013117083 A JP2013117083 A JP 2013117083A JP 2013117083 A JP2013117083 A JP 2013117083A JP 2014235597 A JP2014235597 A JP 2014235597A
- Authority
- JP
- Japan
- Prior art keywords
- specific point
- name
- determination
- specific
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 70
- 238000000605 extraction Methods 0.000 claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 11
- 238000010295 mobile communication Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000003068 static effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、テキスト中の特定地点名称の判定を行う特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラムに関する。 The present invention relates to a specific point name determination apparatus, a specific point name determination method, and a specific point name determination program for determining a specific point name in a text.
従来、地名・施設名等の特定地点を示す表記(特定地点名称)をテキストから抽出する技術として、下記非特許文献1に示されるような技術が知られている。このような技術の基本的な方式は、予め特定地点名称を格納した地名辞書を用意しておき、テキスト中のワードと地名辞書とを照合することで、テキスト中の特定地点名称を検出するというものである。
Conventionally, as a technique for extracting notation (specific point name) indicating a specific point such as a place name / facility name from a text, a technique shown in Non-Patent
ところで、特定地点名称の中には、例えば「大山」のように、地名として用いられると共に人名としても用いられる特定地点名称が存在する。また、例えば「清水寺」のように、異なる複数のエリア(京都市、大阪市等)に同一名称の施設が点在するような特定地点名称も存在する。従って、上記のような辞書ベースの照合だけでは、テキスト中の特定地点名称が地名・施設名等の特定地点を意味するものとして用いられているか否かを適切に判断できない場合がある。また、テキスト中の特定地点名称がどの特定地点を示すものであるのかを適切に判別できない場合もある。 By the way, in the specific point name, there is a specific point name that is used as a place name as well as a personal name, such as “Oyama”. In addition, there is a specific point name such as “Kiyomizu Temple” where facilities having the same name are scattered in a plurality of different areas (Kyoto City, Osaka City, etc.). Therefore, it may not be possible to appropriately determine whether or not the specific point name in the text is used to mean a specific point such as a place name or facility name only by dictionary-based collation as described above. In addition, it may not be possible to appropriately determine which specific point the specific point name in the text indicates.
下記非特許文献1では、このような特定地点名称の曖昧性を解消し、テキスト中の特定地点名称を適切に判別して抽出するために、抽出対象の特定地点名称を、人名として用いられることがあることを示す人名カテゴリ、同一名称の地名・施設名等が複数存在することを示す同名カテゴリ、及び、商品名や愛称等の一般的な意味で用いられることがあることを示す一般語カテゴリへの分類を行う。そして、同名カテゴリに分類される特定地点名称については、テキスト中に現れる当該特定地点名称と当該特定地点名称に対応する周辺地名との組み合わせに基づいて、当該特定地点名称がどの地名・施設名を示すものであるかを判定する。また、人名カテゴリ又は一般語カテゴリに分類される特定地点名称については、当該特定地点名称が示す特定地点に対応する周辺地名がテキストに含まれていなければ、当該特定地点名称は地名・施設名等の意味で用いられていないと判定する。
In the following Non-Patent
ところで、上述の処理方式では、テキスト中の特定地点名称が特定地点を意味すると判定されるための条件が厳しいため、適合率(精度)が高い反面、再現率が低いという問題がある。特に、ツイッター(Twitter(登録商標))等のマイクロブログサービスに投稿されるツイート(短文のテキスト)に対して上述の精度重視の処理方式で特定地点名称の判定処理を行った場合には、テキスト中で特定地点を意味するものとして用いられている特定地点名称が全く抽出されないおそれが高い。 By the way, in the above-mentioned processing method, since the conditions for determining that the specific point name in the text means the specific point are severe, there is a problem that the precision (accuracy) is high but the reproduction rate is low. In particular, when a specific point name determination process is performed on a tweet (short text) posted on a microblog service such as Twitter (registered trademark) using the above-described accuracy-oriented processing method, text There is a high possibility that the name of a specific point used to mean a specific point is not extracted at all.
そこで本発明は、上記課題に鑑み、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラムを提供することを目的とする。 Therefore, in view of the above problems, the present invention provides a specific point name determination device, a specific point name determination method, and a specific point name determination method that can increase the reproduction rate of specific point names used as meaning specific points in text. The purpose is to provide a specific point name determination program.
本発明に係る特定地点名称判定装置は、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、テキストを取得するテキスト取得手段と、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、判定対象テキストに含まれる特定地点名称に対応する第1のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定手段と、判定対象テキストと当該判定対象テキストに対する判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成手段と、を備える。 The specific point name determination apparatus according to the present invention relates to a specific point name indicating a predetermined specific point name and a first flag indicating that the specific point name has a meaning other than the specific point. Specific point information storage means for storing point information, characteristic word storage means for storing a characteristic word for each specific point, which is a word characterizing that the specific point name means a specific point in the text, and text for acquiring text Corresponding to the acquisition means, the text extraction means for extracting the determination target text including the specific spot name associated with the specific spot information from the text acquired by the text acquisition means, and the specific spot name included in the determination target text The first flag indicates that the specific point name has a meaning other than the specific point, and is associated with the specific point name. If the feature word stored in the memory means is included in the determination target text, the determination unit determines that the specific point name means the specific point in the determination target text, the determination target text, and the determination target A feature word generating unit that generates a feature word based on determination result data in which a determination result by the determination unit for the text is associated, and stores the generated feature word in the feature word storage unit.
本発明に係る特定地点名称判定方法は、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、を備える特定地点名称判定装置により実行される特定地点名称判定方法であって、テキストを取得するテキスト取得ステップと、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得ステップにおいて取得されたテキストのうちから抽出するテキスト抽出ステップと、判定対象テキストに含まれる特定地点名称に対応する第1のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定ステップと、判定対象テキストと当該判定対象テキストに対する判定ステップにおける判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成ステップと、を含む。 The specific point name determination method according to the present invention relates to a specific point name indicating a predetermined specific point name and a first flag indicating that the specific point name has a meaning other than the specific point. Specific point name storage means for storing point information, and specific word name storage means for storing, for each specific point, a characteristic word that is a word characterizing that the specific point name means a specific point in the text A specific point name determination method executed by a determination device, wherein a text acquisition step for acquiring text and a determination target text including a specific point name associated with specific point information are acquired in the text acquisition step The text extraction step to extract from the first flag corresponding to the specific point name included in the determination target text If the point name has a meaning other than the specific point and the characteristic word stored in the characteristic word storage means in association with the specific point name is included in the determination target text, the determination target text A feature word is generated and generated based on determination result data that associates a determination step that determines that the specific point name means a specific point, and a determination target text and a determination result in the determination step for the determination target text. And a feature word generation step of storing the feature word in the feature word storage means.
本発明に係る特定地点名称判定プログラムは、コンピュータを、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、テキストを取得するテキスト取得手段と、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、判定対象テキストに含まれる特定地点名称に対応する第1のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定手段と、判定対象テキストと当該判定対象テキストに対する判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成手段として機能させる。 The specific point name determination program according to the present invention causes the computer to include a specific point name indicating a name of a predetermined specific point and a first flag indicating that the specific point name has a meaning other than the specific point. Specific point information storage means for storing the related specific point information, characteristic word storage means for storing a characteristic word for each specific point, which is a word characterizing that the specific point name means a specific point in the text, and text A text acquisition means for acquiring, a text extraction means for extracting the determination target text including the specific spot name associated with the specific spot information from the text acquired by the text acquisition means, and a specific spot name included in the determination target text The first flag corresponding to indicates that the specific point name has a meaning other than the specific point. A determination unit that determines that the specific point name means a specific point in the determination target text if the characteristic word stored in the characteristic word storage unit in association with the name is included in the determination target text; A feature word is generated based on determination result data in which the target text and a determination result by the determination unit for the determination target text are associated with each other, and the generated feature word is stored in the feature word storage unit.
この発明では、テキスト抽出手段が、特定地点情報記憶手段を参照し、テキスト取得手段により取得されたテキストのうちから特定地点名称を含む判定対象テキストを抽出する。続いて、判定手段が、第1のフラグにより判定対象テキストに含まれる特定地点名称が特定地点以外の意味を有すると示されている場合に、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が判定対象テキストに含まれるか否かに基づいて、判定対象テキスト中で当該特定地点名称が特定地点を意味するか否かを判定する。続いて、特徴語生成手段が、判定対象テキストと判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する。この一連の処理が繰り返されることで、特徴語記憶手段に記憶される特徴語が増えていくため、判定手段による判定において、判定対象テキスト中で特定地点を意味する特定地点名称を適切に抽出(特定地点を意味すると判定)できる可能性を高めることができる。すなわち、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。 In this invention, the text extraction means refers to the specific spot information storage means and extracts the determination target text including the specific spot name from the text acquired by the text acquisition means. Subsequently, when the specific point name included in the determination target text has a meaning other than the specific point by the first flag, the determination unit stores the characteristic point storage unit in association with the specific point name. Whether or not the specific point name in the determination target text means a specific point is determined based on whether or not the feature word being included is included in the determination target text. Subsequently, the feature word generation unit generates a feature word based on the determination result data in which the determination target text is associated with the determination result by the determination unit, and stores the generated feature word in the feature word storage unit. By repeating this series of processing, the feature words stored in the feature word storage unit increase, and therefore, in the determination by the determination unit, the specific point name meaning the specific point in the determination target text is appropriately extracted ( The possibility that it can be determined to mean a specific point) can be increased. That is, it is possible to increase the recall of the extraction of the specific point name used as meaning the specific point in the text.
上記特定地点名称判定装置では、判定対象テキストを入力して特定地点名称が当該判定対象テキスト中で特定地点を意味するか否かを判定する判定モデルを記憶する判定モデル記憶手段を更に備え、特徴語記憶手段は、特定地点名称がテキスト中で特定地点を意味しないことを特徴付ける単語である不正解特徴語を特徴語と共に特定地点名称毎に記憶し、判定手段は、判定モデルに基づいて判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で特定地点を意味しないと判定した場合において、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定し、判定モデルに基づいて判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で特定地点を意味すると判定した場合において、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定し、特徴語生成手段は、判定結果データに基づいて特徴語又は不正解特徴語を生成し、生成した特徴語又は不正解特徴語を特徴語記憶手段に記憶してもよい。 The specific point name determination apparatus further includes a determination model storage unit that stores a determination model that inputs a determination target text and determines whether the specific point name means a specific point in the determination target text. The word storage means stores an incorrect answer feature word, which is a word characterizing that the specific point name does not mean a specific point in the text, together with the characteristic word for each specific point name, and the determination unit determines whether to determine based on the determination model When it is determined that the specific point name included in the text does not mean the specific point in the determination target text, the characteristic word stored in the characteristic word storage unit in association with the specific point name is included in the determination target text If it is determined that the specific point name in the determination target text means a specific point, the determination target text is determined based on the determination model. In the case where it is determined that the specific point name included in the text means the specific point in the determination target text, the incorrect characteristic word stored in the characteristic word storage means in association with the specific point name is included in the determination target text If not, it is determined that the specific point name in the determination target text means a specific point, and the feature word generation unit generates a feature word or an incorrect feature word based on the determination result data, and the generated feature A word or an incorrect answer feature word may be stored in the feature word storage means.
この特定地点名称判定装置によれば、判定モデルによる判定と、特徴語又は不正解特徴語を用いた判定とを併せて行うことで、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めると共に精度(適合率)を高めることができる。具体的には、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味しないと判定された場合であっても、当該特定地点名称が特定地点を意味することを特徴付ける特徴語が含まれていれば、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の再現率が高められる。一方、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味すると判定された場合には、当該特定地点名称が特定地点を意味しないことを特徴付ける不正解特徴語が含まれていないことをもって、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の精度を高めることができる。 According to this specific point name determination apparatus, the determination using the determination model and the determination using the feature word or the incorrect feature word are performed together to specify the specific point used in the text. It is possible to increase the recall rate of the spot name extraction and increase the accuracy (matching rate). Specifically, even if it is determined that the specific point name does not mean the specific point in the determination target text by the determination by the determination model, the feature word characterizing that the specific point name means the specific point is If it is included, it is determined that the specific point name in the determination target text means a specific point. By such determination, the reproduction rate of the extraction of the specific point name is increased. On the other hand, if it is determined by the determination model that the specific point name means a specific point in the determination target text, an incorrect feature word that characterizes that the specific point name does not mean the specific point is not included Therefore, it is determined that the specific point name in the determination target text means a specific point. Such determination can improve the accuracy of extraction of the specific spot name.
上記特定地点名称判定装置では、特定地点情報には、当該特定地点情報に関連付けられた特定地点名称と同一名称の特定地点である同名特定地点が複数存在することを示す第2のフラグが関連付けられており、同名特定地点の各々について、予め算出された有名度を記憶する有名度記憶手段と、を更に備え、判定手段は、判定対象テキストに含まれる特定地点名称に対応する第2のフラグが同名特定地点が複数存在することを示している場合には、有名度記憶手段に記憶されている同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定してもよい。ここで、同名判定処理は、判定対象テキスト中に含まれる特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が同名特定地点のうちどの特定地点を示すものかを判定する処理である。 In the specific point name determination apparatus, the specific point information is associated with a second flag indicating that there are a plurality of the same name specific points having the same name as the specific point name associated with the specific point information. And a famousness storage unit that stores a pre-calculated famousness for each of the same-name specific points, and the determination unit includes a second flag corresponding to the specific point name included in the determination target text. In the case where it is indicated that there are a plurality of the same name specific points, it may be determined whether or not to execute the same name determination process based on the famousness of the same name specific points stored in the famousness storage means. . Here, based on a character string other than the specific point name included in the determination target text, the same name determination process indicates which specific point among the same name specific points in the determination target text. This is a process for determining.
従来、同名特定地点が複数存在する特定地点名称を含むテキストについては、以下に示す同名判定処理により、当該特定地点名称がどの特定地点を示すか、あるいは特定地点を示すものか否かが判定されるのが一般的である。一例として京都や大阪等の複数の地域に存在する「清水寺」という特定地点名称について説明する。同名判定処理では、特定地点名称である「清水寺」が含まれるテキスト中に当該特定地点名称に対応する周辺地名(例えば「京都」)が含まれていれば、当該特定地点名称を「京都の清水寺」を示すものと判定する。一方、当該テキスト中に当該特定地点名称に対応する周辺地名が一つも含まれていなければ、当該特定地点名称を、そもそも特定地点を示すものとは判定しない。このような同名判定処理は、周辺地名が同一テキスト中に含まれていることをもって特定地点名称が特定の特定地点を示すものと判定するため、精度が高い一方で再現率が低い。 Conventionally, for text including a specific point name having a plurality of specific points with the same name, it is determined by the same name determination process shown below whether the specific point name indicates a specific point or whether or not a specific point is indicated. It is common. As an example, a specific point name “Kiyomizu-dera” existing in a plurality of areas such as Kyoto and Osaka will be described. In the same name determination process, if the surrounding place name (for example, “Kyoto”) corresponding to the specific point name is included in the text including the specific point name “Kiyomizu Temple”, the specific point name is changed to “Kiyomizu Temple in Kyoto”. ". On the other hand, if no surrounding place name corresponding to the specific location name is included in the text, the specific location name is not determined to indicate the specific location in the first place. Since the same name determination process determines that the specific spot name indicates a specific specific spot when the surrounding place name is included in the same text, the accuracy is high but the recall is low.
この特定地点名称判定装置では、判定対象テキストに含まれる特定地点名称と同一名称の特定地点(同名特定地点)が複数存在する場合において、判定手段は、同名特定地点の有名度に基づいて同名判定処理を実行するか否かを切替えることができる。すなわち、例えば判定対象テキスト中で特定地点名称が示す特定地点を有名度に基づいて一意に決定可能な場合等には、判定手段は、同名判定処理を省略し、当該特定地点名称が有名度に基づいて決定された特定地点を示すものと判定することができる。これにより、判定対象テキスト中に特定地点名称に対応する周辺地名が含まれていない場合であっても、特定地点の有名度に基づいて特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。 In this specific point name determination device, when there are a plurality of specific points (same name specific points) having the same name as the specific point name included in the determination target text, the determination means determines the same name based on the famousness of the same name specific point Whether to execute the process can be switched. That is, for example, when the specific point indicated by the specific point name in the determination target text can be uniquely determined based on the famousness, the determination unit omits the same name determination process, and the specific point name is set to the famousity. It can be determined that the specific point determined based on this is shown. As a result, even when the surrounding text corresponding to the specific spot name is not included in the determination target text, the specific spot name can be appropriately extracted based on the famousness of the specific spot. The rate is improved.
上記特定地点名称判定装置では、判定手段は、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値以上の場合に、同名判定処理を実施せずに、判定対象テキスト中に含まれる特定地点名称が当該最大の有名度をもつ特定地点を示すと判定し、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、同名判定処理を実行してもよい。 In the specific point name determination apparatus, the determination unit includes the determination unit in the determination target text without performing the same name determination process when the famous point of the specific point having the highest famousness among the same name specific points is equal to or greater than a predetermined threshold. It is determined that the specific point name included in indicates the specific point having the maximum famousness, and the famous point of the specific point having the maximum famousness among the specific names with the same name is less than a predetermined threshold, the same name determination process May be executed.
この特定地点名称判定装置によれば、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値以上の場合に、同名判定処理を省略し、特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。 According to this specific point name determination apparatus, when the famous point of the specific point having the highest famousness among the same name specific points is equal to or greater than a predetermined threshold, the same name determination process is omitted and the specific point name is appropriately extracted. Since this can be done, the recall can be improved.
上記特定地点名称判定装置では、判定手段は、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、同名特定地点のうち、有名度が所定値以下の同名特定地点を除外して同名判定処理を実行してもよい。 In the specific point name determination device, the determination means has a degree of famousness that is less than or equal to a predetermined value when the famous point of the specific point having the highest famousness among the same name specific points is less than a predetermined threshold. The same name determination process may be executed by excluding the same name specific point.
この特定地点名称判定装置によれば、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、有名度が所定値以下の同名特定地点については予め除外して同名判定処理を行うことができる。これにより、特定地点名称の抽出を効率よく且つ精度よく行うことができる。 According to this specific point name determination apparatus, when the famous point of the specific point having the highest famousness among the same name specific points is less than a predetermined threshold, the specific point with the famous name equal to or lower than a predetermined value is excluded in advance. The same name determination process can be performed. Thereby, extraction of a specific point name can be performed efficiently and accurately.
上記特定地点名称判定装置では、特定地点と当該特定地点に対応する周辺地名との両方が含まれる周辺地名テキストの数、特定地点と当該特定地点に対応する特徴語との両方が含まれる特徴語テキストの数、及び、移動通信端末のユーザが特定地点に滞在した回数を示すチェックイン数のうち少なくとも一つに基づいて特定地点の有名度を算出し、算出した有名度を有名度記憶手段に記憶する有名度算出手段を更に備えてもよい。 In the specific point name determination device, the number of surrounding place name texts including both the specific point and the surrounding place name corresponding to the specific point, the feature word including both the specific point and the characteristic word corresponding to the specific point Based on at least one of the number of texts and the number of check-ins indicating the number of times the user of the mobile communication terminal stayed at the specific point, the famous point of the specific point is calculated, and the calculated famous degree is stored in the famous degree storage means. You may further provide the famousness calculation means to memorize | store.
この特定地点名称判定装置によれば、有名度算出手段が、周辺地名テキストの数、特徴語テキストの数、及びチェックイン数等に基づいて、特定地点の有名度を適切に算出することができる。そして、判定部がこのようにして算出された有名度に基づいて特定地点名称の判定を行うことにより、特定地点名称の抽出の精度の向上が図られる。 According to this specific point name determination apparatus, the famousness calculation means can appropriately calculate the famousity of a specific point based on the number of surrounding place name texts, the number of feature word texts, the number of check-ins, and the like. . And the determination part determines the specific spot name based on the famousity calculated in this way, so that the accuracy of extracting the specific spot name can be improved.
本発明によれば、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。 ADVANTAGE OF THE INVENTION According to this invention, the reproduction rate of extraction of the specific point name currently used as what means a specific point in a text can be raised.
以下、図面を参照しながら、本発明に係る実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。 Embodiments according to the present invention will be described below with reference to the drawings. Where possible, the same parts are denoted by the same reference numerals, and redundant description is omitted.
[第1実施形態]
図1は、本発明の第1実施形態に係る特定地点名称判定装置1Aの機能構成を示すブロック図である。本実施形態に係る特定地点名称判定装置1Aは、特定地点の名称(特定地点名称)が含まれるテキスト中において、当該特定地点名称が特定地点を意味する(特定地点名称がテキスト中の文脈において特定地点を意味するものとして用いられている)か否かを判定する装置である。ここで、特定地点としては、例えば地名・施設名等の特定の場所を示すPOI(Point of interest)が挙げられる。具体的には、特定地点は、寺社等の施設(例えば「清水寺」等)、山岳(例えば「函館山」等)、湖沼(例えば「大沼」等)等の特定の場所を示すものである。図1に示すように、特定地点名称判定装置1Aは、テキスト取得部11、テキスト格納部12、特定地点情報記憶部13、テキスト抽出部14、特徴語記憶部15A、有名度算出部16、有名度記憶部17、判定部18A、判定結果記憶部19、及び特徴語生成部20Aを備えている。
[First Embodiment]
FIG. 1 is a block diagram showing a functional configuration of a specific point
図2は、特定地点名称判定装置1Aのハードウェア構成を示すブロック図である。図1に示される特定地点名称判定装置1Aは、物理的には、図2に示すように、1又は複数のCPU101と、主記憶装置であるRAM102及びROM103と、入力デバイスであるキーボード及びマウス等の入力装置104と、ディスプレイ等の出力装置105と、ネットワークカード等のデータ送受信デバイスである通信モジュール106と、ハードディスクドライブ及び半導体メモリ等の補助記憶装置107とを含むコンピュータシステムとして構成されている。
FIG. 2 is a block diagram illustrating a hardware configuration of the specific point
図1における特定地点名称判定装置1Aの各機能は、図2に示すCPU101、RAM102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、及び通信モジュール106を動作させると共に、RAM102及び補助記憶装置107におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて、各機能ブロックを説明する。
Each function of the specific point
テキスト入力部2は、例えばツイッター(Twitter(登録商標))等のマイクロブログサービスを管理するサーバ(不図示)等から、マイクロブログサービスに投稿された投稿テキスト(ツイッターの場合は「ツイート(つぶやき)」)を入力(取得)し、入力した一以上の投稿テキストを蓄積しているデータベース等である。本実施形態では、テキスト入力部2が特定地点名称判定装置1Aとは別の装置として実現されているものとしているが、テキスト入力部2は、特定地点名称判定装置1Aに含まれていてもよい。
The
テキスト取得部11は、テキスト入力部2から投稿テキストを取得するテキスト取得手段である。テキスト取得部11は、例えばストリーミングAPI等を利用して、定期的又はリアルタイムにテキスト入力部2から投稿テキストを取得する。テキスト取得部11によって取得された投稿テキストは、データベース等であるテキスト格納部12に記憶される。ここで、テキスト入力部2とテキスト取得部11との間の接続形態は何でもよい。例えば、テキスト入力部2とテキスト取得部11とは、無線方式で接続されていてもよいし、有線方式で接続されていてもよい。また、テキスト入力部2とテキスト取得部11とは、インターネット等の任意の通信ネットワークを介して接続(ロジック接続)されていてもよいし、装置同士が直接接続されることにより接続されていてもよい。
The
特定地点情報記憶部13は、予め定められた特定の場所(POI等)を示す特定地点に関する特定地点情報を特定地点毎に記憶しているデータベース等の特定地点情報記憶手段である。特定地点情報記憶部13に記憶されている特定地点情報は、例えば特定地点名称判定装置1Aの管理者等によって予め登録されているものとする。図3は、特定地点情報の一例を示す図である。図3に示すように、特定地点情報には、特定地点を一意に特定する識別情報(id)、特定地点の名称を示す特定地点名称、特定地点の住所、特定地点の位置(緯度・経度)、特定地点が属するエリア(例えば「県」等)を示すエリアコード、及び各種フラグ(同名フラグ、人名フラグ、一般語フラグ)等が特定地点毎に関連付けられている。
The specific point
ここで、同名フラグは、特定地点名称と同一名称の特定地点(同名特定地点)が複数存在するか否かを示すフラグ(第2のフラグ)である。人名フラグは、特定地点名称が人名と同じ名称であるか否かを示すフラグである。一般語フラグは、特定地点名称が一般語と同じ名称であるか否かを示すフラグである。すなわち、人名フラグ及び一般語フラグは、特定地点名称が特定地点以外の意味(人名及び一般語)を有するか否かを示すフラグ(第1のフラグ)である。これらのフラグは、該当する場合に「1」が設定され、該当しない場合には「0」が設定される。以降の説明においては、フラグが「1」に設定されていることを指して、フラグが立っているともいう。 Here, the same name flag is a flag (second flag) indicating whether or not there are a plurality of specific points (same name specific points) having the same name as the specific point name. The personal name flag is a flag indicating whether or not the specific point name is the same name as the personal name. The general language flag is a flag indicating whether or not the specific point name is the same name as the general language. That is, the personal name flag and the general language flag are flags (first flag) indicating whether or not the specific point name has a meaning (person name and general language) other than the specific point. These flags are set to “1” when applicable and “0” when not applicable. In the following description, the flag is set to indicate that the flag is set to “1”.
図3を用いて各種フラグについて詳細に説明する。例えば、特定地点名称が「清水寺」である特定地点は、京都や大阪等の複数の土地に存在するため、同名フラグが立てられている。特定地点名称が「大沼」の特定地点についても、同一名称の特定地点が複数の土地に存在するため、同名フラグが立てられている。また、「大沼」という特定地点名称は、人名(大沼さん)として用いられることもあり、一般語(大きい沼)として用いられることもあるので、人名フラグ及び一般語フラグは共に立てられている。 Various flags will be described in detail with reference to FIG. For example, since a specific point whose specific point name is “Kiyomizu-dera” exists in a plurality of lands such as Kyoto and Osaka, the same name flag is set. For the specific point with the specific point name “Onuma”, the same name flag is set because the specific point with the same name exists in a plurality of lands. In addition, the specific point name “Onuma” is sometimes used as a person's name (Mr. Onuma) and may be used as a general word (large swamp), so both the personal name flag and the general word flag are set.
テキスト抽出部14は、特定地点情報記憶部13に記憶された特定地点情報に関連付けられた特定地点名称を含む投稿テキスト(判定対象テキスト)を抽出するテキスト抽出手段である。テキスト抽出部14は、例えば、特定地点情報記憶部13に記憶された特定地点情報を読み取ってRAM102上にロードする。続いて、テキスト抽出部14は、テキスト格納部12に記憶されている複数の投稿テキストのうちから、RAM102上にロードした特定地点情報に関連付けられた特定地点名称を含むテキストをサーチすることにより、判定対象テキストを取得する。例えば、「清水寺」に関する特定地点情報がRAM102上にロードされている場合には、テキスト抽出部14は、テキスト格納部12から、「今、清水寺を観光している。」のように「清水寺」の文字列が含まれている投稿テキストを判定対象テキストとして抽出する。なお、本実施形態では、テキスト抽出部14は、複数の投稿テキストのうちから1つの投稿テキストを判定対象テキストとして抽出するものとしているが、テキスト抽出部14は、例えば1つの長文テキストのうちから、特定地点名称を含む一部(例えば特定地点名称が含まれる一文や段落等)を判定対象テキストとして抽出してもよい。
The text extraction unit 14 is a text extraction unit that extracts a posted text (determination target text) including a specific point name associated with the specific point information stored in the specific point
特徴語記憶部15Aは、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段である。特徴語記憶部15Aには、特定地点名称がテキスト中で特定地点を意味するものとして用いられている一以上の文章に基づいて予め管理者等により抽出された特徴語(以下「静的特徴語」ともいう)が、当該特定地点の特徴語として記憶される。このような文章としては、例えば特定地点に関するWikipedia及びホームページ等に記載された文章が挙げられる。静的特徴語は、例えばtfidf等を用いることにより抽出される。例えば「天橋立」という特定地点の特徴語としては、「きれい」や「宮津」等、「天橋立」という特定地点名称がテキスト中で特定地点(つまり地名としての「天橋立」)を意味するものとして用いられていることを特徴付ける単語が抽出される。ただし、抽出される特徴語は、どの文章をtfidf等による特徴語抽出の元とするかによって異なり得る。特徴語記憶部15には、静的特徴語の他に、後述する特徴語生成部20Aにより生成される特徴語も記憶される。
The feature
有名度算出部16は、同名特定地点毎の有名度を算出し、算出した有名度をデータベース等である有名度記憶部17に記憶する有名度算出手段である。有名度記憶部17は、同名特定地点の各々について、有名度算出部16により算出された有名度を記憶する有名度記憶手段である。有名度記憶部17には、同名特定地点毎の有名度を格納するためのテーブル領域が確保されている。このような同名特定地点のデータ(同一の特定地点名称をもつ同名特定地点の一覧、及び各同名特定地点が存在する都市名等)は、例えばWikipedia等の公開情報及び特定地点情報記憶部13に記憶された特定地点情報等を参照することで、予め管理者等によって有名度記憶部17に記憶される。
The
有名度算出部16は、同名特定地点と当該同名特定地点に対応する周辺地名との両方が含まれる周辺地名テキストの数、同名特定地点と当該同名特定地点に対応する特徴語との両方が含まれる特徴語テキストの数、及び、移動通信端末のユーザが同名特定地点に滞在した回数を示すチェックイン数のうち少なくとも一つに基づいて同名特定地点の有名度を算出することができる。
The
具体的には、有名度算出部16は、例えばテキスト取得部11により取得されたテキスト(ツイッターの場合は「ツイート(つぶやき)」)を集計することにより、周辺地名テキストの数及び特徴語テキストの数を集計することができる。また、有名度算出部16は、例えばFoursquare等の位置情報に基づいたソーシャル・ネットワーキング・サービス(SNS)が保有する特定地点毎のチェックイン数を、当該SNSが公開しているAPI等を介して取得することができる。ここで、例えば、予め管理者等により、同名特定地点毎に周辺地名を対応付けたテーブル情報が、有名度算出部16から参照可能なデータベース(不図示)上に用意されているものとする。このようなデータベースを参照することで、有名度算出部16は、周辺地名テキスト数を集計することができる。
Specifically, the
図5は、特定地点名称が「清水寺」である特定地点に関する同名特定地点毎の有名度の一例を示す図である。ここでは一例として、周辺地名テキストの数及び特徴語テキストの数を足し合わせたテキスト数(TW数)を有名度としている。ここで、「清水寺_都市名」は、「都市名で示される都市に存在する清水寺」を示す特定地点である。 FIG. 5 is a diagram illustrating an example of the famousness for each specific point with the same name regarding the specific point whose specific point name is “Kiyomizu Temple”. Here, as an example, the famous number is the number of texts (TW number) obtained by adding the number of surrounding place name texts and the number of feature word texts. Here, “Kiyomizu Temple_city name” is a specific point indicating “Kiyomizu Temple existing in the city indicated by the city name”.
判定部18Aは、テキスト抽出部14により抽出された判定対象テキストに含まれる特定地点名称に対応するフラグ(同名フラグ、人名フラグ、一般語フラグ)の状態に応じた判定処理を実行する判定手段である。具体的には、同名フラグ(第2のフラグ)が立っていれば、判定部18Aは、判定対象テキスト中の特定地点名称がどの同名特定地点を示すものかを判定する処理(同名フラグ処理)を実行する。一方、人名フラグ又は一般語フラグ(第1のフラグ)が立っていれば、判定部18Aは、判定対象テキスト中の特定地点名称が特定地点を意味するのか、あるいは人名又は一般語を意味するのかを判定する処理(人名・一般語フラグ処理)を実行する。
The
まず同名フラグ処理について説明する。判定部18Aは、有名度記憶部17に記憶されている同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定する。判定部18Aは、例えば判定対象テキストに含まれる特定地点名称(以下「判定対象特定地点名称」という)と同一名称の同名特定地点のうち最大の有名度をもつ特定地点(以下、判定対象特定地点名称と同一名称の同名特定地点のうち最大の有名度をもつ特定地点のことを指して「有名特定地点」ともいう)の有名度に基づいて、判定対象テキスト中で判定対象特定地点名称が有名特定地点を示すものか否かを判定する。例えば、判定部18Aは、有名特定地点の有名度が所定の閾値以上であるか否かを判定し、有名特定地点の有名度が所定の閾値以上であれば、判定対象テキスト中で判定対象特定地点名称は有名特定地点を示す(判定対象特定地点名称は有名特定地点を意味するものとして用いられている)と判定する。また、判定部18Aは、有名特定地点の有名度が所定の閾値未満であれば、以下の同名判定処理を実行する。ここで、所定の閾値は、管理者等により任意の値に設定されるものである。所定の閾値は、例えば判定部18Aにより読み取り可能な設定ファイル等として保持される。
First, the same name flag process will be described. The determination unit 18 </ b> A determines whether or not to execute the same name determination process based on the famousness of the same name specific point stored in the
同名判定処理とは、判定対象テキスト中に含まれる特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が同名特定地点のうちどの特定地点を示すものかを判定する処理である。より具体的には、同名判定処理は、判定対象テキスト内に、例えば判定対象特定地点名称と判定対象特定地点名称が示す特定地点に対応する周辺地名(又は特徴語、最寄りの駅名等)とが含まれていれば、判定対象特定地点名称が周辺地名(又は特徴語、最寄りの駅名など)に対応する特定地点を意味すると判定する処理である。同名判定処理では、例えば判定対象特定地点名称である「清水寺」が含まれる判定対象テキスト中に、当該判定対象特定地点名称に対応する周辺地名の一つである「京都」が含まれていれば、当該判定対象特定地点名称は「京都の清水寺」を示すものであると判定される。一方、判定対象テキスト中に判定対象特定地点名称が示す特定地点に対応する周辺地名が一つも含まれていなければ、判定対象特定地点名称は特定地点を示すものとは判定されない。 With the same name determination process, based on a character string other than the specific point name included in the determination target text, it is determined which specific point among the same name specific points in the determination target text. It is processing. More specifically, in the determination target text, the same name determination process includes, for example, a determination target specific spot name and a surrounding place name (or a feature word, the nearest station name, etc.) corresponding to the specific point indicated by the determination target specific spot name. If included, it is a process for determining that the determination target specific point name means a specific point corresponding to the name of a surrounding place (or a feature word, the nearest station name, etc.). In the same-name determination process, for example, if “Kyoto”, which is one of the surrounding place names corresponding to the determination target specific point name, is included in the determination target text including “Kiyomizu Temple” which is the determination target specific point name. The determination target specific point name is determined to indicate “Kiyomizu Temple in Kyoto”. On the other hand, the determination target specific point name is not determined to indicate the specific point unless the determination target text includes any one of the surrounding place names corresponding to the specific point indicated by the determination target specific point name.
例えば、判定部18Aは、有名特定地点の有名度の割合(全ての同名特定地点の有名度の総計に対する割合)が所定の閾値以上か否かを判定することで、判定対象特定地点名称が有名特定地点を示すものか否かを判定することができる。
For example, the
例えば、判定対象特定地点名称が「清水寺」であり、所定の閾値を70%とした場合を考える。この場合、図5(a)の例では、京都市の清水寺を示す特定地点のTW数が最大となり全体のおよそ88%を占めるため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。また、図5(b)の例でも、京都市の清水寺を示す特定地点のTW数が最大となり全体のおよそ76%を占めるため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。
For example, let us consider a case where the determination target specific point name is “Kiyomizu Temple” and the predetermined threshold is 70%. In this case, in the example of FIG. 5A, the number of TW at a specific point indicating Kiyomizu-dera in Kyoto City is the largest and occupies approximately 88% of the total, so the
また、判定部18Aは、例えば、有名度が1位(最大)の特定地点の有名度と2位の特定地点の有名度との差が全ての同名特定地点の有名度の総計に対して占める割合が所定の閾値以上か否かを判定することで、判定対象特定地点名称が有名特定地点を示すものか否かを判定してもよい。
Further, in the
例えば、判定対象特定地点名称が「清水寺」であり、所定の閾値を70%とした場合を考える。この場合、図5(a)の例では、全ての同名特定地点の有名度の総計(200)に対してTW数が1位の京都市の清水寺とTW数が2位のいすみ市の清水寺とのTW数の差(176)が占める割合は、およそ88%となる。このため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。
For example, let us consider a case where the determination target specific point name is “Kiyomizu Temple” and the predetermined threshold is 70%. In this case, in the example of FIG. 5 (a), Kiyomizu-dera Temple in Kyoto City with the first TW number and Kiyomizu-dera Temple in Isumi City with the second TW number with respect to the total famousity (200) of all the specific points with the same name. The ratio occupied by the difference in the number of TWs (176) is approximately 88%. Therefore, the
一方、図5(b)の例では、全ての同名特定地点の有名度の総計(241)に対してTW数が1位の京都市の清水寺とTW数が2位のいすみ市の清水寺とのTW数の差(135)が占める割合は、およそ56%となる。このため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものとは判定せずに、同名判定処理を実行する。ここで、判定部18Aは、同名特定地点のうち、有名度が所定値以下の同名特定地点を除外して同名判定処理を実行してもよい。例えば、判定部18Aは、所定値(ここでは一例として「10」)以下の同名特定地点を除外して、TW数が2位のいすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれるか否かの判定のみを実行する。ここで、判定部18Aは、いすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれると判定した場合に、判定対象特定地点名称がいすみ市の清水寺を示すものと判定する。一方、判定部18Aは、いすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれないと判定した場合には、判定対象特定地点名称が有名特定地点に該当する京都市の清水寺を示すものと判定する。
On the other hand, in the example of FIG. 5 (b), Kiyomizu-dera in Kyoto City with the highest TW number and Kiyomizu-dera Temple in Isumi City with the second highest TW number with respect to the total famousity (241) of all the specific points with the same name. The ratio occupied by the difference in TW number (135) is approximately 56%. Therefore, the
このような判定処理を行うことにより、判定部18Aは、例えばイベント(例えば祭り等)等の開催によって2位のTW数が急な盛り上がりを示した場合等において、トレンドを考慮した適切な判定を行うことができる。また、該当する可能性が低い同名特定地点(有名度が所定値以下の同名特定地点)を予め除外しているので、特定地点名称の抽出を効率よく且つ精度よく行うことができる。
By performing such a determination process, the
ここで、上述の同名判定処理において判定対象特定地点名称が示す同名特定地点を特定できなかった場合(いずれの同名特定地点についても、対応する周辺地名又は特徴語が判定対象テキストに含まれていなかった場合)には、判定対象特定地点名称が有名特定地点を示すものと判定してもよい。これにより、特定地点名称の抽出の再現率を高めることができる。 Here, when the same name specific point indicated by the determination target specific point name could not be specified in the above-mentioned same name determination process (for any same name specific point, the corresponding surrounding place name or feature word is not included in the determination target text In this case, it may be determined that the determination target specific point name indicates a famous specific point. Thereby, the reproduction rate of extraction of a specific point name can be raised.
次に人名・一般語フラグ処理について説明する。判定部18Aは、判定対象特定地点名称に対応する人名フラグ又は一般語フラグ(第1のフラグ)が立っていれば、判定対象特定地点名称に関連付けて特徴語記憶部15Aに記憶されている特徴語が判定対象テキストに含まれているか否かを判定する。判定部18Aは、当該特徴語が判定対象テキストに含まれている場合には、判定対象テキスト中で判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部18Aは、当該特徴語が判定対象テキストに含まれていない場合には、判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味すると判定する。
Next, personal name / general word flag processing will be described. If the personal name flag or the general word flag (first flag) corresponding to the determination target specific spot name is set, the
判定部18Aは、判定対象テキストと判定結果とを関連付けた判定結果データを出力する。ここで、判定結果とは、人名・一般語フラグ処理において当該判定対象テキストが特定地点を意味すると判定されたことを示す情報である。判定部18Aにより出力された判定結果データは、データベース等である判定結果記憶部19に記憶される。この判定結果データは、後述する特徴語生成部20Aによる特徴語の生成のために蓄積される。
The
特徴語生成部20Aは、図4に示すように、判定結果記憶部19に記憶された判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶部15Aに記憶する特徴語生成手段である。特徴語生成部20Aは、判定結果記憶部19に所定期間内(例えば数時間〜数日)に記憶された判定結果データに基づいて特徴語を生成する。具体的には、特徴語生成部20は、例えば判定結果データに含まれる判定対象テキストから公知の固有表現抽出技術により固有表現を抽出し、抽出した固有表現のうち出現頻度が所定の閾値以上の固有表現(関連語)を特徴語として生成することができる。また、特徴語生成部20Aは、判定結果データに含まれる判定対象テキストに対してtfidf、ダイス係数等を用いることで特徴語を生成してもよい。以下の説明においては、このように判定結果データに基づいて生成された特徴語のことを、静的特徴語と区別して動的特徴語ともいう。
As shown in FIG. 4, the feature word generation unit 20A generates a feature word based on the determination result data stored in the determination
特徴語生成部20Aによって生成された動的特徴語は、予め特徴語記憶部15Aに記憶されている静的特徴語と共に特徴語記憶部15Aに記憶される。特徴語記憶部15Aに記憶される静的特徴語及び動的特徴語は、判定部18Aによる判定においては、特に区別されることなく用いられる。
The dynamic feature words generated by the feature word generation unit 20A are stored in the feature
このように、特徴語生成部20Aが判定結果データに基づいて生成した動的特徴語は、特徴語として特徴語記憶部15Aに記憶されるので、特徴語記憶部15Aに記憶される特徴語は次第に増えていく。これにより、判定部18Aによる判定における特定地点名称の抽出の再現率が高められる。なお、特徴語生成部20が判定結果データから動的特徴語を生成する頻度(周期)、並びに動的特徴語の生成に用いる判定結果データの対象期間及びデータ数等は、例えば管理者等によって任意に設定される。
In this way, the dynamic feature words generated based on the determination result data by the feature word generation unit 20A are stored as feature words in the feature
次に、図6〜図8を用いて、本実施形態に係る特定地点名称判定方法を含む特定地点名称判定装置1Aの動作を説明する。 Next, operation | movement of 1 A of specific spot name determination apparatuses containing the specific spot name determination method which concerns on this embodiment is demonstrated using FIGS.
図6に示すように、テキスト抽出部14により、特定地点情報記憶部13に記憶された特定地点情報が読み取られ、読み取られた特定地点情報がRAM102上にロードされる(ステップS101)。また、テキスト取得部11により、テキスト入力部2から投稿テキストが取得され、取得された投稿テキストがテキスト格納部12に格納される(ステップS102)。続いて、テキスト抽出部14により、テキスト格納部12に記憶されている複数の投稿テキストのうちから、RAM102上にロードされた特定地点情報に関連付けられた特定地点名称を含む判定対象テキストが抽出される(ステップS103、テキスト取得ステップ)。
As shown in FIG. 6, the text extraction unit 14 reads the specific spot information stored in the specific spot
続いて、判定部18Aにより、特定地点名称判定方法の判定ステップを含む処理(ステップS104〜ステップS107)が実行される。ただし、ステップS107に含まれるステップS304に示す特徴語の生成処理は、特徴語生成部20Aにより実行される。まず、判定対象特定地点名称に対応する同名フラグが立っているか否かが判定される(ステップS104)。同名フラグが立っている場合(ステップS104:YES)には、同名フラグ処理が実行される(ステップS105)。一方、同名フラグが立っていない場合(ステップS104:NO)には、特定地点名称に対応する人名フラグ又は一般語フラグが立っているか否かが判定される(ステップS106)。ここで、人名フラグ又は一般語フラグが立っている場合(ステップS106:YES)には、人名・一般語フラグ処理が実行される(ステップS107)。一方、人名フラグ及び一般語フラグのいずれも立っていない場合(ステップS106:NO)には、判定対象特定地点名称に曖昧性はない(判定対象特定地点名称が示す特定地点が一意に定まる)ので、処理を終了する。
Subsequently, processing (step S104 to step S107) including a determination step of the specific spot name determination method is executed by the
図7は、図6に示す同名フラグ処理のフロー図である。図7に示すように、同名フラグ処理では、まず、判定部18Aが、有名度記憶部17を参照することで、判定対象特定地点名称と同一名称の同名特定地点の有名度を参照する(ステップS201)。続いて、判定部18Aにより、同名特定地点のうち最大の有名度をもつ特定地点(有名特定地点)の有名度が所定の閾値以上であるか否かが判定される(ステップS202)。有名特定地点の有名度が所定の閾値以上である場合(ステップS202:YES)には、特定地点名称は有名特定地点を示すものと判定される(ステップS203)。一方、有名特定地点の有名度が所定の閾値未満である場合(ステップS202:NO)には、上述した同名判定処理が実行される(ステップS204)。
FIG. 7 is a flowchart of the same name flag processing shown in FIG. As shown in FIG. 7, in the same name flag process, first, the
図8は、図6に示す人名・一般語フラグ処理を示すフロー図である。図8に示すように、人名・一般語フラグ処理では、まず、判定対象特定地点名称に関連付けて特徴語記憶部15Aに記憶されている特徴語(静的特徴語)が判定対象テキストに含まれているか否か、すなわち特定地点名称と特徴語との組み合わせが判定対象テキストに含まれているか否かが判定される(ステップS301)。判定対象特定地点名称に対応する特徴語が判定対象テキストに含まれている場合(ステップS301:YES)には、判定部18Aにより、判定対象テキスト中で判定対象特定地点名称が特定地点を意味する(地名・施設名称を指している)と判定される(ステップS302)。この判定結果と判定対象テキストとを関連付けた判定結果データは、判定結果記憶部19に記憶される(ステップS303)。そして、特徴語生成部20Aが、管理者等により予め定められた任意のタイミングで、判定結果記憶部19に記憶された判定結果データに基づいて動的特徴語を生成し、生成した動的特徴語を特徴語記憶部15Aに記憶する(ステップS304)。これにより、次に特定地点名称判定装置1Aを用いた判定処理を実行する際には、ステップS301において、予め管理者等により記憶された静的特徴語と共に、ステップS304で特徴語生成部20Aにより生成された動的特徴語を用いた判定処理が実行されることとなる。
FIG. 8 is a flowchart showing the personal name / general word flag processing shown in FIG. As shown in FIG. 8, in the personal name / general word flag process, first, a feature word (static feature word) stored in the feature
一方、判定対象特定地点名称に対応する特徴語が判定対象テキストに含まれていない場合(ステップS301:NO)には、判定部18Aにより、判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味すると判定される(ステップS305)。
On the other hand, when the characteristic word corresponding to the determination target specific spot name is not included in the determination target text (step S301: NO), the
以上述べた特定地点名称判定装置1Aでは、一連の判定処理が繰り返されることで、特徴語記憶部15Aに記憶される特徴語が増えていく(動的特徴語が追加されていく)ため、判定部18Aによる判定において、判定対象テキスト中で特定地点を意味する特定地点名称を適切に抽出(特定地点を意味すると判定)できる可能性を高めることができる。すなわち、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。
In the specific point
また、この特定地点名称判定装置1Aでは、判定対象特定地点名称と同一名称の同名特定地点が複数存在する場合(第2のフラグが立っている場合)において、判定部18Aは、有名特定地点の有名度が所定の閾値以上である場合には、上述の同名判定処理を実行することなく、判定対象特定地点名称が有名特定地点を示すものと判定することができる。これにより、判定対象テキスト中に特定地点名称に対応する周辺地名が含まれていない場合であっても、特定地点の有名度に基づいて特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。
Moreover, in this specific point
また、この特定地点名称判定装置1Aでは、有名度算出部16が、周辺地名テキストの数、特徴語テキストの数、及びチェックイン数等に基づいて、同名特定地点毎の有名度を適切に算出することができる。そして、判定部18Aがこのようにして算出された有名度に基づいて特定地点名称の判定を行うことにより、特定地点名称の抽出の精度の向上が図られる。
Moreover, in this specific point
[第2実施形態]
図9は、本発明の第2実施形態に係る特定地点名称判定装置1Bの機能構成を示すブロック図である。特定地点名称判定装置1Bは、特定地点名称判定装置1Aの特徴語記憶部15A、判定部18A、及び特徴語生成部20Aがそれぞれ、特徴語記憶部15B、判定部18B、及び特徴語生成部20Bに置き換わった点において、特定地点名称判定装置1Aとは異なっている。また、特定地点名称判定装置1Bは、判定モデル記憶部21を備えている点で特定地点名称判定装置1Aとは異なっている。以下、特定地点名称判定装置1Bが特定地点名称判定装置1Aと異なっている点を主に説明する。
[Second Embodiment]
FIG. 9 is a block diagram showing a functional configuration of the specific point
特徴語記憶部15Bは、特定地点名称がテキスト中で特定地点を意味しないことを特徴付ける単語である不正解特徴語を特徴語と共に特定地点名称毎に記憶する特徴語記憶手段である。本実施形態では、不正解特徴語は、特定地点名称がテキスト中で特定地点以外の人名又は一般語を意味することを特徴付ける単語である。ここで、不正解特徴語は、特定地点名称がテキスト中で特定地点を意味しない(テキスト中で人名又は一般語を意味する)ものとして用いられている一以上の文章に基づいて予め管理者等により抽出され、特徴語記憶部15Bに記憶されている。不正解特徴語は、特徴語と同様に、例えばtfidf等によって抽出される。特徴語記憶部15Bに記憶される特徴語については、特徴語記憶部15Aに記憶される特徴語と同様であるため説明を省略する。
The feature
判定モデル記憶部21は、判定対象テキストを入力して特定地点名称が当該判定対象テキスト中で特定地点を意味するか否かを判定する判定モデルを記憶する判定モデル記憶手段である。判定モデルは、例えば機械学習により生成された学習モデルである。この学習モデルは、例えば予め管理者等により用意される。ここで、機械学習としては、例えばCRF(Conditional Random Fields:条件付き確率場)やSVM(SupportVector Machine)等の手法を用いることができる。また、学習モデルは、例えば、特定地点名称が含まれるテキストを説明変数とし、当該テキスト中で当該特定地点名称が何を意味するか(特定地点、人名、一般語等のうちいずれの意味で用いられているか)を示す情報を目的変数とした教師付データに基づいてCRF及びSVM等の機械学習を行うことで得られる。
The determination
ここで、判定モデルは、例えば、特定地点名称が人名を意味するか否かを判定するモデル(人名モデル)、特定地点名称が一般語を意味するか否かを判定するモデル(一般語モデル)といったように、カテゴリ別の判定モデルから構成されていてもよい。 Here, the determination model is, for example, a model (person name model) for determining whether or not the specific point name means a person name, and a model (general language model) for determining whether or not the specific point name means a general word. As described above, the determination model may be configured by category.
判定部18Bは、判定モデル記憶部21に記憶された判定モデルと、特徴語記憶部15Bに記憶されている特徴語及び不正解特徴語とに基づいて判定対象テキスト中で判定対象特定地点名称が特定地点を意味するか否かを判定する判定手段である。
The
具体的には、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を意味する)と判定する。
Specifically, when the
また、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている不正解特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を意味する)と判定する。
Further, when the
判定部18Bは、判定対象テキストと判定結果とを関連付けた判定結果データを出力する。ここで、判定結果とは、判定対象テキストに含まれる特定地点名称が判定部18Bによって特定地点、人名、及び一般語のいずれを意味するものと判定されたかを示す情報である。判定部18Bにより出力された判定結果データは、判定結果記憶部19に記憶される。この判定結果データは、後述する特徴語生成部20Aによる特徴語又は不正解特徴語の生成のために蓄積される。
The
ここで、判定モデル記憶部21にカテゴリ別の判定モデル(人名モデル、一般語モデル)が記憶されている場合には、判定部18Bは、判定モデルに基づく判定の際に、判定対象特定地点名称に対応する第1のフラグ(人名フラグ、一般語フラグ)に対応する判定モデルを用いて判定を行うことができる。具体的には、人名フラグが立っている場合には、判定部18Bは、人名モデルを用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が人名を意味するか否かを判定することができる。また、一般語フラグが立っている場合には、判定部18Bは、一般語モデルを用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が一般語を意味するか否かを判定することができる。また、人名フラグ及び一般語フラグの両方が立っている場合には、判定部18Bは、人名モデル及び一般語モデルの両方を用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味するか否かを判定することができる。
Here, in the case where determination models for each category (personal name model, general language model) are stored in the determination
特徴語生成部20Bは、判定結果記憶部19に記憶された判定結果データに基づいて特徴語又は不正解特徴語を生成し、生成した特徴語又は不正解特徴語を特徴語記憶部15Bに記憶する特徴語生成手段である。具体的には、特徴語生成部20Bは、判定部18Bによって特定地点を意味するものと判定された特定地点名称を含む判定対象テキストを判定結果データから抽出し、当該判定対象テキストから特徴語を生成する。また、特徴語生成部20Bは、判定部18Bによって人名又は一般語を意味するものと判定された特定地点名称を含む判定対象テキストを判定結果データから抽出し、当該判定対象テキストから不正解特徴語を生成する。特徴語生成部20Bは、例えば公知の固有表現抽出技術により抽出した固有表現(関連語)を特徴語又は不正解特徴語として生成することができる。また、特徴語生成部20Bは、tfidf、ダイス係数などを用いて特徴語又は不正解特徴語を生成してもよい。
The feature
特徴語生成部20Bによって生成された特徴語又は不正解特徴語は、予め特徴語記憶部15Bに記憶されている特徴語及び不正解特徴語と共に特徴語記憶部15Bに記憶される。特徴語生成部20Bによって特徴語記憶部15Bに記憶される特徴語又は不正解特徴語と、予め管理者等により特徴語記憶部15Bに記憶されている特徴語及び不正解特徴語とは、判定部18Aによる判定においては、特に区別されることなく用いられる。
The feature word or the incorrect answer feature word generated by the feature
次に、図10を用いて、特定地点名称判定装置1Bの動作を説明する。まず、判定部18Bが、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味するか否かを判定する(ステップS401)。ステップS401において判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定された場合(ステップS401:NO)には、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている特徴語が当該判定対象テキストに含まれているか否かが判定される(ステップS402)。一方、ステップS401において判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定された場合(ステップS401:YES)には、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている不正解特徴語が当該判定対象テキストに含まれているか否かが判定される(ステップS403)。
Next, operation | movement of the specific point
ステップS402において判定対象特定地点名称に関連付けられる特徴語が判定対象テキストに含まれていなければ(ステップS402:NO)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を指している)と判定される(ステップS405)。一方、ステップS402において判定対象特定地点名称に関連付けられる特徴語が判定対象テキストに含まれていれば(ステップS402:YES)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味する(地名・施設名称を指している)と判定される(ステップS404)。 If the feature word associated with the determination target specific spot name is not included in the determination target text in step S402 (step S402: NO), the determination target specific spot name does not mean a specific spot in the determination target text (specific (It refers to a person name or general term other than the point)) (step S405). On the other hand, if the determination target text includes a feature word associated with the determination target specific spot name in step S402 (step S402: YES), the determination target specific spot name in the determination target text means a specific spot. It is determined (points to a place name / facility name) (step S404).
ステップS403において判定対象特定地点名称に関連付けられる不正解特徴語が判定対象テキストに含まれていなければ(ステップS403:NO)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味する(地名・施設名称を指している)と判定される(ステップS404)。一方、ステップS403において判定対象特定地点名称に関連付けられる不正解特徴語が判定対象テキストに含まれていれば(ステップS403:YES)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を指している)と判定される(ステップS405)。 If the incorrect characteristic word associated with the determination target specific point name is not included in the determination target text in step S403 (step S403: NO), the determination target specific point name means the specific point in the determination target text. It is determined (points to a place name / facility name) (step S404). On the other hand, if the incorrect target characteristic word associated with the determination target specific spot name is included in the determination target text in step S403 (step S403: YES), the determination target specific spot name in the determination target text indicates the specific spot. It is determined that it does not mean (refers to a person name or general term other than a specific point) (step S405).
続いて、ステップS404又はステップS405での判定結果と判定対象テキストとを関連付けた判定結果データが、判定結果記憶部19に記憶される(ステップS406)。そして、特徴語生成部20Bが、管理者等により予め定められた任意のタイミングで、判定結果記憶部19に記憶された判定結果データに基づいて動的特徴語又は不正解特徴語を生成し、生成した動的特徴語又は不正解特徴語を特徴語記憶部15Bに記憶する(ステップS407)。これにより、次に特定地点名称判定装置1Bを用いた判定処理を実行する際には、ステップS402において、予め管理者等により記憶された特徴語と共に、ステップS407で特徴語生成部20Bにより生成された特徴語を用いた判定処理が実行されることとなる。また、ステップS403においては、予め管理者等により記憶された不正解特徴語と共に、ステップS407で特徴語生成部20Bにより生成された不正解特徴語を用いた判定処理が実行されることとなる。
Subsequently, determination result data in which the determination result in step S404 or step S405 is associated with the determination target text is stored in the determination result storage unit 19 (step S406). Then, the feature
以上述べた特定地点名称判定装置1Bによれば、判定モデルによる判定と、特徴語又は不正解特徴語を用いた判定とを併せて行うことで、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めると共に精度(適合率)を高めることができる。具体的には、判定部18Bは、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味しないと判定された場合であっても、当該特定地点名称が特定地点を意味することを特徴付ける特徴語が含まれていれば、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の再現率が高められる。一方、判定部18Bは、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味すると判定された場合には、当該特定地点名称が特定地点を意味しないことを特徴付ける不正解特徴語が含まれていないことをもって、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の精度を高めることができる。
According to the specific point
次に、図11を用いて、本発明の一実施形態に係る特定地点名称判定プログラムP1について説明する。特定地点名称判定プログラムP1は、コンピュータを特定地点名称判定装置1Aとして機能させるためのプログラムである。
Next, the specific point name determination program P1 according to one embodiment of the present invention will be described using FIG. The specific point name determination program P1 is a program for causing a computer to function as the specific point
図11は、特定地点名称判定プログラムP1のモジュールを示すブロック図である。図11に示すように、特定地点名称判定プログラムP1は、特定地点情報記憶モジュールP11と、特徴語記憶モジュールP12と、テキスト取得モジュールP13と、テキスト抽出モジュールP14と、判定モジュールP15と、特徴語生成モジュールP16とを備える。上記の特定地点情報記憶モジュールP11、特徴語記憶モジュールP12、テキスト取得モジュールP13、テキスト抽出モジュールP14、判定モジュールP15、及び特徴語生成モジュールP16が実行されることにより実現される機能は、上述した特定地点名称判定装置1Aにおいて対応する特定地点情報記憶部13、特徴語記憶部15A、テキスト取得部11、テキスト抽出部14、判定部18A、及び特徴語生成部20Aの機能と同様である。
FIG. 11 is a block diagram showing modules of the specific point name determination program P1. As shown in FIG. 11, the specific point name determination program P1 includes a specific point information storage module P11, a feature word storage module P12, a text acquisition module P13, a text extraction module P14, a determination module P15, and a feature word generation. Module P16. The functions realized by executing the specific point information storage module P11, the feature word storage module P12, the text acquisition module P13, the text extraction module P14, the determination module P15, and the feature word generation module P16 are as described above. The functions of the specific point
このように構成された特定地点名称判定プログラムP1は、例えばCD−ROM及びDVD等の記録媒体に記憶され、特定地点名称判定装置1Aとして用いられるコンピュータにより実行される。具体的には、当該コンピュータは、例えばCD−ROMドライブ及びDVDドライブ等の記録媒体読取部を備えている。記録媒体読取部に記録媒体が挿入されると、当該コンピュータは、記録媒体読取部から記録媒体に格納された特定地点名称判定プログラムP1にアクセス可能となる。そして、特定地点名称判定プログラムP1を当該コンピュータに実行させることによって、当該コンピュータを、特定地点名称判定装置1Aとして動作させることが可能となる。
The specific point name determination program P1 configured as described above is stored in a recording medium such as a CD-ROM and a DVD, and is executed by a computer used as the specific point
なお、特定地点名称判定プログラムP1は、搬送波に重畳されたデータ信号としてネットワークを介して提供されるものであってもよい。この場合、特定地点名称判定装置1Aとして用いられるコンピュータは、通信モジュール106によって受信した特定地点名称判定プログラムP1をCPU101又はRAM102に格納することにより、特定地点名称判定プログラムP1を実行することができる。
The specific point name determination program P1 may be provided via a network as a data signal superimposed on a carrier wave. In this case, the computer used as the specific location
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲において様々な変形が可能である。 The present invention has been described in detail based on the embodiments. However, the present invention is not limited to the above embodiment. The present invention can be variously modified without departing from the gist thereof.
例えば、本実施形態では、特定地点の例として、施設(清水寺)、湖沼(大沼)、山岳(函館山)のPOIを示したが、特定地点は、例えば観光地、繁華街、駅前等の何らかの地点を示すものであれば何でもよい。 For example, in this embodiment, POIs of facilities (Kiyomizu-dera), lakes (Oonuma), and mountains (Mt. Hakodate) are shown as examples of specific points, but the specific points are, for example, sightseeing spots, downtown areas, station fronts, etc. Anything can be used as long as it indicates a point.
また、本実施形態では、特定地点以外を意味するものの例として、人名及び一般語を挙げたが、その他のカテゴリを用いてもよい。例えば、駅名を示すものについては特定地点から除外したい場合には、駅名と同一名称であることを示す駅名フラグを第1のフラグとしてもよい。 Moreover, in this embodiment, although a person name and a general term were mentioned as an example of what means other than a specific point, you may use another category. For example, when it is desired to exclude a station name from a specific point, a station name flag indicating the same name as the station name may be used as the first flag.
また、本実施形態では、フラグの状態に応じた場合分けにより、同名フラグ処理と人名・一般語フラグ処理とのいずれかの処理を実施するものとして説明したが、両方のフラグが立っている場合には、両方の処理を実行して、総合的に判定することとしてもよい。また、本実施形態では、同名フラグ処理を優先させたが、人名・一般語フラグ処理を優先させてもよい。 Further, in the present embodiment, it has been described that either the same name flag process or the personal name / general word flag process is performed depending on the case according to the state of the flag, but both flags are set. Alternatively, both processes may be executed to make a comprehensive determination. In the present embodiment, priority is given to the same name flag processing, but personal name / general word flag processing may be prioritized.
1A,1B…特定地点名称判定装置、2…テキスト入力部、11…テキスト取得部、12…テキスト格納部、13…特定地点情報記憶部、14…テキスト抽出部、15…特徴語記憶部、16…有名度算出部、17…有名度算出部、18A,18B…判定部、19…判定結果記憶部、20A,20B…特徴語生成部、21…判定モデル記憶部、101…CPU、102…RAM、103…ROM、104…入力装置、105…出力装置、106…通信モジュール、107…補助記憶装置、P1…特定地点名称判定プログラム、P11…特定地点情報記憶モジュール、P12…特徴語記憶モジュール、P13…テキスト取得モジュール、P14…判定モジュール、P15…特徴語生成モジュール。
DESCRIPTION OF
Claims (8)
前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
テキストを取得するテキスト取得手段と、
前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、
前記判定対象テキストに含まれる特定地点名称に対応する前記第1のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定手段と、
前記判定対象テキストと当該判定対象テキストに対する前記判定手段による判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成手段と、
を備える特定地点名称判定装置。 Specific point information storage means for storing specific point information that associates a specific point name indicating a name of a predetermined specific point with a first flag indicating that the specific point name has a meaning other than the specific point When,
Feature word storage means for storing, for each specific point, a characteristic word that is a word characterizing that the specific point name means the specific point in the text;
A text acquisition means for acquiring text;
A text extraction unit that extracts a determination target text including a specific point name associated with the specific point information from the text acquired by the text acquisition unit;
The first flag corresponding to the specific spot name included in the determination target text indicates that the specific spot name has a meaning other than the specific spot, and the feature word storage means is associated with the specific spot name. If the feature word stored in the determination target text is included in the determination target text, determination means for determining that the specific point name means the specific point in the determination target text;
Feature word generating means for generating the feature word based on determination result data in which the determination target text is associated with a determination result by the determination means for the determination target text, and storing the generated feature word in the feature word storage means When,
A specific point name determination device comprising:
前記特徴語記憶手段は、前記特定地点名称がテキスト中で前記特定地点を意味しないことを特徴付ける単語である不正解特徴語を前記特徴語と共に前記特定地点名称毎に記憶し、
前記判定手段は、前記判定モデルに基づいて前記判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で前記特定地点を意味しないと判定した場合において、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定し、前記判定モデルに基づいて前記判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で前記特定地点を意味すると判定した場合において、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定し、
前記特徴語生成手段は、前記判定結果データに基づいて前記特徴語又は前記不正解特徴語を生成し、生成した特徴語又は不正解特徴語を前記特徴語記憶手段に記憶する、
請求項1記載の特定地点名称判定装置。 A determination model storage means for storing a determination model for inputting the determination target text and determining whether the specific point name means the specific point in the determination target text;
The feature word storage means stores an incorrect answer feature word that is a word characterizing that the specific point name does not mean the specific point in the text together with the characteristic word for each specific point name,
When the determination unit determines that the specific point name included in the determination target text does not mean the specific point in the determination target text based on the determination model, the characteristic word is associated with the specific point name. If the feature word stored in the storage means is included in the determination target text, it is determined that the specific point name means the specific point in the determination target text, and the determination target is based on the determination model. When it is determined that the specific point name included in the text means the specific point in the determination target text, an incorrect feature word stored in the characteristic word storage unit in association with the specific point name is the determination target If it is not included in the text, it is determined that the specific point name means the specific point in the determination target text.
The feature word generation means generates the feature word or the incorrect answer feature word based on the determination result data, and stores the generated feature word or incorrect answer feature word in the feature word storage means.
The specific point name determination apparatus according to claim 1.
前記同名特定地点の各々について、予め算出された有名度を記憶する有名度記憶手段と、を更に備え、
前記判定手段は、前記判定対象テキストに含まれる特定地点名称に対応する前記第2のフラグが前記同名特定地点が複数存在することを示している場合には、前記有名度記憶手段に記憶されている前記同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定し、
前記同名判定処理は、前記判定対象テキスト中に含まれる前記特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が前記同名特定地点のうちどの特定地点を示すものかを判定する処理である、
請求項1又は2記載の特定地点名称判定装置。 The specific point information is associated with a second flag indicating that there are a plurality of the same name specific points which are specific points having the same name as the specific point name associated with the specific point information,
For each of the same-name specific points, further comprising a famousness storage means for storing a pre-calculated famousness,
If the second flag corresponding to the specific point name included in the determination target text indicates that there are a plurality of the same name specific points, the determination unit is stored in the famousness storage unit. Determine whether to execute the same name determination process based on the famousness of the same name specific point
Based on a character string other than the specific point name included in the determination target text, the same name determination process indicates which specific point among the same name specific points in the determination target text. Is a process for determining
The specific point name determination apparatus according to claim 1 or 2.
請求項3記載の特定地点名称判定装置。 The determination means does not perform the same name determination process when the famousness of the specific point having the highest famousness among the same name specific points is equal to or greater than a predetermined threshold, and the specific point included in the determination target text It is determined that the point name indicates the specific point having the maximum famousness, and the same name determination process is executed when the famous point of the specific point having the maximum famousness among the specific points having the same name is less than a predetermined threshold To
The specific point name determination apparatus according to claim 3.
請求項4記載の特定地点名称判定装置。 The determination means, when the famousness of the specific point having the highest famousness among the same name specific points is less than a predetermined threshold, out of the same name specific points, the same name specific point having the famousness below a predetermined value. Exclude and execute the same name determination process,
The specific point name determination apparatus according to claim 4.
請求項3〜5のいずれか一項記載の特定地点名称判定装置。 The number of surrounding place name texts including both the specified point and the surrounding place name corresponding to the specified point, the number of feature word texts including both the specified point and the feature word corresponding to the specified point, and Calculating the famousness of the specific point based on at least one of the check-in numbers indicating the number of times the user of the mobile communication terminal has stayed at the specific point, and storing the calculated famousness in the famousity storage means Further comprising a celebrity calculation means,
The specific point name determination apparatus as described in any one of Claims 3-5.
前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
を備える特定地点名称判定装置により実行される特定地点名称判定方法であって、
テキストを取得するテキスト取得ステップと、
前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得ステップにおいて取得されたテキストのうちから抽出するテキスト抽出ステップと、
前記判定対象テキストに含まれる特定地点名称に対応する前記第1のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定ステップと、
前記判定対象テキストと当該判定対象テキストに対する前記判定ステップにおける判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成ステップと、
を含む特定地点名称判定方法。 Specific point information storage means for storing specific point information that associates a specific point name indicating a name of a predetermined specific point with a first flag indicating that the specific point name has a meaning other than the specific point When,
Feature word storage means for storing, for each specific point, a characteristic word that is a word characterizing that the specific point name means the specific point in the text;
A specific point name determination method executed by a specific point name determination device comprising:
A text acquisition step for acquiring text;
A text extraction step for extracting a determination target text including a specific point name associated with the specific point information from the text acquired in the text acquisition step;
The first flag corresponding to the specific spot name included in the determination target text indicates that the specific spot name has a meaning other than the specific spot, and the feature word storage means is associated with the specific spot name. If the characteristic word stored in the determination target text is included in the determination target text, a determination step for determining that the specific point name means the specific point in the determination target text;
A feature word generation step of generating the feature word based on determination result data in which the determination target text is associated with a determination result in the determination step for the determination target text, and storing the generated feature word in the feature word storage unit When,
Specific point name determination method including
予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が前記特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、
前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
テキストを取得するテキスト取得手段と、
前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、
前記判定対象テキストに含まれる特定地点名称に対応する前記第1のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定手段と、
前記判定対象テキストと当該判定対象テキストに対する前記判定手段による判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成手段
として機能させる特定地点名称判定プログラム。 Computer
Specific point information storage means for storing specific point information that associates a specific point name indicating a name of a predetermined specific point with a first flag indicating that the specific point name has a meaning other than the specific point When,
Feature word storage means for storing, for each specific point, a characteristic word that is a word characterizing that the specific point name means the specific point in the text;
A text acquisition means for acquiring text;
A text extraction unit that extracts a determination target text including a specific point name associated with the specific point information from the text acquired by the text acquisition unit;
The first flag corresponding to the specific spot name included in the determination target text indicates that the specific spot name has a meaning other than the specific spot, and the feature word storage means is associated with the specific spot name. If the feature word stored in the determination target text is included in the determination target text, determination means for determining that the specific point name means the specific point in the determination target text;
Feature word generating means for generating the feature word based on determination result data in which the determination target text is associated with a determination result by the determination means for the determination target text, and storing the generated feature word in the feature word storage means Specific point name determination program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013117083A JP6060039B2 (en) | 2013-06-03 | 2013-06-03 | Specific point name determination device, specific point name determination method, and specific point name determination program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013117083A JP6060039B2 (en) | 2013-06-03 | 2013-06-03 | Specific point name determination device, specific point name determination method, and specific point name determination program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014235597A true JP2014235597A (en) | 2014-12-15 |
JP6060039B2 JP6060039B2 (en) | 2017-01-11 |
Family
ID=52138247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013117083A Active JP6060039B2 (en) | 2013-06-03 | 2013-06-03 | Specific point name determination device, specific point name determination method, and specific point name determination program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6060039B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017166980A (en) * | 2016-03-16 | 2017-09-21 | 株式会社トヨタマップマスター | Navigation system, poi providing method, poi providing program, and recording medium |
WO2021241154A1 (en) * | 2020-05-26 | 2021-12-02 | 株式会社Nttドコモ | Poi popularity derivation device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008090334A (en) * | 2006-09-29 | 2008-04-17 | Nippon Telegr & Teleph Corp <Ntt> | Location analyzer, location analyzing method, its program, and recording medium |
JP2010128806A (en) * | 2008-11-27 | 2010-06-10 | Hitachi Ltd | Information analyzing device |
-
2013
- 2013-06-03 JP JP2013117083A patent/JP6060039B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008090334A (en) * | 2006-09-29 | 2008-04-17 | Nippon Telegr & Teleph Corp <Ntt> | Location analyzer, location analyzing method, its program, and recording medium |
JP2010128806A (en) * | 2008-11-27 | 2010-06-10 | Hitachi Ltd | Information analyzing device |
Non-Patent Citations (1)
Title |
---|
JPN6016043010; 平野 徹,外2名: '地理的距離と有名度を用いた地名の曖昧性解消' 第70回(平成20年)全国大会講演論文集(2) , 20080313, p.2-85〜2-86, 社団法人 情報処理学会 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017166980A (en) * | 2016-03-16 | 2017-09-21 | 株式会社トヨタマップマスター | Navigation system, poi providing method, poi providing program, and recording medium |
US10190884B2 (en) | 2016-03-16 | 2019-01-29 | Toyota Mapmaster Incorporated | Navigation system, POI presentation method, POI presentation program, and recording medium |
WO2021241154A1 (en) * | 2020-05-26 | 2021-12-02 | 株式会社Nttドコモ | Poi popularity derivation device |
JPWO2021241154A1 (en) * | 2020-05-26 | 2021-12-02 | ||
US20230229721A1 (en) * | 2020-05-26 | 2023-07-20 | Ntt Docomo, Inc. | Poi popularity derivation device |
JP7489459B2 (en) | 2020-05-26 | 2024-05-23 | 株式会社Nttドコモ | POI popularity calculation device |
US12026006B2 (en) * | 2020-05-26 | 2024-07-02 | Ntt Docomo, Inc. | POI popularity derivation device |
Also Published As
Publication number | Publication date |
---|---|
JP6060039B2 (en) | 2017-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866542B (en) | A kind of POI data verification method and device | |
JP6343010B2 (en) | Identifying entities associated with wireless network access points | |
JP6136702B2 (en) | Location estimation method, location estimation apparatus, and location estimation program | |
CN106033416A (en) | A string processing method and device | |
US9753945B2 (en) | Systems, methods, and computer-readable media for interpreting geographical search queries | |
KR101390220B1 (en) | Method for recommending appropriate developers for software bug fixing and apparatus thereof | |
CA3078148A1 (en) | Search method and apparatus, and non-temporary computer-readable storage medium | |
JP2018537760A (en) | Method and apparatus for account mapping based on address information | |
US20230194302A1 (en) | Method of updating map data, electronic device and storage medium | |
US20190087466A1 (en) | System and method for utilizing memory efficient data structures for emoji suggestions | |
JP2018055525A (en) | Text extraction device | |
JP6060039B2 (en) | Specific point name determination device, specific point name determination method, and specific point name determination program | |
JP2016162163A (en) | Information processor and information processing program | |
US20160085798A1 (en) | Method and system for storing user information | |
CN109241208B (en) | Address positioning method, address monitoring method, information processing method and device | |
US20160127873A1 (en) | Method of predicting location of rendezvous and electronic device for providing same | |
CN115168575A (en) | Subject supplement method applied to audit field and related equipment | |
KR101804020B1 (en) | Method for sns bot detection using geographic information | |
CN110059272B (en) | Page feature recognition method and device | |
CN111125272B (en) | Regional characteristic acquisition method, regional characteristic acquisition device, computer equipment and medium | |
CN113822057B (en) | Location information determination method, location information determination device, electronic device, and storage medium | |
CN111767722A (en) | Word segmentation method and device | |
CN107798103A (en) | Search method and device of space vector data, readable medium and storage controller | |
KR101542061B1 (en) | Method for processing point of interest intergration, apparatus and system for processing point of interest intergration | |
CN117851608B (en) | Case map generation method, device, equipment and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161021 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6060039 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |