JP2014235597A - Specific point name determination apparatus, specific point name determination method, and specific point name determination program - Google Patents

Specific point name determination apparatus, specific point name determination method, and specific point name determination program Download PDF

Info

Publication number
JP2014235597A
JP2014235597A JP2013117083A JP2013117083A JP2014235597A JP 2014235597 A JP2014235597 A JP 2014235597A JP 2013117083 A JP2013117083 A JP 2013117083A JP 2013117083 A JP2013117083 A JP 2013117083A JP 2014235597 A JP2014235597 A JP 2014235597A
Authority
JP
Japan
Prior art keywords
specific point
name
determination
specific
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013117083A
Other languages
Japanese (ja)
Other versions
JP6060039B2 (en
Inventor
山田 尚志
Hisashi Yamada
尚志 山田
桂一 落合
Keiichi Ochiai
桂一 落合
大祐 鳥居
Daisuke Torii
大祐 鳥居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013117083A priority Critical patent/JP6060039B2/en
Publication of JP2014235597A publication Critical patent/JP2014235597A/en
Application granted granted Critical
Publication of JP6060039B2 publication Critical patent/JP6060039B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve a recall ratio of extraction of a specific point name used as one meaning a specific point in a text.SOLUTION: A specific point name determination apparatus 1A comprises: a specific point information storage unit 13 storing therein a specific point name and specific point information; a feature word storage unit 15A storing therein a feature word characterizing that the specific point name means a specific point in a text per specific point; a text extraction unit 14 extracting a determination target text; a determination unit 18A determining that the specific point name means the specific point in the determination target text if a first flag is on to correspond to the specific point name included in the determination target text and the feature word stored in the feature word storage unit 15A so as to be associated with the specific point name is included in the determination target text; and a feature word generation unit 20 storing a feature word generated based on the determination target text determined by the determination unit 18A in the feature word storage unit 15A.

Description

本発明は、テキスト中の特定地点名称の判定を行う特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラムに関する。   The present invention relates to a specific point name determination apparatus, a specific point name determination method, and a specific point name determination program for determining a specific point name in a text.

従来、地名・施設名等の特定地点を示す表記(特定地点名称)をテキストから抽出する技術として、下記非特許文献1に示されるような技術が知られている。このような技術の基本的な方式は、予め特定地点名称を格納した地名辞書を用意しておき、テキスト中のワードと地名辞書とを照合することで、テキスト中の特定地点名称を検出するというものである。   Conventionally, as a technique for extracting notation (specific point name) indicating a specific point such as a place name / facility name from a text, a technique shown in Non-Patent Document 1 below is known. The basic method of such a technique is to prepare a place name dictionary in which a specific point name is stored in advance, and to detect a specific point name in the text by comparing the word in the text with the place name dictionary. Is.

ところで、特定地点名称の中には、例えば「大山」のように、地名として用いられると共に人名としても用いられる特定地点名称が存在する。また、例えば「清水寺」のように、異なる複数のエリア(京都市、大阪市等)に同一名称の施設が点在するような特定地点名称も存在する。従って、上記のような辞書ベースの照合だけでは、テキスト中の特定地点名称が地名・施設名等の特定地点を意味するものとして用いられているか否かを適切に判断できない場合がある。また、テキスト中の特定地点名称がどの特定地点を示すものであるのかを適切に判別できない場合もある。   By the way, in the specific point name, there is a specific point name that is used as a place name as well as a personal name, such as “Oyama”. In addition, there is a specific point name such as “Kiyomizu Temple” where facilities having the same name are scattered in a plurality of different areas (Kyoto City, Osaka City, etc.). Therefore, it may not be possible to appropriately determine whether or not the specific point name in the text is used to mean a specific point such as a place name or facility name only by dictionary-based collation as described above. In addition, it may not be possible to appropriately determine which specific point the specific point name in the text indicates.

下記非特許文献1では、このような特定地点名称の曖昧性を解消し、テキスト中の特定地点名称を適切に判別して抽出するために、抽出対象の特定地点名称を、人名として用いられることがあることを示す人名カテゴリ、同一名称の地名・施設名等が複数存在することを示す同名カテゴリ、及び、商品名や愛称等の一般的な意味で用いられることがあることを示す一般語カテゴリへの分類を行う。そして、同名カテゴリに分類される特定地点名称については、テキスト中に現れる当該特定地点名称と当該特定地点名称に対応する周辺地名との組み合わせに基づいて、当該特定地点名称がどの地名・施設名を示すものであるかを判定する。また、人名カテゴリ又は一般語カテゴリに分類される特定地点名称については、当該特定地点名称が示す特定地点に対応する周辺地名がテキストに含まれていなければ、当該特定地点名称は地名・施設名等の意味で用いられていないと判定する。   In the following Non-Patent Document 1, in order to eliminate such ambiguity of the specific point name and appropriately identify and extract the specific point name in the text, the specific point name to be extracted should be used as a person name. Personal name category indicating that there are multiple names, same-name categories indicating that there are multiple place names / facility names, etc., and general term categories indicating that they may be used in general terms such as product names and nicknames Classification into And for specific point names classified into the same name category, based on the combination of the specific point name appearing in the text and the surrounding place name corresponding to the specific point name, It is determined whether it is what is shown. In addition, for a specific point name classified into the personal name category or general language category, if the name of the surrounding place corresponding to the specific point indicated by the specific point name is not included in the text, the specific point name is the place name / facility name, etc. It is determined that it is not used in the sense of.

Einat Amitay、Nadav Har’El、Ron Sivan、Aya Soffer、「Web-a-Where: Geotagging Web Content」、ACMSIGIR 2004、Pages 273-280Einat Amitay, Nadav Har’El, Ron Sivan, Aya Soffer, “Web-a-Where: Geotagging Web Content”, ACMSIGIR 2004, Pages 273-280

ところで、上述の処理方式では、テキスト中の特定地点名称が特定地点を意味すると判定されるための条件が厳しいため、適合率(精度)が高い反面、再現率が低いという問題がある。特に、ツイッター(Twitter(登録商標))等のマイクロブログサービスに投稿されるツイート(短文のテキスト)に対して上述の精度重視の処理方式で特定地点名称の判定処理を行った場合には、テキスト中で特定地点を意味するものとして用いられている特定地点名称が全く抽出されないおそれが高い。   By the way, in the above-mentioned processing method, since the conditions for determining that the specific point name in the text means the specific point are severe, there is a problem that the precision (accuracy) is high but the reproduction rate is low. In particular, when a specific point name determination process is performed on a tweet (short text) posted on a microblog service such as Twitter (registered trademark) using the above-described accuracy-oriented processing method, text There is a high possibility that the name of a specific point used to mean a specific point is not extracted at all.

そこで本発明は、上記課題に鑑み、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラムを提供することを目的とする。   Therefore, in view of the above problems, the present invention provides a specific point name determination device, a specific point name determination method, and a specific point name determination method that can increase the reproduction rate of specific point names used as meaning specific points in text. The purpose is to provide a specific point name determination program.

本発明に係る特定地点名称判定装置は、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、テキストを取得するテキスト取得手段と、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、判定対象テキストに含まれる特定地点名称に対応する第1のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定手段と、判定対象テキストと当該判定対象テキストに対する判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成手段と、を備える。   The specific point name determination apparatus according to the present invention relates to a specific point name indicating a predetermined specific point name and a first flag indicating that the specific point name has a meaning other than the specific point. Specific point information storage means for storing point information, characteristic word storage means for storing a characteristic word for each specific point, which is a word characterizing that the specific point name means a specific point in the text, and text for acquiring text Corresponding to the acquisition means, the text extraction means for extracting the determination target text including the specific spot name associated with the specific spot information from the text acquired by the text acquisition means, and the specific spot name included in the determination target text The first flag indicates that the specific point name has a meaning other than the specific point, and is associated with the specific point name. If the feature word stored in the memory means is included in the determination target text, the determination unit determines that the specific point name means the specific point in the determination target text, the determination target text, and the determination target A feature word generating unit that generates a feature word based on determination result data in which a determination result by the determination unit for the text is associated, and stores the generated feature word in the feature word storage unit.

本発明に係る特定地点名称判定方法は、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、を備える特定地点名称判定装置により実行される特定地点名称判定方法であって、テキストを取得するテキスト取得ステップと、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得ステップにおいて取得されたテキストのうちから抽出するテキスト抽出ステップと、判定対象テキストに含まれる特定地点名称に対応する第1のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定ステップと、判定対象テキストと当該判定対象テキストに対する判定ステップにおける判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成ステップと、を含む。   The specific point name determination method according to the present invention relates to a specific point name indicating a predetermined specific point name and a first flag indicating that the specific point name has a meaning other than the specific point. Specific point name storage means for storing point information, and specific word name storage means for storing, for each specific point, a characteristic word that is a word characterizing that the specific point name means a specific point in the text A specific point name determination method executed by a determination device, wherein a text acquisition step for acquiring text and a determination target text including a specific point name associated with specific point information are acquired in the text acquisition step The text extraction step to extract from the first flag corresponding to the specific point name included in the determination target text If the point name has a meaning other than the specific point and the characteristic word stored in the characteristic word storage means in association with the specific point name is included in the determination target text, the determination target text A feature word is generated and generated based on determination result data that associates a determination step that determines that the specific point name means a specific point, and a determination target text and a determination result in the determination step for the determination target text. And a feature word generation step of storing the feature word in the feature word storage means.

本発明に係る特定地点名称判定プログラムは、コンピュータを、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、テキストを取得するテキスト取得手段と、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、判定対象テキストに含まれる特定地点名称に対応する第1のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定手段と、判定対象テキストと当該判定対象テキストに対する判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成手段として機能させる。   The specific point name determination program according to the present invention causes the computer to include a specific point name indicating a name of a predetermined specific point and a first flag indicating that the specific point name has a meaning other than the specific point. Specific point information storage means for storing the related specific point information, characteristic word storage means for storing a characteristic word for each specific point, which is a word characterizing that the specific point name means a specific point in the text, and text A text acquisition means for acquiring, a text extraction means for extracting the determination target text including the specific spot name associated with the specific spot information from the text acquired by the text acquisition means, and a specific spot name included in the determination target text The first flag corresponding to indicates that the specific point name has a meaning other than the specific point. A determination unit that determines that the specific point name means a specific point in the determination target text if the characteristic word stored in the characteristic word storage unit in association with the name is included in the determination target text; A feature word is generated based on determination result data in which the target text and a determination result by the determination unit for the determination target text are associated with each other, and the generated feature word is stored in the feature word storage unit.

この発明では、テキスト抽出手段が、特定地点情報記憶手段を参照し、テキスト取得手段により取得されたテキストのうちから特定地点名称を含む判定対象テキストを抽出する。続いて、判定手段が、第1のフラグにより判定対象テキストに含まれる特定地点名称が特定地点以外の意味を有すると示されている場合に、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が判定対象テキストに含まれるか否かに基づいて、判定対象テキスト中で当該特定地点名称が特定地点を意味するか否かを判定する。続いて、特徴語生成手段が、判定対象テキストと判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する。この一連の処理が繰り返されることで、特徴語記憶手段に記憶される特徴語が増えていくため、判定手段による判定において、判定対象テキスト中で特定地点を意味する特定地点名称を適切に抽出(特定地点を意味すると判定)できる可能性を高めることができる。すなわち、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。   In this invention, the text extraction means refers to the specific spot information storage means and extracts the determination target text including the specific spot name from the text acquired by the text acquisition means. Subsequently, when the specific point name included in the determination target text has a meaning other than the specific point by the first flag, the determination unit stores the characteristic point storage unit in association with the specific point name. Whether or not the specific point name in the determination target text means a specific point is determined based on whether or not the feature word being included is included in the determination target text. Subsequently, the feature word generation unit generates a feature word based on the determination result data in which the determination target text is associated with the determination result by the determination unit, and stores the generated feature word in the feature word storage unit. By repeating this series of processing, the feature words stored in the feature word storage unit increase, and therefore, in the determination by the determination unit, the specific point name meaning the specific point in the determination target text is appropriately extracted ( The possibility that it can be determined to mean a specific point) can be increased. That is, it is possible to increase the recall of the extraction of the specific point name used as meaning the specific point in the text.

上記特定地点名称判定装置では、判定対象テキストを入力して特定地点名称が当該判定対象テキスト中で特定地点を意味するか否かを判定する判定モデルを記憶する判定モデル記憶手段を更に備え、特徴語記憶手段は、特定地点名称がテキスト中で特定地点を意味しないことを特徴付ける単語である不正解特徴語を特徴語と共に特定地点名称毎に記憶し、判定手段は、判定モデルに基づいて判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で特定地点を意味しないと判定した場合において、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定し、判定モデルに基づいて判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で特定地点を意味すると判定した場合において、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定し、特徴語生成手段は、判定結果データに基づいて特徴語又は不正解特徴語を生成し、生成した特徴語又は不正解特徴語を特徴語記憶手段に記憶してもよい。   The specific point name determination apparatus further includes a determination model storage unit that stores a determination model that inputs a determination target text and determines whether the specific point name means a specific point in the determination target text. The word storage means stores an incorrect answer feature word, which is a word characterizing that the specific point name does not mean a specific point in the text, together with the characteristic word for each specific point name, and the determination unit determines whether to determine based on the determination model When it is determined that the specific point name included in the text does not mean the specific point in the determination target text, the characteristic word stored in the characteristic word storage unit in association with the specific point name is included in the determination target text If it is determined that the specific point name in the determination target text means a specific point, the determination target text is determined based on the determination model. In the case where it is determined that the specific point name included in the text means the specific point in the determination target text, the incorrect characteristic word stored in the characteristic word storage means in association with the specific point name is included in the determination target text If not, it is determined that the specific point name in the determination target text means a specific point, and the feature word generation unit generates a feature word or an incorrect feature word based on the determination result data, and the generated feature A word or an incorrect answer feature word may be stored in the feature word storage means.

この特定地点名称判定装置によれば、判定モデルによる判定と、特徴語又は不正解特徴語を用いた判定とを併せて行うことで、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めると共に精度(適合率)を高めることができる。具体的には、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味しないと判定された場合であっても、当該特定地点名称が特定地点を意味することを特徴付ける特徴語が含まれていれば、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の再現率が高められる。一方、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味すると判定された場合には、当該特定地点名称が特定地点を意味しないことを特徴付ける不正解特徴語が含まれていないことをもって、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の精度を高めることができる。   According to this specific point name determination apparatus, the determination using the determination model and the determination using the feature word or the incorrect feature word are performed together to specify the specific point used in the text. It is possible to increase the recall rate of the spot name extraction and increase the accuracy (matching rate). Specifically, even if it is determined that the specific point name does not mean the specific point in the determination target text by the determination by the determination model, the feature word characterizing that the specific point name means the specific point is If it is included, it is determined that the specific point name in the determination target text means a specific point. By such determination, the reproduction rate of the extraction of the specific point name is increased. On the other hand, if it is determined by the determination model that the specific point name means a specific point in the determination target text, an incorrect feature word that characterizes that the specific point name does not mean the specific point is not included Therefore, it is determined that the specific point name in the determination target text means a specific point. Such determination can improve the accuracy of extraction of the specific spot name.

上記特定地点名称判定装置では、特定地点情報には、当該特定地点情報に関連付けられた特定地点名称と同一名称の特定地点である同名特定地点が複数存在することを示す第2のフラグが関連付けられており、同名特定地点の各々について、予め算出された有名度を記憶する有名度記憶手段と、を更に備え、判定手段は、判定対象テキストに含まれる特定地点名称に対応する第2のフラグが同名特定地点が複数存在することを示している場合には、有名度記憶手段に記憶されている同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定してもよい。ここで、同名判定処理は、判定対象テキスト中に含まれる特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が同名特定地点のうちどの特定地点を示すものかを判定する処理である。   In the specific point name determination apparatus, the specific point information is associated with a second flag indicating that there are a plurality of the same name specific points having the same name as the specific point name associated with the specific point information. And a famousness storage unit that stores a pre-calculated famousness for each of the same-name specific points, and the determination unit includes a second flag corresponding to the specific point name included in the determination target text. In the case where it is indicated that there are a plurality of the same name specific points, it may be determined whether or not to execute the same name determination process based on the famousness of the same name specific points stored in the famousness storage means. . Here, based on a character string other than the specific point name included in the determination target text, the same name determination process indicates which specific point among the same name specific points in the determination target text. This is a process for determining.

従来、同名特定地点が複数存在する特定地点名称を含むテキストについては、以下に示す同名判定処理により、当該特定地点名称がどの特定地点を示すか、あるいは特定地点を示すものか否かが判定されるのが一般的である。一例として京都や大阪等の複数の地域に存在する「清水寺」という特定地点名称について説明する。同名判定処理では、特定地点名称である「清水寺」が含まれるテキスト中に当該特定地点名称に対応する周辺地名(例えば「京都」)が含まれていれば、当該特定地点名称を「京都の清水寺」を示すものと判定する。一方、当該テキスト中に当該特定地点名称に対応する周辺地名が一つも含まれていなければ、当該特定地点名称を、そもそも特定地点を示すものとは判定しない。このような同名判定処理は、周辺地名が同一テキスト中に含まれていることをもって特定地点名称が特定の特定地点を示すものと判定するため、精度が高い一方で再現率が低い。   Conventionally, for text including a specific point name having a plurality of specific points with the same name, it is determined by the same name determination process shown below whether the specific point name indicates a specific point or whether or not a specific point is indicated. It is common. As an example, a specific point name “Kiyomizu-dera” existing in a plurality of areas such as Kyoto and Osaka will be described. In the same name determination process, if the surrounding place name (for example, “Kyoto”) corresponding to the specific point name is included in the text including the specific point name “Kiyomizu Temple”, the specific point name is changed to “Kiyomizu Temple in Kyoto”. ". On the other hand, if no surrounding place name corresponding to the specific location name is included in the text, the specific location name is not determined to indicate the specific location in the first place. Since the same name determination process determines that the specific spot name indicates a specific specific spot when the surrounding place name is included in the same text, the accuracy is high but the recall is low.

この特定地点名称判定装置では、判定対象テキストに含まれる特定地点名称と同一名称の特定地点(同名特定地点)が複数存在する場合において、判定手段は、同名特定地点の有名度に基づいて同名判定処理を実行するか否かを切替えることができる。すなわち、例えば判定対象テキスト中で特定地点名称が示す特定地点を有名度に基づいて一意に決定可能な場合等には、判定手段は、同名判定処理を省略し、当該特定地点名称が有名度に基づいて決定された特定地点を示すものと判定することができる。これにより、判定対象テキスト中に特定地点名称に対応する周辺地名が含まれていない場合であっても、特定地点の有名度に基づいて特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。   In this specific point name determination device, when there are a plurality of specific points (same name specific points) having the same name as the specific point name included in the determination target text, the determination means determines the same name based on the famousness of the same name specific point Whether to execute the process can be switched. That is, for example, when the specific point indicated by the specific point name in the determination target text can be uniquely determined based on the famousness, the determination unit omits the same name determination process, and the specific point name is set to the famousity. It can be determined that the specific point determined based on this is shown. As a result, even when the surrounding text corresponding to the specific spot name is not included in the determination target text, the specific spot name can be appropriately extracted based on the famousness of the specific spot. The rate is improved.

上記特定地点名称判定装置では、判定手段は、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値以上の場合に、同名判定処理を実施せずに、判定対象テキスト中に含まれる特定地点名称が当該最大の有名度をもつ特定地点を示すと判定し、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、同名判定処理を実行してもよい。   In the specific point name determination apparatus, the determination unit includes the determination unit in the determination target text without performing the same name determination process when the famous point of the specific point having the highest famousness among the same name specific points is equal to or greater than a predetermined threshold. It is determined that the specific point name included in indicates the specific point having the maximum famousness, and the famous point of the specific point having the maximum famousness among the specific names with the same name is less than a predetermined threshold, the same name determination process May be executed.

この特定地点名称判定装置によれば、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値以上の場合に、同名判定処理を省略し、特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。   According to this specific point name determination apparatus, when the famous point of the specific point having the highest famousness among the same name specific points is equal to or greater than a predetermined threshold, the same name determination process is omitted and the specific point name is appropriately extracted. Since this can be done, the recall can be improved.

上記特定地点名称判定装置では、判定手段は、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、同名特定地点のうち、有名度が所定値以下の同名特定地点を除外して同名判定処理を実行してもよい。   In the specific point name determination device, the determination means has a degree of famousness that is less than or equal to a predetermined value when the famous point of the specific point having the highest famousness among the same name specific points is less than a predetermined threshold. The same name determination process may be executed by excluding the same name specific point.

この特定地点名称判定装置によれば、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、有名度が所定値以下の同名特定地点については予め除外して同名判定処理を行うことができる。これにより、特定地点名称の抽出を効率よく且つ精度よく行うことができる。   According to this specific point name determination apparatus, when the famous point of the specific point having the highest famousness among the same name specific points is less than a predetermined threshold, the specific point with the famous name equal to or lower than a predetermined value is excluded in advance. The same name determination process can be performed. Thereby, extraction of a specific point name can be performed efficiently and accurately.

上記特定地点名称判定装置では、特定地点と当該特定地点に対応する周辺地名との両方が含まれる周辺地名テキストの数、特定地点と当該特定地点に対応する特徴語との両方が含まれる特徴語テキストの数、及び、移動通信端末のユーザが特定地点に滞在した回数を示すチェックイン数のうち少なくとも一つに基づいて特定地点の有名度を算出し、算出した有名度を有名度記憶手段に記憶する有名度算出手段を更に備えてもよい。   In the specific point name determination device, the number of surrounding place name texts including both the specific point and the surrounding place name corresponding to the specific point, the feature word including both the specific point and the characteristic word corresponding to the specific point Based on at least one of the number of texts and the number of check-ins indicating the number of times the user of the mobile communication terminal stayed at the specific point, the famous point of the specific point is calculated, and the calculated famous degree is stored in the famous degree storage means. You may further provide the famousness calculation means to memorize | store.

この特定地点名称判定装置によれば、有名度算出手段が、周辺地名テキストの数、特徴語テキストの数、及びチェックイン数等に基づいて、特定地点の有名度を適切に算出することができる。そして、判定部がこのようにして算出された有名度に基づいて特定地点名称の判定を行うことにより、特定地点名称の抽出の精度の向上が図られる。   According to this specific point name determination apparatus, the famousness calculation means can appropriately calculate the famousity of a specific point based on the number of surrounding place name texts, the number of feature word texts, the number of check-ins, and the like. . And the determination part determines the specific spot name based on the famousity calculated in this way, so that the accuracy of extracting the specific spot name can be improved.

本発明によれば、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。   ADVANTAGE OF THE INVENTION According to this invention, the reproduction rate of extraction of the specific point name currently used as what means a specific point in a text can be raised.

本発明の第1実施形態に係る特定地点名称判定装置の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the specific point name determination apparatus which concerns on 1st Embodiment of this invention. 特定地点名称判定装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of a specific point name determination apparatus. 特定地点情報の一例を示す図である。It is a figure which shows an example of specific point information. 特徴語記憶部に記憶される特徴語を説明するために用いる図である。It is a figure used in order to explain the feature word memorized by the feature word storage part. 特定地点の有名度の一例を示す図である。It is a figure which shows an example of the famous degree of a specific point. 第1実施形態に係る特定地点名称判定装置の動作を示すフロー図である。It is a flowchart which shows operation | movement of the specific point name determination apparatus which concerns on 1st Embodiment. 図6に示す人名・一般語フラグ処理を示すフロー図である。FIG. 7 is a flowchart showing personal name / general word flag processing shown in FIG. 6. 図6に示す同名フラグ処理のフロー図である。It is a flowchart of the same name flag process shown in FIG. 第2実施形態に係る特定地点名称判定装置の機能構成を示す図である。It is a figure which shows the function structure of the specific point name determination apparatus which concerns on 2nd Embodiment. 第2実施形態に係る特定地点名称判定装置の人名・一般語フラグ処理を示すフロー図である。It is a flowchart which shows the person name / general word flag process of the specific point name determination apparatus which concerns on 2nd Embodiment. 本発明の一実施形態に係る特定地点名称判定プログラムの機能構成を示すブロック図である。It is a block diagram which shows the function structure of the specific point name determination program which concerns on one Embodiment of this invention.

以下、図面を参照しながら、本発明に係る実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。   Embodiments according to the present invention will be described below with reference to the drawings. Where possible, the same parts are denoted by the same reference numerals, and redundant description is omitted.

[第1実施形態]
図1は、本発明の第1実施形態に係る特定地点名称判定装置1Aの機能構成を示すブロック図である。本実施形態に係る特定地点名称判定装置1Aは、特定地点の名称(特定地点名称)が含まれるテキスト中において、当該特定地点名称が特定地点を意味する(特定地点名称がテキスト中の文脈において特定地点を意味するものとして用いられている)か否かを判定する装置である。ここで、特定地点としては、例えば地名・施設名等の特定の場所を示すPOI(Point of interest)が挙げられる。具体的には、特定地点は、寺社等の施設(例えば「清水寺」等)、山岳(例えば「函館山」等)、湖沼(例えば「大沼」等)等の特定の場所を示すものである。図1に示すように、特定地点名称判定装置1Aは、テキスト取得部11、テキスト格納部12、特定地点情報記憶部13、テキスト抽出部14、特徴語記憶部15A、有名度算出部16、有名度記憶部17、判定部18A、判定結果記憶部19、及び特徴語生成部20Aを備えている。
[First Embodiment]
FIG. 1 is a block diagram showing a functional configuration of a specific point name determination apparatus 1A according to the first embodiment of the present invention. In the specific point name determination apparatus 1A according to the present embodiment, the specific point name means the specific point in the text including the specific point name (specific point name) (the specific point name is specified in the context of the text). It is a device that determines whether or not a point is used. Here, as the specific point, for example, a POI (Point of interest) indicating a specific place such as a place name or a facility name can be cited. Specifically, the specific point indicates a specific place such as a facility such as a temple or shrine (for example, “Kiyomizu Temple”), a mountain (for example, “Mt. Hakodate”), or a lake (for example, “Onuma”). As shown in FIG. 1, the specific point name determination device 1A includes a text acquisition unit 11, a text storage unit 12, a specific point information storage unit 13, a text extraction unit 14, a feature word storage unit 15A, a famousness calculation unit 16, and a famous name. A degree storage unit 17, a determination unit 18A, a determination result storage unit 19, and a feature word generation unit 20A are provided.

図2は、特定地点名称判定装置1Aのハードウェア構成を示すブロック図である。図1に示される特定地点名称判定装置1Aは、物理的には、図2に示すように、1又は複数のCPU101と、主記憶装置であるRAM102及びROM103と、入力デバイスであるキーボード及びマウス等の入力装置104と、ディスプレイ等の出力装置105と、ネットワークカード等のデータ送受信デバイスである通信モジュール106と、ハードディスクドライブ及び半導体メモリ等の補助記憶装置107とを含むコンピュータシステムとして構成されている。   FIG. 2 is a block diagram illustrating a hardware configuration of the specific point name determination apparatus 1A. As shown in FIG. 2, the specific point name determination apparatus 1A shown in FIG. 1 physically includes one or a plurality of CPUs 101, a main memory RAM 102 and ROM 103, and input devices such as a keyboard and a mouse. The computer system includes an input device 104, an output device 105 such as a display, a communication module 106 that is a data transmission / reception device such as a network card, and an auxiliary storage device 107 such as a hard disk drive and a semiconductor memory.

図1における特定地点名称判定装置1Aの各機能は、図2に示すCPU101、RAM102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、及び通信モジュール106を動作させると共に、RAM102及び補助記憶装置107におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて、各機能ブロックを説明する。   Each function of the specific point name determination apparatus 1A in FIG. 1 is such that predetermined computer software is loaded on hardware such as the CPU 101 and RAM 102 shown in FIG. 105 and the communication module 106 are operated, and data is read and written in the RAM 102 and the auxiliary storage device 107. Hereinafter, each functional block will be described based on the functional blocks shown in FIG.

テキスト入力部2は、例えばツイッター(Twitter(登録商標))等のマイクロブログサービスを管理するサーバ(不図示)等から、マイクロブログサービスに投稿された投稿テキスト(ツイッターの場合は「ツイート(つぶやき)」)を入力(取得)し、入力した一以上の投稿テキストを蓄積しているデータベース等である。本実施形態では、テキスト入力部2が特定地点名称判定装置1Aとは別の装置として実現されているものとしているが、テキスト入力部2は、特定地点名称判定装置1Aに含まれていてもよい。   The text input unit 2 is, for example, a post text posted to a microblog service from a server (not shown) that manages a microblog service such as Twitter (registered trademark) (“tweet” in the case of Twitter). ”) Is input (acquired) and one or more input post texts are stored. In the present embodiment, the text input unit 2 is realized as a device different from the specific point name determination device 1A. However, the text input unit 2 may be included in the specific point name determination device 1A. .

テキスト取得部11は、テキスト入力部2から投稿テキストを取得するテキスト取得手段である。テキスト取得部11は、例えばストリーミングAPI等を利用して、定期的又はリアルタイムにテキスト入力部2から投稿テキストを取得する。テキスト取得部11によって取得された投稿テキストは、データベース等であるテキスト格納部12に記憶される。ここで、テキスト入力部2とテキスト取得部11との間の接続形態は何でもよい。例えば、テキスト入力部2とテキスト取得部11とは、無線方式で接続されていてもよいし、有線方式で接続されていてもよい。また、テキスト入力部2とテキスト取得部11とは、インターネット等の任意の通信ネットワークを介して接続(ロジック接続)されていてもよいし、装置同士が直接接続されることにより接続されていてもよい。   The text acquisition unit 11 is a text acquisition unit that acquires post text from the text input unit 2. The text acquisition unit 11 acquires the posted text from the text input unit 2 periodically or in real time using, for example, a streaming API. The posted text acquired by the text acquisition unit 11 is stored in the text storage unit 12 such as a database. Here, the connection form between the text input unit 2 and the text acquisition unit 11 may be anything. For example, the text input unit 2 and the text acquisition unit 11 may be connected by a wireless method or may be connected by a wired method. The text input unit 2 and the text acquisition unit 11 may be connected (logic connection) via an arbitrary communication network such as the Internet, or may be connected by directly connecting devices. Good.

特定地点情報記憶部13は、予め定められた特定の場所(POI等)を示す特定地点に関する特定地点情報を特定地点毎に記憶しているデータベース等の特定地点情報記憶手段である。特定地点情報記憶部13に記憶されている特定地点情報は、例えば特定地点名称判定装置1Aの管理者等によって予め登録されているものとする。図3は、特定地点情報の一例を示す図である。図3に示すように、特定地点情報には、特定地点を一意に特定する識別情報(id)、特定地点の名称を示す特定地点名称、特定地点の住所、特定地点の位置(緯度・経度)、特定地点が属するエリア(例えば「県」等)を示すエリアコード、及び各種フラグ(同名フラグ、人名フラグ、一般語フラグ)等が特定地点毎に関連付けられている。   The specific point information storage unit 13 is a specific point information storage unit such as a database that stores specific point information about a specific point indicating a predetermined specific place (POI or the like) for each specific point. It is assumed that the specific point information stored in the specific point information storage unit 13 is registered in advance by, for example, an administrator of the specific point name determination apparatus 1A. FIG. 3 is a diagram illustrating an example of specific point information. As shown in FIG. 3, the specific point information includes identification information (id) for uniquely specifying the specific point, a specific point name indicating the name of the specific point, the address of the specific point, and the position (latitude / longitude) of the specific point. An area code indicating an area (for example, “prefecture”, etc.) to which the specific point belongs, various flags (same name flag, personal name flag, general language flag), and the like are associated with each specific point.

ここで、同名フラグは、特定地点名称と同一名称の特定地点(同名特定地点)が複数存在するか否かを示すフラグ(第2のフラグ)である。人名フラグは、特定地点名称が人名と同じ名称であるか否かを示すフラグである。一般語フラグは、特定地点名称が一般語と同じ名称であるか否かを示すフラグである。すなわち、人名フラグ及び一般語フラグは、特定地点名称が特定地点以外の意味(人名及び一般語)を有するか否かを示すフラグ(第1のフラグ)である。これらのフラグは、該当する場合に「1」が設定され、該当しない場合には「0」が設定される。以降の説明においては、フラグが「1」に設定されていることを指して、フラグが立っているともいう。   Here, the same name flag is a flag (second flag) indicating whether or not there are a plurality of specific points (same name specific points) having the same name as the specific point name. The personal name flag is a flag indicating whether or not the specific point name is the same name as the personal name. The general language flag is a flag indicating whether or not the specific point name is the same name as the general language. That is, the personal name flag and the general language flag are flags (first flag) indicating whether or not the specific point name has a meaning (person name and general language) other than the specific point. These flags are set to “1” when applicable and “0” when not applicable. In the following description, the flag is set to indicate that the flag is set to “1”.

図3を用いて各種フラグについて詳細に説明する。例えば、特定地点名称が「清水寺」である特定地点は、京都や大阪等の複数の土地に存在するため、同名フラグが立てられている。特定地点名称が「大沼」の特定地点についても、同一名称の特定地点が複数の土地に存在するため、同名フラグが立てられている。また、「大沼」という特定地点名称は、人名(大沼さん)として用いられることもあり、一般語(大きい沼)として用いられることもあるので、人名フラグ及び一般語フラグは共に立てられている。   Various flags will be described in detail with reference to FIG. For example, since a specific point whose specific point name is “Kiyomizu-dera” exists in a plurality of lands such as Kyoto and Osaka, the same name flag is set. For the specific point with the specific point name “Onuma”, the same name flag is set because the specific point with the same name exists in a plurality of lands. In addition, the specific point name “Onuma” is sometimes used as a person's name (Mr. Onuma) and may be used as a general word (large swamp), so both the personal name flag and the general word flag are set.

テキスト抽出部14は、特定地点情報記憶部13に記憶された特定地点情報に関連付けられた特定地点名称を含む投稿テキスト(判定対象テキスト)を抽出するテキスト抽出手段である。テキスト抽出部14は、例えば、特定地点情報記憶部13に記憶された特定地点情報を読み取ってRAM102上にロードする。続いて、テキスト抽出部14は、テキスト格納部12に記憶されている複数の投稿テキストのうちから、RAM102上にロードした特定地点情報に関連付けられた特定地点名称を含むテキストをサーチすることにより、判定対象テキストを取得する。例えば、「清水寺」に関する特定地点情報がRAM102上にロードされている場合には、テキスト抽出部14は、テキスト格納部12から、「今、清水寺を観光している。」のように「清水寺」の文字列が含まれている投稿テキストを判定対象テキストとして抽出する。なお、本実施形態では、テキスト抽出部14は、複数の投稿テキストのうちから1つの投稿テキストを判定対象テキストとして抽出するものとしているが、テキスト抽出部14は、例えば1つの長文テキストのうちから、特定地点名称を含む一部(例えば特定地点名称が含まれる一文や段落等)を判定対象テキストとして抽出してもよい。   The text extraction unit 14 is a text extraction unit that extracts a posted text (determination target text) including a specific point name associated with the specific point information stored in the specific point information storage unit 13. For example, the text extraction unit 14 reads the specific point information stored in the specific point information storage unit 13 and loads it on the RAM 102. Subsequently, the text extraction unit 14 searches the text including the specific point name associated with the specific point information loaded on the RAM 102 from the plurality of posted texts stored in the text storage unit 12. Get the text to be judged. For example, when specific point information related to “Kiyomizu-dera” is loaded on the RAM 102, the text extraction unit 14 reads “Kiyomizu-dera” from the text storage unit 12 like “I am now sightseeing in Kiyomizu-dera”. The post text that contains the character string is extracted as the text to be judged. In the present embodiment, the text extraction unit 14 extracts one post text as a determination target text from among a plurality of post texts. However, the text extraction unit 14 includes, for example, one long text. A part including the specific point name (for example, one sentence or paragraph including the specific point name) may be extracted as the determination target text.

特徴語記憶部15Aは、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段である。特徴語記憶部15Aには、特定地点名称がテキスト中で特定地点を意味するものとして用いられている一以上の文章に基づいて予め管理者等により抽出された特徴語(以下「静的特徴語」ともいう)が、当該特定地点の特徴語として記憶される。このような文章としては、例えば特定地点に関するWikipedia及びホームページ等に記載された文章が挙げられる。静的特徴語は、例えばtfidf等を用いることにより抽出される。例えば「天橋立」という特定地点の特徴語としては、「きれい」や「宮津」等、「天橋立」という特定地点名称がテキスト中で特定地点(つまり地名としての「天橋立」)を意味するものとして用いられていることを特徴付ける単語が抽出される。ただし、抽出される特徴語は、どの文章をtfidf等による特徴語抽出の元とするかによって異なり得る。特徴語記憶部15には、静的特徴語の他に、後述する特徴語生成部20Aにより生成される特徴語も記憶される。   The feature word storage unit 15A is a feature word storage unit that stores, for each specific point, a characteristic word that is a word characterizing that the specific point name means a specific point in the text. In the feature word storage unit 15A, a feature word (hereinafter referred to as “static feature word”) extracted in advance by an administrator or the like based on one or more sentences in which the specific point name is used as meaning the specific point in the text. Is also stored as a feature word of the specific point. Examples of such sentences include sentences described on Wikipedia and a homepage regarding a specific point. Static feature words are extracted by using, for example, tfidf. For example, as a feature word for a specific location called “Amanohashidate”, the name of the specific location “Amanohashidate” such as “beautiful” or “Miyazu” is used in the text to mean a specific location (that is, “Amanohashidate” as a place name) The words that characterize the fact that However, the feature words to be extracted may differ depending on which sentence is used as a source of feature word extraction by tfidf or the like. In addition to the static feature words, the feature word storage unit 15 also stores feature words generated by a feature word generation unit 20A described later.

有名度算出部16は、同名特定地点毎の有名度を算出し、算出した有名度をデータベース等である有名度記憶部17に記憶する有名度算出手段である。有名度記憶部17は、同名特定地点の各々について、有名度算出部16により算出された有名度を記憶する有名度記憶手段である。有名度記憶部17には、同名特定地点毎の有名度を格納するためのテーブル領域が確保されている。このような同名特定地点のデータ(同一の特定地点名称をもつ同名特定地点の一覧、及び各同名特定地点が存在する都市名等)は、例えばWikipedia等の公開情報及び特定地点情報記憶部13に記憶された特定地点情報等を参照することで、予め管理者等によって有名度記憶部17に記憶される。   The famousness calculation unit 16 is a famousity calculation unit that calculates the famousness for each specific point of the same name and stores the calculated famousness in the famousness storage unit 17 such as a database. The famousness storage unit 17 is a famousity storage unit that stores the famousity calculated by the famousness calculation unit 16 for each of the specific points having the same name. The famousness storage unit 17 has a table area for storing the famousness for each specific point with the same name. Such data of the same name specific point (a list of the same name specific points having the same specific point name and the name of the city where each same name specific point exists) is stored in the public information such as Wikipedia and the specific point information storage unit 13, for example. By referring to the stored specific point information or the like, it is stored in the famousness storage unit 17 by an administrator or the like in advance.

有名度算出部16は、同名特定地点と当該同名特定地点に対応する周辺地名との両方が含まれる周辺地名テキストの数、同名特定地点と当該同名特定地点に対応する特徴語との両方が含まれる特徴語テキストの数、及び、移動通信端末のユーザが同名特定地点に滞在した回数を示すチェックイン数のうち少なくとも一つに基づいて同名特定地点の有名度を算出することができる。   The celebrity calculation unit 16 includes the number of surrounding place name texts including both the same name specifying point and the surrounding place name corresponding to the same name specifying point, and both the same name specifying point and the feature word corresponding to the same name specifying point. Based on at least one of the number of feature word texts to be checked and the number of check-ins indicating the number of times the user of the mobile communication terminal has stayed at the same name specific point, the famous degree of the same name specific point can be calculated.

具体的には、有名度算出部16は、例えばテキスト取得部11により取得されたテキスト(ツイッターの場合は「ツイート(つぶやき)」)を集計することにより、周辺地名テキストの数及び特徴語テキストの数を集計することができる。また、有名度算出部16は、例えばFoursquare等の位置情報に基づいたソーシャル・ネットワーキング・サービス(SNS)が保有する特定地点毎のチェックイン数を、当該SNSが公開しているAPI等を介して取得することができる。ここで、例えば、予め管理者等により、同名特定地点毎に周辺地名を対応付けたテーブル情報が、有名度算出部16から参照可能なデータベース(不図示)上に用意されているものとする。このようなデータベースを参照することで、有名度算出部16は、周辺地名テキスト数を集計することができる。   Specifically, the famousness calculation unit 16 counts the number of surrounding place name texts and feature word texts by, for example, counting the texts acquired by the text acquisition unit 11 (“tweets” in the case of Twitter). Numbers can be aggregated. In addition, the famousity calculation unit 16 determines the number of check-ins for each specific point held by a social networking service (SNS) based on location information such as Foursquare, via an API published by the SNS. Can be acquired. Here, for example, it is assumed that table information in which peripheral place names are associated with each specific point with the same name is prepared in advance on a database (not shown) that can be referred to from the famousness calculation unit 16 by an administrator or the like. By referring to such a database, the famousness calculation unit 16 can total the number of surrounding place name texts.

図5は、特定地点名称が「清水寺」である特定地点に関する同名特定地点毎の有名度の一例を示す図である。ここでは一例として、周辺地名テキストの数及び特徴語テキストの数を足し合わせたテキスト数(TW数)を有名度としている。ここで、「清水寺_都市名」は、「都市名で示される都市に存在する清水寺」を示す特定地点である。   FIG. 5 is a diagram illustrating an example of the famousness for each specific point with the same name regarding the specific point whose specific point name is “Kiyomizu Temple”. Here, as an example, the famous number is the number of texts (TW number) obtained by adding the number of surrounding place name texts and the number of feature word texts. Here, “Kiyomizu Temple_city name” is a specific point indicating “Kiyomizu Temple existing in the city indicated by the city name”.

判定部18Aは、テキスト抽出部14により抽出された判定対象テキストに含まれる特定地点名称に対応するフラグ(同名フラグ、人名フラグ、一般語フラグ)の状態に応じた判定処理を実行する判定手段である。具体的には、同名フラグ(第2のフラグ)が立っていれば、判定部18Aは、判定対象テキスト中の特定地点名称がどの同名特定地点を示すものかを判定する処理(同名フラグ処理)を実行する。一方、人名フラグ又は一般語フラグ(第1のフラグ)が立っていれば、判定部18Aは、判定対象テキスト中の特定地点名称が特定地点を意味するのか、あるいは人名又は一般語を意味するのかを判定する処理(人名・一般語フラグ処理)を実行する。   The determination unit 18A is a determination unit that executes a determination process according to the state of a flag (same name flag, person name flag, general word flag) corresponding to a specific spot name included in the determination target text extracted by the text extraction unit 14. is there. Specifically, if the same name flag (second flag) is set, the determination unit 18A determines which same name specific point the specific point name in the determination target text indicates (same name flag process). Execute. On the other hand, if the personal name flag or the general word flag (first flag) is set, the determination unit 18A indicates whether the specific point name in the determination target text means a specific point, or whether it means a personal name or a general word Is executed (person name / general word flag processing).

まず同名フラグ処理について説明する。判定部18Aは、有名度記憶部17に記憶されている同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定する。判定部18Aは、例えば判定対象テキストに含まれる特定地点名称(以下「判定対象特定地点名称」という)と同一名称の同名特定地点のうち最大の有名度をもつ特定地点(以下、判定対象特定地点名称と同一名称の同名特定地点のうち最大の有名度をもつ特定地点のことを指して「有名特定地点」ともいう)の有名度に基づいて、判定対象テキスト中で判定対象特定地点名称が有名特定地点を示すものか否かを判定する。例えば、判定部18Aは、有名特定地点の有名度が所定の閾値以上であるか否かを判定し、有名特定地点の有名度が所定の閾値以上であれば、判定対象テキスト中で判定対象特定地点名称は有名特定地点を示す(判定対象特定地点名称は有名特定地点を意味するものとして用いられている)と判定する。また、判定部18Aは、有名特定地点の有名度が所定の閾値未満であれば、以下の同名判定処理を実行する。ここで、所定の閾値は、管理者等により任意の値に設定されるものである。所定の閾値は、例えば判定部18Aにより読み取り可能な設定ファイル等として保持される。   First, the same name flag process will be described. The determination unit 18 </ b> A determines whether or not to execute the same name determination process based on the famousness of the same name specific point stored in the famousness storage unit 17. The determination unit 18A is, for example, a specific point (hereinafter referred to as a determination target specific point) having the highest famousity among specific point names having the same name as a specific point name included in the determination target text (hereinafter referred to as “determination target specific point name”). Based on the famousity of the specific name with the same name as the specific name with the highest name, it is also known as “famous specific point”). It is determined whether or not it indicates a specific point. For example, the determination unit 18A determines whether the famousness of the famous specific point is equal to or greater than a predetermined threshold. If the famousness of the famous specific point is equal to or greater than the predetermined threshold, the determination target identification is performed in the determination target text. It is determined that the point name indicates a famous specific point (the determination target specific point name is used to mean a famous specific point). Moreover, the determination part 18A will perform the following same name determination processes, if the famousness degree of a famous specific point is less than a predetermined threshold value. Here, the predetermined threshold is set to an arbitrary value by an administrator or the like. The predetermined threshold is held as a setting file that can be read by the determination unit 18A, for example.

同名判定処理とは、判定対象テキスト中に含まれる特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が同名特定地点のうちどの特定地点を示すものかを判定する処理である。より具体的には、同名判定処理は、判定対象テキスト内に、例えば判定対象特定地点名称と判定対象特定地点名称が示す特定地点に対応する周辺地名(又は特徴語、最寄りの駅名等)とが含まれていれば、判定対象特定地点名称が周辺地名(又は特徴語、最寄りの駅名など)に対応する特定地点を意味すると判定する処理である。同名判定処理では、例えば判定対象特定地点名称である「清水寺」が含まれる判定対象テキスト中に、当該判定対象特定地点名称に対応する周辺地名の一つである「京都」が含まれていれば、当該判定対象特定地点名称は「京都の清水寺」を示すものであると判定される。一方、判定対象テキスト中に判定対象特定地点名称が示す特定地点に対応する周辺地名が一つも含まれていなければ、判定対象特定地点名称は特定地点を示すものとは判定されない。   With the same name determination process, based on a character string other than the specific point name included in the determination target text, it is determined which specific point among the same name specific points in the determination target text. It is processing. More specifically, in the determination target text, the same name determination process includes, for example, a determination target specific spot name and a surrounding place name (or a feature word, the nearest station name, etc.) corresponding to the specific point indicated by the determination target specific spot name. If included, it is a process for determining that the determination target specific point name means a specific point corresponding to the name of a surrounding place (or a feature word, the nearest station name, etc.). In the same-name determination process, for example, if “Kyoto”, which is one of the surrounding place names corresponding to the determination target specific point name, is included in the determination target text including “Kiyomizu Temple” which is the determination target specific point name. The determination target specific point name is determined to indicate “Kiyomizu Temple in Kyoto”. On the other hand, the determination target specific point name is not determined to indicate the specific point unless the determination target text includes any one of the surrounding place names corresponding to the specific point indicated by the determination target specific point name.

例えば、判定部18Aは、有名特定地点の有名度の割合(全ての同名特定地点の有名度の総計に対する割合)が所定の閾値以上か否かを判定することで、判定対象特定地点名称が有名特定地点を示すものか否かを判定することができる。   For example, the determination unit 18A determines whether or not the name of the determination target specific point is famous by determining whether the ratio of the famousness of the famous specific point (the ratio of the famousness of all the same name specific points) is equal to or greater than a predetermined threshold. It can be determined whether or not it indicates a specific point.

例えば、判定対象特定地点名称が「清水寺」であり、所定の閾値を70%とした場合を考える。この場合、図5(a)の例では、京都市の清水寺を示す特定地点のTW数が最大となり全体のおよそ88%を占めるため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。また、図5(b)の例でも、京都市の清水寺を示す特定地点のTW数が最大となり全体のおよそ76%を占めるため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。   For example, let us consider a case where the determination target specific point name is “Kiyomizu Temple” and the predetermined threshold is 70%. In this case, in the example of FIG. 5A, the number of TW at a specific point indicating Kiyomizu-dera in Kyoto City is the largest and occupies approximately 88% of the total, so the determination unit 18A determines that the determination target specific point name is Kiyomizu-dera in Kyoto City It is determined that In the example of FIG. 5 (b), the TW number of the specific point indicating Kiyomizu-dera in Kyoto City is the largest and accounts for about 76% of the whole. Therefore, the determination unit 18A determines the name of the specific point to be determined for Kiyomizu-dera in Kyoto City. It is determined to be shown.

また、判定部18Aは、例えば、有名度が1位(最大)の特定地点の有名度と2位の特定地点の有名度との差が全ての同名特定地点の有名度の総計に対して占める割合が所定の閾値以上か否かを判定することで、判定対象特定地点名称が有名特定地点を示すものか否かを判定してもよい。   Further, in the determination unit 18A, for example, the difference between the famousness of the specific point with the first (maximum) famousness and the famousness of the second specific point occupies the sum of the famousities of all the specific points with the same name. It may be determined whether or not the determination target specific point name indicates a famous specific point by determining whether or not the ratio is equal to or greater than a predetermined threshold.

例えば、判定対象特定地点名称が「清水寺」であり、所定の閾値を70%とした場合を考える。この場合、図5(a)の例では、全ての同名特定地点の有名度の総計(200)に対してTW数が1位の京都市の清水寺とTW数が2位のいすみ市の清水寺とのTW数の差(176)が占める割合は、およそ88%となる。このため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。   For example, let us consider a case where the determination target specific point name is “Kiyomizu Temple” and the predetermined threshold is 70%. In this case, in the example of FIG. 5 (a), Kiyomizu-dera Temple in Kyoto City with the first TW number and Kiyomizu-dera Temple in Isumi City with the second TW number with respect to the total famousity (200) of all the specific points with the same name. The ratio occupied by the difference in the number of TWs (176) is approximately 88%. Therefore, the determination unit 18A determines that the determination target specific point name indicates Kiyomizu Temple in Kyoto.

一方、図5(b)の例では、全ての同名特定地点の有名度の総計(241)に対してTW数が1位の京都市の清水寺とTW数が2位のいすみ市の清水寺とのTW数の差(135)が占める割合は、およそ56%となる。このため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものとは判定せずに、同名判定処理を実行する。ここで、判定部18Aは、同名特定地点のうち、有名度が所定値以下の同名特定地点を除外して同名判定処理を実行してもよい。例えば、判定部18Aは、所定値(ここでは一例として「10」)以下の同名特定地点を除外して、TW数が2位のいすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれるか否かの判定のみを実行する。ここで、判定部18Aは、いすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれると判定した場合に、判定対象特定地点名称がいすみ市の清水寺を示すものと判定する。一方、判定部18Aは、いすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれないと判定した場合には、判定対象特定地点名称が有名特定地点に該当する京都市の清水寺を示すものと判定する。   On the other hand, in the example of FIG. 5 (b), Kiyomizu-dera in Kyoto City with the highest TW number and Kiyomizu-dera Temple in Isumi City with the second highest TW number with respect to the total famousity (241) of all the specific points with the same name. The ratio occupied by the difference in TW number (135) is approximately 56%. Therefore, the determination unit 18A performs the same name determination process without determining that the determination target specific point name indicates Kiyomizu-dera in Kyoto. Here, the determination unit 18 </ b> A may execute the same name determination process by excluding the same name specific points whose famousities are equal to or less than a predetermined value among the same name specific points. For example, the determination unit 18A excludes a specific point having the same name that is equal to or less than a predetermined value (here, “10” as an example), and the surrounding place name or feature word corresponding to Kiyomizu-dera in Isumi City with the second highest TW number is the text to be determined Only the determination of whether or not it is included is executed. Here, the determination unit 18 </ b> A determines that the determination target specific point name indicates Kiyomizu Temple in Isumi City when it is determined that the surrounding place name or feature word corresponding to Kiyomizu Temple in Isumi City is included in the determination target text. On the other hand, if the determination unit 18A determines that the surrounding place name or feature word corresponding to Kiyomizu-dera in Isumi city is not included in the determination target text, Kiyomizu-dera in Kyoto city where the determination target specific point name corresponds to the famous specific point It is determined that

このような判定処理を行うことにより、判定部18Aは、例えばイベント(例えば祭り等)等の開催によって2位のTW数が急な盛り上がりを示した場合等において、トレンドを考慮した適切な判定を行うことができる。また、該当する可能性が低い同名特定地点(有名度が所定値以下の同名特定地点)を予め除外しているので、特定地点名称の抽出を効率よく且つ精度よく行うことができる。   By performing such a determination process, the determination unit 18A makes an appropriate determination in consideration of the trend, for example, when the second-ranked TW number shows a sudden rise due to an event (for example, a festival). It can be carried out. Moreover, since the same-name specific point (same name specific point whose famousness is less than or equal to a predetermined value) that is unlikely to be applicable is excluded in advance, the specific point name can be extracted efficiently and accurately.

ここで、上述の同名判定処理において判定対象特定地点名称が示す同名特定地点を特定できなかった場合(いずれの同名特定地点についても、対応する周辺地名又は特徴語が判定対象テキストに含まれていなかった場合)には、判定対象特定地点名称が有名特定地点を示すものと判定してもよい。これにより、特定地点名称の抽出の再現率を高めることができる。   Here, when the same name specific point indicated by the determination target specific point name could not be specified in the above-mentioned same name determination process (for any same name specific point, the corresponding surrounding place name or feature word is not included in the determination target text In this case, it may be determined that the determination target specific point name indicates a famous specific point. Thereby, the reproduction rate of extraction of a specific point name can be raised.

次に人名・一般語フラグ処理について説明する。判定部18Aは、判定対象特定地点名称に対応する人名フラグ又は一般語フラグ(第1のフラグ)が立っていれば、判定対象特定地点名称に関連付けて特徴語記憶部15Aに記憶されている特徴語が判定対象テキストに含まれているか否かを判定する。判定部18Aは、当該特徴語が判定対象テキストに含まれている場合には、判定対象テキスト中で判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部18Aは、当該特徴語が判定対象テキストに含まれていない場合には、判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味すると判定する。   Next, personal name / general word flag processing will be described. If the personal name flag or the general word flag (first flag) corresponding to the determination target specific spot name is set, the determination unit 18A is associated with the determination target specific spot name and stored in the feature word storage unit 15A. It is determined whether or not the word is included in the determination target text. When the feature word is included in the determination target text, the determination unit 18A determines that the determination target specific point name in the determination target text means a specific point. On the other hand, when the feature word is not included in the determination target text, the determination unit 18A determines that the determination target specific spot name in the determination target text means a person name or a general word.

判定部18Aは、判定対象テキストと判定結果とを関連付けた判定結果データを出力する。ここで、判定結果とは、人名・一般語フラグ処理において当該判定対象テキストが特定地点を意味すると判定されたことを示す情報である。判定部18Aにより出力された判定結果データは、データベース等である判定結果記憶部19に記憶される。この判定結果データは、後述する特徴語生成部20Aによる特徴語の生成のために蓄積される。   The determination unit 18A outputs determination result data in which a determination target text and a determination result are associated with each other. Here, the determination result is information indicating that the determination target text is determined to mean a specific point in the personal name / general word flag processing. The determination result data output by the determination unit 18A is stored in the determination result storage unit 19 that is a database or the like. This determination result data is accumulated for generation of feature words by a feature word generation unit 20A described later.

特徴語生成部20Aは、図4に示すように、判定結果記憶部19に記憶された判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶部15Aに記憶する特徴語生成手段である。特徴語生成部20Aは、判定結果記憶部19に所定期間内(例えば数時間〜数日)に記憶された判定結果データに基づいて特徴語を生成する。具体的には、特徴語生成部20は、例えば判定結果データに含まれる判定対象テキストから公知の固有表現抽出技術により固有表現を抽出し、抽出した固有表現のうち出現頻度が所定の閾値以上の固有表現(関連語)を特徴語として生成することができる。また、特徴語生成部20Aは、判定結果データに含まれる判定対象テキストに対してtfidf、ダイス係数等を用いることで特徴語を生成してもよい。以下の説明においては、このように判定結果データに基づいて生成された特徴語のことを、静的特徴語と区別して動的特徴語ともいう。   As shown in FIG. 4, the feature word generation unit 20A generates a feature word based on the determination result data stored in the determination result storage unit 19, and stores the generated feature word in the feature word storage unit 15A. It is a generation means. The feature word generation unit 20A generates a feature word based on the determination result data stored in the determination result storage unit 19 within a predetermined period (for example, several hours to several days). Specifically, the feature word generation unit 20 extracts a specific expression from a determination target text included in the determination result data by a known specific expression extraction technique, for example, and the appearance frequency of the extracted specific expressions is equal to or higher than a predetermined threshold. A proper expression (related word) can be generated as a feature word. The feature word generation unit 20A may generate a feature word by using tfidf, a dice coefficient, or the like for the determination target text included in the determination result data. In the following description, the feature word generated based on the determination result data is also referred to as a dynamic feature word in distinction from the static feature word.

特徴語生成部20Aによって生成された動的特徴語は、予め特徴語記憶部15Aに記憶されている静的特徴語と共に特徴語記憶部15Aに記憶される。特徴語記憶部15Aに記憶される静的特徴語及び動的特徴語は、判定部18Aによる判定においては、特に区別されることなく用いられる。   The dynamic feature words generated by the feature word generation unit 20A are stored in the feature word storage unit 15A together with the static feature words stored in advance in the feature word storage unit 15A. The static feature words and dynamic feature words stored in the feature word storage unit 15A are used without being particularly distinguished in the determination by the determination unit 18A.

このように、特徴語生成部20Aが判定結果データに基づいて生成した動的特徴語は、特徴語として特徴語記憶部15Aに記憶されるので、特徴語記憶部15Aに記憶される特徴語は次第に増えていく。これにより、判定部18Aによる判定における特定地点名称の抽出の再現率が高められる。なお、特徴語生成部20が判定結果データから動的特徴語を生成する頻度(周期)、並びに動的特徴語の生成に用いる判定結果データの対象期間及びデータ数等は、例えば管理者等によって任意に設定される。   In this way, the dynamic feature words generated based on the determination result data by the feature word generation unit 20A are stored as feature words in the feature word storage unit 15A, and thus the feature words stored in the feature word storage unit 15A are It will gradually increase. Thereby, the reproduction rate of extraction of the specific spot name in the determination by the determination unit 18A is increased. The frequency (cycle) at which the feature word generation unit 20 generates a dynamic feature word from the determination result data, the target period and the number of data of the determination result data used for generating the dynamic feature word, and the like are determined by, for example, an administrator Set arbitrarily.

次に、図6〜図8を用いて、本実施形態に係る特定地点名称判定方法を含む特定地点名称判定装置1Aの動作を説明する。   Next, operation | movement of 1 A of specific spot name determination apparatuses containing the specific spot name determination method which concerns on this embodiment is demonstrated using FIGS.

図6に示すように、テキスト抽出部14により、特定地点情報記憶部13に記憶された特定地点情報が読み取られ、読み取られた特定地点情報がRAM102上にロードされる(ステップS101)。また、テキスト取得部11により、テキスト入力部2から投稿テキストが取得され、取得された投稿テキストがテキスト格納部12に格納される(ステップS102)。続いて、テキスト抽出部14により、テキスト格納部12に記憶されている複数の投稿テキストのうちから、RAM102上にロードされた特定地点情報に関連付けられた特定地点名称を含む判定対象テキストが抽出される(ステップS103、テキスト取得ステップ)。   As shown in FIG. 6, the text extraction unit 14 reads the specific spot information stored in the specific spot information storage unit 13 and loads the read specific spot information on the RAM 102 (step S <b> 101). The posted text is acquired from the text input unit 2 by the text acquisition unit 11, and the acquired posted text is stored in the text storage unit 12 (step S102). Subsequently, the text extraction unit 14 extracts the determination target text including the specific point name associated with the specific point information loaded on the RAM 102 from the plurality of posted texts stored in the text storage unit 12. (Step S103, text acquisition step).

続いて、判定部18Aにより、特定地点名称判定方法の判定ステップを含む処理(ステップS104〜ステップS107)が実行される。ただし、ステップS107に含まれるステップS304に示す特徴語の生成処理は、特徴語生成部20Aにより実行される。まず、判定対象特定地点名称に対応する同名フラグが立っているか否かが判定される(ステップS104)。同名フラグが立っている場合(ステップS104:YES)には、同名フラグ処理が実行される(ステップS105)。一方、同名フラグが立っていない場合(ステップS104:NO)には、特定地点名称に対応する人名フラグ又は一般語フラグが立っているか否かが判定される(ステップS106)。ここで、人名フラグ又は一般語フラグが立っている場合(ステップS106:YES)には、人名・一般語フラグ処理が実行される(ステップS107)。一方、人名フラグ及び一般語フラグのいずれも立っていない場合(ステップS106:NO)には、判定対象特定地点名称に曖昧性はない(判定対象特定地点名称が示す特定地点が一意に定まる)ので、処理を終了する。   Subsequently, processing (step S104 to step S107) including a determination step of the specific spot name determination method is executed by the determination unit 18A. However, the feature word generation processing shown in step S304 included in step S107 is executed by the feature word generation unit 20A. First, it is determined whether or not the same name flag corresponding to the determination target specific point name is set (step S104). If the same name flag is set (step S104: YES), the same name flag process is executed (step S105). On the other hand, when the same name flag is not set (step S104: NO), it is determined whether or not a person name flag or a general word flag corresponding to the specific point name is set (step S106). If the personal name flag or the general word flag is set (step S106: YES), the personal name / general word flag process is executed (step S107). On the other hand, when neither the personal name flag nor the general language flag stands (step S106: NO), the determination target specific spot name is not ambiguous (the specific spot indicated by the determination target specific spot name is uniquely determined). The process is terminated.

図7は、図6に示す同名フラグ処理のフロー図である。図7に示すように、同名フラグ処理では、まず、判定部18Aが、有名度記憶部17を参照することで、判定対象特定地点名称と同一名称の同名特定地点の有名度を参照する(ステップS201)。続いて、判定部18Aにより、同名特定地点のうち最大の有名度をもつ特定地点(有名特定地点)の有名度が所定の閾値以上であるか否かが判定される(ステップS202)。有名特定地点の有名度が所定の閾値以上である場合(ステップS202:YES)には、特定地点名称は有名特定地点を示すものと判定される(ステップS203)。一方、有名特定地点の有名度が所定の閾値未満である場合(ステップS202:NO)には、上述した同名判定処理が実行される(ステップS204)。   FIG. 7 is a flowchart of the same name flag processing shown in FIG. As shown in FIG. 7, in the same name flag process, first, the determination unit 18A refers to the famousness storage unit 17 to refer to the famousity of the same name specific point having the same name as the determination target specific point name (step) S201). Subsequently, the determination unit 18A determines whether or not the famous point of the specific point having the maximum famousness among the specific points with the same name (famous specific point) is greater than or equal to a predetermined threshold (step S202). When the famous degree of the famous specific point is greater than or equal to a predetermined threshold (step S202: YES), it is determined that the specific point name indicates the famous specific point (step S203). On the other hand, when the famous degree of the famous specific point is less than the predetermined threshold (step S202: NO), the same name determination process described above is executed (step S204).

図8は、図6に示す人名・一般語フラグ処理を示すフロー図である。図8に示すように、人名・一般語フラグ処理では、まず、判定対象特定地点名称に関連付けて特徴語記憶部15Aに記憶されている特徴語(静的特徴語)が判定対象テキストに含まれているか否か、すなわち特定地点名称と特徴語との組み合わせが判定対象テキストに含まれているか否かが判定される(ステップS301)。判定対象特定地点名称に対応する特徴語が判定対象テキストに含まれている場合(ステップS301:YES)には、判定部18Aにより、判定対象テキスト中で判定対象特定地点名称が特定地点を意味する(地名・施設名称を指している)と判定される(ステップS302)。この判定結果と判定対象テキストとを関連付けた判定結果データは、判定結果記憶部19に記憶される(ステップS303)。そして、特徴語生成部20Aが、管理者等により予め定められた任意のタイミングで、判定結果記憶部19に記憶された判定結果データに基づいて動的特徴語を生成し、生成した動的特徴語を特徴語記憶部15Aに記憶する(ステップS304)。これにより、次に特定地点名称判定装置1Aを用いた判定処理を実行する際には、ステップS301において、予め管理者等により記憶された静的特徴語と共に、ステップS304で特徴語生成部20Aにより生成された動的特徴語を用いた判定処理が実行されることとなる。   FIG. 8 is a flowchart showing the personal name / general word flag processing shown in FIG. As shown in FIG. 8, in the personal name / general word flag process, first, a feature word (static feature word) stored in the feature word storage unit 15A in association with the determination target specific spot name is included in the determination target text. Whether or not a combination of a specific point name and a feature word is included in the determination target text (step S301). When the characteristic word corresponding to the determination target specific point name is included in the determination target text (step S301: YES), the determination unit 18A means the determination target specific point name in the determination target text means the specific point. It is determined (points to a place name / facility name) (step S302). The determination result data associating the determination result with the determination target text is stored in the determination result storage unit 19 (step S303). Then, the feature word generation unit 20A generates a dynamic feature word based on the determination result data stored in the determination result storage unit 19 at an arbitrary timing predetermined by an administrator or the like, and the generated dynamic feature The words are stored in the feature word storage unit 15A (step S304). Thereby, when performing the determination process using the specific point name determination apparatus 1A next time, in step S301, the feature word generation unit 20A in step S304 together with the static feature words stored in advance by the administrator or the like. A determination process using the generated dynamic feature word is executed.

一方、判定対象特定地点名称に対応する特徴語が判定対象テキストに含まれていない場合(ステップS301:NO)には、判定部18Aにより、判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味すると判定される(ステップS305)。   On the other hand, when the characteristic word corresponding to the determination target specific spot name is not included in the determination target text (step S301: NO), the determination unit 18A determines that the determination target specific spot name is a person name or general in the determination target text. It is determined to mean a word (step S305).

以上述べた特定地点名称判定装置1Aでは、一連の判定処理が繰り返されることで、特徴語記憶部15Aに記憶される特徴語が増えていく(動的特徴語が追加されていく)ため、判定部18Aによる判定において、判定対象テキスト中で特定地点を意味する特定地点名称を適切に抽出(特定地点を意味すると判定)できる可能性を高めることができる。すなわち、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。   In the specific point name determination apparatus 1A described above, the number of feature words stored in the feature word storage unit 15A increases (dynamic feature words are added) by repeating a series of determination processes. In the determination by the unit 18A, it is possible to increase the possibility that the specific point name that means the specific point in the determination target text can be appropriately extracted (determined to mean the specific point). That is, it is possible to increase the recall of the extraction of the specific point name used as meaning the specific point in the text.

また、この特定地点名称判定装置1Aでは、判定対象特定地点名称と同一名称の同名特定地点が複数存在する場合(第2のフラグが立っている場合)において、判定部18Aは、有名特定地点の有名度が所定の閾値以上である場合には、上述の同名判定処理を実行することなく、判定対象特定地点名称が有名特定地点を示すものと判定することができる。これにより、判定対象テキスト中に特定地点名称に対応する周辺地名が含まれていない場合であっても、特定地点の有名度に基づいて特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。   Moreover, in this specific point name determination apparatus 1A, when there are a plurality of the same name specific points having the same name as the determination target specific point name (when the second flag is set), the determination unit 18A If the famousness is greater than or equal to a predetermined threshold, it can be determined that the determination target specific point name indicates the famous specific point without executing the above-described same name determination process. As a result, even when the surrounding text corresponding to the specific spot name is not included in the determination target text, the specific spot name can be appropriately extracted based on the famousness of the specific spot. The rate is improved.

また、この特定地点名称判定装置1Aでは、有名度算出部16が、周辺地名テキストの数、特徴語テキストの数、及びチェックイン数等に基づいて、同名特定地点毎の有名度を適切に算出することができる。そして、判定部18Aがこのようにして算出された有名度に基づいて特定地点名称の判定を行うことにより、特定地点名称の抽出の精度の向上が図られる。   Moreover, in this specific point name determination apparatus 1A, the famousness calculation unit 16 appropriately calculates the famousity for each specific point with the same name based on the number of surrounding place name texts, the number of feature word texts, the number of check-ins, and the like. can do. And the determination part 18A determines the specific spot name based on the famousity calculated in this way, so that the accuracy of extraction of the specific spot name can be improved.

[第2実施形態]
図9は、本発明の第2実施形態に係る特定地点名称判定装置1Bの機能構成を示すブロック図である。特定地点名称判定装置1Bは、特定地点名称判定装置1Aの特徴語記憶部15A、判定部18A、及び特徴語生成部20Aがそれぞれ、特徴語記憶部15B、判定部18B、及び特徴語生成部20Bに置き換わった点において、特定地点名称判定装置1Aとは異なっている。また、特定地点名称判定装置1Bは、判定モデル記憶部21を備えている点で特定地点名称判定装置1Aとは異なっている。以下、特定地点名称判定装置1Bが特定地点名称判定装置1Aと異なっている点を主に説明する。
[Second Embodiment]
FIG. 9 is a block diagram showing a functional configuration of the specific point name determination apparatus 1B according to the second embodiment of the present invention. In the specific point name determination device 1B, the feature word storage unit 15A, the determination unit 18A, and the feature word generation unit 20A of the specific point name determination device 1A are the feature word storage unit 15B, the determination unit 18B, and the feature word generation unit 20B, respectively. Is different from the specific point name determination apparatus 1A. Further, the specific point name determination device 1B is different from the specific point name determination device 1A in that it includes a determination model storage unit 21. Hereinafter, the point that the specific point name determination apparatus 1B is different from the specific point name determination apparatus 1A will be mainly described.

特徴語記憶部15Bは、特定地点名称がテキスト中で特定地点を意味しないことを特徴付ける単語である不正解特徴語を特徴語と共に特定地点名称毎に記憶する特徴語記憶手段である。本実施形態では、不正解特徴語は、特定地点名称がテキスト中で特定地点以外の人名又は一般語を意味することを特徴付ける単語である。ここで、不正解特徴語は、特定地点名称がテキスト中で特定地点を意味しない(テキスト中で人名又は一般語を意味する)ものとして用いられている一以上の文章に基づいて予め管理者等により抽出され、特徴語記憶部15Bに記憶されている。不正解特徴語は、特徴語と同様に、例えばtfidf等によって抽出される。特徴語記憶部15Bに記憶される特徴語については、特徴語記憶部15Aに記憶される特徴語と同様であるため説明を省略する。   The feature word storage unit 15B is a feature word storage unit that stores an incorrect answer feature word, which is a word characterizing that a specific spot name does not mean a specific spot in the text, together with the feature word for each specific spot name. In the present embodiment, an incorrect answer characteristic word is a word that characterizes that a specific point name means a person name or general word other than the specific point in the text. Here, an incorrect answer feature word is an administrator or the like in advance based on one or more sentences in which the specific point name does not mean a specific point in the text (means a person name or general word in the text) And is stored in the feature word storage unit 15B. The incorrect answer feature word is extracted by, for example, tfidf or the like, like the feature word. Since the feature words stored in the feature word storage unit 15B are the same as the feature words stored in the feature word storage unit 15A, description thereof is omitted.

判定モデル記憶部21は、判定対象テキストを入力して特定地点名称が当該判定対象テキスト中で特定地点を意味するか否かを判定する判定モデルを記憶する判定モデル記憶手段である。判定モデルは、例えば機械学習により生成された学習モデルである。この学習モデルは、例えば予め管理者等により用意される。ここで、機械学習としては、例えばCRF(Conditional Random Fields:条件付き確率場)やSVM(SupportVector Machine)等の手法を用いることができる。また、学習モデルは、例えば、特定地点名称が含まれるテキストを説明変数とし、当該テキスト中で当該特定地点名称が何を意味するか(特定地点、人名、一般語等のうちいずれの意味で用いられているか)を示す情報を目的変数とした教師付データに基づいてCRF及びSVM等の機械学習を行うことで得られる。   The determination model storage unit 21 is a determination model storage unit that inputs a determination target text and stores a determination model for determining whether or not a specific point name means a specific point in the determination target text. The determination model is a learning model generated by machine learning, for example. This learning model is prepared in advance by an administrator or the like, for example. Here, as the machine learning, for example, a technique such as CRF (Conditional Random Fields) or SVM (Support Vector Machine) can be used. In addition, the learning model uses, for example, a text including a specific point name as an explanatory variable, and what the specific point name means in the text (used in any sense among a specific point, a person name, a general word, etc.) It is obtained by performing machine learning such as CRF and SVM based on supervised data with information indicating whether the object is a target variable.

ここで、判定モデルは、例えば、特定地点名称が人名を意味するか否かを判定するモデル(人名モデル)、特定地点名称が一般語を意味するか否かを判定するモデル(一般語モデル)といったように、カテゴリ別の判定モデルから構成されていてもよい。   Here, the determination model is, for example, a model (person name model) for determining whether or not the specific point name means a person name, and a model (general language model) for determining whether or not the specific point name means a general word. As described above, the determination model may be configured by category.

判定部18Bは、判定モデル記憶部21に記憶された判定モデルと、特徴語記憶部15Bに記憶されている特徴語及び不正解特徴語とに基づいて判定対象テキスト中で判定対象特定地点名称が特定地点を意味するか否かを判定する判定手段である。   The determination unit 18B has a determination target specific point name in the determination target text based on the determination model stored in the determination model storage unit 21 and the feature words and incorrect answer feature words stored in the feature word storage unit 15B. It is a determination means for determining whether or not a specific point is meant.

具体的には、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を意味する)と判定する。   Specifically, when the determination unit 18B determines that the determination target specific point name does not mean the specific point in the determination target text based on the determination model, the determination unit 18B associates the determination target specific point name with the determination target specific point name. If the characteristic word memorize | stored in 15B is contained in the said determination target text, it will determine with the said determination target specific point name meaning the specific point in the said determination target text. On the other hand, when the determination unit 18B determines that the determination target specific spot name does not mean the specific spot in the determination target text based on the determination model, the determination unit 18B stores the determination target specific spot name in association with the determination target specific spot name in the feature word storage unit 15B. If the determined feature word is not included in the determination target text, it is determined that the determination target specific point name does not mean a specific point in the determination target text (means a person name or general term other than the specific point) To do.

また、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている不正解特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を意味する)と判定する。   Further, when the determination unit 18B determines that the determination target specific spot name means a specific spot in the determination target text based on the determination model, the determination unit 18B is associated with the determination target specific spot name and stored in the feature word storage unit 15B. If the incorrect characteristic word is not included in the determination target text, it is determined that the determination target specific point name means the specific point in the determination target text. On the other hand, when the determination unit 18B determines that the determination target specific point name means a specific point in the determination target text based on the determination model, the determination unit 18B is associated with the determination target specific point name and stored in the feature word storage unit 15B. If the incorrect target characteristic word is included in the determination target text, the determination target specific point name in the determination target text does not mean a specific point (means a person name or general term other than the specific point) judge.

判定部18Bは、判定対象テキストと判定結果とを関連付けた判定結果データを出力する。ここで、判定結果とは、判定対象テキストに含まれる特定地点名称が判定部18Bによって特定地点、人名、及び一般語のいずれを意味するものと判定されたかを示す情報である。判定部18Bにより出力された判定結果データは、判定結果記憶部19に記憶される。この判定結果データは、後述する特徴語生成部20Aによる特徴語又は不正解特徴語の生成のために蓄積される。   The determination unit 18B outputs determination result data in which a determination target text and a determination result are associated with each other. Here, the determination result is information indicating whether the specific point name included in the determination target text is determined by the determination unit 18B to mean a specific point, a person name, or a general word. The determination result data output by the determination unit 18B is stored in the determination result storage unit 19. This determination result data is accumulated for generation of feature words or incorrect feature words by a feature word generation unit 20A described later.

ここで、判定モデル記憶部21にカテゴリ別の判定モデル(人名モデル、一般語モデル)が記憶されている場合には、判定部18Bは、判定モデルに基づく判定の際に、判定対象特定地点名称に対応する第1のフラグ(人名フラグ、一般語フラグ)に対応する判定モデルを用いて判定を行うことができる。具体的には、人名フラグが立っている場合には、判定部18Bは、人名モデルを用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が人名を意味するか否かを判定することができる。また、一般語フラグが立っている場合には、判定部18Bは、一般語モデルを用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が一般語を意味するか否かを判定することができる。また、人名フラグ及び一般語フラグの両方が立っている場合には、判定部18Bは、人名モデル及び一般語モデルの両方を用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味するか否かを判定することができる。   Here, in the case where determination models for each category (personal name model, general language model) are stored in the determination model storage unit 21, the determination unit 18B determines the determination target specific point name at the time of determination based on the determination model. The determination can be made using the determination model corresponding to the first flag (person name flag, general word flag) corresponding to. Specifically, when the personal name flag is set, the determination unit 18B determines the determination target text using the personal name model, so that the determination target specific point name in the determination target text means the personal name. It can be determined whether or not. When the general word flag is set, the determination unit 18B determines the determination target text using the general word model, and thus the determination target specific point name in the determination target text means a general word. It can be determined whether or not. When both the personal name flag and the general word flag are set, the determination unit 18B determines the determination target text using both the personal name model and the general word model, thereby determining the determination target text. It can be determined whether the target specific point name means a personal name or a general term.

特徴語生成部20Bは、判定結果記憶部19に記憶された判定結果データに基づいて特徴語又は不正解特徴語を生成し、生成した特徴語又は不正解特徴語を特徴語記憶部15Bに記憶する特徴語生成手段である。具体的には、特徴語生成部20Bは、判定部18Bによって特定地点を意味するものと判定された特定地点名称を含む判定対象テキストを判定結果データから抽出し、当該判定対象テキストから特徴語を生成する。また、特徴語生成部20Bは、判定部18Bによって人名又は一般語を意味するものと判定された特定地点名称を含む判定対象テキストを判定結果データから抽出し、当該判定対象テキストから不正解特徴語を生成する。特徴語生成部20Bは、例えば公知の固有表現抽出技術により抽出した固有表現(関連語)を特徴語又は不正解特徴語として生成することができる。また、特徴語生成部20Bは、tfidf、ダイス係数などを用いて特徴語又は不正解特徴語を生成してもよい。   The feature word generation unit 20B generates a feature word or an incorrect answer feature word based on the determination result data stored in the determination result storage unit 19, and stores the generated feature word or incorrect answer feature word in the feature word storage unit 15B. Feature word generating means. Specifically, the feature word generation unit 20B extracts the determination target text including the specific point name determined to mean the specific point by the determination unit 18B from the determination result data, and extracts the characteristic word from the determination target text. Generate. In addition, the feature word generation unit 20B extracts the determination target text including the specific point name determined to mean a human name or a general word by the determination unit 18B from the determination result data, and the incorrect answer feature word from the determination target text Is generated. The feature word generation unit 20B can generate, for example, a proper expression (related word) extracted by a known proper expression extraction technique as a feature word or an incorrect answer feature word. The feature word generation unit 20B may generate a feature word or an incorrect answer feature word using tfidf, a dice coefficient, or the like.

特徴語生成部20Bによって生成された特徴語又は不正解特徴語は、予め特徴語記憶部15Bに記憶されている特徴語及び不正解特徴語と共に特徴語記憶部15Bに記憶される。特徴語生成部20Bによって特徴語記憶部15Bに記憶される特徴語又は不正解特徴語と、予め管理者等により特徴語記憶部15Bに記憶されている特徴語及び不正解特徴語とは、判定部18Aによる判定においては、特に区別されることなく用いられる。   The feature word or the incorrect answer feature word generated by the feature word generation unit 20B is stored in the feature word storage unit 15B together with the feature word and the incorrect answer feature word stored in the feature word storage unit 15B in advance. A feature word or an incorrect answer feature word stored in the feature word storage unit 15B by the feature word generation unit 20B and a feature word and an incorrect answer feature word stored in advance in the feature word storage unit 15B by an administrator or the like are determined. The determination by the unit 18A is used without being particularly distinguished.

次に、図10を用いて、特定地点名称判定装置1Bの動作を説明する。まず、判定部18Bが、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味するか否かを判定する(ステップS401)。ステップS401において判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定された場合(ステップS401:NO)には、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている特徴語が当該判定対象テキストに含まれているか否かが判定される(ステップS402)。一方、ステップS401において判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定された場合(ステップS401:YES)には、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている不正解特徴語が当該判定対象テキストに含まれているか否かが判定される(ステップS403)。   Next, operation | movement of the specific point name determination apparatus 1B is demonstrated using FIG. First, the determination unit 18B determines whether the determination target specific spot name means a specific spot in the determination target text based on the determination model (step S401). When it is determined in step S401 that the determination target specific spot name does not mean a specific spot in the determination target text (step S401: NO), the determination target specific spot name is stored in the feature word storage unit 15B in association with the determination target specific spot name. It is determined whether or not the feature word is included in the determination target text (step S402). On the other hand, when it is determined in step S401 that the determination target specific spot name means a specific spot in the determination target text (step S401: YES), the determination target specific spot name is stored in the feature word storage unit 15B in association with the determination target specific spot name. It is determined whether or not the incorrect feature word that has been included is included in the determination target text (step S403).

ステップS402において判定対象特定地点名称に関連付けられる特徴語が判定対象テキストに含まれていなければ(ステップS402:NO)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を指している)と判定される(ステップS405)。一方、ステップS402において判定対象特定地点名称に関連付けられる特徴語が判定対象テキストに含まれていれば(ステップS402:YES)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味する(地名・施設名称を指している)と判定される(ステップS404)。   If the feature word associated with the determination target specific spot name is not included in the determination target text in step S402 (step S402: NO), the determination target specific spot name does not mean a specific spot in the determination target text (specific (It refers to a person name or general term other than the point)) (step S405). On the other hand, if the determination target text includes a feature word associated with the determination target specific spot name in step S402 (step S402: YES), the determination target specific spot name in the determination target text means a specific spot. It is determined (points to a place name / facility name) (step S404).

ステップS403において判定対象特定地点名称に関連付けられる不正解特徴語が判定対象テキストに含まれていなければ(ステップS403:NO)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味する(地名・施設名称を指している)と判定される(ステップS404)。一方、ステップS403において判定対象特定地点名称に関連付けられる不正解特徴語が判定対象テキストに含まれていれば(ステップS403:YES)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を指している)と判定される(ステップS405)。   If the incorrect characteristic word associated with the determination target specific point name is not included in the determination target text in step S403 (step S403: NO), the determination target specific point name means the specific point in the determination target text. It is determined (points to a place name / facility name) (step S404). On the other hand, if the incorrect target characteristic word associated with the determination target specific spot name is included in the determination target text in step S403 (step S403: YES), the determination target specific spot name in the determination target text indicates the specific spot. It is determined that it does not mean (refers to a person name or general term other than a specific point) (step S405).

続いて、ステップS404又はステップS405での判定結果と判定対象テキストとを関連付けた判定結果データが、判定結果記憶部19に記憶される(ステップS406)。そして、特徴語生成部20Bが、管理者等により予め定められた任意のタイミングで、判定結果記憶部19に記憶された判定結果データに基づいて動的特徴語又は不正解特徴語を生成し、生成した動的特徴語又は不正解特徴語を特徴語記憶部15Bに記憶する(ステップS407)。これにより、次に特定地点名称判定装置1Bを用いた判定処理を実行する際には、ステップS402において、予め管理者等により記憶された特徴語と共に、ステップS407で特徴語生成部20Bにより生成された特徴語を用いた判定処理が実行されることとなる。また、ステップS403においては、予め管理者等により記憶された不正解特徴語と共に、ステップS407で特徴語生成部20Bにより生成された不正解特徴語を用いた判定処理が実行されることとなる。   Subsequently, determination result data in which the determination result in step S404 or step S405 is associated with the determination target text is stored in the determination result storage unit 19 (step S406). Then, the feature word generation unit 20B generates a dynamic feature word or an incorrect feature word based on the determination result data stored in the determination result storage unit 19 at an arbitrary timing predetermined by an administrator or the like, The generated dynamic feature word or incorrect feature word is stored in the feature word storage unit 15B (step S407). Thereby, when performing the determination process using the specific point name determination apparatus 1B next time, it is generated by the feature word generation unit 20B in step S407 together with the feature words stored in advance by the administrator or the like in step S402. The determination process using the feature word is executed. In step S403, the determination process using the incorrect feature word generated by the feature word generation unit 20B in step S407 together with the incorrect feature word previously stored by the administrator or the like is executed.

以上述べた特定地点名称判定装置1Bによれば、判定モデルによる判定と、特徴語又は不正解特徴語を用いた判定とを併せて行うことで、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めると共に精度(適合率)を高めることができる。具体的には、判定部18Bは、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味しないと判定された場合であっても、当該特定地点名称が特定地点を意味することを特徴付ける特徴語が含まれていれば、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の再現率が高められる。一方、判定部18Bは、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味すると判定された場合には、当該特定地点名称が特定地点を意味しないことを特徴付ける不正解特徴語が含まれていないことをもって、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の精度を高めることができる。   According to the specific point name determination apparatus 1B described above, the determination by the determination model and the determination using the feature word or the incorrect answer feature word are performed together to use the specific point in the text. It is possible to increase the reproducibility of the extraction of the name of the specific spot and to increase the accuracy (matching rate). Specifically, even when the determination unit 18B determines that the specific point name does not mean the specific point in the determination target text by the determination by the determination model, the specific point name means the specific point. Is included in the determination target text, it is determined that the specific point name means a specific point. By such determination, the reproduction rate of the extraction of the specific point name is increased. On the other hand, if the determination unit 18B determines that the specific point name means a specific point in the determination target text by the determination by the determination model, the incorrect answer feature word characterizing that the specific point name does not mean the specific point Is not included, it is determined that the specific point name in the determination target text means a specific point. Such determination can improve the accuracy of extraction of the specific spot name.

次に、図11を用いて、本発明の一実施形態に係る特定地点名称判定プログラムP1について説明する。特定地点名称判定プログラムP1は、コンピュータを特定地点名称判定装置1Aとして機能させるためのプログラムである。   Next, the specific point name determination program P1 according to one embodiment of the present invention will be described using FIG. The specific point name determination program P1 is a program for causing a computer to function as the specific point name determination device 1A.

図11は、特定地点名称判定プログラムP1のモジュールを示すブロック図である。図11に示すように、特定地点名称判定プログラムP1は、特定地点情報記憶モジュールP11と、特徴語記憶モジュールP12と、テキスト取得モジュールP13と、テキスト抽出モジュールP14と、判定モジュールP15と、特徴語生成モジュールP16とを備える。上記の特定地点情報記憶モジュールP11、特徴語記憶モジュールP12、テキスト取得モジュールP13、テキスト抽出モジュールP14、判定モジュールP15、及び特徴語生成モジュールP16が実行されることにより実現される機能は、上述した特定地点名称判定装置1Aにおいて対応する特定地点情報記憶部13、特徴語記憶部15A、テキスト取得部11、テキスト抽出部14、判定部18A、及び特徴語生成部20Aの機能と同様である。   FIG. 11 is a block diagram showing modules of the specific point name determination program P1. As shown in FIG. 11, the specific point name determination program P1 includes a specific point information storage module P11, a feature word storage module P12, a text acquisition module P13, a text extraction module P14, a determination module P15, and a feature word generation. Module P16. The functions realized by executing the specific point information storage module P11, the feature word storage module P12, the text acquisition module P13, the text extraction module P14, the determination module P15, and the feature word generation module P16 are as described above. The functions of the specific point information storage unit 13, the feature word storage unit 15A, the text acquisition unit 11, the text extraction unit 14, the determination unit 18A, and the feature word generation unit 20A corresponding to the spot name determination device 1A are the same.

このように構成された特定地点名称判定プログラムP1は、例えばCD−ROM及びDVD等の記録媒体に記憶され、特定地点名称判定装置1Aとして用いられるコンピュータにより実行される。具体的には、当該コンピュータは、例えばCD−ROMドライブ及びDVDドライブ等の記録媒体読取部を備えている。記録媒体読取部に記録媒体が挿入されると、当該コンピュータは、記録媒体読取部から記録媒体に格納された特定地点名称判定プログラムP1にアクセス可能となる。そして、特定地点名称判定プログラムP1を当該コンピュータに実行させることによって、当該コンピュータを、特定地点名称判定装置1Aとして動作させることが可能となる。   The specific point name determination program P1 configured as described above is stored in a recording medium such as a CD-ROM and a DVD, and is executed by a computer used as the specific point name determination device 1A. Specifically, the computer includes a recording medium reading unit such as a CD-ROM drive and a DVD drive. When the recording medium is inserted into the recording medium reading unit, the computer can access the specific point name determination program P1 stored in the recording medium from the recording medium reading unit. Then, by causing the computer to execute the specific point name determination program P1, the computer can be operated as the specific point name determination device 1A.

なお、特定地点名称判定プログラムP1は、搬送波に重畳されたデータ信号としてネットワークを介して提供されるものであってもよい。この場合、特定地点名称判定装置1Aとして用いられるコンピュータは、通信モジュール106によって受信した特定地点名称判定プログラムP1をCPU101又はRAM102に格納することにより、特定地点名称判定プログラムP1を実行することができる。   The specific point name determination program P1 may be provided via a network as a data signal superimposed on a carrier wave. In this case, the computer used as the specific location name determination apparatus 1A can execute the specific location name determination program P1 by storing the specific location name determination program P1 received by the communication module 106 in the CPU 101 or the RAM 102.

以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲において様々な変形が可能である。   The present invention has been described in detail based on the embodiments. However, the present invention is not limited to the above embodiment. The present invention can be variously modified without departing from the gist thereof.

例えば、本実施形態では、特定地点の例として、施設(清水寺)、湖沼(大沼)、山岳(函館山)のPOIを示したが、特定地点は、例えば観光地、繁華街、駅前等の何らかの地点を示すものであれば何でもよい。   For example, in this embodiment, POIs of facilities (Kiyomizu-dera), lakes (Oonuma), and mountains (Mt. Hakodate) are shown as examples of specific points, but the specific points are, for example, sightseeing spots, downtown areas, station fronts, etc. Anything can be used as long as it indicates a point.

また、本実施形態では、特定地点以外を意味するものの例として、人名及び一般語を挙げたが、その他のカテゴリを用いてもよい。例えば、駅名を示すものについては特定地点から除外したい場合には、駅名と同一名称であることを示す駅名フラグを第1のフラグとしてもよい。   Moreover, in this embodiment, although a person name and a general term were mentioned as an example of what means other than a specific point, you may use another category. For example, when it is desired to exclude a station name from a specific point, a station name flag indicating the same name as the station name may be used as the first flag.

また、本実施形態では、フラグの状態に応じた場合分けにより、同名フラグ処理と人名・一般語フラグ処理とのいずれかの処理を実施するものとして説明したが、両方のフラグが立っている場合には、両方の処理を実行して、総合的に判定することとしてもよい。また、本実施形態では、同名フラグ処理を優先させたが、人名・一般語フラグ処理を優先させてもよい。   Further, in the present embodiment, it has been described that either the same name flag process or the personal name / general word flag process is performed depending on the case according to the state of the flag, but both flags are set. Alternatively, both processes may be executed to make a comprehensive determination. In the present embodiment, priority is given to the same name flag processing, but personal name / general word flag processing may be prioritized.

1A,1B…特定地点名称判定装置、2…テキスト入力部、11…テキスト取得部、12…テキスト格納部、13…特定地点情報記憶部、14…テキスト抽出部、15…特徴語記憶部、16…有名度算出部、17…有名度算出部、18A,18B…判定部、19…判定結果記憶部、20A,20B…特徴語生成部、21…判定モデル記憶部、101…CPU、102…RAM、103…ROM、104…入力装置、105…出力装置、106…通信モジュール、107…補助記憶装置、P1…特定地点名称判定プログラム、P11…特定地点情報記憶モジュール、P12…特徴語記憶モジュール、P13…テキスト取得モジュール、P14…判定モジュール、P15…特徴語生成モジュール。   DESCRIPTION OF SYMBOLS 1A, 1B ... Specific point name determination apparatus, 2 ... Text input part, 11 ... Text acquisition part, 12 ... Text storage part, 13 ... Specific point information storage part, 14 ... Text extraction part, 15 ... Feature word storage part, 16 ... famousity calculation unit, 17 ... famousity calculation unit, 18A, 18B ... determination unit, 19 ... determination result storage unit, 20A, 20B ... feature word generation unit, 21 ... determination model storage unit, 101 ... CPU, 102 ... RAM , 103 ... ROM, 104 ... input device, 105 ... output device, 106 ... communication module, 107 ... auxiliary storage device, P1 ... specific location name determination program, P11 ... specific location information storage module, P12 ... feature word storage module, P13 ... text acquisition module, P14 ... determination module, P15 ... feature word generation module.

Claims (8)

予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が前記特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、
前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
テキストを取得するテキスト取得手段と、
前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、
前記判定対象テキストに含まれる特定地点名称に対応する前記第1のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定手段と、
前記判定対象テキストと当該判定対象テキストに対する前記判定手段による判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成手段と、
を備える特定地点名称判定装置。
Specific point information storage means for storing specific point information that associates a specific point name indicating a name of a predetermined specific point with a first flag indicating that the specific point name has a meaning other than the specific point When,
Feature word storage means for storing, for each specific point, a characteristic word that is a word characterizing that the specific point name means the specific point in the text;
A text acquisition means for acquiring text;
A text extraction unit that extracts a determination target text including a specific point name associated with the specific point information from the text acquired by the text acquisition unit;
The first flag corresponding to the specific spot name included in the determination target text indicates that the specific spot name has a meaning other than the specific spot, and the feature word storage means is associated with the specific spot name. If the feature word stored in the determination target text is included in the determination target text, determination means for determining that the specific point name means the specific point in the determination target text;
Feature word generating means for generating the feature word based on determination result data in which the determination target text is associated with a determination result by the determination means for the determination target text, and storing the generated feature word in the feature word storage means When,
A specific point name determination device comprising:
前記判定対象テキストを入力して前記特定地点名称が当該判定対象テキスト中で前記特定地点を意味するか否かを判定する判定モデルを記憶する判定モデル記憶手段を更に備え、
前記特徴語記憶手段は、前記特定地点名称がテキスト中で前記特定地点を意味しないことを特徴付ける単語である不正解特徴語を前記特徴語と共に前記特定地点名称毎に記憶し、
前記判定手段は、前記判定モデルに基づいて前記判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で前記特定地点を意味しないと判定した場合において、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定し、前記判定モデルに基づいて前記判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で前記特定地点を意味すると判定した場合において、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定し、
前記特徴語生成手段は、前記判定結果データに基づいて前記特徴語又は前記不正解特徴語を生成し、生成した特徴語又は不正解特徴語を前記特徴語記憶手段に記憶する、
請求項1記載の特定地点名称判定装置。
A determination model storage means for storing a determination model for inputting the determination target text and determining whether the specific point name means the specific point in the determination target text;
The feature word storage means stores an incorrect answer feature word that is a word characterizing that the specific point name does not mean the specific point in the text together with the characteristic word for each specific point name,
When the determination unit determines that the specific point name included in the determination target text does not mean the specific point in the determination target text based on the determination model, the characteristic word is associated with the specific point name. If the feature word stored in the storage means is included in the determination target text, it is determined that the specific point name means the specific point in the determination target text, and the determination target is based on the determination model. When it is determined that the specific point name included in the text means the specific point in the determination target text, an incorrect feature word stored in the characteristic word storage unit in association with the specific point name is the determination target If it is not included in the text, it is determined that the specific point name means the specific point in the determination target text.
The feature word generation means generates the feature word or the incorrect answer feature word based on the determination result data, and stores the generated feature word or incorrect answer feature word in the feature word storage means.
The specific point name determination apparatus according to claim 1.
前記特定地点情報には、当該特定地点情報に関連付けられた特定地点名称と同一名称の特定地点である同名特定地点が複数存在することを示す第2のフラグが関連付けられており、
前記同名特定地点の各々について、予め算出された有名度を記憶する有名度記憶手段と、を更に備え、
前記判定手段は、前記判定対象テキストに含まれる特定地点名称に対応する前記第2のフラグが前記同名特定地点が複数存在することを示している場合には、前記有名度記憶手段に記憶されている前記同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定し、
前記同名判定処理は、前記判定対象テキスト中に含まれる前記特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が前記同名特定地点のうちどの特定地点を示すものかを判定する処理である、
請求項1又は2記載の特定地点名称判定装置。
The specific point information is associated with a second flag indicating that there are a plurality of the same name specific points which are specific points having the same name as the specific point name associated with the specific point information,
For each of the same-name specific points, further comprising a famousness storage means for storing a pre-calculated famousness,
If the second flag corresponding to the specific point name included in the determination target text indicates that there are a plurality of the same name specific points, the determination unit is stored in the famousness storage unit. Determine whether to execute the same name determination process based on the famousness of the same name specific point
Based on a character string other than the specific point name included in the determination target text, the same name determination process indicates which specific point among the same name specific points in the determination target text. Is a process for determining
The specific point name determination apparatus according to claim 1 or 2.
前記判定手段は、前記同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値以上の場合に、前記同名判定処理を実施せずに、前記判定対象テキスト中に含まれる特定地点名称が当該最大の有名度をもつ特定地点を示すと判定し、前記同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、前記同名判定処理を実行する、
請求項3記載の特定地点名称判定装置。
The determination means does not perform the same name determination process when the famousness of the specific point having the highest famousness among the same name specific points is equal to or greater than a predetermined threshold, and the specific point included in the determination target text It is determined that the point name indicates the specific point having the maximum famousness, and the same name determination process is executed when the famous point of the specific point having the maximum famousness among the specific points having the same name is less than a predetermined threshold To
The specific point name determination apparatus according to claim 3.
前記判定手段は、前記同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、前記同名特定地点のうち、前記有名度が所定値以下の同名特定地点を除外して前記同名判定処理を実行する、
請求項4記載の特定地点名称判定装置。
The determination means, when the famousness of the specific point having the highest famousness among the same name specific points is less than a predetermined threshold, out of the same name specific points, the same name specific point having the famousness below a predetermined value. Exclude and execute the same name determination process,
The specific point name determination apparatus according to claim 4.
前記特定地点と当該特定地点に対応する周辺地名との両方が含まれる周辺地名テキストの数、前記特定地点と当該特定地点に対応する前記特徴語との両方が含まれる特徴語テキストの数、及び、移動通信端末のユーザが前記特定地点に滞在した回数を示すチェックイン数のうち少なくとも一つに基づいて前記特定地点の有名度を算出し、算出した有名度を前記有名度記憶手段に記憶する有名度算出手段を更に備える、
請求項3〜5のいずれか一項記載の特定地点名称判定装置。
The number of surrounding place name texts including both the specified point and the surrounding place name corresponding to the specified point, the number of feature word texts including both the specified point and the feature word corresponding to the specified point, and Calculating the famousness of the specific point based on at least one of the check-in numbers indicating the number of times the user of the mobile communication terminal has stayed at the specific point, and storing the calculated famousness in the famousity storage means Further comprising a celebrity calculation means,
The specific point name determination apparatus as described in any one of Claims 3-5.
予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が前記特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、
前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
を備える特定地点名称判定装置により実行される特定地点名称判定方法であって、
テキストを取得するテキスト取得ステップと、
前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得ステップにおいて取得されたテキストのうちから抽出するテキスト抽出ステップと、
前記判定対象テキストに含まれる特定地点名称に対応する前記第1のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定ステップと、
前記判定対象テキストと当該判定対象テキストに対する前記判定ステップにおける判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成ステップと、
を含む特定地点名称判定方法。
Specific point information storage means for storing specific point information that associates a specific point name indicating a name of a predetermined specific point with a first flag indicating that the specific point name has a meaning other than the specific point When,
Feature word storage means for storing, for each specific point, a characteristic word that is a word characterizing that the specific point name means the specific point in the text;
A specific point name determination method executed by a specific point name determination device comprising:
A text acquisition step for acquiring text;
A text extraction step for extracting a determination target text including a specific point name associated with the specific point information from the text acquired in the text acquisition step;
The first flag corresponding to the specific spot name included in the determination target text indicates that the specific spot name has a meaning other than the specific spot, and the feature word storage means is associated with the specific spot name. If the characteristic word stored in the determination target text is included in the determination target text, a determination step for determining that the specific point name means the specific point in the determination target text;
A feature word generation step of generating the feature word based on determination result data in which the determination target text is associated with a determination result in the determination step for the determination target text, and storing the generated feature word in the feature word storage unit When,
Specific point name determination method including
コンピュータを、
予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が前記特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、
前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
テキストを取得するテキスト取得手段と、
前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、
前記判定対象テキストに含まれる特定地点名称に対応する前記第1のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定手段と、
前記判定対象テキストと当該判定対象テキストに対する前記判定手段による判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成手段
として機能させる特定地点名称判定プログラム。
Computer
Specific point information storage means for storing specific point information that associates a specific point name indicating a name of a predetermined specific point with a first flag indicating that the specific point name has a meaning other than the specific point When,
Feature word storage means for storing, for each specific point, a characteristic word that is a word characterizing that the specific point name means the specific point in the text;
A text acquisition means for acquiring text;
A text extraction unit that extracts a determination target text including a specific point name associated with the specific point information from the text acquired by the text acquisition unit;
The first flag corresponding to the specific spot name included in the determination target text indicates that the specific spot name has a meaning other than the specific spot, and the feature word storage means is associated with the specific spot name. If the feature word stored in the determination target text is included in the determination target text, determination means for determining that the specific point name means the specific point in the determination target text;
Feature word generating means for generating the feature word based on determination result data in which the determination target text is associated with a determination result by the determination means for the determination target text, and storing the generated feature word in the feature word storage means Specific point name determination program to function as.
JP2013117083A 2013-06-03 2013-06-03 Specific point name determination device, specific point name determination method, and specific point name determination program Active JP6060039B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013117083A JP6060039B2 (en) 2013-06-03 2013-06-03 Specific point name determination device, specific point name determination method, and specific point name determination program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013117083A JP6060039B2 (en) 2013-06-03 2013-06-03 Specific point name determination device, specific point name determination method, and specific point name determination program

Publications (2)

Publication Number Publication Date
JP2014235597A true JP2014235597A (en) 2014-12-15
JP6060039B2 JP6060039B2 (en) 2017-01-11

Family

ID=52138247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013117083A Active JP6060039B2 (en) 2013-06-03 2013-06-03 Specific point name determination device, specific point name determination method, and specific point name determination program

Country Status (1)

Country Link
JP (1) JP6060039B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017166980A (en) * 2016-03-16 2017-09-21 株式会社トヨタマップマスター Navigation system, poi providing method, poi providing program, and recording medium
WO2021241154A1 (en) * 2020-05-26 2021-12-02 株式会社Nttドコモ Poi popularity derivation device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090334A (en) * 2006-09-29 2008-04-17 Nippon Telegr & Teleph Corp <Ntt> Location analyzer, location analyzing method, its program, and recording medium
JP2010128806A (en) * 2008-11-27 2010-06-10 Hitachi Ltd Information analyzing device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090334A (en) * 2006-09-29 2008-04-17 Nippon Telegr & Teleph Corp <Ntt> Location analyzer, location analyzing method, its program, and recording medium
JP2010128806A (en) * 2008-11-27 2010-06-10 Hitachi Ltd Information analyzing device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016043010; 平野 徹,外2名: '地理的距離と有名度を用いた地名の曖昧性解消' 第70回(平成20年)全国大会講演論文集(2) , 20080313, p.2-85〜2-86, 社団法人 情報処理学会 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017166980A (en) * 2016-03-16 2017-09-21 株式会社トヨタマップマスター Navigation system, poi providing method, poi providing program, and recording medium
US10190884B2 (en) 2016-03-16 2019-01-29 Toyota Mapmaster Incorporated Navigation system, POI presentation method, POI presentation program, and recording medium
WO2021241154A1 (en) * 2020-05-26 2021-12-02 株式会社Nttドコモ Poi popularity derivation device
JPWO2021241154A1 (en) * 2020-05-26 2021-12-02
US20230229721A1 (en) * 2020-05-26 2023-07-20 Ntt Docomo, Inc. Poi popularity derivation device
JP7489459B2 (en) 2020-05-26 2024-05-23 株式会社Nttドコモ POI popularity calculation device
US12026006B2 (en) * 2020-05-26 2024-07-02 Ntt Docomo, Inc. POI popularity derivation device

Also Published As

Publication number Publication date
JP6060039B2 (en) 2017-01-11

Similar Documents

Publication Publication Date Title
CN104866542B (en) A kind of POI data verification method and device
JP6343010B2 (en) Identifying entities associated with wireless network access points
JP6136702B2 (en) Location estimation method, location estimation apparatus, and location estimation program
CN106033416A (en) A string processing method and device
US9753945B2 (en) Systems, methods, and computer-readable media for interpreting geographical search queries
KR101390220B1 (en) Method for recommending appropriate developers for software bug fixing and apparatus thereof
CA3078148A1 (en) Search method and apparatus, and non-temporary computer-readable storage medium
JP2018537760A (en) Method and apparatus for account mapping based on address information
US20230194302A1 (en) Method of updating map data, electronic device and storage medium
US20190087466A1 (en) System and method for utilizing memory efficient data structures for emoji suggestions
JP2018055525A (en) Text extraction device
JP6060039B2 (en) Specific point name determination device, specific point name determination method, and specific point name determination program
JP2016162163A (en) Information processor and information processing program
US20160085798A1 (en) Method and system for storing user information
CN109241208B (en) Address positioning method, address monitoring method, information processing method and device
US20160127873A1 (en) Method of predicting location of rendezvous and electronic device for providing same
CN115168575A (en) Subject supplement method applied to audit field and related equipment
KR101804020B1 (en) Method for sns bot detection using geographic information
CN110059272B (en) Page feature recognition method and device
CN111125272B (en) Regional characteristic acquisition method, regional characteristic acquisition device, computer equipment and medium
CN113822057B (en) Location information determination method, location information determination device, electronic device, and storage medium
CN111767722A (en) Word segmentation method and device
CN107798103A (en) Search method and device of space vector data, readable medium and storage controller
KR101542061B1 (en) Method for processing point of interest intergration, apparatus and system for processing point of interest intergration
CN117851608B (en) Case map generation method, device, equipment and medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161212

R150 Certificate of patent or registration of utility model

Ref document number: 6060039

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250