JP2013037494A - Document search keyword presentation device and method - Google Patents

Document search keyword presentation device and method Download PDF

Info

Publication number
JP2013037494A
JP2013037494A JP2011172258A JP2011172258A JP2013037494A JP 2013037494 A JP2013037494 A JP 2013037494A JP 2011172258 A JP2011172258 A JP 2011172258A JP 2011172258 A JP2011172258 A JP 2011172258A JP 2013037494 A JP2013037494 A JP 2013037494A
Authority
JP
Japan
Prior art keywords
document
user
feature
coordinates
land
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011172258A
Other languages
Japanese (ja)
Other versions
JP5650607B2 (en
Inventor
Yoshihito Yasuda
宜仁 安田
Chihiro Yamamoto
千尋 山本
Yoshimasa Koike
義昌 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011172258A priority Critical patent/JP5650607B2/en
Publication of JP2013037494A publication Critical patent/JP2013037494A/en
Application granted granted Critical
Publication of JP5650607B2 publication Critical patent/JP5650607B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To present a search keyword for searching for regional information matching the level of a searcher's region familiarity.SOLUTION: A document search keyword presentation method includes: when coordinates of the user terminal are inputted, calculating a user's region familiarity that is estimated about the region around the coordinates on the basis of history of the user's past positions obtained by referring to a user terminal history database storing past position information about a user terminal, on the basis of the coordinates; and selecting a feature expression on the basis of an entry corresponding to the coordinates and the user's region familiarity by referring to a coordinate-to-feature-expression correlation database which stores scores representing correlation between geographical coordinates and feature expressions and likelihood of the feature expressions, a total required region familiarity being a total of region familiarities that define how much region familiarity is required, and the number of found documents, on the basis of the inputted current coordinates of the user terminal, and outputting the feature expression as a search keyword.

Description

本発明は、文書検索キーワード提示装置及び方法に係り、特に、文書集合の中から利用者の位置や移動軌跡に応じた文書を検索するための文書検索キーワード提示装置及び方法に関する。   The present invention relates to a document search keyword presentation apparatus and method, and more particularly to a document search keyword presentation apparatus and method for searching a document according to a user's position and movement trajectory from a document set.

従来より、インターネットから得られる情報等、大規模な文書を対象として、キーワードと興味対象の位置座標を与えることにより、与えたキーワードと位置と関連のある文書を検索するような文書検索が知られている(例えば、特許文献1参照)。   Conventionally, document retrieval that retrieves a document related to a given keyword and position by giving a keyword and a position coordinate of a target of interest for a large-scale document such as information obtained from the Internet is known. (For example, refer to Patent Document 1).

このような検索(地理情報検索)は、特に外出先において、携帯端末を用いてその場所に関連した情報を検索することに利用されている。しかし、利用者がその位置における特定のキーワードに関連した情報を欲しているのではなく、単にその位置における特徴的な情報を得たい場合もある。このような場合、従来の地理情報検索だけを用いる場合であれば、適切な検索キーワードを想起する必要があるが、そもそもその土地に特徴的な情報を得るという目的を持つユーザは検索キーワードを想起しようがない。   Such a search (geographic information search) is used to search for information related to the location using a mobile terminal, especially when going out. However, there are cases where the user does not want information related to a specific keyword at the position but simply wants to obtain characteristic information at the position. In such a case, if only the conventional geographic information search is used, it is necessary to recall an appropriate search keyword. However, a user who has the purpose of obtaining characteristic information in the first place recalls the search keyword. can not help it.

そこで、このような利用方法に対して、利用者に対して検索キーワードを提示することが考えられ、事前に位置毎に特徴的な情報を得られるような検索語を登録しておくことが考えられる。   Therefore, it is conceivable to present a search keyword to the user for such a usage method, and to register a search word that can obtain characteristic information for each position in advance. It is done.

特開2009−134463号公報JP 2009-134463 A

従来の方式によれば、誰が利用したとしても場所が同じであれば同じ検索キーワードを提示していた。しかし、地域への詳しさは人によって多様であり、利用者の地域への詳しさを考慮しなかった場合、その地域へ詳しい人にとっては特に新しい発見のないありきたりな情報へしか導けないようなキーワードを提示したり、逆に、その地域に詳しくない人にとっては、込み入った情報すぎて、その地域の主要な事柄について広く知ることができないようなキーワードを提示することになってしまう。   According to the conventional method, the same search keyword is presented if the place is the same no matter who uses it. However, the details of the region vary from person to person, and if the details of the user are not taken into account, the person who is familiar with the area can only lead to the usual information with no new discoveries. For those who are not familiar with the area, on the other hand, it is too complicated information to present keywords that cannot be widely known about the main matters in the area.

このため、結果として提示するキーワードによる検索結果は利用者にとって満足できないものとなることがあった。   For this reason, the search result by the keyword shown as a result may be unsatisfactory for a user.

本発明は上記の点に鑑みなされたもので、検索者の土地勘のレベルにあう地域情報を検索するための検索キーワードを提示することが可能な文書検索キーワード提示装置及び方法を提供することを目的とする。   The present invention has been made in view of the above points, and provides a document search keyword presentation apparatus and method capable of presenting a search keyword for searching for regional information that meets the level of a searcher's land intuition. Objective.

上記の課題を解決するために、本発明(請求項1)は、文書集合の中から利用者の位置や移動軌跡に応じて文書を検索するための検索キーワードを提示するための文書検索キーワード提示装置であって、
地理座標と特徴表現との対応及び該特徴表現の尤もらしさを表すスコア、どの程度の土地勘を必要とするかを定めた土地勘度の合計である要土地勘度合計、出現文書数を格納した座標-特徴表現対応データベースと、
利用者端末の過去の位置情報を格納した利用者端末履歴データベースと、
利用者端末の座標が入力されると、該座標に基づいて前記利用者端末履歴データベースを参照して得られた当該利用者の過去の位置の履歴に基づいて、当該利用者の該座標周辺についての土地勘を推定した利用者地域土地勘度を求める利用者地域土地勘度推定手段と、
入力された現在の前記利用者端末の座標に基づいて、前記座標-特徴表現対応データベースを参照し、該座標に対応するエントリと前記利用者地域土地勘度に基づいて特徴表現を選出し、検索キーワードとして出力する特徴表現選出手段と、を有する。
In order to solve the above problem, the present invention (Claim 1) provides document search keyword presentation for presenting a search keyword for searching a document in accordance with a user's position and movement trajectory from a document set. A device,
Stores the correspondence between geographic coordinates and feature expressions, the score that indicates the likelihood of the feature expressions, the total land intuition that determines how much land insufficiency is required, and the number of documents that appear Coordinated-characteristic representation database,
A user terminal history database storing past location information of user terminals,
When the coordinates of the user terminal are input, based on the history of the user's past position obtained by referring to the user terminal history database based on the coordinates, A user area land intuition estimation means for obtaining a user area land intuition,
Based on the input coordinates of the current user terminal, refer to the coordinate-feature expression correspondence database, select a characteristic expression based on the entry corresponding to the coordinates and the user area land intuition, and search Characteristic expression selection means for outputting as a keyword.

また、本発明(請求項2)は、検索対象とする文書を格納した検索対象データベースと、
入力された地理座標に対して、前記検索対象データベースの文書を読み解く上でどの程度の土地勘を必要とするかを定めた文書地域要土地勘度を推定する文書地域要土地勘度推定手段と、
前記地理座標と、前記文書地域要土地勘度の合計、前記検索対象データベースの文書中の地名表現から抽出した特徴表現及び所定の基準に基づいて算出したスコアの対応を抽出し、前記座標-特徴表現対応データベースに格納する座標-特徴表現対応抽出手段と、を更に有する。
Further, the present invention (claim 2) provides a search target database storing documents to be searched,
A document area required land intuition estimation means for estimating a required area intelligibility of the document area that defines how much intuition is required for reading the document of the database to be searched with respect to the input geographical coordinates; ,
Extracting the correspondence between the geographical coordinates and the sum of the document area required land insight, the feature expression extracted from the place name expression in the document of the search target database, and the score calculated based on a predetermined criterion, and the coordinate-feature And a coordinate-feature expression correspondence extraction means for storing in the expression correspondence database.

また、本発明(請求項3)は、前記地理座標に対応する特徴表現について、所定の値以上の出現頻度の特徴表現に対して、より大きなスコアを与える座標-特徴表現スコア改善手段を更に有する。   In addition, the present invention (Claim 3) further includes coordinate-feature expression score improving means for giving a higher score to a feature expression corresponding to the geographic coordinates with respect to a feature expression having an appearance frequency equal to or higher than a predetermined value. .

また、本発明(請求項4)は、請求項1の前記特徴表現選出手段に、前記利用者地域土地勘度と前記文書地域要土地勘度合計を出現文書数で除した値の差の絶対値を利用者と文書の土地勘の一致度合いとして前記特徴表現を選出する手段を含む。   Further, according to the present invention (Claim 4), the feature expression selection means according to Claim 1 uses the absolute difference between a value obtained by dividing the user area land intuition and the document area land indispensable total by the number of appearance documents. A means for selecting the feature expression by using a value as a degree of coincidence between the user and the land intuition of the document.

上記のように本発明によれば、人それぞれの地域への詳しさを考慮するための機構を組み入れることにより、その地域に詳しい人に対しては地元に密着した情報を得られるような検索キーワードを提示することができ、逆に、その地域に詳しくない人に対してはその地域の主要なことがらについて広く知ることができるようなキーワードを提示することができ、さまざまな利用者が満足できる検索キーワードを提示することが可能となる。   As described above, according to the present invention, by incorporating a mechanism for considering the details of each person's area, a search keyword that can obtain information closely related to the local area for persons familiar with the area. On the other hand, for those who are not familiar with the area, you can present keywords that will allow you to learn more about the main things in the area, which will satisfy various users. Search keywords can be presented.

本発明の一実施の形態における文書検索キーワード提示装置の構成図である。It is a block diagram of the document search keyword presentation apparatus in one embodiment of this invention. 本発明の一実施の形態における前処理のフローチャートである。It is a flowchart of the pre-process in one embodiment of this invention. 本発明の一実施の形態における座標-特徴表現対応抽出部の処理のフローチャートである。It is a flowchart of the process of the coordinate-characteristic expression corresponding | compatible extraction part in one embodiment of this invention. 本発明の一実施の形態における座標-特徴表現対応抽出結果テーブルの例である。It is an example of the coordinate-characteristic expression corresponding | compatible extraction result table in one embodiment of this invention. 本発明の一実施の形態における利用者端末履歴データベースの例である。It is an example of the user terminal history database in one embodiment of the present invention. 本発明の一実施の形態における検索時の処理フローチャートである。It is a process flowchart at the time of the search in one embodiment of this invention.

以下図面と共に、本発明の実施の形態を説明する。   Embodiments of the present invention will be described below with reference to the drawings.

図1は、本発明の一実施の形態における文書検索キーワード提示装置の構成を示す。   FIG. 1 shows the configuration of a document search keyword presentation device according to an embodiment of the present invention.

文書検索キーワード提示装置100は、前処理部110と本処理部120から構成される。   The document search keyword presentation device 100 includes a preprocessing unit 110 and a main processing unit 120.

前処理部110は、座標-特徴表現対応抽出部111、文書地域要土地勘度推定部112、座標-特徴表現スコア改善部113、検索対象文書データベース114、座標-特徴表現対応データベース115から構成される。   The pre-processing unit 110 includes a coordinate-feature expression correspondence extraction unit 111, a document area required land intuition estimation unit 112, a coordinate-feature expression score improvement unit 113, a search target document database 114, and a coordinate-feature expression correspondence database 115. The

転送対象文書データベース114は、検索対象とする文書を格納したデータベースである。   The transfer target document database 114 is a database that stores documents to be searched.

文書地域要土地勘度推定部112は、各文書がその文書を読み解く上で与えられた地点(座標)に対してどの程度の土地勘を必要とするかを推定する。   The document area required land intelligibility estimation unit 112 estimates how much land intuition is required for each point (coordinates) given when each document reads the document.

座標-特徴表現対応抽出部111は、外部から入力された地理座標と検索対象文書データベース114から読み込んだ文書に基づいて、地理座標と文書の特徴表現との対応及びその基本スコアを抽出する。   The coordinate-feature expression correspondence extraction unit 111 extracts the correspondence between the geographical coordinates and the feature expression of the document and the basic score thereof based on the geographical coordinates input from the outside and the document read from the search target document database 114.

座標-特徴表現スコア改善部113は、地理座標と特徴表現との対応の基本スコアを改善する。   The coordinate-feature expression score improvement unit 113 improves the basic score for correspondence between geographic coordinates and feature expressions.

座標-特徴表現対応データベース115は、地理座標と特徴表現との対応及び特徴表現の尤もらしさを表す基本スコア、どの程度の土地勘を必要とするかを定めた土地勘度の合計である要土地勘度合計、出現文書数を格納する。   The coordinate-feature expression correspondence database 115 includes a basic score indicating the correspondence between geographic coordinates and feature expressions and the likelihood of the feature expression, and the total land intuition that defines how much land intuition is required. Stores the total intuition and the number of appearing documents.

本処理部120は、利用者地域土地勘度推定部121、特徴表現選出部122、利用者端末履歴データベース123から構成される。   The processing unit 120 includes a user area land intuition estimation unit 121, a feature expression selection unit 122, and a user terminal history database 123.

利用者地域土地勘度推定部121は、端末利用者が現在地点に対してどの程度の土地勘を有するかを推定する。   The user area land intuition estimation unit 121 estimates how much land intuition the terminal user has with respect to the current location.

利用者端末履歴データベース123は、端末利用者の過去の位置を格納する。   The user terminal history database 123 stores past positions of terminal users.

特徴表現選出部122は、指定された位置範囲と知識の一致度に応じて座標-特徴表現対応データベース115を参照して特徴表現を選出する。   The feature expression selection unit 122 selects feature expressions by referring to the coordinate-feature expression correspondence database 115 according to the degree of coincidence between the designated position range and knowledge.

本発明では、利用者は、GPS等の位置を取得できる端末を利用して本装置100へアクセすることを想定する。利用者端末から本装置100への入力は、利用者の識別IDと現在の位置の座標である。なお、より高精度に利用者地域への土地勘を推定するために現在位置のみでなく、端末が記録した過去の位置の履歴を入力として本装置100に与えることも可能である。   In the present invention, it is assumed that the user accesses the apparatus 100 using a terminal capable of acquiring a position such as GPS. The input from the user terminal to the apparatus 100 is the identification ID of the user and the coordinates of the current position. In addition, in order to estimate the land intuition to the user area with higher accuracy, not only the current position but also a history of past positions recorded by the terminal can be given to the apparatus 100 as an input.

本装置100での処理は、文書集合が与えられた時点で行う前処理と、利用者からのアクセスを契機として行う本処理とに分けることができる。   The processing in the apparatus 100 can be divided into preprocessing that is performed when a document set is given and main processing that is triggered by access from a user.

以下に、上記の構成における処理の流れを説明する。   Below, the flow of the process in said structure is demonstrated.

<前処理>
図2は、本発明の一実施の形態における前処理のフローチャートである。
<Pretreatment>
FIG. 2 is a flowchart of the preprocessing in the embodiment of the present invention.

前処理では、予め検索対象文書データベース114に、本装置100が検索対象とする文書群が格納されているものとする。この文書群はワールドワイドウェブ等から収集した一般の文書でもよいし、あるいは、個人のメールボックス内の電子メール集合等でもよい。   In the preprocessing, it is assumed that a document group to be searched by the apparatus 100 is stored in the search target document database 114 in advance. This document group may be a general document collected from the World Wide Web or the like, or an electronic mail set in a personal mailbox.

ステップ110) 文書地域要土地勘度推定部112は、地理座標と文書を入力としてその文書が、その地理座標に対して、読み解く上でどの程度の土地勘を必要とするかを定めた文書地域要土地勘度を推定する。   Step 110) The document area required land intuition estimation unit 112 receives the geographical coordinates and the document, and determines how much land intuition the document needs to understand for the geographical coordinates. Estimate land intelligibility.

まず、文書の作者の居住地を推定する。具体的には文献1「Norihito Yasuda, Tsutomu Hirano, Jun Suzuki, and Hideki Isozaki. 2006. Identifying bloggers' residential areas. Proceedings of AAAI Spring Symposium on Computational Approaches for Analyzing Weblogs, pp. 231-236」に示すような既存の方法を用いるものとする。   First, the residence of the author of the document is estimated. Specifically, as shown in Reference 1, “Norihito Yasuda, Tsutomu Hirano, Jun Suzuki, and Hideki Isozaki. 2006. Identifying bloggers' residential areas. Proceedings of AAAI Spring Symposium on Computational Approaches for Analyzing Weblogs, pp. 231-236” Existing methods shall be used.

次に、文書地域要土地勘度推定部では、入力された地理座標が上記で推定された文書の作者の居住地の範囲あれば、要土地勘度"1"をメモリ(図示せず)に出力し、範囲外であれば要土地勘度"0"を出力する。また、当該方法の他に、居住地の代表点と、入力された地理座標を用いて、以下の式で求めた値を要土地勘度として出力することも可能である。   Next, if the input geographical coordinates are within the range of the residence of the author of the document estimated as described above, the document area required land intuition estimation unit stores the required land intelligibility “1” in a memory (not shown). If the output is out of the range, the necessary land incompatibility “0” is output. In addition to the method, it is also possible to output the value obtained by the following formula as the required land independence using the representative point of the residence and the input geographic coordinates.

Figure 2013037494
ステップ120) 次に、座標-特徴表現対応抽出部111は、以下の手順により、地理的座標と特徴表現、及び、その基本スコアの対応を抽出する。
Figure 2013037494
Step 120) Next, the coordinate-feature expression correspondence extraction unit 111 extracts the correspondence between the geographical coordinates, the feature expression, and the basic score according to the following procedure.

詳細を図3に示す。   Details are shown in FIG.

予め、座標-特徴表現対応抽出部111は、座標-特徴表現対応抽出結果テーブル101を初期化しておく。このテーブル101は、図4に示すように、カラムとして、代表点の座標、特徴表現、基本スコア、要土地勘度合計、出現文書数を持つテーブルである。   The coordinate-feature expression correspondence extraction unit 111 initializes the coordinate-feature expression correspondence extraction result table 101 in advance. As shown in FIG. 4, this table 101 is a table having, as columns, coordinates of representative points, feature expressions, basic scores, total land intelligibility, and the number of appearing documents.

ステップ101) 以下の処理を検索対象データベース114中の各文書について繰り返す。   Step 101) The following processing is repeated for each document in the search target database 114.

ステップ102) 文書中の地理表現と代表点の座標を抽出する。   Step 102) Extract the geographical representation and the coordinates of representative points in the document.

具体的には、検索対象データベース114中の各文書について、文書中に記述された地名と思われる表現を抽出し、その地名の代表点の座標を抽出する。具体的には、文献2「平野徹、松尾義博、菊井玄一郎、「地理的距離と有名度を用いた地名の曖昧性解消」,情報処理学会全国大会講演論文集,2008.」等で示される既存の技術を用いることができる。   Specifically, for each document in the search target database 114, an expression that seems to be a place name described in the document is extracted, and the coordinates of the representative point of the place name are extracted. Specifically, Reference 2 “Toru Hirano, Yoshihiro Matsuo, Genichiro Kikui,“ Resolving ambiguity of place names using geographical distance and famousness ”, Proc. The existing technology indicated by “etc.” can be used.

地名は必ずしも正規の住所表現でなくとも、断片的な地名(例えば、「浜松」など)でも構わない。例えば、文書中での表現が「浜松」であった場合、代表点の座標としては静岡県浜松市の市役所の座標を抽出する。   The place name is not necessarily a regular address expression, and may be a fragmentary place name (for example, “Hamamatsu”). For example, when the expression in the document is “Hamamatsu”, the coordinates of the city hall in Hamamatsu City, Shizuoka Prefecture are extracted as the coordinates of the representative point.

ステップ103) 次に、検索対象データベース114の文書から特徴表現を抽出する。   Step 103) Next, feature expressions are extracted from the documents in the search target database 114.

上記のステップ102で文書から何らかの地名が抽出された場合、以下の2つの基準により、特徴表現を抽出する。   When any place name is extracted from the document in the above step 102, a feature expression is extracted based on the following two criteria.

(a)文書のタイトル中の名詞・フレーズ・固有表現;
(b)地名と近接して出現した名詞・フレーズ・固有表現;
上記で抽出された各特徴表現について、以下の処理を行う。
(A) Nouns, phrases, and proper expressions in the document title;
(B) Nouns, phrases, and proper expressions that appear close to the place name;
The following processing is performed for each feature expression extracted above.

ステップ104) 特徴表現の基本スコアを算出する。   Step 104) A basic score of feature expression is calculated.

具体的には、事前に定めた定数α、βより、抽出した各特徴表現について、以下の式で基本スコアを算出する。   Specifically, a basic score is calculated for each extracted feature expression from the constants α and β determined in advance.

α(当該特徴語がタイトル中に出現した回数)+β(地名と近接して出現した回数)
もし、既に他の文書によって当該地名の代表点座標-特徴表現の対についての基本スコアが計算済みであればそれまでの基本スコアに上記基本スコアを足したものを基本スコアとする。
α (number of times the feature word appears in the title) + β (number of times the feature word appears close to the place name)
If the basic score for the representative point coordinate-feature expression pair of the place name has already been calculated by another document, the basic score obtained by adding the basic score to the basic score is used as the basic score.

ステップ105) 文書地域要土地勘度推定部112に対して、地名の代表点に対するその文書の文書地域要土地勘度の算出を指示し、当該文書地域要土地勘度を取得する。このとき、文書地域要土地勘度推定部112は、上記の処理で文書から何らかの地名が抽出された場合、その地名の代表点(ステップ102で抽出)に対するその文書の文書地域要土地勘度を算出する。   Step 105) The document area required land intuition estimating unit 112 is instructed to calculate the document area required land incompatibility of the document with respect to the representative point of the place name, and the document area required land intuition is acquired. At this time, when any place name is extracted from the document by the above processing, the document area required land intuition estimation unit 112 determines the required area incompatibility of the document area for the representative point of the place name (extracted in step 102). calculate.

ステップ106) 特徴表現の要土地勘度合計を更新する。   Step 106) The total land intuition required for the feature expression is updated.

座標-特徴表現対応抽出結果テーブル101中の、対応する当該地名の{代表点座標,特徴表現}の対について、要土地勘度合計に当該文書の要土地勘度を加算する。   For the pair of {representative point coordinates, feature representation} of the corresponding place name in the coordinate-feature expression correspondence extraction result table 101, the necessary land intuition of the document is added to the total required land intuition.

ステップ107) 座標-特徴表現対応抽出結果テーブル101の特徴表現の出現文書数を更新する。   Step 107) The number of appearance documents of the feature expression in the coordinate-feature expression correspondence extraction result table 101 is updated.

具体的には、座標-特徴表現対応抽出結果テーブル101中の、対応する当該地名の{代表点座標,特徴表現}の対について出現文書数に1を加える。   Specifically, 1 is added to the number of appearing documents for the {representative point coordinate, feature expression} pair of the corresponding place name in the coordinate-feature expression correspondence extraction result table 101.

上記の処理の結果、座標-特徴表現対応抽出結果テーブル101として、図4に示すような形式の座標と特徴表現及びその基本スコアの対応を得る。   As a result of the above processing, as the coordinate-feature expression correspondence extraction result table 101, the correspondence between the coordinates in the format shown in FIG.

ステップ130) 座標-特徴表現スコア改善部113は、ある座標で特出して多く出現している特徴表現には、その座標-特徴表現の対に対してより大きなスコアを与えるようスコアを改善する。   Step 130) The coordinate-feature expression score improvement unit 113 improves the score so as to give a larger score to the feature-expression pair that appears specially at a certain coordinate and appears more frequently.

前述のステップ120での、座標-特徴表現対応抽出部111で得られた各{座標,特徴表現}の対について、以下の手順によりスコアを算出する。   For each {coordinate, feature expression} pair obtained by the coordinate-feature expression correspondence extraction unit 111 in step 120 described above, a score is calculated by the following procedure.

全文書数がn、全文書中での当該特徴表現の出現頻度がs、全文書中での当該座標の出現頻度がk、当該座標-特徴表現対の全文書中での出現回数がr、であるとき、
出現回数rのポアソン確率
The total number of documents is n, the appearance frequency of the feature expression in all documents is s, the appearance frequency of the coordinates in all documents is k, the number of appearances of the coordinate-feature expression pair in all documents is r, When
Poisson probability of occurrence r

Figure 2013037494
を求める。
Figure 2013037494
Ask for.

事前に定めた定数γを用いて、以下の式を用いて座標-特徴表現スコアを算出する。   Using a predetermined constant γ, a coordinate-feature expression score is calculated using the following formula.

座標-特徴表現スコア=γ(1−P(x≦r))×基本スコア
上記で求めたスコアを座標-特徴表現データベース115に格納する。座標-特徴表現対応データベース115の形式は、図4に示した座標-特徴表現対応抽出部111の座標-特徴表現対応結果テーブル101への出力と同様に、座標、特徴表現、スコア、要土地勘度合計、出現文書数から構成される。当該座標-特徴表現データベース115は、本処理において、特徴表現選出部122により参照される。
Coordinate-feature expression score = γ (1-P (x ≦ r)) × basic score The score obtained above is stored in the coordinate-feature expression database 115. The format of the coordinate-feature expression correspondence database 115 is the same as the output of the coordinate-feature expression correspondence extraction unit 111 shown in FIG. It consists of the total number of times and the number of appearing documents. The coordinate-feature expression database 115 is referred to by the feature expression selection unit 122 in this process.

ここまでが前処理である。   This is the preprocessing.

<本処理>
本処理に利用される利用者端末履歴データベース123は、図5に示すような端末利用者の過去の位置を記録したデータベースであり、本装置への過去の利用位置履歴を保存したものである。
<This processing>
The user terminal history database 123 used for this processing is a database that records the past positions of terminal users as shown in FIG. 5, and stores past use position histories for this apparatus.

利用者地域土地勘度推定部121は、現在の利用者の座標を入力として、当該利用者の当該座標周辺についての土地勘を推定した値を出力する。   The user area land intuition estimation unit 121 receives the current user's coordinates as input, and outputs a value obtained by estimating the land intuition around the user's coordinates.

特徴表現選出部122は、利用者端末の現在位置と、利用者地域土地勘度推定部121によって算出された利用者地域土地勘度と、選出特徴表現件数fを入力として利用者に提示する検索キーワードを提示する。   The feature expression selection unit 122 inputs the current location of the user terminal, the user area land intuition calculated by the user area land inference estimation unit 121, and the number f of the selected feature expressions to be presented to the user. Present keywords.

図6は、本発明の一実施の形態における検索時の処理のフローチャートである。   FIG. 6 is a flowchart of processing at the time of search in one embodiment of the present invention.

ステップ301) まず、利用者地域土地勘度推定部121は、利用者から利用者ID及び現在の位置座標が入力されると、利用者IDに基づいて、端末利用者に対応する利用者端末履歴データベース123を参照し、端末利用者の過去の位置の履歴を得る。   Step 301) First, when the user ID and the current position coordinates are input from the user, the user area land intuition estimation unit 121 receives the user terminal history corresponding to the terminal user based on the user ID. By referring to the database 123, a history of past positions of terminal users is obtained.

ステップ302) 次に、利用者地域土地勘度推定部121は、ステップ301で得られた位置履歴の総数をnt,そのうち事前に定めた距離の範囲d1の範囲にある位置履歴の数をnとし、利用者地域土地勘度を以下の式で算出する。 Step 302) Next, the user area land intuition estimation unit 121 calculates the total number of position histories obtained in Step 301 as n t , and the number of position histories within the predetermined distance range d 1. and n i, to calculate the user's local land Khand by the following equation.

Figure 2013037494
あるいは、上記のステップの代わりに、文献3「Brett Adams, Dinh Phung, and Svetha Venkatesh. 2006. Extraction of social context and application to personal multimedia exploration. In Proceedings of the 14th annual ACM international conference on Multimedia (MULTIMEDIA '06). ACM, New York, NY, USA, 987-996.」に示すようなGPSの履歴を利用して利用者の自宅、オフィス等を推測する手法を用いて、自宅やオフィスと推定された場所を土地勘度"1"、そうでない場所を土地勘度"0"とすることも可能である。
Figure 2013037494
Alternatively, instead of the above steps, Reference 3 “Brett Adams, Dinh Phung, and Svetha Venkatesh. 2006. Extraction of social context and application to personal multimedia exploration. In Proceedings of the 14th annual ACM international conference on Multimedia (MULTIMEDIA '06 ). ACM, New York, NY, USA, 987-996. Using a GPS history to estimate the user's home, office, etc. It is also possible to set the land intelligibility “1” and the place other than the land intuition “0”.

ステップ303) 特徴表現選出部122は、座標-特徴表現対応データベース115を参照し、座標と利用者端末の現在位置との距離が予め定めた定数dtの範囲の座標-特徴表現の対に対応するエントリを取得する。dtは具体的には、例えば、徒歩15分圏内を想定し、1km程度とすることができる。あるいは、利用者端末の地図の大きさによって決定することも可能である。 Step 303) The feature expression selection unit 122 refers to the coordinate-feature expression correspondence database 115, and corresponds to a coordinate-feature expression pair in which the distance between the coordinates and the current position of the user terminal is within a predetermined constant d t. Get the entry to be. Specifically, for example, d t can be about 1 km assuming a 15-minute walk. Alternatively, it can be determined according to the map size of the user terminal.

ステップ304) 次に、ステップ303で取得したそれぞれのエントリについて、以下の特徴表現スコアを求める。   Step 304) Next, the following feature expression score is obtained for each entry acquired in Step 303.

Figure 2013037494
ここで、
Figure 2013037494
here,

Figure 2013037494
は、利用者の地域土地勘度と
Figure 2013037494
Is the user's understanding of local land and

Figure 2013037494
の差の絶対値を示す。
Figure 2013037494
Indicates the absolute value of the difference.

上記の手順によって得られた特徴表現スコアが上位f件の特徴表現を検索キーワードとして出力する。   The feature expressions having the top f feature expression scores obtained by the above procedure are output as search keywords.

上記のように、本発明は、検索キーワードを提示する際に、居住者が文書を書いていれば文書の要土地勘度が高いものとし、また、利用者が自宅や会社にいるのであればその居場所の土地勘度は高いものとし、文書の要土地勘度と利用者の土地勘度の乖離が少ない文書を検索できるような検索キーワードを提示する。これにより、土地勘尾高い人(地元の人)には地元の人のみが知るような情報へ誘導するようなキーワード(例えば、地元のカフェ等)を提示し、土地勘の低い人(外来者、旅行者)には全国的に見て有名な情報へ誘導するようなキーワード(例えば、「東京タワー」等)を提示することが可能となる。   As described above, when presenting a search keyword, the present invention assumes that the resident needs to understand the land if the writer has written the document, and if the user is at home or at the office It is assumed that the land intelligibility of the whereabouts is high, and presents a search keyword that can search for a document with little difference between the land indispensability of the document and the user's intuition of land. As a result, keywords (for example, local cafes) that lead to information that only local people know are presented to people with high land sense (local people), and people with low land sense (foreigners) , Travelers) can be presented with keywords (for example, “Tokyo Tower”, etc.) that lead to famous information from across the country.

なお、図1に示す文書検索キーワード提示装置の構成要素の動作をプログラムとして構築し、文書検索キーワード提示装置として利用されるコンピュータにインストールし、実行させる、または、ネットワークを介して流通させることが可能である。   The operation of the constituent elements of the document search keyword presentation device shown in FIG. 1 can be constructed as a program, installed in a computer used as the document search keyword presentation device, executed, or distributed via a network. It is.

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。   The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.

100 文書検索キーワード提示装置
110 前処理部
101 座標-特徴表現対応抽出結果テーブル
111 座標-特徴表現対応抽出部
112 文書地域用土地勘度推定部
113 座標-特徴表現スコア改善部
114 検索対象文書データベース
115 座標-特徴表現対応データベース
120 本処理部
121 利用地域土地勘度推定部
122 特徴表現選出部
123 利用者端末履歴データベース
100 Document Search Keyword Presentation Device 110 Pre-Processing Unit 101 Coordinate-Feature Representation Correspondence Extraction Result Table 111 Coordinate-Feature Representation Correspondence Extraction Unit 112 Document Area Land Intuition Estimation Unit 113 Coordinate-Feature Representation Score Improvement Unit 114 Search Target Document Database 115 Coordinate-feature expression correspondence database 120 Main processing unit 121 Use area land intuition estimation unit 122 Feature expression selection unit 123 User terminal history database

Claims (8)

文書集合の中から利用者の位置や移動軌跡に応じて文書を検索するための検索キーワードを提示するための文書検索キーワード提示装置であって、
地理座標と特徴表現との対応及び該特徴表現の尤もらしさを表すスコア、どの程度の土地勘を必要とするかを定めた土地勘度の合計である要土地勘度合計、出現文書数を格納した座標-特徴表現対応データベースと、
利用者端末の過去の位置情報を格納した利用者端末履歴データベースと、
利用者端末の座標が入力されると、該座標に基づいて前記利用者端末履歴データベースを参照して得られた当該利用者の過去の位置の履歴に基づいて、当該利用者の該座標周辺についての土地勘を推定した利用者地域土地勘度を求める利用者地域土地勘度推定手段と、
入力された現在の前記利用者端末の座標に基づいて、前記座標-特徴表現対応データベースを参照し、該座標に対応するエントリと前記利用者地域土地勘度に基づいて特徴表現を選出し、検索キーワードとして出力する特徴表現選出手段と、
を有することを特徴とする文書検索キーワード提示装置。
A document search keyword presentation device for presenting a search keyword for searching for a document according to a user's position and movement trajectory from a document set,
Stores the correspondence between geographic coordinates and feature expressions, the score that indicates the likelihood of the feature expressions, the total land intuition that determines how much land insufficiency is required, and the number of documents that appear Coordinated-characteristic representation database,
A user terminal history database storing past location information of user terminals,
When the coordinates of the user terminal are input, based on the history of the user's past position obtained by referring to the user terminal history database based on the coordinates, A user area land intuition estimation means for obtaining a user area land intuition,
Based on the input coordinates of the current user terminal, refer to the coordinate-feature expression correspondence database, select a characteristic expression based on the entry corresponding to the coordinates and the user area land intuition, and search A feature expression selection means for outputting as a keyword;
A document search keyword presentation device characterized by comprising:
検索対象とする文書を格納した検索対象データベースと、
入力された地理座標に対して、前記検索対象データベースの文書を読み解く上でどの程度の土地勘を必要とするかを定めた文書地域要土地勘度を推定する文書地域要土地勘度推定手段と、
前記地理座標と、前記文書地域要土地勘度の合計、前記対象文書データベースの文書中の地名表現から抽出した特徴表現及び所定の基準に基づいて算出したスコアの対応を抽出し、前記座標-特徴表現対応データベースに格納する座標-特徴表現対応抽出手段と、
を更に有する請求項1記載の文書検索キーワード提示装置。
A search target database storing documents to be searched; and
A document area required land intuition estimation means for estimating a required area intelligibility of the document area that defines how much intuition is required for reading the document of the database to be searched with respect to the input geographical coordinates; ,
Extracting the correspondence between the geographical coordinates and the total area indispensability of the document area, the feature expression extracted from the place name expression in the document of the target document database, and the score calculated based on a predetermined criterion, and the coordinate-feature A coordinate-feature expression correspondence extraction means to be stored in the expression correspondence database;
2. The document search keyword presentation device according to claim 1, further comprising:
前記地理座標に対応する特徴表現において、所定の値以上の出現頻度の特徴表現に対して、より大きなスコアを与える座標-特徴表現スコア改善手段を更に有する
請求項2記載の文書検索キーワード提示装置。
3. The document search keyword presenting device according to claim 2, further comprising coordinate-feature expression score improving means for giving a larger score to a feature expression having an appearance frequency equal to or higher than a predetermined value in the feature expression corresponding to the geographic coordinates.
前記特徴表現選出手段は、
前記利用者地域土地勘度と前記文書地域要土地勘度合計を出現文書数で除した値の差の絶対値を、利用者と文書の土地勘の一致度合いとして前記特徴表現を選出する手段を含む
請求項1記載の文書検索キーワード提示装置。
The feature expression selection means includes:
Means for selecting the feature expression as the degree of coincidence between the user and the document's land intuition as an absolute value of a difference between the user region land intuition and the total document area required land intuition divided by the number of appearance documents; 2. The document search keyword presentation device according to claim 1, further comprising:
文書集合の中から利用者の位置や移動軌跡に応じて文書を検索するための検索キーワードを提示するための文書検索キーワード提示方法であって、
利用者地域土地勘度推定手段が、利用者端末の座標が入力されると、該座標に基づいて利用者端末の過去の位置情報を格納した利用者端末履歴データベースを参照して得られた当該利用者の過去の位置の履歴に基づいて、当該利用者の該座標周辺についての土地勘を推定した利用者地域土地勘度を求める利用者地域土地勘度推定ステップと、
特徴表現選出手段が、地理座標と特徴表現との対応及び該特徴表現の尤もらしさを表すスコア、どの程度の土地勘を必要とするかを定めた土地勘度の合計である要土地勘度合計、出現文書数を格納した座標-特徴表現対応データベースを、入力された現在の前記利用者端末の座標に基づいて参照し、該座標に対応するエントリと前記利用者地域土地勘度に基づいて特徴表現を選出し、検索キーワードとして出力する特徴表現選出ステップと、
を行うことを特徴とする文書検索キーワード提示方法。
A document search keyword presentation method for presenting a search keyword for searching for a document according to a user's position and movement trajectory from a document set,
The user area land intuition estimation means, when the coordinates of the user terminal are input, the user terminal history database obtained by referring to the user terminal history database storing the past location information of the user terminal based on the coordinates Based on the history of the past location of the user, a user area land intuition estimation step for obtaining a user area land intuition for estimating the land intuition about the coordinates of the user; and
The feature representation selection means is a total of land intuition required, which is the sum of the correspondence between geographic coordinates and feature representation, a score indicating the likelihood of the feature representation, and how much land intuition is required. , Referring to the coordinate-feature expression correspondence database storing the number of appearing documents based on the input coordinates of the current user terminal, and based on the entry corresponding to the coordinates and the user area land intuition A feature expression selection step of selecting an expression and outputting it as a search keyword;
Document search keyword presentation method characterized by:
文書地域要土地勘度推定手段が、入力された地理座標に対して、検索対象とする文書を格納した検索対象データベースの文書を読み解く上でどの程度の土地勘を必要とするかを定めた文書地域要土地勘度を推定する文書地域要土地勘度推定ステップと、
座標-特徴表現対応抽出手段が、前記地理座標と、前記文書地域要土地勘度の合計、前記検索対象データベースの文書中の地名表現から抽出した特徴表現及び所定の基準に基づいて算出したスコアの対応を抽出し、前記座標-特徴表現対応データベースに格納する座標-特徴表現対応抽出ステップと、
を含む請求項5記載の文書検索キーワード提示方法。
A document that defines how much intuition is required when the document area required land inference estimation means interprets the document in the search target database that stores the search target document for the input geographical coordinates. A document for estimating the required land intelligibility step for estimating the required land area,
The coordinate-feature expression correspondence extracting means calculates the total of the geographical coordinates and the required land intelligibility of the document area, the feature expression extracted from the place name expression in the document of the search target database, and a score calculated based on a predetermined criterion. A coordinate-feature representation correspondence extraction step for extracting correspondence and storing it in the coordinate-feature representation correspondence database;
The document search keyword presentation method according to claim 5, comprising:
前記地理座標に対応する特徴表現において、所定の値以上の出現頻度の特徴表現に対して、より大きなスコアを与える座標-特徴表現スコア改善ステップを含む
請求項6記載の文書検索キーワード提示方法。
The document search keyword presenting method according to claim 6, further comprising a coordinate-feature expression score improving step for giving a higher score to a feature expression having an appearance frequency equal to or higher than a predetermined value in the feature expression corresponding to the geographic coordinates.
前記特徴表現選出ステップにおいて、
前記利用者地域土地勘度と前記文書地域要土地勘度合計を出現文書数で除した値の差の絶対値を、利用者と文書の土地勘の一致度合いとして前記特徴表現を選出する
請求項5記載の文書検索キーワード提示方法。
In the feature expression selection step,
The feature representation is selected by using an absolute value of a difference between a value obtained by dividing the user area land intuition and the total document area required land intuition by the number of appearing documents as the degree of coincidence between the user and the document land intuition. 5. The document search keyword presentation method according to 5.
JP2011172258A 2011-08-05 2011-08-05 Document search keyword presentation apparatus and method Expired - Fee Related JP5650607B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011172258A JP5650607B2 (en) 2011-08-05 2011-08-05 Document search keyword presentation apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011172258A JP5650607B2 (en) 2011-08-05 2011-08-05 Document search keyword presentation apparatus and method

Publications (2)

Publication Number Publication Date
JP2013037494A true JP2013037494A (en) 2013-02-21
JP5650607B2 JP5650607B2 (en) 2015-01-07

Family

ID=47887065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011172258A Expired - Fee Related JP5650607B2 (en) 2011-08-05 2011-08-05 Document search keyword presentation apparatus and method

Country Status (1)

Country Link
JP (1) JP5650607B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018074000A1 (en) * 2016-10-20 2018-04-26 株式会社リアルアンリアル Location evaluation method for location-based game

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020548A (en) * 1998-07-07 2000-01-21 Casio Comput Co Ltd Destination display device and action speculating device
JP2009222409A (en) * 2008-03-13 2009-10-01 Pioneer Electronic Corp Device, method, and program for outputting information, and recording medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020548A (en) * 1998-07-07 2000-01-21 Casio Comput Co Ltd Destination display device and action speculating device
JP2009222409A (en) * 2008-03-13 2009-10-01 Pioneer Electronic Corp Device, method, and program for outputting information, and recording medium

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG201010037166; 戸田 浩之: '2009年度人工知能学会全国大会(第23回)論文集 [CD-ROM]' 2009年度人工知能学会全国大会(第23回) , 20090617, p.1〜4, 社団法人人工知能学会 *
JPN6014015021; 戸田 浩之: '2009年度人工知能学会全国大会(第23回)論文集 [CD-ROM]' 2009年度人工知能学会全国大会(第23回) , 20090617, p.1〜4, 社団法人人工知能学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018074000A1 (en) * 2016-10-20 2018-04-26 株式会社リアルアンリアル Location evaluation method for location-based game
JP2019069131A (en) * 2016-10-20 2019-05-09 株式会社リアルアンリアル Location evaluation method of location information game
JPWO2018074000A1 (en) * 2016-10-20 2019-06-24 株式会社リアルアンリアル Location evaluation method for location based games

Also Published As

Publication number Publication date
JP5650607B2 (en) 2015-01-07

Similar Documents

Publication Publication Date Title
Stock Mining location from social media: A systematic review
JP6402653B2 (en) Object recognition device, object recognition method, and program
JP6398510B2 (en) Entity linking method and entity linking apparatus
JP7023821B2 (en) Information retrieval system
CN109791559B (en) Promoting image processing apparatus as a means of use of search queries
JP2005085285A5 (en)
JP5543384B2 (en) Local query extraction apparatus, local query extraction program, and local query extraction method
CN109388743B (en) Language model determining method and device
US11216499B2 (en) Information retrieval apparatus, information retrieval system, and information retrieval method
Popescu et al. Mining social media to create personalized recommendations for tourist visits
JP5087377B2 (en) SEARCH DEVICE, SEARCH METHOD, SEARCH PROGRAM, AND RECORDING MEDIUM CONTAINING THE PROGRAM
CN114817351A (en) Facilitating use of images in search queries
WO2018176913A1 (en) Search method and apparatus, and non-temporary computer-readable storage medium
Jaiswal et al. Predicting time-sensitive user locations from social media
US20180260473A1 (en) Full text retrieving and matching method and system based on lucene custom lexicon
Li et al. A probabilistic topic-based ranking framework for location-sensitive domain information retrieval
JP2017191357A (en) Word determination device
CN108153785B (en) Method and device for generating display information
JP5650607B2 (en) Document search keyword presentation apparatus and method
CN107423294A (en) A kind of community image search method and system
JP5235710B2 (en) Document search apparatus, document search method, document search program, and recording medium recording the program.
Heravi et al. Tweet location detection
CN111177585A (en) Map POI feedback method and device
US20200320090A1 (en) Method and device for data fusion, non-transitory storage medium and server
JP5708868B1 (en) Program, information processing apparatus and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130910

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141113

R150 Certificate of patent or registration of utility model

Ref document number: 5650607

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees