JP5798081B2 - 情報検索装置及び方法及びプログラム - Google Patents
情報検索装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5798081B2 JP5798081B2 JP2012100487A JP2012100487A JP5798081B2 JP 5798081 B2 JP5798081 B2 JP 5798081B2 JP 2012100487 A JP2012100487 A JP 2012100487A JP 2012100487 A JP2012100487 A JP 2012100487A JP 5798081 B2 JP5798081 B2 JP 5798081B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- time
- information
- mesh
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
・s :全検索対象文書内での当該キーワードの出現頻度;
・k :当該メッシュ内の全キーワードの出現頻度の合計;
・r :当該メッシュ内での当該キーワードの出現頻度;
ただし、当該機能での計算においてn , sは事前に設定しておく。
時間情報と経度番号、緯度番号を合わせてメッシュ番号とし、該メッシュ番号毎のキーワードのスコアからなる3次元メッシュ記憶手段と、
前記検索者から入力された地理範囲及び時間範囲に含まれるメッシュIDに基づいて、前記3次元メッシュ記憶手段からキーワードを出力候補として抽出するキーワード抽出手段と、
地理的な範囲を固定し、指定時刻と過去に規定のN単位分の時刻におけるキーワードに対応する合計値を取得して特徴度を求める特徴度計算手段と、
前記特徴度の時間的遷移から上昇傾向にあるキーワードを出力する出力キーワード決定手段と、を有し、
前記出力キーワード決定手段は、
前記特徴度の時間的遷移を、
最小二乗法により、特徴度f(t)=αt+β(但し、tは時間変数、αは係数、βは固定値)の型式の一次方程式に近似させ、係数αが正であり、該特徴度が閾値以上のキーワードを出力する手段を含む。
時間情報と経度番号、緯度番号を合わせてメッシュ番号とし、該メッシュ番号毎のキーワードのスコアからなる3次元メッシュ記憶手段と、
前記検索者から入力された地理範囲及び時間範囲に含まれるメッシュIDに基づいて、前記3次元メッシュ記憶手段からキーワードを出力候補として抽出するキーワード抽出手段と、
地理的な範囲を固定し、指定時刻と過去に規定のN単位分の時刻におけるキーワードに対応する合計値を取得して特徴度を求める特徴度計算手段と、
前記特徴度の時間的遷移から上昇傾向にあるキーワードを出力する出力キーワード決定手段と、を有し、
前記特徴度計算手段において、未来のN´単位も含める。
前記解析結果記憶手段の情報を取得し、前記地理情報から緯度番号、経度番号を抽出し、時間情報と合わせてメッシュ番号とし、該メッシュ番号ごとにキーワードの数を合計し、前記3次元メッシュ記憶手段に格納する前処理手段を更に有する。
図5に前処理の流れを示す。
ページ番号をユニークに決定する。
文書中の推薦候補キーワードを抽出する。当該推薦候補キーワードの抽出などには、特許文献2等で示される従来の手法を用いることができる。
文書中に記述された地名と思われる表現を抽出する。地名は必ずしも完全な住所でなくとも、断片的な地名(例えば「浜松」など)でも構わない。これには非特許文献1等で示される従来の手法を用いることができる。
抽出した地名表現から緯度経度情報を抽出する。地名とその領域が記された辞書を用意しておき、文書中に表れる地名をパターンマッチする方法を使うことができる。
文中の時間表現を抽出する。時間表現の抽出には特許文献1等で示される従来の手法を用いることができる。抽出の際には任意の単位の時間情報とする(例:日単位など)。
次に、3次元メッシュテーブル作成部120について説明する。
次に、メッシュ番号毎のキーワードのスコアを求め、3次元メッシュテーブル20に図7に示す構造で保存する。ここで、キーワードのスコアとしては、キーワードの出現頻度の合計値、または、キーワードが出現する文書数の合計値等を用いることが可能である。1つのページ番号の地理情報、時間情報に複数のデータがある場合は全ての組み合わせについて、加算を行う。メッシュの時間の単位は任意に(日、月、年)などの単位を用いても良い。図7は日単位の例である。
次に、キーワード抽出処理について説明する。
メッシュ番号計算部210は、入力された時間情報、地理範囲に含まれるメッシュIDを計算し、リストとしてメッシュ情報取得部220に入力する。
キーワード取得部220は、入力されたメッシュIDのリストをキーとして3次元メッシュ番号テーブル20からキーワードデータを取得する。
特徴度計算部230は、キーワードデータ取得部220が取得した全てのキーワードに対して、地理範囲は固定し、時間情報を指定時刻と過去に規定のN単位分の時刻それぞれにおいて、キーワードデータを3次元メッシュテーブル20から順次取得し、それぞれの出力候補キーワードの特徴度を計算する。特徴度の計算は、「従来の技術」章で示したポアソン確率の計算や、"当該範囲とその他の範囲"と"当該キーワードの割合と多のキーワードの割合"の分割表を用いてカイ二乗値を計算し、当該範囲で当該キーワードの割合の象限の値を特徴度としてもよい。
出力キーワード決定部240は、特徴度を計算した各キーワードに対して、過去N単位と当該指定時間の特徴度の遷移を最小二乗法により一次方程式へ近似させた場合に、特徴度f(t)は時間変数tと、係数α, 固定値βを用いて、f(t)=αt+βとして表す。なお、最小二乗法による一次方程式への近似の際に、過去N単位だけでなく、指定時刻よりも未来方向にN単位も含めて行うことも可能である。
Keyword A: f(t)=0.2t+βa
のように計算する。各キーワードの特徴度が所定の閾値を越え、傾きが正のキーワードのみを出力する。
出力キーワード決定部240において、当該時刻の特徴度Sに対して、事前に設定しておいた閾値Tを用いて、「S≧T」かつ「α≧0」であるキーワードを出力することで、注目度合いが上昇しているキーワードのみを出力できる。キーワードの出力順は特徴度順としてもよいし、下記の式を用いて双方の値を考慮したS'でソートしても良い。γは規定の定数、
S'=S+γα
[実施例2]
図10は、本発明の実施例2のキーワード抽出処理部の処理を説明するための図である。
20 3次元メッシュテーブル
100 前処理部
110 文書解析部
120 3次元メッシュテーブル作成部
200 キーワード抽出処理部
210 メッシュ番号計算部
220 キーワード取得部
230 特徴度計算部
240 出力キーワード決定部
Claims (6)
- 検索者が、時間と、地図上の表示範囲で指定した地理的範囲に基づいて特徴的なキーワードを提示するための情報検索装置であって、
時間情報と経度番号、緯度番号を合わせてメッシュ番号とし、該メッシュ番号毎のキーワードのスコアからなる3次元メッシュ記憶手段と、
前記検索者から入力された地理範囲及び時間範囲に含まれるメッシュIDに基づいて、前記3次元メッシュ記憶手段からキーワードを出力候補として抽出するキーワード抽出手段と、
地理的な範囲を固定し、指定時刻と過去に規定のN単位分の時刻におけるキーワードに対応する合計値を取得して特徴度を求める特徴度計算手段と、
前記特徴度の時間的遷移から上昇傾向にあるキーワードを出力する出力キーワード決定手段と、を有し、
前記出力キーワード決定手段は、
前記特徴度の時間的遷移を、
最小二乗法により、特徴度f(t)=αt+β(但し、tは時間変数、αは係数、βは固定値)の型式の一次方程式に近似させ、係数αが正であり、該特徴度が閾値以上のキーワードを出力する手段を含む
ことを特徴とする情報検索装置。 - 検索者が、時間と、地図上の表示範囲で指定した地理的範囲に基づいて特徴的なキーワードを提示するための情報検索装置であって、
時間情報と経度番号、緯度番号を合わせてメッシュ番号とし、該メッシュ番号毎のキーワードのスコアからなる3次元メッシュ記憶手段と、
前記検索者から入力された地理範囲及び時間範囲に含まれるメッシュIDに基づいて、前記3次元メッシュ記憶手段からキーワードを出力候補として抽出するキーワード抽出手段と、
地理的な範囲を固定し、指定時刻と過去に規定のN単位分の時刻におけるキーワードに対応する合計値を取得して特徴度を求める特徴度計算手段と、
前記特徴度の時間的遷移から上昇傾向にあるキーワードを出力する出力キーワード決定手段と、を有し、
前記特徴度計算手段は、未来のN´単位も含める
ことを特徴とする情報検索装置。 - 検索対象文書を入力とし、各ページに対して、ページ番号を決定し、該ページ番号に対応させてキーワード、地名表現、地理情報、時間情報を抽出し、解析結果記憶手段に格納する文書解析手段と、
前記解析結果記憶手段の情報を取得し、前記地理情報から緯度番号、経度番号を抽出し、時間情報と合わせてメッシュ番号とし、該メッシュ番号ごとにキーワードの数を合計し、前記3次元メッシュ記憶手段に格納する前処理手段を更に有する
請求項1又は2記載の情報検索装置。 - 検索者が、時間と、地図上の表示範囲で指定した地理的範囲に基づいて特徴的なキーワードを提示するための情報検索方法であって、
時間情報と経度番号、緯度番号を合わせてメッシュ番号とし、該メッシュ番号毎のキーワードのスコアからなる3次元メッシュ記憶手段を有する装置において、
キーワード抽出手段が、前記検索者から入力された地理範囲及び時間範囲に含まれるメッシュIDに基づいて、前記3次元メッシュ記憶手段からキーワードを出力候補として抽出するキーワード抽出ステップと、
特徴度計算手段が、地理的な範囲を固定し、指定時刻と過去に規定のN単位分、または、未来のN´単位分の時刻におけるキーワードに対応する合計値を取得して特徴度を求める特徴度計算ステップと、
出力キーワード決定手段が、前記特徴度の時間的遷移から上昇傾向にあるキーワードを出力する出力キーワード決定ステップと、を行い、
前記出力キーワード決定ステップにおいて、
前記特徴度の時間的遷移を、
最小二乗法により、特徴度f(t)=αt+β(但し、tは時間変数、αは係数、βは固定値)の型式の一次方程式に近似させ、係数αが正であり、該特徴度が閾値以上のキーワードを出力する
ことを特徴とする情報検索方法。 - 検索対象文書を入力とし、各ページに対して、ページ番号を決定し、該ページ番号に対応させてキーワード、地名表現、地理情報、時間情報を抽出し、解析結果記憶手段に格納する文書解析ステップと、
前記解析結果記憶手段の情報を取得し、前記地理情報から緯度番号、経度番号を抽出し、時間情報と合わせてメッシュ番号とし、該メッシュ番号ごとにキーワードの数を合計し、前記3次元メッシュ記憶手段に格納する前処理ステップを更に行う
請求項4記載の情報検索方法。 - コンピュータを、
請求項1乃至3のいずれか1項に記載の情報検索装置の各手段として機能させるための情報検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012100487A JP5798081B2 (ja) | 2012-04-25 | 2012-04-25 | 情報検索装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012100487A JP5798081B2 (ja) | 2012-04-25 | 2012-04-25 | 情報検索装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013228887A JP2013228887A (ja) | 2013-11-07 |
JP5798081B2 true JP5798081B2 (ja) | 2015-10-21 |
Family
ID=49676451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012100487A Expired - Fee Related JP5798081B2 (ja) | 2012-04-25 | 2012-04-25 | 情報検索装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5798081B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056009B (zh) * | 2023-10-13 | 2023-12-22 | 北京睿企信息科技有限公司 | 一种信息显示方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4342575B2 (ja) * | 2007-06-25 | 2009-10-14 | 株式会社東芝 | キーワード提示のための装置、方法、及びプログラム |
JP4764864B2 (ja) * | 2007-11-02 | 2011-09-07 | ヤフー株式会社 | 情報伝播抽出装置および情報伝播抽出方法 |
JP5345987B2 (ja) * | 2010-08-18 | 2013-11-20 | 日本電信電話株式会社 | 文書検索装置、文書検索方法および文書検索プログラム |
-
2012
- 2012-04-25 JP JP2012100487A patent/JP5798081B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013228887A (ja) | 2013-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2015188719A1 (zh) | 结构化数据与图片的关联方法与关联装置 | |
JP2014089583A (ja) | ソーシャル・メデイアに基づいてロケーションを推定する方法、コンピュータ・プログラム、コンピュータ。 | |
KR20120077055A (ko) | 사용자 그룹별로 키워드의 순위를 결정하는 시스템 및 방법 | |
US20200159866A1 (en) | Perceived Web Page Loading Time | |
JP6640519B2 (ja) | 情報分析装置及び情報分析方法 | |
JP5798081B2 (ja) | 情報検索装置及び方法及びプログラム | |
JP2013054606A (ja) | 文書検索装置及び方法及びプログラム | |
JP5639549B2 (ja) | 情報検索装置及び方法及びプログラム | |
US9092409B2 (en) | Smart scoring and filtering of user-annotated geocoded datasets | |
Mishra et al. | Leveraging semantic annotations to link wikipedia and news archives | |
JP5361090B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
JP5604406B2 (ja) | 情報検索装置及び方法及びプログラム | |
JP6488399B2 (ja) | 情報提示システム、及び情報提示方法 | |
Schroeder et al. | The Web as History: Using Web Archives to Understand the Past and the Present | |
JP5841108B2 (ja) | 情報処理装置、記事情報生成方法およびプログラム | |
JP2018018428A (ja) | 情報処理装置及びプログラム | |
JP5977199B2 (ja) | 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム | |
JP5806974B2 (ja) | 近隣情報検索装置及び方法及びプログラム | |
Samah et al. | TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity | |
JP5815467B2 (ja) | 検索キーワード提示装置及び方法及びプログラム | |
JP2013218441A (ja) | 特徴キーワード推薦装置及び方法及びプログラム | |
JP5670944B2 (ja) | 文書要約装置及び方法及びプログラム | |
JP5810046B2 (ja) | 文書検索キーワード提示装置及び方法及びプログラム | |
Gray et al. | Advances in crowdsourcing: Surveys, social media and geospatial analysis: Towards a big data toolkit | |
JP5824415B2 (ja) | 住所特徴語抽出装置及び方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150818 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150820 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5798081 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |