JP2012247923A - 情報検索方法、情報検索装置及び情報検索プログラム - Google Patents
情報検索方法、情報検索装置及び情報検索プログラム Download PDFInfo
- Publication number
- JP2012247923A JP2012247923A JP2011118129A JP2011118129A JP2012247923A JP 2012247923 A JP2012247923 A JP 2012247923A JP 2011118129 A JP2011118129 A JP 2011118129A JP 2011118129 A JP2011118129 A JP 2011118129A JP 2012247923 A JP2012247923 A JP 2012247923A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- document
- specific
- word
- information search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定し、前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択し、前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索し、前記検索の結果を出力する。
【選択図】図5
Description
図5に示すように、情報検索装置100は、情報処理装置を用いて構成され、処理プログラム151を実行することによって実現される。情報検索装置100の処理プログラム151は、機能により分類すると、初期化部101と、語入力部102と、出現頻度計算部103と、バースト計算部104と、出現頻度集計部105と、クラスタ分け計算部106と、関連情報獲得部107と、検索結果提示部108と、通信部109とを備える。
情報検索装置100の記憶装置152は、機能により分類すると、パラメータ等格納領域111と、ts格納領域112と、日−バースト語対応格納領域113と、ブログ−語出現関係格納領域114と、クラスタ帰属関係格納領域115とを備える。
先ず、ステップS1で、初期化部101は、検索開始の日付dstaratや、検索終了の日付dend等のパラメータを初期化し、パラメータ等格納領域111に設定する。次に、ステップS2で、語入力部102は、ユーザ150から入力された語句xを入力し、入力された語句xを指定語句としてパラメータ等格納領域111に設定する。そして、ステップS3で、出現頻度計算部103は、指定語句xを含むブログ記事の出現頻度を示す変数tsを0に初期設定する。
次に、ステップS6で、バースト計算部104は、記事数|B(d,x)|に基づいて、時系列でのバーストのピークを抽出する。この場合は、バースト計算部104は、二つのピーク(d1,d2)を検出する。
具体的には以下の通りである。例えば”かぼちゃ" という指定語句をユーザが情報検索装置に入力すると、日常生活の中でその固有の役割を演じる場面として”ハロウィン”や”冬至”に該当する場面の属性値(日付)が、属性値として検出される。そして、”ハロウィン”や”冬至”の場面に関連する文書が、文書集合(例えばWWW)から抽出され、ユーザに提示される。
<変形例>
検出対象となる文書データ(文書集合10に含まれる文書データ)は、ブログ記事に限定される必要は無い。例えば、ニュースの記事や掲示板への投稿文や簡易ブログ(例えばTwitter(登録商標)等)に投稿された文が検出対象の文書データとなっても良い。
文書集合10は、WWWに限定される必要は無く、予め情報検索装置100の補助記憶装置が記憶している複数の文書であっても良いし、情報検索装置100にケーブルやLAN等のネットワークで接続された補助記憶装置が記憶している複数の文書であっても良い。
Claims (7)
- 情報検索装置が、属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定するステップと、
前記情報検索装置が、前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択するステップと、
前記情報検索装置が、前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索するステップと、
前記情報検索装置が、前記検索の結果を出力するステップと、
を有する情報検索方法。 - 前記検索するステップにおいて、前記情報検索装置が、前記特定の語句に関連する文書、又は、前記関連語句の候補のうち前記特定の語句に関連する語句に関連する文書を検索する、請求項1に記載の情報検索方法。
- 前記検索するステップにおいて、前記情報検索装置が、前記特定の語句と前記特定の語句が出現する文書との出現分布状況と、前記関連語句と当該関連語句が出現する文書との出現分布状況とを相互に比較してクラスタリングを行い、前記特定の語句を含むクラスタに含まれる文書を検索結果として取得する、請求項1に記載の情報検索方法。
- 属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定する出現頻度計算部と、
前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択する出現頻度集計部と、
前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索する関連情報獲得部と、
前記情報検索装置が、前記検索の結果を出力する検索結果提示部と、
を備える情報検索装置。 - 前記関連情報獲得部は、前記特定の語句に関連する文書、又は、前記関連語句の候補のうち前記特定の語句に関連する語句に関連する文書を検索する、請求項4に記載の情報検索装置。
- 前記関連情報獲得部は、前記特定の語句と前記特定の語句が出現する文書との出現分布状況と、前記関連語句と当該関連語句が出現する文書との出現分布状況とを相互に比較してクラスタリングを行い、前記特定の語句を含むクラスタに含まれる文書を検索結果として取得する、請求項4に記載の情報検索装置。
- 請求項1乃至請求項3の何れかに記載した情報検索方法をコンピュータに実行させるための情報検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011118129A JP5461475B2 (ja) | 2011-05-26 | 2011-05-26 | 情報検索方法、情報検索装置及び情報検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011118129A JP5461475B2 (ja) | 2011-05-26 | 2011-05-26 | 情報検索方法、情報検索装置及び情報検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012247923A true JP2012247923A (ja) | 2012-12-13 |
JP5461475B2 JP5461475B2 (ja) | 2014-04-02 |
Family
ID=47468326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011118129A Expired - Fee Related JP5461475B2 (ja) | 2011-05-26 | 2011-05-26 | 情報検索方法、情報検索装置及び情報検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5461475B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019046017A (ja) * | 2017-08-31 | 2019-03-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325832A (ja) * | 1994-05-31 | 1995-12-12 | Fujitsu Ltd | 単語使用パターンの時間的変化を利用した検索方法および情報検索装置 |
JP2000172701A (ja) * | 1998-12-04 | 2000-06-23 | Fujitsu Ltd | 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体 |
JP2004086534A (ja) * | 2002-08-27 | 2004-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 時系列情報からの固有情報抽出方法および装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 |
JP2006302024A (ja) * | 2005-04-21 | 2006-11-02 | Nippon Telegr & Teleph Corp <Ntt> | 関連文書表示方法及びプログラム |
WO2009096506A1 (ja) * | 2008-01-30 | 2009-08-06 | Nec Corporation | 情報分析装置、情報分析方法、情報分析用プログラム、及び検索システム |
JP2010224823A (ja) * | 2009-03-23 | 2010-10-07 | Toshiba Corp | 共起表現抽出装置及び共起表現抽出方法 |
-
2011
- 2011-05-26 JP JP2011118129A patent/JP5461475B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325832A (ja) * | 1994-05-31 | 1995-12-12 | Fujitsu Ltd | 単語使用パターンの時間的変化を利用した検索方法および情報検索装置 |
JP2000172701A (ja) * | 1998-12-04 | 2000-06-23 | Fujitsu Ltd | 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体 |
JP2004086534A (ja) * | 2002-08-27 | 2004-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 時系列情報からの固有情報抽出方法および装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 |
JP2006302024A (ja) * | 2005-04-21 | 2006-11-02 | Nippon Telegr & Teleph Corp <Ntt> | 関連文書表示方法及びプログラム |
WO2009096506A1 (ja) * | 2008-01-30 | 2009-08-06 | Nec Corporation | 情報分析装置、情報分析方法、情報分析用プログラム、及び検索システム |
JP2010224823A (ja) * | 2009-03-23 | 2010-10-07 | Toshiba Corp | 共起表現抽出装置及び共起表現抽出方法 |
Non-Patent Citations (6)
Title |
---|
CSNG200400383015; 藤井 敦 他: 'World Wide Webを用いた事典知識情報の抽出と組織化' 電子情報通信学会論文誌 第J85-D-II巻,第2号, 20020201, pp.300-307., 社団法人電子情報通信学会 * |
CSNG200800444008; 関根 聡: 'Web検索における人名の曖昧性解消技術の動向-同姓同名のクラスタリング-' 情報処理 第49巻、第5号, 20080515, pp.573-578., 社団法人情報処理学会 * |
CSNJ201010004326; 山本 健一 他: '動向情報の検索による情報編纂' 2007年度人工知能学会全国大会(第21回)論文集 Vol.2007,No3H9-3, 20070622, pp.1-4., 社団法人人工知能学会 * |
JPN6013063873; 山本 健一 他: '動向情報の検索による情報編纂' 2007年度人工知能学会全国大会(第21回)論文集 Vol.2007,No3H9-3, 20070622, pp.1-4., 社団法人人工知能学会 * |
JPN6013063874; 藤井 敦 他: 'World Wide Webを用いた事典知識情報の抽出と組織化' 電子情報通信学会論文誌 第J85-D-II巻,第2号, 20020201, pp.300-307., 社団法人電子情報通信学会 * |
JPN6013063875; 関根 聡: 'Web検索における人名の曖昧性解消技術の動向-同姓同名のクラスタリング-' 情報処理 第49巻、第5号, 20080515, pp.573-578., 社団法人情報処理学会 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019046017A (ja) * | 2017-08-31 | 2019-03-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5461475B2 (ja) | 2014-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046236B (zh) | 一种非结构化数据的检索方法及装置 | |
Adamic et al. | Friends and neighbors on the web | |
US9922050B2 (en) | Identifying data from keyword searches of color palettes and color palette trends | |
US9898487B2 (en) | Determining color names from keyword searches of color palettes | |
US20150378999A1 (en) | Determining affiliated colors from keyword searches of color palettes | |
US20150379000A1 (en) | Generating visualizations from keyword searches of color palettes | |
CN104268148B (zh) | 一种基于时间串的论坛页面信息自动抽取方法及系统 | |
US20160125502A1 (en) | Travel Itinerary Recommendation Engine Using Inferred Interests and Sentiments | |
JP7353655B2 (ja) | 商品リコメンドシステム | |
JP2003330948A (ja) | ウェブページを評価する装置および方法 | |
CN107563867A (zh) | 一种基于多臂赌博机置信上限的推荐系统冷启动方法 | |
KR101355945B1 (ko) | 온라인 문맥기반 광고 장치 및 방법 | |
JP2002215659A (ja) | 情報検索支援方法および情報検索支援システム | |
JP2000090103A (ja) | 情報検索装置及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN107256513A (zh) | 一种对象的搭配推荐方法及装置 | |
Neshati et al. | Integration of scientific and social networks | |
US20080183759A1 (en) | System and method for matching expertise | |
TW201642195A (zh) | 商品相關網路文章之自動圖文摘要方法及系統 | |
KR20090013928A (ko) | 토픽 추출 장치, 상기 토픽 추출 장치를 이용한 소셜네트워크 생성 시스템 및 그 방법 | |
US20120239657A1 (en) | Category classification processing device and method | |
Pohl et al. | Supporting crisis management via sub-event detection in social networks | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
JP5461475B2 (ja) | 情報検索方法、情報検索装置及び情報検索プログラム | |
JP5661719B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP6639040B2 (ja) | 情報検索装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130606 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130717 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130801 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5461475 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |