JP2009086772A - 検索サービス装置 - Google Patents
検索サービス装置 Download PDFInfo
- Publication number
- JP2009086772A JP2009086772A JP2007252777A JP2007252777A JP2009086772A JP 2009086772 A JP2009086772 A JP 2009086772A JP 2007252777 A JP2007252777 A JP 2007252777A JP 2007252777 A JP2007252777 A JP 2007252777A JP 2009086772 A JP2009086772 A JP 2009086772A
- Authority
- JP
- Japan
- Prior art keywords
- word
- associative
- search
- keyword
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】キーワード出現頻度保持部は、複数のキーワードの出現頻度を文書データ毎に集計した出現頻度データを保持する。キーワード関連度保持部は、出現頻度データを用いて算出された、キーワード間の共起性に基づく関連度を表す関連度データを保持する。連想語選択部62は、ユーザ端末から入力された複数の検索語に対して、検索語と関連度が高い順に複数のキーワードを連想語として抽出する。データ集計部72は、キーワード出現頻度データを参照して、文書データ毎に抽出された連想語の出現頻度を取得する。主成分分析部74は、出現頻度のデータに対して主成分分析を実施し、連想語毎に所定数の主成分値を算出する。座標データ変換部76は、予め定められたマップ内に各連想語を配置するための座標値に主成分値を変換する。
【選択図】図2
Description
文書データベース12は、多数の文書をテキストデータとして蓄積する。蓄積される文書としては、新聞記事、雑誌記事、学術論文などが好ましいが、これらに限定されない。別の実施例として、連想検索エンジン50が、所定の期間毎にネットワークを介して多数のウェブページにアクセスしてページ内の文書データを収集するウェブクローラを備えており、収集した文書データを適宜データベースに蓄積していくように構成してもよい。
そこで、本実施形態では、後述するように、まずキーワード出現頻度表20を作成し、その後これを利用してキーワード組合せ頻度総和表22およびキーワード頻度総和表24を作成することにより、計算工程の簡素化を図っている。
まず、キーワード抽出部14は、文書データベース12内に蓄積された各文書データに対して係り受け表現抽出フィルタ14aを適用し、所定の係り受け表現を含む文字列を抽出する(S10)。係り受け表現抽出フィルタ14aには、「XXメーカー」、「XXが主力」、「XXを生産」といったような係り受け表現パターンが予め多数用意されている。係り受け表現抽出フィルタ14aを適用することで、文書データから上述のような表現パターンを含む文字列を検出した後、キーワード抽出部14は、「XX」に相当する部分をキーワード候補として抽出する。
このTermExtractフィルタ14dは、専門分野のコーパス、すなわち主として研究目的で収集され、電子化された自然言語の文章からなる巨大な文書データから専門用語を自動抽出するために案出された文字列抽出アルゴリズムである。TermExtractフィルタ14dは、文書データ中から単名詞および複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtractフィルタ14d自体は公知技術であるため、これ以上の説明は省略する。
反対に、不要となった文書データの影響を排除する場合にも、当該文書データ中の各キーワードに係るデータをキーワード組合せ頻度総和表110およびキーワード頻度総和表118から削除し、既存の集計値から削除分の値を減算することによって、キーワード間の関連度を最新の状態に維持することが可能となる。
比較差分検索は、複数の検索語に対して共通する連想語と相違する連想語を出力するものである。図2を参照して、比較差分検索実行部60は、連想語選択部62、連想語マッチング部64、およびページ作成部66を含む。
ここでは、一例として、「肥満」「糖尿病」「心臓病」の三つの検索語を指定したとして、以下の説明を行う。
ページ上で表示される最大フォントサイズ=Aポイント
ページ上で表示される最小フォントサイズ=Bポイント
フォントサイズ変換比R=(A−B)/(関連度の最大値−関連度の最小値)
このとき、連想語XのフォントサイズFは、F=(連想語Xの関連度−関連度の最小値)*Rで設定される。
(1)同業種である複数の企業名を検索語として比較差分検索を実施する。これによって、企業間で共通の連想語と各企業単独の連想語とを見ることができるため、投資に際して考慮すべき企業間の共通性や各企業の独自性を発見することが容易になる。
(2)競合関係にある商品の名称を検索語として比較差分検索を実施する。これによって、各商品の共通性や独自性を発見できるため、マーケティング等に活用することができる。
(3)一見何の関係もない複数の検索語を入力して比較差分検索を実施することで、新規な着眼点を発見したり発想を膨らましたりするアイデアのマイニングに利用することができる。
上述のように、比較差分検索をタグクラウド表示またはベン図表示することで、それぞれの検索語に対する連想語の共通部分と相違部分とを容易に把握することができる。しかし、これらの表示形式では、連想語と検索語との関連度合いや、二つの検索語がある場合にどちらの検索語に対して各連想語との結びつきが強いのかといった、結びつきの強さに関する情報を得ることができない。そこで、以下では、比較差分検索の結果をマップ表示する方法について説明する。
データ集計部72は、ユーザから入力された複数の検索語それぞれについてキーワード関連度保持部26から抽出された連想語を、連想語選択部62から受け取る。そして、関連度が上位の連想語について、キーワード出現頻度表20を参照して、各文書データ内での連想語の出現頻度を集計する。主成分分析部74は、連想語の出現頻度に基づき、周知の主成分分析を実行する。座標データ変換部76は、主成分分析の結果に基づいて、各連想語を二次元のマップ上に配置するための座標を計算する。マップ作成部78は、計算された座標に連想語を含むタグを配置した連想語マップを作成する。
X座標変換比=座標平面の横幅÷(第1主成分値の最大値−第1主成分値の最小値)
Y座標変換比=座標平面の縦幅÷(第2主成分値の最大値−第2主成分値の最小値)
X座標=(Eの第1主成分値−第1主成分の最小値)*X座標変換比
Y座標=(Eの第2主成分値−第2主成分の最小値)*Y座標変換比
このような場合、配置座標の正確性よりもユーザの視認性を重視し、タグ同士の重複を解いて文字を認識し易いように調整することが望ましいが、各タグ間の関係性を尊重するという観点からは、タグの移動距離を最小限に抑えることが重要となる。
(1)原則として、最も移動距離が短くて済む方向を優先的に選択する。
(2)原則として、既に固定済みのタグと重複する方向は選択できない。
(3)何れの方向においても固定済みのタグと重複する場合には、最も重複面積が小さくて済む方向を選択する。
(4)タグが表示領域の枠を越える方向は選択できない。
(5)戻り方向への移動は選択できない。
上記で説明した連想検索結果の表示方法は、複数の検索語と連想語間の関連度の高低を比較するのに適している。しかしながら、連想語はそれぞれ別の時点に作成された文書データの中から抽出されているにもかかわらず、連想検索結果においてはその作成時点が全く考慮されていないという問題がある。
そこで、本実施形態の鮮度検索実行部では、連想語の検索結果に時間情報を含めて表示する方法を提供する。
出現頻度取得部82は、ユーザから入力された複数の検索語それぞれについてキーワード関連度保持部26から抽出された連想語を、連想語選択部62から受け取る。そして、各連想語の文書データ内の出現頻度を求める。鮮度算出部84は、各連想語の文書データへの出現頻度と文書データの作成時点とに応じて重み付けを行い、連想語毎にデータの新しさを表す「鮮度」を算出する。鮮度表示部86は、抽出された連想語を表示するページを作成する。このとき、鮮度に応じて各連想語を含むタグの表示態様を変化させる。一例として、鮮度が大きいほどタグのサイズを大きくしたり、またはタグの色を目立つようにしたりする。
従来の検索手法においては、連想語は予め蓄積されている文書データから抽出されたキーワードに基づいて検索される。しかし、このような手法では、検索精度にはある程度の限界がある。例えば、同一の文書内で共起する頻度は少ないものの、連想される可能性の高い語句などは漏れてしまう可能性がある。逆に、使用頻度の高い単語などは、同一の文書内で共起する頻度が高いため、連想される可能性が低いのに検索されノイズとなってしまう可能性がある。
そこで、本実施形態のユーザフィードバック反映処理部では、検索サービス装置の出力する連想検索結果に対してユーザのフィードバックを入れられるようにした。
連想語追加部92は、ユーザから提案された連想語を受け取り、検索語と連想語とを新たなキーワードのペアとしてキーワード関連度保持部26に追加する。このとき、このペアに与えられる関連度は予め定められている初期値に設定する。提案された連想語と検索語とのペアが既にキーワード関連度保持部26に存在している場合は、その提案を無視してもよいし、または所定の値または所定の比率だけ関連度を増加させるようにしてもよい。
投票処理部94は、提案された連想語に対する賛成の投票が一定値を超えた場合、その連想語と検索語のペアをキーワード関連度保持部26に格納するようにしてもよい。また、投票処理部94は、提案された連想語に対する反対の投票が一定値を超えた場合、その連想語を破棄するようにしてもよい。
Claims (5)
- 複数のキーワードの出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データを保持するキーワード出現頻度保持部と、
前記キーワード出現頻度データを用いて算出される、キーワード間の共起性に基づく関連度を保持するキーワード関連度保持部と、
ユーザ端末から入力された複数の検索語に対して、前記キーワード関連度保持部を参照して前記検索語と実質的に同一のキーワードに対する関連度が高い順に複数のキーワードを連想語として抽出する連想語選択部と、
前記キーワード出現頻度データを参照して、前記文書データ毎に抽出された連想語の出現頻度を取得するデータ集計部と、
前記出現頻度のデータに対して主成分分析を実施し、連想語毎に所定数の主成分値を算出する主成分分析部と、
予め定められた大きさの表示領域内に各連想語を配置するための座標値に前記主成分値を変換する座標データ変換部と、
前記表示領域内に前記連想語を配置した連想語マップを作成するマップ作成部と、
を備えることを特徴とする検索サービス装置。 - 前記データ集計部は、前記複数の検索語に対してそれぞれ抽出された連想語の和集合を作成し、各検索語に対する関連度を合計し、合計関連度の上位から予め定められた数の連想語について前記出現頻度を取得することを特徴とする請求項1に記載の検索サービス装置。
- 前記マップ作成部は、各連想語を文字列として含むタグを前記表示領域に配置した連想語マップを作成することを特徴とする請求項2に記載の検索サービス装置。
- 前記マップ作成部は、前記合計関連度の大きさに応じて、前記タグまたは前記文字列のサイズまたは装飾を変えることを特徴とする請求項3に記載の検索サービス装置。
- 複数のキーワードの出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データをメモリに保持しておく機能と、
前記キーワード出現頻度データを用いて算出される、キーワード間の共起性に基づく関連度をキーワード関連度データとしてメモリに保持しておく機能と、
入力された複数の検索語に対して、前記キーワード関連度保持部を参照して前記検索語と実質的に同一のキーワードに対する関連度が高い順に複数のキーワードを連想語として抽出する機能と、
前記キーワード出現頻度データを参照して、前記文書データ毎に抽出された連想語の出現頻度を取得する機能と、
前記出現頻度のデータに対して主成分分析を実施し、連想語毎に所定数の主成分値を算出する機能と、
予め定められた大きさの表示領域内に各連想語を配置するための座標値に前記主成分値を変換する機能と、
前記表示領域内に前記連想語を配置した連想語マップを作成する機能と、
をコンピュータに発揮させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007252777A JP5149581B2 (ja) | 2007-09-27 | 2007-09-27 | 検索サービス装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007252777A JP5149581B2 (ja) | 2007-09-27 | 2007-09-27 | 検索サービス装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009086772A true JP2009086772A (ja) | 2009-04-23 |
JP5149581B2 JP5149581B2 (ja) | 2013-02-20 |
Family
ID=40660161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007252777A Expired - Fee Related JP5149581B2 (ja) | 2007-09-27 | 2007-09-27 | 検索サービス装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5149581B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012221431A (ja) * | 2011-04-13 | 2012-11-12 | Nippon Telegr & Teleph Corp <Ntt> | 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム |
JP2014510968A (ja) * | 2011-02-24 | 2014-05-01 | レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド | 電子文書の検索方法及び電子文書検索のグラフィカル表示方法 |
JP2015026350A (ja) * | 2013-07-29 | 2015-02-05 | 富士通株式会社 | 情報処理システム、情報処理方法、および情報処理プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11338873A (ja) * | 1998-05-26 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体 |
JP2004110386A (ja) * | 2002-09-18 | 2004-04-08 | Nri & Ncc Co Ltd | 連想検索システム |
JP2005149346A (ja) * | 2003-11-19 | 2005-06-09 | Nomura Research Institute Ltd | 文献情報分析システム及び文献情報分析プログラム |
JP2006146802A (ja) * | 2004-11-24 | 2006-06-08 | Mitsubishi Electric Corp | テキストマイニング装置およびテキストマイニング方法 |
JP2006163998A (ja) * | 2004-12-09 | 2006-06-22 | Nippon Telegr & Teleph Corp <Ntt> | 検索キーワード想起補助装置及び検索キーワード想起補助プログラム |
-
2007
- 2007-09-27 JP JP2007252777A patent/JP5149581B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11338873A (ja) * | 1998-05-26 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体 |
JP2004110386A (ja) * | 2002-09-18 | 2004-04-08 | Nri & Ncc Co Ltd | 連想検索システム |
JP2005149346A (ja) * | 2003-11-19 | 2005-06-09 | Nomura Research Institute Ltd | 文献情報分析システム及び文献情報分析プログラム |
JP2006146802A (ja) * | 2004-11-24 | 2006-06-08 | Mitsubishi Electric Corp | テキストマイニング装置およびテキストマイニング方法 |
JP2006163998A (ja) * | 2004-12-09 | 2006-06-22 | Nippon Telegr & Teleph Corp <Ntt> | 検索キーワード想起補助装置及び検索キーワード想起補助プログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200001287013; 梶 博行 他: 'コーパス対応の関連シソーラスナビゲーション' 情報処理学会研究報告 Vol.99,No.39, 19990517, PP.97-104., 情報処理学会 * |
CSNG200701126067; 江田 毅晴 他: 'Folksonomyのタグを用いた自動分類体系構築へ向けて' 情報処理学会研究報告 Vol.2007,No.65, 20070702, PP.405-410., 情報処理学会 * |
JPN6012030740; 江田 毅晴 他: 'Folksonomyのタグを用いた自動分類体系構築へ向けて' 情報処理学会研究報告 Vol.2007,No.65, 20070702, PP.405-410., 情報処理学会 * |
JPN6012030742; 梶 博行 他: 'コーパス対応の関連シソーラスナビゲーション' 情報処理学会研究報告 Vol.99,No.39, 19990517, PP.97-104., 情報処理学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014510968A (ja) * | 2011-02-24 | 2014-05-01 | レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド | 電子文書の検索方法及び電子文書検索のグラフィカル表示方法 |
JP2017010580A (ja) * | 2011-02-24 | 2017-01-12 | レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド | 電子文書の検索方法及び電子文書検索のグラフィカル表示方法 |
JP2012221431A (ja) * | 2011-04-13 | 2012-11-12 | Nippon Telegr & Teleph Corp <Ntt> | 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム |
JP2015026350A (ja) * | 2013-07-29 | 2015-02-05 | 富士通株式会社 | 情報処理システム、情報処理方法、および情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5149581B2 (ja) | 2013-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6664784B2 (ja) | 表示装置 | |
CN109196496B (zh) | 未知词预测器和内容整合的翻译器 | |
US10387437B2 (en) | Query rewriting using session information | |
KR102334064B1 (ko) | 음성 입력에 기초한 테이블형 데이터에 관한 연산의 수행 기법 | |
US8577913B1 (en) | Generating midstring query refinements | |
US7783644B1 (en) | Query-independent entity importance in books | |
JP4937812B2 (ja) | 検索システム | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
JP4746439B2 (ja) | 文書検索サーバおよび文書検索方法 | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
Smith et al. | Evaluating visual representations for topic understanding and their effects on manually generated topic labels | |
JP6529133B2 (ja) | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 | |
KR20160089177A (ko) | 폴라리티 기반 사용자 의견 랭킹 산정방법 및 시스템 | |
JP4466334B2 (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
JP2009086771A (ja) | 検索サービス装置 | |
JP2009086774A (ja) | 検索サービス装置 | |
JP5149581B2 (ja) | 検索サービス装置 | |
JP5193669B2 (ja) | 検索システム | |
JP5139883B2 (ja) | 検索システム | |
JP2008262506A (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
KR20120038418A (ko) | 탐색 방법 및 디바이스 | |
JP2009086903A (ja) | 検索サービス装置 | |
JP2008250625A (ja) | 検索システム | |
JP2009086773A (ja) | 検索サービス装置 | |
JP5368900B2 (ja) | 情報提示装置、情報提示方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120619 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120820 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5149581 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151207 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |