JP2009271795A - 検索システム - Google Patents
検索システム Download PDFInfo
- Publication number
- JP2009271795A JP2009271795A JP2008122780A JP2008122780A JP2009271795A JP 2009271795 A JP2009271795 A JP 2009271795A JP 2008122780 A JP2008122780 A JP 2008122780A JP 2008122780 A JP2008122780 A JP 2008122780A JP 2009271795 A JP2009271795 A JP 2009271795A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- relevance
- search
- tag
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】マップ生成部28は、検索語が入力された場合にキーワード関連度表26を参照して、平面上における座標値を算出し、各キーワードを表記したタグを生成し、座標値に基づいてタグを平面上に配置させた第1の関連度マップを生成する。またマップ生成部28は、各文書データの日付情報を取得し、各関連語の各文書データにおける1日毎の出現頻度を算出し、各関連語の鮮度ポイントを算出し、1ヶ月のバースト期間以前の11ヶ月間における各関連語の出現頻度の1日毎の平均値を算出し、この平均値で各関連語の鮮度ポイントを除して各関連語の急進度を算出し、この急進度の高低に応じた表示態様をタグの少なくとも一部に施す。
【選択図】図1
Description
この結果ユーザは、目的の情報に辿り着くことが可能となるのであるが、そこでの検索結果はあくまでも予想の範囲のものであり、検索結果リストを眺めても意外な発見を期待することはできなかった。もちろん、検索結果リスト中の個々のデータの詳細を検討する過程で新しい知見を得ることはできるが、検索語と関連の深い他の用語を含む情報を直接的に抽出することはできなかった。
しかしながら、検索語と企業名との共起性を根拠付ける文書データは何らかの時間情報を備えているにもかかわらず、特許文献1のシステムでは検索結果に時間情報が全く反映されないため、例えば旬な企業名を優先的を表示するといったことができなかった。
したがって、上記関連度マップ上における各タグの配置には、キーワード相互間の関連性が反映されており、このためユーザはタグ間の位置関係や集積度によって、関連語間の類似性や検索語との関連性を視覚的に認識することが可能となる。
このシステム10にはWebサーバ32が接続されており、このWebサーバ32はインターネットやイントラネット等のネットワーク34を介して複数のクライアント36と接続されている。
文書DB12には、新聞記事や学術雑誌、論文等の文書データ(テキストデータ)が予め多数蓄積されている。また、各文書データには、メタデータの一つとして、作成日時や公開日時、データ蓄積日時等の時間情報が関連付けられている。
まずキーワード抽出部14は、文書DB12内に蓄積された各文書データに係り受け表現抽出フィルタ14aを適用し、各文書データから所定の係り受け表現を備えた文字列を抽出する(S10)。
すなわち、係り受け表現抽出フィルタ14aには、「○○メーカー」、「○○が主力」、「○○を生産」という係り受け表現パターンが予め多数用意されており、キーワード抽出部14は、これに当てはまる表現パターンを検出した後、「○○」に相当する文字列をキーワード候補として抽出する。
まず文字列頻度統計フィルタ14cは、図4に示すように、文書中の名詞(ここでは「DVD」)に注目し、このDVDという注目語が文書DB12内に蓄積された各文書データ中に出現する数を集計する。つぎに、文字列頻度統計フィルタ14cは、この注目語の前後の形態素に範囲を拡張し、それぞれの全文書中に登場する頻度を集計し、出現頻度が一定以下(例えば20以下)となった時点で文字範囲拡張を停止する。
全文書中における出現頻度が20未満のものはそもそも重要語とはいえず、また5,000を越えるものは逆に特徴のない汎用語あるいは一般語と考えられるからであるが、この範囲設定は文書データの分量や検索システムの使用目的に応じて適宜調整される。
このTermExtractフィルタ14dは、専門分野のコーパス(主として研究目的で収集され、電子化された自然言語の文章からなる巨大なテキストデータ)から専門用語を自動抽出するために案出された文字列抽出アルゴリズムであり、文書データ中から単名詞及び複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtractフィルタ14d自体は公知技術であるため、これ以上の説明は省略する。
キーワード認定フィルタ14eでは、各フィルタによってリストアップされたキーワード候補同士をマッチングし、2以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定し、キーワードDB16に格納する(S18)。
また、フィルタの数も上記に限定されるものではなく、他の有効なキーワード候補抽出フィルタをキーワード抽出部14に設けることもできる。
まず関連度算出部18は、各キーワードの各文書データ中における共起頻度を集計し、キーワード共起頻度表20を生成する(S20)。
図7は、このキーワード共起頻度表20の具体例を示すものであり、文書DB12に格納された各文書D1〜Dnごとに、各キーワードKW-1〜nの出現頻度が記述されている。
そこで、この実施の形態では、キーワード共起頻度表20に基づいてキーワード組合せ頻度総和表22及びキーワード頻度総和表24を生成することにより、計算工程の簡素化を図っている。
(KW-1, KW-2)、(KW-1, KW-5)、(KW-2, KW-5)
つぎに関連度算出部18は、各組合せ毎に出現頻度を乗じた値を記述したキーワード組合せ頻度総和表22と、各キーワードの出現頻度を二乗した値を記述したキーワード頻度総和表24を生成する(S22、S24)。
同じく、図8のキーワード頻度総和表では、文書D1についての値のみが記述されているが、各文書における各キーワードの出現頻度を二乗した値を足し込んでいき、各キーワードの最終的な値の平方根を求めることにより、数1の分母に相当する値が得られることになる。
上記のように、文書毎に各キーワード間の組合せパターンを抽出し、それぞれの積及び各キーワードの二乗値を求めた上で、各文書の値を加算していくことにより、値が0のキーワードに係る計算処理を省くことが可能となる。
このため、特許文献1の検索システムのように企業名に限定することなく、全キーワード間における関連度を算出することが現実的になる。
古くなった文書データの影響を排除する場合にも、当該文書データ中の各キーワードに係るデータをキーワード組合せ頻度総和表22及びキーワード頻度総和表24から削除し、既存の集計値から削除分の値を減算することによって、簡単にキーワード間の関連度を最新の状態に維持することが可能となる。
まずユーザがクライアント36から検索対象となる文字列を入力すると、これを受け付けたマップ生成部28は(S30)、キーワード関連度表26を参照し、当該文字列と同一または一定範囲内の類似性を有するキーワードを検索語として認定すると共に、当該キーワードに対して関連度の高いキーワードを関連語として所定数抽出する(S32)。
関連語として選定されるキーワードの数について特に限定はないが、ここでは関連度が上位50位までのキーワードを選定している。
図12は、その抽出結果を示すテーブル(クロス集計表)であり、行項目として文書IDが設定され、列項目として検索語及び各関連語が設定されている。また、各セル内には、各キーワードの対応文書中における出現頻度が記述されている。
例えば、文書ID:13691の文書においては、肥満:3回、脂肪:13回、糖尿病:0回、糖尿:0回、習慣:0回、…が出現したことが示されている。
以下に、座標算出の具体例を示す。
・X座標変換比=座標平面の横幅÷(第1主成分の最大値−第1主成分の最小値)
・Y座標変換比=座標平面の縦幅÷(第2主成分の最大値−第2主成分の最小値)
・キーワードAのX座標=(キーワードAの第1主成分値−第1主成分の最小値)*X座標変換比
・キーワードAのY座標=(キーワードAの第2主成分値−第2主成分の最小値)*Y座標変換比
図14に、上記の変換法則に従って算出した各キーワードの座標値を例示する。
すなわち、図15に示す通り、このタグ40は長方形状を備えており、各キーワード(検索語及び関連語)の文字列と、これを取り囲む余白部分を備えている。
また、関連語と区別するため、検索語には各関連語とは異なる文字色及び背景色が割り当てられている。
以下に、各キーワードのフォントサイズ割当方法を説明する。
・最小フォントサイズ=12ポイント
・フォントサイズ変換比=(最大フォントサイズ−最小フォントサイズ)÷(関連度の最大値−関連度の最小値)
・キーワードAのフォントサイズ={(キーワードAの関連度−関連度の最小値)*フォントサイズ変換比
※小数点以下切り捨て
この際、各タグ40の中心点が上記で求めた2次元平面上の座標点に重なるように配置される。
この結果、クライアント36のWebブラウザ上には、図16に示すように、第1の関連度マップ42が表示される。
例えば、「脂肪」というキーワードの近傍に「アディポネクチン(注:脂肪細胞から分泌されるホルモン)」、「内蔵脂肪」、「心筋梗塞」、「メタボリックシンドローム」等のタグ40が集まっているため、脂肪とこれらのキーワードとが強い関連性を備えていることが読み取れる。
このように、ユーザはキーワードが表記されたタグ40の集積具合を観察することにより、各キーワード間の類似性やカテゴリーを認識することが可能となる。
この場合では、「地球環境」のキーワードが最もフォントサイズが大きく、したがって検索語である「環境技術」との関連性が強いことを示している。また、「地球温暖化」や「ハイブリッド」なども「環境技術」と比較的強い関連性を有していることが理解できる。
そして、このメニュー44中からユーザが「Go to "燃料電池"」を選択すると、クライアント36から新たな検索語として「燃料電池」の文字列がWebサーバ32に送信される。
この結果、図18に示すように、クライアント36のWebブラウザ上に燃料電池を検索語に設定した第1の関連度マップ42が表示される。
この第1の関連度マップ42上では、検索語である「燃料電池」と関連性の強いキーワードが記述されたタグ42が配置されている。
つぎにマップ生成部28は、この文書番号リストに基づいて文書DB12を検索し、文書本文のリストを生成した後、Webサーバ32経由でクライアント36に送信する。
この結果、クライアント36のディスプレイには、燃料電池と都市ガスとが同時に出現している文書の番号、タイトル、抄録、年月日等がリスト表示される。
この結果ユーザは、当該文書データの内容を閲覧し、「燃料電池」と「都市ガス」との関連性を個別に確認することが可能となる。
この結果、燃料電池と都市ガスの両者を含むWebサイトの情報がWebブラウザ上にリストアップされることとなり、ユーザは「燃料電池」と「都市ガス」との関係性について、インターネットのWebサイトを通じて確認することが可能となる。
この結果、「都市ガス」に関するWebサイトの情報を確認することが可能となる。
そして、この情報が一定数(例えば10件以上)を超えた時点で、キーワード関連度表20におけるデータが修正され、「燃料電池」と「都市ガス」間の関連度が所定ポイント分減算され、あるいは0にリセットされる。
このような場合、ユーザの視認性を重視し、タグ同士の重複を解いて文字を認識し易いように調整することが望ましいが、各タグ間の関係性を尊重する立場からは、移動距離を最小限に抑えることが重要となる。
そこで、このシステム10では、各タグの移動距離を最小限に抑えつつ、重複関係を解消するために、以下のアルゴリズムを採用している。
以下、図21のフローチャートに従い、その手順を説明する。
また、この過程でタグ間の重複が探知された場合には(S52:Yes)、重複タグ同士の面積を比較し(S54)、最も面積の大きなタグの位置を固定する(S56)。
この際、マップ生成部28は以下のルールに拘束される。
(1) 原則として、最も移動距離が短くて済む方向を優先的に選択する。
(2) 原則として、既に固定済みのタグと重複する方向は選択できない。
(3) 何れの方向においても固定済みのタグと重複する場合には、最も重複面積が小さくて済む方向を選択する。
(4) 全体枠αを超える方向は選択できない。
(5) 戻り方向への移動は選択できない。
全てのタグについて重複回避のための調整処理が完了するまで、マップ生成部28はS54〜S60の処理を繰り返す(S62)。
この場合、まずマップ生成部28は各重複タグ間の面積を比較し(S54)、最も面積の大きな「ABC」タグ40aを現在位置に固定する(S56)。
この場合、移動距離が最も短くて済むのは上方向であり、他の固定済みのタグと重複したり、全体枠αに抵触することもないため、図23に示すように、マップ生成部28は「DEF」タグ40bを上方向に移動させる。
この場合、全体枠αとの抵触が生じるため、上記(4)のルールにより、左方向は移動先として除外される。また、上方向への移動は固定済みの「DEF」タグ40bと重複し、右方向も固定済みの「STUV」タグ40fとの重複が生じ、下方向も固定済みの「PQR」タグ40eとの重複が生じるため、上記(2)のルールからすれば選択できないこととなる。そこで、マップ生成部28は上記(3)のルールを適用し、図24に示すように、最も重複面積が小となる下方向を「GHI」タグ40cの移動先として選択する。
この場合、左方向及び下方向への移動は全体枠αとの抵触が発生し(上記(4)のルール違反)、また上方向は戻り方向となるため(上記(5)のルール違反)、図25に示すように、マップ生成部28は「GHI」タグ40cを右方向に移動させ、「PQR」タグ40eとの重複を解消する。
この場合は、下方向が最も短い移動距離で「STUV」タグ40fとの重複を回避でき、固定済みのタグと重複することも全体枠αと抵触することもないため、図26に示すように、マップ生成部28は「GHI」タグ40cを下方向に移動させる。
この場合、全体枠αとの抵触が生じるため、上記(4)のルールにより、左方向は移動先として除外される。また、上下方向及び右方向への移動は何れも固定済みのタグと重複が生じるため、マップ生成部28は上記(3)のルールに従い、図27に示すように、重複面積が最も小さくて済む下方向への移動を選択し、「ABC」タグ40aとの重複関係を解消させる。
この場合、下方向に移動すれば他の固定済みタグとの重複が発生せず、全体枠αとの抵触も生じないため、図28に示すように、マップ生成部28は「JKLMNO」タグ40dを下方向に移動させる。
これにより、タグ間の重複状態が全て解消されることとなる。
例えば、タグの配置平面を上下左右にスクロール可能とすることにより、あるいは配置画面全体をズームイン/ズームアウト可能に構成することにより、全体枠αを越えた移動を許容することもできる。
例えば、各タグの面積の5%以内の重複を許容するというように設定しておけば、タグの視認性を比較的良好に維持したまま、その移動距離を短く抑えることが可能となる。
したがって、第1の関連度マップ42上の各タグ40の配置にはキーワード相互間の関連性が反映されており、このためユーザはタグ40同士の位置関係や集積度によって、キーワード間のカテゴリを把握することも可能となる利点がある。
以下、図29のフローチャートに従い、このような関連度マップの生成手順について説明する。
「n」は関連度の順位を意味し、螺旋の中心が1、すなわち検索語に該当するため、関連語の第1位についてはn=2が代入されることとなる。
また、「e」は自然対数を意味している。
つぎにマップ生成部28は、各関連語のX値及びY値に基づいて、所定平面上における座標値を算出する(S76)。
以下に、座標算出の具体例を示す。
・X座標変換比=座標平面の横幅÷(X値の最大値−X値の最小値)
・Y座標変換比=座標平面の縦幅÷(Y値の最大値−Y値の最小値)
・キーワードAのX座標=(キーワードAのX値−X値の最小値)*X座標変換比
・キーワードAのY座標=(キーワードAのY値−Y値の最小値)*Y座標変換比
図32に、上記の変換法則に従って算出した各キーワードの座標値を例示する。
図15に示した通り、このタグ40は長方形状を備えており、各キーワードの文字列と、これを取り囲む余白部分を備えている。
また、関連語と区別するため、検索語には各関連語とは異なる文字色及び背景色が割り当てられている。
このタグ40の面積も、上記と同様、キーワードのフォントサイズ及び文字数に応じて自動的に決定される。そして、キーワードのフォントサイズは、上記と同じ要領で、検索語との関連度が大きいほど大きなフォントサイズが割り当てられている。
この際、各タグ40の中心点が上記で求めた平面上の座標点に重なるように配置される。また、検索語に対応したタグ40は、2次元平面の中心に配置される。
この結果、クライアント36のWebブラウザ上には、図33に示すように、第2の関連度マップ46が表示される。
さらに、この第2の関連度マップ46においては、2次元平面の中心に検索語のタグ40が配置され、他のタグ40はそれぞれの関連度に応じてこれを螺旋状に取り囲むように配置されているため、各タグ40の配置(検索語のタグとの距離)によって、検索語との関連度を読み取ることが可能となる。
そして、このメニュー44中からユーザが「Go to "トヨタ"」を選択すると、クライアント36から新たな検索語として「トヨタ」の文字列がWebサーバ32に送信される。
この結果、図示は省略したが、クライアント36のWebブラウザ上にトヨタを検索語に設定した第2の関連度マップ46が表示される。
つぎにマップ生成部28は、この文書番号リストに基づいて文書DB12を検索し、文書本文のリストを生成した後、Webサーバ32経由でクライアント36に送信する。
この結果、クライアント36のディスプレイには、環境技術とトヨタとが同時に出現している文書の番号、タイトル、抄録、年月日等がリスト表示される。
この結果ユーザは、当該文書データの内容を閲覧し、「環境技術」と「トヨタ」との関連性を個別に確認することが可能となる。
この結果、環境技術とトヨタの両者を含むWebサイトの情報がWebブラウザ上にリストアップされることとなり、ユーザは「環境技術」と「トヨタ」との関係性について、インターネットのWebサイトを通じて確認することが可能となる。
この結果、「トヨタ」に関するWebサイトの情報を確認することが可能となる。
そして、この情報が一定数(例えば10件以上)を超えた時点で、キーワード関連度表20におけるデータが修正され、「環境技術」と「トヨタ」間の関連度が所定ポイント分減算され、あるいは0にリセットされる。
以下に、図34のフローチャートに従い、各関連語の時間的要素を第1の関連度マップ42に反映させる方法を説明する。
つぎにマップ生成部28は、関連語単位で文書データの日付順に出現頻度を並び替え、日付の新しさに応じた重みを与える(S109)。
図35は、この一例を示すテーブルであり、「脂肪」というキーワードについて日付毎の出現頻度が記載されており、さらに各日付に重みの数値が関連付けられている。
例えば、バースト期間を「最も新しい日付を基準に過去1ヶ月間」と設定し、平均値の算出対象となる平均化対象期間を11ヶ月とすると、バースト期間以前の11ヶ月間における「脂肪」の出現頻度を合計し、これを11ヶ月に含まれる日数で除した商が上記平均値となる。
この第1の関連度マップは、Webサーバ32によってWebファイルに加工され、クライアント36に送信される(S115)。
この結果ユーザは、一目で「アディポネクチン」というキーワードがここ1ヶ月の間に急激に文書掲載頻度が増えてきた所謂「旬のキーワード」であることを認識することができる。
また、日付単位で計算する代わりに、週単位や10日単位、月単位で算出することもできる。
重みの付与方法も上記に限定されるものではなく、一週間単位、10日単位で一定数の重みが減少していくように設定することもできる。
ただし、この場合には過去において一度注目され、文書データ中における出現頻度が高まった後に注目度が低下し、所定の低迷期を経て再び出現頻度が高まりつつある関連語に関しては、最近の「プラスの重み×出現頻度」の値が過去の「マイナスの重み×出現頻度」の値によって大きく減殺され、鮮度ポイントが不当に低くなるという問題が生じる。
これに対し、上記のように所定期間よりも過去の日付については古さを問わず一様に「0」の重みを付与することとし、マイナスの重み付けを排除することにより、過去に一旦注目され最近になって再び注目されだした関連語についても正当な急進度を反映させることが可能となる。
以下に、図37のフローチャートに従い、各関連語の時間的要素を第2の関連度マップ46に反映させる方法を説明する。
までは、図29に示した第2の関連度マップ生成の際の手順であるS70〜S78と実質的に等しいため、重複の記載は省略する。
つぎにマップ生成部28は、各関連語の出現文書のメタデータを参照し、各文書の日付情報(作成日等)を取得する(S127)。
つぎにマップ生成部28は、関連語単位で文書データの日付順に出現頻度を並び替え、日付の新しさに応じた重みを与える(S128)。
つぎにマップ生成部28は、日付毎の出現頻度に対応の重みを乗じ、この積を過去1年分合算することにより、当該キーワードの鮮度ポイントを算出する(S129)。
つぎにマップ生成部28は、直近1ヶ月のバースト期間以前における、11ヶ月間の1日当たりの出現頻度の平均値を算出する(S130)。
つぎにマップ生成部28は、当該キーワードの鮮度ポイントをこの平均値で除することにより、各関連語の急進度を算出する(S131)。
つぎにマップ生成部28は、この急進度に基づいた差別化処理を特定のタグに施す(S132)。例えば、急進度が上から5位以内の関連語について、他の関連語とは異なる色彩や模様を背景に施す処理や、タグの形状を長方形から楕円形等に変形させる処理が該当する。
この第2の関連度マップは、Webサーバ32によってWebファイルに加工され、クライアント36に送信される(S134)。
あるいは、各関連語の急進度を所定範囲で複数の帯域に区切り、各帯域に対して他の帯域と異なった表示態様を割り当てることもできる。
このシステム50にはWebサーバ32が接続されており、このWebサーバ32はインターネットやイントラネット等のネットワーク34を介して複数のクライアント36と接続されている。
文書DB12には、新聞記事や学術雑誌、論文等の電子データ(テキストデータ)が予め多数蓄積されている。
つぎに集計データ生成部52は、キーワード共起頻度表20を参照し、特定キーワード及びその関連語の出現文書ID及びそれぞれの各文書中における出現頻度を取得する(S142)。
つぎに集計データ生成部52は、行項目に文書IDを設定すると共に、列項目に特定キーワード及びその関連語を設定し、各セル内に出現頻度を充填したクロス集計表を生成する(S143)。
つぎに集計データ生成部52は、この縦横に広大な領域を有し、値=0のセルが大半を占める冗長なクロス集計表を、一定の変換方式に従って圧縮する(S144)。
この変換方式を詳しく説明すると、まずクロス集計表56のカラム名に相当する肥満、脂肪等のキーワード(特定キーワード及びその関連語)は、相互間を「,」(カンマ)で区切って一列に配置させる。
また、各セルについては、0以外の値(出現頻度)が存在する場合には、その位置情報と値が「1>2」のように表現される。この中、「1」の部分はキーワードの順番を示しており、具体的には1番目に位置する「肥満」を指している。また、「2」の部分は出現頻度が「2」であることを指している。「>」は、各キーワードの順番と出現頻度とを関連付ける記号である。
値が0のセルについては、記述が省略される。
改行(文書の変わり目)は「/」で表現され、つぎの文書における値が始まることを意味する。
同じ行において複数の値が存在する場合には、相互間に「,」(カンマ)の区切り文字が配置される。
まず、冒頭の「肥満,脂肪,糖尿病,糖尿,習慣/」は、カラム名に相当するキーワードが、肥満(1番目)、脂肪(2番目)、糖尿病(3番目)、糖尿(4番目)、習慣(5番目)であることを表現している。
(1)の「1>2/」は、1番目の文書(6102)の「肥満」の頻度は「2」であり、他のキーワードの頻度は「0」であることを表現している。
(2)の「1>2,5>3/」は、2番目の文書(8594)の「肥満」の頻度は「2」であり、「習慣」の頻度は「3」、それ以外のキーワードの頻度は「0」であることを表現している。
(3)の「1>4/」は、3番目の文書(10104)の「肥満」の頻度は「4」であり、それ以外のキーワードの頻度は「0」であることを表現している。
(4)の「1>2/」は、4番目の文書(11671)の「肥満」の頻度は「2」であり、それ以外のキーワードの頻度は「0」であることを表現している。
(5)の「1>3,2>2/」は、5番目の文書(13690)の「肥満」の頻度は「3」であり、「脂肪」の頻度は「2」、それ以外のキーワードの頻度は「0」であることを表現している。
(6)の「1>3,2>13/」は、6番目の文書(13691)の「肥満」の頻度は「3」であり、「脂肪」の頻度は「13」、それ以外のキーワードの頻度は「0」であることを表現している。
(7)の「1>4/」は、7番目の文書(18026)の「肥満」の頻度は「4」であり、それ以外のキーワードの頻度は「0」であることを表現している。
(8)の「1>5/」は、8番目の文書(21642)の「肥満」の頻度は「5」であり、それ以外のキーワードの頻度は「0」であることを表現している。
(9)の「1>2/」は、9番目の文書(29478)の「肥満」の頻度は「2」であり、それ以外のキーワードの頻度は「0」であることを表現している。
もちろん、図示の便宜上、図41の例では文書の数が9に、キーワードの数も5に限定してあるが、例えそれぞれの件数が増大したとしても、基本構造は変わらず、1行のデータとして出現頻度を表現できる。しかも、頻度=0のセルは記録からは除外されているため、冗長性が有効に排除され得る。
まずマップ生成部28は、ユーザのクライアント36から検索キーワードを受け付けた後(S151)、集計データDB54から当該検索語に係る集計データを読み込み(S152)、クロス集計表を復元する(S153)。この復元後のクロス集計表では文書IDが欠落しているが、後続の処理に文書IDは必要でないため、特に問題はない。
つぎにマップ生成部28は、第1主成分値及び第2主成分値を所定平面上の座標データに変換する(S156)。
つぎにマップ生成部28は、検索語及び関連語を含むタグを生成した後(S157)、各タグを設定平面上に配置した第1の関連度マップを生成する(S158)。
この第1の関連度マップ42は、Webサーバ32を介してクライアント36に配信される(S159)。
また、上記のように予め各キーワードについて関連度が上位50位以内の関連語に係る文書毎の出現頻度データを集計データとして蓄積しているため、第1の関連度マップ42上に表示させる関連語の数を減らす必要がある場合であっても、柔軟に対応できる利点がある。
12 文書DB
14 キーワード抽出部
14a 係り受け表現抽出フィルタ
14b 区切り文字抽出フィルタ
14c 文字列頻度統計フィルタ
14d TermExtractフィルタ
14e キーワード認定フィルタ
16 キーワードDB
18 関連度算出部
20 キーワード共起頻度表
22 キーワード組合せ頻度総和表
24 キーワード頻度総和表
26 キーワード関連度表
28 マップ生成部
32 Webサーバ
34 ネットワーク
36 クライアント
40 タグ
42 第1の関連度マップ
44 吹きだしメニュー
46 第2の関連度マップ
50 第2の検索システム
52 集計データ生成部
54 集計データDB
56 クロス集計表
58 集計データ
Claims (4)
- 複数のキーワードの出現頻度を文書データ毎に集計した結果を格納しておくキーワード共起頻度記憶手段と、
各キーワードの各文書データ中における出現頻度データを用いて算出された、キーワード間の共起性に基づく関連度を格納しておくキーワード関連度記憶手段と、
検索語が入力された場合に、上記キーワード関連度記憶手段を参照し、当該検索語に対する関連度の高い順に所定数のキーワードを関連語として抽出する手段と、
上記キーワード共起頻度記憶手段を参照し、検索語を含めた各キーワードが出現する文書データのID、及び各文書データ中における各キーワードの出現頻度を取得する手段と、
各文書データが具備する時間情報を取得する手段と、
各関連語について、所定の時間間隔毎の出現頻度を算出する手段と、
各関連語について、所定の時間間隔毎に時間の新しさに応じた重みを付与する手段と、
上記出現頻度に対応の重みを乗じた値を集計することにより、各関連語の鮮度ポイントを算出する手段と、
予め設定されたバースト期間以前の所定期間内における、各関連語の出現頻度の所定の時間間隔毎の平均値を算出する手段と、
この平均値で各関連語の鮮度ポイントを除することにより、各関連語の急進度を算出する手段と、
上記検索語及び各関連語を文字列として含む複数のタグを生成する手段と、
上記急進度の高低に応じた表示態様を上記のタグの少なくとも一部に施す手段と、
各タグを所定の平面上に配置させた関連度マップを生成する手段と、
この関連度マップを出力する手段と、
を備えたことを特徴とする検索システム。 - 上記タグに表記される各キーワードに対し、検索語との関連度の高さに対応して大きなフォントサイズが割り当てられることを特徴とする請求項1に記載の検索システム。
- 上記の関連度マップを生成する手段が、
文書データ毎の各キーワードの出現頻度を変量とする多変量データに対して主成分分析を施し、各キーワードの第1主成分値及び第2主成分値を算出する処理と、
この第1主成分値及び第2主成分値に基づいて、所定平面上における各キーワードの座標値を算出する処理と、
各キーワードを表記したタグを、各キーワードの座標値に基づいて上記平面上に配置させた関連度マップを生成する処理と、
を実行することを特徴とする請求項1または2に記載の検索システム。 - 上記の関連度マップを生成する手段が、
抽出した各関連語の順位を螺旋方程式に代入し、それぞれのX値及びY値を算出する処理と、
このX値及びY値に基づいて、所定平面上における各関連語の座標値を算出する処理と、
検索語を表記したタグを上記平面の中心に配置させると共に、各関連語を表記したタグをそれぞれの座標値に基づいて同平面上に配置させた関連度マップを生成する処理と、
を実行することを特徴とする請求項1または2に記載の検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008122780A JP5139883B2 (ja) | 2008-05-08 | 2008-05-08 | 検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008122780A JP5139883B2 (ja) | 2008-05-08 | 2008-05-08 | 検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009271795A true JP2009271795A (ja) | 2009-11-19 |
JP5139883B2 JP5139883B2 (ja) | 2013-02-06 |
Family
ID=41438272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008122780A Expired - Fee Related JP5139883B2 (ja) | 2008-05-08 | 2008-05-08 | 検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5139883B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101393258B1 (ko) | 2012-01-31 | 2014-05-08 | 최현욱 | 연관 검색어 시스템 및 이를 이용한 연관 검색어 제시방법 |
WO2017026172A1 (ja) * | 2015-08-10 | 2017-02-16 | 日本電気株式会社 | 表示処理装置及び表示処理方法 |
CN108021624A (zh) * | 2017-11-21 | 2018-05-11 | 北京金堤科技有限公司 | 一种时效性动态图谱展现的方法及装置 |
US20220277138A1 (en) * | 2019-07-17 | 2022-09-01 | Nippon Telegraph And Telephone Corporation | Training data generation device, training data generation method and training data generation program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005149346A (ja) * | 2003-11-19 | 2005-06-09 | Nomura Research Institute Ltd | 文献情報分析システム及び文献情報分析プログラム |
JP2007102501A (ja) * | 2005-10-04 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 単語間関連度算出方法及び装置 |
JP2007148669A (ja) * | 2005-11-25 | 2007-06-14 | Hitachi Software Eng Co Ltd | らせん式ファイルフォルダ表示システム |
-
2008
- 2008-05-08 JP JP2008122780A patent/JP5139883B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005149346A (ja) * | 2003-11-19 | 2005-06-09 | Nomura Research Institute Ltd | 文献情報分析システム及び文献情報分析プログラム |
JP2007102501A (ja) * | 2005-10-04 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 単語間関連度算出方法及び装置 |
JP2007148669A (ja) * | 2005-11-25 | 2007-06-14 | Hitachi Software Eng Co Ltd | らせん式ファイルフォルダ表示システム |
Non-Patent Citations (2)
Title |
---|
CSNG200401705006; 砂山 渡,谷内田 正彦: '未来の流行を予測するWebからの注目キーワードの発見' 知能と情報 Vol.15,No.3, 20030615, PP.309-317., 日本知能情報ファジィ学会 * |
JPN6012058304; 砂山 渡,谷内田 正彦: '未来の流行を予測するWebからの注目キーワードの発見' 知能と情報 Vol.15,No.3, 20030615, PP.309-317., 日本知能情報ファジィ学会 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101393258B1 (ko) | 2012-01-31 | 2014-05-08 | 최현욱 | 연관 검색어 시스템 및 이를 이용한 연관 검색어 제시방법 |
WO2017026172A1 (ja) * | 2015-08-10 | 2017-02-16 | 日本電気株式会社 | 表示処理装置及び表示処理方法 |
JPWO2017026172A1 (ja) * | 2015-08-10 | 2018-05-31 | 日本電気株式会社 | 表示処理装置及び表示処理方法 |
JP6996742B2 (ja) | 2015-08-10 | 2022-01-17 | 日本電気株式会社 | 表示処理装置及び表示処理方法 |
CN108021624A (zh) * | 2017-11-21 | 2018-05-11 | 北京金堤科技有限公司 | 一种时效性动态图谱展现的方法及装置 |
CN108021624B (zh) * | 2017-11-21 | 2020-08-11 | 北京金堤科技有限公司 | 一种时效性动态图谱展现的方法及装置 |
US20220277138A1 (en) * | 2019-07-17 | 2022-09-01 | Nippon Telegraph And Telephone Corporation | Training data generation device, training data generation method and training data generation program |
Also Published As
Publication number | Publication date |
---|---|
JP5139883B2 (ja) | 2013-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7783644B1 (en) | Query-independent entity importance in books | |
US9836579B1 (en) | Hybrid query system for electronic medical records | |
JP4937812B2 (ja) | 検索システム | |
JP4746439B2 (ja) | 文書検索サーバおよび文書検索方法 | |
US8555182B2 (en) | Interface for managing search term importance relationships | |
JP3717808B2 (ja) | 情報検索システム | |
JP6116247B2 (ja) | 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法 | |
US20130232157A1 (en) | Systems and methods for processing unstructured numerical data | |
US20080021891A1 (en) | Searching a document using relevance feedback | |
US20120296918A1 (en) | Credibility Information in Returned Web Results | |
US20180081880A1 (en) | Method And Apparatus For Ranking Electronic Information By Similarity Association | |
WO2007047464A2 (en) | Method and apparatus for identifying documents relevant to a search query | |
JP2007140973A (ja) | ページリランキング装置、ページリランキングプログラム | |
JP2018538603A (ja) | 検索クエリ間におけるクエリパターンおよび関連する総統計の特定 | |
JP5193669B2 (ja) | 検索システム | |
JP2011154467A (ja) | 検索結果順位付け方法および検索結果順位付けシステム | |
JP5139883B2 (ja) | 検索システム | |
JP2009122940A (ja) | 文書関連度算出システム、文書関連度算出方法および文書関連度算出プログラム | |
JP5080544B2 (ja) | 適切な検索クエリを提示する情報処理装置、情報処理方法、および、情報処理プログラム | |
JP2008250625A (ja) | 検索システム | |
JP2009086774A (ja) | 検索サービス装置 | |
JP5368900B2 (ja) | 情報提示装置、情報提示方法およびプログラム | |
JP2009086771A (ja) | 検索サービス装置 | |
JP5149581B2 (ja) | 検索サービス装置 | |
JP5072792B2 (ja) | 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121116 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151122 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |