JP2000339317A - リンク情報とキーワードの関連度計算方法、装置、及びその方法を記憶した記録媒体 - Google Patents

リンク情報とキーワードの関連度計算方法、装置、及びその方法を記憶した記録媒体

Info

Publication number
JP2000339317A
JP2000339317A JP11144834A JP14483499A JP2000339317A JP 2000339317 A JP2000339317 A JP 2000339317A JP 11144834 A JP11144834 A JP 11144834A JP 14483499 A JP14483499 A JP 14483499A JP 2000339317 A JP2000339317 A JP 2000339317A
Authority
JP
Japan
Prior art keywords
keyword
link information
distance
calculating
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11144834A
Other languages
English (en)
Inventor
Kazuhiro Hayakawa
和宏 早川
Hiroto Inagaki
博人 稲垣
Kazuo Tanaka
一男 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11144834A priority Critical patent/JP2000339317A/ja
Publication of JP2000339317A publication Critical patent/JP2000339317A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 リンク情報と与えられたキーワードとの関連
を、リンク先の情報を収集する前に与える。 【解決手段】 少なくともひとつのリンク情報とキーワ
ードの出現頻度をあらわすリストをメモリーに入力し、
ひとつのリンク情報を選択し、該選択されたリンク情報
と、選択されたキーワードの間の距離を算出し、前記選
択されたキーワードの出現頻度を前記距離と所定数との
和で除した値を重みとして算出し、別のキーワードを選
択して上記距離と重みの算出を行い、全てのキーワード
に対する重みの合計を、前記の選択されたリンク情報と
キーワードの関連度として出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、多数の文書がリン
クによって結ばれたハイパーテキストシステムの文書を
すべて収集するシステムにおいて、与えられた語句にマ
ッチする文書から優先的に収集するためのリンク情報と
キーワードの関連度計算方法に関する。
【0002】
【従来の技術】ハイパーテキストシステムは、小さな文
書がリンク情報によって相互に参照し合うネットワーク
上の構造を持っている。このハイパーテキスト情報から
ある特定の語句にマッチする文書を探し出すためには、
全文書を索引化しておくのが最も望ましい。インターネ
ット上のWor1dWideWebのような大規模なハイパーテキス
トシステムでは、できるだけ多くの文書を収集して索引
を生成し、それを用いてキーワード検索を行うシステム
が存在している。そのようなシステムはハイパーテキス
トのリンクを辿って文書を収集するプログラムが用いら
れている。
【0003】より効率的に文書を収集するには、リンク
を順番に辿るのではなく、重要そうなリンクから先に収
集できるように、リンクの優先度を求める必要がある。
従来、優先度として用いられていた基準としては、Ly
cos社の「スパイダー」が用いている「多くリンクさ
れている情報がより重要と見なす」という基準があっ
た。この基準では、比較的よく知られている情報がより
高い優先度を持つことになる。
【0004】しかし、「探しているものが簡単に見つか
らなかったので検索する」という検索システムの使用目
的からは、むしろあまりよく知られていなくても、検索
システムの利用者が求めている情報を優先的に収集する
ことが望ましい。たとえば、頻繁に検索語として使用さ
れる語があれば、それを含む情報へのリンクを優先的に
収集することが考えられる。
【0005】しかし、従来のシステムでは入力された検
索語と連動する収集プログラムはなく、リンクが指す情
報を取得する以前にリンクの重要度を与えられた単語と
の関連性で決定する方法は存在しなかった。
【0006】
【発明が解決しようとする課題】本発明の目的は、リン
ク先の情報を収集する前に、リンクと与えられたキーワ
ードとの関連度を算出する方法、装置及び記録媒体を提
供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するため
の本発明の特徴は、リンク情報とキーワードの関連度計
算方法において、少なくともひとつのリンク情報とキー
ワードの出現頻度をあらわすリストをメモリーに入力
し、ひとつのリンク情報を選択し、該選択されたリンク
情報と、選択されたキーワードの間の距離を算出し、前
記選択されたキーワードの出現頻度を前記距離と所定数
との和で除した値を重みとして算出し、別のキーワード
を選択して上記距離と重みの算出を行い、全てのキーワ
ードに対する重みの合計を、前記の選択されたリンク情
報とキーワードの関連度として出力することにある。
【0008】リンク情報の位置及びリンク情報とキーワ
ードの間の距離は、文字の個数、単語の個数又は自立語
の個数を単位に決定される。
【0009】本発明は更に上記方法を実施するための装
置及び上記方法を実施するためのコンピュータプログラ
ムを記憶した記録媒体を提供する。
【0010】
【発明の実施の形態】図1は本発明の請求項3の方法の
内容を示したものである。
【0011】まず、二つの単語w1とw2の間の距離
を、「w1とw2の間に含まれる自立語(動詞、名詞、
形容詞など単独で意味を持つ単語)の個数」と定義す
る。たとえば「明日の天気は雨だ」という文は「明日,
の,天気,は,雨,だ」という単語から成るが、「明
日」と「雨」の距離は「天気」という自立語一つを挟ん
でいるので1となる。
【0012】つぎに、検索語の出現頻度のリストが与え
られたとき、あるリンクの優先度を、「各検索語とリン
クとの関連度の合計」とする。ここで、i番目の検索語
とリンクとの関連度を「i番目の検索語の出現頻度/
(リンク位置とi番目の検索語との距離+所定数)」と
定義する。所定数の値は例えば1とするが、0で除算す
ることがなければ所定数は0でもよい。
【0013】関連度の計算は、文書中の全単語を対象に
計算してもよいが、文書のタイトルなど相対的に他の文
よりも重要と思われる文およびリンクを含む前後いくつ
かの文、またはリンクとリンクの間を等分割した点まで
を対象とすることで計算時間を短縮することができる。
また、同一の検索語が複数回出現する場合、リンクと検
索語と距離が最短であるもののみを計算に用いることも
計算時間短縮に役立つ。
【0014】図2はリンクの優先度の計算例を示したも
のである。ここでは頻出検索語として、表のような上位
5つの語が得られたものとする。また、優先度計算の対
象としてリンクを含む一文のみを考えた。「ここではW
indows用のMIDIプレーヤをダウンロードでき
ます」という文の、「ここ」の部分にリンクが設定され
ており、このリンクの優先度を計算する。
【0015】この文には「Windows」「MID
I」「ダウンロード」の3つの頻出検索語が現れてお
り、それぞれ距離は0,1,3となっている。従って、
このリンクの優先度は28000/(0+1)+370
00/(1+1)+31000/(3+1)=5424
5となる。
【0016】図3Aは本発明の方法の一実施例を示すフ
ローチャートであり、図3Bは図3Aの重み算出処理
(18)の詳細を示すフローチャートである。
【0017】処理がスタート(10)すると、はじめ
に、リンク情報をふくむテキストをメモリーTに入力
し、キーワードをメモリーHに入力し、各キーワードの
出現頻度のハッシュ表を準備する(12)。
【0018】次に、テキストTの中の全てのリンク情報
の位置PLの開始位置の配列を求め、メモリーLに入力
する(14)。開始位置はバイト単位である。
【0019】配列Lの長さをLNに、長さLの配列をR
に、カウンタiを0に設定する(16)。
【0020】i番目のLであるL(i)と、HとTから
i番目のリンク情報の重みR(i)を算出する(1
8)。
【0021】iを1づつ歩進してi=LNとなるまで重
みR(i)の算出をくり返し(20,22)、i=LN
となったら算出された重みRを出力して(24)、終了
する(26)。
【0022】重み算出処理(18)は図3Bのように行
われる。リンク情報の出現位置はメモリーPLに、キー
ワードの出現頻度のハッシュ表はメモリーHに、テキス
トはメモリーTにあるものとする(31)。
【0023】Hの中のキーワードの配列をメモリーWに
入力し、キーワードの数(Wの長さ)をNWに入力する
(32)。メモリーRとカウンタiを0に設定する(3
3)。
【0024】テキストTの中にi番目のキーワードW
(i)が出現するか否かをチェックし(34)、YES
のときは、テキストT内でのキーワードW(i)の出現
位置のうちリンク情報PLにもっとも近いものの値をP
Wとする(35)。ここで、位置はバイト単位である。
【0025】ハッシュ表HからキーワードW(i)の出
現頻度を読み出してこれをFとする(36)。
【0026】出現頻度Fを、リンク位置PLとキーワー
ドW(i)との距離|PL−W(i)|に1を加えた値
で除し、その時の重みRを加えた値により重みRを更新
する(37)。
【0027】以上の操作を、iを歩進しながら、キーワ
ードの数だけ繰り返す(38,39)。
【0028】最後に算出された重みRを返し(40)、
終了する(41)。
【0029】ここで、リンク情報の出現位置及び重要語
の出現位置は図2のように自立語の単位で計測しても良
いが、この場合文を形態素解析した上で自立語とそうで
ないものを品詞により判別する必要がある。そこで、図
4Aのように品詞の判別を省略して単語の個数の単位で
計測するか、または図4Bのように文字数単位で計測す
ることで、計算量を減らしてもよい。
【0030】上記の図3のフローチャートは文字数単位
(バイト単位)の例である。単語数単位とするときは、
図3の14と35を図5の14b,35bのように変更
し、自立語の語数単位とするときは、図3の14と35
を図5の14c,35cのように変更すればよい。
【0031】
【発明の効果】以上説明したように、本発明の請求項1
のリンク情報とキーワードの関連度計算方法を用いれ
ば、リンクが指す情報を取得せずにリンクと重要語との
関連度を算出することができる。
【0032】請求項3の発明ではリンク情報とキーワー
ドとの間に含まれる文字の長さの影響を受けずに、リン
クが指す情報を取得せずにリンクとキーワードとの関連
度を算出することができる。
【0033】請求項4の発明ではリンク情報とキーワー
ドとの間に含まれる助詞等の非自立語の多寡の影響を受
けずに、リンクが指す情報を取得せずにリンクとキーワ
ードとの関連度を算出することができる。
【図面の簡単な説明】
【図1】本発明による優先度の計算方法を示した図であ
る。
【図2】リンクの優先度の計算例を示した図である。
【図3A】本発明により優先度を算出する動作のフロー
チャートである。
【図3B】図3Aの処理18の詳細を示すフローチャー
トである。
【図4】リンクの優先度の別の計算例を示す図である。
【図5】図3A及び図3Bの変更例を示す図である。
フロントページの続き (72)発明者 田中 一男 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 KK07 ND20 NK02 NK32 NK44 PP02 PP03 PP22 PR04 PR06 PR08 QM08 UU40

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 リンク情報とキーワードの関連度計算方
    法において、 少なくともひとつのリンク情報とキーワードの出現頻度
    をあらわすリストをメモリーに入力し、 ひとつのリンク情報を選択し、該選択されたリンク情報
    と、選択されたキーワードの間の距離を算出し、 前記選択されたキーワードの出現頻度を前記距離と所定
    数との和で除した値を重みとして算出し、 別のキーワードを選択して上記距離と重みの算出を行
    い、全てのキーワードに対する重みの合計を、前記の選
    択されたリンク情報とキーワードの関連度として出力す
    ることを特徴とする、リンク情報とキーワードの関連度
    計算方法。
  2. 【請求項2】 リンク情報の位置及びリンク情報とキー
    ワードの間の距離が文字の個数を単位に決定される請求
    項1記載のリンク情報とキーワードの関連度計算方法。
  3. 【請求項3】 リンク情報の位置及びリンク情報とキー
    ワードの間の距離が単語の個数を単位に決定される請求
    項1記載のリンク情報とキーワードの関連度計算方法。
  4. 【請求項4】 リンク情報の位置及びリンク情報とキー
    ワードの間の距離が自立語の個数を単位に決定される請
    求項1記載のリンク情報とキーワードの関連度計算方
    法。
  5. 【請求項5】 前記所定数が1である請求項1記載のリ
    ンク情報とキーワードの関連度計算方法。
  6. 【請求項6】 リンク情報とキーワードの関連度計算装
    置において、 少なくともひとつのリンク情報とキーワードの出現頻度
    をあらわすリストをメモリーに入力する手段と、 ひとつのリンク情報を選択し、該選択されたリンク情報
    と、選択されたキーワードの間の距離を算出する手段
    と、 前記選択されたキーワードの出現頻度を前記距離と所定
    数との和で除した値を重みとして算出する手段と、 別のキーワードを選択して上記距離と重みの算出を行
    い、全てのキーワードに対する重みの合計を、前記の選
    択されたリンク情報とキーワードの関連度として出力す
    る手段とを有することを特徴とする、リンク情報とキー
    ワードの関連度計算装置。
  7. 【請求項7】 リンク情報とキーワードの関連度計算方
    法を記憶した記録媒体において、 少なくともひとつのリンク情報とキーワードの出現頻度
    をあらわすリストをメモリーに入力し、 ひとつのリンク情報を選択し、該選択されたリンク情報
    と、選択されたキーワードの間の距離を算出し、 前記選択されたキーワードの出現頻度を前記距離と所定
    数との和で除した値を重みとして算出し、 別のキーワードを選択して上記距離と重みの算出を行
    い、全てのキーワードに対する重みの合計を、前記の選
    択されたリンク情報とキーワードの関連度として出力す
    ることを特徴とする、リンク情報とキーワードの関連度
    計算方法を記憶した記録媒体。
JP11144834A 1999-05-25 1999-05-25 リンク情報とキーワードの関連度計算方法、装置、及びその方法を記憶した記録媒体 Withdrawn JP2000339317A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11144834A JP2000339317A (ja) 1999-05-25 1999-05-25 リンク情報とキーワードの関連度計算方法、装置、及びその方法を記憶した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11144834A JP2000339317A (ja) 1999-05-25 1999-05-25 リンク情報とキーワードの関連度計算方法、装置、及びその方法を記憶した記録媒体

Publications (1)

Publication Number Publication Date
JP2000339317A true JP2000339317A (ja) 2000-12-08

Family

ID=15371531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11144834A Withdrawn JP2000339317A (ja) 1999-05-25 1999-05-25 リンク情報とキーワードの関連度計算方法、装置、及びその方法を記憶した記録媒体

Country Status (1)

Country Link
JP (1) JP2000339317A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039552A (ja) * 2008-07-31 2010-02-18 Nippon Telegr & Teleph Corp <Ntt> 重要度取得装置および方法、ならびに、枠情報作成装置および方法
JP2010113412A (ja) * 2008-11-04 2010-05-20 Omron Corp 文書情報加工方法、文書情報加工装置、文書情報加工プログラムおよび記録媒体
CN106326211A (zh) * 2016-08-17 2017-01-11 海信集团有限公司 交互语句的关键词间距离的确定方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039552A (ja) * 2008-07-31 2010-02-18 Nippon Telegr & Teleph Corp <Ntt> 重要度取得装置および方法、ならびに、枠情報作成装置および方法
JP2010113412A (ja) * 2008-11-04 2010-05-20 Omron Corp 文書情報加工方法、文書情報加工装置、文書情報加工プログラムおよび記録媒体
CN106326211A (zh) * 2016-08-17 2017-01-11 海信集团有限公司 交互语句的关键词间距离的确定方法和装置

Similar Documents

Publication Publication Date Title
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
EP1225517A2 (en) System and methods for computer based searching for relevant texts
KR101105173B1 (ko) 카테고리화를 통해 호스트 투 게스트 콘텐츠를 자동으로 매칭하기 위한 메커니즘
US8332208B2 (en) Information processing apparatus, information processing method, and program
US20050203900A1 (en) Associative retrieval system and associative retrieval method
JP4226862B2 (ja) 文書検索装置
US7181688B1 (en) Device and method for retrieving documents
JP3024045B2 (ja) 自然言語に基づくデータ検索装置
JP5302614B2 (ja) 施設関連情報の検索データベース形成方法および施設関連情報検索システム
JP3472032B2 (ja) 情報フィルタ装置及び情報フィルタ方法
JP2749790B2 (ja) 並列テキスト検索システム
JP5179564B2 (ja) クエリセグメント位置決定装置
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP2000339317A (ja) リンク情報とキーワードの関連度計算方法、装置、及びその方法を記憶した記録媒体
KR102017227B1 (ko) 과학문서의 핵심어구 추출방법 및 장치
CN113434789B (zh) 基于多维度文本特征的搜索排序方法及相关设备
JP3499658B2 (ja) 対話支援装置
JP2003016106A (ja) 関連度値算出装置
JP2019008476A (ja) 生成プログラム、生成装置及び生成方法
JP3836607B2 (ja) 音声認識のための統計的言語モデル作成装置
JP2010282403A (ja) 文書検索方法
JP2000105769A (ja) 文書表示方法
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
US20030009490A1 (en) Information processing apparatus, information processing method, recording medium, program, and electronic-publishing-data providing system

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060801