JP2002014999A - 類似文書検索装置及び関連キーワード抽出装置 - Google Patents

類似文書検索装置及び関連キーワード抽出装置

Info

Publication number
JP2002014999A
JP2002014999A JP2000195075A JP2000195075A JP2002014999A JP 2002014999 A JP2002014999 A JP 2002014999A JP 2000195075 A JP2000195075 A JP 2000195075A JP 2000195075 A JP2000195075 A JP 2000195075A JP 2002014999 A JP2002014999 A JP 2002014999A
Authority
JP
Japan
Prior art keywords
document
keyword
vector
keywords
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000195075A
Other languages
English (en)
Other versions
JP3573688B2 (ja
Inventor
Yuji Sugano
祐司 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000195075A priority Critical patent/JP3573688B2/ja
Priority to US09/892,700 priority patent/US6671683B2/en
Priority to EP01305637A priority patent/EP1168202A3/en
Publication of JP2002014999A publication Critical patent/JP2002014999A/ja
Application granted granted Critical
Publication of JP3573688B2 publication Critical patent/JP3573688B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Abstract

(57)【要約】 【課題】 キーワード出現度数から、文書側,キーワー
ド側で独立に重み付き主成分分析を行って特徴ベクトル
を得、高精度で頑健な類似文書検索および関連キーワー
ド抽出を実現する。 【解決手段】 キーワード出現度数103,文書長105,キ
ーワード重み107の3種のデータを作成した後、文書/
キーワード双方のプロファイルベクトル111、109を算出
し、それぞれ独立に、文書長,キーワード重みを考慮し
た重み付き主成分分析112、114を行って各文書/キーワ
ードの特徴ベクトルを求め、検索/抽出条件から算出し
た特徴ベクトルとの類似度の高い文書/キーワードを求
めて表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字コードの列と
して電子化され蓄積された、機械処理可能な文書データ
ベース(文書データの集合)から、当該文書データベー
ス中の1つまたは複数の文書データ、あるいは当該文書
データベースには無い任意の文章を「典型例」として指
定して、指定した典型例に類似する文書を当該文書デー
タベース中から検索する類似文書検索装置と、「典型
例」に関連する、当該文書データベース中のキーワード
を抽出して、検索結果の文書内容の理解を助ける目的、
あるいは検索条件として好適なキーワードのヒントとし
て当該文書データベースの利用者に提示する関連キーワ
ード抽出装置に関し、特に、高精度の文書検索やキーワ
ード抽出を可能にするものである。
【0002】
【従来の技術】近年、ワードプロセッサやパーソナルコ
ンピュータの普及、CD−ROM、DVD−ROM等の
大容量かつ低価格な記憶媒体の普及、イーサネット(登
録商標)に代表されるネットワークの発達により、文書
中のすべて、あるいは大部分の文字情報を文字コードの
列で表わして蓄積した全文データベースが実用化され、
広く利用されるようになってきた。
【0003】従来の全文データベースでは、文書を検索
する際、キーワードの論理式を検索条件として指定し、
文書中に指定したキーワードが現れるか否かを判定し、
指定した論理式を満足する文書集合を求める方式が一般
的である。
【0004】最近では、こうして得られた文書集合中の
各文書について、検索条件との関連度を、いわゆるtf
・idf法などによって求め、関連度の高い文書から順
に並べて利用者に提示する、いわゆる文書ランキングの
技術が用いられるようになってきており、より精度の高
い文書検索が可能になってきている。
【0005】しかしながら、このような従来の全文デー
タベースシステムでは、 (1)適切なキーワードが思いつかない、あるいは分か
らないために、適切な検索条件が指定できない。 (2)複雑な論理式を記述するためのスキル、あるいは
時間の余裕がない。 (3)少しでも表現の異なるキーワードを含む文書が検
索されない。 などの問題が指摘されており、近年、文書の典型例を指
定して、「これらに類似した文書を検索しなさい」とい
う型の類似文書検索システムや、指定した文書や単語集
合に関連する、関連キーワードの抽出・提示を行う、関
連キーワード抽出システムの研究開発が盛んになってい
る。
【0006】そういった類似検索を基本とする文書検索
手法の1つに、LSI法(潜在意味索引付け法)と呼ば
れる方法がある。米国特許第4839853号には、L
SI法による文書検索方法が開示されている。
【0007】ここでは、本発明との差異を明確にする目
的で、その骨子を簡潔に説明する。LSI法では、N個
の文書データを含んだ文書データベースD中の各文書に
ついて、キーワード、即ち当該文書に特徴的な語句を機
械的に抽出し、各文書中に、それぞれのキーワードが出
現する度数(回数)を記録する。今、文書データベース
Dから、合計でM種類のキーワードが抽出されたとす
る。
【0008】d番目の文書中での、(辞書順など、適当
な順序で)t番目の種類のキーワードの出現頻度f
dtを、第d行第t列の要素とする行列Fで表し、この行
列Fを、不完全特異値分解と呼ばれる行列演算によっ
て、文書側特異ベクトルを各列に持つ、N行K列の行列
Uと、特異値が対角要素に並んだ、K行K列の対角行列
Λと、キーワード側特異ベクトルを各行に持つ、K行M
列の行列Vの積に、近似的に分解する。このときKは、
NやMに比べて十分小さく、結果的に元の出現頻度行列
Fを、より階数の低い行列で近似することになる。
【0009】このような分解で得られたK個の文書側の
特異ベクトルの第d成分をK個並べたK次元ベクトルを
文書dの特徴ベクトルUdとし、K個のキーワード側の
特異ベクトルの第t成分をK個並べたK次元ベクトルを
キーワードtの特徴ベクトルVdとする。
【0010】そして、以下の3点のように類似度、関連
度を算出し、もっとも類似度/関連度の高い文書、キー
ワードを求めることにより、類似文書検索や、関連キー
ワード抽出を実現する。 (1)2つの文書a,bの類似度を、文書a,bに対応
する文書特徴ベクトルUa,Ubの内積Ua・Ubで求め
る。 (2)2つのキーワードα,βの関連度を、キーワード
α,βに対応するキーワード特徴ベクトルVα,Vβの
内積Vα・Vβで求める。 (3)任意の(外部)文書からのキーワードの抽出結果
を、M種類のキーワードの、当該外部文書中での出現度
数を並べたM次元ベクトルをEとすると、この外部文書
に対応する検索条件文書特徴ベクトルPeを、Ue=Λ-1
VEで求め、この外部文書と、文書データベース中の文
書dとの類似度を、Ud・Ueで求める。 以上が、LSI法の基本的枠組みである。
【0011】実際の文書データベースにLSI法を適用
する際には、キーワードの出現度数fdtをそのまま用い
ると、長い文書や、高頻出するキーワードのみが重視さ
れた、偏った特徴ベクトルが求まってしまい、類似検索
の精度が低下する。
【0012】そこで、fdtを、従来の文書検索システム
での文書ランキングで用いられる、LTCなどの方式に
よって変換して出現頻度の変換(標準化)を行い、正規
化した頻度を要素とする出現頻度行列Fを作成して不完
全特異値分解を実行し、特徴ベクトルを得る。
【0013】例えば、LTCによる変換では、以下の式
によって、実際の出現度数fdtと、キーワードtの出現
文書数ntから出現度数LTC(fdt)を算出し、この
値を要素とする行列を不完全特異値分解する。
【0014】
【数1】
【0015】
【発明が解決しようとする課題】しかしながら、このよ
うな従来のLSI法におけるキーワードの出現頻度の変
換には、大きな課題がある。
【0016】LSI法では、行列Fの第d行が文書dの
特徴を表し、行列Fの第t列が単語tの特徴を表すとし
て、分析を行うが、数1の変換では、各行の要素の2乗
和が1に正規化されるものの、各列の要素の2乗和は正
規化されない。従って、文書側とキーワード側とで非対
称な変換になっている。数1のような簡単な変換で、文
書側、キーワード側の両方を1に正規化することは困難
であり、この非対称性は、数1に限ったことではない。
【0017】さらに、数1のような、対数関数などの非
線形な関数による変換では、ある文書dと、dを2つ繋
げた文書d’とが表す特徴が同一にはならず、文書の類
似度が1にならない。同様に、同一の出現傾向を持ち、
同一の意味を表す2つのキーワードt1,t2を同一のキ
ーワードだとして求めた出現頻度行列が元の出現頻度行
列と食い違う。
【0018】これらの非対称性や、文書の類似度及びキ
ーワードの関連度における文書やキーワードの併合に対
する非安定性は、特に大規模な文書データベースを扱う
際には、以下のような現象を生じる。 (1)正規化されない側(多くの場合はキーワード側)
での検索/抽出時に、ノルム(Fの要素の2乗和)の大
きなものが優先的に検索/抽出される。 (2)キーワード集合で文書を検索する際に、あるキー
ワードだけが非常に強く効き、他はほとんど無視され
る。
【0019】結果的に、検索意図から大きく掛け離れた
検索結果となり、検索精度が大きく低下する、という課
題がある。
【0020】本発明は、こうした従来の課題を解決する
ものであり、文書側及びキーワード側の両方を正規化
し、高い検索精度を保持することができる類似文書検索
装置及び関連キーワード抽出装置を提供することを目的
としている。
【0021】
【課題を解決するための手段】そこで、本発明では、N
個の文書データを集めた、合計M種類のキーワードを含
む、機械処理可能な文書データベースDから、前記文書
データベースDに含まれる1つ以上の文書x1,…,xr
を検索条件として指定して、前記検索条件の文書群と類
似する前記文書データベースD中の文書を検索する装置
において、文書データベースD中の各文書dに出現する
各キーワードtの出現度数fdtを記録したキーワード出
現度数データFを算出するキーワード出現度数算定手段
と、各文書dの長さldを記録した文書長データLを算
出する文書長算定手段と、文書データベースD中に出現
する、M種類のキーワードについて、各キーワードtの
重みwtを記録したキーワード重みデータWを算出する
キーワード重み算定手段と、各文書dについて、着目文
書d中の各キーワードtの相対出現頻度pdtを成分とす
るM次元の文書プロファイルベクトルPdを算出する文
書プロファイルベクトル算定手段と、文書データベース
D中の文書群の文書プロファイルベクトル集団の主成分
分析を実施して、各文書dについて、文書プロファイル
ベクトルPdに対応する、固定(K)次元の文書特徴ベ
クトルUdを求める文書主成分分析手段と、文書データ
ベースDに含まれる1つ以上の文書x1,…,xrを検索
条件として受け取り、受け取った文書群の文書特徴ベク
トルと文書データベースD中の各文書dの文書特徴ベク
トルとを用いて、前記検索条件と各文書dとの類似度を
算定し、類似度の高い文書から、指定された文書数だけ
求めて出力する類似文書検索手段とを設けている。
【0022】また、N個の文書データを集めた、合計M
種類のキーワードを含む、機械処理可能な文書データベ
ースDから、文書データベースDに含まれる1つ以上の
キーワードy1,…,ysを検索条件として指定して、前
記検索条件と関連する文書データベースD中の文書を検
索する装置において、前記キーワード出現度数算定手段
と、前記文書長算定手段と、前記キーワード重み算定手
段と、前記文書プロファイルベクトル算定手段と、前記
文書データベースD中に出現する各キーワードtについ
て、各文書d中での着目キーワードtの相対出現頻度q
dtを成分とするN次元のキーワードプロファイルベクト
ルQtを算出するキーワードプロファイルベクトル算定
手段と、文書データベースD中の文書群の文書プロファ
イルベクトル集団の主成分分析を実施して、各文書dに
ついて、文書プロファイルベクトルPdに対応する、固
定(K)次元の文書特徴ベクトルUdを求める文書主成
分分析手段と、文書データベースD中のキーワード群の
キーワードプロファイルベクトル集団の主成分分析を実
施して、各キーワードtについて、キーワードプロファ
イルベクトルQtに対応する、前記文書特徴ベクトルと
同一次元の、固定(K)次元のキーワード特徴ベクトル
tと、各次元jのキーワード寄与度(相関行列の固有
値)θjとを求めるキーワード主成分分析手段と、キー
ワードy1,…,ysを検索条件として受け取り、受け取
ったキーワード群の前記単語重みデータと、前記キーワ
ード特徴ベクトルと、前記キーワード寄与度とから、前
記検索条件に対応する検索条件特徴ベクトルを算定する
検索条件特徴ベクトル算定手段と、算定された前記検索
条件特徴ベクトルと、各文書dの文書特徴ベクトルとを
用いて、前記検索条件と各文書dとの類似度を算定し、
類似度の高い文書から、指定された文書数だけ求めて出
力する類似文書検索手段とを設けている。
【0023】また、N個の文書データを集めた、合計M
種類のキーワードを含む、機械処理可能な文書データベ
ースDから、文書データベースDに含まれる1つ以上の
キーワードy1,…,ysを抽出条件として指定し、前記
抽出条件のキーワード群と関連性のある、文書データベ
ースD中に出現するキーワードを抽出する装置におい
て、前記キーワード出現度数算定手段と、前記文書長算
定手段と、前記キーワード重み算定手段と、各キーワー
ドtについて、各文書d中での着目キーワードtの相対
出現頻度qdtを成分とするN次元のキーワードプロファ
イルベクトルQtを算出するキーワードプロファイルベ
クトル算定手段と、文書データベースD中のキーワード
群のキーワードプロファイルベクトル集団の主成分分析
を実施して、各キーワードtについて、キーワードプロ
ファイルベクトルQtに対応する、固定(K)次元のキ
ーワード特徴ベクトルVtを求めるキーワード主成分分
析手段と、文書データベースDに含まれる1つ以上のキ
ーワードy1,…,ysを抽出条件として受け取り、これ
らの受け取ったキーワード群のキーワード特徴ベクトル
と文書データベースD中に出力する各キーワードtのキ
ーワード特徴ベクトルとを用いて、前記抽出条件と、各
キーワードtとの関連度を算定し、関連度の高いキーワ
ードから、指定されたキーワード数だけ求めて出力する
関連キーワード抽出手段とを設けている。
【0024】また、N個の文書データを集めた、合計M
種類のキーワードを含む、機械処理可能な文書データベ
ースDから、文書データベースDに含まれる1つ以上の
文書x1,…,xrを抽出条件として指定し、前記抽出条
件の文書群と関連性のある、文書データベースD中に出
現するキーワードを抽出する装置において、前記キーワ
ード出現度数算定手段と、前記文書長算定手段と、前記
キーワード重み算定手段と、前記文書プロファイルベク
トル算定手段と、前記キーワードプロファイルベクトル
算定手段と、文書データベースD中の文書群の文書プロ
ファイルベクトル集団の主成分分析を実施して、各文書
dについて、文書プロファイルベクトルPdに対応す
る、固定(K)次元の文書特徴ベクトルUdと、各次元
jの文書寄与度(相関行列の固有値)λjとを求める文
書主成分分析手段と、前記文書データベースD中のキー
ワード群のキーワードプロファイルベクトル集団の主成
分分析を実施して、文書データベースD中の各キーワー
ドtについて、キーワードプロファイルベクトルQt
対応する、前記文書特徴ベクトルと同一次元の、固定
(K)次元のキーワード特徴ベクトルVtを求めるキー
ワード主成分分析手段と、文書x1,…,xrを抽出条件
として受け取り、受け取った文書群の文書長データと、
文書特徴ベクトルと、文書寄与度とから、前記抽出条件
に対応する、抽出条件特徴ベクトルを算定する、抽出条
件特徴ベクトル算定手段と、算定された前記抽出条件特
徴ベクトルと、文書データベースD中に出現する各キー
ワードtのキーワード特徴ベクトルとを用いて、前記抽
出条件と各キーワードtとの関連度を算定し、関連度の
高いキーワードから、指定されたキーワード数だけ求め
て出力する関連キーワード抽出手段とを設けている。
【0025】この類似文書検索装置及び関連キーワード
抽出装置では、着目した文書での各キーワードの出現頻
度を文書プロファイルとしてベクトル表現し、また、着
目したキーワードの各文書での出現頻度をキーワードプ
ロファイルとしてベクトル表現し、それぞれ独立に、文
書長、キーワード重みを考慮した重み付き主成分分析を
行い、各文書/キーワードの特徴ベクトルを求めてい
る。
【0026】この場合、文書プロファイル及びキーワー
ドプロファイルでのベクトル表現は、出現頻度の変換
(標準化)には依存せず、また、出現頻度の変換に関与
する文書長、キーワード重みデータなどは、主成分分析
時の重みとして間接的に作用させているため、各文書/
キーワードの特徴ベクトルは、出現頻度の変換に依存せ
ずに正規化することができる。
【0027】そのため、高精度な類似文書検索装置及び
関連キーワード抽出装置を実現することができる。
【0028】
【発明の実施の形態】(第1の実施形態)図1は、本発
明の実施形態における類似文書検索装置及び関連キーワ
ード抽出装置をディジタル電子計算機上の動作によって
実現する類似文書検索・関連キーワード抽出システムの
全体構成を表わすブロック図である。
【0029】このシステムは、新聞記事の文書番号、見
出し及び本文を、1記事を1文書(検索の単位)として
配列した新聞記事全文データベース101と、新聞記事全
文データベース101中の各記事の本文の文字列を走査し
て、出現するキーワードを切り出すとともに、各記事に
出現したキーワードと出現度数との組を集計するキーワ
ード抽出集計手段102と、キーワード抽出集計手段102の
抽出集計結果を格納するキーワード出現度数ファイル10
3と、外部パラメータである文書長算定モードに従っ
て、各記事の文書長を、新聞記事全文データベース101
中の各記事の本文の文字列の文字数、あるいはキーワー
ド度数ファイル103中の各記事の出現キーワードの総数
(のべ数)を基に算出する文書長算定手段104と、文書
長算定手段104の算定結果を格納する文書長ファイル105
と、キーワード出現度数ファイル103を参照して、各キ
ーワードの重みを算定するキーワード重み算定手段106
と、キーワード重み算定手段106の算定結果を格納する
キーワード重みファイル107と、キーワード出現度数フ
ァイル103と文書長ファイル105とから、各キーワードの
特徴を表すキーワードプロファイルベクトルを作成する
キーワードプロファイルベクトル作成手段108と、キー
ワードプロファイルベクトル作成手段108が作成したキ
ーワードプロファイルベクトル群を格納するキーワード
プロファイルベクトルファイル109と、キーワード出現
度数ファイル103とキーワード重みファイル107とから、
各文書の特徴を表す文書プロファイルベクトルを作成す
る文書プロファイルベクトル作成手段110と、文書プロ
ファイルベクトル作成手段110が作成した文書プロファ
イルベクトル群を格納する文書プロファイルベクトルフ
ァイル111と、キーワード出現度数ファイル103と文書長
ファイル105とキーワード重みファイル107とを参照し
て、キーワードプロファイルベクトルファイル109の、
K次元(分析次元Kは予め定めた外部パラメータ)の重
み付き主成分分析を行って、K本の主軸(即ち相関行列
の固有ベクトル)と、K本の各主軸の寄与率(即ち相関
行列の固有値)を求め、各キーワードの特徴ベクトル
(即ちK本の主軸についての成分あるいは射影)を求め
るキーワード主成分分析手段112と、キーワード主成分
分析手段112の分析結果である、各キーワードの特徴ベ
クトルと各主軸の寄与率とを格納するキーワード主成分
分析結果ファイル113と、キーワード出現度数ファイル1
03と文書長ファイル105とキーワード重みファイル107と
を参照して、文書プロファイルベクトルファイル111
の、K次元の重み付き主成分分析を行って、K本の主軸
と、K本の各主軸の寄与率を求め、各文書の特徴ベクト
ルを求める文書主成分分析手段114と、文書主成分分析
手段114の分析結果である、各文書の特徴ベクトルと各
主軸の寄与率とを格納する文書主成分分析結果ファイル
115と、文書番号の列、またはキーワードの列のいずれ
かの形式で新聞記事全文データベース101に対する類似
記事検索・関連キーワード抽出条件を入力する条件入力
手段116と、条件入力手段116から文書番号の列が入力さ
れた場合には、文書主成分分析結果ファイル115の該当
する文書特徴ベクトルから入力された文書番号の列に対
する検索条件特徴ベクトルを算出し、条件入力手段116
からキーワードの列が入力された場合には、キーワード
重みファイル107とキーワード主成分分析結果ファイル1
13とからキーワードの列に対する検索条件特徴ベクトル
を算出する検索条件特徴ベクトル算定手段117と、条件
入力手段116から文書番号の列が入力された場合には、
文書長ファイル105と文書主成分分析結果ファイル115と
を用いて入力された文書番号の列に対する抽出条件特徴
ベクトルを算出し、条件入力手段116からキーワードの
列が入力された場合には、キーワード主成分分析結果フ
ァイル113の該当するキーワード特徴ベクトルから入力
されたキーワードの列に対する抽出条件特徴ベクトルを
算出する抽出条件特徴ベクトル算定手段118と、検索条
件特徴ベクトル算定手段117が算出した検索条件特長ベ
クトルと、文書主成分分析結果ファイル115中の各文書
特徴ベクトルとの内積(複数の文書が指定された場合に
は内積の最大値)を計算し、最も内積の大きいR個の文
書(取得文書数Rは予め定めた外部パラメータ)の文書
番号を決定する第1の類似文書検索手段119と、検索条
件特徴ベクトル算定手段117が算出した検索条件特長ベ
クトルと、文書主成分分析結果ファイル115中の各文書
特徴ベクトルとの距離(複数の文書が指定された場合に
は距離の最小値)を計算し、最も距離の小さいR個の文
書の文書番号を決定する第2の類似文書検索手段120
と、抽出条件特徴ベクトル算定手段118が算出した抽出
条件特長ベクトルと、キーワード主成分分析結果ファイ
ル113中の各キーワード特徴ベクトルとの内積(複数の
キーワードが指定された場合には内積の最大値)を計算
し、最も内積の大きいS個のキーワード(取得キーワー
ド数Sは予め定めた外部パラメータ)を決定する第1の
関連キーワード抽出手段121と、抽出条件特徴ベクトル
算定手段118が算出した抽出条件特長ベクトルと、キー
ワード主成分分析結果ファイル113中の各キーワード特
徴ベクトルとの距離(複数のキーワードが指定された場
合には距離の最小値)を計算し、最も距離の小さいS個
のキーワードを決定する第2の関連キーワード抽出手段
122と、検索されたR件の類似記事の文書番号、見出し
及び本文、並びに抽出されたS個の関連キーワードを、
類似度とともに、類似度の高い順に表示する結果表示手
段123とを備えている。
【0030】以上の構成を備えた類似文書検索・関連キ
ーワード抽出システムの動作について説明する。
【0031】初めに、このシステムの動作の概略を説明
する。このシステムでは、新聞記事全文データベース10
1の中から記事を検索する場合に、条件入力手段116か
ら、検索しようとする記事に類似する記事の文書番号
を、例えば(2,4,9,‥)と云うように入力する
と、それらの記事に類似する記事が検索され、また、そ
れらの記事に関連するキーワードが抽出され、結果表示
手段123に、検索された類似文書と抽出された関連キー
ワードとが表示される。また、条件入力手段116から、
キーワードの列を、例えば(IT,インターネット,
‥)と云うように入力した場合には、それらのキーワー
ドを含む記事に類似する記事が検索され、また、それら
の記事に関連するキーワードが抽出され、検索された類
似文書と抽出された関連キーワードとが結果表示手段12
3に表示される。
【0032】このシステムの動作は、全体として、以下
の(イ)、(ロ)、(ハ)の3段階に分かれ、この順に
行われる。 (イ)類似文書検索・関連キーワード抽出に先立って、
新聞記事データベース101からキーワードを切り出し、
キーワード出現度数、文書長、キーワード重みの3種の
データを作成する。 (ロ)文書、キーワードそれぞれについて、主成分分析
の対象となるプロファイルベクトルデータを作成する。
文書のプロファイルベクトルデータは、その文書中の各
キーワードの相対出現頻度を成分とするベクトルであ
り、また、キーワードのプロファイルベクトルデータ
は、文書データベースの各文書におけるそのキーワード
の相対出現頻度を成分とするベクトルである。次いで、
文書長とキーワード重みとを考慮してそれぞれのプロフ
ァイルベクトルデータの主成分分析を行い、各文書及び
キーワードの特徴ベクトル(特徴的な成分のみを持つベ
クトル)を求める。 (ハ)類似文書検索・関連キーワード抽出条件が入力さ
れると、入力の種類(文書番号かキーワードか)に応じ
て、類似文書の検索条件及び関連キーワードの抽出条件
の特徴ベクトルを、(ロ)の分析結果、文書長、及びキ
ーワード重みを使って算出し、検索条件特徴ベクトルと
各文書の文書特徴ベクトルとの類似度、また抽出条件特
徴ベクトルと各キーワードのキーワード特徴ベクトルと
の類似度、関連度をベクトル間の内積または距離から算
出して、類似する文書、関連するキーワードを指定され
た個数だけ類似度と共に表示する。
【0033】また、上記の動作の前には、予め以下のパ
ラメータを設定しておく。 ・文書長算出モード(「文字数」、または「単語数」) 着目新聞記事の文書長の基になるデータを決めるパラメ
ータで、「文字数」の場合には、着目新聞記事の文書長
を、記事本文の文字数から算出し、「単語数」の場合に
は、着目新聞記事の文書長を、記事本文から切り出した
キーワードの「のべ数」から算出する。 ・文書長しきい値(l0) 着目新聞記事の文書長を算出する際に、文書長の下限を
定める非負の整数値であるパラメータで、文字数または
キーワードのべ数が、文書長しきい値l0より小さけれ
ば、実際の文字数またはキーワードのべ数ではなく、文
書長しきい値l 0を用いて文書長を算出する。 ・文書長べき乗根数(δ) 着目新聞記事の文書長を算出する際に、文書長の基にな
るデータから文書長の値を決める非負の整数値であるパ
ラメータで、着目新聞記事の文書長を、文字数またはキ
ーワードのべ数のδ乗根として算出する。ただし、文字
数またはキーワードのべ数が文書長しきい値より小さい
場合には、文書長しきい値のδ乗根として着目新聞記事
の文書長を算出する。 ・キーワード重み算出モード(「1+log」または
「log」) 着目キーワードの重みの算出方法を定める第1のパラメ
ータで、「1+log」モードの場合には、全文書数N
を前記着目キーワードの出現する文書数nで除した値N
/nの、2を底とする対数に1を加えた、1+log2
(N/n)によって着目キーワードの重みを算出し、
「log」モードの場合には、全文書数Nに1を加えた
(N+1)を、前記着目キーワードの出現する文書数n
で除した値(N+1)/nの、2を底とする対数、lo
2((N+1)/n)によって着目キーワードの重み
を算出する。ただし、キーワード重みオフセットεが0
でない場合には、全文書数N及び出現文書数nを修正し
た値を基にキーワード重みを算出する。 ・キーワード重みオフセット(ε) 着目キーワードの重みの算出方法を定める第2のパラメ
ータで、キーワード重みを算出する際、全文書数N及び
着目キーワードの出現文書数nの双方に対し、キーワー
ド重みオフセットεを加えたN+ε、n+εを、全文書
数、及び着目キーワードの出現文書数として用いて、前
記キーワード重み算出モードに従ってキーワード重みを
算出する。 ・分析次元(K) 主成分分析を行う際の分析の次元を定める正の整数値で
あるパラメータで、相関行列データの固有値・固有ベク
トルを、最大K個求め、文書、キーワードの特徴ベクト
ルをK次元で表現することを指定する。 ・文書類似度算出モード(「内積」または「距離」) 第1の類似文書検索手段119、第2の類似文書検索手段1
20のいずれの結果を類似文書検索結果として結果表示手
段123に表示するかを定めるパラメータで、「内積」モ
ードの場合には、第1の類似文書検索手段119の検索結
果を用い、「距離」モードの場合には、第2の類似文書
検索手段120の検索結果を用いる。 ・キーワード関連度算出モード(「内積」または「距
離」) 第1の関連キーワード抽出手段121、第2の関連キーワ
ード抽出手段122のいずれの結果を関連キーワード抽出
結果として結果表示手段123に表示するかを定めるパラ
メータで、「内積」モードの場合には、第1の関連キー
ワード抽出手段121の抽出結果を用い、「距離」モード
の場合には、第2の関連キーワード抽出手段122の抽出
結果を用いる。 ・表示類似文書数(α) 類似文書検索の結果の表示件数を定めるパラメータで、
類似度の大きい順にα件の文書が表示される。 ・表示関連キーワード数(β) 関連キーワード抽出の結果の表示キーワード数を定める
パラメータで、関連度の大きい順にβ個のキーワードが
表示される。
【0034】上記のパラメータを設定したら、設定した
パラメータに従って(イ)、(ロ)の動作を順に行い、
新聞記事データベース101を分析し、類似文書検索・関
連キーワード抽出の準備が完了する。この時点で、条件
入力手段116から類似文書検索・関連キーワード抽出条
件が入力されると、(イ)、(ロ)で分析した結果を用
い、設定したパラメータに従って(ハ)の動作を行って
類似する文書、関連するキーワードを求めて結果表示手
段123に表示する。同一の新聞記事データベース101に対
して複数回の類似文書検索・関連キーワード抽出を行う
際には、(イ)、(ロ)の分析処理は1回でよく、
(ハ)の処理が必要な回数だけ繰り返されることにな
る。
【0035】以上で、システムの動作の概略の説明を終
わり、(イ)、(ロ)、(ハ)の順に、システムの動作
の詳細を説明する。
【0036】はじめに、(イ)の処理である、新聞記事
データベース101からのキーワードを切り出し、キーワ
ード出現度数、文書長、キーワード重みの3種のデータ
の作成について、図面をもとに説明する。
【0037】図2は、新聞記事全文データベース101の
内容の一部の例である。図のように、新聞記事全文デー
タベース101は電子計算機で通常編集・閲覧が可能なテ
キスト形式であり、各新聞記事を1文書、即ち検索の単
位として、合計20万個の新聞記事が文書番号の昇順に
配列されている。各新聞記事は、文書番号、見出し、本
文という3つのフィールドに分かれており、3種のフィ
ールドが、この順に、タブ文字(制御文字の一種、図中
では<TAB>と表記)で連結され、文書と次の文書は改ペ
ージ文字(やはり制御文字の一種、図中では<FF>と表
記)で連結されているものとする。文書番号は先頭の新
聞記事の文書番号を1とし、末尾(20万番目)の新聞
記事の文書番号を200000とした、連続する整数値
を表す文字列になっているものとする。
【0038】この新聞記事全文データベースは、まずキ
ーワード抽出集計手段102に入力される。
【0039】図3は、キーワード抽出集計手段102の内
部構造を表すブロック図であり、破線の内部がキーワー
ド抽出集計手段102に相当する。図において、301は単語
切り出し手段、302は単語辞書、303はキーワード選別手
段、304は不要語辞書、305はキーワード集計手段であ
る。
【0040】まず、単語切り出し手段301で、新聞記事
全文データベース101から1文書分を読み込み、キーワ
ードの候補となる単語(形態素)が切り出される。本発
明の類似文書検索装置及び関連キーワード抽出装置は、
特定の単語切り出し方法に依存するものではなく、例え
ば「松本裕治、影山太郎、永田昌明、齋藤洋典、徳永健
伸著、“岩波講座・言語の科学3・単語と辞書”、19
97年岩波書店刊」に記載されている、辞書と、接続コ
ストあるいは統計言語モデルとに基づく形態素解析によ
る単語切り出し方法や、特開平10−69493号公報
に開示されている、「極大切り出し」方式による、辞書
のみを用いた単語切り出し方法など、従来から開発され
てきた種々の方法を利用することができる。本実施例に
おいては、特開平10−69493号公報に開示されて
いる、「極大切り出し」方式により、単語辞書302を用
いて単語を切り出すものとする。単語が切り出される
と、キーワード選別手段303が、不要語辞書304を引い
て、切り出された単語が不要語、即ち「類似文書検索や
関連キーワード抽出に際して不要な単語であるか否か」
を判定し、不要語ではないと判定した単語をキーワード
として認定し、新規のキーワードについては認定順に1
からキーワード番号を付与するとともに、キーワード集
計手段305によって1文書(1新聞記事)内のキーワー
ドの出現度数を集計する。1文書の全ての文字列の処理
が終了したら、1文書分の集計結果を、キーワード出現
度数ファイル103に出力し、次の文書の処理を開始す
る。
【0041】以上のような動作によって、新聞記事全文
データベース101中の全ての文書を文書番号の順に処理
し、キーワード出現度数ファイル103が作成される。
【0042】図4は、このような処理の一例を示してい
る。図の「単語切り出し結果」の中が、左側の単語辞書
を用いて文書番号1の文書の本文フィールドから極大単
語切り出し方式による切り出し結果の例(一部)であ
り、下線を引いた単語(文字列)が辞書にある単語であ
ることを表し、四角で囲んだ文字列が、切り出し単語の
文字列を表現している。この切り出し結果のうちで、不
要語である「の」や「や」などを取り除き、出現度数を
集計すると、「文書1のキーワード集計結果」が得られ
る。
【0043】次に、文書長算定手段104が、予め設定し
た、文書長算出モード、文書長しきい値(l0)及び文
書長べき乗根数(δ)の3種のパラメータに従って、各
文書の文書長を算出する。図5は、着目文書に対して文
書長を算出する手順を示す流れ図である。図5におい
て、 ステップ501:文書長算出モードが「文字数」か「単語
数」かに応じて、それぞれステップ502及びステップ503
に分岐する。 ステップ502:文書長算出モードが「文字数」の場合
は、新聞記事全文データベース101を参照して得られ
る、着目文書の本文フィールドの文字数をlとし、 ステップ503:文書長算出モードが「単語数」の場合
は、キーワード出現度数ファイル103を参照して得られ
る、着目文書の本文フィールドから切り出されたキーワ
ードの「のべ数」をlとする。 ステップ504:ステップ502あるいはステップ503で算出
したlと文書長しきい値l0とを比較し、lがl0未満で
あれば、 ステップ505:l0を改めてlとし、 ステップ506:lのδ乗根を改めてlとおき、このlを
着目文書の文書長として文書長ファイル105に記録す
る。
【0044】このような処理によって、例えば文書長算
出モードを「文字数」に、文書長しきい値l0を200
に、文書長べき乗根数δを0.5に、それぞれ設定した
場合には、図2の文書1の文書長は、本文フィールドの
文字数が396文字なので、文書長は19.90と算出
され、図2の文書3の文書長は、文字数が302なの
で、17.38と算出されることになる。上記の処理
を、全ての文書について文書番号の順に行い、文書長フ
ァイル105を作成する。
【0045】文書長の算定処理と並行して、キーワード
重み算定手段106が、予め設定した、キーワード重み算
出モードとキーワード重みオフセット(ε)の2種のパ
ラメータに従って、各キーワードの重みを算出する。図
6は、あるキーワードtに対して、キーワード重みを算
出する手順を示す流れ図である。図6において、 ステップ601:キーワード出現度数ファイル103を参照し
て、着目キーワードtが出現する文書数rを算出し、 ステップ602:出現文書数rにキーワード重みオフセッ
トεを加えた値を改めてrとし、全文書数Nにキーワー
ド重みオフセットεを加えた値をsとする。 ステップ603:キーワード重み算出モードが「1+lo
g」か「log」かに応じて、それぞれステップ604及
びステップ605に分岐する。
【0046】ステップ604:キーワード重み算出モード
が「1+log」のときは、1+log2(s/r)の
値を計算してwとし、 ステップ605:キーワード重み算出モードが「log」
のときは、log2((s+1)/r)の値を計算して
wとし、 ステップ606:算出した値wを、着目キーワードtのキ
ーワード重みとしてキーワード重みファイル107に出力
する。
【0047】上記の処理を、全てのキーワードについ
て、キーワード番号の順に行い、キーワード重みファイ
ル107を作成する。
【0048】このような処理によって、例えばキーワー
ド重み算出モードを「1+log」に、キーワード重み
オフセットεを10に設定した場合、「IT技術」とい
うキーワードが22の新聞記事の本文に出現していたと
すると、「IT技術」のキーワード重みは13.61と
なり、「国内」というキーワードが2519の新聞記事
の本文に出現していたとすると、「国内」のキーワード
重みは7.31となる。このようにして、(イ)の処理
が完了し、キーワード出現度数ファイル103、文書長フ
ァイル105、及びキーワード重みファイル107が作成され
る。
【0049】続いて(ロ)の処理である、文書/キーワ
ードのプロファイルベクトルデータの作成と、その主成
分分析、ならびに各文書/キーワードの特徴ベクトルデ
ータの作成について、図面をもとに説明する。
【0050】図7は、文書プロファイルベクトルデータ
算出の手順を示す流れ図である。図7において、 ステップ701:プロファイルベクトルを作成すべき着目
文書番号dを1に初期化し、 ステップ702:dが全文書数Nより大きい場合には、ス
テップ703に分岐して算出処理を終了させる。dがN以
下の場合には、 ステップ704:キーワード番号tを1に、正規化因子s
を0に、それぞれ初期化し、 ステップ705:文書dのキーワードtの出現度数fdt
キーワード出現度数ファイル103から取得して正規化因
子sに足しこみ、 ステップ706:着目キーワード番号tを1増やし、 ステップ707:tが全キーワード数M以下の場合にはス
テップ705に戻って次のキーワードについての処理を行
う。
【0051】こうして、ステップ704〜ステップ707で
は、文書dに出現するキーワードの「のべ数」を求め、
これを正規化因子sとしていることになる。
【0052】このようにして、文書プロファイルベクト
ル算出モードに従って正規化因子sが求まったならば、 ステップ708:文書dの文書プロファイルベクトルを、
相対出現頻度のベクトル(8fd1/s,…,fdM/s)
で算出して、文書プロファイルベクトルファイル111に
出力し、 ステップ709:着目文書番号dを1増やし、ステップ702
に戻って次の文書についての処理を続ける。
【0053】上記の処理によって、文書プロファイルベ
クトルファイル111を作成する。例えば、図2の新聞記
事全文データベースの文書1の文書プロファイルベクト
ルは、正規化因子sの値の計算値が92となったとする
と、図4の単語辞書のキーワード番号を用いて、(2/
92,0,1/92,1/92,1/92,0,0,1
/92,……)のように算出されることになる。ここ
で、上記の文書プロファイルベクトルの第1成分はキー
ワード番号1の「あいさつ」に、第2成分はキーワード
番号2の「IT」に、第3成分はキーワード番号3の
「IT技術」に、それぞれ対応している。
【0054】文書プロファイルベクトルファイル111の
作成と並行して、キーワードプロファイルベクトルファ
イル109の作成を行う。図8は、キーワードプロファイ
ルベクトルデータ算出の手順を示す流れ図である。図8
において、 ステップ801:プロファイルベクトルを作成すべき、着
目キーワード番号tを1に初期化し、 ステップ802:tが全キーワード数Mより大きい場合に
は、ステップ803に分岐して算出処理を終了させる。t
がM以下の場合には、 ステップ804:文書番号dを1に、正規化因子sを0
に、それぞれ初期化し、 ステップ805:キーワードtの文書d中での出現度数f
dtをキーワード出現度数ファイル103から取得して正規
化因子sに足し込み、 ステップ806:着目文書番号dを1増やし、 ステップ807:dが全文書数N以下の場合にはステップ8
05に戻って次の文書についての処理を行う。
【0055】こうして、ステップ804〜ステップ807で
は、キーワードtの出現する文書の「のべ数」を求め、
これを正規化因子sとしていることになる。
【0056】このようにして、キーワードプロファイル
ベクトル算出モードに従って正規化因子sが求まったな
らば、 ステップ808:キーワードtのキーワードプロファイル
ベクトルを、相対出現頻度のベクトル(f1t/s,…,
Nt/s)で算出して、キーワードプロファイルベクト
ルファイル109に出力し、 ステップ809:着目キーワード番号tを1増やし、ステ
ップ802に戻って次のキーワードについての処理を続け
る。
【0057】上記の処理によって、キーワードプロファ
イルベクトルファイル109を作成する。
【0058】例えば、図2の新聞記事全文データベース
のキーワード番号1の「あいさつ」のキーワードプロフ
ァイルベクトルは、正規化因子sの値の計算値が283
となったとすると、(1/283,0,0,0,0,
0,1/283,……)のように算出されることにな
る。ここで、上記のキーワードプロファイルベクトルの
第1成分は文書番号1の新聞記事中での「あいさつ」の
相対出現頻度に、第2成分は文書番号2の新聞記事中で
の「あいさつ」の相対出現頻度に、それぞれ対応する。
【0059】このように、「あいさつ」というキーワー
ドの文書1での出現頻度の値が、文書側とキーワード側
とで、異なる値に変換されてベクトルに組み込まれてい
ることから、従来のLSI法でのキーワード出現度数デ
ータの変換方法とは異なり、主成分分析などの統計分析
を施す前の文書、単語のベクトル表現が、本質的に異な
るものになっていることが分かる。
【0060】さらに、文書プロファイルベクトル、キー
ワードプロファイルベクトルのいずれも、文書長やキー
ワード重みには依存せずに定まっていることが分かる。
【0061】文書、キーワードのそれぞれについてプロ
ファイルベクトルファイルが作成できたら、次に、文書
長とキーワード重みとを考慮してそれぞれのプロファイ
ルベクトルデータの主成分分析を文書主成分分析手段11
4、キーワード主成分分析手段112において行い、各文
書、キーワードの特徴ベクトル(K次元、「分析次元」
パラメータとして予め定める)と、各次元の寄与度とを
求める。
【0062】文書データの主成分分析にあたっては、 (1)新聞記事全文データベース101中の2つの文書
a,bの文書プロファイルベクトルPa,Pb間の内積
を、 ・キーワード重みファイル107中に格納されている各キ
ーワードtの重みwt ・文書プロファイルベクトルPa,Pbの成分pat,pbt
のばらつき度合い(即ち、標準偏差の評価値)である、
キーワードtの新聞記事全文データベース101中での全
出現度数htの、全キーワードの総出現度数fに対する
割合ht/fの平方根の2つの因子を考慮した、成分の
重みつき積和 Σwt*f/ht*pat*pbt [数2] (Σはt=1からMまで加算)で算出する。 (2)文書長ldの文書dの文書プロファイルベクトル
が、文書dに出現する全キーワード数gdを文書dの文
書長ldで除した、gd/ldに比例した個数だけ、主成
分分析対象となる文書プロファイルベクトル集団に含ま
れていると見なして、主成分分析を実行する。の2点を
基本方針として分析処理を行う。
【0063】上記2点の意味するところは以下のとおり
である。まず、上記の(1)は、M次元の文書プロファ
イルベクトルの空間のM本の座標軸(各キーワードに対
応する)の「目盛り」がそれぞれ異なっている「ゆがん
だ空間」であって、かつ各キーワードtに関する座標軸
が1本ではなく、キーワードの重みwtに比例した本数
分ある、と見なして内積を求めることに相当する。即
ち、出現頻度に応じた各成分(=各キーワード)のばら
つきが一定になるように、双方の文書プロファイルベク
トルの成分を(ht/f)1/2で除して掛け合わせ、さら
にこの積がwt個あるとして、キーワード重みを文書プ
ロファイルベクトル間の内積に直接的に反映させる。
【0064】また、上記の(2)は、各文書の重要度
を、gd/ld、即ち単位文書長当たりに出現するキーワ
ードの「のべ数」、つまりキーワードの出現密度とし
て、N個の文書プロファイルベクトルの主成分分析の際
に、各文書dのプロファイルベクトルが、この重要度に
応じた本数だけ含まれているとして統計分析処理を行う
ことで、重要度の大きな文書を重視した分析がなされ、
分析結果である特徴ベクトルに、間接的に各文書の重要
度を反映させる。
【0065】なお、文書プロファイルベクトルPa,Pb
の成分pat,pbtのばらつき度合い、即ち標準偏差の評
価値である「ht/fの平方根」という式は、各キーワ
ードtの文書d中の出現確率を、平均及び分散が(gd
*ht)/fのポアソン分布で近似することによって導
出することができる。ただし、gdは文書d中に出現す
るキーワードの「のべ数」であり、fは新聞記事全文デ
ータベース中に出現するキーワードの「のべ数」であ
る。
【0066】図9は、このような考え方をもとにして、
文書主成分分析手段114において、主成分分析を実行す
る手順を示した流れ図である。図9において、 ステップ901:まず、上記(1)の「ゆがんだ空間」を
通常の空間、即ち、ベクトルの内積が成分の積和で求ま
るような空間に変形するような座標変換を、各文書プロ
ファイルベクトルPdに施し、 Xd=f1/2*W1/2*H-1/2*Pd [数3] によって、変換後の文書プロファイルベクトルXdを計
算する。ただし、f1/2は新聞記事全文データベース中
に出現するキーワードの「のべ数」fの平方根,W 1/2
はキーワードtのキーワード重みwtの平方根wt 1/2
t行t列の要素とするM行M列の対角行列、H-1/2はキ
ーワードtの新聞記事全文データベース中での全出現度
数htの平方根の逆数ht -1/2をt行t列の要素とするM
行M列の対角行列である。この変換を施すことにより、
変換後の文書プロファイルベクトルXdの内積が成分の
積和で求まることは容易に確かめることができる。
【0067】ステップ902:次いで、数3のXdを第d列
に持つM行N列の行列Xと、その転置行列X’から、 A=X*(G*L-1)*X’ [数4] という、重み付きの文書相関行列データAを計算する。
ただし、Gは、文書d中に出現するキーワードの「のべ
数」gdをd行d列に持つN行N列の対角行列、L
-1は、文書dの文書長ldの逆数ld -1をd行d列に持つ
N行N列の対角行列である。
【0068】ステップ903:続いて、この行列Aを数値
的に固有値分解し、大きい方から順にK個の固有値
λ1,λ2,…,λK及び、固有値に対応する正規化され
た(即ちノルムが1の)K本の固有ベクトルT1,T2
…TKを求める。
【0069】ステップ904:最後に、各文書dの特徴ベ
クトルUdを、変換された文書プロファイルベクトルXd
の、ステップ903で求めたK本の固有ベクトルへの射影
を成分とするK次元ベクトル Ud=(T1・Xd ,T2・Xd ,… ,TK・Xd) [数5] として求めて、K個の固有値λ1,λ2,…,λKを「寄
与度」として、N本のK次元ベクトルUdを各文書の
「特徴ベクトル」として文書主成分分析結果ファイル11
5に格納する。
【0070】キーワードの主成分分析にあたっては、 (1)新聞記事全文データベース101中に現れる2つの
キーワードa,bのキーワードプロファイルベクトルQ
a,Qb間の内積を、 ・文書長ファイル105中に格納されている各文書dの文
書長ld ・キーワードプロファイルベクトルQa,Qbの成分
ad,qbdのばらつき度合い(即ち標準偏差の評価値)
である、文書dに出現する、のべキーワード数gdの、
全キーワードの総出現度数fに対する割合gd/fの平
方根の2つの因子を考慮した、成分の重みつき積和 Σf/(ld*gd)*qad*qbd [数6] で算出する。 (2)キーワード重みwtのキーワードtのキーワード
プロファイルベクトルが、キーワードtの総出現度数h
tにキーワードtの重wtを乗じた、ht*wtに比例した
個数だけ、主成分分析対象となるキーワードプロファイ
ルベクトル集団に含まれていると見なして、主成分分析
を実行する。の2点を基本方針として分析処理を実行す
る。
【0071】上記2点の意味するところは以下のとおり
である。まず、上記の(1)は、N次元のキーワードプ
ロファイルベクトルの空間のN本の座標軸(各文書に対
応する)の「目盛り」がそれぞれ異なっている「ゆがん
だ空間」であって、かつ各文書dに関する座標軸が1本
ではなく、文書長ldの逆数に比例した本数分ある、と
見なして内積を求めることに相当する。即ち、出現頻度
に応じた各成分(=各文書中での相対出現頻度)のばら
つきが一定になるように、双方のキーワードプロファイ
ルベクトルの成分を(gd/f)1/2で除して掛け合わ
せ、さらにこの積がld -1個あるとして、文書長をキー
ワードプロファイルベクトル間の内積に直接的に反映さ
せる。
【0072】また、上記の(2)は、各キーワードの重
要度を、ht*wtとして、M個のキーワードプロファイ
ルベクトルの主成分分析の際に、各キーワードtのプロ
ファイルベクトルが、この重要度に応じた本数だけ含ま
れているとして統計分析処理を行うことで、重要度の大
きなキーワードを重視した分析がなされ、分析結果であ
る特徴ベクトルに、間接的に各キーワードの重要度を反
映させる。
【0073】なお、キーワードプロファイルベクトルQ
a,Qbの成分qad,qbdのばらつき度合い、即ち標準偏
差の評価値である「gd/fの平方根」という式は、各
キーワードtの文書d中での出現確率を、平均及び分散
が(gd*ht)/fのポアソン分布で近似することによ
って導出することができる。ただし、gdは文書d中に
出現するキーワードの「のべ数」であり、fは新聞記事
全文データベース中に出現するキーワードの「のべ数」
である。
【0074】なお、このキーワード側の分析処理は、従
来のLSI法の場合とは異なり、文書側の分析処理に影
響を与えることなく行うことが可能になっている。
【0075】図10は、このような考え方をもとにし
て、キーワード主成分分析手段112において、主成分分
析を実行する手順を示した流れ図である。図10におい
て、 ステップ1001:まず、上記(1)の「ゆがんだ空間」を
通常の空間、即ち、ベクトルの内積が成分の積和で求ま
るような空間に変形するような座標変換を、各キーワー
ドプロファイルベクトルQtに施し、 Yt=f1/2*L-1/2*G-1/2*Qd [数7] によって、変換後のキーワードプロファイルベクトルY
tを計算する。ただし、f1/2は新聞記事全文データベー
ス中に出現するキーワードの「のべ数」fの平方根、L
-1/2は文書dの文書長ldの平方根の逆数ld -1/2をd行
d列の要素とするN行N列の対角行列,G-1/2は文書d
に出現するキーワードの「のべ数」gdの平方根の逆数
d -1/2をd行d列の要素とするN行N列の対角行列で
ある。この変換を施すことにより、変換後のキーワード
プロファイルベクトルYtの内積が成分の積和で求まる
ことは容易に確かめることができる。
【0076】ステップ1002:次に、数7のYtを第d列
に持つM行N列の行列Yと、その転置行列Y’から、 B=Y*(H*W)*Y’ [数8] という、重み付きのキーワード相関行列データBを計算
する。ただし、Hは、キーワードtの総出現度数ht
t行t列に持つM行M列の対角行列、Wは、キーワード
tの重みwtをt行t列に持つM行M列の対角行列であ
る。
【0077】ステップ1003:続いて、この行列Bを数値
的に固有値分解し、大きい方から順にK個の固有値
θ1,θ2,…,θK及び、固有値に対応する正規化され
た(即ち、ノルムが1の)K本の固有ベクトルZ1
2,…ZKを求める。
【0078】ステップ1004:最後に、各キーワードtの
特徴ベクトルVtを、変換されたキーワードプロファイ
ルベクトルYtの、ステップ1003で求めたK本の固有ベ
クトルへの射影を成分とするK次元ベクトル Vt=(Z1・Yt ,Z2・Yt ,… ,ZK・Yt) [数9] として求めて、K個の固有値θ1,θ2,…,θKを「寄
与度」として、M本のK次元ベクトルVtを各キーワー
ドの「特徴ベクトル」として、キーワード主成分分析結
果ファイル113に格納する。
【0079】以上のようにして、(ロ)の処理が完了
し、キーワードプロファイルベクトルファイル109、文
書プロファイルベクトルファイル111を経由して、キー
ワード主成分分析結果ファイル113及び文書主成分分析
結果ファイル115が作成され、検索/抽出条件を受け付
ける準備が整ったことになる。
【0080】この時点で、類似文書検索・関連キーワー
ド抽出条件が文書番号の列、またはキーワードの列のい
ずれかの形式で条件入力手段116に入力されると、
(ハ)の類似文書検索・関連キーワード抽出処理が行わ
れる。
【0081】このうち、まず類似文書検索処理につい
て、図面をもとに説明する。図11は、検索条件特徴ベ
クトル算定手段117における検索条件特徴ベクトル算出
の手順を示す流れ図である。図11において、 ステップ1101:条件入力手段116からの入力文字列が文
書番号の列か否かを判定し、入力が文書番号の列である
と判定した場合には、ステップ1102に分岐し、そうでな
い場合には、入力はキーワードの列であると見なしてス
テップ1103に分岐する。具体的には、「0」から「9」
までの数字列が1個以上、カンマ「,」で結合された文
字列の場合には、入力文字列は文書番号の列であると判
定することにする。
【0082】ステップ1102:入力文字列が文書番号の列
のときは、文書主成分分析結果ファイル115を参照し
て、入力された文書番号の列に含まれる文書dの特徴ベ
クトルUdを取得し、その平均ベクトルR(各文書特徴
ベクトルの和に、文書数rの逆数を乗じたベクトル)を
算出する。
【0083】ステップ1103:入力文字列がキーワードの
列のときは、入力されたキーワードの列に含まれるr個
のキーワードのキーワード番号に相当する成分のみが1
/rであるようなM次元のベクトルEを作成し、 ステップ1104:キーワード主成分分析結果ファイル11
3、及びキーワード重みファイル107を参照して R=Θ-1*V*W*E [数10] によって、K次元のベクトルRを算出する。ただし、Θ
-1はキーワード特徴ベクトルの各次元の寄与度θjの逆
数θj -1をj行j列に持つK行K列の対角行列、Vは、
キーワード番号tのキーワード特徴ベクトルVtを第t
列に持つK行M列のキーワード特徴行列、Wは各キーワ
ードの重みwtをt行t列に持つM行M列の対角行列で
ある。
【0084】ステップ1105:ステップ1102、あるいはス
テップ1103〜1104で作成したK次元ベクトルRを検索条
件特徴ベクトルとして、第1、第2の類似文書検索手段
119、120に出力する。
【0085】なお、ステップ1104においてベクトルRを
求める際には、0でないEの成分に対応するキーワード
重みwt、及びキーワード特徴ベクトルVtのみを、それ
ぞれキーワード重みファイル107及びキーワード主成分
分析結果ファイル113から取得すればよく、入力キーワ
ード数rが数十個以下の場合には、ベクトルRの計算は
高速に実行することができる。
【0086】このようにして、検索条件特徴ベクトル算
定手段117において検索条件特徴ベクトルRが求まる
と、第1の類似文書検索手段119では、文書主成分分析
結果ファイル115に格納されている文書特徴ベクトルUd
とRとの内積の値が最も大きいα個(αは予め「表示類
似文書数」パラメータとして設定しておく)の文書が計
算され、α個の組(文書番号、Rとの内積)が結果表示
手段123に送られる。
【0087】同時に、第2の類似文書検索手段120で
は、文書主成分分析結果ファイル115に格納されている
文書特徴ベクトルUdとRとの距離の値が最も小さいα
個の文書が計算され、α個の組(文書番号、Rとの距
離)が結果表示手段123に送られる。
【0088】ここで、ベクトルRに対して、内積が最も
大きい、あるいは距離が最も小さいベクトルを、多数の
ベクトル中から効率よく求める方法については、例えば
特願平11−363058号「ベクトル索引作成方法と
類似ベクトル検索方法」に開示されており、この方法、
あるいはその他、従来から知られているベクトル検索方
法を援用することで、効率よくα個の類似文書を求める
ことができる。そのような類似ベクトルの高速検索方法
の詳細は、本発明の骨子に影響を与えるものではないた
め、詳細な説明は省略する。
【0089】次に、関連キーワード抽出処理について、
図面をもとに説明する。図12は、抽出条件特徴ベクト
ル算定手段118における抽出条件特徴ベクトル算出の手
順を示す流れ図である。図12において、 ステップ1201:条件入力手段116からの入力文字列が文
書番号の列か否かを判定し、入力がキーワードの列であ
ると判定した場合には、ステップ1202に分岐し、そうで
ない場合には、入力は文書番号の列であると見なしてス
テップ1203に分岐する。具体的には、「0」から「9」
までの数字列が1個以上、カンマ「,」で結合された文
字列の場合には、入力文字列は文書番号の列であると判
定し、それ以外の場合には入力文字列はキーワードの列
であると判定することにする。
【0090】ステップ1202:入力文字列がキーワードの
列であるときは、キーワード主成分分析結果ファイル11
3を参照して、入力されたキーワードの列に含まれるキ
ーワードtの特徴ベクトルVtを取得し、その平均ベク
トルR(各キーワード特徴ベクトルの和に、キーワード
数rの逆数を乗じたベクトル)を算出する。
【0091】ステップ1203:入力文字列が文書番号の列
であるときは、入力された文書番号の列に含まれるr個
の文書の文書番号に相当する成分のみが1/rであるよ
うな、N次元のベクトルEを作成し、 ステップ1204:文書主成分分析結果ファイル115、及び
文書長ファイル105を参照して R=Λ-1*U*L-1*E [数11] によって、K次元のベクトルRを算出する。ただし、Λ
-1は文書特徴ベクトルの各次元の寄与度λjの逆数λj -1
をj行j列に持つK行K列の対角行列、Uは、文書番号
dの文書特徴ベクトルUdを第d列に持つK行N列の文
書特徴行列、L-1は各文書dの文書長ldをd行d列に
持つN行N列の対角行列である。
【0092】ステップ1205:ステップ1202、あるいはス
テップ1203〜1204で作成したK次元ベクトルRを抽出条
件特徴ベクトルとして、第1、第2の関連キーワード抽
出手段121、122に出力する。
【0093】なお、ステップ1204においてベクトルRを
求める際には、0でないEの成分に対応する文書長
d、及び文書特徴ベクトルUdのみを、それぞれ文書長
ファイル105及び文書主成分分析結果ファイル115から取
得すればよく、入力文書番号の個数rが数十個以下の場
合には、ベクトルRの計算は高速に実行することができ
る。
【0094】このようにして、抽出条件特徴ベクトル算
定手段118において抽出条件特徴ベクトルRが求まる
と、第1の関連キーワード抽出手段121では、キーワー
ド主成分分析結果ファイル113に格納されているキーワ
ード特徴ベクトルVtとRとの内積の値が最も大きいβ
個(βは予め「表示関連キーワード数」パラメータとし
て設定しておく)のキーワードが計算され、β個の組
(キーワード文字列、Rとの内積)が結果表示手段123
に送られる。
【0095】同時に、第2の関連キーワード抽出手段12
2では、キーワード主成分分析結果ファイル113に格納さ
れているキーワード特徴ベクトルVtとRとの距離の値
が最も小さいβ個のキーワードが計算され、β個の組
(キーワード文字列、Rとの距離)が結果表示手段123
に送られる。
【0096】ここで、ベクトルRに対して、内積が最も
大きい、あるいは距離が最も小さいベクトルを、多数の
ベクトル中から効率よく求める方法については、例えば
特願平11−363058号「ベクトル索引作成方法と
類似ベクトル検索方法」に開示されており、この方法、
あるいはその他、従来から知られているベクトル検索方
法を援用することで、効率よくβ個の関連キーワードを
求めることができる。そのような類似ベクトルの高速検
索方法の詳細は、本発明の骨子に影響を与えるものでは
ないため、詳細な説明は省略する。
【0097】このようにして、2種類のα個の類似文書
とβ個の関連キーワードとが求まったら、結果表示手段
123において、文書類似度算出モード(「内積」または
「距離」)及びキーワード関連度算出モード(「内積」
または「距離」)の、2種のパラメータの設定値に応じ
て、内積、または距離による結果を選択し、β個のキー
ワードのキーワード文字列とその類似度の数値とを関連
キーワード抽出結果として表示するとともに、α個の文
書の文書番号から、新聞記事全文データベース101を参
照して見出しを求め、α個の文書それぞれについて、
「文書番号」、「見出し」、「類似度」の3項目を類似
文書検索結果として表示する。
【0098】このようにして(ハ)の処理が完了し、あ
る入力に対する類似文書検索/関連キーワード抽出処理
が終了する。
【0099】以上で、図1に示す類似文書検索・関連キ
ーワード抽出システムの動作の説明を終わる。
【0100】このように、本発明の実施形態における類
似文書検索装置及び関連キーワード抽出装置では、着目
した文書での各キーワードの出現頻度を文書プロファイ
ルとしてベクトル表現し、また、着目したキーワードの
各文書での出現頻度をキーワードプロファイルとしてベ
クトル表現し、文書長データ、キーワード重みデータ及
び成分のばらつき(標準偏差)は、前記ベクトル表現の
間の内積(類似度の1つの尺度)計算時の重み(成分の
個数)、及び主成分分析時の重み(ベクトルの個数)と
して各プロファイルに別々に作用させている。
【0101】この場合、文書プロファイル及びキーワー
ドプロファイルでのベクトル表現は、出現頻度の変換
(標準化)には依存しない。また、出現頻度の変換に関
与する文書長データ、キーワード重みデータ及び成分の
ばらつきは、前記ベクトルの間の内積計算時の重み、及
び主成分分析時の重みとして間接的に作用させているた
め、各文書及びキーワードの特徴ベクトルは、出現頻度
の変換に依存せずに正規化することができる。
【0102】そのため、本発明では、キーワードの出現
頻度データFを直接変換した単一の行列データを統計分
析する従来のLSI法による装置での基本的な課題、即
ち、キーワードの出現頻度の変換に伴って生じていた非
対称性や、文書の類似度や、キーワードの関連度が、文
書/キーワードの併合によって食い違う非安定性などの
課題を解決することができ、高精度な類似文書検索装置
及び関連キーワード抽出装置を実現することができる。
【0103】なお、本実施の形態においては、単語の切
り出し、キーワードの抽出、文書長の算出、及びキーワ
ード重みの算出を、特定の方法によって行っているが、
本発明の骨子は、これらの特定の方法に依存するもので
はなく、文書データベースの種類や検索・抽出条件、検
索・抽出意図などに応じて、種々の方法を用いることが
でき、その場合でも、従来のLSI法の場合とは異なっ
て、主成分分析結果、ひいては類似文書検索結果や関連
キーワード抽出結果に強い悪影響を及ぼすことがなく、
いわゆる「穏やかな効き目」となって分析結果、検索/
抽出結果に反映される。
【0104】結果として、副作用を気にすることなく、
文書データベースの種類や検索・抽出条件、検索・抽出
意図などに応じた、単語の切り出し、キーワードの抽
出、文書長の算出、キーワード重みの算出の方法を設定
することができ、頑健なシステムの構築が可能となる。
【0105】さらに、本実施の形態においては、内積、
及び距離の両方の類似度に基づいて、類似文書の検索と
関連キーワードの抽出との両方の処理を行うシステムに
ついて説明したが、このうちの一部の機能が不要な場合
には、不要な手段やファイルを省いた、図1のサブセッ
トに当たるシステムを構築できることは言うまでもな
い。
【0106】
【発明の効果】以上の説明から明らかなように、本発明
の類似文書検索装置及び関連キーワード抽出装置は、従
来技術の課題を克服し、高精度な類似文書の検索及び関
連キーワードの抽出を実現することができる。
【0107】特に、大規模な文書データベースを対象と
する場合には、副作用を気にすることなく、文書データ
ベースの種類や検索・抽出条件、検索・抽出意図などに
応じた、単語の切り出し、キーワードの抽出、文書長の
算出、キーワード重みの算出の方法を設定することがで
き、頑健で高精度なシステムの構築が可能となる。
【図面の簡単な説明】
【図1】第1の実施形態における類似文書検索・関連キ
ーワード抽出システムの全体構成を表わすブロック図、
【図2】新聞記事全文データベースの内容の例、
【図3】キーワード抽出集計手段の内部構造を表わすブ
ロック図、
【図4】キーワード抽出集計処理の一例を示す概念図、
【図5】文書長データの作成手順を記述した流れ図、
【図6】キーワード重みデータの作成手順を記述した流
れ図、
【図7】文書プロファイルベクトルデータの作成手順を
記述した流れ図、
【図8】キーワードプロファイルベクトルデータの作成
手順を記述した流れ図、
【図9】文書プロファイルベクトルデータの主成分分析
の手順を記述した流れ図、
【図10】キーワードプロファイルベクトルデータの主
成分分析の手順を記述した流れ図、
【図11】検索条件特徴ベクトル算出の手順を示した流
れ図、
【図12】抽出条件特徴ベクトル算出の手順を示した流
れ図である。
【符号の説明】
101 新聞記事全文データベース 102 キーワード抽出集計手段 103 キーワード出現度数ファイル 104 文書長算定手段 105 文書長ファイル 106 キーワード重み算定手段 107 キーワード重みファイル 108 キーワードプロファイルベクトル作成手段 109 キーワードプロファイルベクトルファイル 110 文書プロファイルベクトル作成手段 111 文書プロファイルベクトルファイル 112 キーワード主成分分析手段 113 キーワード主成分分析結果ファイル 114 文書主成分分析手段 115 文書主成分分析結果ファイル 116 条件入力手段 117 検索条件特徴ベクトル算定手段 118 抽出条件特徴ベクトル算定手段 119 第1の類似文書検索手段 120 第2の類似文書検索手段 121 第1の関連キーワード抽出手段 122 第2の関連キーワード抽出手段 123 結果表示手段 301 単語切り出し手段 302 単語辞書 303 キーワード選別手段 304 不要語辞書 305 キーワード集計手段

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 N個の文書データを集めた、合計M種類
    のキーワードを含む、機械処理可能な文書データベース
    Dから、前記文書データベースDに含まれる1つ以上の
    文書x1,…,xrを検索条件として指定して、前記検索
    条件の文書群と類似する前記文書データベースD中の文
    書を検索する装置であって、 前記文書データベースD中の各文書dに出現する各キー
    ワードtの出現度数f dtを記録したキーワード出現度数
    データFを算出するキーワード出現度数算定手段と、 前記各文書dの長さldを記録した文書長データLを算
    出する文書長算定手段と、 前記文書データベースD中に出現する、M種類のキーワ
    ードについて、各キーワードtの重みwtを記録したキ
    ーワード重みデータWを算出するキーワード重み算定手
    段と、 前記各文書dについて、着目文書d中の各キーワードt
    の相対出現頻度pdtを成分とするM次元の文書プロファ
    イルベクトルPdを算出する文書プロファイルベクトル
    算定手段と、 前記文書データベースD中の文書群の文書プロファイル
    ベクトル集団の主成分分析を実施して、前記各文書dに
    ついて、前記文書プロファイルベクトルPdに対応す
    る、固定(K)次元の文書特徴ベクトルUdを求める文
    書主成分分析手段と、 前記文書データベースDに含まれる1つ以上の文書
    1,…,xrを検索条件として受け取り、受け取った文
    書群の文書特徴ベクトルと前記文書データベースD中の
    各文書dの文書特徴ベクトルとを用いて、前記検索条件
    と各文書dとの類似度を算定し、類似度の高い文書か
    ら、指定された文書数だけ求めて出力する類似文書検索
    手段とを備えることを特徴とする類似文書検索装置。
  2. 【請求項2】 前記類似文書検索手段は、前記文書群の
    文書特徴ベクトルと、前記各文書dの文書特徴ベクトル
    との内積の値から、前記検索条件と各文書dとの類似度
    を算定することを特徴とする請求項1に記載の類似文書
    検索装置。
  3. 【請求項3】 前記類似文書検索手段は、前記文書群の
    文書特徴ベクトルと、前記各文書dの文書特徴ベクトル
    との距離の値から、前記検索条件と各文書dとの類似度
    を算定することを特徴とする請求項1に記載の類似文書
    検索装置。
  4. 【請求項4】 N個の文書データを集めた、合計M種類
    のキーワードを含む、機械処理可能な文書データベース
    Dから、前記文書データベースDに含まれる1つ以上の
    キーワードy1,…,ysを検索条件として指定して、前
    記検索条件と関連する前記文書データベースD中の文書
    を検索する装置であって、 前記文書データベースD中の各文書dに出現する各キー
    ワードtの出現度数f dtを記録したキーワード出現度数
    データFを算出するキーワード出現度数算定手段と、 前記各文書dの長さldを記録した文書長データLを算
    出する文書長算定手段と、 前記文書データベースD中に出現する、M種類のキーワ
    ードについて、各キーワードtの重みwtを記録したキ
    ーワード重みデータWを算出するキーワード重み算定手
    段と、 前記各文書dについて、着目文書d中の各キーワードt
    の相対出現頻度pdtを成分とするM次元の文書プロファ
    イルベクトルPdを算出する文書プロファイルベクトル
    算定手段と、 前記文書データベースD中に出現する各キーワードtに
    ついて、各文書d中での着目キーワードtの相対出現頻
    度qdtを成分とするN次元のキーワードプロファイルベ
    クトルQtを算出するキーワードプロファイルベクトル
    算定手段と、 前記文書データベースD中の文書群の文書プロファイル
    ベクトル集団の主成分分析を実施して、前記各文書dに
    ついて、前記文書プロファイルベクトルPdに対応す
    る、固定(K)次元の文書特徴ベクトルUdを求める文
    書主成分分析手段と、 前記文書データベースD中のキーワード群のキーワード
    プロファイルベクトル集団の主成分分析を実施して、前
    記各キーワードtについて、前記キーワードプロファイ
    ルベクトルQtに対応する、前記文書特徴ベクトルと同
    一次元の、固定(K)次元のキーワード特徴ベクトルV
    tと、各次元jのキーワード寄与度(相関行列の固有
    値)θjとを求めるキーワード主成分分析手段と、 キーワードy1,…,ysを検索条件として受け取り、受
    け取ったキーワード群の前記単語重みデータと、前記キ
    ーワード特徴ベクトルと、前記キーワード寄与度とか
    ら、前記検索条件に対応する検索条件特徴ベクトルを算
    定する検索条件特徴ベクトル算定手段と、 算定された前記検索条件特徴ベクトルと、前記各文書d
    の文書特徴ベクトルとを用いて、前記検索条件と各文書
    dとの類似度を算定し、類似度の高い文書から、指定さ
    れた文書数だけ求めて出力する類似文書検索手段とを備
    えることを特徴とする類似文書検索装置。
  5. 【請求項5】 前記類似文書検索手段は、前記検索条件
    特徴ベクトルと、前記各文書dの文書特徴ベクトルとの
    内積の値から、前記検索条件と各文書dとの類似度を算
    定することを特徴とする請求項4に記載の類似文書検索
    装置。
  6. 【請求項6】 前記類似文書検索手段は、前記検索条件
    特徴ベクトルと、前記各文書dの文書特徴ベクトルとの
    距離の値から、前記検索条件と各文書dとの類似度を算
    定することを特徴とする請求項4に記載の類似文書検索
    装置。
  7. 【請求項7】 N個の文書データを集めた、合計M種類
    のキーワードを含む、機械処理可能な文書データベース
    Dから、前記文書データベースDに含まれる1つ以上の
    キーワードy1,…,ysを抽出条件として指定し、前記
    抽出条件のキーワード群と関連性のある、前記文書デー
    タベースD中に出現するキーワードを抽出する装置であ
    って、 前記文書データベースD中の各文書dに出現する各キー
    ワードtの出現度数f dtを記録したキーワード出現度数
    データFを算出するキーワード出現度数算定手段と、 前記各文書dの長さldを記録した文書長データLを算
    出する文書長算定手段と、 前記文書データベースD中に出現する、M種類のキーワ
    ードについて、各キーワードtの重みwtを記録したキ
    ーワード重みデータWを算出するキーワード重み算定手
    段と、 前記各キーワードtについて、各文書d中での着目キー
    ワードtの相対出現頻度qdtを成分とするN次元のキー
    ワードプロファイルベクトルQtを算出するキーワード
    プロファイルベクトル算定手段と、 前記文書データベースD中のキーワード群のキーワード
    プロファイルベクトル集団の主成分分析を実施して、前
    記各キーワードtについて、前記キーワードプロファイ
    ルベクトルQtに対応する、固定(K)次元のキーワー
    ド特徴ベクトルVtを求めるキーワード主成分分析手段
    と、 前記文書データベースDに含まれる1つ以上のキーワー
    ドy1,…,ysを抽出条件として受け取り、これらの受
    け取ったキーワード群のキーワード特徴ベクトルと前記
    文書データベースD中に出力する各キーワードtのキー
    ワード特徴ベクトルとを用いて、前記抽出条件と、各キ
    ーワードtとの関連度を算定し、関連度の高いキーワー
    ドから、指定されたキーワード数だけ求めて出力する関
    連キーワード抽出手段とを備えることを特徴とする関連
    キーワード抽出装置。
  8. 【請求項8】 前記関連キーワード抽出手段は、前記キ
    ーワード群のキーワード特徴ベクトルと前記文書データ
    ベースD中に出力する各キーワードtのキーワード特徴
    ベクトルとの内積の値から、前記抽出条件と各キーワー
    ドtとの関連度を算定することを特徴とする請求項7に
    記載の関連キーワード抽出装置。
  9. 【請求項9】 前記関連キーワード抽出手段は、前記キ
    ーワード群のキーワード特徴ベクトルと前記文書データ
    ベースD中に出力する各キーワードtのキーワード特徴
    ベクトルとの距離の値から、前記抽出条件と各キーワー
    ドtとの関連度を算定することを特徴とする請求項7に
    記載の関連キーワード抽出装置。
  10. 【請求項10】 N個の文書データを集めた、合計M種
    類のキーワードを含む、機械処理可能な文書データベー
    スDから、前記文書データベースDに含まれる1つ以上
    の文書x1,…,xrを抽出条件として指定し、前記抽出
    条件の文書群と関連性のある、前記文書データベースD
    中に出現するキーワードを抽出する装置であって、 前記文書データベースD中の各文書dに出現する各キー
    ワードtの出現度数f dtを記録したキーワード出現度数
    データFを算出するキーワード出現度数算定手段と、 前記各文書dの長さldを記録した文書長データLを算
    出する文書長算定手段と、 前記文書データベースD中に出現する、M種類のキーワ
    ードについて、各キーワードtの重みwtを記録したキ
    ーワード重みデータWを算出するキーワード重み算定手
    段と、 前記各文書dについて、着目文書d中の各キーワードt
    の相対出現頻度pdtを成分とするM次元の文書プロファ
    イルベクトルPdを算出する文書プロファイルベクトル
    算定手段と、 前記文書データベースD中に出現する各キーワードtに
    ついて、各文書d中での着目キーワードtの相対出現頻
    度qdtを成分とするN次元のキーワードプロファイルベ
    クトルQtを算出するキーワードプロファイルベクトル
    算定手段と、 前記文書データベースD中の文書群の文書プロファイル
    ベクトル集団の主成分分析を実施して、前記各文書dに
    ついて、文書プロファイルベクトルPdに対応する、固
    定(K)次元の文書特徴ベクトルUdと、各次元jの文
    書寄与度(相関行列の固有値)λjとを求める文書主成
    分分析手段と、 前記文書データベースD中のキーワード群のキーワード
    プロファイルベクトル集団の主成分分析を実施して、前
    記文書データベースD中の各キーワードtについて、キ
    ーワードプロファイルベクトルQtに対応する、前記文
    書特徴ベクトルと同一次元の、固定(K)次元のキーワ
    ード特徴ベクトルVtを求めるキーワード主成分分析手
    段と、 文書x1,…,xrを抽出条件として受け取り、受け取っ
    た文書群の前記文書長データと、前記文書特徴ベクトル
    と、前記文書寄与度とから、前記抽出条件に対応する、
    抽出条件特徴ベクトルを算定する、抽出条件特徴ベクト
    ル算定手段と、 算定された前記抽出条件特徴ベクトルと、前記文書デー
    タベースD中に出現する各キーワードtのキーワード特
    徴ベクトルとを用いて、前記抽出条件と各キーワードt
    との関連度を算定し、関連度の高いキーワードから、指
    定されたキーワード数だけ求めて出力する関連キーワー
    ド抽出手段とを備えることを特徴とする関連キーワード
    抽出装置。
  11. 【請求項11】 前記関連キーワード抽出手段は、前記
    抽出条件特徴ベクトルと、前記文書データベースD中に
    出現する各キーワードtのキーワード特徴ベクトルとの
    内積の値から、前記抽出条件と各キーワードtとの関連
    度を算定することを特徴とする請求項10に記載の関連
    キーワード抽出装置。
  12. 【請求項12】 前記類似文書検索手段は、前記抽出条
    件特徴ベクトルと、前記文書データベースD中に出現す
    る各キーワードtのキーワード特徴ベクトルとの距離の
    値から、前記抽出条件と各キーワードtとの関連度を算
    定することを特徴とする請求項10に記載の関連キーワ
    ード抽出装置。
  13. 【請求項13】 前記文書主成分分析手段は、前記文書
    データベースD中の2つの文書a,bの文書プロファイ
    ルベクトルPa,Pb間の内積を、前記キーワード重みデ
    ータWと、前記文書プロファイルベクトルPa,Pbの成
    分pat,pbtのばらつき度合い(即ち、標準偏差の評価
    値)とを考慮した、成分の重みつき積和で算定し、か
    つ、文書長ldの文書dの文書プロファイルベクトル
    が、文書dに出現する全キーワード数gdを前記文書長
    dで除した、gd/ldに比例した個数だけ前記文書プ
    ロファイルベクトル集団に含まれていると見なして、前
    記主成分分析を行うことを特徴とする請求項1または4
    に記載の類似文書検索装置もしくは請求項10に記載の
    関連キーワード抽出装置。
  14. 【請求項14】 前記キーワード主成分分析手段は、前
    記文書データベースD中の2つのキーワードα,βのキ
    ーワードプロファイルベクトルQα,Qβ間の内積を、
    前記文書長データLと、前記キーワードプロファイルベ
    クトルQα,Qβの成分qαd,pβdのばらつき度合い
    (即ち、標準偏差の評価値)とを考慮した、成分の重み
    つき積和で算定し、かつ、単語重みwtのキーワードt
    のキーワードプロファイルベクトルが、キーワードtの
    全出現度数htにキーワードの重みwtを乗じた、ht
    tに比例した個数だけ、主成分分析対象となるキーワ
    ードプロファイルベクトル集団に含まれていると見なし
    て、前記主成分分析を行うことを特徴とする請求項4に
    記載の類似文書検索装置もしくは請求項7または10に
    記載の関連キーワード抽出装置。
  15. 【請求項15】 前記文書長算定手段は、着目文書dの
    文字数が、予め定めたしきい値l0未満の場合には、前
    記着目文書dの長さをl0として記録し、前記しきい値
    0以上の場合には、前記着目文書dの長さを、前記文
    字数のδ乗根(δは1以上の整数)として記録すること
    を特徴とする請求項1または4に記載の類似文書検索装
    置もしくは請求項7または10に記載の関連キーワード
    抽出装置。
  16. 【請求項16】 前記文書長算定手段は、着目文書に出
    現するキーワードののべ数が、予め定めたしきい値l0
    未満の場合には、着目文書dの長さをl0として記録
    し、前記しきい値l0以上の場合には、着目文書dの長
    さを、前記のべ数のδ乗根(δは1以上の整数)として
    記録することを特徴とする請求項1または4に記載の類
    似文書検索装置もしくは請求項7または10に記載の関
    連キーワード抽出装置。
  17. 【請求項17】 前記キーワード重み算定手段は、着目
    キーワードtの重みwtを、全文書数Nに一定値εを加
    えた数(N+ε)を、前記着目キーワードtの出現する
    文書数nに前記εを加えた値(n+ε)で除した値(N
    +ε)/(n+ε)の、2を底とする対数に1を加え
    た、 1+log2((N+ε)/(n+ε)) によって算出し記録することを特徴とする請求項1また
    は4に記載の類似文書検索装置もしくは請求項7または
    10に記載の関連キーワード抽出装置。
  18. 【請求項18】 前記キーワード重み算定手段は、着目
    キーワードtの重みwtを、全文書数Nに一定値ε+1
    を加えた数(N+ε+1)を、前記着目キーワードtの
    出現する文書数nに前記εを加えた値(n+ε)で除し
    た値(N+ε+1)/(n+ε)の、2を底とする対数 log2((N+ε+1)/(n+ε)) によって算出し記録することを特徴とする請求項1また
    は4に記載の類似文書検索装置もしくは請求項7または
    10に記載の関連キーワード抽出装置。
  19. 【請求項19】 前記文書プロファイルベクトル算出手
    段は、着目文書d中の各キーワードtの相対出現頻度p
    dtの算出を、着目文書d中での各キーワードtの出現度
    数fdtを、着目文書d中に出現する全てのキーワードj
    の出現度数の総和Σfdjで割ることによって行うことを
    特徴とする請求項1または4に記載の類似文書検索装置
    もしくは請求項7または10に記載の関連キーワード抽
    出装置。
  20. 【請求項20】 前記キーワードプロファイルベクトル
    算出手段は、各文書d中での着目キーワードtの相対出
    現頻度qdtの算出を、各文書d中での着目キーワードt
    の出現度数fdtを、着目キーワードtが出現する全ての
    文書i中での着目キーワードtの出現度数の総和Σfit
    で割ることによって行うことを特徴とする請求項1また
    は4に記載の類似文書検索装置もしくは請求項7または
    10に記載の関連キーワード抽出装置。
  21. 【請求項21】 前記文書主成分分析手段は、前記文書
    データベースD中の各文書dの文書プロファイルベクト
    ルPdの、キーワードtに対応する成分pdtのばらつき
    度合いを、キーワードtの全出現度数htの、全キーワ
    ードの総出現度数fに対する割合ht/fの平方根であ
    るとして前記文書特徴ベクトルを求めることを特徴とす
    る請求項13に記載の類似文書検索装置または関連キー
    ワード抽出装置。
  22. 【請求項22】 前記文書主成分分析手段は、前記文書
    データベースD中の2つの文書a,bの文書プロファイ
    ルベクトルPa,Pb間の内積を、Pa,Pbの、キーワー
    ドtに対応する成分pat,pbtを、それぞれの成分のば
    らつき度合いで除してから掛け合わせ、さらに、キーワ
    ード重みデータwtを乗じた値を、すべてのキーワード
    tについて総和をとって算定することを特徴とする請求
    項13に記載の類似文書検索装置または関連キーワード
    抽出装置。
  23. 【請求項23】 前記キーワード主成分分析手段は、前
    記文書データベースD中の各キーワードtのキーワード
    プロファイルベクトルQtの、文書dに対応する成分q
    tdのばらつき度合いを、文書dに出現する全キーワード
    数gdの、全キーワードの総出現度数fに対する割合gd
    /fの平方根であるとしてキーワード特徴ベクトルを求
    めることを特徴とする請求項14に記載の類似文書検索
    装置または関連キーワード抽出装置。
  24. 【請求項24】 前記キーワード主成分分析手段は、前
    記文書データベースD中の2つのキーワードα,βのキ
    ーワードプロファイルベクトルQα,Qβ間の内積を、
    Qα,Qβの、文書dに対応する成分qαd,qβdを、
    それぞれの成分のばらつき度合いで除してから掛け合わ
    せ、さらに、文書長ldで除した値を、すべての文書d
    について総和をとって算定することを特徴とする請求項
    14に記載の類似文書検索装置または関連キーワード抽
    出装置。
JP2000195075A 2000-06-28 2000-06-28 類似文書検索装置及び関連キーワード抽出装置 Expired - Lifetime JP3573688B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000195075A JP3573688B2 (ja) 2000-06-28 2000-06-28 類似文書検索装置及び関連キーワード抽出装置
US09/892,700 US6671683B2 (en) 2000-06-28 2001-06-28 Apparatus for retrieving similar documents and apparatus for extracting relevant keywords
EP01305637A EP1168202A3 (en) 2000-06-28 2001-06-28 Apparatus for retrieving similar documents and apparatus for extracting relevant keywords

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000195075A JP3573688B2 (ja) 2000-06-28 2000-06-28 類似文書検索装置及び関連キーワード抽出装置

Publications (2)

Publication Number Publication Date
JP2002014999A true JP2002014999A (ja) 2002-01-18
JP3573688B2 JP3573688B2 (ja) 2004-10-06

Family

ID=18693803

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000195075A Expired - Lifetime JP3573688B2 (ja) 2000-06-28 2000-06-28 類似文書検索装置及び関連キーワード抽出装置

Country Status (3)

Country Link
US (1) US6671683B2 (ja)
EP (1) EP1168202A3 (ja)
JP (1) JP3573688B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004110835A (ja) * 2002-09-19 2004-04-08 Microsoft Corp 確認文を検索するための方法およびシステム
JP2006139783A (ja) * 2004-11-12 2006-06-01 Fuji Xerox Co Ltd 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム
JP2008217481A (ja) * 2007-03-05 2008-09-18 Nec Corp 関連情報提供システム、関連情報提供プログラム、関連情報提供方法
JP2009277100A (ja) * 2008-05-15 2009-11-26 Nippon Telegr & Teleph Corp <Ntt> 文書特徴表現計算装置、及びプログラム
US7698740B2 (en) 2004-09-10 2010-04-13 Japan Science And Technology Agency Sequential data examination method using Eigen co-occurrence matrix for masquerade detection
JP2011509463A (ja) * 2007-12-31 2011-03-24 マスターカード インターナシヨナル インコーポレーテツド データベース内に近似文字列照合を実装するための方法およびシステム
JP2011192273A (ja) * 2010-03-11 2011-09-29 Ricoh Co Ltd 画像集合における代表画像の検索システム、方法及びプログラム
WO2012133841A1 (ja) 2011-03-30 2012-10-04 日本電気株式会社 データ関連度判定装置、データ関連度判定方法、および、記録媒体
JP5448105B2 (ja) * 2009-12-09 2014-03-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
JP2014153744A (ja) * 2013-02-05 2014-08-25 Nippon Hoso Kyokai <Nhk> 情報検索装置及び情報検索プログラム
JP2015032186A (ja) * 2013-08-05 2015-02-16 日本放送協会 推薦理由提示装置及び推薦理由提示プログラム
US11694172B2 (en) 2012-04-26 2023-07-04 Mastercard International Incorporated Systems and methods for improving error tolerance in processing an input file

Families Citing this family (227)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000043909A1 (fr) * 1999-01-21 2000-07-27 Sony Corporation Procede et dispositif de traitement de documents et support d'enregistrement
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2002230035A (ja) * 2001-01-05 2002-08-16 Internatl Business Mach Corp <Ibm> 情報整理方法、情報処理装置、情報処理システム、記憶媒体、およびプログラム伝送装置
US8849716B1 (en) * 2001-04-20 2014-09-30 Jpmorgan Chase Bank, N.A. System and method for preventing identity theft or misuse by restricting access
US7225120B2 (en) * 2001-05-30 2007-05-29 Hewlett-Packard Development Company, L.P. Method of extracting important terms, phrases, and sentences
US7188141B2 (en) * 2001-06-29 2007-03-06 International Business Machines Corporation Method and system for collaborative web research
US20030004996A1 (en) * 2001-06-29 2003-01-02 International Business Machines Corporation Method and system for spatial information retrieval for hyperlinked documents
US7117434B2 (en) 2001-06-29 2006-10-03 International Business Machines Corporation Graphical web browsing interface for spatial data navigation and method of navigating data blocks
JP2003132090A (ja) * 2001-10-26 2003-05-09 Olympus Optical Co Ltd 類似データ検索装置および方法
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
JP2004086845A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
US7386442B2 (en) 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US7003516B2 (en) 2002-07-03 2006-02-21 Word Data Corp. Text representation and method
US7016895B2 (en) 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
AU2003256456A1 (en) * 2002-07-03 2004-01-23 Word Data Corp. Text-representation, text-matching and text-classification code, system and method
US7024408B2 (en) 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US7181451B2 (en) 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
TWI289770B (en) * 2002-08-16 2007-11-11 Via Tech Inc Keyword register system of articles and computer readable recording medium
US20040073531A1 (en) * 2002-10-09 2004-04-15 International Business Machines Corporation Method, system and program product for automatically linking web documents
JP3974511B2 (ja) * 2002-12-19 2007-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム
US20040139042A1 (en) * 2002-12-31 2004-07-15 Schirmer Andrew L. System and method for improving data analysis through data grouping
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
GB0302640D0 (en) * 2003-02-06 2003-03-12 Rolls Royce Plc Database arrangement
US7421418B2 (en) 2003-02-19 2008-09-02 Nahava Inc. Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
US7483877B2 (en) * 2003-04-11 2009-01-27 International Business Machines Corporation Dynamic comparison of search systems in a controlled environment
JP2004348591A (ja) * 2003-05-23 2004-12-09 Canon Inc 文書検索方法及び装置
US7854009B2 (en) * 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
GB2403558A (en) * 2003-07-02 2005-01-05 Sony Uk Ltd Document searching and method for presenting the results
GB0316806D0 (en) * 2003-07-17 2003-08-20 Ivis Group Ltd Improved search engine
JP2005043977A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
JP4074564B2 (ja) * 2003-07-30 2008-04-09 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置
US8869061B1 (en) 2003-08-29 2014-10-21 Microsoft Corporation User interface for searching an electronic document
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
TW200512599A (en) * 2003-09-26 2005-04-01 Avectec Com Inc Method for keyword correlation analysis
US7590936B1 (en) * 2003-09-30 2009-09-15 Microsoft Corporation Method for extracting information associated with a search term
US7370034B2 (en) * 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US7231399B1 (en) * 2003-11-14 2007-06-12 Google Inc. Ranking documents based on large data sets
US7725487B2 (en) * 2003-12-01 2010-05-25 National Institute Of Information And Communications Technology Content synchronization system and method of similar web pages
JP4428036B2 (ja) * 2003-12-02 2010-03-10 ソニー株式会社 情報処理装置および方法、プログラム、並びに、情報処理システムおよび方法
US7584221B2 (en) 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US20060031317A1 (en) * 2004-06-04 2006-02-09 Wanrong Lin System for synthesizing instant message and presence attributes from polled, queried and event information sources
US20070074102A1 (en) * 2005-09-29 2007-03-29 Reiner Kraft Automatically determining topical regions in a document
US8819051B2 (en) * 2005-09-29 2014-08-26 Yahoo! Inc. Tagging offline content with context-sensitive search-enabling keywords
US20070083429A1 (en) * 2005-10-11 2007-04-12 Reiner Kraft Enabling contextually placed ads in print media
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
TWI254880B (en) * 2004-10-18 2006-05-11 Avectec Com Inc Method for classifying electronic document analysis
US7814105B2 (en) * 2004-10-27 2010-10-12 Harris Corporation Method for domain identification of documents in a document database
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
JP4524640B2 (ja) * 2005-03-31 2010-08-18 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7765208B2 (en) * 2005-06-06 2010-07-27 Microsoft Corporation Keyword analysis and arrangement
US7599917B2 (en) 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
JP2007072646A (ja) * 2005-09-06 2007-03-22 Internatl Business Mach Corp <Ibm> 検索装置、検索方法およびプログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8095876B1 (en) 2005-11-18 2012-01-10 Google Inc. Identifying a primary version of a document
JP4923604B2 (ja) * 2006-02-13 2012-04-25 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2007241451A (ja) * 2006-03-06 2007-09-20 Fuji Xerox Co Ltd 情報収集支援装置
JP2007241888A (ja) * 2006-03-10 2007-09-20 Sony Corp 情報処理装置および方法、並びにプログラム
JP2007257369A (ja) * 2006-03-23 2007-10-04 Fujitsu Ltd 情報検索装置
US8046363B2 (en) * 2006-04-13 2011-10-25 Lg Electronics Inc. System and method for clustering documents
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7908279B1 (en) 2007-05-25 2011-03-15 Amazon Technologies, Inc. Filtering invalid tokens from a document using high IDF token filtering
US8046372B1 (en) * 2007-05-25 2011-10-25 Amazon Technologies, Inc. Duplicate entry detection system and method
US7814107B1 (en) 2007-05-25 2010-10-12 Amazon Technologies, Inc. Generating similarity scores for matching non-identical data strings
WO2009000103A1 (en) * 2007-06-25 2008-12-31 Google Inc. Word probability determination
US8280872B1 (en) * 2007-08-23 2012-10-02 Adobe Systems Incorporated Automated routing of forum postings
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7895225B1 (en) 2007-12-06 2011-02-22 Amazon Technologies, Inc. Identifying potential duplicates of a document in a document corpus
JP4466733B2 (ja) * 2007-12-14 2010-05-26 ソニー株式会社 コンテンツ処理装置および方法、プログラム、並びに記録媒体
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
AU2008255269A1 (en) * 2008-02-05 2009-08-20 Nuix Pty. Ltd. Document comparison method and apparatus
JP4849087B2 (ja) * 2008-03-27 2011-12-28 ブラザー工業株式会社 コンテンツ管理システム及びコンテンツ管理方法
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090307003A1 (en) * 2008-05-16 2009-12-10 Daniel Benyamin Social advertisement network
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
US8806455B1 (en) * 2008-06-25 2014-08-12 Verint Systems Ltd. Systems and methods for text nuclearization
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8462123B1 (en) 2008-10-21 2013-06-11 Google Inc. Constrained keyboard organization
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8504550B2 (en) * 2009-05-15 2013-08-06 Citizennet Inc. Social network message categorization systems and methods
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9223854B2 (en) * 2009-10-14 2015-12-29 Hewlett-Packard Development Company, L.P. Document relevance determining method and computer program
CN102053992B (zh) * 2009-11-10 2014-12-10 阿里巴巴集团控股有限公司 聚类方法和系统
US8554854B2 (en) * 2009-12-11 2013-10-08 Citizennet Inc. Systems and methods for identifying terms relevant to web pages using social network messages
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8713021B2 (en) * 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9779168B2 (en) 2010-10-04 2017-10-03 Excalibur Ip, Llc Contextual quick-picks
US8612293B2 (en) 2010-10-19 2013-12-17 Citizennet Inc. Generation of advertising targeting information based upon affinity information obtained from an online social network
US8615434B2 (en) 2010-10-19 2013-12-24 Citizennet Inc. Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8856056B2 (en) * 2011-03-22 2014-10-07 Isentium, Llc Sentiment calculus for a method and system using social media for event-driven trading
US9063927B2 (en) 2011-04-06 2015-06-23 Citizennet Inc. Short message age classification
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9002892B2 (en) 2011-08-07 2015-04-07 CitizenNet, Inc. Systems and methods for trend detection using frequency analysis
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9792355B2 (en) * 2011-10-25 2017-10-17 Intelligent Views Gmbh Searches for similar documents
US9075498B1 (en) * 2011-12-22 2015-07-07 Symantec Corporation User interface for finding similar documents
US9501566B1 (en) 2012-01-17 2016-11-22 Veritas Technologies Llc User interface for transparent concept search
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9053497B2 (en) 2012-04-27 2015-06-09 CitizenNet, Inc. Systems and methods for targeting advertising to groups with strong ties within an online social network
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
CN105468657B (zh) * 2014-09-26 2019-06-04 北大方正集团有限公司 一种获取领域重要知识点的方法和系统
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10102280B2 (en) * 2015-08-31 2018-10-16 International Business Machines Corporation Determination of expertness level for a target keyword
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9971791B2 (en) * 2015-09-16 2018-05-15 Adobe Systems Incorporated Method and apparatus for clustering product media files
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10140285B2 (en) * 2016-06-15 2018-11-27 Nice Ltd. System and method for generating phrase based categories of interactions
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11115359B2 (en) 2016-11-03 2021-09-07 Samsung Electronics Co., Ltd. Method and apparatus for importance filtering a plurality of messages
KR102398386B1 (ko) * 2016-11-03 2022-05-16 삼성전자주식회사 복수 개의 메시지들을 필터링하는 방법 및 이를 위한 장치
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11120033B2 (en) 2018-05-16 2021-09-14 Nec Corporation Computer log retrieval based on multivariate log time series
US10929218B2 (en) 2018-05-16 2021-02-23 Nec Corporation Joint semantic and format similarity for large scale log retrieval
US11132248B2 (en) 2018-11-29 2021-09-28 Nec Corporation Automated information technology system failure recommendation and mitigation
CN110838287B (zh) * 2019-10-16 2022-04-19 中国第一汽车股份有限公司 车载环境下聊天机器人的语料处理方法、装置及存储介质
KR102448061B1 (ko) * 2019-12-11 2022-09-27 네이버 주식회사 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템
CN112395854B (zh) * 2020-12-02 2022-11-22 中国标准化研究院 一种标准要素的一致性检验方法
CN113642026A (zh) * 2021-08-31 2021-11-12 立信(重庆)数据科技股份有限公司 查询区块链上事件处理数据的方法及其设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573625A (ja) * 1991-09-13 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 類似尺度構成処理方法
JPH1049541A (ja) * 1996-08-01 1998-02-20 Takatsugu Kitagawa 意味情報処理装置
JPH10143540A (ja) * 1996-09-13 1998-05-29 Toshiba Corp 情報フィルタリング装置および情報フィルタリング方法
JPH1173415A (ja) * 1997-08-27 1999-03-16 Toshiba Corp 類似文書検索装置及び類似文書検索方法
JPH11161670A (ja) * 1997-12-01 1999-06-18 Ntt Data Corp 情報フィルタリング方法、装置及びシステム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
JPH03129472A (ja) * 1989-07-31 1991-06-03 Ricoh Co Ltd 文書検索装置における処理方法
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
US5694594A (en) * 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
WO2000033215A1 (en) * 1998-11-30 2000-06-08 Justsystem Corporation Term-length term-frequency method for measuring document similarity and classifying text
US6424997B1 (en) * 1999-01-27 2002-07-23 International Business Machines Corporation Machine learning based electronic messaging system
US6477551B1 (en) * 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573625A (ja) * 1991-09-13 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 類似尺度構成処理方法
JPH1049541A (ja) * 1996-08-01 1998-02-20 Takatsugu Kitagawa 意味情報処理装置
JPH10143540A (ja) * 1996-09-13 1998-05-29 Toshiba Corp 情報フィルタリング装置および情報フィルタリング方法
JPH1173415A (ja) * 1997-08-27 1999-03-16 Toshiba Corp 類似文書検索装置及び類似文書検索方法
JPH11161670A (ja) * 1997-12-01 1999-06-18 Ntt Data Corp 情報フィルタリング方法、装置及びシステム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7974963B2 (en) 2002-09-19 2011-07-05 Joseph R. Kelly Method and system for retrieving confirming sentences
JP2004110835A (ja) * 2002-09-19 2004-04-08 Microsoft Corp 確認文を検索するための方法およびシステム
US7698740B2 (en) 2004-09-10 2010-04-13 Japan Science And Technology Agency Sequential data examination method using Eigen co-occurrence matrix for masquerade detection
JP2006139783A (ja) * 2004-11-12 2006-06-01 Fuji Xerox Co Ltd 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム
JP2008217481A (ja) * 2007-03-05 2008-09-18 Nec Corp 関連情報提供システム、関連情報提供プログラム、関連情報提供方法
JP2011509463A (ja) * 2007-12-31 2011-03-24 マスターカード インターナシヨナル インコーポレーテツド データベース内に近似文字列照合を実装するための方法およびシステム
JP2009277100A (ja) * 2008-05-15 2009-11-26 Nippon Telegr & Teleph Corp <Ntt> 文書特徴表現計算装置、及びプログラム
JP5448105B2 (ja) * 2009-12-09 2014-03-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
US9122747B2 (en) 2009-12-09 2015-09-01 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
JP2011192273A (ja) * 2010-03-11 2011-09-29 Ricoh Co Ltd 画像集合における代表画像の検索システム、方法及びプログラム
WO2012133841A1 (ja) 2011-03-30 2012-10-04 日本電気株式会社 データ関連度判定装置、データ関連度判定方法、および、記録媒体
US9251242B2 (en) 2011-03-30 2016-02-02 Nec Corporation Data relatedness assessment device, data relatedness assessment method, and recording medium
US11694172B2 (en) 2012-04-26 2023-07-04 Mastercard International Incorporated Systems and methods for improving error tolerance in processing an input file
JP2014153744A (ja) * 2013-02-05 2014-08-25 Nippon Hoso Kyokai <Nhk> 情報検索装置及び情報検索プログラム
JP2015032186A (ja) * 2013-08-05 2015-02-16 日本放送協会 推薦理由提示装置及び推薦理由提示プログラム

Also Published As

Publication number Publication date
JP3573688B2 (ja) 2004-10-06
US20020016787A1 (en) 2002-02-07
EP1168202A3 (en) 2004-01-14
EP1168202A2 (en) 2002-01-02
US6671683B2 (en) 2003-12-30

Similar Documents

Publication Publication Date Title
JP3573688B2 (ja) 類似文書検索装置及び関連キーワード抽出装置
US7421418B2 (en) Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
US20050203900A1 (en) Associative retrieval system and associative retrieval method
Manjari et al. Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm
CN106484797B (zh) 基于稀疏学习的突发事件摘要抽取方法
JP4226862B2 (ja) 文書検索装置
CN106294736A (zh) 基于关键词频率的文本特征提取方法
CN106294733A (zh) 基于文本分析的网页检测方法
CN101350027A (zh) 内容检索设备和内容检索方法
JP4207438B2 (ja) Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
JP2000163437A (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP4005343B2 (ja) 情報検索システム
CN106294295A (zh) 基于词频的文章相似度识别方法
Polus et al. Development for performance of Porter Stemmer algorithm
JP2020144846A (ja) ウェブページサーチ方法及びコンピュータ可読記憶媒体
CN114580557A (zh) 基于语义分析的文献相似度确定方法及装置
JP4041876B2 (ja) 複数尺度の利用による言語変換処理システムおよびその処理プログラム
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP2019211884A (ja) 情報検索システム
Uzun Scraping relevant images from web pages without download
Bryer et al. Analysis of Clustering Algorithms to Clean and Normalize Early Modern European Book Titles
Çay et al. Exploring the relationship between academicians via reference parsing
JP6764973B1 (ja) 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040629

R150 Certificate of patent or registration of utility model

Ref document number: 3573688

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070709

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080709

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090709

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090709

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100709

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110709

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110709

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120709

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120709

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 9

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term