JP3573688B2 - 類似文書検索装置及び関連キーワード抽出装置 - Google Patents

類似文書検索装置及び関連キーワード抽出装置 Download PDF

Info

Publication number
JP3573688B2
JP3573688B2 JP2000195075A JP2000195075A JP3573688B2 JP 3573688 B2 JP3573688 B2 JP 3573688B2 JP 2000195075 A JP2000195075 A JP 2000195075A JP 2000195075 A JP2000195075 A JP 2000195075A JP 3573688 B2 JP3573688 B2 JP 3573688B2
Authority
JP
Japan
Prior art keywords
document
keyword
vector
keywords
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000195075A
Other languages
English (en)
Other versions
JP2002014999A (ja
Inventor
祐司 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2000195075A priority Critical patent/JP3573688B2/ja
Priority to US09/892,700 priority patent/US6671683B2/en
Priority to EP01305637A priority patent/EP1168202A3/en
Publication of JP2002014999A publication Critical patent/JP2002014999A/ja
Application granted granted Critical
Publication of JP3573688B2 publication Critical patent/JP3573688B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Description

【0001】
【発明の属する技術分野】
本発明は、文字コードの列として電子化され蓄積された、機械処理可能な文書データベース(文書データの集合)から、当該文書データベース中の1つまたは複数の文書データ、あるいは当該文書データベースには無い任意の文章を「典型例」として指定して、指定した典型例に類似する文書を当該文書データベース中から検索する類似文書検索装置と、「典型例」に関連する、当該文書データベース中のキーワードを抽出して、検索結果の文書内容の理解を助ける目的、あるいは検索条件として好適なキーワードのヒントとして当該文書データベースの利用者に提示する関連キーワード抽出装置に関し、特に、高精度の文書検索やキーワード抽出を可能にするものである。
【0002】
【従来の技術】
近年、ワードプロセッサやパーソナルコンピュータの普及、CD−ROM、DVD−ROM等の大容量かつ低価格な記憶媒体の普及、イーサネットに代表されるネットワークの発達により、文書中のすべて、あるいは大部分の文字情報を文字コードの列で表わして蓄積した全文データベースが実用化され、広く利用されるようになってきた。
【0003】
従来の全文データベースでは、文書を検索する際、キーワードの論理式を検索条件として指定し、文書中に指定したキーワードが現れるか否かを判定し、指定した論理式を満足する文書集合を求める方式が一般的である。
【0004】
最近では、こうして得られた文書集合中の各文書について、検索条件との関連度を、いわゆるtf・idf法などによって求め、関連度の高い文書から順に並べて利用者に提示する、いわゆる文書ランキングの技術が用いられるようになってきており、より精度の高い文書検索が可能になってきている。
【0005】
しかしながら、このような従来の全文データベースシステムでは、
(1)適切なキーワードが思いつかない、あるいは分からないために、適切な検索条件が指定できない。
(2)複雑な論理式を記述するためのスキル、あるいは時間の余裕がない。
(3)少しでも表現の異なるキーワードを含む文書が検索されない。
などの問題が指摘されており、近年、文書の典型例を指定して、「これらに類似した文書を検索しなさい」という型の類似文書検索システムや、指定した文書や単語集合に関連する、関連キーワードの抽出・提示を行う、関連キーワード抽出システムの研究開発が盛んになっている。
【0006】
そういった類似検索を基本とする文書検索手法の1つに、LSI法(潜在意味索引付け法)と呼ばれる方法がある。米国特許第4839853号には、LSI法による文書検索方法が開示されている。
【0007】
ここでは、本発明との差異を明確にする目的で、その骨子を簡潔に説明する。LSI法では、N個の文書データを含んだ文書データベースD中の各文書について、キーワード、即ち当該文書に特徴的な語句を機械的に抽出し、各文書中に、それぞれのキーワードが出現する度数(回数)を記録する。今、文書データベースDから、合計でM種類のキーワードが抽出されたとする。
【0008】
d番目の文書中での、(辞書順など、適当な順序で)t番目の種類のキーワードの出現頻度fdtを、第d行第t列の要素とする行列Fで表し、この行列Fを、不完全特異値分解と呼ばれる行列演算によって、文書側特異ベクトルを各列に持つ、N行K列の行列Uと、特異値が対角要素に並んだ、K行K列の対角行列Λと、キーワード側特異ベクトルを各行に持つ、K行M列の行列Vの積に、近似的に分解する。このときKは、NやMに比べて十分小さく、結果的に元の出現頻度行列Fを、より階数の低い行列で近似することになる。
【0009】
このような分解で得られたK個の文書側の特異ベクトルの第d成分をK個並べたK次元ベクトルを文書dの特徴ベクトルUとし、K個のキーワード側の特異ベクトルの第t成分をK個並べたK次元ベクトルをキーワードtの特徴ベクトルVとする。
【0010】
そして、以下の3点のように類似度、関連度を算出し、もっとも類似度/関連度の高い文書、キーワードを求めることにより、類似文書検索や、関連キーワード抽出を実現する。
(1)2つの文書a,bの類似度を、文書a,bに対応する文書特徴ベクトルU,Uの内積U・Uで求める。
(2)2つのキーワードα,βの関連度を、キーワードα,βに対応するキーワード特徴ベクトルVα,Vβの内積Vα・Vβで求める。
(3)任意の(外部)文書からのキーワードの抽出結果を、M種類のキーワードの、当該外部文書中での出現度数を並べたM次元ベクトルをEとすると、この外部文書に対応する検索条件文書特徴ベクトルPを、U=Λ−1VEで求め、この外部文書と、文書データベース中の文書dとの類似度を、U・Uで求める。以上が、LSI法の基本的枠組みである。
【0011】
実際の文書データベースにLSI法を適用する際には、キーワードの出現度数fdtをそのまま用いると、長い文書や、高頻出するキーワードのみが重視された、偏った特徴ベクトルが求まってしまい、類似検索の精度が低下する。
【0012】
そこで、fdtを、従来の文書検索システムでの文書ランキングで用いられる、LTCなどの方式によって変換して出現頻度の変換(標準化)を行い、正規化した頻度を要素とする出現頻度行列Fを作成して不完全特異値分解を実行し、特徴ベクトルを得る。
【0013】
例えば、LTCによる変換では、以下の式によって、実際の出現度数fdtと、キーワードtの出現文書数nから出現度数LTC(fdt)を算出し、この値を要素とする行列を不完全特異値分解する。
【0014】
【数1】
Figure 0003573688
【0015】
【発明が解決しようとする課題】
しかしながら、このような従来のLSI法におけるキーワードの出現頻度の変換には、大きな課題がある。
【0016】
LSI法では、行列Fの第d行が文書dの特徴を表し、行列Fの第t列が単語tの特徴を表すとして、分析を行うが、数1の変換では、各行の要素の2乗和が1に正規化されるものの、各列の要素の2乗和は正規化されない。従って、文書側とキーワード側とで非対称な変換になっている。数1のような簡単な変換で、文書側、キーワード側の両方を1に正規化することは困難であり、この非対称性は、数1に限ったことではない。
【0017】
さらに、数1のような、対数関数などの非線形な関数による変換では、ある文書dと、dを2つ繋げた文書d’とが表す特徴が同一にはならず、文書の類似度が1にならない。同様に、同一の出現傾向を持ち、同一の意味を表す2つのキーワードt,tを同一のキーワードだとして求めた出現頻度行列が元の出現頻度行列と食い違う。
【0018】
これらの非対称性や、文書の類似度及びキーワードの関連度における文書やキーワードの併合に対する非安定性は、特に大規模な文書データベースを扱う際には、以下のような現象を生じる。
(1)正規化されない側(多くの場合はキーワード側)での検索/抽出時に、ノルム(Fの要素の2乗和)の大きなものが優先的に検索/抽出される。
(2)キーワード集合で文書を検索する際に、あるキーワードだけが非常に強く効き、他はほとんど無視される。
【0019】
結果的に、検索意図から大きく掛け離れた検索結果となり、検索精度が大きく低下する、という課題がある。
【0020】
本発明は、こうした従来の課題を解決するものであり、文書側及びキーワード側の両方を正規化し、高い検索精度を保持することができる類似文書検索装置及び関連キーワード抽出装置を提供することを目的としている。
【0021】
【課題を解決するための手段】
そこで、本発明では、N個の文書データを集めた、合計M種類のキーワードを含む、機械処理可能な文書データベースDから、前記文書データベースDに含まれる1つ以上のキーワードy 1 ,…,y s を検索条件として指定して、前記検索条件と関連する前記文書データベースD中の文書を検索する装置において、文書データベースD中の各文書dに出現する各キーワードtの出現度数fdtを記録したキーワード出現度数データFを算出するキーワード出現度数算定手段と、各文書dの長さldを記録した文書長データLを算出する文書長算定手段と、文書データベースD中に出現する、M種類のキーワードについて、各キーワードtの重みwtを記録したキーワード重みデータWを算出するキーワード重み算定手段と、各文書dについて、着目文書d中の各キーワードtの相対出現頻度pdtを成分とするM次元の文書プロファイルベクトルPdを算出する文書プロファイルベクトル算定手段と、前記文書データベースD中に出現する各キーワードtについて、各文書d中での着目キーワードtの相対出現頻度q dt を成分とするN次元のキーワードプロファイルベクトルQ t を算出するキーワードプロファイルベクトル算定手段と、文書データベースD中の文書群の文書プロファイルベクトル集団の主成分分析を実施して、各文書dについて、文書プロファイルベクトルPdに対応する、固定(K)次元の文書特徴ベクトルUdを求める文書主成分分析手段と、文書データベースD中のキーワード群のキーワードプロファイルベクトル集団の主成分分析を実施して、各キーワードtについて、キーワードプロファイルベクトルQ t に対応する、前記文書特徴ベクトルと同一次元の、固定(K)次元のキーワード特徴ベクトルV t と、各次元jのキーワード寄与度(相関行列の固有値)θ j とを求めるキーワード主成分分析手段と、キーワードy 1 ,…,y s を検索条件として受け取り、受け取ったキーワード群の前記単語重みデータと、前記キーワード特徴ベクトルと、前記キーワード寄与度とから、前記検索条件に対応する検索条件特徴ベクトルを算定する検索条件特徴ベクトル算定手段と、算定された前記検索条件特徴ベクトルと、各文書dの文書特徴ベクトルとを用いて、前記検索条件と各文書dとの類似度を算定し、類似度の高い文書から、指定された文書数だけ求めて出力する類似文書検索手段とを設けている。
【0024】
また、N個の文書データを集めた、合計M種類のキーワードを含む、機械処理可能な文書データベースDから、文書データベースDに含まれる1つ以上の文書x,…,xを抽出条件として指定し、前記抽出条件の文書群と関連性のある、文書データベースD中に出現するキーワードを抽出する装置において、前記キーワード出現度数算定手段と、前記文書長算定手段と、前記キーワード重み算定手段と、前記文書プロファイルベクトル算定手段と、前記キーワードプロファイルベクトル算定手段と、文書データベースD中の文書群の文書プロファイルベクトル集団の主成分分析を実施して、各文書dについて、文書プロファイルベクトルPに対応する、固定(K)次元の文書特徴ベクトルUと、各次元jの文書寄与度(相関行列の固有値)λとを求める文書主成分分析手段と、前記文書データベースD中のキーワード群のキーワードプロファイルベクトル集団の主成分分析を実施して、文書データベースD中の各キーワードtについて、キーワードプロファイルベクトルQに対応する、前記文書特徴ベクトルと同一次元の、固定(K)次元のキーワード特徴ベクトルVを求めるキーワード主成分分析手段と、文書x,…,xを抽出条件として受け取り、受け取った文書群の文書長データと、文書特徴ベクトルと、文書寄与度とから、前記抽出条件に対応する、抽出条件特徴ベクトルを算定する、抽出条件特徴ベクトル算定手段と、算定された前記抽出条件特徴ベクトルと、文書データベースD中に出現する各キーワードtのキーワード特徴ベクトルとを用いて、前記抽出条件と各キーワードtとの関連度を算定し、関連度の高いキーワードから、指定されたキーワード数だけ求めて出力する関連キーワード抽出手段とを設けている。
【0025】
この類似文書検索装置及び関連キーワード抽出装置では、着目した文書での各キーワードの出現頻度を文書プロファイルとしてベクトル表現し、また、着目したキーワードの各文書での出現頻度をキーワードプロファイルとしてベクトル表現し、それぞれ独立に、文書長、キーワード重みを考慮した重み付き主成分分析を行い、各文書/キーワードの特徴ベクトルを求めている。
【0026】
この場合、文書プロファイル及びキーワードプロファイルでのベクトル表現は、出現頻度の変換(標準化)には依存せず、また、出現頻度の変換に関与する文書長、キーワード重みデータなどは、主成分分析時の重みとして間接的に作用させているため、各文書/キーワードの特徴ベクトルは、出現頻度の変換に依存せずに正規化することができる。
【0027】
そのため、高精度な類似文書検索装置及び関連キーワード抽出装置を実現することができる。
【0028】
【発明の実施の形態】
(第1の実施形態)
図1は、本発明の実施形態における類似文書検索装置及び関連キーワード抽出装置をディジタル電子計算機上の動作によって実現する類似文書検索・関連キーワード抽出システムの全体構成を表わすブロック図である。
【0029】
このシステムは、新聞記事の文書番号、見出し及び本文を、1記事を1文書(検索の単位)として配列した新聞記事全文データベース101と、新聞記事全文データベース101中の各記事の本文の文字列を走査して、出現するキーワードを切り出すとともに、各記事に出現したキーワードと出現度数との組を集計するキーワード抽出集計手段102と、キーワード抽出集計手段102の抽出集計結果を格納するキーワード出現度数ファイル103と、外部パラメータである文書長算定モードに従って、各記事の文書長を、新聞記事全文データベース101中の各記事の本文の文字列の文字数、あるいはキーワード度数ファイル103中の各記事の出現キーワードの総数(のべ数)を基に算出する文書長算定手段104と、文書長算定手段104の算定結果を格納する文書長ファイル105と、キーワード出現度数ファイル103を参照して、各キーワードの重みを算定するキーワード重み算定手段106と、キーワード重み算定手段106の算定結果を格納するキーワード重みファイル107と、キーワード出現度数ファイル103と文書長ファイル105とから、各キーワードの特徴を表すキーワードプロファイルベクトルを作成するキーワードプロファイルベクトル作成手段108と、キーワードプロファイルベクトル作成手段108が作成したキーワードプロファイルベクトル群を格納するキーワードプロファイルベクトルファイル109と、キーワード出現度数ファイル103とキーワード重みファイル107とから、各文書の特徴を表す文書プロファイルベクトルを作成する文書プロファイルベクトル作成手段110と、文書プロファイルベクトル作成手段110が作成した文書プロファイルベクトル群を格納する文書プロファイルベクトルファイル111と、キーワード出現度数ファイル103と文書長ファイル105とキーワード重みファイル107とを参照して、キーワードプロファイルベクトルファイル109の、K次元(分析次元Kは予め定めた外部パラメータ)の重み付き主成分分析を行って、K本の主軸(即ち相関行列の固有ベクトル)と、K本の各主軸の寄与率(即ち相関行列の固有値)を求め、各キーワードの特徴ベクトル(即ちK本の主軸についての成分あるいは射影)を求めるキーワード主成分分析手段112と、キーワード主成分分析手段112の分析結果である、各キーワードの特徴ベクトルと各主軸の寄与率とを格納するキーワード主成分分析結果ファイル113と、キーワード出現度数ファイル103と文書長ファイル105とキーワード重みファイル107とを参照して、文書プロファイルベクトルファイル111の、K次元の重み付き主成分分析を行って、K本の主軸と、K本の各主軸の寄与率を求め、各文書の特徴ベクトルを求める文書主成分分析手段114と、文書主成分分析手段114の分析結果である、各文書の特徴ベクトルと各主軸の寄与率とを格納する文書主成分分析結果ファイル115と、文書番号の列、またはキーワードの列のいずれかの形式で新聞記事全文データベース101に対する類似記事検索・関連キーワード抽出条件を入力する条件入力手段116と、条件入力手段116から文書番号の列が入力された場合には、文書主成分分析結果ファイル115の該当する文書特徴ベクトルから入力された文書番号の列に対する検索条件特徴ベクトルを算出し、条件入力手段116からキーワードの列が入力された場合には、キーワード重みファイル107とキーワード主成分分析結果ファイル113とからキーワードの列に対する検索条件特徴ベクトルを算出する検索条件特徴ベクトル算定手段117と、条件入力手段116から文書番号の列が入力された場合には、文書長ファイル105と文書主成分分析結果ファイル115とを用いて入力された文書番号の列に対する抽出条件特徴ベクトルを算出し、条件入力手段116からキーワードの列が入力された場合には、キーワード主成分分析結果ファイル113の該当するキーワード特徴ベクトルから入力されたキーワードの列に対する抽出条件特徴ベクトルを算出する抽出条件特徴ベクトル算定手段118と、検索条件特徴ベクトル算定手段117が算出した検索条件特長ベクトルと、文書主成分分析結果ファイル115中の各文書特徴ベクトルとの内積(複数の文書が指定された場合には内積の最大値)を計算し、最も内積の大きいR個の文書(取得文書数Rは予め定めた外部パラメータ)の文書番号を決定する第1の類似文書検索手段119と、検索条件特徴ベクトル算定手段117が算出した検索条件特長ベクトルと、文書主成分分析結果ファイル115中の各文書特徴ベクトルとの距離(複数の文書が指定された場合には距離の最小値)を計算し、最も距離の小さいR個の文書の文書番号を決定する第2の類似文書検索手段120と、抽出条件特徴ベクトル算定手段118が算出した抽出条件特長ベクトルと、キーワード主成分分析結果ファイル113中の各キーワード特徴ベクトルとの内積(複数のキーワードが指定された場合には内積の最大値)を計算し、最も内積の大きいS個のキーワード(取得キーワード数Sは予め定めた外部パラメータ)を決定する第1の関連キーワード抽出手段121と、抽出条件特徴ベクトル算定手段118が算出した抽出条件特長ベクトルと、キーワード主成分分析結果ファイル113中の各キーワード特徴ベクトルとの距離(複数のキーワードが指定された場合には距離の最小値)を計算し、最も距離の小さいS個のキーワードを決定する第2の関連キーワード抽出手段122と、検索されたR件の類似記事の文書番号、見出し及び本文、並びに抽出されたS個の関連キーワードを、類似度とともに、類似度の高い順に表示する結果表示手段123とを備えている。
【0030】
以上の構成を備えた類似文書検索・関連キーワード抽出システムの動作について説明する。
【0031】
初めに、このシステムの動作の概略を説明する。このシステムでは、新聞記事全文データベース101の中から記事を検索する場合に、条件入力手段116から、検索しようとする記事に類似する記事の文書番号を、例えば(2,4,9,‥)と云うように入力すると、それらの記事に類似する記事が検索され、また、それらの記事に関連するキーワードが抽出され、結果表示手段123に、検索された類似文書と抽出された関連キーワードとが表示される。また、条件入力手段116から、キーワードの列を、例えば(IT,インターネット,‥)と云うように入力した場合には、それらのキーワードを含む記事に類似する記事が検索され、また、それらの記事に関連するキーワードが抽出され、検索された類似文書と抽出された関連キーワードとが結果表示手段123に表示される。
【0032】
このシステムの動作は、全体として、以下の(イ)、(ロ)、(ハ)の3段階に分かれ、この順に行われる。
(イ)類似文書検索・関連キーワード抽出に先立って、新聞記事データベース101からキーワードを切り出し、キーワード出現度数、文書長、キーワード重みの3種のデータを作成する。
(ロ)文書、キーワードそれぞれについて、主成分分析の対象となるプロファイルベクトルデータを作成する。文書のプロファイルベクトルデータは、その文書中の各キーワードの相対出現頻度を成分とするベクトルであり、また、キーワードのプロファイルベクトルデータは、文書データベースの各文書におけるそのキーワードの相対出現頻度を成分とするベクトルである。次いで、文書長とキーワード重みとを考慮してそれぞれのプロファイルベクトルデータの主成分分析を行い、各文書及びキーワードの特徴ベクトル(特徴的な成分のみを持つベクトル)を求める。
(ハ)類似文書検索・関連キーワード抽出条件が入力されると、入力の種類(文書番号かキーワードか)に応じて、類似文書の検索条件及び関連キーワードの抽出条件の特徴ベクトルを、(ロ)の分析結果、文書長、及びキーワード重みを使って算出し、検索条件特徴ベクトルと各文書の文書特徴ベクトルとの類似度、また抽出条件特徴ベクトルと各キーワードのキーワード特徴ベクトルとの類似度、関連度をベクトル間の内積または距離から算出して、類似する文書、関連するキーワードを指定された個数だけ類似度と共に表示する。
【0033】
また、上記の動作の前には、予め以下のパラメータを設定しておく。
・文書長算出モード(「文字数」、または「単語数」)
着目新聞記事の文書長の基になるデータを決めるパラメータで、「文字数」の場合には、着目新聞記事の文書長を、記事本文の文字数から算出し、「単語数」の場合には、着目新聞記事の文書長を、記事本文から切り出したキーワードの「のべ数」から算出する。
・文書長しきい値(l
着目新聞記事の文書長を算出する際に、文書長の下限を定める非負の整数値であるパラメータで、文字数またはキーワードのべ数が、文書長しきい値lより小さければ、実際の文字数またはキーワードのべ数ではなく、文書長しきい値lを用いて文書長を算出する。
・文書長べき乗根数(δ)
着目新聞記事の文書長を算出する際に、文書長の基になるデータから文書長の値を決める非負の整数値であるパラメータで、着目新聞記事の文書長を、文字数またはキーワードのべ数のδ乗根として算出する。ただし、文字数またはキーワードのべ数が文書長しきい値より小さい場合には、文書長しきい値のδ乗根として着目新聞記事の文書長を算出する。
・キーワード重み算出モード(「1+log」または「log」)
着目キーワードの重みの算出方法を定める第1のパラメータで、「1+log」モードの場合には、全文書数Nを前記着目キーワードの出現する文書数nで除した値N/nの、2を底とする対数に1を加えた、1+log(N/n)によって着目キーワードの重みを算出し、「log」モードの場合には、全文書数Nに1を加えた(N+1)を、前記着目キーワードの出現する文書数nで除した値(N+1)/nの、2を底とする対数、log((N+1)/n)によって着目キーワードの重みを算出する。ただし、キーワード重みオフセットεが0でない場合には、全文書数N及び出現文書数nを修正した値を基にキーワード重みを算出する。
・キーワード重みオフセット(ε)
着目キーワードの重みの算出方法を定める第2のパラメータで、キーワード重みを算出する際、全文書数N及び着目キーワードの出現文書数nの双方に対し、キーワード重みオフセットεを加えたN+ε、n+εを、全文書数、及び着目キーワードの出現文書数として用いて、前記キーワード重み算出モードに従ってキーワード重みを算出する。
・分析次元(K)
主成分分析を行う際の分析の次元を定める正の整数値であるパラメータで、相関行列データの固有値・固有ベクトルを、最大K個求め、文書、キーワードの特徴ベクトルをK次元で表現することを指定する。
・文書類似度算出モード(「内積」または「距離」)
第1の類似文書検索手段119、第2の類似文書検索手段120のいずれの結果を類似文書検索結果として結果表示手段123に表示するかを定めるパラメータで、「内積」モードの場合には、第1の類似文書検索手段119の検索結果を用い、「距離」モードの場合には、第2の類似文書検索手段120の検索結果を用いる。
・キーワード関連度算出モード(「内積」または「距離」)
第1の関連キーワード抽出手段121、第2の関連キーワード抽出手段122のいずれの結果を関連キーワード抽出結果として結果表示手段123に表示するかを定めるパラメータで、「内積」モードの場合には、第1の関連キーワード抽出手段121の抽出結果を用い、「距離」モードの場合には、第2の関連キーワード抽出手 段122の抽出結果を用いる。
・表示類似文書数(α)
類似文書検索の結果の表示件数を定めるパラメータで、類似度の大きい順にα件の文書が表示される。
・表示関連キーワード数(β)
関連キーワード抽出の結果の表示キーワード数を定めるパラメータで、関連度の大きい順にβ個のキーワードが表示される。
【0034】
上記のパラメータを設定したら、設定したパラメータに従って(イ)、(ロ)の動作を順に行い、新聞記事データベース101を分析し、類似文書検索・関連キーワード抽出の準備が完了する。この時点で、条件入力手段116から類似文書検索・関連キーワード抽出条件が入力されると、(イ)、(ロ)で分析した結果を用い、設定したパラメータに従って(ハ)の動作を行って類似する文書、関連するキーワードを求めて結果表示手段123に表示する。同一の新聞記事データベース101に対して複数回の類似文書検索・関連キーワード抽出を行う際には、(イ)、(ロ)の分析処理は1回でよく、(ハ)の処理が必要な回数だけ繰り返されることになる。
【0035】
以上で、システムの動作の概略の説明を終わり、(イ)、(ロ)、(ハ)の順に、システムの動作の詳細を説明する。
【0036】
はじめに、(イ)の処理である、新聞記事データベース101からのキーワードを切り出し、キーワード出現度数、文書長、キーワード重みの3種のデータの作成について、図面をもとに説明する。
【0037】
図2は、新聞記事全文データベース101の内容の一部の例である。図のように、新聞記事全文データベース101は電子計算機で通常編集・閲覧が可能なテキスト形式であり、各新聞記事を1文書、即ち検索の単位として、合計20万個の新聞記事が文書番号の昇順に配列されている。各新聞記事は、文書番号、見出し、本文という3つのフィールドに分かれており、3種のフィールドが、この順に、タブ文字(制御文字の一種、図中では<TAB>と表記)で連結され、文書と次の文書は改ページ文字(やはり制御文字の一種、図中では<FF>と表記)で連結されているものとする。文書番号は先頭の新聞記事の文書番号を1とし、末尾(20万番目)の新聞記事の文書番号を200000とした、連続する整数値を表す文字列になっているものとする。
【0038】
この新聞記事全文データベースは、まずキーワード抽出集計手段102に入力される。
【0039】
図3は、キーワード抽出集計手段102の内部構造を表すブロック図であり、破線の内部がキーワード抽出集計手段102に相当する。図において、301は単語切り出し手段、302は単語辞書、303はキーワード選別手段、304は不要語辞書、305はキーワード集計手段である。
【0040】
まず、単語切り出し手段301で、新聞記事全文データベース101から1文書分を読み込み、キーワードの候補となる単語(形態素)が切り出される。本発明の類似文書検索装置及び関連キーワード抽出装置は、特定の単語切り出し方法に依存するものではなく、例えば「松本裕治、影山太郎、永田昌明、齋藤洋典、徳永健伸著、“岩波講座・言語の科学3・単語と辞書”、1997年岩波書店刊」に記載されている、辞書と、接続コストあるいは統計言語モデルとに基づく形態素解析による単語切り出し方法や、特開平10−69493号公報に開示されている、「極大切り出し」方式による、辞書のみを用いた単語切り出し方法など、従来から開発されてきた種々の方法を利用することができる。本実施例においては、特開平10−69493号公報に開示されている、「極大切り出し」方式により、単語辞書302を用いて単語を切り出すものとする。単語が切り出されると、キーワード選別手段303が、不要語辞書304を引いて、切り出された単語が不要語、即ち「類似文書検索や関連キーワード抽出に際して不要な単語であるか否か」を判定し、不要語ではないと判定した単語をキーワードとして認定し、新規のキーワードについては認定順に1からキーワード番号を付与するとともに、キーワード集計手段305によって1文書(1新聞記事)内のキーワードの出現度数を集計する。1文書の全ての文字列の処理が終了したら、1文書分の集計結果を、キーワード出現度数ファイル103に出力し、次の文書の処理を開始する。
【0041】
以上のような動作によって、新聞記事全文データベース101中の全ての文書を文書番号の順に処理し、キーワード出現度数ファイル103が作成される。
【0042】
図4は、このような処理の一例を示している。図の「単語切り出し結果」の中が、左側の単語辞書を用いて文書番号1の文書の本文フィールドから極大単語切り出し方式による切り出し結果の例(一部)であり、下線を引いた単語(文字列)が辞書にある単語であることを表し、四角で囲んだ文字列が、切り出し単語の文字列を表現している。この切り出し結果のうちで、不要語である「の」や「や」などを取り除き、出現度数を集計すると、「文書1のキーワード集計結果」が得られる。
【0043】
次に、文書長算定手段104が、予め設定した、文書長算出モード、文書長しきい値(l)及び文書長べき乗根数(δ)の3種のパラメータに従って、各文書の文書長を算出する。図5は、着目文書に対して文書長を算出する手順を示す流れ図である。図5において、
ステップ501:文書長算出モードが「文字数」か「単語数」かに応じて、それぞれステップ502及びステップ503に分岐する。
ステップ502:文書長算出モードが「文字数」の場合は、新聞記事全文データベース101を参照して得られる、着目文書の本文フィールドの文字数をlとし、
ステップ503:文書長算出モードが「単語数」の場合は、キーワード出現度数ファイル103を参照して得られる、着目文書の本文フィールドから切り出されたキーワードの「のべ数」をlとする。
ステップ504:ステップ502あるいはステップ503で算出したlと文書長しきい値lとを比較し、lがl未満であれば、
ステップ505:lを改めてlとし、
ステップ506:lのδ乗根を改めてlとおき、このlを着目文書の文書長として文書長ファイル105に記録する。
【0044】
このような処理によって、例えば文書長算出モードを「文字数」に、文書長しきい値lを200に、文書長べき乗根数δを0.5に、それぞれ設定した場合には、図2の文書1の文書長は、本文フィールドの文字数が396文字なので、文書長は19.90と算出され、図2の文書3の文書長は、文字数が302なので、17.38と算出されることになる。上記の処理を、全ての文書について文書番号の順に行い、文書長ファイル105を作成する。
【0045】
文書長の算定処理と並行して、キーワード重み算定手段106が、予め設定した、キーワード重み算出モードとキーワード重みオフセット(ε)の2種のパラメータに従って、各キーワードの重みを算出する。図6は、あるキーワードtに対して、キーワード重みを算出する手順を示す流れ図である。図6において、
ステップ601:キーワード出現度数ファイル103を参照して、着目キーワードtが出現する文書数rを算出し、
ステップ602:出現文書数rにキーワード重みオフセットεを加えた値を改めてrとし、全文書数Nにキーワード重みオフセットεを加えた値をsとする。
ステップ603:キーワード重み算出モードが「1+log」か「log」かに応じて、それぞれステップ604及びステップ605に分岐する。
【0046】
ステップ604:キーワード重み算出モードが「1+log」のときは、1+log(s/r)の値を計算してwとし、
ステップ605:キーワード重み算出モードが「log」のときは、log((s+1)/r)の値を計算してwとし、
ステップ606:算出した値wを、着目キーワードtのキーワード重みとしてキーワード重みファイル107に出力する。
【0047】
上記の処理を、全てのキーワードについて、キーワード番号の順に行い、キーワード重みファイル107を作成する。
【0048】
このような処理によって、例えばキーワード重み算出モードを「1+log」に、キーワード重みオフセットεを10に設定した場合、「IT技術」というキーワードが22の新聞記事の本文に出現していたとすると、「IT技術」のキーワード重みは13.61となり、「国内」というキーワードが2519の新聞記事の本文に出現していたとすると、「国内」のキーワード重みは7.31となる。このようにして、(イ)の処理が完了し、キーワード出現度数ファイル103、文書長ファイル105、及びキーワード重みファイル107が作成される。
【0049】
続いて(ロ)の処理である、文書/キーワードのプロファイルベクトルデータの作成と、その主成分分析、ならびに各文書/キーワードの特徴ベクトルデータの作成について、図面をもとに説明する。
【0050】
図7は、文書プロファイルベクトルデータ算出の手順を示す流れ図である。図7において、
ステップ701:プロファイルベクトルを作成すべき着目文書番号dを1に初期化し、
ステップ702:dが全文書数Nより大きい場合には、ステップ703に分岐して算出処理を終了させる。dがN以下の場合には、
ステップ704:キーワード番号tを1に、正規化因子sを0に、それぞれ初期化し、
ステップ705:文書dのキーワードtの出現度数fdtをキーワード出現度数ファイル103から取得して正規化因子sに足しこみ、
ステップ706:着目キーワード番号tを1増やし、
ステップ707:tが全キーワード数M以下の場合にはステップ705に戻って次のキーワードについての処理を行う。
【0051】
こうして、ステップ704〜ステップ707では、文書dに出現するキーワードの「のべ数」を求め、これを正規化因子sとしていることになる。
【0052】
このようにして、文書プロファイルベクトル算出モードに従って正規化因子sが求まったならば、
ステップ708:文書dの文書プロファイルベクトルを、相対出現頻度のベクトル(8fd1/s,…,fdM/s)で算出して、文書プロファイルベクトルファイル111に出力し、
ステップ709:着目文書番号dを1増やし、ステップ702に戻って次の文書についての処理を続ける。
【0053】
上記の処理によって、文書プロファイルベクトルファイル111を作成する。例えば、図2の新聞記事全文データベースの文書1の文書プロファイルベクトルは、正規化因子sの値の計算値が92となったとすると、図4の単語辞書のキーワード番号を用いて、
(2/92,0,1/92,1/92,1/92,0,0,1/92,……)
のように算出されることになる。ここで、上記の文書プロファイルベクトルの第1成分はキーワード番号1の「あいさつ」に、第2成分はキーワード番号2の「IT」に、第3成分はキーワード番号3の「IT技術」に、それぞれ対応している。
【0054】
文書プロファイルベクトルファイル111の作成と並行して、キーワードプロファイルベクトルファイル109の作成を行う。図8は、キーワードプロファイルベクトルデータ算出の手順を示す流れ図である。図8において、
ステップ801:プロファイルベクトルを作成すべき、着目キーワード番号tを1に初期化し、
ステップ802:tが全キーワード数Mより大きい場合には、ステップ803に分岐して算出処理を終了させる。tがM以下の場合には、
ステップ804:文書番号dを1に、正規化因子sを0に、それぞれ初期化し、
ステップ805:キーワードtの文書d中での出現度数fdtをキーワード出現度数ファイル103から取得して正規化因子sに足し込み、
ステップ806:着目文書番号dを1増やし、
ステップ807:dが全文書数N以下の場合にはステップ805に戻って次の文書についての処理を行う。
【0055】
こうして、ステップ804〜ステップ807では、キーワードtの出現する文書の「のべ数」を求め、これを正規化因子sとしていることになる。
【0056】
このようにして、キーワードプロファイルベクトル算出モードに従って正規化因子sが求まったならば、
ステップ808:キーワードtのキーワードプロファイルベクトルを、相対出現頻度のベクトル(f1t/s,…,fNt/s)で算出して、キーワードプロファイルベクトルファイル109に出力し、
ステップ809:着目キーワード番号tを1増やし、ステップ802に戻って次のキーワードについての処理を続ける。
【0057】
上記の処理によって、キーワードプロファイルベクトルファイル109を作成する。
【0058】
例えば、図2の新聞記事全文データベースのキーワード番号1の「あいさつ」のキーワードプロファイルベクトルは、正規化因子sの値の計算値が283となったとすると、
(1/283,0,0,0,0,0,1/283,……)
のように算出されることになる。ここで、上記のキーワードプロファイルベクトルの第1成分は文書番号1の新聞記事中での「あいさつ」の相対出現頻度に、第2成分は文書番号2の新聞記事中での「あいさつ」の相対出現頻度に、それぞれ対応する。
【0059】
このように、「あいさつ」というキーワードの文書1での出現頻度の値が、文書側とキーワード側とで、異なる値に変換されてベクトルに組み込まれていることから、従来のLSI法でのキーワード出現度数データの変換方法とは異なり、主成分分析などの統計分析を施す前の文書、単語のベクトル表現が、本質的に異なるものになっていることが分かる。
【0060】
さらに、文書プロファイルベクトル、キーワードプロファイルベクトルのいずれも、文書長やキーワード重みには依存せずに定まっていることが分かる。
【0061】
文書、キーワードのそれぞれについてプロファイルベクトルファイルが作成できたら、次に、文書長とキーワード重みとを考慮してそれぞれのプロファイルベクトルデータの主成分分析を文書主成分分析手段114、キーワード主成分分析手段112において行い、各文書、キーワードの特徴ベクトル(K次元、「分析次元」パラメータとして予め定める)と、各次元の寄与度とを求める。
【0062】
文書データの主成分分析にあたっては、
(1)新聞記事全文データベース101中の2つの文書a,bの文書プロファイルベクトルP,P間の内積を、
・キーワード重みファイル107中に格納されている各キーワードtの重みw
・文書プロファイルベクトルP,Pの成分pat,pbtのばらつき度合い(即ち、標準偏差の評価値)である、キーワードtの新聞記事全文データベース101中での全出現度数hの、全キーワードの総出現度数fに対する割合h/fの平方根の2つの因子を考慮した、成分の重みつき積和
Σw*f/h*pat*pbt [数2]
(Σはt=1からMまで加算)
で算出する。
(2)文書長lの文書dの文書プロファイルベクトルが、文書dに出現する全キーワード数gを文書dの文書長lで除した、g/lに比例した個数だけ、主成分分析対象となる文書プロファイルベクトル集団に含まれていると見なして、主成分分析を実行する。
の2点を基本方針として分析処理を行う。
【0063】
上記2点の意味するところは以下のとおりである。まず、上記の(1)は、M次元の文書プロファイルベクトルの空間のM本の座標軸(各キーワードに対応する)の「目盛り」がそれぞれ異なっている「ゆがんだ空間」であって、かつ各キーワードtに関する座標軸が1本ではなく、キーワードの重みwに比例した本数分ある、と見なして内積を求めることに相当する。即ち、出現頻度に応じた各成分(=各キーワード)のばらつきが一定になるように、双方の文書プロファイルベクトルの成分を(h/f)1/2で除して掛け合わせ、さらにこの積がw個あるとして、キーワード重みを文書プロファイルベクトル間の内積に直接的に反映させる。
【0064】
また、上記の(2)は、各文書の重要度を、g/l、即ち単位文書長当たりに出現するキーワードの「のべ数」、つまりキーワードの出現密度として、N個の文書プロファイルベクトルの主成分分析の際に、各文書dのプロファイルベクトルが、この重要度に応じた本数だけ含まれているとして統計分析処理を行うことで、重要度の大きな文書を重視した分析がなされ、分析結果である特徴ベクトルに、間接的に各文書の重要度を反映させる。
【0065】
なお、文書プロファイルベクトルP,Pの成分pat,pbtのばらつき度合い、即ち標準偏差の評価値である「h/fの平方根」という式は、各キーワードtの文書d中の出現確率を、平均及び分散が(g*h)/fのポアソン分布で近似することによって導出することができる。ただし、gは文書d中に出現するキーワードの「のべ数」であり、fは新聞記事全文データベース中に出現するキーワードの「のべ数」である。
【0066】
図9は、このような考え方をもとにして、文書主成分分析手段114において、主成分分析を実行する手順を示した流れ図である。図9において、
ステップ901:まず、上記(1)の「ゆがんだ空間」を通常の空間、即ち、ベクトルの内積が成分の積和で求まるような空間に変形するような座標変換を、各文書プロファイルベクトルPに施し、
Xd=f1/2*W1/2*H−1/2*P [数3]
によって、変換後の文書プロファイルベクトルXを計算する。ただし、f1/2は新聞記事全文データベース中に出現するキーワードの「のべ数」fの平方根,W1/2はキーワードtのキーワード重みwの平方根w 1/2をt行t列の要素とするM行M列の対角行列、H−1/2はキーワードtの新聞記事全文データベース中での全出現度数hの平方根の逆数h −1/2をt行t列の要素とするM行M列の対角行列である。この変換を施すことにより、変換後の文書プロファイルベクトルXの内積が成分の積和で求まることは容易に確かめることができる。
【0067】
ステップ902:次いで、数3のXを第d列に持つM行N列の行列Xと、その転置行列X’から、
A=X*(G*L−1)*X’ [数4]
という、重み付きの文書相関行列データAを計算する。ただし、Gは、文書d中に出現するキーワードの「のべ数」gをd行d列に持つN行N列の対角行列、L−1は、文書dの文書長lの逆数l −1をd行d列に持つN行N列の対角行列である。
【0068】
ステップ903:続いて、この行列Aを数値的に固有値分解し、大きい方から順にK個の固有値λ,λ,…,λ及び、固有値に対応する正規化された(即ちノルムが1の)K本の固有ベクトルT,T,…Tを求める。
【0069】
ステップ904:最後に、各文書dの特徴ベクトルUを、変換された文書プロファイルベクトルXの、ステップ903で求めたK本の固有ベクトルへの射影を成分とするK次元ベクトル
Ud=(T・X ,T・X ,… ,T・X) [数5]
として求めて、K個の固有値λ,λ,…,λを「寄与度」として、N本のK次元ベクトルUを各文書の「特徴ベクトル」として文書主成分分析結果ファイル115に格納する。
【0070】
キーワードの主成分分析にあたっては、
(1)新聞記事全文データベース101中に現れる2つのキーワードa,bのキーワードプロファイルベクトルQa,Qb間の内積を、
・文書長ファイル105中に格納されている各文書dの文書長l
・キーワードプロファイルベクトルQ,Qの成分qad,qbdのばらつき度合い(即ち標準偏差の評価値)である、文書dに出現する、のべキーワード数gの、全キーワードの総出現度数fに対する割合g/fの平方根
の2つの因子を考慮した、成分の重みつき積和
Σf/(l*g)*qad*qbd [数6]
で算出する。
(2)キーワード重みwのキーワードtのキーワードプロファイルベクトルが、キーワードtの総出現度数hにキーワードtの重wを乗じた、h*wに比例した個数だけ、主成分分析対象となるキーワードプロファイルベクトル集団に含まれていると見なして、主成分分析を実行する。
の2点を基本方針として分析処理を実行する。
【0071】
上記2点の意味するところは以下のとおりである。
まず、上記の(1)は、N次元のキーワードプロファイルベクトルの空間のN本の座標軸(各文書に対応する)の「目盛り」がそれぞれ異なっている「ゆがんだ空間」であって、かつ各文書dに関する座標軸が1本ではなく、文書長lの逆数に比例した本数分ある、と見なして内積を求めることに相当する。即ち、出現頻度に応じた各成分(=各文書中での相対出現頻度)のばらつきが一定になるように、双方のキーワードプロファイルベクトルの成分を(g/f)1/2で除して掛け合わせ、さらにこの積がl −1個あるとして、文書長をキーワードプロファイルベクトル間の内積に直接的に反映させる。
【0072】
また、上記の(2)は、各キーワードの重要度を、h*wとして、M個のキーワードプロファイルベクトルの主成分分析の際に、各キーワードtのプロファイルベクトルが、この重要度に応じた本数だけ含まれているとして統計分析処理を行うことで、重要度の大きなキーワードを重視した分析がなされ、分析結果である特徴ベクトルに、間接的に各キーワードの重要度を反映させる。
【0073】
なお、キーワードプロファイルベクトルQ,Qの成分qad,qbdのばらつき度合い、即ち標準偏差の評価値である「g/fの平方根」という式は、各キーワードtの文書d中での出現確率を、平均及び分散が(g*h)/fのポアソン分布で近似することによって導出することができる。ただし、gは文書d中に出現するキーワードの「のべ数」であり、fは新聞記事全文データベース中に出現するキーワードの「のべ数」である。
【0074】
なお、このキーワード側の分析処理は、従来のLSI法の場合とは異なり、文書側の分析処理に影響を与えることなく行うことが可能になっている。
【0075】
図10は、このような考え方をもとにして、キーワード主成分分析手段112において、主成分分析を実行する手順を示した流れ図である。図10において、
ステップ1001:まず、上記(1)の「ゆがんだ空間」を通常の空間、即ち、ベクトルの内積が成分の積和で求まるような空間に変形するような座標変換を、各キーワードプロファイルベクトルQに施し、
=f1/2*L−1/2*G−1/2*Q [数7]
によって、変換後のキーワードプロファイルベクトルYを計算する。ただし、f1/2は新聞記事全文データベース中に出現するキーワードの「のべ数」fの平方根、L−1/2は文書dの文書長lの平方根の逆数l −1/2をd行d列の要素とするN行N列の対角行列,G−1/2は文書dに出現するキーワードの「のべ数」gの平方根の逆数g −1/2をd行d列の要素とするN行N列の対角行列である。この変換を施すことにより、変換後のキーワードプロファイルベクトルYの内積が成分の積和で求まることは容易に確かめることができる。
【0076】
ステップ1002:次に、数7のYを第d列に持つM行N列の行列Yと、その転置行列Y’から、
B=Y*(H*W)*Y’ [数8]
という、重み付きのキーワード相関行列データBを計算する。ただし、Hは、キーワードtの総出現度数hをt行t列に持つM行M列の対角行列、Wは、キーワードtの重みwをt行t列に持つM行M列の対角行列である。
【0077】
ステップ1003:続いて、この行列Bを数値的に固有値分解し、大きい方から順にK個の固有値θ,θ,…,θ及び、固有値に対応する正規化された(即ち、ノルムが1の)K本の固有ベクトルZ,Z,…Zを求める。
【0078】
ステップ1004:最後に、各キーワードtの特徴ベクトルVを、変換されたキーワードプロファイルベクトルYの、ステップ1003で求めたK本の固有ベクトルへの射影を成分とするK次元ベクトル
=(Z・Y ,Z・Y ,… ,Z・Y) [数9]
として求めて、K個の固有値θ,θ,…,θを「寄与度」として、M本のK次元ベクトルVを各キーワードの「特徴ベクトル」として、キーワード主成分分析結果ファイル113に格納する。
【0079】
以上のようにして、(ロ)の処理が完了し、キーワードプロファイルベクトルファイル109、文書プロファイルベクトルファイル111を経由して、キーワード主成分分析結果ファイル113及び文書主成分分析結果ファイル115が作成され、検索/抽出条件を受け付ける準備が整ったことになる。
【0080】
この時点で、類似文書検索・関連キーワード抽出条件が文書番号の列、またはキーワードの列のいずれかの形式で条件入力手段116に入力されると、(ハ)の類似文書検索・関連キーワード抽出処理が行われる。
【0081】
このうち、まず類似文書検索処理について、図面をもとに説明する。図11は、検索条件特徴ベクトル算定手段117における検索条件特徴ベクトル算出の手順を示す流れ図である。図11において、
ステップ1101:条件入力手段116からの入力文字列が文書番号の列か否かを判定し、入力が文書番号の列であると判定した場合には、ステップ1102に分岐し、そうでない場合には、入力はキーワードの列であると見なしてステップ1103に分岐する。具体的には、「0」から「9」までの数字列が1個以上、カンマ「,」で結合された文字列の場合には、入力文字列は文書番号の列であると判定することにする。
【0082】
ステップ1102:入力文字列が文書番号の列のときは、文書主成分分析結果ファイル115を参照して、入力された文書番号の列に含まれる文書dの特徴ベクトルUを取得し、その平均ベクトルR(各文書特徴ベクトルの和に、文書数rの逆数を乗じたベクトル)を算出する。
【0083】
ステップ1103:入力文字列がキーワードの列のときは、入力されたキーワードの列に含まれるr個のキーワードのキーワード番号に相当する成分のみが1/rであるようなM次元のベクトルEを作成し、
ステップ1104:キーワード主成分分析結果ファイル113、及びキーワード重みファイル107を参照して
R=Θ−1*V*W*E [数10]
によって、K次元のベクトルRを算出する。ただし、Θ−1はキーワード特徴ベクトルの各次元の寄与度θの逆数θ −1をj行j列に持つK行K列の対角行列、Vは、キーワード番号tのキーワード特徴ベクトルVを第t列に持つK行M列のキーワード特徴行列、Wは各キーワードの重みwをt行t列に持つM行M列の対角行列である。
【0084】
ステップ1105:ステップ1102、あるいはステップ1103〜1104で作成したK次元ベクトルRを検索条件特徴ベクトルとして、第1、第2の類似文書検索手段119、120に出力する。
【0085】
なお、ステップ1104においてベクトルRを求める際には、0でないEの成分に対応するキーワード重みw、及びキーワード特徴ベクトルVのみを、それぞれキーワード重みファイル107及びキーワード主成分分析結果ファイル113から取得すればよく、入力キーワード数rが数十個以下の場合には、ベクトルRの計算は高速に実行することができる。
【0086】
このようにして、検索条件特徴ベクトル算定手段117において検索条件特徴ベクトルRが求まると、第1の類似文書検索手段119では、文書主成分分析結果ファイル115に格納されている文書特徴ベクトルUとRとの内積の値が最も大きいα個(αは予め「表示類似文書数」パラメータとして設定しておく)の文書が計算され、α個の組(文書番号、Rとの内積)が結果表示手段123に送られる。
【0087】
同時に、第2の類似文書検索手段120では、文書主成分分析結果ファイル115に格納されている文書特徴ベクトルUとRとの距離の値が最も小さいα個の文書が計算され、α個の組(文書番号、Rとの距離)が結果表示手段123に送られる。
【0088】
ここで、ベクトルRに対して、内積が最も大きい、あるいは距離が最も小さいベクトルを、多数のベクトル中から効率よく求める方法については、例えば特願平11−363058号「ベクトル索引作成方法と類似ベクトル検索方法」に開示されており、この方法、あるいはその他、従来から知られているベクトル検索方法を援用することで、効率よくα個の類似文書を求めることができる。そのような類似ベクトルの高速検索方法の詳細は、本発明の骨子に影響を与えるものではないため、詳細な説明は省略する。
【0089】
次に、関連キーワード抽出処理について、図面をもとに説明する。図12は、抽出条件特徴ベクトル算定手段118における抽出条件特徴ベクトル算出の手順を示す流れ図である。図12において、
ステップ1201:条件入力手段116からの入力文字列が文書番号の列か否かを判定し、入力がキーワードの列であると判定した場合には、ステップ1202に分岐し、そうでない場合には、入力は文書番号の列であると見なしてステップ1203に分岐する。具体的には、「0」から「9」までの数字列が1個以上、カンマ「,」で結合された文字列の場合には、入力文字列は文書番号の列であると判定し、それ以外の場合には入力文字列はキーワードの列であると判定することにする。
【0090】
ステップ1202:入力文字列がキーワードの列であるときは、キーワード主成分分析結果ファイル113を参照して、入力されたキーワードの列に含まれるキーワードtの特徴ベクトルVを取得し、その平均ベクトルR(各キーワード特徴ベクトルの和に、キーワード数rの逆数を乗じたベクトル)を算出する。
【0091】
ステップ1203:入力文字列が文書番号の列であるときは、入力された文書番号の列に含まれるr個の文書の文書番号に相当する成分のみが1/rであるような、N次元のベクトルEを作成し、
ステップ1204:文書主成分分析結果ファイル115、及び文書長ファイル105を参照して
R=Λ−1*U*L−1*E [数11]
によって、K次元のベクトルRを算出する。ただし、Λ−1は文書特徴ベクトルの各次元の寄与度λの逆数λ −1をj行j列に持つK行K列の対角行列、Uは、文書番号dの文書特徴ベクトルUを第d列に持つK行N列の文書特徴行列、L−1は各文書dの文書長lをd行d列に持つN行N列の対角行列である。
【0092】
ステップ1205:ステップ1202、あるいはステップ1203〜1204で作成したK次元ベクトルRを抽出条件特徴ベクトルとして、第1、第2の関連キーワード抽出手段121、122に出力する。
【0093】
なお、ステップ1204においてベクトルRを求める際には、0でないEの成分に対応する文書長l、及び文書特徴ベクトルUのみを、それぞれ文書長ファイル105及び文書主成分分析結果ファイル115から取得すればよく、入力文書番号の個数rが数十個以下の場合には、ベクトルRの計算は高速に実行することができる。
【0094】
このようにして、抽出条件特徴ベクトル算定手段118において抽出条件特徴ベクトルRが求まると、第1の関連キーワード抽出手段121では、キーワード主成分分析結果ファイル113に格納されているキーワード特徴ベクトルVとRとの内積の値が最も大きいβ個(βは予め「表示関連キーワード数」パラメータとして設定しておく)のキーワードが計算され、β個の組(キーワード文字列、Rとの内積)が結果表示手段123に送られる。
【0095】
同時に、第2の関連キーワード抽出手段122では、キーワード主成分分析結果ファイル113に格納されているキーワード特徴ベクトルVとRとの距離の値が最も小さいβ個のキーワードが計算され、β個の組(キーワード文字列、Rとの距離)が結果表示手段123に送られる。
【0096】
ここで、ベクトルRに対して、内積が最も大きい、あるいは距離が最も小さいベクトルを、多数のベクトル中から効率よく求める方法については、例えば特願平11−363058号「ベクトル索引作成方法と類似ベクトル検索方法」に開示されており、この方法、あるいはその他、従来から知られているベクトル検索方法を援用することで、効率よくβ個の関連キーワードを求めることができる。そのような類似ベクトルの高速検索方法の詳細は、本発明の骨子に影響を与えるものではないため、詳細な説明は省略する。
【0097】
このようにして、2種類のα個の類似文書とβ個の関連キーワードとが求まったら、結果表示手段123において、文書類似度算出モード(「内積」または「距離」)及びキーワード関連度算出モード(「内積」または「距離」)の、2種のパラメータの設定値に応じて、内積、または距離による結果を選択し、β個のキーワードのキーワード文字列とその類似度の数値とを関連キーワード抽出結果として表示するとともに、α個の文書の文書番号から、新聞記事全文データベース101を参照して見出しを求め、α個の文書それぞれについて、「文書番号」、「見出し」、「類似度」の3項目を類似文書検索結果として表示する。
【0098】
このようにして(ハ)の処理が完了し、ある入力に対する類似文書検索/関連キーワード抽出処理が終了する。
【0099】
以上で、図1に示す類似文書検索・関連キーワード抽出システムの動作の説明を終わる。
【0100】
このように、本発明の実施形態における類似文書検索装置及び関連キーワード抽出装置では、着目した文書での各キーワードの出現頻度を文書プロファイルとしてベクトル表現し、また、着目したキーワードの各文書での出現頻度をキーワードプロファイルとしてベクトル表現し、文書長データ、キーワード重みデータ及び成分のばらつき(標準偏差)は、前記ベクトル表現の間の内積(類似度の1つの尺度)計算時の重み(成分の個数)、及び主成分分析時の重み(ベクトルの個数)として各プロファイルに別々に作用させている。
【0101】
この場合、文書プロファイル及びキーワードプロファイルでのベクトル表現は、出現頻度の変換(標準化)には依存しない。また、出現頻度の変換に関与する文書長データ、キーワード重みデータ及び成分のばらつきは、前記ベクトルの間の内積計算時の重み、及び主成分分析時の重みとして間接的に作用させているため、各文書及びキーワードの特徴ベクトルは、出現頻度の変換に依存せずに正規化することができる。
【0102】
そのため、本発明では、キーワードの出現頻度データFを直接変換した単一の行列データを統計分析する従来のLSI法による装置での基本的な課題、即ち、キーワードの出現頻度の変換に伴って生じていた非対称性や、文書の類似度や、キーワードの関連度が、文書/キーワードの併合によって食い違う非安定性などの課題を解決することができ、高精度な類似文書検索装置及び関連キーワード抽出装置を実現することができる。
【0103】
なお、本実施の形態においては、単語の切り出し、キーワードの抽出、文書長の算出、及びキーワード重みの算出を、特定の方法によって行っているが、本発明の骨子は、これらの特定の方法に依存するものではなく、文書データベースの種類や検索・抽出条件、検索・抽出意図などに応じて、種々の方法を用いることができ、その場合でも、従来のLSI法の場合とは異なって、主成分分析結果、ひいては類似文書検索結果や関連キーワード抽出結果に強い悪影響を及ぼすことがなく、いわゆる「穏やかな効き目」となって分析結果、検索/抽出結果に反映される。
【0104】
結果として、副作用を気にすることなく、文書データベースの種類や検索・抽出条件、検索・抽出意図などに応じた、単語の切り出し、キーワードの抽出、文書長の算出、キーワード重みの算出の方法を設定することができ、頑健なシステムの構築が可能となる。
【0105】
さらに、本実施の形態においては、内積、及び距離の両方の類似度に基づいて、類似文書の検索と関連キーワードの抽出との両方の処理を行うシステムについて説明したが、このうちの一部の機能が不要な場合には、不要な手段やファイルを省いた、図1のサブセットに当たるシステムを構築できることは言うまでもない。
【0106】
【発明の効果】
以上の説明から明らかなように、本発明の類似文書検索装置及び関連キーワード抽出装置は、従来技術の課題を克服し、高精度な類似文書の検索及び関連キーワードの抽出を実現することができる。
【0107】
特に、大規模な文書データベースを対象とする場合には、副作用を気にすることなく、文書データベースの種類や検索・抽出条件、検索・抽出意図などに応じた、単語の切り出し、キーワードの抽出、文書長の算出、キーワード重みの算出の方法を設定することができ、頑健で高精度なシステムの構築が可能となる。
【図面の簡単な説明】
【図1】第1の実施形態における類似文書検索・関連キーワード抽出システムの全体構成を表わすブロック図、
【図2】新聞記事全文データベースの内容の例、
【図3】キーワード抽出集計手段の内部構造を表わすブロック図、
【図4】キーワード抽出集計処理の一例を示す概念図、
【図5】文書長データの作成手順を記述した流れ図、
【図6】キーワード重みデータの作成手順を記述した流れ図、
【図7】文書プロファイルベクトルデータの作成手順を記述した流れ図、
【図8】キーワードプロファイルベクトルデータの作成手順を記述した流れ図、
【図9】文書プロファイルベクトルデータの主成分分析の手順を記述した流れ図、
【図10】キーワードプロファイルベクトルデータの主成分分析の手順を記述した流れ図、
【図11】検索条件特徴ベクトル算出の手順を示した流れ図、
【図12】抽出条件特徴ベクトル算出の手順を示した流れ図である。
【符号の説明】
101 新聞記事全文データベース
102 キーワード抽出集計手段
103 キーワード出現度数ファイル
104 文書長算定手段
105 文書長ファイル
106 キーワード重み算定手段
107 キーワード重みファイル
108 キーワードプロファイルベクトル作成手段
109 キーワードプロファイルベクトルファイル
110 文書プロファイルベクトル作成手段
111 文書プロファイルベクトルファイル
112 キーワード主成分分析手段
113 キーワード主成分分析結果ファイル
114 文書主成分分析手段
115 文書主成分分析結果ファイル
116 条件入力手段
117 検索条件特徴ベクトル算定手段
118 抽出条件特徴ベクトル算定手段
119 第1の類似文書検索手段
120 第2の類似文書検索手段
121 第1の関連キーワード抽出手段
122 第2の関連キーワード抽出手段
123 結果表示手段
301 単語切り出し手段
302 単語辞書
303 キーワード選別手段
304 不要語辞書
305 キーワード集計手段

Claims (18)

  1. N個の文書データを集めた、合計M種類のキーワードを含む、機械処理可能な文書データベースDから、前記文書データベースDに含まれる1つ以上のキーワードy1,…,ysを検索条件として指定して、前記検索条件と関連する前記文書データベースD中の文書を検索する装置であって、
    前記文書データベースD中の各文書dに出現する各キーワードtの出現度数fdtを記録したキーワード出現度数データFを算出するキーワード出現度数算定手段と、
    前記各文書dの長さldを記録した文書長データLを算出する文書長算定手段と、
    前記文書データベースD中に出現する、M種類のキーワードについて、各キーワードtの重みwtを記録したキーワード重みデータWを算出するキーワード重み算定手段と、
    前記各文書dについて、着目文書d中の各キーワードtの相対出現頻度pdtを成分とするM次元の文書プロファイルベクトルPdを算出する文書プロファイルベクトル算定手段と、
    前記文書データベースD中に出現する各キーワードtについて、各文書d中での着目キーワードtの相対出現頻度qdtを成分とするN次元のキーワードプロファイルベクトルQtを算出するキーワードプロファイルベクトル算定手段と、
    前記文書データベースD中の文書群の文書プロファイルベクトル集団の主成分分析を実施して、前記各文書dについて、前記文書プロファイルベクトルPdに対応する、固定(K)次元の文書特徴ベクトルUdを求める文書主成分分析手段と、
    前記文書データベースD中のキーワード群のキーワードプロファイルベクトル集団の主成分分析を実施して、前記各キーワードtについて、前記キーワードプロファイルベクトルQtに対応する、前記文書特徴ベクトルと同一次元の、固定(K)次元のキーワード特徴ベクトルVtと、各次元jのキーワード寄与度θjとを求めるキーワード主成分分析手段と、
    キーワードy1,…,ysを検索条件として受け取り、受け取ったキーワード群の前記単語重みデータと、前記キーワード特徴ベクトルと、前記キーワード寄与度とから、前記検索条件に対応する検索条件特徴ベクトルを算定する検索条件特徴ベクトル算定手段と、
    算定された前記検索条件特徴ベクトルと、前記各文書dの文書特徴ベクトルとを用いて、前記検索条件と各文書dとの類似度を算定し、類似度の高い文書から、指定された文書数だけ求めて出力する類似文書検索手段と
    を備えることを特徴とする類似文書検索装置。
  2. 前記類似文書検索手段は、前記検索条件特徴ベクトルと、前記各文書dの文書特徴ベクトルとの内積の値から、前記検索条件と各文書dとの類似度を算定することを特徴とする請求項1に記載の類似文書検索装置。
  3. 前記類似文書検索手段は、前記検索条件特徴ベクトルと、前記各文書dの文書特徴ベクトルとの距離の値から、前記検索条件と各文書dとの類似度を算定することを特徴とする請求項1に記載の類似文書検索装置。
  4. N個の文書データを集めた、合計M種類のキーワードを含む、機械処理可能な文書データベースDから、前記文書データベースDに含まれる1つ以上の文書x1,…,xrを抽出条件として指定し、前記抽出条件の文書群と関連性のある、前記文書データベースD中に出現するキーワードを抽出する装置であって、
    前記文書データベースD中の各文書dに出現する各キーワードtの出現度数fdtを記録したキーワード出現度数データFを算出するキーワード出現度数算定手段と、
    前記各文書dの長さldを記録した文書長データLを算出する文書長算定手段と、
    前記文書データベースD中に出現する、M種類のキーワードについて、各キーワードtの重みwtを記録したキーワード重みデータWを算出するキーワード重み算定手段と、
    前記各文書dについて、着目文書d中の各キーワードtの相対出現頻度pdtを成分とするM次元の文書プロファイルベクトルPdを算出する文書プロファイルベクトル算定手段と、
    前記文書データベースD中に出現する各キーワードtについて、各文書d中での着目キーワードtの相対出現頻度qdtを成分とするN次元のキーワードプロファイルベクトルQtを算出するキーワードプロファイルベクトル算定手段と、
    前記文書データベースD中の文書群の文書プロファイルベクトル集団の主成分分析を実施して、前記各文書dについて、文書プロファイルベクトルPdに対応する、固定(K)次元の文書特徴ベクトルUdと、各次元jの文書寄与度λjとを求める文書主成分分析手段と、
    前記文書データベースD中のキーワード群のキーワードプロファイルベクトル集団の主成分分析を実施して、前記文書データベースD中の各キーワードtについて、キーワードプロファイルベクトルQtに対応する、前記文書特徴ベクトルと同一次元の、固定(K)次元のキーワード特徴ベクトルVtを求めるキーワード主成分分析手段と、
    文書x1,…,xrを抽出条件として受け取り、受け取った文書群の前記文書長データと、前記文書特徴ベクトルと、前記文書寄与度とから、前記抽出条件に対応する、抽出条件特徴ベクトルを算定する、抽出条件特徴ベクトル算定手段と、
    算定された前記抽出条件特徴ベクトルと、前記文書データベースD中に出現する各キーワードtのキーワード特徴ベクトルとを用いて、前記抽出条件と各キーワードtとの関連度を算定し、関連度の高いキーワードから、指定されたキーワード数だけ求めて出力する関連キーワード抽出手段とを備えることを特徴とする関連キーワード抽出装置。
  5. 前記関連キーワード抽出手段は、前記抽出条件特徴ベクトルと、前記文書データベースD中に出現する各キーワードtのキーワード特徴ベクトルとの内積の値から、前記抽出条件と各キーワードtとの関連度を算定することを特徴とする請求項4に記載の関連キーワード抽出装置。
  6. 前記類似文書検索手段は、前記抽出条件特徴ベクトルと、前記文書データベースD中に出現する各キーワードtのキーワード特徴ベクトルとの距離の値から、前記抽出条件と各キーワードtとの関連度を算定することを特徴とする請求項4に記載の関連キーワード抽出装置。
  7. 前記文書主成分分析手段は、前記文書データベースD中の2つの文書a,bの文書プロファイルベクトルPa,Pb間の内積を、前記キーワード重みデータWと、前記文書プロファイルベクトルPa,Pbの成分pat,pbtのばらつき度合いとを考慮した、成分の重みつき積和で算定し、かつ、文書長ldの文書dの文書プロファイルベクトルが、文書dに出現する全キーワード数gdを前記文書長ldで除した、gd/ldに比例した個数だけ前記文書プロファイルベクトル集団に含まれていると見なして、前記主成分分析を行うことを特徴とする請求項1に記載の類似文書検索装置
  8. 前記キーワード主成分分析手段は、前記文書データベースD中の2つのキーワードα,βのキーワードプロファイルベクトルQα,Qβ間の内積を、前記文書長データLと、前記キーワードプロファイルベクトルQα,Qβの成分qαd,pβdのばらつき度合いとを考慮した、成分の重みつき積和で算定し、かつ、単語重みwtのキーワードtのキーワードプロファイルベクトルが、キーワードtの全出現度数htにキーワードの重みwtを乗じた、ht*wtに比例した個数だけ、主成分分析対象となるキーワードプロファイルベクトル集団に含まれていると見なして、前記主成分分析を行うことを特徴とする請求項1に記載の類似文書検索装置
  9. 前記文書長算定手段は、着目文書dの文字数が、予め定めたしきい値l0未満の場合には、前記着目文書dの長さをl0として記録し、前記しきい値l0以上の場合には、前記着目文書dの長さを、前記文字数のδ乗根(δは1以上の整数)として記録することを特徴とする請求項1に記載の類似文書検索装置
  10. 前記文書長算定手段は、着目文書に出現するキーワードののべ数が、予め定めたしきい値l0未満の場合には、着目文書dの長さをl0として記録し、前記しきい値l0以上の場合には、着目文書dの長さを、前記のべ数のδ乗根(δは1以上の整数)として記録することを特徴とする請求項1に記載の類似文書検索装置
  11. 前記キーワード重み算定手段は、着目キーワードtの重みwtを、全文書数Nに一定値εを加えた数(N+ε)を、前記着目キーワードtの出現する文書数nに前記εを加えた値(n+ε)で除した値(N+ε)/(n+ε)の、2を底とする対数に1を加えた、
    1+log2((N+ε)/(n+ε))
    によって算出し記録することを特徴とする請求項1に記載の類似文書検索装置
  12. 前記キーワード重み算定手段は、着目キーワードtの重みwtを、全文書数Nに一定値ε+1を加えた数(N+ε+1)を、前記着目キーワードtの出現する文書数nに前記εを加えた値(n+ε)で除した値(N+ε+1)/(n+ε)の、2を底とする対数
    log2((N+ε+1)/(n+ε))
    によって算出し記録することを特徴とする請求項1に記載の類似文書検索装置
  13. 前記文書プロファイルベクトル算出手段は、着目文書d中の各キーワードtの相対出現頻度pdtの算出を、着目文書d中での各キーワードtの出現度数fdtを、着目文書d中に出現する全てのキーワードjの出現度数の総和Σfdjで割ることによって行うことを特徴とする請求項1に記載の類似文書検索装置
  14. 前記キーワードプロファイルベクトル算出手段は、各文書d中での着目キーワードtの相対出現頻度qdtの算出を、各文書d中での着目キーワードtの出現度数fdtを、着目キーワードtが出現する全ての文書i中での着目キーワードtの出現度数の総和Σfitで割ることによって行うことを特徴とする請求項1に記載の類似文書検索装置
  15. 前記文書主成分分析手段は、前記文書データベースD中の各文書dの文書プロファイルベクトルPdの、キーワードtに対応する成分pdtのばらつき度合いを、キーワードtの全出現度数htの、全キーワードの総出現度数fに対する割合ht/fの平方根であるとして前記文書特徴ベクトルを求めることを特徴とする請求項7に記載の類似文書検索装置
  16. 前記文書主成分分析手段は、前記文書データベースD中の2つの文書a,bの文書プロファイルベクトルPa,Pb間の内積を、Pa,Pbの、キーワードtに対応する成分pat,pbtを、それぞれの成分のばらつき度合いで除してから掛け合わせ、さらに、キーワード重みデータwtを乗じた値を、すべてのキーワードtについて総和をとって算定することを特徴とする請求項7に記載の類似文書検索装置
  17. 前記キーワード主成分分析手段は、前記文書データベースD中の各キーワードtのキーワードプロファイルベクトルQtの、文書dに対応する成分qtdのばらつき度合いを、文書dに出現する全キーワード数gdの、全キーワードの総出現度数fに対する割合gd/fの平方根であるとしてキーワード特徴ベクトルを求めることを特徴とする請求項8に記載の類似文書検索装置
  18. 前記キーワード主成分分析手段は、前記文書データベースD中の2つのキーワードα,βのキーワードプロファイルベクトルQα,Qβ間の内積を、Qα,Qβの、文書dに対応する成分qαd,qβdを、それぞれの成分のばらつき度合いで除してから掛け合わせ、さらに、文書長ldで除した値を、すべての文書dについて総和をとって算定することを特徴とする請求項8に記載の類似文書検索装置
JP2000195075A 2000-06-28 2000-06-28 類似文書検索装置及び関連キーワード抽出装置 Expired - Lifetime JP3573688B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000195075A JP3573688B2 (ja) 2000-06-28 2000-06-28 類似文書検索装置及び関連キーワード抽出装置
US09/892,700 US6671683B2 (en) 2000-06-28 2001-06-28 Apparatus for retrieving similar documents and apparatus for extracting relevant keywords
EP01305637A EP1168202A3 (en) 2000-06-28 2001-06-28 Apparatus for retrieving similar documents and apparatus for extracting relevant keywords

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000195075A JP3573688B2 (ja) 2000-06-28 2000-06-28 類似文書検索装置及び関連キーワード抽出装置

Publications (2)

Publication Number Publication Date
JP2002014999A JP2002014999A (ja) 2002-01-18
JP3573688B2 true JP3573688B2 (ja) 2004-10-06

Family

ID=18693803

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000195075A Expired - Lifetime JP3573688B2 (ja) 2000-06-28 2000-06-28 類似文書検索装置及び関連キーワード抽出装置

Country Status (3)

Country Link
US (1) US6671683B2 (ja)
EP (1) EP1168202A3 (ja)
JP (1) JP3573688B2 (ja)

Families Citing this family (239)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000043909A1 (fr) * 1999-01-21 2000-07-27 Sony Corporation Procede et dispositif de traitement de documents et support d'enregistrement
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2002230035A (ja) * 2001-01-05 2002-08-16 Internatl Business Mach Corp <Ibm> 情報整理方法、情報処理装置、情報処理システム、記憶媒体、およびプログラム伝送装置
US8849716B1 (en) * 2001-04-20 2014-09-30 Jpmorgan Chase Bank, N.A. System and method for preventing identity theft or misuse by restricting access
US7225120B2 (en) * 2001-05-30 2007-05-29 Hewlett-Packard Development Company, L.P. Method of extracting important terms, phrases, and sentences
US20030004996A1 (en) * 2001-06-29 2003-01-02 International Business Machines Corporation Method and system for spatial information retrieval for hyperlinked documents
US7188141B2 (en) * 2001-06-29 2007-03-06 International Business Machines Corporation Method and system for collaborative web research
US7117434B2 (en) 2001-06-29 2006-10-03 International Business Machines Corporation Graphical web browsing interface for spatial data navigation and method of navigating data blocks
JP2003132090A (ja) * 2001-10-26 2003-05-09 Olympus Optical Co Ltd 類似データ検索装置および方法
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
JP2004086845A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
US7386442B2 (en) 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
AU2003256456A1 (en) * 2002-07-03 2004-01-23 Word Data Corp. Text-representation, text-matching and text-classification code, system and method
US7003516B2 (en) 2002-07-03 2006-02-21 Word Data Corp. Text representation and method
US7024408B2 (en) 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US7016895B2 (en) 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
US7181451B2 (en) 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
TWI289770B (en) * 2002-08-16 2007-11-11 Via Tech Inc Keyword register system of articles and computer readable recording medium
US7194455B2 (en) 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US20040073531A1 (en) * 2002-10-09 2004-04-15 International Business Machines Corporation Method, system and program product for automatically linking web documents
JP3974511B2 (ja) 2002-12-19 2007-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム
US20040139042A1 (en) * 2002-12-31 2004-07-15 Schirmer Andrew L. System and method for improving data analysis through data grouping
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
GB0302640D0 (en) * 2003-02-06 2003-03-12 Rolls Royce Plc Database arrangement
US7421418B2 (en) * 2003-02-19 2008-09-02 Nahava Inc. Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
US7483877B2 (en) * 2003-04-11 2009-01-27 International Business Machines Corporation Dynamic comparison of search systems in a controlled environment
JP2004348591A (ja) * 2003-05-23 2004-12-09 Canon Inc 文書検索方法及び装置
US7854009B2 (en) * 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
GB2403558A (en) * 2003-07-02 2005-01-05 Sony Uk Ltd Document searching and method for presenting the results
GB0316806D0 (en) * 2003-07-17 2003-08-20 Ivis Group Ltd Improved search engine
JP2005043977A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
JP4074564B2 (ja) * 2003-07-30 2008-04-09 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置
US8869061B1 (en) 2003-08-29 2014-10-21 Microsoft Corporation User interface for searching an electronic document
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
TW200512599A (en) * 2003-09-26 2005-04-01 Avectec Com Inc Method for keyword correlation analysis
US7590936B1 (en) * 2003-09-30 2009-09-15 Microsoft Corporation Method for extracting information associated with a search term
US7370034B2 (en) * 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US7231399B1 (en) * 2003-11-14 2007-06-12 Google Inc. Ranking documents based on large data sets
US7725487B2 (en) * 2003-12-01 2010-05-25 National Institute Of Information And Communications Technology Content synchronization system and method of similar web pages
JP4428036B2 (ja) * 2003-12-02 2010-03-10 ソニー株式会社 情報処理装置および方法、プログラム、並びに、情報処理システムおよび方法
US7584221B2 (en) 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US20060031317A1 (en) * 2004-06-04 2006-02-09 Wanrong Lin System for synthesizing instant message and presence attributes from polled, queried and event information sources
US20070074102A1 (en) * 2005-09-29 2007-03-29 Reiner Kraft Automatically determining topical regions in a document
US20070083429A1 (en) * 2005-10-11 2007-04-12 Reiner Kraft Enabling contextually placed ads in print media
US8819051B2 (en) * 2005-09-29 2014-08-26 Yahoo! Inc. Tagging offline content with context-sensitive search-enabling keywords
JP4484643B2 (ja) 2004-09-10 2010-06-16 独立行政法人科学技術振興機構 時系列データ異常判定用プログラム及び時系列データ異常判別方法
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
TWI254880B (en) * 2004-10-18 2006-05-11 Avectec Com Inc Method for classifying electronic document analysis
US7814105B2 (en) * 2004-10-27 2010-10-12 Harris Corporation Method for domain identification of documents in a document database
US7440947B2 (en) * 2004-11-12 2008-10-21 Fuji Xerox Co., Ltd. System and method for identifying query-relevant keywords in documents with latent semantic analysis
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
JP4524640B2 (ja) * 2005-03-31 2010-08-18 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7765208B2 (en) * 2005-06-06 2010-07-27 Microsoft Corporation Keyword analysis and arrangement
US7599917B2 (en) 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
JP2007072646A (ja) * 2005-09-06 2007-03-22 Internatl Business Mach Corp <Ibm> 検索装置、検索方法およびプログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8095876B1 (en) * 2005-11-18 2012-01-10 Google Inc. Identifying a primary version of a document
JP4923604B2 (ja) * 2006-02-13 2012-04-25 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2007241451A (ja) * 2006-03-06 2007-09-20 Fuji Xerox Co Ltd 情報収集支援装置
JP2007241888A (ja) * 2006-03-10 2007-09-20 Sony Corp 情報処理装置および方法、並びにプログラム
JP2007257369A (ja) * 2006-03-23 2007-10-04 Fujitsu Ltd 情報検索装置
US8046363B2 (en) * 2006-04-13 2011-10-25 Lg Electronics Inc. System and method for clustering documents
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP2008217481A (ja) * 2007-03-05 2008-09-18 Nec Corp 関連情報提供システム、関連情報提供プログラム、関連情報提供方法
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8046372B1 (en) * 2007-05-25 2011-10-25 Amazon Technologies, Inc. Duplicate entry detection system and method
US7814107B1 (en) 2007-05-25 2010-10-12 Amazon Technologies, Inc. Generating similarity scores for matching non-identical data strings
US7908279B1 (en) 2007-05-25 2011-03-15 Amazon Technologies, Inc. Filtering invalid tokens from a document using high IDF token filtering
CN101785000B (zh) * 2007-06-25 2013-04-24 谷歌股份有限公司 词概率确定方法和系统
US8280872B1 (en) * 2007-08-23 2012-10-02 Adobe Systems Incorporated Automated routing of forum postings
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US7895225B1 (en) 2007-12-06 2011-02-22 Amazon Technologies, Inc. Identifying potential duplicates of a document in a document corpus
JP4466733B2 (ja) * 2007-12-14 2010-05-26 ソニー株式会社 コンテンツ処理装置および方法、プログラム、並びに記録媒体
US7925652B2 (en) * 2007-12-31 2011-04-12 Mastercard International Incorporated Methods and systems for implementing approximate string matching within a database
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20090198677A1 (en) * 2008-02-05 2009-08-06 Nuix Pty.Ltd. Document Comparison Method And Apparatus
JP4849087B2 (ja) * 2008-03-27 2011-12-28 ブラザー工業株式会社 コンテンツ管理システム及びコンテンツ管理方法
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
JP5244452B2 (ja) * 2008-05-15 2013-07-24 日本電信電話株式会社 文書特徴表現計算装置、及びプログラム
US20090307003A1 (en) * 2008-05-16 2009-12-10 Daniel Benyamin Social advertisement network
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
US8806455B1 (en) * 2008-06-25 2014-08-12 Verint Systems Ltd. Systems and methods for text nuclearization
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8462123B1 (en) * 2008-10-21 2013-06-11 Google Inc. Constrained keyboard organization
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8504550B2 (en) * 2009-05-15 2013-08-06 Citizennet Inc. Social network message categorization systems and methods
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9223854B2 (en) * 2009-10-14 2015-12-29 Hewlett-Packard Development Company, L.P. Document relevance determining method and computer program
CN102053992B (zh) * 2009-11-10 2014-12-10 阿里巴巴集团控股有限公司 聚类方法和系统
KR101419623B1 (ko) * 2009-12-09 2014-07-15 인터내셔널 비지네스 머신즈 코포레이션 검색 키워드로부터 문서 데이터를 검색하는 방법, 그 컴퓨터 시스템 및 컴퓨터 프로그램
US8554854B2 (en) * 2009-12-11 2013-10-08 Citizennet Inc. Systems and methods for identifying terms relevant to web pages using social network messages
JP5284990B2 (ja) 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102193934B (zh) * 2010-03-11 2013-05-29 株式会社理光 用于寻找图像集合中的代表性图像的系统和方法
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8713021B2 (en) * 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9779168B2 (en) 2010-10-04 2017-10-03 Excalibur Ip, Llc Contextual quick-picks
US8612293B2 (en) 2010-10-19 2013-12-17 Citizennet Inc. Generation of advertising targeting information based upon affinity information obtained from an online social network
US8615434B2 (en) 2010-10-19 2013-12-24 Citizennet Inc. Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8856056B2 (en) * 2011-03-22 2014-10-07 Isentium, Llc Sentiment calculus for a method and system using social media for event-driven trading
CN103339628A (zh) 2011-03-30 2013-10-02 日本电气株式会社 数据相关度评估设备、数据相关度评估方法和记录介质
US9063927B2 (en) 2011-04-06 2015-06-23 Citizennet Inc. Short message age classification
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9002892B2 (en) 2011-08-07 2015-04-07 CitizenNet, Inc. Systems and methods for trend detection using frequency analysis
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9792355B2 (en) * 2011-10-25 2017-10-17 Intelligent Views Gmbh Searches for similar documents
US9075498B1 (en) 2011-12-22 2015-07-07 Symantec Corporation User interface for finding similar documents
US9501566B1 (en) 2012-01-17 2016-11-22 Veritas Technologies Llc User interface for transparent concept search
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20130311362A1 (en) 2012-04-26 2013-11-21 Mastercard International Incorporated Systems and methods for verifying payee information in electronic payments
US9053497B2 (en) 2012-04-27 2015-06-09 CitizenNet, Inc. Systems and methods for targeting advertising to groups with strong ties within an online social network
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP6093200B2 (ja) * 2013-02-05 2017-03-08 日本放送協会 情報検索装置及び情報検索プログラム
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
JP6134225B2 (ja) * 2013-08-05 2017-05-24 日本放送協会 推薦理由提示装置及び推薦理由提示プログラム
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
CN105468657B (zh) * 2014-09-26 2019-06-04 北大方正集团有限公司 一种获取领域重要知识点的方法和系统
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10102280B2 (en) * 2015-08-31 2018-10-16 International Business Machines Corporation Determination of expertness level for a target keyword
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9971791B2 (en) * 2015-09-16 2018-05-15 Adobe Systems Incorporated Method and apparatus for clustering product media files
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10140285B2 (en) * 2016-06-15 2018-11-27 Nice Ltd. System and method for generating phrase based categories of interactions
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102398386B1 (ko) * 2016-11-03 2022-05-16 삼성전자주식회사 복수 개의 메시지들을 필터링하는 방법 및 이를 위한 장치
US11115359B2 (en) 2016-11-03 2021-09-07 Samsung Electronics Co., Ltd. Method and apparatus for importance filtering a plurality of messages
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10929218B2 (en) 2018-05-16 2021-02-23 Nec Corporation Joint semantic and format similarity for large scale log retrieval
US11120033B2 (en) 2018-05-16 2021-09-14 Nec Corporation Computer log retrieval based on multivariate log time series
US11132248B2 (en) 2018-11-29 2021-09-28 Nec Corporation Automated information technology system failure recommendation and mitigation
CN110838287B (zh) * 2019-10-16 2022-04-19 中国第一汽车股份有限公司 车载环境下聊天机器人的语料处理方法、装置及存储介质
KR102448061B1 (ko) * 2019-12-11 2022-09-27 네이버 주식회사 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템
CN112395854B (zh) * 2020-12-02 2022-11-22 中国标准化研究院 一种标准要素的一致性检验方法
CN113642026A (zh) * 2021-08-31 2021-11-12 立信(重庆)数据科技股份有限公司 查询区块链上事件处理数据的方法及其设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
JPH03129472A (ja) * 1989-07-31 1991-06-03 Ricoh Co Ltd 文書検索装置における処理方法
JP3155033B2 (ja) * 1991-09-13 2001-04-09 日本電信電話株式会社 類似尺度構成処理方法
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
US5694594A (en) * 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
JP3916007B2 (ja) * 1996-08-01 2007-05-16 高嗣 北川 意味情報処理方法及びその装置
JP3523027B2 (ja) * 1996-09-13 2004-04-26 株式会社東芝 情報フィルタリング装置および情報フィルタリング方法
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
JPH1173415A (ja) * 1997-08-27 1999-03-16 Toshiba Corp 類似文書検索装置及び類似文書検索方法
JP3497712B2 (ja) * 1997-12-01 2004-02-16 株式会社エヌ・ティ・ティ・データ 情報フィルタリング方法、装置及びシステム
WO2000033215A1 (en) * 1998-11-30 2000-06-08 Justsystem Corporation Term-length term-frequency method for measuring document similarity and classifying text
US6424997B1 (en) * 1999-01-27 2002-07-23 International Business Machines Corporation Machine learning based electronic messaging system
US6477551B1 (en) * 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system

Also Published As

Publication number Publication date
US20020016787A1 (en) 2002-02-07
US6671683B2 (en) 2003-12-30
JP2002014999A (ja) 2002-01-18
EP1168202A2 (en) 2002-01-02
EP1168202A3 (en) 2004-01-14

Similar Documents

Publication Publication Date Title
JP3573688B2 (ja) 類似文書検索装置及び関連キーワード抽出装置
US7194471B1 (en) Document classification system and method for classifying a document according to contents of the document
US5684999A (en) Apparatus and a method for retrieving image objects based on correlation with natural language sentence parameters
US20060123036A1 (en) System and method for identifying relationships between database records
JP4711761B2 (ja) データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体
CN101138001A (zh) 学习处理方法和学习处理装置以及程序
CN106294733A (zh) 基于文本分析的网页检测方法
CN106294736A (zh) 基于关键词频率的文本特征提取方法
JPWO2014002775A1 (ja) 同義語抽出システム、方法および記録媒体
CN101350027A (zh) 内容检索设备和内容检索方法
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN111968700A (zh) 一种基于bert的水稻表型组学知识图谱关系提取方法及系统
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN108319583A (zh) 从中文语料库提取知识的方法与系统
CN110990003B (zh) 一种基于词嵌入技术的api推荐方法
JP6340351B2 (ja) 情報検索装置、辞書作成装置、方法、及びプログラム
JP4143234B2 (ja) 文書分類装置、文書分類方法及び記憶媒体
Elbarougy et al. Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers.
JP2000163437A (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
Polus et al. Development for performance of Porter Stemmer algorithm
JP7427510B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20230081077A1 (en) Document creation support apparatus, document creation support method and document creation support program
JP5137134B2 (ja) 感性情報抽出・検索装置、その方法およびプログラム
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Uzun Scraping relevant images from web pages without download

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040629

R150 Certificate of patent or registration of utility model

Ref document number: 3573688

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070709

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080709

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090709

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090709

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100709

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110709

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110709

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120709

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120709

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 9

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term