JP2002169834A - 文書のベクトル解析を行うコンピュータおよび方法 - Google Patents

文書のベクトル解析を行うコンピュータおよび方法

Info

Publication number
JP2002169834A
JP2002169834A JP2000353475A JP2000353475A JP2002169834A JP 2002169834 A JP2002169834 A JP 2002169834A JP 2000353475 A JP2000353475 A JP 2000353475A JP 2000353475 A JP2000353475 A JP 2000353475A JP 2002169834 A JP2002169834 A JP 2002169834A
Authority
JP
Japan
Prior art keywords
document
vector
segment
sum
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000353475A
Other languages
English (en)
Other versions
JP2002169834A5 (ja
Inventor
Takahiko Kawatani
隆彦 川谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Priority to JP2000353475A priority Critical patent/JP2002169834A/ja
Priority to EP08103139A priority patent/EP1944757A3/en
Priority to US10/380,264 priority patent/US7562066B2/en
Priority to PCT/US2001/045599 priority patent/WO2002041557A2/en
Priority to EP08103135A priority patent/EP1944756A3/en
Priority to CNB018175805A priority patent/CN1227614C/zh
Priority to EP01996067A priority patent/EP1336174A4/en
Publication of JP2002169834A publication Critical patent/JP2002169834A/ja
Publication of JP2002169834A5 publication Critical patent/JP2002169834A5/ja
Priority to US12/424,801 priority patent/US8171026B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】与えられた文書から重要文を抽出する、2つの
文書の類似度を判定するなどの解析を行う方法および文
書の表現方法を提供する。 【解決手段】 入力文書を適当な単位の文書セグメント
に区分けし、文書セグメントに出現する用語の出現頻度
に応じた値を成分とする文書セグメントのベクトルを生
成し、文書セグメントの平方和行列の固有値および固有
ベクトルを用いて文書セグメントベクトルの集合を表現
する。文書セグメントベクトルのランクがRで示される
平方和行列の固有ベクトルおよび固有値を求め、前記複
数の固有ベクトルから重要度判定に使用する複数Lの固
有ベクトルを選択し、選択されたそれぞれの固有ベクト
ルへのそれぞれの文書セグメントベクトルの射影値の重
み付き自乗和を求め、それぞれの文書セグメントベクト
ルの射影値の自乗和に基づいて重要度の大きい文書セグ
メントを選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書の検索、分類、
要約をはじめとする自然言語処理に関し、より具体的に
は、文書の表現方法、入力文書から重要な部分を抽出す
る方法、および文書間の類似性を判定する方法に関す
る。
【0002】
【従来の技術】文書から重要な部分を抽出する処理は文
書の要約処理における重要な処理の一つとなっており、
文書を構成する各文に対して重要度を定量的に与え、重
要度の高い文を抽出するのが基本である。文書の要約処
理に関する最近の動向については、自然言語処理誌第6
巻第6号(1999年7月)に掲載されている「テキスト自動
要約に関する研究動向」(著者:奥村学、難波英嗣)に
詳しい。その中で、重要度評価に用いられる特徴とし
て、(1)文書中の用語の頻度、(2)文書中での位置情報、
(3)文書のタイトル情報、(4)文間の関係を解析したテキ
スト構造など7つの特徴が紹介されている。これらのう
ち、(1)の文書中の用語の頻度情報は、文書中で出現頻
度の高い内容語は文書の主題を示す傾向があることか
ら、基本的な特徴となっている。(1)を用いる具体的な
方法としては、各用語をその文書内での出現頻度によっ
て重みを与え、文の重要度を文に含まれる各用語の重み
の総和によって定義する方法、各用語の重み付けに出現
頻度のみならず文書集合の中で各用語を含む文書の数の
情報も併せて用いる方法などがある。
【0003】また、上記文献では動的な文書要約につい
ても述べられている。その必要性は、情報検索の際にユ
ーザに検索結果を提示するときに、ユーザの質問に関連
した重要部分を要約の形で表示し、検索された文書がユ
ーザの質問に適ったものかどうかを素早く的確に判断し
てもらうことにある。また、これまで考案された手法の
ひとつとして、文書中の用語の頻度などを用いて求めら
れた文の重要度に、質問文中の用語が対象文の中に出現
する頻度に応じたスコアを加味することによって質問文
との関連を反映した重要文を抽出する方法が紹介されて
いる。
【0004】また、文書の類似性の判定処理は、文書の
検索、特にユーザの指定した文書と類似する文書を検索
する類似検索、文書の自動分類において不可欠な処理で
ある。文書の類似性の判定処理においては、文書をベク
トルの形で表すことが多く行われている。ここで、文書
全体を用いて作成されたベクトルを文書ベクトル、文書
の一部から作成されたものを文書セグメントベクトル、
特に文から作成されたものを文ベクトルと呼ぶこととす
る。文書ベクトルの成分の値を与える方法としては、対
応する用語の対象文書内での頻度を一定値と比較して1
または0の値を与える方法、頻度そのものを与える方
法、その用語が出現する文書数の全文書数に対する比の
逆数の対数に頻度を乗じた値を与える方法などが知られ
ている。このような文書表現方法は、ベクトル空間モデ
ルとして多く用いられている。
【0005】このような文書ベクトルはどのような用語
がどの程度その文書に現れるかを示している。どのよう
な用語がどのような比率で文書に現れるかが文書の概念
を表すとみなされるので、求められた文書ベクトルの方
向が概念を表すとみなしてよい。また、用語がどの程度
現れるかはベクトルのノルムと関連しており、求められ
た文書ベクトルのノルムの自乗が文書の強さもしくはエ
ネルギーを表すと解釈できる。
【0006】ベクトルで表現された2つの文書の類似性
の判定には、多くの場合ベクトル間の余弦を尺度とする
類似度が用いられている。この類似度は、2つのベクト
ルの内積をそれぞれのベクトルのノルムで割った値とし
て定義される。前述のように文書ベクトルの方向が概念
を表すので、この類似度には文書のエネルギーの違いは
反映されず、このように定義された概念の違いのみが反
映される。
【0007】
【発明が解決しようとする課題】この発明は、与えられ
た文書から重要文を抽出する、2つの文書の類似度を判
定するなどの解析を行う方法とそれらに適した文書の表
現方法を提供することを目的とする。
【0008】文書からの重要文抽出においては、その文
書が中心的に表している概念に近い概念を表す文を優先
して抽出すべきものと考えられる。このためには文書が
表す中心概念の抽出、各文と文書全体との概念の関係の
把握が必須である。しかしながら、従来の方法において
各用語の重みの総和によって定義された文の重要度がど
れだけ文書の中心的な概念を反映しているかは必ずしも
明確ではなかった。このため、単に長いだけの文が重要
文として抽出される傾向があった。また、各文と文書全
体との概念の関係の把握を試みられていなかった。その
ため、文書本来の概念に近い概念を有する文が必ず抽出
されるとは限らなかった。
【0009】また、質問文との関連を反映した重要文抽
出においては、質問文中の用語が対象文の中に出現する
頻度に応じたスコアを加味する時に、質問文と対象文と
が同じ用語を共有しないとスコアは0となってしまう。
実際問題としては共通する用語がなくとも、文書中で互
いに共起する用語対の一方が質問文に、他方が対象とす
る文に含まれていれば、0でない関連度が求められるの
が望ましい。例えば、日本を広く紹介し、その中で
“東京”と“銀座”についてもこれらの間の関係を述べ
つつ紹介する文書が存在したとする。ユーザが“東京”
を含む質問文を与えたときに、システムとしては“東
京”を含む文ばかりでなく、“銀座”を含む文も提示で
きるようにすることが望まれる。
【0010】さらに2つの文書の類似性の判定において
は、従来は文書をひとつのベクトルを用いて表現してい
たため、ベクトルが表す概念が曖昧となるという問題、
及び概念の広がりを表すことができないという問題があ
った。例えば、a、b、c、dが4つの用語を表すものとす
る。この場合、文の中で、a-b、c-dの組み合わせで用い
る文書と、a-c、b-dの組み合わせで用いる文書とは別の
概念を表すと考えられるが、従来のベクトル表現では両
方の文書に対して同じになってしまい、これらを区別す
ることは難しかった。また、用語の組み合わせは1つの
小さな概念を表すと考えられ、文書の概念は小さな概念
の集合から構成されると考えられる。云いかえれば文書
が表す概念には広がりが存在する。しかし、これをひと
つのベクトルで表すことは困難である。このようなこと
から、従来は文書の概念が正確に表されていなかったた
め、文書検索や分類などの処理において文書間の類似性
を正しく求めることは難しかった。
【0011】
【課題を解決するための手段】上記のような課題を解決
するため、この発明は、一つの側面において、入力文書
に出現する用語を検出し、入力文書を適当な単位の文書
セグメントに区分けし、文書セグメントに出現する用語
の出現頻度を成分とする文書セグメントのベクトルを生
成し、文書セグメントの平方和行列の固有値および固有
ベクトルを用いて文書セグメントベクトルの集合を表現
する。
【0012】この発明は、もう一つの側面によると、入
力文書から重要な文書セグメントを抽出する。この発明
の形態によると、入力文書に出現する用語を検出し、入
力文書を適当な単位の文書セグメントに区分けし、文書
セグメントに出現する用語の出現頻度に応じた値を成分
とする文書セグメントのベクトルを生成し、文書セグメ
ントベクトルのランクがRで示される平方和行列の固有
ベクトルおよび固有値を求め、前記複数の固有ベクトル
から重要度判定に使用する複数Lの固有ベクトルを選択
し、選択されたそれぞれの固有ベクトルへのそれぞれの
文書セグメントベクトルの射影値の重み付き自乗和を求
め、それぞれの文書セグメントベクトルの射影値の自乗
和に基づいて重要度の大きい文書セグメントを選択す
る。
【0013】この発明は、さらにもう一つの側面による
と、入力文書から質問文と関連性をもつ文書セグメント
を抽出する。この発明の形態によると、入力文書に出現
する用語を検出し、前記入力文書を適当な単位の文書セ
グメントに区分けし、該文書セグメントに出現する用語
の出現頻度に応じた値を成分とする文書セグメントのベ
クトルを生成し、文書セグメントベクトルの平方和行列
の固有ベクトルおよび固有値を求めて部分空間を決定
し、質問文に出現する用語を検出し、該用語の出現頻度
を成分とする質問文のベクトルを生成し、前記部分空間
に射影したベクトルと、入力文書セグメントベクトルの
それぞれを前記部分空間に射影したベクトルとを照合
し、前記質問文と各文書セグメントとの関連度を算出す
る。
【0014】この発明は、もう一つの側面によると、与
えられた2つの入力文書の類似性を判定する。この発明
の形態によると、それぞれの入力文書に出現する用語を
検出し、ぞれぞれの入力文書を適当な単位の文書セグメ
ントに区分けし、前記文書セグメントに出現する用語の
出現頻度に応じた値を成分とする文書セグメントのベク
トルを生成し、それぞれの入力文書について、それぞれ
の入力文書に含まれる前記文書セグメントのベクトルの
すべての組み合わせについて内積の自乗を求め、内積の
自乗の和に基づいて入力文書間の類似性を判定する。
【0015】さらに、2つの入力文書の類似性を判定す
るこの発明のもう一つの形態によると、一方の入力文書
の文書セグメントベクトルの平方和行列の固有ベクトル
および固有値を算出し、前記固有ベクトルから固有値の
大きいものを基底ベクトルとして選択し、他方の文書の
文書セグメントベクトルと前記基底ベクトルとの内積の
自乗を求め、重み付けして加えあわせ、加え合わせられ
た内積の自乗の和から前記2つの入力文書の間の類似性
を判定する。
【0016】また、2つの入力文書の類似性を判定する
もう一つの形態によると、前記2つの入力文書のそれぞ
れについて文書セグメントの平方和行列の固有ベクトル
および固有値を算出し、前記2つの入力文書のそれぞれ
について前記固有ベクトルから固有値の大きいものを基
底ベクトルとして選択し、選択された基底ベクトルの組
み合わせについて内積の自乗を求め、重み付けして加え
あわせ、加え合わせられた内積の自乗の和から入力文書
間の類似性を判定する。
【0017】
【発明の実施の形態】文書セグメントの表現および重要
文抽出 本発明では先ず入力された文書を構成する各文の概念と
その文書の中心的な概念を定義し、文書の中心的な概念
に対する各文の寄与を求め、その大きさによって各文の
重要度を判定するようにする。この実施形態では、文書
セグメントの単位として文を用いる。各文の概念は、文
書に現れる用語の頻度情報で決まる値を要素とする文ベ
クトルにより表すことができる。基底ベクトルは、各文
ベクトルを射影したときの射影値の自乗和が最大となり
かつ互いに直交するという性質をもつので、文書の中心
的な概念については、複数の基底ベクトルを一定個組み
合わせて形成した部分空間によって定義できる。文書の
中心的な概念に対する各文の寄与は、各文ベクトルの部
分空間への射影値の重み付き自乗和により判定すること
ができる。
【0018】また、文と質問文との関連度は、まず質問
文ベクトルの各基底ベクトルへの射影値の自乗をもとに
各基底ベクトルに重みを与え、次いで各文ベクトルの部
分空間への射影値の重み付き自乗和を各基底ベクトルの
重みを用いつつ求めるようにする。
【0019】本発明の一実施形態では文書の中心的な概
念に対する各文の寄与によって重要度を与えるので重要
な文の正確な抽出が容易になる。また、各文の重要度に
よる順位付けが可能となり、全文書に対する抽出文の長
さの割合を制御することができる。さらに、部分空間の
次元数、即ち組み合わせる基底ベクトルの数を変えるこ
とにより文書の中心的な概念の幅が変わるので結果的に
抽出する文の概念の広がりを制御することが出来るよう
になる。部分空間の次元数が少ないほど概念の広がりは
狭くなる。
【0020】また、文と質問文との関連度の算出におい
ては、文と質問文との概念の共通性がベースとなるの
で、文と質問文とで同じ単語が現れなくても概念が共通
していればゼロでない関連度が得られるようになる。
【0021】図1は本発明の一つの実施形態の全体的な
処理を示すブロック図である。この発明は、ハードウェ
アとして汎用のコンピュータを用い、この発明を組み込
んだプログラムを走らせることによって実施することが
できる。図1は、このようなプログラムで実行される機
能をブロック化して示している。
【0022】ブロック11は用語検出部、ブロック12は形
態素解析部、ブロック13は文書セグメント分割部、ブロ
ック14は文書セグメントベクトル作成部、ブロック15は
平方和行列算出部、ブロック16は固有値・固有ベクトル
算出部である。ブロック17は部分空間決定部、ブロック
18は重要度算出部、ブロック19は文書セグメント順位付
け部、ブロック20は文書セグメント選択部を表す。以
下、英文文書を例に実施例を説明する。
【0023】入力された文書について、先ず用語検出部
11において、文書から単語及び数詞などの記号系列を検
出する。ここでは、単語や記号系列を総称して用語と呼
ぶ。英文の場合、用語同士を分けて書く正書法が確立し
ているので用語の検出は容易である。次に、形態素解析
部12は、用語の品詞付けその他の形態素解析を行う。
【0024】文書セグメント分割部13は、文書を文書セ
グメントに分割する。文書セグメント分割の最も基本的
な処理は文単位への分割である。英文の場合、文はピリ
オドで終わり、その後ろにスペースが続くので文の切出
しは容易に行うことができる。その他の分割法として
は、用語の数がほぼ同じになるように複数の文をまとめ
て文書セグメントとする方法、文書の先頭から含まれる
用語の数が同じになるように文とは関係なく分割する方
法などがある。
【0025】文書セグメントベクトル作成部14は、文書
全体に出現する用語から作成すべきベクトルの次元数を
求め、各次元と各用語との対応を決定する。この際に出
現する全ての用語の種類にベクトルの成分を対応させな
ければならないということはなく、品詞付け処理の結果
を用い、例えば名詞と動詞と判定された用語のみを用い
てベクトルを作成するようにしてもよい。次いで、各文
書セグメントで出現する用語の種類とその頻度を求め、
対応するベクトル成分の値を決定して文書セグメントベ
クトルを作成する。さらに、成分の値に重みを与える方
法として従来の方法を用いることができる。
【0026】N個の文書セグメントから成り、現れる単
語集合が{w1,…,wK}で与えられる文書Dを考える。文書D
の文書セグメントnのベクトルをdn=(dn1,…,dnK) によ
り表すこととする。ここで、dnkは単語wkの文nにおける
出現頻度もしくは重み付けされた値である。
【0027】平方和行列算出部15は、各文書セグメント
ベクトルの平方和行列の算出を行う。平方和行列A=
(Aab)は、
【数7】 により算出することができる。
【0028】固有値・固有ベクトル算出部16は、行列A
の固有値・固有ベクトルの算出を行う。求められたm次の
固有ベクトル、固有値をΦ、λとする。Φは各用
語の組み合わせで表現されるベクトルなので一種の概念
を表すと見なすことができ、入力文書に固有に決まるの
でm次の固有概念と呼んでもよい。Φ1は各文書セグメン
トベクトルを射影した時の射影値の自乗和を最大にする
軸であるので、各文書セグメントに最も共通する概念を
表すことになる。また、λ1はその射影値の自乗和その
ものであり、Φ1が表す概念の強さ、もしくはエネルギ
ーを表すとみなすことができる。Φ2はΦ1と直交すると
言う条件のもとで射影値の自乗和を最大にする軸であ
る。Φ3以降も同様である。
【0029】このようにして求められた固有ベクトルが
文書セグメントベクトルの集合を近似する部分空間の基
底ベクトルとなる。固有ベクトルをL次まで用いれば部
分空間の次元数はLとなり、入力文書の概念が互いに直
交するL個の固有概念により展開されたことになる。部
分空間を概念部分空間と呼ぶこともできる。次に、部分
空間決定部17は、Lの値を具体的に決定する。行列Aのラ
ンクをRとするとAからはR個の固有ベクトルが求められ
るので、その文書はR個の概念を有することになる。部
分空間はR個の概念のうちのL個の概念で文書の中心概念
を表わす。中心概念が本来の概念に対してどの程度の割
合を占めていたかは、言い換えると部分空間が文書全体
の概念をどの程度代表するかは、次式により表すことが
できる。
【0030】
【数8】
【0031】この式はLの値を実際に決めるときの目安
にすることができる。Lを変えることにより文書の中心
概念の広がりを制御でき、これにより抽出される重要文
書セグメントの概念の広がりを制御できる。
【0032】重要度算出部18は、各文書セグメントベク
トルの部分空間への射影値の自乗を求めて重要度を算出
する。dnの射影後のベクトルをzn =(zn1, zn2,.., znL)
とすると、m番目の基底ベクトルへの射影値znmは、次式
により与えられる。
【0033】
【数9】
【0034】また、dnの部分空間への射影値の自乗和は
次式により与えられる。
【0035】
【数10】
【0036】上記の部分空間への射影値の自乗は文書の
中心概念に対する各文書セグメントの寄与を表す。また
は、基底ベクトルのエネルギーを重みとして用い部分空
間への射影値の自乗和を次式のようにしてもよい。
【0037】
【数11】
【0038】文書セグメント順位付け部19は、重要度の
大きい順に文書セグメントの順位付けを行う。文書セグ
メント選択部20は、上位の文書セグメントを重要なセグ
メントとして選択し、出力する。従って、文書セグメン
トを文書の中心概念への寄与の大きい順に抽出すること
ができる。
【0039】質問文との関連度算出 図2は、入力文書の文書セグメントと質問文との関連度
の算出と文の選択を行う本発明の実施形態のシステムの
全体的構成を示すブロック図である。ブロック21は固有
値・固有ベクトル算出部であり、ブロック22は部分空間
射影部、ブロック23は質問文ベクトル化部である。ブロ
ック24は部分空間射影部、ブロック25は関連度算出部、
ブロック26は文書セグメント順位付け部、ブロック27は
文書セグメント選択部を表す。
【0040】英文文書を例に実施例を説明する。ブロッ
ク21の個有値・固有ベクトル算出までの処理は図1の実
施形態と同じである。ブロック22はL次元の部分空間へ
の文書セグメントベクトルの射影を行う。図1の場合と
同様に射影後のベクトルをznとし、その成分は数3の式
で与えられるものとする。ブロック23は質問文に対する
処理であり、図1のブロック11〜14に相当する処理を行
う。質問文のベクトルをqとする。ブロック24の部分空
間射影ではqを部分空間に射影したベクトルyを求める。
yのm番目の要素ymは次式で与えられる。
【0041】
【数12】
【0042】ブロック25は関連度算出を行い、n番目の
文書セグメントに対する関連度gnは次式で求められる。
【0043】
【数13】
【0044】数13の式はznのノルムに比例する値を持つ
が、この式をさらに次式で正規化しznのノルムに無関係
な値をとるようにしてもよい。
【0045】
【数14】
【0046】数13の式は、質問文と文書セグメントとの
間で共通する単語をもたない場合においても関連度を算
出することができる。この理由は以下のとおりである。
ある文書において文書セグメント中で共起する単語対が
存在するとき、低次の固有ベクトルではそれらの単語に
対する係数は同じ符号を持ち、高次の固有ベクトルで異
なる符号を持つ。言い換えれば単語の違いは低次の固有
ベクトルには現れず、高次の固有ベクトルに反映され
る。L次元の部分空間に単語の違いを反映する高次の固
有ベクトルが含まれなければ、文書中で互いに共起する
単語対の一方が質問文に、他方が対象とする文書セグメ
ントに含まれている時には、数13の式は0でない値をと
る。
【0047】文書セグメント順位付け部26は、関連度の
大きい順に文書セグメントの順位付けを行い、文書セグ
メント選択部27は、上位の文書セグメントを関連度の高
い文書セグメントとしてとして選択し、出力する。ま
た、関連度を加味しながら重要文を選択する場合には、
ブロック26において図1の手順で求められる重要度と関
連度とを加えた値を用いて文書セグメントの順位付けを
行ってもよい。
【0048】関連度は次のように算出することも可能で
ある。先ず、m次の固有ベクトルに対する重みsmを以下
のように定義する。
【0049】
【数15】
【0050】smは質問文の全エネルギーに対してm次の
固有ベクトル方向のエネルギーの占める割合を示す。文
書セグメントnに対する関連度gnを以下のように定義す
ることができる。
【0051】
【数16】
【0052】gnは文書セグメントnのΦm方向のエネルギ
ーのsmを重みとする加重和となっている。従って重みの
大きい固有ベクトルへの射影値が大きい文は関連度が大
きくなる。また、gnを文書セグメントnのエネルギーと
無関係にするため、次式で正規化してもよい。
【0053】
【数17】
【0054】類似判定 この発明のもう一つの実施形態では、文書を適当な単位
の文書セグメント、たとえば文章単位に分割したうえ
で、それぞれの文書セグメントごとにベクトルを算出
し、2つの文書のそれぞれの文書セグメントベクトルの
全ての組み合わせに対して内積の自乗和を算出して文書
間の類似度を求める。
【0055】文書が長い場合には、出現する用語の数が
多くなって文書セグメントベクトルの次元が大きくな
り、得られる文書セグメントベクトルの数自体も多くな
る。このため、文書セグメントベクトルの組み合わせの
各々に対して内積を求めるのは処理量、メモリ量の負担
が大きくなる。そこで、一方または両方の文書について
重要文抽出の場合と同じように概念部分空間によって表
現するようにする。
【0056】一方が文書セグメントベクトルで表され、
他方が概念部分空間で表された2つの文書間の類似度
は、文書セグメントベクトルと基底ベクトルの全ての組
み合わせの内積の重み付き自乗和により算出する。ま
た、両方の文書を概念部分空間で表わす場合には、基底
ベクトル同士の全ての組み合わせの内積の重み付き自乗
和により類似度を算出する。
【0057】この実施例では、文書は、文書セグメント
ベクトルの集合により、もしくは部分空間により表わさ
れる。これにより文書の概念は文書セグメントの概念の
集合として表されたことになり、ひとつのベクトルで表
す場合に比べより正確に記述できるようになる。また、
両方の文書の全ての文書セグメントの概念が類似度に反
映されるので、文書の概念の広がりも自ずと類似度に反
映される。
【0058】一方、部分空間は文書セグメントベクトル
集合を近似するものであるが、文書セグメントベクトル
の平方和行列の固有ベクトルを基底ベクトルとする場合
には誤差が最小になることが知られている。従って、一
方の文書の文書セグメントベクトルと他方の文書の選択
された基底ベクトルとの全ての組み合わせから求める類
似度は、文書セグメントベクトル同士の全ての組み合わ
せから求める類似度の最良の近似となっている。前述の
ように、この場合の部分空間は文書の中心概念を表す。
一方の文書の文書セグメントベクトルと他方の文書の選
択された基底ベクトルの全ての組み合わせで類似度を求
めることは、一方の文書セグメントの概念と他方の中心
的な概念との共通概念から類似度を求めることに相当す
る。
【0059】両方の文書が概念部分空間で表されている
場合にも、求められる類似度は文書セグメントベクトル
同士の全ての組み合わせから求める類似度の近似となっ
ている。この場合は両方の文書の中心的な概念の全ての
組み合わせの共通概念から類似度を求めることになる。
従って、一方、もしくは両方の文書が概念部分空間によ
り表現されている場合も、文書セグメントベクトル同士
の組み合わせから類似度を求める場合と同様、求められ
る類似度はより自然なものになる。また、両方の文書の
全ての文書セグメントの概念が近似的に類似度に反映さ
れるので、文書の概念の広がりも自ずと類似度に反映さ
れる。
【0060】図3は、文書セグメントベクトル同士の比
較から類似度を求める一実施例のシステムのブロック図
を示す。この発明は、典型的には汎用コンピュータ上で
この発明を組み込んだプログラムを走らせることによっ
て実施することができる。図3は、汎用コンピュータお
よびプログラムで構成されるシステムの機能ブロック図
である。
【0061】ブロック11から14は、図1に示したものと
同じであり、ブロック11は用語検出部、ブロック12は形
態素解析部、ブロック13は文書セグメント分割部、ブロ
ック14は文書セグメントベクトル作成部である。ブロッ
ク35は文書セグメントベクトル内積演算部、ブロック36
は類似度算出部を表す。以下、英文文書を例に実施例を
説明する。
【0062】入力された2つの文書について、図1に関
連して説明した用語検出部11から文書セグメントベクト
ル作成部14による処理を経て、文書セグメントベクトル
が作成される。
【0063】文書セグメントベクトル内積演算部35は、
2つの入力文書の文書セグメントベクトルの全ての組み
合わせに対して内積の値を求め、その値を保持してお
く。ここで、2つの入力文書をS、Tとする。文書S、Tを
合わせた時K個の用語が現れたものとし、文書Sのn番目
の文書セグメントベクトルsn (n=1,..,N)を(sn1,
sn2,.., snK)により、文書Tのm番目の文書セグメントベ
クトルtm (m=1,..,M)を(tm1,tm2,.., tmK)により表す。
そうすると、文書セグメントベクトルsn とtmの内積の
値は次式で表される。
【0064】
【数18】
【0065】ここで上付きの添え字tは転置を表す。
【0066】類似度算出部36は、全組み合わせの内積の
自乗和を求め、文書間の類似度を算出する。類似度をr
とすると、rは次式で与えられる。
【0067】
【数19】
【0068】文書S、T間で共通する用語が無い時には、
類似度は0となり、文書SがTと全く同じであれば類似度
は1.0となる。
【0069】図4は、文書セグメントベクトルと基底ベ
クトル、もしくは基底ベクトル同士の比較を行って類似
度を求める一実施例のシステムの機能ブロック図であ
る。用語検出部11から固有値・固有ベクトル算出部16
は、図1に示したものと同じである。ブロック37は主要
固有ベクトル選択部、ブロック38は内積計算部、ブロッ
ク39は類似度算出部を表す。
【0070】前述した2つの入力文書S、Tの間の類似度
を、文書Tの文書セグメントベクトルと文書Sの基底ベク
トルの比較を行って求める。文書SおよびTについて用
語検出部11から文書セグメントベクトル作成部14の処理
を経て文書セグメントベクトルを生成する。次に、入力
文書Sについて、平方和行列算出部15で各文書セグメン
トベクトルの平方和行列を算出する。文書Sの文書セグ
メントベクトルの平方和行列をA=(Aab)とすると、Aは次
式により算出することができる。
【0071】
【数20】
【0072】内積計算部38は、文書Sの固有ベクトルΦn
と文書Tの文書セグメントベクトルtmの間の内積の値を
全てのnとmの組み合わせに対して求める。類似度算出部
39は、算出された内積の値から各次数の固有値を重みと
して用いて次の式により類似度の算出を行う。
【0073】
【数21】
【0074】数15の式では内積の重み付き自乗和から
類似度が求められているが、文書Tの文書セグメントと
文書Sの間の類似度を文書Tの文書セグメント毎に求め、
その平均を文書TとSの間の類似度とする方法も考えられ
る。この場合には、類似度は次式により与えられる。
【0075】
【数22】
【0076】次に、2つの入力文書S、Tの間の類似度
を、基底ベクトル同士の比較を行って求める実施例につ
いて述べる。この場合には、文書Sだけでなく、文書Tに
対しても平方和行例算出部15から主要固有ベクトル選択
部37の処理を行ってそれぞれの固有値、固有ベクトルを
求め、主要固有ベクトルを基底ベクトルとして選択す
る。文書Tについて算出されたn次の固有値、固有ベク
トルをγn、τnとし、J次までを基底ベクトルとして選
択したとする。内積計算部38は、文書Sの固有ベクトル
Φnと文書Tの固有ベクトルτmの間の内積の値を全ての
nとmの組み合わせに対して求め、保持する。29における
類似度の算出は次式によって行うことができる。
【0077】
【数23】
【0078】数21および数22の式が図3で述べた文書セ
グメントの全ての組み合わせに基づく類似度(数19)の
近似になっていることは、数19の式の分子が次の数24お
よび数25の式に書き直されることからも明らかである。
【0079】
【数24】
【0080】
【数25】
【0081】ここで、Bは文書Tの平方和行列であり、ラ
ンクはQとしている。また、上式では次式の関係を用い
ている。
【0082】
【数26】
【0083】数24の式において、文書Sの固有ベクトル
をL次まで用いるようにすれば数21の分子と同じにな
る。さらに数25の式において文書Tの固有ベクトルをJ次
まで用いるようにすれば数23の式の分子と同じになる。
【0084】類似度判定において、文書セグメント同
士、文書セグメントと基底ベクトル、基底ベクトル同士
のどの組み合わせにするかはユーザが選択する事項であ
るが、長い文書に対しては基底ベクトルを求めた方がメ
モリ量、処理量の点で負担が少ない。また、実施例の説
明で、比較対象の両方の文書について図3または4に示
された処理を行うとしているが、最後の内積や類似度の
計算以外は予め行っておいた処理の結果を用いてもよ
い。
【0085】固有値、固有ベクトルの観察 簡単な模擬実験により、単語間の共起に対して個有値お
よび固有ベクトルがどのように求められるかを示す。
今、単語1〜4が現れる文書を考え、表1のような平方和
行列が得られたとする。
【0086】
【表1】
【0087】対角要素は次の式で表される単語エネルギ
ーを示し、単語1が最も大きくなっている。a、b、cはパ
ラメータで、aは単語1、2間、bは単語2、3間、cは単語
3、4間の共起の程度を与える。ここでは文書セグメント
が文で与えられたとする。
【0088】ここで、文のエネルギーは文ベクトルのノ
ルムの2乗で与えられると考える。そこで、文nのエネル
ギーE(dn)を次の数27により定義し、単語wkのエネルギ
ーE(wk)を数28のように定義する。
【0089】
【数27】
【0090】
【数28】
【0091】さらに、文書Dの全エネルギーをE(D)とす
ると次の関係式が成り立ち、文書エネルギーは文エネル
ギーの総和、単語エネルギーの総和と等しくなる。
【0092】
【数29】
【0093】図6は、a、b、cに適当な値を与えた平方
和行列から求めた固有値、固有ベクトルを示す。図6で
は、nを次数としてn次の固有値λn、n次の固有ベクトル
の各単語に対する係数、Φn1、Φn2、Φn3、Φn4を示
す。この結果から以下のことが言える。なお、ここで
は、概念がn次の固有ベクトルの方向で、エネルギーが
n次の固有値で与えられる仮想の文をn次の固有文と呼
ぶ。
【0094】(1) a=b=c=0のとき 4つの単語は共起しないことを意味する。表1ではn次の
固有ベクトルの係数は単語nが1で他は0である。これ
は、各固有ベクトルは各単語の軸そのものであり、固有
文の概念は各単語の概念そのものであることを示す。各
固有値は平方和行列の対角要素の値と等しい。即、各固
有文のエネルギーは各単語エネルギーと等しく、各単語
の頻度で決まる。
【0095】(2) a=b=0、c=1のとき 単語3、4間に単語の共起関係が存在する。その結果、3
次と4次の固有文の概念は単語3、4の組み合わせで決ま
るようになる。従来のベクトル空間モデルでは単語の共
起関係を表現することは出来なかったが、本発明では固
有文の概念に自然な形で単語の共起関係が反映される。
また、3次の固有文のエネルギーはa=b=c=0の時のそれに
比べ、大きくなる。
【0096】(3) a=b=0、c=3のとき 1次の固有ベクトルはΦ13、Φ14が0でない値を持って
おり、単語3、4の組み合わせで概念が決まる固有文のエ
ネルギーが最も大きくなることが分かる。これは固有文
のエネルギーは単語の頻度と単語間の共起の両方から決
まることを示す。
【0097】(4) a=3、b=0、c=3のとき 単語1-2間、単語3-4間で単語は共起し、単語1、2と3、4
の間では共起しない。その結果行列Sは部分行列に分解
される。このような場合、固有文の概念は単語1、2の組
み合わせ、もしくは単語3、4の組み合わせで決まる。
【0098】(5) a=3、b=1、c=3のとき 単語2-3間に共起が存在するようになると、固有文の概
念には全ての単語が拘るようになる。単語1は単語3、4
とは直接的な共起関係はなく、間接的な共起関係にある
と云えるが、このような間接的な共起関係も固有文の概
念に影響を与えることが分かる。実際の文書においても
単語間の直接的な共起だけでなく、間接的な共起の連鎖
が概念の形成に重要な役割を果たしていると考えられ
る。
【0099】図5は、文数58、総単語数1100の英文ニュ
ース記事から名詞を抽出して146次元の文ベトルを構成
した場合の概念部分空間の代表度と次元数Lの関係を示
す。この場合の平方和行列のランクは58であり、Lの最
大値も58となる。代表度50%、75%を達成する次元数はそ
れぞれ8、20であり、大幅な次元圧縮が可能なことを暗
示している。また、1次の固有文の代表度は12.2%である
が、この文書の平均文ベクトルの代表度(各文の平均ベ
クトルへの射影値の2乗和の文書エネルギーに対する割
合)は10.4%であった。1次の固有文は平均ベクトルを上
回る代表度を有することが確認された。1次の固有文の
代表度は文書が長くなるにつれ低下する傾向にある。
【0100】以上にこの発明を具体的な例について記述
したが、この発明はこのような具体例に限定されるもの
ではない。
【0101】
【発明の効果】この発明によると、与えられた文書から
重要文を抽出する、2つの文書の類似度を判定するなど
の解析を行うに適した文書の表現方法が提供される。
【0102】この発明の一つの形態によると、用語の共
起関係を含めて重要文の抽出処理が行われるので、人間
の感覚に近い抽出結果が得られる。また、質問文に対し
関連性をもつ文を抽出する場合、両者に共通する用語が
なくても用語の共起関係に基づいて概念的に関連する文
を抽出することができる。
【0103】また、この発明のもう一つの形態による
と、2つの文書の類似度を文書セグメントの全ての組み
合わせから求め、すべての文書セグメントの概念が類似
度に反映されるので、信頼性の高い類似度が求められ
る。
【図面の簡単な説明】
【図1】文書の中から重要文を抽出する本発明のシステ
ムの実施例の機能ブロック図。
【図2】質問文に関連する文書セグメントを抽出する本
発明のシステムの実施例の機能ブロック図。
【図3】2つの文書の類似度を判定する本発明のシステ
ムの実施例の機能ブロック図。
【図4】2つの文書の類似度を判定する本発明のシステ
ムのもう一つの実施例の機能ブロック図。
【図5】 文数58、総単語数1100の英文ニュース記事か
ら名詞を抽出して146次元の文ベトルを構成した場合の
概念部分空間の代表度と次元数Lの関係を示す。
【図6】 表1に対応する固有値および固有ベクトルの
例を示す図。
【符号の説明】
11 用語検出部 12 形態素解析部 13 文書セグメント分割部 14 文書セグメントベクトル作成部 15 平方和行列算出部 16 固有値・固有ベクトル算出部

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】入力文書をベクトル表現する方法であっ
    て、 前記入力文書に出現する用語を検出するステップと、 前記入力文書を適当な単位の文書セグメントに区分けす
    るステップと、 前記文書セグメントに出現する用語の出現頻度に応じた
    値を成分とする文書セグメントのベクトルを生成するス
    テップと、を含み、 文書セグメントの平方和行列の固有値および固有ベクト
    ルを用いて文書セグメントベクトルの集合を表現する方
    法。
  2. 【請求項2】 K個の用語が現れる入力文書がN個の文書
    セグメントに分割され、dniがi番目の用語の文書セグ
    メントnにおける出現頻度に応じた値として、n番目の
    文書セグメントベクトルdn (n=1,..,N)を(dn1, dn2,..,
    dnK)により表すと、前記平方和行列は、 【数1】 により算出される請求項1に記載の方法。
  3. 【請求項3】 入力文書から重要な文書セグメントを抽
    出する方法であって、 前記入力文書に出現する用語を検出するステップと、 前記入力文書を適当な単位の文書セグメントに区分けす
    るステップと、 前記文書セグメントに出現する用語の出現頻度に応じた
    値を成分とする文書セグメントのベクトルを生成するス
    テップと、 前記文書セグメントベクトルのランクがRで示される平
    方和行列の固有ベクトルおよび固有値を求めるステップ
    と、 前記複数の固有ベクトルから重要度判定に使用する複数
    Lの固有ベクトルを選択するステップと、 選択されたそれぞれの固有ベクトルへのそれぞれの文書
    セグメントベクトルの射影値の重み付き自乗和を求める
    ステップと、を含み、 それぞれの文書セグメントベクトルの射影値の自乗和に
    基づいて重要度の大きい文書セグメントを選択する重要
    文抽出方法。
  4. 【請求項4】 K個の用語が現れる入力文書がN個の文書
    セグメントに分割され、dniがi番目の用語の文書セグ
    メントnにおける出現頻度に応じた値として、n番目の
    文書セグメントベクトルdn (n=1,..,N)を(dn1, dn2,..,
    dnK)により表し、dnの射影後のベクトルをzn=(zn1,z
    n2,….,znL)とすると、m番目の固有ベクトルへの射影
    値は、 znm=Φ tdn (Φはm次の固有ベク
    トル、tは転置を表す)で与えられ、L次の部分空間へ
    の射影値の自乗和は、 【数2】 または、 【数3】 により与えられる請求項3に記載の方法。
  5. 【請求項5】 前記固有ベクトルおよび固有値は、平方
    和行列 【数4】 から求められ、そのランクRに対して前記Lは、文書の
    中心概念を表す部分空間の次数を示し、 【数5】 により与えられる前記入力文書の全体的概念に対する中
    心概念の割合に基づいてLの値を決める請求項4に記載
    の方法。
  6. 【請求項6】 入力文書から質問文と関連性をもつ文書
    セグメントを抽出する方法であって、 前記入力文書に出現する用語を検出し、前記入力文書を
    適当な単位の文書セグメントに区分けし、該文書セグメ
    ントに出現する用語の出現頻度に応じた値を成分とする
    文書セグメントのベクトルを生成するステップと、 前記文書セグメントベクトルの平方和行列の固有ベクト
    ルおよび固有値を求めて部分空間を決定するステップ
    と、 前記質問文に出現する用語を検出し、該用語の出現頻度
    に応じた値を成分とする質問文のベクトルを生成し、前
    記部分空間に射影するステップと、 前記文書セグメントのベクトルのそれぞれを前記部分空
    間に射影し、前記質問文と文書セグメントとの関連度を
    算出するステップと、を含む文書セグメントの抽出方
    法。
  7. 【請求項7】 前記文書セグメントのベクトルdの前
    記部分空間への射影ベクトルをzn、前記質問文のベクト
    ルqを前記部分空間に射影したベクトルをyとすると、
    n番目の文書セグメントと質問文との関連度gは、y
    とzの内積y (tは転置)に基づいて求められ
    る請求項6に記載の方法。
  8. 【請求項8】 前記質問文のベクトルをqとし、m番目
    の前記固有ベクトルをΦとし、Lを前記部分空間の次
    数とするとき、m次の固有ベクトルに対する重みsm
    (Φ q)の関数で定義し、文書セグメントnに対
    する関連度gnを 【数6】 で求める請求項6に記載の方法。
  9. 【請求項9】与えられた2つの入力文書の類似性を判定
    する文書間類似性判定方法であって、 それぞれの入力文書に出現する用語を検出するステップ
    と、 ぞれぞれの入力文書を適当な単位の文書セグメントに区
    分けするステップと、 前記文書セグメントに出現する用語の出現頻度に応じた
    値を成分とする文書セグメントのベクトルを生成するス
    テップと、 それぞれの入力文書について、それぞれの入力文書に含
    まれる前記文書セグメントのベクトルのすべての組み合
    わせについて内積の自乗を求めるステップと、を含み、 前記内積の自乗の和に基づいて入力文書間の類似性を判
    定する文書間類似性判定方法。
  10. 【請求項10】与えられた2つの入力文書の類似性を判
    定する文書間類似性判定方法であって、 一方の入力文書の文書セグメントベクトルの平方和行列
    の固有ベクトルおよび固有値を算出するステップと、 前記固有ベクトルから固有値の大きいものを基底ベクト
    ルとして選択するステップと、 他方の文書の文書セグメントベクトルと前記基底ベクト
    ルとの内積の自乗を求め、重み付けして加えあわせるス
    テップと、を含み、 加え合わせられた内積の自乗の和から前記2つの入力文
    書の間の類似性を判定する文書間類似性判定方法。
  11. 【請求項11】与えられた2つの入力文書の類似性を判
    定する文書間類似性判定方法であって、 前記2つの入力文書のそれぞれについて文書セグメント
    ベクトルの平方和行列の固有ベクトルおよび固有値を算
    出するステップと、 前記2つの入力文書のそれぞれについて前記固有ベクト
    ルから固有値の大きいものを基底ベクトルとして選択す
    るステップと、 選択された基底ベクトルの組み合わせについて内積の自
    乗を求め、重み付けして加えあわせるステップと、を含
    み、 加え合わせられた内積の自乗の和から入力文書間の類似
    性を判定する文書間類似性判定方法。
JP2000353475A 2000-11-20 2000-11-20 文書のベクトル解析を行うコンピュータおよび方法 Pending JP2002169834A (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2000353475A JP2002169834A (ja) 2000-11-20 2000-11-20 文書のベクトル解析を行うコンピュータおよび方法
EP08103139A EP1944757A3 (en) 2000-11-20 2001-11-15 Method and system for identifying document segment relationships
US10/380,264 US7562066B2 (en) 2000-11-20 2001-11-15 Method of vector analysis for a document
PCT/US2001/045599 WO2002041557A2 (en) 2000-11-20 2001-11-15 Method of vector analysis for a document
EP08103135A EP1944756A3 (en) 2000-11-20 2001-11-15 Method and system for determining similarity between two documents
CNB018175805A CN1227614C (zh) 2000-11-20 2001-11-15 用于文档的向量分析方法
EP01996067A EP1336174A4 (en) 2000-11-20 2001-11-15 METHOD FOR VECTOR ANALYSIS IN A DOCUMENT
US12/424,801 US8171026B2 (en) 2000-11-20 2009-04-16 Method and vector analysis for a document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000353475A JP2002169834A (ja) 2000-11-20 2000-11-20 文書のベクトル解析を行うコンピュータおよび方法

Publications (2)

Publication Number Publication Date
JP2002169834A true JP2002169834A (ja) 2002-06-14
JP2002169834A5 JP2002169834A5 (ja) 2008-01-31

Family

ID=18826235

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000353475A Pending JP2002169834A (ja) 2000-11-20 2000-11-20 文書のベクトル解析を行うコンピュータおよび方法

Country Status (5)

Country Link
US (2) US7562066B2 (ja)
EP (3) EP1336174A4 (ja)
JP (1) JP2002169834A (ja)
CN (1) CN1227614C (ja)
WO (1) WO2002041557A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048686A (ja) * 2004-07-26 2006-02-16 Google Inc フレーズに基づく文書説明の生成方法
JP2010122823A (ja) * 2008-11-18 2010-06-03 Nec Corp テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8241274B2 (en) 2000-01-19 2012-08-14 Medtronic, Inc. Method for guiding a medical device
US7308138B2 (en) * 2000-12-12 2007-12-11 Hewlett-Packard Development Company, L.P. Document segmentation method
US7194461B2 (en) * 2001-03-02 2007-03-20 Hewlett-Packard Development Company, L.P. Document and information retrieval method and apparatus
US7809710B2 (en) 2001-08-14 2010-10-05 Quigo Technologies Llc System and method for extracting content for submission to a search engine
JP4452012B2 (ja) * 2002-07-04 2010-04-21 ヒューレット・パッカード・カンパニー 文書の特有性評価方法
WO2004010331A1 (en) 2002-07-23 2004-01-29 Quigo Technologies Inc. System and method for automated mapping of keywords and key phrases to documents
JP2004280661A (ja) * 2003-03-18 2004-10-07 Fujitsu Ltd 検索方法及びプログラム
JP2005158010A (ja) * 2003-10-31 2005-06-16 Hewlett-Packard Development Co Lp 分類評価装置・方法及びプログラム
US7827025B2 (en) 2004-04-06 2010-11-02 Microsoft Corporation Efficient capitalization through user modeling
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7426507B1 (en) 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
US7580921B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7711679B2 (en) * 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
JP2006091994A (ja) * 2004-09-21 2006-04-06 Toshiba Corp 文書情報処理装置および方法、文書情報処理プログラム
US7533094B2 (en) * 2004-11-23 2009-05-12 Microsoft Corporation Method and system for determining similarity of items based on similarity objects and their features
US8290962B1 (en) * 2005-09-28 2012-10-16 Google Inc. Determining the relationship between source code bases
DE102005051617B4 (de) * 2005-10-27 2009-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US8117223B2 (en) * 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8577884B2 (en) * 2008-05-13 2013-11-05 The Boeing Company Automated analysis and summarization of comments in survey response data
US8166049B2 (en) 2008-05-29 2012-04-24 Accenture Global Services Limited Techniques for computing similarity measurements between segments representative of documents
EP2306339A1 (en) * 2009-09-23 2011-04-06 Adobe Systems Incorporated Algorith and implementation for fast computation of content recommendation
US9015663B2 (en) * 2010-03-15 2015-04-21 Nec Corporation Information processing device, information processing method, and information processing program
US20130091150A1 (en) * 2010-06-30 2013-04-11 Jian-Ming Jin Determiining similarity between elements of an electronic document
CN102385574B (zh) * 2010-09-01 2014-08-20 株式会社理光 从文档抽取句子的方法和装置
US8903825B2 (en) * 2011-05-24 2014-12-02 Namesforlife Llc Semiotic indexing of digital resources
US8566156B2 (en) * 2011-07-05 2013-10-22 Yahoo! Inc. Combining segments of users into vertically indexed super-segments
CN102360372B (zh) * 2011-10-09 2013-01-30 北京航空航天大学 一种跨语种的文档相似性检测方法
WO2014058433A1 (en) * 2012-10-12 2014-04-17 Hewlett-Packard Development Company, L.P. A combinatorial summarizer
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
CN104216894B (zh) 2013-05-31 2017-07-14 国际商业机器公司 用于数据查询的方法和系统
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
CN105630767B (zh) * 2015-12-22 2018-06-15 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
KR20180077690A (ko) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법
JP6842167B2 (ja) * 2017-05-08 2021-03-17 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
CN107239552A (zh) * 2017-06-08 2017-10-10 上海德衡数据科技有限公司 一种针对关键词的网络文档语义检索方法
CN107330044A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索架构
CN107330052A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索原型
US10891943B2 (en) * 2018-01-18 2021-01-12 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning
CN110147533B (zh) * 2019-01-24 2023-08-29 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
CN110147532B (zh) * 2019-01-24 2023-08-25 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
US11829386B2 (en) 2020-01-30 2023-11-28 HG Insights, Inc. Identifying anonymized resume corpus data pertaining to the same individual
CN117112609B (zh) * 2023-06-29 2024-05-10 南京国电南自轨道交通工程有限公司 一种使用关键元素矩阵提高监控历史数据检索效率的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145270A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3668702A (en) * 1970-10-30 1972-06-06 Itt Adaptive matched filter for radar signal detector in the presence of colored noise
US5301109A (en) * 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
US5634021A (en) * 1991-08-15 1997-05-27 Borland International, Inc. System and methods for generation of design images based on user design inputs
US5983251A (en) * 1993-09-08 1999-11-09 Idt, Inc. Method and apparatus for data analysis
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US6038533A (en) * 1995-07-07 2000-03-14 Lucent Technologies Inc. System and method for selecting training text
US5901244A (en) * 1996-06-18 1999-05-04 Matsushita Electric Industrial Co., Ltd. Feature extraction system and face image recognition system
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6070133A (en) * 1997-07-21 2000-05-30 Battelle Memorial Institute Information retrieval system utilizing wavelet transform
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US5930784A (en) * 1997-08-21 1999-07-27 Sandia Corporation Method of locating related items in a geometric space for data mining
US6996572B1 (en) * 1997-10-08 2006-02-07 International Business Machines Corporation Method and system for filtering of information entities
US6134541A (en) * 1997-10-31 2000-10-17 International Business Machines Corporation Searching multidimensional indexes using associated clustering and dimension reduction information
US6347315B1 (en) * 1997-12-12 2002-02-12 Canon Kabushiki Kaisha Method and apparatus for selecting and utilizing one of computers or databases

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145270A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CSNG199800201011, 大石貴治, "部分構造の主題の相互関係を考慮した文献検索", 情報処理学会研究報告, 19980119, 第98巻,第2号, pp.73−80, JP, 社団法人情報処理学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048686A (ja) * 2004-07-26 2006-02-16 Google Inc フレーズに基づく文書説明の生成方法
JP2010122823A (ja) * 2008-11-18 2010-06-03 Nec Corp テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム

Also Published As

Publication number Publication date
CN1470047A (zh) 2004-01-21
EP1944756A3 (en) 2008-07-23
US8171026B2 (en) 2012-05-01
WO2002041557A3 (en) 2003-01-30
WO2002041557A2 (en) 2002-05-23
US20040068396A1 (en) 2004-04-08
US7562066B2 (en) 2009-07-14
EP1944757A3 (en) 2008-07-23
CN1227614C (zh) 2005-11-16
EP1944757A2 (en) 2008-07-16
US20090216759A1 (en) 2009-08-27
EP1336174A2 (en) 2003-08-20
EP1336174A4 (en) 2007-05-30
EP1944756A2 (en) 2008-07-16

Similar Documents

Publication Publication Date Title
JP2002169834A (ja) 文書のベクトル解析を行うコンピュータおよび方法
Robertson et al. The TREC 2002 Filtering Track Report.
US6789230B2 (en) Creating a summary having sentences with the highest weight, and lowest length
US8280877B2 (en) Diverse topic phrase extraction
US6167398A (en) Information retrieval system and method that generates weighted comparison results to analyze the degree of dissimilarity between a reference corpus and a candidate document
JP3040945B2 (ja) 文書検索装置
US8812504B2 (en) Keyword presentation apparatus and method
JP2011227688A (ja) テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
WO2009123260A1 (ja) 共起辞書作成システムおよびスコアリングシステム
US6278990B1 (en) Sort system for text retrieval
Hanum et al. Using topic analysis for querying halal information on Malay documents
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
US20120316865A1 (en) Information processing apparatus, information processing method, and program
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
KR101710010B1 (ko) 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
JP2003016106A (ja) 関連度値算出装置
JP2004272352A (ja) 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
CN114780491A (zh) 文件检索方法及装置
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Rizun et al. Methodology of constructing and analyzing the hierarchical contextually-oriented corpora
JP4349480B2 (ja) 重要句・文抽出方法及び装置
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体
JP2003016105A (ja) 関連度値算出装置
Anh et al. An interpretable method for text summarization based on simplicial non-negative matrix factorization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100910

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110111