JP2002169834A - 文書のベクトル解析を行うコンピュータおよび方法 - Google Patents
文書のベクトル解析を行うコンピュータおよび方法Info
- Publication number
- JP2002169834A JP2002169834A JP2000353475A JP2000353475A JP2002169834A JP 2002169834 A JP2002169834 A JP 2002169834A JP 2000353475 A JP2000353475 A JP 2000353475A JP 2000353475 A JP2000353475 A JP 2000353475A JP 2002169834 A JP2002169834 A JP 2002169834A
- Authority
- JP
- Japan
- Prior art keywords
- document
- vector
- segment
- sum
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004458 analytical method Methods 0.000 title abstract description 6
- 239000011159 matrix material Substances 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 2
- ZCYVEMRRCGMTRW-UHFFFAOYSA-N 7553-56-2 Chemical compound [I] ZCYVEMRRCGMTRW-UHFFFAOYSA-N 0.000 claims 1
- 229910052740 iodine Inorganic materials 0.000 claims 1
- 239000011630 iodine Substances 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 230000000877 morphologic effect Effects 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
文書の類似度を判定するなどの解析を行う方法および文
書の表現方法を提供する。 【解決手段】 入力文書を適当な単位の文書セグメント
に区分けし、文書セグメントに出現する用語の出現頻度
に応じた値を成分とする文書セグメントのベクトルを生
成し、文書セグメントの平方和行列の固有値および固有
ベクトルを用いて文書セグメントベクトルの集合を表現
する。文書セグメントベクトルのランクがRで示される
平方和行列の固有ベクトルおよび固有値を求め、前記複
数の固有ベクトルから重要度判定に使用する複数Lの固
有ベクトルを選択し、選択されたそれぞれの固有ベクト
ルへのそれぞれの文書セグメントベクトルの射影値の重
み付き自乗和を求め、それぞれの文書セグメントベクト
ルの射影値の自乗和に基づいて重要度の大きい文書セグ
メントを選択する。
Description
要約をはじめとする自然言語処理に関し、より具体的に
は、文書の表現方法、入力文書から重要な部分を抽出す
る方法、および文書間の類似性を判定する方法に関す
る。
書の要約処理における重要な処理の一つとなっており、
文書を構成する各文に対して重要度を定量的に与え、重
要度の高い文を抽出するのが基本である。文書の要約処
理に関する最近の動向については、自然言語処理誌第6
巻第6号(1999年7月)に掲載されている「テキスト自動
要約に関する研究動向」(著者:奥村学、難波英嗣)に
詳しい。その中で、重要度評価に用いられる特徴とし
て、(1)文書中の用語の頻度、(2)文書中での位置情報、
(3)文書のタイトル情報、(4)文間の関係を解析したテキ
スト構造など7つの特徴が紹介されている。これらのう
ち、(1)の文書中の用語の頻度情報は、文書中で出現頻
度の高い内容語は文書の主題を示す傾向があることか
ら、基本的な特徴となっている。(1)を用いる具体的な
方法としては、各用語をその文書内での出現頻度によっ
て重みを与え、文の重要度を文に含まれる各用語の重み
の総和によって定義する方法、各用語の重み付けに出現
頻度のみならず文書集合の中で各用語を含む文書の数の
情報も併せて用いる方法などがある。
ても述べられている。その必要性は、情報検索の際にユ
ーザに検索結果を提示するときに、ユーザの質問に関連
した重要部分を要約の形で表示し、検索された文書がユ
ーザの質問に適ったものかどうかを素早く的確に判断し
てもらうことにある。また、これまで考案された手法の
ひとつとして、文書中の用語の頻度などを用いて求めら
れた文の重要度に、質問文中の用語が対象文の中に出現
する頻度に応じたスコアを加味することによって質問文
との関連を反映した重要文を抽出する方法が紹介されて
いる。
検索、特にユーザの指定した文書と類似する文書を検索
する類似検索、文書の自動分類において不可欠な処理で
ある。文書の類似性の判定処理においては、文書をベク
トルの形で表すことが多く行われている。ここで、文書
全体を用いて作成されたベクトルを文書ベクトル、文書
の一部から作成されたものを文書セグメントベクトル、
特に文から作成されたものを文ベクトルと呼ぶこととす
る。文書ベクトルの成分の値を与える方法としては、対
応する用語の対象文書内での頻度を一定値と比較して1
または0の値を与える方法、頻度そのものを与える方
法、その用語が出現する文書数の全文書数に対する比の
逆数の対数に頻度を乗じた値を与える方法などが知られ
ている。このような文書表現方法は、ベクトル空間モデ
ルとして多く用いられている。
がどの程度その文書に現れるかを示している。どのよう
な用語がどのような比率で文書に現れるかが文書の概念
を表すとみなされるので、求められた文書ベクトルの方
向が概念を表すとみなしてよい。また、用語がどの程度
現れるかはベクトルのノルムと関連しており、求められ
た文書ベクトルのノルムの自乗が文書の強さもしくはエ
ネルギーを表すと解釈できる。
の判定には、多くの場合ベクトル間の余弦を尺度とする
類似度が用いられている。この類似度は、2つのベクト
ルの内積をそれぞれのベクトルのノルムで割った値とし
て定義される。前述のように文書ベクトルの方向が概念
を表すので、この類似度には文書のエネルギーの違いは
反映されず、このように定義された概念の違いのみが反
映される。
た文書から重要文を抽出する、2つの文書の類似度を判
定するなどの解析を行う方法とそれらに適した文書の表
現方法を提供することを目的とする。
書が中心的に表している概念に近い概念を表す文を優先
して抽出すべきものと考えられる。このためには文書が
表す中心概念の抽出、各文と文書全体との概念の関係の
把握が必須である。しかしながら、従来の方法において
各用語の重みの総和によって定義された文の重要度がど
れだけ文書の中心的な概念を反映しているかは必ずしも
明確ではなかった。このため、単に長いだけの文が重要
文として抽出される傾向があった。また、各文と文書全
体との概念の関係の把握を試みられていなかった。その
ため、文書本来の概念に近い概念を有する文が必ず抽出
されるとは限らなかった。
出においては、質問文中の用語が対象文の中に出現する
頻度に応じたスコアを加味する時に、質問文と対象文と
が同じ用語を共有しないとスコアは0となってしまう。
実際問題としては共通する用語がなくとも、文書中で互
いに共起する用語対の一方が質問文に、他方が対象とす
る文に含まれていれば、0でない関連度が求められるの
が望ましい。例えば、日本を広く紹介し、その中で
“東京”と“銀座”についてもこれらの間の関係を述べ
つつ紹介する文書が存在したとする。ユーザが“東京”
を含む質問文を与えたときに、システムとしては“東
京”を含む文ばかりでなく、“銀座”を含む文も提示で
きるようにすることが望まれる。
は、従来は文書をひとつのベクトルを用いて表現してい
たため、ベクトルが表す概念が曖昧となるという問題、
及び概念の広がりを表すことができないという問題があ
った。例えば、a、b、c、dが4つの用語を表すものとす
る。この場合、文の中で、a-b、c-dの組み合わせで用い
る文書と、a-c、b-dの組み合わせで用いる文書とは別の
概念を表すと考えられるが、従来のベクトル表現では両
方の文書に対して同じになってしまい、これらを区別す
ることは難しかった。また、用語の組み合わせは1つの
小さな概念を表すと考えられ、文書の概念は小さな概念
の集合から構成されると考えられる。云いかえれば文書
が表す概念には広がりが存在する。しかし、これをひと
つのベクトルで表すことは困難である。このようなこと
から、従来は文書の概念が正確に表されていなかったた
め、文書検索や分類などの処理において文書間の類似性
を正しく求めることは難しかった。
するため、この発明は、一つの側面において、入力文書
に出現する用語を検出し、入力文書を適当な単位の文書
セグメントに区分けし、文書セグメントに出現する用語
の出現頻度を成分とする文書セグメントのベクトルを生
成し、文書セグメントの平方和行列の固有値および固有
ベクトルを用いて文書セグメントベクトルの集合を表現
する。
力文書から重要な文書セグメントを抽出する。この発明
の形態によると、入力文書に出現する用語を検出し、入
力文書を適当な単位の文書セグメントに区分けし、文書
セグメントに出現する用語の出現頻度に応じた値を成分
とする文書セグメントのベクトルを生成し、文書セグメ
ントベクトルのランクがRで示される平方和行列の固有
ベクトルおよび固有値を求め、前記複数の固有ベクトル
から重要度判定に使用する複数Lの固有ベクトルを選択
し、選択されたそれぞれの固有ベクトルへのそれぞれの
文書セグメントベクトルの射影値の重み付き自乗和を求
め、それぞれの文書セグメントベクトルの射影値の自乗
和に基づいて重要度の大きい文書セグメントを選択す
る。
と、入力文書から質問文と関連性をもつ文書セグメント
を抽出する。この発明の形態によると、入力文書に出現
する用語を検出し、前記入力文書を適当な単位の文書セ
グメントに区分けし、該文書セグメントに出現する用語
の出現頻度に応じた値を成分とする文書セグメントのベ
クトルを生成し、文書セグメントベクトルの平方和行列
の固有ベクトルおよび固有値を求めて部分空間を決定
し、質問文に出現する用語を検出し、該用語の出現頻度
を成分とする質問文のベクトルを生成し、前記部分空間
に射影したベクトルと、入力文書セグメントベクトルの
それぞれを前記部分空間に射影したベクトルとを照合
し、前記質問文と各文書セグメントとの関連度を算出す
る。
えられた2つの入力文書の類似性を判定する。この発明
の形態によると、それぞれの入力文書に出現する用語を
検出し、ぞれぞれの入力文書を適当な単位の文書セグメ
ントに区分けし、前記文書セグメントに出現する用語の
出現頻度に応じた値を成分とする文書セグメントのベク
トルを生成し、それぞれの入力文書について、それぞれ
の入力文書に含まれる前記文書セグメントのベクトルの
すべての組み合わせについて内積の自乗を求め、内積の
自乗の和に基づいて入力文書間の類似性を判定する。
るこの発明のもう一つの形態によると、一方の入力文書
の文書セグメントベクトルの平方和行列の固有ベクトル
および固有値を算出し、前記固有ベクトルから固有値の
大きいものを基底ベクトルとして選択し、他方の文書の
文書セグメントベクトルと前記基底ベクトルとの内積の
自乗を求め、重み付けして加えあわせ、加え合わせられ
た内積の自乗の和から前記2つの入力文書の間の類似性
を判定する。
もう一つの形態によると、前記2つの入力文書のそれぞ
れについて文書セグメントの平方和行列の固有ベクトル
および固有値を算出し、前記2つの入力文書のそれぞれ
について前記固有ベクトルから固有値の大きいものを基
底ベクトルとして選択し、選択された基底ベクトルの組
み合わせについて内積の自乗を求め、重み付けして加え
あわせ、加え合わせられた内積の自乗の和から入力文書
間の類似性を判定する。
文抽出 本発明では先ず入力された文書を構成する各文の概念と
その文書の中心的な概念を定義し、文書の中心的な概念
に対する各文の寄与を求め、その大きさによって各文の
重要度を判定するようにする。この実施形態では、文書
セグメントの単位として文を用いる。各文の概念は、文
書に現れる用語の頻度情報で決まる値を要素とする文ベ
クトルにより表すことができる。基底ベクトルは、各文
ベクトルを射影したときの射影値の自乗和が最大となり
かつ互いに直交するという性質をもつので、文書の中心
的な概念については、複数の基底ベクトルを一定個組み
合わせて形成した部分空間によって定義できる。文書の
中心的な概念に対する各文の寄与は、各文ベクトルの部
分空間への射影値の重み付き自乗和により判定すること
ができる。
文ベクトルの各基底ベクトルへの射影値の自乗をもとに
各基底ベクトルに重みを与え、次いで各文ベクトルの部
分空間への射影値の重み付き自乗和を各基底ベクトルの
重みを用いつつ求めるようにする。
念に対する各文の寄与によって重要度を与えるので重要
な文の正確な抽出が容易になる。また、各文の重要度に
よる順位付けが可能となり、全文書に対する抽出文の長
さの割合を制御することができる。さらに、部分空間の
次元数、即ち組み合わせる基底ベクトルの数を変えるこ
とにより文書の中心的な概念の幅が変わるので結果的に
抽出する文の概念の広がりを制御することが出来るよう
になる。部分空間の次元数が少ないほど概念の広がりは
狭くなる。
ては、文と質問文との概念の共通性がベースとなるの
で、文と質問文とで同じ単語が現れなくても概念が共通
していればゼロでない関連度が得られるようになる。
処理を示すブロック図である。この発明は、ハードウェ
アとして汎用のコンピュータを用い、この発明を組み込
んだプログラムを走らせることによって実施することが
できる。図1は、このようなプログラムで実行される機
能をブロック化して示している。
態素解析部、ブロック13は文書セグメント分割部、ブロ
ック14は文書セグメントベクトル作成部、ブロック15は
平方和行列算出部、ブロック16は固有値・固有ベクトル
算出部である。ブロック17は部分空間決定部、ブロック
18は重要度算出部、ブロック19は文書セグメント順位付
け部、ブロック20は文書セグメント選択部を表す。以
下、英文文書を例に実施例を説明する。
11において、文書から単語及び数詞などの記号系列を検
出する。ここでは、単語や記号系列を総称して用語と呼
ぶ。英文の場合、用語同士を分けて書く正書法が確立し
ているので用語の検出は容易である。次に、形態素解析
部12は、用語の品詞付けその他の形態素解析を行う。
グメントに分割する。文書セグメント分割の最も基本的
な処理は文単位への分割である。英文の場合、文はピリ
オドで終わり、その後ろにスペースが続くので文の切出
しは容易に行うことができる。その他の分割法として
は、用語の数がほぼ同じになるように複数の文をまとめ
て文書セグメントとする方法、文書の先頭から含まれる
用語の数が同じになるように文とは関係なく分割する方
法などがある。
全体に出現する用語から作成すべきベクトルの次元数を
求め、各次元と各用語との対応を決定する。この際に出
現する全ての用語の種類にベクトルの成分を対応させな
ければならないということはなく、品詞付け処理の結果
を用い、例えば名詞と動詞と判定された用語のみを用い
てベクトルを作成するようにしてもよい。次いで、各文
書セグメントで出現する用語の種類とその頻度を求め、
対応するベクトル成分の値を決定して文書セグメントベ
クトルを作成する。さらに、成分の値に重みを与える方
法として従来の方法を用いることができる。
語集合が{w1,…,wK}で与えられる文書Dを考える。文書D
の文書セグメントnのベクトルをdn=(dn1,…,dnK) によ
り表すこととする。ここで、dnkは単語wkの文nにおける
出現頻度もしくは重み付けされた値である。
ベクトルの平方和行列の算出を行う。平方和行列A=
(Aab)は、
の固有値・固有ベクトルの算出を行う。求められたm次の
固有ベクトル、固有値をΦm、λmとする。Φmは各用
語の組み合わせで表現されるベクトルなので一種の概念
を表すと見なすことができ、入力文書に固有に決まるの
でm次の固有概念と呼んでもよい。Φ1は各文書セグメン
トベクトルを射影した時の射影値の自乗和を最大にする
軸であるので、各文書セグメントに最も共通する概念を
表すことになる。また、λ1はその射影値の自乗和その
ものであり、Φ1が表す概念の強さ、もしくはエネルギ
ーを表すとみなすことができる。Φ2はΦ1と直交すると
言う条件のもとで射影値の自乗和を最大にする軸であ
る。Φ3以降も同様である。
文書セグメントベクトルの集合を近似する部分空間の基
底ベクトルとなる。固有ベクトルをL次まで用いれば部
分空間の次元数はLとなり、入力文書の概念が互いに直
交するL個の固有概念により展開されたことになる。部
分空間を概念部分空間と呼ぶこともできる。次に、部分
空間決定部17は、Lの値を具体的に決定する。行列Aのラ
ンクをRとするとAからはR個の固有ベクトルが求められ
るので、その文書はR個の概念を有することになる。部
分空間はR個の概念のうちのL個の概念で文書の中心概念
を表わす。中心概念が本来の概念に対してどの程度の割
合を占めていたかは、言い換えると部分空間が文書全体
の概念をどの程度代表するかは、次式により表すことが
できる。
にすることができる。Lを変えることにより文書の中心
概念の広がりを制御でき、これにより抽出される重要文
書セグメントの概念の広がりを制御できる。
トルの部分空間への射影値の自乗を求めて重要度を算出
する。dnの射影後のベクトルをzn =(zn1, zn2,.., znL)
とすると、m番目の基底ベクトルへの射影値znmは、次式
により与えられる。
次式により与えられる。
中心概念に対する各文書セグメントの寄与を表す。また
は、基底ベクトルのエネルギーを重みとして用い部分空
間への射影値の自乗和を次式のようにしてもよい。
大きい順に文書セグメントの順位付けを行う。文書セグ
メント選択部20は、上位の文書セグメントを重要なセグ
メントとして選択し、出力する。従って、文書セグメン
トを文書の中心概念への寄与の大きい順に抽出すること
ができる。
の算出と文の選択を行う本発明の実施形態のシステムの
全体的構成を示すブロック図である。ブロック21は固有
値・固有ベクトル算出部であり、ブロック22は部分空間
射影部、ブロック23は質問文ベクトル化部である。ブロ
ック24は部分空間射影部、ブロック25は関連度算出部、
ブロック26は文書セグメント順位付け部、ブロック27は
文書セグメント選択部を表す。
ク21の個有値・固有ベクトル算出までの処理は図1の実
施形態と同じである。ブロック22はL次元の部分空間へ
の文書セグメントベクトルの射影を行う。図1の場合と
同様に射影後のベクトルをznとし、その成分は数3の式
で与えられるものとする。ブロック23は質問文に対する
処理であり、図1のブロック11〜14に相当する処理を行
う。質問文のベクトルをqとする。ブロック24の部分空
間射影ではqを部分空間に射影したベクトルyを求める。
yのm番目の要素ymは次式で与えられる。
文書セグメントに対する関連度gnは次式で求められる。
が、この式をさらに次式で正規化しznのノルムに無関係
な値をとるようにしてもよい。
間で共通する単語をもたない場合においても関連度を算
出することができる。この理由は以下のとおりである。
ある文書において文書セグメント中で共起する単語対が
存在するとき、低次の固有ベクトルではそれらの単語に
対する係数は同じ符号を持ち、高次の固有ベクトルで異
なる符号を持つ。言い換えれば単語の違いは低次の固有
ベクトルには現れず、高次の固有ベクトルに反映され
る。L次元の部分空間に単語の違いを反映する高次の固
有ベクトルが含まれなければ、文書中で互いに共起する
単語対の一方が質問文に、他方が対象とする文書セグメ
ントに含まれている時には、数13の式は0でない値をと
る。
大きい順に文書セグメントの順位付けを行い、文書セグ
メント選択部27は、上位の文書セグメントを関連度の高
い文書セグメントとしてとして選択し、出力する。ま
た、関連度を加味しながら重要文を選択する場合には、
ブロック26において図1の手順で求められる重要度と関
連度とを加えた値を用いて文書セグメントの順位付けを
行ってもよい。
ある。先ず、m次の固有ベクトルに対する重みsmを以下
のように定義する。
固有ベクトル方向のエネルギーの占める割合を示す。文
書セグメントnに対する関連度gnを以下のように定義す
ることができる。
ーのsmを重みとする加重和となっている。従って重みの
大きい固有ベクトルへの射影値が大きい文は関連度が大
きくなる。また、gnを文書セグメントnのエネルギーと
無関係にするため、次式で正規化してもよい。
の文書セグメント、たとえば文章単位に分割したうえ
で、それぞれの文書セグメントごとにベクトルを算出
し、2つの文書のそれぞれの文書セグメントベクトルの
全ての組み合わせに対して内積の自乗和を算出して文書
間の類似度を求める。
多くなって文書セグメントベクトルの次元が大きくな
り、得られる文書セグメントベクトルの数自体も多くな
る。このため、文書セグメントベクトルの組み合わせの
各々に対して内積を求めるのは処理量、メモリ量の負担
が大きくなる。そこで、一方または両方の文書について
重要文抽出の場合と同じように概念部分空間によって表
現するようにする。
他方が概念部分空間で表された2つの文書間の類似度
は、文書セグメントベクトルと基底ベクトルの全ての組
み合わせの内積の重み付き自乗和により算出する。ま
た、両方の文書を概念部分空間で表わす場合には、基底
ベクトル同士の全ての組み合わせの内積の重み付き自乗
和により類似度を算出する。
ベクトルの集合により、もしくは部分空間により表わさ
れる。これにより文書の概念は文書セグメントの概念の
集合として表されたことになり、ひとつのベクトルで表
す場合に比べより正確に記述できるようになる。また、
両方の文書の全ての文書セグメントの概念が類似度に反
映されるので、文書の概念の広がりも自ずと類似度に反
映される。
集合を近似するものであるが、文書セグメントベクトル
の平方和行列の固有ベクトルを基底ベクトルとする場合
には誤差が最小になることが知られている。従って、一
方の文書の文書セグメントベクトルと他方の文書の選択
された基底ベクトルとの全ての組み合わせから求める類
似度は、文書セグメントベクトル同士の全ての組み合わ
せから求める類似度の最良の近似となっている。前述の
ように、この場合の部分空間は文書の中心概念を表す。
一方の文書の文書セグメントベクトルと他方の文書の選
択された基底ベクトルの全ての組み合わせで類似度を求
めることは、一方の文書セグメントの概念と他方の中心
的な概念との共通概念から類似度を求めることに相当す
る。
場合にも、求められる類似度は文書セグメントベクトル
同士の全ての組み合わせから求める類似度の近似となっ
ている。この場合は両方の文書の中心的な概念の全ての
組み合わせの共通概念から類似度を求めることになる。
従って、一方、もしくは両方の文書が概念部分空間によ
り表現されている場合も、文書セグメントベクトル同士
の組み合わせから類似度を求める場合と同様、求められ
る類似度はより自然なものになる。また、両方の文書の
全ての文書セグメントの概念が近似的に類似度に反映さ
れるので、文書の概念の広がりも自ずと類似度に反映さ
れる。
較から類似度を求める一実施例のシステムのブロック図
を示す。この発明は、典型的には汎用コンピュータ上で
この発明を組み込んだプログラムを走らせることによっ
て実施することができる。図3は、汎用コンピュータお
よびプログラムで構成されるシステムの機能ブロック図
である。
同じであり、ブロック11は用語検出部、ブロック12は形
態素解析部、ブロック13は文書セグメント分割部、ブロ
ック14は文書セグメントベクトル作成部である。ブロッ
ク35は文書セグメントベクトル内積演算部、ブロック36
は類似度算出部を表す。以下、英文文書を例に実施例を
説明する。
連して説明した用語検出部11から文書セグメントベクト
ル作成部14による処理を経て、文書セグメントベクトル
が作成される。
2つの入力文書の文書セグメントベクトルの全ての組み
合わせに対して内積の値を求め、その値を保持してお
く。ここで、2つの入力文書をS、Tとする。文書S、Tを
合わせた時K個の用語が現れたものとし、文書Sのn番目
の文書セグメントベクトルsn (n=1,..,N)を(sn1,
sn2,.., snK)により、文書Tのm番目の文書セグメントベ
クトルtm (m=1,..,M)を(tm1,tm2,.., tmK)により表す。
そうすると、文書セグメントベクトルsn とtmの内積の
値は次式で表される。
自乗和を求め、文書間の類似度を算出する。類似度をr
とすると、rは次式で与えられる。
類似度は0となり、文書SがTと全く同じであれば類似度
は1.0となる。
クトル、もしくは基底ベクトル同士の比較を行って類似
度を求める一実施例のシステムの機能ブロック図であ
る。用語検出部11から固有値・固有ベクトル算出部16
は、図1に示したものと同じである。ブロック37は主要
固有ベクトル選択部、ブロック38は内積計算部、ブロッ
ク39は類似度算出部を表す。
を、文書Tの文書セグメントベクトルと文書Sの基底ベク
トルの比較を行って求める。文書SおよびTについて用
語検出部11から文書セグメントベクトル作成部14の処理
を経て文書セグメントベクトルを生成する。次に、入力
文書Sについて、平方和行列算出部15で各文書セグメン
トベクトルの平方和行列を算出する。文書Sの文書セグ
メントベクトルの平方和行列をA=(Aab)とすると、Aは次
式により算出することができる。
と文書Tの文書セグメントベクトルtmの間の内積の値を
全てのnとmの組み合わせに対して求める。類似度算出部
39は、算出された内積の値から各次数の固有値を重みと
して用いて次の式により類似度の算出を行う。
類似度が求められているが、文書Tの文書セグメントと
文書Sの間の類似度を文書Tの文書セグメント毎に求め、
その平均を文書TとSの間の類似度とする方法も考えられ
る。この場合には、類似度は次式により与えられる。
を、基底ベクトル同士の比較を行って求める実施例につ
いて述べる。この場合には、文書Sだけでなく、文書Tに
対しても平方和行例算出部15から主要固有ベクトル選択
部37の処理を行ってそれぞれの固有値、固有ベクトルを
求め、主要固有ベクトルを基底ベクトルとして選択す
る。文書Tについて算出されたn次の固有値、固有ベク
トルをγn、τnとし、J次までを基底ベクトルとして選
択したとする。内積計算部38は、文書Sの固有ベクトル
Φnと文書Tの固有ベクトルτmの間の内積の値を全ての
nとmの組み合わせに対して求め、保持する。29における
類似度の算出は次式によって行うことができる。
グメントの全ての組み合わせに基づく類似度(数19)の
近似になっていることは、数19の式の分子が次の数24お
よび数25の式に書き直されることからも明らかである。
ンクはQとしている。また、上式では次式の関係を用い
ている。
をL次まで用いるようにすれば数21の分子と同じにな
る。さらに数25の式において文書Tの固有ベクトルをJ次
まで用いるようにすれば数23の式の分子と同じになる。
士、文書セグメントと基底ベクトル、基底ベクトル同士
のどの組み合わせにするかはユーザが選択する事項であ
るが、長い文書に対しては基底ベクトルを求めた方がメ
モリ量、処理量の点で負担が少ない。また、実施例の説
明で、比較対象の両方の文書について図3または4に示
された処理を行うとしているが、最後の内積や類似度の
計算以外は予め行っておいた処理の結果を用いてもよ
い。
よび固有ベクトルがどのように求められるかを示す。
今、単語1〜4が現れる文書を考え、表1のような平方和
行列が得られたとする。
ーを示し、単語1が最も大きくなっている。a、b、cはパ
ラメータで、aは単語1、2間、bは単語2、3間、cは単語
3、4間の共起の程度を与える。ここでは文書セグメント
が文で与えられたとする。
ルムの2乗で与えられると考える。そこで、文nのエネル
ギーE(dn)を次の数27により定義し、単語wkのエネルギ
ーE(wk)を数28のように定義する。
ると次の関係式が成り立ち、文書エネルギーは文エネル
ギーの総和、単語エネルギーの総和と等しくなる。
和行列から求めた固有値、固有ベクトルを示す。図6で
は、nを次数としてn次の固有値λn、n次の固有ベクトル
の各単語に対する係数、Φn1、Φn2、Φn3、Φn4を示
す。この結果から以下のことが言える。なお、ここで
は、概念がn次の固有ベクトルの方向で、エネルギーが
n次の固有値で与えられる仮想の文をn次の固有文と呼
ぶ。
固有ベクトルの係数は単語nが1で他は0である。これ
は、各固有ベクトルは各単語の軸そのものであり、固有
文の概念は各単語の概念そのものであることを示す。各
固有値は平方和行列の対角要素の値と等しい。即、各固
有文のエネルギーは各単語エネルギーと等しく、各単語
の頻度で決まる。
次と4次の固有文の概念は単語3、4の組み合わせで決ま
るようになる。従来のベクトル空間モデルでは単語の共
起関係を表現することは出来なかったが、本発明では固
有文の概念に自然な形で単語の共起関係が反映される。
また、3次の固有文のエネルギーはa=b=c=0の時のそれに
比べ、大きくなる。
おり、単語3、4の組み合わせで概念が決まる固有文のエ
ネルギーが最も大きくなることが分かる。これは固有文
のエネルギーは単語の頻度と単語間の共起の両方から決
まることを示す。
の間では共起しない。その結果行列Sは部分行列に分解
される。このような場合、固有文の概念は単語1、2の組
み合わせ、もしくは単語3、4の組み合わせで決まる。
念には全ての単語が拘るようになる。単語1は単語3、4
とは直接的な共起関係はなく、間接的な共起関係にある
と云えるが、このような間接的な共起関係も固有文の概
念に影響を与えることが分かる。実際の文書においても
単語間の直接的な共起だけでなく、間接的な共起の連鎖
が概念の形成に重要な役割を果たしていると考えられ
る。
ース記事から名詞を抽出して146次元の文ベトルを構成
した場合の概念部分空間の代表度と次元数Lの関係を示
す。この場合の平方和行列のランクは58であり、Lの最
大値も58となる。代表度50%、75%を達成する次元数はそ
れぞれ8、20であり、大幅な次元圧縮が可能なことを暗
示している。また、1次の固有文の代表度は12.2%である
が、この文書の平均文ベクトルの代表度(各文の平均ベ
クトルへの射影値の2乗和の文書エネルギーに対する割
合)は10.4%であった。1次の固有文は平均ベクトルを上
回る代表度を有することが確認された。1次の固有文の
代表度は文書が長くなるにつれ低下する傾向にある。
したが、この発明はこのような具体例に限定されるもの
ではない。
重要文を抽出する、2つの文書の類似度を判定するなど
の解析を行うに適した文書の表現方法が提供される。
起関係を含めて重要文の抽出処理が行われるので、人間
の感覚に近い抽出結果が得られる。また、質問文に対し
関連性をもつ文を抽出する場合、両者に共通する用語が
なくても用語の共起関係に基づいて概念的に関連する文
を抽出することができる。
と、2つの文書の類似度を文書セグメントの全ての組み
合わせから求め、すべての文書セグメントの概念が類似
度に反映されるので、信頼性の高い類似度が求められ
る。
ムの実施例の機能ブロック図。
発明のシステムの実施例の機能ブロック図。
ムの実施例の機能ブロック図。
ムのもう一つの実施例の機能ブロック図。
ら名詞を抽出して146次元の文ベトルを構成した場合の
概念部分空間の代表度と次元数Lの関係を示す。
例を示す図。
Claims (11)
- 【請求項1】入力文書をベクトル表現する方法であっ
て、 前記入力文書に出現する用語を検出するステップと、 前記入力文書を適当な単位の文書セグメントに区分けす
るステップと、 前記文書セグメントに出現する用語の出現頻度に応じた
値を成分とする文書セグメントのベクトルを生成するス
テップと、を含み、 文書セグメントの平方和行列の固有値および固有ベクト
ルを用いて文書セグメントベクトルの集合を表現する方
法。 - 【請求項2】 K個の用語が現れる入力文書がN個の文書
セグメントに分割され、dniがi番目の用語の文書セグ
メントnにおける出現頻度に応じた値として、n番目の
文書セグメントベクトルdn (n=1,..,N)を(dn1, dn2,..,
dnK)により表すと、前記平方和行列は、 【数1】 により算出される請求項1に記載の方法。 - 【請求項3】 入力文書から重要な文書セグメントを抽
出する方法であって、 前記入力文書に出現する用語を検出するステップと、 前記入力文書を適当な単位の文書セグメントに区分けす
るステップと、 前記文書セグメントに出現する用語の出現頻度に応じた
値を成分とする文書セグメントのベクトルを生成するス
テップと、 前記文書セグメントベクトルのランクがRで示される平
方和行列の固有ベクトルおよび固有値を求めるステップ
と、 前記複数の固有ベクトルから重要度判定に使用する複数
Lの固有ベクトルを選択するステップと、 選択されたそれぞれの固有ベクトルへのそれぞれの文書
セグメントベクトルの射影値の重み付き自乗和を求める
ステップと、を含み、 それぞれの文書セグメントベクトルの射影値の自乗和に
基づいて重要度の大きい文書セグメントを選択する重要
文抽出方法。 - 【請求項4】 K個の用語が現れる入力文書がN個の文書
セグメントに分割され、dniがi番目の用語の文書セグ
メントnにおける出現頻度に応じた値として、n番目の
文書セグメントベクトルdn (n=1,..,N)を(dn1, dn2,..,
dnK)により表し、dnの射影後のベクトルをzn=(zn1,z
n2,….,znL)とすると、m番目の固有ベクトルへの射影
値は、 znm=Φm tdn (Φmはm次の固有ベク
トル、tは転置を表す)で与えられ、L次の部分空間へ
の射影値の自乗和は、 【数2】 または、 【数3】 により与えられる請求項3に記載の方法。 - 【請求項5】 前記固有ベクトルおよび固有値は、平方
和行列 【数4】 から求められ、そのランクRに対して前記Lは、文書の
中心概念を表す部分空間の次数を示し、 【数5】 により与えられる前記入力文書の全体的概念に対する中
心概念の割合に基づいてLの値を決める請求項4に記載
の方法。 - 【請求項6】 入力文書から質問文と関連性をもつ文書
セグメントを抽出する方法であって、 前記入力文書に出現する用語を検出し、前記入力文書を
適当な単位の文書セグメントに区分けし、該文書セグメ
ントに出現する用語の出現頻度に応じた値を成分とする
文書セグメントのベクトルを生成するステップと、 前記文書セグメントベクトルの平方和行列の固有ベクト
ルおよび固有値を求めて部分空間を決定するステップ
と、 前記質問文に出現する用語を検出し、該用語の出現頻度
に応じた値を成分とする質問文のベクトルを生成し、前
記部分空間に射影するステップと、 前記文書セグメントのベクトルのそれぞれを前記部分空
間に射影し、前記質問文と文書セグメントとの関連度を
算出するステップと、を含む文書セグメントの抽出方
法。 - 【請求項7】 前記文書セグメントのベクトルdnの前
記部分空間への射影ベクトルをzn、前記質問文のベクト
ルqを前記部分空間に射影したベクトルをyとすると、
n番目の文書セグメントと質問文との関連度gnは、y
とznの内積y tzn(tは転置)に基づいて求められ
る請求項6に記載の方法。 - 【請求項8】 前記質問文のベクトルをqとし、m番目
の前記固有ベクトルをΦmとし、Lを前記部分空間の次
数とするとき、m次の固有ベクトルに対する重みsmを
(Φm tq)2の関数で定義し、文書セグメントnに対
する関連度gnを 【数6】 で求める請求項6に記載の方法。 - 【請求項9】与えられた2つの入力文書の類似性を判定
する文書間類似性判定方法であって、 それぞれの入力文書に出現する用語を検出するステップ
と、 ぞれぞれの入力文書を適当な単位の文書セグメントに区
分けするステップと、 前記文書セグメントに出現する用語の出現頻度に応じた
値を成分とする文書セグメントのベクトルを生成するス
テップと、 それぞれの入力文書について、それぞれの入力文書に含
まれる前記文書セグメントのベクトルのすべての組み合
わせについて内積の自乗を求めるステップと、を含み、 前記内積の自乗の和に基づいて入力文書間の類似性を判
定する文書間類似性判定方法。 - 【請求項10】与えられた2つの入力文書の類似性を判
定する文書間類似性判定方法であって、 一方の入力文書の文書セグメントベクトルの平方和行列
の固有ベクトルおよび固有値を算出するステップと、 前記固有ベクトルから固有値の大きいものを基底ベクト
ルとして選択するステップと、 他方の文書の文書セグメントベクトルと前記基底ベクト
ルとの内積の自乗を求め、重み付けして加えあわせるス
テップと、を含み、 加え合わせられた内積の自乗の和から前記2つの入力文
書の間の類似性を判定する文書間類似性判定方法。 - 【請求項11】与えられた2つの入力文書の類似性を判
定する文書間類似性判定方法であって、 前記2つの入力文書のそれぞれについて文書セグメント
ベクトルの平方和行列の固有ベクトルおよび固有値を算
出するステップと、 前記2つの入力文書のそれぞれについて前記固有ベクト
ルから固有値の大きいものを基底ベクトルとして選択す
るステップと、 選択された基底ベクトルの組み合わせについて内積の自
乗を求め、重み付けして加えあわせるステップと、を含
み、 加え合わせられた内積の自乗の和から入力文書間の類似
性を判定する文書間類似性判定方法。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000353475A JP2002169834A (ja) | 2000-11-20 | 2000-11-20 | 文書のベクトル解析を行うコンピュータおよび方法 |
EP01996067A EP1336174A4 (en) | 2000-11-20 | 2001-11-15 | METHOD FOR VECTOR ANALYSIS IN A DOCUMENT |
CNB018175805A CN1227614C (zh) | 2000-11-20 | 2001-11-15 | 用于文档的向量分析方法 |
EP08103139A EP1944757A3 (en) | 2000-11-20 | 2001-11-15 | Method and system for identifying document segment relationships |
EP08103135A EP1944756A3 (en) | 2000-11-20 | 2001-11-15 | Method and system for determining similarity between two documents |
PCT/US2001/045599 WO2002041557A2 (en) | 2000-11-20 | 2001-11-15 | Method of vector analysis for a document |
US10/380,264 US7562066B2 (en) | 2000-11-20 | 2001-11-15 | Method of vector analysis for a document |
US12/424,801 US8171026B2 (en) | 2000-11-20 | 2009-04-16 | Method and vector analysis for a document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000353475A JP2002169834A (ja) | 2000-11-20 | 2000-11-20 | 文書のベクトル解析を行うコンピュータおよび方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002169834A true JP2002169834A (ja) | 2002-06-14 |
JP2002169834A5 JP2002169834A5 (ja) | 2008-01-31 |
Family
ID=18826235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000353475A Pending JP2002169834A (ja) | 2000-11-20 | 2000-11-20 | 文書のベクトル解析を行うコンピュータおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US7562066B2 (ja) |
EP (3) | EP1944757A3 (ja) |
JP (1) | JP2002169834A (ja) |
CN (1) | CN1227614C (ja) |
WO (1) | WO2002041557A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006048686A (ja) * | 2004-07-26 | 2006-02-16 | Google Inc | フレーズに基づく文書説明の生成方法 |
JP2010122823A (ja) * | 2008-11-18 | 2010-06-03 | Nec Corp | テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8241274B2 (en) | 2000-01-19 | 2012-08-14 | Medtronic, Inc. | Method for guiding a medical device |
US7308138B2 (en) * | 2000-12-12 | 2007-12-11 | Hewlett-Packard Development Company, L.P. | Document segmentation method |
US7194461B2 (en) * | 2001-03-02 | 2007-03-20 | Hewlett-Packard Development Company, L.P. | Document and information retrieval method and apparatus |
WO2003017023A2 (en) | 2001-08-14 | 2003-02-27 | Quigo Technologies, Inc. | System and method for extracting content for submission to a search engine |
JP4452012B2 (ja) * | 2002-07-04 | 2010-04-21 | ヒューレット・パッカード・カンパニー | 文書の特有性評価方法 |
ATE492853T1 (de) | 2002-07-23 | 2011-01-15 | Quigo Technologies Inc | System und verfahren zur automatisierten abbildung von schlüsselwörtern und schlüsselphrasen auf dokumenten |
JP2004280661A (ja) * | 2003-03-18 | 2004-10-07 | Fujitsu Ltd | 検索方法及びプログラム |
JP2005158010A (ja) * | 2003-10-31 | 2005-06-16 | Hewlett-Packard Development Co Lp | 分類評価装置・方法及びプログラム |
US7827025B2 (en) * | 2004-04-06 | 2010-11-02 | Microsoft Corporation | Efficient capitalization through user modeling |
US7599914B2 (en) * | 2004-07-26 | 2009-10-06 | Google Inc. | Phrase-based searching in an information retrieval system |
US7567959B2 (en) | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
US7536408B2 (en) * | 2004-07-26 | 2009-05-19 | Google Inc. | Phrase-based indexing in an information retrieval system |
US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US7580921B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase identification in an information retrieval system |
US7426507B1 (en) | 2004-07-26 | 2008-09-16 | Google, Inc. | Automatic taxonomy generation in search results using phrases |
US7580929B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase-based personalization of searches in an information retrieval system |
JP2006091994A (ja) * | 2004-09-21 | 2006-04-06 | Toshiba Corp | 文書情報処理装置および方法、文書情報処理プログラム |
US7533094B2 (en) * | 2004-11-23 | 2009-05-12 | Microsoft Corporation | Method and system for determining similarity of items based on similarity objects and their features |
US8290962B1 (en) * | 2005-09-28 | 2012-10-16 | Google Inc. | Determining the relationship between source code bases |
DE102005051617B4 (de) * | 2005-10-27 | 2009-10-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken |
US8086594B1 (en) | 2007-03-30 | 2011-12-27 | Google Inc. | Bifurcated document relevance scoring |
US7702614B1 (en) | 2007-03-30 | 2010-04-20 | Google Inc. | Index updating using segment swapping |
US8166045B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Phrase extraction using subphrase scoring |
US8166021B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Query phrasification |
US7925655B1 (en) | 2007-03-30 | 2011-04-12 | Google Inc. | Query scheduling using hierarchical tiers of index servers |
US7693813B1 (en) | 2007-03-30 | 2010-04-06 | Google Inc. | Index server architecture using tiered and sharded phrase posting lists |
US8117223B2 (en) * | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
US8577884B2 (en) * | 2008-05-13 | 2013-11-05 | The Boeing Company | Automated analysis and summarization of comments in survey response data |
EP2128774A1 (en) * | 2008-05-29 | 2009-12-02 | Accenture Global Services GmbH | Techniques for computing similarity measurements between segments representative of documents |
EP2306339A1 (en) * | 2009-09-23 | 2011-04-06 | Adobe Systems Incorporated | Algorith and implementation for fast computation of content recommendation |
US9015663B2 (en) * | 2010-03-15 | 2015-04-21 | Nec Corporation | Information processing device, information processing method, and information processing program |
US20130091150A1 (en) * | 2010-06-30 | 2013-04-11 | Jian-Ming Jin | Determiining similarity between elements of an electronic document |
CN102385574B (zh) * | 2010-09-01 | 2014-08-20 | 株式会社理光 | 从文档抽取句子的方法和装置 |
EP2715474A4 (en) * | 2011-05-24 | 2015-11-18 | Namesforlife Llc | SEMIOTIC INDEXING OF DIGITAL RESOURCES |
US8566156B2 (en) * | 2011-07-05 | 2013-10-22 | Yahoo! Inc. | Combining segments of users into vertically indexed super-segments |
CN102360372B (zh) * | 2011-10-09 | 2013-01-30 | 北京航空航天大学 | 一种跨语种的文档相似性检测方法 |
WO2014058433A1 (en) * | 2012-10-12 | 2014-04-17 | Hewlett-Packard Development Company, L.P. | A combinatorial summarizer |
US9501506B1 (en) | 2013-03-15 | 2016-11-22 | Google Inc. | Indexing system |
CN104216894B (zh) | 2013-05-31 | 2017-07-14 | 国际商业机器公司 | 用于数据查询的方法和系统 |
US9483568B1 (en) | 2013-06-05 | 2016-11-01 | Google Inc. | Indexing system |
US20190332619A1 (en) * | 2014-08-07 | 2019-10-31 | Cortical.Io Ag | Methods and systems for mapping data items to sparse distributed representations |
CN105630767B (zh) * | 2015-12-22 | 2018-06-15 | 北京奇虎科技有限公司 | 一种文本相似性的比较方法以及装置 |
KR102703923B1 (ko) * | 2016-12-29 | 2024-09-06 | 주식회사 엔씨소프트 | 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법 |
JP6842167B2 (ja) * | 2017-05-08 | 2021-03-17 | 国立研究開発法人情報通信研究機構 | 要約生成装置、要約生成方法及びコンピュータプログラム |
CN107239552A (zh) * | 2017-06-08 | 2017-10-10 | 上海德衡数据科技有限公司 | 一种针对关键词的网络文档语义检索方法 |
CN107330044A (zh) * | 2017-06-29 | 2017-11-07 | 上海德衡数据科技有限公司 | 一种基于语义的网络文档智能检索架构 |
CN107330052A (zh) * | 2017-06-29 | 2017-11-07 | 上海德衡数据科技有限公司 | 一种基于语义的网络文档智能检索原型 |
US10891943B2 (en) * | 2018-01-18 | 2021-01-12 | Citrix Systems, Inc. | Intelligent short text information retrieve based on deep learning |
CN110147532B (zh) * | 2019-01-24 | 2023-08-25 | 腾讯科技(深圳)有限公司 | 编码方法、装置、设备及存储介质 |
CN110147533B (zh) * | 2019-01-24 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 编码方法、装置、设备及存储介质 |
US11829386B2 (en) | 2020-01-30 | 2023-11-28 | HG Insights, Inc. | Identifying anonymized resume corpus data pertaining to the same individual |
CN117112609B (zh) * | 2023-06-29 | 2024-05-10 | 南京国电南自轨道交通工程有限公司 | 一种使用关键元素矩阵提高监控历史数据检索效率的方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145270A (ja) * | 1997-07-28 | 1999-02-16 | Just Syst Corp | 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3668702A (en) * | 1970-10-30 | 1972-06-06 | Itt | Adaptive matched filter for radar signal detector in the presence of colored noise |
US5301109A (en) * | 1990-06-11 | 1994-04-05 | Bell Communications Research, Inc. | Computerized cross-language document retrieval using latent semantic indexing |
US5634021A (en) | 1991-08-15 | 1997-05-27 | Borland International, Inc. | System and methods for generation of design images based on user design inputs |
US5983251A (en) * | 1993-09-08 | 1999-11-09 | Idt, Inc. | Method and apparatus for data analysis |
US5619709A (en) | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
US6038533A (en) * | 1995-07-07 | 2000-03-14 | Lucent Technologies Inc. | System and method for selecting training text |
US5901244A (en) * | 1996-06-18 | 1999-05-04 | Matsushita Electric Industrial Co., Ltd. | Feature extraction system and face image recognition system |
US5857179A (en) * | 1996-09-09 | 1999-01-05 | Digital Equipment Corporation | Computer method and apparatus for clustering documents and automatic generation of cluster keywords |
US5819258A (en) * | 1997-03-07 | 1998-10-06 | Digital Equipment Corporation | Method and apparatus for automatically generating hierarchical categories from large document collections |
US6070133A (en) * | 1997-07-21 | 2000-05-30 | Battelle Memorial Institute | Information retrieval system utilizing wavelet transform |
US6356864B1 (en) * | 1997-07-25 | 2002-03-12 | University Technology Corporation | Methods for analysis and evaluation of the semantic content of a writing based on vector length |
US5930784A (en) * | 1997-08-21 | 1999-07-27 | Sandia Corporation | Method of locating related items in a geometric space for data mining |
US6996572B1 (en) * | 1997-10-08 | 2006-02-07 | International Business Machines Corporation | Method and system for filtering of information entities |
US6134541A (en) * | 1997-10-31 | 2000-10-17 | International Business Machines Corporation | Searching multidimensional indexes using associated clustering and dimension reduction information |
US6347315B1 (en) * | 1997-12-12 | 2002-02-12 | Canon Kabushiki Kaisha | Method and apparatus for selecting and utilizing one of computers or databases |
-
2000
- 2000-11-20 JP JP2000353475A patent/JP2002169834A/ja active Pending
-
2001
- 2001-11-15 EP EP08103139A patent/EP1944757A3/en not_active Withdrawn
- 2001-11-15 EP EP01996067A patent/EP1336174A4/en not_active Withdrawn
- 2001-11-15 EP EP08103135A patent/EP1944756A3/en not_active Withdrawn
- 2001-11-15 WO PCT/US2001/045599 patent/WO2002041557A2/en active Application Filing
- 2001-11-15 CN CNB018175805A patent/CN1227614C/zh not_active Expired - Fee Related
- 2001-11-15 US US10/380,264 patent/US7562066B2/en not_active Expired - Fee Related
-
2009
- 2009-04-16 US US12/424,801 patent/US8171026B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145270A (ja) * | 1997-07-28 | 1999-02-16 | Just Syst Corp | 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Non-Patent Citations (1)
Title |
---|
CSNG199800201011, 大石貴治, "部分構造の主題の相互関係を考慮した文献検索", 情報処理学会研究報告, 19980119, 第98巻,第2号, pp.73−80, JP, 社団法人情報処理学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006048686A (ja) * | 2004-07-26 | 2006-02-16 | Google Inc | フレーズに基づく文書説明の生成方法 |
JP2010122823A (ja) * | 2008-11-18 | 2010-06-03 | Nec Corp | テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
US7562066B2 (en) | 2009-07-14 |
EP1944756A2 (en) | 2008-07-16 |
WO2002041557A3 (en) | 2003-01-30 |
EP1944756A3 (en) | 2008-07-23 |
CN1470047A (zh) | 2004-01-21 |
CN1227614C (zh) | 2005-11-16 |
EP1944757A2 (en) | 2008-07-16 |
EP1336174A2 (en) | 2003-08-20 |
EP1944757A3 (en) | 2008-07-23 |
US8171026B2 (en) | 2012-05-01 |
WO2002041557A2 (en) | 2002-05-23 |
EP1336174A4 (en) | 2007-05-30 |
US20090216759A1 (en) | 2009-08-27 |
US20040068396A1 (en) | 2004-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002169834A (ja) | 文書のベクトル解析を行うコンピュータおよび方法 | |
Robertson et al. | The TREC 2002 Filtering Track Report. | |
US6789230B2 (en) | Creating a summary having sentences with the highest weight, and lowest length | |
US8280877B2 (en) | Diverse topic phrase extraction | |
JPH09153066A (ja) | 文書検索装置 | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
WO2009123260A1 (ja) | 共起辞書作成システムおよびスコアリングシステム | |
JP2011227688A (ja) | テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置 | |
JP2011118872A (ja) | 未登録語のカテゴリを決定する方法と装置 | |
US6278990B1 (en) | Sort system for text retrieval | |
Hanum et al. | Using topic analysis for querying halal information on Malay documents | |
JP2009193219A (ja) | インデックス作成装置、その方法、プログラム及び記録媒体 | |
US20120316865A1 (en) | Information processing apparatus, information processing method, and program | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
KR101710010B1 (ko) | 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템 | |
KR102017227B1 (ko) | 과학문서의 핵심어구 추출방법 및 장치 | |
JP2003016106A (ja) | 関連度値算出装置 | |
JP2004272352A (ja) | 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 | |
CN114780491A (zh) | 文件检索方法及装置 | |
Rizun et al. | Methodology of constructing and analyzing the hierarchical contextually-oriented corpora | |
JP4349480B2 (ja) | 重要句・文抽出方法及び装置 | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP2000090110A (ja) | 全文検索方法、装置、および全文検索プログラムを記録した記録媒体 | |
JP2003016105A (ja) | 関連度値算出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100615 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20100910 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110111 |