JPH09128402A - 文書類似度計算装置および文書分類装置 - Google Patents
文書類似度計算装置および文書分類装置Info
- Publication number
- JPH09128402A JPH09128402A JP7281918A JP28191895A JPH09128402A JP H09128402 A JPH09128402 A JP H09128402A JP 7281918 A JP7281918 A JP 7281918A JP 28191895 A JP28191895 A JP 28191895A JP H09128402 A JPH09128402 A JP H09128402A
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- document data
- document
- subject
- relational expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 情報の内容・主題を反映して文書データの類
似度を計算することができる文書類似度計算装置、また
これに基づき情報の分類を行なうことができる文書分類
装置を提供する。 【構成】 主題関係表現抽出部2は、文書データ記憶部
1からひとつの文書データが読み出し、文書データのテ
キスト部分を形態素解析する。形態素解析結果から、複
数の語句とその間の関係を表わす関係表現を抽出する。
抽出された関係表現のうち、関係表現を構成する自立語
群が同じで、矛盾しない関係を持つものを集め、頻度を
数える。得られた頻度に基づき、所定の基準に従って、
その文書データの主題を表わす関係表現を選択する。類
似度計算部3は、任意の2つの文書データの類似度を、
主題関係表現抽出部2で抽出された主題関係表現の類似
度に基づいて計算し、記憶部4に記憶する。
似度を計算することができる文書類似度計算装置、また
これに基づき情報の分類を行なうことができる文書分類
装置を提供する。 【構成】 主題関係表現抽出部2は、文書データ記憶部
1からひとつの文書データが読み出し、文書データのテ
キスト部分を形態素解析する。形態素解析結果から、複
数の語句とその間の関係を表わす関係表現を抽出する。
抽出された関係表現のうち、関係表現を構成する自立語
群が同じで、矛盾しない関係を持つものを集め、頻度を
数える。得られた頻度に基づき、所定の基準に従って、
その文書データの主題を表わす関係表現を選択する。類
似度計算部3は、任意の2つの文書データの類似度を、
主題関係表現抽出部2で抽出された主題関係表現の類似
度に基づいて計算し、記憶部4に記憶する。
Description
【0001】
【産業上の利用分野】本発明は、テキスト情報を含む文
書データの類似度を計算する文書類似度計算装置、およ
び、類似度に基づき文書データを分類する文書分類装置
に関するものである。
書データの類似度を計算する文書類似度計算装置、およ
び、類似度に基づき文書データを分類する文書分類装置
に関するものである。
【0002】
【従来の技術】得たい情報を探すための第1歩として、
大量の文書情報の概要を見るために文書を分類する文書
分類装置がある。分類する方法としては、文書の類似度
を計算し、それに基づいて分類するものが提案されてい
る。例えば、特開平2−158871号公報に記載され
ている「文書分類装置」では、キーワードの出現頻度に
よる自己情報量に基づいて文書を分類する。また、“S
catter/Gather: A Cluster−
based Approach to Browsin
g Large Document Collecti
ons”(SIGIR ’92)には、テキストに出現
する単語の頻度を用いて類似度を計算する旨が記載され
ている。
大量の文書情報の概要を見るために文書を分類する文書
分類装置がある。分類する方法としては、文書の類似度
を計算し、それに基づいて分類するものが提案されてい
る。例えば、特開平2−158871号公報に記載され
ている「文書分類装置」では、キーワードの出現頻度に
よる自己情報量に基づいて文書を分類する。また、“S
catter/Gather: A Cluster−
based Approach to Browsin
g Large Document Collecti
ons”(SIGIR ’92)には、テキストに出現
する単語の頻度を用いて類似度を計算する旨が記載され
ている。
【0003】しかしながら、キーワードや出現単語とい
った単語を単位とした場合、単語がいろいろな意味で使
われていても同じものとして頻度が数えられてしまう。
そのため、キーワードの頻度や出現単語の頻度は文書の
内容や主題を十分に反映していない。したがって、この
ような方法に基づく文書の類似度は正確なものとは言え
ず、この類似度に基づく分類も正確ではない。
った単語を単位とした場合、単語がいろいろな意味で使
われていても同じものとして頻度が数えられてしまう。
そのため、キーワードの頻度や出現単語の頻度は文書の
内容や主題を十分に反映していない。したがって、この
ような方法に基づく文書の類似度は正確なものとは言え
ず、この類似度に基づく分類も正確ではない。
【0004】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、情報の内容・主題を反映し
て文書データの類似度を計算することができる文書類似
度計算装置、またこれに基づき情報の分類を行なうこと
ができる文書分類装置を提供することを目的とするもの
である。
情に鑑みてなされたもので、情報の内容・主題を反映し
て文書データの類似度を計算することができる文書類似
度計算装置、またこれに基づき情報の分類を行なうこと
ができる文書分類装置を提供することを目的とするもの
である。
【0005】
【課題を解決するための手段】請求項1に記載の発明
は、文書類似度計算装置において、少なくともテキスト
情報を含むような文書データを入力する文書データ入力
手段と、該文書データ入力手段から入力された各文書デ
ータのテキスト部分から複数の語句とその間の関係から
なる関係表現のうち主題を表わす関係表現を抽出する主
題関係表現抽出手段手段と、任意の2つの文書データの
類似度を前記主題を表わす関係表現の類似度に基づいて
計算する類似度計算手段を有することを特徴とするもの
である。
は、文書類似度計算装置において、少なくともテキスト
情報を含むような文書データを入力する文書データ入力
手段と、該文書データ入力手段から入力された各文書デ
ータのテキスト部分から複数の語句とその間の関係から
なる関係表現のうち主題を表わす関係表現を抽出する主
題関係表現抽出手段手段と、任意の2つの文書データの
類似度を前記主題を表わす関係表現の類似度に基づいて
計算する類似度計算手段を有することを特徴とするもの
である。
【0006】請求項2に記載の発明は、文書分類装置に
おいて、請求項1に記載の文書類似度計算装置と、前記
類似度計算手段において計算された類似度に基づいて文
書データを分類する情報分類手段と、該情報分類手段に
よる分類結果を出力する出力手段を有することを特徴と
するものである。
おいて、請求項1に記載の文書類似度計算装置と、前記
類似度計算手段において計算された類似度に基づいて文
書データを分類する情報分類手段と、該情報分類手段に
よる分類結果を出力する出力手段を有することを特徴と
するものである。
【0007】
【作用】請求項1に記載の発明によれば、入力された各
文書データのテキスト部分から、複数の語句とその間の
関係からなる関係表現のうち、主題を表わす関係表現を
抽出し、抽出した主題を表わす関係表現の類似度に基づ
いて、任意の2つの文書データの類似度を計算する。こ
れにより、文書の主題によって類似度を判定できるとと
もに、同じ単語が使用されていても、その意味的な関係
を考慮して類似度を判定することができる。
文書データのテキスト部分から、複数の語句とその間の
関係からなる関係表現のうち、主題を表わす関係表現を
抽出し、抽出した主題を表わす関係表現の類似度に基づ
いて、任意の2つの文書データの類似度を計算する。こ
れにより、文書の主題によって類似度を判定できるとと
もに、同じ単語が使用されていても、その意味的な関係
を考慮して類似度を判定することができる。
【0008】また、請求項2に記載の発明によれば、請
求項1に記載の発明によって計算された類似度を用い
て、文書データを分類する。これにより、文書の内容・
主題を反映した分類を行なうことができる。
求項1に記載の発明によって計算された類似度を用い
て、文書データを分類する。これにより、文書の内容・
主題を反映した分類を行なうことができる。
【0009】
【実施例】図1は、本発明の文書類似度計算装置の一実
施例を示す構成図である。図中、1は文書データ記憶
部、2は主題関係表現抽出部、3は類似度計算部、4は
記憶部である。
施例を示す構成図である。図中、1は文書データ記憶
部、2は主題関係表現抽出部、3は類似度計算部、4は
記憶部である。
【0010】文書データ記憶部1は、大量の文書データ
を記憶している記憶装置である。この文書データ記憶部
1は、例えば、磁気ディスクのような情報を記憶できる
ものであればどのような構成でもよい。また、すべての
情報の実体が存在する必要はなく、例えば、実体はネッ
トワーク上などにある文書データが仮想的に管理されて
いるものでもよい。また、記憶されている文書データ
は、少なくとも自然言語で記述されたテキストを含むも
のであれば、絵や図形などを含んでいてもよい。
を記憶している記憶装置である。この文書データ記憶部
1は、例えば、磁気ディスクのような情報を記憶できる
ものであればどのような構成でもよい。また、すべての
情報の実体が存在する必要はなく、例えば、実体はネッ
トワーク上などにある文書データが仮想的に管理されて
いるものでもよい。また、記憶されている文書データ
は、少なくとも自然言語で記述されたテキストを含むも
のであれば、絵や図形などを含んでいてもよい。
【0011】主題関係表現抽出部2は、文書データ記憶
部1に記憶された各文書データのテキスト部分から、文
書データの内容を表わす主題関係表現を抽出する。類似
度計算部3は、任意の2つの文書データの類似度を、主
題関係表現抽出部2で抽出された主題関係表現の類似度
に基づいて計算する。記憶部4は、類似度計算部3で計
算された2つの文書データ間の類似度を記憶する。
部1に記憶された各文書データのテキスト部分から、文
書データの内容を表わす主題関係表現を抽出する。類似
度計算部3は、任意の2つの文書データの類似度を、主
題関係表現抽出部2で抽出された主題関係表現の類似度
に基づいて計算する。記憶部4は、類似度計算部3で計
算された2つの文書データ間の類似度を記憶する。
【0012】図2は、主題関係表現抽出部2の詳細の一
例を示す構成図である。図中、21は形態素解析部、2
2は関係表現抽出部、23は関係表現選択部である。形
態素解析部21は、文書データ記憶部1からひとつの文
書データが読み出し、文書データのテキスト部分を形態
素解析する。形態素解析の方法としては、従来用いられ
ている種々の解析手法を利用することができる。関係表
現抽出部22は、形態素解析部21による形態素解析結
果から、複数の語句とその間の関係を表わす関係表現を
抽出する。関係表現選択部23は、ひとつの文書データ
から抽出された関係表現のうち、関係表現を構成する自
立語群が同じで、矛盾しない関係を持つものを集め、こ
れらの関係表現をひとつにまとめて頻度を数え、これを
各関係表現の重要度とする。また、それらの中から、最
も抽象度の低い関係を代表として選ぶ。各関係表現の重
要度が得られると、あらかじめ決められている基準にし
たがって重要度に基づいて関係表現を選択する。このよ
うにして選択した関係表現が、主題を表わす関係表現で
ある。このように、表現が異なっても同じ関係を表わす
と思われる関係表現をまとめた上で、出現頻度の高い関
係表現を選択することにより、主題を表わす関係表現を
選択できる。
例を示す構成図である。図中、21は形態素解析部、2
2は関係表現抽出部、23は関係表現選択部である。形
態素解析部21は、文書データ記憶部1からひとつの文
書データが読み出し、文書データのテキスト部分を形態
素解析する。形態素解析の方法としては、従来用いられ
ている種々の解析手法を利用することができる。関係表
現抽出部22は、形態素解析部21による形態素解析結
果から、複数の語句とその間の関係を表わす関係表現を
抽出する。関係表現選択部23は、ひとつの文書データ
から抽出された関係表現のうち、関係表現を構成する自
立語群が同じで、矛盾しない関係を持つものを集め、こ
れらの関係表現をひとつにまとめて頻度を数え、これを
各関係表現の重要度とする。また、それらの中から、最
も抽象度の低い関係を代表として選ぶ。各関係表現の重
要度が得られると、あらかじめ決められている基準にし
たがって重要度に基づいて関係表現を選択する。このよ
うにして選択した関係表現が、主題を表わす関係表現で
ある。このように、表現が異なっても同じ関係を表わす
と思われる関係表現をまとめた上で、出現頻度の高い関
係表現を選択することにより、主題を表わす関係表現を
選択できる。
【0013】以下、具体例を用いながら、本発明の文書
類似度計算装置の一実施例における動作の一例を説明す
る。文書データ記憶部1から、ひとつの文書データが読
み出され、形態素解析部21において文書データのテキ
スト部分が形態素解析される。関係表現抽出部22で
は、形態素解析結果から、関係表現を抽出する。ここで
は二つの語句とその間の関係からなる関係表現を抽出す
るものとする。
類似度計算装置の一実施例における動作の一例を説明す
る。文書データ記憶部1から、ひとつの文書データが読
み出され、形態素解析部21において文書データのテキ
スト部分が形態素解析される。関係表現抽出部22で
は、形態素解析結果から、関係表現を抽出する。ここで
は二つの語句とその間の関係からなる関係表現を抽出す
るものとする。
【0014】関係表現抽出部22は、関係表現抽出規則
を用いて、形態素解析結果から 前自立語群+付属語群+後自立語群 からなる表現を抽出し、自立語群間の関係を与えて、例
えば、 {関係 自立語群1 自立語群2} のように表わされる関係表現にする。
を用いて、形態素解析結果から 前自立語群+付属語群+後自立語群 からなる表現を抽出し、自立語群間の関係を与えて、例
えば、 {関係 自立語群1 自立語群2} のように表わされる関係表現にする。
【0015】図3は、関係表現抽出規則の一例の説明図
である。図3に示す関係表現抽出規則は、前自立語群、
付属語群、後自立語群、リレーション記号がそれぞれ対
応づけて登録されている。テキストの形態素解析結果か
ら前自立語群+付属語群+後自立語群という表現を抽出
したとき、それぞれ、前自立語群、付属語群、後自立語
群が適合する規則を見つける。そして、その規則に対応
づけられているリレーション記号を得て、前自立語群と
後自立語群とともに、関係表現{関係 自立語群1 自
立語群2}を生成する。なお、図3においては、サ変動
詞の語幹を単に「サ変」と略記している。
である。図3に示す関係表現抽出規則は、前自立語群、
付属語群、後自立語群、リレーション記号がそれぞれ対
応づけて登録されている。テキストの形態素解析結果か
ら前自立語群+付属語群+後自立語群という表現を抽出
したとき、それぞれ、前自立語群、付属語群、後自立語
群が適合する規則を見つける。そして、その規則に対応
づけられているリレーション記号を得て、前自立語群と
後自立語群とともに、関係表現{関係 自立語群1 自
立語群2}を生成する。なお、図3においては、サ変動
詞の語幹を単に「サ変」と略記している。
【0016】図4は、関係表現の抽出例の説明図であ
る。例えば、図4(A)に示す例文を形態素解析し、そ
の形態素解析結果から前自立語群+付属語群+後自立語
群という表現を抽出すると、図4(B)に示す6つの表
現が抽出される。例えば、1行目の「我々+が+実現」
という表現は、「名詞」+「が」+「サ変動詞語幹」で
ある。この表現を図3に示す関係表現抽出規則に当ては
めると、図3の1行目に示す規則と一致する。そのた
め、この表現のリレーション記号として[ガ]が得られ
る。得られたリレーション記号を関係とし、前自立語で
ある「我々」および後自立語である「実現」とともに、
関係表現{[ガ] 我々 実現}が生成される。他の表
現についても同様であり、図3に示した関係表現抽出規
則に従い、図4(B)に示した各表現から、図4(C)
に示した関係表現が生成される。
る。例えば、図4(A)に示す例文を形態素解析し、そ
の形態素解析結果から前自立語群+付属語群+後自立語
群という表現を抽出すると、図4(B)に示す6つの表
現が抽出される。例えば、1行目の「我々+が+実現」
という表現は、「名詞」+「が」+「サ変動詞語幹」で
ある。この表現を図3に示す関係表現抽出規則に当ては
めると、図3の1行目に示す規則と一致する。そのた
め、この表現のリレーション記号として[ガ]が得られ
る。得られたリレーション記号を関係とし、前自立語で
ある「我々」および後自立語である「実現」とともに、
関係表現{[ガ] 我々 実現}が生成される。他の表
現についても同様であり、図3に示した関係表現抽出規
則に従い、図4(B)に示した各表現から、図4(C)
に示した関係表現が生成される。
【0017】関係表現抽出部22によって生成された関
係表現は、関係表現選択部23に送出される。関係表現
選択部23は、ひとつの文書データから抽出された関係
表現のうち、重複するものについてその頻度を数える。
その際に、全く同じものだけでなく、例えば、「システ
ムを実現」、「システムの実現」、「システム実現」、
「実現されたシステム」のように、表現は異なっても同
じ関係を表わすと思われる関係表現をひとつにまとめ
る。
係表現は、関係表現選択部23に送出される。関係表現
選択部23は、ひとつの文書データから抽出された関係
表現のうち、重複するものについてその頻度を数える。
その際に、全く同じものだけでなく、例えば、「システ
ムを実現」、「システムの実現」、「システム実現」、
「実現されたシステム」のように、表現は異なっても同
じ関係を表わすと思われる関係表現をひとつにまとめ
る。
【0018】図5は、関係表現が有する情報の一例の説
明図である。図5では、ある関係と、その関係と矛盾し
ない関係を対にして示している。例えば、上述のよう
に、「システムを実現」と矛盾しない関係として、「シ
ステムの実現」、「システム実現」、「実現されたシス
テム」等の表現がある。これらは関係[ノ]、[φ]、
[スル]にあたり、図5の2行目に示すように、関係
[ヲ]と矛盾しない関係である。
明図である。図5では、ある関係と、その関係と矛盾し
ない関係を対にして示している。例えば、上述のよう
に、「システムを実現」と矛盾しない関係として、「シ
ステムの実現」、「システム実現」、「実現されたシス
テム」等の表現がある。これらは関係[ノ]、[φ]、
[スル]にあたり、図5の2行目に示すように、関係
[ヲ]と矛盾しない関係である。
【0019】図5に示すような情報を用いることによ
り、各関係表現と矛盾しない関係表現を得ることができ
る。例えば、図4(C)の2行目に示した関係表現
{[スル]システム 実現}と矛盾しない関係表現は、
次の通りである。 {[ヲ] システム 実現} {[ノ] システム 実現} {[直結] システム 実現} {[スル] システム 実現} このような矛盾しない関係表現は、ひとつにまとめられ
る。
り、各関係表現と矛盾しない関係表現を得ることができ
る。例えば、図4(C)の2行目に示した関係表現
{[スル]システム 実現}と矛盾しない関係表現は、
次の通りである。 {[ヲ] システム 実現} {[ノ] システム 実現} {[直結] システム 実現} {[スル] システム 実現} このような矛盾しない関係表現は、ひとつにまとめられ
る。
【0020】また、図5には、関係の抽象度も示してい
る。抽象度とは、関係の曖昧さを表わす数字である。例
えば、関係[ガ]のように、表わされる関係がはっきり
しているものには小さな値が、関係[ノ]や[直結]と
いった複数の関係に対応しうる抽象的な関係には大きな
値が割当てられている。関係表現選択部23は、図5に
示す情報を用いて集めた矛盾しない関係表現の中から、
最も抽象度の低い関係を代表として選ぶ。上述の4つの
関係表現の場合、 {[ヲ] システム 実現} が最も低い抽象度を有するので、これが代表として選択
される。
る。抽象度とは、関係の曖昧さを表わす数字である。例
えば、関係[ガ]のように、表わされる関係がはっきり
しているものには小さな値が、関係[ノ]や[直結]と
いった複数の関係に対応しうる抽象的な関係には大きな
値が割当てられている。関係表現選択部23は、図5に
示す情報を用いて集めた矛盾しない関係表現の中から、
最も抽象度の低い関係を代表として選ぶ。上述の4つの
関係表現の場合、 {[ヲ] システム 実現} が最も低い抽象度を有するので、これが代表として選択
される。
【0021】上述のようにして矛盾しない関係表現をひ
とつにまとめて頻度を数え、これを各関係表現群の重要
度とする。各関係表現群の重要度が得られると、関係表
現選択部23は、あらかじめ決められている基準にした
がって重要度に基づいて関係表現群を選択する。この基
準は、重要度の高いほうから何個、関係表現の数に対し
て何分の一、テキストの量に対して何分の一など、種々
のものが考えられる。
とつにまとめて頻度を数え、これを各関係表現群の重要
度とする。各関係表現群の重要度が得られると、関係表
現選択部23は、あらかじめ決められている基準にした
がって重要度に基づいて関係表現群を選択する。この基
準は、重要度の高いほうから何個、関係表現の数に対し
て何分の一、テキストの量に対して何分の一など、種々
のものが考えられる。
【0022】このように、表現が異なっても同じ関係を
表わすと思われる関係表現をまとめて関係表現群とした
上で、出現頻度の高い関係表現群を選択することによ
り、主題を表わす関係表現群を選択できる。選択された
関係表現群では、上述のように抽象度の最も低い関係表
現が代表として選択されている。
表わすと思われる関係表現をまとめて関係表現群とした
上で、出現頻度の高い関係表現群を選択することによ
り、主題を表わす関係表現群を選択できる。選択された
関係表現群では、上述のように抽象度の最も低い関係表
現が代表として選択されている。
【0023】上述のようにして、一つの文書データの主
題を表わす関係表現を抽出することができる。主題関係
表現抽出部2は、この処理を各文書データについて行な
い、すべての文書データの主題を表わす関係表現を抽出
する。
題を表わす関係表現を抽出することができる。主題関係
表現抽出部2は、この処理を各文書データについて行な
い、すべての文書データの主題を表わす関係表現を抽出
する。
【0024】上述の例では、出現頻度の高さのみによっ
て重要度を計算する単純な方法を述べたが、重要度の与
え方は種々考えられる。例えば、関係表現抽出部22で
関係表現を抽出する際に、文の主節に現れるものには高
い点を、従属節に現れるものには低い点を与えたり、接
続詞等から判断して重要文だと思われる文中に現れたも
のには高い点を与えたり、章立てなどから判断して主要
な章や節と思われるところに現れたものには高い点を与
えるなどしておき、出現頻度に応じてこれらの点を足し
て重要度とするなどしてもよい。
て重要度を計算する単純な方法を述べたが、重要度の与
え方は種々考えられる。例えば、関係表現抽出部22で
関係表現を抽出する際に、文の主節に現れるものには高
い点を、従属節に現れるものには低い点を与えたり、接
続詞等から判断して重要文だと思われる文中に現れたも
のには高い点を与えたり、章立てなどから判断して主要
な章や節と思われるところに現れたものには高い点を与
えるなどしておき、出現頻度に応じてこれらの点を足し
て重要度とするなどしてもよい。
【0025】主題関係表現抽出部2においてすべての文
書データの主題関係表現が抽出されると、類似度計算部
3において、文書データ記憶部1に記憶されているすべ
ての文書データ間の組合せについて、文書データ間の類
似度を計算する。
書データの主題関係表現が抽出されると、類似度計算部
3において、文書データ記憶部1に記憶されているすべ
ての文書データ間の組合せについて、文書データ間の類
似度を計算する。
【0026】各文書データの主題を表わす関係情報が、
二つの語句Wa,Wbとその間の関係RELよりなる場
合の、文書データの分類の動作の一例について説明す
る。類似度計算部3は、文書データ記憶部1に記憶され
ている文書データから二つの文書DOC1,DOC2を
読み出す。続いて、類似度計算部3は、二つの文書DO
C1,DOC2に付与されている主題を表わす関係表現
のうち、それぞれ一つずつの関係表現KR1,KR2を
選び、その類似度を計算する。
二つの語句Wa,Wbとその間の関係RELよりなる場
合の、文書データの分類の動作の一例について説明す
る。類似度計算部3は、文書データ記憶部1に記憶され
ている文書データから二つの文書DOC1,DOC2を
読み出す。続いて、類似度計算部3は、二つの文書DO
C1,DOC2に付与されている主題を表わす関係表現
のうち、それぞれ一つずつの関係表現KR1,KR2を
選び、その類似度を計算する。
【0027】関係表現KR1は、語句Wa1,Wb1と
その間の関係REL1より成り、関係表現KR2は、語
句Wa2,Wb2とその間の関係REL2により成るも
のとする。関係表現KR1,KR2は、 KR1=(REL1 Wa1 Wb1) KR2=(REL2 Wa2 Wb2) のように表わされる。
その間の関係REL1より成り、関係表現KR2は、語
句Wa2,Wb2とその間の関係REL2により成るも
のとする。関係表現KR1,KR2は、 KR1=(REL1 Wa1 Wb1) KR2=(REL2 Wa2 Wb2) のように表わされる。
【0028】関係表現KR1とKR2の類似度SIM
(KR1,KR2)は、関係REL1とREL2の類似
度SIM(REL1,REL2)、語句同士の類似度S
IM(Wa1,Wa2)、SIM(Wb1,Wb2)、
SIM(Wa1,Wb2)、SIM(Wb1,Wa2)
に基づいて計算する。
(KR1,KR2)は、関係REL1とREL2の類似
度SIM(REL1,REL2)、語句同士の類似度S
IM(Wa1,Wa2)、SIM(Wb1,Wb2)、
SIM(Wa1,Wb2)、SIM(Wb1,Wa2)
に基づいて計算する。
【0029】図6は、関係間の類似度のレベルの一例の
説明図、図7は、関係の類似度のレベルとスコアの一例
の説明図である。関係REL1とREL2の類似度SI
M(REL1,REL2)は、一致度を幾つかのレベル
に分けてスコアを与える。図6に示すように、関係のす
べての組合せに対して、それぞれ類似度のレベルを与え
ておく。図6では、レベルの数が少ないほど、類似して
いることを示している。同じ関係についてはレベル1と
して、同じ関係であることを示している。
説明図、図7は、関係の類似度のレベルとスコアの一例
の説明図である。関係REL1とREL2の類似度SI
M(REL1,REL2)は、一致度を幾つかのレベル
に分けてスコアを与える。図6に示すように、関係のす
べての組合せに対して、それぞれ類似度のレベルを与え
ておく。図6では、レベルの数が少ないほど、類似して
いることを示している。同じ関係についてはレベル1と
して、同じ関係であることを示している。
【0030】これらのレベルに対応づけて、図7に示す
ようにスコアが与えられている。図7では、レベル1に
はスコア100を、レベル2にはスコア80を、レベル
3にはスコア50を、レベル4にはスコア10をそれそ
れ対応させている。2つの関係が同じ場合には、レベル
1となり、スコアは100となる。
ようにスコアが与えられている。図7では、レベル1に
はスコア100を、レベル2にはスコア80を、レベル
3にはスコア50を、レベル4にはスコア10をそれそ
れ対応させている。2つの関係が同じ場合には、レベル
1となり、スコアは100となる。
【0031】語句同士の類似度SIM(Wa1,Wa
2)、SIM(Wb1,Wb2)、SIM(Wa1,W
b2)、SIM(Wb1,Wa2)は、次のようにして
求める。語句W1とW2がともに単語のときは、シソー
ラスを用いて単語間の類似度を計算する。類似度の計算
は、例えば、全く同じ単語の場合には100とし、同じ
でない場合には共通の親までの距離が近いほど類似度を
大きくするなど、従来から提案されている種々の方法を
用いることができる。また、語句W1とW2に複合語が
含まれる場合には、同じ単語が含まれる割合や、その語
順によって類似度を計算するなどの方法が従来から提案
されており、これらを用いて類似度を計算することがで
きる。さらに、これにもシソーラスを組み合わせて、類
似の単語が含まれる場合についても考慮するようにして
もよい。
2)、SIM(Wb1,Wb2)、SIM(Wa1,W
b2)、SIM(Wb1,Wa2)は、次のようにして
求める。語句W1とW2がともに単語のときは、シソー
ラスを用いて単語間の類似度を計算する。類似度の計算
は、例えば、全く同じ単語の場合には100とし、同じ
でない場合には共通の親までの距離が近いほど類似度を
大きくするなど、従来から提案されている種々の方法を
用いることができる。また、語句W1とW2に複合語が
含まれる場合には、同じ単語が含まれる割合や、その語
順によって類似度を計算するなどの方法が従来から提案
されており、これらを用いて類似度を計算することがで
きる。さらに、これにもシソーラスを組み合わせて、類
似の単語が含まれる場合についても考慮するようにして
もよい。
【0032】類似度SIM(KR1,KR2)は、SI
M(REL1,REL2)、SIM(Wa1,Wa
2)、SIM(Wb1,Wb2)、SIM(Wa1,W
b2)、SIM(Wb1,Wa2)に、それぞれ重みw
1、w2、w3、w4、w5を乗算したうえで、これら
を乗算あるいは加算するなどの方法により求めることが
できる。乗算する場合の例を次に示す。 SIM(KR1,KR2)=w1・SIM(REL1,
REL2)×w2・SIM(Wa1,Wa2)×w3・
SIM(Wb1,Wb2)×w4・SIM(Wa1,W
b2)×w5・SIM(Wb1,Wa2) なお、乗算する場合には、類似度が非常に小さい場合に
も0にならないようにするなどの工夫が必要である。ま
た、重みw1〜w5は、例えば、関係の類似度の重みw
1を大きくして、関係が同じ場合を優先するようにした
り、関係表現中で異なる位置にある語句Wa1とWb
2、Wa2とWb1は、類似度が大きくても位置が異な
るため重みw4、w5を小さくするなどが考えられる。
M(REL1,REL2)、SIM(Wa1,Wa
2)、SIM(Wb1,Wb2)、SIM(Wa1,W
b2)、SIM(Wb1,Wa2)に、それぞれ重みw
1、w2、w3、w4、w5を乗算したうえで、これら
を乗算あるいは加算するなどの方法により求めることが
できる。乗算する場合の例を次に示す。 SIM(KR1,KR2)=w1・SIM(REL1,
REL2)×w2・SIM(Wa1,Wa2)×w3・
SIM(Wb1,Wb2)×w4・SIM(Wa1,W
b2)×w5・SIM(Wb1,Wa2) なお、乗算する場合には、類似度が非常に小さい場合に
も0にならないようにするなどの工夫が必要である。ま
た、重みw1〜w5は、例えば、関係の類似度の重みw
1を大きくして、関係が同じ場合を優先するようにした
り、関係表現中で異なる位置にある語句Wa1とWb
2、Wa2とWb1は、類似度が大きくても位置が異な
るため重みw4、w5を小さくするなどが考えられる。
【0033】このようにして、文書DOC1の主題を表
わす関係表現と、文書DOC2の主題を表わす関係表現
とのすべての組合せについて、類似度SIM(KR1,
KR2)を計算する。このとき、文書DOC1,DOC
2の間の類似度SIM(DOC1,DOC2)は、次式
によって計算される。 SIM(DOC1,DOC2)=Σi=1 nΣj=1 mscor
e(KRi)・score(KRj)・SIM(KR
i,KRj) ここで、文書DOC1の主題を表わす関係表現の数はi
個、文書DOC2の主題を表わす関係表現の数はj個と
している。また、score(KRi),score
(KRj)は、関係表現選択部23で与えた関係表現の
重要度である。
わす関係表現と、文書DOC2の主題を表わす関係表現
とのすべての組合せについて、類似度SIM(KR1,
KR2)を計算する。このとき、文書DOC1,DOC
2の間の類似度SIM(DOC1,DOC2)は、次式
によって計算される。 SIM(DOC1,DOC2)=Σi=1 nΣj=1 mscor
e(KRi)・score(KRj)・SIM(KR
i,KRj) ここで、文書DOC1の主題を表わす関係表現の数はi
個、文書DOC2の主題を表わす関係表現の数はj個と
している。また、score(KRi),score
(KRj)は、関係表現選択部23で与えた関係表現の
重要度である。
【0034】文書DOC1,DOC2の間の類似度SI
M(DOC1,DOC2)は、上述の計算式に限らず、
関係表現の重要度は加味せず、関係表現の類似度のみを
加算するなど、種々の計算方法を用いることが可能であ
る。また、関係の類似度のみ、あるいは語句同士の類似
度のみなど、利用する値についても適宜設定可能であ
る。
M(DOC1,DOC2)は、上述の計算式に限らず、
関係表現の重要度は加味せず、関係表現の類似度のみを
加算するなど、種々の計算方法を用いることが可能であ
る。また、関係の類似度のみ、あるいは語句同士の類似
度のみなど、利用する値についても適宜設定可能であ
る。
【0035】このようにして、すべての文書の組合せに
対して、文書間の類似度を計算し、記憶部4に記憶す
る。その後、記憶部4に記憶されている文書間の類似度
を読み出し、種々の処理に用いることができる。もちろ
ん、記憶部4に記憶させず、類似度計算部3からの出力
を、直接他の装置の入力として与えるように構成しても
よい。
対して、文書間の類似度を計算し、記憶部4に記憶す
る。その後、記憶部4に記憶されている文書間の類似度
を読み出し、種々の処理に用いることができる。もちろ
ん、記憶部4に記憶させず、類似度計算部3からの出力
を、直接他の装置の入力として与えるように構成しても
よい。
【0036】図8は、本発明の文書分類装置の一実施例
を示す構成図である。図中、図1と共通の部分には同一
の符号を付して説明を省略する。5は情報分類部、6は
出力部である。文書分類装置は、図1に示した文書類似
度計算装置の各構成に加えて、情報分類部5および出力
部6を持つ。情報分類部5は、類似度計算部3において
計算された類似度に基づいて、文書を分類する。出力部
6は、例えばディスプレイなどの出力装置によって構成
され、情報分類部5の分類結果を出力する。
を示す構成図である。図中、図1と共通の部分には同一
の符号を付して説明を省略する。5は情報分類部、6は
出力部である。文書分類装置は、図1に示した文書類似
度計算装置の各構成に加えて、情報分類部5および出力
部6を持つ。情報分類部5は、類似度計算部3において
計算された類似度に基づいて、文書を分類する。出力部
6は、例えばディスプレイなどの出力装置によって構成
され、情報分類部5の分類結果を出力する。
【0037】情報分類部5は、類似度計算部3で計算さ
れた文書間の類似度にしたがって、文書データを分類す
る。分類には、種々の公知の自動ドキュメント分割プロ
グラムなどを使用することができる。分類された文書デ
ータは出力部6に送出され、例えばディスプレイ上に、
分類結果が表示される。
れた文書間の類似度にしたがって、文書データを分類す
る。分類には、種々の公知の自動ドキュメント分割プロ
グラムなどを使用することができる。分類された文書デ
ータは出力部6に送出され、例えばディスプレイ上に、
分類結果が表示される。
【0038】上述の文書類似度計算装置の説明では、文
書データ記憶部1内のすべての文書の組合せについて、
文書間の類似度を計算すると説明したが、本発明はこれ
に限らない。例えば、ひとつの文書を特定し、その文書
と他の文書との間の類似度を計算するように構成しても
よい。これによって、特定した文書と類似する文書を検
索することも可能である。さらには、例えば、2つの文
書のみが入力され、その2つの文書間の類似度を計算す
るように構成してもよい。
書データ記憶部1内のすべての文書の組合せについて、
文書間の類似度を計算すると説明したが、本発明はこれ
に限らない。例えば、ひとつの文書を特定し、その文書
と他の文書との間の類似度を計算するように構成しても
よい。これによって、特定した文書と類似する文書を検
索することも可能である。さらには、例えば、2つの文
書のみが入力され、その2つの文書間の類似度を計算す
るように構成してもよい。
【0039】
【発明の効果】以上の説明から明らかなように、本発明
によれば、情報の内容・主題を反映して文書データの類
似度を計算することができる。また、この計算結果を用
いることにより、計算された類似度に基づき情報の分類
を行なうことができるという効果がある。
によれば、情報の内容・主題を反映して文書データの類
似度を計算することができる。また、この計算結果を用
いることにより、計算された類似度に基づき情報の分類
を行なうことができるという効果がある。
【図1】 本発明の文書類似度計算装置の一実施例を示
す構成図である。
す構成図である。
【図2】 主題関係表現抽出部2の詳細の一例を示す構
成図である。
成図である。
【図3】 関係表現抽出規則の一例の説明図である。
【図4】 関係表現の抽出例の説明図である。
【図5】 関係表現が有する情報の一例の説明図であ
る。
る。
【図6】 関係間の類似度のレベルの一例の説明図であ
る。
る。
【図7】 関係の類似度のレベルとスコアの一例の説明
図である。
図である。
【図8】 本発明の文書分類装置の一実施例を示す構成
図である。
図である。
1…文書データ記憶部、2…主題関係表現抽出部、3…
類似度計算部、4…記憶部、5…情報分類部、6…出力
部、21…形態素解析部、22…関係表現抽出部、23
…関係表現選択部。
類似度計算部、4…記憶部、5…情報分類部、6…出力
部、21…形態素解析部、22…関係表現抽出部、23
…関係表現選択部。
Claims (2)
- 【請求項1】 少なくともテキスト情報を含むような文
書データを入力する文書データ入力手段と、該文書デー
タ入力手段から入力された各文書データのテキスト部分
から複数の語句とその間の関係からなる関係表現のうち
主題を表わす関係表現を抽出する主題関係表現抽出手段
手段と、任意の2つの文書データの類似度を前記主題を
表わす関係表現の類似度に基づいて計算する類似度計算
手段を有することを特徴とする文書類似度計算装置。 - 【請求項2】 請求項1に記載の文書類似度計算装置
と、前記類似度計算手段において計算された類似度に基
づいて文書データを分類する情報分類手段と、該情報分
類手段による分類結果を出力する出力手段を有すること
を特徴とする文書分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7281918A JPH09128402A (ja) | 1995-10-30 | 1995-10-30 | 文書類似度計算装置および文書分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7281918A JPH09128402A (ja) | 1995-10-30 | 1995-10-30 | 文書類似度計算装置および文書分類装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09128402A true JPH09128402A (ja) | 1997-05-16 |
Family
ID=17645776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7281918A Pending JPH09128402A (ja) | 1995-10-30 | 1995-10-30 | 文書類似度計算装置および文書分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH09128402A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312501A (ja) * | 2000-04-28 | 2001-11-09 | Mitsubishi Electric Corp | 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体 |
KR100356105B1 (ko) * | 2000-05-30 | 2002-10-19 | 주식회사 엔아이비소프트 | 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템 |
US6832221B2 (en) | 1998-08-10 | 2004-12-14 | Ricoh Company, Ltd. | Filing system and method for avoiding filing of identical document data |
KR100809751B1 (ko) * | 2006-04-13 | 2008-03-04 | 엘지전자 주식회사 | 문서분석 시스템 및 그 방법 |
JP2013105321A (ja) * | 2011-11-14 | 2013-05-30 | Hitachi Ltd | 文書処理装置、文書構成要素間の関係解析方法およびプログラム |
US11829719B2 (en) | 2018-10-17 | 2023-11-28 | Nippon Telegraph And Telephone Corporation | Data processing device, data processing method, and data processing program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03172966A (ja) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置 |
JPH06282572A (ja) * | 1993-03-29 | 1994-10-07 | Nec Corp | キーワード自動抽出装置 |
JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
-
1995
- 1995-10-30 JP JP7281918A patent/JPH09128402A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03172966A (ja) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置 |
JPH06282572A (ja) * | 1993-03-29 | 1994-10-07 | Nec Corp | キーワード自動抽出装置 |
JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6832221B2 (en) | 1998-08-10 | 2004-12-14 | Ricoh Company, Ltd. | Filing system and method for avoiding filing of identical document data |
US7509317B2 (en) | 1998-08-10 | 2009-03-24 | Ricoh Company, Ltd. | Filing system and method for avoiding filing of identical document data |
JP2001312501A (ja) * | 2000-04-28 | 2001-11-09 | Mitsubishi Electric Corp | 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体 |
KR100356105B1 (ko) * | 2000-05-30 | 2002-10-19 | 주식회사 엔아이비소프트 | 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템 |
KR100809751B1 (ko) * | 2006-04-13 | 2008-03-04 | 엘지전자 주식회사 | 문서분석 시스템 및 그 방법 |
JP2013105321A (ja) * | 2011-11-14 | 2013-05-30 | Hitachi Ltd | 文書処理装置、文書構成要素間の関係解析方法およびプログラム |
US11829719B2 (en) | 2018-10-17 | 2023-11-28 | Nippon Telegraph And Telephone Corporation | Data processing device, data processing method, and data processing program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8402036B2 (en) | Phrase based snippet generation | |
US6904429B2 (en) | Information retrieval apparatus and information retrieval method | |
CN110083696B (zh) | 基于元结构技术的全局引文推荐方法、推荐系统 | |
US20020133483A1 (en) | Systems and methods for computer based searching for relevant texts | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
CN109190117A (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
Zhang et al. | Narrative text classification for automatic key phrase extraction in web document corpora | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
JPH03172966A (ja) | 類似文書検索装置 | |
JP2002132811A (ja) | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 | |
JP3831357B2 (ja) | 対訳情報作成装置及び対訳情報検索装置 | |
CN102214186B (zh) | 展示对象关系的方法和系统 | |
JP3596210B2 (ja) | 関連語辞書作成装置 | |
US20050102619A1 (en) | Document processing device, method and program for summarizing evaluation comments using social relationships | |
KR102351745B1 (ko) | 사용자 리뷰 기반 평점 재산정 장치 및 방법 | |
JPH09128402A (ja) | 文書類似度計算装置および文書分類装置 | |
JP2806867B2 (ja) | ドキュメントデータベースの構築方法、表示方法、及び表示装置 | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JPH0944523A (ja) | 関連語提示装置 | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JP2004240488A (ja) | 文書管理装置 | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
JPH09319767A (ja) | 類義語辞書登録方法 | |
JP2002108888A (ja) | ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体 | |
JP2002183194A (ja) | 検索式生成装置およびその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040309 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040507 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040629 |