JP3707044B2

JP3707044B2 - 情報抽出装置

Info

Publication number: JP3707044B2
Application number: JP10599099A
Authority: JP
Inventors: 淳一福本
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1999-04-14
Filing date: 1999-04-14
Publication date: 2005-10-19
Anticipated expiration: 2019-04-14
Also published as: JP2000298673A

Description

【０００１】
【発明の属する技術分野】
本発明は、自然言語で記述された文書中より文書の内容を表すいくつかの重要語句を抽出する情報抽出装置に関する。
【０００２】
【従来の技術】
従来の、自然言語で記述された文書から重要語句を抽出する方法として、例えば、文献：亀田雅之疑似キーワード相関法による重要キーワードと重要文の抽出、言語処理学会第２回年次大会発表論文集、ｐｐ．９７〜１００１９９６等で示されているように、文書中の各文の形態素解析結果から、文書中で用いられている各単語の認識を行い、また、認識された単語の部分的な一致度を利用する等の手段も利用することで、文書中の各単語の頻度情報を計算し、頻度の高いものを順に抽出するという手法が用いられてきた。
【０００３】
【発明が解決しようとする課題】
上記のように、文書内容の把握を支援するためには、文書からその内容を示す重要語句を抽出する。しかしながら、上記従来のように、文書中での各単語の頻度情報のみを用いるだけでは、それらの語句間の関係が捉えられておらず、意味的に関係の深いものが別々に示される可能性がある等、文書の内容を把握するためには不十分であった。また、頻度の高いものを示すことだけでその文書の内容を十分に把握できるかどうかについても問題がある。
【０００４】
このような点から、文書の内容を十分に把握することのできる情報抽出装置の実現が望まれていた。
【０００５】
【課題を解決するための手段】
本発明は、前述の課題を解決するため次の構成を採用する。
〈構成１〉
入力文書に含まれる単語のうち、予め定められた規則に基づき、主題提示語句を抽出する主題情報抽出部と、入力文書に含まれる各単語間の類似度を各単語の入力文書中の出現頻度に基づき計算する単語間類似度解析部と、単語間類似度解析部で計算された単語間類似度情報に基づき、主題情報抽出部において抽出された主題提示語句を構成する単語に対して類似度の高い単語を抽出する重要語句抽出部と、重要語句抽出部で抽出された単語を主題提示語句を構成する単語とリンク付けして表示する出力部とを備えたことを特徴とする情報抽出装置。
【０００６】
〈構成２〉
構成１に記載の情報抽出装置において、主題情報抽出部には、文書中の主題提示情報である助詞情報を抽出することで、その助詞の付属している連続する自立語である単語情報のうち、その単語に対して修飾関係にないものを除いた単語情報を抽出することを特徴とする情報抽出装置。
【０００７】
〈構成３〉
構成１または２に記載の情報抽出装置において、単語間類似度解析部は、文書中の各文において同一文中に存在する単語対の頻度を計算し、その頻度情報を利用して単語対の一方を中心として他方を要素とすることによって各単語を単語ベクトルとして表現し、各単語ベクトルの値の内積によって文書中の各単語間の類似度を求めるよう構成されていることを特徴とする情報抽出装置。
【０００８】
〈構成４〉
構成１〜３のいずれかに記載の情報抽出装置において、出力部は、重要語句抽出部で抽出された単語のうち、予め決められた個数の単語とリンク付けして表示するよう構成されていることを特徴とする情報抽出装置。
【０００９】
〈構成５〉
構成１〜３のいずれかに記載の情報抽出装置において、出力部は、重要語句抽出部で抽出された単語のうち、予め設定された類似度の値以上を持つ単語とリンク付けして表示するよう構成されていることを特徴とする情報抽出装置。
【００１０】
〈構成６〉
入力文書に含まれる単語のうち、予め定められた規則に基づき、主題提示語句を抽出する主題情報抽出部と、主題提示語句のうち、ユーザからの任意の主題提示語句の選択を受け付ける入力部と、入力文書に含まれる各単語間の類似度を各単語の入力文書中の出現頻度に基づき計算する単語間類似度解析部と、単語間類似度解析部で計算された単語間類似度情報に基づき、主題情報抽出部において抽出された主題提示語句を構成する単語に対して類似度の高い単語を抽出する重要語句抽出部と、入力部でいずれかの主題提示語句が指定された場合、重要語句抽出部が抽出した、主題提示語句を構成する単語に対して類似度の高い単語を表示する出力部とを備えたことを特徴とする情報抽出装置。
【００１１】
【発明の実施の形態】
本発明は、文書中の各文中の語句の頻度情報だけでは文書の内容を示すための語句をうまく扱うことが困難であるといった問題を解決するために、文書中において提示されている主題提示表現の言語的機能である文の主題提示機能に着目している。即ち、文中の主題提示された語句である単語情報を中心にし、それと関連のある語句を単語間の類似度を用いて計算し、類似度の高いものから順に取りして、文書中の重要部分である語句を意味的に関連の深いもの同士を示すことにより、文書の内容の把握を容易にしている。
【００１２】
また、類似度の高いものを順に取り出された単語情報を用いることで、文書中の重要部分である語句を意味的に関連の深い順番で示すことにより、文書の内容の把握を容易にしている。
【００１３】
以下、本発明の実施の形態を具体例を用いて詳細に説明する。
《具体例１》
〈構成〉
図１は本発明の情報抽出装置の具体例１を示す構成図である。
図の装置は、マイクロコンピュータ等からなり、入力部１、形態素解析処理部２、主題情報抽出部３、単語間類似度解析部４、重要語句抽出部５、出力部６を備えている。
【００１４】
入力部１は、重要部分の抽出対象となる文書の入力を行う機能部であり、具体的には、ネットワークとのインタフェース、フロッピディスクやＣＤ−ＲＯＭといった記録媒体からの読取装置、あるいはキーボード等のユーザインタフェース等からなる。
【００１５】
形態素解析処理部２は、入力部１から入力された文書中の各文を既知の手段を用いて単語に分割する処理を行う機能を有している。
【００１６】
主題情報抽出部３は、入力された文書中から、予め決められた規則に基づいて、主題として提示された語句の情報を抽出する機能を有している。
【００１７】
単語間類似度解析部４は、形態素解析処理部２で形態素解析された単語情報を用い、各単語の入力文中の出現頻度に基づいて文書中の各単語間の類似度を計算する機能を有している。
【００１８】
重要語句抽出部５は、計算された単語間類似度情報と抽出された主題提示語句の情報を基にして重要語句を抽出し、主題提示情報と関連のある順である類似度の高い順に並べ替えを行う機能を有している。尚、これら形態素解析処理部２〜重要語句抽出部５は、各機能部に対応したソフトウェアとこれを実行するプロセッサやメモリ等で機能構成されるか、あるいは専用ハードウェアで構成されている。
【００１９】
出力部６は、抽出された重要語句の出力を行う機能を有し、具体的には、ディスプレイやプリンタといった出力機器からなる。
【００２０】
〈動作〉
先ず、本装置では、入力部１において入力された文書中の各文の単語の認識処理を行う。ここで、単語の認識処理のために用いる形態素解析の手法としては、例えば「田中穂積：自然言語解析の基礎、産業図書（1989）」等においても示されるような方法を用いることが可能である。
【００２１】
形態素解析処理部２では入力部１から入力された文書の形態素解析を行う。
図２および図３は、形態素解析結果の説明図である。
図において、各入力文の文番号が順に、ｓ１，ｓ２，ｓ３，ｓ４，ｓ５，ｓ６，ｓ７，ｓ８であり、それぞれの文に対して行った形態素解析処理により各単語が「／」によって区切られ、また、各単語の品詞情報が各単語の右の「（）」内に示されている。
【００２２】
次に、単語間類似度解析部４では、各文の形態素解析の結果を用いて各文中の単語間の類似度を計算する。類似度の計算は、文書中の各単語の共起頻度として同じ文に二つの単語が同時に存在する頻度を計算し、その共起頻度情報を基にして、ある単語とそれに共起する単語との共起頻度を要素とする単語ベクトルとして表現し、各単語の単語ベクトルの内積によって得ることが可能である。
【００２３】
図４は、図２および図３において示された文書中の単語の共起頻度の情報を示す説明図である。
例えば、単語「スクラップ（普通名詞）」と「ディーラー（普通名詞）」は、それぞれ２回、６回文書中に現れ、同時に２回現れている。同様に、その他の単語ともそれぞれの共起頻度を持っている。この情報を基にして、各単語の単語ベクトルを求める。例えば、図４において示された情報においては、単語「スクラップ（普通名詞）」の単語ベクトルｖ_ｘ(i)は、それと共起する単語の頻度を要素とすることで、（１２１１１２１２１）と表現される。ベクトルの各要素は、図４にも示されているように、順に、単語「ギロチン（普通名詞）」「ディーラー（普通名詞）」「メーカー（普通名詞）」「ヤード（普通名詞）」「業者（普通名詞）」「材（普通名詞）」「電炉（普通名詞）」「買値（普通名詞）」「母（普通名詞）」との共起頻度である。
【００２４】
各単語の間の類似度情報をこれらの単語ベクトルを用いて求める。単語ベクトルｖ_ｘと単語ベクトルｖ_ｙの内積ip(x,y)は次の式によって計算される。
【００２５】
ip(x,y)＝Σｖ_ｘ(i)×ｖ_ｙ(i)
【００２６】
ここで、Σは、ｖ_ｘ(i)×ｖ_ｙ(i)において、ｉ＝１〜ｎまでの合計を表しており、ｎは単語数を示している。
【００２７】
例えば、ｖ_ｘ，ｖ_ｙの一例として、単語「スクラップ（普通名詞）」と単語「ディーラー（普通名詞）」とを考える。
【００２８】
図５は、単語「ディーラー（普通名詞）」と共起している単語を示す説明図である。尚、この図では図４に示すような単語１の頻度と単語２の頻度は省略している。
【００２９】
図５に示すように、単語「ディーラー（普通名詞）」の単語ベクトルは、単語「ディーラー（普通名詞）」が共起している単語とその頻度が普通名詞についてのみでは、「ギロチン（普通名詞）」が１、「コスト（普通名詞）」が１、「スクラップ（普通名詞）」が１、「メーカー（普通名詞）」が１、「ヤード（普通名詞）」が１、「圧力（普通名詞）」が１、「一策（普通名詞）」が１、「窮余（普通名詞）」が１、「業者（普通名詞）」が１、「採算（普通名詞）」が１、「材（普通名詞）」が２、「電炉（普通名詞）」が１、「買値（普通名詞）」が３、「拍車（普通名詞）」が１、「母（普通名詞）」が１、「末端（普通名詞）」が１、「目先（普通名詞）」が１である。
【００３０】
ここで、単語「スクラップ（普通名詞）」と共に共起しているもので、品詞が普通名詞についてのみでは、「ギロチン（普通名詞）」、「メーカー（普通名詞）」、「ヤード（普通名詞）」、「業者（普通名詞）」、「材（普通名詞）」、「電炉（普通名詞）」、「買値（普通名詞）」、「母（普通名詞）」である（図中、※で示す）。ここで、単語「スクラップ（普通名詞）」と共通する単語のみについての単語ベクトルは、（１０１１１２１３１）と表現される。
【００３１】
従って、単語「スクラップ（普通名詞）」と単語「ディーラー（普通名詞）」の各単語ベクトルの内積は、１×１＋２×０＋１×１＋１×１＋１×１＋２×２＋１×１＋２×３＋１×１の１６となり、類似度は１６であると計算される。
【００３２】
次に、文書中で主題として提示されている主題提示語句の抽出を行う。日本語においては、主題が副助詞の「は」を用いることで提示されることから、主題として提示される語句は「は（副助詞）」の付属する連続した自立語として抽出することが可能である。
【００３３】
但し、主題提示語に対して修飾される用言は除くものとする。例えば、文ｓ７中の「苦しむ（動詞）」「電炉（普通名詞）」「メーカー（普通名詞）」「各社（普通名詞）」「は（副助詞）」における「苦しむ（動詞）」は除外される用言である。
【００３４】
図２および図３において示された文書において抽出される主題提示語句は、文ｓ３については、「ヤード（普通名詞）／ディーラー（普通名詞）／は（副助詞）／」、「ヤード（普通名詞）／ディーラー（普通名詞）／買値（普通名詞）／は（副助詞）／」、文ｓ６については、「輸送（サ変名詞）／コスト（普通名詞）／は（副助詞）／」、文ｓ７については、「電炉（普通名詞）／メーカー（普通名詞）／各社（普通名詞）は（副助詞）／」、文ｓ８については、「仕入れ（動詞）／値（普通名詞）／引き下げ（サ変名詞）／は（副助詞）／」がある。
【００３５】
以上のようにして抽出された各主題提示語句について、主題提示語句中の各単語と共に高い類似度を持つ単語を抽出する。
【００３６】
図６は、主題提示語句「ヤード（普通名詞）／ディーラー（普通名詞）／は（副助詞）／」の単語「ヤード（普通名詞）」と単語「ディーラー（普通名詞）」のそれぞれと類似度の高い単語情報を示す説明図である。
【００３７】
例えば、単語「末端（普通名詞）」は、単語「ヤード（普通名詞）」「ディーラー（普通名詞）」の両方と類似度１２９をとる。また、例えば、「業者（普通名詞）」は、単語「ヤード（普通名詞）」「ディーラー（普通名詞）」とそれぞれ類似度１１５、１１８をとる。
【００３８】
このようにして、主題提示語句中の各単語と同時に高い類似度をとるものを抽出することで、主題提示語句と関連の高い単語を抽出することが可能である。主題提示語句「ヤード（普通名詞）／ディーラー（普通名詞）／は（副助詞）／」の場合、例えば、類似度の高い上位１０個を抽出することで、「ヤード／ディーラー」と類似度の高いものとして、図６の類似度情報から「末端（普通名詞）」「業者（普通名詞）」「棒鋼（普通名詞）」「市況（普通名詞）」「鋼材（普通名詞）」「量（普通名詞）」「法定（普通名詞）」「道交法（普通名詞）」「道（普通名詞）」を抽出することが可能である。
【００３９】
同様の手法を用いることで、次の主題提示語句である「輸送（サ変名詞）／コスト（普通名詞）／は（副助詞）／」の構成単語である「輸送（サ変名詞）」「コスト（普通名詞）」についてもそれぞれの単語と類似度の高いものとして、「末端（普通名詞）」「スクラップ（普通名詞）」「業者（普通名詞）」「棒鋼（普通名詞）」「市況（普通名詞）」「鋼材（普通名詞）」「増（普通名詞）」「売値（普通名詞）」「原料（普通名詞）」「量（普通名詞）」「法定（普通名詞）」「法（普通名詞）」「道路（普通名詞）」「道交法（普通名詞）」「母（普通名詞）」「材（普通名詞）」「半面（普通名詞）」「鉄（普通名詞）」「先（普通名詞）」がこの順で抽出される。更に、残りの主題提示語句についても同様に抽出される。
【００４０】
最後に、各主題提示語句から抽出された類似語句を表示する。
図７は、表示の一例を示す説明図である。
図示のように、各主題提示語句と共通の類似語句を持つものは、その共通の類似語句からリンクを張る。また、共通の類似語句がないものについては、それを単独で表示する。
【００４１】
例えば、図７においては、単語「末端（普通名詞）」は主題提示語句「ヤード（普通名詞）／ディーラー（普通名詞）／は（副助詞）／」と「輸送（サ変名詞）／コスト（普通名詞）／は（副助詞）」の両方から類似語句として抽出されたものである。また、単語「スクラップ（普通名詞）」は、主題提示語句「輸送（サ変名詞）／コスト（普通名詞）／は（副助詞）／」から類似語句として抽出されたものである。
【００４２】
〈効果〉
以上のように、具体例１によれば、文書中の各文の形態素解析された結果から単語の認識処理を行い、文中の主題提示された語句である単語情報を中心にし、それと関連のある語句を単語間の類似度を用いて計算し、主題提示された語句の構成要素である各単語と類似度の高い単語を文書から順に取り出し、主題提示された語句と類似度の高いもののうちいくつかを主題提示された語句の構成要素である各単語とリンク付けして表示するようにしたので、文書中の重要部分である語句を意味的に関連の深いもの同士を示すことができ、文書の内容の把握を容易に行うことができる。
【００４３】
《具体例２》
具体例２は、ユーザにより、主題提示語句の選択ができるようにし、選択された場合は、その主題提示語句に対応した重要語句を表示するようにしたものである。
【００４４】
〈構成〉
図面上の構成は具体例１と同様であるため、図１を援用して説明する。具体例２では、入力部１において、ユーザからの主題提示語句の指定を受け付け、この指定された主題提示語句の情報を出力するよう構成されている。また、出力部６は、入力部１でいずれかの主題提示語句が指定された場合、重要語句抽出部５が抽出した、主題提示語句を構成する単語に対して類似度の高い単語を表示するよう構成されている。これ以外の構成は具体例１と同様であるため、ここでの説明は省略する。
【００４５】
〈動作〉
入力部１から入力された文書に対する形態素解析処理部２、主題情報抽出部３、単語間類似度解析部４、重要語句抽出部５および出力部６の処理は、具体例１と同様であるため、ここでの説明は省略する。
【００４６】
図８は、出力部６の表示画面の説明図である。
図示のように、入力された文書が表示され、この文書中に主題情報抽出部３で抽出された主題部分が下線によって示されている。
【００４７】
次に、入力部１において、例えば、図８中に示されている主題提示語句のうち、「ヤードディーラーは」が選択されたとする。そして、「ヤードディーラーは」の構成要素である「ヤード」と「ディーラー」のそれぞれについて重要語句抽出部５において予め計算された結果によって抽出された重要語句として、「末端（普通名詞）」「業者（普通名詞）」「棒鋼（普通名詞）」「市況（普通名詞）」「鋼材（普通名詞）」「量（普通名詞）」「法定（普通名詞）」「道交法（普通名詞）」「法（普通名詞）」「道路（普通名詞）」の語句がこの順で得られていた場合、この順で、例えば「末端」の部分を主題提示語句として同様に下線を引くなどの表示方法でユーザに示すことが可能である。
【００４８】
図９は、ユーザによって選択された主題提示語句に対応した重要語句が表示された場合の説明図である。
図示例では、図８で示された文書の中で、「末端」「業者」「棒鋼」「市況」「鋼材」に対して下線が付与され表示された場合を示している。そして、新たに下線を引かれた単語についても主題提示語句の構成単語と同様にユーザによって選択対象の語句として扱うことも可能である。
【００４９】
〈効果〉
以上のように、具体例２によれば、具体例１の構成に加えて、ユーザによる主題提示語句の指定を可能とし、かつ、指定された主題提示語句に対応した重要語句を表示するようにしたので、具体例１の効果に加えて、ユーザが求める情報をより的確に表示することが可能である。
【００５０】
尚、上記具体例１、２では、重要語句抽出部５で類似度の高い上位１０個の単語情報を抽出し、これを出力部６で表示するようにしたが、１０個に限定されるものではない。また、情報抽出としての信頼度を重視する場合、上位１０個といった個数ではなく、類似度がある値以上の単語情報を表示するよう構成してもよい。
【００５１】
更に、上記具体例２では、主題提示語句や重要語句に対して下線を引くことによって識別するようにしたが、この表示に限定されるものではなく、例えば表示色を変える等であってもよい。
【図面の簡単な説明】
【図１】本発明の情報抽出装置の具体例１を示す構成図である。
【図２】本発明の情報抽出装置の具体例１における形態素解析結果の説明図（その１）である。
【図３】本発明の情報抽出装置の具体例１における形態素解析結果の説明図（その２）である。
【図４】文書中の単語の共起頻度の情報を示す説明図である。
【図５】単語「ディーラー（普通名詞）」と共起している単語を示す説明図である。
【図６】主題提示語句を構成する単語と類似度の高い単語情報を示す説明図である。
【図７】本発明の情報抽出装置の具体例１における表示の一例を示す説明図である。
【図８】本発明の情報抽出装置の具体例２における表示画面の説明図である。
【図９】ユーザによって選択された主題提示語句に対応した重要語句が表示された場合の説明図である。
【符号の説明】
１入力部
２形態素解析処理部
３主題情報抽出部
４単語間類似度解析部
５重要語句抽出部
６出力部

Claims

入力文書に含まれる単語のうち、予め定められた規則に基づき、主題提示語句を抽出する主題情報抽出部と、
前記入力文書に含まれる各単語間の類似度を各単語の入力文書中の出現頻度に基づき計算する単語間類似度解析部と、
前記単語間類似度解析部で計算された単語間類似度情報に基づき、前記主題情報抽出部において抽出された主題提示語句を構成する単語に対して類似度の高い単語を抽出する重要語句抽出部と、
前記重要語句抽出部で抽出された単語を前記主題提示語句を構成する単語とリンク付けして表示する出力部とを備えたことを特徴とする情報抽出装置。
請求項１に記載の情報抽出装置において、
主題情報抽出部には、文書中の主題提示情報である助詞情報を抽出することで、その助詞の付属している連続する自立語である単語情報のうち、その単語に対して修飾関係にないものを除いた単語情報を抽出することを特徴とする情報抽出装置。
請求項１または２に記載の情報抽出装置において、
単語間類似度解析部は、文書中の各文において同一文中に存在する単語対の頻度を計算し、その頻度情報を利用して単語対の一方を中心として他方を要素とすることによって各単語を単語ベクトルとして表現し、各単語ベクトルの値の内積によって文書中の各単語間の類似度を求めるよう構成されていることを特徴とする情報抽出装置。
請求項１〜３のいずれかに記載の情報抽出装置において、
出力部は、重要語句抽出部で抽出された単語のうち、予め決められた個数の単語とリンク付けして表示するよう構成されていることを特徴とする情報抽出装置。
請求項１〜３のいずれかに記載の情報抽出装置において、
出力部は、重要語句抽出部で抽出された単語のうち、予め設定された類似度の値以上を持つ単語とリンク付けして表示するよう構成されていることを特徴とする情報抽出装置。
入力文書に含まれる単語のうち、予め定められた規則に基づき、主題提示語句を抽出する主題情報抽出部と、
前記主題提示語句のうち、ユーザからの任意の主題提示語句の選択を受け付ける入力部と、
前記入力文書に含まれる各単語間の類似度を各単語の入力文書中の出現頻度に基づき計算する単語間類似度解析部と、
前記単語間類似度解析部で計算された単語間類似度情報に基づき、前記主題情報抽出部において抽出された主題提示語句を構成する単語に対して類似度の高い単語を抽出する重要語句抽出部と、
前記入力部でいずれかの主題提示語句が指定された場合、前記重要語句抽出部が抽出した、当該主題提示語句を構成する単語に対して類似度の高い単語を表示する出力部とを備えたことを特徴とする情報抽出装置。