JP2000112969A

JP2000112969A - 情報抽出装置

Info

Publication number: JP2000112969A
Application number: JP28121798A
Authority: JP
Inventors: Mitsuo Shimohata; 光夫下畑
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-10-02
Filing date: 1998-10-02
Publication date: 2000-04-21
Anticipated expiration: 2018-10-02
Also published as: JP3616507B2

Abstract

(57)【要約】【課題】固有名詞とその属性の情報が付与されたテキ
ストから事物間の関係を抽出する。【解決手段】あらかじめテキストデータから抽出する
固有名詞の条件と関係を抽出規則として登録しておき、
テキストデータ中の２つの固有名詞の間に存在する文字
と、最後の固有名詞の直後に存在する助詞を抽出規則と
の適合を判定することで固有名詞間の関係を抽出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、固有名詞とその属
性の情報が付与されたテキストデータから事物間の関係
情報を抽出する装置に関するものである。

【０００２】

【従来の技術】情報抽出は、テキストデータから様々な
レベルの情報を抽出する。従来の情報抽出では、文に対
して助詞や用言の条件が入ったテンプレートを適用し、
そのテンプレートに一致する定型情報を獲得する技術が
知られている。例えば、（「情報抽出のための新聞記事
テキスト分析」：言語処理学会第４回全国大会）があ
る。この文献では、「合併する」という用言と助詞を用
いることで、一文を対象に情報抽出を行っている。ま
た、検索範囲の拡張や限定を行う場合は、使用者が情報
の抽出に使用する検索語に関連する関連語をＡＮＤ（ま
たはＯＲ）で結合することにより行っている。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
情報抽出の技術では、条件に用言を用いているために、
一文から最大でも一つしか情報を抽出することができな
いという問題があった。また、検索範囲の拡張や限定に
用いる関連語の情報は、あらかじめ定義されたシソーラ
スを利用したり、文中の共起関係を利用して自動作成す
ることが多い。しかし、データにマッチしたシソーラス
をあらかじめ定義することは非常に困難であり、共起を
利用したシソーラス作成では語の間の関係が不明であ
る。したがって、関連語の情報を的確に生成することが
できないという問題があった。

【０００４】このような点から、本発明はテキストデー
タから抽出条件に用言を用いずに情報を抽出し、検索範
囲の拡張や限定の際は、情報抽出によって得た語を検索
語の関連語とする。また、情報抽出技術を電子メールの
メーラーに組み込むことで、住所録を自動的に作成する
ことができる情報抽出装置を提供することを目的とす
る。

【０００５】

【課題を解決するための手段】係る課題を解決するた
め、本発明は、自然言語で記述され、固有名詞とその固
有名詞の属性情報が付与された文書から、必要な情報を
抽出する情報抽出装置において、複数の固有名詞の間に
存在する文字と、その複数の固有名詞のうち、最後の固
有名詞の直後に存在する文字を条件とし、その条件に適
合する固有名詞間の関係を記述した抽出規則を格納する
抽出規則部と、抽出規則部の抽出規則と文書を照合して
抽出規則に適合する文書中の複数の固有名詞とその固有
名詞間の関係を語関係情報として抽出する語関係情報抽
出部を備える。

【０００６】また、検索処理部を有し、語関係情報抽出
部で抽出した語関係情報と入力された検索語を照合して
その検索語と関連する固有名詞を関連語とし、検索語と
関連語の関係を関連語情報として抽出する。

【０００７】さらに、検索処理部は、関連語を検索語に
追加して新たな検索語とし、語関係情報抽出部で抽出し
た語関係情報と新たな検索語を照合して新たな検索語と
関連する固有名詞を新たな関連語とし、新たな検索語と
新たな関連語の関係を関連語情報として抽出する。

【０００８】また、電子メールの送受信を行うメーラー
部と、電子メール中の固有名詞とその固有名詞の属性情
報を付与する固有名詞認識処理部を有することで、前記
抽出規則部と前記語関係情報抽出部から電子メール中の
複数の固有名詞とその固有名詞間の関係とメールアドレ
スを抽出し住所録を作成する。

【０００９】

【発明の実施の形態】（Ａ）第１の実施形態（Ａ−１）第１の実施形態の構成第１の実施形態に係る情報抽出装置は、テキストデータ
中の２つの固有名詞の間と直後にある文字を用いること
で固有名詞間の関係を認識するものである。

【００１０】なお、第１の実施形態に係る情報抽出装置
は、実際上、入出力装置、通信装置、外部記憶装置等を
適宜組み合わせたワークステーションやパソコン等の情
報処理装置で実現されるものであるが、その機能構成を
ブロック図で表すと、図１に示すようになる。

【００１１】図１の情報抽出装置は、入力テキスト１、
抽出規則格納部２、語関係情報抽出部３、語関係情報格
納部４、語関係情報出力生成部５、語関係情報出力部６
から構成される。

【００１２】入力テキスト１は、処理対象となるテキス
トデータである。入力テキスト１には、あらかじめ固有
名詞とその属性に関する情報が付与されているものとす
る。図２は入力テキスト１の内容を説明する図である。
ここで、テキスト部とは、テキストデータに複数存在す
る文の１文に対するテキストデータであり、文番号と
は、その１文毎に付与された番号を表している。テキス
ト部において、（）内の単語はあらかじめ抽出された
固有名詞であり、（）の前の表記は（）内の固有名
詞の属性情報を示す。ｌｏｃは固有地名、ｏｒｇは固有
組織名、ｐｅｒは固有人名を表している。

【００１３】抽出規則格納部２は、語関係情報抽出部３
で使用する抽出規則が格納されている。図３は抽出規則
格納部２の内容を説明する図である。ここで、規則部と
は、情報抽出の際に適用する抽出規則を表したものであ
り、１つまたは複数の規則を格納している。規則番号と
は、その規則毎に付与された番号を表している。

【００１４】規則部において、矢印より左側は条件を示
している。属性を有する２つの固有名詞が隣接、または
文字を挟んで連接しており、最後の固有名詞の後に伴っ
て表れる文字を（）内に示している。（）内の文字
は文章中係り受けの流れが切れるような文字であり、い
ずれかが伴えばよい。また、（）内の文字は助詞であ
る必要はない。例えば、規則として（で）が登録されて
いる場合、固有名詞の後が「で」「であれば」「でさえ
も」「では」等の文字であれば抽出規則に適合する。

【００１５】矢印の右側は条件に適合した場合の関係を
表している。

【００１６】ｐａｒｔ＿ｏｆは上位・下位関係を表し、
（）内の左側に上位概念の固有名詞、右側に下位概念
の固有名詞を示す。ｌｏｃａｔｉｏｎ＿ａｔは地理関係
を表し、（）内の左側に所在地の固有名詞を、右側に
組織名の固有名詞を示す。

【００１７】ｅｍｐｌｏｙｅｅ＿ｏｆは、所属関係を表
し、（）内の左側に組織名の固有名詞を、右側に氏名
の固有名詞を示す。

【００１８】規則１は、固有地名と認識された２つの事
物が「の」を挟んで連結しており、かつ、最後に「が」
「お」「は」「に」「で」のいずれかが伴っている部分
があれば、最初の固有地名ｌｏｃ１と最後の固有地名ｌ
ｏｃ２は上位・下位関係（ｐａｒｔ＿ｏｆ）にあると認
識することを示している。同様に、規則２は、規則１と
同様の関係にある固有組織名ｏｒｇ１の所在地が固有地
名ｌｏｃ１である（地理関係（ｌｏｃａｔｉｏｎ＿ａ
ｔ））と認識することを示している。規則３は、規則１
と同様の関係にある固有人名ｐｅｒ１が固有組織名ｏｒ
ｇ１に所属している（所属関係（ｅｍｐｌｏｙｅｅ＿ｏ
ｆ））と認識することを示している。規則４は、固有地
名と認識された２つの事物が隣接しており、かつ、最後
の「の」「を」「は」「に」のいずれかが伴っている部
分があれば、最初の固有地名ｌｏｃ１と最後の固有地名
ｌｏｃ２は上位・下位関係（ｐａｒｔ＿ｏｆ）にあると
認識することを示している。

【００１９】語関係情報抽出部３は、入力テキスト１と
抽出規則格納部２に格納されている規則を照合して一致
する規則があった場合に、その規則に基づき、近接した
２つの固有名詞の関係を語関係情報として抽出する。入
力テキストと抽出規則の適合判定は、既存のパターンマ
ッチング処理ツール（例えば、grepやperlの正規表現
等）でよい。

【００２０】語関係情報格納部４は、語関係情報抽出部
３により抽出された語関係情報を格納する。抽出された
２つの固有名詞とその関係が既に登録されている情報と
重複する場合は、無視をしてもよいし、抽出された頻度
をカウントするようにしてもよい。図４に語関係情報の
出力結果を示す。図４において、規則部は語関係情報を
示し、抽出規則格納部２の抽出規則に適合した規則に入
力テキスト１の固有名詞を当てはめている。規則番号は
適合した規則の番号であり、文番号は入力テキスト１に
付与されている文番号と同一である。

【００２１】語関係情報出力生成部５は、語関係情報格
納部４に格納されている語関係情報を加工し、出力情報
を作成する。出力情報は、語関係情報格納部４の格納内
容をそのまま出力してもよい。また、頻度の高い関係だ
けを出力したり、認識された関係をタグの形式などで入
力テキスト１に埋め込んで出力してもよい。

【００２２】語関係情報出力部６は、語関係情報出力生
成部５から出力された情報を出力する表示部である。

【００２３】（Ａ−２）第１の実施形態の動作図５は、第１の実施形態の情報抽出装置の動作を示すフ
ローチャートである。

【００２４】Ｓ１：情報を抽出するテキストを入力す
る。例えば、図２に示す入力テキストを入力する。

【００２５】Ｓ２：語関係情報抽出部３は入力された入
力テキストのテキスト部に対し、抽出規則格納部２に格
納されている規則に適合する箇所がないかをチェックす
る。抽出は、テキストに付与されている固有名詞の属性
とその関係に基づいて行う。適合する規則がある場合
は、Ｓ３へ処理を進める。適合する規則が無い場合は、
Ｓ５へ処理を進める。

【００２６】Ｓ３：Ｓ２において、適合した規則番号
と、適合した規則に入力テキスト中の固有名詞を当ては
めた固有名詞とその関係を抽出する。図４に、図１の入
力テキストに図３の抽出規則を用いて抽出した語関係情
報を示す。図１の文番号１は図３の抽出規則の規則１
に、文番号２は規則３に、文番号３は規則２に、文番号
４は規則４にそれぞれ適合する。

【００２７】Ｓ４：Ｓ３で抽出した語関係情報を語関係
情報格納部４に格納し、Ｓ２に戻る。テキストに対し適
合する規則がなくなるまでＳ２からＳ４の処理を繰り返
す。

【００２８】Ｓ５：語関係情報出力生成部５は、Ｓ４で
語関係情報格納部４に格納された語関係情報を生成す
る。図６に、図４に格納されている語関係情報に基づき
入力テキストに認識された関係を埋め込んだ場合の生成
結果を示す。

【００２９】Ｓ６：Ｓ５で生成された語関係情報を語関
係情報表示部に出力する。

【００３０】（Ａ−３）第１の実施形態の効果第１に実
施形態により、固有名詞の意味素性が付与されたテキス
トから固有名詞間で成り立つ関係を抽出することができ
る。通常「ＡのＢ」という表現では、ＡとＢの関係は多
くの種類があるが、このようにＡとＢの属性をあらかじ
め付与し、ＡとＢの属性と関係の基づき規則を適用する
ことで、固有名詞間の関係を抽出することができる。ま
た、最後の固有名詞の直後に表れる文字が「に」「を」
「が」などの係り受けの流れが切れる文字かどうかを判
断することで、より精度よく関係を抽出することができ
る。

【００３１】さらに、２つの固有名詞の間と直後に表れ
る助詞から情報を抽出するため、一文から複数の情報を
抽出することもできる。

【００３２】したがって、従来技術にある特定用言を含
む文を対象とするテンプレートを用いる情報抽出と比較
すると、用言を条件をしないため適用範囲が広く、記事
見出しなどの用言が無い体言止めの名詞句から情報を抽
出することもできる。

【００３３】（Ｂ）第２の実施形態（Ｂ−１）第２の実施形態の構成第２の実施形態に係る情報抽出装置は、テキストデータ
から自動的に関連語情報を作成するとともに、語の間の
関係も合わせて抽出し、関連語の拡張に用いるものであ
る。

【００３４】図７に、第２の実施形態に係る情報抽出装
置の構成を示す。第２の実施形態において第１の実施形
態と同様の機能を備えるブロックには同一符号を付与
し、第２の実施形態において第１の実施形態と異なるブ
ロックについてのみ詳細に説明する。

【００３５】検索語７は、使用者が入力する検索語であ
る。第２実施形態中では検索語は一つとして説明する
が、複数の検索語を入力しても同様に処理が行える。

【００３６】検索データ８は、検索の対象となるデータ
ベースである。図８に検索データの例を示す。第１の実
施形態の入力テキスト１と同様に、テキスト部と文番号
からなり、テキスト部の（）内に、あらかじめ抽出し
た固有名詞とその属性を示す情報が格納されている。

【００３７】語関係情報抽出部３は、第１の実施形態と
同様の処理を行うが、処理対象となるデータは、検索デ
ータ８に格納されているデータベースとなる。図９に図
８に示す検索データ８と図３に示す抽出規則格納部２の
照合により抽出され語関係情報格納部４に格納された語
関係情報を示す。

【００３８】検索処理部９は、検索語７と語関係情報格
納部４に格納されているテキスト部を照合して適合する
データを収集するものである。指定した複数の検索語の
すべて、または、いずれかを有するデータを語関係情報
から収集し、関連語情報として出力する。さらに、関連
語情報が得られた場合は、関連語を利用して関連語情報
収集を実行する。関連語利用方法を以下に示す。

【００３９】＜関連語利用方法＞１．出力された関連語のすべてを元の検索語に追加して
新たな検索語とする。２．頻度や関係を基にした重要度で選択した関連語のみ
を元の検索語に追加して新たな検索語とする。３．出力された関連語を使用者に提示し、利用する関連
語を選択させる。

【００４０】上記２の方法では、関連語を多く得られた
場合に効果の高い関連語のみを、その後の検索語として
用いることができる。上記３の方法では、使用者により
妥当性の判断が行えるため適合性の高い検索が可能とな
る。

【００４１】また、関連語は元の検索語にＡＮＤで追加
してもよいし、ＯＲで追加してもよい。関連語の利用方
法はあらかじめ１つの方法が登録されていてもよいし、
複数の利用方法を登録し、使用者が適宜利用方法を選択
するような構成でもよい。

【００４２】語関係情報格納部４からの検索語の検索技
術は、既存の検索技術を用いることが出きる。図１０に
収集した関連語情報の例を示す。関連語情報は、検索語
との関係と関連語から構成される。また、図示していな
いが、検索語を格納してもよい。収集された関連語と検
索語の関係が既に登録されている情報と重複する場合は
無視してもよい。

【００４３】検索結果出力部１０は、検索処理部９から
出力された情報を出力する表示部である。

【００４４】（Ｂ−２）第２の実施形態の動作図１１および図１２は、第２の実施形態の情報抽出装置
の動作を示すフローチャートである。

【００４５】第２の実施形態は、まず図１１に示す処理
を実行し、検索データ８のテキスト部と抽出規則格納部
２に基づき語関係情報を作成する。この処理は一度実行
すればデータベースの変更がされない限り再度行う必要
はない。

【００４６】Ｓ２１：語関係情報の基礎となる検索デー
タのテキスト部を指定する。テキスト部を指定せずに、
検索データ８に格納されているデータすべてを処理の対
象にしてもよい。ここでは、図８に示す文番号１〜６を
指定するものとする。

【００４７】Ｓ２２：語関係情報抽出部３は入力された
検索データ８のテキスト部に対し、抽出規則格納部２に
格納されている規則に適合する箇所がないかをチェック
する。抽出は、テキストに付与されている固有名詞の属
性とその関係に基づいて行う。適合する規則がある場合
は、Ｓ２３へ処理を進める。適合する規則が無い場合
は、処理を終了する。

【００４８】Ｓ２３：Ｓ２２において、適合した規則番
号と、適合した規則に入力テキスト中の固有名詞を当て
はめた固有名詞とその関係を抽出する。図９に、図８の
検索データ８に図３の抽出規則を用いて抽出した語関係
情報を示す。図８の文番号１、２、３は図３の抽出規則
の規則１に、文番号４は規則３に、文番号５と６は規則
２にそれぞれ適合する。

【００４９】Ｓ２４：Ｓ２３で抽出した語関係情報を語
関係情報格納部４に格納し、Ｓ２２に戻る。テキスト部
に対し適合する規則が無くなるまでＳ２２からＳ２４の
処理を繰り返す。

【００５０】次に、図１２に示す語関係情報を用いた検
索処理を行う。

【００５１】Ｓ２５：使用者が検索語７を入力する。こ
こでは、「大阪市」という検索語を入力する。

【００５２】Ｓ２６：検索処理部８は、語関係情報格納
部４を参照し、使用者が入力した検索語が含まれている
語関係を検索する。検索語を含む語関係が存在する場合
は、Ｓ２７に処理を進める。存在しない場合は、処理を
終了する。ここで、検索語「大阪市」に適合する語関係
は、図９の語関係情報の文番号１と２である。

【００５３】Ｓ２７：Ｓ２６において、規則に適合した
固有名詞を関連語とし、関連語と、その関連語と検索語
の関係を抽出する。図１０に、検索語「大阪市」に適合
する関連語を示す。図９の語関係情報の文番号１の上位
・下位概念（ｐａｒｔ＿ｏｆ）において、検索語「大阪
市」は下位概念に該当する。したがって、関連語として
上位概念である「大阪府」を抽出し、検索語との関係を
「上位概念」とする。文番号２の上位・下位概念（ｐａ
ｒｔ＿ｏｆ）において、検索語「大阪市」は上位概念に
該当する。したがって、関連語として下位概念である
「中央区」を抽出し、検索語との関係を「下位概念」と
する。

【００５４】Ｓ２８：Ｓ２７で収集した関連語情報を検
索結果として表示する。ここでは、図１０の関連語情報
を表示する。

【００５５】Ｓ２９：使用者が表示された検索結果に基
づき、さらに関連語の収集を実行しするか否かを判断す
る。さらに関連語の収集を行う場合は、Ｓ３０へ処理を
進める。関連語の収集を行わない場合は、処理を終了す
る。

【００５６】Ｓ３０：さらに関連語の収集を実行する場
合は、あらかじめ設定した関連語利用方法に基づき検索
語を設定し、Ｓ２６〜Ｓ２９の処理を繰り返す。

【００５７】ここで、Ｓ２９において、使用者がさらに
関連語の収集を行う場合について説明する。

【００５８】Ｓ３０：関連語利用方法は、上記の関連語
利用方法１かつ、元の検索語にＯＲで追加するものとす
る。したがって、検索語は、「大阪市」ＯＲ「大阪府」
ＯＲ「中央区」となる。この検索語に基づき、Ｓ２６を
実行する。

【００５９】Ｓ２６：語関係情報格納部４を参照し、検
索語「大阪市」ＯＲ「大阪府」ＯＲ「中央区」が含まれ
る語関係が存在するか検索する。ここで、検索語に適合
する語関係は、図９の語関係情報の文番号１と２と６で
ある。

【００６０】Ｓ２７：Ｓ２６において検索した語関係情
報のうち文番号の１と２は最初の処理で検索した情報と
同一であるため、ここでは無視をする。したがって、文
番号６に対する関連語と、検索語と関連語との関係を収
集する。図９の語関係情報の文番号６の地理関係（ｌｏ
ｃａｔｉｏｎ＿ａｔ）において、検索語「大阪府」が所
在地に該当する。したがって、関連語として組織名であ
る「大阪銀行」を抽出し、検索語との関係を「組織名」
とする。

【００６１】Ｓ２８：Ｓ２７で収集した関連語情報を検
索結果として表示する。ここでは、図１３の関連語情報
を表示する。関連語を検索語に追加したことにより、最
初の検索では得られなかった、関連語「大阪銀行」を収
集している。

【００６２】（Ｂ−３）第２の実施形態の効果第２の実施形態により、検索システムに語関係情報抽出
処理を組み合わせることで、検索データ内の固有名詞に
関する関連語情報を自動的に収集することができる。収
集した関連語を元の検索語に追加するなど、検索語の拡
大に用いることで、検索範囲を拡張あるいは限定するこ
とができる。

【００６３】（Ｃ）第３の実施形態（Ｃ−１）第３の実施形態の構成第３の実施形態に係る情報抽出装置は、電子メールのメ
ーラーに第１の実施形態の情報抽出装置を組込むこと
で、メールの本文から自動的に住所録を作成するもので
ある。

【００６４】図１４に、第３の実施形態に係る情報抽出
装置の構成を示す。第３の実施形態において第１の実施
形態と同様の機能を備えるブロックには同一符号を付与
し、第３の実施形態において第１の実施形態と異なるブ
ロックについてのみ詳細に説明する。

【００６５】メール１２は、処理対象となる電子メール
である。メール１２は送信者が受信者に対して内容を記
述するテキスト部と送信者のアドレスや受信者のアドレ
ス等の情報を記述したヘッダの情報部から構成される。
図１５にメール１２の例を示す。図１５において、番号
は各メールに付与された番号を示し、送信者はメール１
２を送信者のメールアドレスを示し、テキスト部はメー
ル１２の内容を示している。

【００６６】メーラー１３は、Exchange等の電子メール
の送受信に用いられるツールであり、指定されたメール
サーバ（図示しない）からメール１２を受信する。ま
た、使用者が作成した電子メールをメールサーバに送信
する。

【００６７】固有名認識処理部１４は、固有名詞を認識
するものであり、メーラー１３から送られてきたメール
のテキスト部から固有名詞を抽出しその属性を付与す
る。固有名詞の抽出およびその属性付与は既存の固有名
詞抽出技術で実現できる。例えば、固有名詞辞書を保持
し、メールのテキスト部に記載されている固有名詞と同
じ表記の文字部分を固有名詞と認識する方法である。こ
こでは、固有名辞書に人名として「山田」と「田中」
が、組織名として「Ａ電気」と「企画部」が登録されて
いるものとする。図１６に、図１５のメールから固有名
詞が抽出され、その属性が付与されたメールのテキスト
部を示す。

【００６８】番号１では、固有名詞「Ａ電気」に属性ｏ
ｒｇが、固有名詞「山田」に属性ｐｅｒが付与されてい
る。同様に、番号２では、固有名詞「企画部」に属性ｏ
ｒｇが、固有名詞「田中」に属性ｐｅｒが付与されてい
る。

【００６９】語関係情報抽出部１５は、第１の実施形態
の語関係情報抽出部３と同様の処理を行うが、メール１
２のテキスト部の固有名詞と抽出規則格納部２の抽出規
則を照合して一致する規則があった場合に、その規則に
基づき、固有名詞間の関係情報とメール送信者のアドレ
ス情報を抽出する。メールの送信者の情報はメールのテ
キスト部の最初の部分に表れることが多いため、抽出規
則を適合する範囲をメールのテキスト部の上から数段と
あらかじめ決めてもよい。

【００７０】住所録１６は、語関係情報抽出部１５によ
り抽出されたアドレス情報を格納する。また、メーラー
１３の使用者がメールを作成するときの住所録として利
用することもできる。抽出されたアドレス情報が既に登
録されている情報の場合は無視をする。

【００７１】（Ｃ−２）第３の実施形態の動作図１７は、第３の実施形態の情報抽出装置の動作を示す
フローチャートである。

【００７２】Ｓ４１：メーラー１３は情報抽出の対象と
なるメール１２を受信する。例えば、図１５に示すメー
ル１２を受信する。Ｓ４２：メーラー１３は受信したメール１２を固有名詞
認識処理部１４に送り、メールのテキスト部の固有名詞
を認識してその属性を付与する。図１６に固有名詞に属
性が付与されたメールのテキスト部を示す。

【００７３】Ｓ４３：語関係情報抽出部１５は入力され
たメール１２のテキスト部に対し、抽出規則格納部２に
格納されている規則に適合する箇所がないかをチェック
する。抽出は、テキストに付与されている固有名詞の属
性とその関係に基づいて行う。適合する規則がある場合
は、Ｓ４４へ処理を進める。適合する規則が無い場合
は、処理を終了する。図１８の抽出規則に基づきメール
から抽出すると、ｏｒｇ（Ａ電気）のｐｅｒ（山田）で
す→ｅｍｐｌｏｙｅｅ（Ａ電気、山田）と、ｏｒｇ（企
画部）のｐｅｒ（田中）です→ｅｍｐｌｏｙｅｅ（企画
部、田中）が抽出される。

【００７４】Ｓ４４：Ｓ４３において、規則に適合した
メールの送信者アドレスと固有名詞を抽出し住所録に格
納し、Ｓ４３に戻る。テキストに対し適合する規則が無
くなるまでＳ４３と４４を繰り返す。図１９に抽出した
メールアドレスと固有名詞を格納した住所録の内容を示
す。

【００７５】（Ｃ−３）第３の実施形態の効果第３の実施形態により、あらかじめ住所録に適した抽出
規則を登録することで、送信されてくるメールから自動
的に住所録に必要な情報を抽出することができ、送信者
のアドレス、氏名、所属先等の情報を獲得することがで
きる。

【００７６】（Ｄ）他の実施形態（ａ）本発明は、テキストデータ中の固有名詞を対象と
した処理を行っているが、固有名詞との参照関係が判明
してる代名詞を利用して情報を抽出してもよい。例え
ば、ｒｅｆが代名詞を表す場合に、「ｏｒｇ１（Ｂ通
信）では、．．．。ｒｅｆ１（同社）のｐｅｒ（山田）
氏が．．．」という文では、代名詞ｒｅｆ１がｏｒｇ１
を参照していると判明していると、ｒｅｆ１（同社）＝
ｏｒｇ１（Ｂ通信）という関係が成り立つ。したがっ
て、このｒｅｆ１＝ｏｒｇ１の情報を利用して、例え
ば、図３の抽出規則との適合処理を実行すると規則３と
適合し、ｏｒｇ１のｐｅｒ１（が）からｅｍｐｌｏｙｅ
ｅ＿ｏｆ（Ｂ通信、山田）という関係を抽出することが
できる。

【００７７】（ｂ）本発明は、処理対象にテキストデー
タが含まれていれば適用することができる。具体的に
は、テキストデータが収録されたＣＤ−ＲＯＭやネット
ニュース、ウェブなどにも適用することができる。

【００７８】（ｃ）本発明は、情報を抽出する固有名詞
の属性として、人名、地名、組織名等を利用している
が、これらにかかわらず、コンピュータや自動車といっ
た固有名詞を対象としてもよい。また、組織名はより細
分化して銀行、証券、政府機関などの細かいレベルの属
性を対象としてもよい。

【００７９】（ｄ）本発明は、テキストデータ中の固有
名詞の抽出および属性付与は既存の方法を用いてもよい
が、特願平１０−７３６８４「情報抽出装置」に記載さ
れている固有名詞を表層的特徴を基に認識する方法を用
いることができる。特願平１０−７３６８４に記載され
ている固有名詞の抽出方法と本発明を組み合わせること
で、事前に情報が付与されていないテキストデータから
固有名詞とその関係を抽出することができる。

【００８０】（ｅ）本発明は、テキストデータ中の２つ
の固有名詞の間と直後にある文字を用いて情報を抽出す
るが、テキストデータに対して形態素解析の情報があれ
ば、２つの固有名詞の間と直後にある文字を助詞として
もよい。

【００８１】

【発明の効果】以上のように、第１の実施形態によれ
ば、テキストデータから情報を抽出する場合に、２つの
固有名詞の間に存在する文字と最後の固有名詞の直後に
存在する文字を利用することで、２つの固有名詞の関係
を認識することができる。

【００８２】第２の実施形態によれば、抽出した関連語
を次の検索に利用することで、検索範囲の拡張や限定を
行うことができる。また、関連語の利用方法を使用者の
判断により変更することが可能であるため、処理対象の
テキストにあった方法で情報を抽出することができる。

【００８３】第３の実施形態によれば、情報抽出装置と
メーラーを組み合わせることで、受信したメールから自
動的に住所録を作成することができる。

【図面の簡単な説明】

【図１】第１の実施形態の情報抽出装置を示すブロック
図である。

【図２】入力テキストの内容説明図である。

【図３】抽出規則格納部の内容説明図（１）である。

【図４】語関係情報格納部の内容説明図（１）である。

【図５】第１の実施形態の情報抽出装置の動作を示すフ
ローチャートである。

【図６】第１の実施形態の情報抽出装置における出力結
果例である。

【図７】第２の実施形態の情報抽出装置を示すブロック
図である。

【図８】検索データの内容説明図である。

【図９】語関係情報格納部の内容説明図（２）である。

【図１０】検索語「大阪市」に対する関連語情報の内容
説明図である。

【図１１】第２の実施形態の情報抽出装置の動作を示す
フローチャート（１）である。

【図１２】第２の実施形態の情報抽出装置の動作を示す
フローチャート（２）である。

【図１３】検索語「大阪市」「大阪府」「中央区」に対
する関連語情報の内容説明図である。

【図１４】第３の実施形態の情報抽出装置を示すブロッ
ク図である。

【図１５】受信メールの内容説明図である。

【図１６】受信メールの固有名詞が認識された後のメー
ルを示す図である。

【図１７】第３の実施形態の情報抽出装置の動作を示す
フローチャートである。

【図１８】抽出規則格納部の内容説明図（２）である。

【図１９】住所録の内容説明図である。

【符号の説明】

１：入力テキスト、２：抽出規則格納部、３：語関係情
報抽出部、４：語関係情報格納部、５：語関係情報出力
生成部、６：語関係情報出力部、７：検索語、８：検
索データ、９：検索処理部、１０：検索結果、１２：メ
ール、１３：メーラー、１４：固有名詞認識処理部、１
５：語関係情報抽出部、１６：住所録。

Claims

【特許請求の範囲】

【請求項１】自然言語で記述され、固有名詞と該固有
名詞の属性情報が付与された文書から、必要な情報を抽
出する情報抽出装置において、複数の固有名詞の間に存在する文字と、該複数の固有名
詞のうち最後の固有名詞の直後に存在する文字を条件と
し、該条件に適合する該固有名詞間の関係を記述した抽
出規則を格納する抽出規則部と、前記抽出規則部の抽出規則と前記文書を照合して抽出規
則に適合する前記文書中の複数の固有名詞と該固有名詞
間の関係を語関係情報として抽出する語関係情報抽出部
を備えることを特徴とする情報抽出装置。
【請求項２】請求項１に記載の情報抽出装置におい
て、前記語関係情報抽出部で抽出した語関係情報と入力され
た検索語を照合して該検索語と関連する固有名詞を関連
語とし、該検索語と該関連語の関係を関連語情報として
抽出する検索処理部を備えることを特徴とする情報抽出
装置。
【請求項３】請求項２に記載の情報抽出装置におい
て、前記検索処理部は、前記関連語を前記検索語に追加して
新たな検索語とし、前記語関係情報抽出部で抽出した語
関係情報と該新たな検索語を照合して該新たな検索語と
関連する固有名詞を新たな関連語とし、該新たな検索語
と該新たな関連語の関係を関連語情報として抽出するこ
とを特徴とする情報抽出装置。
【請求項４】電子メールの送受信を行うメーラー部
と、前記電子メール中の固有名詞と該固有名詞の属性情報を
付与する固有名詞認識処理部と、複数の固有名詞の間に存在する文字と、該複数の固有名
詞のうち、最後の固有名詞の直後に存在する文字を条件
とし、該条件に適合する該固有名詞間の関係を記述した
抽出規則を格納する抽出規則部と、前記抽出規則部の抽出規則と前記電子メールを照合して
抽出規則に適合する前記電子メール中の複数の固有名詞
と該固有名詞間の関係とメールアドレスを抽出し住所録
を作成する語関係情報抽出部を備えることを特徴とする
情報抽出装置。