JP2000112969A - 情報抽出装置 - Google Patents

情報抽出装置

Info

Publication number
JP2000112969A
JP2000112969A JP28121798A JP28121798A JP2000112969A JP 2000112969 A JP2000112969 A JP 2000112969A JP 28121798 A JP28121798 A JP 28121798A JP 28121798 A JP28121798 A JP 28121798A JP 2000112969 A JP2000112969 A JP 2000112969A
Authority
JP
Japan
Prior art keywords
word
information
extraction
proper nouns
proper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP28121798A
Other languages
English (en)
Other versions
JP3616507B2 (ja
Inventor
Mitsuo Shimohata
光夫 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP28121798A priority Critical patent/JP3616507B2/ja
Publication of JP2000112969A publication Critical patent/JP2000112969A/ja
Application granted granted Critical
Publication of JP3616507B2 publication Critical patent/JP3616507B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 固有名詞とその属性の情報が付与されたテキ
ストから事物間の関係を抽出する。 【解決手段】 あらかじめテキストデータから抽出する
固有名詞の条件と関係を抽出規則として登録しておき、
テキストデータ中の2つの固有名詞の間に存在する文字
と、最後の固有名詞の直後に存在する助詞を抽出規則と
の適合を判定することで固有名詞間の関係を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、固有名詞とその属
性の情報が付与されたテキストデータから事物間の関係
情報を抽出する装置に関するものである。
【0002】
【従来の技術】情報抽出は、テキストデータから様々な
レベルの情報を抽出する。従来の情報抽出では、文に対
して助詞や用言の条件が入ったテンプレートを適用し、
そのテンプレートに一致する定型情報を獲得する技術が
知られている。例えば、(「情報抽出のための新聞記事
テキスト分析」:言語処理学会第4回全国大会)があ
る。この文献では、「合併する」という用言と助詞を用
いることで、一文を対象に情報抽出を行っている。ま
た、検索範囲の拡張や限定を行う場合は、使用者が情報
の抽出に使用する検索語に関連する関連語をAND(ま
たはOR)で結合することにより行っている。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
情報抽出の技術では、条件に用言を用いているために、
一文から最大でも一つしか情報を抽出することができな
いという問題があった。また、検索範囲の拡張や限定に
用いる関連語の情報は、あらかじめ定義されたシソーラ
スを利用したり、文中の共起関係を利用して自動作成す
ることが多い。しかし、データにマッチしたシソーラス
をあらかじめ定義することは非常に困難であり、共起を
利用したシソーラス作成では語の間の関係が不明であ
る。したがって、関連語の情報を的確に生成することが
できないという問題があった。
【0004】このような点から、本発明はテキストデー
タから抽出条件に用言を用いずに情報を抽出し、検索範
囲の拡張や限定の際は、情報抽出によって得た語を検索
語の関連語とする。また、情報抽出技術を電子メールの
メーラーに組み込むことで、住所録を自動的に作成する
ことができる情報抽出装置を提供することを目的とす
る。
【0005】
【課題を解決するための手段】係る課題を解決するた
め、本発明は、自然言語で記述され、固有名詞とその固
有名詞の属性情報が付与された文書から、必要な情報を
抽出する情報抽出装置において、複数の固有名詞の間に
存在する文字と、その複数の固有名詞のうち、最後の固
有名詞の直後に存在する文字を条件とし、その条件に適
合する固有名詞間の関係を記述した抽出規則を格納する
抽出規則部と、抽出規則部の抽出規則と文書を照合して
抽出規則に適合する文書中の複数の固有名詞とその固有
名詞間の関係を語関係情報として抽出する語関係情報抽
出部を備える。
【0006】また、検索処理部を有し、語関係情報抽出
部で抽出した語関係情報と入力された検索語を照合して
その検索語と関連する固有名詞を関連語とし、検索語と
関連語の関係を関連語情報として抽出する。
【0007】さらに、検索処理部は、関連語を検索語に
追加して新たな検索語とし、語関係情報抽出部で抽出し
た語関係情報と新たな検索語を照合して新たな検索語と
関連する固有名詞を新たな関連語とし、新たな検索語と
新たな関連語の関係を関連語情報として抽出する。
【0008】また、電子メールの送受信を行うメーラー
部と、電子メール中の固有名詞とその固有名詞の属性情
報を付与する固有名詞認識処理部を有することで、前記
抽出規則部と前記語関係情報抽出部から電子メール中の
複数の固有名詞とその固有名詞間の関係とメールアドレ
スを抽出し住所録を作成する。
【0009】
【発明の実施の形態】(A)第1の実施形態 (A−1)第1の実施形態の構成 第1の実施形態に係る情報抽出装置は、テキストデータ
中の2つの固有名詞の間と直後にある文字を用いること
で固有名詞間の関係を認識するものである。
【0010】なお、第1の実施形態に係る情報抽出装置
は、実際上、入出力装置、通信装置、外部記憶装置等を
適宜組み合わせたワークステーションやパソコン等の情
報処理装置で実現されるものであるが、その機能構成を
ブロック図で表すと、図1に示すようになる。
【0011】図1の情報抽出装置は、入力テキスト1、
抽出規則格納部2、語関係情報抽出部3、語関係情報格
納部4、語関係情報出力生成部5、語関係情報出力部6
から構成される。
【0012】入力テキスト1は、処理対象となるテキス
トデータである。入力テキスト1には、あらかじめ固有
名詞とその属性に関する情報が付与されているものとす
る。図2は入力テキスト1の内容を説明する図である。
ここで、テキスト部とは、テキストデータに複数存在す
る文の1文に対するテキストデータであり、文番号と
は、その1文毎に付与された番号を表している。テキス
ト部において、( )内の単語はあらかじめ抽出された
固有名詞であり、( )の前の表記は( )内の固有名
詞の属性情報を示す。locは固有地名、orgは固有
組織名、perは固有人名を表している。
【0013】抽出規則格納部2は、語関係情報抽出部3
で使用する抽出規則が格納されている。図3は抽出規則
格納部2の内容を説明する図である。ここで、規則部と
は、情報抽出の際に適用する抽出規則を表したものであ
り、1つまたは複数の規則を格納している。規則番号と
は、その規則毎に付与された番号を表している。
【0014】規則部において、矢印より左側は条件を示
している。属性を有する2つの固有名詞が隣接、または
文字を挟んで連接しており、最後の固有名詞の後に伴っ
て表れる文字を( )内に示している。( )内の文字
は文章中係り受けの流れが切れるような文字であり、い
ずれかが伴えばよい。また、( )内の文字は助詞であ
る必要はない。例えば、規則として(で)が登録されて
いる場合、固有名詞の後が「で」「であれば」「でさえ
も」「では」等の文字であれば抽出規則に適合する。
【0015】矢印の右側は条件に適合した場合の関係を
表している。
【0016】part_ofは上位・下位関係を表し、
( )内の左側に上位概念の固有名詞、右側に下位概念
の固有名詞を示す。location_atは地理関係
を表し、( )内の左側に所在地の固有名詞を、右側に
組織名の固有名詞を示す。
【0017】employee_ofは、所属関係を表
し、( )内の左側に組織名の固有名詞を、右側に氏名
の固有名詞を示す。
【0018】規則1は、固有地名と認識された2つの事
物が「の」を挟んで連結しており、かつ、最後に「が」
「お」「は」「に」「で」のいずれかが伴っている部分
があれば、最初の固有地名loc1と最後の固有地名l
oc2は上位・下位関係(part_of)にあると認
識することを示している。同様に、規則2は、規則1と
同様の関係にある固有組織名org1の所在地が固有地
名loc1である(地理関係(location_a
t))と認識することを示している。規則3は、規則1
と同様の関係にある固有人名per1が固有組織名or
g1に所属している(所属関係(employee_o
f))と認識することを示している。規則4は、固有地
名と認識された2つの事物が隣接しており、かつ、最後
の「の」「を」「は」「に」のいずれかが伴っている部
分があれば、最初の固有地名loc1と最後の固有地名
loc2は上位・下位関係(part_of)にあると
認識することを示している。
【0019】語関係情報抽出部3は、入力テキスト1と
抽出規則格納部2に格納されている規則を照合して一致
する規則があった場合に、その規則に基づき、近接した
2つの固有名詞の関係を語関係情報として抽出する。入
力テキストと抽出規則の適合判定は、既存のパターンマ
ッチング処理ツール(例えば、grepやperlの正規表現
等)でよい。
【0020】語関係情報格納部4は、語関係情報抽出部
3により抽出された語関係情報を格納する。抽出された
2つの固有名詞とその関係が既に登録されている情報と
重複する場合は、無視をしてもよいし、抽出された頻度
をカウントするようにしてもよい。図4に語関係情報の
出力結果を示す。図4において、規則部は語関係情報を
示し、抽出規則格納部2の抽出規則に適合した規則に入
力テキスト1の固有名詞を当てはめている。規則番号は
適合した規則の番号であり、文番号は入力テキスト1に
付与されている文番号と同一である。
【0021】語関係情報出力生成部5は、語関係情報格
納部4に格納されている語関係情報を加工し、出力情報
を作成する。出力情報は、語関係情報格納部4の格納内
容をそのまま出力してもよい。また、頻度の高い関係だ
けを出力したり、認識された関係をタグの形式などで入
力テキスト1に埋め込んで出力してもよい。
【0022】語関係情報出力部6は、語関係情報出力生
成部5から出力された情報を出力する表示部である。
【0023】(A−2)第1の実施形態の動作 図5は、第1の実施形態の情報抽出装置の動作を示すフ
ローチャートである。
【0024】S1:情報を抽出するテキストを入力す
る。例えば、図2に示す入力テキストを入力する。
【0025】S2:語関係情報抽出部3は入力された入
力テキストのテキスト部に対し、抽出規則格納部2に格
納されている規則に適合する箇所がないかをチェックす
る。抽出は、テキストに付与されている固有名詞の属性
とその関係に基づいて行う。適合する規則がある場合
は、S3へ処理を進める。適合する規則が無い場合は、
S5へ処理を進める。
【0026】S3:S2において、適合した規則番号
と、適合した規則に入力テキスト中の固有名詞を当ては
めた固有名詞とその関係を抽出する。図4に、図1の入
力テキストに図3の抽出規則を用いて抽出した語関係情
報を示す。図1の文番号1は図3の抽出規則の規則1
に、文番号2は規則3に、文番号3は規則2に、文番号
4は規則4にそれぞれ適合する。
【0027】S4:S3で抽出した語関係情報を語関係
情報格納部4に格納し、S2に戻る。テキストに対し適
合する規則がなくなるまでS2からS4の処理を繰り返
す。
【0028】S5:語関係情報出力生成部5は、S4で
語関係情報格納部4に格納された語関係情報を生成す
る。図6に、図4に格納されている語関係情報に基づき
入力テキストに認識された関係を埋め込んだ場合の生成
結果を示す。
【0029】S6:S5で生成された語関係情報を語関
係情報表示部に出力する。
【0030】(A−3)第1の実施形態の効果第1に実
施形態により、固有名詞の意味素性が付与されたテキス
トから固有名詞間で成り立つ関係を抽出することができ
る。通常「AのB」という表現では、AとBの関係は多
くの種類があるが、このようにAとBの属性をあらかじ
め付与し、AとBの属性と関係の基づき規則を適用する
ことで、固有名詞間の関係を抽出することができる。ま
た、最後の固有名詞の直後に表れる文字が「に」「を」
「が」などの係り受けの流れが切れる文字かどうかを判
断することで、より精度よく関係を抽出することができ
る。
【0031】さらに、2つの固有名詞の間と直後に表れ
る助詞から情報を抽出するため、一文から複数の情報を
抽出することもできる。
【0032】したがって、従来技術にある特定用言を含
む文を対象とするテンプレートを用いる情報抽出と比較
すると、用言を条件をしないため適用範囲が広く、記事
見出しなどの用言が無い体言止めの名詞句から情報を抽
出することもできる。
【0033】(B)第2の実施形態 (B−1)第2の実施形態の構成 第2の実施形態に係る情報抽出装置は、テキストデータ
から自動的に関連語情報を作成するとともに、語の間の
関係も合わせて抽出し、関連語の拡張に用いるものであ
る。
【0034】図7に、第2の実施形態に係る情報抽出装
置の構成を示す。第2の実施形態において第1の実施形
態と同様の機能を備えるブロックには同一符号を付与
し、第2の実施形態において第1の実施形態と異なるブ
ロックについてのみ詳細に説明する。
【0035】検索語7は、使用者が入力する検索語であ
る。第2実施形態中では検索語は一つとして説明する
が、複数の検索語を入力しても同様に処理が行える。
【0036】検索データ8は、検索の対象となるデータ
ベースである。図8に検索データの例を示す。第1の実
施形態の入力テキスト1と同様に、テキスト部と文番号
からなり、テキスト部の( )内に、あらかじめ抽出し
た固有名詞とその属性を示す情報が格納されている。
【0037】語関係情報抽出部3は、第1の実施形態と
同様の処理を行うが、処理対象となるデータは、検索デ
ータ8に格納されているデータベースとなる。図9に図
8に示す検索データ8と図3に示す抽出規則格納部2の
照合により抽出され語関係情報格納部4に格納された語
関係情報を示す。
【0038】検索処理部9は、検索語7と語関係情報格
納部4に格納されているテキスト部を照合して適合する
データを収集するものである。指定した複数の検索語の
すべて、または、いずれかを有するデータを語関係情報
から収集し、関連語情報として出力する。さらに、関連
語情報が得られた場合は、関連語を利用して関連語情報
収集を実行する。関連語利用方法を以下に示す。
【0039】<関連語利用方法> 1.出力された関連語のすべてを元の検索語に追加して
新たな検索語とする。 2.頻度や関係を基にした重要度で選択した関連語のみ
を元の検索語に追加して新たな検索語とする。 3.出力された関連語を使用者に提示し、利用する関連
語を選択させる。
【0040】上記2の方法では、関連語を多く得られた
場合に効果の高い関連語のみを、その後の検索語として
用いることができる。上記3の方法では、使用者により
妥当性の判断が行えるため適合性の高い検索が可能とな
る。
【0041】また、関連語は元の検索語にANDで追加
してもよいし、ORで追加してもよい。関連語の利用方
法はあらかじめ1つの方法が登録されていてもよいし、
複数の利用方法を登録し、使用者が適宜利用方法を選択
するような構成でもよい。
【0042】語関係情報格納部4からの検索語の検索技
術は、既存の検索技術を用いることが出きる。図10に
収集した関連語情報の例を示す。関連語情報は、検索語
との関係と関連語から構成される。また、図示していな
いが、検索語を格納してもよい。収集された関連語と検
索語の関係が既に登録されている情報と重複する場合は
無視してもよい。
【0043】検索結果出力部10は、検索処理部9から
出力された情報を出力する表示部である。
【0044】(B−2)第2の実施形態の動作 図11および図12は、第2の実施形態の情報抽出装置
の動作を示すフローチャートである。
【0045】第2の実施形態は、まず図11に示す処理
を実行し、検索データ8のテキスト部と抽出規則格納部
2に基づき語関係情報を作成する。この処理は一度実行
すればデータベースの変更がされない限り再度行う必要
はない。
【0046】S21:語関係情報の基礎となる検索デー
タのテキスト部を指定する。テキスト部を指定せずに、
検索データ8に格納されているデータすべてを処理の対
象にしてもよい。ここでは、図8に示す文番号1〜6を
指定するものとする。
【0047】S22:語関係情報抽出部3は入力された
検索データ8のテキスト部に対し、抽出規則格納部2に
格納されている規則に適合する箇所がないかをチェック
する。抽出は、テキストに付与されている固有名詞の属
性とその関係に基づいて行う。適合する規則がある場合
は、S23へ処理を進める。適合する規則が無い場合
は、処理を終了する。
【0048】S23:S22において、適合した規則番
号と、適合した規則に入力テキスト中の固有名詞を当て
はめた固有名詞とその関係を抽出する。図9に、図8の
検索データ8に図3の抽出規則を用いて抽出した語関係
情報を示す。図8の文番号1、2、3は図3の抽出規則
の規則1に、文番号4は規則3に、文番号5と6は規則
2にそれぞれ適合する。
【0049】S24:S23で抽出した語関係情報を語
関係情報格納部4に格納し、S22に戻る。テキスト部
に対し適合する規則が無くなるまでS22からS24の
処理を繰り返す。
【0050】次に、図12に示す語関係情報を用いた検
索処理を行う。
【0051】S25:使用者が検索語7を入力する。こ
こでは、「大阪市」という検索語を入力する。
【0052】S26:検索処理部8は、語関係情報格納
部4を参照し、使用者が入力した検索語が含まれている
語関係を検索する。検索語を含む語関係が存在する場合
は、S27に処理を進める。存在しない場合は、処理を
終了する。ここで、検索語「大阪市」に適合する語関係
は、図9の語関係情報の文番号1と2である。
【0053】S27:S26において、規則に適合した
固有名詞を関連語とし、関連語と、その関連語と検索語
の関係を抽出する。図10に、検索語「大阪市」に適合
する関連語を示す。図9の語関係情報の文番号1の上位
・下位概念(part_of)において、検索語「大阪
市」は下位概念に該当する。したがって、関連語として
上位概念である「大阪府」を抽出し、検索語との関係を
「上位概念」とする。文番号2の上位・下位概念(pa
rt_of)において、検索語「大阪市」は上位概念に
該当する。したがって、関連語として下位概念である
「中央区」を抽出し、検索語との関係を「下位概念」と
する。
【0054】S28:S27で収集した関連語情報を検
索結果として表示する。ここでは、図10の関連語情報
を表示する。
【0055】S29:使用者が表示された検索結果に基
づき、さらに関連語の収集を実行しするか否かを判断す
る。さらに関連語の収集を行う場合は、S30へ処理を
進める。関連語の収集を行わない場合は、処理を終了す
る。
【0056】S30:さらに関連語の収集を実行する場
合は、あらかじめ設定した関連語利用方法に基づき検索
語を設定し、S26〜S29の処理を繰り返す。
【0057】ここで、S29において、使用者がさらに
関連語の収集を行う場合について説明する。
【0058】S30:関連語利用方法は、上記の関連語
利用方法1かつ、元の検索語にORで追加するものとす
る。したがって、検索語は、「大阪市」OR「大阪府」
OR「中央区」となる。この検索語に基づき、S26を
実行する。
【0059】S26:語関係情報格納部4を参照し、検
索語「大阪市」OR「大阪府」OR「中央区」が含まれ
る語関係が存在するか検索する。ここで、検索語に適合
する語関係は、図9の語関係情報の文番号1と2と6で
ある。
【0060】S27:S26において検索した語関係情
報のうち文番号の1と2は最初の処理で検索した情報と
同一であるため、ここでは無視をする。したがって、文
番号6に対する関連語と、検索語と関連語との関係を収
集する。図9の語関係情報の文番号6の地理関係(lo
cation_at)において、検索語「大阪府」が所
在地に該当する。したがって、関連語として組織名であ
る「大阪銀行」を抽出し、検索語との関係を「組織名」
とする。
【0061】S28:S27で収集した関連語情報を検
索結果として表示する。ここでは、図13の関連語情報
を表示する。関連語を検索語に追加したことにより、最
初の検索では得られなかった、関連語「大阪銀行」を収
集している。
【0062】(B−3)第2の実施形態の効果 第2の実施形態により、検索システムに語関係情報抽出
処理を組み合わせることで、検索データ内の固有名詞に
関する関連語情報を自動的に収集することができる。収
集した関連語を元の検索語に追加するなど、検索語の拡
大に用いることで、検索範囲を拡張あるいは限定するこ
とができる。
【0063】(C)第3の実施形態 (C−1)第3の実施形態の構成 第3の実施形態に係る情報抽出装置は、電子メールのメ
ーラーに第1の実施形態の情報抽出装置を組込むこと
で、メールの本文から自動的に住所録を作成するもので
ある。
【0064】図14に、第3の実施形態に係る情報抽出
装置の構成を示す。第3の実施形態において第1の実施
形態と同様の機能を備えるブロックには同一符号を付与
し、第3の実施形態において第1の実施形態と異なるブ
ロックについてのみ詳細に説明する。
【0065】メール12は、処理対象となる電子メール
である。メール12は送信者が受信者に対して内容を記
述するテキスト部と送信者のアドレスや受信者のアドレ
ス等の情報を記述したヘッダの情報部から構成される。
図15にメール12の例を示す。図15において、番号
は各メールに付与された番号を示し、送信者はメール1
2を送信者のメールアドレスを示し、テキスト部はメー
ル12の内容を示している。
【0066】メーラー13は、Exchange等の電子メール
の送受信に用いられるツールであり、指定されたメール
サーバ(図示しない)からメール12を受信する。ま
た、使用者が作成した電子メールをメールサーバに送信
する。
【0067】固有名認識処理部14は、固有名詞を認識
するものであり、メーラー13から送られてきたメール
のテキスト部から固有名詞を抽出しその属性を付与す
る。固有名詞の抽出およびその属性付与は既存の固有名
詞抽出技術で実現できる。例えば、固有名詞辞書を保持
し、メールのテキスト部に記載されている固有名詞と同
じ表記の文字部分を固有名詞と認識する方法である。こ
こでは、固有名辞書に人名として「山田」と「田中」
が、組織名として「A電気」と「企画部」が登録されて
いるものとする。図16に、図15のメールから固有名
詞が抽出され、その属性が付与されたメールのテキスト
部を示す。
【0068】番号1では、固有名詞「A電気」に属性o
rgが、固有名詞「山田」に属性perが付与されてい
る。同様に、番号2では、固有名詞「企画部」に属性o
rgが、固有名詞「田中」に属性perが付与されてい
る。
【0069】語関係情報抽出部15は、第1の実施形態
の語関係情報抽出部3と同様の処理を行うが、メール1
2のテキスト部の固有名詞と抽出規則格納部2の抽出規
則を照合して一致する規則があった場合に、その規則に
基づき、固有名詞間の関係情報とメール送信者のアドレ
ス情報を抽出する。メールの送信者の情報はメールのテ
キスト部の最初の部分に表れることが多いため、抽出規
則を適合する範囲をメールのテキスト部の上から数段と
あらかじめ決めてもよい。
【0070】住所録16は、語関係情報抽出部15によ
り抽出されたアドレス情報を格納する。また、メーラー
13の使用者がメールを作成するときの住所録として利
用することもできる。抽出されたアドレス情報が既に登
録されている情報の場合は無視をする。
【0071】(C−2)第3の実施形態の動作 図17は、第3の実施形態の情報抽出装置の動作を示す
フローチャートである。
【0072】S41:メーラー13は情報抽出の対象と
なるメール12を受信する。例えば、図15に示すメー
ル12を受信する。 S42:メーラー13は受信したメール12を固有名詞
認識処理部14に送り、メールのテキスト部の固有名詞
を認識してその属性を付与する。図16に固有名詞に属
性が付与されたメールのテキスト部を示す。
【0073】S43:語関係情報抽出部15は入力され
たメール12のテキスト部に対し、抽出規則格納部2に
格納されている規則に適合する箇所がないかをチェック
する。抽出は、テキストに付与されている固有名詞の属
性とその関係に基づいて行う。適合する規則がある場合
は、S44へ処理を進める。適合する規則が無い場合
は、処理を終了する。図18の抽出規則に基づきメール
から抽出すると、org(A電気)のper(山田)で
す→employee(A電気、山田)と、org(企
画部)のper(田中)です→employee(企画
部、田中)が抽出される。
【0074】S44:S43において、規則に適合した
メールの送信者アドレスと固有名詞を抽出し住所録に格
納し、S43に戻る。テキストに対し適合する規則が無
くなるまでS43と44を繰り返す。図19に抽出した
メールアドレスと固有名詞を格納した住所録の内容を示
す。
【0075】(C−3)第3の実施形態の効果 第3の実施形態により、あらかじめ住所録に適した抽出
規則を登録することで、送信されてくるメールから自動
的に住所録に必要な情報を抽出することができ、送信者
のアドレス、氏名、所属先等の情報を獲得することがで
きる。
【0076】(D)他の実施形態 (a)本発明は、テキストデータ中の固有名詞を対象と
した処理を行っているが、固有名詞との参照関係が判明
してる代名詞を利用して情報を抽出してもよい。例え
ば、refが代名詞を表す場合に、「org1(B通
信)では、...。ref1(同社)のper(山田)
氏が...」という文では、代名詞ref1がorg1
を参照していると判明していると、ref1(同社)=
org1(B通信)という関係が成り立つ。したがっ
て、このref1=org1の情報を利用して、例え
ば、図3の抽出規則との適合処理を実行すると規則3と
適合し、org1のper1(が)からemploye
e_of(B通信、山田)という関係を抽出することが
できる。
【0077】(b)本発明は、処理対象にテキストデー
タが含まれていれば適用することができる。具体的に
は、テキストデータが収録されたCD−ROMやネット
ニュース、ウェブなどにも適用することができる。
【0078】(c)本発明は、情報を抽出する固有名詞
の属性として、人名、地名、組織名等を利用している
が、これらにかかわらず、コンピュータや自動車といっ
た固有名詞を対象としてもよい。また、組織名はより細
分化して銀行、証券、政府機関などの細かいレベルの属
性を対象としてもよい。
【0079】(d)本発明は、テキストデータ中の固有
名詞の抽出および属性付与は既存の方法を用いてもよい
が、特願平10−73684「情報抽出装置」に記載さ
れている固有名詞を表層的特徴を基に認識する方法を用
いることができる。特願平10−73684に記載され
ている固有名詞の抽出方法と本発明を組み合わせること
で、事前に情報が付与されていないテキストデータから
固有名詞とその関係を抽出することができる。
【0080】(e)本発明は、テキストデータ中の2つ
の固有名詞の間と直後にある文字を用いて情報を抽出す
るが、テキストデータに対して形態素解析の情報があれ
ば、2つの固有名詞の間と直後にある文字を助詞として
もよい。
【0081】
【発明の効果】以上のように、第1の実施形態によれ
ば、テキストデータから情報を抽出する場合に、2つの
固有名詞の間に存在する文字と最後の固有名詞の直後に
存在する文字を利用することで、2つの固有名詞の関係
を認識することができる。
【0082】第2の実施形態によれば、抽出した関連語
を次の検索に利用することで、検索範囲の拡張や限定を
行うことができる。また、関連語の利用方法を使用者の
判断により変更することが可能であるため、処理対象の
テキストにあった方法で情報を抽出することができる。
【0083】第3の実施形態によれば、情報抽出装置と
メーラーを組み合わせることで、受信したメールから自
動的に住所録を作成することができる。
【図面の簡単な説明】
【図1】第1の実施形態の情報抽出装置を示すブロック
図である。
【図2】入力テキストの内容説明図である。
【図3】抽出規則格納部の内容説明図(1)である。
【図4】語関係情報格納部の内容説明図(1)である。
【図5】第1の実施形態の情報抽出装置の動作を示すフ
ローチャートである。
【図6】第1の実施形態の情報抽出装置における出力結
果例である。
【図7】第2の実施形態の情報抽出装置を示すブロック
図である。
【図8】検索データの内容説明図である。
【図9】語関係情報格納部の内容説明図(2)である。
【図10】検索語「大阪市」に対する関連語情報の内容
説明図である。
【図11】第2の実施形態の情報抽出装置の動作を示す
フローチャート(1)である。
【図12】第2の実施形態の情報抽出装置の動作を示す
フローチャート(2)である。
【図13】検索語「大阪市」「大阪府」「中央区」に対
する関連語情報の内容説明図である。
【図14】第3の実施形態の情報抽出装置を示すブロッ
ク図である。
【図15】受信メールの内容説明図である。
【図16】受信メールの固有名詞が認識された後のメー
ルを示す図である。
【図17】第3の実施形態の情報抽出装置の動作を示す
フローチャートである。
【図18】抽出規則格納部の内容説明図(2)である。
【図19】住所録の内容説明図である。
【符号の説明】
1:入力テキスト、2:抽出規則格納部、3:語関係情
報抽出部、4:語関係情報格納部、5:語関係情報出力
生成部、6:語関係情報出力部、7:検索語、8: 検
索データ、9:検索処理部、10:検索結果、12:メ
ール、13:メーラー、14:固有名詞認識処理部、1
5:語関係情報抽出部、16:住所録。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 自然言語で記述され、固有名詞と該固有
    名詞の属性情報が付与された文書から、必要な情報を抽
    出する情報抽出装置において、 複数の固有名詞の間に存在する文字と、該複数の固有名
    詞のうち最後の固有名詞の直後に存在する文字を条件と
    し、該条件に適合する該固有名詞間の関係を記述した抽
    出規則を格納する抽出規則部と、 前記抽出規則部の抽出規則と前記文書を照合して抽出規
    則に適合する前記文書中の複数の固有名詞と該固有名詞
    間の関係を語関係情報として抽出する語関係情報抽出部
    を備えることを特徴とする情報抽出装置。
  2. 【請求項2】 請求項1に記載の情報抽出装置におい
    て、 前記語関係情報抽出部で抽出した語関係情報と入力され
    た検索語を照合して該検索語と関連する固有名詞を関連
    語とし、該検索語と該関連語の関係を関連語情報として
    抽出する検索処理部を備えることを特徴とする情報抽出
    装置。
  3. 【請求項3】 請求項2に記載の情報抽出装置におい
    て、 前記検索処理部は、前記関連語を前記検索語に追加して
    新たな検索語とし、前記語関係情報抽出部で抽出した語
    関係情報と該新たな検索語を照合して該新たな検索語と
    関連する固有名詞を新たな関連語とし、該新たな検索語
    と該新たな関連語の関係を関連語情報として抽出するこ
    とを特徴とする情報抽出装置。
  4. 【請求項4】 電子メールの送受信を行うメーラー部
    と、 前記電子メール中の固有名詞と該固有名詞の属性情報を
    付与する固有名詞認識処理部と、 複数の固有名詞の間に存在する文字と、該複数の固有名
    詞のうち、最後の固有名詞の直後に存在する文字を条件
    とし、該条件に適合する該固有名詞間の関係を記述した
    抽出規則を格納する抽出規則部と、 前記抽出規則部の抽出規則と前記電子メールを照合して
    抽出規則に適合する前記電子メール中の複数の固有名詞
    と該固有名詞間の関係とメールアドレスを抽出し住所録
    を作成する語関係情報抽出部を備えることを特徴とする
    情報抽出装置。
JP28121798A 1998-10-02 1998-10-02 情報抽出装置 Expired - Fee Related JP3616507B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28121798A JP3616507B2 (ja) 1998-10-02 1998-10-02 情報抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28121798A JP3616507B2 (ja) 1998-10-02 1998-10-02 情報抽出装置

Publications (2)

Publication Number Publication Date
JP2000112969A true JP2000112969A (ja) 2000-04-21
JP3616507B2 JP3616507B2 (ja) 2005-02-02

Family

ID=17636006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28121798A Expired - Fee Related JP3616507B2 (ja) 1998-10-02 1998-10-02 情報抽出装置

Country Status (1)

Country Link
JP (1) JP3616507B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099754A (ja) * 2004-09-01 2006-04-13 National Institute Of Advanced Industrial & Technology キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置
JP2007133688A (ja) * 2005-11-10 2007-05-31 Nec Corp 文書検索装置、文書検索プログラムおよび文書検索方法
JP2008225566A (ja) * 2007-03-08 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置及びその方法
JP2019095848A (ja) * 2017-11-17 2019-06-20 富士ゼロックス株式会社 文書処理装置およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6394365A (ja) * 1986-10-08 1988-04-25 Nippon Telegr & Teleph Corp <Ntt> 日本文文書誤り検定装置
JPH0721197A (ja) * 1993-06-15 1995-01-24 Nippon Telegr & Teleph Corp <Ntt> キーワード付与装置
JPH0785041A (ja) * 1993-09-16 1995-03-31 Fujitsu Ltd 関係概念抽出装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6394365A (ja) * 1986-10-08 1988-04-25 Nippon Telegr & Teleph Corp <Ntt> 日本文文書誤り検定装置
JPH0721197A (ja) * 1993-06-15 1995-01-24 Nippon Telegr & Teleph Corp <Ntt> キーワード付与装置
JPH0785041A (ja) * 1993-09-16 1995-03-31 Fujitsu Ltd 関係概念抽出装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099754A (ja) * 2004-09-01 2006-04-13 National Institute Of Advanced Industrial & Technology キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置
JP4613346B2 (ja) * 2004-09-01 2011-01-19 独立行政法人産業技術総合研究所 キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置
JP2007133688A (ja) * 2005-11-10 2007-05-31 Nec Corp 文書検索装置、文書検索プログラムおよび文書検索方法
JP2008225566A (ja) * 2007-03-08 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置及びその方法
JP4646328B2 (ja) * 2007-03-08 2011-03-09 日本電信電話株式会社 関係情報抽出装置及びその方法
JP2019095848A (ja) * 2017-11-17 2019-06-20 富士ゼロックス株式会社 文書処理装置およびプログラム

Also Published As

Publication number Publication date
JP3616507B2 (ja) 2005-02-02

Similar Documents

Publication Publication Date Title
CA2397985C (en) Apparatus and method for context-based highlighting of an electronic document
US5634084A (en) Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US6618715B1 (en) Categorization based text processing
Adams et al. Topic detection and extraction in chat
US7269544B2 (en) System and method for identifying special word usage in a document
US20160357718A1 (en) Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines
CN106156365A (zh) 一种知识图谱的生成方法及装置
US20030130835A1 (en) Named entity (NE) interface for multiple client application programs
US20090276411A1 (en) Issue trend analysis system
US8296319B2 (en) Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded
US7269789B2 (en) Document information processing apparatus
JP2021022211A (ja) 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体
Al-Kabi et al. Statistical classifier of the holy Quran verses (Fatiha and Yaseen chapters)
Sagcan et al. Toponym recognition in social media for estimating the location of events
JP3616507B2 (ja) 情報抽出装置
KR100479205B1 (ko) 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법
EP3916576A1 (en) Global address parser
JP4326713B2 (ja) ニュース話題解析装置
Charoenpornsawat et al. Feature-based proper name identification in Thai
JPH11272701A (ja) 情報抽出装置
Xiao et al. A global rule induction approach to information extraction
Khalil et al. Challenges in information retrieval from unstructured arabic data
CN110008307B (zh) 一种基于规则和统计学习的变形实体识别方法和装置
Xu et al. A machine learning approach to recognizing acronyms and their expansion
Alruily et al. Arabic language in the context of information extraction task

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040720

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041105

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees