JP2000112969A - 情報抽出装置 - Google Patents
情報抽出装置Info
- Publication number
- JP2000112969A JP2000112969A JP28121798A JP28121798A JP2000112969A JP 2000112969 A JP2000112969 A JP 2000112969A JP 28121798 A JP28121798 A JP 28121798A JP 28121798 A JP28121798 A JP 28121798A JP 2000112969 A JP2000112969 A JP 2000112969A
- Authority
- JP
- Japan
- Prior art keywords
- word
- information
- extraction
- proper nouns
- proper
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
ストから事物間の関係を抽出する。 【解決手段】 あらかじめテキストデータから抽出する
固有名詞の条件と関係を抽出規則として登録しておき、
テキストデータ中の2つの固有名詞の間に存在する文字
と、最後の固有名詞の直後に存在する助詞を抽出規則と
の適合を判定することで固有名詞間の関係を抽出する。
Description
性の情報が付与されたテキストデータから事物間の関係
情報を抽出する装置に関するものである。
レベルの情報を抽出する。従来の情報抽出では、文に対
して助詞や用言の条件が入ったテンプレートを適用し、
そのテンプレートに一致する定型情報を獲得する技術が
知られている。例えば、(「情報抽出のための新聞記事
テキスト分析」:言語処理学会第4回全国大会)があ
る。この文献では、「合併する」という用言と助詞を用
いることで、一文を対象に情報抽出を行っている。ま
た、検索範囲の拡張や限定を行う場合は、使用者が情報
の抽出に使用する検索語に関連する関連語をAND(ま
たはOR)で結合することにより行っている。
情報抽出の技術では、条件に用言を用いているために、
一文から最大でも一つしか情報を抽出することができな
いという問題があった。また、検索範囲の拡張や限定に
用いる関連語の情報は、あらかじめ定義されたシソーラ
スを利用したり、文中の共起関係を利用して自動作成す
ることが多い。しかし、データにマッチしたシソーラス
をあらかじめ定義することは非常に困難であり、共起を
利用したシソーラス作成では語の間の関係が不明であ
る。したがって、関連語の情報を的確に生成することが
できないという問題があった。
タから抽出条件に用言を用いずに情報を抽出し、検索範
囲の拡張や限定の際は、情報抽出によって得た語を検索
語の関連語とする。また、情報抽出技術を電子メールの
メーラーに組み込むことで、住所録を自動的に作成する
ことができる情報抽出装置を提供することを目的とす
る。
め、本発明は、自然言語で記述され、固有名詞とその固
有名詞の属性情報が付与された文書から、必要な情報を
抽出する情報抽出装置において、複数の固有名詞の間に
存在する文字と、その複数の固有名詞のうち、最後の固
有名詞の直後に存在する文字を条件とし、その条件に適
合する固有名詞間の関係を記述した抽出規則を格納する
抽出規則部と、抽出規則部の抽出規則と文書を照合して
抽出規則に適合する文書中の複数の固有名詞とその固有
名詞間の関係を語関係情報として抽出する語関係情報抽
出部を備える。
部で抽出した語関係情報と入力された検索語を照合して
その検索語と関連する固有名詞を関連語とし、検索語と
関連語の関係を関連語情報として抽出する。
追加して新たな検索語とし、語関係情報抽出部で抽出し
た語関係情報と新たな検索語を照合して新たな検索語と
関連する固有名詞を新たな関連語とし、新たな検索語と
新たな関連語の関係を関連語情報として抽出する。
部と、電子メール中の固有名詞とその固有名詞の属性情
報を付与する固有名詞認識処理部を有することで、前記
抽出規則部と前記語関係情報抽出部から電子メール中の
複数の固有名詞とその固有名詞間の関係とメールアドレ
スを抽出し住所録を作成する。
中の2つの固有名詞の間と直後にある文字を用いること
で固有名詞間の関係を認識するものである。
は、実際上、入出力装置、通信装置、外部記憶装置等を
適宜組み合わせたワークステーションやパソコン等の情
報処理装置で実現されるものであるが、その機能構成を
ブロック図で表すと、図1に示すようになる。
抽出規則格納部2、語関係情報抽出部3、語関係情報格
納部4、語関係情報出力生成部5、語関係情報出力部6
から構成される。
トデータである。入力テキスト1には、あらかじめ固有
名詞とその属性に関する情報が付与されているものとす
る。図2は入力テキスト1の内容を説明する図である。
ここで、テキスト部とは、テキストデータに複数存在す
る文の1文に対するテキストデータであり、文番号と
は、その1文毎に付与された番号を表している。テキス
ト部において、( )内の単語はあらかじめ抽出された
固有名詞であり、( )の前の表記は( )内の固有名
詞の属性情報を示す。locは固有地名、orgは固有
組織名、perは固有人名を表している。
で使用する抽出規則が格納されている。図3は抽出規則
格納部2の内容を説明する図である。ここで、規則部と
は、情報抽出の際に適用する抽出規則を表したものであ
り、1つまたは複数の規則を格納している。規則番号と
は、その規則毎に付与された番号を表している。
している。属性を有する2つの固有名詞が隣接、または
文字を挟んで連接しており、最後の固有名詞の後に伴っ
て表れる文字を( )内に示している。( )内の文字
は文章中係り受けの流れが切れるような文字であり、い
ずれかが伴えばよい。また、( )内の文字は助詞であ
る必要はない。例えば、規則として(で)が登録されて
いる場合、固有名詞の後が「で」「であれば」「でさえ
も」「では」等の文字であれば抽出規則に適合する。
表している。
( )内の左側に上位概念の固有名詞、右側に下位概念
の固有名詞を示す。location_atは地理関係
を表し、( )内の左側に所在地の固有名詞を、右側に
組織名の固有名詞を示す。
し、( )内の左側に組織名の固有名詞を、右側に氏名
の固有名詞を示す。
物が「の」を挟んで連結しており、かつ、最後に「が」
「お」「は」「に」「で」のいずれかが伴っている部分
があれば、最初の固有地名loc1と最後の固有地名l
oc2は上位・下位関係(part_of)にあると認
識することを示している。同様に、規則2は、規則1と
同様の関係にある固有組織名org1の所在地が固有地
名loc1である(地理関係(location_a
t))と認識することを示している。規則3は、規則1
と同様の関係にある固有人名per1が固有組織名or
g1に所属している(所属関係(employee_o
f))と認識することを示している。規則4は、固有地
名と認識された2つの事物が隣接しており、かつ、最後
の「の」「を」「は」「に」のいずれかが伴っている部
分があれば、最初の固有地名loc1と最後の固有地名
loc2は上位・下位関係(part_of)にあると
認識することを示している。
抽出規則格納部2に格納されている規則を照合して一致
する規則があった場合に、その規則に基づき、近接した
2つの固有名詞の関係を語関係情報として抽出する。入
力テキストと抽出規則の適合判定は、既存のパターンマ
ッチング処理ツール(例えば、grepやperlの正規表現
等)でよい。
3により抽出された語関係情報を格納する。抽出された
2つの固有名詞とその関係が既に登録されている情報と
重複する場合は、無視をしてもよいし、抽出された頻度
をカウントするようにしてもよい。図4に語関係情報の
出力結果を示す。図4において、規則部は語関係情報を
示し、抽出規則格納部2の抽出規則に適合した規則に入
力テキスト1の固有名詞を当てはめている。規則番号は
適合した規則の番号であり、文番号は入力テキスト1に
付与されている文番号と同一である。
納部4に格納されている語関係情報を加工し、出力情報
を作成する。出力情報は、語関係情報格納部4の格納内
容をそのまま出力してもよい。また、頻度の高い関係だ
けを出力したり、認識された関係をタグの形式などで入
力テキスト1に埋め込んで出力してもよい。
成部5から出力された情報を出力する表示部である。
ローチャートである。
る。例えば、図2に示す入力テキストを入力する。
力テキストのテキスト部に対し、抽出規則格納部2に格
納されている規則に適合する箇所がないかをチェックす
る。抽出は、テキストに付与されている固有名詞の属性
とその関係に基づいて行う。適合する規則がある場合
は、S3へ処理を進める。適合する規則が無い場合は、
S5へ処理を進める。
と、適合した規則に入力テキスト中の固有名詞を当ては
めた固有名詞とその関係を抽出する。図4に、図1の入
力テキストに図3の抽出規則を用いて抽出した語関係情
報を示す。図1の文番号1は図3の抽出規則の規則1
に、文番号2は規則3に、文番号3は規則2に、文番号
4は規則4にそれぞれ適合する。
情報格納部4に格納し、S2に戻る。テキストに対し適
合する規則がなくなるまでS2からS4の処理を繰り返
す。
語関係情報格納部4に格納された語関係情報を生成す
る。図6に、図4に格納されている語関係情報に基づき
入力テキストに認識された関係を埋め込んだ場合の生成
結果を示す。
係情報表示部に出力する。
施形態により、固有名詞の意味素性が付与されたテキス
トから固有名詞間で成り立つ関係を抽出することができ
る。通常「AのB」という表現では、AとBの関係は多
くの種類があるが、このようにAとBの属性をあらかじ
め付与し、AとBの属性と関係の基づき規則を適用する
ことで、固有名詞間の関係を抽出することができる。ま
た、最後の固有名詞の直後に表れる文字が「に」「を」
「が」などの係り受けの流れが切れる文字かどうかを判
断することで、より精度よく関係を抽出することができ
る。
る助詞から情報を抽出するため、一文から複数の情報を
抽出することもできる。
む文を対象とするテンプレートを用いる情報抽出と比較
すると、用言を条件をしないため適用範囲が広く、記事
見出しなどの用言が無い体言止めの名詞句から情報を抽
出することもできる。
から自動的に関連語情報を作成するとともに、語の間の
関係も合わせて抽出し、関連語の拡張に用いるものであ
る。
置の構成を示す。第2の実施形態において第1の実施形
態と同様の機能を備えるブロックには同一符号を付与
し、第2の実施形態において第1の実施形態と異なるブ
ロックについてのみ詳細に説明する。
る。第2実施形態中では検索語は一つとして説明する
が、複数の検索語を入力しても同様に処理が行える。
ベースである。図8に検索データの例を示す。第1の実
施形態の入力テキスト1と同様に、テキスト部と文番号
からなり、テキスト部の( )内に、あらかじめ抽出し
た固有名詞とその属性を示す情報が格納されている。
同様の処理を行うが、処理対象となるデータは、検索デ
ータ8に格納されているデータベースとなる。図9に図
8に示す検索データ8と図3に示す抽出規則格納部2の
照合により抽出され語関係情報格納部4に格納された語
関係情報を示す。
納部4に格納されているテキスト部を照合して適合する
データを収集するものである。指定した複数の検索語の
すべて、または、いずれかを有するデータを語関係情報
から収集し、関連語情報として出力する。さらに、関連
語情報が得られた場合は、関連語を利用して関連語情報
収集を実行する。関連語利用方法を以下に示す。
新たな検索語とする。 2.頻度や関係を基にした重要度で選択した関連語のみ
を元の検索語に追加して新たな検索語とする。 3.出力された関連語を使用者に提示し、利用する関連
語を選択させる。
場合に効果の高い関連語のみを、その後の検索語として
用いることができる。上記3の方法では、使用者により
妥当性の判断が行えるため適合性の高い検索が可能とな
る。
してもよいし、ORで追加してもよい。関連語の利用方
法はあらかじめ1つの方法が登録されていてもよいし、
複数の利用方法を登録し、使用者が適宜利用方法を選択
するような構成でもよい。
術は、既存の検索技術を用いることが出きる。図10に
収集した関連語情報の例を示す。関連語情報は、検索語
との関係と関連語から構成される。また、図示していな
いが、検索語を格納してもよい。収集された関連語と検
索語の関係が既に登録されている情報と重複する場合は
無視してもよい。
出力された情報を出力する表示部である。
の動作を示すフローチャートである。
を実行し、検索データ8のテキスト部と抽出規則格納部
2に基づき語関係情報を作成する。この処理は一度実行
すればデータベースの変更がされない限り再度行う必要
はない。
タのテキスト部を指定する。テキスト部を指定せずに、
検索データ8に格納されているデータすべてを処理の対
象にしてもよい。ここでは、図8に示す文番号1〜6を
指定するものとする。
検索データ8のテキスト部に対し、抽出規則格納部2に
格納されている規則に適合する箇所がないかをチェック
する。抽出は、テキストに付与されている固有名詞の属
性とその関係に基づいて行う。適合する規則がある場合
は、S23へ処理を進める。適合する規則が無い場合
は、処理を終了する。
号と、適合した規則に入力テキスト中の固有名詞を当て
はめた固有名詞とその関係を抽出する。図9に、図8の
検索データ8に図3の抽出規則を用いて抽出した語関係
情報を示す。図8の文番号1、2、3は図3の抽出規則
の規則1に、文番号4は規則3に、文番号5と6は規則
2にそれぞれ適合する。
関係情報格納部4に格納し、S22に戻る。テキスト部
に対し適合する規則が無くなるまでS22からS24の
処理を繰り返す。
索処理を行う。
こでは、「大阪市」という検索語を入力する。
部4を参照し、使用者が入力した検索語が含まれている
語関係を検索する。検索語を含む語関係が存在する場合
は、S27に処理を進める。存在しない場合は、処理を
終了する。ここで、検索語「大阪市」に適合する語関係
は、図9の語関係情報の文番号1と2である。
固有名詞を関連語とし、関連語と、その関連語と検索語
の関係を抽出する。図10に、検索語「大阪市」に適合
する関連語を示す。図9の語関係情報の文番号1の上位
・下位概念(part_of)において、検索語「大阪
市」は下位概念に該当する。したがって、関連語として
上位概念である「大阪府」を抽出し、検索語との関係を
「上位概念」とする。文番号2の上位・下位概念(pa
rt_of)において、検索語「大阪市」は上位概念に
該当する。したがって、関連語として下位概念である
「中央区」を抽出し、検索語との関係を「下位概念」と
する。
索結果として表示する。ここでは、図10の関連語情報
を表示する。
づき、さらに関連語の収集を実行しするか否かを判断す
る。さらに関連語の収集を行う場合は、S30へ処理を
進める。関連語の収集を行わない場合は、処理を終了す
る。
合は、あらかじめ設定した関連語利用方法に基づき検索
語を設定し、S26〜S29の処理を繰り返す。
関連語の収集を行う場合について説明する。
利用方法1かつ、元の検索語にORで追加するものとす
る。したがって、検索語は、「大阪市」OR「大阪府」
OR「中央区」となる。この検索語に基づき、S26を
実行する。
索語「大阪市」OR「大阪府」OR「中央区」が含まれ
る語関係が存在するか検索する。ここで、検索語に適合
する語関係は、図9の語関係情報の文番号1と2と6で
ある。
報のうち文番号の1と2は最初の処理で検索した情報と
同一であるため、ここでは無視をする。したがって、文
番号6に対する関連語と、検索語と関連語との関係を収
集する。図9の語関係情報の文番号6の地理関係(lo
cation_at)において、検索語「大阪府」が所
在地に該当する。したがって、関連語として組織名であ
る「大阪銀行」を抽出し、検索語との関係を「組織名」
とする。
索結果として表示する。ここでは、図13の関連語情報
を表示する。関連語を検索語に追加したことにより、最
初の検索では得られなかった、関連語「大阪銀行」を収
集している。
処理を組み合わせることで、検索データ内の固有名詞に
関する関連語情報を自動的に収集することができる。収
集した関連語を元の検索語に追加するなど、検索語の拡
大に用いることで、検索範囲を拡張あるいは限定するこ
とができる。
ーラーに第1の実施形態の情報抽出装置を組込むこと
で、メールの本文から自動的に住所録を作成するもので
ある。
装置の構成を示す。第3の実施形態において第1の実施
形態と同様の機能を備えるブロックには同一符号を付与
し、第3の実施形態において第1の実施形態と異なるブ
ロックについてのみ詳細に説明する。
である。メール12は送信者が受信者に対して内容を記
述するテキスト部と送信者のアドレスや受信者のアドレ
ス等の情報を記述したヘッダの情報部から構成される。
図15にメール12の例を示す。図15において、番号
は各メールに付与された番号を示し、送信者はメール1
2を送信者のメールアドレスを示し、テキスト部はメー
ル12の内容を示している。
の送受信に用いられるツールであり、指定されたメール
サーバ(図示しない)からメール12を受信する。ま
た、使用者が作成した電子メールをメールサーバに送信
する。
するものであり、メーラー13から送られてきたメール
のテキスト部から固有名詞を抽出しその属性を付与す
る。固有名詞の抽出およびその属性付与は既存の固有名
詞抽出技術で実現できる。例えば、固有名詞辞書を保持
し、メールのテキスト部に記載されている固有名詞と同
じ表記の文字部分を固有名詞と認識する方法である。こ
こでは、固有名辞書に人名として「山田」と「田中」
が、組織名として「A電気」と「企画部」が登録されて
いるものとする。図16に、図15のメールから固有名
詞が抽出され、その属性が付与されたメールのテキスト
部を示す。
rgが、固有名詞「山田」に属性perが付与されてい
る。同様に、番号2では、固有名詞「企画部」に属性o
rgが、固有名詞「田中」に属性perが付与されてい
る。
の語関係情報抽出部3と同様の処理を行うが、メール1
2のテキスト部の固有名詞と抽出規則格納部2の抽出規
則を照合して一致する規則があった場合に、その規則に
基づき、固有名詞間の関係情報とメール送信者のアドレ
ス情報を抽出する。メールの送信者の情報はメールのテ
キスト部の最初の部分に表れることが多いため、抽出規
則を適合する範囲をメールのテキスト部の上から数段と
あらかじめ決めてもよい。
り抽出されたアドレス情報を格納する。また、メーラー
13の使用者がメールを作成するときの住所録として利
用することもできる。抽出されたアドレス情報が既に登
録されている情報の場合は無視をする。
フローチャートである。
なるメール12を受信する。例えば、図15に示すメー
ル12を受信する。 S42:メーラー13は受信したメール12を固有名詞
認識処理部14に送り、メールのテキスト部の固有名詞
を認識してその属性を付与する。図16に固有名詞に属
性が付与されたメールのテキスト部を示す。
たメール12のテキスト部に対し、抽出規則格納部2に
格納されている規則に適合する箇所がないかをチェック
する。抽出は、テキストに付与されている固有名詞の属
性とその関係に基づいて行う。適合する規則がある場合
は、S44へ処理を進める。適合する規則が無い場合
は、処理を終了する。図18の抽出規則に基づきメール
から抽出すると、org(A電気)のper(山田)で
す→employee(A電気、山田)と、org(企
画部)のper(田中)です→employee(企画
部、田中)が抽出される。
メールの送信者アドレスと固有名詞を抽出し住所録に格
納し、S43に戻る。テキストに対し適合する規則が無
くなるまでS43と44を繰り返す。図19に抽出した
メールアドレスと固有名詞を格納した住所録の内容を示
す。
規則を登録することで、送信されてくるメールから自動
的に住所録に必要な情報を抽出することができ、送信者
のアドレス、氏名、所属先等の情報を獲得することがで
きる。
した処理を行っているが、固有名詞との参照関係が判明
してる代名詞を利用して情報を抽出してもよい。例え
ば、refが代名詞を表す場合に、「org1(B通
信)では、...。ref1(同社)のper(山田)
氏が...」という文では、代名詞ref1がorg1
を参照していると判明していると、ref1(同社)=
org1(B通信)という関係が成り立つ。したがっ
て、このref1=org1の情報を利用して、例え
ば、図3の抽出規則との適合処理を実行すると規則3と
適合し、org1のper1(が)からemploye
e_of(B通信、山田)という関係を抽出することが
できる。
タが含まれていれば適用することができる。具体的に
は、テキストデータが収録されたCD−ROMやネット
ニュース、ウェブなどにも適用することができる。
の属性として、人名、地名、組織名等を利用している
が、これらにかかわらず、コンピュータや自動車といっ
た固有名詞を対象としてもよい。また、組織名はより細
分化して銀行、証券、政府機関などの細かいレベルの属
性を対象としてもよい。
名詞の抽出および属性付与は既存の方法を用いてもよい
が、特願平10−73684「情報抽出装置」に記載さ
れている固有名詞を表層的特徴を基に認識する方法を用
いることができる。特願平10−73684に記載され
ている固有名詞の抽出方法と本発明を組み合わせること
で、事前に情報が付与されていないテキストデータから
固有名詞とその関係を抽出することができる。
の固有名詞の間と直後にある文字を用いて情報を抽出す
るが、テキストデータに対して形態素解析の情報があれ
ば、2つの固有名詞の間と直後にある文字を助詞として
もよい。
ば、テキストデータから情報を抽出する場合に、2つの
固有名詞の間に存在する文字と最後の固有名詞の直後に
存在する文字を利用することで、2つの固有名詞の関係
を認識することができる。
を次の検索に利用することで、検索範囲の拡張や限定を
行うことができる。また、関連語の利用方法を使用者の
判断により変更することが可能であるため、処理対象の
テキストにあった方法で情報を抽出することができる。
メーラーを組み合わせることで、受信したメールから自
動的に住所録を作成することができる。
図である。
ローチャートである。
果例である。
図である。
説明図である。
フローチャート(1)である。
フローチャート(2)である。
する関連語情報の内容説明図である。
ク図である。
ルを示す図である。
フローチャートである。
報抽出部、4:語関係情報格納部、5:語関係情報出力
生成部、6:語関係情報出力部、7:検索語、8: 検
索データ、9:検索処理部、10:検索結果、12:メ
ール、13:メーラー、14:固有名詞認識処理部、1
5:語関係情報抽出部、16:住所録。
Claims (4)
- 【請求項1】 自然言語で記述され、固有名詞と該固有
名詞の属性情報が付与された文書から、必要な情報を抽
出する情報抽出装置において、 複数の固有名詞の間に存在する文字と、該複数の固有名
詞のうち最後の固有名詞の直後に存在する文字を条件と
し、該条件に適合する該固有名詞間の関係を記述した抽
出規則を格納する抽出規則部と、 前記抽出規則部の抽出規則と前記文書を照合して抽出規
則に適合する前記文書中の複数の固有名詞と該固有名詞
間の関係を語関係情報として抽出する語関係情報抽出部
を備えることを特徴とする情報抽出装置。 - 【請求項2】 請求項1に記載の情報抽出装置におい
て、 前記語関係情報抽出部で抽出した語関係情報と入力され
た検索語を照合して該検索語と関連する固有名詞を関連
語とし、該検索語と該関連語の関係を関連語情報として
抽出する検索処理部を備えることを特徴とする情報抽出
装置。 - 【請求項3】 請求項2に記載の情報抽出装置におい
て、 前記検索処理部は、前記関連語を前記検索語に追加して
新たな検索語とし、前記語関係情報抽出部で抽出した語
関係情報と該新たな検索語を照合して該新たな検索語と
関連する固有名詞を新たな関連語とし、該新たな検索語
と該新たな関連語の関係を関連語情報として抽出するこ
とを特徴とする情報抽出装置。 - 【請求項4】 電子メールの送受信を行うメーラー部
と、 前記電子メール中の固有名詞と該固有名詞の属性情報を
付与する固有名詞認識処理部と、 複数の固有名詞の間に存在する文字と、該複数の固有名
詞のうち、最後の固有名詞の直後に存在する文字を条件
とし、該条件に適合する該固有名詞間の関係を記述した
抽出規則を格納する抽出規則部と、 前記抽出規則部の抽出規則と前記電子メールを照合して
抽出規則に適合する前記電子メール中の複数の固有名詞
と該固有名詞間の関係とメールアドレスを抽出し住所録
を作成する語関係情報抽出部を備えることを特徴とする
情報抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28121798A JP3616507B2 (ja) | 1998-10-02 | 1998-10-02 | 情報抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28121798A JP3616507B2 (ja) | 1998-10-02 | 1998-10-02 | 情報抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000112969A true JP2000112969A (ja) | 2000-04-21 |
JP3616507B2 JP3616507B2 (ja) | 2005-02-02 |
Family
ID=17636006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28121798A Expired - Fee Related JP3616507B2 (ja) | 1998-10-02 | 1998-10-02 | 情報抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3616507B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006099754A (ja) * | 2004-09-01 | 2006-04-13 | National Institute Of Advanced Industrial & Technology | キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置 |
JP2007133688A (ja) * | 2005-11-10 | 2007-05-31 | Nec Corp | 文書検索装置、文書検索プログラムおよび文書検索方法 |
JP2008225566A (ja) * | 2007-03-08 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 関係情報抽出装置及びその方法 |
JP2019095848A (ja) * | 2017-11-17 | 2019-06-20 | 富士ゼロックス株式会社 | 文書処理装置およびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6394365A (ja) * | 1986-10-08 | 1988-04-25 | Nippon Telegr & Teleph Corp <Ntt> | 日本文文書誤り検定装置 |
JPH0721197A (ja) * | 1993-06-15 | 1995-01-24 | Nippon Telegr & Teleph Corp <Ntt> | キーワード付与装置 |
JPH0785041A (ja) * | 1993-09-16 | 1995-03-31 | Fujitsu Ltd | 関係概念抽出装置 |
-
1998
- 1998-10-02 JP JP28121798A patent/JP3616507B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6394365A (ja) * | 1986-10-08 | 1988-04-25 | Nippon Telegr & Teleph Corp <Ntt> | 日本文文書誤り検定装置 |
JPH0721197A (ja) * | 1993-06-15 | 1995-01-24 | Nippon Telegr & Teleph Corp <Ntt> | キーワード付与装置 |
JPH0785041A (ja) * | 1993-09-16 | 1995-03-31 | Fujitsu Ltd | 関係概念抽出装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006099754A (ja) * | 2004-09-01 | 2006-04-13 | National Institute Of Advanced Industrial & Technology | キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置 |
JP4613346B2 (ja) * | 2004-09-01 | 2011-01-19 | 独立行政法人産業技術総合研究所 | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 |
JP2007133688A (ja) * | 2005-11-10 | 2007-05-31 | Nec Corp | 文書検索装置、文書検索プログラムおよび文書検索方法 |
JP2008225566A (ja) * | 2007-03-08 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 関係情報抽出装置及びその方法 |
JP4646328B2 (ja) * | 2007-03-08 | 2011-03-09 | 日本電信電話株式会社 | 関係情報抽出装置及びその方法 |
JP2019095848A (ja) * | 2017-11-17 | 2019-06-20 | 富士ゼロックス株式会社 | 文書処理装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3616507B2 (ja) | 2005-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2397985C (en) | Apparatus and method for context-based highlighting of an electronic document | |
US5634084A (en) | Abbreviation and acronym/initialism expansion procedures for a text to speech reader | |
US6618715B1 (en) | Categorization based text processing | |
Adams et al. | Topic detection and extraction in chat | |
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US20160357718A1 (en) | Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines | |
CN106156365A (zh) | 一种知识图谱的生成方法及装置 | |
US20030130835A1 (en) | Named entity (NE) interface for multiple client application programs | |
US20090276411A1 (en) | Issue trend analysis system | |
US8296319B2 (en) | Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded | |
US7269789B2 (en) | Document information processing apparatus | |
JP2021022211A (ja) | 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体 | |
Al-Kabi et al. | Statistical classifier of the holy Quran verses (Fatiha and Yaseen chapters) | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
JP3616507B2 (ja) | 情報抽出装置 | |
KR100479205B1 (ko) | 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 | |
EP3916576A1 (en) | Global address parser | |
JP4326713B2 (ja) | ニュース話題解析装置 | |
Charoenpornsawat et al. | Feature-based proper name identification in Thai | |
JPH11272701A (ja) | 情報抽出装置 | |
Xiao et al. | A global rule induction approach to information extraction | |
Khalil et al. | Challenges in information retrieval from unstructured arabic data | |
CN110008307B (zh) | 一种基于规则和统计学习的变形实体识别方法和装置 | |
Xu et al. | A machine learning approach to recognizing acronyms and their expansion | |
Alruily et al. | Arabic language in the context of information extraction task |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040720 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041012 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041105 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091112 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091112 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101112 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101112 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111112 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111112 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121112 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121112 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131112 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |