JPH11272701A - 情報抽出装置 - Google Patents

情報抽出装置

Info

Publication number
JPH11272701A
JPH11272701A JP10073684A JP7368498A JPH11272701A JP H11272701 A JPH11272701 A JP H11272701A JP 10073684 A JP10073684 A JP 10073684A JP 7368498 A JP7368498 A JP 7368498A JP H11272701 A JPH11272701 A JP H11272701A
Authority
JP
Japan
Prior art keywords
character string
attribute
abbreviation
character
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10073684A
Other languages
English (en)
Inventor
Mitsuo Shimohata
光夫 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10073684A priority Critical patent/JPH11272701A/ja
Publication of JPH11272701A publication Critical patent/JPH11272701A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 処理対象とする文書の全体を形態素解析する
ため、多くの計算量を要する。 【解決手段】 自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、形態素解析前
に、文書中に現れる各文字を、文頭から順番に、特定の
文字種のまとまりとその他の文字種のまとまりとに分割
し、1又は複数の文字からなる2種類の部分文字列に分
割する領域分割処理部を備えるようにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語で記述さ
れたテキストデータから所望の情報(例えば、人名、地
名等)を抽出するのに使用する情報抽出装置に関するも
のである。
【0002】
【従来の技術】情報検索や要約の分野では、自然言語で
記述されたテキストデータから重要な語(いわゆるキー
ワード)を、機械的に抽出する技術が重要である。この
ため、かかる分野では、従来から様々な手法が研究され
ており、その研究成果も公表されている。例えば、特開
平9−44522号公報がある。この文献は、検索用の
キーワードを抽出するのを目的とするものであり、処理
対象とする文書の全体を形態素解析することを前提とし
ている。
【0003】
【発明が解決しようとする課題】ところが、この文献に
記載された技術の場合には、処理対象とする文書の全体
を形態素解析するため、多くの計算量を要するという課
題に加え、単語辞書に記載されていない語(未知語)が
文書中に含まれている場合に、解析結果が誤る可能性が
高いという課題がある。
【0004】本発明は、以上の課題を考慮してなされた
もので、従来に比して計算量が少なくて済み、しかも、
高い精度で解析結果が得られる情報抽出装置を提案しよ
うとするものである。
【0005】
【課題を解決するための手段】(A)かかる課題を解決
するため、第1の発明においては、自然言語で記述され
た文書より、必要な情報を抽出する情報抽出装置におい
て、以下の手段を備えるようにする。
【0006】すなわち、形態素解析前に、文書中に現れ
る各文字を、文頭から順番に、特定の文字種のまとまり
とその他の文字種のまとまりとに分割し、1又は複数の
文字からなる2種類の部分文字列に分割する領域分割処
理部を備えるようにする。
【0007】このように、第1の発明においては、分割
により得られた部分文字列を対象として形態素解析を行
うため、文書全体を形態素解析する場合に比して、必要
とされる計算量を格段に低減できる。
【0008】(B)また、第2の発明においては、自然
言語で記述された文書より、必要な情報を抽出する情報
抽出装置において、以下の手段を備えるようにする。
【0009】すなわち、形態素解析前に、処理対象とす
る文書中から特定の文字種列と接辞とからなる文字列を
検出し、検出された文字列のうち特定の文字種列の部分
を、当該文字種列と共に現れた接辞により確定される属
性の語として、単語辞書に予め登録する新出語獲得処理
部を備えるようにする。
【0010】このように、第2の発明においては、形態
素解析の対象となる文書中に未知語が含まれる場合に
も、これを形態素解析に先立ち特定して単語辞書に登録
できるため、その後に実行される形態素解析の精度の向
上を図ることができる。
【0011】(C)さらに、第3の発明においては、自
然言語で記述された文書より、必要な情報を抽出する情
報抽出装置において、以下の手段を備えるようにする。
【0012】すなわち、形態素解析結果に、属性未定の
文字列が出現する場合、当該文字列を略称に有する固有
名詞が単語辞書に含まれているか否か検索し、当該文字
列を略称とする固有名詞が検出された場合、検出された
固有名詞に付されている属性を、当該文字列の属性とし
て付与する略称マッチング処理部を備えるようにする。
【0013】このように、第3の発明においては、単語
辞書に該当する語が存在しなくても、その文字列が、単
語辞書に登録されている固有名詞の略称に該当する場合
には、その抽出を可能とできるため、形態素解析精度の
一層の向上を図ることができる。
【0014】(D)さらに、第4の発明においては、自
然言語で記述された文書より、必要な情報を抽出する情
報抽出装置において、以下の手段を備えるようにする。
【0015】すなわち、形態素解析の結果に属性未定の
文字列が出現する場合、当該文字列を正式名称に有する
略称が単語辞書に含まれているか否か検索し、当該文字
列を正式名称とする略称が検出された場合、検出された
略称に付されている属性を、当該文字列の属性として付
与する正式名称マッチング処理部を備えるようにする。
【0016】このように、第4の発明においては、単語
辞書に該当する語が存在しなくても、その文字列が、単
語辞書に登録されている略称の正式名称に該当する場合
には、その抽出が可能とできるため、形態素解析精度の
一層の向上を図ることができる。
【0017】(E)さらに、第5の発明においては、自
然言語で記述された文書より、必要な情報を抽出する情
報抽出装置において、以下の手段を備えるようにする。
【0018】すなわち、形態素解析結果に属性未定の文
字列が出現する場合、当該文字列中に、単語辞書に含ま
れる正式名称に所定の略称生成規則を適用して略称を生
成することにより生成される略称と一致する文字列が存
在するか否かを判断し、一致する文字列が存在していた
とき、当該略称の生成に供した正式名称に付されている
属性を当該文字列の属性として付与する合成略称検出処
理部を備えるようにする。
【0019】このように、第5の発明においては、単語
辞書に該当する語が存在しなくても、その文字列が、単
語辞書に登録されている固有名詞の略称に該当する場合
には、その抽出を可能とできるため、形態素解析精度の
一層の向上を図ることができる。また、この際、所定の
略称生成規則に基づいて生成した略称との一致の有無を
検出するため、略称でない語が誤って略称と判断される
可能性を低減でき、その精度を一層向上できる。
【0020】
【発明の実施の形態】(A)第1の実施形態 (A−1)第1の実施形態の構成 (a)全体構成 以下、本発明に係る情報抽出装置を、自然言語処理装置
に適用する場合の第1の実施形態を、図面を用いて詳述
する。
【0021】なお、この第1の実施形態に係る自然言語
処理装置は、実際上、入出力装置、通信装置、外部記憶
装置等を適宜組み合わせたワークステーションやパソコ
ン等の情報処理装置で実現されるものであるが、その機
能構成をブロック図で表すと、図1に示すようになる。
【0022】図1に示すように、この自然言語処理装置
は、領域分割処理部1、基本語分解処理部2、属性付与
処理部3の3つの処理モジュールと、ひらがな固有語辞
書4、基本語辞書5、属性付与規則格納部6の3つの記
憶領域とからなる。
【0023】(b)各部の構成 続いて、本実施形態に係る自然言語処理装置の各部の構
成を、以下順番に説明する。
【0024】(b1)領域分割処理部1 領域分割処理部1は、テキストデータに現れる各文字
を、文頭から順番に、特定の文字種のまとまりとその他
の文字種のまとまりとに分割し、1又は複数の文字から
なる2種類の部分文字列に分割する手段である。
【0025】この実施形態の場合、領域分割処理部1
は、日本語で記述されたテキストデータを処理対象とす
る。日本語の文は、ひらがな、カタカナ、漢字、数字等
の文字で表されるが、ここでは、「ひらがな」のまとま
りである部分文字列(以下「ひらがな領域」という。)
と「非ひらがな(例えば、(カタカナ、漢字、数字
等))」のまとまりである部分文字列(以下「非ひらが
な領域」という。)とに分割する処理を行う。
【0026】図2に、その処理の概略を示す。まず、領
域分割処理部1は、図3に示す区分規則に基づき、入力
文を、「ひらがな領域」と「非ひらがな領域」とに区分
し、「非ひらがな領域」にタグを付して「ひらがな領
域」と区別する(ステップ100)。ただし、領域分割
処理部1は、図4に示す特定の記号(その他の記号を除
く)や文頭、文末については、「ひらがな」として扱
い、その他の文字については「非ひらがな」として扱
う。
【0027】次に、領域分割処理部1は、「ひらがな領
域」に含まれる文字列のうち固有名詞に該当するものを
検出するため、「ひらがな領域」の文字列と、ひらがな
固有語辞書4に格納されている全ての「ひらがな混じり
語」との照合を行う。そして、領域分割処理部1は、一
致の認められた文字列のうち「非ひらがな領域」と隣接
するものについてはこれを結合し、最終的な分割結果と
する(ステップ101)。
【0028】(b2)ひらがな固有語辞書4 ひらがな固有語辞書4は、固有名詞に対応する「ひらが
な混じり語」を格納する記憶領域である。ここで、ひら
がな固有語辞書4には、「ひらがな混じり語」とその
「属性」を示す情報とが組として格納されている。図5
は、その一例である。地名の「つくば」や「ひたちな
か」等が、かかる「ひらがな混じり語」に当る。
【0029】従って、例えば、前述の領域分割処理部1
における1段目の処理結果(ステップ100)が、つく
ばのつくば[市役所]である場合、文中に現れる「つく
ば」という文字列が、ひらがな固有語辞書4に格納され
ている「ひらがな混じり語」と一致することになる。
【0030】この結果、領域分割処理部1は、一致した
文字列部分にタグを付し、[つくば]の[つくば][市
役所]を得る。なお、領域分割処理部1は、処理の
後、][という文字列が現れた場合これを削除し、「ひ
らがな語領域」と「非ひらがな領域」を接続する。従っ
て、前述の文は、[つくば]の[つくば市役所]とな
る。
【0031】(b3)基本語分解処理部2 基本語分解処理部2は、領域分割処理部1で抽出された
「非ひらがな領域」の文字列と、基本語辞書5に格納さ
れている基本語とを照合し、各「非ひらがな領域」を複
数の基本語に分解する手段である。このとき、基本語分
解処理部2は、基本語辞書5に格納されている基本語に
対し、これに固有の属性情報を付す。
【0032】なおここで、「非ひらがな領域」の語の基
本語への分割は一通りではなく、複数通りの配列が考え
られるが、複数の配列の中から最適と思われる配列を選
択する方法には、既存の自然言語処理技術の中から様々
な方法を使用することができる。
【0033】ただし、この実施形態においては、左側優
先の最長優先方法を適用するものとする。ここで、左側
優先の最長優先方法とは、長い基本語が現れる分割を優
先し、同じ長さを有する複数の基本語に分割できる場合
には、長い基本語が左側に現れるものを優先する方法で
ある。
【0034】例えば、「非ひらがな領域」の語が「新大
阪駅」であって、基本語辞書5に、「新」、「駅」、
「新大阪」、「大阪駅」が格納されている場合、基本語
分解処理部2は、「新・大阪駅」と「新大阪・駅」との
2つの候補のうち、左側に長い基本語が現れる「新大阪
・駅」を最終的な分割とする。
【0035】(b4)基本語辞書5 基本語辞書5は、基本語分解処理部2で用いられる基本
語を格納する記憶領域である。ここで、基本語辞書5に
は、基本語を構成する「単語」と、その「属性」と、
「タグ用記号」とが組として保持されている。図6は、
その一例である。なお、この基本語辞書5における「タ
グ用記号」は小文字で表されている。これは、かかる基
本語への分割が最終的に確定されるまでは、属性の内容
が覆る可能性があるからである。
【0036】(b5)属性付与処理部3 属性付与処理部3は、各「非ひらがな領域」を構成する
基本語に付された属性の組と、属性付与規則格納部6に
格納されている属性付与規則とを照合し、その属性の組
合わせから領域全体の属性をほぼ間違いなく決定できる
「非ひらがな領域」に確定属性を付する手段である。こ
こで、属性付与処理部3は、確定属性として大文字を付
する。この後、属性付与処理部3は、確定属性の付され
た「非ひらがな領域」にのみタグが埋め込まれた状態の
テキストデータを、出力情報として出力する。
【0037】(b6)属性付与規則格納部6 属性付与規則格納部6は、「非ひらがな領域」全体とし
ての属性の確定が可能な属性の組を、規則として格納す
る記憶領域である。図7は、その一例である。
【0038】例えば、1番目の規則は、文字列Xが地名
であることを示す属性lと、文字列Yが組織修飾名であ
ることを示す属性iとが連結して現れる場合、文字列X
と文字列Yとの連結文字列XYを確定組織名として良い
ことを表している。なお、この場合の確定属性は大文字
のOとなる。
【0039】同様に、2番目の規則は、文字列Xが人名
であることを示す属性pと、文字列Yが組織修飾名であ
ることを示す属性iとが連結して現れる場合、文字列X
と文字列Yとの連結文字列XYを確定組織名として良い
ことを表している。その他の規則も同様である。
【0040】(A−2)第1の実施形態の動作 続いて、以上の構成を有する自然言語処理装置による情
報の抽出動作を説明する。なお、本実施形態において
は、入力されたテキストデータから、地名、人名、組織
名等の固有名詞を抽出するものとする。また、以下の説
明では、テキストデータとして、『つくば市で鈴木電気
と埼玉ガスの技術展示会があった。』が入力されたもの
とする。
【0041】(a1)領域分割処理 入力されたテキストデータは、領域分割処理部1に入力
される。ここで、領域分割処理部1は、テキストをひら
がな領域と非ひらがな領域に分割する。その際、領域分
割処理部1は、前述したように、図4示す記号と文頭、
文末の文字はひらがなと同じ扱い、図3の分割規則に基
づいて1段目の分割処理(図2のステップ100)を行
う。
【0042】この結果、『つくば[市]で[鈴木電気]
と[埼玉ガス]の[技術展示会]があった。』が、処理
結果として得られる。
【0043】次に、領域分割処理部1は、「ひらがな領
域」の文字列と、ひらがな固有語辞書4に格納されてい
る全ての「ひらがな混じり語」とを照合し、「ひらがな
領域」に現れる固有語の抽出を行う。
【0044】そして、領域分割処理部1は、一致した文
字列部分にタグを付し[つくば][市]で[鈴木電気]
と[埼玉ガス]の[技術展示会]があった。
【0045】を得る。なお、領域分割処理部1は、処理
の後、][という文字列が現れた場合これを削除し、
「ひらがな語領域」と「非ひらがな領域」を接続するた
め、前述の文を、『[つくば市]で[鈴木電気]と[埼
玉ガス]の[技術展示会]があった。』のように変更す
る。
【0046】(a2)基本語分解処理 かかる処理が終了すると、次は、基本語分解処理部2に
よる「非ひらがな領域」の基本語への分解処理が行われ
る。
【0047】このとき、基本語分解処理部2は、基本語
辞書5を用いて所定の分解処理を実行するが、基本語辞
書5に格納されていた基本語に対しては、同時にその属
性が付される。この実施形態では、属性として付される
小文字lは地名を、pは人名を、sは地名接辞を、iは
組織修飾名(組織名の一部であり、業種を表す語)を、
tは組織接辞を、fは人名接辞を表すものとする。
【0048】また、この実施形態における基本語分解処
理部2は、左側優先の最長優先方法により分割方法を決
定する。この結果、前述の文は、『[lつくばl][s
市s]で[p鈴木p][i電気i]と[l埼玉l][i
ガスi]の[i技術i][展示会]があった。』に分解
される。
【0049】なおここで、「展示会」に属性が付与され
ていないのは、この例で用いる基本語辞書5に、当該語
が含まれていないためである。
【0050】(a3)属性確定処理 このような分割処理が行われると、次は、前段の分割処
理により得られた属性に基づいて、属性付与処理部3
が、各「非ひらがな領域」の属性の確定処理を行う。な
お、前述したように、この属性の確定処理は、属性付与
規則格納部6に格納する規則と一致する属性の組が存在
する「非ひらがな領域」についてのみ行われる。
【0051】前述の文の場合、「[lつくばl][s市
s]」の部分が図7の規則3に適合し、「[p鈴木p]
[i電気i]」の部分が図7の規則2に適合し、「[l
埼玉l][iガスi]の部分に規則1が適合する。
【0052】従って、前述の文は、『[Lつくば市L]
で[O鈴木電気O]と[O埼玉ガスO]の[i技術i]
[展示会]があった。』となる。
【0053】この結果を得ると、属性付与処理部3は、
次に、大文字の確定属性が付されているタグのみを保存
し、属性のないタグや英小文字の属性の付されているタ
グは不確定属性であるとして除去する。
【0054】この結果、属性付与処理部3からは、
『[Lつくば市L]で[O鈴木電気O]と[O埼玉ガス
O]の技術展示会があった。』のように、入力時のテキ
ストデータに対し、確定属性タグが挿入されたテキスト
データが最終的な抽出情報として出力されることにな
る。
【0055】(A−3)第1の実施形態の効果 以上のように、この第1の実施形態によれば、入力され
た日本語のテキストデータから、地名、人名、組織名と
いった情報の抽出を行うことができる。しかも、この第
1の実施形態の場合には、予め文字種(「ひらがな領
域」と「非ひらがな領域」)に応じてテキストデータを
区分けしてから基本語に分解する処理を行うため、従来
方式のように、全てのテキストデータを形態素解析する
場合に比して、その計算量を大幅に軽減することができ
る。
【0056】また、組織名などは、さらに基本的な語の
組み合せに分解することにしたので、辞書量を削減する
ことができる。例えば、銀行名を抽出する場合には、存
在する銀行の名称をすべて辞書に登録して照合する方法
では、銀行名を収集することが大きな手間となる上、辞
書も大きくなる。これに対し、この第1の実施形態で
は、これを基本語に分解し、「地名+”銀行”」となる
語は銀行名であるというように定義することで、データ
作成の手間を省き、辞書サイズの大幅な低減を実現でき
る。
【0057】(B)第2の実施形態 (B−1)第2の実施形態の構成 (a)全体構成 続いて、本発明に係る情報抽出装置を、自然言語処理装
置に適用する場合の第2の実施形態を、図面を用いて詳
述する。
【0058】図8に、第2の実施形態に係る自然言語処
理装置の構成を示す。ここで、図8には、図1と同一対
応部分に対応同一符号を付している。
【0059】図8からも分かるように、この第2の実施
形態に係る自然言語処理装置の特徴は、前述の第1の実
施形態に係る自然言語処理装置に対し、新たな処理モジ
ュール「新出語獲得処理部7」を付け加えた点と、新た
な記憶領域「新出語獲得規則格納部8及び不要語辞書
9」を付け加えた点である。
【0060】従って、ここでは、第1の実施形態と異な
る部分のみを説明し、同一部分についての説明は省略す
る。
【0061】(b)各部の構成 (b1)新出語獲得処理部7 まず、新たに付加された処理モジュール、すなわち、新
出語獲得処理部7の構成を説明する。この新出語獲得処
理部7は、情報抽出対象となるテキストデータに含まれ
る基本語辞書5に存在しない可能性のある語を、新出語
獲得規則格納部8に格納されている規則を用いて予め獲
得しておく手段である。
【0062】なお、この新出語獲得処理部7は、文字種
と接辞の組を用いて新出語を獲得すると、獲得された語
を基本語辞書5に登録するようになっている。ただし、
かかる規則で得られる語の全てが正しい情報の抽出とは
限らないので、新出語獲得処理部7は、獲得された語を
基本語辞書5に登録するのに先立ち、不要語辞書9に格
納されている語との照合を行い、不適切な語を予め除去
するようになっている。
【0063】(b2)新出語獲得規則格納部8 新出語獲得規則格納部8は、新出語獲得処理部7で使用
する規則を格納する記憶領域である。ここで、新出語獲
得規則格納部8には、獲得に用いる条件(文字種と接辞
の組)と、条件に一致する文字列のうちどの部分が新出
語として獲得すべきものか、そしてその属性は何かを表
す情報とが格納されている。図9は、その一例である。
【0064】例えば、第1の規則は、テキストデータ中
に、条件「カタカナ列+(州,市,町,村,公園)+ひ
らがな」に一致する文字列があれば、その文字列中の
「カタカナ文字列」の部分を「地名」として抽出すると
の情報が格納されている。なお、条件中にある括弧内の
コロンは、条件の論理和を意味し、括弧内にあるいずれ
かの語と前後の条件との組を満たせば良いことを表して
いる。
【0065】同様に、第2の規則は、テキストデータ中
から、人名を獲得するための条件とその取り扱い情報と
を格納し、第3の規則は、テキストデータ中から、組織
名を獲得するための条件とその取り扱い情報とを格納し
ている。
【0066】(b3)不要語辞書9 不要語辞書9は、新出語獲得処理部7により誤った語が
基本語辞書5に格納されないようにするため、新出語と
して誤って獲得される可能性のある不要語の一覧を保持
している記憶領域である。
【0067】例えば、「スポーツ公園は」という文字列
が文中に含まれる場合、前述の新出語獲得処理部7は、
図9の第1の規則を適合し、「スポーツ」という文字列
を「地名」として抽出してしまう。しかし、これは明ら
かに誤りである。そこで、図10に示すように、不要語
辞書9に、「スポーツ」という語と、「地名」という属
性の組を格納しておけば、事前に誤った語の獲得を除外
することができる。
【0068】(B−2)第2の実施形態の動作 続いて、以上の構成を有する自然言語処理装置による情
報の抽出動作を説明する。なお、本実施形態の場合も、
入力されたテキストデータから、地名、人名、組織名等
の固有名詞を抽出するものとする。また、以下の説明で
は、テキストデータとして、『昨日、テキサス州のダラ
ス市で、鈴木電気工業株式会社が工場操業を開始し
た。』が入力されたものとする。
【0069】(a1)新出語獲得処理 入力されたテキストデータは、新出語獲得処理部7に入
力される。ここで、新出語獲得処理部7は、新出語獲得
規則格納部8に格納されている規則を用い、規則の条件
に一致する文字列が含まれているかの照合を行う。
【0070】この入力文の場合、「テキサス州の」(す
なわち、カタカナ列+州+ひらがな)と、「ダラス市
で」(すなわち、カタカナ列+市+ひらがな」の箇所が
第1の規則に適合する。また、「鈴木電気工業株式会社
が」(すなわち、漢字文字列+株式会社+ひらがな」の
箇所が第3の規則に適合する。
【0071】従って、新出語獲得処理部7は、「テキサ
ス」と「ダラス」を地名として、「鈴木電気工業」を組
織名として獲得する。これを表しているのが、図11で
ある。なお、この例の場合、獲得された3つの語は、不
要語辞書9に格納されている語のいずれとも一致しない
ため、そのまま基本語辞書5に追加登録される。
【0072】また、この段階での処理は、新出語の獲得
が目的であるので、入力文に対しては何らのタグその他
の記号の挿入は行われない。
【0073】(a2)その後の処理 その後の処理は、ほぼ第1の実施形態で説明したのと同
様に実行される。すなわち、領域分割処理部1における
処理により、入力文は、『[昨日]、[テキサス州]の
[ダラス市]で、[鈴木電気工業株式会社]が[工場操
業]を[開始]した。』に変換される。
【0074】次に、この文は、基本語分解処理部2に入
力され、基本語に分解される。ただし、この動作は、第
2の実施形態に固有の動作となる。すなわち、前述の第
1の実施形態では、「テキサス」、「ダラス」、「鈴木
電気工業」なる語が基本語辞書に当初から登録されてい
なければ、それらの語の属性を特定できない。
【0075】しかし、この第2の実施形態の場合には、
新出語獲得処理部7によりこれら語が既に獲得され登録
されているので、属性の特定が可能となり、入力文は、
『[昨日]、[lテキサスl][s州s]の[lダラス
l][s市s]で、[m鈴木電気工業m][t株式会社
t]が[工場操業]を[開始]した。』のようになる。
なおここでは、組織名の属性をmで表している。
【0076】この後、この文は、属性付与処理部3に入
力され、前述した図7の規則に基づいて、以下のよう
に、その属性が確定される。その結果、前述の入力文
は、『昨日、[Lテキサス州L]の[Lダラス市L]
で、[O鈴木電気工業株式会社O]が工場操業を開始し
た。』となり、地名と組織名の部分に確定属性タグが挿
入された状態の抽出情報が得られる。
【0077】(B−3)第2の実施形態の効果 以上のように、この第2の実施形態によれば、処理対象
となるテキストデータ中に、基本語辞書5に格納されて
いないような新出語が含まれる場合にも、これを事前に
獲得して、適切な属性の付与が可能となることにより、
これら新出語を含めた適切な情報抽出を可能とできる。
【0078】(C)第3の実施形態 (C−1)第3の実施形態の構成 (a)全体構成 続いて、本発明に係る情報抽出装置を、自然言語処理装
置に適用する場合の第2の実施形態を、図面を用いて詳
述する。
【0079】図12に、第3の実施形態に係る自然言語
処理装置の構成を示す。ここで、図12には、図1と同
一対応部分に対応同一符号を付している。
【0080】図12からも分かるように、この第3の実
施形態に係る自然言語処理装置の特徴は、前述の第1の
実施形態に係る自然言語処理装置に対し、新たな処理モ
ジュール「略称マッチング処理部10」を付け加えた点
である。
【0081】従って、ここでは、第1の実施形態と異な
る部分のみを説明し、同一部分についての説明は省略す
る。ただし、第1の実施形態では、属性付与処理部3か
ら抽出情報が出力される時点で、属性の確定できなかっ
た部分(以下「不確定属性領域」という。)からタグを
除去していたが、この第2の実施形態では、この部分の
タグもそのまま除去されずに出力されるものとする。
【0082】(b)各部の構成 (b1)略称マッチング処理部10 略称マッチング処理部10は、属性付与処理部3で抽出
され、属性が決定された語を利用して、属性が不明であ
る「非ひらがな領域」から略称を推定し、属性を付与す
る手段である。このような処理を行うのは、日本語その
他の自然言語の場合、固有名詞である正式名称の略称が
頻繁に用いられるためである。例えば、日本銀行に対す
る日銀、自由民主党に対する自民党等である。
【0083】しかし、かかる略称は、固有名詞以上に多
く存在するのに加え、使用する個人によっても、また、
文献によっても使用される略称の内容が異なることも多
い。従って、考え得る全ての略称を辞書に登録してお
き、これとの照合により属性を特定するといった処理を
行うことは事実上困難である。
【0084】その一方、多くの略称は、正式名称に使わ
れている文字列の順番を保ったまま、これを構成する各
文字の幾つかを選択的に組み合わせて構成されているこ
とが多い。そこで、この略称マッチング処理部10で
は、かかる規則を利用し、既に抽出した正式名称を用い
ることにより、略称の抽出を行う。
【0085】すなわち、略称マッチング処理部10は、
まず、不確定属性領域の語を構成する文字の先頭文字
と、属性の確定した正式名称を構成する各文字とをその
先頭から順に照合し、一致が確認されれば、次に、不確
定文字側の次の文字と正式名称側のそれ以降に現れる文
字とを照合し、照合する正式名称側の文字がなくなるま
でに不確定文字の全てが一致するか否かで略語か否かの
判定を行う。
【0086】図13に、略称の抽出に用いる処理手順の
概要を示す。なお、P(m)は、正式名称である文字列
の先頭からm文字目の文字を表し、P(n)は、不確定
文字列の先頭からn文字目の文字を表すものとする。ま
た、正式名称の文字数をMとし、不確定文字の文字数を
Nとする。
【0087】まず、略称マッチング処理部10は、パラ
メータmとnを、共に1に設定する(ステップ20
0)。このことは、各文字列の先頭文字を指定したこと
を意味する。次に、略称マッチング処理部10は、パラ
メータmとnで与えられる文字数目の各文字P(m)と
P(n)とが一致するか判定する(ステップ201)。
なお、当該処理の開始直後では、先頭文字同士について
の判定となる。
【0088】ここで、一致が確認されると、略称マッチ
ング処理部10は、一致の確認された文字が不確定文字
の最終文字(N番目の文字)か否か判定し(ステップ2
02)、否定結果が得られた場合には、次の判定に移行
すべく、それぞれ一致の確認された文字に続く文字(m
+1番目の文字とn+1番目の文字)を次の比較対象文
字に更新する(ステップ203)。
【0089】一方、ステップ201における判定で不一
致が確認された場合には、略称マッチング処理部10
は、正式名称側の次の文字と比較を行うべく、パラメー
タmをm+1に変更し(ステップ204)、その後、変
更後の文字が正式名称側の最終文字(M+1番目の文
字)でないか否かを判定する(ステップ205)。この
判定では、ステップ201で比較される文字が正式名称
側の最終文字(M番目)であった場合を除き、常に否定
結果が得られる。
【0090】そして、このステップ205において肯定
結果が得られるまでに(すなわち、照合する正式名称側
の文字がなくなるまでに)、ステップ202の肯定結果
が先に得られれば、不確定文字が照合した正式名称の略
語であると判定し(ステップ206)、そうでなけれ
ば、略語でないと判定する(ステップ207)。
【0091】(C−2)第3の実施形態の動作 続いて、以上の構成を有する自然言語処理装置による情
報の抽出動作を説明する。なお、本実施形態の場合も、
入力されたテキストデータから、地名、人名、組織名等
の固有名詞を抽出するものとする。また、以下の説明で
は、テキストデータとして、『日本銀行は、日銀の援助
方針について発表した。』が入力されたものとする。
【0092】ただし、略称マッチング処理以前の処理
は、第1の実施形態の場合と同じであるので、ここで
は、属性付与処理部3による処理が終了した段階以降の
処理を説明する。なお、前述したように、属性付与処理
部3の出力には、不確定属性領域を示すタグがそのまま
保存されている。
【0093】従って、属性付与処理部3からは、『[O
日本銀行O]は、[日銀]の[援助方針]について[発
表]した。』なる文が出力されることになる。
【0094】略称マッチング処理部10は、この文を入
力すると、既に抽出された固有名詞の収集を用い、不確
定属性領域中にこれらの略称に相当する語が含まれてい
ないかの判定を行う。なお、この例の場合、「日本銀
行」が既に抽出された固有名詞に相当し、「日銀」、
「援助方針」、「発表」の3つが略語の候補となる。
【0095】まず、略称マッチング処理部10は、「日
本銀行」と「日銀」とのマッチングを、図13の処理手
順に基づいて行う。この場合には、「日銀」の1文字目
が「日本銀行」の1文字目と一致し、「日銀」の2文字
目が「日本銀行」の3文字目と一致するので、固有名詞
である「日本銀行」の全ての文字に対するマッチングが
終了する前に照合が終わり、「日銀」は「日本銀行」の
略称と推定されることになる。これにより、「日銀」に
は、正式名称「日本銀行」に付されているのと同じ属
性、すなわち組織名の属性Oが付与される。
【0096】次に、略称マッチング処理部10は、「日
本銀行」と「援助方針」とのマッチングを、図13の処
理手順に基づいて行う。この場合は、一文字も一致する
文字が存在しないので、略称マッチング処理部10は、
ステップ201−204−205−201のループを繰
り返し、パラメータmが5に更新された時点で、略称で
ないとの結論が出される。なお、「発表」についてのマ
ッチング処理も同様である。
【0097】この結果、略称マッチング処理部10から
は、最終的な出力として、『[O日本銀行O]は、[O
日銀O]の援助方針について発表した。』が出力され
る。
【0098】なお、略称マッチング処理部10は、この
後、略称と判断された語を基本語辞書5に記録する。こ
れにより、これ以降の処理において、別のテキストデー
タ中に同一の略称が出現した場合には、当該テキストデ
ータ中から正式名称を抽出できなくても、当該略称に対
して適正な属性を付与することが可能となる。
【0099】(C−3)第3の実施形態の効果 以上のように、この第3の実施形態によれば、処理対象
となるテキストデータ中に、基本語辞書5に格納されて
いない新出語として略語が含まれる場合にも、正式名称
の抽出さえできていれば、その略称の検出を可能とし、
適切な属性を付与することができる。
【0100】また、検出できた略称を基本語辞書5に登
録するため、他のテキストデータの処理中に同一の略語
が単独で現れる場合にも、その検出と属性の付与を可能
とでき、情報抽出能力の向上を実現できる。
【0101】(D)第4の実施形態 (D−1)第4の実施形態の構成 続いて、本発明に係る情報抽出装置を、自然言語処理装
置に適用する場合の第4の実施形態を、図面を用いて詳
述する。
【0102】図14に、第4の実施形態に係る自然言語
処理装置の構成を示す。ここで、図14には、図1と同
一対応部分に対応同一符号を付している。
【0103】図14からも分かるように、この第4の実
施形態に係る自然言語処理装置の特徴は、前述の第1の
実施形態に係る自然言語処理装置に対し、新たな処理モ
ジュール「合成略称検出処理部11」を付け加えた点
と、新たな記憶領域「略称生成規則格納部12」を付け
加えた点である。
【0104】従って、ここでは、第1の実施形態と異な
る部分のみを説明し、同一部分についての説明は省略す
る。ただし、第1の実施形態では、属性付与処理部3か
ら抽出情報が出力される時点で、属性の確定できなかっ
た部分(以下「不確定属性領域」という。)からタグを
除去していたが、この第4の実施形態では、この部分の
タグもそのまま除去されずに出力されるものとする。ま
た、属性の確定した部分についても、これを構成する基
本語とその属性の情報がそのまま保存されて出力される
ものとする。
【0105】(b)各部の構成 (b1)合成略称検出処理部11 合成略称検出処理部11は、属性付与処理部3で属性の
確定された固有名詞の文字列を、略称生成規則格納部1
2に格納されている規則と照合し、当該文字列から考え
られる略称を生成する処理と、生成された略称と未確定
属性領域の語とを照合し、一致した語に略称の生成に用
いた固有名詞の属性と同じ属性を付与する処理を実行す
る手段である。
【0106】すなわち、この合成略称検出処理部11
は、属性の確定した固有名詞からその略称を推定し、推
定された略称と一致する文字列を未確定属性領域中から
抽出する。この点が、第3の実施形態との違いである。
【0107】(b2)略称生成規則格納部12 略称生成規則格納部12は、固有名詞を構成する基本語
の組み合わせから考えられる略称の生成規則を格納する
手段である。ここで、略称生成規則格納部12には、
「適用条件」とその「生成略称」とが組として格納され
ている。図15は、その一例である。なお、適用条件中
の()で囲まれた部分が基本語であり、()内の「x」
が任意の属性を、また英大文字が基本語の先頭一文字
を、さらに「*」が先頭以降の全ての文字を表してい
る。
【0108】例えば、規則番号1は、属性の確定された
固有名詞が、2つの基本語から構成される場合、その2
つの基本語の先頭一文字を結合したABを略語とすべき
ことを規定している。例えば、「(l東京l)(i大学
i)」からは、「東大」という略語が得られる。
【0109】また、規則番号2は、属性の確定された固
有名詞が、3つの基本語から構成される場合であって、
1番目の基本語が地名であり、2番目及び3番目の基本
語が組織修飾名であるときは、1番目及び2番目の基本
語の先頭一文字を結合したABと3番目の基本語C*を
結合したABC*を略語とすべきことを規定している。
例えば、「(l日本l)(i経済i)(i新聞i)」か
らは、「日経新聞」という略称が得られる。
【0110】(D−2)第4の実施形態の動作 続いて、以上の構成を有する自然言語処理装置による情
報の抽出動作を説明する。なお、本実施形態において
は、入力されたテキストデータから、地名、人名、組織
名等の固有名詞を抽出するものとする。
【0111】以下の説明では、テキストデータとして、
『日本銀行は、日銀の援助方針について発表した。』が
入力されたものとする。
【0112】ただし、この実施形態の場合も、合成略称
検出処理以前の処理は、第1の実施形態の場合と同じで
あるので、ここでは、属性付与処理部3による処理が終
了した段階以降の処理を説明する。なお、前述したよう
に、属性付与処理部3の出力には、不確定属性領域を示
すタグがそのまま保存されており、また、属性の確定し
た部分にもそれを構成する基本語の情報とその属性情報
が保存されている。
【0113】従って、属性付与処理部3からは、『[O
(l日本l)(i銀行i)O]は、[日銀]の[援助方
針]について[発表]した。』なる文が出力されること
になる。
【0114】合成略称検出処理部11は、この文を入力
すると、既に抽出された固定名詞の収集を行う。そし
て、略称生成規則格納部12に格納されている適用条件
に合う固定名詞が存在するかをチェックする。もし、適
合する固有名詞がある場合には、規則に従って略称を生
成し、生成された規則を一時的に記録する。例文の場
合、「日本銀行」が、既に抽出された固有名詞に当た
り、これに規則番号1が合致するため、略称「日銀」を
生成し、これを一時的に記録する。
【0115】このように、略称が生成され記録される
と、次に、合成略称検出処理部11は、不確定属性領域
を検索し、先に求めた略称と同一の文字列が存在するか
否かを確認する。そして、同一の文字列が存在する場合
には、その領域部分に、一致した略称を生成するのに用
いた固有名詞と同じ属性を付与する。例文では、最初の
不確定属性領域である「日銀」の文字列が、生成された
略称と等しいため、この領域に「日本銀行」と同じ属性
「O」を付与する。
【0116】この結果、合成略称検出処理部11から
は、最終的な出力として、『[O日本銀行O]は、[O
日銀O]の援助方針について発表した。』が出力され
る。
【0117】なお、合成略称検出処理部11は、この
後、略称と判断された語であり、実際にテキストデータ
中に存在していたものを、基本語辞書5に記録する。こ
れにより、これ以降の処理において、別のテキストデー
タ中に同一の略称が出現した場合には、当該テキストデ
ータ中から正式名称を抽出できなくても、当該略称に対
して適正な属性を付与することが可能となる。
【0118】(D−4)第4の実施形態の効果 以上のように、この第4の実施形態によれば、処理対象
とするテキストデータ中に、基本語辞書5に格納されて
いない新出語として略語が含まれる場合にも、正式名称
の抽出さえできていれば、その略称の検出を可能とし、
適切な属性を付与することができる。
【0119】しかもその際、抽出された固有名詞と略称
生成規則とを照合し、適用条件に一致した固有名詞につ
いては、その条件に従って略称を生成するため、本来あ
り得ないような語が略称として現れる可能性を低減で
き、抽出情報の信頼性を一層高めることができる。
【0120】また、検出できた略称を基本語辞書5に登
録するため、他のテキストデータの処理中に同一の略語
が単独で現れる場合にも、その検出と属性の付与を可能
とでき、情報抽出能力の向上を実現できる。
【0121】(E)第5の実施形態 (E−1)第5の実施形態の構成 続いて、本発明に係る情報抽出装置を、自然言語処理装
置に適用する場合の第5の実施形態を、図面を用いて詳
述する。
【0122】図16に、第5の実施形態に係る自然言語
処理装置の構成を示す。ここで、図16には、図1と同
一対応部分に対応同一符号を付している。
【0123】図16からも分かるように、この第5の実
施形態に係る自然言語処理装置の特徴は、前述の第1の
実施形態に係る自然言語処理装置に対し、新たな処理モ
ジュール「固有名集計処理部13」を付け加えた点であ
る。
【0124】従って、ここでは、第1の実施形態と異な
る部分のみを説明し、同一部分についての説明は省略す
る。
【0125】(b)各部の構成 (b1)固有名集計処理部13 固有名集計処理部13は、属性付与処理部3で抽出され
たタグ付きの情報を、テキストデータを構成する文、段
落、記事などを単位として、その単位中に現れるタグ付
き情報の属性ごとに整理し集計する手段である。なお、
固有名集計処理部13は、後段の処理で必要とされる場
合には、集計後の情報を表形式で出力するようになって
いる。
【0126】(E−2)第5の実施形態の動作 続いて、以上の構成を有する自然言語処理装置による情
報の抽出動作を説明する。なお、本実施形態において
は、入力されたテキストデータから、地名、人名、組織
名の固有名詞や日付けについての情報を抽出するものと
する。
【0127】以下の説明では、テキストデータとして、
『国防総省は十五日、イラクでの米軍機による米ヘリコ
プター撃墜事件を受け、同国北部の飛行禁止空域内での
米軍戦闘機による十五日の偵察飛行を中止することを明
らかにした。またペリー国防長官は同日、ABCテレビ
などのインタビュー番組で、誤射事件の真相を明らかに
するための調査委員会が既に発足し、責任者がトルコに
向かったと述べた。』が入力されたものとする。
【0128】ただし、この実施形態の場合も、合成略称
検出処理以前の処理は、第1の実施形態の場合と同じで
あるので、ここでは、属性付与処理部3による処理が終
了した段階以降の処理を説明する。なお、この実施形態
では、固有名だけでなく、日付に関する情報もタグ付け
されている。
【0129】従って、属性付与処理部3からは、『[O
国防総省O]は[D十五日D]、[LイラクL]での
[O米軍O]機による[L米L]ヘリコプター撃墜事件
を受け、同国北部の飛行禁止空域内での[O米軍O]戦
闘機による[D十五日D]の偵察飛行を中止することを
明らかにした。また[PペリーP]国防長官は同日、
[OABCテレビO]などのインタビュー番組で、誤射
事件の真相を明らかにするための調査委員会が既に発足
し、責任者が[LトルコL]に向かったと述べた。』な
る文が出力される。
【0130】固有名集計処理部13は、この文を入力す
ると、文、段落、記事などの文書単位と属性との2次元
で、抽出された情報の集計を行う。ここでは、文を単位
として、集計を行うものとする。なお、文の区切りは句
点により判別することができる。
【0131】その集計結果の表示例を、図17に示す。
この集計結果を用いれば、例えば、文番号1には、日付
についての情報と、組織名についての情報と、地名につ
いての情報が含まれること、その内容は、「十五日」、
「国防省」等であることを即座に把握することが可能と
なる。勿論、集計の次元には、この他に頻度を用いても
良い。
【0132】(E−3)第5の実施形態の効果 以上のように、この第5の実施形態によれば、テキスト
データ中から必要な属性の情報のみを選択的に抽出し一
覧表として出力することができ、ユーザの利用勝手を一
段と向上できる。
【0133】(F)他の実施形態 (a) なお、上述の実施形態においては、テキストデータ
入力後の処理手順について述べたが、テキストデータ
は、ストレージ装置等から読み出される静的なデータフ
ァイルに限らず、キーボード、マウス、OCR(光学式
文字認識装置)、音声認識装置等からリアルタイムで入
力されるものでも良い。また、ネットワーク等の通信路
を介し外部から電子メールやネットニュース等の形態で
受信されるものでも良い。
【0134】(b) また、上述の実施形態においては、テ
キストデータを、文中に現れる各文字が「ひらがな」か
「非ひらがな」かで分割する場合について述べたが、こ
の際、テキストデータ中に現れる漢字を特定する漢字コ
ードの種類については特に問わない。例えば、漢字コー
ドは、EUCやシフトJIS形式であっても良い。
【0135】(c) また、上述の実施形態においては、処
理対象とする自然言語を日本語とする場合について述べ
たが、他の自然言語を処理対象とする場合にも適用し得
る。
【0136】(d) また、上述の第3の実施形態において
は、抽出された固有名詞を用いてその略称を推定し、さ
らに、推定された略称と一致する名称が同文中に存在す
るか否か検索する場合について述べたが、推定に用いる
名詞は抽出された固有名詞に限らず、基本語辞書に登録
されている語の全て又は一部としても良い。
【0137】(e) また、上述の第3の実施形態において
は、正式名称である固有名詞から略称を推定し、当該推
定された略称を用いて一致する文字列を文中から検索す
る場合について述べたが、その反対に略称から正式名称
を推定し、推定された正式名称に一致する文字列を文中
から検索するようにしても良い。
【0138】(f) また、第1〜第4の実施形態において
は、テキストデータ中から抽出された情報部分に、当該
属性に固有の属性情報タグを埋め込んで出力する場合に
ついて述べたが、この属性情報タグを表示用タグに変換
し、表示の際に情報が強調されるようにしても良い。例
えば、属性情報タグを、HTML(Hypertext Markup L
anguage )の手法で、その属性ごとに色を換えたり、文
字の大きさを変換するタグに変換し、WWWブラウザで
表示することにより、抽出情報を強調した表示としても
良い。
【0139】(g) また、第5の実施形態においては、抽
出情報を表形式にまとめた場合について述べたが、最終
的出力形態としてCSV(Comma Separated Value )形
式にしたり、表計算ソフトのファイル形式にしても良
い。
【0140】(h) また、第1の実施形態においては、領
域分割処理と、基本語分解処理と、属性付与処理の3つ
の処理全てを組み合わせた実施形態について述べたが、
領域分割処理と既存の技術とを組み合わせる場合にも適
用し得る。また、これに、基本語分解処理を組み合わせ
る場合にも適用し得る。
【0141】(I) また、第2〜第5の実施形態において
は、各実施形態に固有の処理を第1の実施形態と組み合
わせる場合について述べたが、かかる技術の組み合わせ
はこれに限らず、既存の技術と組み合わせる場合にも適
用し得る。その場合にも、各処理に固有の効果を得るこ
とができる。
【0142】
【発明の効果】上述の第1の発明によれば、形態素解析
前に、文書中に現れる各文字を、文頭から順番に、特定
の文字種のまとまりとその他の文字種のまとまりとに分
割し、1又は複数の文字からなる2種類の部分文字列に
分割する領域分割処理部を備えることにより、分割によ
り得られた部分文字列を対象として形態素解析を行うこ
とができ、文書全体を形態素解析する場合に比して、必
要とされる計算量を格段に低減できる。
【0143】また、第2の発明によれば、形態素解析前
に、処理対象とする文書中から特定の文字種列と接辞と
からなる文字列を検出し、検出された文字列のうち特定
の文字種列の部分を、当該文字種列と共に現れた接辞に
より確定される属性の語として、単語辞書に予め登録す
る新出語獲得処理部を備えることにより、形態素解析の
対象となる文書中に未知語が含まれる場合にも、これを
形態素解析に先立ち特定して単語辞書に登録でき、その
後に実行される形態素解析の精度の向上を図ることがで
きる。
【0144】さらに、第3の発明によれば、形態素解析
結果に、属性未定の文字列が出現する場合、当該文字列
を略称に有する固有名詞が単語辞書に含まれているか否
か検索し、当該文字列を略称とする固有名詞が検出され
た場合、検出された固有名詞に付されている属性を、当
該文字列の属性として付与する略称マッチング処理部を
備えることにより、単語辞書に該当する語が存在しなく
ても、その文字列が、単語辞書に登録されている固有名
詞の略称に該当する場合には、その抽出を可能とできる
ため、形態素解析精度の一層の向上を図ることができ
る。
【0145】さらに、第4の発明によれば、形態素解析
の結果に属性未定の文字列が出現する場合、当該文字列
を正式名称に有する略称が単語辞書に含まれているか否
か検索し、当該文字列を正式名称とする略称が検出され
た場合、検出された略称に付されている属性を、当該文
字列の属性として付与する正式名称マッチング処理部を
備えることにより、単語辞書に該当する語が存在しなく
ても、その文字列が、単語辞書に登録されている略称の
正式名称に該当する場合には、その抽出が可能とできる
ため、形態素解析精度の一層の向上を図ることができ
る。
【0146】さらに、第5の発明によれば、形態素解析
結果に属性未定の文字列が出現する場合、当該文字列中
に、単語辞書に含まれる正式名称に所定の略称生成規則
を適用することにより生成される略称と一致する文字列
が存在するか否かを判断し、一致する文字列が存在して
いたとき、当該略称の生成に供した正式名称に付されて
いる属性を、当該文字列の属性として付与する合成略称
検出処理部を備えることにより、単語辞書に該当する語
が存在しなくても、その文字列が、単語辞書に登録され
ている固有名詞の略称に該当する場合には、その抽出を
可能とできるため、形態素解析精度の一層の向上を図る
ことができる。また、この際、所定の略称生成規則に基
づいて生成した略称との一致の有無を検出するため、略
称でない語が誤って略称と判断される可能性を低減で
き、その精度を一層向上できる。
【図面の簡単な説明】
【図1】第1の実施形態の構成を示すブロック図であ
る。
【図2】分割処理部で実行される分割処理手順の一例を
示すフローチャートである。
【図3】分割規則例を示す図表である。
【図4】ひらがなと等価に扱う記号群を示す図表であ
る。
【図5】ひらがな固有語辞書例を示す図表である。
【図6】基本語辞書に格納されている基本語の登録例を
示す図表である。
【図7】属性付与規則格納部に格納されている規則例を
示す図表である。
【図8】第2の実施形態の構成を示すブロック図であ
る。
【図9】新出語抽出規則格納部に格納されている規則例
を示す図表である。
【図10】不要語辞書例を示す図表である。
【図11】新たに追加された新出語情報の一例を示す図
表である。
【図12】第3の実施形態の構成を示すブロック図であ
る。
【図13】略称マッチング処理手順を示すフローチャー
トである。
【図14】第4の実施形態の構成を示すブロック図であ
る。
【図15】略称生成規則格納部に格納されている規則例
を示す図表である。
【図16】第5の実施形態の構成を示すブロック図であ
る。
【図17】抽出された情報の表示例を示す図である。
【符号の説明】
1…領域分割処理部、2…基本語分解処理部、3…属性
付与処理部、4…ひらがな固有語辞書、5…基本語辞
書、6…属性付与規則格納部、7…新出語獲得処理部、
8…新出語獲得規則格納部、9…不要語辞書、10…略
称マッチング処理部、11…合成略称検出処理部、12
…略称生成規則格納部、13…固有名集計処理部。抽出
された情報の表示例を示す図である。

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 自然言語で記述された文書より、必要な
    情報を抽出する情報抽出装置において、 形態素解析前に、文書中に現れる各文字を、文頭から順
    番に、特定の文字種のまとまりとその他の文字種のまと
    まりとに分割し、1又は複数の文字からなる2種類の部
    分文字列に分割する領域分割処理部を備えることを特徴
    とする情報抽出装置。
  2. 【請求項2】 請求項1に記載の情報抽出装置におい
    て、 各部分文字列の基本語への分解可能性を判断し、分割可
    能な部分文字列について、これを複数の基本語に分解す
    る基本語分解処理部をさらに備えたことを特徴とする情
    報抽出装置。
  3. 【請求項3】 請求項2に記載の情報抽出装置におい
    て、 部分文字列を構成する基本語の組から特定可能な属性
    を、当該部分文字列の全体に対する確定属性として付与
    する属性付与処理部をさらに備えることを特徴とする情
    報抽出装置。
  4. 【請求項4】 請求項1に記載の情報抽出装置におい
    て、 上記自然言語が日本語である場合、上記領域分割処理部
    は、文書中に現れる各文字を、文頭から順番に、平仮名
    のみのまとまりである平仮名領域と平仮名以外の文字種
    のまとまりである非平仮名領域に分割することを特徴と
    する情報抽出装置。
  5. 【請求項5】 請求項4に記載の情報抽出装置におい
    て、 上記領域分割処理部は、特定の固有語を含む平仮名領域
    を、当該領域と連続する非平仮名領域に結合することを
    特徴とする情報抽出装置。
  6. 【請求項6】 請求項4又は5に記載の情報抽出装置に
    おいて、 上記基本語分解処理部は、上記非平仮名領域のみを対象
    に、部分文字列を複数の基本語に分解する処理を実行す
    ることを特徴とする情報抽出装置。
  7. 【請求項7】 自然言語で記述された文書より、必要な
    情報を抽出する情報抽出装置において、 形態素解析前に、処理対象とする文書中から特定の文字
    種列と接辞とからなる文字列を検出し、検出された文字
    列のうち特定の文字種列の部分を、当該文字種列と共に
    現れた接辞により確定される属性の語として、単語辞書
    に予め登録する新出語獲得処理部を備えることを特徴と
    する情報抽出装置。
  8. 【請求項8】 請求項7に記載の情報抽出装置におい
    て、 上記新出語獲得処理部は、検出された文字種列を登録す
    るのに先立ち、当該文字種列と推定された属性が登録の
    禁止されている語か否か判断し、登録の禁止されている
    語であると判定された場合には、当該文字種列の単語辞
    書への登録を中止することを特徴とする情報抽出装置。
  9. 【請求項9】 自然言語で記述された文書より、必要な
    情報を抽出する情報抽出装置において、 形態素解析結果に、属性未定の文字列が出現する場合、
    当該文字列を略称に有する固有名詞が単語辞書に含まれ
    ているか否か検索し、当該文字列を略称とする固有名詞
    が検出された場合、検出された固有名詞に付されている
    属性を、当該文字列の属性として付与する略称マッチン
    グ処理部を備えることを特徴とする情報抽出装置。
  10. 【請求項10】 請求項9に記載の情報抽出装置におい
    て、 上記略称マッチング処理部は、属性未定の文字列を構成
    する各文字の順番を保ち、かつ、それらの文字を全て含
    む固有名詞が存在する場合、上記文字列を当該固有名詞
    に対応する略称であると判定することを特徴とする情報
    抽出装置。
  11. 【請求項11】 自然言語で記述された文書より、必要
    な情報を抽出する情報抽出装置において、 形態素解析の結果に属性未定の文字列が出現する場合、
    当該文字列を正式名称に有する略称が単語辞書に含まれ
    ているか否か検索し、当該文字列を正式名称とする略称
    が検出された場合、検出された略称に付されている属性
    を、当該文字列の属性として付与する正式名称マッチン
    グ処理部を備えることを特徴とする情報抽出装置。
  12. 【請求項12】 請求項11に記載の情報抽出装置にお
    いて、 上記正式名称マッチング処理部は、属性未定の文字列を
    構成する各文字の一部からなり、かつ、その順番を保つ
    略称が存在する場合、上記文字列を当該略称に対応する
    正式名称であると判定することを特徴とする情報抽出装
    置。
  13. 【請求項13】自然言語で記述された文書より、必要な
    情報を抽出する情報抽出装置において、 形態素解析結果に属性未定の文字列が出現する場合、当
    該文字列中に、単語辞書に含まれる正式名称に所定の略
    称生成規則を適用することにより生成される略称と一致
    する文字列が存在するか否かを判断し、一致する文字列
    が存在していたとき、当該略称の生成に供した正式名称
    に付されている属性を当該文字列の属性として付与する
    合成略称検出処理部を備えることを特徴とする情報抽出
    装置。
  14. 【請求項14】 請求項9〜13のいずれかに記載の情
    報抽出装置は、 新たに属性の確定された略称又は正式名称を、基本語と
    して、単語辞書に登録することを特徴とする情報抽出装
    置。
  15. 【請求項15】 請求項1〜14のいずれかに記載の情
    報抽出装置は、 属性の確定により抽出された文字列からなる情報を、
    文、段落、記事その他の文書単位と属性とで分類し出力
    することを特徴とする情報抽出装置。
  16. 【請求項16】 請求項1〜14のいずれかに記載の情
    報抽出装置は、 属性の確定により抽出された文字列からなる情報に、そ
    の属性を表すタグを付して出力することを特徴とする情
    報抽出装置。
JP10073684A 1998-03-23 1998-03-23 情報抽出装置 Pending JPH11272701A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10073684A JPH11272701A (ja) 1998-03-23 1998-03-23 情報抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10073684A JPH11272701A (ja) 1998-03-23 1998-03-23 情報抽出装置

Publications (1)

Publication Number Publication Date
JPH11272701A true JPH11272701A (ja) 1999-10-08

Family

ID=13525297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10073684A Pending JPH11272701A (ja) 1998-03-23 1998-03-23 情報抽出装置

Country Status (1)

Country Link
JP (1) JPH11272701A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125911A (ja) * 1999-10-27 2001-05-11 Just Syst Corp 個体名の抽出装置、抽出方法、並びに記録媒体
JP2001202381A (ja) * 2000-01-21 2001-07-27 Just Syst Corp 個体名の抽出装置、抽出方法、並びに、記録媒体
JP2004185306A (ja) * 2002-12-03 2004-07-02 Toshiba Corp 辞書構築支援装置および辞書構築支援方法
JP2010250480A (ja) * 2009-04-14 2010-11-04 Degital Works Kk テキストデータ処理装置およびプログラム
JP2012022354A (ja) * 2010-07-12 2012-02-02 Fujitsu Ltd 略称検索装置,方法およびプログラム,ならびに略称検索機能を備えるデータパース装置
JP2018032187A (ja) * 2016-08-24 2018-03-01 日本電信電話株式会社 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム
CN109271527A (zh) * 2018-09-27 2019-01-25 华东师范大学 一种需求功能点智能识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6394365A (ja) * 1986-10-08 1988-04-25 Nippon Telegr & Teleph Corp <Ntt> 日本文文書誤り検定装置
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
JPH03150668A (ja) * 1989-11-08 1991-06-27 Fujitsu Ltd 検索システムの入力文字列正規化方式
JPH05233686A (ja) * 1992-02-20 1993-09-10 Nec Corp 日本語処理装置
JPH0619959A (ja) * 1992-06-30 1994-01-28 N T T Data Tsushin Kk 固有名詞特定処理システム
JPH07230468A (ja) * 1994-02-18 1995-08-29 Fujitsu Ltd キーワード自動抽出装置およびキーワード自動抽出方法
JPH08314947A (ja) * 1995-05-22 1996-11-29 Mainichi Shinbunsha:Kk キーワード自動抽出装置
JPH1069487A (ja) * 1996-08-28 1998-03-10 Hitachi Ltd あいまい名称による情報の管理方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6394365A (ja) * 1986-10-08 1988-04-25 Nippon Telegr & Teleph Corp <Ntt> 日本文文書誤り検定装置
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
JPH03150668A (ja) * 1989-11-08 1991-06-27 Fujitsu Ltd 検索システムの入力文字列正規化方式
JPH05233686A (ja) * 1992-02-20 1993-09-10 Nec Corp 日本語処理装置
JPH0619959A (ja) * 1992-06-30 1994-01-28 N T T Data Tsushin Kk 固有名詞特定処理システム
JPH07230468A (ja) * 1994-02-18 1995-08-29 Fujitsu Ltd キーワード自動抽出装置およびキーワード自動抽出方法
JPH08314947A (ja) * 1995-05-22 1996-11-29 Mainichi Shinbunsha:Kk キーワード自動抽出装置
JPH1069487A (ja) * 1996-08-28 1998-03-10 Hitachi Ltd あいまい名称による情報の管理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125911A (ja) * 1999-10-27 2001-05-11 Just Syst Corp 個体名の抽出装置、抽出方法、並びに記録媒体
JP2001202381A (ja) * 2000-01-21 2001-07-27 Just Syst Corp 個体名の抽出装置、抽出方法、並びに、記録媒体
JP2004185306A (ja) * 2002-12-03 2004-07-02 Toshiba Corp 辞書構築支援装置および辞書構築支援方法
JP2010250480A (ja) * 2009-04-14 2010-11-04 Degital Works Kk テキストデータ処理装置およびプログラム
JP2012022354A (ja) * 2010-07-12 2012-02-02 Fujitsu Ltd 略称検索装置,方法およびプログラム,ならびに略称検索機能を備えるデータパース装置
JP2018032187A (ja) * 2016-08-24 2018-03-01 日本電信電話株式会社 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム
CN109271527A (zh) * 2018-09-27 2019-01-25 华东师范大学 一种需求功能点智能识别方法

Similar Documents

Publication Publication Date Title
US7424421B2 (en) Word collection method and system for use in word-breaking
US8370128B2 (en) Semantically-driven extraction of relations between named entities
US20060112091A1 (en) Method and system for obtaining collection of variants of search query subjects
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
Budi et al. Named entity recognition for the Indonesian language: combining contextual, morphological and part-of-speech features into a knowledge engineering approach
US20040267737A1 (en) Database search system
JP3361563B2 (ja) 形態素解析装置及びキーワード抽出装置
JP3596210B2 (ja) 関連語辞書作成装置
JPH11272701A (ja) 情報抽出装置
JP4114927B2 (ja) 文書検索システム、質問応答システム、文書検索方法
Besagni et al. A segmentation method for bibliographic references by contextual tagging of fields
Asahara et al. Japanese unknown word identification by character-based chunking
Khalil et al. Extracting Arabic composite names using genitive principles of Arabic grammar
JPH1011443A (ja) 文書符号検査システム
Charoenpornsawat et al. Feature-based proper name identification in Thai
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
US8024347B2 (en) Method and apparatus for automatically differentiating between types of names stored in a data collection
JPH1011431A (ja) 漢字検索装置および方法
Sithamparanathan et al. A sinhala and tamil extension to generic environment for context-aware correction
JPH077415B2 (ja) 日本文文書誤り検定装置
JPH0944521A (ja) インデックス作成装置および文書検索装置
Dhanju et al. Design and implementation of Shahmukhi spell checker
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040720

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050906