JPH11272701A

JPH11272701A - 情報抽出装置

Info

Publication number: JPH11272701A
Application number: JP10073684A
Authority: JP
Inventors: Mitsuo Shimohata; 光夫下畑
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-03-23
Filing date: 1998-03-23
Publication date: 1999-10-08

Abstract

(57)【要約】【課題】処理対象とする文書の全体を形態素解析する
ため、多くの計算量を要する。【解決手段】自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、形態素解析前
に、文書中に現れる各文字を、文頭から順番に、特定の
文字種のまとまりとその他の文字種のまとまりとに分割
し、１又は複数の文字からなる２種類の部分文字列に分
割する領域分割処理部を備えるようにする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自然言語で記述さ
れたテキストデータから所望の情報（例えば、人名、地
名等）を抽出するのに使用する情報抽出装置に関するも
のである。

【０００２】

【従来の技術】情報検索や要約の分野では、自然言語で
記述されたテキストデータから重要な語（いわゆるキー
ワード）を、機械的に抽出する技術が重要である。この
ため、かかる分野では、従来から様々な手法が研究され
ており、その研究成果も公表されている。例えば、特開
平９−４４５２２号公報がある。この文献は、検索用の
キーワードを抽出するのを目的とするものであり、処理
対象とする文書の全体を形態素解析することを前提とし
ている。

【０００３】

【発明が解決しようとする課題】ところが、この文献に
記載された技術の場合には、処理対象とする文書の全体
を形態素解析するため、多くの計算量を要するという課
題に加え、単語辞書に記載されていない語（未知語）が
文書中に含まれている場合に、解析結果が誤る可能性が
高いという課題がある。

【０００４】本発明は、以上の課題を考慮してなされた
もので、従来に比して計算量が少なくて済み、しかも、
高い精度で解析結果が得られる情報抽出装置を提案しよ
うとするものである。

【０００５】

【課題を解決するための手段】（Ａ）かかる課題を解決
するため、第１の発明においては、自然言語で記述され
た文書より、必要な情報を抽出する情報抽出装置におい
て、以下の手段を備えるようにする。

【０００６】すなわち、形態素解析前に、文書中に現れ
る各文字を、文頭から順番に、特定の文字種のまとまり
とその他の文字種のまとまりとに分割し、１又は複数の
文字からなる２種類の部分文字列に分割する領域分割処
理部を備えるようにする。

【０００７】このように、第１の発明においては、分割
により得られた部分文字列を対象として形態素解析を行
うため、文書全体を形態素解析する場合に比して、必要
とされる計算量を格段に低減できる。

【０００８】（Ｂ）また、第２の発明においては、自然
言語で記述された文書より、必要な情報を抽出する情報
抽出装置において、以下の手段を備えるようにする。

【０００９】すなわち、形態素解析前に、処理対象とす
る文書中から特定の文字種列と接辞とからなる文字列を
検出し、検出された文字列のうち特定の文字種列の部分
を、当該文字種列と共に現れた接辞により確定される属
性の語として、単語辞書に予め登録する新出語獲得処理
部を備えるようにする。

【００１０】このように、第２の発明においては、形態
素解析の対象となる文書中に未知語が含まれる場合に
も、これを形態素解析に先立ち特定して単語辞書に登録
できるため、その後に実行される形態素解析の精度の向
上を図ることができる。

【００１１】（Ｃ）さらに、第３の発明においては、自
然言語で記述された文書より、必要な情報を抽出する情
報抽出装置において、以下の手段を備えるようにする。

【００１２】すなわち、形態素解析結果に、属性未定の
文字列が出現する場合、当該文字列を略称に有する固有
名詞が単語辞書に含まれているか否か検索し、当該文字
列を略称とする固有名詞が検出された場合、検出された
固有名詞に付されている属性を、当該文字列の属性とし
て付与する略称マッチング処理部を備えるようにする。

【００１３】このように、第３の発明においては、単語
辞書に該当する語が存在しなくても、その文字列が、単
語辞書に登録されている固有名詞の略称に該当する場合
には、その抽出を可能とできるため、形態素解析精度の
一層の向上を図ることができる。

【００１４】（Ｄ）さらに、第４の発明においては、自
然言語で記述された文書より、必要な情報を抽出する情
報抽出装置において、以下の手段を備えるようにする。

【００１５】すなわち、形態素解析の結果に属性未定の
文字列が出現する場合、当該文字列を正式名称に有する
略称が単語辞書に含まれているか否か検索し、当該文字
列を正式名称とする略称が検出された場合、検出された
略称に付されている属性を、当該文字列の属性として付
与する正式名称マッチング処理部を備えるようにする。

【００１６】このように、第４の発明においては、単語
辞書に該当する語が存在しなくても、その文字列が、単
語辞書に登録されている略称の正式名称に該当する場合
には、その抽出が可能とできるため、形態素解析精度の
一層の向上を図ることができる。

【００１７】（Ｅ）さらに、第５の発明においては、自
然言語で記述された文書より、必要な情報を抽出する情
報抽出装置において、以下の手段を備えるようにする。

【００１８】すなわち、形態素解析結果に属性未定の文
字列が出現する場合、当該文字列中に、単語辞書に含ま
れる正式名称に所定の略称生成規則を適用して略称を生
成することにより生成される略称と一致する文字列が存
在するか否かを判断し、一致する文字列が存在していた
とき、当該略称の生成に供した正式名称に付されている
属性を当該文字列の属性として付与する合成略称検出処
理部を備えるようにする。

【００１９】このように、第５の発明においては、単語
辞書に該当する語が存在しなくても、その文字列が、単
語辞書に登録されている固有名詞の略称に該当する場合
には、その抽出を可能とできるため、形態素解析精度の
一層の向上を図ることができる。また、この際、所定の
略称生成規則に基づいて生成した略称との一致の有無を
検出するため、略称でない語が誤って略称と判断される
可能性を低減でき、その精度を一層向上できる。

【００２０】

【発明の実施の形態】（Ａ）第１の実施形態（Ａ−１）第１の実施形態の構成（ａ）全体構成以下、本発明に係る情報抽出装置を、自然言語処理装置
に適用する場合の第１の実施形態を、図面を用いて詳述
する。

【００２１】なお、この第１の実施形態に係る自然言語
処理装置は、実際上、入出力装置、通信装置、外部記憶
装置等を適宜組み合わせたワークステーションやパソコ
ン等の情報処理装置で実現されるものであるが、その機
能構成をブロック図で表すと、図１に示すようになる。

【００２２】図１に示すように、この自然言語処理装置
は、領域分割処理部１、基本語分解処理部２、属性付与
処理部３の３つの処理モジュールと、ひらがな固有語辞
書４、基本語辞書５、属性付与規則格納部６の３つの記
憶領域とからなる。

【００２３】（ｂ）各部の構成続いて、本実施形態に係る自然言語処理装置の各部の構
成を、以下順番に説明する。

【００２４】（ｂ１）領域分割処理部１領域分割処理部１は、テキストデータに現れる各文字
を、文頭から順番に、特定の文字種のまとまりとその他
の文字種のまとまりとに分割し、１又は複数の文字から
なる２種類の部分文字列に分割する手段である。

【００２５】この実施形態の場合、領域分割処理部１
は、日本語で記述されたテキストデータを処理対象とす
る。日本語の文は、ひらがな、カタカナ、漢字、数字等
の文字で表されるが、ここでは、「ひらがな」のまとま
りである部分文字列（以下「ひらがな領域」という。）
と「非ひらがな（例えば、（カタカナ、漢字、数字
等））」のまとまりである部分文字列（以下「非ひらが
な領域」という。）とに分割する処理を行う。

【００２６】図２に、その処理の概略を示す。まず、領
域分割処理部１は、図３に示す区分規則に基づき、入力
文を、「ひらがな領域」と「非ひらがな領域」とに区分
し、「非ひらがな領域」にタグを付して「ひらがな領
域」と区別する（ステップ１００）。ただし、領域分割
処理部１は、図４に示す特定の記号（その他の記号を除
く）や文頭、文末については、「ひらがな」として扱
い、その他の文字については「非ひらがな」として扱
う。

【００２７】次に、領域分割処理部１は、「ひらがな領
域」に含まれる文字列のうち固有名詞に該当するものを
検出するため、「ひらがな領域」の文字列と、ひらがな
固有語辞書４に格納されている全ての「ひらがな混じり
語」との照合を行う。そして、領域分割処理部１は、一
致の認められた文字列のうち「非ひらがな領域」と隣接
するものについてはこれを結合し、最終的な分割結果と
する（ステップ１０１）。

【００２８】（ｂ２）ひらがな固有語辞書４ひらがな固有語辞書４は、固有名詞に対応する「ひらが
な混じり語」を格納する記憶領域である。ここで、ひら
がな固有語辞書４には、「ひらがな混じり語」とその
「属性」を示す情報とが組として格納されている。図５
は、その一例である。地名の「つくば」や「ひたちな
か」等が、かかる「ひらがな混じり語」に当る。

【００２９】従って、例えば、前述の領域分割処理部１
における１段目の処理結果（ステップ１００）が、つく
ばのつくば［市役所］である場合、文中に現れる「つく
ば」という文字列が、ひらがな固有語辞書４に格納され
ている「ひらがな混じり語」と一致することになる。

【００３０】この結果、領域分割処理部１は、一致した
文字列部分にタグを付し、［つくば］の［つくば］［市
役所］を得る。なお、領域分割処理部１は、処理の
後、］［という文字列が現れた場合これを削除し、「ひ
らがな語領域」と「非ひらがな領域」を接続する。従っ
て、前述の文は、［つくば］の［つくば市役所］とな
る。

【００３１】（ｂ３）基本語分解処理部２基本語分解処理部２は、領域分割処理部１で抽出された
「非ひらがな領域」の文字列と、基本語辞書５に格納さ
れている基本語とを照合し、各「非ひらがな領域」を複
数の基本語に分解する手段である。このとき、基本語分
解処理部２は、基本語辞書５に格納されている基本語に
対し、これに固有の属性情報を付す。

【００３２】なおここで、「非ひらがな領域」の語の基
本語への分割は一通りではなく、複数通りの配列が考え
られるが、複数の配列の中から最適と思われる配列を選
択する方法には、既存の自然言語処理技術の中から様々
な方法を使用することができる。

【００３３】ただし、この実施形態においては、左側優
先の最長優先方法を適用するものとする。ここで、左側
優先の最長優先方法とは、長い基本語が現れる分割を優
先し、同じ長さを有する複数の基本語に分割できる場合
には、長い基本語が左側に現れるものを優先する方法で
ある。

【００３４】例えば、「非ひらがな領域」の語が「新大
阪駅」であって、基本語辞書５に、「新」、「駅」、
「新大阪」、「大阪駅」が格納されている場合、基本語
分解処理部２は、「新・大阪駅」と「新大阪・駅」との
２つの候補のうち、左側に長い基本語が現れる「新大阪
・駅」を最終的な分割とする。

【００３５】（ｂ４）基本語辞書５基本語辞書５は、基本語分解処理部２で用いられる基本
語を格納する記憶領域である。ここで、基本語辞書５に
は、基本語を構成する「単語」と、その「属性」と、
「タグ用記号」とが組として保持されている。図６は、
その一例である。なお、この基本語辞書５における「タ
グ用記号」は小文字で表されている。これは、かかる基
本語への分割が最終的に確定されるまでは、属性の内容
が覆る可能性があるからである。

【００３６】（ｂ５）属性付与処理部３属性付与処理部３は、各「非ひらがな領域」を構成する
基本語に付された属性の組と、属性付与規則格納部６に
格納されている属性付与規則とを照合し、その属性の組
合わせから領域全体の属性をほぼ間違いなく決定できる
「非ひらがな領域」に確定属性を付する手段である。こ
こで、属性付与処理部３は、確定属性として大文字を付
する。この後、属性付与処理部３は、確定属性の付され
た「非ひらがな領域」にのみタグが埋め込まれた状態の
テキストデータを、出力情報として出力する。

【００３７】（ｂ６）属性付与規則格納部６属性付与規則格納部６は、「非ひらがな領域」全体とし
ての属性の確定が可能な属性の組を、規則として格納す
る記憶領域である。図７は、その一例である。

【００３８】例えば、１番目の規則は、文字列Ｘが地名
であることを示す属性ｌと、文字列Ｙが組織修飾名であ
ることを示す属性ｉとが連結して現れる場合、文字列Ｘ
と文字列Ｙとの連結文字列ＸＹを確定組織名として良い
ことを表している。なお、この場合の確定属性は大文字
のＯとなる。

【００３９】同様に、２番目の規則は、文字列Ｘが人名
であることを示す属性ｐと、文字列Ｙが組織修飾名であ
ることを示す属性ｉとが連結して現れる場合、文字列Ｘ
と文字列Ｙとの連結文字列ＸＹを確定組織名として良い
ことを表している。その他の規則も同様である。

【００４０】（Ａ−２）第１の実施形態の動作続いて、以上の構成を有する自然言語処理装置による情
報の抽出動作を説明する。なお、本実施形態において
は、入力されたテキストデータから、地名、人名、組織
名等の固有名詞を抽出するものとする。また、以下の説
明では、テキストデータとして、『つくば市で鈴木電気
と埼玉ガスの技術展示会があった。』が入力されたもの
とする。

【００４１】（ａ１）領域分割処理入力されたテキストデータは、領域分割処理部１に入力
される。ここで、領域分割処理部１は、テキストをひら
がな領域と非ひらがな領域に分割する。その際、領域分
割処理部１は、前述したように、図４示す記号と文頭、
文末の文字はひらがなと同じ扱い、図３の分割規則に基
づいて１段目の分割処理（図２のステップ１００）を行
う。

【００４２】この結果、『つくば［市］で［鈴木電気］
と［埼玉ガス］の［技術展示会］があった。』が、処理
結果として得られる。

【００４３】次に、領域分割処理部１は、「ひらがな領
域」の文字列と、ひらがな固有語辞書４に格納されてい
る全ての「ひらがな混じり語」とを照合し、「ひらがな
領域」に現れる固有語の抽出を行う。

【００４４】そして、領域分割処理部１は、一致した文
字列部分にタグを付し［つくば］［市］で［鈴木電気］
と［埼玉ガス］の［技術展示会］があった。

【００４５】を得る。なお、領域分割処理部１は、処理
の後、］［という文字列が現れた場合これを削除し、
「ひらがな語領域」と「非ひらがな領域」を接続するた
め、前述の文を、『［つくば市］で［鈴木電気］と［埼
玉ガス］の［技術展示会］があった。』のように変更す
る。

【００４６】（ａ２）基本語分解処理かかる処理が終了すると、次は、基本語分解処理部２に
よる「非ひらがな領域」の基本語への分解処理が行われ
る。

【００４７】このとき、基本語分解処理部２は、基本語
辞書５を用いて所定の分解処理を実行するが、基本語辞
書５に格納されていた基本語に対しては、同時にその属
性が付される。この実施形態では、属性として付される
小文字ｌは地名を、ｐは人名を、ｓは地名接辞を、ｉは
組織修飾名（組織名の一部であり、業種を表す語）を、
ｔは組織接辞を、ｆは人名接辞を表すものとする。

【００４８】また、この実施形態における基本語分解処
理部２は、左側優先の最長優先方法により分割方法を決
定する。この結果、前述の文は、『［ｌつくばｌ］［ｓ
市ｓ］で［ｐ鈴木ｐ］［ｉ電気ｉ］と［ｌ埼玉ｌ］［ｉ
ガスｉ］の［ｉ技術ｉ］［展示会］があった。』に分解
される。

【００４９】なおここで、「展示会」に属性が付与され
ていないのは、この例で用いる基本語辞書５に、当該語
が含まれていないためである。

【００５０】（ａ３）属性確定処理このような分割処理が行われると、次は、前段の分割処
理により得られた属性に基づいて、属性付与処理部３
が、各「非ひらがな領域」の属性の確定処理を行う。な
お、前述したように、この属性の確定処理は、属性付与
規則格納部６に格納する規則と一致する属性の組が存在
する「非ひらがな領域」についてのみ行われる。

【００５１】前述の文の場合、「［ｌつくばｌ］［ｓ市
ｓ］」の部分が図７の規則３に適合し、「［ｐ鈴木ｐ］
［ｉ電気ｉ］」の部分が図７の規則２に適合し、「［ｌ
埼玉ｌ］［ｉガスｉ］の部分に規則１が適合する。

【００５２】従って、前述の文は、『［Ｌつくば市Ｌ］
で［Ｏ鈴木電気Ｏ］と［Ｏ埼玉ガスＯ］の［ｉ技術ｉ］
［展示会］があった。』となる。

【００５３】この結果を得ると、属性付与処理部３は、
次に、大文字の確定属性が付されているタグのみを保存
し、属性のないタグや英小文字の属性の付されているタ
グは不確定属性であるとして除去する。

【００５４】この結果、属性付与処理部３からは、
『［Ｌつくば市Ｌ］で［Ｏ鈴木電気Ｏ］と［Ｏ埼玉ガス
Ｏ］の技術展示会があった。』のように、入力時のテキ
ストデータに対し、確定属性タグが挿入されたテキスト
データが最終的な抽出情報として出力されることにな
る。

【００５５】（Ａ−３）第１の実施形態の効果以上のように、この第１の実施形態によれば、入力され
た日本語のテキストデータから、地名、人名、組織名と
いった情報の抽出を行うことができる。しかも、この第
１の実施形態の場合には、予め文字種（「ひらがな領
域」と「非ひらがな領域」）に応じてテキストデータを
区分けしてから基本語に分解する処理を行うため、従来
方式のように、全てのテキストデータを形態素解析する
場合に比して、その計算量を大幅に軽減することができ
る。

【００５６】また、組織名などは、さらに基本的な語の
組み合せに分解することにしたので、辞書量を削減する
ことができる。例えば、銀行名を抽出する場合には、存
在する銀行の名称をすべて辞書に登録して照合する方法
では、銀行名を収集することが大きな手間となる上、辞
書も大きくなる。これに対し、この第１の実施形態で
は、これを基本語に分解し、「地名＋”銀行”」となる
語は銀行名であるというように定義することで、データ
作成の手間を省き、辞書サイズの大幅な低減を実現でき
る。

【００５７】（Ｂ）第２の実施形態（Ｂ−１）第２の実施形態の構成（ａ）全体構成続いて、本発明に係る情報抽出装置を、自然言語処理装
置に適用する場合の第２の実施形態を、図面を用いて詳
述する。

【００５８】図８に、第２の実施形態に係る自然言語処
理装置の構成を示す。ここで、図８には、図１と同一対
応部分に対応同一符号を付している。

【００５９】図８からも分かるように、この第２の実施
形態に係る自然言語処理装置の特徴は、前述の第１の実
施形態に係る自然言語処理装置に対し、新たな処理モジ
ュール「新出語獲得処理部７」を付け加えた点と、新た
な記憶領域「新出語獲得規則格納部８及び不要語辞書
９」を付け加えた点である。

【００６０】従って、ここでは、第１の実施形態と異な
る部分のみを説明し、同一部分についての説明は省略す
る。

【００６１】（ｂ）各部の構成（ｂ１）新出語獲得処理部７まず、新たに付加された処理モジュール、すなわち、新
出語獲得処理部７の構成を説明する。この新出語獲得処
理部７は、情報抽出対象となるテキストデータに含まれ
る基本語辞書５に存在しない可能性のある語を、新出語
獲得規則格納部８に格納されている規則を用いて予め獲
得しておく手段である。

【００６２】なお、この新出語獲得処理部７は、文字種
と接辞の組を用いて新出語を獲得すると、獲得された語
を基本語辞書５に登録するようになっている。ただし、
かかる規則で得られる語の全てが正しい情報の抽出とは
限らないので、新出語獲得処理部７は、獲得された語を
基本語辞書５に登録するのに先立ち、不要語辞書９に格
納されている語との照合を行い、不適切な語を予め除去
するようになっている。

【００６３】（ｂ２）新出語獲得規則格納部８新出語獲得規則格納部８は、新出語獲得処理部７で使用
する規則を格納する記憶領域である。ここで、新出語獲
得規則格納部８には、獲得に用いる条件（文字種と接辞
の組）と、条件に一致する文字列のうちどの部分が新出
語として獲得すべきものか、そしてその属性は何かを表
す情報とが格納されている。図９は、その一例である。

【００６４】例えば、第１の規則は、テキストデータ中
に、条件「カタカナ列＋（州，市，町，村，公園）＋ひ
らがな」に一致する文字列があれば、その文字列中の
「カタカナ文字列」の部分を「地名」として抽出すると
の情報が格納されている。なお、条件中にある括弧内の
コロンは、条件の論理和を意味し、括弧内にあるいずれ
かの語と前後の条件との組を満たせば良いことを表して
いる。

【００６５】同様に、第２の規則は、テキストデータ中
から、人名を獲得するための条件とその取り扱い情報と
を格納し、第３の規則は、テキストデータ中から、組織
名を獲得するための条件とその取り扱い情報とを格納し
ている。

【００６６】（ｂ３）不要語辞書９不要語辞書９は、新出語獲得処理部７により誤った語が
基本語辞書５に格納されないようにするため、新出語と
して誤って獲得される可能性のある不要語の一覧を保持
している記憶領域である。

【００６７】例えば、「スポーツ公園は」という文字列
が文中に含まれる場合、前述の新出語獲得処理部７は、
図９の第１の規則を適合し、「スポーツ」という文字列
を「地名」として抽出してしまう。しかし、これは明ら
かに誤りである。そこで、図１０に示すように、不要語
辞書９に、「スポーツ」という語と、「地名」という属
性の組を格納しておけば、事前に誤った語の獲得を除外
することができる。

【００６８】（Ｂ−２）第２の実施形態の動作続いて、以上の構成を有する自然言語処理装置による情
報の抽出動作を説明する。なお、本実施形態の場合も、
入力されたテキストデータから、地名、人名、組織名等
の固有名詞を抽出するものとする。また、以下の説明で
は、テキストデータとして、『昨日、テキサス州のダラ
ス市で、鈴木電気工業株式会社が工場操業を開始し
た。』が入力されたものとする。

【００６９】（ａ１）新出語獲得処理入力されたテキストデータは、新出語獲得処理部７に入
力される。ここで、新出語獲得処理部７は、新出語獲得
規則格納部８に格納されている規則を用い、規則の条件
に一致する文字列が含まれているかの照合を行う。

【００７０】この入力文の場合、「テキサス州の」（す
なわち、カタカナ列＋州＋ひらがな）と、「ダラス市
で」（すなわち、カタカナ列＋市＋ひらがな」の箇所が
第１の規則に適合する。また、「鈴木電気工業株式会社
が」（すなわち、漢字文字列＋株式会社＋ひらがな」の
箇所が第３の規則に適合する。

【００７１】従って、新出語獲得処理部７は、「テキサ
ス」と「ダラス」を地名として、「鈴木電気工業」を組
織名として獲得する。これを表しているのが、図１１で
ある。なお、この例の場合、獲得された３つの語は、不
要語辞書９に格納されている語のいずれとも一致しない
ため、そのまま基本語辞書５に追加登録される。

【００７２】また、この段階での処理は、新出語の獲得
が目的であるので、入力文に対しては何らのタグその他
の記号の挿入は行われない。

【００７３】（ａ２）その後の処理その後の処理は、ほぼ第１の実施形態で説明したのと同
様に実行される。すなわち、領域分割処理部１における
処理により、入力文は、『［昨日］、［テキサス州］の
［ダラス市］で、［鈴木電気工業株式会社］が［工場操
業］を［開始］した。』に変換される。

【００７４】次に、この文は、基本語分解処理部２に入
力され、基本語に分解される。ただし、この動作は、第
２の実施形態に固有の動作となる。すなわち、前述の第
１の実施形態では、「テキサス」、「ダラス」、「鈴木
電気工業」なる語が基本語辞書に当初から登録されてい
なければ、それらの語の属性を特定できない。

【００７５】しかし、この第２の実施形態の場合には、
新出語獲得処理部７によりこれら語が既に獲得され登録
されているので、属性の特定が可能となり、入力文は、
『［昨日］、［ｌテキサスｌ］［ｓ州ｓ］の［ｌダラス
ｌ］［ｓ市ｓ］で、［ｍ鈴木電気工業ｍ］［ｔ株式会社
ｔ］が［工場操業］を［開始］した。』のようになる。
なおここでは、組織名の属性をｍで表している。

【００７６】この後、この文は、属性付与処理部３に入
力され、前述した図７の規則に基づいて、以下のよう
に、その属性が確定される。その結果、前述の入力文
は、『昨日、［Ｌテキサス州Ｌ］の［Ｌダラス市Ｌ］
で、［Ｏ鈴木電気工業株式会社Ｏ］が工場操業を開始し
た。』となり、地名と組織名の部分に確定属性タグが挿
入された状態の抽出情報が得られる。

【００７７】（Ｂ−３）第２の実施形態の効果以上のように、この第２の実施形態によれば、処理対象
となるテキストデータ中に、基本語辞書５に格納されて
いないような新出語が含まれる場合にも、これを事前に
獲得して、適切な属性の付与が可能となることにより、
これら新出語を含めた適切な情報抽出を可能とできる。

【００７８】（Ｃ）第３の実施形態（Ｃ−１）第３の実施形態の構成（ａ）全体構成続いて、本発明に係る情報抽出装置を、自然言語処理装
置に適用する場合の第２の実施形態を、図面を用いて詳
述する。

【００７９】図１２に、第３の実施形態に係る自然言語
処理装置の構成を示す。ここで、図１２には、図１と同
一対応部分に対応同一符号を付している。

【００８０】図１２からも分かるように、この第３の実
施形態に係る自然言語処理装置の特徴は、前述の第１の
実施形態に係る自然言語処理装置に対し、新たな処理モ
ジュール「略称マッチング処理部１０」を付け加えた点
である。

【００８１】従って、ここでは、第１の実施形態と異な
る部分のみを説明し、同一部分についての説明は省略す
る。ただし、第１の実施形態では、属性付与処理部３か
ら抽出情報が出力される時点で、属性の確定できなかっ
た部分（以下「不確定属性領域」という。）からタグを
除去していたが、この第２の実施形態では、この部分の
タグもそのまま除去されずに出力されるものとする。

【００８２】（ｂ）各部の構成（ｂ１）略称マッチング処理部１０略称マッチング処理部１０は、属性付与処理部３で抽出
され、属性が決定された語を利用して、属性が不明であ
る「非ひらがな領域」から略称を推定し、属性を付与す
る手段である。このような処理を行うのは、日本語その
他の自然言語の場合、固有名詞である正式名称の略称が
頻繁に用いられるためである。例えば、日本銀行に対す
る日銀、自由民主党に対する自民党等である。

【００８３】しかし、かかる略称は、固有名詞以上に多
く存在するのに加え、使用する個人によっても、また、
文献によっても使用される略称の内容が異なることも多
い。従って、考え得る全ての略称を辞書に登録してお
き、これとの照合により属性を特定するといった処理を
行うことは事実上困難である。

【００８４】その一方、多くの略称は、正式名称に使わ
れている文字列の順番を保ったまま、これを構成する各
文字の幾つかを選択的に組み合わせて構成されているこ
とが多い。そこで、この略称マッチング処理部１０で
は、かかる規則を利用し、既に抽出した正式名称を用い
ることにより、略称の抽出を行う。

【００８５】すなわち、略称マッチング処理部１０は、
まず、不確定属性領域の語を構成する文字の先頭文字
と、属性の確定した正式名称を構成する各文字とをその
先頭から順に照合し、一致が確認されれば、次に、不確
定文字側の次の文字と正式名称側のそれ以降に現れる文
字とを照合し、照合する正式名称側の文字がなくなるま
でに不確定文字の全てが一致するか否かで略語か否かの
判定を行う。

【００８６】図１３に、略称の抽出に用いる処理手順の
概要を示す。なお、Ｐ（ｍ）は、正式名称である文字列
の先頭からｍ文字目の文字を表し、Ｐ（ｎ）は、不確定
文字列の先頭からｎ文字目の文字を表すものとする。ま
た、正式名称の文字数をＭとし、不確定文字の文字数を
Ｎとする。

【００８７】まず、略称マッチング処理部１０は、パラ
メータｍとｎを、共に１に設定する（ステップ２０
０）。このことは、各文字列の先頭文字を指定したこと
を意味する。次に、略称マッチング処理部１０は、パラ
メータｍとｎで与えられる文字数目の各文字Ｐ（ｍ）と
Ｐ（ｎ）とが一致するか判定する（ステップ２０１）。
なお、当該処理の開始直後では、先頭文字同士について
の判定となる。

【００８８】ここで、一致が確認されると、略称マッチ
ング処理部１０は、一致の確認された文字が不確定文字
の最終文字（Ｎ番目の文字）か否か判定し（ステップ２
０２）、否定結果が得られた場合には、次の判定に移行
すべく、それぞれ一致の確認された文字に続く文字（ｍ
＋１番目の文字とｎ＋１番目の文字）を次の比較対象文
字に更新する（ステップ２０３）。

【００８９】一方、ステップ２０１における判定で不一
致が確認された場合には、略称マッチング処理部１０
は、正式名称側の次の文字と比較を行うべく、パラメー
タｍをｍ＋１に変更し（ステップ２０４）、その後、変
更後の文字が正式名称側の最終文字（Ｍ＋１番目の文
字）でないか否かを判定する（ステップ２０５）。この
判定では、ステップ２０１で比較される文字が正式名称
側の最終文字（Ｍ番目）であった場合を除き、常に否定
結果が得られる。

【００９０】そして、このステップ２０５において肯定
結果が得られるまでに（すなわち、照合する正式名称側
の文字がなくなるまでに）、ステップ２０２の肯定結果
が先に得られれば、不確定文字が照合した正式名称の略
語であると判定し（ステップ２０６）、そうでなけれ
ば、略語でないと判定する（ステップ２０７）。

【００９１】（Ｃ−２）第３の実施形態の動作続いて、以上の構成を有する自然言語処理装置による情
報の抽出動作を説明する。なお、本実施形態の場合も、
入力されたテキストデータから、地名、人名、組織名等
の固有名詞を抽出するものとする。また、以下の説明で
は、テキストデータとして、『日本銀行は、日銀の援助
方針について発表した。』が入力されたものとする。

【００９２】ただし、略称マッチング処理以前の処理
は、第１の実施形態の場合と同じであるので、ここで
は、属性付与処理部３による処理が終了した段階以降の
処理を説明する。なお、前述したように、属性付与処理
部３の出力には、不確定属性領域を示すタグがそのまま
保存されている。

【００９３】従って、属性付与処理部３からは、『［Ｏ
日本銀行Ｏ］は、［日銀］の［援助方針］について［発
表］した。』なる文が出力されることになる。

【００９４】略称マッチング処理部１０は、この文を入
力すると、既に抽出された固有名詞の収集を用い、不確
定属性領域中にこれらの略称に相当する語が含まれてい
ないかの判定を行う。なお、この例の場合、「日本銀
行」が既に抽出された固有名詞に相当し、「日銀」、
「援助方針」、「発表」の３つが略語の候補となる。

【００９５】まず、略称マッチング処理部１０は、「日
本銀行」と「日銀」とのマッチングを、図１３の処理手
順に基づいて行う。この場合には、「日銀」の１文字目
が「日本銀行」の１文字目と一致し、「日銀」の２文字
目が「日本銀行」の３文字目と一致するので、固有名詞
である「日本銀行」の全ての文字に対するマッチングが
終了する前に照合が終わり、「日銀」は「日本銀行」の
略称と推定されることになる。これにより、「日銀」に
は、正式名称「日本銀行」に付されているのと同じ属
性、すなわち組織名の属性Ｏが付与される。

【００９６】次に、略称マッチング処理部１０は、「日
本銀行」と「援助方針」とのマッチングを、図１３の処
理手順に基づいて行う。この場合は、一文字も一致する
文字が存在しないので、略称マッチング処理部１０は、
ステップ２０１−２０４−２０５−２０１のループを繰
り返し、パラメータｍが５に更新された時点で、略称で
ないとの結論が出される。なお、「発表」についてのマ
ッチング処理も同様である。

【００９７】この結果、略称マッチング処理部１０から
は、最終的な出力として、『［Ｏ日本銀行Ｏ］は、［Ｏ
日銀Ｏ］の援助方針について発表した。』が出力され
る。

【００９８】なお、略称マッチング処理部１０は、この
後、略称と判断された語を基本語辞書５に記録する。こ
れにより、これ以降の処理において、別のテキストデー
タ中に同一の略称が出現した場合には、当該テキストデ
ータ中から正式名称を抽出できなくても、当該略称に対
して適正な属性を付与することが可能となる。

【００９９】（Ｃ−３）第３の実施形態の効果以上のように、この第３の実施形態によれば、処理対象
となるテキストデータ中に、基本語辞書５に格納されて
いない新出語として略語が含まれる場合にも、正式名称
の抽出さえできていれば、その略称の検出を可能とし、
適切な属性を付与することができる。

【０１００】また、検出できた略称を基本語辞書５に登
録するため、他のテキストデータの処理中に同一の略語
が単独で現れる場合にも、その検出と属性の付与を可能
とでき、情報抽出能力の向上を実現できる。

【０１０１】（Ｄ）第４の実施形態（Ｄ−１）第４の実施形態の構成続いて、本発明に係る情報抽出装置を、自然言語処理装
置に適用する場合の第４の実施形態を、図面を用いて詳
述する。

【０１０２】図１４に、第４の実施形態に係る自然言語
処理装置の構成を示す。ここで、図１４には、図１と同
一対応部分に対応同一符号を付している。

【０１０３】図１４からも分かるように、この第４の実
施形態に係る自然言語処理装置の特徴は、前述の第１の
実施形態に係る自然言語処理装置に対し、新たな処理モ
ジュール「合成略称検出処理部１１」を付け加えた点
と、新たな記憶領域「略称生成規則格納部１２」を付け
加えた点である。

【０１０４】従って、ここでは、第１の実施形態と異な
る部分のみを説明し、同一部分についての説明は省略す
る。ただし、第１の実施形態では、属性付与処理部３か
ら抽出情報が出力される時点で、属性の確定できなかっ
た部分（以下「不確定属性領域」という。）からタグを
除去していたが、この第４の実施形態では、この部分の
タグもそのまま除去されずに出力されるものとする。ま
た、属性の確定した部分についても、これを構成する基
本語とその属性の情報がそのまま保存されて出力される
ものとする。

【０１０５】（ｂ）各部の構成（ｂ１）合成略称検出処理部１１合成略称検出処理部１１は、属性付与処理部３で属性の
確定された固有名詞の文字列を、略称生成規則格納部１
２に格納されている規則と照合し、当該文字列から考え
られる略称を生成する処理と、生成された略称と未確定
属性領域の語とを照合し、一致した語に略称の生成に用
いた固有名詞の属性と同じ属性を付与する処理を実行す
る手段である。

【０１０６】すなわち、この合成略称検出処理部１１
は、属性の確定した固有名詞からその略称を推定し、推
定された略称と一致する文字列を未確定属性領域中から
抽出する。この点が、第３の実施形態との違いである。

【０１０７】（ｂ２）略称生成規則格納部１２略称生成規則格納部１２は、固有名詞を構成する基本語
の組み合わせから考えられる略称の生成規則を格納する
手段である。ここで、略称生成規則格納部１２には、
「適用条件」とその「生成略称」とが組として格納され
ている。図１５は、その一例である。なお、適用条件中
の（）で囲まれた部分が基本語であり、（）内の「ｘ」
が任意の属性を、また英大文字が基本語の先頭一文字
を、さらに「＊」が先頭以降の全ての文字を表してい
る。

【０１０８】例えば、規則番号１は、属性の確定された
固有名詞が、２つの基本語から構成される場合、その２
つの基本語の先頭一文字を結合したＡＢを略語とすべき
ことを規定している。例えば、「（ｌ東京ｌ）（ｉ大学
ｉ）」からは、「東大」という略語が得られる。

【０１０９】また、規則番号２は、属性の確定された固
有名詞が、３つの基本語から構成される場合であって、
１番目の基本語が地名であり、２番目及び３番目の基本
語が組織修飾名であるときは、１番目及び２番目の基本
語の先頭一文字を結合したＡＢと３番目の基本語Ｃ＊を
結合したＡＢＣ＊を略語とすべきことを規定している。
例えば、「（ｌ日本ｌ）（ｉ経済ｉ）（ｉ新聞ｉ）」か
らは、「日経新聞」という略称が得られる。

【０１１０】（Ｄ−２）第４の実施形態の動作続いて、以上の構成を有する自然言語処理装置による情
報の抽出動作を説明する。なお、本実施形態において
は、入力されたテキストデータから、地名、人名、組織
名等の固有名詞を抽出するものとする。

【０１１１】以下の説明では、テキストデータとして、
『日本銀行は、日銀の援助方針について発表した。』が
入力されたものとする。

【０１１２】ただし、この実施形態の場合も、合成略称
検出処理以前の処理は、第１の実施形態の場合と同じで
あるので、ここでは、属性付与処理部３による処理が終
了した段階以降の処理を説明する。なお、前述したよう
に、属性付与処理部３の出力には、不確定属性領域を示
すタグがそのまま保存されており、また、属性の確定し
た部分にもそれを構成する基本語の情報とその属性情報
が保存されている。

【０１１３】従って、属性付与処理部３からは、『［Ｏ
（ｌ日本ｌ）（ｉ銀行ｉ）Ｏ］は、［日銀］の［援助方
針］について［発表］した。』なる文が出力されること
になる。

【０１１４】合成略称検出処理部１１は、この文を入力
すると、既に抽出された固定名詞の収集を行う。そし
て、略称生成規則格納部１２に格納されている適用条件
に合う固定名詞が存在するかをチェックする。もし、適
合する固有名詞がある場合には、規則に従って略称を生
成し、生成された規則を一時的に記録する。例文の場
合、「日本銀行」が、既に抽出された固有名詞に当た
り、これに規則番号１が合致するため、略称「日銀」を
生成し、これを一時的に記録する。

【０１１５】このように、略称が生成され記録される
と、次に、合成略称検出処理部１１は、不確定属性領域
を検索し、先に求めた略称と同一の文字列が存在するか
否かを確認する。そして、同一の文字列が存在する場合
には、その領域部分に、一致した略称を生成するのに用
いた固有名詞と同じ属性を付与する。例文では、最初の
不確定属性領域である「日銀」の文字列が、生成された
略称と等しいため、この領域に「日本銀行」と同じ属性
「Ｏ」を付与する。

【０１１６】この結果、合成略称検出処理部１１から
は、最終的な出力として、『［Ｏ日本銀行Ｏ］は、［Ｏ
日銀Ｏ］の援助方針について発表した。』が出力され
る。

【０１１７】なお、合成略称検出処理部１１は、この
後、略称と判断された語であり、実際にテキストデータ
中に存在していたものを、基本語辞書５に記録する。こ
れにより、これ以降の処理において、別のテキストデー
タ中に同一の略称が出現した場合には、当該テキストデ
ータ中から正式名称を抽出できなくても、当該略称に対
して適正な属性を付与することが可能となる。

【０１１８】（Ｄ−４）第４の実施形態の効果以上のように、この第４の実施形態によれば、処理対象
とするテキストデータ中に、基本語辞書５に格納されて
いない新出語として略語が含まれる場合にも、正式名称
の抽出さえできていれば、その略称の検出を可能とし、
適切な属性を付与することができる。

【０１１９】しかもその際、抽出された固有名詞と略称
生成規則とを照合し、適用条件に一致した固有名詞につ
いては、その条件に従って略称を生成するため、本来あ
り得ないような語が略称として現れる可能性を低減で
き、抽出情報の信頼性を一層高めることができる。

【０１２０】また、検出できた略称を基本語辞書５に登
録するため、他のテキストデータの処理中に同一の略語
が単独で現れる場合にも、その検出と属性の付与を可能
とでき、情報抽出能力の向上を実現できる。

【０１２１】（Ｅ）第５の実施形態（Ｅ−１）第５の実施形態の構成続いて、本発明に係る情報抽出装置を、自然言語処理装
置に適用する場合の第５の実施形態を、図面を用いて詳
述する。

【０１２２】図１６に、第５の実施形態に係る自然言語
処理装置の構成を示す。ここで、図１６には、図１と同
一対応部分に対応同一符号を付している。

【０１２３】図１６からも分かるように、この第５の実
施形態に係る自然言語処理装置の特徴は、前述の第１の
実施形態に係る自然言語処理装置に対し、新たな処理モ
ジュール「固有名集計処理部１３」を付け加えた点であ
る。

【０１２４】従って、ここでは、第１の実施形態と異な
る部分のみを説明し、同一部分についての説明は省略す
る。

【０１２５】（ｂ）各部の構成（ｂ１）固有名集計処理部１３固有名集計処理部１３は、属性付与処理部３で抽出され
たタグ付きの情報を、テキストデータを構成する文、段
落、記事などを単位として、その単位中に現れるタグ付
き情報の属性ごとに整理し集計する手段である。なお、
固有名集計処理部１３は、後段の処理で必要とされる場
合には、集計後の情報を表形式で出力するようになって
いる。

【０１２６】（Ｅ−２）第５の実施形態の動作続いて、以上の構成を有する自然言語処理装置による情
報の抽出動作を説明する。なお、本実施形態において
は、入力されたテキストデータから、地名、人名、組織
名の固有名詞や日付けについての情報を抽出するものと
する。

【０１２７】以下の説明では、テキストデータとして、
『国防総省は十五日、イラクでの米軍機による米ヘリコ
プター撃墜事件を受け、同国北部の飛行禁止空域内での
米軍戦闘機による十五日の偵察飛行を中止することを明
らかにした。またペリー国防長官は同日、ＡＢＣテレビ
などのインタビュー番組で、誤射事件の真相を明らかに
するための調査委員会が既に発足し、責任者がトルコに
向かったと述べた。』が入力されたものとする。

【０１２８】ただし、この実施形態の場合も、合成略称
検出処理以前の処理は、第１の実施形態の場合と同じで
あるので、ここでは、属性付与処理部３による処理が終
了した段階以降の処理を説明する。なお、この実施形態
では、固有名だけでなく、日付に関する情報もタグ付け
されている。

【０１２９】従って、属性付与処理部３からは、『［Ｏ
国防総省Ｏ］は［Ｄ十五日Ｄ］、［ＬイラクＬ］での
［Ｏ米軍Ｏ］機による［Ｌ米Ｌ］ヘリコプター撃墜事件
を受け、同国北部の飛行禁止空域内での［Ｏ米軍Ｏ］戦
闘機による［Ｄ十五日Ｄ］の偵察飛行を中止することを
明らかにした。また［ＰペリーＰ］国防長官は同日、
［ＯＡＢＣテレビＯ］などのインタビュー番組で、誤射
事件の真相を明らかにするための調査委員会が既に発足
し、責任者が［ＬトルコＬ］に向かったと述べた。』な
る文が出力される。

【０１３０】固有名集計処理部１３は、この文を入力す
ると、文、段落、記事などの文書単位と属性との２次元
で、抽出された情報の集計を行う。ここでは、文を単位
として、集計を行うものとする。なお、文の区切りは句
点により判別することができる。

【０１３１】その集計結果の表示例を、図１７に示す。
この集計結果を用いれば、例えば、文番号１には、日付
についての情報と、組織名についての情報と、地名につ
いての情報が含まれること、その内容は、「十五日」、
「国防省」等であることを即座に把握することが可能と
なる。勿論、集計の次元には、この他に頻度を用いても
良い。

【０１３２】（Ｅ−３）第５の実施形態の効果以上のように、この第５の実施形態によれば、テキスト
データ中から必要な属性の情報のみを選択的に抽出し一
覧表として出力することができ、ユーザの利用勝手を一
段と向上できる。

【０１３３】（Ｆ）他の実施形態 (a) なお、上述の実施形態においては、テキストデータ
入力後の処理手順について述べたが、テキストデータ
は、ストレージ装置等から読み出される静的なデータフ
ァイルに限らず、キーボード、マウス、ＯＣＲ（光学式
文字認識装置）、音声認識装置等からリアルタイムで入
力されるものでも良い。また、ネットワーク等の通信路
を介し外部から電子メールやネットニュース等の形態で
受信されるものでも良い。

【０１３４】(b) また、上述の実施形態においては、テ
キストデータを、文中に現れる各文字が「ひらがな」か
「非ひらがな」かで分割する場合について述べたが、こ
の際、テキストデータ中に現れる漢字を特定する漢字コ
ードの種類については特に問わない。例えば、漢字コー
ドは、ＥＵＣやシフトＪＩＳ形式であっても良い。

【０１３５】(c) また、上述の実施形態においては、処
理対象とする自然言語を日本語とする場合について述べ
たが、他の自然言語を処理対象とする場合にも適用し得
る。

【０１３６】(d) また、上述の第３の実施形態において
は、抽出された固有名詞を用いてその略称を推定し、さ
らに、推定された略称と一致する名称が同文中に存在す
るか否か検索する場合について述べたが、推定に用いる
名詞は抽出された固有名詞に限らず、基本語辞書に登録
されている語の全て又は一部としても良い。

【０１３７】(e) また、上述の第３の実施形態において
は、正式名称である固有名詞から略称を推定し、当該推
定された略称を用いて一致する文字列を文中から検索す
る場合について述べたが、その反対に略称から正式名称
を推定し、推定された正式名称に一致する文字列を文中
から検索するようにしても良い。

【０１３８】(f) また、第１〜第４の実施形態において
は、テキストデータ中から抽出された情報部分に、当該
属性に固有の属性情報タグを埋め込んで出力する場合に
ついて述べたが、この属性情報タグを表示用タグに変換
し、表示の際に情報が強調されるようにしても良い。例
えば、属性情報タグを、ＨＴＭＬ（Hypertext Markup L
anguage ）の手法で、その属性ごとに色を換えたり、文
字の大きさを変換するタグに変換し、ＷＷＷブラウザで
表示することにより、抽出情報を強調した表示としても
良い。

【０１３９】(g) また、第５の実施形態においては、抽
出情報を表形式にまとめた場合について述べたが、最終
的出力形態としてＣＳＶ（Comma Separated Value ）形
式にしたり、表計算ソフトのファイル形式にしても良
い。

【０１４０】(h) また、第１の実施形態においては、領
域分割処理と、基本語分解処理と、属性付与処理の３つ
の処理全てを組み合わせた実施形態について述べたが、
領域分割処理と既存の技術とを組み合わせる場合にも適
用し得る。また、これに、基本語分解処理を組み合わせ
る場合にも適用し得る。

【０１４１】(I) また、第２〜第５の実施形態において
は、各実施形態に固有の処理を第１の実施形態と組み合
わせる場合について述べたが、かかる技術の組み合わせ
はこれに限らず、既存の技術と組み合わせる場合にも適
用し得る。その場合にも、各処理に固有の効果を得るこ
とができる。

【０１４２】

【発明の効果】上述の第１の発明によれば、形態素解析
前に、文書中に現れる各文字を、文頭から順番に、特定
の文字種のまとまりとその他の文字種のまとまりとに分
割し、１又は複数の文字からなる２種類の部分文字列に
分割する領域分割処理部を備えることにより、分割によ
り得られた部分文字列を対象として形態素解析を行うこ
とができ、文書全体を形態素解析する場合に比して、必
要とされる計算量を格段に低減できる。

【０１４３】また、第２の発明によれば、形態素解析前
に、処理対象とする文書中から特定の文字種列と接辞と
からなる文字列を検出し、検出された文字列のうち特定
の文字種列の部分を、当該文字種列と共に現れた接辞に
より確定される属性の語として、単語辞書に予め登録す
る新出語獲得処理部を備えることにより、形態素解析の
対象となる文書中に未知語が含まれる場合にも、これを
形態素解析に先立ち特定して単語辞書に登録でき、その
後に実行される形態素解析の精度の向上を図ることがで
きる。

【０１４４】さらに、第３の発明によれば、形態素解析
結果に、属性未定の文字列が出現する場合、当該文字列
を略称に有する固有名詞が単語辞書に含まれているか否
か検索し、当該文字列を略称とする固有名詞が検出され
た場合、検出された固有名詞に付されている属性を、当
該文字列の属性として付与する略称マッチング処理部を
備えることにより、単語辞書に該当する語が存在しなく
ても、その文字列が、単語辞書に登録されている固有名
詞の略称に該当する場合には、その抽出を可能とできる
ため、形態素解析精度の一層の向上を図ることができ
る。

【０１４５】さらに、第４の発明によれば、形態素解析
の結果に属性未定の文字列が出現する場合、当該文字列
を正式名称に有する略称が単語辞書に含まれているか否
か検索し、当該文字列を正式名称とする略称が検出され
た場合、検出された略称に付されている属性を、当該文
字列の属性として付与する正式名称マッチング処理部を
備えることにより、単語辞書に該当する語が存在しなく
ても、その文字列が、単語辞書に登録されている略称の
正式名称に該当する場合には、その抽出が可能とできる
ため、形態素解析精度の一層の向上を図ることができ
る。

【０１４６】さらに、第５の発明によれば、形態素解析
結果に属性未定の文字列が出現する場合、当該文字列中
に、単語辞書に含まれる正式名称に所定の略称生成規則
を適用することにより生成される略称と一致する文字列
が存在するか否かを判断し、一致する文字列が存在して
いたとき、当該略称の生成に供した正式名称に付されて
いる属性を、当該文字列の属性として付与する合成略称
検出処理部を備えることにより、単語辞書に該当する語
が存在しなくても、その文字列が、単語辞書に登録され
ている固有名詞の略称に該当する場合には、その抽出を
可能とできるため、形態素解析精度の一層の向上を図る
ことができる。また、この際、所定の略称生成規則に基
づいて生成した略称との一致の有無を検出するため、略
称でない語が誤って略称と判断される可能性を低減で
き、その精度を一層向上できる。

【図面の簡単な説明】

【図１】第１の実施形態の構成を示すブロック図であ
る。

【図２】分割処理部で実行される分割処理手順の一例を
示すフローチャートである。

【図３】分割規則例を示す図表である。

【図４】ひらがなと等価に扱う記号群を示す図表であ
る。

【図５】ひらがな固有語辞書例を示す図表である。

【図６】基本語辞書に格納されている基本語の登録例を
示す図表である。

【図７】属性付与規則格納部に格納されている規則例を
示す図表である。

【図８】第２の実施形態の構成を示すブロック図であ
る。

【図９】新出語抽出規則格納部に格納されている規則例
を示す図表である。

【図１０】不要語辞書例を示す図表である。

【図１１】新たに追加された新出語情報の一例を示す図
表である。

【図１２】第３の実施形態の構成を示すブロック図であ
る。

【図１３】略称マッチング処理手順を示すフローチャー
トである。

【図１４】第４の実施形態の構成を示すブロック図であ
る。

【図１５】略称生成規則格納部に格納されている規則例
を示す図表である。

【図１６】第５の実施形態の構成を示すブロック図であ
る。

【図１７】抽出された情報の表示例を示す図である。

【符号の説明】

１…領域分割処理部、２…基本語分解処理部、３…属性
付与処理部、４…ひらがな固有語辞書、５…基本語辞
書、６…属性付与規則格納部、７…新出語獲得処理部、
８…新出語獲得規則格納部、９…不要語辞書、１０…略
称マッチング処理部、１１…合成略称検出処理部、１２
…略称生成規則格納部、１３…固有名集計処理部。抽出
された情報の表示例を示す図である。

Claims

【特許請求の範囲】

【請求項１】自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、形態素解析前に、文書中に現れる各文字を、文頭から順
番に、特定の文字種のまとまりとその他の文字種のまと
まりとに分割し、１又は複数の文字からなる２種類の部
分文字列に分割する領域分割処理部を備えることを特徴
とする情報抽出装置。
【請求項２】請求項１に記載の情報抽出装置におい
て、各部分文字列の基本語への分解可能性を判断し、分割可
能な部分文字列について、これを複数の基本語に分解す
る基本語分解処理部をさらに備えたことを特徴とする情
報抽出装置。
【請求項３】請求項２に記載の情報抽出装置におい
て、部分文字列を構成する基本語の組から特定可能な属性
を、当該部分文字列の全体に対する確定属性として付与
する属性付与処理部をさらに備えることを特徴とする情
報抽出装置。
【請求項４】請求項１に記載の情報抽出装置におい
て、上記自然言語が日本語である場合、上記領域分割処理部
は、文書中に現れる各文字を、文頭から順番に、平仮名
のみのまとまりである平仮名領域と平仮名以外の文字種
のまとまりである非平仮名領域に分割することを特徴と
する情報抽出装置。
【請求項５】請求項４に記載の情報抽出装置におい
て、上記領域分割処理部は、特定の固有語を含む平仮名領域
を、当該領域と連続する非平仮名領域に結合することを
特徴とする情報抽出装置。
【請求項６】請求項４又は５に記載の情報抽出装置に
おいて、上記基本語分解処理部は、上記非平仮名領域のみを対象
に、部分文字列を複数の基本語に分解する処理を実行す
ることを特徴とする情報抽出装置。
【請求項７】自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、形態素解析前に、処理対象とする文書中から特定の文字
種列と接辞とからなる文字列を検出し、検出された文字
列のうち特定の文字種列の部分を、当該文字種列と共に
現れた接辞により確定される属性の語として、単語辞書
に予め登録する新出語獲得処理部を備えることを特徴と
する情報抽出装置。
【請求項８】請求項７に記載の情報抽出装置におい
て、上記新出語獲得処理部は、検出された文字種列を登録す
るのに先立ち、当該文字種列と推定された属性が登録の
禁止されている語か否か判断し、登録の禁止されている
語であると判定された場合には、当該文字種列の単語辞
書への登録を中止することを特徴とする情報抽出装置。
【請求項９】自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、形態素解析結果に、属性未定の文字列が出現する場合、
当該文字列を略称に有する固有名詞が単語辞書に含まれ
ているか否か検索し、当該文字列を略称とする固有名詞
が検出された場合、検出された固有名詞に付されている
属性を、当該文字列の属性として付与する略称マッチン
グ処理部を備えることを特徴とする情報抽出装置。
【請求項１０】請求項９に記載の情報抽出装置におい
て、上記略称マッチング処理部は、属性未定の文字列を構成
する各文字の順番を保ち、かつ、それらの文字を全て含
む固有名詞が存在する場合、上記文字列を当該固有名詞
に対応する略称であると判定することを特徴とする情報
抽出装置。
【請求項１１】自然言語で記述された文書より、必要
な情報を抽出する情報抽出装置において、形態素解析の結果に属性未定の文字列が出現する場合、
当該文字列を正式名称に有する略称が単語辞書に含まれ
ているか否か検索し、当該文字列を正式名称とする略称
が検出された場合、検出された略称に付されている属性
を、当該文字列の属性として付与する正式名称マッチン
グ処理部を備えることを特徴とする情報抽出装置。
【請求項１２】請求項１１に記載の情報抽出装置にお
いて、上記正式名称マッチング処理部は、属性未定の文字列を
構成する各文字の一部からなり、かつ、その順番を保つ
略称が存在する場合、上記文字列を当該略称に対応する
正式名称であると判定することを特徴とする情報抽出装
置。
【請求項１３】自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、形態素解析結果に属性未定の文字列が出現する場合、当
該文字列中に、単語辞書に含まれる正式名称に所定の略
称生成規則を適用することにより生成される略称と一致
する文字列が存在するか否かを判断し、一致する文字列
が存在していたとき、当該略称の生成に供した正式名称
に付されている属性を当該文字列の属性として付与する
合成略称検出処理部を備えることを特徴とする情報抽出
装置。
【請求項１４】請求項９〜１３のいずれかに記載の情
報抽出装置は、新たに属性の確定された略称又は正式名称を、基本語と
して、単語辞書に登録することを特徴とする情報抽出装
置。
【請求項１５】請求項１〜１４のいずれかに記載の情
報抽出装置は、属性の確定により抽出された文字列からなる情報を、
文、段落、記事その他の文書単位と属性とで分類し出力
することを特徴とする情報抽出装置。
【請求項１６】請求項１〜１４のいずれかに記載の情
報抽出装置は、属性の確定により抽出された文字列からなる情報に、そ
の属性を表すタグを付して出力することを特徴とする情
報抽出装置。