JP2002334076A

JP2002334076A - テキスト処理方法

Info

Publication number: JP2002334076A
Application number: JP2001139563A
Authority: JP
Inventors: Seiki Uchimoto; 清貴内元; Hitoshi Isahara; 均井佐原
Original assignee: Communications Research Laboratory
Current assignee: Communications Research Laboratory
Priority date: 2001-05-10
Filing date: 2001-05-10
Publication date: 2002-11-22

Abstract

(57)【要約】【課題】テキスト処理に含まれる各過程で少ない学習
データを基に学習を行い、コンピュータによって高精度
なテキスト処理を可能にすること。【解決手段】統語構造を解析する解析過程と、統語構
造からテキストを生成する生成過程とから構成されるテ
キスト処理方法が、形態素解析処理及び、係り受け解析
処理、語順学習決定処理を含む構成において、解析過程
と生成過程とを相互に繰り返して実行し、形態素解析処
理及び、係り受け解析処理、語順学習決定処理の少なく
ともいずれかにおける規則性を、演繹的に学習する学習
機能を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、日本語等の言語か
らなるテキストをコンピュータを用いて解析・生成する
方法に関するものである。

【０００２】

【従来の技術】コンピュータによって言語のテキストを
解析する技術、或いは生成する技術は、言語処理を行う
上で必須の技術であり、機械翻訳や、要約システムを実
現する上で欠かせない。しかし、言語は曖昧性を有して
おり、完全な規則性によって構成されるものではないば
かりか、自然な言い回しの存在や、語順の自由度の高さ
など、コンピュータによって処理を行う際には障害とな
る問題が非常に多い。そこで、テキスト処理方法につい
ては様々な研究がなされている。

【０００３】従来の手法としては、人間によって作成さ
れたテキストを、大量の人手をかけて解析し、該解析に
基づいて導かれた規則性をコンピュータに記憶させ、コ
ンピュータは規則性に基づいて、別なテキストを解析・
生成する方法がある。しかし、この手法では解析を行う
ことに膨大な人手とコストを要するばかりでなく、コン
ピュータは与えられた規則性のみで解析・生成を行うた
め、人手によって解析された以上の規則性をコンピュー
タが獲得することがない。そのため、人間が解析した対
象テキストに類似のテキストであれば、一定の精度で解
析・生成することができるが、別種のテキストの場合に
は、解析精度が低下することがあり、与えられた規則性
のみでテキストの解析・生成を行うには限界があった。
そして、大量の人手を要さずに容易に実現でき、しかも
様々なテキストに対応する高精度なテキスト処理方法は
未だ実現されていない。

【０００４】

【発明が解決しようとする課題】本発明は、上記従来技
術の有する問題点に鑑みて創出されたものであり、その
目的は、テキスト処理に含まれる各過程で少ない学習デ
ータを基に学習を行い、コンピュータによって高精度な
テキスト処理を可能にすることである。

【０００５】

【課題を解決するための手段】本発明は、上記の課題を
解決するために、次のような情報埋込方法を創出する。
すなわち、言語の解析・生成に関わるコンピュータのテ
キスト処理方法であって、該テキスト処理方法が、統語
構造を解析する解析過程と、統語構造からテキストを生
成する生成過程とから構成される。該解析過程では、テ
キストを文法上最小の単位を構成する形態素に分解し、
それぞれの形態素に対して文法的属性を決定する形態素
解析処理及び、テキスト内の単数又は連続する複数の形
態素からなる文節について、ある文節が、他のいずれの
文節を修飾するかを解析する係り受け解析処理の各処理
を含む。また、該生成過程では、言語の語順の学習と決
定を行う語順学習決定処理を含む。本構成において、解
析過程と生成過程とを相互に繰り返して実行し、形態素
解析処理及び、係り受け解析処理、語順学習決定処理の
少なくともいずれかにおける規則性を、演繹的に学習す
る学習機能を備える。

【０００６】前記形態素解析処理が、テキストから該テ
キストを構成する文字列の候補を、組み合わせを変えて
取り出す構成であって、取り出した文字列の候補が形態
素であるか否か、又は取り出した文字列の候補の文法的
属性が、予め定められた文法的属性群の内のいずれであ
るかの少なくともいずれかの確率を前記規則性から算出
する。そして、テキストを構成する全ての文字列毎に求
められた確率を、互いに積算し、該積が最大値となる文
字列の候補の組み合わせ、又は各形態素の文法的属性の
組み合わせの少なくともいずれかを求め、形態素解析処
理を行ってもよい。

【０００７】前記係り受け解析処理が、テキストの文末
から順に、相対的前方にある前文節と、それより後方に
ある後文節との２つの文節を、組み合わせを変えて取り
出す構成であって、該前文節が、前文節と該後文節との
間にある文節を修飾する関係である確率、該前文節が、
該後文節を修飾する関係である確率、該前文節が、該後
文節よりも後方にある文節を修飾する関係である確率を
それぞれ前記規則性から算出し、該テキストの各文節に
該当する該各確率を、互いに積算することに基づいて係
り受け確率を決定してもよい。そして、前記係り受け解
析処理が、テキストを構成する全ての文節の組み合わせ
における前記係り受け確率を、互いに積算し、該積が最
も高くなるように各々の係り受け関係を決定する方法で
あってもよい。

【０００８】前記語順学習決定処理において、テキスト
内で、係り受け関係にある文節であって、該係り文節が
２個以上存在する場合に、該係り文節を２個ずつ抽出し
て、それらの順序を学習し、該学習をテキスト内の各文
節について行い、その学習結果を保存する語順モデルを
構築してもよい。さらに、上記の場合に、係り文節を２
個ずつ抽出して、それらが順序をなす確率を前記語順モ
デルに基づいて算出すると共に、全ての係り文節につい
て該確率を求め、それら全ての確率を互いに積算し、該
積が最大となるような係り文節の順序によって語順を決
定するテキスト処理方法でもよい。

【０００９】前記解析過程より得られた統語構造から、
特定の事物を指す固有表現の抽出を行ってもよい。

【００１０】

【発明の実施の形態】以下、本発明の実施方法を図面に
示した実施例に基づいて説明する。なお、本発明の実施
形態は以下に限定されず、適宜変更可能である。以下に
おいては、テキストの１例として、日本語によるテキス
トを挙げて説述するが、本発明の実施方法は、性質上実
現出来ない場合を除き、いかなる言語に対しても適用可
能である。図１に本発明におけるテキスト処理方法
（１）の説明図を示す。

【００１１】ここで、テキスト処理とはテキスト（１
０）を解析し、そこから統語構造（１１）を得る、ある
いは、統語構造（１１）からテキスト（１０）を生成す
る処理のことである。本発明においては、統語構造（１
１）を解析する解析過程と、統語構造（１１）からテキ
スト（１０）を生成する生成過程とを循環的に行うこと
を特徴とし、解析過程には形態素解析（１２）及び、係
り受け解析（１３）の各処理を含み、生成過程には語順
の学習生成処理（１４）を含む。さらに、統語構造（１
１）から意味解析過程である固有表現抽出（１５）処理
を行い、該処理において固有表現の学習・抽出を可能と
している。

【００１２】このようにテキストと統語構造とを関連付
ける処理が可能となることにより、様々な応用が期待さ
れる。例えば、これらの処理により得られた統語構造を
日本語以外の対象言語の統語構造へマッピングすること
により、翻訳が可能となるし、得られた統語構造から重
要な部分だけを残して生成することにより、テキストの
要約が可能となる。また、意味解析によって得られた固
有表現は、情報抽出のための重要な基礎情報であるだけ
でなく、形態素解析、構文解析にフィードバックするこ
とにより、より高精度の解析結果を得るための手掛かり
となり得る情報である。以下、各処理について詳述す
る。

【００１３】初めに、本発明における各処理で採用する
最大エントロピーモデル（以下、ＭＥモデルと呼ぶ。）
につき説述する。ＭＥモデルでは、文脈、すなわち観測
される情報は、素性と呼ばれる個々の要素によって表さ
れる。そして、１個の文がある素性を満たすか否かを表
す２値関数を導入する。該２値関数を用い、素性が既知
のテキスト中に現れる期待値が、未知なテキスト中にお
いても変わらないという制約のもと、文が生起する確率
を推定する。そして、各々の素性には、学習に用いるデ
ータにおける確率分布のエントロピーが最大になるよう
に重み付けを行う。このエントロピーを最大にするとい
う操作によって、既知データに観測されなかったような
素性、或いは稀にしか観測されなかった素性について
は、それぞれの出力値に対して確率値が等確率になるよ
うに、或いは近付くように、重み付けされる。以上によ
って、ＭＥモデルによる確率分布は、素性を引数とする
関数として表される。

【００１４】一般に確率モデルでは、文脈、すなわち観
測される情報と、そのときに得られる出力値との関係は
既知のデータから推定される確率分布によって表され
る。いろいろな状況に対してできるだけ正確に出力値を
予測するためには文脈を細かく定義する必要があるが、
細かくしすぎると既知のデータにおいてそれぞれの文脈
に対応する事例の数が少なくなりデータが疎らになる問
題、すなわちデータスパースネスの問題が生じる。

【００１５】しかし、ＭＥモデルにおいては、上記のよ
うに未知のデータに対して考慮した重み付けがなされる
ため上記データスパースネスの問題に効果的に対応する
ことができる。すなわち、ＭＥモデルは例えば言語現象
などのように既知データにすべての現象が現れ得ないよ
うな現象を扱うのに適したモデルであり、本発明では、
該モデルをテキスト処理における各処理過程に採用して
いる。

【００１６】本発明におけるテキストから統語構造を導
出する解析過程に、ＭＥモデルを適用する実施例を次に
示す。まず、形態素解析処理についてその方法を説述す
る。図２に、「先生になった」というテキストを形態素
解析する事例を示す。ここで形態素解析の形態素とは、
単語や接辞など、文法上、最小の単位となる要素のこと
である。そして、形態素解析とは、与えられた文を形態
素の並びに分解し、それぞれの形態素に対し文法的属
性、例えば品詞や活用などを決定する処理のことであ
る。例えば、上記の例によると、「先生」、「に」、
「なった」がそれぞれ形態素として見出し語に分類さ
れ、それぞれに読みや基本形と共に、文法的属性が付与
される。

【００１７】従来の形態素解析において問題となってい
るのは、辞書に登録されていない、あるいは学習に用い
るテキストに現れないが形態素となり得る単語（以下、
未知語と呼ぶ。）をどのように扱うかということであ
る。この未知語の問題に対処するため、従来は大きく２
つの方法がとられている。その１つは未知語を自動獲得
し、辞書に登録する方法であり、もう１つは未知語でも
解析できるようなモデルを作成する方法である。本実施
例では、この両者の利点を生かすため、前者の方法で獲
得した単語を辞書に登録し、後者のモデルにその辞書を
利用できる仕組みを取り入れている。そして、これらの
手法をＭＥモデルによって実現することにより、辞書の
情報を学習する機構を容易に組み込めるだけでなく、字
種や字種変化などの情報を用いて学習に用いるテキスト
から未知語の性質を学習することもできるようになっ
た。

【００１８】本実施例ではＭＥモデルに適用するため
に、形態素としての尤もらしさを確率として表す。すな
わち、文が与えられたとき、その文を形態素解析すると
いう問題は文を構成する各文字列に、２つの識別符号の
うち１つ、つまり、形態素であるか否かを示す「１」又
は「０」を割り当てる問題に置き換えることができる。
さらに、形態素である場合には文法的属性を付与するた
めに「１」を文法的属性の数だけ分割する。すると、文
法的属性の数がｎ個のとき、各文字列に「０」から
「ｎ」までのうちいずれかの識別符号を割り当てる問題
に置き換えることができる。

【００１９】したがって、本実施例における形態素解析
にＭＥモデルを用いた手法では、文字列が、形態素であ
って、かついずれかの文法的属性を持つとしたときの尤
もらしさを前記ＭＥモデルにおける確率分布の関数に適
用することで求められる。形態素解析においてはこの尤
もらしさを表す確率に、規則性を見い出すことで処理を
行っている。用いる素性としては、着目している文字列
の字種の情報、その文字列が辞書に登録されているかど
うか、１つ前の形態素からの字種の変化、１つ前の形態
素の品詞などの情報を用いる。１個の文が与えられたと
き、文全体で確率の積が最大になるよう形態素に分割し
文法的属性を付与する。最適解の探索には適宜公知のア
ルゴリズムを用いることができる。なお、用いる素性は
任意に変更可能である。

【００２０】本発明における形態素解析にＭＥモデルを
用いた手法は、従来からの未知語の問題に効果的に対応
することができる。たとえば、形態素等を詳細に解析済
みのあるテキストを用いた実験では、全形態素に対して
区切りと品詞を正しく推定できた割合が約９６％という
高精度な結果を得ている。また、実験により、辞書の精
度に及ぼす影響の大きさ、および、本手法が、固有名
詞、人名、組織名、地名など未知語になりやすいものに
対して比較的に推定精度がよいことが分かっている。

【００２１】さらに解析過程においては、係り受け解析
にも、ＭＥモデルによる解析手法を取り入れている。次
にこの点につき詳述する。どの文節がどの文節を修飾す
るかという日本語の係り受け関係には、主に以下の特徴
があるとされている。すなわち、（１）係り受けは前方から後方に向いている。（２）係り受け関係は交差しない。（以下、これを非交
差条件と呼ぶ。）（３）係り要素は受け要素を1 つだけもつ。（４）ほとんどの場合、係り先の決定には前方の文脈を
必要としない。本実施例では、これらの特徴に着目し、統計的手法と文
末から文頭に向けて解析する方法を組み合わせることに
より高い解析精度を得ることを実現した。

【００２２】本手法では、文末から順に２つずつ文節を
取り上げ、それらが係り受けの関係にあるかどうかを統
計的に決定する。その際、文節あるいは文節間にみられ
る情報を素性として利用するが、どのような素性を利用
するかが精度に影響する。文節は、前の主辞にあたる部
分と後ろの助詞や活用形にあたる部分に分けて考え、そ
れぞれの素性とともに文節間の距離や句読点の有無など
も素性として考慮した。さらに括弧の有無や文節間の助
詞「は」の有無、係り側の文節と同じ助詞や活用形が文
節間にもあるか否か、素性間の組み合わせについても考
慮している。

【００２３】ＭＥモデルによればこういった様々な素性
を扱うことができる。そして、この方法では決定木や最
尤推定法などを用いた従来の手法に比べて学習データの
大きさが１０分の１程度であるにも関わらず、同程度以
上の精度が得られる。この手法は学習に基づくシステム
として、最高水準の精度を得られる手法である。さら
に、本実施例ではさらに高精度化を図るため、次の手法
を取り入れている。すなわち、従来は、学習データから
得られる情報を基に、２つの文節が係り受け関係にある
か否かを予測するのに有効な素性を学習していたが、本
実施例では、新たに前文節が「後文節を越えて先にある
文節に係る」「後文節に係る」「後文節との間にある文
節に係る」の３つの状態のどれであるかを予測するのに
有効な情報を学習するシステムを開発した。

【００２４】次に、実際にこのモデルから係り受け確率
がどのように求まるかを示す。図３に、ある文節( 一番
左の文節) より後方に５つの文節がある場合に、係り先
の候補となる各文節との関係における確率を示す。図中
で、「越える」（３１）は上記「後文節を越えて先にあ
る文節に係る」を表し、「係る」（３２）は「後文節に
係る」、「間」（３３）は「後文節との間にある文節に
係る」に対応する。なお、本発明で言う規則性はこれら
確率に表れる。図４は、各候補に係る係り受け確率を求
める実施例である。このシステムでは文末から文頭に向
かって解析するため、ある文節より後方の文節について
は、破線の矢印で表されるような係り受け関係がすでに
決まったものとして説述する。候補１に係る係り受け確
率の算出を例に採ると、候補１が係り先であり、候補１
は候補２に、さらに候補５に係る。一方候補３は別個に
候補４に係り、さらに候補５に係る。

【００２５】この場合の係り元の文節に関する係り受け
確率は、次のように求める。すなわち、候補３及び４は
独立した係り受け関係であって、その確率は１とするこ
とができ、候補１に係る確率は図３より０．４であっ
て、候補１は係り元と、候補２及び候補５との間にある
ので、各確率は、それぞれ０．１、０．６となる。これ
をそれぞれ積算し、平方根をとることで、係り受け確率
を算出する。同様に、各候補について算出するが、この
とき、候補３と候補４は上記非交差条件を満たさないた
めに、この文節の係り先の候補とはなり得ない。ＭＥモ
デルを用いた係り受け解析では、１個の文全体の確率は
それぞれの文節について求めた係り受け確率の積で表さ
れ、非交差条件を満足する条件下で、その積の値が最も
高くなるように各々の係り受けを決めることになる。

【００２６】以上、統語構造を解析する解析過程におけ
る形態素解析と、係り受け解析にＭＥモデルを用いた実
施形態を示した。本発明においては、これらを必ずしも
用いる場合に限らず、任意の解析手法を用いることがで
きる。また、形態素解析や係り受け解析を含む限り、さ
らに他の解析処理を含んでも構わない。

【００２７】次に、生成過程における語順の学習生成過
程につき、ＭＥモデルを用いた手法を示す。日本語は語
順が自由であると言われている。しかし、これまでの言
語学的な調査によると実際には、時間を表す副詞の方が
主語より前に来やすい、長い修飾句を持つ文節は前に来
やすいといった何らかの傾向がある。もしこの傾向をう
まく整理することができれば、それは自然な文を生成す
る際に有効な情報となる。ここで語順とは、係り相互間
の語順、つまり同じ文節に係っていく文節の順序関係を
意味するものとする。語順を決定する要因にはさまざま
なものがあり、例えば、修飾句の長い文節は短い文節よ
り前に来やすい、「それ」などの文脈指示語を含む文節
は前に来やすい、などがあげられる。

【００２８】本発明においては、上記のような要素と語
順の傾向との関係、すなわち規則性を所定のテキストか
ら学習する手法を考案した。この手法では、語順の決定
にはどの要素がどの程度寄与するかだけでなく、どのよ
うな要素の組み合わせのときにどのような傾向の語順に
なるかということも学習に用いるテキストから演繹的に
学習することができる。個々の要素の寄与の度合はＭＥ
モデルを用いて効率良く学習する。係り文節の数によら
ず２つずつ取り上げてその順序を学習する。

【００２９】１つの実施例として、学習に用いるテキス
トに「昨日／太郎は／テニスを／した。」( ／は文節の
区切りを表す。) という文があった場合を考える。動詞
「した」に係る文節は「昨日」、「太郎は」、「テニス
を」の３つである。このうち２文節ずつ、つまり「昨
日」と「太郎は」、「昨日」と「テニスを」、「太郎
は」と「テニスを」の３つのペアを取り上げ、それぞれ
この語順が適切であると仮定して学習する。素性として
は文節の持つ属性などを考える。例えば、「昨日／太郎
は／した。」という関係からは「時相名詞」の方が「固
有名詞」より前に来るという情報、「太郎は／テニスを
／した。」という関係からは「は」格の方が「を」格よ
り前に来るという情報などを用いる。

【００３０】文を生成する際には、この学習したモデル
を用いて、係り受け関係にある文節を入力とし、その係
り文節の順序を決めることができる。語順の決定は次の
手順で行なう。まず、係り文節について可能性のある並
びをすべて考える。次に、それぞれの並びについて、そ
の係り文節の順序が適切である確率を学習したモデルを
用いて求める。この確率は、順序が適切であるか否かの
「０」または「１」に置き換え、前記ＭＥモデルにおけ
る確率分布の関数に適用することで求められる。そし
て、全体の確率が最大となる並びを解とする。全体の確
率は、係り文節を２つずつ取り上げたときその順序が適
切である確率を計算し、それらの積として求める。例え
ば、前記「昨日／太郎は／テニスを／した。」という文
において、動詞「した」に係る文節は「昨日」、「太郎
は」、「テニスを」の３つである。この３つの係り文節
の順序を以下の手順で決定する。

【００３１】図５に係り文節の順序が適切である確率の
計算例を示す。まず、２個の文節ずつ、すなわち「昨
日」と「太郎は」、「昨日」と「テニスを」、「太郎
は」と「テニスを」の３つの組み合わせを取り上げ、学
習した規則性によりそれぞれこの語順が適切である各確
率を求める。例えば、図において「昨日」「太郎は」の
語順になる確率は「ｐ^*（昨日，太郎は）」で表され、
その確率は０．６とする。同様に、「昨日」「テニス
を」は０．８、「太郎は」「テニスを」は０．７とする
と、図５における１段目の語順（５１）の確率は各確率
を積算し、０．３３６となる。次に、６つの語順（５１
ないし５６）の可能性すべてについて全体の確率を計算
し、最も確率の高いもの「昨日／太郎は／テニスを／し
た。」（５１）が最も適切な語順であるとする。

【００３２】学習されたモデルの性能は、そのモデルを
用いて語順を決めるテストを行ない、元の文における語
順とどの程度一致するかを調べることによって定量的に
評価することができる。学習したモデル、すなわち規則
性を用いて語順を決定させたとき、元のテキストと一致
する割合は、前記の解析済みテキストを使用した実験で
約７５％であった。さらに、一致しなかった語順におい
ても、その半数はモデルを用いて決定した語順でも不自
然ではなく、本発明において効果的な語順の学習・生成
が可能であることが示されている。

【００３３】最後に、本発明においては、上記一連の解
析過程及び生成過程に加え、意味解析システムを備え
る。すなわち、意味解析システムの１つとして、本発明
において、固有名詞で表されるような特定の事物を指す
固有表現を学習により自動抽出する固有表現抽出処理
（１５）のシステムを作成する。固有表現として抽出す
るのは、「特許庁」のように組織の名称を表すもの、
「川端康成」のように人名を表すもの、「神戸」のよう
に地名を表すもの、「スペースシャトル」のように固有
物の名称を表すものおよび、「９月２８日」、「午後３
時」、「１００万円」、「１０％」のように日付、時
間、金銭、割合を表す表現である。

【００３４】抽出方法は、以下の通りである。（１）テキストを単語( 正確には形態素) に分割して品
詞を割り当てる。例えば、「兵庫県内」は「兵庫( 名
詞) ／県内( 名詞) 」のように分割される。（２）各固有表現ごとに固有表現の始まり、中間、終
り、単独を表す識別符号（以下、ラベルと呼ぶ。）を用
意しておき、演繹的に学習した規則性に基づいて各々の
単語に対し付与するべきラベルを推定する。ラベルの推
定にはＭＥモデルを用いている。例えば、「兵庫（名
詞）／県内（名詞）」は「兵庫＜地名：単独＞／県内＜
ラベルなし＞」のように推定される。推定に用いる情報
は、着目している単語を含み前後２単語ずつ合計５単語
に関する見出し語、品詞の情報である。各ラベルの尤も
らしさを確率として計算し、１個の文全体における確率
の積の値が高くなり、かつラベルとラベルの間の連接規
則を満たすように付与するラベルを決める。１個の文に
おける最適解の探索には各処理段階における最適解をす
べて保持する公知のアルゴリズムを用いていることがで
きる。（３）システムがよく生じる誤りについてその誤りを訂
正する書き換え規則を予め規則性の１つとして用意して
おき、これを後処理に用いる。例えば、「兵庫＜地名：
単独＞／県内＜ラベルなし＞」は「兵庫県＜地名：単独
＞／内＜ラベルなし＞」のように書き換えられる。（４）最後にこの結果から「兵庫県」を地名として抽出
する。本発明における手法によると、人間のパフォーマンスの
９割程度の精度で固有表現を抽出でき、従来に比して効
果的な固有表現の抽出が可能となった。

【００３５】以上のように本発明では、解析から生成に
亙るテキスト処理を、最大エントロピーモデルを用いた
学習という一貫した枠組みで処理をしている。そして、
解析過程、すなわち形態素解析（単語の切り出し、品詞
推定）、係り受け解析や、固有表現抽出を行う意味解析
システムから、生成（語順の学習と決定）に至るまでの
各処理を、予め解析済みのテキストを用いた学習によっ
て実現する。さらにそれらを繰り返して実行することに
よって、少ない学習データにもかかわらず、大量の人手
をかけて作成される規則に基づく方法に近い精度を実現
でき、コストの抑制だけでなく、幅広い文章に対応可能
なテキスト処理方法を提供することができる。これら技
術は、自動翻訳技術や、テキストの要約技術に用いるだ
けでなく、例えば、コンピュータにおけるかな漢字変換
等、いかなる言語処理にも適用することが可能である。

【００３６】

【発明の効果】本発明は、以上の構成を備えるので、次
の効果を奏する。請求項１に記載のテキスト処理方法に
よると、解析過程及び生成過程を互いに繰り返して実行
することによって、学習を行う解析済みテキストが少な
い場合であっても、効果的に学習を行うことができ、高
精度なテキスト処理方法を提供することができる。これ
によって、コストの低廉化と共に、高機能化を図ること
ができる。

【００３７】請求項２に記載のテキスト処理方法による
と、形態素解析にＭＥモデルを適用することができるの
で、請求項１に記載の循環的な学習に好適であり、コン
ピュータにおける処理に馴染みやすい。これによって、
本発明におけるテキスト処理方法はより高精度化を図る
ことができ、処理の高速化にも寄与する。

【００３８】請求項３に記載のテキスト処理方法による
と、係り受け確率を定数的に求めることができるので、
より高精度な係り受け関係を導出することができ、ひい
ては高精度なテキスト処理方法に奉仕する。

【００３９】請求項４に記載のテキスト処理方法による
と、１個の文全体について全ての係り受け関係の確率を
求めるので、文全体として最適な係り受け関係を導出す
ることができ、高精度な係り受け解析が可能となる。こ
れにより高精度なテキスト処理方法に寄与する。

【００４０】請求項５に記載のテキスト処理方法による
と、学習によって語順モデルを構築するので、学習を行
う解析済みテキストが少ない場合であっても、効果的に
学習を行うことができ、高精度なテキスト処理方法を提
供することができる。

【００４１】請求項６に記載のテキスト処理方法による
と、請求項５の方法により構築された語順モデルを用い
ることができるので、最適な語順の決定を効果的に行う
ことができる。

【００４２】請求項７に記載のテキスト処理方法による
と、固有表現の抽出処理を行うので、形態素解析の精度
向上に寄与し、ひいては高精度なテキスト処理方法が実
現できる。

【図面の簡単な説明】

【図１】本発明によるテキスト処理方法の説明図

【図２】形態素解析の説明図

【図３】係り受け確率の算出実施例における各確率一覧
図

【図４】係り受け確率の算出実施例

【図５】語順の学習生成における順序が適切である確率
の計算例

【符号の説明】

１テキスト処理方法１０テキスト１１統語構造１２形態素解析処理１３係り受け解析処理１４語順の学習生成処理１５固有表現抽出処理３１後文節を越えて先にある文節に係る確率３２後文節に係る確率３３後文節との間にある文節に係る確率５１ないし５６係り文節の語順の並べ替え例

【手続補正書】

【提出日】平成１４年７月２６日（２００２．７．２
６）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】全文

【補正方法】変更

【補正内容】

【書類名】明細書

【発明の名称】テキスト処理方法

【特許請求の範囲】

【発明の詳細な説明】

【０００１】

【０００２】

【０００４】

【０００５】

【課題を解決するための手段】本発明は、上記の課題を
解決するために、次のようなテキスト生成方法を創出す
る。すなわち、言語の解析・生成に関わるコンピュータ
のテキスト処理方法であって、該テキスト処理方法が、
統語構造を解析する解析過程と、統語構造からテキスト
を生成する生成過程とから構成される。該解析過程で
は、テキストを文法上最小の単位を構成する形態素に分
解し、それぞれの形態素に対して文法的属性を決定する
形態素解析処理及び、テキスト内の単数又は連続する複
数の形態素からなる文節について、ある文節が、他のい
ずれの文節を修飾するかを解析する係り受け解析処理の
各処理を含む。また、該生成過程では、言語の語順の学
習と決定を行う語順学習決定処理を含む。本構成におい
て、解析過程と生成過程とを相互に繰り返して実行し、
最大エントロピーモデルを用いて学習する学習機能を備
える。最大エントロピーモデルを用いて学習するのは、
形態素解析処理においては、テキストから該テキストを
構成する文字列の候補を、組み合わせを変えて取り出
し、該取り出した文字列の候補が、形態素であって、か
ついずれかの文法的属性を持つとしたときの尤もらしさ
を表す形態素尤度確率、又は、係り受け解析処理におい
ては、該ある文節が、係り先の候補となる各文節との関
係における確率、語順学習決定処理においては、係り受
け関係にあるテキスト内の全ての係り文節の並びについ
て、その係り文節の順序が適切である確率の少なくとも
いずれかである。

【０００６】前記形態素解析処理が、前記形態素尤度確
率を前記最大エントロピーモデルにより算出すると共
に、テキストを構成する全ての文字列毎に求められた確
率を、互いに積算し、該積が最大値となる文字列の候補
の組み合わせ、又は各形態素の文法的属性の組み合わせ
の少なくともいずれかを求め、形態素解析処理を行って
もよい。

【０００７】前記係り受け解析処理が、テキストの文末
から順に、相対的前方にある前文節と、それより後方に
ある後文節との２つの文節を、組み合わせを変えて取り
出す構成であって、該前文節が、前文節と該後文節との
間にある文節を修飾する関係である確率、該前文節が、
該後文節を修飾する関係である確率、該前文節が、該後
文節よりも後方にある文節を修飾する関係である確率を
それぞれ前記最大エントロピーモデルにより算出し、該
テキストの各文節に該当する該各確率を、互いに積算す
ることに基づいて係り受け確率を決定してもよい。そし
て、前記係り受け解析処理が、テキストを構成する全て
の文節の組み合わせにおける前記係り受け確率を、互い
に積算し、該積が最も高くなるように各々の係り受け関
係を決定する方法であってもよい。

【０００８】前記語順学習決定処理において、テキスト
内で、係り受け関係にある文節であって、該係り文節が
２個以上存在する場合に、該係り文節を２個ずつ抽出し
て、それらの順序を前記最大エントロピーモデルを用い
て学習し、該学習をテキスト内の各文節について行い、
その学習結果を保存する語順モデルを構築してもよい。
さらに、上記の場合に、係り文節を２個ずつ抽出して、
それらが順序をなす確率を前記語順モデルに基づいて算
出すると共に、全ての係り文節について該確率を求め、
それら全ての確率を互いに積算し、該積が最大となるよ
うな係り文節の順序によって語順を決定するテキスト処
理方法でもよい。

【００１０】

【００２４】次に、実際にこのモデルから係り受け確率
がどのように求まるか示す。図３に、ある文節( 一番左
の文節) より後方に５つの文節がある場合に、係り先の
候補となる各文節との関係における確率を示す。図中
で、「越える」（３１）は上記「後文節を越えて先にあ
る文節に係る」を表し、「係る」（３２）は「後文節に
係る」、「間」（３３）は「後文節との間にある文節に
係る」に対応する。図４は、各候補に係る係り受け確
率を求める実施例である。このシステムでは文末から文
頭に向かって解析するため、ある文節より後方の文節に
ついては、破線の矢印で表されるような係り受け関係が
すでに決まったものとして説述する。候補１に係る係り
受け確率の算出を例に採ると、候補１が係り先であり、
候補１は候補２に、さらに候補５に係る。一方候補３は
別個に候補４に係り、さらに候補５に係る。

【００２８】本発明においては、上記のような要素と語
順の傾向との関係、すなわち規則性を所定のテキストか
ら学習する手法を考案した。この手法では、語順の決定
にはどの要素がどの程度寄与するかだけでなく、どのよ
うな要素の組み合わせのときにどのような傾向の語順に
なるかということも学習に用いるテキストから学習する
ことができる。個々の要素の寄与の度合はＭＥモデルを
用いて効率良く学習する。係り文節の数によらず２つず
つ取り上げてその順序を学習する。

【００３１】図５に係り文節の順序が適切である確率の
計算例を示す。まず、２個の文節ずつ、すなわち「昨
日」と「太郎は」、「昨日」と「テニスを」、「太郎
は」と「テニスを」の３つの組み合わせを取り上げ、Ｍ
Ｅモデルによりそれぞれこの語順が適切である各確率を
求める。例えば、図において「昨日」「太郎は」の語順
になる確率は「ｐ＊（昨日，太郎は）」で表され、その
確率は０．６とする。同様に、「昨日」「テニスを」は
０．８、「太郎は」「テニスを」は０．７とすると、図
５における１段目の語順（５１）の確率は各確率を積算
し、０．３３６となる。次に、６つの語順（５１ないし
５６）の可能性すべてについて全体の確率を計算し、最
も確率の高いもの「昨日／太郎は／テニスを／した。」
（５１）が最も適切な語順であるとする。

【００３４】抽出方法は、以下の通りである。（１）テキストを単語( 正確には形態素) に分割して品
詞を割り当てる。例えば、「兵庫県内」は「兵庫( 名
詞) ／県内( 名詞) 」のように分割される。（２）各固有表現ごとに固有表現の始まり、中間、終
り、単独を表す識別符号（以下、ラベルと呼ぶ。）を用
意しておき、学習結果に基づいて各々の単語に対し付与
するべきラベルを推定する。ラベルの推定にはＭＥモデ
ルを用いている。例えば、「兵庫（名詞）／県内（名
詞）」は「兵庫＜地名：単独＞／県内＜ラベルなし＞」
のように推定される。推定に用いる情報は、着目してい
る単語を含み前後２単語ずつ合計５単語に関する見出し
語、品詞の情報である。各ラベルの尤もらしさを確率と
して計算し、１個の文全体における確率の積の値が高く
なり、かつラベルとラベルの間の連接規則を満たすよう
に付与するラベルを決める。１個の文における最適解の
探索には各処理段階における最適解をすべて保持する公
知のアルゴリズムを用いていることができる。（３）システムがよく生じる誤りについてその誤りを訂
正する書き換え規則を予め規則性の１つとして用意して
おき、これを後処理に用いる。例えば、「兵庫＜地名：
単独＞／県内＜ラベルなし＞」は「兵庫県＜地名：単独
＞／内＜ラベルなし＞」のように書き換えられる。（４）最後にこの結果から「兵庫県」を地名として抽出
する。本発明における手法によると、人間のパフォーマンスの
９割程度の精度で固有表現を抽出でき、従来に比して効
果的な固有表現の抽出が可能となった。

【００３６】

【発明の効果】本発明は、以上の構成を備えるので、次
の効果を奏する。請求項１に記載のテキスト処理方法に
よると、解析過程及び生成過程を互いに繰り返して実行
することによって、学習を行う解析済みテキストが少な
い場合であっても、効果的に最大エントロピーモデルを
用いた学習を行うことができ、高精度なテキスト処理方
法を提供することができる。これによって、コストの低
廉化と共に、高機能化を図ることができる。

【００３７】請求項２に記載のテキスト処理方法による
と、形態素解析に最大エントロピーモデルを用いること
ができるので、請求項１に記載の循環的な学習に好適で
あり、コンピュータにおける処理に馴染みやすい。これ
によって、本発明におけるテキスト処理方法はより高精
度化を図ることができ、処理の高速化にも寄与する。

【図面の簡単な説明】

【図１】本発明によるテキスト処理方法の説明図

【図２】形態素解析の説明図

【図３】係り受け確率の算出実施例における各確率一覧
図

【図４】係り受け確率の算出実施例

【符号の説明】１テキスト処理方法１０テキスト１１統語構造１２形態素解析処理１３係り受け解析処理１４語順の学習生成処理１５固有表現抽出処理３１後文節を越えて先にある文節に係る確率３２後文節に係る確率３３後文節との間にある文節に係る確率５１ないし５６係り文節の語順の並べ替え例

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B009 MB25 5B091 AA15 CA02 CA06 CA24 CA26 EA01

Claims

【特許請求の範囲】

【請求項１】言語の解析・生成に関わるコンピュータの
テキスト処理方法であって、該テキスト処理方法が、統語構造を解析する解析過程と、統語構造からテキストを生成する生成過程とから構成さ
れ、該解析過程で、テキストを文法上最小の単位を構成する形態素に分解
し、それぞれの形態素に対して文法的属性を決定する形
態素解析処理及び、テキスト内の単数又は連続する複数の形態素からなる文
節について、ある文節が、他のいずれの文節を修飾するかを解析する
係り受け解析処理の各処理を含み、該生成過程で、言語の語順の学習と決定を行う語順学習決定処理を含む
構成において、解析過程と生成過程とを相互に繰り返して実行し、形態素解析処理及び、係り受け解析処理、語順学習決定
処理の少なくともいずれかにおける規則性を、演繹的に学習する学習機能を備えたことを特徴とするテ
キスト処理方法。
【請求項２】前記形態素解析処理が、テキストから該テキストを構成する文字列の候補を、組
み合わせを変えて取り出す構成であって、取り出した文字列の候補が形態素であるか否か、又は取り出した文字列の候補の文法的属性が、予め定め
られた文法的属性群の内のいずれであるかの少なくとも
いずれかの確率を前記規則性から算出すると共に、テキストを構成する全ての文字列毎に求められた確率
を、互いに積算し、該積が最大値となる文字列の候補の組み合わせ、又は各
形態素の文法的属性の組み合わせの少なくともいずれか
を求める方法である請求項１に記載のテキスト処理方
法。
【請求項３】前記係り受け解析処理が、テキストの文末から順に、相対的前方にある前文節と、
それより後方にある後文節との２つの文節を、組み合わ
せを変えて取り出す構成であって、該前文節が、前文節と該後文節との間にある文節を修飾
する関係である確率、該前文節が、該後文節を修飾する関係である確率、該前文節が、該後文節よりも後方にある文節を修飾する
関係である確率をそれぞれ前記規則性から算出し、該テキストの各文節に該当する該各確率を、互いに積算
することに基づいて係り受け確率を決定する請求項１又
は２に記載のテキスト処理方法。
【請求項４】前記係り受け解析処理が、テキストを構成する全ての文節の組み合わせにおける前
記係り受け確率を、互いに積算し、該積が最も高くなるように各々の係り受け関係を決定す
る方法である請求項３に記載のテキスト処理方法。
【請求項５】前記語順学習決定処理において、テキスト内で、係り受け関係にある文節であって、該係り文節が２個以上存在する場合に、該係り文節を２個ずつ抽出して、それらの順序を学習
し、該学習をテキスト内の各文節について行い、その学習結果を保存する語順モデルを構築する請求項１
ないし４に記載のテキスト処理方法。
【請求項６】前記語順学習決定処理において、テキスト内で、係り受け関係にある文節であって、該係り文節が２個以上存在する場合に、該係り文節を２個ずつ抽出して、それらが順序をなす確
率を前記語順モデルに基づいて算出すると共に、全ての係り文節について該確率を求め、それら全ての確率を互いに積算し、該積が最大となるような係り文節の順序によって語順を
決定する請求項５に記載のテキスト処理方法。
【請求項７】前記解析過程より得られた統語構造から、特定の事物を指す固有表現の抽出を行う請求項１ないし
６に記載のテキスト処理方法。