JP2002334076A - テキスト処理方法 - Google Patents

テキスト処理方法

Info

Publication number
JP2002334076A
JP2002334076A JP2001139563A JP2001139563A JP2002334076A JP 2002334076 A JP2002334076 A JP 2002334076A JP 2001139563 A JP2001139563 A JP 2001139563A JP 2001139563 A JP2001139563 A JP 2001139563A JP 2002334076 A JP2002334076 A JP 2002334076A
Authority
JP
Japan
Prior art keywords
text
dependency
learning
clause
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001139563A
Other languages
English (en)
Inventor
Seiki Uchimoto
清貴 内元
Hitoshi Isahara
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communications Research Laboratory
Original Assignee
Communications Research Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communications Research Laboratory filed Critical Communications Research Laboratory
Priority to JP2001139563A priority Critical patent/JP2002334076A/ja
Publication of JP2002334076A publication Critical patent/JP2002334076A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 テキスト処理に含まれる各過程で少ない学習
データを基に学習を行い、コンピュータによって高精度
なテキスト処理を可能にすること。 【解決手段】 統語構造を解析する解析過程と、統語構
造からテキストを生成する生成過程とから構成されるテ
キスト処理方法が、形態素解析処理及び、係り受け解析
処理、語順学習決定処理を含む構成において、解析過程
と生成過程とを相互に繰り返して実行し、形態素解析処
理及び、係り受け解析処理、語順学習決定処理の少なく
ともいずれかにおける規則性を、演繹的に学習する学習
機能を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日本語等の言語か
らなるテキストをコンピュータを用いて解析・生成する
方法に関するものである。
【0002】
【従来の技術】コンピュータによって言語のテキストを
解析する技術、或いは生成する技術は、言語処理を行う
上で必須の技術であり、機械翻訳や、要約システムを実
現する上で欠かせない。しかし、言語は曖昧性を有して
おり、完全な規則性によって構成されるものではないば
かりか、自然な言い回しの存在や、語順の自由度の高さ
など、コンピュータによって処理を行う際には障害とな
る問題が非常に多い。そこで、テキスト処理方法につい
ては様々な研究がなされている。
【0003】従来の手法としては、人間によって作成さ
れたテキストを、大量の人手をかけて解析し、該解析に
基づいて導かれた規則性をコンピュータに記憶させ、コ
ンピュータは規則性に基づいて、別なテキストを解析・
生成する方法がある。しかし、この手法では解析を行う
ことに膨大な人手とコストを要するばかりでなく、コン
ピュータは与えられた規則性のみで解析・生成を行うた
め、人手によって解析された以上の規則性をコンピュー
タが獲得することがない。そのため、人間が解析した対
象テキストに類似のテキストであれば、一定の精度で解
析・生成することができるが、別種のテキストの場合に
は、解析精度が低下することがあり、与えられた規則性
のみでテキストの解析・生成を行うには限界があった。
そして、大量の人手を要さずに容易に実現でき、しかも
様々なテキストに対応する高精度なテキスト処理方法は
未だ実現されていない。
【0004】
【発明が解決しようとする課題】本発明は、上記従来技
術の有する問題点に鑑みて創出されたものであり、その
目的は、テキスト処理に含まれる各過程で少ない学習デ
ータを基に学習を行い、コンピュータによって高精度な
テキスト処理を可能にすることである。
【0005】
【課題を解決するための手段】本発明は、上記の課題を
解決するために、次のような情報埋込方法を創出する。
すなわち、言語の解析・生成に関わるコンピュータのテ
キスト処理方法であって、該テキスト処理方法が、統語
構造を解析する解析過程と、統語構造からテキストを生
成する生成過程とから構成される。該解析過程では、テ
キストを文法上最小の単位を構成する形態素に分解し、
それぞれの形態素に対して文法的属性を決定する形態素
解析処理及び、テキスト内の単数又は連続する複数の形
態素からなる文節について、ある文節が、他のいずれの
文節を修飾するかを解析する係り受け解析処理の各処理
を含む。また、該生成過程では、言語の語順の学習と決
定を行う語順学習決定処理を含む。本構成において、解
析過程と生成過程とを相互に繰り返して実行し、形態素
解析処理及び、係り受け解析処理、語順学習決定処理の
少なくともいずれかにおける規則性を、演繹的に学習す
る学習機能を備える。
【0006】前記形態素解析処理が、テキストから該テ
キストを構成する文字列の候補を、組み合わせを変えて
取り出す構成であって、取り出した文字列の候補が形態
素であるか否か、又は取り出した文字列の候補の文法的
属性が、予め定められた文法的属性群の内のいずれであ
るかの少なくともいずれかの確率を前記規則性から算出
する。そして、テキストを構成する全ての文字列毎に求
められた確率を、互いに積算し、該積が最大値となる文
字列の候補の組み合わせ、又は各形態素の文法的属性の
組み合わせの少なくともいずれかを求め、形態素解析処
理を行ってもよい。
【0007】前記係り受け解析処理が、テキストの文末
から順に、相対的前方にある前文節と、それより後方に
ある後文節との2つの文節を、組み合わせを変えて取り
出す構成であって、該前文節が、前文節と該後文節との
間にある文節を修飾する関係である確率、該前文節が、
該後文節を修飾する関係である確率、該前文節が、該後
文節よりも後方にある文節を修飾する関係である確率を
それぞれ前記規則性から算出し、該テキストの各文節に
該当する該各確率を、互いに積算することに基づいて係
り受け確率を決定してもよい。そして、前記係り受け解
析処理が、テキストを構成する全ての文節の組み合わせ
における前記係り受け確率を、互いに積算し、該積が最
も高くなるように各々の係り受け関係を決定する方法で
あってもよい。
【0008】前記語順学習決定処理において、テキスト
内で、係り受け関係にある文節であって、該係り文節が
2個以上存在する場合に、該係り文節を2個ずつ抽出し
て、それらの順序を学習し、該学習をテキスト内の各文
節について行い、その学習結果を保存する語順モデルを
構築してもよい。さらに、上記の場合に、係り文節を2
個ずつ抽出して、それらが順序をなす確率を前記語順モ
デルに基づいて算出すると共に、全ての係り文節につい
て該確率を求め、それら全ての確率を互いに積算し、該
積が最大となるような係り文節の順序によって語順を決
定するテキスト処理方法でもよい。
【0009】前記解析過程より得られた統語構造から、
特定の事物を指す固有表現の抽出を行ってもよい。
【0010】
【発明の実施の形態】以下、本発明の実施方法を図面に
示した実施例に基づいて説明する。なお、本発明の実施
形態は以下に限定されず、適宜変更可能である。以下に
おいては、テキストの1例として、日本語によるテキス
トを挙げて説述するが、本発明の実施方法は、性質上実
現出来ない場合を除き、いかなる言語に対しても適用可
能である。図1に本発明におけるテキスト処理方法
(1)の説明図を示す。
【0011】ここで、テキスト処理とはテキスト(1
0)を解析し、そこから統語構造(11)を得る、ある
いは、統語構造(11)からテキスト(10)を生成す
る処理のことである。本発明においては、統語構造(1
1)を解析する解析過程と、統語構造(11)からテキ
スト(10)を生成する生成過程とを循環的に行うこと
を特徴とし、解析過程には形態素解析(12)及び、係
り受け解析(13)の各処理を含み、生成過程には語順
の学習生成処理(14)を含む。さらに、統語構造(1
1)から意味解析過程である固有表現抽出(15)処理
を行い、該処理において固有表現の学習・抽出を可能と
している。
【0012】このようにテキストと統語構造とを関連付
ける処理が可能となることにより、様々な応用が期待さ
れる。例えば、これらの処理により得られた統語構造を
日本語以外の対象言語の統語構造へマッピングすること
により、翻訳が可能となるし、得られた統語構造から重
要な部分だけを残して生成することにより、テキストの
要約が可能となる。また、意味解析によって得られた固
有表現は、情報抽出のための重要な基礎情報であるだけ
でなく、形態素解析、構文解析にフィードバックするこ
とにより、より高精度の解析結果を得るための手掛かり
となり得る情報である。以下、各処理について詳述す
る。
【0013】初めに、本発明における各処理で採用する
最大エントロピーモデル(以下、MEモデルと呼ぶ。)
につき説述する。MEモデルでは、文脈、すなわち観測
される情報は、素性と呼ばれる個々の要素によって表さ
れる。そして、1個の文がある素性を満たすか否かを表
す2値関数を導入する。該2値関数を用い、素性が既知
のテキスト中に現れる期待値が、未知なテキスト中にお
いても変わらないという制約のもと、文が生起する確率
を推定する。そして、各々の素性には、学習に用いるデ
ータにおける確率分布のエントロピーが最大になるよう
に重み付けを行う。このエントロピーを最大にするとい
う操作によって、既知データに観測されなかったような
素性、或いは稀にしか観測されなかった素性について
は、それぞれの出力値に対して確率値が等確率になるよ
うに、或いは近付くように、重み付けされる。以上によ
って、MEモデルによる確率分布は、素性を引数とする
関数として表される。
【0014】一般に確率モデルでは、文脈、すなわち観
測される情報と、そのときに得られる出力値との関係は
既知のデータから推定される確率分布によって表され
る。いろいろな状況に対してできるだけ正確に出力値を
予測するためには文脈を細かく定義する必要があるが、
細かくしすぎると既知のデータにおいてそれぞれの文脈
に対応する事例の数が少なくなりデータが疎らになる問
題、すなわちデータスパースネスの問題が生じる。
【0015】しかし、MEモデルにおいては、上記のよ
うに未知のデータに対して考慮した重み付けがなされる
ため上記データスパースネスの問題に効果的に対応する
ことができる。すなわち、MEモデルは例えば言語現象
などのように既知データにすべての現象が現れ得ないよ
うな現象を扱うのに適したモデルであり、本発明では、
該モデルをテキスト処理における各処理過程に採用して
いる。
【0016】本発明におけるテキストから統語構造を導
出する解析過程に、MEモデルを適用する実施例を次に
示す。まず、形態素解析処理についてその方法を説述す
る。図2に、「先生になった」というテキストを形態素
解析する事例を示す。ここで形態素解析の形態素とは、
単語や接辞など、文法上、最小の単位となる要素のこと
である。そして、形態素解析とは、与えられた文を形態
素の並びに分解し、それぞれの形態素に対し文法的属
性、例えば品詞や活用などを決定する処理のことであ
る。例えば、上記の例によると、「先生」、「に」、
「なった」がそれぞれ形態素として見出し語に分類さ
れ、それぞれに読みや基本形と共に、文法的属性が付与
される。
【0017】従来の形態素解析において問題となってい
るのは、辞書に登録されていない、あるいは学習に用い
るテキストに現れないが形態素となり得る単語(以下、
未知語と呼ぶ。)をどのように扱うかということであ
る。この未知語の問題に対処するため、従来は大きく2
つの方法がとられている。その1つは未知語を自動獲得
し、辞書に登録する方法であり、もう1つは未知語でも
解析できるようなモデルを作成する方法である。本実施
例では、この両者の利点を生かすため、前者の方法で獲
得した単語を辞書に登録し、後者のモデルにその辞書を
利用できる仕組みを取り入れている。そして、これらの
手法をMEモデルによって実現することにより、辞書の
情報を学習する機構を容易に組み込めるだけでなく、字
種や字種変化などの情報を用いて学習に用いるテキスト
から未知語の性質を学習することもできるようになっ
た。
【0018】本実施例ではMEモデルに適用するため
に、形態素としての尤もらしさを確率として表す。すな
わち、文が与えられたとき、その文を形態素解析すると
いう問題は文を構成する各文字列に、2つの識別符号の
うち1つ、つまり、形態素であるか否かを示す「1」又
は「0」を割り当てる問題に置き換えることができる。
さらに、形態素である場合には文法的属性を付与するた
めに「1」を文法的属性の数だけ分割する。すると、文
法的属性の数がn個のとき、各文字列に「0」から
「n」までのうちいずれかの識別符号を割り当てる問題
に置き換えることができる。
【0019】したがって、本実施例における形態素解析
にMEモデルを用いた手法では、文字列が、形態素であ
って、かついずれかの文法的属性を持つとしたときの尤
もらしさを前記MEモデルにおける確率分布の関数に適
用することで求められる。形態素解析においてはこの尤
もらしさを表す確率に、規則性を見い出すことで処理を
行っている。用いる素性としては、着目している文字列
の字種の情報、その文字列が辞書に登録されているかど
うか、1つ前の形態素からの字種の変化、1つ前の形態
素の品詞などの情報を用いる。1個の文が与えられたと
き、文全体で確率の積が最大になるよう形態素に分割し
文法的属性を付与する。最適解の探索には適宜公知のア
ルゴリズムを用いることができる。なお、用いる素性は
任意に変更可能である。
【0020】本発明における形態素解析にMEモデルを
用いた手法は、従来からの未知語の問題に効果的に対応
することができる。たとえば、形態素等を詳細に解析済
みのあるテキストを用いた実験では、全形態素に対して
区切りと品詞を正しく推定できた割合が約96%という
高精度な結果を得ている。また、実験により、辞書の精
度に及ぼす影響の大きさ、および、本手法が、固有名
詞、人名、組織名、地名など未知語になりやすいものに
対して比較的に推定精度がよいことが分かっている。
【0021】さらに解析過程においては、係り受け解析
にも、MEモデルによる解析手法を取り入れている。次
にこの点につき詳述する。どの文節がどの文節を修飾す
るかという日本語の係り受け関係には、主に以下の特徴
があるとされている。すなわち、 (1)係り受けは前方から後方に向いている。 (2)係り受け関係は交差しない。(以下、これを非交
差条件と呼ぶ。) (3)係り要素は受け要素を1 つだけもつ。 (4)ほとんどの場合、係り先の決定には前方の文脈を
必要としない。 本実施例では、これらの特徴に着目し、統計的手法と文
末から文頭に向けて解析する方法を組み合わせることに
より高い解析精度を得ることを実現した。
【0022】本手法では、文末から順に2つずつ文節を
取り上げ、それらが係り受けの関係にあるかどうかを統
計的に決定する。その際、文節あるいは文節間にみられ
る情報を素性として利用するが、どのような素性を利用
するかが精度に影響する。文節は、前の主辞にあたる部
分と後ろの助詞や活用形にあたる部分に分けて考え、そ
れぞれの素性とともに文節間の距離や句読点の有無など
も素性として考慮した。さらに括弧の有無や文節間の助
詞「は」の有無、係り側の文節と同じ助詞や活用形が文
節間にもあるか否か、素性間の組み合わせについても考
慮している。
【0023】MEモデルによればこういった様々な素性
を扱うことができる。そして、この方法では決定木や最
尤推定法などを用いた従来の手法に比べて学習データの
大きさが10分の1程度であるにも関わらず、同程度以
上の精度が得られる。この手法は学習に基づくシステム
として、最高水準の精度を得られる手法である。さら
に、本実施例ではさらに高精度化を図るため、次の手法
を取り入れている。すなわち、従来は、学習データから
得られる情報を基に、2つの文節が係り受け関係にある
か否かを予測するのに有効な素性を学習していたが、本
実施例では、新たに前文節が「後文節を越えて先にある
文節に係る」「後文節に係る」「後文節との間にある文
節に係る」の3つの状態のどれであるかを予測するのに
有効な情報を学習するシステムを開発した。
【0024】次に、実際にこのモデルから係り受け確率
がどのように求まるかを示す。図3に、ある文節( 一番
左の文節) より後方に5つの文節がある場合に、係り先
の候補となる各文節との関係における確率を示す。図中
で、「越える」(31)は上記「後文節を越えて先にあ
る文節に係る」を表し、「係る」(32)は「後文節に
係る」、「間」(33)は「後文節との間にある文節に
係る」に対応する。なお、本発明で言う規則性はこれら
確率に表れる。図4は、各候補に係る係り受け確率を求
める実施例である。このシステムでは文末から文頭に向
かって解析するため、ある文節より後方の文節について
は、破線の矢印で表されるような係り受け関係がすでに
決まったものとして説述する。候補1に係る係り受け確
率の算出を例に採ると、候補1が係り先であり、候補1
は候補2に、さらに候補5に係る。一方候補3は別個に
候補4に係り、さらに候補5に係る。
【0025】この場合の係り元の文節に関する係り受け
確率は、次のように求める。すなわち、候補3及び4は
独立した係り受け関係であって、その確率は1とするこ
とができ、候補1に係る確率は図3より0.4であっ
て、候補1は係り元と、候補2及び候補5との間にある
ので、各確率は、それぞれ0.1、0.6となる。これ
をそれぞれ積算し、平方根をとることで、係り受け確率
を算出する。同様に、各候補について算出するが、この
とき、候補3と候補4は上記非交差条件を満たさないた
めに、この文節の係り先の候補とはなり得ない。MEモ
デルを用いた係り受け解析では、1個の文全体の確率は
それぞれの文節について求めた係り受け確率の積で表さ
れ、非交差条件を満足する条件下で、その積の値が最も
高くなるように各々の係り受けを決めることになる。
【0026】以上、統語構造を解析する解析過程におけ
る形態素解析と、係り受け解析にMEモデルを用いた実
施形態を示した。本発明においては、これらを必ずしも
用いる場合に限らず、任意の解析手法を用いることがで
きる。また、形態素解析や係り受け解析を含む限り、さ
らに他の解析処理を含んでも構わない。
【0027】次に、生成過程における語順の学習生成過
程につき、MEモデルを用いた手法を示す。日本語は語
順が自由であると言われている。しかし、これまでの言
語学的な調査によると実際には、時間を表す副詞の方が
主語より前に来やすい、長い修飾句を持つ文節は前に来
やすいといった何らかの傾向がある。もしこの傾向をう
まく整理することができれば、それは自然な文を生成す
る際に有効な情報となる。ここで語順とは、係り相互間
の語順、つまり同じ文節に係っていく文節の順序関係を
意味するものとする。語順を決定する要因にはさまざま
なものがあり、例えば、修飾句の長い文節は短い文節よ
り前に来やすい、「それ」などの文脈指示語を含む文節
は前に来やすい、などがあげられる。
【0028】本発明においては、上記のような要素と語
順の傾向との関係、すなわち規則性を所定のテキストか
ら学習する手法を考案した。この手法では、語順の決定
にはどの要素がどの程度寄与するかだけでなく、どのよ
うな要素の組み合わせのときにどのような傾向の語順に
なるかということも学習に用いるテキストから演繹的に
学習することができる。個々の要素の寄与の度合はME
モデルを用いて効率良く学習する。係り文節の数によら
ず2つずつ取り上げてその順序を学習する。
【0029】1つの実施例として、学習に用いるテキス
トに「昨日/太郎は/テニスを/した。」( /は文節の
区切りを表す。) という文があった場合を考える。動詞
「した」に係る文節は「昨日」、「太郎は」、「テニス
を」の3つである。このうち2文節ずつ、つまり「昨
日」と「太郎は」、「昨日」と「テニスを」、「太郎
は」と「テニスを」の3つのペアを取り上げ、それぞれ
この語順が適切であると仮定して学習する。素性として
は文節の持つ属性などを考える。例えば、「昨日/太郎
は/した。」という関係からは「時相名詞」の方が「固
有名詞」より前に来るという情報、「太郎は/テニスを
/した。」という関係からは「は」格の方が「を」格よ
り前に来るという情報などを用いる。
【0030】文を生成する際には、この学習したモデル
を用いて、係り受け関係にある文節を入力とし、その係
り文節の順序を決めることができる。語順の決定は次の
手順で行なう。まず、係り文節について可能性のある並
びをすべて考える。次に、それぞれの並びについて、そ
の係り文節の順序が適切である確率を学習したモデルを
用いて求める。この確率は、順序が適切であるか否かの
「0」または「1」に置き換え、前記MEモデルにおけ
る確率分布の関数に適用することで求められる。そし
て、全体の確率が最大となる並びを解とする。全体の確
率は、係り文節を2つずつ取り上げたときその順序が適
切である確率を計算し、それらの積として求める。例え
ば、前記「昨日/太郎は/テニスを/した。」という文
において、動詞「した」に係る文節は「昨日」、「太郎
は」、「テニスを」の3つである。この3つの係り文節
の順序を以下の手順で決定する。
【0031】図5に係り文節の順序が適切である確率の
計算例を示す。まず、2個の文節ずつ、すなわち「昨
日」と「太郎は」、「昨日」と「テニスを」、「太郎
は」と「テニスを」の3つの組み合わせを取り上げ、学
習した規則性によりそれぞれこの語順が適切である各確
率を求める。例えば、図において「昨日」「太郎は」の
語順になる確率は「p*(昨日,太郎は)」で表され、
その確率は0.6とする。同様に、「昨日」「テニス
を」は0.8、「太郎は」「テニスを」は0.7とする
と、図5における1段目の語順(51)の確率は各確率
を積算し、0.336となる。次に、6つの語順(51
ないし56)の可能性すべてについて全体の確率を計算
し、最も確率の高いもの「昨日/太郎は/テニスを/し
た。」(51)が最も適切な語順であるとする。
【0032】学習されたモデルの性能は、そのモデルを
用いて語順を決めるテストを行ない、元の文における語
順とどの程度一致するかを調べることによって定量的に
評価することができる。学習したモデル、すなわち規則
性を用いて語順を決定させたとき、元のテキストと一致
する割合は、前記の解析済みテキストを使用した実験で
約75%であった。さらに、一致しなかった語順におい
ても、その半数はモデルを用いて決定した語順でも不自
然ではなく、本発明において効果的な語順の学習・生成
が可能であることが示されている。
【0033】最後に、本発明においては、上記一連の解
析過程及び生成過程に加え、意味解析システムを備え
る。すなわち、意味解析システムの1つとして、本発明
において、固有名詞で表されるような特定の事物を指す
固有表現を学習により自動抽出する固有表現抽出処理
(15)のシステムを作成する。固有表現として抽出す
るのは、「特許庁」のように組織の名称を表すもの、
「川端康成」のように人名を表すもの、「神戸」のよう
に地名を表すもの、「スペースシャトル」のように固有
物の名称を表すものおよび、「9月28日」、「午後3
時」、「100万円」、「10%」のように日付、時
間、金銭、割合を表す表現である。
【0034】抽出方法は、以下の通りである。 (1)テキストを単語( 正確には形態素) に分割して品
詞を割り当てる。例えば、「兵庫県内」は「兵庫( 名
詞) /県内( 名詞) 」のように分割される。 (2)各固有表現ごとに固有表現の始まり、中間、終
り、単独を表す識別符号(以下、ラベルと呼ぶ。)を用
意しておき、演繹的に学習した規則性に基づいて各々の
単語に対し付与するべきラベルを推定する。ラベルの推
定にはMEモデルを用いている。例えば、「兵庫(名
詞)/県内(名詞)」は「兵庫<地名:単独>/県内<
ラベルなし>」のように推定される。推定に用いる情報
は、着目している単語を含み前後2単語ずつ合計5単語
に関する見出し語、品詞の情報である。各ラベルの尤も
らしさを確率として計算し、1個の文全体における確率
の積の値が高くなり、かつラベルとラベルの間の連接規
則を満たすように付与するラベルを決める。1個の文に
おける最適解の探索には各処理段階における最適解をす
べて保持する公知のアルゴリズムを用いていることがで
きる。 (3)システムがよく生じる誤りについてその誤りを訂
正する書き換え規則を予め規則性の1つとして用意して
おき、これを後処理に用いる。例えば、「兵庫<地名:
単独>/県内<ラベルなし>」は「兵庫県<地名:単独
>/内<ラベルなし>」のように書き換えられる。 (4)最後にこの結果から「兵庫県」を地名として抽出
する。 本発明における手法によると、人間のパフォーマンスの
9割程度の精度で固有表現を抽出でき、従来に比して効
果的な固有表現の抽出が可能となった。
【0035】以上のように本発明では、解析から生成に
亙るテキスト処理を、最大エントロピーモデルを用いた
学習という一貫した枠組みで処理をしている。そして、
解析過程、すなわち形態素解析(単語の切り出し、品詞
推定)、係り受け解析や、固有表現抽出を行う意味解析
システムから、生成(語順の学習と決定)に至るまでの
各処理を、予め解析済みのテキストを用いた学習によっ
て実現する。さらにそれらを繰り返して実行することに
よって、少ない学習データにもかかわらず、大量の人手
をかけて作成される規則に基づく方法に近い精度を実現
でき、コストの抑制だけでなく、幅広い文章に対応可能
なテキスト処理方法を提供することができる。これら技
術は、自動翻訳技術や、テキストの要約技術に用いるだ
けでなく、例えば、コンピュータにおけるかな漢字変換
等、いかなる言語処理にも適用することが可能である。
【0036】
【発明の効果】本発明は、以上の構成を備えるので、次
の効果を奏する。請求項1に記載のテキスト処理方法に
よると、解析過程及び生成過程を互いに繰り返して実行
することによって、学習を行う解析済みテキストが少な
い場合であっても、効果的に学習を行うことができ、高
精度なテキスト処理方法を提供することができる。これ
によって、コストの低廉化と共に、高機能化を図ること
ができる。
【0037】請求項2に記載のテキスト処理方法による
と、形態素解析にMEモデルを適用することができるの
で、請求項1に記載の循環的な学習に好適であり、コン
ピュータにおける処理に馴染みやすい。これによって、
本発明におけるテキスト処理方法はより高精度化を図る
ことができ、処理の高速化にも寄与する。
【0038】請求項3に記載のテキスト処理方法による
と、係り受け確率を定数的に求めることができるので、
より高精度な係り受け関係を導出することができ、ひい
ては高精度なテキスト処理方法に奉仕する。
【0039】請求項4に記載のテキスト処理方法による
と、1個の文全体について全ての係り受け関係の確率を
求めるので、文全体として最適な係り受け関係を導出す
ることができ、高精度な係り受け解析が可能となる。こ
れにより高精度なテキスト処理方法に寄与する。
【0040】請求項5に記載のテキスト処理方法による
と、学習によって語順モデルを構築するので、学習を行
う解析済みテキストが少ない場合であっても、効果的に
学習を行うことができ、高精度なテキスト処理方法を提
供することができる。
【0041】請求項6に記載のテキスト処理方法による
と、請求項5の方法により構築された語順モデルを用い
ることができるので、最適な語順の決定を効果的に行う
ことができる。
【0042】請求項7に記載のテキスト処理方法による
と、固有表現の抽出処理を行うので、形態素解析の精度
向上に寄与し、ひいては高精度なテキスト処理方法が実
現できる。
【図面の簡単な説明】
【図1】本発明によるテキスト処理方法の説明図
【図2】形態素解析の説明図
【図3】係り受け確率の算出実施例における各確率一覧
【図4】係り受け確率の算出実施例
【図5】語順の学習生成における順序が適切である確率
の計算例
【符号の説明】
1 テキスト処理方法 10 テキスト 11 統語構造 12 形態素解析処理 13 係り受け解析処理 14 語順の学習生成処理 15 固有表現抽出処理 31 後文節を越えて先にある文節に係る確率 32 後文節に係る確率 33 後文節との間にある文節に係る確率 51ないし56 係り文節の語順の並べ替え例
【手続補正書】
【提出日】平成14年7月26日(2002.7.2
6)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正内容】
【書類名】 明細書
【発明の名称】 テキスト処理方法
【特許請求の範囲】
【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日本語等の言語か
らなるテキストをコンピュータを用いて解析・生成する
方法に関するものである。
【0002】
【従来の技術】コンピュータによって言語のテキストを
解析する技術、或いは生成する技術は、言語処理を行う
上で必須の技術であり、機械翻訳や、要約システムを実
現する上で欠かせない。しかし、言語は曖昧性を有して
おり、完全な規則性によって構成されるものではないば
かりか、自然な言い回しの存在や、語順の自由度の高さ
など、コンピュータによって処理を行う際には障害とな
る問題が非常に多い。そこで、テキスト処理方法につい
ては様々な研究がなされている。
【0003】従来の手法としては、人間によって作成さ
れたテキストを、大量の人手をかけて解析し、該解析に
基づいて導かれた規則性をコンピュータに記憶させ、コ
ンピュータは規則性に基づいて、別なテキストを解析・
生成する方法がある。しかし、この手法では解析を行う
ことに膨大な人手とコストを要するばかりでなく、コン
ピュータは与えられた規則性のみで解析・生成を行うた
め、人手によって解析された以上の規則性をコンピュー
タが獲得することがない。そのため、人間が解析した対
象テキストに類似のテキストであれば、一定の精度で解
析・生成することができるが、別種のテキストの場合に
は、解析精度が低下することがあり、与えられた規則性
のみでテキストの解析・生成を行うには限界があった。
そして、大量の人手を要さずに容易に実現でき、しかも
様々なテキストに対応する高精度なテキスト処理方法は
未だ実現されていない。
【0004】
【発明が解決しようとする課題】本発明は、上記従来技
術の有する問題点に鑑みて創出されたものであり、その
目的は、テキスト処理に含まれる各過程で少ない学習デ
ータを基に学習を行い、コンピュータによって高精度な
テキスト処理を可能にすることである。
【0005】
【課題を解決するための手段】本発明は、上記の課題を
解決するために、次のようなテキスト生成方法を創出す
る。すなわち、言語の解析・生成に関わるコンピュータ
のテキスト処理方法であって、該テキスト処理方法が、
統語構造を解析する解析過程と、統語構造からテキスト
を生成する生成過程とから構成される。該解析過程で
は、テキストを文法上最小の単位を構成する形態素に分
解し、それぞれの形態素に対して文法的属性を決定する
形態素解析処理及び、テキスト内の単数又は連続する複
数の形態素からなる文節について、ある文節が、他のい
ずれの文節を修飾するかを解析する係り受け解析処理の
各処理を含む。また、該生成過程では、言語の語順の学
習と決定を行う語順学習決定処理を含む。本構成におい
て、解析過程と生成過程とを相互に繰り返して実行し、
最大エントロピーモデルを用いて学習する学習機能を備
える。最大エントロピーモデルを用いて学習するのは、
形態素解析処理においては、テキストから該テキストを
構成する文字列の候補を、組み合わせを変えて取り出
し、該取り出した文字列の候補が、形態素であって、か
ついずれかの文法的属性を持つとしたときの尤もらしさ
を表す形態素尤度確率、又は、係り受け解析処理におい
ては、該ある文節が、係り先の候補となる各文節との関
係における確率、語順学習決定処理においては、係り受
け関係にあるテキスト内の全ての係り文節の並びについ
て、その係り文節の順序が適切である確率の少なくとも
いずれかである。
【0006】前記形態素解析処理が、前記形態素尤度確
率を前記最大エントロピーモデルにより算出すると共
に、テキストを構成する全ての文字列毎に求められた確
率を、互いに積算し、該積が最大値となる文字列の候補
の組み合わせ、又は各形態素の文法的属性の組み合わせ
の少なくともいずれかを求め、形態素解析処理を行って
もよい。
【0007】前記係り受け解析処理が、テキストの文末
から順に、相対的前方にある前文節と、それより後方に
ある後文節との2つの文節を、組み合わせを変えて取り
出す構成であって、該前文節が、前文節と該後文節との
間にある文節を修飾する関係である確率、該前文節が、
該後文節を修飾する関係である確率、該前文節が、該後
文節よりも後方にある文節を修飾する関係である確率を
それぞれ前記最大エントロピーモデルにより算出し、該
テキストの各文節に該当する該各確率を、互いに積算す
ることに基づいて係り受け確率を決定してもよい。そし
て、前記係り受け解析処理が、テキストを構成する全て
の文節の組み合わせにおける前記係り受け確率を、互い
に積算し、該積が最も高くなるように各々の係り受け関
係を決定する方法であってもよい。
【0008】前記語順学習決定処理において、テキスト
内で、係り受け関係にある文節であって、該係り文節が
2個以上存在する場合に、該係り文節を2個ずつ抽出し
て、それらの順序を前記最大エントロピーモデルを用い
て学習し、該学習をテキスト内の各文節について行い、
その学習結果を保存する語順モデルを構築してもよい。
さらに、上記の場合に、係り文節を2個ずつ抽出して、
それらが順序をなす確率を前記語順モデルに基づいて算
出すると共に、全ての係り文節について該確率を求め、
それら全ての確率を互いに積算し、該積が最大となるよ
うな係り文節の順序によって語順を決定するテキスト処
理方法でもよい。
【0009】前記解析過程より得られた統語構造から、
特定の事物を指す固有表現の抽出を行ってもよい。
【0010】
【発明の実施の形態】以下、本発明の実施方法を図面に
示した実施例に基づいて説明する。なお、本発明の実施
形態は以下に限定されず、適宜変更可能である。以下に
おいては、テキストの1例として、日本語によるテキス
トを挙げて説述するが、本発明の実施方法は、性質上実
現出来ない場合を除き、いかなる言語に対しても適用可
能である。図1に本発明におけるテキスト処理方法
(1)の説明図を示す。
【0011】ここで、テキスト処理とはテキスト(1
0)を解析し、そこから統語構造(11)を得る、ある
いは、統語構造(11)からテキスト(10)を生成す
る処理のことである。本発明においては、統語構造(1
1)を解析する解析過程と、統語構造(11)からテキ
スト(10)を生成する生成過程とを循環的に行うこと
を特徴とし、解析過程には形態素解析(12)及び、係
り受け解析(13)の各処理を含み、生成過程には語順
の学習生成処理(14)を含む。さらに、統語構造(1
1)から意味解析過程である固有表現抽出(15)処理
を行い、該処理において固有表現の学習・抽出を可能と
している。
【0012】このようにテキストと統語構造とを関連付
ける処理が可能となることにより、様々な応用が期待さ
れる。例えば、これらの処理により得られた統語構造を
日本語以外の対象言語の統語構造へマッピングすること
により、翻訳が可能となるし、得られた統語構造から重
要な部分だけを残して生成することにより、テキストの
要約が可能となる。また、意味解析によって得られた固
有表現は、情報抽出のための重要な基礎情報であるだけ
でなく、形態素解析、構文解析にフィードバックするこ
とにより、より高精度の解析結果を得るための手掛かり
となり得る情報である。以下、各処理について詳述す
る。
【0013】初めに、本発明における各処理で採用する
最大エントロピーモデル(以下、MEモデルと呼ぶ。)
につき説述する。MEモデルでは、文脈、すなわち観測
される情報は、素性と呼ばれる個々の要素によって表さ
れる。そして、1個の文がある素性を満たすか否かを表
す2値関数を導入する。該2値関数を用い、素性が既知
のテキスト中に現れる期待値が、未知なテキスト中にお
いても変わらないという制約のもと、文が生起する確率
を推定する。そして、各々の素性には、学習に用いるデ
ータにおける確率分布のエントロピーが最大になるよう
に重み付けを行う。このエントロピーを最大にするとい
う操作によって、既知データに観測されなかったような
素性、或いは稀にしか観測されなかった素性について
は、それぞれの出力値に対して確率値が等確率になるよ
うに、或いは近付くように、重み付けされる。以上によ
って、MEモデルによる確率分布は、素性を引数とする
関数として表される。
【0014】一般に確率モデルでは、文脈、すなわち観
測される情報と、そのときに得られる出力値との関係は
既知のデータから推定される確率分布によって表され
る。いろいろな状況に対してできるだけ正確に出力値を
予測するためには文脈を細かく定義する必要があるが、
細かくしすぎると既知のデータにおいてそれぞれの文脈
に対応する事例の数が少なくなりデータが疎らになる問
題、すなわちデータスパースネスの問題が生じる。
【0015】しかし、MEモデルにおいては、上記のよ
うに未知のデータに対して考慮した重み付けがなされる
ため上記データスパースネスの問題に効果的に対応する
ことができる。すなわち、MEモデルは例えば言語現象
などのように既知データにすべての現象が現れ得ないよ
うな現象を扱うのに適したモデルであり、本発明では、
該モデルをテキスト処理における各処理過程に採用して
いる。
【0016】本発明におけるテキストから統語構造を導
出する解析過程に、MEモデルを適用する実施例を次に
示す。まず、形態素解析処理についてその方法を説述す
る。図2に、「先生になった」というテキストを形態素
解析する事例を示す。ここで形態素解析の形態素とは、
単語や接辞など、文法上、最小の単位となる要素のこと
である。そして、形態素解析とは、与えられた文を形態
素の並びに分解し、それぞれの形態素に対し文法的属
性、例えば品詞や活用などを決定する処理のことであ
る。例えば、上記の例によると、「先生」、「に」、
「なった」がそれぞれ形態素として見出し語に分類さ
れ、それぞれに読みや基本形と共に、文法的属性が付与
される。
【0017】従来の形態素解析において問題となってい
るのは、辞書に登録されていない、あるいは学習に用い
るテキストに現れないが形態素となり得る単語(以下、
未知語と呼ぶ。)をどのように扱うかということであ
る。この未知語の問題に対処するため、従来は大きく2
つの方法がとられている。その1つは未知語を自動獲得
し、辞書に登録する方法であり、もう1つは未知語でも
解析できるようなモデルを作成する方法である。本実施
例では、この両者の利点を生かすため、前者の方法で獲
得した単語を辞書に登録し、後者のモデルにその辞書を
利用できる仕組みを取り入れている。そして、これらの
手法をMEモデルによって実現することにより、辞書の
情報を学習する機構を容易に組み込めるだけでなく、字
種や字種変化などの情報を用いて学習に用いるテキスト
から未知語の性質を学習することもできるようになっ
た。
【0018】本実施例ではMEモデルに適用するため
に、形態素としての尤もらしさを確率として表す。すな
わち、文が与えられたとき、その文を形態素解析すると
いう問題は文を構成する各文字列に、2つの識別符号の
うち1つ、つまり、形態素であるか否かを示す「1」又
は「0」を割り当てる問題に置き換えることができる。
さらに、形態素である場合には文法的属性を付与するた
めに「1」を文法的属性の数だけ分割する。すると、文
法的属性の数がn個のとき、各文字列に「0」から
「n」までのうちいずれかの識別符号を割り当てる問題
に置き換えることができる。
【0019】したがって、本実施例における形態素解析
にMEモデルを用いた手法では、文字列が、形態素であ
って、かついずれかの文法的属性を持つとしたときの尤
もらしさを前記MEモデルにおける確率分布の関数に適
用することで求められる。形態素解析においてはこの尤
もらしさを表す確率に、規則性を見い出すことで処理を
行っている。用いる素性としては、着目している文字列
の字種の情報、その文字列が辞書に登録されているかど
うか、1つ前の形態素からの字種の変化、1つ前の形態
素の品詞などの情報を用いる。1個の文が与えられたと
き、文全体で確率の積が最大になるよう形態素に分割し
文法的属性を付与する。最適解の探索には適宜公知のア
ルゴリズムを用いることができる。なお、用いる素性は
任意に変更可能である。
【0020】本発明における形態素解析にMEモデルを
用いた手法は、従来からの未知語の問題に効果的に対応
することができる。たとえば、形態素等を詳細に解析済
みのあるテキストを用いた実験では、全形態素に対して
区切りと品詞を正しく推定できた割合が約96%という
高精度な結果を得ている。また、実験により、辞書の精
度に及ぼす影響の大きさ、および、本手法が、固有名
詞、人名、組織名、地名など未知語になりやすいものに
対して比較的に推定精度がよいことが分かっている。
【0021】さらに解析過程においては、係り受け解析
にも、MEモデルによる解析手法を取り入れている。次
にこの点につき詳述する。どの文節がどの文節を修飾す
るかという日本語の係り受け関係には、主に以下の特徴
があるとされている。すなわち、 (1)係り受けは前方から後方に向いている。 (2)係り受け関係は交差しない。(以下、これを非交
差条件と呼ぶ。) (3)係り要素は受け要素を1 つだけもつ。 (4)ほとんどの場合、係り先の決定には前方の文脈を
必要としない。 本実施例では、これらの特徴に着目し、統計的手法と文
末から文頭に向けて解析する方法を組み合わせることに
より高い解析精度を得ることを実現した。
【0022】本手法では、文末から順に2つずつ文節を
取り上げ、それらが係り受けの関係にあるかどうかを統
計的に決定する。その際、文節あるいは文節間にみられ
る情報を素性として利用するが、どのような素性を利用
するかが精度に影響する。文節は、前の主辞にあたる部
分と後ろの助詞や活用形にあたる部分に分けて考え、そ
れぞれの素性とともに文節間の距離や句読点の有無など
も素性として考慮した。さらに括弧の有無や文節間の助
詞「は」の有無、係り側の文節と同じ助詞や活用形が文
節間にもあるか否か、素性間の組み合わせについても考
慮している。
【0023】MEモデルによればこういった様々な素性
を扱うことができる。そして、この方法では決定木や最
尤推定法などを用いた従来の手法に比べて学習データの
大きさが10分の1程度であるにも関わらず、同程度以
上の精度が得られる。この手法は学習に基づくシステム
として、最高水準の精度を得られる手法である。さら
に、本実施例ではさらに高精度化を図るため、次の手法
を取り入れている。すなわち、従来は、学習データから
得られる情報を基に、2つの文節が係り受け関係にある
か否かを予測するのに有効な素性を学習していたが、本
実施例では、新たに前文節が「後文節を越えて先にある
文節に係る」「後文節に係る」「後文節との間にある文
節に係る」の3つの状態のどれであるかを予測するのに
有効な情報を学習するシステムを開発した。
【0024】次に、実際にこのモデルから係り受け確率
がどのように求まるか示す。図3に、ある文節( 一番左
の文節) より後方に5つの文節がある場合に、係り先の
候補となる各文節との関係における確率を示す。図中
で、「越える」(31)は上記「後文節を越えて先にあ
る文節に係る」を表し、「係る」(32)は「後文節に
係る」、「間」(33)は「後文節との間にある文節に
係る」に対応する。 図4は、各候補に係る係り受け確
率を求める実施例である。このシステムでは文末から文
頭に向かって解析するため、ある文節より後方の文節に
ついては、破線の矢印で表されるような係り受け関係が
すでに決まったものとして説述する。候補1に係る係り
受け確率の算出を例に採ると、候補1が係り先であり、
候補1は候補2に、さらに候補5に係る。一方候補3は
別個に候補4に係り、さらに候補5に係る。
【0025】この場合の係り元の文節に関する係り受け
確率は、次のように求める。すなわち、候補3及び4は
独立した係り受け関係であって、その確率は1とするこ
とができ、候補1に係る確率は図3より0.4であっ
て、候補1は係り元と、候補2及び候補5との間にある
ので、各確率は、それぞれ0.1、0.6となる。これ
をそれぞれ積算し、平方根をとることで、係り受け確率
を算出する。同様に、各候補について算出するが、この
とき、候補3と候補4は上記非交差条件を満たさないた
めに、この文節の係り先の候補とはなり得ない。MEモ
デルを用いた係り受け解析では、1個の文全体の確率は
それぞれの文節について求めた係り受け確率の積で表さ
れ、非交差条件を満足する条件下で、その積の値が最も
高くなるように各々の係り受けを決めることになる。
【0026】以上、統語構造を解析する解析過程におけ
る形態素解析と、係り受け解析にMEモデルを用いた実
施形態を示した。本発明においては、これらを必ずしも
用いる場合に限らず、任意の解析手法を用いることがで
きる。また、形態素解析や係り受け解析を含む限り、さ
らに他の解析処理を含んでも構わない。
【0027】次に、生成過程における語順の学習生成過
程につき、MEモデルを用いた手法を示す。日本語は語
順が自由であると言われている。しかし、これまでの言
語学的な調査によると実際には、時間を表す副詞の方が
主語より前に来やすい、長い修飾句を持つ文節は前に来
やすいといった何らかの傾向がある。もしこの傾向をう
まく整理することができれば、それは自然な文を生成す
る際に有効な情報となる。ここで語順とは、係り相互間
の語順、つまり同じ文節に係っていく文節の順序関係を
意味するものとする。語順を決定する要因にはさまざま
なものがあり、例えば、修飾句の長い文節は短い文節よ
り前に来やすい、「それ」などの文脈指示語を含む文節
は前に来やすい、などがあげられる。
【0028】本発明においては、上記のような要素と語
順の傾向との関係、すなわち規則性を所定のテキストか
ら学習する手法を考案した。この手法では、語順の決定
にはどの要素がどの程度寄与するかだけでなく、どのよ
うな要素の組み合わせのときにどのような傾向の語順に
なるかということも学習に用いるテキストから学習する
ことができる。個々の要素の寄与の度合はMEモデルを
用いて効率良く学習する。係り文節の数によらず2つず
つ取り上げてその順序を学習する。
【0029】1つの実施例として、学習に用いるテキス
トに「昨日/太郎は/テニスを/した。」( /は文節の
区切りを表す。) という文があった場合を考える。動詞
「した」に係る文節は「昨日」、「太郎は」、「テニス
を」の3つである。このうち2文節ずつ、つまり「昨
日」と「太郎は」、「昨日」と「テニスを」、「太郎
は」と「テニスを」の3つのペアを取り上げ、それぞれ
この語順が適切であると仮定して学習する。素性として
は文節の持つ属性などを考える。例えば、「昨日/太郎
は/した。」という関係からは「時相名詞」の方が「固
有名詞」より前に来るという情報、「太郎は/テニスを
/した。」という関係からは「は」格の方が「を」格よ
り前に来るという情報などを用いる。
【0030】文を生成する際には、この学習したモデル
を用いて、係り受け関係にある文節を入力とし、その係
り文節の順序を決めることができる。語順の決定は次の
手順で行なう。まず、係り文節について可能性のある並
びをすべて考える。次に、それぞれの並びについて、そ
の係り文節の順序が適切である確率を学習したモデルを
用いて求める。この確率は、順序が適切であるか否かの
「0」または「1」に置き換え、前記MEモデルにおけ
る確率分布の関数に適用することで求められる。そし
て、全体の確率が最大となる並びを解とする。全体の確
率は、係り文節を2つずつ取り上げたときその順序が適
切である確率を計算し、それらの積として求める。例え
ば、前記「昨日/太郎は/テニスを/した。」という文
において、動詞「した」に係る文節は「昨日」、「太郎
は」、「テニスを」の3つである。この3つの係り文節
の順序を以下の手順で決定する。
【0031】図5に係り文節の順序が適切である確率の
計算例を示す。まず、2個の文節ずつ、すなわち「昨
日」と「太郎は」、「昨日」と「テニスを」、「太郎
は」と「テニスを」の3つの組み合わせを取り上げ、M
Eモデルによりそれぞれこの語順が適切である各確率を
求める。例えば、図において「昨日」「太郎は」の語順
になる確率は「p*(昨日,太郎は)」で表され、その
確率は0.6とする。同様に、「昨日」「テニスを」は
0.8、「太郎は」「テニスを」は0.7とすると、図
5における1段目の語順(51)の確率は各確率を積算
し、0.336となる。次に、6つの語順(51ないし
56)の可能性すべてについて全体の確率を計算し、最
も確率の高いもの「昨日/太郎は/テニスを/した。」
(51)が最も適切な語順であるとする。
【0032】学習されたモデルの性能は、そのモデルを
用いて語順を決めるテストを行ない、元の文における語
順とどの程度一致するかを調べることによって定量的に
評価することができる。学習したモデル、すなわち規則
性を用いて語順を決定させたとき、元のテキストと一致
する割合は、前記の解析済みテキストを使用した実験で
約75%であった。さらに、一致しなかった語順におい
ても、その半数はモデルを用いて決定した語順でも不自
然ではなく、本発明において効果的な語順の学習・生成
が可能であることが示されている。
【0033】最後に、本発明においては、上記一連の解
析過程及び生成過程に加え、意味解析システムを備え
る。すなわち、意味解析システムの1つとして、本発明
において、固有名詞で表されるような特定の事物を指す
固有表現を学習により自動抽出する固有表現抽出処理
(15)のシステムを作成する。固有表現として抽出す
るのは、「特許庁」のように組織の名称を表すもの、
「川端康成」のように人名を表すもの、「神戸」のよう
に地名を表すもの、「スペースシャトル」のように固有
物の名称を表すものおよび、「9月28日」、「午後3
時」、「100万円」、「10%」のように日付、時
間、金銭、割合を表す表現である。
【0034】抽出方法は、以下の通りである。 (1)テキストを単語( 正確には形態素) に分割して品
詞を割り当てる。例えば、「兵庫県内」は「兵庫( 名
詞) /県内( 名詞) 」のように分割される。 (2)各固有表現ごとに固有表現の始まり、中間、終
り、単独を表す識別符号(以下、ラベルと呼ぶ。)を用
意しておき、学習結果に基づいて各々の単語に対し付与
するべきラベルを推定する。ラベルの推定にはMEモデ
ルを用いている。例えば、「兵庫(名詞)/県内(名
詞)」は「兵庫<地名:単独>/県内<ラベルなし>」
のように推定される。推定に用いる情報は、着目してい
る単語を含み前後2単語ずつ合計5単語に関する見出し
語、品詞の情報である。各ラベルの尤もらしさを確率と
して計算し、1個の文全体における確率の積の値が高く
なり、かつラベルとラベルの間の連接規則を満たすよう
に付与するラベルを決める。1個の文における最適解の
探索には各処理段階における最適解をすべて保持する公
知のアルゴリズムを用いていることができる。 (3)システムがよく生じる誤りについてその誤りを訂
正する書き換え規則を予め規則性の1つとして用意して
おき、これを後処理に用いる。例えば、「兵庫<地名:
単独>/県内<ラベルなし>」は「兵庫県<地名:単独
>/内<ラベルなし>」のように書き換えられる。 (4)最後にこの結果から「兵庫県」を地名として抽出
する。 本発明における手法によると、人間のパフォーマンスの
9割程度の精度で固有表現を抽出でき、従来に比して効
果的な固有表現の抽出が可能となった。
【0035】以上のように本発明では、解析から生成に
亙るテキスト処理を、最大エントロピーモデルを用いた
学習という一貫した枠組みで処理をしている。そして、
解析過程、すなわち形態素解析(単語の切り出し、品詞
推定)、係り受け解析や、固有表現抽出を行う意味解析
システムから、生成(語順の学習と決定)に至るまでの
各処理を、予め解析済みのテキストを用いた学習によっ
て実現する。さらにそれらを繰り返して実行することに
よって、少ない学習データにもかかわらず、大量の人手
をかけて作成される規則に基づく方法に近い精度を実現
でき、コストの抑制だけでなく、幅広い文章に対応可能
なテキスト処理方法を提供することができる。これら技
術は、自動翻訳技術や、テキストの要約技術に用いるだ
けでなく、例えば、コンピュータにおけるかな漢字変換
等、いかなる言語処理にも適用することが可能である。
【0036】
【発明の効果】本発明は、以上の構成を備えるので、次
の効果を奏する。請求項1に記載のテキスト処理方法に
よると、解析過程及び生成過程を互いに繰り返して実行
することによって、学習を行う解析済みテキストが少な
い場合であっても、効果的に最大エントロピーモデルを
用いた学習を行うことができ、高精度なテキスト処理方
法を提供することができる。これによって、コストの低
廉化と共に、高機能化を図ることができる。
【0037】請求項2に記載のテキスト処理方法による
と、形態素解析に最大エントロピーモデルを用いること
ができるので、請求項1に記載の循環的な学習に好適で
あり、コンピュータにおける処理に馴染みやすい。これ
によって、本発明におけるテキスト処理方法はより高精
度化を図ることができ、処理の高速化にも寄与する。
【0038】請求項3に記載のテキスト処理方法による
と、係り受け確率を定数的に求めることができるので、
より高精度な係り受け関係を導出することができ、ひい
ては高精度なテキスト処理方法に奉仕する。
【0039】請求項4に記載のテキスト処理方法による
と、1個の文全体について全ての係り受け関係の確率を
求めるので、文全体として最適な係り受け関係を導出す
ることができ、高精度な係り受け解析が可能となる。こ
れにより高精度なテキスト処理方法に寄与する。
【0040】請求項5に記載のテキスト処理方法による
と、学習によって語順モデルを構築するので、学習を行
う解析済みテキストが少ない場合であっても、効果的に
学習を行うことができ、高精度なテキスト処理方法を提
供することができる。
【0041】請求項6に記載のテキスト処理方法による
と、請求項5の方法により構築された語順モデルを用い
ることができるので、最適な語順の決定を効果的に行う
ことができる。
【0042】請求項7に記載のテキスト処理方法による
と、固有表現の抽出処理を行うので、形態素解析の精度
向上に寄与し、ひいては高精度なテキスト処理方法が実
現できる。
【図面の簡単な説明】
【図1】本発明によるテキスト処理方法の説明図
【図2】形態素解析の説明図
【図3】係り受け確率の算出実施例における各確率一覧
【図4】係り受け確率の算出実施例
【図5】語順の学習生成における順序が適切である確率
の計算例
【符号の説明】 1 テキスト処理方法 10 テキスト 11 統語構造 12 形態素解析処理 13 係り受け解析処理 14 語順の学習生成処理 15 固有表現抽出処理 31 後文節を越えて先にある文節に係る確率 32 後文節に係る確率 33 後文節との間にある文節に係る確率 51ないし56 係り文節の語順の並べ替え例
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B009 MB25 5B091 AA15 CA02 CA06 CA24 CA26 EA01

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】言語の解析・生成に関わるコンピュータの
    テキスト処理方法であって、 該テキスト処理方法が、 統語構造を解析する解析過程と、 統語構造からテキストを生成する生成過程とから構成さ
    れ、 該解析過程で、 テキストを文法上最小の単位を構成する形態素に分解
    し、それぞれの形態素に対して文法的属性を決定する形
    態素解析処理及び、 テキスト内の単数又は連続する複数の形態素からなる文
    節について、 ある文節が、他のいずれの文節を修飾するかを解析する
    係り受け解析処理の各処理を含み、 該生成過程で、 言語の語順の学習と決定を行う語順学習決定処理を含む
    構成において、 解析過程と生成過程とを相互に繰り返して実行し、 形態素解析処理及び、係り受け解析処理、語順学習決定
    処理の少なくともいずれかにおける規則性を、 演繹的に学習する学習機能を備えたことを特徴とするテ
    キスト処理方法。
  2. 【請求項2】前記形態素解析処理が、 テキストから該テキストを構成する文字列の候補を、組
    み合わせを変えて取り出す構成であって、 取り出した文字列の候補が形態素であるか否か、 又は取り出した文字列の候補の文法的属性が、予め定め
    られた文法的属性群の内のいずれであるかの少なくとも
    いずれかの確率を前記規則性から算出すると共に、 テキストを構成する全ての文字列毎に求められた確率
    を、互いに積算し、 該積が最大値となる文字列の候補の組み合わせ、又は各
    形態素の文法的属性の組み合わせの少なくともいずれか
    を求める方法である請求項1に記載のテキスト処理方
    法。
  3. 【請求項3】前記係り受け解析処理が、 テキストの文末から順に、相対的前方にある前文節と、
    それより後方にある後文節との2つの文節を、組み合わ
    せを変えて取り出す構成であって、 該前文節が、前文節と該後文節との間にある文節を修飾
    する関係である確率、 該前文節が、該後文節を修飾する関係である確率、 該前文節が、該後文節よりも後方にある文節を修飾する
    関係である確率をそれぞれ前記規則性から算出し、 該テキストの各文節に該当する該各確率を、互いに積算
    することに基づいて係り受け確率を決定する請求項1又
    は2に記載のテキスト処理方法。
  4. 【請求項4】前記係り受け解析処理が、 テキストを構成する全ての文節の組み合わせにおける前
    記係り受け確率を、 互いに積算し、 該積が最も高くなるように各々の係り受け関係を決定す
    る方法である請求項3に記載のテキスト処理方法。
  5. 【請求項5】前記語順学習決定処理において、 テキスト内で、係り受け関係にある文節であって、 該係り文節が2個以上存在する場合に、 該係り文節を2個ずつ抽出して、それらの順序を学習
    し、 該学習をテキスト内の各文節について行い、 その学習結果を保存する語順モデルを構築する請求項1
    ないし4に記載のテキスト処理方法。
  6. 【請求項6】前記語順学習決定処理において、 テキスト内で、係り受け関係にある文節であって、 該係り文節が2個以上存在する場合に、 該係り文節を2個ずつ抽出して、それらが順序をなす確
    率を前記語順モデルに基づいて算出すると共に、 全ての係り文節について該確率を求め、 それら全ての確率を互いに積算し、 該積が最大となるような係り文節の順序によって語順を
    決定する請求項5に記載のテキスト処理方法。
  7. 【請求項7】前記解析過程より得られた統語構造から、 特定の事物を指す固有表現の抽出を行う請求項1ないし
    6に記載のテキスト処理方法。
JP2001139563A 2001-05-10 2001-05-10 テキスト処理方法 Pending JP2002334076A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001139563A JP2002334076A (ja) 2001-05-10 2001-05-10 テキスト処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001139563A JP2002334076A (ja) 2001-05-10 2001-05-10 テキスト処理方法

Publications (1)

Publication Number Publication Date
JP2002334076A true JP2002334076A (ja) 2002-11-22

Family

ID=18986320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001139563A Pending JP2002334076A (ja) 2001-05-10 2001-05-10 テキスト処理方法

Country Status (1)

Country Link
JP (1) JP2002334076A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031010A (ja) * 2004-07-15 2006-02-02 Robert Bosch Gmbh 固有名称又は部分的な固有名称の認識を提供する方法及び装置
WO2006134682A1 (ja) * 2005-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd. 固有表現抽出装置、方法、及びプログラム
JP2012118930A (ja) * 2010-12-03 2012-06-21 Fujitsu Ltd 処理装置、処理方法、及び、プログラム
US8386234B2 (en) 2004-01-30 2013-02-26 National Institute Of Information And Communications Technology, Incorporated Administrative Agency Method for generating a text sentence in a target language and text sentence generating apparatus
WO2019111410A1 (ja) * 2017-12-08 2019-06-13 三菱電機株式会社 係り受け解析装置および係り受け解析方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386234B2 (en) 2004-01-30 2013-02-26 National Institute Of Information And Communications Technology, Incorporated Administrative Agency Method for generating a text sentence in a target language and text sentence generating apparatus
JP2006031010A (ja) * 2004-07-15 2006-02-02 Robert Bosch Gmbh 固有名称又は部分的な固有名称の認識を提供する方法及び装置
WO2006134682A1 (ja) * 2005-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd. 固有表現抽出装置、方法、及びプログラム
US7761437B2 (en) 2005-06-15 2010-07-20 Panasonic Corporation Named entity extracting apparatus, method, and program
JP2012118930A (ja) * 2010-12-03 2012-06-21 Fujitsu Ltd 処理装置、処理方法、及び、プログラム
WO2019111410A1 (ja) * 2017-12-08 2019-06-13 三菱電機株式会社 係り受け解析装置および係り受け解析方法

Similar Documents

Publication Publication Date Title
US10409911B2 (en) Systems and methods for text analytics processor
Ekbal et al. Named entity recognition in Bengali: A multi-engine approach
Mohtaj et al. Parsivar: A language processing toolkit for Persian
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
Güngör et al. The effect of morphology in named entity recognition with sequence tagging
WO2017163346A1 (ja) 文章解析システム及びプログラム
Ojha et al. Training & evaluation of POS taggers in Indo-Aryan languages: A case of Hindi, Odia and Bhojpuri
Stoeckel et al. Voting for POS tagging of Latin texts: Using the flair of FLAIR to better ensemble classifiers by example of Latin
CN109815497B (zh) 基于句法依存的人物属性抽取方法
CN113158667B (zh) 基于实体关系级别注意力机制的事件检测方法
JP2012146263A (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
Haq et al. Urdu named entity recognition system using deep learning approaches
JP2002334076A (ja) テキスト処理方法
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
CN110750967B (zh) 一种发音的标注方法、装置、计算机设备和存储介质
Mammadov et al. Part-of-speech tagging for azerbaijani language
Dridan Ubertagging: Joint segmentation and supertagging for English
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Barakhnin et al. Word reordering algorithm for poetry analysis
Cabada et al. Methods for Data Representation
JP2002351870A (ja) 形態素の解析方法
Dhungyel et al. Analysing the Methods of Dzongkha Word Segmentation
Phyue Lexical analyzer for Myanmar language
Balčiūnas Context based number normalization using skip-chain conditional random fields
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20021203

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040416