JP2009176062A - 自然言語解析装置、自然言語解析方法および自然言語解析プログラム - Google Patents

自然言語解析装置、自然言語解析方法および自然言語解析プログラム Download PDF

Info

Publication number
JP2009176062A
JP2009176062A JP2008014133A JP2008014133A JP2009176062A JP 2009176062 A JP2009176062 A JP 2009176062A JP 2008014133 A JP2008014133 A JP 2008014133A JP 2008014133 A JP2008014133 A JP 2008014133A JP 2009176062 A JP2009176062 A JP 2009176062A
Authority
JP
Japan
Prior art keywords
dependency
analysis
natural language
sentence
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008014133A
Other languages
English (en)
Other versions
JP5295576B2 (ja
Inventor
Manabu Satsusano
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008014133A priority Critical patent/JP5295576B2/ja
Publication of JP2009176062A publication Critical patent/JP2009176062A/ja
Application granted granted Critical
Publication of JP5295576B2 publication Critical patent/JP5295576B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】単一の処理モジュールで文節にまとめ上げる処理と係り受け解析処理とを同時に行うことができ、文のスキャンを一度で済むようにして処理を速める。
【解決手段】文節に区切ることが可能で、文節間の係り受け関係が存在する自然言語文を解析する自然言語解析装置であって、解析対象の文を形態素に分解する形態素解析手段と、形態素列の各単語間の依存関係を決定してくことで、文節のまとめ上げと係り受け解析とを行う文節まとめ上げ係り受け解析手段とを備え、前記文節まとめ上げ係り受け解析手段は、前記解析対象の文末まで前記文節のまとめ上げを行う過程で、文節の先頭の検出を行いながら依存先が未確定の単語をスタックしていき、依存関係の判定により文節の区切りが決定した後に、スタックに蓄積された単語の依存関係の決定を行って文節間の係り受けを決定する。
【選択図】図1

Description

本発明は、文節に区切ることが可能で、文節間の係り受け関係が存在する、日本語等の自然言語文の解析技術に関する。
日本語の文の解析では、形態素解析を行った単語(形態素)列を文節としてまとめ、その文節間の係り受け関係(依存関係)で解析結果を表現するのが主流である。この場合、係り受け解析の手法としては、係り受け関係の解析を行う前段の処理として、形態素列を文節にまとめ上げておくことが必要である(例えば、特許文献1、非特許文献1を参照)。
特開2004−310638号公報 Manabu Sassano. 2004. "Linear-time dependency analysis for Japanese", COLING 2004. 颯々野学. 2007."日本語係り受け解析の線形時間アルゴリズム",自然言語処理 ,Vol.14, No.1, pp. 3 - 18.
上述したように、従来は形態素解析処理の他に、文節にまとめ上げる処理と係り受け解析処理の2段階の処理が必要であったため、次のような問題点が指摘されていた。
(1)文節をまとめるための処理モジュールと、文節間の係り受け関係を解析する処理モジュールとが別途必要になり、プログラムの開発およびメンテナンスが困難となる。
(2)文節にまとめ上げる処理と係り受け解析処理とで、文を何度もスキャン(読取)する必要があり、処理が遅くなる。
本発明は上記の従来の問題点に鑑み提案されたものであり、その目的とするところは、単一の処理モジュールで文節にまとめ上げる処理と係り受け解析処理とを同時に行うことができ、文のスキャンを一度で済むようにして処理を速めることのできる自然言語解析装置、自然言語解析方法および自然言語解析プログラムを提供することにある。
上記の課題を解決するため、本発明にあっては、請求項1に記載されるように、文節に区切ることが可能で、文節間の係り受け関係が存在する自然言語文を解析する自然言語解析装置であって、解析対象の文を形態素に分解する形態素解析手段と、形態素列の各単語間の依存関係を決定してくことで、文節のまとめ上げと係り受け解析とを行う文節まとめ上げ係り受け解析手段とを備え、前記文節まとめ上げ係り受け解析手段は、前記解析対象の文末まで前記文節のまとめ上げを行う過程で、文節の先頭の検出を行いながら依存先が未確定の単語をスタックしていき、依存関係の判定により文節の区切りが決定した後に、スタックに蓄積された単語の依存関係の決定を行って文節間の係り受けを決定する自然言語解析装置を要旨としている。
また、請求項2に記載されるように、請求項1に記載の自然言語解析装置において、前記文節まとめ上げ係り受け解析手段における依存関係の判定は、依存元および依存先候補の単語の品詞、位置関係等の条件に応じた判定結果のタイプを対応付けた文法定義テーブルに基づいて行うようにすることができる。
また、請求項3に記載されるように、請求項1に記載の自然言語解析装置において、前記文節まとめ上げ係り受け解析手段における依存関係の判定は、SVMにより機械学習された文法ルールに基づいて行うようにすることができる。
また、請求項4に記載されるように、文節に区切ることが可能で、文節間の係り受け関係が存在する自然言語文を解析する自然言語解析方法であって、解析対象の文を形態素に分解する形態素解析工程と、形態素列の各単語間の依存関係を決定してくことで、文節のまとめ上げと係り受け解析とを行う文節まとめ上げ係り受け解析工程とを備え、前記文節まとめ上げ係り受け解析工程は、前記解析対象の文末まで前記文節のまとめ上げを行う過程で、文節の先頭の検出を行いながら依存先が未確定の単語をスタックしていき、依存関係の判定により文節の区切りが決定した後に、スタックに蓄積された単語の依存関係の決定を行って文節間の係り受けを決定する自然言語解析方法として構成することができる。
また、請求項5に記載されるように、文節に区切ることが可能で、文節間の係り受け関係が存在する自然言語文を解析する自然言語解析プログラムであって、自然言語解析装置を構成するコンピュータを、解析対象の文を形態素に分解する形態素解析手段、形態素列の各単語間の依存関係を決定してくことで、文節のまとめ上げと係り受け解析とを行う文節まとめ上げ係り受け解析手段として機能させ、前記文節まとめ上げ係り受け解析手段は、前記解析対象の文末まで前記文節のまとめ上げを行う過程で、文節の先頭の検出を行いながら依存先が未確定の単語をスタックしていき、依存関係の判定により文節の区切りが決定した後に、スタックに蓄積された単語の依存関係の決定を行って文節間の係り受けを決定する自然言語解析プログラムとして構成することができる。
本発明の自然言語解析装置、自然言語解析方法および自然言語解析プログラムにあっては、文節まとめ上げと係り受け解析を同時に行なうことができるため、文を一度スキャンするだけでよい。そのため、文節まとめ上げと係り受け解析で独立したモジュールを必要としないとともに、処理を高速化することができる。
以下、本発明の好適な実施形態につき説明する。
図1は本発明の一実施形態にかかる自然言語解析装置の構成例を示す図である。なお、以下では日本語を対象とした例について説明するが、文節に区切ることが可能で、文節間の係り受け関係が存在する言語であれば同様に適用することができる。
図1において、自然言語解析装置1は、解析の対象となる文を入力する解析対象文入力部101と、この解析対象文入力部101により入力された文に対して形態素解析を行い、解析結果を一文単位に解析文格納部103に格納する形態素解析部102とを備えている。解析文格納部103のデータ構造については後述する。
また、自然言語解析装置1は、解析文格納部103から一文単位に情報を読み取る一文読み取り部104と、この一文読み取り部104により読み取った情報に基づいて文節のまとめ上げと文節間の係り受け関係の解析を同時に行い、処理結果を解析文格納部103にその都度格納していく文節まとめ上げ係り受け解析部105とを備えている。
また、自然言語解析装置1は、この文節まとめ上げ係り受け解析部105により作業用データ領域として用いられる依存元単語ID格納エリア106、依存先候補単語ID格納エリア107および依存先未決スタック108と、文節まとめ上げ係り受け解析部105の処理において単語間の依存関係の判定に用いられる依存関係判定部109と、解析結果を出力する解析結果出力部111とを備えている。依存元単語ID格納エリア106には処理過程で依存元となる単語IDを保持し、依存先候補単語ID格納エリア107は処理過程で依存先候補となる単語IDを保持し、依存先未決スタック108は依存先が決まらなかった依存元の単語IDを後入れ先出し(LIFO:Last In First Out)で保持する。
また、依存関係判定部109は文法定義テーブル110を有している。ただし、文法定義テーブル110はIF―THEN形式等のデータ構造として保持するほか、SVM(Support Vector Machine)による機械学習により生成されたモデルとして保持する場合も含む。文法定義テーブル110の例については後述する。
図2はSVMを用いた場合の依存関係判定部109の構成例を示す図である。
図2において、依存関係判定部109は、機械学習のための教師データを入力する教師データ入力部1091と、この教師データ入力部1091により入力された教師データに基づいてSVMにより機械学習を行う機械学習部1092と、機械学習により生成されたモデルを保持する文法ルール記憶部1093とを備えている。
また、依存関係判定部109は、文節まとめ上げ係り受け解析部105(図1)から依存元単語ID、依存先候補単語IDおよび形態素列を引数に依存関係判定要求を受け付ける依存関係判定要求受付部1094と、この依存関係判定要求受付部1094で受け付けた依存関係判定要求に基づき、文法ルール記憶部1093を用いて依存関係を判定し、判定結果を文節まとめ上げ係り受け解析部105に返す依存関係判定実行部1095とを備えている。
図3は解析文格納部103の例を示す図であり、一文を構成する単語(形態素)毎に、単語を識別する「単語ID」フィールドと、単語の文字列を示す「単語」フィールドと、品詞を示す「品詞」フィールドと、依存先の単語IDを示す「依存先」フィールドと、依存先の単語との依存関係のタイプを示す「タイプ」フィールドとを含んでいる。なお、構文解析が行われた直後の状態では、「単語ID」「単語」「品詞」のフィールドが埋められ、「依存先」「タイプ」のフィールドはブランクである。
図4は文法定義テーブル110の例を示す図であり、依存元および依存先候補の単語の品詞、位置関係等の条件に応じた判定結果のタイプが対応付けられている。ここでは、「依存元単語が名詞(普通名詞、人名等) AND 依存先候補単語が格助詞 AND 依存元単語の直後に依存先候補単語」等の場合に「依存元単語と依存先候補単語が同一文節を構成」することを示すタイプ「B」が、「依存元単語が格助詞 AND 依存先候補単語が動詞」もしくは「依存元単語が連体詞 AND 依存先候補単語が格助詞」等の場合に「依存元単語が末尾となる文節が、依存先候補単語が末尾となる文節に係る」ことを示すタイプ「D」、上記以外の場合(例:依存元単語が格助詞 AND 依存先候補単語が格助詞等)であることを示すタイプ「O」が設定されている。
図5は文節まとめ上げ係り受け解析部105の処理例を示すフローチャートである。
図5において、ステップS1、S2は依存先未決スタック108および依存先候補単語ID格納エリア107への初期値設定処理であり、ステップS3は終了条件判断処理である。ステップS3では、依存先候補単語IDが文末の単語IDよりも大きくなった場合、文末まで処理したものとして、文節まとめ上げ係り受け解析処理を終了する。
ステップS4は、依存先未決スタック108から依存元単語ID格納エリア106への依存元単語IDの設定処理である。依存先未決スタック108に単語IDが積まれていない場合、依存元単語IDはNULL(以下の例では「−1」)となる。
ステップS5は依存先未決スタック108からポップ(pop)した依存元単語ID格納エリア106の依存元単語IDがNULLであるか否かによる分岐処理である。依存元単語IDがNULLの場合、ステップS13で依存先未決スタック108に依存先候補単語ID格納エリア107の依存先候補単語IDをプッシュ(push)し、ステップS14で依存先候補単語ID格納エリア107の依存先候補単語IDをインクリメント(1加算)し、ステップS3に戻る。
ステップS6は依存関係判定部109による依存関係判定処理である。依存関係判定部109は文法定義テーブル110(文法ルール記憶部1093のモデルによる場合を含む)に基づいて依存元の単語と依存先候補の単語の依存関係を判定し、判定結果のタイプを返す。
ステップS7は依存関係判定結果のタイプによる分岐処理であり、タイプ「B」「D」の場合は依存関係が決定されたものとして、ステップS8で解析文格納部103の依存元単語に対応する「依存先」フィールドに依存先候補単語IDを設定し、ステップS9で「タイプ」フィールドに判定結果のタイプを設定し、ステップS10で依存元単語ID格納エリア106の依存元単語IDを依存先未決スタック108からポップした値で更新し、ステップS5に戻る。
タイプ「B」「D」以外の場合は依存関係が決定されなかったものとして、ステップS11で依存元単語ID格納エリア106の依存元単語IDがNULL以外であるか否か判断し、NULL以外であればステップS12で依存先未決スタック108に依存元単語ID格納エリア106の依存元単語IDをプッシュする。その後、ステップS13で依存先未決スタック108に依存先候補単語ID格納エリア107の依存先候補単語IDをプッシュし、ステップS14で依存先候補単語ID格納エリア107の依存先候補単語IDをインクリメントし、ステップS3に戻る。
以下、形態素解析結果「健/が/彼女/に/あの/本/を/あげた」(図3)という具体例について、図6〜図8を用いて図5の処理を説明する。
図5において、文節まとめ上げ係り受け解析部105は処理を開始すると、依存先未決スタック108に初期値として「0」をプッシュし(ステップS1)、依存先候補単語ID格納エリア107の依存先候補単語IDを初期値「1」に設定する(ステップS2)。この状態を図6(a)に示している。
図5に戻り、文節まとめ上げ係り受け解析部105は依存先候補単語ID格納エリア107の依存先候補単語IDが解析文格納部103の文末の単語IDより大きいか否か判断するが(ステップS3)、この時点で依存先候補単語IDは「1」、文末の単語IDは「7」であるため、依存先候補単語IDが文末の単語IDより大きくないと判断する(ステップS3のNo)。
次いで、文節まとめ上げ係り受け解析部105は依存先未決スタック108からポップした値「0」を依存元単語ID格納エリア106の依存元単語IDに設定する(ステップS4)。ポップしたことで依存先未決スタック108はブランクになる。この状態を図6(b)に示している。
図5に戻り、文節まとめ上げ係り受け解析部105は依存元単語ID格納エリア106の依存元単語IDがNULLであるか否か判断するが(ステップS5)、この時点で依存元単語IDは「0」であるため、NULLではないと判断する(ステップS5のNo)。
次いで、文節まとめ上げ係り受け解析部105は、依存関係判定部109により、依存元単語と依存先候補単語の依存関係を解析する(ステップS6)。依存元単語「単語ID:0、単語:健、品詞:人名」と依存先候補単語「単語ID:1、単語:が、品詞:格助詞」につき、依存関係判定部109は文法定義テーブル110(図4)に基づいてタイプ「B」と判定する。
次いで、文節まとめ上げ係り受け解析部105は判定結果がタイプ「B」「D」のいずれかであるか否か判断するが(ステップS7)、ここではタイプ「B」であるため、タイプ「B」「D」のいずれかであると判断する(ステップS7のYes)。
次いで、文節まとめ上げ係り受け解析部105は解析文格納部103の依存元単語に対応する「依存先」フィールドに依存先候補単語ID格納エリア107の依存先候補単語ID「1」を設定し(ステップS8)、「タイプ」フィールドに判定結果のタイプ「B」を設定する(ステップS9)。また、依存元単語ID格納エリア106の依存元単語IDを依存先未決スタック108からポップした値で更新するが(ステップS10)、依存先未決スタック108はブランクであるため依存元単語IDは「−1」となる。この状態を図6(c)に示している。
図5に戻り、文節まとめ上げ係り受け解析部105は依存元単語ID格納エリア106の依存元単語IDがNULLであるか否か判断するが(ステップS5)、この時点で依存元単語IDは「−1」であるため、NULLであると判断する(ステップS5のYes)。これにより、文節まとめ上げ係り受け解析部105は依存先未決スタック108に依存先候補単語ID格納エリア107の依存先候補単語ID「1」をプッシュする(ステップS13)。この状態を図7(a)に示している。
図5に戻り、文節まとめ上げ係り受け解析部105は依存先候補単語ID格納エリア107の依存先候補単語IDをインクリメントし、「2」とする(ステップS14)。この状態を図7(b)に示している。
図5に戻り、文節まとめ上げ係り受け解析部105は依存先候補単語ID格納エリア107の依存先候補単語IDが解析文格納部103の文末の単語IDより大きいか否か判断するが(ステップS3)、この時点で依存先候補単語IDは「2」、文末の単語IDは「7」であるため、依存先候補単語IDが文末の単語IDより大きくないと判断する(ステップS3のNo)。
次いで、文節まとめ上げ係り受け解析部105は依存先未決スタック108からポップした値「1」を依存元単語ID格納エリア106の依存元単語IDに設定する(ステップS4)。ポップしたことで依存先未決スタック108はブランクになる。この状態を図7(c)に示している。
図5に戻り、文節まとめ上げ係り受け解析部105は依存元単語ID格納エリア106の依存元単語IDがNULLであるか否か判断するが(ステップS5)、この時点で依存元単語IDは「1」であるため、NULLではないと判断する(ステップS5のNo)。
次いで、文節まとめ上げ係り受け解析部105は、依存関係判定部109により、依存元単語と依存先候補単語の依存関係を解析する(ステップS6)。依存元単語「単語ID:1、単語:が、品詞:格助詞」と依存先候補単語「単語ID:2、単語:彼女、品詞:代名詞」につき、依存関係判定部109は文法定義テーブル110(図4)に基づいてタイプ「O」と判定する。
次いで、文節まとめ上げ係り受け解析部105は判定結果がタイプ「B」「D」のいずれかであるか否か判断するが(ステップS7)、ここではタイプ「O」であるため、タイプ「B」「D」のいずれかでないと判断する(ステップS7のNo)。
次いで、文節まとめ上げ係り受け解析部105は依存元単語ID格納エリア106の依存元単語IDがNULL以外であるか否か判断するが(ステップS11)、この時点で依存元単語IDは「1」であるため、NULL以外であると判断する(ステップS11のYes)。
次いで、文節まとめ上げ係り受け解析部105は依存先未決スタック108に依存元単語ID格納エリア106の依存元単語ID「1」をプッシュし(ステップS12)、続いて依存先未決スタック108に依存先候補単語ID格納エリア107の依存先候補単語ID「2」をプッシュする(ステップS13)。この状態を図8(a)に示している。
図5に戻り、文節まとめ上げ係り受け解析部105は依存先候補単語ID格納エリア107の依存先候補単語IDをインクリメントし、「3」とする(ステップS14)。この状態を図8(b)に示している。
図5に戻り、文節まとめ上げ係り受け解析部105はその後も同様に処理を進めて行き、依存先候補単語ID格納エリア107の依存先候補単語IDが解析文格納部103の文末の単語IDより大きいと判断(ステップS3のYes)されて文節まとめ上げ係り受け解析処理を終了する時点の状態を図8(c)に示す。この時点では、解析文格納部103の文末の単語以外については「依存先」「タイプ」のフィールドが埋められている。
図9は解析文格納部103の値から文節先頭および文節区切りの認識の例を示す図であり、原則としてタイプが「D」の単語の後が文節区切りとなることを示している。タイプ「D」の単語の直後で区切った各文節について、その文節内(文節末尾)でタイプ「D」を持つ単語の依存先単語が属する文節が、その文節の係り先の文節となる。
このとき、「健が」の文節の係り先は、この文節内(末尾)のタイプ「D」を持つ単語「が」の依存先単語で表される。この「が」の依存先単語は単語IDが「7」の「あげた」であり、この文節に係ることが分かる。同様に、「あの」の文節の係り先は、「あの」の依存先単語である「を」が存在する「本を」になることが分かる。
なお、タイプ「D」の単語の依存先単語が文節の末尾となっていない場合も、その依存先単語が属している文節に係っていると解釈するようにしてもよい。
このように、文節まとめ上げ係り受け解析処理が終了した時点の解析文格納部103の内容は、文節と文節間の係り受け関係を示すものとなっている。すなわち、文節「健/が」が文節「あげた」に係り、文節「彼女/に」が文節「あげた」に係り、文節「あの/本/を」が文節「あげた」に係ることを示している。以上説明したように、本実施形態によれば次のような利点がある。
(1)文節をまとめるための処理モジュールと、文節間の係り受けを解析する処理モジュールとを別途用意する必要がなく、プログラムの開発およびメンテナンスを容易にすることができる。
(2)文節にまとめ上げる処理と係り受け解析処理とで、文を何度もスキャン(読取)する必要がなく、処理を速めることができる。
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。
本発明の一実施形態にかかる自然言語解析装置の構成例を示す図である。 SVMを用いた場合の依存関係判定部の構成例を示す図である。 解析文格納部の例を示す図である。 文法定義テーブルの例を示す図である。 文節まとめ上げ係り受け解析部の処理例を示すフローチャートである。 文節まとめ上げ係り受け解析部の具体的な処理例を示す図(その1)である。 文節まとめ上げ係り受け解析部の具体的な処理例を示す図(その2)である。 文節まとめ上げ係り受け解析部の具体的な処理例を示す図(その3)である。 解析文格納部の値から文節先頭および文節区切りの認識の例を示す図である。
符号の説明
1 自然言語解析装置
101 解析対象文入力部
102 形態素解析部
103 解析文格納部
104 一文読み取り部
105 文節まとめ上げ係り受け解析部
106 依存元単語ID格納エリア
107 依存先候補単語ID格納エリア
108 依存先未決スタック
109 依存関係判定部
1091 教師データ入力部
1092 機械学習部
1093 文法ルール記憶部
1094 依存関係判定要求受付部
1095 依存関係判定実行部
110 文法定義テーブル
111 解析結果出力部

Claims (5)

  1. 文節に区切ることが可能で、文節間の係り受け関係が存在する自然言語文を解析する自然言語解析装置であって、
    解析対象の文を形態素に分解する形態素解析手段と、
    形態素列の各単語間の依存関係を決定してくことで、文節のまとめ上げと係り受け解析とを行う文節まとめ上げ係り受け解析手段と
    を備え、
    前記文節まとめ上げ係り受け解析手段は、
    前記解析対象の文末まで前記文節のまとめ上げを行う過程で、文節の先頭の検出を行いながら依存先が未確定の単語をスタックしていき、依存関係の判定により文節の区切りが決定した後に、スタックに蓄積された単語の依存関係の決定を行って文節間の係り受けを決定する
    ことを特徴とする自然言語解析装置。
  2. 請求項1に記載の自然言語解析装置において、
    前記文節まとめ上げ係り受け解析手段における依存関係の判定は、依存元および依存先候補の単語の品詞、位置関係等の条件に応じた判定結果のタイプを対応付けた文法定義テーブルに基づいて行う
    ことを特徴とする自然言語解析装置。
  3. 請求項1に記載の自然言語解析装置において、
    前記文節まとめ上げ係り受け解析手段における依存関係の判定は、SVMにより機械学習された文法ルールに基づいて行う
    ことを特徴とする自然言語解析装置。
  4. 文節に区切ることが可能で、文節間の係り受け関係が存在する自然言語文を解析する自然言語解析方法であって、
    解析対象の文を形態素に分解する形態素解析工程と、
    形態素列の各単語間の依存関係を決定してくことで、文節のまとめ上げと係り受け解析とを行う文節まとめ上げ係り受け解析工程と
    を備え、
    前記文節まとめ上げ係り受け解析工程は、
    前記解析対象の文末まで前記文節のまとめ上げを行う過程で、文節の先頭の検出を行いながら依存先が未確定の単語をスタックしていき、依存関係の判定により文節の区切りが決定した後に、スタックに蓄積された単語の依存関係の決定を行って文節間の係り受けを決定する
    ことを特徴とする自然言語解析方法。
  5. 文節に区切ることが可能で、文節間の係り受け関係が存在する自然言語文を解析する自然言語解析プログラムであって、
    自然言語解析装置を構成するコンピュータを、
    解析対象の文を形態素に分解する形態素解析手段、
    形態素列の各単語間の依存関係を決定してくことで、文節のまとめ上げと係り受け解析とを行う文節まとめ上げ係り受け解析手段
    として機能させ、
    前記文節まとめ上げ係り受け解析手段は、
    前記解析対象の文末まで前記文節のまとめ上げを行う過程で、文節の先頭の検出を行いながら依存先が未確定の単語をスタックしていき、依存関係の判定により文節の区切りが決定した後に、スタックに蓄積された単語の依存関係の決定を行って文節間の係り受けを決定する
    コンピュータ読み取り可能の自然言語解析プログラム。
JP2008014133A 2008-01-24 2008-01-24 自然言語解析装置、自然言語解析方法および自然言語解析プログラム Active JP5295576B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008014133A JP5295576B2 (ja) 2008-01-24 2008-01-24 自然言語解析装置、自然言語解析方法および自然言語解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008014133A JP5295576B2 (ja) 2008-01-24 2008-01-24 自然言語解析装置、自然言語解析方法および自然言語解析プログラム

Publications (2)

Publication Number Publication Date
JP2009176062A true JP2009176062A (ja) 2009-08-06
JP5295576B2 JP5295576B2 (ja) 2013-09-18

Family

ID=41031074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008014133A Active JP5295576B2 (ja) 2008-01-24 2008-01-24 自然言語解析装置、自然言語解析方法および自然言語解析プログラム

Country Status (1)

Country Link
JP (1) JP5295576B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198075A (ja) * 2010-03-19 2011-10-06 Yahoo Japan Corp 自然言語解析装置、方法及びプログラム
US9436676B1 (en) 2014-11-25 2016-09-06 Truthful Speaking, Inc. Written word refinement system and method

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02165378A (ja) * 1988-12-20 1990-06-26 Csk Corp 機械翻訳システム
JPH03137771A (ja) * 1989-10-24 1991-06-12 Ricoh Co Ltd 構文解析装置
JPH04372060A (ja) * 1991-06-20 1992-12-25 Csk Corp 日本語解析装置
JPH05210697A (ja) * 1991-07-03 1993-08-20 Csk Corp 日本語構文解析システム
JPH0668131A (ja) * 1992-08-20 1994-03-11 Csk Corp 機械翻訳装置における並列名詞句処理方式
JPH06131390A (ja) * 1992-10-20 1994-05-13 Csk Corp 自然言語解析装置
JPH08249330A (ja) * 1995-03-10 1996-09-27 Csk Corp 自然言語の構文解析装置
JPH11203281A (ja) * 1998-01-09 1999-07-30 Sharp Corp 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02165378A (ja) * 1988-12-20 1990-06-26 Csk Corp 機械翻訳システム
JPH03137771A (ja) * 1989-10-24 1991-06-12 Ricoh Co Ltd 構文解析装置
JPH04372060A (ja) * 1991-06-20 1992-12-25 Csk Corp 日本語解析装置
JPH05210697A (ja) * 1991-07-03 1993-08-20 Csk Corp 日本語構文解析システム
JPH0668131A (ja) * 1992-08-20 1994-03-11 Csk Corp 機械翻訳装置における並列名詞句処理方式
JPH06131390A (ja) * 1992-10-20 1994-05-13 Csk Corp 自然言語解析装置
JPH08249330A (ja) * 1995-03-10 1996-09-27 Csk Corp 自然言語の構文解析装置
JPH11203281A (ja) * 1998-01-09 1999-07-30 Sharp Corp 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200100880011; 工藤 拓 外1名: 'Support Vector Machineによる日本語係り受け解析' 情報処理学会研究報告 第2000巻第65号, 20000719, p.79-86, 社団法人情報処理学会 *
CSNG200700424001; 颯々野 学: '日本語係り受け解析の線形時間アルゴリズム' 自然言語処理 第14巻第1号, 20070110, p.3-18, 言語処理学会 *
JPN6012000783; 工藤 拓 外1名: 'Support Vector Machineによる日本語係り受け解析' 情報処理学会研究報告 第2000巻第65号, 20000719, p.79-86, 社団法人情報処理学会 *
JPN6012049945; 颯々野 学: '日本語係り受け解析の線形時間アルゴリズム' 自然言語処理 第14巻第1号, 20070110, p.3-18, 言語処理学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198075A (ja) * 2010-03-19 2011-10-06 Yahoo Japan Corp 自然言語解析装置、方法及びプログラム
US9436676B1 (en) 2014-11-25 2016-09-06 Truthful Speaking, Inc. Written word refinement system and method

Also Published As

Publication number Publication date
JP5295576B2 (ja) 2013-09-18

Similar Documents

Publication Publication Date Title
US20210157984A1 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
Rashel et al. Building an Indonesian rule-based part-of-speech tagger
US7756871B2 (en) Article extraction
JP4427500B2 (ja) 意味解析装置、意味解析方法および意味解析プログラム
CN108614898A (zh) 文档解析方法与装置
US20060129396A1 (en) Method and apparatus for automatic grammar generation from data entries
US8538743B2 (en) Disambiguating text that is to be converted to speech using configurable lexeme based rules
Shanmugalingam et al. Language identification at word level in Sinhala-English code-mixed social media text
JP2004303240A (ja) 単語解析のためのシステムおよび方法
Chungku et al. Building NLP resources for Dzongkha: a tagset and a tagged corpus
US20140244676A1 (en) Discovering Title Information for Structured Data in a Document
Wong et al. isentenizer-: Multilingual sentence boundary detection model
JP5291351B2 (ja) 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム
JP5295576B2 (ja) 自然言語解析装置、自然言語解析方法および自然言語解析プログラム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
US8977538B2 (en) Constructing and analyzing a word graph
Boulaknadel et al. Amazighe Named Entity Recognition using a A rule based approach
JP2010092169A (ja) 情報処理装置及びプログラム
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
Oostdijk et al. Constructing a broad-coverage lexicon for text mining in the patent domain
JP2632806B2 (ja) 言語解析装置
JP3767180B2 (ja) 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
Hnátková et al. Linguistic annotation of corpora in the Czech National Corpus
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム
Megyesi Brill’s PoS tagger with extended lexical templates for Hungarian

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130612

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5295576

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350