JP5648913B2 - 機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム - Google Patents

機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム Download PDF

Info

Publication number
JP5648913B2
JP5648913B2 JP2011009499A JP2011009499A JP5648913B2 JP 5648913 B2 JP5648913 B2 JP 5648913B2 JP 2011009499 A JP2011009499 A JP 2011009499A JP 2011009499 A JP2011009499 A JP 2011009499A JP 5648913 B2 JP5648913 B2 JP 5648913B2
Authority
JP
Japan
Prior art keywords
phrase
morpheme
feature
semantic label
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011009499A
Other languages
English (en)
Other versions
JP2012150694A (ja
Inventor
今村 賢治
賢治 今村
朋子 泉
朋子 泉
菊井 玄一郎
玄一郎 菊井
理史 佐藤
理史 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
Nippon Telegraph and Telephone Corp
Tokai National Higher Education and Research System NUC
Original Assignee
Nagoya University NUC
Nippon Telegraph and Telephone Corp
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya University NUC, Nippon Telegraph and Telephone Corp, Tokai National Higher Education and Research System NUC filed Critical Nagoya University NUC
Priority to JP2011009499A priority Critical patent/JP5648913B2/ja
Publication of JP2012150694A publication Critical patent/JP2012150694A/ja
Application granted granted Critical
Publication of JP5648913B2 publication Critical patent/JP5648913B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、形態素列に対して1つ以上の形態素からなる機能表現の意味を、ラベルとして付与するための機能表現解析装置、機能表現解析方法と、機能表現の解析に必要な,素性に対する重みを格納したパラメータテーブルを学習するための素性重み学習装置、素性重み学習方法、およびこれらのプログラムに関する。
日本語では、1つ以上の形態素が組み合わさって助詞や助動詞などの機能語とほぼ同等の構成要素として働く表現が多数存在する。これを機能表現と呼ぶ。例えば、例文1「パソコンが壊れてしまったかも知れない。」という文を形態素解析すると、図1に示す以下の形態素列が得られる。
図1の形態素のうち、「が」「て」「しまっ」「た」「かも」「ない」が機能語であるが、「て/しまっ」という形態素列が「完了」という意味を、「かも/知れ/ない」という形態素列が「推量」という意味を表現しており、形態素と機能表現は必ずしも一致しない。機能表現解析装置とは、入力された形態素列に対して機能表現を特定し、その意味をラベルとして付与する装置である。例文1に対する機能表現意味ラベル(または、単に「意味ラベル」と呼ぶ)を付与した例を図2に示す。
これらの機能表現は言語理解にとって重要な役割を持っており、機能表現の意味を機械で正しく認識することは、深い意味解析を行う上で必須である。例えば、機能表現を正しく認識できると、例文1には推量の意味が含まれることが分かるようになる。また、例文2「東京/に/行き/たかっ/た」という文における「たかっ/た」が「要望」の意味を持つなどがわかるため、例文2は実際には「東京に行っていない」ことが分かるようになる。
解析方法としては、非特許文献1に記載された技術が従来技術として知られている。この解析方法では、入力は形態素列の表記を接続した文字列(平文)である。解析時には、すべての機能表現同士が接続可能であるとして解析を行う。
松吉俊,佐藤理史,"文体と難易度を制御可能な日本語機能表現の言い換え",自然言語処理,15(2):pp.75-99,2008年4月.
しかしながら、機能表現は、同じ表層形でも文脈によって異なる意味を持つものが多数存在する。例えば「走っ/て/て/、/転ん/だ」という文の場合、最初の「て」は「ている」と同様に「継続」の意味で用いられている。一方、2番目の「て」は走ったあとに転んだことを示す「順接確定」の意味である。非特許文献1の方法は、1つの機能表現表層形に複数の意味ラベルが付与可能な場合は、どの意味が最適か判断できないという問題点がある。
簡単な解決策として、次の方法が考えられる。まず、形態素列の後方から形態素表記を接続した文字列を作成し、機能表現辞書の表層形と照合する。そして、あらかじめ用意した機能表現同士の接続可否を記載した接続表を参照し、接続可能な機能表現列だけを出力する。この方法を用いた場合、非特許文献1の方法とは異なり、1つの機能表現表層形に複数の意味ラベルが付与可能な場合でも、直前または直後の機能表現との接続により適切な意味ラベルを選択可能である。しかし、接続表が適切でないと、どの機能表現も接続できずに機能表現が認定されない。また、複数の意味が接続可能となり、曖昧性解消ができないという問題点がある。さらに、適切な接続表を準備することは困難だという問題もある。
本発明は、機能表現同士の接続可否を記載した接続表を準備することなく、形態素列に意味ラベルを付与でき、同じ表層形を持つ機能表現が複数存在していても、適切な意味ラベルを選択することができる解析技術、およびその解析技術のための学習技術を提供することを目的とする。
本発明の機能表現解析装置は、入力された形態素列に対する意味ラベルを出力する。本発明の機能表現解析装置は、記録部、デコーディング部、意味ラベル取得部を備える。記録部は、機能表現の表層形とその意味ラベルとを格納した機能表現辞書と、素性に対する重みを格納したパラメータテーブルを記録する。素性には、形態素列と意味ラベルとを対応つける素性と意味ラベル列を表す素性の両方が含まれる。
デコーディング部は、解析対象の形態素列が入力され、入力された形態素列に尤もらしい意味ラベルの列が対応つけられたフレーズ列を、最尤フレーズ列として出力する。より具体的には、デコーディング部は、ラティス構築手段と最尤パス探索手段とを備える。ラティス構築手段は、形態素と意味ラベルを対応付けたものをフレーズとし、入力された形態素列に対して、取り得るフレーズ列を列挙したフレーズラティスを作成する。フレーズラティスは、機能表現辞書と形態素列表記が一致するフレーズと、機能語に分類される品詞を持つ形態素のフレーズと、述語に分類される品詞を持つ形態素のフレーズと、述語および機能表現ではないことを示す形態素のフレーズを含む。最尤パス探索手段は、パラメータテーブルを用いてフレーズラティスから入力された形態素列に対応する尤もらしいフレーズ列である最尤パスを探索することで最尤フレーズ列を求める。意味ラベル取得部は、最尤フレーズ列から意味ラベルを取り出す。
本発明の素性重み学習装置は、パラメータテーブルの作成および更新を行う。本発明の素性重み学習装置は、記録部、デコーディング部、第1素性選択部、第2素性選択部、差分抽出部、パラメータテーブル更新部、制御部を備える。記録部は、機能表現の表層形とその意味ラベルとを格納した機能表現辞書と、素性に対する重みを格納したパラメータテーブルと、形態素列に対してフレーズを構成して意味ラベルを付与した文の集合である意味ラベル正解コーパスを記録する。素性には、形態素列と意味ラベルとを対応つける素性と意味ラベル列を表す素性の両方が含まれる。
デコーディング部は、意味ラベル正解コーパス内の1文分の形態素列が入力され、入力された形態素列に尤もらしい意味ラベルの列が対応つけられたフレーズ列を、最尤フレーズ列として出力する。より具体的には、デコーディング部は、ラティス構築手段と最尤パス探索手段とを備える。ラティス構築手段は、形態素と意味ラベルを対応付けたものをフレーズとし、入力された形態素列に対して、取り得るフレーズ列を列挙したフレーズラティスを作成する。フレーズラティスは、機能表現辞書と形態素列表記が一致するフレーズと、機能語に分類される品詞を持つ形態素のフレーズと、述語に分類される品詞を持つ形態素のフレーズと、述語および機能表現ではないことを示す形態素のフレーズを含む。最尤パス探索手段は、パラメータテーブルを用いてフレーズラティスから入力された形態素列に対応する尤もらしいフレーズ列である最尤パスを探索することで最尤フレーズ列を求める。
第1素性選択部は、最尤フレーズ列から素性を求め、第1素性集合を作成する。第2素性選択部は、意味ラベル正解コーパスから正解となるフレーズ列である正解フレーズ列を求め、正解フレーズ列から素性を求め、第2素性集合を作成する。差分抽出部は、第1素性集合と第2素性集合との間で異なる素性を抽出する。パラメータテーブル更新部は、抽出された素性であって第1素性集合に含まれる素性の重みを小さくし、抽出された素性であって第2素性集合に含まれる素性の重みを大きくする。制御部は、デコーディング部、第1素性選択部、第2素性選択部、差分抽出部、パラメータテーブル更新部の処理を繰り返す。例えば、デコーディング部、第1素性選択部、第2素性選択部、差分抽出部、パラメータテーブル更新部の処理を1文ごとに実行し、意味ラベル正解コーパスに含まれる全文に対して実行するまで繰返し、パラメータテーブルの重みに変化がなくなったことを確認し、変化がある場合は処理を再度全文に対して実行するまで繰り返せばよい。
本発明の機能表現解析装置と素性重み学習装置は共に、ラティス構築手段と最尤パス探索手段とを有するデコーディング部を備える。ラティス構築手段は、入力された形態素列に対して、意味ラベルが付与されたフレーズラティスを作成する。フレーズラティスは、機能表現辞書と形態素列表記が一致するフレーズ、機能語に分類される品詞を持つ形態素のフレーズ、述語に分類される品詞を持つ形態素のフレーズ、述語および機能表現ではないことを示す形態素のフレーズを含む。最尤パス探索手段は、素性に対する重みを格納したパラメータテーブルを用いてフレーズラティスから尤もらしいパスである最尤パスを探索する。素性には、形態素列と意味ラベルとを対応つける素性と意味ラベル列を表す素性の両方が含まれる。
本発明の機能表現解析装置と素性重み学習装置はこのような特徴を有するので、機能表現同士の接続可否を記載した接続表を準備することなく、形態素列に意味ラベルを付与することが可能である。また、同じ表層形を持つ機能表現が複数存在していても、前後の文脈によって適切な意味ラベルを選択することができる。
入力形態素列の例を示す図。 機能表現意味ラベルを付与した結果の例を示す図。 本発明の学習と解析のイメージを示す図。 機能表現辞書に記録されている情報の例を示す図。 パラメータテーブルに記録される情報の例を示す図。 実施例1の素性重み学習装置の機能構成例を示す図。 実施例1の素性重み学習装置の処理フロー例を示す図。 フレーズラティスの例を示す図。 素性の例を示す図。 素性のイメージを示す図。 選択された素性の例を示す図。 実施例1の素性重み学習装置の別の処理フロー例を示す図。 実施例1の機能表現解析装置の機能構成例を示す図。 実施例1の機能表現解析装置の処理フローを示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
図3に本発明の機能表現解析装置と素性重み学習装置のイメージを示す。素性重み学習装置では、意味ラベル正解コーパス193を入力として、パラメータ推定部101が機能表現辞書191とパラメータテーブル192を用いて求めたフレーズ列(最尤フレーズ列)が、意味ラベル正解コーパス193に記録されているフレーズ列と同一になるように、パラメータテーブル192の各素性の重みの更新を行う。意味ラベル正解コーパス193とは、形態素列に対してフレーズを構成して意味ラベルを付与した文の集合である。機能表現辞書191とは、機能表現の表層形とその意味ラベルとを格納したものであり、パラメータテーブル192とは、素性に対する重みを格納したものである。図4に機能表現辞書191に記録されている情報の例を、図5にパラメータテーブル192に記録される情報の例を示す。機能表現解析装置では、デコーディング部110が、入力された形態素列に対して機能表現辞書191とパラメータテーブル192を用いてデコーディングを行う。そして、意味ラベル取得部210が意味ラベルを取得して、あらかじめ定めた形式で入力された形態素列に対する意味ラベルを出力する。詳細な構成と処理については以下に説明する。
図6に実施例1の素性重み学習装置の機能構成例を、図7に実施例1の素性重み学習装置の処理フロー例を示す。素性重み学習装置100は、記録部190、デコーディング部110、第1素性選択部120、第2素性選択部130、差分抽出部140、パラメータテーブル更新部150、制御部160を備える。なお、デコーディング部110、第1素性選択部120、第2素性選択部130、差分抽出部140、パラメータテーブル更新部150、制御部160が、図3のパラメータ推定部101に相当する。
記録部190は、機能表現の表層形とその意味ラベルとを格納した機能表現辞書191と、素性に対する重みを格納しうるパラメータテーブル192と、形態素列に対してフレーズを構成して意味ラベルを付与した文の集合である意味ラベル正解コーパス193を記録する。
パラメータテーブルは、各素性に対する重みを対応づけて記憶しうるものであり、素性としては、形態素の部分列(形態素列)と意味ラベルとを対応つける素性(マッピング素性)、及び、意味ラベル列を表す素性(N−gram素性)の両方が含まれる。マッピング素性に対する重みは、当該形態素列の意味ラベルへのなりやすさを表し、N−gram素性に対する重みは、当該意味ラベル列の尤もらしさを表す。
機能表現辞書191としては、例えば、日本語機能表現辞書「つつじ」(参考文献1:松吉俊,佐藤理史,宇津呂武仁,“日本語機能表現辞書の編纂”自然言語処理,14(5):pp.123-146, 2007年10月.)を用いればよい。「つつじ」は、機能表現の表層形約16,000種について、その意味カテゴリが付与されている。また、機能表現意味ラベルとして「つつじ」に収録されている意味カテゴリ89個を用いればよい。
素性重み学習装置100は、パラメータテーブル192を初期化する(S105)。例えば、空のパラメータテーブル192(すべての素性の重みが0のパラメータテーブルに相当する)を作成すればよい。制御部160は、意味ラベル正解コーパス193が記録している文の中の1文を選択し、その文の形態素列をデコーディング部110に入力する(S161)。そして、デコーディング部110は、入力された形態素列に意味ラベルが対応つけられたフレーズ列を、最尤フレーズ列として出力する(S110)。
より具体的には、デコーディング部110は、ラティス構築手段111と最尤パス探索手段112とを備える。ラティス構築手段111は、入力された形態素列に対して、意味ラベルが付与されたフレーズラティスを作成する(S111)。例えば、ラティス構築手段111は、形態素列のすべての部分列について表記を接続した文字列を作成し、機能表現辞書と形態素列表記が一致する形態素の部分列に、機能表現辞書に格納された意味ラベルを付与したフレーズを作成する。機能語に分類される品詞を持つ形態素には、機能表現であることを示す意味ラベル“NULL”を付与したフレーズを作成する。述語に分類される品詞を持つ形態素には、述語であることを示す意味ラベル“PRED”を付与したフレーズを作成する。また、入力されたすべての形態素について、機能表現でも述語でもないことを示す意味ラベル“*”を付与したフレーズを作成する。このように、入力された形態素列に対して、取り得る部分形態素列とその意味ラベル列とを対応づけたフレーズ列を列挙したフレーズラティスを作成することで、機能表現辞書と形態素列表記が一致するフレーズと、機能語に分類される品詞を持つ形態素のフレーズと、述語に分類される品詞を持つ形態素のフレーズと、述語および機能表現ではないことを示す形態素のフレーズを含むフレーズラティスが作成される。図8は、フレーズラティスの例を示す図である。
最尤パス探索手段112は、パラメータテーブル192を用いてフレーズラティスから入力の形態素列に対応する尤もらしいパス(フレーズ列)である最尤パスを探索することで最尤フレーズ列を求める(S112)。例えば、フレーズラティスから、以下の式を満たすフレーズ列を探索し、最尤フレーズ列として出力する。
Figure 0005648913
ただし、Pはフレーズ列、f(P)はフレーズ列が与えられたときのk番目の素性、wは素性f(P)に対応する重みであり、パラメータテーブル192を検索することで取得される。なお、パラメータテーブル192に素性が存在しない場合は重みを0とする。この処理では、入力された形態素列と意味ラベル列の間で、その出現順序は変更されないため、式(1)を満たすフレーズ列は動的計画法を用いて探索できる。
第1素性選択部120は、最尤フレーズ列から素性を求め、第1素性集合を作成する(S120)。なお、上述のように素性には、形態素列と意味ラベルとを対応つける素性(マッピング素性)と意味ラベル列を表す素性(N−gram素性)の両方が含まれる。素性の例を図9に、素性のイメージを図10に示す。マッピング素性は、基本的にはフレーズに含まれる形態素情報と機能表現表層形、意味ラベルから決定される(図9のSW1,SP1)。ただし、形態素情報に関しては、フレーズの直前形態素や直後形態素のようにフレーズの周辺形態素を用いても良い(図9のSW2,SP2,SW3,SP3)。また、本実施例では、N−gram素性として3,2,1−gramを用いているが、他のN−gramを用いてもよい。例えば、図2のフレーズ「た」に対して、図9を用いて素性選択を行うと、図11に示す素性が作成される。このように、本発明で用いる素性は、形態素(または品詞)が存在するか否かに基づく二値素性である。
第2素性選択部130は、意味ラベル正解コーパス193から正解となるフレーズ列である正解フレーズ列を求め、正解フレーズ列から素性を求め、第2素性集合を作成する(S130)。差分抽出部140は、第1素性集合と第2素性集合との間で異なる素性を抽出する(S140)。パラメータテーブル更新部150は、抽出された素性であって第1素性集合に含まれる素性の重みを小さくし、抽出された素性であって第2素性集合に含まれる素性の重みを大きくする(S150)。
制御部160は、デコーディング部110、第1素性選択部120、第2素性選択部130、差分抽出部140、パラメータテーブル更新部150の処理を繰り返す。例えば、パーセプトロン学習を用いる場合は、デコーディング部110、第1素性選択部120、第2素性選択部130、差分抽出部140、パラメータテーブル更新部150の処理を1文ごとに実行する。そして、デコーディング部110、第1素性選択部120、第2素性選択部130、差分抽出部140、パラメータテーブル更新部150の処理を、意味ラベル正解コーパスに含まれる全文に対して実行するまで繰返し(S162)、パラメータテーブルの重みに変化がなくなったことを確認し、変化がある場合は処理を再度全文に対して実行するまで繰り返せばよい(S163)。
また、平均化パーセプトロン学習を用いる場合は、図12に示した処理フローとすればよい。図12は、図7とステップS164とS155のみが異なる。図12の場合は、ステップS162がYesの場合に、その時点でパラメータテーブル192に記録されている素性の重みを記録する。そして、ステップS163がNoとなるまで素性の重みは記録されていく。ステップS163がNoとなった場合(収束した場合)、パラメータテーブル更新部150は、これまでに記録された素性の重みの平均値を、パラメータテーブル192の素性の重みとする(S155)。
図13に実施例1の機能表現解析装置の機能構成例を、図14に実施例1の機能表現解析装置の処理フローを示す。機能表現解析装置200は、入力された形態素列に対する意味ラベルを出力する。機能表現解析装置200は、少なくとも記録部290、デコーディング部110、意味ラベル取得部210を備える。記録部290は、機能表現の表層形とその意味ラベルとを格納した機能表現辞書191と、素性に対する重みを格納したパラメータテーブル192を記録する。パラメータテーブルには、形態素列と意味ラベルとを対応つける素性(マッピング素性)と意味ラベル列を表す素性(N−gram素性)の両方が含まれ、それぞれの素性の尤もらしさを表す(マッピング素性の場合は当該形態素列の意味ラベルへのなりやすさを表し、N−gram素性の場合は当該意味ラベル列の尤もらしさを表す)重みが対応づけて記憶されている。パラメータテーブルは予め与えておくものとし、たとえば前述の素性重み学習装置等により予め学習しておくことができる。なお、図12の点線で示した構成部も備えた場合には、機能表現の解析と同時にパラメータテーブルの更新を行うという学習と解析の両方の機能を持った機能表現解析装置300を構成できる。
機能表現解析装置200の解析処理のフローは以下のようになる。機能表現解析装置200は、解析対象の形態素列をデコーディング部110に入力する(S261)。デコーディング部110は、素性重み学習装置における学習時と同じように、入力された形態素列に意味ラベルが対応つけられたフレーズ列を、最尤フレーズ列として出力する(S110)。
なお、デコーディング部110の詳細な構成や処理内容についても学習時と同じである。
意味ラベル取得部210は、最尤フレーズ列から意味ラベルを取り出す(S210)。
素性重み学習装置100と機能表現解析装置200(または機能表現解析装置300)によれば、機能表現同士の接続可否を記載した接続表を準備することなく、形態素列に意味ラベルを付与することが可能である。また、同じ表層形を持つ機能表現が複数存在していても、前後の文脈によって適切な意味ラベルを選択することができる。
なお、上述の機能表現解析装置もしくは素性重み学習装置は、プログラムによってコンピュータを機能表現解析装置もしくは素性重み学習装置として動作させてもよい。
100 素性重み学習装置 101 パラメータ推定部
110 デコーディング部 111 ラティス構築手段
112 最尤パス探索手段 120 第1素性選択部
130 第2素性選択部 140 差分抽出部
150 パラメータテーブル更新部 160 制御部
190、290 記録部 191 機能表現辞書
192 パラメータテーブル 193 意味ラベル正解コーパス
200、300 機能表現解析装置 210 意味ラベル取得部

Claims (8)

  1. 機能表現の表層形とその意味ラベルとを格納した機能表現辞書と、着目する形態素と当該形態素の直前および直後の形態素からなる形態素列に対してそれぞれの部分形態素列と前記意味ラベルとを対応づけるマッピング素性と、1つ以上の形態素に対する前記意味ラベルを意味ラベル列とするN−gram素性に対して、前記マッピング素性に対しては当該形態素列の意味ラベルへのなりやすさを表し、前記N−gram素性に対しては当該意味ラベル列の尤もらしさを表す重みをそれぞれ対応づけて格納したパラメータテーブルを記録する記録部と、
    入力された形態素列に尤もらしい意味ラベルの列が対応つけられた1つまたは複数の形態素から成るフレーズ列を、最尤フレーズ列として出力するデコーディング部と、
    前記最尤フレーズ列から意味ラベルを取り出す意味ラベル取得部と、
    を備え、
    前記デコーディング部は、
    形態素と意味ラベルを対応付けたものをフレーズとし、前記入力された形態素列に対して、取り得るフレーズ列を列挙したフレーズラティスを作成するラティス構築手段と、
    前記パラメータテーブルを用いて前記フレーズラティスから前記入力された形態素列に対応する尤もらしいフレーズ列である最尤パスを探索することで最尤フレーズ列を求める最尤パス探索手段と
    を有し、
    前記フレーズラティスは、前記機能表現辞書と形態素列表記が一致するフレーズと、機能語に分類される品詞を持つ形態素のフレーズと、述語に分類される品詞を持つ形態素のフレーズと、述語および機能表現ではないことを示す形態素のフレーズを含
    とを特徴とする機能表現解析装置。
  2. 前記最尤パス探索手段は、
    前記取り得るフレーズ列のうち、当該フレーズ列に対応する前記パラメータテーブルにおける素性の重みを足し合わせた値が最大となるフレーズ列を前記最尤パスとする
    ことを特徴とする請求項1記載の機能表現解析装置。
  3. 機能表現の表層形とその意味ラベルとを格納した機能表現辞書と、着目する形態素と当該形態素の直前および直後の形態素からなる形態素列に対してそれぞれの部分形態素列と前記意味ラベルとを対応づけるマッピング素性と、1つ以上の形態素に対する前記意味ラベルを意味ラベル列とするN−gram素性に対して、前記マッピング素性に対しては当該形態素列の意味ラベルへのなりやすさを表し、前記N−gram素性に対しては当該意味ラベル列の尤もらしさを表す重みをそれぞれ対応づけて格納したパラメータテーブルと、形態素列に対して1つまたは複数の形態素から成るフレーズを構成して意味ラベルを付与した文の集合である意味ラベル正解コーパスを記録する記録部と、
    前記意味ラベル正解コーパス内の1文分の形態素列が入力され、入力された形態素列に尤もらしい意味ラベルの列が対応つけられたフレーズ列を、最尤フレーズ列として出力するデコーディング部と、
    前記最尤フレーズ列から前記マッピング素性および前記N−gram素性を求め、第1素性集合を作成する第1素性選択部と、
    前記意味ラベル正解コーパスから正解となるフレーズ列である正解フレーズ列を求め、前記正解フレーズ列から前記マッピング素性および前記N−gram素性を求め、第2素性集合を作成する第2素性選択部と、
    前記第1素性集合と前記第2素性集合との間で異なる素性を抽出する差分抽出部と、
    抽出された素性であって前記第1素性集合に含まれる素性の重みを小さくし、抽出された素性であって前記第2素性集合に含まれる素性の重みを大きくするパラメータテーブル更新部と、
    前記デコーディング部、前記第1素性選択部、前記第2素性選択部、前記差分抽出部、前記パラメータテーブル更新部の処理を繰り返す制御部と
    を備え、
    前記デコーディング部は、
    形態素と意味ラベルを対応付けたものをフレーズとし、前記入力された形態素列に対して、取り得るフレーズ列を列挙したフレーズラティスを作成するラティス構築手段と、
    前記パラメータテーブルを用いて前記フレーズラティスから前記入力された形態素列に対応する尤もらしいフレーズ列である最尤パスを探索することで最尤フレーズ列を求める最尤パス探索手段と
    を有し、
    前記フレーズラティスは、前記機能表現辞書と形態素列表記が一致するフレーズと、機能語に分類される品詞を持つ形態素のフレーズと、述語に分類される品詞を持つ形態素のフレーズと、述語および機能表現ではないことを示す形態素のフレーズを含
    とを特徴とする素性重み学習装置。
  4. あらかじめ、機能表現の表層形とその意味ラベルとを格納した機能表現辞書と、着目する形態素と当該形態素の直前および直後の形態素からなる形態素列に対してそれぞれの部分形態素列と前記意味ラベルとを対応づけるマッピング素性と、1つ以上の形態素に対する前記意味ラベルを意味ラベル列とするN−gram素性に対して、前記マッピング素性に対しては当該形態素列の意味ラベルへのなりやすさを表し、前記N−gram素性に対しては当該意味ラベル列の尤もらしさを表す重みをそれぞれ対応づけて格納したパラメータテーブルを記録しておき、
    入力された形態素列に尤もらしい意味ラベルの列が対応つけられた1つまたは複数の形態素から成るフレーズ列を、最尤フレーズ列として出力するデコーディングステップと、
    前記最尤フレーズ列から意味ラベルを取り出す意味ラベル取得ステップと、
    を有し、
    前記デコーディングステップは、
    形態素と意味ラベルを対応付けたものをフレーズとし、前記入力された形態素列に対して、取り得るフレーズ列を列挙したフレーズラティスを作成するラティス構築サブステップと、
    前記パラメータテーブルを用いて前記フレーズラティスから前記入力された形態素列に対応する尤もらしいフレーズ列である最尤パスを探索することで最尤フレーズ列を求める最尤パス探索サブステップと
    を有し、
    前記フレーズラティスは、前記機能表現辞書と形態素列表記が一致するフレーズと、機能語に分類される品詞を持つ形態素のフレーズと、述語に分類される品詞を持つ形態素のフレーズと、述語および機能表現ではないことを示す形態素のフレーズを含
    とを特徴とする機能表現解析方法。
  5. 前記最尤パス探索サブステップは、
    前記取り得るフレーズ列のうち、当該フレーズ列に対応する前記パラメータテーブルにおける素性の重みを足し合わせた値が最大となるフレーズ列を前記最尤パスとする
    ことを特徴とする請求項4記載の機能表現解析方法。
  6. あらかじめ、機能表現の表層形とその意味ラベルとを格納した機能表現辞書と、着目する形態素と当該形態素の直前および直後の形態素からなる形態素列に対してそれぞれの部分形態素列と前記意味ラベルとを対応づけるマッピング素性と、1つ以上の形態素に対する前記意味ラベルを意味ラベル列とするN−gram素性に対して、前記マッピング素性に対しては当該形態素列の意味ラベルへのなりやすさを表し、前記N−gram素性に対しては当該意味ラベル列の尤もらしさを表す重みをそれぞれ対応づけて格納したパラメータテーブルと、形態素列に対して1つまたは複数の形態素から成るフレーズを構成して意味ラベルを付与した文の集合である意味ラベル正解コーパスを記録しておき、
    前記意味ラベル正解コーパス内の1文分の形態素列が入力され、入力された形態素列に尤もらしい意味ラベルの列が対応つけられたフレーズ列を、最尤フレーズ列として出力するデコーディングステップと、
    前記最尤フレーズ列から前記マッピング素性および前記N−gram素性を求め、第1素性集合を作成する第1素性選択ステップと、
    前記意味ラベル正解コーパスから正解となるフレーズ列である正解フレーズ列を求め、前記正解フレーズ列から前記マッピング素性および前記N−gram素性を求め、第2素性集合を作成する第2素性選択ステップと、
    前記第1素性集合と前記第2素性集合との間で異なる素性を抽出する差分抽出ステップと、
    抽出された素性であって前記第1素性集合に含まれる素性の重みを小さくし、抽出された素性であって前記第2素性集合に含まれる素性の重みを大きくするパラメータテーブル更新ステップと、
    前記デコーディングステップ、前記第1素性選択ステップ、前記第2素性選択ステップ、前記差分抽出ステップ、前記パラメータテーブル更新ステップの処理を繰り返す制御ステップと
    を有し、
    前記デコーディングステップは、
    形態素と意味ラベルを対応付けたものをフレーズとし、前記入力された形態素列に対して、取り得るフレーズ列を列挙したフレーズラティスを作成するラティス構築サブステップと、
    前記パラメータテーブルを用いて前記フレーズラティスから前記入力された形態素列に対応する尤もらしいフレーズ列である最尤パスを探索することで最尤フレーズ列を求める最尤パス探索サブステップと
    を有し、
    前記フレーズラティスは、前記機能表現辞書と形態素列表記が一致するフレーズと、機能語に分類される品詞を持つ形態素のフレーズと、述語に分類される品詞を持つ形態素のフレーズと、述語および機能表現ではないことを示す形態素のフレーズを含
    とを特徴とする素性重み学習方法。
  7. 請求項1または2に記載の機能表現解析装置としてコンピュータを動作させるためのプログラム。
  8. 請求項3記載の素性重み学習装置としてコンピュータを動作させるためのプログラム。
JP2011009499A 2011-01-20 2011-01-20 機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム Active JP5648913B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011009499A JP5648913B2 (ja) 2011-01-20 2011-01-20 機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011009499A JP5648913B2 (ja) 2011-01-20 2011-01-20 機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム

Publications (2)

Publication Number Publication Date
JP2012150694A JP2012150694A (ja) 2012-08-09
JP5648913B2 true JP5648913B2 (ja) 2015-01-07

Family

ID=46792876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011009499A Active JP5648913B2 (ja) 2011-01-20 2011-01-20 機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム

Country Status (1)

Country Link
JP (1) JP5648913B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102106797B1 (ko) * 2013-10-11 2020-05-06 에스케이텔레콤 주식회사 복합 문장 분석 장치, 이를 위한 기록매체
JP6652355B2 (ja) * 2015-09-15 2020-02-19 株式会社東芝 情報抽出装置、方法およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4328362B2 (ja) * 2007-03-06 2009-09-09 日本電信電話株式会社 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体
JP2009181408A (ja) * 2008-01-31 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 単語意味付与装置、単語意味付与方法、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2012150694A (ja) 2012-08-09

Similar Documents

Publication Publication Date Title
KR101532447B1 (ko) 아시아어 문자를 생성하는 인식 아키텍처
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Keuleers et al. Wuggy: A multilingual pseudoword generator
Virpioja et al. Morfessor 2.0: Python implementation and extensions for Morfessor Baseline
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
CN112151183A (zh) 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
CN112183106B (zh) 一种基于音素联想及深度学习的语义理解方法及装置
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
JP5648913B2 (ja) 機能表現解析装置、素性重み学習装置、機能表現解析方法、素性重み学習方法、プログラム
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
JP4878220B2 (ja) モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体
US10964313B2 (en) Word score calculation device, word score calculation method, and computer program product
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
US20240202216A1 (en) Extraction machine learning framework
JP7411149B2 (ja) 学習装置、推定装置、学習方法、推定方法及びプログラム
CN114723073B (zh) 语言模型预训练、产品搜索方法、装置以及计算机设备
JP5521669B2 (ja) パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130926

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140422

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141021

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141030

R150 Certificate of patent or registration of utility model

Ref document number: 5648913

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350