JP5105996B2 - 形態素候補生成装置およびコンピュータプログラム - Google Patents

形態素候補生成装置およびコンピュータプログラム Download PDF

Info

Publication number
JP5105996B2
JP5105996B2 JP2007214934A JP2007214934A JP5105996B2 JP 5105996 B2 JP5105996 B2 JP 5105996B2 JP 2007214934 A JP2007214934 A JP 2007214934A JP 2007214934 A JP2007214934 A JP 2007214934A JP 5105996 B2 JP5105996 B2 JP 5105996B2
Authority
JP
Japan
Prior art keywords
morpheme
probability
character
characters
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007214934A
Other languages
English (en)
Other versions
JP2009048472A (ja
Inventor
功雄 後藤
英輝 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2007214934A priority Critical patent/JP5105996B2/ja
Publication of JP2009048472A publication Critical patent/JP2009048472A/ja
Application granted granted Critical
Publication of JP5105996B2 publication Critical patent/JP5105996B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、形態素候補生成装置およびコンピュータプログラムに関する。
日本語の形態素解析は、日本語文を形態素へ分割し、各形態素の文法的属性(品詞や活用型・活用形など)を決定する処理である。一般に、その処理には形態素辞書を用いる。具体的には、解析したい日本語文(入力文)中において形態素辞書の見出しと一致する全ての文字列を形態素の候補とし、この候補をグラフ構造で表現し、このグラフ構造中で最適な形態素の並びと文法的属性の並びを決定する。但し、新しい語(特に固有名詞や専門用語など)が出現するため、あらかじめ全ての形態素を辞書に登録しておくことは、解析対象を限定しない限り困難である。そこで形態素解析では、形態素辞書に登録されていない語である未知語の形態素を解析する未知語処理が必要である。未知語処理では、形態素辞書に登録されていない文字列であって形態素である可能性があるものを入力文中から推定し、これを形態素の候補としてグラフ構造に追加する。この未知語処理において正しい形態素が形態素候補としてグラフ構造に追加されなければ、正しく解析することはできないため、正しい未知語形態素を生成して形態素候補とすることが重要である。
従来の形態素解析における未知語処理としては、以下に示すものが知られている。
(1)長さヒューリスティクスによる処理(例えば、非特許文献1参照)
任意の文字列の全てを形態素候補として扱うと、候補数のオーダがn2(nは入力文の文字数)となり多くなってしまう。そこで候補数を削減するためにヒューリスティクスにより形態素候補の文字列長を制限する。非特許文献1記載の従来技術では、5文字以下の全ての文字列と、連続するカタカナの文字列とを未知語の候補としている。
(2)文字種ヒューリスティクスによる処理(例えば、非特許文献2参照)
文字種に基づいたヒューリスティクスにより未知語候補を生成する手法においては、ルールに適合する文字列はすべて形態素候補となる。非特許文献2記載の従来技術では、文字種などの情報を利用してヒューリスティクスにより未知語候補を生成し、識別モデルであるCRFに基づいて形態素解析している。
(3)n-gram生成モデルによる処理(例えば、非特許文献3参照)
非特許文献3記載の従来技術では、未知語の生成確率を文字n-gramの生成モデルを用いて計算し、未知語候補の生成に利用している。
(4)形態素への分割のみを先に決定する処理(例えば、非特許文献4参照)
非特許文献4記載の従来技術では、未知語の解析手法として、品詞を考慮せずに形態素への分割のみを先に決定している。
内元清貴,関根聡,井佐原均,"最大エントロピーモデルに基づく形態素解析−未知語の問題の解決策−,自然言語処理,Vol.8,No.1,pp.127-141,Jan.2001. 工藤拓,山本薫,松本裕治,"Conditional Random Fieldsを用いた日本語形態素解析",SIG-NL-161(13),pp.89-96,2004. 永田昌明,"統計的言語モデルとN-best探索を用いた日本語形態素解析法",情報処理学会論文誌,Vol.40,No.9,pp.3420-3431,Sep.1999. 中川哲治,松本裕治,"単語レベルと文字レベルの情報を用いた中国語・日本語単語分割",情報処理学会論文誌,Vol.46,N0.11,pp.2714-2727,Nov.2005.
しかし、上述した従来技術では、以下に示すような問題がある。
(1)長さヒューリスティクスによる処理では、文字数を制限すると、それ以上長い未知語を解析できないという問題がある。
(2)文字種ヒューリスティクスによる処理では、学習データに出現しない特徴を持つ文字列を形態素候補とすると、識別モデルでは適切に識別できず、解析誤りの原因となるという問題がある。そのため、入力文から形態素候補を生成する段階において形態素となる可能性を計算し、極端に不適切な形態素候補を生成しないようにすることが重要である。また、従来手法の最長一致法や分割数最小法を用いる場合も、不適切な未知語候補は解析精度の低下を引き起こす。
(3)n-gram生成モデルによる処理では、学習データに全く又はほとんど出現しない文字列の生成確率は小さくなる。未知語は学習データに全く又はほとんど出現しない場合が多いと考えられるため、未知語の文字列の生成確率は小さくなりやすく、適切に未知語形態素候補を生成することは困難である。
(4)形態素への分割のみを先に決定する処理に対して、我々は、形態素の決定は品詞などの文法的属性も同時に考慮して行った方がより多くの情報を考慮できるので有利だと考えている。
本発明は、このような事情を考慮してなされたもので、その目的は、未知語形態素候補の長さに制限を設けないこと、極端に不適切な未知語形態素候補を排除すること、未知語形態素候補の生成確率が小さくならないことを実現することのできる形態素候補生成装置およびコンピュータプログラムを提供することにある。
上記の課題を解決するために、本発明に係る形態素候補生成装置は、入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算手段と、前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算手段と、前記形態素確率に基づいて、前記入力文において全ての形態素候補となる文字列を判定する形態素候補判定手段と、を備えたことを特徴とする。
本発明に係る形態素候補生成装置においては、前記入力文から素性を作成するための素性テンプレートを格納する素性テンプレートテーブルと、素性ベクトルの成分となる素性を定義する素性ベクトル定義テーブルと、を備え、前記形態素分割点確率計算手段は、前記素性テンプレートを用いて素性を作成し、該素性と前記素性ベクトルの定義との一致を調べ、該一致した成分のみに所定値を持つ素性ベクトル(例えば、一致した成分の値を“1”,一致しなかった成分の値を“0”とする)を作成し、該素性ベクトルを用いた最大エントロピー法の確率モデルによって形態素分割点確率を算出することを特徴とする。
本発明に係る形態素候補生成装置においては、前記形態素候補判定手段は、入力文中の一つ一つの文字について、その文字を形態素候補の先頭文字として、後続の文字を連結していき、その各連結した文字列の形態素確率を計算し、該形態素確率を閾値により判定し、この閾値判定結果から当該文字列を形態素候補にするか決定するものであり、先頭文字の直前の文字間の形態素分割点確率とそれ以降の文字間が形態素の分割点ではない確率との積を保持しておき(図10のステップ207)、連結した文字列の直後の文字間の形態素分割点確率を該保持した積に乗ずることにより該連結した文字列の形態素確率を得る(図10のステップ204)ことを特徴とする。
本発明に係る形態素候補生成装置においては、前記形態素候補判定手段は、ある文字間の形態素分割点確率と、それ以降の文字間が形態素の分割点ではない確率との積を前記閾値により判定し(図10のステップ208)、この閾値判定結果から、当該先頭文字についての以降の後続文字を連結する処理について省略するか決定することを特徴とする。
本発明に係るコンピュータプログラムは、入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算機能と、前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算機能と、前記形態素確率に基づいて形態素候補となる文字列を判定する形態素候補判定機能と、をコンピュータに実現させることを特徴とする。
これにより、前述の形態素候補生成装置がコンピュータを利用して実現できるようになる。
本発明によれば、入力文から形態素候補を自動生成することができる。その生成された形態素候補は、長さに制限がない、極端に不適切な形態素候補が排除される、n-gram生成モデルによらないので形態素候補の生成確率が小さくならない、などの特徴を有する。これにより、適切な未知語処理の実現に寄与することが可能になる。
以下、図面を参照し、本発明の一実施形態について説明する。
本発明は、入力文から形態素候補を生成するものであるが、入力文中の任意の文字列についてその文字列が形態素である確率(以下、「形態素確率」と称する)に基づいて、当該文字列を形態素候補とするか否かを決定する。その形態素確率を計算する際には、入力文中の文字間が形態素の分割点である確率(以下、「形態素分割点確率」と称する)を用いる。
まず、本実施形態に係る形態素確率および形態素分割点確率について説明する。
入力文S'の文頭及び文末に端記号“#”を追加し、wiを形態素として、処理対象文Sを{S=w1w2・・・wi・・・wn=w1 n,w1=wn=“#”}とする。nは形態素の個数である。このとき、形態素列w1 nへの分割確率は“P(w1 n|S)”となる。さらに、各形態素が他の形態素に依存しないように近似すると、(1)式が得られる。(1)式において、“P(wi|S)”は、処理対象文S中のある文字列が形態素である確率を表す。
Figure 0005105996
ここで、“P(wi|S)”を文字単位の処理に変形する。文字を“cj”として、処理対象文Sを{S=c1c2・・・cj・・・cm=c1 m}とする。mは文字の個数である。処理対象文Sをどのような形態素列w1 nに分割するかは、処理対象文Sの文字列c1 m中の全ての文字間が、形態素の分割点である(delimiter)か、分割点でない(non-delimiter)かによって表現できる。そこで、図1に示すように、文字cjと文字cj+1との間が、分割点である場合は“sj=1”、分割点でない場合は“sj=0”として表す(つまり、sj∈{0,1})。そして、{wi=cp q}とすると、図2に示すように、形態素wiは{S=c1 m}と“sp-1 q”で表現できる。これにより、(2)式が得られる。
Figure 0005105996
ここで、“P(sp-1 q|S)”を近似して、“sj”が他の“s”に依存しないようにし、さらに条件の{S=c1 m}を“sj”の直前のa個の文字と直後のa個の文字とに制限する。これにより、(3)式が得られる。
Figure 0005105996
本実施形態では、(3)式の値を形態素確率に用いる。また、形態素確率が閾値以上である文字列を形態素候補とする。(3)式において、「sj=1」とすると、“P(sj|cj-a+1 j+a)”は形態素分割点確率である。本実施形態では、“P(sj|cj-a+1 j+a)”を計算する確率モデルとして、最大エントロピー法を用いる。最大エントロピー法で利用する素性には、文字以外に、カタカナ、ひらがな及び漢字などの文字種も用いることができる。最大エントロピー法による“P(sj|cj-a+1 j+a)”の確率モデルは(4)式で表される。
Figure 0005105996
但し、“F(cj-a+1 j+a,sj)”は素性ベクトルである。素性ベクトルF(cj-a+1 j+a,sj)は文字cj-a+1 j+aと“sj”を特徴づける。素性ベクトルF(cj-a+1 j+a,sj)は、0又は1を値に持つ成分から構成される。“Λ”は、素性ベクトルF(cj-a+1 j+a,sj)の各成分に対応した重みのパラメータのベクトル(以下、「重みパラメータベクトル」と称する)である。“・”は内積を表す。“Z”は確率モデルの正規化項である。正規化項Zは、「sj∈{0,1}」であるので、(5)式で表される。
Figure 0005105996
本実施形態では、(4)式および(5)式により形態素分割点確率を計算する。
次に、本実施形態に係る形態素候補生成装置を説明する。
図3は、本発明の一実施形態に係る形態素候補生成装置1の構成を示すブロック図である。図3において、形態素候補生成装置1は、形態素分割点確率計算部2、形態素確率計算部3、形態素候補判定部4、素性テンプレートテーブル5、確率モデルパラメータテーブル6及び素性ベクトル定義テーブル7を有する。
形態素分割点確率計算部2は、入力文中の各文字間の形態素分割点確率を算出する。形態素確率計算部3は、入力文中の各文字列の形態素確率を算出する。形態素候補判定部4は、形態素確率に基づいて、入力文中の各文字列が形態素候補となるか否かを判定する。
素性テンプレートテーブル5は素性テンプレートを格納する。図4に素性テンプレートテーブル5の構成例を示す。図4の例では、18種類の素性テンプレートが素性テンプレートテーブル5に格納されている。なお、図4中には文字に係る素性テンプレートのみを示しているが、文字種に係る素性テンプレートも格納することができる。文字種に係る素性テンプレートは、図4中には文字に係る素性テンプレートにおいて文字(例えば“cj j+1”)を文字種の表現に置き換えればよい。
確率モデルパラメータテーブル6は、重みパラメータベクトルΛを格納する。素性ベクトル定義テーブル7は、素性ベクトルF(cj-a+1 j+a,sj)を定義する情報を格納する。図5に素性ベクトル定義テーブル7の構成例を示す。図5に示すように、素性ベクトル定義テーブル7は、素性と素性ベクトルの成分番号との対応関係を示す。素性テンプレートテーブル5、確率モデルパラメータテーブル6及び素性ベクトル定義テーブル7については、事前に準備し、形態素候補生成装置1のメモリに格納しておく。
なお、本実施形態に係る形態素候補生成装置1は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図3に示される形態素候補生成装置1の各部の機能を実現するためのプログラムをCPUで実行することによりその機能を実現させるものであってもよい。
次に、図3に示す形態素候補生成装置1の動作を順次説明する。
まず、図6を参照して形態素分割点確率計算部2の動作を説明する。図6は、本実施形態に係る形態素分割点確率算出処理の手順を示すフローチャートである。形態素分割点確率算出処理は、入力文S'中の文字間jが形態素の分割点(sj=1)となる形態素分割点確率djを計算する。以下、適宜、具体例を挙げながら説明を行う。
図6において、ステップ101では、入力文S'の文頭及び文末に端記号“#”を付加し、付加後の処理対象文Sをメモリに保持する。ここでは、入力文S'の具体例として“私は日本人です”を用いる。この入力文例の文字数は7である。ステップ101によって、処理対象文Sとして“#私は日本人です#”がメモリに保持される。この処理対象文例の文字数は9である。図7にメモリ上のデータ保持形式の例を示す。図7に示されるように、文字変数cjと処理対象文S中の文字と文字間を示す変数jとを組にしてメモリに保持する。変数jは、文字変数cjの文字の直後の文字間を示す。
ステップ102では、計算対象の文字間を示す変数jに最初の文字間の値“1”を代入する。但し、{j=1,2,・・・,m}であり、文字間の個数mは「“入力文S'の文字数”+1」である。“私は日本人です”の場合、文字間の個数mは「7+1=8」である。
ステップ103では、文字間jを対象にして、素性テンプレートテーブル5中の全ての素性テンプレートに関し、それぞれに素性テンプレートを用いて素性を作成する。但し、素性テンプレートに対応する素性がない場合がある。
図4の素性テンプレートテーブル5の例では18種類の素性テンプレートがあるので、18種類の各々の素性テンプレートについて該素性テンプレートを用いて素性を作成し、合計18個の素性を作成する。この作成された素性の具体例として、ここでは「j=3」の場合を図8に示す。図8には、処理対象文Sとして“#私は日本人です#”についての「j=3」の場合の18個の素性が示されている。例えば、テンプレート番号1の素性テンプレート「<cj j+1,sj>=<c3 4,s3>」を用いた場合、メモリに保持されている文字変数c3の文字“は”から文字変数c4の文字“日”まで2文字を連結し、素性<“は日”,s3>を作成する。このとき、s3は1を用いる。これは、文字間jが形態素の分割点(sj=1)となる形態素分割点確率djを求めているからである。この結果、素性<“は日”,1>が作成される。同様に、例えば、テンプレート番号9の素性テンプレート「<cj-1 j+3,sj>=<c2 6,s3>」を用いた場合、メモリに保持されている文字変数c2の文字“私”から文字変数c6の文字“人”まで5文字を連結し、素性<“私は日本人”,1>を作成する。なお、図8中のテンプレート番号7,14の2種類の素性テンプレートについては対応する素性がないので、図8の例では16個の素性が作成される。
ステップ104では、ステップ103で作成された素性のそれぞれについて、素性を検索キーにして素性ベクトル定義テーブル7を検索する。ステップ105では、ステップ104の検索の結果、発見された素性の成分番号を素性ベクトル定義テーブル7から取得する。
ステップ106では、素性ベクトル「F(cj-a+1 j+a,sj)={f1,f2,f3,・・・,fr}」を作成する。但し、fkは成分番号kの成分の値である。kは1からrまでの自然数である。rは成分番号の最大値である。素性ベクトルの成分fkは、ステップ105で取得された成分番号の成分の値を“1”とし、取得されなかった成分番号の成分の値を“0”とする。
例えば、ステップ104,105の結果の例として、「j=3」において、テンプレート番号16,17の素性のみが素性ベクトル定義テーブル7から発見され、成分番号3,5のみが取得されたとする。このとき、ステップ106により、「j=3」において、成分番号3,5のみの成分値が“1”である素性ベクトル「F(cj-a+1 j+a,sj)=(f1,f2,f3,f4,f5,f6,・・・,fr)=(0,0,1,0,1,0,・・・,0)」が作成される。
ステップ107では、文字間jについての形態素分割点確率djを上述の(4)式及び(5)式により計算し、メモリに保持する。文字間jの形態素分割点確率djは、文字間jの素性ベクトルF(cj-a+1 j+a,sj)と、確率モデルパラメータテーブル6中の重みパラメータベクトルΛを使用して算出する。ここで、(5)式において、「s'=1」の場合のF(cj-a+1 j+a,1)はステップS106で求めた素性ベクトルF(cj-a+1 j+a,sj)を使用する。「s'=0」の場合のF(cj-a+1 j+a,0)は、「sj=0」として上記ステップS104,105,106を行い、この結果の素性ベクトルF(cj-a+1 j+a,sj)を使用する。なお、図5のように、素性ベクトル定義テーブル7においてsj以外が同一となる素性において「sj=1」の成分番号の次の成分番号を「sj=0」と定義した場合には、「s'=0」の場合のF(cj-a+1 j+a,0)は、ステップS106で求めた素性ベクトルF(cj-a+1 j+a,sj)で、値が“1”になっている成分番号を1つ増やした成分番号の成分値のみを“1”にしたもの(例えば、「sj=1」でF(cj-a+1 j+a,sj)=(0,0,1,0,1,0)なら、「sj=0」でF(cj-a+1 j+a,sj)=(0,0,0,1,0,1)となる)を使用すればよい(このときは「s'=0」の場合のF(cj-a+1 j+a,0)を求めるために、ステップS104,105,106を行う必要がない)。
ステップ108では、「j=m」ならば、全ての文字間jについての形態素分割点確率djが算出されたので、図6の処理を終了する。一方。「j≠m」ならば、次の文字間の形態素分割点確率を算出するために、変数jに“1”を加算してステップ103へ戻る。
上記ステップ103〜107をm回だけ繰り返し処理することによって、各文字間の形態素分割点確率(m個)が作成され、メモリに保持される。図9にメモリ上のデータ保持形式の例を示す。図9に示されるように、文字変数cjと処理対象文S中の文字と文字間を示す変数jと形態素分割点確率djとを組にしてメモリに保持する。
次に、図10を参照して形態素確率計算部3及び形態素候補判定部4の動作を説明する。形態素確率計算部3及び形態素候補判定部4は連携して動作する。図10は、本実施形態に係る形態素候補判定処理の手順を示すフローチャートである。形態素候補判定処理は、入力文S'中の任意の文字列についてその文字列が形態素候補となるかを判定する。なお、本形態素候補判定処理においては、上述の形態素分割点確率算出処理によって組としてメモリに格納されている、文字変数cjと処理対象文S中の文字と文字間を示す変数jと形態素分割点確率djとを使用する。
図10において、ステップ201では、変数pに初期値“2”を代入する。ステップ202では、変数eに形態素分割点確率dp-1を代入する。ステップ203では、変数qに変数pを代入する。ステップ204では、変数eと形態素分割点確率dqとの積を変数fに代入する。この変数fは、文字変数cpから文字変数cqまでの各文字を連結した文字列cp qが形態素である確率(形態素確率)である。
ステップ205では、変数fと閾値Thの値を比較する。この結果、変数fが閾値Th以上の場合にはステップ206へ進み、ステップ206では文字列cp qを形態素候補として出力する。一方、変数fが閾値Th未満の場合にはステップ207へ進む。ステップ207では、変数eと「1-形態素分割点確率dq」との積を変数eに代入する。
ステップ208では、変数eと閾値Thの値を比較する。この結果、変数eが閾値Th未満の場合にはステップ211へ進む。一方、変数eが閾値Th以上の場合にはステップ209へ進む。
ステップ209では、変数qに“1”を加算する。ステップ210では、変数qと文字間の個数mの値を比較する。この結果、変数qが文字間の個数m以上の場合にはステップ211へ進む。一方、変数qが文字間の個数m未満の場合にはステップ204へ戻る。
ステップ211では、変数pに“1”を加算する。ステップ212では、変数pと文字間の個数mの値を比較する。この結果、変数pが文字間の個数m以上の場合には図10の処理を終了する。一方、変数pが文字間の個数m未満の場合にはステップ202へ戻る。
上述の図10の形態素候補判定処理では、入力文S'中の全ての文字列の組合せについて、その文字列が形態素候補となるかを判定している。具体的には、入力文S'中の一つ一つの文字について、その文字を形態素候補の先頭文字として、後続の文字を連結していき、その各連結した文字列の形態素確率(変数f)を計算し、該形態素確率を閾値Thにより判定し、この閾値判定結果から当該文字列を形態素候補にするか決定する。
また、「形態素分割点確率dp-1と(1−形態素分割点確率dp)の積(ステップ207の結果の変数e)を閾値Thにより判定し、この閾値判定結果から、当該先頭文字についての以降の後続文字を連結する処理について省略するか決定している。これは、ステップ207の結果の変数eが閾値Th未満になった段階で、文字変数cpから文字変数cqまでの各文字を連結した文字列cp qに対してさらに文字変数cq+1以降の文字を連結した文字列については、形態素確率が閾値Th未満になることが明らかであるので、当該先頭文字についての以降の後続文字を連結する処理について省略するものである。この省略により、ある先頭文字について、全ての後続文字の連結の組合せに対して形態素確率を計算し、閾値判定する場合に比べ、計算量を大幅に削減することができる。
また、後続文字を連結する際に、それまでに計算していた変数e(ステップ207の結果の変数e)を利用することによって、変数eを用いずに(3)式を計算する場合に比べて、形態素確率fの計算を効率化できている。
上述の実施形態によれば、入力文から形態素候補を自動生成することができる。その生成された形態素候補は、長さに制限がない、極端に不適切な形態素候補が排除される、n-gram生成モデルによらないので形態素候補の生成確率が小さくならない、などの特徴を有する。これにより、適切な未知語処理の実現に寄与することが可能になる。
次に、本実施形態に係る確率モデルパラメータテーブル6及び素性ベクトル定義テーブル7を生成する実施例を説明する。
図11は、本実施形態に係る確率モデルパラメータ生成装置20の構成を示すブロック図である。図11において、確率モデルパラメータ生成装置20は、素性ベクトル定義テーブル生成部21、素性ベクトル定義テーブル記録部22、確率モデルパラメータ推定部23及び素性テンプレートテーブル5を有する。素性テンプレートテーブル5は、図3の形態素候補生成装置1に具備されるものと同一である。
確率モデルのパラメータ(重みパラメータベクトルΛ)の推定は、“Gaussian prior”を用いてMAP(Maximum A Posteriori)推定することにより行う。具体的には、学習データ全体の対数尤度LΛを最大化するように、重みパラメータベクトルΛを算出する。学習データは、学習文と、該学習文中の各文字間jが形態素の分割点である(sj=1)か否(sj=0)かの情報とから構成される。重みパラメータベクトルΛは(6)式及び(7)式により算出する。なお、最適解は、準ニュートン法である“L-BFGS”などを用いて求めることができる。“L-BFGS”については、例えば「D.C.Liu and J.Nocedal,“On the limited memory BFGS method for large scale optimization.”Math.Program・,Vol.45,Issue 3,pp.503-528,December 1989.」に記載されている。
Figure 0005105996
Figure 0005105996
(7)式において、σ2はハイパーパラメータである。ハイパーパラメータσ2は事前に準備される。||・||はノルムを表す。
素性ベクトルについては、素性テンプレートを用いて作成する。例えば、図4中の素性テンプレート<cj j+1,sj>から、素性<cj j+1=“値が”,sj=1>が作成されたとすると、その素性の有無を返す素性関数fは(8)式により定義できる。このような素性関数fを素性ベクトルの成分とすることにより、素性ベクトルを構築する。
Figure 0005105996
図11において、素性ベクトル定義テーブル生成部21は、素性テンプレートテーブル5を用いて、学習データから素性ベクトルを作成する。具体的には、学習データの学習文に対して各素性テンプレートで文字列を切り出し、学習文に所定回数(例えば3回)以上出現した文字列を素性に使用する。そして、該文字列と「sj=1」の組、及び、該文字列と「sj=0」の組をそれぞれ素性として作成する。
素性ベクトル定義テーブル記録部22は、素性ベクトル定義テーブル生成部21により作成された素性と素性ベクトルの成分番号との組を記録する。これにより、図5に示される素性ベクトル定義テーブル7が作成される。確率モデルパラメータ推定部23は、(6)式及び(7)式により、重みパラメータベクトルΛを算出する。
なお、図3に示す形態素候補生成装置1の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、形態素候補生成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
本発明に係る文字列中の文字と形態素分割点の関係を説明するための説明図である。 本発明に係る文字列中の文字と形態素分割点の関係を説明するための説明図である。 本発明の一実施形態に係る形態素候補生成装置1の構成を示すブロック図である。 図3に示す素性テンプレートテーブル5の構成例である。 図3に示す素性ベクトル定義テーブル7の構成例である。 本発明の一実施形態に係る形態素分割点確率算出処理の手順を示すフローチャートである。 図3に示す形態素候補生成装置1のメモリ上のデータ保持形式の例である。 本発明の一実施形態に係る形態素分割点確率算出処理によって作成される素性の具体例である。 図3に示す形態素候補生成装置1のメモリ上のデータ保持形式の例である。 本発明の一実施形態に係る形態素候補判定処理の手順を示すフローチャートである。 図3に示す確率モデルパラメータテーブル6及び素性ベクトル定義テーブル7を生成する実施例である。
符号の説明
1…形態素候補生成装置、2…形態素分割点確率計算部、3…形態素確率計算部、4…形態素候補判定部、5…素性テンプレートテーブル、6…確率モデルパラメータテーブル、7…素性ベクトル定義テーブル

Claims (5)

  1. 入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算手段と、
    前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算手段と、
    前記形態素確率に基づいて、前記入力文において全ての形態素候補となる文字列を判定する形態素候補判定手段と、を備え
    前記形態素候補判定手段によって形態素候補に判定された文字列であって、文字が部分的に重複する文字列も含めて全ての形態素候補の文字列を出力する、
    ことを特徴とする形態素候補生成装置。
  2. 入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算手段と、
    前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算手段と、
    前記形態素確率に基づいて、前記入力文において全ての形態素候補となる文字列を判定する形態素候補判定手段と、
    前記入力文から素性を作成するための素性テンプレートを格納する素性テンプレートテーブルと、
    素性ベクトルの成分となる素性を定義する素性ベクトル定義テーブルと、を備え、
    前記形態素分割点確率計算手段は、前記素性テンプレートを用いて素性を作成し、該素性と前記素性ベクトルの定義との一致を調べ、該一致した成分のみに所定値を持つ素性ベクトルを作成し、該素性ベクトルを用いた最大エントロピー法の確率モデルによって形態素分割点確率を算出する、
    ことを特徴とする形態素候補生成装置。
  3. 前記形態素分割点確率は、文字間が形態素の分割点であることのみに関する確率であり、
    前記形態素候補判定手段は、入力文中の一つ一つの文字について、その文字を形態素候補の先頭文字として、後続の文字を連結していき、その各連結した文字列の形態素確率を計算し、該形態素確率を閾値により判定し、この閾値判定結果から当該文字列を形態素候補にするか決定するものであり、先頭文字の直前の文字間の形態素分割点確率とそれ以降の文字間が形態素の分割点ではない確率との積を保持しておき、連結した文字列の直後の文字間の形態素分割点確率を該保持した積に乗ずることにより該連結した文字列の形態素確率を得る、
    ことを特徴とする請求項1に記載の形態素候補生成装置。
  4. 前記形態素候補判定手段は、ある文字間の形態素分割点確率と、それ以降の文字間が形態素の分割点ではない確率との積を前記閾値により判定し、この閾値判定結果から、当該先頭文字についての以降の後続文字を連結する処理について省略するか決定する、
    ことを特徴とする請求項3に記載の形態素候補生成装置。
  5. 入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算機能と、
    前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算機能と、
    前記形態素確率に基づいて形態素候補となる文字列を判定する形態素候補判定機能と、
    前記形態素候補判定機能によって形態素候補に判定された文字列であって、文字が部分的に重複する文字列も含めて全ての形態素候補の文字列を出力する機能と、
    をコンピュータに実現させることを特徴とするコンピュータプログラム。
JP2007214934A 2007-08-21 2007-08-21 形態素候補生成装置およびコンピュータプログラム Expired - Fee Related JP5105996B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007214934A JP5105996B2 (ja) 2007-08-21 2007-08-21 形態素候補生成装置およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007214934A JP5105996B2 (ja) 2007-08-21 2007-08-21 形態素候補生成装置およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2009048472A JP2009048472A (ja) 2009-03-05
JP5105996B2 true JP5105996B2 (ja) 2012-12-26

Family

ID=40500614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007214934A Expired - Fee Related JP5105996B2 (ja) 2007-08-21 2007-08-21 形態素候補生成装置およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5105996B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05250403A (ja) * 1992-03-09 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> 日本文単語解析方式
JP3777456B2 (ja) * 1996-04-23 2006-05-24 日本電信電話株式会社 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
JP3938234B2 (ja) * 1997-12-04 2007-06-27 沖電気工業株式会社 自然言語処理装置
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
JP2002351870A (ja) * 2001-05-29 2002-12-06 Communication Research Laboratory 形態素の解析方法

Also Published As

Publication number Publication date
JP2009048472A (ja) 2009-03-05

Similar Documents

Publication Publication Date Title
US9836453B2 (en) Document-specific gazetteers for named entity recognition
JP3998668B2 (ja) 形態素解析装置、方法及びプログラム
US10803241B2 (en) System and method for text normalization in noisy channels
CN105095204B (zh) 同义词的获取方法及装置
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US9176936B2 (en) Transliteration pair matching
US20060015321A1 (en) Method and apparatus for improving statistical word alignment models
JP7259650B2 (ja) 翻訳装置、翻訳方法及びプログラム
JP2004038976A (ja) 用例ベースの機械翻訳システム
WO2021189624A1 (zh) 解码语音数据的方法、装置、计算机设备和存储介质
US20080208566A1 (en) Automated word-form transformation and part of speech tag assignment
JP2004355483A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP6427466B2 (ja) 同義語ペア獲得装置、方法、及びプログラム
Puigcerver et al. Querying out-of-vocabulary words in lexicon-based keyword spotting
JP2017097062A (ja) 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム
Roark et al. Hippocratic abbreviation expansion
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
US11893344B2 (en) Morpheme analysis learning device, morpheme analysis device, method, and program
Sarkar Part-of-speech tagging for code-mixed indian social media text at icon 2015
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
Yeh et al. Chinese spelling checker based on an inverted index list with a rescoring mechanism
JP5105996B2 (ja) 形態素候補生成装置およびコンピュータプログラム
Mammadov et al. Part-of-speech tagging for azerbaijani language
JP5293607B2 (ja) 略語生成装置およびプログラム、並びに、略語生成方法
JP6261669B2 (ja) クエリ校正システムおよび方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121002

R150 Certificate of patent or registration of utility model

Ref document number: 5105996

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees