JP3768205B2 - 形態素解析装置、形態素解析方法及び形態素解析プログラム - Google Patents
形態素解析装置、形態素解析方法及び形態素解析プログラム Download PDFInfo
- Publication number
- JP3768205B2 JP3768205B2 JP2003154625A JP2003154625A JP3768205B2 JP 3768205 B2 JP3768205 B2 JP 3768205B2 JP 2003154625 A JP2003154625 A JP 2003154625A JP 2003154625 A JP2003154625 A JP 2003154625A JP 3768205 B2 JP3768205 B2 JP 3768205B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- probability
- hypothesis
- model
- gram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Description
【発明の属する技術分野】
本発明は形態素解析装置、形態素解析方法及び形態素解析プログラムに関し、特に、複数の正解候補の中から最適な解を高い精度で選択し得るようにしたものである。
【0002】
【従来の技術】
形態素解析装置は、入力された文に対してその文を構成する各形態素を同定して区切り、品詞を付与するものである。しかしながら、形態素に分割する際及び品詞を付与する際に、複数の正解候補が存在し曖昧性が発生するため、正解候補の中から正しいものを選択する必要がある。
【0003】
このような目的のために、以下のような品詞n−gramモデルに基づく方法がいくつか提案されている。
【0004】
【特許文献1】
特開平7−271792号公報
【0005】
【非特許文献1】
浅原、松本著、形態素解析のための拡張統計モデル」、情処論Vo1.43,No.3,pp.685−695,2002
特許文献1は、日本語形態素解析において、統計的手法によりこの暖昧性を解決する方法について述べている。直前の2つの品詞が与えられたときの3つ目の品詞が出現する確率である品詞三つ組確率と、品詞が与えられたときの単語の出現確率である品詞別単語出力確率から、文を構成する単語列と各単語に付与された品詞列の同時確率を最大にするような候補を選ぶことにより、暖昧性の解消を行っている。
【0006】
非特許文献1では、特徴的な性質を持つ形態素の品詞を語彙化し、似た性質を持つ品詞をグループ化するという拡張を行うことで、より精度の高い形態素解析を実現している。
【0007】
【発明が解決しようとする課題】
しかしながら、特許文献1の記載方法は、過去の品詞系列のみから次に来る品詞を予測し、さらに品詞が与えられた場合の条件のみから単語を予測しているため、高い精度で形態素解析を行うのは困難である。つまり、助詞等の機能語はしばしば他の形態素と異なる特徴的な性質をもつが、このような語に関しては品詞だけではなく語彙自体の情報も考慮する必要がある。また、品詞体系によっては数百を越える数の品詞を扱わなければならないこともあるが、そのような場合は品詞の組合わせの数が膨大になるため、特許文献1の記載方法を直接適用して形態素解析を行うことは困難である。
【0008】
非特許文献1の記載方法では、品詞の語彙化により特徴的な性質を持つ形態素に対処している。また、品詞のグループ化を行うことにより品詞の数が多い場合にも対処している。しかしながら、語彙化やグループ化は誤り駆動に基づく方法を用いて一部の形態素や品詞に関してのみ行われるため、形態素に関する十分な情報を利用できているわけではなく、また、訓練データを効果的に利用できないという課題がある。
【0009】
そのため、複数の正解候補の中から最適な解を高い精度で選択し得る形態素解析装置、形態素解析方法及び形態素解析プログラムが望まれている。
【0010】
【課題を解決するための手段】
かかる課題を解決するため、第1の本発明の形態素解析装置は、(1)形態素解析対象文に対して所定の形態素解析方法を適用し、活用形がある品詞についてはその活用形の情報を含む品詞タグが付与された単語列でなる、形態素解析結果の候補である仮説を1又は複数生成する仮説生成手段と、(2)品詞に関する複数種類のn−gram確率モデルの情報を格納しているモデル格納手段と、(3)上記各仮説に対し、大量の文中でその仮説が出現するであろう生成確率を、上記モデル格納手段に格納されている複数種類のn−gram確率モデルの情報を重み付けて結合して求める生成確率計算手段と、(4)上記各仮説の生成確率に基づき、解となる仮説を探索する解探索手段とを備え、(2−1)上記モデル格納手段が、少なくとも、品詞及び品詞の活用形を反映させた種類のn−gram確率モデルの情報は格納していることを特徴とする。
【0011】
第2の本発明の形態素解析方法は、コンピュータが、仮説生成手段、モデル格納手段、生成確率計算手段及び解探索手段を備え、(1)形態素解析対象文に対して所定の形態素解析方法を適用し、活用形がある品詞についてはその活用形の情報を含む品詞タグが付与された単語列でなる、形態素解析結果の候補である仮説を1又は複数生成する、上記仮説生成手段が実行する仮説生成工程と、(2)上記各仮説に対し、大量の文中でその仮説が出現するであろう生成確率を、上記モデル格納手段に予め用意されている、品詞及び品詞の活用形を反映させた種類のn−gram確率モデルの情報を含む、品詞に関する複数種類のn−gram確率モデルの情報を重み付けて結合して求める、上記生成確率計算手段が実行する生成確率計算工程と、(3)上記各仮説の生成確率に基づき、解となる仮説を探索する、上記解探索手段が実行する解探索工程とを含むことを特徴とする。
【0012】
第3の本発明の形態素解析プログラムは、コンピュータを、(1)形態素解析対象文に対して所定の形態素解析方法を適用し、活用形がある品詞についてはその活用形の情報を含む品詞タグが付与された単語列でなる、形態素解析結果の候補である仮説を1又は複数生成する仮説生成手段、(2)品詞に関する複数種類のn−gram確率モデルの情報であって、少なくとも、品詞及び品詞の活用形を反映させた種類のn−gram確率モデルの情報を格納しているモデル格納手段、(3)上記各仮説に対し、大量の文中でその仮説が出現するであろう生成確率を、上記モデル格納手段に格納されている複数種類のn−gram確率モデルの情報を重み付けて結合して求める生成確率計算手段、及び、(4)上記各仮説の生成確率に基づき、解となる仮説を探索する解探索手段、として機能させるために、コンピュータが実行可能なコードで記述していることを特徴とする。
【0013】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による形態素解析装置、形態素解析方法及び形態素解析プログラムの第1の実施形態を図面を参照しながら説明する。
【0014】
(A−1)第1の実施形態の構成
図1は、第1の実施形態の形態素解析装置の機能的構成を示すブロック図である。第1の実施形態の形態素解析装置は、例えば、入出力装置や補助記憶装置などを備えるパソコン等の情報処理装置上に、形態素解析プログラム(図2〜図4参照)をインストールすることによって実現されるが、機能的には、図1で表すことができる。
【0015】
第1の実施形態の形態素解析装置100は、大きくは、確率モデルを使用して形態素解析を行う解析部110、確率モデル等を格納するモデル格納部120、及び、パラメータ学習用のコーパスから確率的モデルの学習を行うためのモデル学習部130から構成されている。
【0016】
解析部110は、形態素解析を行う文を入力するための入力部111、入力された文に対して、形態素辞書格納部121に格納されている形態素辞書を用いて可能な解(形態素解析結果)の候補(仮説)を生成する仮説生成部112、生成された各仮説に対して、確率モデル格納部122に格納された品詞n−gramモデル、語彙化品詞n−gramモデル(当該モデルの定義については後述する)及び階層化品詞n−gramモデル(当該モデルの定義については後述する)を、重み格納部123に格納された重み付けにより結合して生成確率を計算する生成確率計算部113、生成確率の付与された仮説の中から最も尤度の高い解を選ぶ解探索部114、及び、解探索部114により得られた解を出力する出力部115より構成される。
【0017】
なお、入力部111は、例えば、キーボード等の一般的な入力部だけでなく、記録媒体のアクセス装置等のファイル読込装置や、文書をイメージデータとして読み込んでそれをテキストデータに置き換える文字認識装置等も該当する。また、出力部115は、例えば、ディスプレイやプリンタ等の一般的な出力部だけでなく、記録媒体へ格納する記録媒体アクセス装置等も該当する。
【0018】
モデル格納部120は、確率推定部132で計算され、生成確率計算部113及び重み計算部133で使用される確率モデルを格納した確率モデル格納部122、重み計算部133で計算され、生成確率計算部113で使用される重みを格納する重み格納部123、及び、仮説生成部112で解候補(仮説)を生成するために使用される形態素辞書を格納する形態素辞書格納部121から構成されている。
【0019】
モデル学習部130は、確率推定部132及び重み計算部133でモデルの学習を行うために使用される品詞タグ付きコーパス格納部131、品詞タグ付きコーパス格納部131に格納された品詞タグ付きコーパスを用いて確率モデルの推定を行い、その結果を確率モデル格納部122へ格納する確率推定部132、及び、確率モデル格納部122に格納された確率モデルと品詞タグ付きコーパス格納部131に格納された品詞タグ付きコーパスを用いて確率モデルの重みを計算し、その結果を重み格納部123へ格納する重み計算部133から構成されている。
【0020】
(A−2)第1の実施形態の動作
次に、第1の実施形態の形態素解析装置100の動作(第1の実施形態の形態素解析方法)を、図2のフローチャートを参照しながら説明する。図2は、入力された文を形態素解析装置100が形態素解析して出力するまでの処理の流れを示すフローチャートである。
【0021】
まず、使用者が入力した形態素解析をしたい文を入力部111によって取り込む(201)。入力された文に対して、仮説生成部112は、形態素辞書格納部121に格納された形態素辞書を用いて、可能な解の候補である仮説を生成する(202)。この仮説生成部112による処理は、例えば、一般的な形態素解析方法を適用する。生成確率計算部113は、確率モデル格納部122及び重み格納部123に格納された情報を用いて、仮説生成部112で生成された各仮説に対しその生成確率を計算する(203)。生成確率計算部113は、各仮説に対する生成確率として、品詞n−gram、語彙化品詞n−gram及び階層化品詞n−gramを確率的に重み付けたものを計算する。
【0022】
ここで、入力された文の先頭から(i+1)番目の単語及びその品詞タグをそれぞれωi及びtiとし、文中の単語(形態素)の数をnとする。また、品詞タグtは、品詞tPOSと活用形tformからなっているとする。なお、活用形がない品詞の場合には、品詞と品詞タグとは同一のものである。仮説、つまり正解候補の単語・品詞タグ列は、
ω0t0 … ωn−1tn−1
と表現され、このような仮説の中から最も生成確率の高いものを解として選べばよいため、(1)式を満足する最適な単語・品詞タグ列を求めることになる。
【0023】
例えば、「私は見た。」という文章は、「私(名詞;より細かく分類した代名詞を適用しても良い)/は(助詞;より細かく分類した副助詞を適用しても良い)/見(動詞−連用形)/た(助動詞)/。(句点)」という単語・品詞タグ列と、「私(名詞)/は(助詞)/見(動詞−終止形)/た(助動詞)/。(句点)」という単語・品詞タグ列との2つの仮説が生じ、いずれが最適であるかが(1)式によって求められる。なお、この例の場合、「見」に関してのみ、「動詞」という品詞と「連用形」又は「終止形」という活用形で品詞タグが構成され、他の単語(句点も1個の単語として取扱う)については品詞のみで品詞タグが構成されている。
【0024】
【数1】
(1)式において、第1行の「^ω0^t0 … ^ωn−1^tn−1」は最適な単語・品詞タグ列を意味しており、argmaxは、複数の単語・品詞タグ列(仮説)の中から生成確率P(ω0t0 … ωn−1tn−1)が最も高い単語・品詞タグ列を選択することを表している。
【0025】
ある単語・品詞タグ列の生成確率P(ω0t0 … ωn−1tn−1)は、その単語・品詞タグ列においてその(i+1)番目(iは0〜(n−1))の単語・品詞タグが生じる条件付き確率P(ωiti|ω0t0 … ωn−1tn−1)の積で表される。条件付き確率P(ωiti|ω0t0 … ωn−1tn−1)は、あるn−gramモデルМで計算される単語についての出力確率P(ωiti|ω0t0 … ωn−1tn−1М)と、そのn−gramモデルМに対する重みP(М|ω0t0 … ωn−1tn−1)との積を、全てのモデルについて求めた積和で表される。
【0026】
ここで、出力確率P(ωiti|ω0t0 … ωn−1tn−1М)の情報が、確率モデル格納部122に格納されており、n−gramモデルМに対する重みP(М|ω0t0 … ωn−1tn−1)の情報が、重み格納部123に格納されていいる。
【0027】
(2)式は、生成確率P(ω0t0 … ωn−1tn−1)の計算に適用される全てのモデルМを集合Μとして記載したものである。但し、集合Μは、(2.5)式に示すように、その要素である各モデルМ毎の確率P(М)が1になるようなモデルの集合である。
【0028】
モデルМについての下付パラメータはモデルの種類を表しており、「POS」は品詞n−gramモデルを表しており、「lex1」は第1の語彙化品詞n−gramモデルを表しており、「lex2」は第2の語彙化品詞n−gramモデルを表しており、「lex3」は第3の語彙化品詞n−gramモデルを表しており、「hier」は階層化品詞n−gramモデルを表している。モデルМについての上付パラメータは、そのモデルにおける記憶長の長さN−1、言い換えると、n−gramでの単語数(品詞タグ数も同数)を表している。
【0029】
【数2】
記憶長の長さN−1の品詞n−gramモデルは、(3)式で定義される。記憶長の長さN−1の品詞n−gramモデルは、品詞タグtiをとる中でその単語ωiが出現する条件付き確率P(ωi|ti)と、直前N−1個の単語に係る品詞タグ列ti−N+1…ti−1の並びに続いてその単語ωiの品詞タグtiが出現する条件付き確率P(ti|ti−N+1…ti−1)との積で定義される。
【0030】
記憶長の長さN−1の第1の語彙化品詞n−gramモデルは、(4)式で定義される。記憶長の長さN−1の第1の語彙化品詞n−gramモデルは、品詞タグtiをとる中でその単語ωiが出現する条件付き確率P(ωi|ti)と、直前N−1個の単語・品詞タグ列ωi−N+1ti−N+1…ωi−1ti−1の並びに続いて、その単語ωiの品詞タグtiが出現する条件付き確率P(ti|ωi−N+1ti−N+1…ωi−1ti−1)との積で定義される。
【0031】
記憶長の長さN−1の第2の語彙化品詞n−gramモデルは、(5)式で定義される。記憶長の長さN−1の第2の語彙化品詞n−gramモデルは、直前N−1個の単語に係る品詞タグ列ti−N+1…ti−1の並びに続いて、単語ωiとその品詞タグtiとの組み合わせωitiが出現する条件付き確率P(ωiti|ti−N+1…ti−1)で定義される。
【0032】
記憶長の長さN−1の第3の語彙化品詞n−gramモデルは、(6)式で定義される。記憶長の長さN−1の第3の語彙化品詞n−gramモデルは、直前N−1個の単語・品詞タグ列ωi−N+1ti−N+1…ωi−1ti−1の並びに続いて、単語ωiとその品詞タグtiとの組み合わせωitiが出現する条件付き確率P(ωiti|ωi−N+1ti−N+1…ωi−1ti−1)で定義される。
【0033】
記憶長の長さN−1の階層化品詞n−gramモデルは、(7)式で定義される。記憶長の長さN−1の階層化品詞n−gramモデルは、その品詞tiをとる単語の中で候補単語ωiが出現する条件付き確率P(ωi|ti)と、単語ωiに係る品詞ti POSがその活用形ti formで出現する条件付き確率P(ti form|ti POS)と、直前N−1個の単語に係る品詞タグ列ti−N+1…ti−1の並びに続いて単語ωiに係る品詞ti POSが出現する条件付き確率P(ti POS|ti−N+1…ti−1)との積で定義される。なお、単語ωiに係る品詞ti POSがその活用形ti formで出現する条件付き確率P(ti form|ti POS)は、活用形が存在しない品詞については常に「1」として取扱う。
【0034】
生成確率計算部113によって、各仮説に対する生成確率P(ω0t0 … ωn−1tn−1)が計算されると、解探索部114は、(1)式に示すように、その中で最も生成確率が高い解を選択する(図2の204)。
【0035】
上述したように、生成確率計算部113による、各仮説に対する生成確率P(ω0t0 … ωn−1tn−1)の計算を行った後に、解探索部114による最も生成確率が高い解(最適解)の探索を行っても良いが、例えば、ビタビ(Viterbi)アルゴリズムを適用して、生成確率計算部113による処理と、解探索部114による処理とを融合して行うようにしても良い。すなわち、入力された文の先頭から(i+1)番目までの単語・品詞タグ列を規定するパラメータiを徐々に大きくしながら行う、ビタビアルゴリズムによる最適な単語・品詞タグ列の探索によって、生成確率計算部113による処理と、解探索部114による処理とを融合して行って、最適解を探索する。
【0036】
上述した(1)式を満足する最適解の単語・品詞タグ列が求まると、出力部115によって、求まった最適解(形態素解析結果)をユーザへ出力する(205)。
【0037】
次に、モデル学習部130の動作、すなわち、生成確率計算部113において使用する確率モデル及び確率モデルの重みを、予め用意された品詞タグ付きコーパスから計算して求める動作を、図3を参照しながら説明する。
【0038】
まず、確率推定部132により、以下に示す確率モデルのパラメータを学習する(301)。
【0039】
ここで、単語列、品詞列、品詞タグ列、及び又は、単語・品詞タグ列などの系列をXとし、その系列Xが品詞タグ付きコーパス格納部131に格納されたコーパス中に出現した回数をf(X)で表すと、各確率モデルに対するパラメータは、以下のように表される。
【0040】
【数3】
記憶長の長さN−1の品詞n−gramモデルは、上述したように、(3)式で表されるので、(3)式の右辺の各要素P(ωi|ti)及びP(ti|ti−N+1…ti−1)を、(8)式及び(9)式に従ってパラメータとして得る。
【0041】
また、記憶長の長さN−1の第1〜第3の語彙化品詞n−gramモデルは、上述したように、(4)式〜(6)式で表されるので、(4)式〜(6)式の右辺の各要素P(ωi|ti)、P(ti|ωi−N+1ti−N+1…ωi−1ti−1)、P(ωiti|ti−N+1…ti−1)及びP(ωiti|ωi−N+1ti−N+1…ωi−1ti−1)を、(10)式〜(13)式に従ってパラメータとして得る。
【0042】
さらに、記憶長の長さN−1の階層化品詞n−gramモデルは、上述したように、(7)式で表されるので、(7)式の右辺の各要素P(ωi|ti)、P(ti form|ti POS)及びP(ti POS|ti−N+1…ti−1)を、(14)式〜(16)式に従ってパラメータとして得る。
【0043】
いずれのパラメータも、コーパス中に、該当する単語列、品詞列、品詞タグ列などが出現した回数を数え上げ、その出現回数、及び又は、各式の分子となる出現回数を分母となる出現回数で除算した値を確率モデル格納部122へ格納する。
【0044】
図5〜図7は、確率モデル格納部122に格納された一部の確率モデルのパラメータを示す図面である。
【0045】
次に、品詞タグ付きコーパス格納部131に格納されている品詞タグ付きコーパスと確率モデル格納部122に格納された確率モデルを用いて、重み計算部133により、各確率モデルに対する重みの計算を行い、その結果を重み格納部123へ格納する(302;図4参照)。
【0046】
ここで、重みの計算については、(17)式に示すように、単語・品詞タグ列に依存しない近似を行うこととする。そして、leave−one−out法に基づいて、図4に示す手順で計算を行う。
【0047】
【数4】
まずはじめに、各モデルМに対する重みパラメータλ(М)を全て0にする初期化を行う(401)。次に、品詞タグ付きコーパス格納部131に格納されている品詞タグ付きコーパスから、単語と品詞タグの対を1つ取り出してω0t0とし、そのi個前にある単語と品詞をそれぞれω−1t−1とする(402)。次に、各確率モデルМに対して確率P’(ω0t0|ω−N+1t−N+1…ω−1t−1М)を計算する(403)。
【0048】
ここで、確率P’(X|Y)=P’(ω0t0|ω−N+1t−N+1…ω−1t−1М)は、現在考慮している事象を数え上げの対象から除いて求めた確率値で、(18)式のようにコーパス中に出現した事象の数を用いて計算する。
【0049】
【数5】
以上のようにして各モデルに対し計算した確率値の中で、最も高い値を返したモデルをМ’とすると、このモデルに対する重みパラメータλ(М’)を1だけ増やす(404)。ステップ402〜404でなる処理を、品詞タグ付きコーパス中の全ての単語と品詞タグとの対について繰り返し(405)、全ての単語と品詞タグとの対に対する処理が終了すると、各確率モデルМに対して、(19)式に示す正規化した重みP(М)を求める(406)。
【0050】
【数6】
なお、上記では、簡単のために、(17)式のように重みの計算に近似を用いたが、かわりに品詞n−gram、語彙化n−gram及び階層化品詞n−gram等の結合を用いて、(1)式と同様に重みを計算することもできる。
【0051】
(A−3)第1の実施形態の効果
上記第1の実施形態によれば、形態素辞書を利用して得た複数の形態素解析結果(仮説)から最尤のものを決定する際に、品詞の情報に加え、品詞を語彙化した情報、及び、品詞の階層を考慮した情報を使用してその仮説の生成確率を計算して最尤なものを決定するようにしたので、品詞の情報のみを使用して生成確率を計算して最尤な仮説を決定する方法に比べ、より頑健で高精度な解析を行うことができ、暖昧性を解消できる。
【0052】
(B)第2の実施形態
次に、本発明による形態素解析装置、形態素解析方法及び形態素解析プログラムの第1の実施形態を図面を参照しながら説明する。
【0053】
(B−1)第2の実施形態の構成
図8は、第2の実施形態の形態素解析装置の機能的構成を示すブロック図である。第2の実施形態の形態素解析装置も、例えば、入出力装置や補助記憶装置などを備えるパソコン等の情報処理装置上に、形態素解析プログラム(図9〜図11参照)をインストールすることによって実現されるが、機能的には、図8で表すことができる。
【0054】
第2の実施形態の形態素解析装置500は、大きく見た場合には、第1の実施形態の構成にクラスタリング部540が加わったものであり、また、モデル学習部530においても、第1の実施形態の構成に、品詞タグ無しコーパス格納部534及び品詞タグ・クラス付きコーパス格納部535が加わったものである。
【0055】
クラスタリング部540は、クラス学習部541、クラスタリングパラメータ格納部542及びクラス付与部543を有する。
【0056】
クラス学習部541は、品詞タグ付きコーパス格納部531中に格納されている品詞タグ付きコーパス及び品詞タグ無しコーパス格納部534に格納されている品詞タグ無しコーパスを用いてクラスの学習を行い、学習の結果得られたクラスタリング用のパラメータをクラスタリングパラメータ格納部542へ格納するものである。
【0057】
クラス付与部543は、クラスタリングパラメータ格納部542に格納されているクラスタリング用のパラメータを用いて、品詞タグ付きコーパス格納部531中の品詞タグ付きコーパスを入力し、これにクラスを付与したものを品詞タグ・クラス付きコーパス格納部535へ格納し、また、仮説生成部512で得られた仮説を入力し、これにクラスを付与したものを生成確率計算部513へ出力するものである。
【0058】
品詞タグ・クラス付きコーパス格納部535に格納された品詞タグ・クラス付きコーパスは、確率推定部532及び重み計算部533が利用する。
【0059】
(B−2)第2の実施形態の動作
次に、第2の実施形態の形態素解析装置500の動作(第2の実施形態の形態素解析方法)を、図9のフローチャートを参照しながら説明する。図9は、入力された文を形態素解析装置500が形態素解析して出力するまでの処理の流れを示すフローチャートである。
【0060】
第2の実施形態の形態素解析装置500は、第1の実施形態と比べて、確率値の計算にクラス情報を用いる点だけが異なるため、以下では、第1の実施形態と異なる点についてのみ説明する。
【0061】
文の入力(601)、仮説の生成(602)が行われた後、生成された仮説をクラス付与部543へ入力してクラスの付与を行い、そのクラスが付与された仮説が生成確率計算部513に与えられる(603)。クラスの付与の方法については後述する。
【0062】
次に、クラスが付与された各仮説に対して、生成確率計算部513で生成確率の計算を行う(604)。但し、各仮説に対する生成確率は、品詞n−gram、語彙化品詞n−gram、階層化品詞n−gram及びクラス品詞n−gramを確率的に重み付けたものを用いる。計算方法は、上述した(1)式で表されるが、モデルの集合Mとして、(2)式に代え、次の(20)式に示すものが適用される。但し、集合Μは、(20.5)式に示すように、その要素である各モデルМ毎の確率P(М)が1になるようなモデルの集合である。
【0063】
【数7】
(2)式及び(20)式の比較から明らかなように、第2の実施形態においては、第1及び第2のクラス品詞n−gramモデルも適用されている。
【0064】
(20)式において、下付パラメータが「class1」のものが第1のクラス品詞n−gramモデルを表しており、下付パラメータが「class2」のものが第2のクラス品詞n−gramモデルを表している。
【0065】
【数8】
記憶長の長さN−1の第1のクラス品詞n−gramモデルは、(21)式で定義され、記憶長の長さN−1の第2のクラス品詞n−gramモデルは、(22)式で定義される。
【0066】
記憶長の長さN−1の第1のクラス品詞n−gramモデルは、品詞タグtiをとる中でその単語ωiが出現する条件付き確率P(ωi|ti)と、直前N−1個の単語に係るクラス・品詞タグ列ci−N+1ti−N+1…ci−1ti−1の並びに続いてその単語ωiの品詞タグtiが出現する条件付き確率P(ti|ci−N+1ti−N+1…ci−1ti−1)との積で定義される。
【0067】
記憶長の長さN−1の第2のクラス品詞n−gramモデルは、直前N−1個のクラス・品詞タグ列ci−N+1ti−N+1…ci−1ti−1の並びに続いて、単語ωiとその品詞タグtiとの組み合わせωitiが出現する条件付き確率P(ωiti|ωi−N+1ti−N+1…ωi−1ti−1)で定義される。
【0068】
このようなクラスを利用して単語の出現確率を予測することにより、品詞や語彙化した品詞とは異なる情報も用いて、仮説の生成確率を計算することが可能となっている。また、クラスを用いた形態素解析方法は既に知られているが、当該形態素解析装置500は、上述のように、クラス品詞n−gram以外の確率モデルと確率的に重み付けをして結合して用いるため、クラスを用いたことによる精度の低下等の副作用が起りにくい。
【0069】
以上のように、確率モデルにより、各仮説に対する生成確率の計算を行った後、最適解の探索を行い(605)、結果を出力する(606)。
【0070】
図10は、上述の生成確率計算部513において使用する確率モデル及び確率モデルの重みを、あらかじめ用意された品詞タグ付きコーパス及び品詞タグ無しコーパスを用いて求める処理を示すフローチャートである。
【0071】
まず、クラス学習部541により、品詞タグ付きコーパス格納部531に格納されている品詞タグ付きコーパス及び品詞タグ無しコーパス格納部534に格納されている品詞タグ無しコーパスを用いて、クラスタリングのためのパラメータを学習し、クラスタリングパラメータ格納部542へ格納する(701)。
【0072】
但し、ここでのクラスタリングは、コーパス中の単語情報のみを用いて、その単語にクラスを与えるものとする。そのため、クラスタリングのパラメータの学習には、作成するのが困難な品詞タグ付きコーパスだけでなく容易に入手可能な品詞タグ無しコーパスを用いることができる。このようなクラスタリングを行う方法の一つとして、隠れマルコフモデルを用いることができ、この場合、Baum−We1chアルゴリズムによりパラメータの学習を行うことができる。隠れマルコフモデルの学習及びクラスの付与については、例えば、『L.Rabiner,B−H.Juang著、古井監訳、「音声認識の基礎(下)」、1995年』等に詳しく紹介されている。
【0073】
次に、クラスタリングパラメータ格納部542中のクラスタリング用パラメータを用いて、クラス付与部543は、品詞タグ付きコーパス格納部531に格納された品詞タグ付きコーパスを入力し、各単語のクラスタリングを行い、クラスを付与し、そのクラスの付与された品詞タグ付きコーパスを品詞タグ・クラス付きコーパス格納部535へ格納する(702)。次に、確率推定部532により、確率モデルのパラメータを学習する(703)。
【0074】
ここで、クラス品詞n−gramモデル以外の各確率モデルに対するパラメータは、第1の実施形態の場合と同様に学習する。単語列、品詞タグ列、クラス・品詞タグ列などの系列をXとし、その系列Xが品詞タグ・クラス付きコーパス格納部535に格納されたコーパス中に出現した回数をf(X)で表すと、クラス品詞n−gramモデルに対するパラメータは、(23)式〜(25)式のように表される。
【0075】
【数9】
記憶長の長さN−1の第1及び第2のクラス品詞n−gramモデルは、上述したように、(21)及び(22)式で表されるので、(21)式及び(22)式の右辺の各要素P(ωi|ti)、P(ti|ci−N+1ti−N+1…ci−1ti−1)及びP(ωiti|ωi−N+1ti−N+1…ωi−1ti−1)を、(23)式〜(25)式に従ってパラメータとして得る。
【0076】
各確率モデルでのパラメータを確率モデル格納部522へ格納した後には、重み計算部533において重みの計算を行い、その結果を重み格納部523へ格納する(704)。
【0077】
重みの計算については、図11のフローチャートに示す手順で行う。第2の実施形態の重みの計算も、品詞タグ付きコーパス格納部131に格納されている品詞タグ付きコーパスの代わりに品詞タグ・クラス付きコーパス格納部535に格納されている品詞タグ・クラス付きコーパスを利用する点、品詞n−gram、語彙化品詞n−gram及び階層化品詞n−gramに加えて、クラス品詞n−gramを確率モデルとして用いる点を除けば、第1の実施形態の重み計算の処理(図4参照)と同様であるので、その処理の詳細説明は省略する。
【0078】
(B−3)第2の実施形態の効果
上記第2の実施形態によれば、形態素辞書を利用して得た複数の形態素解析結果(仮説)から最尤のものを決定する際に、クラスタリングにより付与したクラス情報をも用いるようにしたので、品詞よりは細かく、語彙化した品詞よりは抽象化された情報を利用でき、より頑健で高精度な解析を行うことができる。また、品詞タグ無しデータを利用してクラスタリングの精度を高めているので、形態素解析結果の精度も高まっている。
【0079】
(C)他の実施形態
上記第1の実施形態では、仮説の生成確率を、品詞n−gram確率モデル、語彙化品詞n−gram確率モデル及び階層化品詞n−gram確率モデルを利用して求めるものを示し、第2の実施形態では、仮説の生成確率を、品詞n−gram確率モデル、語彙化品詞n−gram確率モデル、階層化品詞n−gram確率モデル及びクラス品詞n−gram確率モデルを利用して求めるものを示したが、本発明は、適用する複数種類の確率モデルの中に階層化品詞n−gram確率モデルが含まれていれば、複数種類の確率モデルの組み合わせは、上記実施形態のものに限定されない。
【0080】
また、仮説生成部112、512による仮説(形態素解析結果候補)の生成方法は、形態素辞書を利用した一般的な形態素解析方法に限定されず、文字に関するn−gramを利用した形態素解析方法など、他の形態素解析方法を利用するようにしても良い。
【0081】
さらに、上記各実施形態では、最尤の仮説である形態素解析結果を出力するものを示したが、得られた形態素解析結果を、機械翻訳部などの自然言語処理部に直ちに与えるようにしても良い。
【0082】
さらにまた、上記各実施形態では、モデル学習部やクラスタリング部を備えるものを示したが、モデル学習部やクラスタリング部を備えないで、解析部とモデル格納部とで形態素解析装置を構成するようにしても良い。この場合、モデル格納部への情報は、予めモデル学習部やクラスタリング部で形成されたものである。また、第2の実施形態でクラスタリング部などを省略した場合には、モデル格納部にクラス付与機能を持たせることを要する。
【0083】
また、各種の処理に供するコーパスは、通信処理により、ネットワークなどから取り込むようなものであっても良い。
【0084】
本発明が適用可能な言語は、上記実施形態のような日本語には限定されないことは勿論である。
【0085】
【発明の効果】
以上のように、本発明によれば、複数の正解候補の中から最適な解を高い精度で選択し得る形態素解析装置、形態素解析方法及び形態素解析プログラムを提供できる。
【図面の簡単な説明】
【図1】第1の実施形態の形態素解析装置の機能的構成を示すブロック図である。
【図2】第1の実施形態の形態素解析装置の解析時動作を示すフローチャートである。
【図3】第1の実施形態の形態素解析装置のモデル学習動作を示すフローチャートである。
【図4】図3の重みの計算処理の詳細を示すフローチャートである。
【図5】第1の実施形態のモデルパラメータの例を示す説明図(その1)である。
【図6】第1の実施形態のモデルパラメータの例を示す説明図(その2)である。
【図7】第1の実施形態のモデルパラメータの例を示す説明図(その3)である。
【図8】第2の実施形態の形態素解析装置の機能的構成を示すブロック図である。
【図9】第2の実施形態の形態素解析装置の解析時動作を示すフローチャートである。
【図10】第2の実施形態の形態素解析装置のモデル学習動作を示すフローチャートである。
【図11】図10の重みの計算処理の詳細を示すフローチャートである。
【符号の説明】
100、500…形態素解析装置、
110、510…解析部、
112、512…仮説生成部、113、513…生成確率計算部、
114、514…解探索部、
120、520…モデル格納部、
121、521…形態素辞書格納部、122、522…確率モデル格納部、
123、523…重み格納部、
130、530…モデル学習部、
131、531…品詞タグ付きコーパス格納部、
132、532…確率推定部、133、533…重み計算部、
534…品詞タグ無しコーパス格納部、
535…品詞タグ・クラス付きコーパス格納部、
540…クラスタリング部、
541…クラス学習部、542…クラスタリングパラメータ格納部、
543…クラス付与部。
Claims (6)
- 形態素解析対象文に対して所定の形態素解析方法を適用し、活用形がある品詞についてはその活用形の情報を含む品詞タグが付与された単語列でなる、形態素解析結果の候補である仮説を1又は複数生成する仮説生成手段と、
品詞に関する複数種類のn−gram確率モデルの情報を格納しているモデル格納手段と、
上記各仮説に対し、大量の文中でその仮説が出現するであろう生成確率を、上記モデル格納手段に格納されている複数種類のn−gram確率モデルの情報を重み付けて結合して求める生成確率計算手段と、
上記各仮説の生成確率に基づき、解となる仮説を探索する解探索手段とを備え、
上記モデル格納手段は、少なくとも、品詞及び品詞の活用形を反映させた種類のn−gram確率モデルの情報は格納している
ことを特徴とする形態素解析装置。 - 品詞及び品詞の活用形を反映させた種類のn−gram確率モデルの情報は、上記仮説のi番目の単語ω i の品詞をt i 、品詞の活用形をt i form としたとき、その品詞t i をとる単語の中で単語ω i が出現する条件付き確率P(ω i |t i )と、単語ω i に係る品詞t i POS がその活用形t i form で出現する条件付き確率P(t i form |t i POS )と、直前N−1個の単語に係る品詞タグ列t i−N+1 …t i−1 の並びに続いて単語ω i に係る品詞t i POS が出現する条件付き確率P(t i POS |t i−N+1 …t i−1 )との積になっていることを特徴とする請求項1に記載の形態素解析装置。
- 上記モデル格納手段は、複数種類の1種類として、クラスn−gram確率モデルの情報も格納していることを特徴とする請求項1又は2に記載の形態素解析装置。
- クラスn−gram確率モデルの情報におけるクラスの種別は、品詞タグ付きコーパスと品詞タグ無しコーパスとから学習したものであることを特徴とする請求項3に記載の形態素解析装置。
- コンピュータが、仮説生成手段、モデル格納手段、生成確率計算手段及び解探索手段を備え、
形態素解析対象文に対して所定の形態素解析方法を適用し、活用形がある品詞についてはその活用形の情報を含む品詞タグが付与された単語列でなる、形態素解析結果の候補である仮説を1又は複数生成する、上記仮説生成手段が実行する仮説生成工程と、
上記各仮説に対し、大量の文中でその仮説が出現するであろう生成確率を、上記モデル格納手段に予め用意されている、品詞及び品詞の活用形を反映させた種類のn−gram確率モデルの情報を含む、品詞に関する複数種類のn−gram確率モデルの情報を重み付けて結合して求める、上記生成確率計算手段が実行する生成確率計算工程と、
上記各仮説の生成確率に基づき、解となる仮説を探索する、上記解探索手段が実行する解探索工程と
を含むことを特徴とする形態素解析方法。 - コンピュータを、
形態素解析対象文に対して所定の形態素解析方法を適用し、活用形がある品詞についてはその活用形の情報を含む品詞タグが付与された単語列でなる、形態素解析結果の候補である仮説を1又は複数生成する仮説生成手段、
品詞に関する複数種類のn−gram確率モデルの情報であって、少なくとも、品詞及び品詞の活用形を反映させた種類のn−gram確率モデルの情報を格納しているモデル格納手段、
上記各仮説に対し、大量の文中でその仮説が出現するであろう生成確率を、上記モデル格納手段に格納されている複数種類のn−gram確率モデルの情報を重み付けて結合して求める生成確率計算手段、及び、
上記各仮説の生成確率に基づき、解となる仮説を探索する解探索手段
として機能させるために、
コンピュータが実行可能なコードで記述していることを特徴とする形態素解析プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003154625A JP3768205B2 (ja) | 2003-05-30 | 2003-05-30 | 形態素解析装置、形態素解析方法及び形態素解析プログラム |
US10/812,000 US20040243409A1 (en) | 2003-05-30 | 2004-03-30 | Morphological analyzer, morphological analysis method, and morphological analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003154625A JP3768205B2 (ja) | 2003-05-30 | 2003-05-30 | 形態素解析装置、形態素解析方法及び形態素解析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004355483A JP2004355483A (ja) | 2004-12-16 |
JP3768205B2 true JP3768205B2 (ja) | 2006-04-19 |
Family
ID=33447859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003154625A Expired - Lifetime JP3768205B2 (ja) | 2003-05-30 | 2003-05-30 | 形態素解析装置、形態素解析方法及び形態素解析プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040243409A1 (ja) |
JP (1) | JP3768205B2 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050228657A1 (en) * | 2004-03-31 | 2005-10-13 | Wu Chou | Joint classification for natural language call routing in a communication system |
JP3998668B2 (ja) * | 2004-07-14 | 2007-10-31 | 沖電気工業株式会社 | 形態素解析装置、方法及びプログラム |
CN100530171C (zh) * | 2005-01-31 | 2009-08-19 | 日电(中国)有限公司 | 字典学习方法和字典学习装置 |
JP3986531B2 (ja) | 2005-09-21 | 2007-10-03 | 沖電気工業株式会社 | 形態素解析装置及び形態素解析プログラム |
US7930168B2 (en) * | 2005-10-04 | 2011-04-19 | Robert Bosch Gmbh | Natural language processing of disfluent sentences |
US20080208566A1 (en) * | 2007-02-23 | 2008-08-28 | Microsoft Corporation | Automated word-form transformation and part of speech tag assignment |
US20080249762A1 (en) * | 2007-04-05 | 2008-10-09 | Microsoft Corporation | Categorization of documents using part-of-speech smoothing |
KR100877697B1 (ko) * | 2007-05-04 | 2009-01-08 | 건국대학교 산학협력단 | 글짓기 검사모듈 및 검사방법 |
US8275607B2 (en) * | 2007-12-12 | 2012-09-25 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
US8046222B2 (en) | 2008-04-16 | 2011-10-25 | Google Inc. | Segmenting words using scaled probabilities |
KR101092356B1 (ko) * | 2008-12-22 | 2011-12-09 | 한국전자통신연구원 | 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법 |
US8103650B1 (en) * | 2009-06-29 | 2012-01-24 | Adchemy, Inc. | Generating targeted paid search campaigns |
US20110161067A1 (en) * | 2009-12-29 | 2011-06-30 | Dynavox Systems, Llc | System and method of using pos tagging for symbol assignment |
KR101196935B1 (ko) | 2010-07-05 | 2012-11-05 | 엔에이치엔(주) | 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템 |
KR101196989B1 (ko) | 2010-07-06 | 2012-11-02 | 엔에이치엔(주) | 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템 |
JP5585961B2 (ja) * | 2011-03-24 | 2014-09-10 | 日本電信電話株式会社 | 述部正規化装置、方法、及びプログラム |
WO2014030258A1 (ja) * | 2012-08-24 | 2014-02-27 | 株式会社日立製作所 | 形態素解析装置、テキスト分析方法、及びそのプログラム |
US8996352B2 (en) * | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9727619B1 (en) * | 2013-05-02 | 2017-08-08 | Intelligent Language, LLC | Automated search |
KR101511116B1 (ko) * | 2013-07-18 | 2015-04-10 | 에스케이텔레콤 주식회사 | 구문 분석 장치 및 이를 위한 기록매체 |
US9507852B2 (en) * | 2013-12-10 | 2016-11-29 | Google Inc. | Techniques for discriminative dependency parsing |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US9372848B2 (en) | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
US10606815B2 (en) | 2016-03-29 | 2020-03-31 | International Business Machines Corporation | Creation of indexes for information retrieval |
US10073831B1 (en) * | 2017-03-09 | 2018-09-11 | International Business Machines Corporation | Domain-specific method for distinguishing type-denoting domain terms from entity-denoting domain terms |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
JP7421363B2 (ja) | 2020-02-14 | 2024-01-24 | 株式会社Screenホールディングス | パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
US5251129A (en) * | 1990-08-21 | 1993-10-05 | General Electric Company | Method for automated morphological analysis of word structure |
US5940624A (en) * | 1991-02-01 | 1999-08-17 | Wang Laboratories, Inc. | Text management system |
US5369577A (en) * | 1991-02-01 | 1994-11-29 | Wang Laboratories, Inc. | Text searching system |
US5475587A (en) * | 1991-06-28 | 1995-12-12 | Digital Equipment Corporation | Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5268840A (en) * | 1992-04-30 | 1993-12-07 | Industrial Technology Research Institute | Method and system for morphologizing text |
US5331556A (en) * | 1993-06-28 | 1994-07-19 | General Electric Company | Method for natural language data processing using morphological and part-of-speech information |
US5535121A (en) * | 1994-06-01 | 1996-07-09 | Mitsubishi Electric Research Laboratories, Inc. | System for correcting auxiliary verb sequences |
US6014615A (en) * | 1994-08-16 | 2000-01-11 | International Business Machines Corporaiton | System and method for processing morphological and syntactical analyses of inputted Chinese language phrases |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
JP2855409B2 (ja) * | 1994-11-17 | 1999-02-10 | 日本アイ・ビー・エム株式会社 | 自然言語処理方法及びシステム |
CA2170669A1 (en) * | 1995-03-24 | 1996-09-25 | Fernando Carlos Neves Pereira | Grapheme-to phoneme conversion with weighted finite-state transducers |
US5873660A (en) * | 1995-06-19 | 1999-02-23 | Microsoft Corporation | Morphological search and replace |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
US5995922A (en) * | 1996-05-02 | 1999-11-30 | Microsoft Corporation | Identifying information related to an input word in an electronic dictionary |
US5835888A (en) * | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
JP3992348B2 (ja) * | 1997-03-21 | 2007-10-17 | 幹雄 山本 | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 |
WO2000025299A1 (de) * | 1998-10-27 | 2000-05-04 | Siemens Aktiengesellschaft | Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen |
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
KR20010004404A (ko) * | 1999-06-28 | 2001-01-15 | 정선종 | 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법 |
US6721697B1 (en) * | 1999-10-18 | 2004-04-13 | Sony Corporation | Method and system for reducing lexical ambiguity |
US6965857B1 (en) * | 2000-06-02 | 2005-11-15 | Cogilex Recherches & Developpement Inc. | Method and apparatus for deriving information from written text |
US7035789B2 (en) * | 2001-09-04 | 2006-04-25 | Sony Corporation | Supervised automatic text generation based on word classes for language modeling |
US20050256715A1 (en) * | 2002-10-08 | 2005-11-17 | Yoshiyuki Okimoto | Language model generation and accumulation device, speech recognition device, language model creation method, and speech recognition method |
US8433558B2 (en) * | 2005-07-25 | 2013-04-30 | At&T Intellectual Property Ii, L.P. | Methods and systems for natural language understanding using human knowledge and collected data |
-
2003
- 2003-05-30 JP JP2003154625A patent/JP3768205B2/ja not_active Expired - Lifetime
-
2004
- 2004-03-30 US US10/812,000 patent/US20040243409A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2004355483A (ja) | 2004-12-16 |
US20040243409A1 (en) | 2004-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
Mairesse et al. | Stochastic language generation in dialogue using factored language models | |
RU2336552C2 (ru) | Лингвистически информированные статистические модели структуры составляющих для упорядочения в реализации предложений для системы генерирования естественного языка | |
Halteren et al. | Improving accuracy in word class tagging through the combination of machine learning systems | |
JP3998668B2 (ja) | 形態素解析装置、方法及びプログラム | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
CN111145718B (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
US20080059190A1 (en) | Speech unit selection using HMM acoustic models | |
Korpusik et al. | Spoken language understanding for a nutrition dialogue system | |
JP2008165786A (ja) | 機械翻訳用のシーケンス分類 | |
Sak et al. | Morpholexical and discriminative language models for Turkish automatic speech recognition | |
Kawakami et al. | Learning to discover, ground and use words with segmental neural language models | |
Biçici | The regression model of machine translation | |
JP4266222B2 (ja) | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
Göker et al. | Neural text normalization for turkish social media | |
JP2019144844A (ja) | 形態素解析学習装置、形態素解析装置、方法、及びプログラム | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP5293607B2 (ja) | 略語生成装置およびプログラム、並びに、略語生成方法 | |
Dymetman et al. | Log-linear rnns: Towards recurrent neural networks with flexible prior knowledge | |
JP6086714B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
Bowden | A Review of Textual and Voice Processing Algorithms in the Field of Natural Language Processing | |
Lee | N-Gram Language Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060131 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3768205 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090210 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100210 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110210 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110210 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120210 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130210 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140210 Year of fee payment: 8 |
|
EXPY | Cancellation because of completion of term |