JP3998668B2 - 形態素解析装置、方法及びプログラム - Google Patents

形態素解析装置、方法及びプログラム Download PDF

Info

Publication number
JP3998668B2
JP3998668B2 JP2004206996A JP2004206996A JP3998668B2 JP 3998668 B2 JP3998668 B2 JP 3998668B2 JP 2004206996 A JP2004206996 A JP 2004206996A JP 2004206996 A JP2004206996 A JP 2004206996A JP 3998668 B2 JP3998668 B2 JP 3998668B2
Authority
JP
Japan
Prior art keywords
hypothesis
character
unknown word
word
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004206996A
Other languages
English (en)
Other versions
JP2006031228A (ja
Inventor
哲治 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2004206996A priority Critical patent/JP3998668B2/ja
Priority to US11/179,619 priority patent/US20060015317A1/en
Publication of JP2006031228A publication Critical patent/JP2006031228A/ja
Application granted granted Critical
Publication of JP3998668B2 publication Critical patent/JP3998668B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は、形態素解析装置、方法及びプログラムに関し、特に、未知語を含む文章に対しても高精度に解析し得るようにしたものである。
形態素解析装置は、入力された文を単語(形態素)に区切り、その品詞を推定するものである。その際に、形態素解析装置の辞書中に登録されていない単語(未知語)を正しく解析することが、多様な文書に対して頑健で高精度な解析を行う上で必要となる。
特許文献1は、統計的手法により日本語形態素解析を行う方法について記載している。この方法では、単語を構成する文字列とその品詞が与えられたときにその単語の品詞別の出力確率を計算する単語モデルを用意することにより、入力文が未知語を含む場合に対処している。具体的には、入力文中の任意の位置から始まる任意の長さの部分文字列に対して、単語モデルを用いてその部分文字列の品詞別単語出力確率を計算し、尤度の高い順に予め決められた数の単語仮説を生成することで、辞書中に含まれない未知語に対しても仮説が生成されるようにしている。この単語モデルは、平滑化された品詞別文字三つ組確率によって品詞別単語出力確率を計算しており、単語モデルのパラメータは品詞タグ付きコーパスから推定している。
特開平7−271792号公報
しかしながら、上記の方法は、予め決められた数の単語仮説しか生成しないため、その中に、未知語部分に対して正解のものが含まれずに解析に失敗する可能性がある。また、そのような誤りを減らすために生成する単語仮説の数を増やすと、計算時間が大きくなるという問題がある。さらに、上記の方法は、品詞別文字三つ組確率を使用して未知語の出現確率を計算しているため、未知語内の文字の種類をはじめとした、未知語を構成する文字に関する様々な情報を利用することができない。
そのため、未知語を含む文章の形態素解析結果を、計算量などを増大させることなく、より高精度にし得る形態素解析装置、方法及びプログラムが望まれている。
かかる課題を解決するため、第1の本発明の形態素解析装置は、(1)形態素解析対象文に対して、形態素解析結果の候補である仮説を1又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成手段と、(2)形態素やn−gramや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段と、(3)各仮説に対し、その仮説の生成確率を、モデル格納手段に格納されている確率的なモデルの情報を用いて求める生成確率計算手段と、(4)各仮説の生成確率に基づき、解となる仮説を探索する解探索手段と、(5)探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元手段とを備えたことを特徴とする。
また、第2の本発明の形態素解析方法は、仮説生成手段、生成確率計算手段、解探索手段、未知語復元手段を備える形態素解析方法において、(1)仮説生成手段が、形態素解析対象文に対して、形態素解析結果の候補である仮説を1又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成工程と、(2)生成確率計算手段が、形態素やn−gramや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段の格納情報を用い、各仮説に対し、その仮説の生成確率を求める生成確率計算工程と、(3)解探索手段が、各仮説の生成確率に基づき、解となる仮説を探索する解探索工程と、(4)未知語復元手段が、探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元工程とを含むことを特徴とする。
第3の本発明の形態素解析プログラムは、コンピュータ、(1)形態素解析対象文に対して、形態素解析結果の候補である仮説を1又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成手段、(2)形態素やn−gramや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段の格納情報を用い、各仮説に対し、その仮説の生成確率を、モデル格納手段に格納されている確率的なモデルの情報を用いて求める生成確率計算手段、(3)各仮説の生成確率に基づき、解となる仮説を探索する解探索手段、(4)探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元手段として機能させるものである。
本発明の形態素解析装置、方法及びプログラムによれば、形態素解析結果の候補である仮説として、辞書に登録されている既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものも生成して評価するようにしたので、未知語を含む文章の形態素解析結果を、計算量などを増大させることなく、より高精度に得ることができるようになる。
(A)第1の実施形態
以下、本発明による形態素解析装置、方法及びプログラムの第1の実施形態を、図面を参照しながら詳述する。
第1の実施形態や後述する第2の実施形態では、単語単位で処理を行う従来のコスト最小法を拡張し、文字単位で未知語を処理する形態素解析装置、方法及びプログラムを提案する。第1の実施形態の形態素解析装置では、未知語の処理に関して、従来手法のように未知語に対して単語仮説を生成するような単語単位の処理を行う代わりに、未知語を構成する文字の仮説(未知語構成文字仮説)を生成するという文字単位の処理を行う。そして、通常のコスト最小法の枠組みのなかで、既知語の仮説と未知語構成文字の仮説を同時に処理する。この第1の実施形態の手法では、未知語を文字単位で処理するため、未知語の処理に必要となる仮説の数が少ない。そのため、少ない計算量で文中に存在するあらゆる未知語の候補を処理することができる。
(A−1)第1の実施形態の機能的構成
第1の実施形態の形態素解析装置は、例えば、パソコンなどの情報処理装置に形態素解析プログラム(データ群を含む)がインストールされて構築され、機能的には、図1に示す構成を有する。なお、第1の実施形態の形態素解析装置が専用機として構築されていても良く、各機能部が1又は複数のASICなどで実現されたものであっても良い。また、形態素解析プログラムのインストール方法は、記録媒体からのインストールであっても良く、他の装置からのダウンロードによるインストールであっても良く、キーボードなどを用いた入力による方法であっても良い。
第1の実施形態の形態素解析装置100は、大きくは、形態素解析を行う解析部110、形態素解析を行う際に使用される形態素辞書やn−gramモデルのパラメータを格納するモデル格納部120、パラメータ学習用の品詞タグ付きコーパスからn−gramモデルの学習を行うモデル学習部130を有する。
解析部110は、入力部111、仮説生成部112、生成確率計算部115、解探索部116、未知語復元部117及び出力部118を有する。
入力部111は、形態素解析を行う文を使用者から入力するためのものである。例えば、キーボードなどを用いて解析対象文を入力するものであっても良く、記録媒体をアクセスすることにより解析対象文を入力するものであっても良く、他の装置から通信によって解析対象文を取り込むものであっても良い。
仮説生成部112は、入力部111より入力された解析対象文に対して、解析結果の候補(仮説)を生成するものである。仮説生成部112は、入力された解析対象文に対して、後述する形態素辞書格納部121に格納された形態素辞書を用いて既知語の仮説を生成する既知語仮説生成部113と、解析対象文中に含まれる任意の文字に対して、その文字が未知語を構成する文字である仮説を生成する未知語構成文字仮説生成部114とを有している。
生成確率計算部115は、仮説生成部112によって生成された各仮説に対して、後述するn−gramモデルパラメータ格納部122に格納されたパラメータを使用して生成確率を計算するものである。
解探索部116は、生成確率計算部115によって生成確率の付与された仮説の中から最も尤度の高い仮説を解として選ぶものである。
未知語復元部117は、解探索部116により得られた解の中に、未知語構成文字が含まれている場合には、未知語構成文字を結合して未知語を復元するものである。解探索部116により得られた解の中に未知語構成文字が含まれていない場合には、未知語復元部117は機能しないものである。
出力部118は、解析対象文に対する最適な解析結果(解)を使用者へ出力するものである。出力される解が、未知語復元部117によって未知語が復元された解のこともあり得る。出力部118は、解を表示出力するものであっても良く、解を印刷出力するものであっても良く、解を他の装置に転送するものであっても良く、解を記録媒体に記録するものであっても良い。なお、出力に供する解は、1個に限定されるものではなく、複数であっても良い。
モデル格納部120は、形態素辞書格納部121及びn−gramモデルパラメータ格納部122を有する。モデル格納部120は、ハードウェア的には、例えば、パソコンが内蔵する大容量記憶装置(例えばハードディスク)や外付けの大容量記憶装置が該当し、形態素辞書格納部121及びn−gramモデルパラメータ格納部122が同一の大容量記憶装置に構築されていても良く、異なる大容量記憶装置に構築されていても良い。
形態素辞書格納部121は、上述したように、既知語仮説生成部113が仮説を生成するために使用する形態素辞書(一般的な形態素辞書で良い)を格納しているものである。
n−gramモデルパラメータ格納部122は、生成確率計算部115で使用されるn−gramモデルのパラメータを格納しているものであり、このパラメータは、後述するn−gramモデルパラメータ計算部132で計算されるものである。ここでのパラメータとしては、未知語構成文字に関するパラメータや既知語に関するパラメータも含まれる。
モデル学習部130は、品詞タグ付きコーパス格納部131及びn−gramモデルパラメータ計算部132を有する。
品詞タグ付きコーパス格納部131は、ハードウェア的には、例えば、パソコンが内蔵する大容量記憶装置(例えばハードディスク)や外付けの大容量記憶装置が該当し、品詞タグ付きコーパスを格納しているものである。
n−gramモデルパラメータ計算部132は、品詞タグ付きコーパス格納部131に格納されているコーパスを用いてn−gramモデルのパラメータ(未知語構成文字や既知語に関するパラメータも含まれる)を推定するものである。推定されたn−gramモデルのパラメータは、上述したn−gramモデルパラメータ格納部122に格納される。
なお、モデル学習部130は、解析部110やモデル格納部120が構築されている情報処理装置(例えばパソコン)と異なる情報処理装置で構築されても良い。このような場合には(同一の情報処理装置で構築されている場合でも良い)、n−gramモデルパラメータ計算部132によって得られたn−gramモデルのパラメータは、例えば、携帯可能な記録媒体を介して、n−gramモデルパラメータ格納部122に投入される。
(A−2)第1の実施形態の動作
次に、第1の実施形態の形態素解析装置100の動作(第1の実施形態の形態素解析方法)を、図2のフローチャートを参照しながら説明する。図2は、入力された文を形態素解析装置100が形態素解析して出力するまでの処理の流れを示すフローチャートである。
まず、使用者が入力した形態素解析をしたい文を入力部111によって取り込む(201)。入力された解析対象文に対して、仮説生成部112は既知語仮説と未知語構成文字仮説を生成する(202)。
これらの仮説は、グラフ構造によって表現することができ、グラフ中の文頭と文末を表すノードを結ぶ一つの経路が、一つの仮説に対応する。仮説生成部112が行う動作は、図3のフローチャートのように実行される。既知語仮説生成部113は、形態素辞書格納部121に格納されている形態素辞書を用いて、入力部111によって入力された解析対象文中に含まれる既知語のノードを生成してグラフに追加する(301)。未知語構成文字仮説生成部114は、解析対象文中の全ての文字のそれぞれに対して、その文字が単語中のどの位置に出現するかを表す文字位置タグを付与した未知語構成文字のノードを生成してグラフに追加する(302)。文字位置タグとしては、例えば、単語(なお、ここでは未知語を意図している)の最初の文字であることを表すタグ(ここでは「B」と表すことにする)、単語の中間の(最初と最後ではない)文字であることを表すタグ(ここでは「I」と表すことにする)、単語の末尾の文字であることを表すタグ(ここでは「E」と表すことにする)、その文字自身で単語を構成することを表すタグ(ここでは「S」と表すことにする)の4種類のタグを適用する。
図2に戻り、生成確率計算部115は、n−gramモデルパラメータ格納部122に格納されたパラメータを用いて、仮説生成部112で生成されたグラフ中の各経路(仮説)に対して、その生成確率をn−gramモデルにより計算する(203)。
ここで、入力文の先頭からi番目の単語(既知語の場合)あるいは文字(未知語構成文字の場合)をωとし、その品詞(既知語の場合)あるいは文字位置タグ(未知語構成文字の場合)をtとし、文中の単語あるいは文字の数(グラフの経路中に含まれるノードの数)をn(n−gramモデルのnとは異なる)とする。また、ω(i<1)とt(i<1)は、それぞれ文頭を表す単語(あるいは文字)と品詞とし、ω(i>n)とt(i>n)は、それぞれ文末を表す単語(あるいは文字)と品詞とする。このとき、ある一つの仮説(正解候補)の単語・品詞タグ列は、
ω … ω
と表現され、このような仮説の中から最も生成確率の高いものを解として選べばよいため、(1)式のようにn−gramモデルを用いることにより、^ω及び^tを計算することになる。
Figure 0003998668
(1)式において、第1行の「^ω^t … ^ω^t」は最適な単語・品詞タグ列を意味しており、argmaxは、複数の単語・品詞タグ列(仮説)の中から生成確率P(ω … ω)が最も高い単語・品詞タグ列を選択することを表している。
ある単語・品詞タグ列の生成確率P(ω … ω)は、その単語・品詞タグ列においてそのi番目(iは1〜n+1)の単語・品詞タグが生じる条件付き確率P(ω|ω … ωi−1i−1)の積で表される。条件付き確率P(ω|ω … ωi−1i−1)は、i番目のノードやその近傍のノードの単語タグや品詞タグの組み合わせを反映させた複数の重み付き条件付き確率、すなわち、λP(ω|t)P(t)と、λP(ω|t)P(t|ti−1)と、λP(ω|t)P(t|ti−2i−1)と、λP(ω|ωi−1i−1)との和で近似することができる。
図2に戻り、解探索部116は、上述の動作により生成確率が計算された各仮説の中から、文全体の生成確率が最も高いものを選択する(204)。このような探索は、Viterbiアルゴリズム等を用いて行うことができる。
未知語復元部117は、解探索部116により決定された解の中に含まれる未知語構成文字を結合して、未知語を復元する(205)。解探索部116により決定された解の中に未知語構成文字が含まれていない場合には、未知語復元部117の動作は省略される。未知語の復元は、文字位置タグを用いることにより行われる。以下では、B、I、E、Sの4つの文字位置タグを使用した場合を説明する。例えば、「く/B,る/I,ま/E,で/S,ま/B,つ/E」という未知語構成文字の並びが解に含まれていたとすると、単語の開始タグBと終了タグEとで挟まれた部分と、その文字単独で単語になっていることを表すタグSが付与されている部分とを未知語として復元するので、「くるま/未知語,で/未知語,まつ/未知語」という復元結果が得られる。
出力部118は、未知語復元部117により未知語が復元された解、又は、未知語を含まないで得られた解を使用者へ出力する(206)。
n−gramモデルパラメータ計算部132は、フローチャートは省略するが、上述した(1)式に示す近似式で適用できるn−gramモデルのパラメータを、品詞タグ付きコーパス131に格納された品詞タグ付きコーパスから得て、n−gramモデルパラメータ格納部122に格納する。すなわち、P(ω|t)、P(t)、P(t|ti−1)、P(t|ti−2i−1)、P(ω|ωi−1i−1)、λ、λ、λ、λを求め、その結果を、n−gramモデルパラメータ格納部122へ格納する。ここで、P(ω|t)、P(t)、P(t|ti−1)、P(t|ti−2i−1)、P(ω|ωi−1i−1)については最尤推定法を用いることにより計算することができ、また、重み付け係数(補間係数)λ、λ、λ、λについては削除補間法を用いることにより計算することができる。これらの計算方法は、例えば、文献1『北研二著、「確率的言語モデル」、東京大学出版会発行、1999年11月初版発行』の37〜41頁や、65〜66頁に記載されている。
ここで、品詞タグ付きコーパス格納部131に格納されている品詞タグ付きコーパス中における未知語、あるいは、出現頻度が低く未知語に近い性質を持つとみなせる語は、n−gramモデルパラメータ計算部132による処理によって、各文字(未知語構成文字)に分解され、文字位置タグB、I、E、Sが付与された後に、上記のn−gramモデルのパラメータの計算が行われ、その結果が格納される。
以下に、実際の解析の例を示す。まず、使用者から入力部111を用いて「細川護煕首相が訪米」という解析対象文が入力されたとする(201)。ここで、「護煕」という単語が未知語であるとする。
形態素辞書格納部121に図4に示すような辞書が格納されていたとすると、既知語仮説生成部113は、グラフ構造で表現される既知語の仮説(図5の符号611参照)を生成する(301)。未知語仮説生成部114は、グラフ構造で表現される未知語構成文字の仮説(図5の符号612参照)を生成する(302)。最終的に、仮説生成部112は、図5に示すようなグラフ構造で表現される仮説(符号610参照)を生成する(202)。なお、既知語仮説611のノードと、未知語仮説612のノードとを結ぶアークは、既知語仮説611と未知語仮説612とが生成された後に、仮説生成部112が生成する。
なお、図5から明らかなように、文字位置タグBが付与された未知語構成文字から文字位置タグBが付与された未知語構成文字を結ぶアークや、文字位置タグEが付与された未知語構成文字から文字位置タグEが付与された未知語構成文字を結ぶアークや、文字位置タグBが付与された未知語構成文字から既知語を結ぶアークなど、文字位置タグの属性と矛盾するようなアークが生成されることはない。
生成確率計算部115では、(1)式を用いて各仮説の生成確率の計算を行う(203)。解探索部116では、最も生成確率の高い仮説を探索する。ここでは、図5のグラフ中の太線で示された経路が選ばれたとする。未知語復元部117では、解探索部116で選択された仮説中の「護[B],煕[E]」という未知語構成文字部分が、「護煕[未知語]」という未知語に復元される。これにより、出力部118から、「細川[名詞],護煕[未知語],首相[名詞],が[助詞],訪米[名詞]」という形態素解析結果が出力される。
(A−3)第1の実施形態の効果
第1の実施形態によれば、形態素解析を行う際に、解析対象文中に未知語が含まれている場合でも、頑健に解析を行うことができる。
未知語を、それを構成する文字単位で処理することによって、従来から存在する未知語を単語単位で処理する方法に比べて、少ない計算量で文中に存在する任意の未知語を考慮することができる。また、従来手法として、既知語も未知語も文字単位で処理する方法があるが、そのような手法では既知語に関する情報や文中の広範囲の情報を十分に利用できず、既知語に対する精度が低いという問題があった。提案手法では、単語に関する情報が分かっている既知語に対しては単語単位で高精度な解析を行い、単語に関する情報が無い未知語に対しては、文字単位で頑健な解析を行うことができる。さらに、従来手法として人名になりやすい単語に対して仮説を生成する手法や、カタカナや数字などの使われ方に依存した規則や確率的モデルを利用して未知語の仮説を生成する手法があるが、提案手法では対象とする未知語の種類や言語を限定することなく処理を行うことができる。
(B)第2の実施形態
次に、本発明による形態素解析装置、方法及びプログラムの第2の実施形態を、図面を参照しながら詳述する。
図6は、第2の実施形態の形態素解析装置の機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には、同一、対応符号を付して示している。
第2の実施形態の形態素解析装置100Aは、第1の実施形態の構成に加え、最大エントロピーモデルパラメータ格納部123及び最大エントロピーモデルパラメータ計算部133を有している点、及び、生成確率計算部115Aの処理が第1の実施形態とは異なっている。
最大エントロピーモデルパラメータ格納部123は、生成確率計算部115Aで使用される最大エントロピーモデルのパラメータを格納しているものである。最大エントロピーモデルパラメータ計算部133は、品詞タグ付きコーパス格納部131に格納されたコーパスを用いて最大エントロピーモデルのパラメータを計算し、その結果を最大エントロピーモデルパラメータ格納部123へ格納するものである。第2の実施形態の生成確率計算部115Aは、仮説生成部112で生成された各仮説に対し、n−gramモデルに加えて、最大エントロピーモデルパラメータ格納部723に格納されたパラメータを使用する最大エントロピーモデルも用いて、生成確率を計算するものである。
次に、第2の実施形態の形態素解析装置100Aの動作(第2の実施形態の形態素解析方法)を、図7のフローチャートを参照しながら説明する。図7は、入力された文を形態素解析装置100Aが形態素解析して出力するまでの処理の流れを示すフローチャートであり、第1の実施形態に係る図2に対応する部分である。
第2の実施形態の場合、第1の実施形態と比べて、仮説に対する生成確率の計算を行う箇所だけが異なるため、以下では、この点についてのみ説明する。
文の入力(201)、仮説の生成(202)が行われた後、生成確率計算部115Aは、n−gramモデルパラメータ格納部122と最大エントロピーモデルパラメータ格納部123に格納されたパラメータを用いて、仮説生成部112で生成されたグラフ中の各経路(仮説)に対して、その生成確率を計算する(203A)。
生成確率を計算する際に、第1の実施形態では(1)式を使用して計算を行ったが、第2の実施形態の場合、(1)式中の文字位置タグで条件付けられた未知語構成文字の出現確率P(ω|t)を、(2)式によって計算する。なお、i番目の要素(ノード)が既知語単語である場合には、(2)式は適用されない。
Figure 0003998668
ここで、この(2)式の右辺中のP(t|ω)の値を、最大エントロピー法によって計算する。その際に、最大エントロピー法で使用する素性としては、以下の情報を使うことができる。但し、ωは文頭からi’番目の文字であるとし、cは文頭からx番目の文字を、yは文字cの文字の種類をそれぞれ表すものとする。
(a)文字(ci’−2,ci’−1,ci’,ci’+1,ci’+2
(b)文字の二つ組(ci’−2i’−1,ci’−1i’,ci’−1i’+1,ci’i’+1,ci’+1i’+2
(c)文字種(yi’−2,yi’−1,yi’,yi’+1,yi’+2
(d)文字種の二つ組(yi’−2i’−1,yi’−1i’,yi’−1i’+1,yi’i’+1,yi’+1i’+2
文字の種類としては、例えば、アルファベット、数字、記号、漢字、ひらがな、カタカナなどを用いることができる。生成確率の計算後は、第1の実施形態の場合と同様に、最適解の探索(204)、未知語の復元(205)、結果の出力(206)が行われる。
図8は、生成確率計算部115Aで使用されるn−gramモデルと最大エントロピーモデルのパラメータを、品詞タグ付きコーパスから計算して求める処理を示すフローチャートである。始めに、第1の実施形態の場合と同様に、n−gramモデルのパラメータが品詞タグ付きコーパスから計算する(901)。第1の実施形態と異なるのは、仮説の生成確率を計算する際に、(1)式に加えて(2)式を使用するため、確率P(ω)のパラメータの計算も行わなければならない点である。最大エントロピーモデルパラメータ計算部133は、品詞タグ付きコーパス格納部131に格納された品詞タグ付きコーパスを用いて、未知語構成文字で条件付けられた文字位置タグの出現確率を計算するための最大エントロピーモデルのパラメータを求め、その結果を最大エントロピーモデルパラメータ格納部123へ格納する(902)。
最大エントロピーモデルのパラメータについては、例えば反復スケーリング法を用いることにより計算することができる(上述した文献1の163〜165頁参照)。
第2の実施形態によれば、第1の実施形態と同様な効果に加え、以下の効果を期待することができる。すなわち、未知語構成文字に関してその前後の文字を含めた文字表記や文字種類の情報を用いることにより、未知語に対してより精度よく解析を行うことが可能となる。
(C)他の実施形態
上記各実施形態では、未知語仮説生成部が解析対象文の全ての文字を、未知語構成文字として仮説を生成するものを示したが、解析対象文の一部の文字を、未知語構成文字として仮説を生成するものであっても良い。例えば、既知語仮説生成部113が形態素辞書格納部121の辞書から探索することができなかった部分の前後に所定量の部分(所定数の形態素の部分、所定数の文字数の部分)を加えた解析対象文の一部の文字を、未知語構成文字として未知語仮説生成部が仮説を生成するものであっても良い。
また、上記各実施形態では、仮説のノードが、既知語仮説生成部によって生成されたものであろうと未知語仮説生成部によって生成されたものであろうと、同様に扱って、生成確率を計算するものを示したが、P(ω|t)やP(t)等の確率に対し、既知語仮説生成部によって生成されたノードと、未知語仮説生成部によって生成されたノードとで異なる重み係数などで修正を加えるようにしても良い。
さらに、上記各実施形態では、未知語の文字位置タグとして、B、I、E、Sの4種類を用いるものを示したが、これに限定されるものではない。例えば、BとIだけを用いるようにしても良い。
上記各実施形態では、最尤の仮説である形態素解析結果を出力するものを示したが、得られた形態素解析結果を、機械翻訳部などの自然言語処理部に直ちに与えるようにしても良い。
また、上記各実施形態では、モデル学習部を備えるものを示したが、モデル学習部を備えないで、解析部とモデル格納部とで形態素解析装置を構成するようにしても良い。この場合、モデル格納部への情報は、予め実施形態と同様なモデル学習部で形成されたものである。
さらに、各種の処理に供するコーパスは、通信処理により、ネットワークなどから取り込むようなものであっても良い。
本発明が適用可能な言語は、上記実施形態のような日本語には限定されないことは勿論である。
第1の実施形態の形態素解析装置の機能的構成を示すブロック図である。 第1の実施形態の形態素解析装置の形態素解析動作を示すフローチャートである。 図2の仮説生成処理の詳細を示すフローチャートである。 第1の実施形態での形態素辞書の一例を示す説明図である。 第1の実施形態での仮説の生成結果の一例を示す説明図である。 第2の実施形態の形態素解析装置の機能的構成を示すブロック図である。 第2の実施形態の形態素解析装置の形態素解析動作を示すフローチャートである。 第2の実施形態の形態素解析装置のモデル情報生成動作を示すフローチャートである。
符号の説明
100、100A…形態素解析装置、
110、110A…解析部、
111…入力部、112…仮説生成部、113…既知語仮説生成部、114…未知語構成文字仮説生成部、115、115A…生成確率計算部、116…解探索部、117…未知語復元部、118…出力部、
120、120A…モデル格納部、
121…形態素辞書格納部、122…n−gramモデルパラメータ格納部、123…最大エントロピーモデルパラメータ格納部
130、130A…モデル学習部、
131…品詞タグ付きコーパス格納部、132…n−gramモデルパラメータ計算部、133…最大エントロピーモデルパラメータ計算部。

Claims (7)

  1. 形態素解析対象文に対して、形態素解析結果の候補である仮説を1又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成手段と、
    形態素やn−gramや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段と、
    上記各仮説に対し、その仮説の生成確率を、上記モデル格納手段に格納されている確率的なモデルの情報を用いて求める生成確率計算手段と、
    上記各仮説の生成確率に基づき、解となる仮説を探索する解探索手段と、
    探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元手段と
    を備えたことを特徴とする形態素解析装置。
  2. 上記モデル格納手段には、未知語を構成する文字で条件付けられた、該当文字の位置を規定する文字位置タグの条件付き確率として、その未知語構成文字の前後の文字やその文字種を素性とした最大エントロピーモデルの情報が格納されていることを特徴とする請求項1に記載の形態素解析装置。
  3. 最大エントロピーモデルによる計算を行うための素性として、注目している文字とその前後の文字の一つ組と二つ組、およびそれらの文字種の一つ組と二つ組とが使用されたことを特徴とする請求項2に記載の形態素解析装置。
  4. 仮説生成手段、生成確率計算手段、解探索手段、未知語復元手段を備える形態素解析方法において、
    上記仮説生成手段が、形態素解析対象文に対して、形態素解析結果の候補である仮説を1又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成工程と、
    上記生成確率計算手段が、形態素やn−gramや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段の格納情報を用い、上記各仮説に対し、その仮説の生成確率を求める生成確率計算工程と、
    上記解探索手段が、上記各仮説の生成確率に基づき、解となる仮説を探索する解探索工程と、
    上記未知語復元手段が、探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元工程と
    を含むことを特徴とする形態素解析方法。
  5. 上記モデル格納手段には、未知語を構成する文字で条件付けられた、該当文字の位置を規定する文字位置タグの条件付き確率として、その未知語構成文字の前後の文字やその文字種を素性とした最大エントロピーモデルの情報が格納されていることを特徴とする請求項4に記載の形態素解析方法。
  6. 最大エントロピーモデルによる計算を行うための素性として、注目している文字とその前後の文字の一つ組と二つ組、およびそれらの文字種の一つ組と二つ組とが使用されたことを特徴とする請求項5に記載の形態素解析方法。
  7. コンピュータ
    形態素解析対象文に対して、形態素解析結果の候補である仮説を1又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成手段、
    形態素やn−gramや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段の格納情報を用い、上記各仮説に対し、その仮説の生成確率を、上記モデル格納手段に格納されている確率的なモデルの情報を用いて求める生成確率計算手段、
    上記各仮説の生成確率に基づき、解となる仮説を探索する解探索手段、
    探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元手段
    として機能させる形態素解析プログラム。
JP2004206996A 2004-07-14 2004-07-14 形態素解析装置、方法及びプログラム Active JP3998668B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004206996A JP3998668B2 (ja) 2004-07-14 2004-07-14 形態素解析装置、方法及びプログラム
US11/179,619 US20060015317A1 (en) 2004-07-14 2005-07-13 Morphological analyzer and analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004206996A JP3998668B2 (ja) 2004-07-14 2004-07-14 形態素解析装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2006031228A JP2006031228A (ja) 2006-02-02
JP3998668B2 true JP3998668B2 (ja) 2007-10-31

Family

ID=35600555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004206996A Active JP3998668B2 (ja) 2004-07-14 2004-07-14 形態素解析装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US20060015317A1 (ja)
JP (1) JP3998668B2 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5125404B2 (ja) * 2007-10-23 2013-01-23 富士通株式会社 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP2009193356A (ja) * 2008-02-14 2009-08-27 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8046222B2 (en) * 2008-04-16 2011-10-25 Google Inc. Segmenting words using scaled probabilities
JP5199901B2 (ja) * 2009-01-21 2013-05-15 日本電信電話株式会社 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム
US9583095B2 (en) * 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8527270B2 (en) 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9576570B2 (en) * 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
CN103034628B (zh) * 2011-10-27 2015-12-02 微软技术许可有限责任公司 用于将语言项目规范化的功能装置
US8909516B2 (en) * 2011-10-27 2014-12-09 Microsoft Corporation Functionality for normalizing linguistic items
KR101475284B1 (ko) * 2011-11-29 2014-12-23 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
KR101509727B1 (ko) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
JP6145059B2 (ja) * 2014-03-04 2017-06-07 日本電信電話株式会社 モデル学習装置、形態素解析装置、及び方法
US10078631B2 (en) * 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
BR112017002310B1 (pt) 2014-08-06 2020-05-12 Unilever N.V. Processo para preparação de uma composição particulada antimicrobiana e composição de higiene ou de cuidados pessoais
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
JP6619932B2 (ja) * 2014-12-26 2019-12-11 Kddi株式会社 形態素解析装置およびプログラム
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10586168B2 (en) 2015-10-08 2020-03-10 Facebook, Inc. Deep translations
US9990361B2 (en) * 2015-10-08 2018-06-05 Facebook, Inc. Language independent representations
IL242218B (en) * 2015-10-22 2020-11-30 Verint Systems Ltd A system and method for maintaining a dynamic dictionary
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11416555B2 (en) * 2017-03-21 2022-08-16 Nec Corporation Data structuring device, data structuring method, and program storage medium
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10902738B2 (en) * 2017-08-03 2021-01-26 Microsoft Technology Licensing, Llc Neural models for key phrase detection and question generation
CN109271502B (zh) * 2018-09-25 2020-08-07 武汉大学 一种基于自然语言处理的空间查询主题的归类方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999063456A1 (fr) * 1998-06-04 1999-12-09 Matsushita Electric Industrial Co., Ltd. Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
JP3768205B2 (ja) * 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP3956368B2 (ja) * 2003-10-16 2007-08-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析システム

Also Published As

Publication number Publication date
US20060015317A1 (en) 2006-01-19
JP2006031228A (ja) 2006-02-02

Similar Documents

Publication Publication Date Title
JP3998668B2 (ja) 形態素解析装置、方法及びプログラム
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
JP3986531B2 (ja) 形態素解析装置及び形態素解析プログラム
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
JP2003514304A5 (ja)
KR20140119763A (ko) 사용자 데이터 입력 예측
JP2020087353A (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
JP4266222B2 (ja) 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP3309174B2 (ja) 文字認識方法及び装置
JP3938234B2 (ja) 自然言語処理装置
JP6261669B2 (ja) クエリ校正システムおよび方法
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP2019144844A (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
WO2007088902A1 (ja) 文字処理装置、方法、プログラムおよび記録媒体
JP4113204B2 (ja) 機械翻訳装置、その方法およびプログラム
JP2010170252A (ja) 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム
JP2007018462A (ja) 機械翻訳装置、およびプログラム
Bellegarda Speech recognition experiments using multi-span statistical language models
JP5679346B2 (ja) 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
JP5795985B2 (ja) 形態素解析装置、形態素解析方法および形態素解析プログラム
JP2004280467A (ja) 翻訳装置、翻訳方法、及びそのプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070807

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3998668

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120817

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130817

Year of fee payment: 6