JPH09288673A

JPH09288673A - 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置

Info

Publication number: JPH09288673A
Application number: JP8101496A
Authority: JP
Inventors: Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-04-23
Filing date: 1996-04-23
Publication date: 1997-11-04
Anticipated expiration: 2016-04-23
Also published as: JP3777456B2

Abstract

(57)【要約】【課題】辞書に登録されていない単語が入力文に含ま
れている場合でも、確率が高い順番に入力文を構成する
単語列を提示可能とし、訓練テキスト集合における単語
仮説の頻度の期待値が大きい順番に任意の個数の単語仮
説を辞書未登録語として提示可能とする。【解決手段】本発明は、確率が高い順番に任意の個数
の形態素解析候補を求め、１つの文に対する複数の形態
素解析候補とその確率から単語の頻度の期待値を求め、
入力文が辞書未登録語であっても、確率が高い順番に形
態素解析候補が提示でき、提示された形態素候補をも用
いて、かつ、処理対象となる日本語テキストにおける辞
書未登録語を頻度の期待値が大きい順に提示する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、日本語文を単語に分割
する日本語形態素解析方法と装置及び辞書未登録語収集
方法と装置に係り、特に、分かち書きされた日本語テキ
ストデータベースから統計的手法により求めた単語分割
モデルと単語モデルを用いることにより、入力文が辞書
未登録語を含む場合でも精度のよい形態素解析が可能な
日本語形態素解析方法と装置及び、形態素解析結果に基
づいて辞書未登録語を収集するための辞書未登録語収集
方法と装置に関する。

【０００２】

【従来の技術】従来の第１の日本語形態素解析システム
は、文法規則と発見的探索に基づく方法が主流であっ
た。これらは、文法規則として品詞接続表を用い、形態
素解析候補の探索の際には、最長一致法や最小文節数法
などの発見的規則（heuristics）を用いて候補の順位付
けを行なう。しかし、発見的探索に基づく方式は、形態
素解析候補に与えられる優先順位の根拠が不明確であ
り、解析精度もあまり高くない。

【０００３】近年では、従来の第１の日本語形態素解析
システムに代わって、第２の方法として、統計的言語モ
デルと動的計画法に基づく方法が主流になりつつある。
この方法では、大量のテキストデータから学習した統計
的な言語モデルを用いることにより、形態素解析候補の
優先度の根拠が明確になり、かつ、候補の詳細な順位付
けができるようになってきている。

【０００４】また、動的計画法により、入力文の長さに
比例する計算量で効率的に最尤な形態素解析候補を求め
られるようになってきている。特に、前向きＤＰ後向き
Ａ^*アルゴリズムを用いれば、確率が高い順番に任意の
個数の形態素解析候補を求めることができる（永田「前
向きＤＰ後向きＡ^*アルゴリズムを用いた確率的日本語
形態素解析」情報処理学会研究報告94-NL-101-10,pp.73
-80,1994）。

【０００５】しかし、上記の文法規則と発見的探索に基
づく方法、および、統計的言語モデルと動的計画法に基
づく方法のいずれも、入力文が辞書未登録語、すなわ
ち、未知語を多く含む場合には、解析精度が大きく低下
するという問題点がある。文法規則と発見的探索に基づ
く方法における未知語処理は、非常に「場あたり的（ad
hoc）」である。多くのシステムは、「同じ字種の文字
の連続が単語を構成することが多い」、あるいは、「カ
タカナの連続は外来語の名詞であることが多い」という
ような文字種に関する発見的規則を用いて、単語の分割
および、品詞の付与を行なう方法（吉村・武内・津田・
首藤「未登録語を含む日本語文の形態素解析」情処論Vo
l.30 No.3,pp.294-301,1989)がとられている。あるい
は、付属語列などから文節を推定し、そこから付属語を
取り除いた部分列を未知語とみなす方法が使われている
ことも多い。

【０００６】前者は、未知語処理において、文字列の単
語らしさを評価する方法、後者は、ある文脈における文
字列の単語らしさを評価する方法とみなすことができる
が、どちらの場合も、尤度の根拠が不明確であり、単語
仮説の詳細な順位付けも難しい。

【０００７】統計的言語モデルを用いた未知語処理とし
ては、まず、造語単位の二つ組を用いて単語の生起確率
を推定する方法が提案されている（永井・日高「日本語
における単語の造語モデルとその評価」情処論Vol.34 N
o.9,pp.1944-1955,1993)。この方法では、単語辞書の見
出し語から造語モデルのパラメータを推定する。この方
法は、未知語の単語らしさを評価する有力な手段を与え
るが、次のような問題点がある。（１）漢字で表記される複合語に対する造語モデルであ
り、漢字文字列以外では、造語単位の設定基準が必ずし
も明確ではなく、自動的な処理が難しい。（２）辞書の見出し語からモデルパラメータを推定する
ので、モデルパラメータが対象領域のテキストの性質を
反映しない。（３）文字列の単語らしさを評価するだけて、その文字
列が現れた文脈（前後の文字列）の情報を使って、単語
としての尤もらしさを評価しているわけではない。

【０００８】この三つの問題を解決する方法として、品
詞出現確率・品詞別単語長確率・品詞別文字三つ組確率
から構成される単語モデルを用いて文字列の単語らしさ
に基づいて単語仮説を生成し、前向きＤＰ後向きＡ^*ア
ルゴリズムを用いて前後の文脈を考慮した上で最尤な単
語仮説を決定する方法が提案されている（永田「文字認
識誤り訂正のための頑健な日本語形態素解析法」，情報
処理学会自然言語処理の応用に関するシンポジウム，
p.17-24,1995) 。

【０００９】

【発明が解決しようとする課題】しかしなら、上記の三
つ組確率よりなる単語モデルにより単語仮説を生成し、
前向きＤＰ後向きＡ^*アルゴリズムを用いて最尤な単語
仮説を決定する方法には次のような問題点がある。（１）一つの文に対する単語分割に曖昧性がある場合、
互いに重なり合う単語仮説の尤もらしさを比較できな
い。また、異なる文に含まれている単語仮説の尤もらし
さを比較できない。（２）未知語の品詞推定を単語分割と同時に行なう方法
は、一つの文字列に対して複数の品詞候補を割り当てる
ので、形態素解析の計算量が大幅に増加する。このため
に処理速度が遅く、より精緻な単語モデルを導入したり
探索範囲を広げることにより解析精度を上げることが難
しい。

【００１０】本発明は、上記の点に鑑みなされたもの
で、（１）辞書に登録されていない入力文中の単語を正
しく同定できない、特に、未知語の品詞推定と単語分割
と同時に行なうために、計算量の制約から解析精度を向
上することが難しい、（２）同定された単語仮説の尤も
らしさを文内および文間で比較できない、という従来手
法の問題点を解決し、辞書に登録されていない単語が入
力文に含まれている場合でも、確率が高い順番に入力文
を構成する単語列が提示可能な日本語形態素解析方法及
び装置を提供することを目的する。

【００１１】また、本発明の更なる目的は、訓練テキス
ト集合における単語仮説の頻度の期待値が大きい順番に
任意の個数の単語仮説を辞書未登録語として提示できる
辞書未登録語収集方法及び装置を提供することである。

【００１２】

【課題を解決するための手段】図１は、本発明の原理を
説明するためのフローチャートである。本発明は、日本
語の形態素解析を行う日本語形態素解析方法及び辞書未
登録語収集方法において、日本語文が入力される（ステ
ップ１）と、単語２つ組確率から文を構成する単語列の
同時確率を与える単語分割モデルと、単語長確率と単語
内文字二つ組確率から単語を構成する文字列の同時確率
を与える単語モデルに基づいて、日本語文を構成する単
語列の候補を確率が高い順番に任意の個数求め（ステッ
プ２）、文を構成する単語列の候補を単語列の同時確率
が高い順番に任意の個数提示する（ステップ３）。

【００１３】また、上記の日本語形態素解析方法に続い
て、日本語形態素解析方法により提示された形態素解析
候補を用いて、一つの文に対する複数の形態素解析候補
と該形態素解析候補の確率から、単語の頻度の期待値を
求め（ステップ４）、日本語テキストにおける単語仮説
の頻度の期待値が大きい順番に任意の個数の単語仮説を
辞書未登録語として提示する（ステップ５）。

【００１４】また、上記のステップ２において、単語列
の候補を求める際に、辞書に登録されていない入力文中
の単語に対して単語モデルに基づいて単語仮説を生成す
る。図２は、本発明の原理構成図である。本発明は、日
本語テキストを入力として与えられた際に、入力文を構
成する単語列を出力する出力手段を有する日本語形態素
解析装置１００であって、単語二つ組確率から文を構成
する単語列の同時確率を与える単語分割モデル１３０
と、単語長確率と単語内文字二つ組確率から単語を構成
する文字列の同時確率を与える単語モデル１４０と、単
語分割モデル１３０および単語モデル１４０に基づいて
単語列の同時確率を最大化する単語列を求める形態素解
析手段１１０とを有する。

【００１５】また、上記の日本語形態素解析装置１００
は、辞書に登録されていない入力文中の単語に対して単
語モデル１４０に基づいて、単語仮説を生成する単語仮
説生成手段１２０を含み、出力手段は、単語列の同時確
率が高い順番に任意の個数の形態素解析候補を提示する
形態素解析候補提示手段１５０を含む。

【００１６】また、上記の形態素解析手段１１０は、入
力文のある文字位置から始まる全ての部分文字列を、辞
書の単語表記と照合し、単語候補として提案し、文頭か
らある単語に至るまでの単語列の同時確率を最大化する
最適部分経路の確率を、最後の単語が異なる場合ごとに
計算する前向きＤＰ探索手段と、前向きＤＰ探索手段と
計算結果を記録する最適経路スコアテーブルと、前向き
ＤＰ探索手段において、入力文のある文字位置から始ま
る部分文字列が辞書の内容と照合しなかった場合、その
部分文字列が単語を構成すると仮定した場合の単語出現
確率を求める単語仮説生成手段と、前向きＤＰ探索手段
で計算された最適経路スコアテーブルの値をを入力と
し、文末から文頭へ一単語ずつ進むＡ^*アルゴリズムを
用いて、単語二つ組確率の最も大きいものから順番に一
つずつ形態素解析候補を求める後向きＡ^*探索手段とを
含む。

【００１７】また、本発明は、入力文に含まれる単語の
中で辞書に登録されていないものを出力する未登録語収
集装置２００であって、前述の日本語形態素解析装置の
形態素解析候補提示手段１５０により出力された一つの
文に対する複数の形態素解析候補とその確率から単語の
頻度の期待値を求める単語頻度推定手段２１０を有す
る。

【００１８】また、上記の単語頻度推定手段２１０は、
後向きＡ^*探索手段が出力した形態素解析候補中、上位
Ｎ個（Ｎは任意の整数）の形態素解析候補を入力とし、
単語仮説の頻度の期待値を求め、該頻度の期待値が大き
い順番に任意の個数の単語仮説を辞書未登録語として出
力する。

【００１９】本発明にかかる日本語形態素解析装置は、
単語二つ組確率から構成される単語分割モデル、単語長
確率と単語内文字二つ組確率から構成される単語モデ
ル、確率が高い順番に任意の個数の形態素解析候補を求
める形態素解析手段、１つの文に対する複数の形態素解
析候補とその確率から単語の頻度の期待値を求める単語
頻度推定手段を用いて、入力文が辞書に登録されていな
い単語を含む場合でも、確率が高い順番に形態素解析候
補を提示できするとおが可能となる。

【００２０】さらに、提示された形態素解析候補を用い
て、かつ、処理対象となる日本語テキストにおける辞書
未登録語を頻度の期待値が大きい順に提示可能な辞書未
登録語収集装置が提供可能となる。従って、このような
構成により、（１）辞書に登録されていない入力文中の
単語を正しく同定し、（２）同定された単語を最も尤も
らしい順に提示する、日本語形態素解析装置および辞書
未登録語収集装置が実現できる。

【００２１】

【発明の実施の形態】図３は、本発明のシステム構成図
である。同図に示す日本語形態素解析装置１００と当該
日本語形態素解析装置１００（以下、形態素解析装置と
記す）を含む辞書未登録語収集装置２００から構成され
る。

【００２２】形態素解析装置１００は、形態素解析部１
１０、単語二つ組確率テーブルを有する単語分割モデル
１３０、単語長確率テーブル１４１と単語内文字二つ組
確率テーブル１４２を有する単語モデル１４０、形態素
解析部１１０の解析結果を格納する形態素解析候補テー
ブル１５０及び単語テーブル１６０より構成される。ま
た、辞書未登録語収集装置２００は、上記の形態素解析
装置１００に、単語頻度推定部２１０を加えた構成であ
る。

【００２３】上記の構成の形態素装置の詳細を図４に示
す。図４は、この発明の一実施例の概略ブロック図であ
る。本発明の日本語形態素解析装置は、前向きＤＰ探索
部１１１、最適経路スコアテーブル１１４、後向きＡ^*
探索部１１３、形態素解析候補テーブル１１５、単語仮
説生成部１１２、単語長確率テーブル１４１、単語内文
字二つ組確率テーブル１４２、単語二つ組確率テーブル
１３０、単語テーブル１６０より構成される。

【００２４】前向きＤＰ探索部１１１は、入力文の文頭
から文末へ一文字ずつ進む動的計画法（Dynamic Progra
mming)を用いて、単語列の同時確率、すなわち、単語二
つ組確率の積を最大化するような、入力文の単語分割を
求める。単語二つ組確率テーブル１３０は、単語二つ組
確率を格納し、単語テーブル１６０は単語辞書を格納す
る。

【００２５】前向きＤＰ探索部１１１は、入力文のある
文字位置から始まる全ての部分文字列を、単語テーブル
１６０の単語表記と照合し、単語候補として提案する。
そして、文頭からある単語に至るまでの単語列の同時確
率を最大化する最適部分経路（単語列）の確率を、最後
の単語が異なる場合毎に計算し、最適経路スコアテーブ
ル１１４に記録する。

【００２６】単語仮説生成部１１２は、前向きＤＰ探索
部１１１において、入力文のある文字位置から始まる部
分文字列が単語テーブル１６０と照合しなかった場合、
その部分文字列が単語を構成すると仮定した場合の単語
出現確率を求める。単語出現確率は、単語長確率テーブ
ル７、単語内文字二つ組確率テーブル１４２の値を用い
て計算される。単語仮説生成部１１２が生成した単語の
表記と出現確率の組を単語仮説と呼ぶ。

【００２７】後向きＡ^*探索部１１３は、前向きＤＰ探
索部１１１で計算された最適経路スコアテーブル１１４
を入力とし、文末から文頭へ一単語ずつ進むＡ^*アルゴ
リズムを用いて、単語二つ組確率の最も大きいものから
順番に一つずつ形態素解析候補を求める。

【００２８】辞書未登録語収集装置２００の単語頻度推
定部２１０は、後向きＡ^*探索部１１３が形態素解析候
補テーブル１１５に格納した上位Ｎ個（Ｎは任意の整
数）の形態素解析候補を入力とし、単語仮説の頻度の期
待値とする。そして、頻度の期待値が大きい順番に任意
の個数の単語仮説を、辞書未登録語として出力する。

【００２９】以下では、単語分解モデル１４０、単語モ
デル１３、前向きＤＰ探索部１１１による前向きＤＰ探
索、後向きＡ^*探索部１１３による後向きＡ^*探索、辞
書未登録語収集装置２００の単語頻度推定部２１０によ
る単語頻度推定の順に説明する。

【００３０】（１）単語分割モデル文字列Ｃ＝ｃ₁ｃ₂・・・ｃ_mから構成される入力文
が、単語列Ｗ＝₁ｗ₂・・・ｗ_nに分割されるとする。
形態素解析は、文字列が与えられた時の単語列の同時確
率Ｐ（Ｗ｜Ｃ）を最大化する単語列Ｗ’を求める問題で
ある。文字列Ｃはすべての形態素解析候補に共通なの
で、実際にはＰ（Ｗ）を最大化するものを求めればよ
い。

【００３１】

【数１】

【００３２】本発明では同時確率Ｐ（Ｗ）をマルコフモ
デルで近似する。すなわち、単語二つ組確率Ｐ（ｗ_i｜
ｗ_i-1）を用いて次式で表す。

【００３３】

【数２】

【００３４】図５に、単語二つ組頻度の例として、「言
語」という単語とこれに後続する単語の二つの組の出現
頻度を示す。単語二つ組確率Ｐ（ｗ_i｜ｗ_i-1）は、単
語二つ組頻度を先行する単語の出現頻度で割ることによ
り得られる。例えば、訓練テキスト集合における「言
語」の出現頻度が５６１で、「言語」および「が」の二
つ組の出現頻度が２２ならば、Ｐ（が｜言語）＝２２／
５６１＝０．０３９である。

【００３５】（２）単語モデル単語モデルは、辞書未登録語を構成する文字列の同時確
率分布として定義される。未知語（辞書未登録語）を
〈ＵＮＫ〉で表すことにすると、単語モデルは、一般性
を失うことなく、以下のような単語長確率Ｐ（ｋ）と単
語表記確率Ｐ（ｃ ₁・・・ｃ_k｜ｋ）の積に分解でき
る。

【００３６】Ｐ（ｗ_i｜〈ＵＮＫ〉）＝Ｐ（ｃ₁・・・ｃ_k｜〈ＵＮＫ〉）＝Ｐ（ｋ）Ｐ（ｃ₁・・・ｃ_k｜ｋ）（３）ここでｃ₁・・・ｃ_kは、単語を構成する長さｋの文字
列である。

【００３７】本発明では、未知語の単語長の分布Ｐ
（ｋ）が訓練集合中の単語の平均文字長λをパラメータ
とするポワソン分布に従うと仮定する。

【００３８】

【数３】

【００３９】上式は、隠れた（長さゼロ）の単語境界標
識の間の距離を単語の長さと考え、この単語境界標識が
平均的には平均単語長と等しい間隔で無作為に文中に置
かれるものとみなしている。次に、単語長が与えられた
時の未知語の表記の確率Ｐ（ｃ₁・・・ｃ_k｜ｋ，Ｔ）
は、以下のように、訓練集合中の単語内文字二つ組確率
の積で近似する。

【００４０】

【数４】

【００４１】ここで“＃”は、単語の先頭および末尾を
表す特別な記号である。図６に、単語内文字二つ組頻度
の例として、「永」という文字とこれに後続する文字の
二つ組の頻度を示す。単語内文字二つ組確率Ｐ（ｃ_i｜
ｃ_i-2）は、単語内文字二つ組頻度を先行する文字の出
現頻度で割ることにより得られる。例えば、訓練テキス
ト集合において、「永」という文字の出現頻度が３３４
で、「永」および「ら」の単語内文字二つ組の出現頻度
が８ならば、Ｐ（ら／永）＝８／３３４＝０．０２４で
ある。

【００４２】入力文が未知語を含む場合でも、式（３）
の単語モデルを用いることにより、式（２）の単語分割
モデルのパラメータは次式のようにして求めることがで
きる。

【００４３】

【数５】

【００４４】ここでＣ（・）は、対応する事象の訓練集
合における頻度を表す。ｗ_iが未知語である場合の単語
二つ組頻度Ｃ（ｗ_i-1，ｗ_i）は、訓練集合においてｗ
_i-1の後に未知語が現れる頻度Ｃ（ｗ_i-1，〈ＵＮ
Ｋ〉）と表記がｗ_iであるような未知語の出現確率Ｐ
（ｗ_i｜〈ＵＮＫ〉）の積で近似する。なお、未知語を
含む単語二つ組頻度Ｃ（ｗ_i-1，〈ＵＮＫ〉）は、訓練
集合の中で一回しか現れなかった単語を未知語とみなす
ことにより求める。

【００４５】（３）前向きＤＰ探索前向きＤＰ探索部１１１が、最適経路スコアテーブルを
計算する手順を示す。入力文を長さｎの文字列Ｃ＝ｃ₁
ｃ₂・・・ｃ_nとし、部分文字列ｃ_p+1・・・ｃ_qをｃ
_p ^qで表す。まず、任意の部分文字列ｃ_p ^qを単語候補
の集合｛ｗ_i｝に写像する関数Ｄを考える。関数Ｄは辞
書を一般化したものである。関数Ｄは、もしｃ_p ^qと照
合する表記をもつ単語が辞書中にあればそれを返す。も
し照合しなければ、単語モデルを用いてｃ_p ^qを表記と
する単語仮説を作成する。

【００４６】次に、部分文字列ｃ_p ^qが最後の単語ｗ_i
であるような、部分文字列ｃ₀ ^qの最尤な単語分割の確
率（最適経路確率）φ_p ^q（ｗ_i）を考える。最適経路
確率φ_p ^q（ｗ_i）は、次式を用いて文頭から順番に計
算することができる。

【００４７】

【数６】

【００４８】前向きＤＰ探索部１１１における式（７）
の計算は、図７のようなフローチャートで表せる。以下
では、この図７に従って、前向きＤＰ探索部１１１の動
作を説明する。前向きＤＰ探索は、入力文の先頭から始
まり、文末方向へ一文字ずつ進む。

【００４９】ステップ１０１）探索の開始位置を入力
文の先頭に設定する。ステップ１０２）探索が文末に達したかを判断する。
もし、文末に達していれば、前向き探索を終了する。そ
うでなければ、以下の処理を各文字位置で行なう。

【００５０】ステップ１０３）現在の文字位置に到達
する全ての部分解析を最適経路スコアテーブル１１４か
ら検索し、その中の一つを現在の部分解析として選ぶ。ステップ１０４）全ての部分解析を調べたかを判定す
る。もしそうならば、ステップ１２２において探索を次
の文字位置へ進める。そうでなければ、以下の処理を各
部分解析について行なう。

【００５１】ステップ１０５）現在の文字位置から始
まる最左部分文字列と照合する全ての単語候補を単語テ
ーブル１６０から検索する。また、照合しない時は、単
語モデル１４０を用いて単語仮説を作成する。そして、
その中の一つを現在の単語として選ぶ。

【００５２】ステップ１０６）全ての単語を調べたか
を判定する。もしそうならば、ステップ１１１に移行
し、次の部分解析を選ぶ。そうでなければ、以下の処理
を各単語について行なう。ステップ１０７）現在の単語とその直前の単語から構
成される単語二つ組確率を単語二つ組テーブル１３０か
ら検索するステップ１０８）単語二つ組確率がゼロかどうかを判
定する。もし単語二つ組確率が０ならば、ステップ１１
０において次の単語を選ぶ。もしそうでなければ、以下
の処理を行なう。

【００５３】ステップ１０９）まず、現在の部分解析
の末尾に現在の単語を付け加えた新しい部分解析を作成
する。新しい部分解析の（文頭から現在の単語の末尾ま
での）最適経路スコアは、現在の部分解析の最適経路ス
コアと単語二つ組確率の積である。次に、最適経路スコ
アテーブル１１４から、この新しい部分解析の最後の単
語と同じ単語を最後に持つ部分解析を検索する。もしこ
のような部分解析が存在しないか、あるいは、既に存在
する部分解析よりも新しい部分解析のスコアが良けれ
ば、新しい部分解析を最適経路スコアテーブル１１４に
登録する。

【００５４】ステップ１１０）次の単語を選び、ステ
ップ１０６へ戻る。ステップ１１１）次の部分解析を選び、ステップ１０
４へ戻る。ステップ１１２）探索を次の文字位置へ進め、ステッ
プ１０２へ戻る。（４）後向きＡ^*探索後向きＡ^*探索部１１３が、確率が高い順番に一つずつ
形態素解析候補を求める手順を示す。本発明の後向きＡ
^*探索では、前向きＤＰ探索により求めた、文頭からあ
る単語までの部分解析を、Ａ^*アルゴリズムにおけるグ
ラフのノードと考える。そして、コストとしては、確率
の対数の絶対値を用いる。これにより、確率最大の解は
コスト最小の解に対応し、確率の積はコストの和に対応
する。

【００５５】一般に、Ａ^*探索では、ヒューリスティッ
ク関数ｆ（ｎ）を考える。ヒューリスティック関数ｆ
（ｎ）は、現在のノードｎを生成した経路に沿って、初
期状態から最終状態へ至るまでのコストの推定値を与え
る。初期状態から現在のノードへ至るまでのコストを与
える関数をｇ（ｎ）、現在のノードから最終状態へ至る
までのコストの推定値を与える関数をｈ（ｎ）とする
と、ヒューリスティック関数ｆ（ｎ）は次式により与え
られる。

【００５６】ｆ（ｎ）＝ｇ（ｎ）＋ｈ（ｎ）（８）本発明の後向き探索では、関数ｇとして、文末から現在
の単語に至るまでの単語二つ組確率の積の対数の絶対値
を用いる。また、関数ｈとしては、前向き探索で求め
た、文頭から現在の単語に至るまでの単語二つ組確率の
積の最大値の対数の絶対値を用いる。

【００５７】Ａ^*探索では、ｏｐｅｎとｃｌｏｓｅとい
う二つのリストを用いる。リストｏｐｅｎは、既に生成
され、ヒューリスティック関数が適用されているが、ま
だ展開されて（調べられて）いないノードの集合であ
る。このリストは、ヒューリスティック関数の値に基づ
く優先度付きキューになっている。リストｃｌｏｓｅ
は、既に展開された（調べられた）ノードの集合であ
る。

【００５８】Ａ^*探索では、目標状態に対応するノード
を生成するまで、各ステップで一つのノードを展開す
る。各ステップでは、既に生成されているが、まだ展開
されていない、最も有望なノードを展開する。すなわ
ち、選ばれたノードの後続のノードを生成し、ヒューリ
スティック関数を適用し、既に生成されていないかを検
査した後にリストｏｐｅｎに加える。この検査によっ
て、各ノードはグラフの中に一回だけ現れることが保証
される。また、二つ以上の経路が同じノードを生成する
時は、スコアの良い方だけを記録する。

【００５９】本発明の後向き探索では、あるノードから
後続するノードへの遷移のコストとして、単語二つ組確
率の対数の絶対値を用いる。図８、図９は、本発明の後
向きＡ^*探索部の動作を説明するためのフローチャート
である。

【００６０】以下では、この図８、図９に従って、後向
きＡ^*探索部１１３の動作を説明する。ステップ２０１）文末に到達した部分解析に対応する
ノードのリストをｏｐｎｅに代入する。また、ｃｌｏｓ
ｅｄには空リストを代入する。

【００６１】ステップ２０２）ｏｐｅｎが空リストか
どうかを調べる。もしそうならば、解が見つからなかっ
たので探索が失敗したことを通知して探索を終了する。
そうでなければ、以下の処理を行なう。ステップ２０３）ｏｐｅｎの先頭要素を取り出して変
数ｂｅｓｔｐａｔｈに代入する。

【００６２】ステップ２０４）そして、探索が文頭に
達したかを調べる。もし、探索が文頭に達していれば、
ｂｅｓｔｐａｔｈが最適解であり、探索が成功したこと
を通知して探索を終了する。そうでなければ、以下の処
理を行なう。また、探索は成功したが、さらにその次に
確率が高い解を求めたい場合には、以下の処理を行な
う。

【００６３】ステップ２０５）ｂｅｓｔｐａｔｈをリ
ストｃｌｏｓｅｄへ挿入し、ｃｌｏｓｅｄの要素を初期
状態から最終状態までのコストの推定値ｆ（ｎ）の順に
ソートする。ステップ２０６）ｂｅｓｔｐａｔｈが表す部分解析の
左側に連接する全ての部分解析を最適部分経路スコアテ
ーブルから検索し、その中の一つを現在の部分解析とす
る。

【００６４】ステップ２０７）全ての部分解析を調べ
たかどうかを判定する。もしそうであれば、ステップ２
０２へ進む。そうでなければ以下の処理を行なう。ステップ２０８）ｂｅｓｔｐａｔｈから現在の部分解
析へ遷移する経路を表す新しいノードを作成し、これを
変数ｎｅｗｐａｔｈに代入する。文末からこのノードま
でのコストｇ（ｎｅｗｐａｔｈ）は、文末からｂｅｓｔ
ｐａｔｈへ至るまでのコストｇ（ｂｅｓｔｐａｔｈ）
と、ｂｅｓｔｐａｔｈからｎｅｗｐａｔｈへの遷移のコ
ストの和となる。また、このノードのヒューリスティッ
ク関数ｆ（ｎｅｗｐａｔｈ）は、文末からこのノードま
でのコストｇ（ｎｅｗｐａｔｈ）と、前向き探索で求め
た文頭からこのノードまでの最適コストｈ（ｎｅｗｐａ
ｔｈ）の和となる。

【００６５】ステップ２０９）現在の部分解析への遷
移を表すノードがｏｐｅｎに含まれているかどうかを検
査する。もし含まれていなければ、ステップ２１３へ進
む。含まれていれば、以下の処理を行なう。ステップ２１０）現在の部分解析への遷移を表すｏｐ
ｅｎの中のノードを変数ｏｌｄｐａｔｈに代入する。

【００６６】ステップ２１１）ｎｅｗｐａｔｈのコス
トｆ（ｎｅｗｐａｔｈ）とｏｌｄｐａｔｈのコストｆ
（ｏｌｄｐａｔｈ）を比較する。もし、ｎｅｗｐａｔｈ
のコストの方が大きければ、何もせずにステップ２１８
へ進む。ステップ２１２）もし、ｎｅｗｐａｔｈのコストの方
が小さければ、ｏｐｅｎからｏｌｄｐａｔｈを削除し、
ｎｅｗｐａｔｈをｏｐｅｎへ挿入した後にコストの順に
ソートする。そしてステップ２１８へ進む。

【００６７】ステップ２１３）現在の部分解析への遷
移を表すノードがｃｌｏｓｅｄに含まれているかどうか
を検査する。もし含まれていなければ、ステップ２１７
へ進む。含まれていれば、以下の処理を行なう。ステップ２１４）現在の部分解析への遷移を表すｃｌ
ｏｓｅｄの中のｐａｔｈ構造を変数ｏｌｄｐａｔｈに代
入する。

【００６８】ステップ２１５）ｎｅｗｐａｔｈのコス
トｆ（ｎｅｗｐａｔｈ）とｏｌｄｐａｔｈのコストｆ
（ｏｌｄｐａｔｈ）を比較する。もし、ｎｅｗｐａｔｈ
のコストの方が大きければ、何もせずにステップ２１８
へ進む。ステップ２１６）もし、ｎｅｗｐａｔｈのコストの方
が小さければ、ｃｌｏｓｅｄからｏｌｄｐａｔｈを削除
し、ｎｅａｐａｔｈをｃｌｏｓｅｄへ挿入した後にコス
トの順にソートする。そしてステップ２１８へ進む。

【００６９】ステップ２１７）ｎｅｗｐａｔｈをｏｐ
ｅｎへ挿入した後にコストの順にソートする。そしてス
テップ２１８へ進む。ステップ２１８）次の部分解析を選ぶ。（５）単語頻度推定辞書未登録語収集装置２００の単語頻度推定部２１０が
入力文に含まれる単語の頻度の期待値を求め、頻度の期
待値が大きい順番に辞書未登録語を出力する手順を示
す。

【００７０】前向きＤＰ探索に続いて後向きＡ^*探索を
行なえば、入力文に対する形態素解析候補を確率が高い
順番に任意の個数だけ得ることができる。ここで、訓練
テキストの集合の第ｉ番目の文の第ｊ番目の形態素解析
候補をＯ_j ⁱとする。形態素解析候補の確率Ｐ
（Ｏ_j ⁱ）は単語分割モデルと単語モデルから求められ
る。本発明では、第ｉ番目の文における単語ｗαの頻度
の期待値Ｃⁱ（ｗα）は次式により計算する。

【００７１】

【数７】

【００７２】ここでｎ_j ⁱ（ｗα）は、第ｉ番目の文の
第ｊ番目の形態素解析候補に単語ｗαが出現した回数を
表す。

【００７３】

【数８】

【００７４】

【実施例】以下に本発明の実施例を図面と共に説明す
る。以下の実施例では、第１の実施例として、日本語形
態素解析装置を説明し、第２の実施例として辞書未登録
語収集装置を説明する。

【００７５】［第１の実施例］図１０は、本発明の第１
の実施例の形態素解析候補の例を示す。この例では、入
力文「キャノンゼロワンショップ横須賀からパワーマッ
クを買う。」に対する上位３個の形態素解析候補が示さ
れている。各形態素解析候補には、その対数確率が示さ
れており、この値が大きいほど尤もらしい。

【００７６】この例では「キヤノンゼロワンショップ横
須賀」という文字列の単語分割に際して、本発明の日本
語形態素解析装置は、第１候補では、「キヤノン」「ゼ
ロワンショップ」「横須賀」第２候補では、「キヤノ
ン」「ゼロワン」「ショップ」「横須賀」第３候補で
は、「キヤノン」「ゼロ」「ワン」「ショップ」「横須
賀」という単語分割を提示している。この中で「ゼロワ
ンショップ」と「ゼロワン」は辞書には登録されておら
ず、未知語として提示されている。また、「パワーマッ
ク」という文字列も辞書には登録されていないので、未
知語として提示されている。

【００７７】このように本実施例によれば、入力文が辞
書に登録されていない単語を含む場合でも、確率が高い
順番に任意の個数の形態素解析候補を提示できる。［第２の実施例］本発明の辞書未登録語収集装置２００
では、訓練テキスト集合における単語の頻度の期待値
を、入力文中の任意の部分文字列が単語を構成している
かどうかに関する確からしさの尺度として用いる。ここ
で、単語仮説を単語とみなすかどうかの閾値をθとす
る。本発明では、単語仮説の中で、その頻度の期待値が
閾値θよりも大きいものを辞書未登録語として収集す
る。

【００７８】

【数９】

【００７９】最後に、本発明における単語頻度推定部２
１０の単語の頻度の期待値の計算手段を簡単な例を用い
て示す。入力テキストが５つの文字から構成される文字
列「言語学入門」であり、その上位３個の形態素解析候
補が図９に示すように「言語学／入門」「言／語学／入
門」「言語／学／入門」であるとする。図１１の左端の
数字は形態素解析候補の相対確率であり、式（９）の

【００８０】

【数１０】

【００８１】に相当する。式（９）に従って、第ｊ番目
の形態素解析候補における単語ｗαの出現回数ｎ
_j ⁱ（ｗα）に、第ｊ番目の形態素解析候補の相対確率

【００８２】

【数１１】

【００８３】を掛けた値を全ての形態素解析候補に関し
て加えると、各単語候補の頻度の期待値は以下のように
なる。Ｃ（入門）＝０．７＋０．２＋０．１＝１．０Ｃ（言語学）＝０．７Ｃ（言語）＝Ｃ（学）＝０．２Ｃ（言）＝Ｃ（語学）＝０．１仮に、単語と同定するための頻度の期待値の閾値θを
０．１５に設定したとする。もし仮に、「入門」「言語
学」「言語」「学」「言」「語学」の全ての文字列が辞
書に登録されていないのであれば、本発明の方法では、
「入門」「言語学」「言語」「学」の４つを辞書未登録
語として提示する。

【００８４】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。

【００８５】

【発明の効果】上述のように、本発明の日本語形態素解
析装置によれば、単語二つ組から構成される単語分割モ
デル、単語長確率と単語内文字二つ組確率から構成され
る単語モデル、動的計画法を用いた前向き探索とＡ^*ア
ルゴリズムを用いた後ろ向き探索により、単語列の同時
確率が高い順番に任意の個数の形態素解析候補を提示す
る形態素解析処理により、辞書に登録されていない単語
が入力文に含まれている場合でも確率が高い順番に入力
文を構成する単語列を提示することが可能となる。

【００８６】また、本発明の辞書未登録語収集装置によ
れば、複数の形態素解析候補とその確率から単語の頻度
で期待値を求める単語頻度推定処理により、訓練テキス
ト集合における単語仮説の頻度の期待が大きい順番に任
意の個数の単語仮説を辞書未登録語として提示すること
が可能となる。

【図面の簡単な説明】

【図１】本発明の原理を説明するためのフローチャート
である。

【図２】本発明の原理構成図である。

【図３】本発明のシステム構成図である。

【図４】本発明の日本語形態素解析装置及び辞書未登録
語収集装置の構成図である。

【図５】本発明の単語二つ組頻度の例である。

【図６】本発明の単語内文字二つ組頻度の例である。

【図７】本発明の前向きＤＰ探索を示すフローチャート
である。

【図８】本発明の後ろ向きＡ^*探索を示すフローチャー
ト（その１）である。

【図９】本発明の後ろ向きＡ^*探索を示すフローチャー
ト（その２）である。

【図１０】本発明の第１の実施例の形態素解析候補の例
である。

【図１１】本発明の第２の実施例の単語頻度期待値計算
の例である。

【符号の説明】

１００日本語形態素解析装置１１０形態素解析手段１１１前向きＤＰ探索部１１２単語仮説生成部１１３後ろ向きＡ^*探索部１１４最適経路スコアテーブル１１５形態素解析候補テーブル１２０単語仮説生成手段１３０単語分割モデル１４０単語モデル１４１単語長確率テーブル１４２単語内文字二つ組確率テーブル１５０形態素解析候補提示手段、形態素解析候補テー
ブル１６０単語テーブル（単語辞書）２００辞書未登録語収集装置２１０単語推定手段

Claims

【特許請求の範囲】

【請求項１】日本語の形態素解析を行う日本語形態素
解析方法において、日本語文が入力されると、単語２つ組確率から文を構成する単語列の同時確率を与
える単語分割モデルと、単語長確率と単語内文字二つ組
確率から単語を構成する文字列の同時確率を与える単語
モデルに基づいて、前記日本語文を構成する単語列の候
補を、確率が高い順番に任意の個数求め、文を構成する単語列の候補を単語列の同時確率が高い順
番に任意の個数提示することを特徴とする日本語形態素
解析方法。
【請求項２】前記単語列の候補を求める際に、辞書に登録されていない入力文中の単語に対して単語モ
デルに基づいて単語仮説を生成する請求項１記載の日本
語形態素解析方法。
【請求項３】日本語の形態素解析結果に基づいて辞書
未登録語を収集する辞書未登録語収集方法において、日本語文が入力されると、単語２つ組確率から文を構成する単語列の同時確率を与
える単語分割モデルと、単語長確率と単語内文字二つ組
確率から単語を構成する文字列の同時確率を与える単語
モデルに基づいて、前記日本語文を構成する単語列の候
補を確率が高い順番に任意の個数求め、文を構成する単語列の候補を単語列の同時確率が高い順
番に任意の個数提示し、提示された前記形態素解析候補を用いて、一つの文に対
する複数の形態素解析候補と該形態素解析候補の確率か
ら、単語の頻度の期待値を求め、日本語テキストにおける単語仮説の頻度の期待値が大き
い順番に任意の個数の単語仮説を辞書未登録語として提
示することを特徴とする辞書未登録語収集方法。
【請求項４】前記単語列の候補を求める際に、辞書に登録されていない入力文中の単語に対して単語モ
デルに基づいて単語仮説を生成する請求項３記載の辞書
未登録御収集方法。
【請求項５】日本語テキストを入力として与えられた
際に、入力文を構成する単語列を出力する出力手段を有
する日本語形態素解析装置であって、単語二つ組確率から文を構成する単語列の同時確率を与
える単語分割モデルと、単語長確率と単語内文字二つ組確率から単語を構成する
文字列の同時確率を与える単語モデルと、前記単語分割モデルおよび前記単語モデルに基づいて単
語列の同時確率を最大化する単語列を求める形態素解析
手段とを有することを特徴とする日本語形態素解析装
置。
【請求項６】辞書に登録されていない入力文中の単語
に対して前記単語モデルに基づいて、単語仮説を生成す
る単語仮説生成手段を更に有し、前記出力手段は、単語列の同時確率が高い順番に任意の個数の形態素解析
候補を提示する形態素解析候補提示手段を含む請求項５
記載の日本語形態素解析装置。
【請求項７】前記形態素解析手段は、入力文のある文字位置から始まる全ての部分文字列を、
前記辞書の単語表記と照合し、単語候補として提案し、
文頭からある単語に至るまでの単語列の同時確率を最大
化する最適部分経路の確率を、最後の単語が異なる場合
ごとに計算する前向きＤＰ探索手段と、前記前向きＤＰ探索手段と計算結果を記録する最適経路
スコアテーブルと、前記前向きＤＰ探索手段において、前記入力文のある文
字位置から始まる部分文字列が前記辞書の内容と照合し
なかった場合、その部分文字列が単語を構成すると仮定
した場合の単語出現確率を求める単語仮説生成手段と、前記前向きＤＰ探索手段で計算された前記最適経路スコ
アテーブルの値をを入力とし、文末から文頭へ一単語ず
つ進むＡ^*アルゴリズムを用いて、単語二つ組確率の最
も大きいものから順番に一つずつ形態素解析候補を求め
る後向きＡ^*探索手段とを含む請求項５記載の日本語形
態素解析装置。
【請求項８】入力文に含まれる単語の中で辞書に登録
されていないものを出力する辞書未登録語収集装置であ
って、単語二つ組確率から文を構成する単語列の同時確率を与
える単語分割モデルと、単語長確率と単語内文字二つ組確率から単語を構成する
文字列の同時確率を与える単語モデルと、前記単語分割モデルおよび前記単語モデルに基づいて単
語列の同時確率を最大化する単語列を求める形態素解析
手段と、前記形態素解析手段により求められた一つの文に対する
複数の形態素解析候補とその確率から単語の頻度の期待
値を求める単語頻度推定手段とを有することを特徴とす
る辞書未登録語収集装置。
【請求項９】前記形態素解析手段は、入力文のある文字位置から始まる全ての部分文字列を、
前記辞書の単語表記と照合し、単語候補として提案し、
文頭からある単語に至るまでの単語列の同時確率を最大
化する最適部分経路の確率を、最後の単語が異なる場合
ごとに計算する前向きＤＰ探索手段と、前記前向きＤＰ探索手段と計算結果を記録する最適経路
スコアテーブルと、前記前向きＤＰ探索手段において、前記入力文のある文
字位置から始まる部分文字列が前記辞書の内容と照合し
なかった場合、その部分文字列が単語を構成すると仮定
した場合の単語出現確率を求める単語仮説生成手段と、前記前向きＤＰ探索手段で計算された前記最適経路スコ
アテーブルの値をを入力とし、文末から文頭へ一単語ず
つ進むＡ^*アルゴリズムを用いて、単語二つ組確率の最
も大きいものから順番に一つずつ形態素解析候補を求め
る後向きＡ^*探索手段とを含む請求項８記載の辞書未登
録語収集装置。
【請求項１０】前記単語頻度推定手段は、後向きＡ^*探索手段が出力した形態素解析候補中、上位
Ｎ個（Ｎは任意の整数）の形態素解析候補を入力とし、
単語仮説の頻度の期待値を求め、該頻度の期待値が大き
い順番に任意の個数の単語仮説を辞書未登録語として出
力する請求項８記載の辞書未登録語収集装置。