JP2003099087A - 自然言語処理のための解析用辞書作成装置および方法、ならびにプログラム - Google Patents

自然言語処理のための解析用辞書作成装置および方法、ならびにプログラム

Info

Publication number
JP2003099087A
JP2003099087A JP2001291858A JP2001291858A JP2003099087A JP 2003099087 A JP2003099087 A JP 2003099087A JP 2001291858 A JP2001291858 A JP 2001291858A JP 2001291858 A JP2001291858 A JP 2001291858A JP 2003099087 A JP2003099087 A JP 2003099087A
Authority
JP
Japan
Prior art keywords
class
word
connection
attribute
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001291858A
Other languages
English (en)
Inventor
Makoto Hirota
誠 廣田
Hideo Kuboyama
英生 久保山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001291858A priority Critical patent/JP2003099087A/ja
Publication of JP2003099087A publication Critical patent/JP2003099087A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 なるべく解析精度を落とさずに、形態素解析
処理に用いる辞書のサイズを小さくし、もって小型機器
への実装を可能にすること。 【解決手段】 単語データベースにおける各単語を、そ
の単語に付与されている文法情報および接続属性に基づ
きクラス分類を行い、クラステーブルを参照すること
で、各単語に付与されたクラスIDに対応する品詞等の情
報を取り出す。解析用辞書は品詞、活用型といった文法
情報や各種属性情報を明示的に持つ必要はない。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日本語文を単語に
分割し、各単語に品詞や読みを付与する自然言語処理の
ための解析用辞書作成装置および方法、ならびにプログ
ラムに関する。
【0002】
【従来の技術】近年、情報機器の形態が多様化し、パー
ソナルコンピュータやワークステーションのみならず、
PDA、カーナビゲーションシステム、携帯電話等、さま
ざまな情報機器が「コンピュータ」としての性格を強
め、ユーザの情報処理支援の役割を担っている。こうし
た情報機器の多様化の特徴の一つは「小型化」であり、
その上で動作するプログラムも小型であることが要求さ
れる。
【0003】ところで、自然言語処理技術、とりわけ形
態素解析技術は、音声合成や情報検索など、テキストを
処理するさまざまな技術に用いられる。例えば音声合成
は小型機器のユーザインタフェースとして重要である。
特に、カーナビゲーションシステムの音声案内としての
用途は今後ますます重要になると思われる。音声合成で
テキストを読み上げる場合は、言語解析、特に形態素解
析が必要である。こうした状況を考慮すると、形態素解
析技術は、小型機器で動作するのに十分小さく実装さ
れ、かつ、読み誤りを少なくするために高い精度で解析
することが要求される。
【0004】従来の形態素解析技術は、ルールベースの
方式と統計的言語モデルに基づく方式に大きく分けられ
る。
【0005】ルールベースの方式は、文法規則とヒュー
リスティックルールを用いて複数の単語列候補の優先度
付けを行う。ヒューリスティックルールとしては、最長
一致法や文節数最小法(例えば、吉村・日高・吉田によ
る「文節数最小法を用いたべた書き日本語文の形態素解
析」(情報処理学会論文誌 Vol. 24 No. 1, pp. 40 -4
6, 1983))、接続コスト最小法(久光・新田による
「接続コスト最小による形態素解析の提案と計算量の評
価について」(電子情報通信学会 NLC90-8, pp.17 - 2
4, 1990)) がある。
【0006】一方、統計的言語モデルに基づく方式は、
大量のテキストデータから単語間の接続確率を求め、最
も確率の高い単語列候補を形態素解析結果とする方法で
ある。この方法は例えば、特開平07-271792号公報に開
示されている。これは、単語列候補の尤度の評価式とし
ては接続コスト最小法と等価であるが、発見的な接続コ
ストの根拠が必ずしも明確ではなかったのに対し、確率
という客観的な尺度を用いる点が特徴である。
【0007】単語間接続確率を用いた統計的言語モデル
に基づく方式は、単語の組み合わせが膨大な数になり、
有限のテキストデータから統計量として信頼度の高い単
語間接続確率を推定するのが困難である(データスパー
スネスの問題)。
【0008】また、単語間接続確率を保持するテーブル
のサイズが大きくなり、小型化には向かないという問題
もある。
【0009】これに対し、単語ではなく品詞間の接続確
率を用いるモデルがある。品詞の組み合わせ数はそれほ
ど多くないので、推定される接続確率の信頼度は比較的
高く、接続確率を保持するテーブルのサイズも大きくな
らない。しかし、同じ品詞でも性質の異なる単語の違い
を表現できない。例えば、接尾語の「人(じん)」と「人
(にん)」は品詞が同じで読みが異なる。品詞間接続確率
を用いる方式では、この2つの単語は、接続確率として
は常に同じ評価を受け、単語自体の出現頻度だけで選択
される。したがって、前後関係を考慮した読み分けがで
きない、という問題がある。
【0010】上記の単語間接続確率を用いた統計的言語
モデルに基づく方式と、品詞間接続確率を用いた統計的
言語モデルに基づく方式の両者を補完する方法として、
単語を適当なクラスに分類し、クラス間の接続確率を用
いた統計的言語モデルに基づく方式が提案されている。
この方法は例えば、特開平08-254990号公報、特開平11-
085744号公報に開示されている。
【0011】問題は、どのように単語をクラスに分類す
るかである。これに対し、コーパスを用いた統計的な手
法で単語を自動的にクラス分類する手法が提案されてい
る。この手法は、例えば以下の文献に開示されている。
【0012】・Peter Brown, et al, “Class-Based n-
gram Models of Natural Language", (Computational
Linguistics, Vol.18, No.4, pp. 467 - 479, 1992) ・特開平09-282321号公報
【0013】しかしながら、これらの方法は、コーパス
に出現した単語しかクラスに分類できず、コーパスに一
度も出現しなかった単語に適切なクラスを割り当てられ
ないという問題がある。
【0014】一方、人手によって作成された言語知識で
あるシソーラスを用いてクラス分類を行なう方法も提案
されている(例えば、特開平11-085744号公報)。しか
しながら、シソーラスは意味に基づく単語の分類を行な
ったものであり、必ずしも単語の接続関係を記述するの
に有効な分類ではない、という問題がある。例えば、
「アナウンサー」と「歌手」は専門的・技術的職業を意
味し、シソーラス上では近くに位置するため、シソーラ
スに基づく単語分類では同じクラスに分類される。しか
し、「アナウンサー」は人名に後接しやすい一方、「歌
手」は人名に後接して使われないなど、単語の接続の観
点からは別クラスに分類したほうがよい。
【0015】このように、単語を適当なクラスに分類し
てクラス間の接続確率を用いた統計的言語モデルに基づ
く形態素解析技術においては、いかにクラス分類を行う
かが問題となるものの、適切にクラス分類が行われれ
ば、データスパースネスの問題は単語間接続確率を用い
る方法よりも軽減される点で有利である。また、接続確
率テーブルのサイズ、同一品詞の同形語読み分けのいず
れの問題にも対応できる可能性がある点でも有利であ
る。
【0016】
【発明が解決しようとする課題】しかしながら、上記し
た単語を適当なクラスに分類してクラス間の接続確率を
用いた統計的言語モデルに基づく形態素解析技術におい
ては、コーパスを用いたクラス分類、シソーラスを用い
たクラス分類のいずれの場合も文法情報とは別の観点で
クラス分類することになる。そのため、辞書には文法情
報とは別に各単語にクラス情報を付与する必要があり、
辞書サイズが大きくなってしまい、このままでは所望の
小型機器に実装することが困難であるという問題があ
る。
【0017】本発明は、なるべく解析精度を落とさず
に、形態素解析処理に用いる辞書のサイズを小さくし、
もって小型機器への実装を可能ならしめることを目的と
する。
【0018】
【課題を解決するための手段】本発明によれば、例えば
以下の構成を備える解析用辞書作成装置が提供される。
すなわち、複数の単語それぞれに、少なくとも品詞およ
び活用型を含む文法情報、ならびに、直前の単語との接
続属性を表す前接属性および直後の単語との接続属性を
表す後接属性を含む属性情報、を対応付けて記述した単
語データベースと、当該単語データベースにおける各単
語の出現頻度情報と、に基づいて、自然言語処理のため
の解析用辞書を作成する装置であって、前記単語データ
ベースにおける各単語を、その単語に付与されている前
記文法情報および前記属性情報に基づき所定のクラスに
分類するクラス分類手段と、前記単語データベースにお
ける単語の前接クラス内コストを、前記出現頻度情報お
よび前記クラス分類の結果に基づいて計算する前接クラ
ス内コスト算出手段と、あらかじめ収集した文のそれぞ
れに対する正しい形態素解析結果の情報を記憶する記憶
手段と、前記記憶手段から、任意の後接クラスと前接ク
ラスとの間の接続コストを示すクラス間接続コストを推
定するクラス間接続コスト推定手段と、前記単語データ
ベースにおける各単語を、その単語に対応する前記クラ
ス分類情報、前記前接クラス内コストとともに、解析用
辞書に収録し、更に、推定された前記クラス間接続コス
トを当該解析用辞書に収録する収録手段と、を備えるこ
とを特徴とする。
【0019】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態について詳細に説明する。
【0020】図2は、実施形態における自然言語処理装
置のハードウェア構成を示すブロック図である。
【0021】同図において、201は本装置全体の制御
処理をつかさどるCPU、202は主記憶装置として機
能するRAM、203はブートプログラム等を記憶する
ROMである。
【0022】また、204はハードディスク装置(HD
D)であり、図示の如く、OS130の他、各単語に品
詞、活用型等の文法情報および単語の接続性質を示す属
性情報を付与して記憶した単語データベース101、各
単語の出現頻度を記憶した単語頻度情報102、正解デ
ータベース104、形態素解析プログラム120がイン
ストールされている。このハードディスク装置には更
に、形態素解析プログラム120によって作成された単
語辞書110およびクラス間類似度情報103も格納さ
れることになる。この他、単語辞書110の作成処理に
おいて参照される前接クラステーブル111および後接
クラステーブル112(詳しい構造は後述する。)も格
納されている。
【0023】そして、上記した各部201〜204は、
バス305に接続されている。上記した構成は、パーソ
ナルコンピュータ等の計算機でもって実現されうる。
【0024】図1は、上記構成の自然言語処理装置にお
ける機能構成を示す機能ブロック図である。
【0025】図示の如く、本装置の機能は、単語データ
ベース101および単語頻度情報102を用いて単語辞
書110を作成する解析辞書作成部105(クラス分類
部106および前接クラス内コスト算出部107を含
む。)、クラス間類似度を計算してクラス間類似度情報
103を生成するクラス間類似度算出部108、そし
て、正解データベース104を用いてクラス間コストを
推定するクラス間コスト推定部109、より構成され
る。また、解析用辞書114は、単語辞書110、前接
クラステーブル111、後接クラステーブル112、お
よび、クラス間接続コスト113、より構成される。
【0026】実施形態では、上記した各機能ブロックは
形態素解析プログラム120によって実現される。具体
的には、解析辞書作成部105は解析辞書作成モジュー
ル(クラス分類部106に対応するクラス分類モジュー
ルおよび前接クラス内コスト算出部107に対応する前
接クラス内コスト算出モジュールを含む。)として実現
される。同様に、クラス間類似度算出部108およびク
ラス間コスト推定部109はそれぞれ、クラス間類似度
算出モジュール、クラス間コスト推定モジュールとして
実現される。
【0027】図3は、実施形態における解析辞書作成部
105の処理を示すフローチャートである。このフロー
チャートに対応するプログラムは、上記のとおり形態素
解析プログラム120の解析辞書作成モジュールとして
HDD204に格納されている。そして、このフローチ
ャートのステップS301〜S305の処理が、クラス
分類部106が実現されるクラス分類モジュールによる
処理に対応し、ステップS306〜S312の処理が、
前接クラス内コスト算出部107が実現される前接クラ
ス内コスト算出モジュールによる処理に対応する。な
お、形態素解析プログラム120は、本装置の電源投入
後、RAM202にロードされ、CPU201によって
実行されるものである。
【0028】まず、ステップS301で、単語データベ
ース101の先頭にアクセスする。ステップS302で
は、今対象としている単語Wについて、付与されている
品詞、活用型等の文法情報と、各種属性情報を取り出
す。
【0029】ここで、属性情報は人手で付与したもので
あり、直前の単語との接続属性を表す前接属性と、直後
の単語との接続属性を表す後接属性からなる。図4およ
び図5はそれぞれ、本実施形態に用いる前接属性と後接
属性の例である。単語データベース101中の各単語に
は、その品詞に応じて、同図に示すような属性情報が付
与されている。
【0030】次に、ステップS303で、文法情報と属
性情報から単語Wの前接単語ベクトル、後接単語ベクト
ルを生成する。前接単語ベクトル、後接単語ベクトルは
それぞれ、 前接単語ベクトル=(品詞、前接属性1、前接属性2、
…、前接属性m) 後接単語ベクトル=(活用型、後接属性1、後接属性2、
…、後接属性n) のかたちで定義する。m、nはそれぞれ前接属性数、後
接属性数である。例えば、その単語が名詞である場合、
名詞に対応する前接属性数は図4から、「固有名詞後接
性」、「後接複合性」、および「数詞後接性」の3つと
なることがわかる。同様に、後接属性数は、図5を参照
すると、2となることがわかる。
【0031】次のステップS304では、単語Wに対
し、その前接単語ベクトルに対応する前接クラスID、後
接単語ベクトルに対応する後接クラスIDを取得する。こ
こで、前接単語ベクトルに対応する前接クラスIDおよ
び、後接単語ベクトルに対応する後接クラスIDはそれぞ
れ、HDD204に格納されている前接クラステーブル
111および後接クラステーブル112を参照すること
で特定する。
【0032】図6は、前接クラステーブル111の構造
の一例を示す図である。同図に示すように、前接クラス
IDごとに、品詞、前接属性、および頻度が対応付けられ
て記述されている。
【0033】図7は、後接クラステーブル112の構造
の一例を示す図である。同図に示すように、後接クラス
IDごとに、品詞および後接属性が対応付けられて記述さ
れている。
【0034】このステップS304では、具体的には、
まず、前接クラステーブル111を参照して、単語Wの
前接単語ベクトルの成分、すなわち、品詞および前接属
性に一致するものを探す。そして、一致するものが見つ
かれば、その前接クラスIDを返す。
【0035】一致するものがなければ、前接クラステー
ブル111に登録されている前接クラスIDの最大値より
一つ大きな値を単語Wの前接クラスIDとして返す。その
後、単語Wの品詞、前接属性をその前接クラスIDととも
に、前接クラステーブルに新たに登録する。さらに、単
語頻度情報102から単語Wの出現頻度を特定し、その
前接クラスIDの頻度に記述する。
【0036】後接クラスIDの生成も同様に、後接クラス
テーブル112を参照して行なう。
【0037】次に、ステップS305で、単語Wが単語
データベース101の最後の単語まで処理を終えたか否
かを判断し、最後の単語まで処理を終えていない場合に
は、ステップS302に戻って次の単語について処理を
繰り返す。そして、最後の単語まで処理を終えた時点で
ステップS306に進む。
【0038】ステップS306以降の処理は上述したと
おり、前接クラス内コスト算出部107による処理であ
る。
【0039】まず、ステップS306で、単語データベ
ース101の先頭にアクセスする。続くステップS30
7、S308、およびS309での処理はそれぞれ、上
記したステップS302、S303、およびS304で
の処理と同様の処理である。
【0040】すなわち、ステップS307では、今対象
としている単語Wについて、付与されている品詞、活用
型等の文法情報と、各種属性情報を取り出す。ステップ
S308では、文法情報と属性情報から単語Wの前接単
語ベクトル、後接単語ベクトルを生成する。そして、ス
テップS309では、単語Wに対し、その前接単語ベク
トルに対応する前接クラスID、後接単語ベクトルに対応
する後接クラスIDを取得する。ただし、ステップS30
6の時点ですでに、単語データベース101中の全単語
に対応する前接クラスID、後接クラスIDを保持した前接
クラステーブル、後接クラステーブルが完成しているの
で、ステップS309において新たなクラスIDが生成さ
れることはない。
【0041】次に、ステップS310で、対象単語Wの
前接クラスIDの頻度と、単語W自身の出現頻度から、単
語Wの前接クラス内コストを計算する。具体的には、前
接クラスID Cの頻度をf(C)、単語Wの出現頻度をf(W)と
すると、前接クラス内コストL(W/C)は以下のように計算
される。
【0042】L(W/C) = -1×log(f(W)/f(C))
【0043】次に、ステップS311で、単語Wを、ス
テップS309で取得した前接クラスIDおよび後接クラ
スID、ステップS310で得られた前接クラス内コスト
とともに、単語辞書110に収録する。
【0044】ステップS312では、単語データベース
101の最後の単語まで処理を終えたか否かを判断し、
最後の単語まで処理を終えていない場合にはステップS
307に戻り、次の単語について処理を繰り返す。そし
て、単語データベース101の最後の単語まで処理を終
えたところで本処理を終了する。
【0045】以上の処理により、前接クラスID、後接ク
ラスID、および前接クラス内コストを各単語に付与した
単語辞書110、各クラスの内容を記述した前接クラス
テーブル111および後接クラステーブル112が生成
される。
【0046】これにより、各単語に付与された前接クラ
スIDをキーに前接クラステーブル111を参照すること
で、その単語の品詞を取り出すことができる。同様に、
後接クラステーブル112を参照することで、後接クラ
スIDに対応する活用型を取り出すことができる。したが
って、単語辞書110は品詞、活用型といった文法情報
や、形態素解析を高精度化するために有用な各種属性情
報を明示的に持つ必要がない。そのため、解析用辞書の
サイズを小さくすることができる。
【0047】図8は、実施形態におけるクラス間接続コ
スト推定部109の処理を示すフローチャートである。
このフローチャートに対応するプログラムは、上記のと
おり形態素解析プログラム120のクラス間接続コスト
推定モジュールとしてHDD204に格納されているも
のである。
【0048】まず、ステップS801で、正解データベ
ース104の先頭にアクセスする。そして、ステップS
802で、対象の1文Sとその正解解析結果を取り出
す。この正解解析結果とは、Sを形態素解析したとき
の、正しい形態素列、W1,W2,…,Wnを記述したもので
ある。
【0049】次に、ステップS803で、この形態素列
中の任意の隣接する2つ組(Wi,Wi+1)に対し、解析辞書
作成部105で生成された単語辞書を検索することで、
Wiの後接クラスID(=Ck)、単語Wi+1の前接クラスID(=
Cz)を取得し、次のように、各頻度値を更新する。
【0050】Ckの正解データベース104中の頻度 Fk
(Ck)→1増やす CkとCzの接続頻度 Fc(Ck,Cz)→1増やす
【0051】ステップS804では、Sが正解データベ
ース104中の最後の文か否かをチェックし、最後でな
ければステップS802に戻って次の文を処理する。S
が最後の文であれば、ステップS805に進み、すべて
の後接クラスIDとすべての前接クラスIDの間のクラス間
接続コストを計算する。後接クラスID(=Ck)と前接ク
ラスID(=Cz)との間のクラス間接続コストC(Ck,Cz)
は、Ckの次にCzが出現する確率(接続確率)であるP(Cz|C
k)から以下のように計算する。
【0052】C(Ck,Cz) = -l×logP(Cz|Ck)
【0053】ここで、P(Cz|Ck)を求める一番単純な方法
は、
【0054】P*(Cz|Ck) = Fc(Ck,Cz)/Fk(Ck)
【0055】を計算し、単純な相対頻度であるP*(Cz|C
k)をP(Cz|Ck)として用いる方法である。しかし、正解コ
ーパスの量が十分でない場合、データスパースネスの問
題から、Fk(Ck)、Fc(Ck,Cz)の値の信頼性が低くなり、P
*(Cz|Ck) の信頼性が低くなる。そこで、本実施形態で
は、クラス間の類似度を用いて以下のような接続確率分
布のスムージングを行なう。
【0056】P(Cz|Ck) = λ×P*(Cz|Ck) +(1-λ)×C(k)
×( Σα(z,i)×α(k,j)×P*(Ci|Cj) )
【0057】ここで、λは1以下の正数、C(k)は、P(Cz|
Ck)をすべてのzに対して足し合わせたときに1になる
(確率の公理に合う)ようにする定数、α(l,m)は、ク
ラスlとクラスmの類似度(0〜1の値)で、Σは、i≠z、
j≠kであるすべてのi,jについて加えることを意味す
る。
【0058】この算出式は、P(Cz|Ck)として、単純にP*
(Cz|Ck)を用いるのではなく、CkやCz以外のクラスの正
解コーパスにおける出現を類似度に応じて加味すること
で、出現頻度の絶対数が少ないことによる統計量の信頼
性を補う。 こうすることで、正解データベース104
中では、後接クラスCkの直後に前接クラスCzがたまたま
一度も現れなかった場合でも、CkやCzと類似したクラス
の出現頻度を類似度に応じた割合で加えられるので、P
(Cz|Ck)は0ではなく、ある値が与えられる。
【0059】類似度α(l,m)の計算は、クラス間類似度
算出部108で事前に次のように計算しておく。まず、
品詞の異なるクラス間の類似度は0とする。同じ品詞の
クラス間の場合、その属性の一致度を考える。すなわ
ち、n個の属性のうち、k個の属性値が一致していた場
合、類似度α(l,m)は、k/nとする。つまり、類似度
は、任意の2つの前接クラス間において、各前接クラス
を定義する属性情報が共通する割合を表す。なお、後接
クラス間においても同様に類似度を求める。すなわち、
任意の2つの後接クラス間において、各後接クラスを定
義する属性情報が共通する割合を求める。
【0060】以上のようにして、任意の後接クラスと任
意の前接クラスとの間のクラス間接続コストが算出で
き、これをクラス間接続コスト情報として解析用辞書1
14の一部とする。
【0061】CPU201は、形態素解析プログラム1
20に基づき、以上のようにして生成された解析用辞書
114を用いて形態素解析処理を実行することになる。
【0062】図示しないキーボード等の入力部から入力
された入力文字列に対して単語辞書の検索、さらに活用
語尾の処理を行い、入力文字列に表記の総和が一致する
単語列を生成する。活用語尾の処理は、単語に付与され
た後接クラスIDをキーに後接クラステーブル112を参
照することで活用型を取得することにより行なう(かか
る技術は公知の技術であるのでその詳細は省略す
る。)。入力文字列に表記の総和が一致する単語列は一
般に複数存在するので、この中で最も適当な単語列を選
択し、これを形態素解析結果として、図示しないCRT
等の表示部に出力する。最も適当な単語列として、クラ
ス間接続コストと各単語の前接クラス内コストの総和が
最も小さい単語列を選択する。
【0063】以上、本発明の実施形態を説明した。上述
の実施形態は、単語辞書の各単語に、前接クラスID、後
接クラスID、および前接クラス内コストを付与するもの
であったが、これは形態素解析を行なうための最低限の
情報である。例えば、形態素解析を音声合成の言語処理
部として利用する場合には、これらの他に、読み、アク
セントを含む、音声合成に必要な情報を付与する必要が
あることは言うまでもない。
【0064】なお、単語辞書110の各単語に付与する
前接クラスID、後接クラスID、および前接クラス内コス
トの記述形式は、対応関係を維持して読み出せるかぎ
り、いかなる形式でもよく、例えば、より辞書サイズを
小さくするために圧縮符号化を組み合わせるなどしても
よい。
【0065】また、上記実施形態における前接クラス内
コストの計算結果、クラス間接続コストの計算結果は通
常、小数を含む値となるが、この値を適当な整数に変換
してもよい。適当な範囲の整数にしてデータ長を短くす
ることで、辞書サイズを小型化することもできる。
【0066】また、上記実施形態で用いた単語の属性
は、図4、図5に示した例に限るものではない。これ以
外にも、例えば、接頭辞の「お」「ご」「おん」のどれ
に後接しやすいかという属性、固有名詞の地名を、
「都」「道」「府」「県」「市」等に詳細化した細分類
情報など、さまざまな属性情報を用いることができる。
【0067】
【他の実施形態】本発明は、複数の機器(例えばホスト
コンピュータ、インタフェイス機器、リーダ、プリンタ
等)から構成されるシステムに適用しても、1つの機器
からなる装置(例えば、複写機、ファクシミリ装置等)
に適用してもよい。
【0068】なお、本発明は、前述した実施形態の機能
を実現するソフトウェアのプログラム(図3および/ま
たは図8に示すフローチャートに対応したプログラム)
を、システムあるいは装置に直接あるいは遠隔から供給
し、そのシステムあるいは装置のコンピュータがその供
給されたプログラムを読み出して実行することによって
も達成される場合を含む。
【0069】したがって、本発明の機能処理をコンピュ
ータで実現するために、そのコンピュータにインストー
ルされるプログラムコード自体も本発明を実現するもの
である。つまり、本発明の特許請求の範囲には、本発明
の機能処理を実現するためのコンピュータプログラム自
体も含まれる。
【0070】その場合、プログラムの機能を有していれ
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、OSに供給するスクリプトデータ等、プ
ログラムの形態を問わない。
【0071】プログラムを供給するための記憶媒体とし
ては、例えば、フロッピー(登録商標)ディスク、光デ
ィスク(CD-ROM、CD-R、CD-RW、DVD等)、光磁気ディス
ク、磁気テープ、メモリカード等がある。
【0072】その他、プログラムの供給方法としては、
インターネットを介して本発明のプログラムをファイル
転送によって取得する態様も含まれる。
【0073】また、本発明のプログラムを暗号化してCD
-ROM等の記憶媒体に格納してユーザに配布し、所定の条
件をクリアしたユーザに対し、インターネットを介して
暗号化を解く鍵情報を取得させ、その鍵情報を使用する
ことで暗号化されたプログラムを実行してコンピュータ
にインストールさせて実現することも可能である。
【0074】また、コンピュータが、読み出したプログ
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼働しているOS等が実際の処理の一部ま
たは全部を行い、その処理によって前述した実施形態の
機能が実現され得る。
【0075】さらに、記憶媒体から読み出されたプログ
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるCPU
等が実際の処理の一部または全部を行い、その処理によ
っても前述した実施形態の機能が実現される。
【0076】
【発明の効果】本発明によれば、なるべく解析精度を落
とさずに、形態素解析処理に用いる辞書のサイズを小さ
くし、もって小型機器への実装を可能にすることができ
る。
【図面の簡単な説明】
【図1】実施形態における自然言語処理装置における機
能構成を示す機能ブロック図である。
【図2】実施形態における自然言語処理装置のハードウ
ェア構成を示すブロック図である。
【図3】実施形態における解析辞書作成部の処理を示す
フローチャートである。
【図4】実施形態に用いる前接属性の例を示す図であ
る。
【図5】実施形態に用いる後接属性の例を示す図であ
る。
【図6】実施形態における前接クラステーブルの構造の
一例を示す図である。
【図7】実施形態における後接クラステーブルの構造の
一例を示す図である。
【図8】実施形態におけるクラス間接続コスト推定部の
処理を示すフローチャートである。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 NR03 NR12 UU01 5D015 HH04 HH11 HH21 HH23 5D045 AB30

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 複数の単語それぞれに、少なくとも品詞
    および活用型を含む文法情報、ならびに、直前の単語と
    の接続属性を表す前接属性および直後の単語との接続属
    性を表す後接属性を含む属性情報、を対応付けて記述し
    た単語データベースと、当該単語データベースにおける
    各単語の出現頻度情報と、に基づいて、自然言語処理の
    ための解析用辞書を作成する装置であって、 前記単語データベースにおける各単語を、その単語に付
    与されている前記文法情報および前記属性情報に基づき
    所定のクラスに分類するクラス分類手段と、 前記単語データベースにおける単語の前接クラス内コス
    トを、前記出現頻度情報および前記クラス分類の結果に
    基づいて計算する前接クラス内コスト算出手段と、 所定の文に対する形態素解析の正解を記憶する記憶手段
    と、 前記正解に基づき、任意の後接クラスと前接クラスとの
    間の接続コストを示すクラス間接続コストを推定するク
    ラス間接続コスト推定手段と、 前記単語データベースにおける各単語を、その単語に対
    応する前記クラス分類情報、前記前接クラス内コストと
    ともに、解析用辞書に収録し、更に、推定された前記ク
    ラス間接続コストを当該解析用辞書に収録する収録手段
    と、 を備えることを特徴とする解析用辞書作成装置。
  2. 【請求項2】 前記クラス間接続コスト推定手段は、 前記正解から、任意の2つの前接クラス間の類似度、お
    よび、任意の2つの後接クラス間の類似度を計算するク
    ラス間類似度算出手段と、 後接クラスの次に前接クラスが出現する接続確率を計算
    する接続確率計算手段と、を備え、 前記接続確率計算手段は、計算された前記クラス間類似
    度を用いて前記接続確率のスムージングを行うスムージ
    ング手段を含むことを特徴とする請求項1に記載の解析
    用辞書作成装置。
  3. 【請求項3】 前記クラス分類手段は、 各前接クラス毎に、品詞、前節属性および頻度を対応付
    けて記述した前接クラステーブルを記憶する前接クラス
    テーブル記憶手段と、 各後接クラス毎に、品詞および後接属性を対応付けて記
    述した後接クラステーブルを記憶する後接クラステーブ
    ル記憶手段と、 前記単語データベースにおける単語毎に、前記前接クラ
    ステーブルおよび後接クラステーブルのそれぞれから、
    その単語に付与されている文法情報および属性情報に対
    応する前接クラスIDおよび後接クラスIDを特定する
    特定手段と、 を備えることを特徴とする請求項1または2に記載の解
    析用辞書作成装置。
  4. 【請求項4】 前記特定手段は、 その単語に付与されている文法情報および属性情報に対
    応する前接クラスIDおよび後接クラスIDがないとき
    は、前記前接クラステーブルおよび後接クラステーブル
    のそれぞれに、当該単語に対応する前接クラスIDおよ
    び後接クラスIDを登録する登録手段を更に備えること
    を特徴とする請求項3に記載の解析用辞書作成装置。
  5. 【請求項5】 請求項1から4までのいずれかに記載の
    解析用辞書作成装置によって作成された解析用辞書を用
    いて形態素解析を行う自然言語処理装置であって、 入力された文に対し、その文の表記に一致する複数の単
    語列の中で、前記クラス間接続コスト推定手段により推
    定された接続コストと前記解析用辞書における各単語の
    前接クラス内コストとの総和が最小となる単語列を形態
    素解析結果として出力する解析手段を備えることを特徴
    とする自然言語処理装置。
  6. 【請求項6】 複数の単語それぞれに、少なくとも品詞
    および活用型を含む文法情報、ならびに、直前の単語と
    の接続属性を表す前接属性および直後の単語との接続属
    性を表す後接属性を含む属性情報、を対応付けて記述し
    た単語データベースと、当該単語データベースにおける
    各単語の出現頻度情報と、に基づいて、自然言語処理の
    ための解析用辞書を作成する方法であって、 前記単語データベースにおける各単語を、その単語に付
    与されている前記文法情報および前記属性情報に基づき
    所定のクラスに分類するクラス分類ステップと、 前記単語データベースにおける単語の前接クラス内コス
    トを、前記出現頻度情報および前記クラス分類の結果に
    基づいて計算する前接クラス内コスト算出ステップと、 所定の文に対する形態素解析の正解を記述した正解デー
    タベースに基づき、任意の後接クラスと前接クラスとの
    間の接続コストを示すクラス間接続コストを推定するク
    ラス間接続コスト推定ステップと、 前記単語データベースにおける各単語を、その単語に対
    応する前記クラス分類情報、前記前接クラス内コストと
    ともに、解析用辞書に収録し、更に、推定された前記ク
    ラス間接続コストを当該解析用辞書に収録する収録ステ
    ップと、 を有することを特徴とする解析用辞書作成方法。
  7. 【請求項7】 前記クラス間接続コスト推定ステップ
    は、 前記正解から、任意の2つの前接クラス間の類似度、お
    よび、任意の2つの後接クラス間の類似度を計算するク
    ラス間類似度算出ステップと、 後接クラスの次に前接クラスが出現する接続確率を計算
    する接続確率計算ステップと、を有し、 前記接続確率計算ステップは、計算された前記クラス間
    類似度を用いて前記接続確率のスムージングを行うスム
    ージングステップを含むことを特徴とする請求項6に記
    載の解析用辞書作成方法。
  8. 【請求項8】 前記クラス分類ステップは、 各前接クラス毎に、品詞、前節属性および頻度を対応付
    けて記述した前接クラステーブル、および、各後接クラ
    ス毎に、品詞および後接属性を対応付けて記述した後接
    クラステーブル、のそれぞれから、前記単語データベー
    スにおける単語毎に、その単語に付与されている文法情
    報および属性情報に対応する前接クラスIDおよび後接
    クラスIDを特定する特定ステップ、 を有することを特徴とする請求項6または7に記載の解
    析用辞書作成方法。
  9. 【請求項9】 前記特定ステップは、 その単語に付与されている文法情報および属性情報に対
    応する前接クラスIDおよび後接クラスIDがないとき
    は、前記前接クラステーブルおよび後接クラステーブル
    のそれぞれに、当該単語に対応する前接クラスIDおよ
    び後接クラスIDを登録する登録ステップを更に有する
    ことを特徴とする請求項8に記載の解析用辞書作成方
    法。
  10. 【請求項10】 複数の単語それぞれに、少なくとも品
    詞および活用型を含む文法情報、ならびに、直前の単語
    との接続属性を表す前接属性および直後の単語との接続
    属性を表す後接属性を含む属性情報、を対応付けて記述
    した単語データベースと、当該単語データベースにおけ
    る各単語の出現頻度情報と、所定の文に対する形態素解
    析の正解を記述した正解データベースと、を記憶したコ
    ンピュータに、自然言語処理のための解析用辞書を作成
    させるためのプログラムであって、 前記単語データベースにおける各単語を、その単語に付
    与されている前記文法情報および前記属性情報に基づき
    所定のクラスに分類するクラス分類ステップと、 前記単語データベースにおける単語の前接クラス内コス
    トを、前記出現頻度情報および前記クラス分類の結果に
    基づいて計算する前接クラス内コスト算出ステップと、 前記正解データベースに基づき、任意の後接クラスと前
    接クラスとの間の接続コストを示すクラス間接続コスト
    を推定するクラス間接続コスト推定ステップと、 前記単語データベースにおける各単語を、その単語に対
    応する前記クラス分類情報、前記前接クラス内コストと
    ともに、解析用辞書に収録し、更に、推定された前記ク
    ラス間接続コストを当該解析用辞書に収録する収録ステ
    ップと、 を実行させるプログラム。
  11. 【請求項11】 前記クラス間接続コスト推定ステップ
    は、 前記正解から、任意の2つの前接クラス間の類似度、お
    よび、任意の2つの後接クラス間の類似度を計算するク
    ラス間類似度算出ステップと、 後接クラスの次に前接クラスが出現する接続確率を計算
    する接続確率計算ステップと、を有し、 前記接続確率計算ステップは、計算された前記クラス間
    類似度を用いて前記接続確率のスムージングを行うスム
    ージングステップを含むことを特徴とする請求項10に
    記載のプログラム。
  12. 【請求項12】 前記クラス分類ステップは、 当該コンピュータにあらかじめ記憶された、各前接クラ
    ス毎に品詞、前節属性および頻度を対応付けて記述した
    前接クラステーブル、および、各後接クラス毎に品詞お
    よび後接属性を対応付けて記述した後接クラステーブ
    ル、のそれぞれから、前記単語データベースにおける単
    語毎に、その単語に付与されている文法情報および属性
    情報に対応する前接クラスIDおよび後接クラスIDを
    特定する特定ステップ、 を有することを特徴とする請求項11に記載のプログラ
    ム。
  13. 【請求項13】 前記特定ステップは、 その単語に付与されている文法情報および属性情報に対
    応する前接クラスIDおよび後接クラスIDがないとき
    は、前記前接クラステーブルおよび後接クラステーブル
    のそれぞれに、当該単語に対応する前接クラスIDおよ
    び後接クラスIDを登録する登録ステップを更に有する
    ことを特徴とする請求項12に記載のプログラム。
  14. 【請求項14】 請求項10から13までのいずれかに
    記載のプログラムによって作成された解析用辞書を記憶
    したコンピュータを、 入力された文に対し、その文の表記に一致する複数の単
    語列の中で、前記クラス間接続コスト推定手段により推
    定された接続コストと前記解析用辞書における各単語の
    前接クラス内コストとの総和が最小となる単語列を形態
    素解析結果として出力する解析手段として機能させるプ
    ログラム。
JP2001291858A 2001-09-25 2001-09-25 自然言語処理のための解析用辞書作成装置および方法、ならびにプログラム Withdrawn JP2003099087A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001291858A JP2003099087A (ja) 2001-09-25 2001-09-25 自然言語処理のための解析用辞書作成装置および方法、ならびにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001291858A JP2003099087A (ja) 2001-09-25 2001-09-25 自然言語処理のための解析用辞書作成装置および方法、ならびにプログラム

Publications (1)

Publication Number Publication Date
JP2003099087A true JP2003099087A (ja) 2003-04-04

Family

ID=19113932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001291858A Withdrawn JP2003099087A (ja) 2001-09-25 2001-09-25 自然言語処理のための解析用辞書作成装置および方法、ならびにプログラム

Country Status (1)

Country Link
JP (1) JP2003099087A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005106853A (ja) * 2003-09-26 2005-04-21 Nec Corp 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム
JP2010237351A (ja) * 2009-03-31 2010-10-21 Nec Corp ユーザ辞書作成システム、方法、及び、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005106853A (ja) * 2003-09-26 2005-04-21 Nec Corp 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム
JP2010237351A (ja) * 2009-03-31 2010-10-21 Nec Corp ユーザ辞書作成システム、方法、及び、プログラム

Similar Documents

Publication Publication Date Title
CN108091328B (zh) 基于人工智能的语音识别纠错方法、装置及可读介质
JP4945086B2 (ja) 論理形式のための統計的言語モデル
US5930746A (en) Parsing and translating natural language sentences automatically
JP6310150B2 (ja) 意図理解装置、方法およびプログラム
CN100389381C (zh) 用于调试与语言模型一起使用的类实体词典的方法和设备
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
KR101004560B1 (ko) 음성 인식 시스템 모델링 방법 및 컴퓨터 판독가능 기록 매체
US20080059190A1 (en) Speech unit selection using HMM acoustic models
US20120239390A1 (en) Apparatus and method for supporting reading of document, and computer readable medium
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP5002271B2 (ja) 入力された原言語文を目的言語に機械翻訳する装置、方法およびプログラム
AU2018250372A1 (en) Method to construct content based on a content repository
US20090240501A1 (en) Automatically generating new words for letter-to-sound conversion
Naptali et al. Topic-dependent language model with voting on noun history
JP2003099087A (ja) 自然言語処理のための解析用辞書作成装置および方法、ならびにプログラム
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP2011048405A (ja) 音声認識装置及び音声認識プログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
JP5336779B2 (ja) 文字列変換を行う情報処理装置、文字列変換方法、プログラム、および情報処理システム
CN111540363B (zh) 关键词模型及解码网络构建方法、检测方法及相关设备
JP5755603B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム
JP2003228578A (ja) 情報検索方法及び情報検索装置及び情報検索装置の制御プログラム
Jeong et al. An error-corrective language-model adaptation for automatic speech recognition.

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081202