JP2000353159A

JP2000353159A - 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体

Info

Publication number: JP2000353159A
Application number: JP11165197A
Authority: JP
Inventors: Kuniko Moriwaki; 邦子森脇
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1999-06-11
Filing date: 1999-06-11
Publication date: 2000-12-19

Abstract

(57)【要約】【課題】単語の表記とこの単語の読みとによって構成
されている読み付き日本語テキストについて、表記と読
みとを自動的に対応付けることができる表記・読み対応
付け装置を提供することを目的とするものである。【解決手段】読み付き日本語テキストを入力し、漢字
と上記漢字の読みの候補とが対応して記録されている単
漢字読みテーブルを作成し、上記表記の構成要素である
漢字文字列と、上記読みの構成要素である読みの文字列
との相互間における距離である構成要素間距離を、上記
単漢字読みテーブルを用いて計算し、文字列における上
記構成要素間距離の総和が最小になるように、上記表記
を構成する漢字文字列と上記表記を構成する各１文字毎
の上記読みとの対応付けを求めるものである。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、日本語テキストに
読みを振る技術に関し、特に、日本語文章を単語に分割
する日本語形態素解析において、読みの分からない単語
について、読み付き統計的言語モデルを用いることによ
って、使われる確率が最も高い読みを振ることができる
ようにしたものである。

【０００２】

【従来の技術】単語に読みを振る場合、今回、特に対象
とする文字は漢字である。ひらがな・カタカナは表記そ
のままが読みとなり、一方、英語（アルファベット）・
数字は表記がそのまま読みにならないことが多いが、こ
こでは、英数字については、その表記をそのまま読みと
することにする。

【０００３】漢字に読みを振る従来方法のうちで、最も
単純な方法は、標準的な読みを１つだけ、単漢字読みテ
ーブルに用意し、どのような場合でも、漢字に読みを１
対１に対応付ける方法である。

【０００４】しかし、現実には、多くの場合、1つの漢
字が複数の読みを持ち、同じ漢字でも、文脈に応じて読
み方が変わる。したがって、上記従来方法では、前後の
文脈の違いに応じた漢字の読み分けができないという欠
点がある。

【０００５】そこで、文脈を考慮した漢字読み振り方法
として、漢字ｔｒｉｇｒａｍ（つまり、注目する漢字と
その前後各１文字との合計３文字）を用いる方法が提案
されている（鈴木・鳥原・斉藤「日本語テキスト音声合
成のための言語処理の検討」情報処理学会研究報告９
６−ＳＬＰ−１１，ｐｐ．１−６，１９９６）。

【０００６】この従来方法は、読み付き文書テキストか
ら、前後の漢字の読みを考慮しない漢字ｔｒｉｇｒａｍ
を予め求め、その統計情報を用いることによって、読み
の推定を行う方法である。つまり、単漢字読みテーブル
を使って、全ての漢字のそれぞれに読みの候補を付け、
複数の読み候補が生じる場合には、前後の漢字ｔｒｉｇ
ｒａｍの統計情報に基づいて、読みを１つに決定する方
法である。

【０００７】また、この従来方法では、漢字ｔｒｉｇｒ
ａｍのデータ不足が生じ、このデータ不足を補うため
に、類似読み漢字のグループ化を行なう。つまり、高
（ダカ）と安（ヤス）、高（タカ）と低（ヒク）、高
（コウ）と低（テイ）というように、同環境において特
定の読み方をする漢字をグループ化し、漢字ｔｒｉｇｒ
ａｍ環境を共有することによって、限られたデータを有
効に使うものである。

【０００８】この方法は、（１）漢字ｔｒｉｇｒａｍを
使うことによって、ある程度文脈を考慮した漢字読み振
りが可能になり、（２）漢字ｔｒｉｇｒａｍデータに含
まれていない文字環境の漢字についても、類似読み漢字
グループを考えることによって、読みを振ることができ
るという可能性がある点で優れている。

【０００９】

【発明が解決しようとする課題】しかし、上記漢字ｔｒ
ｉｇｒａｍでは、逆に、（１）前後の漢字の読みを考慮
していない点が、文脈を考える上では不充分であり、
（２）漢字ｔｒｉｇｒａｍ頻度データ不足を解消するた
めの類似読み漢字のグループ化を、漢字全般に対してど
のように実現するのかと言う具体的方法論が存在しない
という問題がある。

【００１０】漢字１文字ずつに読みが振られた日本語テ
キストから、読み付き文字ｂｉｇｒａｍ頻度データを作
成し、この統計情報を用いた読み振り方法を採用すれ
ば、上記（１）の問題を解決することができるが、現在
では、単語に読みを付与した日本語コーパス・日本語単
語辞書が数多く存在するものの、１つの文字とその読み
とが対応付けられているデータが殆ど存在しないので、
上記解決策は現実的ではないという新たな問題が生じ
る。

【００１１】本発明は、単語の表記とこの単語の読みと
によって構成されている読み付き日本語テキストについ
て、表記と読みとを自動的に対応付けることができる表
記・読み対応付け装置を提供することを目的とするもの
である。

【００１２】また、本発明は、前後の文脈に出現する表
記（文字）の読みを考慮することができ、読み付き文字
ｂｉｇｒａｍ頻度データ不足を解消することができる単
語読み振り装置を提供することを目的とする。

【００１３】

【課題を解決するための手段】本発明は、単語の表記と
上記単語の読みとによって構成されている読み付き日本
語テキストを入力し、上記単語を構成する各文字と上記
読みとを対応付ける場合、漢字と上記漢字の読みの候補
とが対応して記録されている単漢字読みテーブルを作成
し、上記表記の構成要素である漢字文字列と、上記読み
の構成要素である読みの文字列との相互間における距離
である構成要素間距離を、上記単漢字読みテーブルを用
いて計算し、文字列における上記構成要素間距離の総和
が最小になるように、上記表記を構成する漢字文字列と
上記表記を構成する各１文字毎の上記読みとの対応付け
を求めるものである。

【００１４】また、本発明は、単語を入力し、この入力
された単語に読みを振る場合、文字とその文字の読みと
が対応している文字読み対応付きテキストから、読み付
き文字ｂｉｇｒａｍ頻度データと、読み無し文字ｂｉｇ
ｒａｍ頻度データとを求め、上記求められた読み付き文
字ｂｉｇｒａｍ頻度データと、上記読み無し文字ｂｉｇ
ｒａｍ頻度データとの線形和を演算することによって、
所定の表記と所定の読みとの同時出現確率を計算するた
めの計算式である読み付き統計的言語モデルに基づい
て、所定の表記と所定の読みとの同時出現確率を計算
し、上記所定の表記と上記所定の読みとの組み合わせの
うちで、上記同時出現確率が最大になる組み合わせを求
めるものである。

【００１５】

【発明の実施の形態および実施例】図１は、本発明の実
施例である表記・読み対応付け装置１００と単語読み振
り装置２００とを示すブロック図である。

【００１６】表記・読み対応付け装置１００は、単語の
表記と上記単語の読みとによって構成されている読み付
き日本語テキストの表記と読みとを自動に対応付ける装
置であり、同時出現確率の計算に必要な読み付き文字ｂ
ｉｇｒａｍ頻度データを生成する装置である。

【００１７】また、表記・読み対応付け装置１００は、
要素間距離計算手段１と、最小距離対応付け探索手段２
とを有する。

【００１８】要素間距離計算手段１は、漢字とこの漢字
の読みの候補とが対応して記録されている単漢字読みテ
ーブルを用いて、表記の構成要素である漢字文字列と、
読みの構成要素である文字列との相互間における距離で
ある構成要素間距離を計算する手段である。

【００１９】なお、漢字文字列中の１つの漢字と、読み
の構成要素である文字列との相互間の組合わせが単漢字
読みテーブルに存在する場合に、その距離が「０」である
とし、漢字文字列中の１つの漢字と、読みの構成要素で
ある文字列との相互間の組合わせが単漢字読みテーブル
に存在しない場合に、距離が「１」であるとする。

【００２０】最小距離対応付け探索手段２は、動的計画
法を用いて、文字列における上記構成要素間距離（文字
列の語頭から、その文字列中の各位置までの距離）の総
和が最小になるように、上記表記を構成する漢字文字列
と、上記表記を構成する各１文字毎の上記読みとの対応
付けを求める手段である。

【００２１】ここで、動的計画法は、次の、の２つ
の性質を持つアルゴリズムである。計算の途中結果を記憶するテーブルを作ることによっ
て、同じ計算の繰り返しを避ける。部分問題の解を求め、これを使って次の部分問題の解
を求めることを繰り返し、最後に全体の解になる。

【００２２】図２は、上記実施例の説明図であり、図２
（１）は、表記の対応付け結果の例を示す図であり、図
２（２）は、文字列の表記とその読みとの対応チャート
であり、文字列の語頭から、その文字列中の各位置まで
の最小距離を求める場合の説明図である。

【００２３】また、図１に戻って、単語読み振り装置２
００は、形態素解析処理中に出現した単語に対して読み
を振る装置であり、言語モデル生成手段３と、統計的言
語モデル４と、表記・読み同時出現確率計算手段５と、
最大確率探索手段６とを有する。

【００２４】言語モデル生成手段３は、表記・読み対応
付け装置１００によって生成された文字読み対応付きテ
キストに基づいて、表記と読みとの同時出現確率（表記
と読みとが同時に出現する確率）を求める手段である。

【００２５】統計的言語モデル４は、読み付き文字ｂｉ
ｇｒａｍ頻度データと、読み無し文字ｂｉｇｒａｍ頻度
データとの線形和を演算することによって、所定の表記
と所定の読みとの同時出現確率を計算するための計算式
である。

【００２６】表記・読み同時出現確率計算手段５は、生
成された読み付き統計的言語モデル４に基づいて、表記
と読みとの同時出現確率を計算する手段である。

【００２７】最大確率探索手段６は、その同時出現確率
を最大にする経路を求める手段である。

【００２８】次に、上記実施例の動作について説明す
る。

【００２９】図３は、表記・読み対応付け装置１００の
動作と、単語読み振り装置２００の動作とを示すフロー
チャートである。

【００３０】まず、読み付き日本語テキストを入力す
る。たとえば、図２（１）に示すように、「応用コンピ
ュータ学会／おうようこんぴゅーたがっかい」という読
み付き日本語テキストを入力する。

【００３１】そして、表記・読み対応付け装置１００に
おける要素間距離計算手段１が、表記と読みとについて
任意の部分文字列間の距離を計算し（Ｓ１）、最小距離
対応付け探索手段２が、最小距離となる対応付けの経路
を探索し、文字読み対応付きテキストを出力する（Ｓ
２）。

【００３２】この出力結果から、言語モデル生成手段３
が、読み付き文字ｂｉｇｒａｍ頻度データのデータ数不
足を考慮した読み付き統計的言語モデル４を生成する
（Ｓ３）。単語の入力に対して、表記・読み同時出現確
率計算手段５が、読み付き統計的言語モデル４に基づい
て、表記と読みとの同時出現確率を計算し（Ｓ４）、最
大確率探索手段６が、最も確率の高い経路(組み合わせ)
を探索し、読み付き単語を出力する（Ｓ５）。

【００３３】このような構成によって、読み付き日本語
テキストから、表記・読み対応付け装置１００が、各文
字の読み対応付けを自動的に行なう。

【００３４】また、読みの分からない単語に対して、
（１）読み付き文字ｂｉｇｒａｍ頻度データのデータ不
足を考慮する方法が明確である言語モデルに基づいて、
（２）連続して出現する表記（文字）の読みを考慮した
単語読み振り装置２００を実現することができる。

【００３５】図２(１)における１行目が、入力された読
み付き日本語テキストの例であり、「表記／読み」の形
で示されている。図２(１)における２行目以降が、上記
実施例によって表記と読みとが対応された結果であり、
「表記｜読み」の形で示されている。

【００３６】図２（２）に示すチャートは、桝目の縦方
向に文字列の表記を並べ、上記桝目の横方向にその文字
列の読みを並べ、また、１つの桝目に１文字を嵌め込
み、語頭からの距離が数字で書き込まれた表である。文
字列の表記の例として、「応用コンピュータ学会」が記
載され、その文字列の読みの例として、「おうようこん
ぴゅーたがっかい」が記載されている。

【００３７】語頭から語末までの距離を求めるには、ま
ず、１文字挿入、１文字削除のそれぞれの場合における
要素間距離（コスト）は、「１」である。また、ひらが
な、カタカナ、英文字、数字、記号における要素間距離
(コスト)は、「０」である。さらに、漢字に対する読み
が、漢字と上記漢字の読みの候補とが対応して記録され
ている単漢字読みテーブルに存在する場合、その要素間
距離(コスト)を「０」とし、漢字に対する読みが、上記
単漢字読みテーブルに存在しない場合、その要素間距離
(コスト)を「１」とする。

【００３８】ここで、図２(２)に示す文字列の表記とそ
の読みとの対応チャートついて説明する。最初に、語頭
の文字の表記「応」の行（図２（２）における「応」の
行、１行目）と、読み「お」の列とが交差する枡につい
て検討する。語頭の文字の表記「応」に対する読み候補
「お」を見た場合、その表記と読みとの対応が、単漢字
読みテーブルに存在しないので、距離が「１」になる。

【００３９】次に、語頭の文字の表記「応」の行と、読
み「おう」の「う」の列とが交差する枡を見た場合、そ
の表記「応」と読み「おう」とが、単漢字読みテーブル
に存在するので、表記「応」の行と読み「う」の列とが交
差する枡に、要素間距離が「０」であることを示す
「０」が記入される。

【００４０】図２（２）の「応」の行では、「応」と
「おうよ」、「応」と「おうよう」等、上記以外の組合
わせが、単漢字読みテーブルには存在しないので、それ
ぞれに対応する枡に、要素間距離が「１」であることを示
す「１」が記入される。

【００４１】次に、語頭の文字の次の文字の表記「用」
の行（図２（２）における「用」の行、２行目）につい
て検討する。文字の表記「用」の行と読み「お」の列と
が交差する枡を見た場合、上記のように、「応」について
「お」の読みが単漢字読みテーブルに無いことによる要
素間距離「１」と、「用」についての読みとして「お」が
既に使用され、１文字削除されていることによる要素間
距離「１」とが加算され、結局、文字の表記「用」と読み
「お」とに対応する枡には、１＋１＝２である要素間距
離「２」が記入される。

【００４２】なお、文字の表記「用」の行と読み「お」
の列とが交差する枡に要素間距離「２」が記入される理
由として、「応」についての読みとして「お」が既に使用
され、１文字削除されていることによる要素間距離「１」
と、「用」について「お」の読みが単漢字読みテーブルに
無いことによる要素間距離「１」とが加算され、要素間
距離が「２」になると考えてもよい。

【００４３】次に、文字の表記「用」の行と読み「お
う」の「う」の列とが交差する枡を見た場合、「応」につ
いて「おう」という読みが単漢字読みテーブルに存在す
るので、要素間距離が「０」であり、また、「用」に対す
る読みが１文字削除されているので、要素間距離が
「１」になり、０＋１＝１となる。

【００４４】なお、図２（２）の「用」の行と、読み
「おうよ」の「よ」の列とが交差する枡は、表記「応」
の読み「おう」が単漢字テーブルに存在することによる
要素間距離「０」と、表記「用」の読み「よ」が単漢字
テーブルに存在しないことによる要素間距離「１」とが
加算され、０＋１＝１であり、「１」が記入される。

【００４５】そして、文字の表記「用」の行と、読み
「おうよう」の２つ目の「う」の列とが交差する枡を見
た場合、表記「応」の読み「おう」が単漢字テーブルに
存在することによる要素間距離「０」と、表記「用」の
読み「よう」が単漢字テーブルに存在することによる要
素間距離「０」とが加算され、０＋０＝０であり、
「０」が記入される。

【００４６】上記のようにして、語頭から語末までの距
離を求める。

【００４７】特に、語頭（「応」という文字）から語末
（「会」という文字）までの距離の総和が最小になる対
応付けの経路における所定の位置を（ｉ，ｉ）とする
と、所定の位置（ｉ，ｉ）には、語頭から語末までの距
離の総和が最小となる対応付けの経路における直前の位
置（ｉ−１，ｊ−ｎ）を、括弧書きで示してある。

【００４８】図２（２）において、語末から順に、距離
の総和が最小である経路を遡ることによって、最適な読
み・表記の対応付けを行うことができる。

【００４９】上記例において、単漢字読みテーブルに、
「会｜かい」の読みは存在するが、「学｜がっ」の読み
は存在しない。しかし、上記のようにすれば、表記
「学」に対する読み「がっ」が対応付けられ、つまり、
単漢字読みテーブルに存在しない読みであっても、正確
に対応付けられる。このように、表記・読み対応付け装
置１００では、元の単漢字読みテーブルに存在しない単
漢字の読みであっても、読み付き日本語テキストから、
その単漢字の読みを学習する能力を持っており、この点
が優れている。

【００５０】図４は、本発明の他の実施例である表記・
読み対応付け装置３００と、単語読み振り装置４００と
を示すブロック図である。

【００５１】表記・読み対応付け装置３００は、要素間
距離計算手段１と、最小距離対応付け探索手段２と、単
漢字読みテーブルＴ１とによって構成されている。

【００５２】単語読み振り装置４００は、言語モデル生
成手段３と、頻度テーブルＴ２と、表記・読み同時出現
確率計算手段５と、最大確率探索手段６とによって構成
されている。

【００５３】要素間距離計算手段１は、読み付き日本語
テキストの表記と読みとの任意の部分文字列間につい
て、表記の文字種によって場合分けされた関数を用い、
要素間距離を計算する手段である。

【００５４】最小距離探索手段２は、要素間距離の和が
最小になるような経路（組み合わせ）を探索し、その表
記と読みとの対応付けを１組出力する手段である。

【００５５】単漢字読みテーブルＴ１は、単漢字の読み
候補を格納してあるテーブルである。

【００５６】言語モデル生成手段３は、表記・読み対応
付け装置３００によって与えらた文字読み対応付きテキ
ストから、頻度テーブルＴ２を作成する手段である。

【００５７】頻度テーブルＴ２は、読み付き文字ｂｉｇ
ｒａｍ頻度データ、読み付き文字ｕｎｉｇｒａｍ頻度デ
ータ、読み無し文字ｂｉｇｒａｍ頻度データ、読み無し
文字ｕｎｉｇｒａｍ頻度データが格納されているテーブ
ルであり、これらのデータを用いて、読み付き文字ｂｉ
ｇｒａｍ頻度データの不足を考慮した読み付き統計的言
語モデル４を生成するテーブルである。

【００５８】ここで、「ｕｎｉｇｒａｍ」は、一般的に
は、連鎖を構成する最小不可分な１個の要素であり、上
記実施例では、一文字で構成される文字列を意味する。

【００５９】「ｂｉｇｒａｍ」は、一般的には、連鎖を
構成する最小不可分な要素のうちで、互いに隣り合った
２個の要素であり、上記実施例では、２文字で構成され
ている文字列を意味する。

【００６０】また、上記実施例は、「表記・読み対応辞
書」を作成する場合、２文字で構成されている文字列と
その読みとの対応関係を記録した辞書を作成することが
意図され、このような辞書を用い、２文字とその読みと
の同時出現確率を推定することによって、もっともらし
い読みの連鎖を決定し、これによって読みを振る点に特
徴がある。なお、２文字とその読みとの同時出現確率
は、２つの文字とその読みとが同時に出現する確率であ
る。

【００６１】表記・読み同時出現確率計算手段５は、入
力された読みの分からない単語の各文字に対して、読み
付き文字ｕｎｉｇｒａｍ頻度データから読み候補を列挙
し、それぞれの表記と読みとの同時出現確率を、頻度テ
ーブルＴ２に基づいて計算する手段である。なお、頻度
テーブルＴ２は、読み付き統計的言語モデルの一例であ
る。

【００６２】最大確率探索手段６は、入力された単語全
体において、表記と読みとの同時出現確率の和を最大に
する経路を探索し、この探索された結果に対応する読み
付き単語を出力する手段である。

【００６３】次に、上記実施例において、要素間距離計
算、最小距離対応付け探索、頻度テーブルＴ２につい
て、この順で説明する。

【００６４】まず、要素間距離計算と最小距離対応付け
探索とについて、説明する。

【００６５】表記を構成する文字列Ｘ＝ｘ₁ｘ₂…ｘ
_nと、読みを構成する文字列Ｙ＝ｙ₁ｙ₂…ｙ_nとを対応付
けるには、要素間の距離（表記を構成する文字列Ｘ＝ｘ
₁ｘ₂…ｘ_n中の文字と、読みを構成する文字列Ｙ＝ｙ₁ｙ
₂…ｙ_n中の文字との距離）を定義し、この定義された距
離の和が最小になる対応付けを求めればよい。

【００６６】ここで、表記がひらがなやカタカナであれ
ば、表記と読みとの要素は１対１に対応するが、漢字の
多くは、１文字の表記で、複数文字の読みに対応する。
つまり、表記と読みとの対応では、表記を構成する文字
の種類に応じて、１対ｎ（ｎ≧１）の対応を考慮しなけ
ればならない。なお、英語（アルファベット）と数字に
関しては、表記と読みとがｍ対ｎ（ｍ≧１）に対応して
いると考えることが自然であることが多いが、今回は、
英数字については、便宜上、全て１対１に対応させる。
つまり、英語（アルファベット）と数字に関しては、読
みは表記と同じであるとする。

【００６７】表記を構成する文字列の要素ｘ₁〜ｘ_iと、
読みを構成する文字列の要素ｙ₁〜ｙ_iとの要素間距離を
ｄ（ｉ，ｊ）とする。つまり、要素間距離ｄ（ｉ，ｊ）
は、語頭から位置（ｉ，ｊ）までの距離である表記と読
みとが１対ｎに対応していると、すなわち表記ｘ_iと読
みｙ_j-n+1のそれぞれとが対応し、位置（ｉ，ｊ）と１
つ前の位置（ｉ−１，ｊ−ｎ）との距離をｃｏｓｔ（ｘ
_i，ｙ_j-n+1…ｙ_j）とすると、上記要素間距離ｄ（ｉ，
ｊ）は、次の式で与えられる。

【００６８】ｄ（ｉ，ｊ）＝ｄ（ｉ−１，ｊ−ｎ）＋ｃｏｓｔ（ｘ_i，ｙ_j-n+1…ｙ_j） … …… 式（１）ただし、ｄ（０，０）＝０であるとする。表記ｘ_iを構
成する文字の種類によって、以下のように要素間距離を
設定し、各位置（ｉ，ｊ）までの最小距離と、上記各位
置（ｉ，ｊ）の１つ前の位置（ｉ−１，ｊ−ｎ）とを記
憶する。

【００６９】要素間の全ての組み合わせについて、語頭
から順に距離を計算し、語末に到達したら、記憶された
経路を辿ることによって、最小距離である対応付けを求
めることができる。

【００７０】次に、要素間距離の設定について説明す
る。

【００７１】まず、表記ｘ_iが、ひらがな、カタカナ、
英語（アルファベット）、数字、記号である場合、ｎ＝
１であり（読みが１文字であり）、読みが表記そのもの
であれば、要素間距離ｃｏｓｔ（ｘ_i，ｙ_j-n+1…ｙ_j）
＝０であるが、ｎ＝１でない（読みが２文字以上であ
る）か、読みが表記そのものでなければ、要素間距離ｃ
ｏｓｔ（ｘ_i，ｙ_j-n+1…ｙ_j）＝１である。

【００７２】一方、表記ｘ_iが漢字である場合、ｙ_j-n+1
…ｙ_jが、単漢字読みテーブルのｘ_iの項目に存在すれ
ば、ｃｏｓｔ（ｘ_i，ｙ_j-n+1…ｙ_j）＝０であるが、ｙ
_j-n+1…ｙ_jが、単漢字読みテーブルのｘ_iの項目に存在
しなければ、ｃｏｓｔ（ｘ_i，ｙ_j _-n+1…ｙ_j）＝１であ
る。

【００７３】この他の対応として、１文字挿入と１文字
削除とを考える。１文字挿入は、表記と読みとが０対１
に対応するものであり、１文字削除は、表記と読みとが
１対０に対応するものである。このときにおける要素間
距離を常に「１」に設定する。

【００７４】図５は、上記実施例における単漢字読みテ
ーブルＴ１の一例を示す図である。

【００７５】次に、読み付き統計的言語モデル４につい
て説明する。

【００７６】文字列Ｃ＝ｃ₁…ｃ_nに最適な読みを振る場
合、各文字に対応する読み文字列Ｑ＝ｑ₁…ｑ_nとの同時
出現確率Ｐ（Ｃ，Ｑ）が最大になる読み列を求めればよ
い。上記では、同時出現確率をマルコフモデルで近似す
る。つまり、同時出現確率Ｐ（Ｃ，Ｑ）を、読み付き文
字ｂｉｇｒａｍ頻度データ確率Ｐ（ｃ_i，ｑ_i｜ｃ_i-1，
ｑ_i-1）の積として、次の式（２）で表す。

【００７７】

【数１】

【００７８】上記式（２）は、読み付き文字ｂｉｇｒａ
ｍ頻度データと、読み無し文字ｂｉｇｒａｍ頻度データ
との線形和を演算することによって、所定の表記と所定
の読みとの同時出現確率を計算するための計算式である
読み付き統計的言語モデルである。

【００７９】なお、読み付き文字ｂｉｇｒａｍ頻度デー
タを、先行する読み付き文字の出現頻度で割ることによ
って、読み付き文字ｂｉｇｒａｍ頻度データ確率Ｐ（ｃ
_i，ｑ_i｜ｃ_i-1，ｑ_i-1）の値が与えられる。すなわち、
頻度をＣ（^*）で表すと、読み付き文字ｂｉｇｒａｍ頻
度データ確率Ｐ（ｃ_i，ｑ_i｜ｃ_i-1，ｑ_i-1）＝Ｃ（ｃ
_i-1，ｑ_i-1｜ｃｉ，ｑ_i）／Ｃ（ｃ_i-1，ｑ_i-1）であ
る。

【００８０】たとえば、「大，だい」と「学，がく」と
が組み合わされる頻度が、所定の文書においてたとえば
１６５であり、「大，だい」の出現頻度がたとえば２５
１であるとした場合、読み付き文字ｂｉｇｒａｍ頻度デ
ータ確率Ｐ（学，がく｜大，だい）＝１６５／２５１＝
０．６５７である。

【００８１】実際に読み振り動作を行なう場合、各文字
に対する読みの候補を列挙し、各候補について読み付き
文字ｂｉｇｒａｍ頻度データ確率を計算し、文字列全体
の確率Ｐ（Ｃ，Ｑ）が最大になる読み候補を選択するこ
とによって、最適な読みを求めることができる。

【００８２】このような方法によれば、たとえ文字列Ｃ
＝ｃ₁…ｃ_nが、単語辞書未登録語であっても、連続する
２つの構成文字について同時出現確率が与えられれば、
読みを振ることができる。つまり、未知語全般につい
て、読みを振ることができる。

【００８３】読み候補を選択する場合、文字が漢字であ
れば、その表記に対して、読み付き文字ｕｎｉｇｒａｍ
頻度データに登録されている読みの全てを候補として挙
げ、文字が漢字以外であれば、表記そのものを候補とし
て挙げる。

【００８４】ところで、連続する２つの構成文字につい
て一度でも、読み付き文字ｂｉｇｒａｍ頻度データ確率
Ｐ（ｃ_i，ｑ_i｜ｃ_i-1，ｑ_i-1）＝０になると、読み付き
文字ｂｉｇｒａｍ頻度データ確率Ｐ（Ｃ，Ｑ）＝０にな
り、読みを振ることができない。つまり、振るべき読み
をデータとして持ち合わせていない。

【００８５】しかし、現実には、読み付き文字ｂｉｇｒ
ａｍ頻度データが不足していることによって、表記Ｃ
（ｃ_i-1，ｑ_i-1，ｃ_i，ｑ_i）が０であることはよく生
じ、このようなデータ不足を補うために、線形補間を用
いた平滑化を行う。すなわち、読み付き文字ｂｉｇｒａ
ｍ頻度データ確率Ｐ（ｃ_i，ｑ_i｜ｃ_i-1，ｑ_i-1）を、次
式のように線形に補間する。

【００８６】Ｐ（ｃ_i，ｑ_i｜ｃ_i-1，ｑ_i-1）＝λ₀・Ｐ
（ｚｅｒｏ）＋λ₁・Ｐ（Ｃ_i）＋λ₂・Ｐ（ｃ_i｜
ｃ_i-1）＋λ₃・Ｐ（ｃ_i，ｑ_i）＋λ₄・Ｐ（ｃ_i，ｑ_i｜
ｃ_i-1，ｑ_i-1）ただし、λ_kは、重み係数であり、

【００８７】

【数２】

【００８８】である。

【００８９】次に、上記式における各項について説明す
る。

【００９０】まず、読み付き文字ｕｎｉｇｒａｍ確率Ｐ
（ｃ_i，ｑ_i）は、読み付き文字ｂｉｇｒａｍ頻度データ
確率値を、より低次のｎ−ｇｒａｍで補間する項であ
る。

【００９１】読み無し文字ｂｉｇｒａｍ頻度データ確率
Ｐ（ｃ_i｜ｃ_i―₁）は、読み候補がない文字の読み付き
文字ｂｉｇｒａｍ頻度データ確率値を補間する項であ
る。

【００９２】さらに、読み無し文字ｕｎｉｇｒａｍ確率
Ｐ（ｃ_i）は、読み無し文字ｂｉｇｒａｍ頻度データ確
率値を、より低次のｎ−ｇｒａｍで補間する項である。

【００９３】そして、未知文字を考慮するために、全て
の文字が等確率で出現する場合における確率Ｐ（ｚｅｒ
ｏ）（ｚｅｒｏｇｒａｍｐｒｏｂａｂｉｌｉｔｙ：１
／文字集合の大きさ）に、適当な定数を掛けたものを割
り当てて補間する（文字集合の大きさはＪＩＳコードに
含まれる文字数であり、６８７９であるとする）。

【００９４】このような平滑化を行うことによって、読
み付き文字ｂｉｇｒａｍ頻度データに存在しない組み合
わせの読みであっても、読み付き文字ｕｎｉｇｒａｍ頻
度データに存在するものであれば、確率を与えることが
でき、したがって、読みを与えることができる。読み候
補が存在しない場合、そのままでは、読みを振ることが
できないが、何らかの値の確率値が割り当てられるの
で、全体の確率が０になることを避けることができる。
よって、読み付き文字ｂｉｇｒａｍ頻度データのデータ
不足を補うことが可能になる。

【００９５】読み付き文字ｕｎｉｇｒａｍ頻度データ、
読み無し文字ｂｉｇｒａｍ頻度データ、読み無し文字ｕ
ｎｉｇｒａｍ頻度データは、その全てを、読み付き文字
ｂｉｇｒａｍ頻度データから作成することが可能であ
る。

【００９６】図６は、上記実施例における各頻度データ
の具体例を示す図である。

【００９７】図６（１）は、読み付き文字ｂｉｇｒａｍ
頻度データの例であり、図６（２）は、読み付き文字ｕ
ｎｉｇｒａｍ頻度データの例であり、図６（３）は、読
み無し文字ｂｉｇｒａｍ頻度データの例であり、図６
（４）は、読み無し文字ｕｎｉｇｒａｍ頻度データの例
である。

【００９８】重み係数λ_kの推定は、次のような手順で
行う。

【００９９】まず、重み係数の初期値を設定し、所定の
読み付き単語集合（訓練集合）を使って、読み付き文字
ｕｎｉｇｒａｍ／ｂｉｇｒａｍ頻度データを作成する。
この頻度データを使って、訓練集合とは異なる読み付き
単語集合（評価集合）に対して、生成確率が最大となる
ように重み係数を更新する。この作業を、重み係数が収
束するまで行う。

【０１００】上記のようにして、未知語の語頭から語末
まで、連続する全ての読み付き文字ｂｉｇｒａｍ頻度デ
ータ確率を計算し、読み付き文字列の同時出現確率が最
大となるような読み列を求める。

【０１０１】図７は、上記実施例において、単語に対す
る読み振りと、その対数確率値との結果例を示す図であ
る。

【０１０２】各文字についての読みが、「表記／読み」
の形で、対数確率値の高い順に３つ表されている。一番
確率が高い読み振りが、正しい結果を出していることが
分かる。

【０１０３】表記・読み対応付け装置１００、３００に
よれば、要素間距離計算手段１と、最小距離対応付け探
索手段２とを用いることによって、読み付き日本語テキ
ストから、各文字に読みを対応付けした文字読み対応付
きテキストを生成することができる。

【０１０４】また、上記実施例である単語読み振り装置
２００、４００によれば、上記文字読み対応付きテキス
トと、言語モデル生成手段３と、表記・読み同時出現確
率計算手段５と、最大確率探索手段６とを用い、読み付
き統計的言語モデル４または頻度テーブルＴ２に基づい
て、読み付き文字ｂｉｇｒａｍ頻度データのデータ不足
を考慮し、前後の文脈を考慮した単語の読み候補を精度
良く提示することができる。

【０１０５】次に、上記実施例において、重み係数λ_K
（Ｋ＝０，１，２，３，４）の一般的な求め方について
具体的に説明する。

【０１０６】まず、読み付き文字ｂｉｇｒａｍ頻度デー
タ確率Ｐ（Ｃ_i，Ｑ_i｜Ｃ_i-1，Ｑ_i-1）＝λ₀Ｐ_zero＋λ₁
Ｐ（Ｃ_i）＋λ₂Ｐ（Ｃ_i｜Ｃ_i-1）＋λ₃Ｐ（Ｃ_i，Ｑ_i）
＝λ₀Ｐ₀＋λ₁Ｐ₁＋λ₂Ｐ₂＋λ₃Ｐ₃＋λ₄Ｐ₄ …
……式（３）である。

【０１０７】図８は、所定の状態Ｓ_Aから別の状態Ｓ_Kに
遷移する場合を示す図である。

【０１０８】図８において、所定の状態Ｓ_Aから別の状
態Ｓ_Kに遷移する場合、状態Ｓ０、Ｓ１、Ｓ２、Ｓ３、
Ｓ４を経由して他の状態Ｓ_Kに遷移する。この場合、そ
れぞれ重み係数λ₀、λ₁、λ₂、λ₃、λ₄が付与され、
また、それぞれ確率Ｐ₀、Ｐ₁、Ｐ₂、Ｐ₃、Ｐ₄を生じ
る。

【０１０９】ここで、状態Ｓ_Aから状態Ｓ_Kに遷移する個
数Ｃ_Kを観測することができれば

【０１１０】

【数３】

【０１１１】になる。

【０１１２】しかし、実際には、個数Ｃ_Kを観測するこ
とができない。そこで、重み係数λ_Kに初期値を与え、
個数Ｃ_Kの推定値Ｃ_K ^*を求め、この推定値Ｃ_K ^*から、重
み係数λ_Kの新しい推定値λ_K ^*を求める。

【０１１３】次に、訓練集合ＥからＰ_K ^Eを計算する。ま
た、評価集合Ｈで生じる状態遷移Ｓ _A→Ｓ_K→Ｓ_Bが起き
る確率は、

【０１１４】

【数４】

【０１１５】であり、評価集合Ｈで生じる状態遷移Ｓ_A
→Ｓ_Bの個数をＣ^Hとすると、評価集合Ｈ全体で、Ｓ_A→
Ｓ_Kが起こる個数の推定値Ｃ_K ^*は、

【０１１６】

【数５】

【０１１７】であり、重み係数の新しい推定値λ_K ^*は、

【０１１８】

【数６】

【０１１９】である。

【０１２０】また、重み係数の新しい推定値λ_K ^*を使用
すると、重み係数λ_Kを使用した場合よりも、上記式
（３）が示す確率Ｐの値が大きくなることは、既に証明
されている（Baum,L.E.(1972)）。

【０１２１】よって、重み係数λ_Kに対してこの手順を
繰り返し、重み係数λ_Kが収束する（極大化する）まで
行うことによって、重み係数λ_Kを決定することができ
る。

【０１２２】なお、上記実施例を、プログラムを記録し
た記録媒体として把握することができる。

【０１２３】すなわち、上記実施例は、単語の表記と上
記単語の読みとによって構成されている読み付き日本語
テキストを入力し、上記単語を構成する各文字と上記読
みとを対応付ける場合において、漢字と上記漢字の読み
の候補とを対応して記録されている単漢字読みテーブル
を作成する単漢字読みテーブル作成手順と、上記表記の
構成要素である漢字文字列と、上記読みの構成要素であ
る読みの文字列との相互間における距離である構成要素
間距離を、上記単漢字読みテーブルを用いて計算する要
素間距離計算手順と、文字列における上記構成要素間距
離の総和が最小になるように、上記表記を構成する漢字
文字列と上記表記を構成する各１文字毎の上記読みとの
対応付けを求める最小距離対応付け探索手順とをコンピ
ュータに実行させるプログラムを記録したコンピュータ
読み取り可能な記録媒体の例である。

【０１２４】また、上記実施例は、単語を入力し、この
入力された単語に読みを振る場合、文字とその文字の読
みとが対応している文字読み対応付きテキストから、読
み付き文字ｂｉｇｒａｍ頻度データと、読み無し文字ｂ
ｉｇｒａｍ頻度データとを求める手順と、上記読み付き
文字ｂｉｇｒａｍ頻度データと、上記読み無し文字ｂｉ
ｇｒａｍ頻度データとの線形和を演算することによっ
て、所定の表記と所定の読みとの同時出現確率を計算す
るための計算式である読み付き統計的言語モデルを作成
する手順と、所定の表記と所定の読みとの同時出現確率
を、上記読み付き統計的言語モデルに基づいて計算する
同時出現確率計算手順と、上記所定の表記と上記所定の
読みとの組み合わせのうちで、上記同時出現確率が最大
になる組み合わせを求める最大確率探索手順とをコンピ
ュータに実行させるプログラムを記録したコンピュータ
読み取り可能な記録媒体の例である。

【０１２５】さらに、上記記録媒体としては、ＦＤ、Ｃ
Ｄ、ＭＯ、ＤＶＤ、ハードディスク、半導体メモリ等が
考えられる。

【０１２６】

【発明の効果】請求項１〜請求項５記載の発明によれ
ば、表記と読みとの任意の部分文字列間について、文字
種に応じた要素間距離を計算する手段を有するので、読
み付き文字ｂｉｇｒａｍ頻度データを作成する際に必須
である読み付き日本語テキストの表記・読み対応付けを
自動で処理することができるという効果を奏する。

【０１２７】また、請求項６〜請求項８記載の発明によ
れば、読み付き文字ｂｉｇｒａｍ頻度データ確率から、
表記と読みとの同時出現確率を与える読み付き統計的言
語モデルと、そのモデルに基づいて、同時出現確率を計
算し、確率が最大となる組み合わせを探索するので、文
脈を考慮した読み振りができ、さらに読み付き文字ｂｉ
ｇｒａｍ頻度データデータ不足を補うことができるとい
う効果を奏する。

【図面の簡単な説明】

【図１】本発明の実施例である表記・読み対応付け装置
１００と単語読み振り装置２００とを示すブロック図で
ある。

【図２】上記実施例の説明図であり、図２（１）は、表
記の対応付け結果の例を示す図であり、図２（２）は、
文字列の表記とその読みとの対応チャートであり、文字
列の語頭から、その文字列中の各位置までの最小距離を
求める場合の説明図である。

【図３】表記・読み対応付け装置１００の動作と、単語
読み振り装置２００の動作とを示すフローチャートであ
る。

【図４】本発明の他の実施例である表記・読み対応付け
装置３００と、単語読み振り装置４００とを示すブロッ
ク図である。

【図５】上記実施例における単漢字読みテーブルＴ１の
一例を示す図である。

【図６】上記実施例における各頻度データの具体例を示
す図である。

【図７】上記実施例において、単語に対する読み振り
と、その対数確率値との結果例を示す図である。

【図８】所定の状態Ｓ_Aから別の状態Ｓ_Kに遷移する場合
を示す図である。

【符号の説明】

１００、３００…表記・読み対応付け装置、２００、４００…単語読み振り装置、１…要素間距離計算手段、２…最小距離対応付け探索手段、３…言語モデル生成手段、４…読み付き統計的言語モデル、５…表記・読み同時出現確率計算手段、６…最大確率探索手段。

Claims

【特許請求の範囲】

【請求項１】単語の表記と上記単語の読みとによって
構成されている読み付き日本語テキストを入力し、上記
単語を構成する各文字と上記読みとを対応付ける装置に
おいて、漢字と上記漢字の読みの候補とが対応して記録されてい
る単漢字読みテーブルと；上記表記の構成要素である漢
字文字列と、上記読みの構成要素である読みの文字列と
の相互間における距離である構成要素間距離を、上記単
漢字読みテーブルを用いて計算する要素間距離計算手段
と；文字列における上記構成要素間距離の総和が最小に
なるように、上記表記を構成する漢字文字列と上記表記
を構成する各１文字毎の上記読みとの対応付けを求める
最小距離対応付け探索手段と；を有することを特徴とす
る表記・読み対応付け装置。
【請求項２】請求項１において、上記要素間距離計算手段は、上記漢字文字列と上記読み
の文字列との組合わせが上記単漢字読みテーブルに存在
すれば、その距離を「０」とし、上記漢字文字列と上記
読みの文字列との組合わせが上記単漢字読みテーブルに
存在しなければ、その距離を「１」とすることによっ
て、上記構成要素間距離を計算する手段であることを特
徴とする表記・読み対応付け装置。
【請求項３】請求項１において、上記最小距離対応付け探索手段は、動的計画法を用いた
手段であることを特徴とする表記・読み対応付け装置。
【請求項４】単語の表記と上記単語の読みとによって
構成されている読み付き日本語テキストを入力し、上記
単語を構成する各文字と上記読みとを対応付ける方法に
おいて、漢字と上記漢字の読みの候補とを対応して記録されてい
る単漢字読みテーブルを作成する単漢字読みテーブル作
成段階と；上記表記の構成要素である漢字文字列と、上
記読みの構成要素である読みの文字列との相互間におけ
る距離である構成要素間距離を、上記単漢字読みテーブ
ルを用いて計算する要素間距離計算段階と；文字列にお
ける上記構成要素間距離の総和が最小になるように、上
記表記を構成する漢字文字列と上記表記を構成する各１
文字毎の上記読みとの対応付けを求める最小距離対応付
け探索段階と；を有することを特徴とする表記・読み対
応辞書作成方法。
【請求項５】単語の表記と上記単語の読みとによって
構成されている読み付き日本語テキストを入力し、上記
単語を構成する各文字と上記読みとを対応付ける場合に
おいて、漢字と上記漢字の読みの候補とを対応して記録されてい
る単漢字読みテーブルを作成する単漢字読みテーブル作
成手順と；上記表記の構成要素である漢字文字列と、上
記読みの構成要素である読みの文字列との相互間におけ
る距離である構成要素間距離を、上記単漢字読みテーブ
ルを用いて計算する要素間距離計算手順と；文字列にお
ける上記構成要素間距離の総和が最小になるように、上
記表記を構成する漢字文字列と上記表記を構成する各１
文字毎の上記読みとの対応付けを求める最小距離対応付
け探索手順と；をコンピュータに実行させるプログラム
を記録したコンピュータ読み取り可能な記録媒体。
【請求項６】単語を入力し、この入力された単語に読
みを振る単語読み振り装置において、文字とその文字の読みとが対応している文字読み対応付
きテキストから、読み付き文字ｂｉｇｒａｍ頻度データ
と、読み無し文字ｂｉｇｒａｍ頻度データとを求める手
段と；上記求められた読み付き文字ｂｉｇｒａｍ頻度デ
ータと、上記読み無し文字ｂｉｇｒａｍ頻度データとの
線形和を演算することによって、所定の表記と所定の読
みとの同時出現確率を計算するための計算式である読み
付き統計的言語モデルと；所定の表記と所定の読みとの
同時出現確率を、上記読み付き統計的言語モデルに基づ
いて計算する同時出現確率計算手段と；上記所定の表記
と上記所定の読みとの組み合わせのうちで、上記同時出
現確率が最大になる組み合わせを求める最大確率探索手
段と；を有することを特徴とするテキスト読み振り装
置。
【請求項７】単語を入力し、この入力された単語に読
みを振る単語読み振り方法において、文字とその文字の読みとが対応している文字読み対応付
きテキストから、読み付き文字ｂｉｇｒａｍ頻度データ
と、読み無し文字ｂｉｇｒａｍ頻度データとを求める段
階と；上記求められた読み付き文字ｂｉｇｒａｍ頻度デ
ータと、上記読み無し文字ｂｉｇｒａｍ頻度データとの
線形和を演算することによって、所定の表記と所定の読
みとの同時出現確率を計算するための計算式である読み
付き統計的言語モデルを作成する段階と；所定の表記と
所定の読みとの同時出現確率を、上記読み付き統計的言
語モデルに基づいて計算する同時出現確率計算段階と；
上記所定の表記と上記所定の読みとの組み合わせのうち
で、上記同時出現確率が最大になる組み合わせを求める
最大確率探索段階と；を有することを特徴とするテキス
ト読み振り方法。
【請求項８】単語を入力し、この入力された単語に読
みを振る場合、文字とその文字の読みとが対応している文字読み対応付
きテキストから、読み付き文字ｂｉｇｒａｍ頻度データ
と、読み無し文字ｂｉｇｒａｍ頻度データとを求める手
順と；上記求められた読み付き文字ｂｉｇｒａｍ頻度デ
ータと、上記読み無し文字ｂｉｇｒａｍ頻度データとの
線形和を演算することによって、所定の表記と所定の読
みとの同時出現確率を計算するための計算式である読み
付き統計的言語モデルを作成する手順と；所定の表記と
所定の読みとの同時出現確率を、上記読み付き統計的言
語モデルに基づいて計算する同時出現確率計算手順と；
上記所定の表記と上記所定の読みとの組み合わせのうち
で、上記同時出現確率が最大になる組み合わせを求める
最大確率探索手順と；をコンピュータに実行させるプロ
グラムを記録したコンピュータ読み取り可能な記録媒
体。