JP3953772B2

JP3953772B2 - 読みがな付与装置およびプログラム

Info

Publication number: JP3953772B2
Application number: JP2001321966A
Authority: JP
Inventors: 寛之世木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2001-10-19
Filing date: 2001-10-19
Publication date: 2007-08-08
Anticipated expiration: 2021-10-19
Also published as: JP2003132052A

Description

【０００１】
【発明の属する技術分野】
本発明は、日本語テキストに読みがなを付与して発音列を出力する読みがな付与装置およびプログラムに関するものである。
【０００２】
【従来の技術】
従来、この種の読みがな付与装置（読み韻律情報設定装置）は、単語認定および読み韻律情報を設定するための単語辞書と、この単語辞書を用いて多段解析法に基づく形態素解析を行う形態素解析手段と、この形態素解析手段による形態素解析結果を利用して読みがなを付与する読みがな付与手段とを備え、日本語テキストを入力して読み韻律情報を付与し、この読み韻律情報に基づいて合成音声を生成するものであった（特開平11-344998号公報）。このように、入力された日本語テキストを形態素解析して各形態素に分割し、発音付けを行うことにより、単語分割されていない日本語テキストを単語分割して読みがなを付与することができる。
【０００３】
また、この種の読みがな付与装置（音声合成装置）は、入力日本語テキストから単語に分割した分割結果候補を全て作成し、その中から単語の接続確率の相乗平均を計算し、相乗平均が最大となる単語分割を選択し、それに対応する発音付けを行う単語分割手段を備えたものであった（特開平7-262191号公報）。ここで採用されている単語分割方法を利用することにより、例えば複合語などの単語列を意味の正しい単語に高い精度で分割し、読みがなを付与することができる。
【０００４】
したがって、日本語テキストに読みがなを付与する場合に、前述の形態素解析および単語分割方法を利用することが考えられる。
【０００５】
【発明が解決しようとする課題】
しかしながら、このような従来の形態素解析を利用した読みがな付与装置では、あらかじめ辞書に単語の発音だけでなく品詞も記載しておく必要があるために、利便性に欠けるという問題があった。また、従来の形態素解析を利用した読みがな付与装置では、品詞の接続確率値などの接続コストを学習しておく必要があるために、あらかじめ品詞付けされた日本語テキストデータが必要となり、このようなデータを多量に用意するには膨大な時間およびコストがかかるという問題があった。
【０００６】
また、従来の単語分割方法を利用した読みがな付与装置では、品詞の接続確率は必要ないが、一つの単語に複数の発音があった場合については配慮がなされていないという問題があった。すなわち、特開平7-262191号公報に開示された技術では、一つの単語に複数の発音があった場合にどのような手段で選択するのかは明記されていない。さらに、従来の単語分割方法を利用した読みがな付与装置では、一度全ての単語分割結果候補を作成し、この単語分割結果候補の単語接続確率の相乗平均を計算するために、例えば、200文字の日本語テキストデータが入力された場合に、最悪２の200乗もの単語分割結果候補が生じることになり、それぞれについて単語接続確率の相乗平均を計算するには膨大な時間がかかる。したがって、複合名詞を分割して発音を付与する場合であればよいが、長い日本語のテキストを分割して発音を付与するのは現実的に無理であるという問題があった。
【０００７】
本発明は、このような問題を解決するためになされたもので、非現実的な読みがな候補の計算を省くことにより、効率性および利便性を改善する読みがな付与装置およびプログラムを提供するものである。
【０００８】
【課題を解決するための手段】
請求項１に係る本発明の読みがな付与装置は、日本語テキストを入力する入力手段と、単語の発音を登録しているが単語の品詞を登録していない辞書、および同一表記で発音の異なる単語間の接続確率を区別して与える言語モデルを記憶するための記憶手段と、前記入力手段によって文頭から文末まで順次入力される日本語テキストについて、前記辞書に登録されている単語の発音により読みがな候補の仮説を複数生成し、前記言語モデルに基づいて当該仮説における単語間の接続確率の積を前記仮説毎に計算し、単語間の接続確率の積が最大となる仮説のみを残すようにマージし、文末での単語間の接続確率の積が最大となる仮説を選択して読みがなを付与する読みがな付与手段と、前記接続確率の積を前記仮説毎に計算する過程で、単語間の接続確率の前記仮説毎の積が予め決められた範囲内にあるもの以外を削除する削除手段とを設けた構成を有している。
【０００９】
この構成により、単語を登録している辞書に各単語の品詞を登録する必要はなくなり、各単語の発音のみを登録したものでよい。また、この構成により、単語分割および読みがな付与がなされていない日本語入力テキストが入力されると、単語の接続確率の積が高い仮説のみ保持していくので、非現実的な読みがな候補について無駄な計算をする必要がなくなり、読みがな付与装置の効率性および利便性を改善することとなる。
【００１１】
また、この構成により、読みがな候補の仮説の数を減らして、読みがな付与の処理時間を短縮できることとなる。
【００１２】
さらに、請求項２に係る本発明のプログラムは、コンピュータに、文頭から文末まで順次入力される日本語テキストに応じて、単語の発音を登録しているが単語の品詞を登録していない辞書に登録されている単語の発音により読みがな候補の仮説を生成する第１のステップと、現在生成されている仮説より、次に入力される文字で区切れない仮説と区切れる仮説とを新たに生成し、これらの仮説における単語間の接続確率の積を、同一表記で発音の異なる単語間の接続確率を区別して与える言語モデルに基づいて前記仮説毎に計算する第２のステップと、末尾の単語とこの単語の一つ前の単語の発音が同一である仮説がある場合に、単語間の接続確率の積が最大である仮説のみを残すようにマージする第３のステップとを実行させ、前記第２のステップで、単語間の接続確率の前記仮説毎の積の最大値から予め決められた範囲内にある仮説以外を削除するものである。
【００１３】
このプログラムにより、単語の接続確率の積が高い仮説のみ保持することで、非現実的な読みがな候補の計算を省いて処理時間を短縮することができ、読みがな付与装置の利便性を改善することとなる。なお、読みがな付与に用いる辞書に各単語の品詞を登録する必要はなく、各単語の発音のみを登録したものでよい。
【００１５】
また、このプログラムにより、読みがな候補の仮説の数を減らして処理時間を短縮できることとなる。
【００１６】
さらに、請求項３に係る本発明のプログラムは、請求項２において、前記言語モデルは、Ｎグラムモデルからなるものである。
【００１７】
このプログラムで、公知のＮグラムモデル（トライグラムモデルなど）を採用することにより、本発明の広範な応用が可能となる。
【００１８】
【発明の実施の形態】
以下、本発明の実施の一形態を図面を用いて説明する。
図１に示すように、本発明の実施の一形態に係る読みがな付与装置50は、日本語テキストを入力する入力装置（図示せず）と、単語の発音を登録している辞書、および同一表記で発音の異なる単語間の接続確率を区別して与える言語モデルを記憶するための記憶装置（図示せず）と、前記入力装置によって文頭から文末まで順次入力される日本語テキストについて、前記辞書に登録されている単語の発音により読みがな候補の仮説を複数生成し、前記言語モデルに基づいて当該仮説における単語間の接続確率の積を計算し、単語間の接続確率の積が最大となる仮説のみを残すようにマージし、文末での単語間の接続確率の積が最大となる仮説を選択して読みがなを付与する仮説計算部20および仮説生成・削除部30とを設けたものである。
【００１９】
すなわち、読みがな付与装置50は、仮説生成・削除部30と仮説計算部20からなり、入力された日本語テキストから発音列を生成して出力するものである。仮説生成・削除部30には、単語の発音を登録している辞書（品詞情報は含まず）と、単語間の接続確率を同一表記であっても発音の違いに応じて区別して与える言語モデル（Ｎグラムモデル）を登録している。ここで、Ｎグラムモデルとは、ある単語の生起はこの単語の直前の（Ｎ−１）単語にのみ依存すると考えた言語モデルであり、本実施形態ではトライグラムモデル（Ｎ＝３）を用いている。
【００２０】
また、仮説生成・削除部30は、仮説計算部20に蓄えられている仮説と、前記日本語テキストを入力して、前記辞書の単語（発音情報を含む）による仮説の生成を行う。また、仮説生成・削除部30は、仮説計算部20で前記仮説における単語の接続確率の積が計算されると、仮説における単語の接続確率の積（累積確率）の最大値からあらかじめ決められた閾値までの範囲にある仮設を更新し、この範囲以下の仮説（単語の接続確率の積が前記閾値以下のもの）を削除する。さらに、仮説生成・削除部30は、マージできる仮説（例えば、現在の単語と一つ前の単語が同じである仮説）について、仮説における単語の接続確率の積が最大となるものを残して削除する。
【００２１】
一方、仮説計算部20は、前述の仮説の生成が行われた後に、前記Ｎグラムモデルにより当該仮説における単語の接続確率の積を計算する。ここで、同一表記で発音の異なる単語がある場合に、発音の違いに応じて当該単語の接続確率が与えられる。この計算を、入力された日本語テキストの文字がなくなるまで繰り返し、文字がなくなった時点で、仮説の中で単語の接続確率値の積が最大となるものを選択し、その仮説の発音列を出力する。なお、前記Ｎグラムモデルは、仮説計算部20あるいは図示しない記憶部に登録しておいてもよい。
【００２２】
図２は、パーソナルコンピュータなどの汎用コンピュータの要部を示す。これは、前述の読みがな付与装置50の機能を実現するためのハードウェア構成の一例である。
【００２３】
図２において、入力装置51は、単語分割して読みがなを付与するために日本語テキストの文字列を順次入力するものである。また、入力装置51は、本実施形態の単語分割方法（図３に示す）を実現するための読みがな付与プログラムの実行をキーボードやマウスで指示するものである。表示装置52は、前記読みがな付与プログラムの実行によって読みがな付与された日本語テキスト、すなわち全仮説の中から選択された仮説（読みがな候補）の発音列を出力するためのものである。ＣＰＵ53は、前記読みがな付与プログラムを実行して読みがな付与処理を施すものである。
【００２４】
記憶装置54は、例えばハードディスク記憶装置（ＨＤＤ）などの大容量記憶装置からなり、前記読みがな付与プログラム、前記辞書（単語辞書）および前記言語モデルのデータなどを記憶する。システムメモリ55は、ＨＤＤ54からロードされた前記読みがな付与プログラム、およびＣＰＵ53が実行する処理に対する入出力データを一時記憶する。ここで、前記読みがな付与プログラムは、入力装置51の指示でＨＤＤ54からシステムメモリ55にロードされ、ＣＰＵ53により指示されたプログラムが実行される。
【００２５】
次に、図３乃至図５を参照しながら、本実施形態の読みがな付与装置50による読みがな付与方法について説明する。ここでは、一例として、「＜文頭＞片倉橋本間では工事中です＜文末＞」に読み仮名を付与する場合を示す。また、前記辞書には、「片倉(katakura)」、「橋本(hashimoto)」、「間(kaN)」、「間(aida)」、「片(heN)」、「倉橋(kurahashi)」、「本間(hoNma)」、「で(de)」、「は(wa)」、「工事(ko:ji)」、「中(chu:)」、「中(naka)」、「です(desu)」を含む単語および発音が登録されているものとする。
【００２６】
まず、日本語テキストの入力文字に先立って＜文頭＞が仮説生成・削除部30に入力され、一つの仮説が生成される。これは、図４のＷ＝０に示すとおりである。次いで、仮説計算部20は、前記仮説について単語の接続確率（Ｐ（＜文頭＞））、すなわちトライグラム値を計算する（前記第１のステップに相当）。
【００２７】
次いで、「片」が仮説生成・削除部30に入力されると（ステップＳ101）、仮説生成・削除部30は「＜文頭＞片（切れ目なし）」と「＜文頭＞片(heN)」の二つの仮説を生成し（図４のＷ＝１に示す）、仮説計算部20は単語末に達した仮説の単語の接続確率（Ｐ(＜文頭＞)×Ｐ（片(heN)｜＜文頭＞））を計算する（ステップＳ102、Ｓ103）。以降、文字が入ってくるたびに、仮説生成・削除部30は図４、図５のように仮説を生成し、仮説計算部20は単語の接続確率の積を計算する（前記第１のステップに相当）。
【００２８】
次いで、仮説生成・削除部30は、仮説計算部20で計算された単語の接続確率の積により、この単語の接続確率の積があらかじめ決めておいた範囲にない仮説を削除する（ステップＳ104、Ｓ105）。このように仮説を展開していく上で、仮説における単語の接続確率の積の値が、単語の接続確率の積の最大値からあらかじめ決められた閾値までの範囲外にある場合に、その仮説を削除することにより、読みがな候補の仮説の数を減らして処理を効率化することができる。
【００２９】
この後、「は」が仮説生成・削除部30に入力されると、前述のように仮説を生成し、それぞれの仮説について単語の接続確率の積を計算するのだが、以降この三つの仮説のなかで、単語の接続確率の積が一番高い仮説のみ伝える（ステップＳ106、Ｓ107）。なぜなら、これ以降必要となる確率は三つの仮説で同じになるからである（Ｐ（＊｜で(de) は(wa)）×・・・）。したがって、この時点で単語の接続確率の積が一番高い仮説が、以降でも一番高い単語の接続確率の積を持つことになる。これは、図５のＷ＝７における▲１▼に示すとおりである。ここで、同一表記で発音の異なる単語があるために、前記トライグラムモデルにより、発音の違いに応じて当該単語の接続確率が与えられる。具体的には、「片」に対する「heN」および「kata」、「本」に対する「moto」および「hoN」、「間」に対する「kaN」および「aida」についてそれぞれの単語発音に応じた接続確率が与えられる。
【００３０】
本実施形態では、説明をわかり易くするために途中で２語連続する仮説しか生じさせていないが、そのほかに仮説がある場合でも、２語連続して同じ単語が続いた仮説については前述のステップＳ107のようにマージすることが可能である。
【００３１】
結局、最後の文字列（文字）が入力された時点で一番大きい単語の接続確率の積を持つ仮説の発音列が出力される（ステップＳ108）。本実施形態では、「katakura hashimoto kaN de wa ko:ji chu: desu」が出力されることになる。
【００３２】
以上のように、本発明の実施の一形態に係る読みがな付与装置50は、日本語テキストを入力する入力装置51と、単語の発音を登録している辞書、および同一表記で発音の異なる単語間の接続確率を区別して与える言語モデル（Ｎグラムモデル）を記憶するための記憶装置54と、入力装置51によって文頭から文末まで順次入力される日本語テキストについて、前記辞書に登録されている単語の発音により読みがな候補の仮説を複数生成し、前記言語モデルに基づいて当該仮説における単語間の接続確率の積を計算し、単語間の接続確率の積が最大となる仮説のみを残すようにマージし、文末での単語間の接続確率の積が最大となる仮説を選択して読みがなを付与する仮説計算部20および仮説生成・削除部30（ＣＰＵ53、記憶装置54、システムメモリ55）とを設けているので、非現実的な読みがな候補の計算を省き、効率性および利便性を改善することができる。
【００３３】
すなわち、あらかじめ単語分割され各単語に発音がつけられたテキスト（このテキスト中の各単語の品詞情報は含まず）を用い、同一表記で異なる発音が割り振られた単語は別の単語として扱い、発音が付与されていないテキストが入力されると、このテキストの単語間の接続確率を計算し、単語の接続確率の積が高い仮説のみ保持していくことにより、非現実的な単語分割による読みがな候補の計算を省き、単語分割および発音付けを効率的に行うことができる。
【００３４】
なお、本実施形態では入力装置51としてキーボードやマウスを用いた場合について説明したが、本発明はキーボードやマウスのほかに、ＯＣＲなどの読取装置を用いて日本語テキストを入力しても同様の効果が得られるものである。さらに、通信インタフェースを設け、ネットワークを介して日本語テキストデータを取得するように構成しても同様の効果が得られるものである。
【００３５】
また、本実施形態では前記辞書および前記言語モデルのデータを読みがな付与装置側（仮説生成・削除部30、仮説計算部20、記憶装置54、システムメモリ55など）に保持した場合について説明したが、本発明は通信インタフェースを設け、ネットワークを介して前記辞書および前記言語モデルのデータを取得するように構成しても同様の効果が得られるものである。さらに、ネットワークを用いることで辞書および言語モデルの更新や配布が容易となる。
【００３６】
また、本実施形態では前述のステップＳ101〜Ｓ108を含む読みがな付与動作を実行させるための読みがな付与プログラムを記憶装置54からシステムメモリ55にロードした場合について説明したが、本発明は記憶装置54に記憶された前記読みがな付与プログラムのほかに、前記パーソナルコンピュータで読み取り可能な記録媒体（たとえば、磁気ディスク（ＦＤ）、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ、ＩＣカードなど）に記憶された前記読みがな付与プログラムを用いても同様の効果が得られる。さらに、記録媒体を持ち運ぶことでプログラムの更新や移動が容易となる。
【００３７】
また、本発明は記憶装置54に記憶された前記読みがな付与プログラムをシステムメモリ55にロードする方法のほかに、前記読みがな付与プログラムを通信インタフェースおよびネットワークからファイル形式で取得し、前記パーソナルコンピュータで実行する方法によっても同様の効果が得られる。さらに、ネットワークを用いることでプログラムの更新や配布が容易となる。
【００３８】
なお、入力装置51などが前記入力手段を構成し、仮説生成・削除部30、仮説計算部20、記憶装置（ＨＤＤ）54などが前記記憶手段を構成し、仮説生成・削除部30、仮説計算部20、ＣＰＵ53などが前記読みがな付与手段および前記削除手段を構成している。また、ステップＳ103、Ｓ105などが前記第２のステップに相当し、ステップＳ107、Ｓ108などが前記第３のステップに相当している。
【００３９】
【発明の効果】
以上説明したように、本発明は単語の発音を登録している辞書と、発音が異なる同一表記の単語を区別して計算した単語間の接続確率を与える言語モデル（Ｎグラムモデル）を有し、単語の接続確率の積が高い仮説のみ保持していき、文末での単語の接続確率の積が最大となるテキスト発音を選択することにより、下記のような優れた効果を有する読みがな付与装置およびプログラムを提供することができるものである。
（ａ）あらかじめ単語分割されて各単語に発音が付けられたテキストには、テキスト中の各単語に品詞が記載されている必要はない。
（ｂ）辞書に品詞を記載しておく必要はない。
（ｃ）単語の接続確率の積が高い仮説のみ保持することにより、読みがな付与処理を短時間で行うことができる。
【図面の簡単な説明】
【図１】本発明の実施の一形態に係る読みがな付与装置を示すブロック図である。
【図２】本発明の実施の一形態に係る読みがな付与装置（ハードウェア構成）を示すブロック図である。
【図３】本発明の実施の一形態に係る読みがな付与方法を示すフローチャートである。
【図４】本発明の実施の一形態に係る読みがな付与処理を説明する図の一部である。
【図５】本発明の実施の一形態に係る読みがな付与処理を説明する図の一部である。
【符号の説明】
20 仮説計算部
30 仮説生成・削除部
50 読みがな付与装置
51 入力装置
52 表示装置
53 ＣＰＵ
54 記憶装置（ＨＤＤ）
55 システムメモリ

Claims

日本語テキストを入力する入力手段と、単語の発音を登録しているが単語の品詞を登録していない辞書、および同一表記で発音の異なる単語間の接続確率を区別して与える言語モデルを記憶するための記憶手段と、前記入力手段によって文頭から文末まで順次入力される日本語テキストについて、前記辞書に登録されている単語の発音により読みがな候補の仮説を複数生成し、前記言語モデルに基づいて当該仮説における単語間の接続確率の積を前記仮説毎に計算し、単語間の接続確率の積が最大となる仮説のみを残すようにマージし、文末での単語間の接続確率の積が最大となる仮説を選択して読みがなを付与する読みがな付与手段と、前記接続確率の積を前記仮説毎に計算する過程で、単語間の接続確率の前記仮説毎の積が予め決められた範囲内にあるもの以外を削除する削除手段とを設けたことを特徴とする読みがな付与装置。
コンピュータに、文頭から文末まで順次入力される日本語テキストに応じて、単語の発音を登録しているが単語の品詞を登録していない辞書に登録されている単語の発音により読みがな候補の仮説を生成する第１のステップと、現在生成されている仮説より、次に入力される文字で区切れない仮説と区切れる仮説とを新たに生成し、これらの仮説における単語間の接続確率の積を、同一表記で発音の異なる単語間の接続確率を区別して与える言語モデルに基づいて前記仮説毎に計算する第２のステップと、末尾の単語とこの単語の一つ前の単語の発音が同一である仮説がある場合に、単語間の接続確率の積が最大である仮説のみを残すようにマージする第３のステップとを実行させ、前記第２のステップで、単語間の接続確率の前記仮説毎の積の最大値から予め決められた範囲内にある仮説以外を削除することを特徴とするプログラム。
前記言語モデルは、Ｎグラムモデルからなることを特徴とする請求項２に記載のプログラム。