JP4704254B2

JP4704254B2 - 読み修正装置

Info

Publication number: JP4704254B2
Application number: JP2006073137A
Authority: JP
Inventors: 洋平岡登; 知弘岩▲さき▼; 真哉高橋
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2006-03-16
Filing date: 2006-03-16
Publication date: 2011-06-15
Anticipated expiration: 2026-03-16
Also published as: JP2007248886A

Description

この発明は、入力テキストを音声合成する際に、その入力テキストの読み方を修正する読み修正装置に関するものである。

入力テキストを言語解析して中間言語を生成し、その中間言語に対応する音声を出力する音声合成装置の基本的な構成は、中間言語変換処理と音声変換処理の２段階から構成されている。
音声合成の概要については、以下の非特許文献１に開示されている。

即ち、以下の非特許文献１に開示されている従来の音声合成装置では、中間言語変換手段が語彙知識を格納している読み付与辞書を参照して、入力テキストを言語解析することにより、読み（カタカナや音素記号列など）と韻律記号（ポーズ、アクセント、イントネーション、発話速度）からなる中間言語を生成する。
音声合成装置の音声変換手段は、中間言語変換手段により生成された中間言語から入力テキストの韻律パタンを決定し、音声合成単位毎の局所的な音声パタン情報を格納している合成音声辞書を参照して、所望の音声を出力する。

従来の音声合成装置では、入力テキストの読み方を正確に解析するには、中間言語変換手段が読み付与辞書を参照して、正しい読み方と韻律記号を付与する必要がある。
しかし、同一表記に対して複数の読み方が読み付与辞書に格納されている場合、読み付与辞書に格納されている語彙知識に誤りがある場合、あるいは、新語のように読み付与辞書に無い語彙の場合などにおいては、適切な読み方を付与することができないケースがある。
したがって、正しい読み方を付与するには、読み付与辞書に格納されている語彙知識を適宜修正する必要があるが、ユーザが音声変換処理により合成された音声を聞いて、読み誤りの範囲と読み誤りの訂正内容を指定して読み付与辞書を修正することは煩雑である。特に、携帯電話やカーナビなどの小型機器では、一般のユーザが読み付与辞書を修正することは困難である。

そこで、予め複数の読み候補を生成しておき、上位候補の読み上げを実施して、ユーザが読み方の誤りを検出すると、予め登録されている所定の特定語を発声することにより、下位候補を読み上げて訂正する読み修正装置が開発されている（例えば、特許文献１を参照）。

なお、以下の特許文献２には、入力テキストの読み方の修正ではないが、中間言語の韻律記号（特にアクセント）を修正する方法が開示されている。
即ち、以下の特許文献２には、アクセント型を誤って音声合成された語をユーザが正しく発声するだけで、アクセント型を自動的に変更する方法が開示されている。
また、以下の特許文献３には、アクセント型以外の詳細な韻律情報を修正する方法として、テキスト情報の他に、実際に人間が発声した音声情報を補助情報として付加的に使用し、既知の読み方と実際の音声を音素単位で対応付けをとり、音素単位の基本周波数・パワー・継続時間長を修正する方法が開示されている。

「音声」の第４章、田窪行則、前川喜久雄、窪園晴夫、本多清志、白井克彦、中川聖一著、岩波書店発行特開平４−１６０６３０号公報（第６頁から第１０頁、図１）特開平６−３３７６９１号公報（段落番号［００２０］から［００３４］、図１）特開平１０−１５３９９８号公報（段落番号［００２７］、図１）

従来の読み修正装置は以上のように構成されているので、ユーザが所定の特定語を発声すれば、読み上げ対象を変更することができるが、正しい読み候補の読み上げが行われるまで、繰り返し読み候補の読み上げを聞かなければならず、効率的に読み方を修正することができないなどの課題があった。

この発明は上記のような課題を解決するためになされたもので、ユーザが訂正内容を発話するだけで簡単に入力テキストの読み方を修正することができる読み修正装置を得ることを目的とする。

この発明に係る読み修正装置は、入力テキストの言語解析に利用される語彙知識を格納している読み付与辞書と、上記読み付与辞書に格納されている語彙知識を参照して入力テキストを言語解析し、上記入力テキストの読み方を示す中間言語を生成する中間言語生成手段と、上記中間言語生成手段により生成された中間言語が示す読み方に対して、複数の範囲を訂正範囲として、訂正内容に対応付けられた訂正表現の候補を生成する訂正表現候補生成手段と、読み訂正発話を音声入力する音声入力手段と、上記訂正表現候補生成手段により生成された訂正表現の候補の中から、上記音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択し、当該訂正表現に基づいて訂正内容を決定する訂正表現選択手段と、上記訂正表現選択手段により決定された訂正内容にしたがって上記読み付与辞書に格納されている語彙知識を更新する辞書修正手段とを備えたものである。

この発明によれば、入力テキストの言語解析に利用される語彙知識を格納している読み付与辞書と、上記読み付与辞書に格納されている語彙知識を参照して入力テキストを言語解析し、上記入力テキストの読み方を示す中間言語を生成する中間言語生成手段と、上記中間言語生成手段により生成された中間言語が示す読み方に対して、複数の範囲を訂正範囲として、訂正内容に対応付けられた訂正表現の候補を生成する訂正表現候補生成手段と、読み訂正発話を音声入力する音声入力手段と、上記訂正表現候補生成手段により生成された訂正表現の候補の中から、上記音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択し、当該訂正表現に基づいて訂正内容を決定する訂正表現選択手段と、上記訂正表現選択手段により決定された訂正内容にしたがって上記読み付与辞書に格納されている語彙知識を更新する辞書修正手段とを備えるよう構成したので、ユーザが訂正内容を発話するだけで簡単に入力テキストの読み方を修正することができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１による読み修正装置を示す構成図であり、図において、音声合成処理部１は入力テキストを言語解析することにより、その入力テキストの読み方と韻律記号からなる中間言語を生成し、その中間言語に対応する音声を出力する処理を実施する。
音声合成処理部１の読み付与辞書２は入力テキストの言語解析に利用される語彙知識（例えば、単語情報、未知語処理用のサブワード情報など）を格納している。
音声合成処理部１の中間言語生成部３は読み付与辞書２に格納されている語彙知識を参照して入力テキストを言語解析し、その入力テキストの読み方と韻律記号からなる中間言語を生成する処理を実施する。
即ち、中間言語生成部３は入力テキストを言語解析して、その入力テキストを構成している単語、サブワード又は音節を抽出し、読み付与辞書２から当該単語、サブワード又は音節に対応する語彙知識を取得して、入力テキスト全体の読み方と韻律記号を推定する。このとき、ポーズ位置や声の大きさの制御情報や未知語・複合名詞に対する韻律情報を付与する。
なお、中間言語生成部３は中間言語生成手段を構成している。

ここで、「単語」は言語的な意味単位であり、通常、日本語の言語的最小単位である形態素や形態素の組合せ等の単位が用いられる。
「単語情報」はテキスト表記と、対応する中間言語（読み方・韻律記号）と、品詞・意味・接続スコア等の解析を行うための付随情報とから構成されている。
中間言語の読み方は、カタカナやローマ字で書かれるテキスト表記に対応する音韻情報であり、例えば、表記が「神奈川」であれば、読み方として「カナガワ」が記載されている。
中間言語の韻律記号は、声の高さ・声の大きさ・継続時間・ポーズ情報等の韻律表現であり、中間言語の読み方と混在して記載されている。例えば、声のアクセントの位置を「↓」記号として、「カ↓ナガワ」のように表現されている。

また、「サブワード」は、テキスト表記又は読み１文字以上に対応する中間言語の表記であり、通常、単語より短い単位である。
「サブワード情報」も単語情報と同様であるが、サブワード情報はアクセント情報（韻律記号）を含まず、単語登録されていない未知語に読み方を付与する際に用いられる。例えば、表記が「神奈川」であれば、予め「神（カ）」「奈（ナ）」「川（ガワ）」の３つのサブワードが定義されている。例えば、表記が「神奈」であれば、読み方として「カナ」を推定するのに用いられる。
上記の中間言語は、音声合成用のものであるが、韻律記号の除去などの簡単な処理を行うことにより、音声認識のための読みに変換することができる。

音声合成処理部１の合成音声辞書４は中間言語に対応する音声の断片的な短時間特徴を表す音声波形や音声生成用のパラメータを格納している。
音声合成処理部１の音声変換部５は合成音声辞書４から中間言語生成部３により生成された入力テキストの読み方に対応する音声合成単位の音声短時間パラメータを取得し、中間言語の韻律記号に応じて声の高さ・声の大きさ・読み上げの速さ・ポーズの長さなどの韻律情報を制御して、音声合成単位の音声短時間パラメータから合成音声を生成する。
読み上げ内容表示部６は入力テキスト又は中間言語の少なくとも一方に基づいて読み方を画面上に表示する処理を実施する。
なお、音声変換部５及び読み上げ内容表示部６から読み方提示手段が構成されている。

訂正表現候補生成部７は読み付与辞書２から入力テキストを構成している単語、サブワード又は音節の読み方に対応する語彙知識を取得して、中間言語生成部３により生成された入力テキストの読み方に対する訂正表現の候補を生成し、その訂正表現の候補と読み方の訂正内容（訂正前の読み方、訂正後の読み方）との対応付けを実施する。
認識辞書変換部８は訂正表現候補生成部７により生成された訂正表現の候補を表しているデータ形式を音声認識辞書１０に対応するデータ形式に変換する。即ち、認識辞書変換部８は訂正表現候補生成部７により生成された訂正表現の候補を音声認識辞書１０に格納されている照合用標準パタンと同様のデータ形式に変換する。
なお、訂正表現候補生成部７及び認識辞書変換部８から訂正表現候補生成手段が構成されている。

音声入力部９はユーザが発する訂正内容（読み訂正発話）を音声入力し、その訂正内容をＡ／Ｄ変換してディジタルの音声信号を出力する。なお、音声入力部９は音声入力手段を構成している。
音声認識辞書１０は照合用標準パタンを格納しており、その照合用標準パタンは予め音響特徴量に変換されている学習用音声データから推定された音声認識単位（例えば、音素）の標準パタンである。
音声認識部１１は認識辞書変換部８によりデータ形式が変換された訂正表現の候補の中から、音声入力部９により音声入力された訂正内容に対応する訂正表現を選択する処理を実施する。
即ち、音声認識部１１は音声入力部９から出力された音声信号に対する音声認識処理を実施して、その音声信号から音響特徴量を抽出し、その音響特徴量を認識辞書変換部８によりデータ形式が変換された訂正表現の候補の音響単位の系列にしたがって照合用標準パタンの音響モデルと照合することにより、各訂正表現の候補の照合スコアを求め、最も照合スコアが高い訂正表現を選択する。

訂正内容判定部１２は音声認識部１１により選択された訂正表現から読み方の訂正内容を決定する。
なお、照合用標準パタン１０、音声認識部１１及び訂正内容判定部１２から訂正表現選択手段が構成されている。

訂正内容確認部１３は訂正内容判定部１２により決定された訂正内容又は音声認識部１１により選択された訂正表現を提示し、訂正の了承を受け付ける処理を実施する。
読み付与辞書修正部１４は訂正内容確認部１３により訂正の了承が受け付けられた場合、訂正内容判定部１２により決定された訂正内容にしたがって読み付与辞書２に格納されている語彙知識を更新する処理を実施する。
なお、訂正内容確認部１３及び読み付与辞書修正部１４から辞書修正手段が構成されている。
図２はこの発明の実施の形態１による読み修正装置の処理内容を示すフローチャートである。

次に動作について説明する。
ここでは説明の便宜上、入力テキストとして「私は愛美です」が音声合成処理部１に入力されるものとして説明する。
この入力テキストの場合、表記「私」の読み方は「ワタシ」に特定されるが、表記「愛美」の読み方に曖昧性があり、「メグミ」「マナミ」「アイミ」の３通りの読み方があるものとする。

音声合成処理部１の中間言語生成部３は、入力テキスト「私は愛美です」が与えられると、その入力テキストを言語解析して、その入力テキストを構成している単語、サブワード又は音節を抽出する。
この例では、「私」「は」「愛美」「です」を抽出する。
中間言語生成部３は、入力テキストを構成している単語、サブワード又は音節を抽出すると、読み付与辞書２から当該単語、サブワード又は音節に対応する語彙知識を取得して、中間言語（入力テキスト全体の読み方と韻律記号）を生成する（ステップＳＴ１）。
入力テキスト全体の読み方は、次にようにして生成する。

例えば、表記「愛美」に着目すると、「メグミ」「マナミ」「アイミ」の３通りの読み方があるので、入力テキスト全体の読み方として、「ワタシハメグミデス」「ワタシハマナミデス」「ワタシハアイミデス」の３通りの読み方を生成することができる。
そこで、中間言語生成部３は、３通りの読み方の妥当性を考慮したスコアや優先規則等の基準にしたがって最大スコアになる中間言語を生成する。
例えば、表記「愛美」に対する読み方「メグミ」「マナミ」「アイミ」の妥当性を表すスコアがそれぞれ５：４：１である旨の語彙知識が読み付与辞書２に格納されていれば、「ワタシハメグミデス」の読み方が最大スコアになるので、中間言語として「ワタシハメグミデス」を生成する。
このとき、中間言語生成部３は、ポーズ位置や声の大きさの制御情報や未知語・複合名詞に対する韻律記号も生成する。
なお、中間言語生成部３による中間言語の生成処理自体は公知の技術であり、例えば、上記の非特許文献１に開示されている。

音声合成処理部１の音声変換部５は、中間言語生成部３が中間言語を生成すると、合成音声辞書４から入力テキストの読み方に対応する音声合成単位の音声短時間パラメータを取得し、中間言語生成部３により生成された韻律記号に応じて声の高さ・声の大きさ・読み上げの速さ・ポーズの長さなどの韻律情報を制御して、音声合成単位の音声短時間パラメータから合成音声を生成し、その合成音声を出力する（ステップＳＴ２）。
即ち、中間言語生成部３により生成された韻律記号に基づいて点ピッチモデルからピッチ成分を推定し、音素を単位として切り出された音声素片を接続することにより合成音声を生成し、その合成音声を出力する。
ピッチパターンの生成方法は、藤崎モデルや点ピッチモデルが一般的であり、例えば、上記の非特許文献１の第１６７頁に開示されている。また、音声波形の生成方法については上記の非特許文献１の第１７０頁以降に開示されている。
また、読み上げ内容表示部６は、入力テキスト又は中間言語の少なくとも一方に基づいて、入力テキストの読み方を画面上に表示する。

訂正表現候補生成部７は、読み付与辞書２から入力テキストを構成している単語、サブワード又は音節の読み方に対応する語彙知識を取得して、中間言語生成部３により生成された入力テキストの読み方に対する訂正表現の候補を生成し、その訂正表現の候補と読み方の訂正内容（訂正前の読み方、訂正後の読み方）との対応付けを実施する（ステップＳＴ３）。
即ち、訂正表現候補生成部７は、入力テキストの中で表記「愛美」の読み方に曖昧性があるので、中間言語生成部３により生成された中間言語の中で表記「愛美」の読み方が訂正範囲であると認識する。
また、訂正表現候補生成部７は、表記「愛美」の読み方が「メグミ」「マナミ」「アイミ」の３通りあり、中間言語生成部３により読み方「メグミ」が選択されているので、読み方「メグミ」を「マナミ」や「アイミ」に訂正する訂正表現を生成する。
具体的な訂正表現としては、訂正前と訂正後の表現の組合せ（例えば、「メグミデワナクマナミ」、「メグミヲマナミニシュウセイ」）、あるいは、訂正後の表現（例えば、「マナミ」「マナミニシュウセイ」）が考えられる。

ただし、訂正表現候補生成部７は、ユーザが訂正範囲として、読み付与辞書２の単語単位と同じように発声するとは限らないので、複数の範囲を訂正範囲として、訂正表現の候補を生成する。
例えば、読み方「メグミ」と「メグミデス」を訂正範囲として、訂正表現の候補を生成する。例えば、「マナミ」と「マナミデス」を生成する。生成した訂正表現の候補は、訂正範囲・訂正結果の組合せである訂正内容と対応付けを行う。
なお、訂正表現候補生成部７は、上記のようにして、入力テキストの読み方に対する訂正表現の候補を生成する際、後述する音声認識部１１が音声認識処理時に重み付け情報を考慮することにより音声認識率の高精度化を図ることができるので、「マナミ」「アイミ」の重み付け情報が読み付与辞書２に格納されていれば、その重み付け情報を訂正表現の候補に付加する。

認識辞書変換部８は、訂正表現候補生成部７が訂正表現の候補を生成すると、その訂正表現の候補を表しているデータ形式を音声認識辞書１０に対応するデータ形式に変換する（ステップＳＴ４）。
即ち、認識辞書変換部８は、訂正表現候補生成部７により生成された訂正表現の候補を音声認識辞書１０に格納されている照合用標準パタンと同様のデータ形式に変換する。
例えば、訂正表現の候補の一部である「マナミ」「アイミ」に着目すると、音声認識辞書１０の最小単位が音素である場合（概ね、ローマ字表記の１文字に相当）、「マナミ」「アイミ」をそれぞれ／ｍａｎａｍｉ／、／ａｉｍｉ／のように音素表現（照合用標準パタンと同じデータ形式）に展開する。

この際、認識辞書変換部８は、訂正表現の候補を音素表現に展開すると、探索候補を削減するため、音素をノードとするネットワーク構造に変換する。
図３は音声認識辞書１０の内部構造の一例を示す説明図であり、図３の例では、訂正表現の一部である音素表現／ｍａｎａｍｉ／、／ａｉｍｉ／の共通部分｛ｍｉ｝のノードをマージしてノード数を減らすことにより、探索候補の削減を図っている。
なお、「マナミ」「アイミ」に重み付け情報があれば、ネットワークのノードやアーク通過時や認識結果算出時に加算処理を実施して、認識時のスコア計算に反映させることができる。

音声入力部９は、ユーザが発する訂正内容（読み訂正発話）を音声入力し、その訂正内容をＡ／Ｄ変換してディジタルの音声信号を出力する（ステップＳＴ５）。
例えば、音声入力部９を構成しているマイクが、読み訂正発話である音声信号をサンプリング周期１１．２５ｋＨｚでサンプリングし、そのサンプリングした音声信号を量子化ビット数１６ｂｉｔでＡ／Ｄ変換する。

音声認識部１１は、認識辞書変換部８によりデータ形式が変換された訂正表現の候補の中から、音声入力部９により音声入力された訂正内容に対応する訂正表現を選択する（ステップＳＴ６）。
即ち、音声認識部１１は、音声入力部９から出力された音声信号に対する音声認識処理を実施して、その音声信号から音響特徴量を抽出し、その音響特徴量を認識辞書変換部８によりデータ形式が変換された訂正表現の候補の音響単位の系列にしたがって照合用標準パタン１０の音響モデルと照合することにより、各訂正表現の候補の照合スコアを求め、最も照合スコアが高い訂正表現を選択する。
例えば、音声入力部９により音声入力された訂正内容の音声認識結果が「マナミ」であれば、「マナミ」や「マナミデス」や「マナミニシュウセイ」など、「マナミ」を含む訂正表現の照合スコアが高くなる。

以下、音声認識処理の手順を簡単に説明する。
ただし、音声認識処理のアルゴリズムは、下記の非特許文献２に開示されており、例えば、非特許文献２に開示されているアルゴリズムで音声認識処理を実施する。
・非特許文献２
「音声認識の基礎（上）（下）」ＬａｗｒｅｎｃｅＲａｂｉｎｅｒ、Ｂｉｉｎｇ−ＨｗａｎｇＪｕａｎｇ共著、古井貞煕監訳、ＮＴＴアドバンステクノロジ株式会社

音声認識部１１は、音声入力部９から出力された音声信号から、適当な時間間隔毎に音声の特徴を表している特徴ベクトルを抽出する。
例えば、特徴ベクトルとしては、１０ｍｓ間隔で２５６点フーリエ変換及び対数化・逆フーリエ変換により算出される１２次元のメルケプストラムを用いる。
音声認識部１１は、音声の特徴を表している特徴ベクトルを抽出すると、音声認識辞書１０に格納されている照合用標準パタン及び認識辞書変換部８によりデータ形式が変換された訂正表現の候補を参照して、音声認識語彙の中から、上記の特徴ベクトルと照合の度合いが最も高い単語又は単語系列を取得する。

なお、照合用標準パタンは音素を単位としており、入力音響特徴ベクトルの各状態が８混合ガウス分布、時系列が自己回帰アークであり、後戻りアーク無しの３状態の隠れマルコフモデルをモデル化して、事前にパラメータを推定しているものとする。
音声認識部１１は、音声認識辞書１０に格納されている照合用標準パタンが入力音響特徴ベクトルを生成する最大確率をビタビアルゴリズムにより算出する。
そして、その最大確率をスコアとして、通過経路である音素時系列を認識結果とする。

訂正内容判定部１２は、音声認識部１１が音声入力部９により音声入力された訂正内容に対応する訂正表現を選択すると、その訂正表現から読み方の訂正内容を決定する（ステップＳＴ７）。
具体的には、音声認識部１１により選択された訂正表現が例えば「マナミデス」であれば、訂正表現候補生成部７から出力される訂正範囲等を参照することにより、その訂正表現に対応する元の表現が「メグミデス」であると認識し、「メグミデス」→「マナミデス」を訂正内容に決定する。

訂正内容確認部１３は、訂正内容判定部１２が訂正内容に決定すると、その訂正内容又は音声認識部１１により選択された訂正表現を提示し、訂正の了承を受け付ける処理を実施する（ステップＳＴ８）。
具体的には、図４に示すように、訂正内容判定部１２により決定された訂正内容を画面上に表示し、ユーザがボタン操作や音声入力によって訂正内容の了承を受け付けるようにする。
図４の例では、訂正箇所の表記「愛美」に係る訂正前の読み方「メグミ」と訂正後の読み方「マナミ」を表示しているが、図５に示すように、入力テキスト全文の読み方「私は愛美です」を表示するとともに、訂正箇所の表記「愛美」に対して訂正後の読み方「マナミ」をフリガナで表示するようにしてもよい。
また、音声認識部１１により選択された訂正表現として、例えば、「ワタシハマナミデス」を表示し、例えば、訂正箇所の読み方「マナミ」を他の箇所の読み方「ワタシハ、デス」より太文字で強調表示するなど、訂正箇所の読み方「マナミ」を他の箇所の読み方と異なる調子で表示するようにしてもよい。

ここでは、訂正内容確認部１３が訂正内容等を画面上に表示するものについて示したが、例えば、「メグミヲマナミニシュウセイシマス」や「ワタシハマナミデス」のような訂正内容等を音声によって提示するようにしてもよい。
この際、訂正箇所の読み方の声質・声の大きさ・声の高さ・音素の継続時間長・ポーズ長の少なくとも一つを通常の発声と変えることにより、訂正内容を強調してユーザに提示するようにしてもよい。

読み付与辞書修正部１４は、訂正内容確認部１３により訂正の了承が受け付けられた場合、訂正内容判定部１２により決定された訂正内容にしたがって読み付与辞書２に格納されている語彙知識を更新する（ステップＳＴ９）。

この実施の形態１では、訂正前発話と訂正後発話の対応付けを１発話で行う場合について示したが、訂正前表現の発話と訂正後表現の発話に分割して、ユーザが２発話を行うようにしてもよい。
図６はユーザが２発話を行う場合の処理内容を示すフローチャートである。
この場合、訂正表現候補生成部７は、上記の説明と同様にして、訂正表現の候補（以下、訂正後表現という）を生成する他に、訂正前表現（訂正前表現は入力テキストに相当）を生成する（ステップＳＴ３）。
認識辞書変換部８は、上記の説明と同様にして、訂正表現候補生成部７により生成された訂正後表現を照合用標準パタンに対応するデータ形式に変換する他に（ステップＳＴ１４）、訂正表現候補生成部７により生成された訂正前表現を照合用標準パタンに対応するデータ形式に変換する（ステップＳＴ１１）。

音声認識部１１は、音声入力部９が訂正前表現の発話を音声入力して、その音声信号を出力すると（ステップＳＴ１２）、その音声信号に対する音声認識処理を実施して訂正前表現を解析する（ステップＳＴ１３）。
また、音声認識部１１は、音声入力部９が訂正後表現の発話を音声入力して、その音声信号を出力すると（ステップＳＴ１５）、その音声信号に対する音声認識処理を実施して訂正後表現を解析する（ステップＳＴ１６）。
音声認識部１１は、訂正前表現と訂正後表現を解析すると、以下、上記の説明と同様にして、訂正後表現である訂正表現の候補の照合スコアを求め、最も照合スコアが高い訂正表現を選択する（ステップＳＴ１７）。

この実施の形態１では、表記「愛美」に対応する単語が読み付与辞書２に登録されているものについて示したが、表記と読み方が対応する点では、単語とサブワードの扱いは同様であるため、表記「愛美」に対応する単語が読み付与辞書２に登録されていない場合、表記「愛美」に対応するサブワードの読み方を参照するようにすればよい。この場合、単語が読み付与辞書２に登録されていない未知語も処理することができる。
例えば、表記「朝青龍」に対応する単語が読み付与辞書２に登録されていない未知語であれば、読み付与辞書２に格納されているサブワードを参照して、表記「朝青龍」の読み方として、例えば「チョウセイリュウ」を付与する。
この場合、読み方「チョウセイリュウ」を「アサショウリュウ」に修正することになるが、読み付与辞書２は、未知語を処理するサブワードとして、図７に示すような同一の表記に対して様々な読み方を保持している。

中間言語生成部３は、入力テキストの表記が未知語であれば、読み付与辞書２から同一の表記に対する音読み・訓読み等のサブワードの言語情報や接続スコア等を利用して、１つの読み方を選択する。
図８は図７のサブワードから取得可能な読み方をネットワーク展開している説明図であり、図８の例では、２７通りの読み方を候補として取得している。
この際、音読みと訓読みが接続され難いなどの言語的な知見を考慮して接続関係を設定すること、あるいは、接続関係に重みを付与することにより、更なる高精度化が可能である。

このような読み方の付与方式では、例えば、表記「ＡＰＲＩＬ」に対して「シガツ」というように、文字的な対応が全く取れない未知語表現の読み方を修正することはできないが、ほとんどの辞書未登録の語彙に対して正解の読み方の候補を付与することができる。例えば、施設名であれば、９９％以上をカバーすることができ、未知語対策として有効である。

さらに、訂正後表現の音声認識に対する制約を緩和し、単語・サブワード言語情報と組合せ重み付けを行うことで、表記「ＡＰＲＩＬ」に対する読み方を「シガツ」に設定することが可能な読み付与辞書２の構成も可能である。
現状の音声認識技術では、言語制約が弱い場合、カタカナ１文字に相当する読み方の認識率は静かな環境でも８０％程度であり、表記と全く対応が取れない未知語に適切な読み方を付与することは困難である。
しかし、聴取している利用者は、前後の文脈を利用しているため、１文字程度の誤りであれば、全く読み誤るよりは了解性が高いと考えられる。

図９は訂正後表現に対して、重みを用いて任意の文字連鎖を受理可能とする読み付与辞書２を構成する算出式をブロック化して示したものである。
図９の例では、読み付与辞書２において、該当表記の単語が存在する場合は重みｗ１、該当表記のサブワード連鎖が存在する場合は重みｗ２、任意の文字連鎖に対する音声認識辞書へは重みｗ３を付加するようにしている。
なお、それぞれの重みは、読み付与辞書２における未知語の割合や、サブワードでカバーすることができない表現の割合を考慮して決定される。

一般に重みｗ１が最も大きく、重みｗ３が一番小さい値になる。このため、読み付与辞書２の単語又はサブワード連鎖と訂正後表現の音響的な類似性が少なく、スコアが低い場合に限り、任意音節接続の相対的なスコアが上昇することになる。
この結果、単語やサブワードが登録されている語彙が発声された場合への悪影響を抑えつつ、表記と全く対応が取れない読み方を、言語制約無しの音声認識処理による認識結果を読み候補として、ユーザに提示することができる。

この実施の形態１では、音声変換部５が合成音声を生成して、その合成音声を出力するものについて示したが、読み付与の曖昧性がある箇所の韻律記号を他の箇所の韻律記号と異なるように合成音声を生成して、その合成音声を出力するようにしてもよい。
また、読み上げ内容表示部６が入力テキストの読み方を画面上に表示する際、読み付与の曖昧性がある箇所の表示形態を他の箇所の表示形態と異なるように表示してもよい。

具体的には、音声変換部５及び読み上げ内容表示部６が読み方の修正の可能性が大きいと判定した範囲の入力テキストに対して、所定の条件を満足するまでの間、ユーザに対する提示形態を通常と変えるようにする。
所定の条件としては、例えば、音声変換部５が同一の入力テキストに対して、３回まで韻律記号を変えてユーザに提示し、変更後、あるいは、３回提示後は通常通りの提示形態に戻すようにする。

読み方の修正の可能性が大きいと判定する例としては、（１）読み付与候補が複数存在して、読み付与時の候補間のスコア差が小さい場合や、（２）サブワード連接により未知語の読み付与処理を行った場合などがある。
（１）の例としては次のようなものがある。
表記「愛美」に対する読み方「メグミ」「マナミ」「アイミ」のスコアがそれぞれ５：４：１であり、最大スコアの読み方「メグミ」を選択したものとする。
この場合、読み候補が複数あり、かつ、読み方「マナミ」とのスコア差が僅差の“１”であるため、読み方の修正の可能性が大きいと判定する。
（２）の例としては次のようなものがある。
表記「朝青龍」に対して未知語の読み付与処理を行うことにより、読み方「チョウセイリュウ」が付与された場合、読み方の修正の可能性が大きいと判定する。

音声変換部５が、読み付与の曖昧性がある箇所の韻律記号を他の箇所の韻律記号と変える具体的な例としては、アクセントを末尾上がりとして、発話速度を遅くするとともに、単語の後に短いポーズを付与するなどが考えられる。
また、読み上げ内容表示部６が、読み付与の曖昧性がある箇所の表示形態を他の箇所の表示形態と異なるように表示する具体的な例としては、下線・太字・文字色などにより該当箇所の表示形態を通常と変えるなどが考えられる。

以上で明らかなように、この実施の形態１によれば、中間言語生成部３により生成された中間言語が示す読み方に対する訂正表現の候補を生成する訂正表現候補生成部７と、訂正表現候補生成部７により生成された訂正表現の候補の中から、音声入力部９により音声入力された読み訂正発話に対応する訂正表現を選択する音声認識部１１とを設け、音声認識部１１により選択された訂正表現にしたがって読み付与辞書２に格納されている語彙知識を更新するように構成したので、ユーザが訂正内容を発話するだけで簡単に入力テキストの読み方を修正することができる効果を奏する。

また、この実施の形態１によれば、訂正表現候補生成部７が訂正表現の候補を生成する際、読み付与辞書２から入力テキストを構成している単語、サブワード又は音節の読みに対応する語彙知識を取得して訂正表現の候補を生成するように構成したので、入力テキストの表記に対応する単語が読み付与辞書２に格納されていない場合でも、訂正表現の候補を生成することができるようになり、その結果、読み付与辞書２に登録されていない未知語にも対処することができる効果を奏する。

この実施の形態１によれば、読み付与辞書修正部１４が読み付与辞書２に格納されている語彙知識を更新するに際して、訂正内容判定部１２により決定された訂正内容又は音声認識部１１により選択された訂正表現を提示し、訂正が了承された場合に限り、その訂正内容にしたがって読み付与辞書２に格納されている語彙知識を更新するように構成したので、読み方の訂正内容に対するユーザの了解性を改善することができる効果を奏する。

この実施の形態１によれば、訂正内容確認部１３が訂正対象の読み方を他の箇所の読み方と異なる調子で提示するように構成したので、ユーザが確実に訂正内容を確認することができる効果を奏する。

実施の形態２．
図１０はこの発明の実施の形態２による読み修正装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
時刻同期取得部２１は音声入力部９による読み訂正発話の音声入力時刻と、音声変換部５による合成音声の出力時刻又は読み上げ内容表示部６による読み方の表示時刻とを取得する処理を実施する。
選択対象限定部２２は訂正表現候補生成部７により生成された訂正表現の候補の中から、時刻同期取得部２１により取得された時刻を基準にして、実際に選択可能な訂正表現の候補を限定する処理を実施する。なお、時刻同期取得部２１及び選択対象限定部２２は訂正表現選択手段を構成している。
図１１はこの発明の実施の形態２による読み修正装置の処理内容を示すフローチャートである。

次に動作について説明する。
ユーザは、音声変換部５から出力された合成音声を聞いた時点、あるいは、読み上げ内容表示部６により表示された読み方を見た時点で読み方の誤りに気がついて、音声入力部９に対する読み訂正発話を行う。
したがって、音声変換部５から合成音声が出力される前（あるいは、読み上げ内容表示部６により読み方が表示される前）に行われた音声入力部９に対する読み訂正発話や、訂正表現候補生成部７により生成された訂正表現の候補は、上記の誤りを訂正する読み方に関係するものではないと考えられる。
また、音声変換部５から合成音声が出力された後（あるいは、読み上げ内容表示部６により読み方が表示された後）、多くの時間が経過した後に行われた音声入力部９に対する読み訂正発話や、訂正表現候補生成部７により生成された訂正表現の候補は、上記の誤りを訂正する読み方に関係するものではないと考えられる。

そこで、この実施の形態２では、音声変換部５から合成音声が出力された後（あるいは、読み上げ内容表示部６により読み方が表示された後）、一定時間以内に行われた音声入力部９に対する読み訂正発話と、訂正表現候補生成部７により生成された訂正表現の候補とが、上記の誤りを訂正する読み方に関係するものであるとして、それ以外の訂正表現の候補を除外するようにする。
以下、時刻同期取得部２１及び選択対象限定部２２の処理内容を具体的に説明する。

時刻同期取得部２１は、音声入力部９が読み訂正発話を音声入力すると、音声入力部９による読み訂正発話の音声入力時刻を取得する。
また、時刻同期取得部２１は、音声変換部５が合成音声を出力すると、音声変換部５による合成音声の出力時刻を取得する。あるいは、読み上げ内容表示部６が読み方を表示すると、読み上げ内容表示部６による読み方の表示時刻を取得する（ステップＳＴ２１）。

選択対象限定部２２は、訂正表現候補生成部７により生成された訂正表現の候補の中から、時刻同期取得部２１により取得された時刻を基準にして、音声認識部１１が実際に選択可能な訂正表現の候補を限定する。
即ち、選択対象限定部２２は、音声入力部９による読み訂正発話の音声入力時刻が、音声変換部５による合成音声の出力時刻（あるいは、読み上げ内容表示部６による読み方の表示時刻）から一定時間以内であるか否かを判定する。
選択対象限定部２２は、音声入力部９による読み訂正発話の音声入力時刻が合成音声の出力時刻から一定時間以内であれば、訂正表現候補生成部７により生成された訂正表現の候補の中から、音声変換部５から出力された合成音声の元になっている中間言語に対する訂正表現の候補を選択する（ステップＳＴ２２）。

したがって、選択対象限定部２２は、訂正表現候補生成部７により生成された訂正表現の候補であっても、音声入力部９による読み訂正発話の音声入力時刻が合成音声の出力時刻から一定時間以内でなければ、その合成音声の元になっている中間言語に対する訂正表現の候補は、選択対象の訂正表現の候補から除外する。
これにより、認識辞書変換部８には、選択対象限定部２２により選択された訂正表現の候補のみが与えられ、その訂正表現の候補のデータ形式を変換する。
以下、上記実施の形態１と同様であるため説明を省略する。

以上で明らかなように、この実施の形態２によれば、音声認識部１１が音声入力部９により音声入力された読み訂正発話に対応する訂正表現を選択するに際して、音声入力部９による読み訂正発話の音声入力時刻と音声変換部５による合成音声の出力時刻（あるいは、読み上げ内容表示部６による読み方の表示時刻）とを基準にして、選択対象の訂正表現の候補を限定するように構成したので、不要な対立仮説が排除されるようになり、その結果、訂正発話の音声認識率を改善することができるとともに、演算量の負荷を軽減することができる効果を奏する。

実施の形態３．
図１２はこの発明の実施の形態３による読み修正装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
訂正箇所取得部２３は読み上げ内容表示部６により表示された読み方の中から、訂正箇所（訂正対象の読み方）の指定を受け付ける処理を実施する。なお、訂正箇所取得部２３は訂正対象指定手段を構成している。
選択対象限定部２４は訂正表現候補生成部７により生成された訂正表現の候補の中から、訂正箇所取得部２３により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定する処理を実施する。なお、選択対象限定部２４は訂正表現選択手段を構成している。
図１３はこの発明の実施の形態３による読み修正装置の処理内容を示すフローチャートである。

上記実施の形態２では、音声入力部９による読み訂正発話の音声入力時刻と音声変換部５による合成音声の出力時刻（あるいは、読み上げ内容表示部６による読み方の表示時刻）とを基準にして、選択対象の訂正表現の候補を限定するものについて示したが、訂正箇所取得部２３が訂正箇所（訂正対象の読み方）の指定を受け付けて、選択対象限定部２４が訂正箇所取得部２３により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定するようにしてもよい。
具体的には、以下の通りである。

読み上げ内容表示部６は、入力テキスト又は中間言語の少なくとも一方に基づいて、入力テキストの読み方を画面上に表示する（ステップＳＴ３１）。図１４は入力テキストの読み方の表示例を示す説明図である。
訂正箇所取得部２３は、読み上げ内容表示部６が図１４に示すような画面を表示すると、ユーザによる操作デバイス（例えば、キーボード、タッチパネル、マウス）の操作を監視して、訂正箇所の指定を受け付ける処理を実施する（ステップＳＴ３２）。
例えば、操作デバイスがタッチパネルである場合、ユーザが「愛美」の表示位置に触れれば、表記「愛美」が訂正箇所であると認識する。
また、操作デバイスがキーボードやマウスである場合、訂正箇所までカーソルを移動すれば、同様に訂正箇所を指定することができる。
ここでは、ユーザが操作デバイスを操作して、訂正箇所を指定するものについて示したが、例えば、ユーザが「マナミ」と発声することにより、音声で訂正箇所「マナミ」を指定するようにしてもよい。

選択対象限定部２４は、訂正表現候補生成部７により生成された訂正表現の候補の中から、訂正箇所取得部２３により受け付けられた指定内容にしたがって、音声認識部１１が実際に選択可能な訂正表現の候補を限定する。
即ち、選択対象限定部２４は、訂正表現候補生成部７により生成された訂正表現の候補の中から、訂正箇所取得部２３により指定された訂正箇所（訂正対象の読み方）の元になっている中間言語に対する訂正表現の候補を選択する（ステップＳＴ３３）。
したがって、選択対象限定部２４は、訂正表現候補生成部７により生成された訂正表現の候補であっても、訂正箇所取得部２３により指定された訂正箇所（訂正対象の読み方）の元になっていない中間言語に対する訂正表現の候補は、選択対象の訂正表現の候補から除外する。
これにより、認識辞書変換部８には、選択対象限定部２４により選択された訂正表現の候補のみが与えられ、その訂正表現の候補のデータ形式を変換する。
以下、上記実施の形態１と同様であるため説明を省略する。

以上で明らかなように、この実施の形態３によれば、訂正表現候補生成部７により生成された訂正表現の候補の中から、訂正対象の読み方を指定する訂正箇所取得部２３を設け、選択対象限定部２４が訂正箇所取得部２３により指定された訂正対象の読み方に応じて選択対象の訂正表現の候補を限定するように構成したので、不要な対立仮説が排除されるようになり、その結果、訂正発話の音声認識率を改善することができるとともに、演算量の負荷を軽減することができる効果を奏する。

この実施の形態３では、訂正箇所取得部２３及び選択対象限定部２４を上記実施の形態１における図１の読み修正装置に適用するものについて示したが、訂正箇所取得部２３及び選択対象限定部２４を上記実施の形態２における図１０の読み修正装置に適用するようにしてもよい。

実施の形態４．
図１５はこの発明の実施の形態４による読み修正装置を示す構成図であり、図において、図１２と同一符号は同一または相当部分を示すので説明を省略する。
訂正表現選択部２５は図１２の選択対象限定部２４と同様に、訂正表現候補生成部７により生成された訂正表現の候補の中から、訂正箇所取得部２３により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定する処理を実施する。また、訂正表現選択部２５は限定後の訂正表現の候補を画面上に表示して、限定後の訂正表現の候補の中から、実際に使用する訂正表現の選択を受け付ける処理を実施する。なお、訂正表現選択部２５は訂正表現選択手段を構成している。
図１６はこの発明の実施の形態４による読み修正装置の処理内容を示すフローチャートである。

上記実施の形態３では、訂正箇所取得部２３が訂正箇所（訂正対象の読み方）の指定を受け付けて、選択対象限定部２４が訂正箇所取得部２３により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定するものについて示したが、訂正表現選択部２５が選択対象限定部２４による限定後の訂正表現の候補を画面上に表示して、限定後の訂正表現の候補の中から、実際に使用する訂正表現の選択を受け付けるようにしてもよい。
具体的には、以下の通りである。

訂正表現選択部２５は、訂正箇所取得部２３が訂正箇所（訂正対象の読み方）を指定すると、図１２の選択対象限定部２４と同様に、訂正表現候補生成部７により生成された訂正表現の候補の中から、訂正箇所取得部２３により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定する。
訂正表現選択部２５は、選択可能な訂正表現の候補を限定すると、限定後の訂正表現の候補を画面上に表示して（ステップＳＴ４１）、限定後の訂正表現の候補の中から、実際に使用する訂正表現の選択を受け付ける処理を実施する（ステップＳＴ４２）。
訂正表現選択部２５は、実際に使用する訂正表現の選択を受け付けると、図１の訂正内容判定部１２と同様にして、その訂正表現から読み方の訂正内容を決定する。
以下、上記実施の形態１と同様であるため説明を省略する。

以上で明らかなように、この実施の形態４によれば、訂正表現選択部２５が限定後の訂正表現の候補を画面上に表示して、限定後の訂正表現の候補の中から、実際に使用する訂正表現の選択を受け付けるように構成したので、上記実施の形態１と同様の効果を奏する他に、読み方の訂正内容に対するユーザの了解性を更に改善することができる効果を奏する。

この発明の実施の形態１による読み修正装置を示す構成図である。この発明の実施の形態１による読み修正装置の処理内容を示すフローチャートである。音声認識辞書の内部構造の一例を示す説明図である。訂正内容の提示例を示す説明図である。訂正内容の提示例を示す説明図である。この発明の実施の形態１による読み修正装置の処理内容を示すフローチャートである。未知語処理用のサブワードを示す説明図である。図７のサブワードから取得可能な読み方をネットワーク展開している説明図である。訂正後表現に対して、重みを用いて任意の文字連鎖を受理可能とする読み付与辞書を構成する算出式を示す説明図である。この発明の実施の形態２による読み修正装置を示す構成図である。この発明の実施の形態２による読み修正装置の処理内容を示すフローチャートである。この発明の実施の形態３による読み修正装置を示す構成図である。この発明の実施の形態３による読み修正装置の処理内容を示すフローチャートである。入力テキストの読み方の表示例を示す説明図である。この発明の実施の形態４による読み修正装置を示す構成図である。この発明の実施の形態４による読み修正装置の処理内容を示すフローチャートである。

符号の説明

１音声合成処理部、２読み付与辞書、３中間言語生成部（中間言語生成手段）、４合成音声辞書、５音声変換部（読み方提示手段）、６読み上げ内容表示部（読み方提示手段）、７訂正表現候補生成部（訂正表現候補生成手段）、８認識辞書変換部（訂正表現候補生成手段）、９音声入力部（音声入力手段）、１０音声認識辞書（訂正表現選択手段）、１１音声認識部（訂正表現選択手段）、１２訂正内容判定部（訂正表現選択手段）、１３訂正内容確認部（辞書修正手段）、１４読み付与辞書修正部（辞書修正手段）。

Claims

入力テキストの言語解析に利用される語彙知識を格納している読み付与辞書と、
上記読み付与辞書に格納されている語彙知識を参照して入力テキストを言語解析し、上記入力テキストの読み方を示す中間言語を生成する中間言語生成手段と、
上記中間言語生成手段により生成された中間言語が示す読み方に対して、複数の範囲を訂正範囲として、訂正内容に対応付けられた訂正表現の候補を生成する訂正表現候補生成手段と、
読み訂正発話を音声入力する音声入力手段と、
上記訂正表現候補生成手段により生成された訂正表現の候補の中から、上記音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択し、当該訂正表現に基づいて訂正内容を決定する訂正表現選択手段と、
上記訂正表現選択手段により決定された訂正内容にしたがって上記読み付与辞書に格納されている語彙知識を更新する辞書修正手段とを備えた読み修正装置。
訂正表現選択手段は、音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択するに際して、上記音声入力手段による読み訂正発話の音声入力時刻と読み方提示手段による読み方の提示時刻とを基準にして、選択対象の訂正表現の候補を限定することを特徴とする請求項１記載の読み修正装置。
読み方提示手段により提示された読み方の中から、訂正対象の読み方を指定する訂正対象指定手段を設け、訂正表現選択手段が音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択するに際して、上記訂正対象指定手段により指定された訂正対象の読み方に応じて選択対象の訂正表現の候補を限定することを特徴とする請求項１記載の読み修正装置。
訂正表現候補生成手段は、訂正表現の候補を生成する際、読み付与辞書から入力テキストを構成している単語、サブワード又は音節の読みに対応する語彙知識を取得して訂正表現の候補を生成することを特徴とする請求項１から請求項３のうちのいずれか１項記載の読み修正装置。
辞書修正手段は、読み付与辞書に格納されている語彙知識を更新するに際して、訂正表現選択手段により選択された訂正表現を提示し、訂正が了承された場合に限り、上記訂正表現にしたがって上記語彙知識を更新することを特徴とする請求項１から請求項４のうちのいずれか１項記載の読み修正装置。
辞書修正手段は、訂正表現選択手段により選択された訂正表現を提示する代わりに、入力テキストの訂正後の読み方を提示することを特徴とする請求項５記載の読み修正装置。
辞書修正手段は、訂正対象の読み方を他の箇所の読み方と異なる調子で提示することを特徴とする請求項６記載の読み修正装置。