JP4704254B2 - 読み修正装置 - Google Patents

読み修正装置 Download PDF

Info

Publication number
JP4704254B2
JP4704254B2 JP2006073137A JP2006073137A JP4704254B2 JP 4704254 B2 JP4704254 B2 JP 4704254B2 JP 2006073137 A JP2006073137 A JP 2006073137A JP 2006073137 A JP2006073137 A JP 2006073137A JP 4704254 B2 JP4704254 B2 JP 4704254B2
Authority
JP
Japan
Prior art keywords
correction
reading
expression
unit
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006073137A
Other languages
English (en)
Other versions
JP2007248886A (ja
Inventor
洋平 岡登
知弘 岩▲さき▼
真哉 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2006073137A priority Critical patent/JP4704254B2/ja
Publication of JP2007248886A publication Critical patent/JP2007248886A/ja
Application granted granted Critical
Publication of JP4704254B2 publication Critical patent/JP4704254B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、入力テキストを音声合成する際に、その入力テキストの読み方を修正する読み修正装置に関するものである。
入力テキストを言語解析して中間言語を生成し、その中間言語に対応する音声を出力する音声合成装置の基本的な構成は、中間言語変換処理と音声変換処理の2段階から構成されている。
音声合成の概要については、以下の非特許文献1に開示されている。
即ち、以下の非特許文献1に開示されている従来の音声合成装置では、中間言語変換手段が語彙知識を格納している読み付与辞書を参照して、入力テキストを言語解析することにより、読み(カタカナや音素記号列など)と韻律記号(ポーズ、アクセント、イントネーション、発話速度)からなる中間言語を生成する。
音声合成装置の音声変換手段は、中間言語変換手段により生成された中間言語から入力テキストの韻律パタンを決定し、音声合成単位毎の局所的な音声パタン情報を格納している合成音声辞書を参照して、所望の音声を出力する。
従来の音声合成装置では、入力テキストの読み方を正確に解析するには、中間言語変換手段が読み付与辞書を参照して、正しい読み方と韻律記号を付与する必要がある。
しかし、同一表記に対して複数の読み方が読み付与辞書に格納されている場合、読み付与辞書に格納されている語彙知識に誤りがある場合、あるいは、新語のように読み付与辞書に無い語彙の場合などにおいては、適切な読み方を付与することができないケースがある。
したがって、正しい読み方を付与するには、読み付与辞書に格納されている語彙知識を適宜修正する必要があるが、ユーザが音声変換処理により合成された音声を聞いて、読み誤りの範囲と読み誤りの訂正内容を指定して読み付与辞書を修正することは煩雑である。特に、携帯電話やカーナビなどの小型機器では、一般のユーザが読み付与辞書を修正することは困難である。
そこで、予め複数の読み候補を生成しておき、上位候補の読み上げを実施して、ユーザが読み方の誤りを検出すると、予め登録されている所定の特定語を発声することにより、下位候補を読み上げて訂正する読み修正装置が開発されている(例えば、特許文献1を参照)。
なお、以下の特許文献2には、入力テキストの読み方の修正ではないが、中間言語の韻律記号(特にアクセント)を修正する方法が開示されている。
即ち、以下の特許文献2には、アクセント型を誤って音声合成された語をユーザが正しく発声するだけで、アクセント型を自動的に変更する方法が開示されている。
また、以下の特許文献3には、アクセント型以外の詳細な韻律情報を修正する方法として、テキスト情報の他に、実際に人間が発声した音声情報を補助情報として付加的に使用し、既知の読み方と実際の音声を音素単位で対応付けをとり、音素単位の基本周波数・パワー・継続時間長を修正する方法が開示されている。
「音声」の第4章、田窪行則、前川喜久雄、窪園晴夫、本多清志、白井克彦、中川聖一著、岩波書店発行 特開平4−160630号公報(第6頁から第10頁、図1) 特開平6−337691号公報(段落番号[0020]から[0034]、図1) 特開平10−153998号公報(段落番号[0027]、図1)
従来の読み修正装置は以上のように構成されているので、ユーザが所定の特定語を発声すれば、読み上げ対象を変更することができるが、正しい読み候補の読み上げが行われるまで、繰り返し読み候補の読み上げを聞かなければならず、効率的に読み方を修正することができないなどの課題があった。
この発明は上記のような課題を解決するためになされたもので、ユーザが訂正内容を発話するだけで簡単に入力テキストの読み方を修正することができる読み修正装置を得ることを目的とする。
この発明に係る読み修正装置は、入力テキストの言語解析に利用される語彙知識を格納している読み付与辞書と、上記読み付与辞書に格納されている語彙知識を参照して入力テキストを言語解析し、上記入力テキストの読み方を示す中間言語を生成する中間言語生成手段と、上記中間言語生成手段により生成された中間言語が示す読み方に対して、複数の範囲を訂正範囲として、訂正内容に対応付けられた訂正表現の候補を生成する訂正表現候補生成手段と、読み訂正発話を音声入力する音声入力手段と、上記訂正表現候補生成手段により生成された訂正表現の候補の中から、上記音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択し、当該訂正表現に基づいて訂正内容を決定する訂正表現選択手段と、上記訂正表現選択手段により決定された訂正内容にしたがって上記読み付与辞書に格納されている語彙知識を更新する辞書修正手段とを備えたものである。
この発明によれば、入力テキストの言語解析に利用される語彙知識を格納している読み付与辞書と、上記読み付与辞書に格納されている語彙知識を参照して入力テキストを言語解析し、上記入力テキストの読み方を示す中間言語を生成する中間言語生成手段と、上記中間言語生成手段により生成された中間言語が示す読み方に対して、複数の範囲を訂正範囲として、訂正内容に対応付けられた訂正表現の候補を生成する訂正表現候補生成手段と、読み訂正発話を音声入力する音声入力手段と、上記訂正表現候補生成手段により生成された訂正表現の候補の中から、上記音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択し、当該訂正表現に基づいて訂正内容を決定する訂正表現選択手段と、上記訂正表現選択手段により決定された訂正内容にしたがって上記読み付与辞書に格納されている語彙知識を更新する辞書修正手段とを備えるよう構成したので、ユーザが訂正内容を発話するだけで簡単に入力テキストの読み方を修正することができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による読み修正装置を示す構成図であり、図において、音声合成処理部1は入力テキストを言語解析することにより、その入力テキストの読み方と韻律記号からなる中間言語を生成し、その中間言語に対応する音声を出力する処理を実施する。
音声合成処理部1の読み付与辞書2は入力テキストの言語解析に利用される語彙知識(例えば、単語情報、未知語処理用のサブワード情報など)を格納している。
音声合成処理部1の中間言語生成部3は読み付与辞書2に格納されている語彙知識を参照して入力テキストを言語解析し、その入力テキストの読み方と韻律記号からなる中間言語を生成する処理を実施する。
即ち、中間言語生成部3は入力テキストを言語解析して、その入力テキストを構成している単語、サブワード又は音節を抽出し、読み付与辞書2から当該単語、サブワード又は音節に対応する語彙知識を取得して、入力テキスト全体の読み方と韻律記号を推定する。このとき、ポーズ位置や声の大きさの制御情報や未知語・複合名詞に対する韻律情報を付与する。
なお、中間言語生成部3は中間言語生成手段を構成している。
ここで、「単語」は言語的な意味単位であり、通常、日本語の言語的最小単位である形態素や形態素の組合せ等の単位が用いられる。
「単語情報」はテキスト表記と、対応する中間言語(読み方・韻律記号)と、品詞・意味・接続スコア等の解析を行うための付随情報とから構成されている。
中間言語の読み方は、カタカナやローマ字で書かれるテキスト表記に対応する音韻情報であり、例えば、表記が「神奈川」であれば、読み方として「カナガワ」が記載されている。
中間言語の韻律記号は、声の高さ・声の大きさ・継続時間・ポーズ情報等の韻律表現であり、中間言語の読み方と混在して記載されている。例えば、声のアクセントの位置を「↓」記号として、「カ↓ナガワ」のように表現されている。
また、「サブワード」は、テキスト表記又は読み1文字以上に対応する中間言語の表記であり、通常、単語より短い単位である。
「サブワード情報」も単語情報と同様であるが、サブワード情報はアクセント情報(韻律記号)を含まず、単語登録されていない未知語に読み方を付与する際に用いられる。例えば、表記が「神奈川」であれば、予め「神(カ)」「奈(ナ)」「川(ガワ)」の3つのサブワードが定義されている。例えば、表記が「神奈」であれば、読み方として「カナ」を推定するのに用いられる。
上記の中間言語は、音声合成用のものであるが、韻律記号の除去などの簡単な処理を行うことにより、音声認識のための読みに変換することができる。
音声合成処理部1の合成音声辞書4は中間言語に対応する音声の断片的な短時間特徴を表す音声波形や音声生成用のパラメータを格納している。
音声合成処理部1の音声変換部5は合成音声辞書4から中間言語生成部3により生成された入力テキストの読み方に対応する音声合成単位の音声短時間パラメータを取得し、中間言語の韻律記号に応じて声の高さ・声の大きさ・読み上げの速さ・ポーズの長さなどの韻律情報を制御して、音声合成単位の音声短時間パラメータから合成音声を生成する。
読み上げ内容表示部6は入力テキスト又は中間言語の少なくとも一方に基づいて読み方を画面上に表示する処理を実施する。
なお、音声変換部5及び読み上げ内容表示部6から読み方提示手段が構成されている。
訂正表現候補生成部7は読み付与辞書2から入力テキストを構成している単語、サブワード又は音節の読み方に対応する語彙知識を取得して、中間言語生成部3により生成された入力テキストの読み方に対する訂正表現の候補を生成し、その訂正表現の候補と読み方の訂正内容(訂正前の読み方、訂正後の読み方)との対応付けを実施する。
認識辞書変換部8は訂正表現候補生成部7により生成された訂正表現の候補を表しているデータ形式を音声認識辞書10に対応するデータ形式に変換する。即ち、認識辞書変換部8は訂正表現候補生成部7により生成された訂正表現の候補を音声認識辞書10に格納されている照合用標準パタンと同様のデータ形式に変換する。
なお、訂正表現候補生成部7及び認識辞書変換部8から訂正表現候補生成手段が構成されている。
音声入力部9はユーザが発する訂正内容(読み訂正発話)を音声入力し、その訂正内容をA/D変換してディジタルの音声信号を出力する。なお、音声入力部9は音声入力手段を構成している。
音声認識辞書10は照合用標準パタンを格納しており、その照合用標準パタンは予め音響特徴量に変換されている学習用音声データから推定された音声認識単位(例えば、音素)の標準パタンである。
音声認識部11は認識辞書変換部8によりデータ形式が変換された訂正表現の候補の中から、音声入力部9により音声入力された訂正内容に対応する訂正表現を選択する処理を実施する。
即ち、音声認識部11は音声入力部9から出力された音声信号に対する音声認識処理を実施して、その音声信号から音響特徴量を抽出し、その音響特徴量を認識辞書変換部8によりデータ形式が変換された訂正表現の候補の音響単位の系列にしたがって照合用標準パタンの音響モデルと照合することにより、各訂正表現の候補の照合スコアを求め、最も照合スコアが高い訂正表現を選択する。
訂正内容判定部12は音声認識部11により選択された訂正表現から読み方の訂正内容を決定する。
なお、照合用標準パタン10、音声認識部11及び訂正内容判定部12から訂正表現選択手段が構成されている。
訂正内容確認部13は訂正内容判定部12により決定された訂正内容又は音声認識部11により選択された訂正表現を提示し、訂正の了承を受け付ける処理を実施する。
読み付与辞書修正部14は訂正内容確認部13により訂正の了承が受け付けられた場合、訂正内容判定部12により決定された訂正内容にしたがって読み付与辞書2に格納されている語彙知識を更新する処理を実施する。
なお、訂正内容確認部13及び読み付与辞書修正部14から辞書修正手段が構成されている。
図2はこの発明の実施の形態1による読み修正装置の処理内容を示すフローチャートである。
次に動作について説明する。
ここでは説明の便宜上、入力テキストとして「私は愛美です」が音声合成処理部1に入力されるものとして説明する。
この入力テキストの場合、表記「私」の読み方は「ワタシ」に特定されるが、表記「愛美」の読み方に曖昧性があり、「メグミ」「マナミ」「アイミ」の3通りの読み方があるものとする。
音声合成処理部1の中間言語生成部3は、入力テキスト「私は愛美です」が与えられると、その入力テキストを言語解析して、その入力テキストを構成している単語、サブワード又は音節を抽出する。
この例では、「私」「は」「愛美」「です」を抽出する。
中間言語生成部3は、入力テキストを構成している単語、サブワード又は音節を抽出すると、読み付与辞書2から当該単語、サブワード又は音節に対応する語彙知識を取得して、中間言語(入力テキスト全体の読み方と韻律記号)を生成する(ステップST1)。
入力テキスト全体の読み方は、次にようにして生成する。
例えば、表記「愛美」に着目すると、「メグミ」「マナミ」「アイミ」の3通りの読み方があるので、入力テキスト全体の読み方として、「ワタシハメグミデス」「ワタシハマナミデス」「ワタシハアイミデス」の3通りの読み方を生成することができる。
そこで、中間言語生成部3は、3通りの読み方の妥当性を考慮したスコアや優先規則等の基準にしたがって最大スコアになる中間言語を生成する。
例えば、表記「愛美」に対する読み方「メグミ」「マナミ」「アイミ」の妥当性を表すスコアがそれぞれ5:4:1である旨の語彙知識が読み付与辞書2に格納されていれば、「ワタシハメグミデス」の読み方が最大スコアになるので、中間言語として「ワタシハメグミデス」を生成する。
このとき、中間言語生成部3は、ポーズ位置や声の大きさの制御情報や未知語・複合名詞に対する韻律記号も生成する。
なお、中間言語生成部3による中間言語の生成処理自体は公知の技術であり、例えば、上記の非特許文献1に開示されている。
音声合成処理部1の音声変換部5は、中間言語生成部3が中間言語を生成すると、合成音声辞書4から入力テキストの読み方に対応する音声合成単位の音声短時間パラメータを取得し、中間言語生成部3により生成された韻律記号に応じて声の高さ・声の大きさ・読み上げの速さ・ポーズの長さなどの韻律情報を制御して、音声合成単位の音声短時間パラメータから合成音声を生成し、その合成音声を出力する(ステップST2)。
即ち、中間言語生成部3により生成された韻律記号に基づいて点ピッチモデルからピッチ成分を推定し、音素を単位として切り出された音声素片を接続することにより合成音声を生成し、その合成音声を出力する。
ピッチパターンの生成方法は、藤崎モデルや点ピッチモデルが一般的であり、例えば、上記の非特許文献1の第167頁に開示されている。また、音声波形の生成方法については上記の非特許文献1の第170頁以降に開示されている。
また、読み上げ内容表示部6は、入力テキスト又は中間言語の少なくとも一方に基づいて、入力テキストの読み方を画面上に表示する。
訂正表現候補生成部7は、読み付与辞書2から入力テキストを構成している単語、サブワード又は音節の読み方に対応する語彙知識を取得して、中間言語生成部3により生成された入力テキストの読み方に対する訂正表現の候補を生成し、その訂正表現の候補と読み方の訂正内容(訂正前の読み方、訂正後の読み方)との対応付けを実施する(ステップST3)。
即ち、訂正表現候補生成部7は、入力テキストの中で表記「愛美」の読み方に曖昧性があるので、中間言語生成部3により生成された中間言語の中で表記「愛美」の読み方が訂正範囲であると認識する。
また、訂正表現候補生成部7は、表記「愛美」の読み方が「メグミ」「マナミ」「アイミ」の3通りあり、中間言語生成部3により読み方「メグミ」が選択されているので、読み方「メグミ」を「マナミ」や「アイミ」に訂正する訂正表現を生成する。
具体的な訂正表現としては、訂正前と訂正後の表現の組合せ(例えば、「メグミデワナクマナミ」、「メグミヲマナミニシュウセイ」)、あるいは、訂正後の表現(例えば、「マナミ」「マナミニシュウセイ」)が考えられる。
ただし、訂正表現候補生成部7は、ユーザが訂正範囲として、読み付与辞書2の単語単位と同じように発声するとは限らないので、複数の範囲を訂正範囲として、訂正表現の候補を生成する。
例えば、読み方「メグミ」と「メグミデス」を訂正範囲として、訂正表現の候補を生成する。例えば、「マナミ」と「マナミデス」を生成する。生成した訂正表現の候補は、訂正範囲・訂正結果の組合せである訂正内容と対応付けを行う。
なお、訂正表現候補生成部7は、上記のようにして、入力テキストの読み方に対する訂正表現の候補を生成する際、後述する音声認識部11が音声認識処理時に重み付け情報を考慮することにより音声認識率の高精度化を図ることができるので、「マナミ」「アイミ」の重み付け情報が読み付与辞書2に格納されていれば、その重み付け情報を訂正表現の候補に付加する。
認識辞書変換部8は、訂正表現候補生成部7が訂正表現の候補を生成すると、その訂正表現の候補を表しているデータ形式を音声認識辞書10に対応するデータ形式に変換する(ステップST4)。
即ち、認識辞書変換部8は、訂正表現候補生成部7により生成された訂正表現の候補を音声認識辞書10に格納されている照合用標準パタンと同様のデータ形式に変換する。
例えば、訂正表現の候補の一部である「マナミ」「アイミ」に着目すると、音声認識辞書10の最小単位が音素である場合(概ね、ローマ字表記の1文字に相当)、「マナミ」「アイミ」をそれぞれ/manami/、/aimi/のように音素表現(照合用標準パタンと同じデータ形式)に展開する。
この際、認識辞書変換部8は、訂正表現の候補を音素表現に展開すると、探索候補を削減するため、音素をノードとするネットワーク構造に変換する。
図3は音声認識辞書10の内部構造の一例を示す説明図であり、図3の例では、訂正表現の一部である音素表現/manami/、/aimi/の共通部分{m i}のノードをマージしてノード数を減らすことにより、探索候補の削減を図っている。
なお、「マナミ」「アイミ」に重み付け情報があれば、ネットワークのノードやアーク通過時や認識結果算出時に加算処理を実施して、認識時のスコア計算に反映させることができる。
音声入力部9は、ユーザが発する訂正内容(読み訂正発話)を音声入力し、その訂正内容をA/D変換してディジタルの音声信号を出力する(ステップST5)。
例えば、音声入力部9を構成しているマイクが、読み訂正発話である音声信号をサンプリング周期11.25kHzでサンプリングし、そのサンプリングした音声信号を量子化ビット数16bitでA/D変換する。
音声認識部11は、認識辞書変換部8によりデータ形式が変換された訂正表現の候補の中から、音声入力部9により音声入力された訂正内容に対応する訂正表現を選択する(ステップST6)。
即ち、音声認識部11は、音声入力部9から出力された音声信号に対する音声認識処理を実施して、その音声信号から音響特徴量を抽出し、その音響特徴量を認識辞書変換部8によりデータ形式が変換された訂正表現の候補の音響単位の系列にしたがって照合用標準パタン10の音響モデルと照合することにより、各訂正表現の候補の照合スコアを求め、最も照合スコアが高い訂正表現を選択する。
例えば、音声入力部9により音声入力された訂正内容の音声認識結果が「マナミ」であれば、「マナミ」や「マナミデス」や「マナミニシュウセイ」など、「マナミ」を含む訂正表現の照合スコアが高くなる。
以下、音声認識処理の手順を簡単に説明する。
ただし、音声認識処理のアルゴリズムは、下記の非特許文献2に開示されており、例えば、非特許文献2に開示されているアルゴリズムで音声認識処理を実施する。
・非特許文献2
「音声認識の基礎(上)(下)」Lawrence Rabiner、Biing−Hwang Juang共著、古井貞煕監訳、NTTアドバンステクノロジ株式会社
音声認識部11は、音声入力部9から出力された音声信号から、適当な時間間隔毎に音声の特徴を表している特徴ベクトルを抽出する。
例えば、特徴ベクトルとしては、10ms間隔で256点フーリエ変換及び対数化・逆フーリエ変換により算出される12次元のメルケプストラムを用いる。
音声認識部11は、音声の特徴を表している特徴ベクトルを抽出すると、音声認識辞書10に格納されている照合用標準パタン及び認識辞書変換部8によりデータ形式が変換された訂正表現の候補を参照して、音声認識語彙の中から、上記の特徴ベクトルと照合の度合いが最も高い単語又は単語系列を取得する。
なお、照合用標準パタンは音素を単位としており、入力音響特徴ベクトルの各状態が8混合ガウス分布、時系列が自己回帰アークであり、後戻りアーク無しの3状態の隠れマルコフモデルをモデル化して、事前にパラメータを推定しているものとする。
音声認識部11は、音声認識辞書10に格納されている照合用標準パタンが入力音響特徴ベクトルを生成する最大確率をビタビアルゴリズムにより算出する。
そして、その最大確率をスコアとして、通過経路である音素時系列を認識結果とする。
訂正内容判定部12は、音声認識部11が音声入力部9により音声入力された訂正内容に対応する訂正表現を選択すると、その訂正表現から読み方の訂正内容を決定する(ステップST7)。
具体的には、音声認識部11により選択された訂正表現が例えば「マナミデス」であれば、訂正表現候補生成部7から出力される訂正範囲等を参照することにより、その訂正表現に対応する元の表現が「メグミデス」であると認識し、「メグミデス」→「マナミデス」を訂正内容に決定する。
訂正内容確認部13は、訂正内容判定部12が訂正内容に決定すると、その訂正内容又は音声認識部11により選択された訂正表現を提示し、訂正の了承を受け付ける処理を実施する(ステップST8)。
具体的には、図4に示すように、訂正内容判定部12により決定された訂正内容を画面上に表示し、ユーザがボタン操作や音声入力によって訂正内容の了承を受け付けるようにする。
図4の例では、訂正箇所の表記「愛美」に係る訂正前の読み方「メグミ」と訂正後の読み方「マナミ」を表示しているが、図5に示すように、入力テキスト全文の読み方「私は愛美です」を表示するとともに、訂正箇所の表記「愛美」に対して訂正後の読み方「マナミ」をフリガナで表示するようにしてもよい。
また、音声認識部11により選択された訂正表現として、例えば、「ワタシハマナミデス」を表示し、例えば、訂正箇所の読み方「マナミ」を他の箇所の読み方「ワタシハ、デス」より太文字で強調表示するなど、訂正箇所の読み方「マナミ」を他の箇所の読み方と異なる調子で表示するようにしてもよい。
ここでは、訂正内容確認部13が訂正内容等を画面上に表示するものについて示したが、例えば、「メグミヲマナミニシュウセイシマス」や「ワタシハマナミデス」のような訂正内容等を音声によって提示するようにしてもよい。
この際、訂正箇所の読み方の声質・声の大きさ・声の高さ・音素の継続時間長・ポーズ長の少なくとも一つを通常の発声と変えることにより、訂正内容を強調してユーザに提示するようにしてもよい。
読み付与辞書修正部14は、訂正内容確認部13により訂正の了承が受け付けられた場合、訂正内容判定部12により決定された訂正内容にしたがって読み付与辞書2に格納されている語彙知識を更新する(ステップST9)。
この実施の形態1では、訂正前発話と訂正後発話の対応付けを1発話で行う場合について示したが、訂正前表現の発話と訂正後表現の発話に分割して、ユーザが2発話を行うようにしてもよい。
図6はユーザが2発話を行う場合の処理内容を示すフローチャートである。
この場合、訂正表現候補生成部7は、上記の説明と同様にして、訂正表現の候補(以下、訂正後表現という)を生成する他に、訂正前表現(訂正前表現は入力テキストに相当)を生成する(ステップST3)。
認識辞書変換部8は、上記の説明と同様にして、訂正表現候補生成部7により生成された訂正後表現を照合用標準パタンに対応するデータ形式に変換する他に(ステップST14)、訂正表現候補生成部7により生成された訂正前表現を照合用標準パタンに対応するデータ形式に変換する(ステップST11)。
音声認識部11は、音声入力部9が訂正前表現の発話を音声入力して、その音声信号を出力すると(ステップST12)、その音声信号に対する音声認識処理を実施して訂正前表現を解析する(ステップST13)。
また、音声認識部11は、音声入力部9が訂正後表現の発話を音声入力して、その音声信号を出力すると(ステップST15)、その音声信号に対する音声認識処理を実施して訂正後表現を解析する(ステップST16)。
音声認識部11は、訂正前表現と訂正後表現を解析すると、以下、上記の説明と同様にして、訂正後表現である訂正表現の候補の照合スコアを求め、最も照合スコアが高い訂正表現を選択する(ステップST17)。
この実施の形態1では、表記「愛美」に対応する単語が読み付与辞書2に登録されているものについて示したが、表記と読み方が対応する点では、単語とサブワードの扱いは同様であるため、表記「愛美」に対応する単語が読み付与辞書2に登録されていない場合、表記「愛美」に対応するサブワードの読み方を参照するようにすればよい。この場合、単語が読み付与辞書2に登録されていない未知語も処理することができる。
例えば、表記「朝青龍」に対応する単語が読み付与辞書2に登録されていない未知語であれば、読み付与辞書2に格納されているサブワードを参照して、表記「朝青龍」の読み方として、例えば「チョウセイリュウ」を付与する。
この場合、読み方「チョウセイリュウ」を「アサショウリュウ」に修正することになるが、読み付与辞書2は、未知語を処理するサブワードとして、図7に示すような同一の表記に対して様々な読み方を保持している。
中間言語生成部3は、入力テキストの表記が未知語であれば、読み付与辞書2から同一の表記に対する音読み・訓読み等のサブワードの言語情報や接続スコア等を利用して、1つの読み方を選択する。
図8は図7のサブワードから取得可能な読み方をネットワーク展開している説明図であり、図8の例では、27通りの読み方を候補として取得している。
この際、音読みと訓読みが接続され難いなどの言語的な知見を考慮して接続関係を設定すること、あるいは、接続関係に重みを付与することにより、更なる高精度化が可能である。
このような読み方の付与方式では、例えば、表記「APRIL」に対して「シガツ」というように、文字的な対応が全く取れない未知語表現の読み方を修正することはできないが、ほとんどの辞書未登録の語彙に対して正解の読み方の候補を付与することができる。例えば、施設名であれば、99%以上をカバーすることができ、未知語対策として有効である。
さらに、訂正後表現の音声認識に対する制約を緩和し、単語・サブワード言語情報と組合せ重み付けを行うことで、表記「APRIL」に対する読み方を「シガツ」に設定することが可能な読み付与辞書2の構成も可能である。
現状の音声認識技術では、言語制約が弱い場合、カタカナ1文字に相当する読み方の認識率は静かな環境でも80%程度であり、表記と全く対応が取れない未知語に適切な読み方を付与することは困難である。
しかし、聴取している利用者は、前後の文脈を利用しているため、1文字程度の誤りであれば、全く読み誤るよりは了解性が高いと考えられる。
図9は訂正後表現に対して、重みを用いて任意の文字連鎖を受理可能とする読み付与辞書2を構成する算出式をブロック化して示したものである。
図9の例では、読み付与辞書2において、該当表記の単語が存在する場合は重みw1、該当表記のサブワード連鎖が存在する場合は重みw2、任意の文字連鎖に対する音声認識辞書へは重みw3を付加するようにしている。
なお、それぞれの重みは、読み付与辞書2における未知語の割合や、サブワードでカバーすることができない表現の割合を考慮して決定される。
一般に重みw1が最も大きく、重みw3が一番小さい値になる。このため、読み付与辞書2の単語又はサブワード連鎖と訂正後表現の音響的な類似性が少なく、スコアが低い場合に限り、任意音節接続の相対的なスコアが上昇することになる。
この結果、単語やサブワードが登録されている語彙が発声された場合への悪影響を抑えつつ、表記と全く対応が取れない読み方を、言語制約無しの音声認識処理による認識結果を読み候補として、ユーザに提示することができる。
この実施の形態1では、音声変換部5が合成音声を生成して、その合成音声を出力するものについて示したが、読み付与の曖昧性がある箇所の韻律記号を他の箇所の韻律記号と異なるように合成音声を生成して、その合成音声を出力するようにしてもよい。
また、読み上げ内容表示部6が入力テキストの読み方を画面上に表示する際、読み付与の曖昧性がある箇所の表示形態を他の箇所の表示形態と異なるように表示してもよい。
具体的には、音声変換部5及び読み上げ内容表示部6が読み方の修正の可能性が大きいと判定した範囲の入力テキストに対して、所定の条件を満足するまでの間、ユーザに対する提示形態を通常と変えるようにする。
所定の条件としては、例えば、音声変換部5が同一の入力テキストに対して、3回まで韻律記号を変えてユーザに提示し、変更後、あるいは、3回提示後は通常通りの提示形態に戻すようにする。
読み方の修正の可能性が大きいと判定する例としては、(1)読み付与候補が複数存在して、読み付与時の候補間のスコア差が小さい場合や、(2)サブワード連接により未知語の読み付与処理を行った場合などがある。
(1)の例としては次のようなものがある。
表記「愛美」に対する読み方「メグミ」「マナミ」「アイミ」のスコアがそれぞれ5:4:1であり、最大スコアの読み方「メグミ」を選択したものとする。
この場合、読み候補が複数あり、かつ、読み方「マナミ」とのスコア差が僅差の“1”であるため、読み方の修正の可能性が大きいと判定する。
(2)の例としては次のようなものがある。
表記「朝青龍」に対して未知語の読み付与処理を行うことにより、読み方「チョウセイリュウ」が付与された場合、読み方の修正の可能性が大きいと判定する。
音声変換部5が、読み付与の曖昧性がある箇所の韻律記号を他の箇所の韻律記号と変える具体的な例としては、アクセントを末尾上がりとして、発話速度を遅くするとともに、単語の後に短いポーズを付与するなどが考えられる。
また、読み上げ内容表示部6が、読み付与の曖昧性がある箇所の表示形態を他の箇所の表示形態と異なるように表示する具体的な例としては、下線・太字・文字色などにより該当箇所の表示形態を通常と変えるなどが考えられる。
以上で明らかなように、この実施の形態1によれば、中間言語生成部3により生成された中間言語が示す読み方に対する訂正表現の候補を生成する訂正表現候補生成部7と、訂正表現候補生成部7により生成された訂正表現の候補の中から、音声入力部9により音声入力された読み訂正発話に対応する訂正表現を選択する音声認識部11とを設け、音声認識部11により選択された訂正表現にしたがって読み付与辞書2に格納されている語彙知識を更新するように構成したので、ユーザが訂正内容を発話するだけで簡単に入力テキストの読み方を修正することができる効果を奏する。
また、この実施の形態1によれば、訂正表現候補生成部7が訂正表現の候補を生成する際、読み付与辞書2から入力テキストを構成している単語、サブワード又は音節の読みに対応する語彙知識を取得して訂正表現の候補を生成するように構成したので、入力テキストの表記に対応する単語が読み付与辞書2に格納されていない場合でも、訂正表現の候補を生成することができるようになり、その結果、読み付与辞書2に登録されていない未知語にも対処することができる効果を奏する。
この実施の形態1によれば、読み付与辞書修正部14が読み付与辞書2に格納されている語彙知識を更新するに際して、訂正内容判定部12により決定された訂正内容又は音声認識部11により選択された訂正表現を提示し、訂正が了承された場合に限り、その訂正内容にしたがって読み付与辞書2に格納されている語彙知識を更新するように構成したので、読み方の訂正内容に対するユーザの了解性を改善することができる効果を奏する。
この実施の形態1によれば、訂正内容確認部13が訂正対象の読み方を他の箇所の読み方と異なる調子で提示するように構成したので、ユーザが確実に訂正内容を確認することができる効果を奏する。
実施の形態2.
図10はこの発明の実施の形態2による読み修正装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
時刻同期取得部21は音声入力部9による読み訂正発話の音声入力時刻と、音声変換部5による合成音声の出力時刻又は読み上げ内容表示部6による読み方の表示時刻とを取得する処理を実施する。
選択対象限定部22は訂正表現候補生成部7により生成された訂正表現の候補の中から、時刻同期取得部21により取得された時刻を基準にして、実際に選択可能な訂正表現の候補を限定する処理を実施する。なお、時刻同期取得部21及び選択対象限定部22は訂正表現選択手段を構成している。
図11はこの発明の実施の形態2による読み修正装置の処理内容を示すフローチャートである。
次に動作について説明する。
ユーザは、音声変換部5から出力された合成音声を聞いた時点、あるいは、読み上げ内容表示部6により表示された読み方を見た時点で読み方の誤りに気がついて、音声入力部9に対する読み訂正発話を行う。
したがって、音声変換部5から合成音声が出力される前(あるいは、読み上げ内容表示部6により読み方が表示される前)に行われた音声入力部9に対する読み訂正発話や、訂正表現候補生成部7により生成された訂正表現の候補は、上記の誤りを訂正する読み方に関係するものではないと考えられる。
また、音声変換部5から合成音声が出力された後(あるいは、読み上げ内容表示部6により読み方が表示された後)、多くの時間が経過した後に行われた音声入力部9に対する読み訂正発話や、訂正表現候補生成部7により生成された訂正表現の候補は、上記の誤りを訂正する読み方に関係するものではないと考えられる。
そこで、この実施の形態2では、音声変換部5から合成音声が出力された後(あるいは、読み上げ内容表示部6により読み方が表示された後)、一定時間以内に行われた音声入力部9に対する読み訂正発話と、訂正表現候補生成部7により生成された訂正表現の候補とが、上記の誤りを訂正する読み方に関係するものであるとして、それ以外の訂正表現の候補を除外するようにする。
以下、時刻同期取得部21及び選択対象限定部22の処理内容を具体的に説明する。
時刻同期取得部21は、音声入力部9が読み訂正発話を音声入力すると、音声入力部9による読み訂正発話の音声入力時刻を取得する。
また、時刻同期取得部21は、音声変換部5が合成音声を出力すると、音声変換部5による合成音声の出力時刻を取得する。あるいは、読み上げ内容表示部6が読み方を表示すると、読み上げ内容表示部6による読み方の表示時刻を取得する(ステップST21)。
選択対象限定部22は、訂正表現候補生成部7により生成された訂正表現の候補の中から、時刻同期取得部21により取得された時刻を基準にして、音声認識部11が実際に選択可能な訂正表現の候補を限定する。
即ち、選択対象限定部22は、音声入力部9による読み訂正発話の音声入力時刻が、音声変換部5による合成音声の出力時刻(あるいは、読み上げ内容表示部6による読み方の表示時刻)から一定時間以内であるか否かを判定する。
選択対象限定部22は、音声入力部9による読み訂正発話の音声入力時刻が合成音声の出力時刻から一定時間以内であれば、訂正表現候補生成部7により生成された訂正表現の候補の中から、音声変換部5から出力された合成音声の元になっている中間言語に対する訂正表現の候補を選択する(ステップST22)。
したがって、選択対象限定部22は、訂正表現候補生成部7により生成された訂正表現の候補であっても、音声入力部9による読み訂正発話の音声入力時刻が合成音声の出力時刻から一定時間以内でなければ、その合成音声の元になっている中間言語に対する訂正表現の候補は、選択対象の訂正表現の候補から除外する。
これにより、認識辞書変換部8には、選択対象限定部22により選択された訂正表現の候補のみが与えられ、その訂正表現の候補のデータ形式を変換する。
以下、上記実施の形態1と同様であるため説明を省略する。
以上で明らかなように、この実施の形態2によれば、音声認識部11が音声入力部9により音声入力された読み訂正発話に対応する訂正表現を選択するに際して、音声入力部9による読み訂正発話の音声入力時刻と音声変換部5による合成音声の出力時刻(あるいは、読み上げ内容表示部6による読み方の表示時刻)とを基準にして、選択対象の訂正表現の候補を限定するように構成したので、不要な対立仮説が排除されるようになり、その結果、訂正発話の音声認識率を改善することができるとともに、演算量の負荷を軽減することができる効果を奏する。
実施の形態3.
図12はこの発明の実施の形態3による読み修正装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
訂正箇所取得部23は読み上げ内容表示部6により表示された読み方の中から、訂正箇所(訂正対象の読み方)の指定を受け付ける処理を実施する。なお、訂正箇所取得部23は訂正対象指定手段を構成している。
選択対象限定部24は訂正表現候補生成部7により生成された訂正表現の候補の中から、訂正箇所取得部23により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定する処理を実施する。なお、選択対象限定部24は訂正表現選択手段を構成している。
図13はこの発明の実施の形態3による読み修正装置の処理内容を示すフローチャートである。
上記実施の形態2では、音声入力部9による読み訂正発話の音声入力時刻と音声変換部5による合成音声の出力時刻(あるいは、読み上げ内容表示部6による読み方の表示時刻)とを基準にして、選択対象の訂正表現の候補を限定するものについて示したが、訂正箇所取得部23が訂正箇所(訂正対象の読み方)の指定を受け付けて、選択対象限定部24が訂正箇所取得部23により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定するようにしてもよい。
具体的には、以下の通りである。
読み上げ内容表示部6は、入力テキスト又は中間言語の少なくとも一方に基づいて、入力テキストの読み方を画面上に表示する(ステップST31)。図14は入力テキストの読み方の表示例を示す説明図である。
訂正箇所取得部23は、読み上げ内容表示部6が図14に示すような画面を表示すると、ユーザによる操作デバイス(例えば、キーボード、タッチパネル、マウス)の操作を監視して、訂正箇所の指定を受け付ける処理を実施する(ステップST32)。
例えば、操作デバイスがタッチパネルである場合、ユーザが「愛美」の表示位置に触れれば、表記「愛美」が訂正箇所であると認識する。
また、操作デバイスがキーボードやマウスである場合、訂正箇所までカーソルを移動すれば、同様に訂正箇所を指定することができる。
ここでは、ユーザが操作デバイスを操作して、訂正箇所を指定するものについて示したが、例えば、ユーザが「マナミ」と発声することにより、音声で訂正箇所「マナミ」を指定するようにしてもよい。
選択対象限定部24は、訂正表現候補生成部7により生成された訂正表現の候補の中から、訂正箇所取得部23により受け付けられた指定内容にしたがって、音声認識部11が実際に選択可能な訂正表現の候補を限定する。
即ち、選択対象限定部24は、訂正表現候補生成部7により生成された訂正表現の候補の中から、訂正箇所取得部23により指定された訂正箇所(訂正対象の読み方)の元になっている中間言語に対する訂正表現の候補を選択する(ステップST33)。
したがって、選択対象限定部24は、訂正表現候補生成部7により生成された訂正表現の候補であっても、訂正箇所取得部23により指定された訂正箇所(訂正対象の読み方)の元になっていない中間言語に対する訂正表現の候補は、選択対象の訂正表現の候補から除外する。
これにより、認識辞書変換部8には、選択対象限定部24により選択された訂正表現の候補のみが与えられ、その訂正表現の候補のデータ形式を変換する。
以下、上記実施の形態1と同様であるため説明を省略する。
以上で明らかなように、この実施の形態3によれば、訂正表現候補生成部7により生成された訂正表現の候補の中から、訂正対象の読み方を指定する訂正箇所取得部23を設け、選択対象限定部24が訂正箇所取得部23により指定された訂正対象の読み方に応じて選択対象の訂正表現の候補を限定するように構成したので、不要な対立仮説が排除されるようになり、その結果、訂正発話の音声認識率を改善することができるとともに、演算量の負荷を軽減することができる効果を奏する。
この実施の形態3では、訂正箇所取得部23及び選択対象限定部24を上記実施の形態1における図1の読み修正装置に適用するものについて示したが、訂正箇所取得部23及び選択対象限定部24を上記実施の形態2における図10の読み修正装置に適用するようにしてもよい。
実施の形態4.
図15はこの発明の実施の形態4による読み修正装置を示す構成図であり、図において、図12と同一符号は同一または相当部分を示すので説明を省略する。
訂正表現選択部25は図12の選択対象限定部24と同様に、訂正表現候補生成部7により生成された訂正表現の候補の中から、訂正箇所取得部23により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定する処理を実施する。また、訂正表現選択部25は限定後の訂正表現の候補を画面上に表示して、限定後の訂正表現の候補の中から、実際に使用する訂正表現の選択を受け付ける処理を実施する。なお、訂正表現選択部25は訂正表現選択手段を構成している。
図16はこの発明の実施の形態4による読み修正装置の処理内容を示すフローチャートである。
上記実施の形態3では、訂正箇所取得部23が訂正箇所(訂正対象の読み方)の指定を受け付けて、選択対象限定部24が訂正箇所取得部23により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定するものについて示したが、訂正表現選択部25が選択対象限定部24による限定後の訂正表現の候補を画面上に表示して、限定後の訂正表現の候補の中から、実際に使用する訂正表現の選択を受け付けるようにしてもよい。
具体的には、以下の通りである。
訂正表現選択部25は、訂正箇所取得部23が訂正箇所(訂正対象の読み方)を指定すると、図12の選択対象限定部24と同様に、訂正表現候補生成部7により生成された訂正表現の候補の中から、訂正箇所取得部23により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定する。
訂正表現選択部25は、選択可能な訂正表現の候補を限定すると、限定後の訂正表現の候補を画面上に表示して(ステップST41)、限定後の訂正表現の候補の中から、実際に使用する訂正表現の選択を受け付ける処理を実施する(ステップST42)。
訂正表現選択部25は、実際に使用する訂正表現の選択を受け付けると、図1の訂正内容判定部12と同様にして、その訂正表現から読み方の訂正内容を決定する。
以下、上記実施の形態1と同様であるため説明を省略する。
以上で明らかなように、この実施の形態4によれば、訂正表現選択部25が限定後の訂正表現の候補を画面上に表示して、限定後の訂正表現の候補の中から、実際に使用する訂正表現の選択を受け付けるように構成したので、上記実施の形態1と同様の効果を奏する他に、読み方の訂正内容に対するユーザの了解性を更に改善することができる効果を奏する。
この発明の実施の形態1による読み修正装置を示す構成図である。 この発明の実施の形態1による読み修正装置の処理内容を示すフローチャートである。 音声認識辞書の内部構造の一例を示す説明図である。 訂正内容の提示例を示す説明図である。 訂正内容の提示例を示す説明図である。 この発明の実施の形態1による読み修正装置の処理内容を示すフローチャートである。 未知語処理用のサブワードを示す説明図である。 図7のサブワードから取得可能な読み方をネットワーク展開している説明図である。 訂正後表現に対して、重みを用いて任意の文字連鎖を受理可能とする読み付与辞書を構成する算出式を示す説明図である。 この発明の実施の形態2による読み修正装置を示す構成図である。 この発明の実施の形態2による読み修正装置の処理内容を示すフローチャートである。 この発明の実施の形態3による読み修正装置を示す構成図である。 この発明の実施の形態3による読み修正装置の処理内容を示すフローチャートである。 入力テキストの読み方の表示例を示す説明図である。 この発明の実施の形態4による読み修正装置を示す構成図である。 この発明の実施の形態4による読み修正装置の処理内容を示すフローチャートである。
符号の説明
1 音声合成処理部、2 読み付与辞書、3 中間言語生成部(中間言語生成手段)、4 合成音声辞書、5 音声変換部(読み方提示手段)、6 読み上げ内容表示部(読み方提示手段)、7 訂正表現候補生成部(訂正表現候補生成手段)、8 認識辞書変換部(訂正表現候補生成手段)、9 音声入力部(音声入力手段)、10 音声認識辞書(訂正表現選択手段)、11 音声認識部(訂正表現選択手段)、12 訂正内容判定部(訂正表現選択手段)、13 訂正内容確認部(辞書修正手段)、14 読み付与辞書修正部(辞書修正手段)。

Claims (7)

  1. 入力テキストの言語解析に利用される語彙知識を格納している読み付与辞書と、
    上記読み付与辞書に格納されている語彙知識を参照して入力テキストを言語解析し、上記入力テキストの読み方を示す中間言語を生成する中間言語生成手段と
    上記中間言語生成手段により生成された中間言語が示す読み方に対して、複数の範囲を訂正範囲として、訂正内容に対応付けられた訂正表現の候補を生成する訂正表現候補生成手段と、
    読み訂正発話を音声入力する音声入力手段と、
    上記訂正表現候補生成手段により生成された訂正表現の候補の中から、上記音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択し、当該訂正表現に基づいて訂正内容を決定する訂正表現選択手段と、
    上記訂正表現選択手段により決定された訂正内容にしたがって上記読み付与辞書に格納されている語彙知識を更新する辞書修正手段とを備えた読み修正装置。
  2. 訂正表現選択手段は、音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択するに際して、上記音声入力手段による読み訂正発話の音声入力時刻と読み方提示手段による読み方の提示時刻とを基準にして、選択対象の訂正表現の候補を限定することを特徴とする請求項1記載の読み修正装置。
  3. 読み方提示手段により提示された読み方の中から、訂正対象の読み方を指定する訂正対象指定手段を設け、訂正表現選択手段が音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択するに際して、上記訂正対象指定手段により指定された訂正対象の読み方に応じて選択対象の訂正表現の候補を限定することを特徴とする請求項1記載の読み修正装置。
  4. 訂正表現候補生成手段は、訂正表現の候補を生成する際、読み付与辞書から入力テキストを構成している単語、サブワード又は音節の読みに対応する語彙知識を取得して訂正表現の候補を生成することを特徴とする請求項1から請求項のうちのいずれか1項記載の読み修正装置。
  5. 辞書修正手段は、読み付与辞書に格納されている語彙知識を更新するに際して、訂正表現選択手段により選択された訂正表現を提示し、訂正が了承された場合に限り、上記訂正表現にしたがって上記語彙知識を更新することを特徴とする請求項1から請求項のうちのいずれか1項記載の読み修正装置。
  6. 辞書修正手段は、訂正表現選択手段により選択された訂正表現を提示する代わりに、入力テキストの訂正後の読み方を提示することを特徴とする請求項記載の読み修正装置。
  7. 辞書修正手段は、訂正対象の読み方を他の箇所の読み方と異なる調子で提示することを特徴とする請求項記載の読み修正装置。
JP2006073137A 2006-03-16 2006-03-16 読み修正装置 Expired - Fee Related JP4704254B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006073137A JP4704254B2 (ja) 2006-03-16 2006-03-16 読み修正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006073137A JP4704254B2 (ja) 2006-03-16 2006-03-16 読み修正装置

Publications (2)

Publication Number Publication Date
JP2007248886A JP2007248886A (ja) 2007-09-27
JP4704254B2 true JP4704254B2 (ja) 2011-06-15

Family

ID=38593243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006073137A Expired - Fee Related JP4704254B2 (ja) 2006-03-16 2006-03-16 読み修正装置

Country Status (1)

Country Link
JP (1) JP4704254B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112010005425T5 (de) * 2010-03-30 2013-01-10 Mitsubishi Electric Corporation Spracherkennungsvorrichtung
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
JP5863598B2 (ja) * 2012-08-20 2016-02-16 株式会社東芝 音声合成装置、方法およびプログラム
JP6197523B2 (ja) * 2013-09-18 2017-09-20 富士通株式会社 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
KR102217292B1 (ko) * 2015-02-26 2021-02-18 네이버 주식회사 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2017179164A1 (ja) * 2016-04-14 2017-10-19 三菱電機株式会社 読み上げルール修正装置、読み上げルール修正方法
US20230252983A1 (en) * 2019-05-08 2023-08-10 Nippon Telegraph And Telephone Corporation Reading disambiguation device, reading disambiguation method, and reading disambiguation program

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04167000A (ja) * 1990-10-31 1992-06-12 Ricoh Co Ltd テキスト音声合成装置
JP2000194389A (ja) * 1998-12-25 2000-07-14 Matsushita Electric Ind Co Ltd 情報処理装置
JP2001306091A (ja) * 2000-04-26 2001-11-02 Nec Software Kobe Ltd 音声認識システムおよび単語検索方法
JP2003099089A (ja) * 2001-09-20 2003-04-04 Sharp Corp 音声認識・合成装置および方法
JP2004072274A (ja) * 2002-08-02 2004-03-04 Canon Inc 音声処理システム及びその制御方法
JP2005049655A (ja) * 2003-07-29 2005-02-24 Nippon Hoso Kyokai <Nhk> 文字データ修正装置、文字データ修正方法および文字データ修正プログラム
JP2007086404A (ja) * 2005-09-22 2007-04-05 Nec Personal Products Co Ltd 音声合成装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04167000A (ja) * 1990-10-31 1992-06-12 Ricoh Co Ltd テキスト音声合成装置
JP2000194389A (ja) * 1998-12-25 2000-07-14 Matsushita Electric Ind Co Ltd 情報処理装置
JP2001306091A (ja) * 2000-04-26 2001-11-02 Nec Software Kobe Ltd 音声認識システムおよび単語検索方法
JP2003099089A (ja) * 2001-09-20 2003-04-04 Sharp Corp 音声認識・合成装置および方法
JP2004072274A (ja) * 2002-08-02 2004-03-04 Canon Inc 音声処理システム及びその制御方法
JP2005049655A (ja) * 2003-07-29 2005-02-24 Nippon Hoso Kyokai <Nhk> 文字データ修正装置、文字データ修正方法および文字データ修正プログラム
JP2007086404A (ja) * 2005-09-22 2007-04-05 Nec Personal Products Co Ltd 音声合成装置

Also Published As

Publication number Publication date
JP2007248886A (ja) 2007-09-27

Similar Documents

Publication Publication Date Title
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
US6470316B1 (en) Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
JP4704254B2 (ja) 読み修正装置
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
US8015008B2 (en) System and method of using acoustic models for automatic speech recognition which distinguish pre- and post-vocalic consonants
US20160104477A1 (en) Method for the interpretation of automatic speech recognition
CN112562676A (zh) 一种语音解码方法、装置、设备及存储介质
Badino et al. Language independent phoneme mapping for foreign TTS
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
CN112489638B (zh) 一种语音识别方法、装置、设备及存储介质
WO2008056590A1 (fr) Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole
US20070055524A1 (en) Speech dialog method and device
Lobanov et al. Language-and speaker specific implementation of intonation contours in multilingual TTS synthesis
JP5328703B2 (ja) 韻律パターン生成装置
Sakti et al. Development of HMM-based Indonesian speech synthesis
JPH08335096A (ja) テキスト音声合成装置
Bonafonte et al. The UPC TTS system description for the 2008 blizzard challenge
Sawada et al. Overview of NITECH HMM-based text-to-speech system for Blizzard Challenge 2014
JPH09152884A (ja) 音声合成装置
JP4751230B2 (ja) 韻律素片辞書作成方法、並びに音声合成装置及びプログラム
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
Sawada et al. Constructing text-to-speech systems for languages with unknown pronunciations

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070921

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110309

R150 Certificate of patent or registration of utility model

Ref document number: 4704254

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees