JP4704254B2 - 読み修正装置 - Google Patents
読み修正装置 Download PDFInfo
- Publication number
- JP4704254B2 JP4704254B2 JP2006073137A JP2006073137A JP4704254B2 JP 4704254 B2 JP4704254 B2 JP 4704254B2 JP 2006073137 A JP2006073137 A JP 2006073137A JP 2006073137 A JP2006073137 A JP 2006073137A JP 4704254 B2 JP4704254 B2 JP 4704254B2
- Authority
- JP
- Japan
- Prior art keywords
- correction
- reading
- expression
- unit
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
音声合成の概要については、以下の非特許文献1に開示されている。
音声合成装置の音声変換手段は、中間言語変換手段により生成された中間言語から入力テキストの韻律パタンを決定し、音声合成単位毎の局所的な音声パタン情報を格納している合成音声辞書を参照して、所望の音声を出力する。
しかし、同一表記に対して複数の読み方が読み付与辞書に格納されている場合、読み付与辞書に格納されている語彙知識に誤りがある場合、あるいは、新語のように読み付与辞書に無い語彙の場合などにおいては、適切な読み方を付与することができないケースがある。
したがって、正しい読み方を付与するには、読み付与辞書に格納されている語彙知識を適宜修正する必要があるが、ユーザが音声変換処理により合成された音声を聞いて、読み誤りの範囲と読み誤りの訂正内容を指定して読み付与辞書を修正することは煩雑である。特に、携帯電話やカーナビなどの小型機器では、一般のユーザが読み付与辞書を修正することは困難である。
即ち、以下の特許文献2には、アクセント型を誤って音声合成された語をユーザが正しく発声するだけで、アクセント型を自動的に変更する方法が開示されている。
また、以下の特許文献3には、アクセント型以外の詳細な韻律情報を修正する方法として、テキスト情報の他に、実際に人間が発声した音声情報を補助情報として付加的に使用し、既知の読み方と実際の音声を音素単位で対応付けをとり、音素単位の基本周波数・パワー・継続時間長を修正する方法が開示されている。
図1はこの発明の実施の形態1による読み修正装置を示す構成図であり、図において、音声合成処理部1は入力テキストを言語解析することにより、その入力テキストの読み方と韻律記号からなる中間言語を生成し、その中間言語に対応する音声を出力する処理を実施する。
音声合成処理部1の読み付与辞書2は入力テキストの言語解析に利用される語彙知識(例えば、単語情報、未知語処理用のサブワード情報など)を格納している。
音声合成処理部1の中間言語生成部3は読み付与辞書2に格納されている語彙知識を参照して入力テキストを言語解析し、その入力テキストの読み方と韻律記号からなる中間言語を生成する処理を実施する。
即ち、中間言語生成部3は入力テキストを言語解析して、その入力テキストを構成している単語、サブワード又は音節を抽出し、読み付与辞書2から当該単語、サブワード又は音節に対応する語彙知識を取得して、入力テキスト全体の読み方と韻律記号を推定する。このとき、ポーズ位置や声の大きさの制御情報や未知語・複合名詞に対する韻律情報を付与する。
なお、中間言語生成部3は中間言語生成手段を構成している。
「単語情報」はテキスト表記と、対応する中間言語(読み方・韻律記号)と、品詞・意味・接続スコア等の解析を行うための付随情報とから構成されている。
中間言語の読み方は、カタカナやローマ字で書かれるテキスト表記に対応する音韻情報であり、例えば、表記が「神奈川」であれば、読み方として「カナガワ」が記載されている。
中間言語の韻律記号は、声の高さ・声の大きさ・継続時間・ポーズ情報等の韻律表現であり、中間言語の読み方と混在して記載されている。例えば、声のアクセントの位置を「↓」記号として、「カ↓ナガワ」のように表現されている。
「サブワード情報」も単語情報と同様であるが、サブワード情報はアクセント情報(韻律記号)を含まず、単語登録されていない未知語に読み方を付与する際に用いられる。例えば、表記が「神奈川」であれば、予め「神(カ)」「奈(ナ)」「川(ガワ)」の3つのサブワードが定義されている。例えば、表記が「神奈」であれば、読み方として「カナ」を推定するのに用いられる。
上記の中間言語は、音声合成用のものであるが、韻律記号の除去などの簡単な処理を行うことにより、音声認識のための読みに変換することができる。
音声合成処理部1の音声変換部5は合成音声辞書4から中間言語生成部3により生成された入力テキストの読み方に対応する音声合成単位の音声短時間パラメータを取得し、中間言語の韻律記号に応じて声の高さ・声の大きさ・読み上げの速さ・ポーズの長さなどの韻律情報を制御して、音声合成単位の音声短時間パラメータから合成音声を生成する。
読み上げ内容表示部6は入力テキスト又は中間言語の少なくとも一方に基づいて読み方を画面上に表示する処理を実施する。
なお、音声変換部5及び読み上げ内容表示部6から読み方提示手段が構成されている。
認識辞書変換部8は訂正表現候補生成部7により生成された訂正表現の候補を表しているデータ形式を音声認識辞書10に対応するデータ形式に変換する。即ち、認識辞書変換部8は訂正表現候補生成部7により生成された訂正表現の候補を音声認識辞書10に格納されている照合用標準パタンと同様のデータ形式に変換する。
なお、訂正表現候補生成部7及び認識辞書変換部8から訂正表現候補生成手段が構成されている。
音声認識辞書10は照合用標準パタンを格納しており、その照合用標準パタンは予め音響特徴量に変換されている学習用音声データから推定された音声認識単位(例えば、音素)の標準パタンである。
音声認識部11は認識辞書変換部8によりデータ形式が変換された訂正表現の候補の中から、音声入力部9により音声入力された訂正内容に対応する訂正表現を選択する処理を実施する。
即ち、音声認識部11は音声入力部9から出力された音声信号に対する音声認識処理を実施して、その音声信号から音響特徴量を抽出し、その音響特徴量を認識辞書変換部8によりデータ形式が変換された訂正表現の候補の音響単位の系列にしたがって照合用標準パタンの音響モデルと照合することにより、各訂正表現の候補の照合スコアを求め、最も照合スコアが高い訂正表現を選択する。
なお、照合用標準パタン10、音声認識部11及び訂正内容判定部12から訂正表現選択手段が構成されている。
読み付与辞書修正部14は訂正内容確認部13により訂正の了承が受け付けられた場合、訂正内容判定部12により決定された訂正内容にしたがって読み付与辞書2に格納されている語彙知識を更新する処理を実施する。
なお、訂正内容確認部13及び読み付与辞書修正部14から辞書修正手段が構成されている。
図2はこの発明の実施の形態1による読み修正装置の処理内容を示すフローチャートである。
ここでは説明の便宜上、入力テキストとして「私は愛美です」が音声合成処理部1に入力されるものとして説明する。
この入力テキストの場合、表記「私」の読み方は「ワタシ」に特定されるが、表記「愛美」の読み方に曖昧性があり、「メグミ」「マナミ」「アイミ」の3通りの読み方があるものとする。
この例では、「私」「は」「愛美」「です」を抽出する。
中間言語生成部3は、入力テキストを構成している単語、サブワード又は音節を抽出すると、読み付与辞書2から当該単語、サブワード又は音節に対応する語彙知識を取得して、中間言語(入力テキスト全体の読み方と韻律記号)を生成する(ステップST1)。
入力テキスト全体の読み方は、次にようにして生成する。
そこで、中間言語生成部3は、3通りの読み方の妥当性を考慮したスコアや優先規則等の基準にしたがって最大スコアになる中間言語を生成する。
例えば、表記「愛美」に対する読み方「メグミ」「マナミ」「アイミ」の妥当性を表すスコアがそれぞれ5:4:1である旨の語彙知識が読み付与辞書2に格納されていれば、「ワタシハメグミデス」の読み方が最大スコアになるので、中間言語として「ワタシハメグミデス」を生成する。
このとき、中間言語生成部3は、ポーズ位置や声の大きさの制御情報や未知語・複合名詞に対する韻律記号も生成する。
なお、中間言語生成部3による中間言語の生成処理自体は公知の技術であり、例えば、上記の非特許文献1に開示されている。
即ち、中間言語生成部3により生成された韻律記号に基づいて点ピッチモデルからピッチ成分を推定し、音素を単位として切り出された音声素片を接続することにより合成音声を生成し、その合成音声を出力する。
ピッチパターンの生成方法は、藤崎モデルや点ピッチモデルが一般的であり、例えば、上記の非特許文献1の第167頁に開示されている。また、音声波形の生成方法については上記の非特許文献1の第170頁以降に開示されている。
また、読み上げ内容表示部6は、入力テキスト又は中間言語の少なくとも一方に基づいて、入力テキストの読み方を画面上に表示する。
即ち、訂正表現候補生成部7は、入力テキストの中で表記「愛美」の読み方に曖昧性があるので、中間言語生成部3により生成された中間言語の中で表記「愛美」の読み方が訂正範囲であると認識する。
また、訂正表現候補生成部7は、表記「愛美」の読み方が「メグミ」「マナミ」「アイミ」の3通りあり、中間言語生成部3により読み方「メグミ」が選択されているので、読み方「メグミ」を「マナミ」や「アイミ」に訂正する訂正表現を生成する。
具体的な訂正表現としては、訂正前と訂正後の表現の組合せ(例えば、「メグミデワナクマナミ」、「メグミヲマナミニシュウセイ」)、あるいは、訂正後の表現(例えば、「マナミ」「マナミニシュウセイ」)が考えられる。
例えば、読み方「メグミ」と「メグミデス」を訂正範囲として、訂正表現の候補を生成する。例えば、「マナミ」と「マナミデス」を生成する。生成した訂正表現の候補は、訂正範囲・訂正結果の組合せである訂正内容と対応付けを行う。
なお、訂正表現候補生成部7は、上記のようにして、入力テキストの読み方に対する訂正表現の候補を生成する際、後述する音声認識部11が音声認識処理時に重み付け情報を考慮することにより音声認識率の高精度化を図ることができるので、「マナミ」「アイミ」の重み付け情報が読み付与辞書2に格納されていれば、その重み付け情報を訂正表現の候補に付加する。
即ち、認識辞書変換部8は、訂正表現候補生成部7により生成された訂正表現の候補を音声認識辞書10に格納されている照合用標準パタンと同様のデータ形式に変換する。
例えば、訂正表現の候補の一部である「マナミ」「アイミ」に着目すると、音声認識辞書10の最小単位が音素である場合(概ね、ローマ字表記の1文字に相当)、「マナミ」「アイミ」をそれぞれ/manami/、/aimi/のように音素表現(照合用標準パタンと同じデータ形式)に展開する。
図3は音声認識辞書10の内部構造の一例を示す説明図であり、図3の例では、訂正表現の一部である音素表現/manami/、/aimi/の共通部分{m i}のノードをマージしてノード数を減らすことにより、探索候補の削減を図っている。
なお、「マナミ」「アイミ」に重み付け情報があれば、ネットワークのノードやアーク通過時や認識結果算出時に加算処理を実施して、認識時のスコア計算に反映させることができる。
例えば、音声入力部9を構成しているマイクが、読み訂正発話である音声信号をサンプリング周期11.25kHzでサンプリングし、そのサンプリングした音声信号を量子化ビット数16bitでA/D変換する。
即ち、音声認識部11は、音声入力部9から出力された音声信号に対する音声認識処理を実施して、その音声信号から音響特徴量を抽出し、その音響特徴量を認識辞書変換部8によりデータ形式が変換された訂正表現の候補の音響単位の系列にしたがって照合用標準パタン10の音響モデルと照合することにより、各訂正表現の候補の照合スコアを求め、最も照合スコアが高い訂正表現を選択する。
例えば、音声入力部9により音声入力された訂正内容の音声認識結果が「マナミ」であれば、「マナミ」や「マナミデス」や「マナミニシュウセイ」など、「マナミ」を含む訂正表現の照合スコアが高くなる。
ただし、音声認識処理のアルゴリズムは、下記の非特許文献2に開示されており、例えば、非特許文献2に開示されているアルゴリズムで音声認識処理を実施する。
・非特許文献2
「音声認識の基礎(上)(下)」Lawrence Rabiner、Biing−Hwang Juang共著、古井貞煕監訳、NTTアドバンステクノロジ株式会社
例えば、特徴ベクトルとしては、10ms間隔で256点フーリエ変換及び対数化・逆フーリエ変換により算出される12次元のメルケプストラムを用いる。
音声認識部11は、音声の特徴を表している特徴ベクトルを抽出すると、音声認識辞書10に格納されている照合用標準パタン及び認識辞書変換部8によりデータ形式が変換された訂正表現の候補を参照して、音声認識語彙の中から、上記の特徴ベクトルと照合の度合いが最も高い単語又は単語系列を取得する。
音声認識部11は、音声認識辞書10に格納されている照合用標準パタンが入力音響特徴ベクトルを生成する最大確率をビタビアルゴリズムにより算出する。
そして、その最大確率をスコアとして、通過経路である音素時系列を認識結果とする。
具体的には、音声認識部11により選択された訂正表現が例えば「マナミデス」であれば、訂正表現候補生成部7から出力される訂正範囲等を参照することにより、その訂正表現に対応する元の表現が「メグミデス」であると認識し、「メグミデス」→「マナミデス」を訂正内容に決定する。
具体的には、図4に示すように、訂正内容判定部12により決定された訂正内容を画面上に表示し、ユーザがボタン操作や音声入力によって訂正内容の了承を受け付けるようにする。
図4の例では、訂正箇所の表記「愛美」に係る訂正前の読み方「メグミ」と訂正後の読み方「マナミ」を表示しているが、図5に示すように、入力テキスト全文の読み方「私は愛美です」を表示するとともに、訂正箇所の表記「愛美」に対して訂正後の読み方「マナミ」をフリガナで表示するようにしてもよい。
また、音声認識部11により選択された訂正表現として、例えば、「ワタシハマナミデス」を表示し、例えば、訂正箇所の読み方「マナミ」を他の箇所の読み方「ワタシハ、デス」より太文字で強調表示するなど、訂正箇所の読み方「マナミ」を他の箇所の読み方と異なる調子で表示するようにしてもよい。
この際、訂正箇所の読み方の声質・声の大きさ・声の高さ・音素の継続時間長・ポーズ長の少なくとも一つを通常の発声と変えることにより、訂正内容を強調してユーザに提示するようにしてもよい。
図6はユーザが2発話を行う場合の処理内容を示すフローチャートである。
この場合、訂正表現候補生成部7は、上記の説明と同様にして、訂正表現の候補(以下、訂正後表現という)を生成する他に、訂正前表現(訂正前表現は入力テキストに相当)を生成する(ステップST3)。
認識辞書変換部8は、上記の説明と同様にして、訂正表現候補生成部7により生成された訂正後表現を照合用標準パタンに対応するデータ形式に変換する他に(ステップST14)、訂正表現候補生成部7により生成された訂正前表現を照合用標準パタンに対応するデータ形式に変換する(ステップST11)。
また、音声認識部11は、音声入力部9が訂正後表現の発話を音声入力して、その音声信号を出力すると(ステップST15)、その音声信号に対する音声認識処理を実施して訂正後表現を解析する(ステップST16)。
音声認識部11は、訂正前表現と訂正後表現を解析すると、以下、上記の説明と同様にして、訂正後表現である訂正表現の候補の照合スコアを求め、最も照合スコアが高い訂正表現を選択する(ステップST17)。
例えば、表記「朝青龍」に対応する単語が読み付与辞書2に登録されていない未知語であれば、読み付与辞書2に格納されているサブワードを参照して、表記「朝青龍」の読み方として、例えば「チョウセイリュウ」を付与する。
この場合、読み方「チョウセイリュウ」を「アサショウリュウ」に修正することになるが、読み付与辞書2は、未知語を処理するサブワードとして、図7に示すような同一の表記に対して様々な読み方を保持している。
図8は図7のサブワードから取得可能な読み方をネットワーク展開している説明図であり、図8の例では、27通りの読み方を候補として取得している。
この際、音読みと訓読みが接続され難いなどの言語的な知見を考慮して接続関係を設定すること、あるいは、接続関係に重みを付与することにより、更なる高精度化が可能である。
現状の音声認識技術では、言語制約が弱い場合、カタカナ1文字に相当する読み方の認識率は静かな環境でも80%程度であり、表記と全く対応が取れない未知語に適切な読み方を付与することは困難である。
しかし、聴取している利用者は、前後の文脈を利用しているため、1文字程度の誤りであれば、全く読み誤るよりは了解性が高いと考えられる。
図9の例では、読み付与辞書2において、該当表記の単語が存在する場合は重みw1、該当表記のサブワード連鎖が存在する場合は重みw2、任意の文字連鎖に対する音声認識辞書へは重みw3を付加するようにしている。
なお、それぞれの重みは、読み付与辞書2における未知語の割合や、サブワードでカバーすることができない表現の割合を考慮して決定される。
この結果、単語やサブワードが登録されている語彙が発声された場合への悪影響を抑えつつ、表記と全く対応が取れない読み方を、言語制約無しの音声認識処理による認識結果を読み候補として、ユーザに提示することができる。
また、読み上げ内容表示部6が入力テキストの読み方を画面上に表示する際、読み付与の曖昧性がある箇所の表示形態を他の箇所の表示形態と異なるように表示してもよい。
所定の条件としては、例えば、音声変換部5が同一の入力テキストに対して、3回まで韻律記号を変えてユーザに提示し、変更後、あるいは、3回提示後は通常通りの提示形態に戻すようにする。
(1)の例としては次のようなものがある。
表記「愛美」に対する読み方「メグミ」「マナミ」「アイミ」のスコアがそれぞれ5:4:1であり、最大スコアの読み方「メグミ」を選択したものとする。
この場合、読み候補が複数あり、かつ、読み方「マナミ」とのスコア差が僅差の“1”であるため、読み方の修正の可能性が大きいと判定する。
(2)の例としては次のようなものがある。
表記「朝青龍」に対して未知語の読み付与処理を行うことにより、読み方「チョウセイリュウ」が付与された場合、読み方の修正の可能性が大きいと判定する。
また、読み上げ内容表示部6が、読み付与の曖昧性がある箇所の表示形態を他の箇所の表示形態と異なるように表示する具体的な例としては、下線・太字・文字色などにより該当箇所の表示形態を通常と変えるなどが考えられる。
図10はこの発明の実施の形態2による読み修正装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
時刻同期取得部21は音声入力部9による読み訂正発話の音声入力時刻と、音声変換部5による合成音声の出力時刻又は読み上げ内容表示部6による読み方の表示時刻とを取得する処理を実施する。
選択対象限定部22は訂正表現候補生成部7により生成された訂正表現の候補の中から、時刻同期取得部21により取得された時刻を基準にして、実際に選択可能な訂正表現の候補を限定する処理を実施する。なお、時刻同期取得部21及び選択対象限定部22は訂正表現選択手段を構成している。
図11はこの発明の実施の形態2による読み修正装置の処理内容を示すフローチャートである。
ユーザは、音声変換部5から出力された合成音声を聞いた時点、あるいは、読み上げ内容表示部6により表示された読み方を見た時点で読み方の誤りに気がついて、音声入力部9に対する読み訂正発話を行う。
したがって、音声変換部5から合成音声が出力される前(あるいは、読み上げ内容表示部6により読み方が表示される前)に行われた音声入力部9に対する読み訂正発話や、訂正表現候補生成部7により生成された訂正表現の候補は、上記の誤りを訂正する読み方に関係するものではないと考えられる。
また、音声変換部5から合成音声が出力された後(あるいは、読み上げ内容表示部6により読み方が表示された後)、多くの時間が経過した後に行われた音声入力部9に対する読み訂正発話や、訂正表現候補生成部7により生成された訂正表現の候補は、上記の誤りを訂正する読み方に関係するものではないと考えられる。
以下、時刻同期取得部21及び選択対象限定部22の処理内容を具体的に説明する。
また、時刻同期取得部21は、音声変換部5が合成音声を出力すると、音声変換部5による合成音声の出力時刻を取得する。あるいは、読み上げ内容表示部6が読み方を表示すると、読み上げ内容表示部6による読み方の表示時刻を取得する(ステップST21)。
即ち、選択対象限定部22は、音声入力部9による読み訂正発話の音声入力時刻が、音声変換部5による合成音声の出力時刻(あるいは、読み上げ内容表示部6による読み方の表示時刻)から一定時間以内であるか否かを判定する。
選択対象限定部22は、音声入力部9による読み訂正発話の音声入力時刻が合成音声の出力時刻から一定時間以内であれば、訂正表現候補生成部7により生成された訂正表現の候補の中から、音声変換部5から出力された合成音声の元になっている中間言語に対する訂正表現の候補を選択する(ステップST22)。
これにより、認識辞書変換部8には、選択対象限定部22により選択された訂正表現の候補のみが与えられ、その訂正表現の候補のデータ形式を変換する。
以下、上記実施の形態1と同様であるため説明を省略する。
図12はこの発明の実施の形態3による読み修正装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
訂正箇所取得部23は読み上げ内容表示部6により表示された読み方の中から、訂正箇所(訂正対象の読み方)の指定を受け付ける処理を実施する。なお、訂正箇所取得部23は訂正対象指定手段を構成している。
選択対象限定部24は訂正表現候補生成部7により生成された訂正表現の候補の中から、訂正箇所取得部23により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定する処理を実施する。なお、選択対象限定部24は訂正表現選択手段を構成している。
図13はこの発明の実施の形態3による読み修正装置の処理内容を示すフローチャートである。
具体的には、以下の通りである。
訂正箇所取得部23は、読み上げ内容表示部6が図14に示すような画面を表示すると、ユーザによる操作デバイス(例えば、キーボード、タッチパネル、マウス)の操作を監視して、訂正箇所の指定を受け付ける処理を実施する(ステップST32)。
例えば、操作デバイスがタッチパネルである場合、ユーザが「愛美」の表示位置に触れれば、表記「愛美」が訂正箇所であると認識する。
また、操作デバイスがキーボードやマウスである場合、訂正箇所までカーソルを移動すれば、同様に訂正箇所を指定することができる。
ここでは、ユーザが操作デバイスを操作して、訂正箇所を指定するものについて示したが、例えば、ユーザが「マナミ」と発声することにより、音声で訂正箇所「マナミ」を指定するようにしてもよい。
即ち、選択対象限定部24は、訂正表現候補生成部7により生成された訂正表現の候補の中から、訂正箇所取得部23により指定された訂正箇所(訂正対象の読み方)の元になっている中間言語に対する訂正表現の候補を選択する(ステップST33)。
したがって、選択対象限定部24は、訂正表現候補生成部7により生成された訂正表現の候補であっても、訂正箇所取得部23により指定された訂正箇所(訂正対象の読み方)の元になっていない中間言語に対する訂正表現の候補は、選択対象の訂正表現の候補から除外する。
これにより、認識辞書変換部8には、選択対象限定部24により選択された訂正表現の候補のみが与えられ、その訂正表現の候補のデータ形式を変換する。
以下、上記実施の形態1と同様であるため説明を省略する。
図15はこの発明の実施の形態4による読み修正装置を示す構成図であり、図において、図12と同一符号は同一または相当部分を示すので説明を省略する。
訂正表現選択部25は図12の選択対象限定部24と同様に、訂正表現候補生成部7により生成された訂正表現の候補の中から、訂正箇所取得部23により受け付けられた指定内容にしたがって実際に選択可能な訂正表現の候補を限定する処理を実施する。また、訂正表現選択部25は限定後の訂正表現の候補を画面上に表示して、限定後の訂正表現の候補の中から、実際に使用する訂正表現の選択を受け付ける処理を実施する。なお、訂正表現選択部25は訂正表現選択手段を構成している。
図16はこの発明の実施の形態4による読み修正装置の処理内容を示すフローチャートである。
具体的には、以下の通りである。
訂正表現選択部25は、選択可能な訂正表現の候補を限定すると、限定後の訂正表現の候補を画面上に表示して(ステップST41)、限定後の訂正表現の候補の中から、実際に使用する訂正表現の選択を受け付ける処理を実施する(ステップST42)。
訂正表現選択部25は、実際に使用する訂正表現の選択を受け付けると、図1の訂正内容判定部12と同様にして、その訂正表現から読み方の訂正内容を決定する。
以下、上記実施の形態1と同様であるため説明を省略する。
Claims (7)
- 入力テキストの言語解析に利用される語彙知識を格納している読み付与辞書と、
上記読み付与辞書に格納されている語彙知識を参照して入力テキストを言語解析し、上記入力テキストの読み方を示す中間言語を生成する中間言語生成手段と、
上記中間言語生成手段により生成された中間言語が示す読み方に対して、複数の範囲を訂正範囲として、訂正内容に対応付けられた訂正表現の候補を生成する訂正表現候補生成手段と、
読み訂正発話を音声入力する音声入力手段と、
上記訂正表現候補生成手段により生成された訂正表現の候補の中から、上記音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択し、当該訂正表現に基づいて訂正内容を決定する訂正表現選択手段と、
上記訂正表現選択手段により決定された訂正内容にしたがって上記読み付与辞書に格納されている語彙知識を更新する辞書修正手段とを備えた読み修正装置。 - 訂正表現選択手段は、音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択するに際して、上記音声入力手段による読み訂正発話の音声入力時刻と読み方提示手段による読み方の提示時刻とを基準にして、選択対象の訂正表現の候補を限定することを特徴とする請求項1記載の読み修正装置。
- 読み方提示手段により提示された読み方の中から、訂正対象の読み方を指定する訂正対象指定手段を設け、訂正表現選択手段が音声入力手段により音声入力された読み訂正発話に対応する訂正表現を選択するに際して、上記訂正対象指定手段により指定された訂正対象の読み方に応じて選択対象の訂正表現の候補を限定することを特徴とする請求項1記載の読み修正装置。
- 訂正表現候補生成手段は、訂正表現の候補を生成する際、読み付与辞書から入力テキストを構成している単語、サブワード又は音節の読みに対応する語彙知識を取得して訂正表現の候補を生成することを特徴とする請求項1から請求項3のうちのいずれか1項記載の読み修正装置。
- 辞書修正手段は、読み付与辞書に格納されている語彙知識を更新するに際して、訂正表現選択手段により選択された訂正表現を提示し、訂正が了承された場合に限り、上記訂正表現にしたがって上記語彙知識を更新することを特徴とする請求項1から請求項4のうちのいずれか1項記載の読み修正装置。
- 辞書修正手段は、訂正表現選択手段により選択された訂正表現を提示する代わりに、入力テキストの訂正後の読み方を提示することを特徴とする請求項5記載の読み修正装置。
- 辞書修正手段は、訂正対象の読み方を他の箇所の読み方と異なる調子で提示することを特徴とする請求項6記載の読み修正装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006073137A JP4704254B2 (ja) | 2006-03-16 | 2006-03-16 | 読み修正装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006073137A JP4704254B2 (ja) | 2006-03-16 | 2006-03-16 | 読み修正装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007248886A JP2007248886A (ja) | 2007-09-27 |
JP4704254B2 true JP4704254B2 (ja) | 2011-06-15 |
Family
ID=38593243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006073137A Expired - Fee Related JP4704254B2 (ja) | 2006-03-16 | 2006-03-16 | 読み修正装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4704254B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112010005425T5 (de) * | 2010-03-30 | 2013-01-10 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
JP5863598B2 (ja) * | 2012-08-20 | 2016-02-16 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
JP6197523B2 (ja) * | 2013-09-18 | 2017-09-20 | 富士通株式会社 | 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
KR102217292B1 (ko) * | 2015-02-26 | 2021-02-18 | 네이버 주식회사 | 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
WO2017179164A1 (ja) * | 2016-04-14 | 2017-10-19 | 三菱電機株式会社 | 読み上げルール修正装置、読み上げルール修正方法 |
US20230252983A1 (en) * | 2019-05-08 | 2023-08-10 | Nippon Telegraph And Telephone Corporation | Reading disambiguation device, reading disambiguation method, and reading disambiguation program |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04167000A (ja) * | 1990-10-31 | 1992-06-12 | Ricoh Co Ltd | テキスト音声合成装置 |
JP2000194389A (ja) * | 1998-12-25 | 2000-07-14 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
JP2001306091A (ja) * | 2000-04-26 | 2001-11-02 | Nec Software Kobe Ltd | 音声認識システムおよび単語検索方法 |
JP2003099089A (ja) * | 2001-09-20 | 2003-04-04 | Sharp Corp | 音声認識・合成装置および方法 |
JP2004072274A (ja) * | 2002-08-02 | 2004-03-04 | Canon Inc | 音声処理システム及びその制御方法 |
JP2005049655A (ja) * | 2003-07-29 | 2005-02-24 | Nippon Hoso Kyokai <Nhk> | 文字データ修正装置、文字データ修正方法および文字データ修正プログラム |
JP2007086404A (ja) * | 2005-09-22 | 2007-04-05 | Nec Personal Products Co Ltd | 音声合成装置 |
-
2006
- 2006-03-16 JP JP2006073137A patent/JP4704254B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04167000A (ja) * | 1990-10-31 | 1992-06-12 | Ricoh Co Ltd | テキスト音声合成装置 |
JP2000194389A (ja) * | 1998-12-25 | 2000-07-14 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
JP2001306091A (ja) * | 2000-04-26 | 2001-11-02 | Nec Software Kobe Ltd | 音声認識システムおよび単語検索方法 |
JP2003099089A (ja) * | 2001-09-20 | 2003-04-04 | Sharp Corp | 音声認識・合成装置および方法 |
JP2004072274A (ja) * | 2002-08-02 | 2004-03-04 | Canon Inc | 音声処理システム及びその制御方法 |
JP2005049655A (ja) * | 2003-07-29 | 2005-02-24 | Nippon Hoso Kyokai <Nhk> | 文字データ修正装置、文字データ修正方法および文字データ修正プログラム |
JP2007086404A (ja) * | 2005-09-22 | 2007-04-05 | Nec Personal Products Co Ltd | 音声合成装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2007248886A (ja) | 2007-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4054507B2 (ja) | 音声情報処理方法および装置および記憶媒体 | |
US8224645B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
US6470316B1 (en) | Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing | |
JP4704254B2 (ja) | 読み修正装置 | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
JP2004258658A (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
US8015008B2 (en) | System and method of using acoustic models for automatic speech recognition which distinguish pre- and post-vocalic consonants | |
US20160104477A1 (en) | Method for the interpretation of automatic speech recognition | |
CN112562676A (zh) | 一种语音解码方法、装置、设备及存储介质 | |
Badino et al. | Language independent phoneme mapping for foreign TTS | |
Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
CN112489638B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
WO2008056590A1 (fr) | Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole | |
US20070055524A1 (en) | Speech dialog method and device | |
Lobanov et al. | Language-and speaker specific implementation of intonation contours in multilingual TTS synthesis | |
JP5328703B2 (ja) | 韻律パターン生成装置 | |
Sakti et al. | Development of HMM-based Indonesian speech synthesis | |
JPH08335096A (ja) | テキスト音声合成装置 | |
Bonafonte et al. | The UPC TTS system description for the 2008 blizzard challenge | |
Sawada et al. | Overview of NITECH HMM-based text-to-speech system for Blizzard Challenge 2014 | |
JPH09152884A (ja) | 音声合成装置 | |
JP4751230B2 (ja) | 韻律素片辞書作成方法、並びに音声合成装置及びプログラム | |
JP2005157166A (ja) | 音声認識装置、音声認識方法及びプログラム | |
Sawada et al. | Constructing text-to-speech systems for languages with unknown pronunciations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070921 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080630 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081006 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110309 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4704254 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |