JP2001282277A - 音声情報処理装置及びその方法と記憶媒体 - Google Patents
音声情報処理装置及びその方法と記憶媒体Info
- Publication number
- JP2001282277A JP2001282277A JP2000099532A JP2000099532A JP2001282277A JP 2001282277 A JP2001282277 A JP 2001282277A JP 2000099532 A JP2000099532 A JP 2000099532A JP 2000099532 A JP2000099532 A JP 2000099532A JP 2001282277 A JP2001282277 A JP 2001282277A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speech
- registered
- dictionary
- hmm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B7/00—Electrically-operated teaching apparatus or devices working with questions and answers
- G09B7/02—Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
辞書を作成する。 【解決手段】 音声索引検索部401により、音韻環境
を満足する音声素片を音声データベース210から検索
し、その検索結果に基づいてHMM学習部403におい
て各音韻のHMMモデルを算出する。素片認識部405
は、こうして算出された各音韻のHMMモデルに基づい
て音声素片の素片認識を行ない、その素片認識結果が、
元の音声素片と等しい場合に素片辞書に登録する。
Description
れる素片辞書を作成する音声情報処理装置及びその方法
と記憶媒体に関するものである。
とした音声素片を素片辞書に登録しておき、音声合成に
際して、入力される表音テキストに従って素片辞書を検
索し、それら検索された音声素片を編集、接続して、そ
の表音テキストに対応する音声合成を行なって音声を出
力する音声合成方式が主流となっている。
式においては、合成音声の基になる、素片辞書に登録さ
れている音声素片自体の精度が重要となる。従って、音
声素片の音韻環境にバラツキがあったり、或いは音声素
片が雑音を含んでいると、いくら優れた精度の音声合成
を行なっても、それら音声素片を用いて生成される合成
音声には異音や雑音が含まれてしまうことになる。
で、HMMを用いた素片認識を行ない、その認識結果に
応じて辞書に登録する音声情報処理装置及びその方法と
記憶媒体を提供することを目的とする。
質の劣化を防止した素片辞書を作成する音声情報処理装
置及びその方法と記憶媒体を提供することにある。
に本発明の音声情報処理装置は以下のような構成を備え
る。即ち、音韻環境を満足する音声素片を音声データベ
ースから検索する音声素片検索手段と、前記音声素片検
索手段による検索結果に基づいて各音韻のHMMモデル
を算出するHMM学習手段と、前記各音韻のHMMモデ
ルに基づいて前記音声素片の素片認識を行なう素片認識
手段と、前記素片認識手段による素片認識結果に応じて
素片辞書に登録する音声素片を決定する登録素片決定手
段と、を有することを特徴とする。
報処理方法は以下のような工程を備える。即ち、音韻環
境を満足する音声素片を音声データベースから検索する
音声素片検索工程と、前記音声素片検索工程における検
索結果に基づいて各音韻のHMMモデルを算出するHM
M学習工程と、前記各音韻のHMMモデルに基づいて前
記音声素片の素片認識を行なう素片認識工程と、前記素
片認識工程による素片認識結果に応じて素片辞書に登録
する音声素片を決定する登録素片決定工程と、を有する
ことを特徴とする。
報処理装置は以下のような構成を備える。即ち、請求項
8乃至14のいずれか1項に記載の方法により音声素片
が登録された素片辞書と、入力されたテキストデータの
言語解析を行なう言語解析手段と、前記言語解析手段に
より解析された解析結果に基づいて韻律を生成する韻律
生成手段と、前記韻律生成手段により生成された韻律を
基に前記素片辞書を検索して対応する音声素片を選択す
る音声素片選択手段と、前記音声素片選択手段により選
択された音声素片を編集して接続する音声素片編集・接
続手段と、前記音声素片編集・接続手段により編集され
た結果に基づいて音声を再生する音声再生手段と、を有
することを特徴とする。また、本発明の音声情報処理装
置は以下のような構成を備える。即ち、所定の音韻環境
を満足する複数の音声素片を用いて、各音韻に対応する
HMMを学習するHMM学習手段と、前記各音韻に対応
するHMMに基づいて、音声合成に使用する素片辞書に
登録する音声素片を選択する登録素片決定手段と、を有
することを特徴とする。
の好適な実施の形態を詳細に説明する。
形態に係る音声合成装置のハードウェア構成を示すブロ
ック図である。尚、本実施の形態では、一般的なパーソ
ナルコンピュータを音声合成装置として用いる場合につ
いて説明するが、本発明は専用の音声合成装置であって
も、また他の形態の装置であっても良い。
M)で、中央処理装置(CPU)102で使用される各
種制御データを記憶している。CPU102は、RAM
103に記憶された制御プログラムを実行して、この装
置全体の動作を制御している。103はメモリ(RA
M)で、CPU102による各種制御処理の実行時、ワ
ークエリアとして使用されて各種データを一時的に保存
するとともに、CPU102による各種処理の実行時、
外部記憶装置104から制御プログラムをロードして記
憶している。この外部記憶装置は、例えばハードディス
ク、CD−ROM等を含んでいる。105はD/A変換
器で、音声信号を示すデジタルデータが入力されると、
これをアナログ信号に変換してスピーカ109に出力し
て音声を再生する。106は入力部で、オペレータによ
り操作される、例えばキーボードや、マウス等のポイン
ティングデバイスを備えている。107は表示部で、例
えばCRTや液晶等の表示器を有している。108はバ
スで、これら各部を接続している。110は音声合成ユ
ニットである。
合成ユニット110を制御するための制御プログラムは
外部記憶装置104からロードされてRAM103に記
憶され、その制御プログラムで用いる各種データは制御
メモリ101に記憶されている。これらのデータは、中
央処理装置102の制御の下にバス108を通じて適宜
メモリ103に取り込まれ、中央処理装置102による
制御処理で使用される。D/A変換器105は、制御プ
ログラムを実行することによって作成される音声波形デ
ータ(ディジタル信号)をアナログ信号に変換してスピー
カ109に出力する。
ット110のモジュール構成を示すブロック図で、この
音声合成ユニット110は、大きく分けて、素片辞書2
06に音声素片を登録するための処理を実行する素片辞
書作成モジュールと、テキストデータを入力し、そのテ
キストデータに対応する音声を合成して出力する処理を
行なう音声合成モジュールの2つのモジュールを有して
いる。
外部記憶装置104から任意のテキストデータを入力す
るテキスト入力部、202は解析辞書、203は言語解
析部、204は韻律生成規則保持部、205は韻律生成
部、206は素片辞書、207は音声素片選択部、20
8はPSOLA法(ピッチ同期波形重畳法)を用いて音
声素片を編集する音声素片編集・接続部、209は音声
波形出力部、210は音声データベース、211は素片
辞書作成部である。
する。音声合成モジュールでは、言語解析部203が、
解析辞書202を参照して、テキスト入力部201から
入力されるテキストの言語解析を行なう。こうして解析
された結果が韻律生成部205に入力される。韻律生成
部205は、言語解析部203における解析結果と、韻
律生成規則保持部204に保持されている韻律生成規則
に関する情報とを基に音韻系列と韻律情報とを生成して
音声素片選択部207及び音声素片編集・接続部208
に出力する。続いて、音声素片選択部207は、韻律生
成部205から入力される韻律生成結果を用いて、素片
辞書206に保持されている音声素片から対応する音声
素片を選択する。音声素片編集・接続部208は、韻律
生成部205から入力される韻律生成結果に従って、音
声素片選択部207から出力される音声素片を編集及び
接続して音声波形を生成する。こうして生成された音声
波形は、音声波形出力部209で出力される。
明する。
211が、後述する手順に基づいて音声データベース2
10の中から音声素片を選び出して素片辞書206に登
録する。
声合成処理について説明する。
る音声合成処理(オンライン処理)の流れを示すフローチ
ャートである。
201は、文、文節、単語などの単位毎にテキストデー
タを入力してステップS302に移る。ステップS30
2では、言語解析部203により当該テキストデータの
言語解析を行う。次にステップS303に進み、音韻生
成部205は、ステップS302で解析された結果と所
定の韻律規則とに基づいて、音韻系列と韻律情報を生成
する。次にステップS304に進み、各音韻毎にステッ
プS303で得られた韻律情報と所定の音韻環境とに基
づいて、音声素片選択部207が素片辞書206に登録
されている音声素片を選択する。次にステップS305
に進み、その選択された音声素片及びステップS303
で生成された韻律情報とに基づいて、音声素片編集・接
続部208により音声素片の編集および接続を行なって
ステップS306に進む。ステップS306では、音声
素片編集・接続部208によって生成された音声波形
を、音声波形出力部209が音声信号として出力する。
このようにして、入力されたテキストに対応する音声が
出力されることになる。
ールのより詳細な構成を示すブロック図で、前述の図2
と共通する部分は同じ番号で示し、かつ本実施の形態の
特徴である素片辞書作成部211の構成をより詳細に示
している。
402は音声素片保持部、403はHMM学習部、40
4はHMM保持部、405は素片認識部、406は認識
結果保持部、407は登録素片決定部、408は登録素
片保持部である。なお、210は図2で示した音声デー
タベースである。
ス210から所定の音韻環境を満たす音声素片を検索す
る。ここでは複数の音声素片が検索される。音声素片保
持部402は、それら検索された音声素片を複数保持す
る。HMM学習部403は、音声素片保持部402に保
持した各音声素片のケプストラムを、音声素片が有して
いる波形の周波数情報をフーリエ変換等により求め、そ
の結果に基づいて各音韻のHMMを求めて出力する。H
MM保持部404は、その学習結果(HMMモデル)を
各音韻ごとに保持する。素片認識部405は、学習した
HMMを用いてHMMの学習に使用した全ての音声素片
を素片認識し、尤度が最大となるHMM(最尤HMM)
を求める。そして、現在注目している音声素片が最尤H
MMの学習に使用した音声素片か否かを判断する。認識
結果保持部406は、その素片認識結果を保持する。登
録素片決定部407は、素片認識部405における認識
結果から、素片認識に成功した音声素片のみを登録素片
として採用する。登録素片保持部408は、登録素片決
定部407により素片辞書206に登録する音声素片の
みを保持する。
モジュールの動作を示すフローチャートである。
on(ダイフォン)を音韻単位とする全ての音韻につい
て処理を行なったかどうかを判定し、未処理の音韻が存
在する場合はステップS502に進むが、未処理の音韻
が存在しない場合はステップS504の素片認識処理に
進む。
01が、各音韻毎に、音声データベース210から所定
の音韻環境を満足する音声素片を検索し、その検索され
た複数の音声素片を音声素片保持部402に保持してス
テップS503に進む。ステップS503では、HMM
学習部405が、検索された複数の音声素片を学習デー
タとして、ある音韻のHMMの学習を行なう。具体的に
は、まず音声波形のサンプリングレート22050Hz
から、ケプストラム16次、デルタケプストラム16
次、及びパワー、デルタパワーの計34次元のベクトル
を、窓幅25.6m秒でフレーム幅2.5m秒ごとに求
める。但し、ここではパワーとデルタパワーの値は、音
声データベース210の文ごとに“0”から“1”に正
規化されているものとする。次に、5状態1混合分布の
HMM初期モデルを作成し、上記条件で得られるケプス
トラム・ベクトルを使ってHMMの学習を行なう。この
学習の結果得られたある音韻のHMMを、HMM保持部
404に保持した後、次の音韻のHMMを求めるため、
ステップS501に戻る。
が、各音韻のHMMを用いて、ステップS502で検索
された全ての音声素片に対して素片認識を行なう。つま
り、各音声素片毎に、音声素片と各音韻のHMMとの尤
度を求める。次にステップS505に進み、音声素片毎
に、音声素片と最も尤度が高いHMMを求め、その音声
素片が、そのHMMの学習に用いた音声素片であるかど
うかを判定し、そうであれば素片認識が成功したとみな
してステップS506に進み、その音声素片を素片辞書
206に登録する。
れた場合はステップS507に進み、素片辞書206に
登録しないと決定し、素片辞書206に登録することな
くステップS508に進む。こうしてステップS506
或いはS507の処理を実行した後ステップS508に
進み、ステップS504で、全ての音韻のHMMの学習
に用いた全ての音声素片について判定処理が終了したか
を判定し、終了していなければステップS505に戻っ
て前述の処理を実行する。
ば、所定の音韻環境を満足する複数の音声素片を用いて
各音韻に対応するHMMを学習し、学習したHMMを用
いてHMMの学習に使用した全ての音声素片を素片認識
し、最尤HMMの学習に使用した音声素片であると判定
された音声素片のみを素片辞書に登録する。
音を含む音声素片を除去した素片辞書を生成することが
でき、合成音声の音質劣化を抑制することのできる素片
辞書を提供できる。またこのような手順に寄って生成さ
れた素片辞書206を用いて音声を合成することによ
り、合成音声の音質の劣化を抑制することができる。
いては、HMM学習部402が、各音韻毎にHMMを作
成し、素片認識部405では、各HMMの学習に用いた
全ての音声素片を対象に尤度を求める場合を説明した
が、本発明はこれに限定されるものではない。例えば、
音韻としてdiphoneを採用する場合は、各音韻を
CC型、CV型、VC型、VV型の4種類に分類して、
同じ分類に属する音声素片を対象に素片認識を行なって
も良い。ここで、Cは子音、Vは母音を表している。
1,2において、認識に失敗した音声素片を登録しない
場合で説明したが、本発明はこれに限定されるものでは
なく、例えば、許容できる認識誤りパターンを予め記述
したテーブルを用意しておき、認識に失敗した音声素片
であっても、そのテーブルに用意されている許容パター
ンに該当する場合は、登録素片決定部407において、
素片辞書206に登録しても良いと判定する。
ルの一例を示す図である。
neを採用した例を示す。この場合、diphone
「a.y」のHMMの学習に用いた音声素片が「a.
i」として認識された場合であっても、また、diph
one「a.k」のHMMの学習に用いた音声素片が
「a.p」或いは「a.t」と認識された場合であって
も、許容できるものとして素片辞書206に登録する。
示す。この処理は、図5のステップS505において、
違うと判別された場合に実行され、まずステップS60
1に進み、許容テーブル(登録素片決定部407に設け
られている)を検索して、その認識した結果が、そのテ
ーブルに登録されているかどうかをみる。登録されてい
るときは図5のステップS506に進んで、素片辞書2
06に登録するが、一致しないときはステップS507
に進んで素片辞書206に登録しない。
いて、音韻としてdiphoneを採用する場合におい
て、認識に失敗した音声素片は登録しない場合について
説明したが、本発明はこれに限定されるものではなく、
認識に成功した素片数が閾値以下の音韻については、例
えばVC型の場合は、V部分が一致していれば許容する
ようにしてもよい。
いて、各音声素片につき、ステップS503で求めた全
ての音韻のHMMとの尤度をそれぞれ求める場合につい
て説明したが、本発明はこれに限定されるものではな
い。ある音韻のHMMとそのHMMの学習に用いた音声
素片との尤度を求め、最も尤度の高い音声素片から上位
N個(Nは整数)を登録するか、或いは、所定の閾値以
上の尤度を持つ音声素片だけを登録するようにしてもよ
い。
て、ステップS504で求めた尤度を正規化せずに比較
する場合について説明したが、本発明はこれに限定され
るものではない。各尤度を、その尤度に対応する音声素
片の時間長で正規化し、その正規化した尤度を用いて、
登録する音声素片を、上述の手順により選択しても良
い。
計算機上で構成する場合について説明したが、本発明は
これに限定されるものではなく、ネットワーク上に分散
した計算機や処理装置などに分かれて各部を構成しても
よい。
ムを制御メモリ(ROM)に保持する場合について説明し
たが、これに限定されるものではなく、外部記憶など任
意の記憶媒体を用いて実現してもよい。また、同様の動
作をする回路で実現してもよい。
システムに適用しても、1つの機器からなる装置に適用
してもよい。前述した実施の形態の機能を実現するソフ
トウエアのプログラムコードを記録した記録媒体を、シ
ステム或いは装置に供給し、そのシステム或いは装置の
コンピュータ(またはCPUやMPU)が記録媒体に格納
されたプログラムコードを読み出し実行することによっ
ても達成される。
グラムコード自体が前述した実施の形態の機能を実現す
ることになり、そのプログラムコードを記録した記録媒
体は本発明を構成することになる。
体としては、例えば、フロッピー(登録商標)ディス
ク、ハードディスク、光ディスク、光磁気ディスク、C
D−ROM、CD−R、磁気テープ、不揮発性のメモリ
カード、ROMなどを用いることができる。また、コン
ピュータが読み出したプログラムコードを実行すること
により、前述した実施の形態の機能が実現されるだけで
なく、そのプログラムコードの指示に基づき、コンピュ
ータ上で稼働しているOSなどが実際の処理の一部また
は全部を行ない、その処理によって前述した実施の形態
の機能が実現される場合も含まれる。
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施の形態の機能が実現
される場合も含まれる。
ば、HMMを用いた素片認識結果を利用して素片辞書に
登録する音声素片を選択することによって、異音や雑音
を含む音声素片を除去でき、音質の劣化が少ない合成音
声を生成することを可能とする音声合成装置および方法
を提供することができる。
MMを用いた素片認識を行ない、その認識結果に応じて
辞書に登録することにより、音声合成で再生される音声
の品質を向上できるという効果がある。
質の劣化を防止した素片辞書を作成できる。
することにより、高品位に音声合成された音声を再生で
きる。
ドウェア構成を示すブロック図である。
ジュール構成を示すブロック図である。
る処理の流れを示すフローチャートである。
詳細なモジュール構成を示すブロック図である。
における処理の流れを示すフローチャートである。
ンを記憶するテーブルの構成を示す図である。
ュールにおける処理の流れを示すフローチャートであ
る。
Claims (23)
- 【請求項1】 音韻環境を満足する音声素片を音声デー
タベースから検索する音声素片検索手段と、 前記音声素片検索手段による検索結果に基づいて各音韻
のHMMモデルを算出するHMM学習手段と、 前記各音韻のHMMモデルに基づいて前記音声素片の素
片認識を行なう素片認識手段と、 前記素片認識手段による素片認識結果に応じて素片辞書
に登録する音声素片を決定する登録素片決定手段と、を
有することを特徴とする音声情報処理装置。 - 【請求項2】 前記素片認識手段は、前記音韻の単位と
してダイフォンを採用し、音声素片をCC型、CV型、
VC型、VV型の4種類に分離して(C:子音、V:母
音)、前記型のそれぞれにおいて素片認識を行なうこと
を特徴とする請求項1に記載の音声情報処理装置。 - 【請求項3】 前記登録素片決定手段は、 許容できる音声素片パターンを登録したパターン記憶手
段を有し、 前記素片認識手段において素片認識に失敗した音声素片
に一致する音声素片パターンが前記パターン記憶手段に
登録されているか否かを判定し、登録されている場合に
前記音声素片を前記素片辞書に登録することを特徴とす
る請求項1又は2に記載の音声情報処理装置。 - 【請求項4】 前記登録素片決定手段は、前記素片認識
手段により認識した音声素片の数が所定値以上である場
合に前記素片辞書に登録することを特徴とする請求項1
に記載の音声情報処理装置。 - 【請求項5】 前記登録素片決定手段は、前記素片認識
手段により認識した音声素片の数が前記所定数以下であ
っても、少なくとも母音部分が正しく認識されていた場
合は前記素片辞書に登録することを特徴とする請求項4
に記載の音声情報処理装置。 - 【請求項6】 前記素片認識手段は、音韻が同じ音声素
片を対象に尤度を求め、更に、 前記登録素片決定手段は、前記尤度が上位のもの、或い
は、所定値以上の音声素片を前記素片辞書に登録するこ
とを特徴とする請求項1に記載の音声情報処理装置。 - 【請求項7】 前記登録素片決定手段は、前記尤度を前
記音声素片の時間長で正規化した値が上位のもの、或い
は、所定値以上の音声素片を前記素片辞書に登録するこ
とを特徴とする請求項6に記載の音声情報処理装置。 - 【請求項8】 音韻環境を満足する音声素片を音声デー
タベースから検索する音声素片検索工程と、 前記音声素片検索工程における検索結果に基づいて各音
韻のHMMモデルを算出するHMM学習工程と、 前記各音韻のHMMモデルに基づいて前記音声素片の素
片認識を行なう素片認識工程と、 前記素片認識工程による素片認識結果に応じて素片辞書
に登録する音声素片を決定する登録素片決定工程と、を
有することを特徴とする音声情報処理方法。 - 【請求項9】 前記素片認識工程は、前記音韻の単位と
してダイフォンを採用し、音声素片をCC型、CV型、
VC型、VV型の4種類に分離して(C:子音、V:母
音)、前記型のそれぞれにおいて素片認識を行なうこと
を特徴とする請求項8に記載の音声情報処理方法。 - 【請求項10】 前記登録素片決定工程は、 許容できる音声素片パターンを登録したパターン記憶工
程を有し、 前記素片認識工程において素片認識に失敗した音声素片
に一致する音声素片パターンが前記パターン記憶工程に
登録されているか否かを判定し、登録されている場合に
前記音声素片を前記素片辞書に登録することを特徴とす
る請求項8又は9に記載の音声情報処理方法。 - 【請求項11】 前記登録素片決定工程では、前記素片
認識工程により認識した音声素片の数が所定値以上であ
る場合に前記素片辞書に登録することを特徴とする請求
項8に記載の音声情報処理方法。 - 【請求項12】 前記登録素片決定工程では、前記素片
認識工程により認識した音声素片の数が前記所定数以下
であっても、少なくとも母音部分が正しく認識されてい
た場合は前記素片辞書に登録することを特徴とする請求
項11に記載の音声情報処理方法。 - 【請求項13】 前記素片認識工程では、音韻が同じ音
声素片を対象に尤度を求め、更に、 前記登録素片決定工程では、前記尤度が上位のもの、或
いは、所定値以上の音声素片を前記素片辞書に登録する
ことを特徴とする請求項8に記載の音声情報処理方法。 - 【請求項14】 前記登録素片決定工程では、前記尤度
を前記音声素片の時間長で正規化した値が上位のもの、
或いは、所定値以上の音声素片を前記素片辞書に登録す
ることを特徴とする請求項13に記載の音声情報処理方
法。 - 【請求項15】 請求項8乃至14のいずれか1項に記
載の方法を実行するプログラムを記憶したことを特徴と
する、コンピュータにより読取り可能な記憶媒体。 - 【請求項16】 請求項8乃至14のいずれか1項に記
載の方法により音声素片が登録された素片辞書と、 入力されたテキストデータの言語解析を行なう言語解析
手段と、 前記言語解析手段により解析された解析結果に基づいて
韻律を生成する韻律生成手段と、 前記韻律生成手段により生成された韻律を基に前記素片
辞書を検索して対応する音声素片を選択する音声素片選
択手段と、 前記音声素片選択手段により選択された音声素片を編集
して接続する音声素片編集・接続手段と、 前記音声素片編集・接続手段により編集された結果に基
づいて音声を再生する音声再生手段と、を有することを
特徴とする音声情報処理装置。 - 【請求項17】 所定の音韻環境を満足する複数の音声
素片を用いて、各音韻に対応するHMMを学習するHM
M学習手段と、 前記各音韻に対応するHMMに基づいて、音声合成に使
用する素片辞書に登録する音声素片を選択する登録素片
決定手段と、を有することを特徴とする音声情報処理装
置。 - 【請求項18】 前記登録素片決定手段は、前記複数の
音声素片の一音声素片と最も尤度の高くなる最尤HMM
を前記各音韻に対応するHMMの中から求め、前記一音
声素片が前記最尤HMMの学習に使用した音声素片か否
かを判定し、前記最尤HMMの学習に使用した音声素片
である場合に前記一音声素片を選択することを特徴とす
る請求項17に記載の音声情報処理装置。 - 【請求項19】 前記素片辞書を用いて音声を合成する
音声合成手段を更に有することを特徴とする請求項17
又は18に記載の音声情報処理装置。 - 【請求項20】 所定の音韻環境を満足する複数の音声
素片を用いて、各音韻に対応するHMMを学習するHM
M学習工程と、 前記各音韻に対応するHMMに基づいて、音声合成に使
用する素片辞書に登録する音声素片を選択する登録素片
決定工程と、を有することを特徴とする音声情報処理方
法。 - 【請求項21】 前記登録素片決定工程では、前記複数
の音声素片の一音声素片と最も尤度の高くなる最尤HM
Mを前記各音韻に対応するHMMの中から求め、前記一
音声素片が前記最尤HMMの学習に使用した音声素片か
否かを判定し、前記最尤HMMの学習に使用した音声素
片である場合に前記一音声素片を選択することを特徴と
する請求項20に記載の音声情報処理方法。 - 【請求項22】 前記素片辞書を用いて音声を合成する
音声合成工程を更に有することを特徴とする請求項20
又は21に記載の音声情報処理方法。 - 【請求項23】 請求項20乃至22のいずれか1項に
記載の方法を実行するプログラムを記憶したことを特徴
とする、コンピュータにより読取り可能な記憶媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099532A JP4632384B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理装置及びその方法と記憶媒体 |
US09/819,613 US7054814B2 (en) | 2000-03-31 | 2001-03-29 | Method and apparatus of selecting segments for speech synthesis by way of speech segment recognition |
US11/126,372 US20050209855A1 (en) | 2000-03-31 | 2005-05-11 | Speech signal processing apparatus and method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099532A JP4632384B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理装置及びその方法と記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001282277A true JP2001282277A (ja) | 2001-10-12 |
JP2001282277A5 JP2001282277A5 (ja) | 2007-05-24 |
JP4632384B2 JP4632384B2 (ja) | 2011-02-16 |
Family
ID=18613872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000099532A Expired - Fee Related JP4632384B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理装置及びその方法と記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (2) | US7054814B2 (ja) |
JP (1) | JP4632384B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003098597A1 (fr) * | 2002-05-16 | 2003-11-27 | Japan Science And Technology Agency | Dispositif d'extraction de noyau syllabique et progiciel associe |
JP2008191477A (ja) * | 2007-02-06 | 2008-08-21 | Nippon Telegr & Teleph Corp <Ntt> | ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体 |
JP2010145855A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
US6950798B1 (en) * | 2001-04-13 | 2005-09-27 | At&T Corp. | Employing speech models in concatenative speech synthesis |
JP2003295882A (ja) | 2002-04-02 | 2003-10-15 | Canon Inc | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
KR100571835B1 (ko) * | 2004-03-04 | 2006-04-17 | 삼성전자주식회사 | 음성 코퍼스 구축을 위한 녹음 문장 생성 방법 및 장치 |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
JP4328698B2 (ja) * | 2004-09-15 | 2009-09-09 | キヤノン株式会社 | 素片セット作成方法および装置 |
JP4588069B2 (ja) * | 2005-03-31 | 2010-11-24 | パイオニア株式会社 | 操作者認識装置、操作者認識方法、および、操作者認識プログラム |
US20080177548A1 (en) * | 2005-05-31 | 2008-07-24 | Canon Kabushiki Kaisha | Speech Synthesis Method and Apparatus |
US20070124148A1 (en) * | 2005-11-28 | 2007-05-31 | Canon Kabushiki Kaisha | Speech processing apparatus and speech processing method |
JP2008225254A (ja) * | 2007-03-14 | 2008-09-25 | Canon Inc | 音声合成装置及び方法並びにプログラム |
US8543393B2 (en) * | 2008-05-20 | 2013-09-24 | Calabrio, Inc. | Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms |
US20100105015A1 (en) * | 2008-10-23 | 2010-04-29 | Judy Ravin | System and method for facilitating the decoding or deciphering of foreign accents |
US8965768B2 (en) * | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
KR20140053915A (ko) * | 2011-05-24 | 2014-05-08 | 인두 엠. 아난드 | 어플리케이션 데이터 파일로부터의 정보의 컴퓨터-에이디드 소비를 위한 방법 및 그 시스템 |
JP5842452B2 (ja) * | 2011-08-10 | 2016-01-13 | カシオ計算機株式会社 | 音声学習装置及び音声学習プログラム |
US8725508B2 (en) * | 2012-03-27 | 2014-05-13 | Novospeech | Method and apparatus for element identification in a signal |
JP6535998B2 (ja) * | 2014-09-16 | 2019-07-03 | カシオ計算機株式会社 | 音声学習装置および制御プログラム |
US10726197B2 (en) * | 2015-03-26 | 2020-07-28 | Lenovo (Singapore) Pte. Ltd. | Text correction using a second input |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0792997A (ja) * | 1993-09-22 | 1995-04-07 | N T T Data Tsushin Kk | 音声合成装置 |
JPH10116089A (ja) * | 1996-09-30 | 1998-05-06 | Microsoft Corp | 音声合成用の基本周波数テンプレートを収容する韻律データベース |
JPH11126094A (ja) * | 1997-10-21 | 1999-05-11 | Toyo Commun Equip Co Ltd | 音声合成装置 |
JPH11327594A (ja) * | 1998-05-13 | 1999-11-26 | Ricoh Co Ltd | 音声合成辞書作成システム |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02301869A (ja) * | 1989-05-17 | 1990-12-13 | Hitachi Ltd | 自然言語処理システム保守支援方式 |
JPH0573100A (ja) | 1991-09-11 | 1993-03-26 | Canon Inc | 音声合成方法及びその装置 |
JP3397372B2 (ja) | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
JPH07114568A (ja) * | 1993-10-20 | 1995-05-02 | Brother Ind Ltd | データ検索装置 |
JP3450411B2 (ja) * | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
JP3559588B2 (ja) | 1994-05-30 | 2004-09-02 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3548230B2 (ja) | 1994-05-30 | 2004-07-28 | キヤノン株式会社 | 音声合成方法及び装置 |
TW274135B (ja) * | 1994-09-14 | 1996-04-11 | Hitachi Seisakusyo Kk | |
JP3530591B2 (ja) | 1994-09-14 | 2004-05-24 | キヤノン株式会社 | 音声認識装置及びこれを用いた情報処理装置とそれらの方法 |
JP3581401B2 (ja) * | 1994-10-07 | 2004-10-27 | キヤノン株式会社 | 音声認識方法 |
US5726769A (en) * | 1994-11-14 | 1998-03-10 | Canon Kabushiki Kaisha | Image processing apparatus capable of connecting external information processing terminal, and including printer unit and data processing unit |
JP3453456B2 (ja) * | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
JP3459712B2 (ja) * | 1995-11-01 | 2003-10-27 | キヤノン株式会社 | 音声認識方法及び装置及びコンピュータ制御装置 |
JPH09258771A (ja) | 1996-03-25 | 1997-10-03 | Canon Inc | 音声処理方法及び装置 |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
JPH1097276A (ja) | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
JPH10161692A (ja) * | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
JPH10187195A (ja) | 1996-12-26 | 1998-07-14 | Canon Inc | 音声合成方法および装置 |
JPH10254486A (ja) * | 1997-03-13 | 1998-09-25 | Canon Inc | 音声認識装置および方法 |
JP3962445B2 (ja) | 1997-03-13 | 2007-08-22 | キヤノン株式会社 | 音声処理方法及び装置 |
US5926784A (en) * | 1997-07-17 | 1999-07-20 | Microsoft Corporation | Method and system for natural language parsing using podding |
US6000024A (en) * | 1997-10-15 | 1999-12-07 | Fifth Generation Computer Corporation | Parallel computing system |
JP3854713B2 (ja) * | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | 音声合成方法および装置および記憶媒体 |
KR100749289B1 (ko) * | 1998-11-30 | 2007-08-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 텍스트의 자동 세그멘테이션 방법 및 시스템 |
EP1213706B1 (en) * | 2000-12-11 | 2006-07-19 | Sony Deutschland GmbH | Method for online adaptation of pronunciation dictionaries |
-
2000
- 2000-03-31 JP JP2000099532A patent/JP4632384B2/ja not_active Expired - Fee Related
-
2001
- 2001-03-29 US US09/819,613 patent/US7054814B2/en not_active Expired - Fee Related
-
2005
- 2005-05-11 US US11/126,372 patent/US20050209855A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0792997A (ja) * | 1993-09-22 | 1995-04-07 | N T T Data Tsushin Kk | 音声合成装置 |
JPH10116089A (ja) * | 1996-09-30 | 1998-05-06 | Microsoft Corp | 音声合成用の基本周波数テンプレートを収容する韻律データベース |
JPH11126094A (ja) * | 1997-10-21 | 1999-05-11 | Toyo Commun Equip Co Ltd | 音声合成装置 |
JPH11327594A (ja) * | 1998-05-13 | 1999-11-26 | Ricoh Co Ltd | 音声合成辞書作成システム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003098597A1 (fr) * | 2002-05-16 | 2003-11-27 | Japan Science And Technology Agency | Dispositif d'extraction de noyau syllabique et progiciel associe |
JP2008191477A (ja) * | 2007-02-06 | 2008-08-21 | Nippon Telegr & Teleph Corp <Ntt> | ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体 |
JP2010145855A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20050209855A1 (en) | 2005-09-22 |
JP4632384B2 (ja) | 2011-02-16 |
US7054814B2 (en) | 2006-05-30 |
US20020051955A1 (en) | 2002-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4632384B2 (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JP3854713B2 (ja) | 音声合成方法および装置および記憶媒体 | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
US7761296B1 (en) | System and method for rescoring N-best hypotheses of an automatic speech recognition system | |
CN101236743B (zh) | 生成高质量话音的系统和方法 | |
JP3232289B2 (ja) | 記号挿入装置およびその方法 | |
US8046225B2 (en) | Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
JP2001282282A (ja) | 音声情報処理方法および装置および記憶媒体 | |
Gutkin et al. | TTS for low resource languages: A Bangla synthesizer | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP2006084715A (ja) | 素片セット作成方法および装置 | |
US6477495B1 (en) | Speech synthesis system and prosodic control method in the speech synthesis system | |
EP2462586A1 (en) | A method of speech synthesis | |
JP2001282278A (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JPWO2016103652A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
KR20090063546A (ko) | 음성인식 장치 및 방법 | |
JP2583074B2 (ja) | 音声合成方法 | |
JP2974621B2 (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
JP3371761B2 (ja) | 氏名読み音声合成装置 | |
JP3109778B2 (ja) | 音声規則合成装置 | |
Paulo et al. | Multilevel annotation of speech signals using weighted finite state transducers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070327 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070327 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070327 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090626 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101112 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101115 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |