JP4632384B2 - 音声情報処理装置及びその方法と記憶媒体 - Google Patents

音声情報処理装置及びその方法と記憶媒体 Download PDF

Info

Publication number
JP4632384B2
JP4632384B2 JP2000099532A JP2000099532A JP4632384B2 JP 4632384 B2 JP4632384 B2 JP 4632384B2 JP 2000099532 A JP2000099532 A JP 2000099532A JP 2000099532 A JP2000099532 A JP 2000099532A JP 4632384 B2 JP4632384 B2 JP 4632384B2
Authority
JP
Japan
Prior art keywords
speech
segment
unit
registered
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000099532A
Other languages
English (en)
Other versions
JP2001282277A (ja
JP2001282277A5 (ja
Inventor
泰夫 奥谷
康弘 小森
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000099532A priority Critical patent/JP4632384B2/ja
Priority to US09/819,613 priority patent/US7054814B2/en
Publication of JP2001282277A publication Critical patent/JP2001282277A/ja
Priority to US11/126,372 priority patent/US20050209855A1/en
Publication of JP2001282277A5 publication Critical patent/JP2001282277A5/ja
Application granted granted Critical
Publication of JP4632384B2 publication Critical patent/JP4632384B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成で使用される素片辞書を作成する音声情報処理装置及びその方法と記憶媒体に関するものである。
【0002】
【従来の技術】
近年、音素やdiphoneなどを単位とした音声素片を素片辞書に登録しておき、音声合成に際して、入力される表音テキストに従って素片辞書を検索し、それら検索された音声素片を編集、接続して、その表音テキストに対応する音声合成を行なって音声を出力する音声合成方式が主流となっている。
【0003】
【発明が解決しようとする課題】
このような音声合成方式においては、合成音声の基になる、素片辞書に登録されている音声素片自体の精度が重要となる。従って、音声素片の音韻環境にバラツキがあったり、或いは音声素片が雑音を含んでいると、いくら優れた精度の音声合成を行なっても、それら音声素片を用いて生成される合成音声には異音や雑音が含まれてしまうことになる。
【0004】
本発明は上記従来例に鑑みてなされたもので、HMMを用いた素片認識を行ない、その認識結果に応じて辞書に登録する音声情報処理装置及びその方法と記憶媒体を提供することを目的とする。
【0005】
また本発明の目的は、音声合成における音質の劣化を防止した素片辞書を作成する音声情報処理装置及びその方法と記憶媒体を提供することにある。
【0006】
【課題を解決するための手段】
上記目的を達成するために本発明の音声情報処理装置は以下のような構成を備える。即ち、
音韻環境を満足する音声素片を音声データベースから検索する音声素片検索手段と、
前記音声素片検索手段による検索結果に基づいて各音韻のHMMモデルを算出するHMM学習手段と、
前記各音韻のHMMモデルに基づいて前記音声素片の素片認識を行なう素片認識手段と、
前記素片認識手段による素片認識結果に応じて素片辞書に登録する音声素片を決定する登録素片決定手段と、
を有することを特徴とする。
【0007】
上記目的を達成するために本発明の音声情報処理方法は以下のような工程を備える。即ち、
音韻環境を満足する音声素片を音声データベースから検索する音声素片検索工程と、
前記音声素片検索工程における検索結果に基づいて各音韻のHMMモデルを算出するHMM学習工程と、
前記各音韻のHMMモデルに基づいて前記音声素片の素片認識を行なう素片認識工程と、
前記素片認識工程による素片認識結果に応じて素片辞書に登録する音声素片を決定する登録素片決定工程と、
を有することを特徴とする。
【0008】
上記目的を達成するために本発明の音声情報処理装置は以下のような構成を備える。即ち、
所定の音韻環境を満足する複数の音声素片を用いて、各音韻に対応するHMMを学習するHMM学習手段と、
前記各音韻に対応するHMMの尤度が最も高い音声素片を、音声合成に使用する素片辞書に登録する音声素片として決定する登録素片決定手段と、を有することを特徴とする。
また本発明の音声情報処理方法は以下のような工程を備える。即ち、
所定の音韻環境を満足する複数の音声素片を用いて、各音韻に対応するHMMを学習するHMM学習工程と、
前記各音韻に対応するHMMの尤度が最も高い音声素片を、音声合成に使用する素片辞書に登録する音声素片として決定する登録素片決定工程と、を有することを特徴とする。
【0009】
【発明の実施の形態】
以下、添付図面を参照して本発明の好適な実施の形態を詳細に説明する。
【0010】
[実施の形態1]
図1は、本発明の実施の形態に係る音声合成装置のハードウェア構成を示すブロック図である。尚、本実施の形態では、一般的なパーソナルコンピュータを音声合成装置として用いる場合について説明するが、本発明は専用の音声合成装置であっても、また他の形態の装置であっても良い。
【0011】
図1において、101は制御メモリ(ROM)で、中央処理装置(CPU)102で使用される各種制御データを記憶している。CPU102は、RAM103に記憶された制御プログラムを実行して、この装置全体の動作を制御している。103はメモリ(RAM)で、CPU102による各種制御処理の実行時、ワークエリアとして使用されて各種データを一時的に保存するとともに、CPU102による各種処理の実行時、外部記憶装置104から制御プログラムをロードして記憶している。この外部記憶装置は、例えばハードディスク、CD−ROM等を含んでいる。105はD/A変換器で、音声信号を示すデジタルデータが入力されると、これをアナログ信号に変換してスピーカ109に出力して音声を再生する。106は入力部で、オペレータにより操作される、例えばキーボードや、マウス等のポインティングデバイスを備えている。107は表示部で、例えばCRTや液晶等の表示器を有している。108はバスで、これら各部を接続している。110は音声合成ユニットである。
【0012】
以上の構成において、本実施の形態の音声合成ユニット110を制御するための制御プログラムは外部記憶装置104からロードされてRAM103に記憶され、その制御プログラムで用いる各種データは制御メモリ101に記憶されている。これらのデータは、中央処理装置102の制御の下にバス108を通じて適宜メモリ103に取り込まれ、中央処理装置102による制御処理で使用される。D/A変換器105は、制御プログラムを実行することによって作成される音声波形データ(ディジタル信号)をアナログ信号に変換してスピーカ109に出力する。
【0013】
図2は、本実施の形態に係る音声合成ユニット110のモジュール構成を示すブロック図で、この音声合成ユニット110は、大きく分けて、素片辞書206に音声素片を登録するための処理を実行する素片辞書作成モジュールと、テキストデータを入力し、そのテキストデータに対応する音声を合成して出力する処理を行なう音声合成モジュールの2つのモジュールを有している。
【0014】
図2において、201は、入力部106や外部記憶装置104から任意のテキストデータを入力するテキスト入力部、202は解析辞書、203は言語解析部、204は韻律生成規則保持部、205は韻律生成部、206は素片辞書、207は音声素片選択部、208はPSOLA法(ピッチ同期波形重畳法)を用いて音声素片を編集する音声素片編集・接続部、209は音声波形出力部、210は音声データベース、211は素片辞書作成部である。
【0015】
まず音声合成モジュール処理について説明する。音声合成モジュールでは、言語解析部203が、解析辞書202を参照して、テキスト入力部201から入力されるテキストの言語解析を行なう。こうして解析された結果が韻律生成部205に入力される。韻律生成部205は、言語解析部203における解析結果と、韻律生成規則保持部204に保持されている韻律生成規則に関する情報とを基に音韻系列と韻律情報とを生成して音声素片選択部207及び音声素片編集・接続部208に出力する。続いて、音声素片選択部207は、韻律生成部205から入力される韻律生成結果を用いて、素片辞書206に保持されている音声素片から対応する音声素片を選択する。音声素片編集・接続部208は、韻律生成部205から入力される韻律生成結果に従って、音声素片選択部207から出力される音声素片を編集及び接続して音声波形を生成する。こうして生成された音声波形は、音声波形出力部209で出力される。
【0016】
次に、素片辞書作成モジュールについて説明する。
【0017】
このモジュール処理では、素片辞書作成部211が、後述する手順に基づいて音声データベース210の中から音声素片を選び出して素片辞書206に登録する。
【0018】
次に、上記構成を備えた本実施の形態の音声合成処理について説明する。
【0019】
図3は、図2の音声合成モジュールにおける音声合成処理(オンライン処理)の流れを示すフローチャートである。
【0020】
まずステップS301で、テキスト入力部201は、文、文節、単語などの単位毎にテキストデータを入力してステップS302に移る。ステップS302では、言語解析部203により当該テキストデータの言語解析を行う。次にステップS303に進み、音韻生成部205は、ステップS302で解析された結果と所定の韻律規則とに基づいて、音韻系列と韻律情報を生成する。次にステップS304に進み、各音韻毎にステップS303で得られた韻律情報と所定の音韻環境とに基づいて、音声素片選択部207が素片辞書206に登録されている音声素片を選択する。次にステップS305に進み、その選択された音声素片及びステップS303で生成された韻律情報とに基づいて、音声素片編集・接続部208により音声素片の編集および接続を行なってステップS306に進む。ステップS306では、音声素片編集・接続部208によって生成された音声波形を、音声波形出力部209が音声信号として出力する。このようにして、入力されたテキストに対応する音声が出力されることになる。
【0021】
図4は、図2で示した素片辞書作成モジュールのより詳細な構成を示すブロック図で、前述の図2と共通する部分は同じ番号で示し、かつ本実施の形態の特徴である素片辞書作成部211の構成をより詳細に示している。
【0022】
図4において、401は音声素片検索部、402は音声素片保持部、403はHMM学習部、404はHMM保持部、405は素片認識部、406は認識結果保持部、407は登録素片決定部、408は登録素片保持部である。なお、210は図2で示した音声データベースである。
【0023】
音声素片検索部401は、音声データベース210から所定の音韻環境を満たす音声素片を検索する。ここでは複数の音声素片が検索される。音声素片保持部402は、それら検索された音声素片を複数保持する。HMM学習部403は、音声素片保持部402に保持した各音声素片のケプストラムを、音声素片が有している波形の周波数情報をフーリエ変換等により求め、その結果に基づいて各音韻のHMMを求めて出力する。HMM保持部404は、その学習結果(HMMモデル)を各音韻ごとに保持する。素片認識部405は、学習したHMMを用いてHMMの学習に使用した全ての音声素片を素片認識し、尤度が最大となるHMM(最尤HMM)を求める。そして、現在注目している音声素片が最尤HMMの学習に使用した音声素片か否かを判断する。認識結果保持部406は、その素片認識結果を保持する。登録素片決定部407は、素片認識部405における認識結果から、素片認識に成功した音声素片のみを登録素片として採用する。登録素片保持部408は、登録素片決定部407により素片辞書206に登録する音声素片のみを保持する。
【0024】
図5は、本実施の形態に係る素片辞書作成モジュールの動作を示すフローチャートである。
【0025】
ステップS501では、例えば、diphon(ダイフォン)を音韻単位とする全ての音韻について処理を行なったかどうかを判定し、未処理の音韻が存在する場合はステップS502に進むが、未処理の音韻が存在しない場合はステップS504の素片認識処理に進む。
【0026】
ステップS502では、音声素片検索部401が、各音韻毎に、音声データベース210から所定の音韻環境を満足する音声素片を検索し、その検索された複数の音声素片を音声素片保持部402に保持してステップS503に進む。ステップS503では、HMM学習部405が、検索された複数の音声素片を学習データとして、ある音韻のHMMの学習を行なう。具体的には、まず音声波形のサンプリングレート22050Hzから、ケプストラム16次、デルタケプストラム16次、及びパワー、デルタパワーの計34次元のベクトルを、窓幅25.6m秒でフレーム幅2.5m秒ごとに求める。但し、ここではパワーとデルタパワーの値は、音声データベース210の文ごとに“0”から“1”に正規化されているものとする。次に、5状態1混合分布のHMM初期モデルを作成し、上記条件で得られるケプストラム・ベクトルを使ってHMMの学習を行なう。この学習の結果得られたある音韻のHMMを、HMM保持部404に保持した後、次の音韻のHMMを求めるため、ステップS501に戻る。
【0027】
ステップS504では、素片認識部405が、各音韻のHMMを用いて、ステップS502で検索された全ての音声素片に対して素片認識を行なう。つまり、各音声素片毎に、音声素片と各音韻のHMMとの尤度を求める。次にステップS505に進み、音声素片毎に、音声素片と最も尤度が高いHMMを求め、その音声素片が、そのHMMの学習に用いた音声素片であるかどうかを判定し、そうであれば素片認識が成功したとみなしてステップS506に進み、その音声素片を素片辞書206に登録する。
【0028】
一方、ステップS505で、違うと判別された場合はステップS507に進み、素片辞書206に登録しないと決定し、素片辞書206に登録することなくステップS508に進む。こうしてステップS506或いはS507の処理を実行した後ステップS508に進み、ステップS504で、全ての音韻のHMMの学習に用いた全ての音声素片について判定処理が終了したかを判定し、終了していなければステップS505に戻って前述の処理を実行する。
【0029】
以上説明したように本実施の形態1によれば、所定の音韻環境を満足する複数の音声素片を用いて各音韻に対応するHMMを学習し、学習したHMMを用いてHMMの学習に使用した全ての音声素片を素片認識し、最尤HMMの学習に使用した音声素片であると判定された音声素片のみを素片辞書に登録する。
【0030】
このように構成することにより、異音や雑音を含む音声素片を除去した素片辞書を生成することができ、合成音声の音質劣化を抑制することのできる素片辞書を提供できる。またこのような手順にって生成された素片辞書206を用いて音声を合成することにより、合成音声の音質の劣化を抑制することができる。
【0031】
[実施の形態2]
上述の実施の形態1においては、HMM学習部402が、各音韻毎にHMMを作成し、素片認識部405では、各HMMの学習に用いた全ての音声素片を対象に尤度を求める場合を説明したが、本発明はこれに限定されるものではない。例えば、音韻としてdiphoneを採用する場合は、各音韻をCC型、CV型、VC型、VV型の4種類に分類して、同じ分類に属する音声素片を対象に素片認識を行なっても良い。ここで、Cは子音、Vは母音を表している。
【0032】
[実施の形態3]
また、前述の実施の形態1,2において、認識に失敗した音声素片を登録しない場合で説明したが、本発明はこれに限定されるものではなく、例えば、許容できる認識誤りパターンを予め記述したテーブルを用意しておき、認識に失敗した音声素片であっても、そのテーブルに用意されている許容パターンに該当する場合は、登録素片決定部407において、素片辞書206に登録しても良いと判定する。
【0033】
図6は、本実施の形態3に係る許容テーブルの一例を示す図である。
【0034】
図6では、例えば、音韻としてdiphoneを採用した例を示す。この場合、diphone「a.y」のHMMの学習に用いた音声素片が「a.i」として認識された場合であっても、また、diphone「a.k」のHMMの学習に用いた音声素片が「a.p」或いは「a.t」と認識された場合であっても、許容できるものとして素片辞書206に登録する。
【0035】
この場合の処理を図7のフローチャートで示す。この処理は、図5のステップS505において、違うと判別された場合に実行され、まずステップS601に進み、許容テーブル(登録素片決定部407に設けられている)を検索して、その認識した結果が、そのテーブルに登録されているかどうかをみる。登録されているときは図5のステップS506に進んで、素片辞書206に登録するが、一致しないときはステップS507に進んで素片辞書206に登録しない。
【0036】
[実施の形態4]
上述の実施の形態2において、音韻としてdiphoneを採用する場合において、認識に失敗した音声素片は登録しない場合について説明したが、本発明はこれに限定されるものではなく、認識に成功した素片数が閾値以下の音韻については、例えばVC型の場合は、V部分が一致していれば許容するようにしてもよい。
【0037】
[実施の形態5]
上述の実施の形態1において、各音声素片につき、ステップS503で求めた全ての音韻のHMMとの尤度をそれぞれ求める場合について説明したが、本発明はこれに限定されるものではない。ある音韻のHMMとそのHMMの学習に用いた音声素片との尤度を求め、最も尤度の高い音声素片から上位N個(Nは整数)を登録するか、或いは、所定の閾値以上の尤度を持つ音声素片だけを登録するようにしてもよい。
【0038】
[実施の形態6]
実施の形態1〜5において、ステップS504で求めた尤度を正規化せずに比較する場合について説明したが、本発明はこれに限定されるものではない。各尤度を、その尤度に対応する音声素片の時間長で正規化し、その正規化した尤度を用いて、登録する音声素片を、上述の手順により選択しても良い。
【0039】
上記実施の形態においては、各部を同一の計算機上で構成する場合について説明したが、本発明はこれに限定されるものではなく、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。
【0040】
また上記実施の形態においては、プログラムを制御メモリ(ROM)に保持する場合について説明したが、これに限定されるものではなく、外部記憶など任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【0041】
なお本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。前述した実施の形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても達成される。
【0042】
この場合、記録媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【0043】
プログラムコードを供給するための記録媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行ない、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
【0044】
更に、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
【0045】
以上説明したように本実施の形態によれば、HMMを用いた素片認識結果を利用して素片辞書に登録する音声素片を選択することによって、異音や雑音を含む音声素片を除去でき、音質の劣化が少ない合成音声を生成することを可能とする音声合成装置および方法を提供することができる。
【0046】
【発明の効果】
以上説明したように本発明によれば、HMMを用いた素片認識を行ない、その認識結果に応じて辞書に登録することにより、音声合成で再生される音声の品質を向上できるという効果がある。
【0047】
また本発明によれば、音声合成における音質の劣化を防止した素片辞書を作成できる。
【0048】
またこのような素片辞書を用いて音声合成することにより、高品位に音声合成された音声を再生できる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声合成装置のハードウェア構成を示すブロック図である。
【図2】本発明の実施の形態1に係る音声合成装置のモジュール構成を示すブロック図である。
【図3】本実施の形態に係る音声合成モジュールにおける処理の流れを示すフローチャートである。
【図4】本実施の形態に係る素片辞書作成モジュールの詳細なモジュール構成を示すブロック図である。
【図5】本実施の形態1に係る素片辞書作成モジュールにおける処理の流れを示すフローチャートである。
【図6】本発明の実施の形態3に係る誤認識許容パターンを記憶するテーブルの構成を示す図である。
【図7】本発明の実施の形態3に係る素片辞書作成モジュールにおける処理の流れを示すフローチャートである。

Claims (17)

  1. 音韻環境を満足する音声素片を音声データベースから検索する音声素片検索手段と、
    前記音声素片検索手段による検索結果に基づいて各音韻のHMMモデルを算出するHMM学習手段と、
    前記各音韻のHMMモデルに基づいて前記音声素片の素片認識を行なう素片認識手段と、
    前記素片認識手段による素片認識結果に応じて素片辞書に登録する音声素片を決定する登録素片決定手段と、
    を有することを特徴とする音声情報処理装置。
  2. 前記素片認識手段は、前記音韻の単位としてダイフォンを採用し、音声素片をCC型、CV型、VC型、VV型の4種類に分離して(C:子音、V:母音)、前記型のそれぞれにおいて素片認識を行なうことを特徴とする請求項1に記載の音声情報処理装置。
  3. 前記登録素片決定手段は、
    許容できる音声素片パターンを登録したパターン記憶手段を有し、
    前記素片認識手段において素片認識に失敗した音声素片に一致する音声素片パターンが前記パターン記憶手段に登録されているか否かを判定し、登録されている場合に前記音声素片を前記素片辞書に登録すると決定することを特徴とする請求項1又は2に記載の音声情報処理装置。
  4. 前記登録素片決定手段は、前記素片認識手段により認識に成功した音声素片の数が所定数以下であっても、少なくとも母音部分が正しく認識されていた場合は、当該音声素片を前記素片辞書に登録すると決定することを特徴とする請求項に記載の音声情報処理装置。
  5. 前記素片認識手段は、音韻が同じ音声素片を対象に尤度を求め、更に、
    前記登録素片決定手段は、前記尤度が上位のもの、或いは、所定値以上の音声素片を前記素片辞書に登録すると決定することを特徴とする請求項1に記載の音声情報処理装置。
  6. 前記登録素片決定手段は、前記尤度を前記音声素片の時間長で正規化した値が上位のもの、或いは、所定値以上の音声素片を前記素片辞書に登録すると決定することを特徴とする請求項に記載の音声情報処理装置。
  7. 音韻環境を満足する音声素片を音声データベースから検索する音声素片検索工程と、
    前記音声素片検索工程における検索結果に基づいて各音韻のHMMモデルを算出するHMM学習工程と、
    前記各音韻のHMMモデルに基づいて前記音声素片の素片認識を行なう素片認識工程と、
    前記素片認識工程による素片認識結果に応じて素片辞書に登録する音声素片を決定する登録素片決定工程と、
    を有することを特徴とする音声情報処理方法。
  8. 前記素片認識工程は、前記音韻の単位としてダイフォンを採用し、音声素片をCC型、CV型、VC型、VV型の4種類に分離して(C:子音、V:母音)、前記型のそれぞれにおいて素片認識を行なうことを特徴とする請求項に記載の音声情報処理方法。
  9. 前記登録素片決定工程は、
    前記素片認識工程において素片認識に失敗した音声素片に一致する音声素片パターンが、許容できる音声素片パターンを登録したパターン記憶部に登録されているか否かを判定し、登録されている場合に前記音声素片を前記素片辞書に登録すると決定することを特徴とする請求項又はに記載の音声情報処理方法。
  10. 前記登録素片決定工程では、前記素片認識工程により認識に成功した音声素片の数が所定数以下であっても、少なくとも母音部分が正しく認識されていた場合は、当該音声素片を前記素片辞書に登録すると決定することを特徴とする請求項に記載の音声情報処理方法。
  11. 前記素片認識工程では、音韻が同じ音声素片を対象に尤度を求め、更に、
    前記登録素片決定工程では、前記尤度が上位のもの、或いは、所定値以上の音声素片を前記素片辞書に登録すると決定することを特徴とする請求項に記載の音声情報処理方法。
  12. 前記登録素片決定工程では、前記尤度を前記音声素片の時間長で正規化した値が上位のもの、或いは、所定値以上の音声素片を前記素片辞書に登録すると決定することを特徴とする請求項11に記載の音声情報処理方法。
  13. 所定の音韻環境を満足する複数の音声素片を用いて、各音韻に対応するHMMを学習するHMM学習手段と、
    前記各音韻に対応するHMMの尤度が最も高い音声素片を、音声合成に使用する素片辞書に登録する音声素片として決定する登録素片決定手段と、
    を有することを特徴とする音声情報処理装置。
  14. 前記登録素片決定手段は、前記複数の音声素片の一音声素片と最も尤度の高くなる最尤HMMを前記各音韻に対応するHMMの中から求め、前記一音声素片が前記最尤HMMの学習に使用した音声素片か否かを判定し、前記最尤HMMの学習に使用した音声素片である場合に前記一音声素片を登録すると決定することを特徴とする請求項13に記載の音声情報処理装置。
  15. 所定の音韻環境を満足する複数の音声素片を用いて、各音韻に対応するHMMを学習するHMM学習工程と、
    前記各音韻に対応するHMMの尤度が最も高い音声素片を、音声合成に使用する素片辞書に登録する音声素片として決定する登録素片決定工程と、
    を有することを特徴とする音声情報処理方法。
  16. 前記登録素片決定工程では、前記複数の音声素片の一音声素片と最も尤度の高くなる最尤HMMを前記各音韻に対応するHMMの中から求め、前記一音声素片が前記最尤HMMの学習に使用した音声素片か否かを判定し、前記最尤HMMの学習に使用した音声素片である場合に前記一音声素片を登録すると決定することを特徴とする請求項15に記載の音声情報処理方法。
  17. 請求項乃至12、15及び16のいずれか1項に記載の音声情報処理方法をコンピュータに実行させるためのプログラムを記憶したことを特徴とする、コンピュータにより読取り可能な記憶媒体。
JP2000099532A 2000-03-31 2000-03-31 音声情報処理装置及びその方法と記憶媒体 Expired - Fee Related JP4632384B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000099532A JP4632384B2 (ja) 2000-03-31 2000-03-31 音声情報処理装置及びその方法と記憶媒体
US09/819,613 US7054814B2 (en) 2000-03-31 2001-03-29 Method and apparatus of selecting segments for speech synthesis by way of speech segment recognition
US11/126,372 US20050209855A1 (en) 2000-03-31 2005-05-11 Speech signal processing apparatus and method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000099532A JP4632384B2 (ja) 2000-03-31 2000-03-31 音声情報処理装置及びその方法と記憶媒体

Publications (3)

Publication Number Publication Date
JP2001282277A JP2001282277A (ja) 2001-10-12
JP2001282277A5 JP2001282277A5 (ja) 2007-05-24
JP4632384B2 true JP4632384B2 (ja) 2011-02-16

Family

ID=18613872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000099532A Expired - Fee Related JP4632384B2 (ja) 2000-03-31 2000-03-31 音声情報処理装置及びその方法と記憶媒体

Country Status (2)

Country Link
US (2) US7054814B2 (ja)
JP (1) JP4632384B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
US6950798B1 (en) * 2001-04-13 2005-09-27 At&T Corp. Employing speech models in concatenative speech synthesis
JP2003295882A (ja) 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
KR100571835B1 (ko) * 2004-03-04 2006-04-17 삼성전자주식회사 음성 코퍼스 구축을 위한 녹음 문장 생성 방법 및 장치
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
JP4588069B2 (ja) * 2005-03-31 2010-11-24 パイオニア株式会社 操作者認識装置、操作者認識方法、および、操作者認識プログラム
US20080177548A1 (en) * 2005-05-31 2008-07-24 Canon Kabushiki Kaisha Speech Synthesis Method and Apparatus
US20070124148A1 (en) * 2005-11-28 2007-05-31 Canon Kabushiki Kaisha Speech processing apparatus and speech processing method
JP4773988B2 (ja) * 2007-02-06 2011-09-14 日本電信電話株式会社 ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体
JP2008225254A (ja) * 2007-03-14 2008-09-25 Canon Inc 音声合成装置及び方法並びにプログラム
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US20100105015A1 (en) * 2008-10-23 2010-04-29 Judy Ravin System and method for facilitating the decoding or deciphering of foreign accents
JP5326546B2 (ja) * 2008-12-19 2013-10-30 カシオ計算機株式会社 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
US8965768B2 (en) * 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
KR20140053915A (ko) * 2011-05-24 2014-05-08 인두 엠. 아난드 어플리케이션 데이터 파일로부터의 정보의 컴퓨터-에이디드 소비를 위한 방법 및 그 시스템
JP5842452B2 (ja) * 2011-08-10 2016-01-13 カシオ計算機株式会社 音声学習装置及び音声学習プログラム
US8725508B2 (en) * 2012-03-27 2014-05-13 Novospeech Method and apparatus for element identification in a signal
JP6535998B2 (ja) * 2014-09-16 2019-07-03 カシオ計算機株式会社 音声学習装置および制御プログラム
US10726197B2 (en) * 2015-03-26 2020-07-28 Lenovo (Singapore) Pte. Ltd. Text correction using a second input

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792997A (ja) * 1993-09-22 1995-04-07 N T T Data Tsushin Kk 音声合成装置
JPH10116089A (ja) * 1996-09-30 1998-05-06 Microsoft Corp 音声合成用の基本周波数テンプレートを収容する韻律データベース
JPH11126094A (ja) * 1997-10-21 1999-05-11 Toyo Commun Equip Co Ltd 音声合成装置
JPH11327594A (ja) * 1998-05-13 1999-11-26 Ricoh Co Ltd 音声合成辞書作成システム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02301869A (ja) * 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
JPH0573100A (ja) * 1991-09-11 1993-03-26 Canon Inc 音声合成方法及びその装置
JP3397372B2 (ja) * 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JPH07114568A (ja) * 1993-10-20 1995-05-02 Brother Ind Ltd データ検索装置
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP3559588B2 (ja) * 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
JP3548230B2 (ja) * 1994-05-30 2004-07-28 キヤノン株式会社 音声合成方法及び装置
TW274135B (ja) * 1994-09-14 1996-04-11 Hitachi Seisakusyo Kk
JP3530591B2 (ja) * 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
JP3581401B2 (ja) * 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
US5726769A (en) * 1994-11-14 1998-03-10 Canon Kabushiki Kaisha Image processing apparatus capable of connecting external information processing terminal, and including printer unit and data processing unit
JP3453456B2 (ja) * 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
JPH09258771A (ja) * 1996-03-25 1997-10-03 Canon Inc 音声処理方法及び装置
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JPH10187195A (ja) * 1996-12-26 1998-07-14 Canon Inc 音声合成方法および装置
JP3962445B2 (ja) * 1997-03-13 2007-08-22 キヤノン株式会社 音声処理方法及び装置
JPH10254486A (ja) * 1997-03-13 1998-09-25 Canon Inc 音声認識装置および方法
US5926784A (en) * 1997-07-17 1999-07-20 Microsoft Corporation Method and system for natural language parsing using podding
US6000024A (en) * 1997-10-15 1999-12-07 Fifth Generation Computer Corporation Parallel computing system
JP3854713B2 (ja) * 1998-03-10 2006-12-06 キヤノン株式会社 音声合成方法および装置および記憶媒体
KR100749289B1 (ko) * 1998-11-30 2007-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 텍스트의 자동 세그멘테이션 방법 및 시스템
EP1213706B1 (en) * 2000-12-11 2006-07-19 Sony Deutschland GmbH Method for online adaptation of pronunciation dictionaries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792997A (ja) * 1993-09-22 1995-04-07 N T T Data Tsushin Kk 音声合成装置
JPH10116089A (ja) * 1996-09-30 1998-05-06 Microsoft Corp 音声合成用の基本周波数テンプレートを収容する韻律データベース
JPH11126094A (ja) * 1997-10-21 1999-05-11 Toyo Commun Equip Co Ltd 音声合成装置
JPH11327594A (ja) * 1998-05-13 1999-11-26 Ricoh Co Ltd 音声合成辞書作成システム

Also Published As

Publication number Publication date
US7054814B2 (en) 2006-05-30
JP2001282277A (ja) 2001-10-12
US20050209855A1 (en) 2005-09-22
US20020051955A1 (en) 2002-05-02

Similar Documents

Publication Publication Date Title
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
JP3854713B2 (ja) 音声合成方法および装置および記憶媒体
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
JP4328698B2 (ja) 素片セット作成方法および装置
US20050071163A1 (en) Systems and methods for text-to-speech synthesis using spoken example
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP6669081B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP4639932B2 (ja) 音声合成装置
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP3912913B2 (ja) 音声合成方法及び装置
JP2583074B2 (ja) 音声合成方法
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP4542400B2 (ja) 韻律生成装置及び韻律生成プログラム
JP4454780B2 (ja) 音声情報処理装置とその方法と記憶媒体
Paulo et al. Multilevel annotation of speech signals using weighted finite state transducers
WO2022196087A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP4282609B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP3279261B2 (ja) 定型文コーパス作成装置、方法及び記録媒体
JP2001350491A (ja) 音声処理方法および装置
JP3485586B2 (ja) 音声合成方法
Demenko et al. The design of polish speech corpus for unit selection speech synthesis
JPH11259091A (ja) 音声合成装置及び方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070327

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070327

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101115

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees