JP4054507B2 - 音声情報処理方法および装置および記憶媒体 - Google Patents
音声情報処理方法および装置および記憶媒体 Download PDFInfo
- Publication number
- JP4054507B2 JP4054507B2 JP2000099534A JP2000099534A JP4054507B2 JP 4054507 B2 JP4054507 B2 JP 4054507B2 JP 2000099534 A JP2000099534 A JP 2000099534A JP 2000099534 A JP2000099534 A JP 2000099534A JP 4054507 B2 JP4054507 B2 JP 4054507B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- pitch pattern
- speech
- information processing
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 20
- 238000003672 processing method Methods 0.000 title claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephone Function (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、音声合成或いは音声認識に際して実施される所定のセグメント単位での時系列の基本周波数(ピッチパターン)を設定する音声情報処理方法及びその装置、及び、前記音声合成方法を実施するプログラムを記憶した、コンピュータにより読取り可能な記憶媒体に関するものである。
【0002】
【従来の技術】
近年、任意の文字系列を音韻系列に変換し、その音韻系列を所定の音声規則合成方式に従って合成音声に変換する音声合成装置が開発されている。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の音声合成装置から出力される合成音声は、人間が発声する自然音声と比較すると不自然で機械的なものであった。この原因の一つとして、例えば「おんせい」という文字系列を構成する音韻系列「o,X,s,e,i」において、各音韻のアクセントやイントネーションを生成する韻律生成規則の精度が挙げられる。精度が悪い場合、音韻系列に対して十分なピッチパターンが生成されないため、合成される音声は不自然で機械的なものとなる。
【0004】
本発明は上記従来例に鑑みてなされたもので、所定単位の音韻の基本周波数の時間変化をモデル化することにより、自然なイントネーションを与える音声合成を行うことができる音声情報処理方法及び装置を提供することを目的とする。
【0005】
又本発明の目的は、所定単位の音韻の基本周波数の時間変化をモデル化することにより、このモデル化した情報を用いて高精度に音声認識ができる音声情報処理方法及び装置を提供することにある。
【0006】
【課題を解決するための手段】
上記目的を達成するために本発明の音声情報処理方法は以下のような工程を備える。即ち、
音韻系列を受信する受信工程と、
基本周波数の時間変化を多項式セグメントモデルによってモデル化したセグメントピッチパターンモデルに基づいて、前記音韻系列を構成する各音韻の基本周波数を生成する生成工程と、
前記生成工程で生成された前記各音韻の基本周波数に基づいて音声を合成する音声合成工程とを有することを特徴とする。
【0007】
上記目的を達成するために本発明の音声情報処理方法は以下のような工程を備える。即ち、
音声を受信する受信工程と、前記音声の特徴パラメータを抽出する抽出工程と、セグメントピッチパターンモデルに基づいて、前記特徴パラメータを認識する音声認識工程と、を有することを特徴とする。
【0008】
上記目的を達成するために本発明の音声情報処理装置は以下のような構成を備える。即ち、
音韻系列を受信する受信手段と、
基本周波数の時間変化を多項式セグメントモデルによってモデル化したセグメントピッチパターンモデルに基づいて、前記音韻系列を構成する各音韻の基本周波数を生成する生成手段と、
前記生成手段により設定された前記各音韻の基本周波数に基づいて音声を合成する音声合成手段とを有することを特徴とする。
【0009】
上記目的を達成するために本発明の音声情報処理装置は以下のような構成を備える。即ち、
音声を受信する受信手段と、前記音声の特徴パラメータを抽出する抽出手段と、セグメントピッチパターンモデルに基づいて、前記特徴パラメータを認識する音声認識手段と、を有することを特徴とする。
【0010】
【発明の実施の形態】
【0011】
本発明の実施の形態における多項式セグメントモデルの概要は以下の通りである。Lフレーム長のD次元の観測ベクトル{y1,…,yL}yt=[yt,1,yt,2,…,yt,D]をL×Dの行列で表現した
【0012】
【数1】
をR次の多項式セグメントモデルによって、
【0013】
【数2】
…式(2)
と表す。ここで、ZはL×(R+1)のデザインマトリクスであり、
【0014】
【数3】
…式(3)
と表される。また、Bは(R+1)×Dのパラメータ系列行列
【0015】
【数4】
…式(4)
であり、EはL×Dの予測誤差行列
【0016】
【数5】
…式(5)
である。デザインマトリクスZによって異なる長さのセグメントを“0”から“1”の間に正規化することができる。
【0017】
セグメントYがラベルaによって生成されるときの尤度は次のように表される。
【0018】
【数6】
【0019】
…式(6)
上式(6)において、f(yt)は、ラベルaに対する特徴ベクトルytの尤度であり、次式によって与えられる。
【0020】
【数7】
【0021】
…式(7)
ここで、BaとΣaはラベルaを表す単一ガウスセグメントモデルのパラメータである。上式において、ztは、
【0022】
【数8】
…式(8)
と与えられる。いま、ラベルaに対して、K個のセグメントY1,Y2,…YKがある場合に、モデルパラメータBa及びΣaを求めたいとする。このとき、Ba及びΣaに対するこれらのセグメントの確率は、
【0023】
【数9】
…式(9)
と与えられる。これより、上式の確率を最大化するBa、Σaを求めることによりモデルパラメータが求まる。これらの推定値は、
【0024】
【数10】
…式(10)
【0025】
【数11】
…式(11)
として得ることができる。
【0026】
このように、セグメントピッチパターンの時間変化を多項式によってモデリングすることによって、セグメントピッチパターンの時系列間の相関を考慮することが可能になり、前記従来例の問題点が解決できる。
【0027】
以下、添付図面を参照して本発明の好適な実施の形態を詳細に説明する。
【0028】
[実施の形態1]
図1は、本発明の実施の形態1に係る音声合成装置の構成を示すブロック図である。
【0029】
図1において、101はCPUで、ROM102に記憶された制御プログラム、或いは外部記憶装置104からRAM103にロードされた制御プログラムに従って、本実施の形態の音声合成装置における各種制御を行う。ROM102は、各種パラメータやCPU101が実行する制御プログラムなどを格納している。RAM103は、CPU101による各種制御の実行時に作業領域を提供するとともに、CPU101により実行される制御プログラムを記憶する。104はハードディスク、フロッピーディスク、CD−ROM等の外部記憶装置で、この外部記憶装置がハードディスクの場合には、CD−ROMやフロッピィディスク等からインストールされた各種プログラムが記憶されている。105は入力部で、キーボード、マウス等のポインティングデバイスを有している。又、この入力部105は、例えば通信回線等を介してインターネット等からのデータを入力しても良い。106は液晶やCRT等の表示部で、CPU101の制御により各種データの表示を行う。107はスピーカで、音声信号(電気信号)を可聴音である音声に変換して出力する。108は上記各部を接続するバスである。109は音声合成・認識ユニットである。
【0030】
図2は、本実施の形態1に係る音声合成・認識ユニット109の動作を示すフローチャートである。以下に示される各ステップは、ROM102に格納された制御プログラム、或いは外部記憶装置104からRAM103にロードされた制御プログラムをCPU101が実行することによって実現される。
【0031】
まずステップS201で、漢字かな混じりの日本語テキストデータ、又は他の言語のテキストデータが入力部105から入力されるとステップS202に進み、この入力されたテキストデータを、言語解析辞書201を用いて解析し、入力テキストデータに対する音韻系列(読み)やアクセントなどの情報を抽出する。次にステップS203に進み、これらの情報を用いて、ステップS202で求めた音韻系列を構成する各音韻の継続時間長、基本周波数(セグメントピッチパターンともいう)、パワー等のプロソディ(韻律情報ともいう)を生成する。この際、セグメントピッチパターンはピッチパターンモデル202を用いて決定され、また継続時間長、パワー等は韻律制御モデル203を用いて決定される。
【0032】
次にステップS204に進み、ステップS202で解析して抽出された音韻系列、及びステップS203で生成されたプロソディに基づいて、音声素片辞書204から、その音韻系列に対応する合成音声を生成するための音声素片(波形もしくは特徴パラメータ)を複数個選択する。次にステップS205に進み、それら選択された音声素片を用いて合成音声信号を生成し、ステップS206において、その生成された合成音声信号に基づいて音声をスピーカ107から出力する。最後にステップS207において、入力されたテキストデータに対する処理が全て終了したか否かの判断を行い、終了していない場合はステップS201に戻り、前述の処理が続けられる。
【0033】
図3は、図2のステップS203のプロソディ生成処理で使用した上述の多項式セグメントモデルに基づくセグメントピッチパターンモデルの作成手順を示すフローチャートである。
【0034】
このセグメントピッチパターンモデルを作成するためには、まずステップS301で、複数個の学習サンプルを有する音声ファイル301を用いて、所定単位の音韻系列の基本周波数(ピッチパターン)を抽出する。この基本周波数の抽出において、有声・無声の判別結果、ピッチマーク等の情報を使用する場合には、基本周波数抽出に必要な情報を格納したサイド情報ファイル302も併せて利用する。
【0035】
次に、ステップS302に進み、所定単位の音韻系列を構成する音素、音節、単語などを単位とした音韻の時間情報が付与されたラベルファイル303を用いて、音韻系列のピッチパターンをセグメント単位に分割する。そして最後にステップS303に進み、同一カテゴリに属するセグメント毎に、前述の式(10)及び式(11)を用いてセグメントピッチパターンモデルのモデルパラメータを計算する。
【0036】
以下、具体例を挙げて本実施の形態1に係る処理手順を、図3乃至図9を参照して説明する。
【0037】
図4は、サイド情報ファイル302に記憶された音韻系列「音声(oNsee)」に関するサイド情報の一例を示す図、図5は、図4の有声区間(o,N,e,e)に対する基本周波数の一例を示す図、図6はラベルファイル303に記憶された音韻系列「音声(oNsee)」に関する情報の一例を示す図、図7は図5のピッチパターンをモデル化した図、図8は音韻系列「アクセント(akuseNto)」に対するピッチパターンの一例を示す図、そして図9はラベルファイル303に記憶された音韻系列「アクセント(akuseNto)」に関する情報の一例を示す図である。
【0038】
いま音韻系列「音声(oNsee)」のサイド情報ファイル302が図4で与えられるとする。図4では、各音素(o,N,s,e,e)の開始時刻、終了時刻、及び有声か、無声かを示すフラグがセットされている。尚、「pau」はポーズを示す。このとき、ステップS301の基本周波数抽出処理では、図4の有声区間(o,N,e,e)を検出し、それらの基本周波数を図5のように抽出する。次にラベルファイル303が図6のように与えらるとき、開始時刻および終了時刻の情報から、有声音の音素区間をステップS302においてセグメントに分割(この場合は各音素に分割)する。次にステップS303に進み、例えば、R次(R=1:直線)のセグメントモデルによって図5に示すピッチパターンの各セグメントピッチパターンをモデル化すると図7のように表される。
【0039】
また、音韻系列「アクセント(akuseNto)」のピッチパターンが図8のように抽出されたとする。また、このときのラベルファイル303が図9で与えられるとする。このときユニット109は、図5及び図8に示される2つのピッチパターンを用いて、同じ音韻・言語環境に属するセグメントを検出し、それらをモデリングして1つのセグメントピッチパターンモデルを生成する。いま、音韻・言語環境として、モーラ位置とアクセント型を選ぶと、「音声」の第1モーラの“o”(図6)及び「アクセント」の第1モーラの“a”(図9)は共にアクセント型が“1”であるため、それらを1つのセグメントピッチパターンとしてモデリングする(第2、第3、第4モーラも同様)。
【0040】
上述のようにしてモデリングされたセグメントピッチパターンモデルのモデルパラメータを、ピッチパターンモデル202に保持することによって、ステップS203のプロソディ生成処理では、音韻系列(p={pa,…,pJ})に対する音韻・言語環境と継続時間長モデル203から得られる各音韻の継続時間長(d={dp1,…,dpJ})に基づいて、各音韻のセグメントピッチパターンYpjを、
Ypj=ZdpjBpj …式(12)
として生成することができる。ここで、Zdpjはdpjフレームのデザインマトリクス、Bpjは音韻pjの音韻・言語環境に対応するセグメントピッチパターンモデルのモデルパラメータである。
【0041】
以上説明したように本実施の形態1によれば、セグメントピッチパターン時系列の相関を考慮した多項式セグメントモデルに基づいて、各セグメントピッチパターンをモデリングし、このモデルを用いて所定単位の音韻系列を構成する各音韻のピッチパターンを設定することにより、自然なイントネーションを与える音声を合成して出力できるという効果がある。
【0042】
[実施の形態2]
上述の実施の形態1では、モデル化したセグメントピッチパターンモデルを用いて音声合成する例について説明したが、この実施の形態2では、セグメントピッチパターンモデルを用いて音声認識する例について説明する。本実施の形態2に係るハードウェア構成は図1と同様のものを用いることができる。ここで、入力部105はマイクロフォンである。
【0043】
図10は、本発明の実施の形態2に係る音声合成・認識ユニット109の動作を示すフローチャートである。以下に示される各ステップは、ROM102に格納された制御プログラムあるいは外部記憶装置104からRAM103にロードされた制御プログラムをCPU101が実行することによって実現される。
【0044】
まずステップS401で、マイクロフォンなどを備える入力部105から音声波形が入力される。次ステップS402に進み、その入力された音声波形の特徴パラメータの抽出が行われ、広く用いられているケプストラムなどの周波数特徴量の時系列Oa(t)に加え、基本周波数やその回帰パラメータなどのピッチに関する特徴量の時系列Op(t)を抽出する。
【0045】
次にステップS403に進み、言語モデル401(単語認識の場合は不要)、上述のセグメントピッチパターンモデルを保持する音響・ピッチパターンモデル402、認識辞書403を用いて、ステップS402で得られた特徴パラメータの尤度を最大とする音声認識結果を探索処理によって求める。次にステップS404に進み、表示部106への画面表示、或いはスピーカ107による音声出力などの所望の手段によって音声認識結果を出力する。最後にステップS405において、入力部105からの音声入力が終了したか否かの判断を行い、終了していない場合はステップS401に戻り、前述した処理を実行する。
【0046】
いま、音響特徴量ベクトルOaに対する単語仮説Wの対数音響尤度をPa(Oa|W)、ピッチ特徴量ベクトルOpに対する単語仮説Wの対数ピッチ尤度をPp(Op|W)とし、単語仮説Wの対数言語尤度をPl(W)とすると、ステップS403の探索処理で得られる認識結果~Wは、
~W=argmax{waPa(Oa|W)+wpPp(Op|W)+wlPl(W)}
(w∈W)
…式(13)
で表される。ここで、wa,wp,wlは、それぞれ対数音響尤度、対数ピッチ尤度、対数言語尤度に対する重み係数である。ここで、対数音響尤度はHMM(隠れマルコフモデル)、対数言語尤度は単語n-gramに基づく方法など、従来広く用いられている方法によって求めることができる。また、対数ピッチ尤度は、上記式(9)を用いて求めることができる。
【0047】
[実施の形態3]
上記実施の形態1及び2では、上述の式(7)に表されるように、セグメントピッチパターンを単一混合ガウス分布によって作成していたが、本実施の形態3では、これを多混合ガウス分布によってピッチパターンをモデル化する。
【0048】
このとき、f(yt)は以下のように表される。
【0049】
【数12】
【0050】
…式(14)
ここで、
【0051】
【数13】
…式(15)
であり、式(14)におけるwmはm番目の混合分布における重みであり、Σwm=1(m=1〜M)を満たす。このとき、式(15)におけるモデルパラメータBm,Σm,wmはクラスタリング法、もしくはEM(Expectation-Maximization)法によって求めることができる。
このようにして得られる多混合ガウス分布によるピッチパターンモデルを用いれば、上記実施の形態2における音声認識装置の性能を向上させることが可能となる。
【0052】
[実施の形態4]
上記実施の形態1では、基本周波数の絶対値から直接セグメントピッチパターンモデルを作成し、このモデルを用いて音声合成におけるピッチパターンの設定を行っていたが、一般にピッチパターンはコンテキストや話者による変動が大きいため、ピッチパターンを抽出する際に、アクセント句、単語、フレーズ(呼気段落)、文などの所望の発話単位(発話もひとまとまりとして処理できる単位)ごとに基本周波数の最大値や最小値などを抽出し、これらの値を利用することによってピッチパターンを正規化し、この正規化されたピッチパターンを用いて、セグメントピッチパターンのモデルを作成するようにしても良い。
【0053】
図8に示すピッチパターンを基本周波数の最大値で正規化したときのピッチパターンの例を図11に示す。このように、正規化したピッチパターンからピッチパターンモデルを作成することにより、よりコンテキストなどの変動を大きく吸収した高精度なピッチパターンモデルが作成できる。
【0054】
但し、このピッチパターンモデルを用いて音声合成装置におけるピッチパターンを生成する場合、正規化に用いたパラメータ(図11の場合は最大値)を推定する必要があるが、これは、音韻・言語コンテキストを要因とした線形もしくは非線形モデルなどの公知の方法によって求めることが可能である。
【0055】
[実施の形態5]
上記実施の形態では、音素という比較的時間的に短い音韻単位を用いてセグメントピッチパターンをモデル化していたが、本発明はこれに限らず、例えば単語やアクセントといった比較的長い音韻単位に対してモデル化することも可能である。この場合、基本周波数が存在しない無声音の区間をセグメントピッチパターンのモデリングから除外する必要があるが、これは上記式(3)のデザインマトリクスにおいて、次式のように無声音の区間の行を“0”と置くことにより、無声音区間を除外してセグメントピッチパターンをモデル化することができる。
【0056】
【数14】
【0057】
…式(16)
このようにして、図5に示される1単語のピッチパターンをセグメントピッチパターンとして多項式セグメントモデルによってモデリングすることにより、図12に示されるような、無声区間を含むピッチパターンモデルを得ることができる。
【0058】
なお、上記各実施の形態における構成は本発明の一実施の形態を示したものであり、各種変形が可能である。この変形例を示せば以下の通りである。
【0059】
実施の形態1では、モーラ位置およびアクセント型を音韻・言語環境として考慮してセグメントピッチパターンモデルを作成したが、モーラ数や品詞など他の環境を用いてもよい。また、本発明は日本語以外の言語にも適用可能である。
【0060】
また前述の実施の形態1では、回帰次数1(R=1)によってモデリングする例を示したが、Rは0以上(ただし、R<L)の任意の整数値を用いてモデリングしても良い。
【0061】
又前述の実施の形態2では、ワンパスの音声認識手法を用いた音声認識装置における例を示したが、従来の音声認識手法を用いてNベスト(Nbest)もしくは単語(音素)グラフなどによる認識候補に対して、セグメントピッチパターンモデルによって得られる対数ピッチ尤度を用いて認識結果をリスコアリングする、マルチパス探索の音声認識手法に基づく音声認識装置に対しても適用可能である。
【0062】
又前述の実施の形態4では、基本周波数の最大値によってピッチパターンの正規化処理を行ったが、本発明はこれに限定されるものでなく、例えば最小値を用いた正規化処理や最大値と最小値の差で与えられるダイナミックレンジを用いた正規化処理など他の正規化処理を用いてもよい。
【0063】
また本発明の目的は、前述した実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。
【0064】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0065】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
【0066】
更に、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
【0067】
以上説明したように本実施の形態によれば、セグメントピッチパターン系列の相関を考慮して各セグメントピッチパターンを統計的にモデリングすることによって、高精度に所定単位の音韻系列のピッチパターンをモデル化することができるようになり、音声合成装置におけるイントネーション生成の自然性の向上、もしくは基本周波数を特徴量にもつ音声認識装置における認識性能の向上が可能になるという効果がある。
【0068】
【発明の効果】
以上説明したように本発明によれば、所定単位の音韻の基本周波数の時間変化をモデル化することにより、自然なイントネーションを与える音声合成を行うことができる。
【0069】
又本発明によれば、所定単位の音韻の基本周波数の時間変化をモデル化することにより、このモデル化した情報を用いて高精度に音声認識ができるという効果がある。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声合成装置(音声認識装置)のハードウェア構成を示したブロック図である。
【図2】本実施の形態に係る音声合成装置における音声合成の処理手順を示したフローチャートである。
【図3】図2のステップS203における多項式セグメントモデルに基づくセグメントピッチパターンモデルの作成手順を示したフローチャートである。
【図4】本発明の実施の形態に係るサイド情報ファイルに記憶された「音声(oNsee)」に関するサイド情報の一例を示す図である。
【図5】本発明の実施の形態に係る「音声」という単語発声に対するピッチパターンの一例を示す図である。
【図6】本発明の実施の形態に係るラベルファイルに記憶された「音声(oNsee)」に関する情報の一例を示す図である。
【図7】図5のピッチパターンを図6に示す音素セグメントごとに回帰次数1のセグメントモデルによってモデリングした場合のピッチパターンの一例を示す図である。
【図8】本発明の実施の形態に係る「アクセント」という単語発声に対するピッチパターンの一例を示す図である。
【図9】本発明の実施の形態に係るラベルファイルに記憶された「アクセント(akuseNto)」に関する情報の一例を示す図である。
【図10】本発明の実施の形態2に係る音声認識装置における音声認識の処理手順を示したフローチャートである。
【図11】本発明の実施の形態4に係る、図8に示すピッチパターンを基本周波数の最大値で正規化したときのピッチパターンの一例を示す図である。
【図12】本発明の実施の形態5に係る、図5に示すピッチパターンを単語全体の有声音部分のピッチパターンに対して、多項式セグメントモデルによってモデリングした場合のピッチパターンの一例を示す図である。
Claims (11)
- 音韻系列を受信する受信工程と、
基本周波数の時間変化を多項式セグメントモデルによってモデル化したセグメントピッチパターンモデルに基づいて、前記音韻系列を構成する各音韻の基本周波数を生成する生成工程と、
前記生成工程で生成された前記各音韻の基本周波数に基づいて音声を合成する音声合成工程と、
を有することを特徴とする音声情報処理方法。 - 前記セグメントピッチパターンモデルは、音素、音節、単語の少なくともいずれかを単位としたモデルであることを特徴とする請求項1に記載の音声情報処理方法。
- 前記セグメントピッチパターンモデルは、アクセント型、モーラ数、モーラ位置、品詞の少なくとも1つを考慮したモデルであることを特徴とする請求項1に記載の音声情報処理方法。
- 前記セグメントピッチパターンモデルは、単一混合分布、多混合分布の少なくともいずれかによってモデリングされたモデルであることを特徴とする請求項1に記載の音声情報処理方法。
- 前記セグメントピッチパターンモデルは、アクセント句、単語、フレーズ、文の少なくともいずれかからなる単位ごとに正規化されたモデルであることを特徴とする請求項1に記載の音声情報処理方法。
- 請求項1乃至5のいずれか1項に記載の音声情報処理方法を実行するプログラムを記憶したことを特徴とする、コンピュータにより読取り可能な記憶媒体。
- 音韻系列を受信する受信手段と、
基本周波数の時間変化を多項式セグメントモデルによってモデル化したセグメントピッチパターンモデルに基づいて、前記音韻系列を構成する各音韻の基本周波数を生成する生成手段と、
前記生成手段により設定された前記各音韻の基本周波数に基づいて音声を合成する音声合成手段と、
を有することを特徴とする音声情報処理装置。 - 前記セグメントピッチパターンモデルは、音素、音節、単語の少なくともいずれかを単位としたモデルであることを特徴とする請求項7に記載の音声情報処理装置。
- 前記セグメントピッチパターンモデルは、アクセント型、モーラ数、モーラ位置、品詞の少なくとも1つを考慮したモデルであることを特徴とする請求項7に記載の音声情報処理装置。
- 前記セグメントピッチパターンモデルは、単一混合分布、多混合分布の少なくともいずれかによってモデリングされたモデルであることを特徴とする請求項7に記載の音声情報処理装置。
- 前記セグメントピッチパターンモデルは、アクセント句、単語、フレーズ、文の少なくともいずれかからなる単位ごとに正規化されたモデルであることを特徴とする請求項7に記載の音声情報処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099534A JP4054507B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理方法および装置および記憶媒体 |
US09/818,599 US6826531B2 (en) | 2000-03-31 | 2001-03-28 | Speech information processing method and apparatus and storage medium using a segment pitch pattern model |
US10/965,854 US7155390B2 (en) | 2000-03-31 | 2004-10-18 | Speech information processing method and apparatus and storage medium using a segment pitch pattern model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099534A JP4054507B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理方法および装置および記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001282282A JP2001282282A (ja) | 2001-10-12 |
JP2001282282A5 JP2001282282A5 (ja) | 2005-07-21 |
JP4054507B2 true JP4054507B2 (ja) | 2008-02-27 |
Family
ID=18613874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000099534A Expired - Fee Related JP4054507B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理方法および装置および記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (2) | US6826531B2 (ja) |
JP (1) | JP4054507B2 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839321B2 (en) * | 1997-01-06 | 2020-11-17 | Jeffrey Eder | Automated data storage system |
US20040215495A1 (en) * | 1999-04-16 | 2004-10-28 | Eder Jeff Scott | Method of and system for defining and measuring the elements of value and real options of a commercial enterprise |
JP2001282279A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
JP4054507B2 (ja) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
US20040236673A1 (en) * | 2000-10-17 | 2004-11-25 | Eder Jeff Scott | Collaborative risk transfer system |
US20080027769A1 (en) | 2002-09-09 | 2008-01-31 | Jeff Scott Eder | Knowledge based performance management system |
JP2003295882A (ja) | 2002-04-02 | 2003-10-15 | Canon Inc | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
US7546241B2 (en) * | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
JP4080989B2 (ja) * | 2003-11-28 | 2008-04-23 | 株式会社東芝 | 音声合成方法、音声合成装置および音声合成プログラム |
US6964238B2 (en) * | 2003-12-31 | 2005-11-15 | Kimberly-Clark Worldwide, Inc. | Process for making a garment having hanging legs |
CN1914666B (zh) * | 2004-01-27 | 2012-04-04 | 松下电器产业株式会社 | 声音合成装置 |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
US20090043637A1 (en) * | 2004-06-01 | 2009-02-12 | Eder Jeffrey Scott | Extended value and risk management system |
JP4456537B2 (ja) * | 2004-09-14 | 2010-04-28 | 本田技研工業株式会社 | 情報伝達装置 |
JP4025355B2 (ja) * | 2004-10-13 | 2007-12-19 | 松下電器産業株式会社 | 音声合成装置及び音声合成方法 |
JP2006155404A (ja) * | 2004-11-30 | 2006-06-15 | Toshiba Corp | 時間情報抽出装置、時間情報抽出方法、及び時間情報抽出プログラム |
JP2006309162A (ja) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム |
US8713025B2 (en) | 2005-03-31 | 2014-04-29 | Square Halt Solutions, Limited Liability Company | Complete context search system |
US8498915B2 (en) | 2006-04-02 | 2013-07-30 | Asset Reliance, Inc. | Data processing framework for financial services |
US7552467B2 (en) * | 2006-04-24 | 2009-06-23 | Jeffrey Dean Lindsay | Security systems for protecting an asset |
GB2450886B (en) * | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
JP2009042509A (ja) * | 2007-08-09 | 2009-02-26 | Toshiba Corp | アクセント情報抽出装置及びその方法 |
JP2009047957A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
CN101785051B (zh) * | 2007-08-22 | 2012-09-05 | 日本电气株式会社 | 语音识别装置和语音识别方法 |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
JP5387410B2 (ja) * | 2007-10-05 | 2014-01-15 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
US8219386B2 (en) * | 2009-01-21 | 2012-07-10 | King Fahd University Of Petroleum And Minerals | Arabic poetry meter identification system and method |
RU2421827C2 (ru) * | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
US9069757B2 (en) * | 2010-10-31 | 2015-06-30 | Speech Morphing, Inc. | Speech morphing communication system |
JP5929909B2 (ja) * | 2011-05-30 | 2016-06-08 | 日本電気株式会社 | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム |
JP6048726B2 (ja) * | 2012-08-16 | 2016-12-21 | トヨタ自動車株式会社 | リチウム二次電池およびその製造方法 |
JP2014038282A (ja) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | 韻律編集装置、方法およびプログラム |
US8886539B2 (en) * | 2012-12-03 | 2014-11-11 | Chengjun Julian Chen | Prosody generation using syllable-centered polynomial representation of pitch contours |
EP3389043A4 (en) * | 2015-12-07 | 2019-05-15 | Yamaha Corporation | VOICE INTERACTION DEVICE AND VOICE INTERACTION METHOD |
CN107564511B (zh) * | 2017-09-25 | 2018-09-11 | 平安科技(深圳)有限公司 | 电子装置、语音合成方法和计算机可读存储介质 |
JP6943158B2 (ja) * | 2017-11-28 | 2021-09-29 | トヨタ自動車株式会社 | 応答文生成装置、方法及びプログラム並びに音声対話システム |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5919358B2 (ja) * | 1978-12-11 | 1984-05-04 | 株式会社日立製作所 | 音声内容伝送方式 |
JPS593497A (ja) | 1982-06-30 | 1984-01-10 | 富士通株式会社 | 規則合成方式における補間制御方式 |
JPH0519780A (ja) | 1991-07-12 | 1993-01-29 | Hitachi Ltd | 音声規則合成装置および方法 |
US5276766A (en) | 1991-07-16 | 1994-01-04 | International Business Machines Corporation | Fast algorithm for deriving acoustic prototypes for automatic speech recognition |
JPH0573100A (ja) | 1991-09-11 | 1993-03-26 | Canon Inc | 音声合成方法及びその装置 |
JPH0580791A (ja) | 1991-09-20 | 1993-04-02 | Hitachi Ltd | 音声規則合成装置および方法 |
JP3425996B2 (ja) | 1992-07-30 | 2003-07-14 | 株式会社リコー | ピッチパターン生成装置 |
US5333236A (en) | 1992-09-10 | 1994-07-26 | International Business Machines Corporation | Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models |
JP3450411B2 (ja) | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
JP3548230B2 (ja) | 1994-05-30 | 2004-07-28 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3559588B2 (ja) | 1994-05-30 | 2004-09-02 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3085631B2 (ja) * | 1994-10-19 | 2000-09-11 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
US5726769A (en) | 1994-11-14 | 1998-03-10 | Canon Kabushiki Kaisha | Image processing apparatus capable of connecting external information processing terminal, and including printer unit and data processing unit |
EP0823112B1 (en) | 1996-02-27 | 2002-05-02 | Koninklijke Philips Electronics N.V. | Method and apparatus for automatic speech segmentation into phoneme-like units |
JP2923243B2 (ja) | 1996-03-25 | 1999-07-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識のための単語モデル生成装置及び音声認識装置 |
JP3006677B2 (ja) * | 1996-10-28 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
JP3029803B2 (ja) | 1996-11-20 | 2000-04-10 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識のための単語モデル生成装置及び音声認識装置 |
JPH10254471A (ja) | 1997-03-14 | 1998-09-25 | Toshiba Corp | 音声合成装置 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JP3667950B2 (ja) * | 1997-09-16 | 2005-07-06 | 株式会社東芝 | ピッチパターン生成方法 |
JP3854713B2 (ja) | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | 音声合成方法および装置および記憶媒体 |
JP3571925B2 (ja) | 1998-07-27 | 2004-09-29 | 株式会社東芝 | 音声情報処理装置 |
JP2001282279A (ja) | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
JP4054507B2 (ja) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
-
2000
- 2000-03-31 JP JP2000099534A patent/JP4054507B2/ja not_active Expired - Fee Related
-
2001
- 2001-03-28 US US09/818,599 patent/US6826531B2/en not_active Expired - Lifetime
-
2004
- 2004-10-18 US US10/965,854 patent/US7155390B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001282282A (ja) | 2001-10-12 |
US20050055207A1 (en) | 2005-03-10 |
US20010032078A1 (en) | 2001-10-18 |
US7155390B2 (en) | 2006-12-26 |
US6826531B2 (en) | 2004-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4054507B2 (ja) | 音声情報処理方法および装置および記憶媒体 | |
US6778960B2 (en) | Speech information processing method and apparatus and storage medium | |
US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
JP5208352B2 (ja) | 声調言語用分節声調モデリング | |
US10692484B1 (en) | Text-to-speech (TTS) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
Matoušek et al. | Current state of Czech text-to-speech system ARTIC | |
Rashad et al. | An overview of text-to-speech synthesis techniques | |
US9390709B2 (en) | Voice recognition device and method, and semiconductor integrated circuit device | |
JP2007248886A (ja) | 読み修正装置 | |
Mustafa et al. | Emotional speech acoustic model for Malay: iterative versus isolated unit training | |
US20130117026A1 (en) | Speech synthesizer, speech synthesis method, and speech synthesis program | |
Maia et al. | An HMM-based Brazilian Portuguese speech synthesizer and its characteristics | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JP5028599B2 (ja) | 音声処理装置、およびプログラム | |
Bahaadini et al. | Implementation and evaluation of statistical parametric speech synthesis methods for the Persian language | |
Janyoi et al. | F0 modeling for isarn speech synthesis using deep neural networks and syllable-level feature representation. | |
Khalil et al. | Implementation of speech synthesis based on HMM using PADAS database | |
IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE | |
Chuchupal et al. | Development of Speech Technologies at Trunin-Donskoy’s School: From Sound Recognition to Natural Speech Recognition | |
JP2862306B2 (ja) | 音声認識装置 | |
Klabbers | Text-to-Speech Synthesis | |
Thai et al. | Tonal languages speech synthesis using an indirect pitch markers and the quantitative target approximation methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041210 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20041210 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20041210 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20041210 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20050201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050426 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050826 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20051020 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20051202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071102 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071210 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4054507 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111214 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121214 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131214 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |