JP2006243473A - 音声素片生成装置 - Google Patents

音声素片生成装置 Download PDF

Info

Publication number
JP2006243473A
JP2006243473A JP2005060495A JP2005060495A JP2006243473A JP 2006243473 A JP2006243473 A JP 2006243473A JP 2005060495 A JP2005060495 A JP 2005060495A JP 2005060495 A JP2005060495 A JP 2005060495A JP 2006243473 A JP2006243473 A JP 2006243473A
Authority
JP
Japan
Prior art keywords
unit
phoneme
speech
segment
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005060495A
Other languages
English (en)
Other versions
JP4526979B2 (ja
Inventor
Kazuhiro Miki
一浩 三木
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2005060495A priority Critical patent/JP4526979B2/ja
Publication of JP2006243473A publication Critical patent/JP2006243473A/ja
Application granted granted Critical
Publication of JP4526979B2 publication Critical patent/JP4526979B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】 低演算速度および小容量のメモリで高音質の音声素片を生成する。
【解決手段】 音素片データ選択部1は、入力されたパラメータに適した音素片データを選択する。音素片生成部2は、上記選択された音素片データを展開して時間波形を生成する。音素片非周期化部3は、上記生成された音素片に対して非周期化を行う。音声素片生成部4は、上記非周期化された音素片を接続して音声素片を生成する。こうすることにより、生成される音声素片中に同一音素片の繰り返し部分が発生するような場合でも非周期化される。したがって、人間の聴覚で感知できるレベルの周期音が無くなり、高音質の音声素片が生成される。
【選択図】図1

Description

この発明は、音素片を変形および接続して音声素片を生成する音声素片生成装置に関する。
現在、情報家電機器や携帯電話等の様々な情報機器に関して多様化が進んでおり、その操作インタフェースの一つとして音声合成が利用されている。また、ウェアラブルコンピュータ等の超小型機器の出力手段として、音声出力が画面表示と共に利用されている。これらの様々な機器において音声出力を利用する場合には、低スペック(低処理速度や小メモリ)であり且つ高音質である合成音声の生成が重要である。
このような低スペック音声合成を実現する方法として、特開平10‐171484号公報(特許文献1)に開示された「音声合成方法および装置」がある。この特許文献1においては、音素片のクラスタリングによって音素片の冗長性を削減することでメモリ容量の削減を行っている。
しかしながら、上記特許文献1では、音素片のクラスタリングによってメモリ容量を削減しているために、音素片の少なさから、連続する音素片間の微細な変動に対応できず、同じ音素片の繰り返しが発生する可能性がある。そして、無声子音等においてその繰り返しが起こった場合には、繰り返し周期の周波数成分が発生し、音質の劣化を引き起こすという問題がある。
特開平10‐171484号公報
そこで、この発明の課題は、低演算速度および小容量のメモリで高音質の音声素片を生成することができる音声素片生成装置を提供することにある。
上記課題を解決するため、この発明の音声素片生成装置は、
複数の音素片データが登録されたデータベースと、
入力されたパラメータに基づいて、上記パラメータに適合する音素片データを上記データベースから選択する音素片データ選択部と、
上記選択された音素片データから音素片を生成する音素片生成部と、
上記音素片を接続して音声素片を生成する音声素片生成部と、
上記生成される音声素片が非周期性波形を呈するように、上記音素片生成部によって生成された音素片を変形して上記音声素片生成部に送出する音素片非周期化部と
を備えたことを特徴としている。
上記構成によれば、上記音素片非周期化部によって、最終的に生成される音声素片が非周期性波形を呈するように、上記音素片生成部で生成された音素片を変形するようにしている。したがって、上記音声素片生成部によって生成される音声素片に生ずる周期性を抑制することができる。すなわち、この発明によれば、メモリ容量の削減を図るために、音素片のクラスタリングによって音素片の冗長性を削減し、音素片が少なくなった場合であっても、少ない処理量で同一音素片の繰り返しによる周期雑音を軽減することができ、高音質の音を生成することができる。
また、1実施の形態の音声素片生成装置では、
上記音素片非周期化部は、
符号反転指令を生成する符号反転指令生成部と、
上記符号反転指令生成部からの上記符号反転指令に従って、上記音素片生成部によって生成された音素片の符号を反転してなる符号反転音素片を生成する音素片符号反転部と
を含んでいる。
この実施の形態によれば、上記符号反転指令生成部によってランダムな符号反転指令を生成すれば、上記音声素片生成部によって生成される音声素片の各音素片に対する符号の反転がランダムに行われる。こうして、生成される音声素片が非周期化されるのである。
また、1実施の形態の音声素片生成装置では、
上記音素片非周期化部は、
時間反転指令を生成する時間反転指令生成部と、
上記時間反転指令生成部からの上記時間反転指令に従って、上記音素片生成部によって生成された音素片の時間軸に対する配列順序を反転してなる時間反転音素片を生成する音素片時間反転部と
を含んでいる。
この実施の形態によれば、上記時間反転指令生成部によってランダムな時間反転指令を生成すれば、上記音声素片生成部によって生成される音声素片の各音素片について、その時間軸に対する配列順序の反転がランダムに行われる。こうして、生成される音声素片が非周期化されるのである。
また、1実施の形態の音声素片生成装置では、
上記音素片非周期化部は、
上記音素片生成部から受け取った音素片が先行の音素片と同一の音素片にならないように、上記受け取った音素片に対して符号の反転および時間軸に対する配列順序の反転のうちの少なくとも一方を行わせるための時間・符号反転指令を生成する時間・符号反転指令生成部と、
上記時間・符号反転指令生成部からの上記時間・符号反転指令に従って、上記受け取った音素片に対して符号の反転および時間軸に対する配列順序の反転のうちの少なくとも一方を行って、時間・符号反転音素片を生成する音素片時間・符号反転部と
を含んでいる。
この実施の形態によれば、上記時間・符号反転指令生成部によってランダムな時間・符号反転指令を生成すれば、上記音声素片生成部によって生成される音声素片における各音素片について、その符号の反転および時間軸に対する配列順序の反転のうちの少なくとも一方がランダムに行われる。こうして、生成される音声素片が非周期化されるのである。
また、1実施の形態の音声素片生成装置では、
上記各反転指令生成部は、乱数に基づいて上記各反転指令を生成する。
この実施の形態によれば、上記各反転指令生成部は、乱数に基づいて簡単にランダムな上記各反転指令を生成することができる。
また、1実施の形態の音声素片生成装置では、
上記音素片非周期化部は、上記生成された音素片を接続する際における接続開始個所を指定する接続個所指定部を含み、
上記音声素片生成部は、上記指定された接続開始個所に従って、上記生成された音素片における上記接続開始個所を先頭として先行の音素片に接続する。
この実施の形態によれば、上記接続個所指定部によってランダムに接続開始個所を指定すれば、上記音声素片生成部によって生成される音声素片における各音素片は、その先行の音素片に対する接続開始個所がランダムに変更されている。こうして、生成される音声素片が非周期化されるのである。
また、1実施の形態の音声素片生成装置では、
上記音声素片生成部は、上記指定された接続開始個所に従って、上記生成された音素片の時間軸に対する配列順序を上記接続開始個所を先頭とする配列順序に変更して、上記生成された音素片を再生成する音素片再生成部を含んでいる。
この実施の形態によれば、上記生成された音素片の時間軸に対する配列順序を上記接続開始個所を先頭とする配列順序に変更して再生成するので、先行の音素片に対する接続開始個所のランダム変更が、確実に行われる。
また、1実施の形態の音声素片生成装置では、
上記接続箇所指定部は、乱数に基づいて上記接続開始箇所を指定する。
この実施の形態によれば、上記接続箇所指定部は、乱数に基づいて簡単にランダムな接続開始個所の指定を行うことができる。
また、1実施の形態の音声素片生成装置では、
上記音声素片生成部によって生成された音声素片が周期性を有しているか否かを判定すると共に、周期性を有している場合には当該音声素片を上記音素片非周期化部に戻して当該音声素片を構成する音素片の変形を行わせる一方、周期性を有していない場合には当該音声素片を出力する周期性判定部を備えている。
この実施の形態によれば、上記周期性判定部によって、上記音声素片生成部で生成された音声素片の周期性が無くなるまで、上記音素片非周期化部による音素片の変形を繰り返すようにしている。したがって、上記音声素片生成部によって生成される音声素片に生ずる周期性をさらに抑制することができる。
また、この発明の音声素片生成装置は、
複数の音素片データが登録されたデータベースと、
入力されたパラメータに基づいて、上記1つのパラメータに適合する複数の音素片データを上記データベースから選択する複数音素片データ選択部と、
上記選択された複数の音素片データから音素片を生成する音素片生成部と、
上記音素片生成部によって生成された複数の音素片のうち、音声素片の生成に利用される利用音素片を選択する利用音素片選択部と、
上記生成された複数の音素片のうち、上記利用音素片選択部によって選択された音素片を接続して上記音声素片を生成する音声素片生成部と
を備えたことを特長としている。
上記構成によれば、上記利用音素片選択部によって、上記複数音素片データ選択部で選択された複数の音素片データに基づく複数の音素片のうち、音声素片の生成に利用される利用音素片を選択するようにしている。したがって、上記利用音素片の選択をランダムに行えば、上記音声素片生成部によって生成される音声素片に生ずる周期性を抑制することができる。すなわち、この発明によれば、メモリ容量の削減を図るために、音素片のクラスタリングによって音素片の冗長性を削減し、音素片が少なくなった場合であっても、少ない処理量で同一音素片の繰り返しによる周期雑音を軽減することができ、高音質の音を生成することができる。
また、1実施の形態の音声素片生成装置では、
上記利用音素片選択部は、乱数に基づいて上記利用音素片を選択する。
この実施の形態によれば、上記利用音素片選択部は、乱数に基づいて簡単に利用音素片をランダムに選択することができる。
また、この発明の音声素片生成方法は、
入力されたパラメータに基づいて、上記パラメータに適合する音素片データをデータベースから選択する音素片データ選択ステップと、
上記選択された音素片データから音素片を生成する音素片生成ステップと、
上記音素片を接続してなる音声素片が非周期性波形を呈するように、上記生成された音素片を変形する音素片非周期化ステップと、
上記変形された音素片を接続して音声素片を生成する音声素片生成ステップと、
を備えたことを特長としている。
上記構成によれば、最終的に生成される音声素片が非周期性波形を呈するように、入力パラメータに基づいて生成された音素片を変形するようにしている。したがって、上記音声素片に生ずる周期性を抑制することができる。すなわち、この発明によれば、メモリ容量の削減を図るために、音素片のクラスタリングによって音素片の冗長性を削減し、音素片が少なくなった場合であっても、少ない処理量で同一音素片の繰り返しによる周期雑音を軽減することができ、高音質の音を生成することができる。
また、この発明の音声素片生成プログラムは、
コンピュータを、
この発明の音声素片生成装置における音素片データ選択部,音素片生成部,音素片非周期化部および音声素片生成部
として機能させることを特徴としている。
また、この発明のプログラム記録媒体は、
この発明の音声素片生成プログラムが記録されたことを特徴としている。
上記各構成によれば、最終的に生成される音声素片に生ずる周期性を抑制することができる。すなわち、この発明によれば、メモリ容量の削減を図るために、音素片のクラスタリングによって素片の冗長性を削減し、音素片が少なくなった場合であっても、少ない処理量で同一音素片の繰り返しによる周期雑音を軽減することができ、高音質の音を生成することができる。
以上より明らかなように、この発明によれば、入力されたパラメータに基づいて選択・生成された音素片を接続してなる音声素片に生ずる周期性を抑制することができる。したがって、メモリ容量の削減を図るために音素片が少なくなった場合であっても、少ない処理量で同一音素片の繰り返しによる周期雑音を軽減して、高音質の音を生成することができる。すなわち、この発明によれば、高音質の音を生成することができる低スペック音声合成装置を実現することが可能になる。
以下、この発明を図示の実施の形態により詳細に説明する。
最初に、音声素片,音素片および音素片データの意味を定めておく。上記「音声素片」は、合成音声生成時に利用される音声波形の一部分を示しており、子音を「C」、母音を「V」として、CVやVCV等の形態でよく用いられる。また、上記「音素片」は、音声素片の「C」および「V」を生成する元の波形のことであり、有声音および無声音等の情報に応じて、1ピッチ分の波形や予め指定された長さの音声波形が用いられる。また、上記「音素片データ」は、上記音素片そのもののデータや上記音素片を圧縮した形態のデータであり、音素片を生成する元となるデータのことを示している。
・第1実施の形態
図1は、本実施の形態の音声素片生成装置におけるブロック図である。図中の「パラメータ」は音素片データを指定するものであり、例えば、音素片データデータベース5中の音素片データを直接指定するポインタや、スペクトル情報やこのスペクトル情報をモデル化した場合の係数等、どのようなパラメータを用いても差し支えない。
図1において、音素片データ選択部1は、入力されたパラメータを用いて、与えられたパラメータに適合する音素片データを、音素片データデータベース5から選択する。その際に、上記パラメータが上記スペクトル情報のように、音素片データデータベース5中の音素片データそのものを指定するポインタ等ではない場合には、上記パラメータと音素片データデータベース5中の各音素片データとに対して評価関数等の予め指定された評価基準による比較を行い、最適な音素片データを選択する。ここでは、音素片データ選択部1の動作を説明するため、図2に示すように、上記「パラメータ」は、音素片データデータベース5中の「音素片/SH/の1番目」を指定する情報6であるとする。この場合、音素片データ選択部1は、音素片データデータベース5に格納された音素片データ「/SH1/〜/SH32/」のうち、パラメータ6によって直接指定された音素片データ「/SH1/」7を直接選択し、選択された音素片データ「/SH1/」7を音素片生成部2に送出する。
上記音素片生成部2は、上記音素片データ選択部1によって選択された音素片データ7のフォーマットに応じて、入力された音素片データ7を展開して所定時間の音声波形である時間波形を生成する。音素片データ7の種類としては、音素片の時間波形そのもののデータや、音素片の時間波形を圧縮した適応差分PCM(ADPCM)等の様々な圧縮を加えたデータや、線形予測分析(LPC)係数等のように元の波形の情報をモデル化したデータ等があり、元の音素片の波形を表現可能なあらゆる方法を用いて作成することができる。
一例として、上記音素片データが、ADPCMでコード化されて音素片データデータベース5に保存されている場合を考える。この場合、音素片データ選択部1によって選択された音素片データ7に含まれるADPCMコードをデコードすることによって、目的とする音素片の時間波形を生成することができる。
音声素片生成部4は、上記音素片生成部2によって生成された音素片を接続することによって、連結された音素片の連なりである音声素片を生成する。その場合、目的の時間長の音声素片は、上述した処理を目的の時間長になるまで繰り返すことによって生成されるのである。
図3は、生成される上記音声素片の概念図である。ここで、80msecの時間長の音声素片「/SH/」を生成する場合を考える。音素片データ選択部1に入力される音素片/SH/のパラメータ系列に従って、上述の処理を行って時間長が5msecの時間波形でなる各音素片が生成される。こうして生成された音素片が次々と結合され、「SH」の音素片系列8でなる音声素片が生成される。ここで、上記特許文献1のように、音声素片のクラスタリングによって音素片の冗長性を削減することでメモリ容量の削減を行った場合は、音素片の種類の少なさ等の影響によって、図3において矢印9で示すような同一音素片(SH1)の繰り返しが発生する。その場合、生成される音声素片/SH/中の同一音素片繰り返し部分9では5msecの周期性を有する音が発生し、音質の劣化を招くことになる。
図4は、サンプリング周期8KHz、音素片の長さ5msecの条件で、繰り返しが発生している部分を周波数解析したものである。図4により、200Hz毎の周波数成分が強く現れていることが分かる。その結果、生成される音声素片には200Hz毎の周波数で生成される周期性音が生成され、音質の劣化が起こることになる。
本実施の形態においては、上述のような症状を改善するために、音素片生成部2によって生成された音素片に対して非周期化を行って音声素片生成部4に送出する音素片非周期化部3を有している。この音素片非周期化部3において、下記の各方法を用いることによって周期性音を低減するのである。
[音素片時間波形の符号反転]
図5は、上記音素片生成部2によって生成された音素片に対して、音素片時間波形の符号反転波形を用いて非周期化処理を行う音素片非周期化部3の内部構成を示すブロック図である。
図5において、符号反転指令生成部11は、入力音素片に対して符号反転を行うか否かの指令を生成する。例えば、符号を反転する場合には「1」を生成し、反転しない場合には「0」を生成して、入力音素片と共に次段の符号反転判断部12に出力するのである。その場合、符号反転指令生成部11は、0か1の乱数を既知のアルゴリズムによって生成することによって、符号反転指令を生成することが可能である。あるいは、符号反転指令データ記憶部14に、予めランダムに設定されたN個の符号反転指令データを記憶しておく。そして、指令を行う毎に、読み出し位置をインクリメントして符号反転指令データ記憶部14にアクセスして符号反転指令データを読み出すことにより、ランダムな符号反転指令を生成することが可能である。このように、符号反転指令データ記憶部14を用いて符号反転指令を生成する場合には、毎回乱数を生成する場合に比べて高速な反転指令生成が可能となる。
上記符号反転判断部12は、上記符号反転指令生成部11から送出されてくる符号反転指令に従って、符号反転指令が真(「1」)の場合には入力音素片に対して符号反転を行うと判断し、入力音素片を音素片符号反転部13に出力する。これに対し、符号反転指令が偽(「0」)の場合には入力音素片に対して符号反転を行わないと判断し、入力音素片を直接音声素片生成部4に出力する。
さらに、上記符号反転判断部12には、外部から、符号反転するか否かを直接指令する外部指令が入力されるようになっている。そして、上記外部指令が入力された場合には、上記外部指令を優先して、上記判断処理を実行するようになっている。一例として、外部の処理速度を制御する装置から、符号反転処理を行っていては音声素片の生成処理が間に合わないため、符号反転処理は行わない旨を指示する外部指令が符号反転判断部12に入力される場合がある。その場合には、その外部指令に基づく判断を優先し、音声素片生成部4に対して入力音素片を送出して符号反転処理は行わないようにする。以上のように、符号反転判断部12は、符号反転処理を行うか否かの総合的な判断を行うのである。
上記音素片符号反転部13は、入力された音素片の符号を反転する処理を行い、符号が反転された音素片を音声素片生成部4に出力する。
上記音声素片生成部4は、上記符号反転判断部12から送出された上記符号反転が行われない入力音素片、および、音素片符号反転部13から送出された上記符号反転が行われた入力音素片を接続することによって、非周期音声素片を生成する。
以上の処理によって、例えば、5msecの音素片/SH1/が繰り返されて生成される20msecの音声素片/SH1,SH1,SH1,SH1/が、符号反転指令/反転,反転,非反転,反転/により、/SH1',SH1',SH1,SH1'/に非周期化されることによって、周波数特性を保持したまま5msec(200Hz)の周期性成分が抑制されるのである。
ここで、上記音素片/SH'/における「’」は、本例の場合には、音素片/SH/に対して符号反転処理が行われた後の音素片であることを示す記号である。また、「’」が複数回繰り返されて付加された音素片「/SH''/,/SH'''/,…」等は、繰り返して符号反転処理が行われたことを示しているのではなく、音素片/SH/に対して符号反転処理以外の特定の処理を行った結果得られる音素片を表している。すなわち、本実施の形態中における音素片/SH'/,/SH''/,/SH'''/は、夫々音素片/SH/に対して互いに異なる処理を行った結果得られる音素片を示している。
以上のごとく、上記音素片非周期化部3は、ランダムな符号反転指令を生成し、この生成された符号反転指令が「1」の場合には、入力音素片に対して符号反転処理を行うようにしている。したがって、生成された音声素片中に同一音素片の繰り返し部分9が発生するような場合でも、同一音素片の繰り返し部分9中の音素片がランダムに符号反転されるので、当該音声素片が非周期化されるのである。
[音素片時間波形の時間反転]
図6は、上記音素片生成部2によって生成された音素片に対して、音素片時間波形の時間反転波形を用いて非周期化処理を行う音素片非周期化部3の図5とは異なる内部構成を示すブロック図である。
図6において、時間反転指令生成部15は、入力音素片に対して時間反転を行うか否かの指令を生成する。例えば、時間反転を行う場合には「1」を生成し、時間反転を行わない場合には「0」を生成して、入力音素片と共に次段の時間反転判断部16に出力するのである。その場合に、時間反転指令生成部15は、0か1の乱数を既知のアルゴリズムによって生成することによって、時間反転指令を生成することが可能である。あるいは、時間反転指令データ記憶部18に、予めランダムに設定されたN個の時間反転指令データを記憶しておく。そして、指令を行う毎に、読み出し位置をインクリメントして時間反転指令データ記憶部18にアクセスして時間反転指令データを読み出すことにより、ランダムな時間反転指令を生成することが可能である。このように、時間反転指令データ記憶部18を用いて時間反転指令を生成する場合には、毎回乱数を生成する場合に比べて高速な反転指令生成が可能となる。
上記時間反転判断部16は、上記時間反転指令生成部15から送出されてくる時間反転指令に従って、時間反転指令が真(「1」)の場合には入力音素片に対して時間反転を行うと判断し、入力音素片を音素片時間反転部17に出力する。これに対し、時間反転指令が偽(「0」)の場合には入力音素片に対して時間反転を行わないと判断し、入力音素片を直接音声素片生成部4に出力する。
さらに、上記時間反転判断部16には、外部から、時間反転するか否かを直接指令する外部指令が入力されるようになっている。そして、上記外部指令が入力された場合には、上記外部指令を優先して、上記判断処理を実行するようになっている。一例として、外部の処理速度を制御する装置から、時間反転処理を行っていては音声素片の生成処理が間に合わないため、時間反転処理は行わない旨を指示する外部指令が時間反転判断部16に入力される場合がある。その場合には、その外部指令に基づく判断を優先し、音声素片生成部4に対して入力音素片を送出して時間反転処理は行わないようにする。以上のように、時間反転判断部16は、時間反転処理を行うか否かの総合的な判断を行うのである。
上記音素片時間反転部17は、入力された音素片の時間を反転する処理を行い、時間が反転された音素片を音声素片生成部4に出力する。ここで、上記音素片の「時間反転」とは、該当する音素片の音素片データを、通常は時間軸に対して先頭から順にメモリに書き込むのを逆方向から上記メモリに書き込む処理である。そして、音声素片生成部4に出力する際には、上記メモリに書き込んだ順に音素片データを読み出すのである。尚、この時間反転処理は、上記メモリに書き込むだけの処理であるため、上記符号反転を行う場合に比べて高速処理が可能である。
上記音声素片生成部4は、上記時間反転判断部16から送出された上記時間反転が行われない入力音素片、および、音素片時間反転部17から送出された上記時間反転が行われた入力音素片を接続することによって、非周期音声素片を生成する。
以上の処理によって、例えば、5msecの音素片/SH1/が繰り返されて生成される20msecの音声素片/SH1,SH1,SH1,SH1/が、時間反転指令/反転,反転,非反転,反転/により、/SH1',SH1',SH1,SH1'/に非周期化されることによって、周波数特性を保持したまま5msec(200Hz)の周期性成分が抑制されるのである。
以上のごとく、上記音素片非周期化部3は、ランダムな時間反転指令を生成し、この生成された時間反転指令が「1」の場合には、入力音素片に対して時間軸において逆方向からメモリに音素片データを書き込む時間反転処理を行うようにしている。したがって、生成された音声素片中に同一音素片の繰り返し部分9が発生するような場合でも、同一音素片の繰り返し部分9中の音素片がランダムに時間反転されるので、当該音声素片が非周期化されるのである。
[音素片時間波形の符号反転および時間反転]
図7は、上記音素片生成部2によって生成された音素片に対して、音素片時間波形の時間・符号反転波形を用いて非周期化処理を行う音素片非周期化部3の図5および図6とは異なる内部構成を示すブロック図である。
図7において、時間・符号反転指令生成部21は、入力音素片に対して時間反転および符号反転の夫々を行うか否かの指令を生成する。例えば、時間および符号を個別に反転する場合には時間反転および符号反転の夫々に「1」を生成し、反転しない場合には「0」を生成して、入力音素片と共に次段の時間・符号反転判断部22に出力するのである。その場合、時間・符号反転指令生成部21は、0か1の乱数を既知のアルゴリズムによって時間反転用および符号反転用に生成することによって、時間反転指令および符号反転指令の夫々を生成することが可能である。
あるいは、符号反転指令データ記憶部24および時間反転指令データ記憶部25に、予めランダムに設定されたN個の符号反転指令データおよびN個の時間反転指令データを記憶しておく。そして、指令を行う毎に、読み出し位置をインクリメントして符号反転指令データ記憶部24および時間反転指令データ記憶部25の夫々にアクセスして符号反転指令データおよび時間反転指令データの夫々を読み出すことにより、ランダムな時間反転指令および符号反転指令を生成することが可能である。このように、符号反転指令データ記憶部24および時間反転指令データ記憶部25を用いて上記時間反転指令および符号反転指令を生成する場合には、毎回乱数を生成する場合に比べて高速な反転指令生成が可能となる。
尚、上記時間・符号反転指令生成部21からの時間反転指令および符号反転指令が連続して同じ組み合わせになった場合、すなわち同じ音素片が繰り返される場合には、時間反転指令および符号反転指令のうちの何れか一方の反転指令のみをインクリメントする等によって、同じ組み合わせが続かないように制御することによって、より非周期性の高い音声素片が生成可能な指令を出力することができる。
上記時間・符号反転判断部22で、上記時間・符号反転指令生成部21から送出されてくる時間反転指令および符号反転指令に従って、時間反転指令および符号反転指令のうちの少なくとも一方が真(「1」)の場合には入力音素片に対して時間反転および符号反転のうちの少なくとも一方を行うと判断し、入力音素片を音素片時間・符号反転部23に出力する。これに対し、時間反転指令および符号反転指令の何れもが偽(「0」)の場合には入力音素片に対して時間反転および符号反転の何れも行わないと判断し、入力音素片を直接音声素片生成部4に出力する。
さらに、上記符号反転判断部12には、外部から、時間反転および符号反転を行うか否かを直接指令する外部指令が入力されるようになっている。そして、上記外部指令が入力された場合には、上記外部指令を優先して、上記判断処理を実行するようになっている。一例として、外部の処理速度を制御する装置から、時間反転処理および符号反転処理を行っていては音声素片の生成処理が間に合わないため、時間反転処理および符号反転処理は行わない旨を指示する外部指令が時間・符号反転判断部22に入力される場合がある。その場合には、その外部指令に基づく判断を優先し、音声素片生成部4に対して入力音素片を送出して時間反転処理および符号反転処理は行わないようにする。以上のように、時間・符号反転判断部22は、時間反転処理および符号反転処理を行うか否かの総合的な判断を行うのである。
上記音素片時間・符号反転部23は、入力された音素片の時間および符号を反転する処理を行い、時間および符号のうちの少なくとも一方が反転された音素片を音声素片生成部4に出力する。
上記音声素片生成部4は、上記時間・符号反転判断部22から送出された時間反転および符号反転が行われない入力音素片、および、音素片時間・符号反転部23から送出された時間反転および符号反転のうちの少なくとも一方が行われた入力音素片を接続することによって、非周期音声素片を生成する。
以上の処理によって、例えば、5msecの音素片/SH1/が繰り返されて生成される20msecの音声素片/SH1,SH1,SH1,SH1/が、(時間,符号)反転指令/(時間非反転,符号非反転),(時間反転,符号非反転),(時間非反転,符号反転),(時間反転,符号反転)/によって、/SH1,SH1',SH1'',SH1'''/に非周期化されることにより、周波数特性を保持したまま5msec(200Hz)の繰り返しの無い音声素片を生成することができ、非常に非周期性の高い音声素片を高速に生成できるのである。
尚、この場合、音素片/SH1'/は、音素片/SH/に対して時間反転処理のみを行った結果得られる音素片を表している。また、音素片/SH1''/は、音素片/SH/に対して符号反転処理のみを行った結果得られる音素片を表している。また、音素片/SH1'''/は、音素片/SH/に対して時間反転処理と符号反転処理との両方を行った結果得られる音素片を表している。
以上のごとく、上記音素片非周期化部3は、ランダムな時間反転指令と符号反転指令とを生成し、この生成された時間反転指令および符号反転指令のうちの何れか一方が「1」の場合には、入力音素片に対して時間反転処理および符号反転処理のうちの何れか一方を行うようにしている。したがって、生成された音声素片中に同一音素片の繰り返し部分9が発生するような場合でも、同一音素片の繰り返し部分9中の音素片がランダムに時間反転および符号反転のうちの少なくとも一方が行われるので、当該音声素片が非周期化されるのである。
[音素片時間波形の接続開始位置変更]
図8は、上記音素片生成部2によって生成された音素片に対して、音声素片生成時における音素片時間波形の接続開始個所をランダムに指定することによって、非周期化処理を行う音素非周期化処理部3の図5〜図7とは異なる内部構成を示すブロック図である。
図8において、接続個所指定部26は、音声素片生成時において音素片を接続するに際して、接続の開始を対象音素片の何れの位置から行うのかの指定を生成する。例えば、音素片のデータ数がデータ0からデータNのN個である場合には「0」〜「N」の数を生成して、入力音素片と共に次段の音声素片生成部4に出力するのである。その場合、接続個所指定部26は、0〜Nの乱数を既知のアルゴリズムによって生成することによって適当な接続開始位置(データ番号)を生成し、接続個所指定を生成することが可能である。あるいは、接続個所指定データ記憶部27に、予めランダムに設定されたN個の接続個所指定データ(データ番号)を記憶しておく。そして、指定を行う毎に、読み出し位置をインクリメントして接続個所指定データ記憶部27にアクセスして接続個所指定データを読み出すことにより、ランダムな接続個所指定を生成することが可能である。このように、接続個所指定データ記憶部27を用いて接続個所指定を生成する場合には、毎回乱数を生成する場合に比べて高速な接続個所指定生成が可能となる。
上記音声素片生成部4は、上記接続個所指定部26から送出された接続個所指定に従って各音素片の接続個所を変更・設定し、この設定された接続箇所で各音素片を接続することによって、非周期音声素片を生成する。ここで、図9に示すように、接続個所指定部26からの接続個所指定28が「15」であるとする。この場合、音声素片生成部4は、データ0からデータNのN個の音素片データでなる対象音素片29のうちの15番目のデータ(●)から、既に形成されている音素片系列30に対して接続が開始される。そして、N番目のデータ(△)まで接続された後は、引き続き0番目のデータ(○)から14番目のデータ(▲)までを接続する。こうして、非周期性音声素片が生成されるのである。
以上の処理によって、例えば、5msecの音素片/SH1/が繰り返されて生成される20msecの音声素片/SH1,SH1,SH1,SH1/が、接続個所指定/0,13,15,43/によって、/SH1,SH1',SH1'',SH1'''/に非周期化されることによって、周波数特性を保持したまま5msec(200Hz)の周期性成分が抑制されるのである。
以上のごとく、上記音素片非周期化部3は、ランダムな「0」〜「N」の数でなる接続個所指定「n」を生成し、音声素片生成部4は、音素片系列30に対して音素片29を接続する際に、対象音素片29のn番目のデータを接続開始位置として、対象音素片29をデータn→データN+データ0→データ(n−1)の順に接続するようにしている。したがって、生成された音声素片中に同一音素片の繰り返し部分9が発生するような場合でも、同一音素片の繰り返し部分9中の音素片の接続開始位置がランダムに設定されるので、当該音声素片が非周期化されるのである。
尚、上記符号反転波形を用いて非周期化処理を行う音素片非周期化部3、時間反転波形を用いて非周期化処理を行う音素片非周期化部3、時間・符号反転波形を用いて非周期化処理を行う音素片非周期化部3においては、夫々反転部13,17,23とは別に反転判断部12,16,22を有して、反転処理を行わないと判断した場合には入力音素片を直接音声素片生成部4に出力するようにしている。
しかしながら、この発明はこれに限定されるものではなく、夫々の反転部13,17,23に反転判断部12,16,22の機能を持たせて、各反転部13,17,23は、反転処理を行うと判断した場合には入力音素片に対して反転処理を行って音声素片生成部4に出力する一方、反転処理を行わないと判断した場合には入力音素片をそのまま音声素片生成部4に出力するように構成することも可能である。
また、上記音素片時間波形の接続開始個所をランダムに変更して非周期音声素片を生成する音声素片生成部4においては、音素片系列30に対して入力音素片の接続順序を変えながら直接接続するようにしている。しかしながら、この発明はこれに限定されるものではなく、一端、入力音素片の配列順序を上記続開始個所を先頭とする配列順序に配列し直してバッファ等に保存し、上記バッファ等から読み出した順序で音素片系列30に接続するようにしても差し支えない。
・第2実施の形態
上記第1実施の形態においては、1つのパラメータから1つ音素片データを選択し、選択された音素片に対して非周期化処理を施して周期性成分が抑制された音声素片を生成している。これに対して、本実施の形態においては、1つのパラメータから2つの音素片データを選択して音声素片の生成に用いることによって、少量のメモリ増加でより非周期性の高い音声素片を生成するのである。
図10は、本実施の形態の音声素片生成装置におけるブロック図である。複数音素片データ選択部31は、入力されたパラメータに関連した2つの音素片データを、音素片データデータベース35から選択する。ここで、上記「パラメータ」は、上記第1実施の形態の場合と同じであるが、パラメータが指定する音素片は1つである必要はなく、2つ以上の音素片を指定することによって、複数の音素片データを選択することができる。その場合、入力された1つのパラメータが2つ以上の音素片を指定するポインタ等の場合には、複数音素片データ選択部31は、上記第1実施の形態の音素片データ選択部1と同様の動作によって各入力パラメータに対応する2つの音素片データを選択する。
また、入力された1つのパラメータが1つの音素片に対応付けられている場合には、予め指定された評価基準によって音素片データデータベース35中の各音素片データに対して評価を行い、評価スコアの高い順に複数の音素片データを選択することによって複数の音素片データを選択することができる。例えば、図10では、入力パラメータに対して評価スコアの高い音素片データ1および音素片データ2が選択されて、音素片生成部32に送出される。
上記音素片生成部32は、上記複数音素片データ選択部31によって選択された2つの音素片データ1および音素片データ2の夫々に、上記第1実施の形態の音素片生成部2と同様の処理を行って、2つの音素片1(時間波形)および音素片2(時間波形)を生成する。
利用音素片選択部33は、生成された2つの音素片のうち何れの音素片を用いるかを選択する。例えば、1か2の乱数を既知のアルゴリズムによって生成し、「1」が生成された場合には音素片1を次段の音声素片生成部34に送出する一方、「2」が生成された場合には音素片2を音声素片生成部34に送出する。あるいは、利用音素片指令データ記憶部36に、予めランダムに配列された利用音素片指令(音素片番号「1」および「2」)を記憶しておく。そして、利用音素片の選択を行う毎に、読み出し位置をインクリメントして利用音素片指令データ記憶部36にアクセスして利用音素片指令(音素片番号)を読み出すことによって、ランダムな利用音素片の選択を行うことが可能である。このように、利用音素片指令データ記憶部36を用いて利用音素片を選択する場合には、毎回乱数を生成する場合に比べて高速な利用音素片選択が可能となる。
上記音声素片生成部34は、上記利用音素片選択部33から送出された音素片を接続することによって、非周期音声素片を生成する。
本実施の形態においては、上記音素片生成部32によって2つの音素片が生成されるため、生成された音素片を格納するメモリ容量は増えることになる。しかしながら、上述のようにして生成された非周期音声素片は、上記第1実施の形態のごとく、複数回繰り返される同じ音素片に対して非周期化処理を施す場合に比べて、より非周期性の高い音声素片を生成することができるのである。
尚、本実施の形態においては、上記音素片生成部32によって2つの音素片を生成するようにしているが、メモリ容量に余裕がある場合には、3つ以上の音素片を生成するようにしても構わない。但し、上記評価スコアの高い順に音素片を選択する場合には、単純に生成する音素片数を増やすと評価スコアの低いものが含まれて音質の劣化が生ずるので、最適音素片数を見極める必要がある。
・第3実施の形態
上記第1実施の形態および第2実施の形態における各非周期化方法は、夫々単独で用いた場合には、高速に非周期化された音声素片を生成することができる。しかしながら、処理能力やメモリ容量に余裕がある場合には、各非周期化方法を、単独ではなく組み合わせて用いることが可能になる。
そこで、本実施の形態においては、上記第1実施の形態および第2実施の形態における各非周期化方法を組み合わせて用いるのである。すなわち、例えば、時間反転処理を行った音素片における接続個所を変更・設定する。複数の音素片を選択し、夫々の音素片に時間反転処理,符号反転処理あるいは接続個所の変更・設定処理等の各種処理を行うのである。こうすることによって、さらに非周期性の高い音声素片を生成することができるのである。
本実施の形態においては、非周期化処理に時間が掛かるが、各非周期化方法を組み合わせれば組み合わせるほど非周期性は高くなるので、スペックに応じて複数の非周期化方法を適当に組み合わせることによって、各スペックに応じた非周期化手段を設計することができる。
本実施の形態によれば、図4に示すような周期性の強い波形が、例えば上記第1実施の形態における「符号反転」と「時間反転」とを組み合わせることによって、図11に示すように、明らかに200Hz毎の周期性が軽減される。この結果、人間の聴覚で感知できるレベルの周期音が無くなり、高音質の音声素片を生成することができるのである。尚、非周期化方法の組み合わせは「符号反転」および「時間反転」に限らず、何れの組み合わせであっても図11に示すような結果が得られることは言うまでもない。
・第4実施の形態
図12は、本実施の形態の音声素片生成装置におけるブロック図である。本実施の形態においては、上記第1実施の形態の場合と基本的構成は同様であり、生成された非周期音声素片に対してその周期性を判定する周期性判定部45を有する点が異なる。音素片データ選択部41,音素片生成部42,音素片非周期化部43,音声素片生成部44および音素片データデータベース46は、上記第1実施の形態における音素片データ選択部1,音素片生成部2,音素片非周期化部3,音声素片生成部4および音素片データデータベース5と同様であり、詳細な説明は省略する。以下においては、周期性判定部45の構成・動作について詳細に述べる。
上記周期性判定部45は、上記音声素片生成部44によって生成された非周期音声素片に対してその非周期性を判定する。そして、上記生成された音声素片に周期性が存在すると判断した場合には、上記生成された音声素片を音素片非周期化部43に戻すのである。尚、周期性判定部45による非周期性の判定は、予め作成された周期性を判断するための評価関数等を用いて行う。
音素片の繰り返しによって発生する周期性は、各音素片の長さにより決まる。例えば、音素片の長さが5msecの場合には、200Hz毎に現れる。したがって、5msecの音素片を接続して音声素片を生成する場合の周期性は、200Hzの倍数の成分(ゲイン)がどの程度強いかを調べることで判定することができる。図13は、周期性を有する音声素片に対して周波数解析を行った結果である。各音素片の長さは5msecであるため200Hz刻みで強い周期性が発生している。
この場合、上記周波数特性を示す波形における(200×n(正の整数))Hzの前後10Hz内に現れるピークの周波数と隣接する2つのピークの周波数との両中点間の範囲を「L」とし、その範囲L内における最大値をLmaxとする一方、最小値をLminとして、両値の差分(Lmax−Lmin)を算出する。この操作を全てのピークに対して行い、全差分値の平均値および総和等を評価値として利用し、予め定められた閾値と上記評価値との比較を行うことによって、周期性を有するか否かを判断することができる。
また、他の非周期性判定の方法としては、1回目の周波数解析を行って得られた図13に示すような周波数解析結果の波形に対して再度周波数解析を行った後に、上述と同様の方法によって周波数200Hz毎に現れるピークの周期性を評価する等、様々な方法がある。
上記周期性判定部45は、上述したような各種の方法を利用して、音声素片生成部44からの音声素片に対して周期性の判定を行い、その結果周期性が無いと判断した場合にはその音声素片(非周期音声素片)を出力する。一方、周期性があると判断した場合には、当該音声素片を音素片非周期化部43に戻して再度非周期化処理を行わせ、生成された音声素片に対して再度周期性を判定する。以上の処理を周期性が無くなるまで繰り返すのである。
したがって、本実施の形態においては、処理時間は掛かるが、上記第2実施の形態および第3実施の形態の場合に比してメモリ容量の節約を図って、非周期性の音声素片を確実に生成することができるのである。
尚、上記各実施の形態においては、各部の動作を、無声子音/SH/を例に挙げて説明しているが、有性音の場合にも無声化が起こることは多々存在する。音声合成装置やテキスト音声合成装置や音声圧縮装置に関して、各装置が所持している有声無声の判定基準に従って非周期音声が必要な場合を決定し、この決定にしたがって上記各実施の形態における音声素片生成装置の使用・不使用を選択することによって、効率よく非周期音声素片を生成することが可能になる。したがって、無声子音/SH/を例に挙げて行った動作説明は、この発明の音声素片生成装置の動作範囲を指定するものではない。
この発明の音声素片生成装置におけるブロック図である。 図1における音素片データ選択部の動作を説明するための図である。 生成される音声素片の概念を示す図である。 長さ5msecの音素片で生成された周期性を有する音声素片に対する周波数解析結果を示す図である。 図1における音素片非周期化部の内部構成を示すブロック図である。 上記音素片非周期化部における図5とは異なるブロック図である。 上記音素片非周期化部における図5及び図6とは異なるブロック図である。 上記音素片非周期化部における図5〜図7とは異なるブロック図である。 音声素片を生成する際における音素片の接続個所変更の説明図である。 図1とは異なる音声素片生成装置におけるブロック図である。 非周期化された音声素片に対する周波数解析結果を示す図である。 図1及び図10とは異なる音声素片生成装置におけるブロック図である。 図12における周期性判定部による周期性判定の説明図である。
符号の説明
1,41…音素片データ選択部、
2,32,42…音素片生成部、
3,43…音素片非周期化部、
4,34,44…音声素片生成部、
5,35,46…音素片データデータベース、
6…パラメータ、
7…音素片データ、
8,30…音素片系列、
9…同一音素片繰り返し部分、
11…符号反転指令生成部、
12…符号反転判断部、
13…音素片符号反転部、
14,24…符号反転指令データ記憶部、
15…時間反転指令生成部、
16…時間反転判断部、
17…音素片時間反転部、
18,25…時間反転指令データ記憶部、
21…時間・符号反転指令生成部、
22…時間・符号反転判断部、
23…音素片時間・符号反転部、
26…接続個所指定部、
27…接続個所指定データ記憶部、
28…接続個所指定、
29…音素片、
31…複数音素片データ選択部、
33…利用音素片選択部、
36…利用音素片指令データ記憶部。

Claims (14)

  1. 複数の音素片データが登録されたデータベースと、
    入力されたパラメータに基づいて、上記パラメータに適合する音素片データを上記データベースから選択する音素片データ選択部と、
    上記選択された音素片データから音素片を生成する音素片生成部と、
    上記音素片を接続して音声素片を生成する音声素片生成部と、
    上記生成される音声素片が非周期性波形を呈するように、上記音素片生成部によって生成された音素片を変形して上記音声素片生成部に送出する音素片非周期化部と
    を備えたことを特長とする音声素片生成装置。
  2. 請求項1に記載の音声素片生成装置において、
    上記音素片非周期化部は、
    符号反転指令を生成する符号反転指令生成部と、
    上記符号反転指令生成部からの上記符号反転指令に従って、上記音素片生成部によって生成された音素片の符号を反転してなる符号反転音素片を生成する音素片符号反転部と
    を含んでいることを特長とする音声素片生成装置。
  3. 請求項1に記載の音声素片生成装置において、
    上記音素片非周期化部は、
    時間反転指令を生成する時間反転指令生成部と、
    上記時間反転指令生成部からの上記時間反転指令に従って、上記音素片生成部によって生成された音素片の時間軸に対する配列順序を反転してなる時間反転音素片を生成する音素片時間反転部と
    を含んでいることを特長とする音声素片生成装置。
  4. 請求項1に記載の音声素片生成装置において、
    上記音素片非周期化部は、
    上記音素片生成部から受け取った音素片が先行の音素片と同一の音素片にならないように、上記受け取った音素片に対して符号の反転および時間軸に対する配列順序の反転のうちの少なくとも一方を行わせるための時間・符号反転指令を生成する時間・符号反転指令生成部と、
    上記時間・符号反転指令生成部からの上記時間・符号反転指令に従って、上記受け取った音素片に対して符号の反転および時間軸に対する配列順序の反転のうちの少なくとも一方を行って、時間・符号反転音素片を生成する音素片時間・符号反転部と
    を含んでいることを特長とする音声素片生成装置。
  5. 請求項2乃至請求項4の何れか一つに記載の音声素片生成装置において、
    上記各反転指令生成部は、乱数に基づいて上記各反転指令を生成するようになっていることを特長とする音声素片生成装置。
  6. 請求項1に記載の音声素片生成装置において、
    上記音素片非周期化部は、上記生成された音素片を接続する際における接続開始個所を指定する接続個所指定部を含み、
    上記音声素片生成部は、上記指定された接続開始個所に従って、上記生成された音素片における上記接続開始個所を先頭として先行の音素片に接続するようになっている
    ことを特長とする音声素片生成装置。
  7. 請求項6に記載の音声素片生成装置において、
    上記音声素片生成部は、上記指定された接続開始個所に従って、上記生成された音素片の時間軸に対する配列順序を上記接続開始個所を先頭とする配列順序に変更して、上記生成された音素片を再生成する音素片再生成部を含んでいる
    ことを特長とする音声素片生成装置。
  8. 請求項6あるいは請求項7に記載の音声素片生成装置において、
    上記接続箇所指定部は、乱数に基づいて上記接続開始箇所を指定するようになっていることを特長とする音声素片生成装置。
  9. 請求項1に記載の音声素片生成装置において、
    上記音声素片生成部によって生成された音声素片が周期性を有しているか否かを判定すると共に、周期性を有している場合には当該音声素片を上記音素片非周期化部に戻して当該音声素片を構成する音素片の変形を行わせる一方、周期性を有していない場合には当該音声素片を出力する周期性判定部を備えたことを特長とする音声素片生成装置。
  10. 複数の音素片データが登録されたデータベースと、
    入力されたパラメータに基づいて、上記1つのパラメータに適合する複数の音素片データを上記データベースから選択する複数音素片データ選択部と、
    上記選択された複数の音素片データから音素片を生成する音素片生成部と、
    上記音素片生成部によって生成された複数の音素片のうち、音声素片の生成に利用される利用音素片を選択する利用音素片選択部と、
    上記生成された複数の音素片のうち、上記利用音素片選択部によって選択された音素片を接続して上記音声素片を生成する音声素片生成部と
    を備えたことを特長とする音声素片生成装置。
  11. 請求項10に記載の音声素片生成装置において、
    上記利用音素片選択部は、乱数に基づいて上記利用音素片を選択するようになっていることを特長とする音声素片生成装置。
  12. 入力されたパラメータに基づいて、上記パラメータに適合する音素片データをデータベースから選択する音素片データ選択ステップと、
    上記選択された音素片データから音素片を生成する音素片生成ステップと、
    上記音素片を接続してなる音声素片が非周期性波形を呈するように、上記生成された音素片を変形する音素片非周期化ステップと、
    上記変形された音素片を接続して音声素片を生成する音声素片生成ステップと、
    を備えたことを特長とする音声素片生成方法。
  13. コンピュータを、
    請求項1における音素片データ選択部,音素片生成部,音素片非周期化部および音声素片生成部
    として機能させることを特徴とする音声素片生成プログラム。
  14. 請求項13に記載の音声素片生成プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
JP2005060495A 2005-03-04 2005-03-04 音声素片生成装置 Expired - Fee Related JP4526979B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005060495A JP4526979B2 (ja) 2005-03-04 2005-03-04 音声素片生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005060495A JP4526979B2 (ja) 2005-03-04 2005-03-04 音声素片生成装置

Publications (2)

Publication Number Publication Date
JP2006243473A true JP2006243473A (ja) 2006-09-14
JP4526979B2 JP4526979B2 (ja) 2010-08-18

Family

ID=37049935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005060495A Expired - Fee Related JP4526979B2 (ja) 2005-03-04 2005-03-04 音声素片生成装置

Country Status (1)

Country Link
JP (1) JP4526979B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010160406A (ja) * 2009-01-09 2010-07-22 Yamaha Corp 音声合成装置、およびプログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5267204A (en) * 1975-12-01 1977-06-03 Nec Corp Element piece edit type voice composing unit
JPH0519779A (ja) * 1991-07-10 1993-01-29 Nippon Telegr & Teleph Corp <Ntt> 音声編集装置
JPH05108095A (ja) * 1991-10-19 1993-04-30 Ricoh Co Ltd 音声合成装置
JPH10171484A (ja) * 1996-12-10 1998-06-26 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JPH11133973A (ja) * 1997-10-31 1999-05-21 Kawai Musical Instr Mfg Co Ltd 楽音生成装置及び楽音生成方法
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
JP2002202790A (ja) * 2000-12-28 2002-07-19 Yamaha Corp 歌唱合成装置
JP2003271200A (ja) * 2002-03-18 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法および音声合成装置
JP2004077918A (ja) * 2002-08-20 2004-03-11 Yamaha Corp 音声合成装置、方法及びプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5267204A (en) * 1975-12-01 1977-06-03 Nec Corp Element piece edit type voice composing unit
JPH0519779A (ja) * 1991-07-10 1993-01-29 Nippon Telegr & Teleph Corp <Ntt> 音声編集装置
JPH05108095A (ja) * 1991-10-19 1993-04-30 Ricoh Co Ltd 音声合成装置
JPH10171484A (ja) * 1996-12-10 1998-06-26 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JPH11133973A (ja) * 1997-10-31 1999-05-21 Kawai Musical Instr Mfg Co Ltd 楽音生成装置及び楽音生成方法
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
JP2002202790A (ja) * 2000-12-28 2002-07-19 Yamaha Corp 歌唱合成装置
JP2003271200A (ja) * 2002-03-18 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法および音声合成装置
JP2004077918A (ja) * 2002-08-20 2004-03-11 Yamaha Corp 音声合成装置、方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010160406A (ja) * 2009-01-09 2010-07-22 Yamaha Corp 音声合成装置、およびプログラム

Also Published As

Publication number Publication date
JP4526979B2 (ja) 2010-08-18

Similar Documents

Publication Publication Date Title
JP4680429B2 (ja) テキスト音声変換装置における高速読上げ制御方法
US20040073428A1 (en) Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2000075883A (ja) 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP4526979B2 (ja) 音声素片生成装置
JP2003108178A (ja) 音声合成装置及び音声合成用素片作成装置
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
JPH11119800A (ja) 音声符号化復号化方法及び音声符号化復号化装置
JP4651168B2 (ja) 合成音声出力装置およびその方法並びに記録媒体
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP7280605B2 (ja) 音声処理装置、および音声処理方法
JP6552146B1 (ja) 音声処理装置、および音声処理方法
JP3394281B2 (ja) 音声合成方式および規則合成装置
JP5089473B2 (ja) 音声合成装置及び音声合成方法
JP2002123280A (ja) 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
CN1210686C (zh) 语音发音速度调整方法
JP2679623B2 (ja) テキスト音声合成装置
JPH08160991A (ja) 音声素片作成方法および音声合成方法、装置
JP4630038B2 (ja) 音声波形データベース構築方法、この方法を実施する装置およびプログラム
JP3515268B2 (ja) 音声合成装置
JP2005121869A (ja) 音声変換関数抽出装置およびそれを用いた声質変換装置
JP3567477B2 (ja) 発声変形音声認識装置
JPH04125699A (ja) 残差駆動型音声合成装置
JPH0594199A (ja) 残差駆動型音声合成装置
JP2004206144A (ja) 基本周波数パタン生成方法、及びプログラム記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100602

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees