JP4367808B2

JP4367808B2 - 音声データ圧縮・解凍装置及び方法

Info

Publication number: JP4367808B2
Application number: JP34461599A
Authority: JP
Inventors: 智佳子松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-12-03
Filing date: 1999-12-03
Publication date: 2009-11-18
Anticipated expiration: 2019-12-03
Also published as: US6928408B1; JP2001166796A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成に使用される音声波形データからなる波形辞書データを圧縮して圧縮辞書を作成する圧縮装置及び圧縮されたデータを解凍する解凍装置に関する。
【０００２】
【従来の技術】
昨今の急速なコンピュータ技術の発達によって、従来特定分野に利用が限定されてきた音声合成技術が、様々な分野で適用できるようになってきた。それに伴い、音声合成において、さらなる高品質な音声による再生が求められるようになってきている。
【０００３】
高品質な音声合成を実現するためには、比較的大容量のデータである音の波形データを大量に準備しておく必要があり、ディスク等の記憶装置といった計算機資源を大量に消費することになる。したがって、かかる音の波形データを圧縮する方法については、様々な手法が考えられている。
【０００４】
例えば図１には、従来から良く用いられている圧縮・解凍装置の原理図を示している。図１において、１１は辞書データ入力部を、１２は辞書データ圧縮部を、１３は圧縮辞書データ保存部を、１４は音声辞書データベースを、１５は辞書データ解凍部を、１６は解凍波形データ出力部を、それぞれ示す。
【０００５】
図１では、辞書データは、波形データ１１１、音素ラベル１１２、ピッチ情報１１３とで構成されているが、かかる従来の圧縮・解凍装置においては波形データ１１１のみが圧縮・解凍の対象となっている。したがって、辞書データ圧縮部１２では入力された波形データ１１１について圧縮処理を行い、圧縮辞書データ保存部１３によって音声辞書データベース１４に保存される。
【０００６】
また、音声辞書データベース１４に保存されている圧縮された波形データについては、音声合成再生時に辞書データ解凍部１５において解凍され、解凍波形データ出力部１６において再生される。
【０００７】
【発明が解決しようとする課題】
しかし、かかる圧縮・解凍方法では、従来の波形データをそのまま圧縮対象としていることから、元になる辞書における波形データが音素単位ではなくコーパス単位であった場合等には、音声合成で用いる対象となる音素や音節がコーパス内のどの部分に相当するのか等の判断が困難であるとともに、コーパス単位で圧縮されたデータのすべてを解凍する必要があることから、解凍自体にも相当の時間を要し、リアルタイムで音声合成することが困難であるという問題点があった。
【０００８】
さらに、圧縮された音声波形データを解凍して音声合成する場合において、音声合成の立ち上がり部分でＳ／Ｎ比が悪くなることが多いために高品質で再生することが困難であるという問題点もあった。
【０００９】
本発明では、上記問題点を解消すべく、波形データにおける圧縮位置や解凍位置を是正して、音声合成のリアルタイム性を確保するとともに、高品質な音声合成を実現する音声データ圧縮・解凍装置及び方法を提供することを目的とする。
【００１０】
【課題を解決するための手段】
上記目的を達成するために本発明にかかる音声データ圧縮・解凍装置は、波形データを含む音声データを既存の音声波形辞書から抽出して入力する辞書データ入力部と、波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を設定する圧縮位置決定部と、設定した圧縮区間について波形データを圧縮する辞書データ圧縮部と、圧縮された波形データを解凍する辞書データ解凍部とを含み、圧縮された波形データの解凍結果の品質が最も高かった圧縮する開始点及び終了点で指定される圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる波形データとして圧縮された波形データと圧縮する開始点及び終了点をデータベースに登録することを特徴とする。
【００１１】
かかる構成により、波形データにおける圧縮位置を、任意に決めることができ、圧縮すべき波形データの容量を必要最小限に抑制することができることから、解凍時間を短縮することができ、音声合成時のリアルタイム性を確保することが可能となる。
【００１２】
また、本発明にかかる音声データ圧縮・解凍装置は、圧縮位置決定部において、波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を仮設定し、仮設定した圧縮区間について波形データを圧縮する辞書データ圧縮部と、圧縮された波形データを解凍する辞書データ解凍部と、解凍された波形データについてＳ／Ｎ比を計算するＳ／Ｎ比計算部とを含み、Ｓ／Ｎ比が最も高かった圧縮する開始点及び終了点で指定される圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる波形データとして圧縮された波形データをデータベースに登録することが好ましい。
【００１３】
かかる構成により、波形データにおける圧縮位置を、音声合成時のＳ／Ｎ比が高い位置で決定することができ、品質の高い音声合成を行うことが可能となるとともに、圧縮すべき波形データを必要最小限に抑制することができることから、解凍時間を短縮することができ、音声合成のリアルタイム性を確保することが可能となる。
【００１４】
また、本発明にかかる音声データ圧縮・解凍装置は、音声合成に用いる波形データとしてデータベースに登録された圧縮された波形データの前後で解凍する開始点及び終了点を設定する解凍位置決定部をさらに含み、辞書データ解凍部において、設定した解凍区間について波形データを解凍することが好ましい。波形データにおける解凍位置を任意に決めることができ、品質の高い音声合成を行うことが可能となるからである。
【００１５】
また、本発明にかかる音声データ圧縮・解凍装置は、圧縮位置決定部において、ピッチ単位で圧縮する開始点及び終了点を定めることが好ましい。さらに、本発明にかかる音声データ圧縮・解凍装置は、圧縮位置決定部において、フレーム単位で圧縮する開始点及び終了点を定めることが好ましい。圧縮する開始点及び終了点を容易に特定することができるからである。
【００１６】
次に、上記目的を達成するために本発明にかかる音声データ解凍装置は、データベースに保存されている上述した本発明にかかる音声データ圧縮・解凍装置によって圧縮された波形データを解凍することを特徴とする。
【００１７】
かかる構成により、圧縮された波形データを保存したデータベースを用いることで、母集団の大きな波形データを保持することが可能となり、その中からより適切な波形データを選択して解凍することができる。したがって、本発明にかかる音声データ解凍装置を用いることによって、より質の高い音声合成装置を構成することが可能となる。
【００１８】
次に、上記目的を達成するために本発明にかかる音声データ圧縮・解凍装置は、波形データを含む音声データを既存の音声波形辞書から抽出して入力する辞書データ入力部と、波形データの中で音声合成に用いる部分を特定し、その部分を含む圧縮位置を決定する圧縮位置決定部と、設定した圧縮区間について波形データを圧縮する辞書データ圧縮部と、圧縮された波形データの前後で解凍する開始点と終了点を設定する解凍位置決定部と、設定した解凍区間について圧縮された波形データを解凍する辞書データ解凍部とを含み、圧縮された波形データの解凍結果の品質が最も高かった解凍する開始点及び終了点で指定される解凍区間を解凍位置として確定し、音声合成に用いる波形データとして圧縮された波形データと解凍する開始点及び終了点をデータベースに登録することを特徴とする。
【００１９】
かかる構成により、波形データにおける解凍位置を任意に決めることができ、解凍すべき波形データの容量を必要最小限に抑制することができることから、解凍時間を短縮することができ、音声合成のリアルタイム性を確保することが可能となる。
【００２０】
次に、上記目的を達成するために本発明にかかる音声データ解凍装置は、データベースに保存されている上述した本発明にかかる音声データ圧縮・解凍装置によって解凍区間が確定した波形データを解凍することを特徴とする。
【００２１】
かかる構成により、圧縮された波形データを保存したデータベースを用いることで、母集団の大きな波形データを保持することが可能となり、その中からより適切な波形データを選択して解凍することができるとともに、より解凍品質の高い波形データを用いることができることから、本発明にかかる音声データ解凍装置を用いることによって、より質の高い音声合成装置を構成することが可能となる。
【００２２】
また、本発明にかかる音声データ圧縮・解凍装置は、解凍位置決定部において、圧縮された波形データの前後で解凍する開始点と終了点を仮設定し、仮設定した解凍区間について圧縮された波形データを解凍する辞書データ解凍部と、解凍された波形データについてＳ／Ｎ比を計算するＳ／Ｎ比計算部とを含み、Ｓ／Ｎ比が最も高かった解凍する開始点及び終了点で指定される解凍区間を解凍位置として確定することが好ましい。圧縮された波形データにおける解凍位置を、音声合成時のＳ／Ｎ比が高い位置で決定することができ、品質の高い音声合成を行うことが可能となるからである。
【００２３】
また、本発明にかかる音声データ圧縮・解凍装置は、解凍位置決定部において、ピッチ単位で解凍する開始点及び終了点を定めることが好ましい。さらに、本発明にかかる音声データ圧縮・解凍装置は、解凍位置決定部において、ビット詰めするバイト数と開始点から解凍する終了点を定めることが好ましい。圧縮された波形データを解凍する開始点及び終了点を容易に特定することができるからである。
【００２４】
次に、上記目的を達成するために本発明にかかる音声データ解凍方式は、データベースに保存されている上述した本発明にかかる音声データ圧縮・解凍装置によって圧縮された波形データを解凍することを特徴とする。
【００２５】
かかる構成により、圧縮された波形データを保存したデータベースを用いることで、母集団の大きな波形データを保持することが可能となり、その中からより適切な波形データを選択して解凍することができる。したがって、本発明にかかる音声データ解凍装置を用いることによって、より質の高い音声合成装置を構成することが可能となる。
【００２６】
次に、上記目的を達成するために本発明にかかる音声データ解凍方式は、データベースに保存されている上述した本発明にかかる音声データ圧縮・解凍装置によって解凍区間が確定された波形データを解凍することを特徴とする。
【００２７】
かかる構成により、圧縮された波形データを保存したデータベースを用いることで、母集団の大きな波形データを保持することが可能となり、その中からより適切な波形データを選択して解凍することができるとともに、より解凍品質の高い波形データを用いることができることから、本発明にかかる音声データ解凍装置を用いることによって、より質の高い音声合成装置を構成することが可能となる。
【００２８】
また、本発明は、上記のような音声データ圧縮・解凍装置の機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、波形データを含む音声データを既存の音声波形辞書から抽出して入力する工程と、波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を設定する工程と、設定した圧縮区間について波形データを圧縮する工程と、圧縮された波形データを解凍する工程とを含み、圧縮された波形データの解凍結果の品質が最も高かった圧縮する開始点及び終了点で指定される圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる波形データとして圧縮された波形データと圧縮する開始点及び終了点をデータベースに登録する方法並びにそのような工程をプログラムとして記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【００２９】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、波形データにおける圧縮位置を、任意に決めることができ、圧縮すべき波形データの容量を必要最小限に抑制することができることから、解凍時間を短縮することができ、音声合成のリアルタイム性を確保することができる音声データ圧縮・解凍装置を実現することが可能となる。
【００３０】
また、本発明は、上記のような音声データ圧縮・解凍装置の機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、波形データを含む音声データを既存の音声波形辞書から抽出して入力する工程と、波形データの中で音声合成に用いる部分を特定し、その部分を含む圧縮位置を決定する工程と、設定した圧縮区間について波形データを圧縮する工程と、圧縮された波形データの前後で解凍する開始点と終了点を設定する工程と、設定した解凍区間について圧縮された波形データを解凍する工程とを含み、圧縮された波形データの解凍結果の品質が最も高かった解凍する開始点及び終了点で指定される解凍区間を解凍位置として確定し、音声合成に用いる波形データとして圧縮された波形データと解凍する開始点及び終了点をデータベースに登録する方法並びにそのような工程をプログラムとして記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【００３１】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、母集団の大きな波形データの中からより適切な波形データを選択することができるので、より質の高い音声合成装置を実現することが可能となる。
【００３２】
【発明の実施の形態】
以下、本発明の実施の形態にかかる音声データ圧縮・解凍装置について、図面を参照しながら説明する。図２は本発明の実施の形態にかかる音声データ圧縮・解凍装置の原理構成図を示す。図２において、２１は圧縮辞書データ保存部を、２２は圧縮位置決定部を、２３は解凍位置決定部を、２４はＳ／Ｎ比計算部を、それぞれ示す。
【００３３】
まず、図２において、辞書データは図１の従来の場合と同様に波形データ１１１、音素ラベル１１２、ピッチ情報１１３とで構成されている。本実施の形態においては従来の圧縮・解凍装置と同様に、波形データ１１１のみが圧縮・解凍の対象となっている。しかし、波形データ１１１のすべてについて圧縮の対象とするのではなく、圧縮の対象となる区間、すなわち圧縮処理の開始点と終了点を設定し、当該区間のみを圧縮の対象とするものである。たがって、辞書データ圧縮部１２では入力された波形データ１１１のみならず、圧縮位置の決定に必要な情報として音素ラベル１１２、ピッチ情報１１３についても、圧縮辞書データ保存部２１によって音声辞書データベース１４に保存される。
【００３４】
上述した圧縮位置の決定方法としては、様々な方法が考えられる。まず、圧縮処理の開始点と終了点を変更しつつ解凍を行い、各々の場合に測定されるＳ／Ｎ比に基づいて音素や音節単位で最もＳ／Ｎ比の高かった区間を圧縮区間とする方法が考えられる。この場合、圧縮位置は一度では確定できず、圧縮位置決定部２２において、図３に示すような処理を行うことによって決定する。図３は本発明の実施の形態にかかる音声データ圧縮・解凍装置における波形データ圧縮時の概念説明図である。図３において、３１が圧縮の対象となる波形データを、３２が圧縮の対象となる波形データの前後に有する付加データを、それぞれ示す。
【００３５】
まず図３では、元の波形データ全体を示す（ａ）において、音声合成に用いる波形データ３１の開始点３３及び終了点３４を定める。そして、圧縮の対象となる波形データ３１をそのまま圧縮したのでは、解凍時に音声の立ち上がり部分においてＳ／Ｎ比を高く維持することが困難であることから、圧縮の対象となる波形データ３１の前後において圧縮時の開始点及び終了点を仮に設定する。すなわち、適当なデータ長を有する付随データ３２を音声合成に用いる波形データ３１の前後に含めて、圧縮の開始点３５及び圧縮の終了点３６を仮設定することになる。なお、かかる付随データ３２のデータ長を定める単位としては、フレーム単位であっても良いし、コーパス等のサンプル単位やピッチ単位であっても良い。
【００３６】
そして、（ｂ）に示すように付随データ３２も含めて波形データ３１を圧縮してから、辞書データ解凍部１５で（ｃ）に示すように波形データ３１を解凍する。解凍された波形データ３１は、付随データ３２の先端部においてはノイズの影響でＳ／Ｎ比が低いが、音声合成に用いる部分の波形データ３１についてはＳ／Ｎ比を高く維持した状態で取得することができる。したがって、音声合成に用いる部分の波形データ区間３７を残して付随データ３２を削除することで、Ｓ／Ｎ比の高い解凍波形データを得ることが可能となる。
【００３７】
そして、解凍位置決定部２３では、得られた解凍波形データにおける音声合成に用いる部分と解凍する区間の開始点及び終了点を一致させるとともに、解凍波形データと元の波形データとのＳ／Ｎ比をＳ／Ｎ比計算部２４で算出して、圧縮位置決定部２２へその計算結果を送る。
【００３８】
圧縮位置決定部２２では、上述したような処理を圧縮時の開始点と終了点を変更しながら繰り返しＳ／Ｎ比の計算結果を取得し、Ｓ／Ｎ比の計算結果のうちで最もＳ／Ｎ比の高い圧縮位置を求め、圧縮位置情報１４４として保存する。
【００３９】
また、フレーム単位で圧縮区間の終了点を決定する方法も考えられる。この場合、圧縮位置決定部２２では、辞書データ圧縮部１２におけるフレームの単位に基づいて圧縮区間の終了点を決定する。
【００４０】
さらに、元データから無音区間を取り除いて有音区間だけとし、有音区間を圧縮区間とする方法も考えられる。この場合、圧縮位置決定部２２では、音素ラベル１１２とピッチ情報１１３から無音区間を抽出・削除し、有音区間を圧縮区間として決定する。
【００４１】
また、圧縮位置の仮設定処理を排するため、元の波形データの単位そのもの、例えばコーパス単位で波形データが取得されている場合にはコーパス単位で圧縮する方法や、等間隔で波形データを区切る方法、あるいは辞書データの音素ラベル１１２とピッチ情報１１３に基づいて、数ピッチ前を圧縮区間の開始点とする方法等も考えられる。
【００４２】
これらの方法においては、圧縮位置決定部２２において一度で圧縮位置を決定することができることから、圧縮位置決定部２２で決定された圧縮位置の開始点及び終了点を圧縮波形データ１４１として音声辞書データベース１４に保存する。
【００４３】
そして、音声合成に用いる波形データが圧縮された波形データの一部分である場合には、解凍位置決定部２３において解凍時の区間を決定して、解凍位置情報１４５に保存しておく。
【００４４】
ここで、解凍位置の決定方法には大きく３つの方法が考えられる。一つには、解凍区間の開始点と終了点を変更しつつ解凍を行い、各々の場合に測定されるＳ／Ｎ比に基づいて音素や音節単位で最もＳ／Ｎ比の高かった区間を解凍区間とする方法、あるいは音素ラベルとピッチ情報から、自動的に解凍時の開始点を数ピッチ前に設定する方法、さらに解凍結果より判明するビット詰めするバイト数と開始点に基づいて、解凍区間の終了点を自動的に計算して解凍区間とする方法である。
【００４５】
まず、解凍区間の開始点と終了点を変更しつつ解凍を行い、各々の場合に測定されるＳ／Ｎ比に基づいて音素や音節単位で最もＳ／Ｎ比の高かった区間を解凍区間とする方法の場合には、解凍位置は一度では確定できず、解凍位置決定部２３において、図４に示すような処理を行うことによって決定する。図４は本発明の実施の形態にかかる音声データ圧縮・解凍装置における波形データ解凍時の概念説明図である。図４において、４１が圧縮の対象となる波形データを、４２が圧縮された波形データの前後に有する付加データを、それぞれ示す。
【００４６】
図４において、音声合成に用いるべき波形データは、図４（ｂ）に示すような圧縮された状態で音声辞書データベース１４に登録されている。かかる圧縮された波形データをそのまま解凍すれば、元の波形データ全体を示す図４（ａ）のようになる。したがって、音声合成に用いる波形データ４１の開始点４３及び終了点４４では、解凍時にＳ／Ｎ比が低くなる蓋然性が高い。
【００４７】
そこで、解凍時に音声合成に用いる波形データにノイズを拾わせないために、圧縮されている波形データ４８の前後に適当なデータ長を有する付加データ４２を付加し、解凍の開始点４５及び解凍の終了点４６を仮に設定する。かかる付加データのデータ長を定める単位としては、フレーム単位であっても良いし、コーパス等のサンプル単位やピッチ単位であっても良い。
【００４８】
そして、辞書データ解凍部１５で、図４（ｃ）に示すように圧縮データ４９を解凍する。解凍された波形データ４７については、付加データ４２の先端部においてはノイズの影響でＳ／Ｎ比が低いが、音声合成に用いる波形データ４７についてはＳ／Ｎ比を高く維持した状態で取得することができる。したがって、音声合成に用いる波形データ区間４７を残して付加データを削除することで、解凍波形データを得ることが可能となる。
【００４９】
そして、解凍位置決定部２３では、得られた解凍波形データにおける音声合成に用いる部分と解凍する区間の開始点及び終了点を一致させるとともに、解凍波形データと元の波形データとのＳ／Ｎ比をＳ／Ｎ比計算部２４で算出して、解凍位置決定部２３へその計算結果を送る。
【００５０】
解凍位置決定部２３では、解凍時の開始点と終了点を変更しながらＳ／Ｎ比の計算結果を取得し、最もＳ／Ｎ比の高い解凍位置を求めることで、解凍位置情報として保存する。
【００５１】
また、音素ラベルとピッチ情報から、自動的に解凍時の開始点を数ピッチ前に設定する方法の場合には、解凍位置決定部２３において解凍位置を一度で確定することができる。
【００５２】
さらには、圧縮結果をビット詰めするバイト数と開始点から終了点を自動的に計算して解凍区間とする方法の場合には、解凍位置決定部２３において、解凍時のビット詰めするバイト数と開始点から、終了時点を自動的に算出するものであり、求められた区間を解凍区間として解凍位置情報として保存する。
【００５３】
また、音声辞書データベース１４に保存されている圧縮された波形データについては、音声合成再生時に辞書データ解凍部１５において解凍され、解凍波形データ出力部１６において再生される。すなわち、図５に示すように、音声合成部５１を配することで、音節ごとに合成音声による再生が可能となる。
【００５４】
より具体的には、以下のようになる。図６は本発明の一実施例にかかる音声データ圧縮・解凍装置の構成図である。まず、圧縮位置決定部２２及び解凍位置決定部２３は図６に示すように構成されている。すなわち、圧縮位置決定部２２において、２２１は無音区間削除部を、２２２は有音区間波形生成部を、２２３は圧縮区間設定部を、それぞれ示す。また、解凍位置決定部２３において、２３１は音節抽出部を、２３２は音節波形区間抽出部を、２３３は解凍区間設定部を、２３４は解凍区間・Ｓ／Ｎ比保存部を、それぞれ示す。
【００５５】
まず、「私は犬を飼っています。」というコーパスの波形データが音声辞書データベース１４に保存されているものとすると、無音区間削除部２２１において音素ラベル１１２及びピッチ情報１１３に基づいて波形データ１１１の無音区間を抽出して、削除する。そして、有音区間波形生成部２２２において、有音部のみからなる波形を生成し、波形データ１１１として保存する。
【００５６】
圧縮区間設定部２２３では、コーパスの最初から最後までの有音区間全部を指定し、その開始点と終了点を圧縮位置情報１４４に保存する。そして、「私は犬を飼っています。」というコーパス内の有音部分の波形データを圧縮し、結果を圧縮波形データ１４１に保存する。
【００５７】
辞書データ圧縮部１２では、「私は犬を飼っています。」というコーパス内の有音部分の波形データを圧縮して、結果を圧縮波形データ１４１に保存する。保存されている圧縮された波形データに関する新たな音素ラベル及びピッチ情報についても、音素ラベル１４２、ピッチ情報１４３として音声辞書データベース１４に保存される。
【００５８】
また、解凍区間を設定する際には、音素抽出部２３１で「私は犬を飼っています。」というコーパス内の音節部を抽出する。すなわち、「私は」、「犬を」、「飼って」、「います」という４つの音節部が抽出される。
【００５９】
そして、抽出された各音節について、音節波形区間抽出部２３２において、各音節ごとの圧縮前の波形データ１１１における開始位置と終了位置を検出する。解凍区間設定部２３３では、圧縮波形データ１４１における開始位置と終了位置を、各音節ごとの圧縮前の波形データ１１１における開始位置と終了位置に基づいて仮設定する。
【００６０】
設定方法としては、種々の方法が考えられるが、例えば解凍時の開始位置又は終了位置を、必要とされる圧縮前の波形データ１１１における開始位置又は終了位置の１から数フレーム前後にする方法や、解凍時の開始位置又は終了位置を、必要とされる圧縮前の波形データ１１１における開始位置又は終了位置の１から数サンプル前後にする方法、あるいは解凍時の開始位置又は終了位置を、必要とされる圧縮前の波形データ１１１における開始位置又は終了位置の１から数ピッチ前後にする方法等が考えられる。
【００６１】
辞書データ解凍部１５では、解凍区間設定部２３３で仮設定された解凍区間について実際に解凍し、Ｓ／Ｎ比計算部２４でＳ／Ｎ比を計算して、解凍区間・Ｓ／Ｎ比保存部２３４に保存される。そして、解凍区間・Ｓ／Ｎ比保存部２３４に保存されているデータの中で最もＳ／Ｎ比の高い区間データを解凍区間として、当該区間データの開始位置及び終了位置を解凍位置保存部１４５に保存する。
【００６２】
実際の解凍時には、解凍したい対象となる音節が入力されると、辞書データ解凍部１５においては、解凍位置保存部１４５に保存されている区間データに基づいて解凍を行う。そして、解凍された波形データについては、必要な部分だけカットして使用される。
【００６３】
また、図７は本発明の他の実施例にかかる音声データ圧縮・解凍装置の構成図である。図６とは圧縮位置決定部２２の構成を除いて同一の構成である。したがって、解凍位置決定部２３についての詳細な記述は省略している。圧縮位置決定部２２において、２２４は音節抽出部を、２２５は圧縮区間・Ｓ／Ｎ比保存部を、それぞれ示す。
【００６４】
図６の場合と同様に、「私は犬を飼っています。」というコーパスの波形データが音声辞書データベース１４に保存されているものとすると、無音区間削除部２２１において音素ラベル１１２及びピッチ情報１１３に基づいて波形データ１１１の無音区間を抽出して、削除する。そして、有音区間波形生成部２２２において、有音部のみからなる波形を生成し、波形データ１１１として保存する。
【００６５】
音節抽出部２２４では、「私は犬を飼っています。」というコーパス内の音節部を抽出する。すなわち、「私は」、「犬を」、「飼って」、「います」という４つの音節部が抽出される。
【００６６】
圧縮区間設定部２２３では、抽出された各音節、例えば「犬を」における圧縮前の波形データの開始位置と終了位置の前後に図３に示すように付加データを付加して、圧縮区間を仮に設定し、当該圧縮区間内のデータについて辞書データ圧縮部１２によって圧縮する。圧縮する方法については、前述の通りである。
【００６７】
圧縮されたデータは、一旦辞書データ解凍部１５によって解凍され、解凍波形データ出力部１６によって出力される解凍された波形データと、圧縮前の波形データ１１１とのＳ／Ｎ比をＳ／Ｎ比計算部２４で計算し、圧縮区間・Ｓ／Ｎ比保存部２２５に圧縮区間の開始点及び終了点とともに保存される。
【００６８】
そして、圧縮区間・Ｓ／Ｎ比保存部２２５に保存されているデータのうち、最もＳ／Ｎ比の高い区間データを解凍区間として、当該区間データの開始位置及び終了位置を解凍位置保存部１４５に保存する。
【００６９】
実際の解凍時には、解凍したい対象となる音節が入力されると、辞書データ解凍部１５においては、解凍位置保存部１４５に保存されている区間データに基づいて解凍を行う。そして、解凍された波形データについては、必要な部分だけカットして使用される。
【００７０】
以上のように本実施の形態によれば、波形データにおける圧縮位置や解凍位置を、音声合成時のＳ／Ｎ比が高くなる位置でもって決定することができ、品質の高い音声合成を行うことが可能となる。
【００７１】
また、圧縮すべき波形データの容量を必要最小限に抑制することができるので、解凍時間を短縮することができ、音声合成のリアルタイム性を確保することも可能となる。
【００７２】
次に、本発明の実施の形態にかかる音声データ圧縮・解凍装置を実現するプログラムの処理の流れについて説明する。図８に本発明の実施の形態にかかる音声データ圧縮・解凍装置を実現するプログラムの処理の流れ図を示す。
【００７３】
図８において、波形データを既存の音声波形辞書等から抽出して入力すると（ステップＳ８１）、当該波形データの中で音声合成に使用する部分を特定し、その前後で圧縮する開始点及び終了点を仮設定する（ステップＳ８２）。
【００７４】
次に、仮設定した圧縮区間について圧縮及び解凍を行う（ステップＳ８３）。解凍された波形データの品質が高ければ（ステップＳ８４：Ｙｅｓ）、仮設定した圧縮区間を圧縮・解凍位置として確定し（ステップＳ８５）、音声合成に用いる波形データとしてデータベースに登録する（ステップＳ８６）。解凍された波形データの品質が高くなければ（ステップＳ８４：Ｎｏ）、圧縮位置を再度仮設定して（ステップＳ８７）、上述した処理を繰り返す。
【００７５】
本発明の実施の形態にかかる音声データ圧縮・解凍装置を実現するプログラムを記憶した記録媒体は、図９に示す記録媒体の例に示すように、ＣＤ−ＲＯＭ９２−１やフロッピーディスク９２−２等の可搬型記録媒体９２だけでなく、通信回線の先に備えられた他の記憶装置９１や、コンピュータ９３のハードディスクやＲＡＭ等の記録媒体９４のいずれでも良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【００７６】
また、本発明の実施の形態にかかる音声データ圧縮・解凍装置により生成された圧縮データ等を記録した記録媒体も、図９に示す記録媒体の例に示すように、ＣＤ−ＲＯＭ９２−１やフロッピーディスク９２−２等の可搬型記録媒体９２だけでなく、通信回線の先に備えられた他の記憶装置９１や、コンピュータ９３のハードディスクやＲＡＭ等の記録媒体９４のいずれでも良く、例えば本発明にかかる音声データ圧縮・解凍装置を利用する際にコンピュータにより読み取られる。
【００７７】
【発明の効果】
以上のように本発明にかかる音声データ圧縮・解凍装置によれば、波形データにおける圧縮位置や解凍位置を、音声合成時のＳ／Ｎ比が高い位置で決定することができ、品質の高い音声合成を行うことが可能となる。
【００７８】
また本発明にかかる音声データ圧縮・解凍装置によれば、圧縮すべき波形データの容量を必要最小限に抑制することができるので、解凍時間を短縮することができ、音声合成のリアルタイム性を確保することが可能となる。
【図面の簡単な説明】
【図１】従来の音声データ圧縮・解凍装置の構成図
【図２】本発明の実施の形態にかかる音声データ圧縮・解凍装置の構成図
【図３】本発明の他の実施例にかかる音声データ圧縮・解凍装置の構成図
【図４】本発明の他の実施例にかかる音声データ圧縮・解凍装置の構成図
【図５】本発明の実施の形態にかかる音声データ圧縮・解凍装置における音声合成の構成図
【図６】本発明の一実施例にかかる音声データ圧縮・解凍装置の構成図
【図７】本発明の他の実施例にかかる音声データ圧縮・解凍装置の構成図
【図８】本発明の実施の形態にかかる音声データ圧縮・解凍装置における処理の流れ図
【図９】記録媒体の例示図
【符号の説明】
１１辞書データ入力部
１２辞書データ圧縮部
１３、２１圧縮辞書データ保存部
１４音声辞書データベース
１５辞書データ解凍部
１６解凍波形データ出力部
２２圧縮位置決定部
２３解凍位置決定部
２４Ｓ／Ｎ比計算部
５１音声合成部
９１回線先の記憶装置
９２ＣＤ−ＲＯＭやフロッピーディスク等の可搬型記録媒体
９２−１ＣＤ−ＲＯＭ
９２−２フロッピーディスク
９３コンピュータ
９４コンピュータ上のＲＡＭ／ハードディスク等の記録媒体
１１１波形データ
１１２、１４２音素ラベル
１１３、１４３ピッチ情報
１４１圧縮波形データ
１４４圧縮位置情報
１４５解凍位置情報
２２１無音区間削除部
２２２有音区間波形生成部
２２３圧縮区間設定部
２２４、２３１音節抽出部
２２５圧縮区間・Ｓ／Ｎ比保存部
２３２音節波形区間抽出部
２３３解凍区間設定部
２３４解凍区間・Ｓ／Ｎ比保存部

Claims

波形データを含む音声データを既存の音声波形辞書から抽出して入力する辞書データ入力部と、
前記波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を設定する圧縮位置決定部と、
設定した圧縮区間について前記波形データを圧縮する辞書データ圧縮部と、
圧縮された前記波形データを解凍する辞書データ解凍部とを含み、
圧縮された前記波形データの解凍結果の品質が最も高かった前記圧縮する開始点及び終了点で指定される前記圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記圧縮する開始点及び終了点をデータベースに登録することを特徴とした音声データ圧縮・解凍装置。
前記圧縮位置決定部において、前記波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を仮設定し、
仮設定した圧縮区間について前記波形データを圧縮する辞書データ圧縮部と、
圧縮された前記波形データを解凍する辞書データ解凍部と、
解凍された前記波形データについてＳ／Ｎ比を計算するＳ／Ｎ比計算部とを含み、
前記Ｓ／Ｎ比が最も高かった前記圧縮する開始点及び終了点で指定される前記圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データをデータベースに登録する請求項１記載の音声データ圧縮・解凍装置。
音声合成に用いる前記波形データとしてデータベースに登録された圧縮された前記波形データの前後で解凍する開始点及び終了点を設定する解凍位置決定部をさらに含み、
前記辞書データ解凍部において、設定した解凍区間について前記波形データを解凍する請求項１記載の音声データ圧縮・解凍装置。
前記圧縮位置決定部において、ピッチ単位で圧縮する開始点及び終了点を定める請求項１記載の音声データ圧縮・解凍装置。
前記圧縮位置決定部において、フレーム単位で圧縮する開始点及び終了点を定める請求項１記載の音声データ圧縮・解凍装置。
請求項１又は５記載の装置にて前記データベースに登録された前記圧縮された波形データを、前記データベースに登録された前記圧縮する開始点及び終了点に基づいて解凍することを特徴とする音声データ解凍装置。
波形データを含む音声データを既存の音声波形辞書から抽出して入力する辞書データ入力部と、
前記波形データの中で音声合成に用いる部分を特定し、その部分を含む圧縮位置を決定する圧縮位置決定部と、
設定した圧縮区間について前記波形データを圧縮する辞書データ圧縮部と、
圧縮された前記波形データの前後で解凍する開始点と終了点を設定する解凍位置決定部と、
設定した解凍区間について圧縮された前記波形データを解凍する辞書データ解凍部とを含み、
圧縮された前記波形データの解凍結果の品質が最も高かった前記解凍する開始点及び終了点で指定される前記解凍区間を解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記解凍する開始点及び終了点をデータベースに登録することを特徴とした音声データ圧縮・解凍装置。
請求項７記載の装置にて前記データベースに登録された前記圧縮された波形データを、前記データベースに登録された前記解凍する開始点及び終了点に基づいて解凍することを特徴とする音声データ解凍装置。
前記解凍位置決定部において、圧縮された前記波形データの前後で解凍する開始点と終了点を仮設定し、
仮設定した解凍区間について圧縮された前記波形データを解凍する辞書データ解凍部と、
解凍された前記波形データについてＳ／Ｎ比を計算するＳ／Ｎ比計算部とを含み、
前記Ｓ／Ｎ比が最も高かった前記解凍する開始点及び終了点で指定される前記解凍区間を解凍位置として確定する請求項７記載の音声データ圧縮・解凍装置。
前記解凍位置決定部において、ピッチ単位で解凍する開始点及び終了点を定める請求項７記載の音声データ圧縮・解凍装置。
前記解凍位置決定部において、ビット詰めするバイト数と開始点から解凍する終了点を定める請求項７記載の音声データ圧縮・解凍装置。
波形データを含む音声データを既存の音声波形辞書から抽出して入力する工程と、
前記波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を設定する工程と、
設定した圧縮区間について前記波形データを圧縮する工程と、
圧縮された前記波形データを解凍する工程とを含み、
圧縮された前記波形データの解凍結果の品質が最も高かった前記圧縮する開始点及び終了点で指定される前記圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記圧縮する開始点及び終了点をデータベースに登録することを特徴とする音声データ圧縮・解凍方法。
波形データを含む音声データを既存の音声波形辞書から抽出して入力する工程と、
前記波形データの中で音声合成に用いる部分を特定し、その部分を含む圧縮位置を決定する工程と、
設定した圧縮区間について前記波形データを圧縮する工程と、
圧縮された前記波形データの前後で解凍する開始点と終了点を設定する工程と、
設定した解凍区間について圧縮された前記波形データを解凍する工程とを含み、
圧縮された前記波形データの解凍結果の品質が最も高かった前記解凍する開始点及び終了点で指定される前記解凍区間を解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記解凍する開始点及び終了点をデータベースに登録することを特徴とする音声データ圧縮・解凍方法。
請求項１２記載の方法にて前記データベースに登録された前記圧縮された波形データを、前記データベースに登録された前記圧縮する開始点及び終了点に基づいて解凍することを特徴とする音声データ解凍方法。
請求項１３記載の方法にて前記データベースに登録された前記圧縮された波形データを、前記データベースに登録された前記解凍する開始点及び終了点に基づいて解凍することを特徴とする音声データ解凍方法。
波形データを含む音声データを既存の音声波形辞書から抽出して入力するステップと、
前記波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を設定するステップと、
設定した圧縮区間について前記波形データを圧縮するステップと、
圧縮された前記波形データを解凍するステップとを含み、
圧縮された前記波形データの解凍結果の品質が最も高かった前記圧縮する開始点及び終了点で指定される前記圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記圧縮する開始点及び終了点をデータベースに登録することを特徴とするコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
波形データを含む音声データを既存の音声波形辞書から抽出して入力するステップと、
前記波形データの中で音声合成に用いる部分を特定し、その部分を含む圧縮位置を決定するステップと、
設定した圧縮区間について前記波形データを圧縮するステップと、
圧縮された前記波形データの前後で解凍する開始点と終了点を設定するステップと、
設定した解凍区間について圧縮された前記波形データを解凍するステップとを含み、
圧縮された前記波形データの解凍結果の品質が最も高かった前記解凍する開始点及び終了点で指定される前記解凍区間を解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記解凍する開始点及び終了点をデータベースに登録することを特徴とするコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。