JP4367808B2 - 音声データ圧縮・解凍装置及び方法 - Google Patents

音声データ圧縮・解凍装置及び方法 Download PDF

Info

Publication number
JP4367808B2
JP4367808B2 JP34461599A JP34461599A JP4367808B2 JP 4367808 B2 JP4367808 B2 JP 4367808B2 JP 34461599 A JP34461599 A JP 34461599A JP 34461599 A JP34461599 A JP 34461599A JP 4367808 B2 JP4367808 B2 JP 4367808B2
Authority
JP
Japan
Prior art keywords
decompression
waveform data
compression
data
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP34461599A
Other languages
English (en)
Other versions
JP2001166796A (ja
Inventor
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP34461599A priority Critical patent/JP4367808B2/ja
Priority to US09/722,522 priority patent/US6928408B1/en
Publication of JP2001166796A publication Critical patent/JP2001166796A/ja
Application granted granted Critical
Publication of JP4367808B2 publication Critical patent/JP4367808B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成に使用される音声波形データからなる波形辞書データを圧縮して圧縮辞書を作成する圧縮装置及び圧縮されたデータを解凍する解凍装置に関する。
【0002】
【従来の技術】
昨今の急速なコンピュータ技術の発達によって、従来特定分野に利用が限定されてきた音声合成技術が、様々な分野で適用できるようになってきた。それに伴い、音声合成において、さらなる高品質な音声による再生が求められるようになってきている。
【0003】
高品質な音声合成を実現するためには、比較的大容量のデータである音の波形データを大量に準備しておく必要があり、ディスク等の記憶装置といった計算機資源を大量に消費することになる。したがって、かかる音の波形データを圧縮する方法については、様々な手法が考えられている。
【0004】
例えば図1には、従来から良く用いられている圧縮・解凍装置の原理図を示している。図1において、11は辞書データ入力部を、12は辞書データ圧縮部を、13は圧縮辞書データ保存部を、14は音声辞書データベースを、15は辞書データ解凍部を、16は解凍波形データ出力部を、それぞれ示す。
【0005】
図1では、辞書データは、波形データ111、音素ラベル112、ピッチ情報113とで構成されているが、かかる従来の圧縮・解凍装置においては波形データ111のみが圧縮・解凍の対象となっている。したがって、辞書データ圧縮部12では入力された波形データ111について圧縮処理を行い、圧縮辞書データ保存部13によって音声辞書データベース14に保存される。
【0006】
また、音声辞書データベース14に保存されている圧縮された波形データについては、音声合成再生時に辞書データ解凍部15において解凍され、解凍波形データ出力部16において再生される。
【0007】
【発明が解決しようとする課題】
しかし、かかる圧縮・解凍方法では、従来の波形データをそのまま圧縮対象としていることから、元になる辞書における波形データが音素単位ではなくコーパス単位であった場合等には、音声合成で用いる対象となる音素や音節がコーパス内のどの部分に相当するのか等の判断が困難であるとともに、コーパス単位で圧縮されたデータのすべてを解凍する必要があることから、解凍自体にも相当の時間を要し、リアルタイムで音声合成することが困難であるという問題点があった。
【0008】
さらに、圧縮された音声波形データを解凍して音声合成する場合において、音声合成の立ち上がり部分でS/N比が悪くなることが多いために高品質で再生することが困難であるという問題点もあった。
【0009】
本発明では、上記問題点を解消すべく、波形データにおける圧縮位置や解凍位置を是正して、音声合成のリアルタイム性を確保するとともに、高品質な音声合成を実現する音声データ圧縮・解凍装置及び方法を提供することを目的とする。
【0010】
【課題を解決するための手段】
上記目的を達成するために本発明にかかる音声データ圧縮・解凍装置は、波形データを含む音声データを既存の音声波形辞書から抽出して入力する辞書データ入力部と、波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を設定する圧縮位置決定部と、設定した圧縮区間について波形データを圧縮する辞書データ圧縮部と、圧縮された波形データを解凍する辞書データ解凍部とを含み、圧縮された波形データの解凍結果の品質が最も高かった圧縮する開始点及び終了点で指定される圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる波形データとして圧縮された波形データと圧縮する開始点及び終了点をデータベースに登録することを特徴とする。
【0011】
かかる構成により、波形データにおける圧縮位置を、任意に決めることができ、圧縮すべき波形データの容量を必要最小限に抑制することができることから、解凍時間を短縮することができ、音声合成時のリアルタイム性を確保することが可能となる。
【0012】
また、本発明にかかる音声データ圧縮・解凍装置は、圧縮位置決定部において、波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を仮設定し、仮設定した圧縮区間について波形データを圧縮する辞書データ圧縮部と、圧縮された波形データを解凍する辞書データ解凍部と、解凍された波形データについてS/N比を計算するS/N比計算部とを含み、S/N比が最も高かった圧縮する開始点及び終了点で指定される圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる波形データとして圧縮された波形データをデータベースに登録することが好ましい。
【0013】
かかる構成により、波形データにおける圧縮位置を、音声合成時のS/N比が高い位置で決定することができ、品質の高い音声合成を行うことが可能となるとともに、圧縮すべき波形データを必要最小限に抑制することができることから、解凍時間を短縮することができ、音声合成のリアルタイム性を確保することが可能となる。
【0014】
また、本発明にかかる音声データ圧縮・解凍装置は、音声合成に用いる波形データとしてデータベースに登録された圧縮された波形データの前後で解凍する開始点及び終了点を設定する解凍位置決定部をさらに含み、辞書データ解凍部において、設定した解凍区間について波形データを解凍することが好ましい。波形データにおける解凍位置を任意に決めることができ、品質の高い音声合成を行うことが可能となるからである。
【0015】
また、本発明にかかる音声データ圧縮・解凍装置は、圧縮位置決定部において、ピッチ単位で圧縮する開始点及び終了点を定めることが好ましい。さらに、本発明にかかる音声データ圧縮・解凍装置は、圧縮位置決定部において、フレーム単位で圧縮する開始点及び終了点を定めることが好ましい。圧縮する開始点及び終了点を容易に特定することができるからである。
【0016】
次に、上記目的を達成するために本発明にかかる音声データ解凍装置は、データベースに保存されている上述した本発明にかかる音声データ圧縮・解凍装置によって圧縮された波形データを解凍することを特徴とする。
【0017】
かかる構成により、圧縮された波形データを保存したデータベースを用いることで、母集団の大きな波形データを保持することが可能となり、その中からより適切な波形データを選択して解凍することができる。したがって、本発明にかかる音声データ解凍装置を用いることによって、より質の高い音声合成装置を構成することが可能となる。
【0018】
次に、上記目的を達成するために本発明にかかる音声データ圧縮・解凍装置は、波形データを含む音声データを既存の音声波形辞書から抽出して入力する辞書データ入力部と、波形データの中で音声合成に用いる部分を特定し、その部分を含む圧縮位置を決定する圧縮位置決定部と、設定した圧縮区間について波形データを圧縮する辞書データ圧縮部と、圧縮された波形データの前後で解凍する開始点と終了点を設定する解凍位置決定部と、設定した解凍区間について圧縮された波形データを解凍する辞書データ解凍部とを含み、圧縮された波形データの解凍結果の品質が最も高かった解凍する開始点及び終了点で指定される解凍区間を解凍位置として確定し、音声合成に用いる波形データとして圧縮された波形データと解凍する開始点及び終了点をデータベースに登録することを特徴とする。
【0019】
かかる構成により、波形データにおける解凍位置を任意に決めることができ、解凍すべき波形データの容量を必要最小限に抑制することができることから、解凍時間を短縮することができ、音声合成のリアルタイム性を確保することが可能となる。
【0020】
次に、上記目的を達成するために本発明にかかる音声データ解凍装置は、データベースに保存されている上述した本発明にかかる音声データ圧縮・解凍装置によって解凍区間が確定した波形データを解凍することを特徴とする。
【0021】
かかる構成により、圧縮された波形データを保存したデータベースを用いることで、母集団の大きな波形データを保持することが可能となり、その中からより適切な波形データを選択して解凍することができるとともに、より解凍品質の高い波形データを用いることができることから、本発明にかかる音声データ解凍装置を用いることによって、より質の高い音声合成装置を構成することが可能となる。
【0022】
また、本発明にかかる音声データ圧縮・解凍装置は、解凍位置決定部において、圧縮された波形データの前後で解凍する開始点と終了点を仮設定し、仮設定した解凍区間について圧縮された波形データを解凍する辞書データ解凍部と、解凍された波形データについてS/N比を計算するS/N比計算部とを含み、S/N比が最も高かった解凍する開始点及び終了点で指定される解凍区間を解凍位置として確定することが好ましい。圧縮された波形データにおける解凍位置を、音声合成時のS/N比が高い位置で決定することができ、品質の高い音声合成を行うことが可能となるからである。
【0023】
また、本発明にかかる音声データ圧縮・解凍装置は、解凍位置決定部において、ピッチ単位で解凍する開始点及び終了点を定めることが好ましい。さらに、本発明にかかる音声データ圧縮・解凍装置は、解凍位置決定部において、ビット詰めするバイト数と開始点から解凍する終了点を定めることが好ましい。圧縮された波形データを解凍する開始点及び終了点を容易に特定することができるからである。
【0024】
次に、上記目的を達成するために本発明にかかる音声データ解凍方式は、データベースに保存されている上述した本発明にかかる音声データ圧縮・解凍装置によって圧縮された波形データを解凍することを特徴とする。
【0025】
かかる構成により、圧縮された波形データを保存したデータベースを用いることで、母集団の大きな波形データを保持することが可能となり、その中からより適切な波形データを選択して解凍することができる。したがって、本発明にかかる音声データ解凍装置を用いることによって、より質の高い音声合成装置を構成することが可能となる。
【0026】
次に、上記目的を達成するために本発明にかかる音声データ解凍方式は、データベースに保存されている上述した本発明にかかる音声データ圧縮・解凍装置によって解凍区間が確定された波形データを解凍することを特徴とする。
【0027】
かかる構成により、圧縮された波形データを保存したデータベースを用いることで、母集団の大きな波形データを保持することが可能となり、その中からより適切な波形データを選択して解凍することができるとともに、より解凍品質の高い波形データを用いることができることから、本発明にかかる音声データ解凍装置を用いることによって、より質の高い音声合成装置を構成することが可能となる。
【0028】
また、本発明は、上記のような音声データ圧縮・解凍装置の機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、波形データを含む音声データを既存の音声波形辞書から抽出して入力する工程と、波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を設定する工程と、設定した圧縮区間について波形データを圧縮する工程と、圧縮された波形データを解凍する工程とを含み、圧縮された波形データの解凍結果の品質が最も高かった圧縮する開始点及び終了点で指定される圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる波形データとして圧縮された波形データと圧縮する開始点及び終了点をデータベースに登録する方法並びにそのような工程をプログラムとして記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【0029】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、波形データにおける圧縮位置を、任意に決めることができ、圧縮すべき波形データの容量を必要最小限に抑制することができることから、解凍時間を短縮することができ、音声合成のリアルタイム性を確保することができる音声データ圧縮・解凍装置を実現することが可能となる。
【0030】
また、本発明は、上記のような音声データ圧縮・解凍装置の機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、波形データを含む音声データを既存の音声波形辞書から抽出して入力する工程と、波形データの中で音声合成に用いる部分を特定し、その部分を含む圧縮位置を決定する工程と、設定した圧縮区間について波形データを圧縮する工程と、圧縮された波形データの前後で解凍する開始点と終了点を設定する工程と、設定した解凍区間について圧縮された波形データを解凍する工程とを含み、圧縮された波形データの解凍結果の品質が最も高かった解凍する開始点及び終了点で指定される解凍区間を解凍位置として確定し、音声合成に用いる波形データとして圧縮された波形データと解凍する開始点及び終了点をデータベースに登録する方法並びにそのような工程をプログラムとして記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【0031】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、母集団の大きな波形データの中からより適切な波形データを選択することができるので、より質の高い音声合成装置を実現することが可能となる。
【0032】
【発明の実施の形態】
以下、本発明の実施の形態にかかる音声データ圧縮・解凍装置について、図面を参照しながら説明する。図2は本発明の実施の形態にかかる音声データ圧縮・解凍装置の原理構成図を示す。図2において、21は圧縮辞書データ保存部を、22は圧縮位置決定部を、23は解凍位置決定部を、24はS/N比計算部を、それぞれ示す。
【0033】
まず、図2において、辞書データは図1の従来の場合と同様に波形データ111、音素ラベル112、ピッチ情報113とで構成されている。本実施の形態においては従来の圧縮・解凍装置と同様に、波形データ111のみが圧縮・解凍の対象となっている。しかし、波形データ111のすべてについて圧縮の対象とするのではなく、圧縮の対象となる区間、すなわち圧縮処理の開始点と終了点を設定し、当該区間のみを圧縮の対象とするものである。たがって、辞書データ圧縮部12では入力された波形データ111のみならず、圧縮位置の決定に必要な情報として音素ラベル112、ピッチ情報113についても、圧縮辞書データ保存部21によって音声辞書データベース14に保存される。
【0034】
上述した圧縮位置の決定方法としては、様々な方法が考えられる。まず、圧縮処理の開始点と終了点を変更しつつ解凍を行い、各々の場合に測定されるS/N比に基づいて音素や音節単位で最もS/N比の高かった区間を圧縮区間とする方法が考えられる。この場合、圧縮位置は一度では確定できず、圧縮位置決定部22において、図3に示すような処理を行うことによって決定する。図3は本発明の実施の形態にかかる音声データ圧縮・解凍装置における波形データ圧縮時の概念説明図である。図3において、31が圧縮の対象となる波形データを、32が圧縮の対象となる波形データの前後に有する付加データを、それぞれ示す。
【0035】
まず図3では、元の波形データ全体を示す(a)において、音声合成に用いる波形データ31の開始点33及び終了点34を定める。そして、圧縮の対象となる波形データ31をそのまま圧縮したのでは、解凍時に音声の立ち上がり部分においてS/N比を高く維持することが困難であることから、圧縮の対象となる波形データ31の前後において圧縮時の開始点及び終了点を仮に設定する。すなわち、適当なデータ長を有する付随データ32を音声合成に用いる波形データ31の前後に含めて、圧縮の開始点35及び圧縮の終了点36を仮設定することになる。なお、かかる付随データ32のデータ長を定める単位としては、フレーム単位であっても良いし、コーパス等のサンプル単位やピッチ単位であっても良い。
【0036】
そして、(b)に示すように付随データ32も含めて波形データ31を圧縮してから、辞書データ解凍部15で(c)に示すように波形データ31を解凍する。解凍された波形データ31は、付随データ32の先端部においてはノイズの影響でS/N比が低いが、音声合成に用いる部分の波形データ31についてはS/N比を高く維持した状態で取得することができる。したがって、音声合成に用いる部分の波形データ区間37を残して付随データ32を削除することで、S/N比の高い解凍波形データを得ることが可能となる。
【0037】
そして、解凍位置決定部23では、得られた解凍波形データにおける音声合成に用いる部分と解凍する区間の開始点及び終了点を一致させるとともに、解凍波形データと元の波形データとのS/N比をS/N比計算部24で算出して、圧縮位置決定部22へその計算結果を送る。
【0038】
圧縮位置決定部22では、上述したような処理を圧縮時の開始点と終了点を変更しながら繰り返しS/N比の計算結果を取得し、S/N比の計算結果のうちで最もS/N比の高い圧縮位置を求め、圧縮位置情報144として保存する。
【0039】
また、フレーム単位で圧縮区間の終了点を決定する方法も考えられる。この場合、圧縮位置決定部22では、辞書データ圧縮部12におけるフレームの単位に基づいて圧縮区間の終了点を決定する。
【0040】
さらに、元データから無音区間を取り除いて有音区間だけとし、有音区間を圧縮区間とする方法も考えられる。この場合、圧縮位置決定部22では、音素ラベル112とピッチ情報113から無音区間を抽出・削除し、有音区間を圧縮区間として決定する。
【0041】
また、圧縮位置の仮設定処理を排するため、元の波形データの単位そのもの、例えばコーパス単位で波形データが取得されている場合にはコーパス単位で圧縮する方法や、等間隔で波形データを区切る方法、あるいは辞書データの音素ラベル112とピッチ情報113に基づいて、数ピッチ前を圧縮区間の開始点とする方法等も考えられる。
【0042】
これらの方法においては、圧縮位置決定部22において一度で圧縮位置を決定することができることから、圧縮位置決定部22で決定された圧縮位置の開始点及び終了点を圧縮波形データ141として音声辞書データベース14に保存する。
【0043】
そして、音声合成に用いる波形データが圧縮された波形データの一部分である場合には、解凍位置決定部23において解凍時の区間を決定して、解凍位置情報145に保存しておく。
【0044】
ここで、解凍位置の決定方法には大きく3つの方法が考えられる。一つには、解凍区間の開始点と終了点を変更しつつ解凍を行い、各々の場合に測定されるS/N比に基づいて音素や音節単位で最もS/N比の高かった区間を解凍区間とする方法、あるいは音素ラベルとピッチ情報から、自動的に解凍時の開始点を数ピッチ前に設定する方法、さらに解凍結果より判明するビット詰めするバイト数と開始点に基づいて、解凍区間の終了点を自動的に計算して解凍区間とする方法である。
【0045】
まず、解凍区間の開始点と終了点を変更しつつ解凍を行い、各々の場合に測定されるS/N比に基づいて音素や音節単位で最もS/N比の高かった区間を解凍区間とする方法の場合には、解凍位置は一度では確定できず、解凍位置決定部23において、図4に示すような処理を行うことによって決定する。図4は本発明の実施の形態にかかる音声データ圧縮・解凍装置における波形データ解凍時の概念説明図である。図4において、41が圧縮の対象となる波形データを、42が圧縮された波形データの前後に有する付加データを、それぞれ示す。
【0046】
図4において、音声合成に用いるべき波形データは、図4(b)に示すような圧縮された状態で音声辞書データベース14に登録されている。かかる圧縮された波形データをそのまま解凍すれば、元の波形データ全体を示す図4(a)のようになる。したがって、音声合成に用いる波形データ41の開始点43及び終了点44では、解凍時にS/N比が低くなる蓋然性が高い。
【0047】
そこで、解凍時に音声合成に用いる波形データにノイズを拾わせないために、圧縮されている波形データ48の前後に適当なデータ長を有する付加データ42を付加し、解凍の開始点45及び解凍の終了点46を仮に設定する。かかる付加データのデータ長を定める単位としては、フレーム単位であっても良いし、コーパス等のサンプル単位やピッチ単位であっても良い。
【0048】
そして、辞書データ解凍部15で、図4(c)に示すように圧縮データ49を解凍する。解凍された波形データ47については、付加データ42の先端部においてはノイズの影響でS/N比が低いが、音声合成に用いる波形データ47についてはS/N比を高く維持した状態で取得することができる。したがって、音声合成に用いる波形データ区間47を残して付加データを削除することで、解凍波形データを得ることが可能となる。
【0049】
そして、解凍位置決定部23では、得られた解凍波形データにおける音声合成に用いる部分と解凍する区間の開始点及び終了点を一致させるとともに、解凍波形データと元の波形データとのS/N比をS/N比計算部24で算出して、解凍位置決定部23へその計算結果を送る。
【0050】
解凍位置決定部23では、解凍時の開始点と終了点を変更しながらS/N比の計算結果を取得し、最もS/N比の高い解凍位置を求めることで、解凍位置情報として保存する。
【0051】
また、音素ラベルとピッチ情報から、自動的に解凍時の開始点を数ピッチ前に設定する方法の場合には、解凍位置決定部23において解凍位置を一度で確定することができる。
【0052】
さらには、圧縮結果をビット詰めするバイト数と開始点から終了点を自動的に計算して解凍区間とする方法の場合には、解凍位置決定部23において、解凍時のビット詰めするバイト数と開始点から、終了時点を自動的に算出するものであり、求められた区間を解凍区間として解凍位置情報として保存する。
【0053】
また、音声辞書データベース14に保存されている圧縮された波形データについては、音声合成再生時に辞書データ解凍部15において解凍され、解凍波形データ出力部16において再生される。すなわち、図5に示すように、音声合成部51を配することで、音節ごとに合成音声による再生が可能となる。
【0054】
より具体的には、以下のようになる。図6は本発明の一実施例にかかる音声データ圧縮・解凍装置の構成図である。まず、圧縮位置決定部22及び解凍位置決定部23は図6に示すように構成されている。すなわち、圧縮位置決定部22において、221は無音区間削除部を、222は有音区間波形生成部を、223は圧縮区間設定部を、それぞれ示す。また、解凍位置決定部23において、231は音節抽出部を、232は音節波形区間抽出部を、233は解凍区間設定部を、234は解凍区間・S/N比保存部を、それぞれ示す。
【0055】
まず、「私は犬を飼っています。」というコーパスの波形データが音声辞書データベース14に保存されているものとすると、無音区間削除部221において音素ラベル112及びピッチ情報113に基づいて波形データ111の無音区間を抽出して、削除する。そして、有音区間波形生成部222において、有音部のみからなる波形を生成し、波形データ111として保存する。
【0056】
圧縮区間設定部223では、コーパスの最初から最後までの有音区間全部を指定し、その開始点と終了点を圧縮位置情報144に保存する。そして、「私は犬を飼っています。」というコーパス内の有音部分の波形データを圧縮し、結果を圧縮波形データ141に保存する。
【0057】
辞書データ圧縮部12では、「私は犬を飼っています。」というコーパス内の有音部分の波形データを圧縮して、結果を圧縮波形データ141に保存する。保存されている圧縮された波形データに関する新たな音素ラベル及びピッチ情報についても、音素ラベル142、ピッチ情報143として音声辞書データベース14に保存される。
【0058】
また、解凍区間を設定する際には、音素抽出部231で「私は犬を飼っています。」というコーパス内の音節部を抽出する。すなわち、「私は」、「犬を」、「飼って」、「います」という4つの音節部が抽出される。
【0059】
そして、抽出された各音節について、音節波形区間抽出部232において、各音節ごとの圧縮前の波形データ111における開始位置と終了位置を検出する。解凍区間設定部233では、圧縮波形データ141における開始位置と終了位置を、各音節ごとの圧縮前の波形データ111における開始位置と終了位置に基づいて仮設定する。
【0060】
設定方法としては、種々の方法が考えられるが、例えば解凍時の開始位置又は終了位置を、必要とされる圧縮前の波形データ111における開始位置又は終了位置の1から数フレーム前後にする方法や、解凍時の開始位置又は終了位置を、必要とされる圧縮前の波形データ111における開始位置又は終了位置の1から数サンプル前後にする方法、あるいは解凍時の開始位置又は終了位置を、必要とされる圧縮前の波形データ111における開始位置又は終了位置の1から数ピッチ前後にする方法等が考えられる。
【0061】
辞書データ解凍部15では、解凍区間設定部233で仮設定された解凍区間について実際に解凍し、S/N比計算部24でS/N比を計算して、解凍区間・S/N比保存部234に保存される。そして、解凍区間・S/N比保存部234に保存されているデータの中で最もS/N比の高い区間データを解凍区間として、当該区間データの開始位置及び終了位置を解凍位置保存部145に保存する。
【0062】
実際の解凍時には、解凍したい対象となる音節が入力されると、辞書データ解凍部15においては、解凍位置保存部145に保存されている区間データに基づいて解凍を行う。そして、解凍された波形データについては、必要な部分だけカットして使用される。
【0063】
また、図7は本発明の他の実施例にかかる音声データ圧縮・解凍装置の構成図である。図6とは圧縮位置決定部22の構成を除いて同一の構成である。したがって、解凍位置決定部23についての詳細な記述は省略している。圧縮位置決定部22において、224は音節抽出部を、225は圧縮区間・S/N比保存部を、それぞれ示す。
【0064】
図6の場合と同様に、「私は犬を飼っています。」というコーパスの波形データが音声辞書データベース14に保存されているものとすると、無音区間削除部221において音素ラベル112及びピッチ情報113に基づいて波形データ111の無音区間を抽出して、削除する。そして、有音区間波形生成部222において、有音部のみからなる波形を生成し、波形データ111として保存する。
【0065】
音節抽出部224では、「私は犬を飼っています。」というコーパス内の音節部を抽出する。すなわち、「私は」、「犬を」、「飼って」、「います」という4つの音節部が抽出される。
【0066】
圧縮区間設定部223では、抽出された各音節、例えば「犬を」における圧縮前の波形データの開始位置と終了位置の前後に図3に示すように付加データを付加して、圧縮区間を仮に設定し、当該圧縮区間内のデータについて辞書データ圧縮部12によって圧縮する。圧縮する方法については、前述の通りである。
【0067】
圧縮されたデータは、一旦辞書データ解凍部15によって解凍され、解凍波形データ出力部16によって出力される解凍された波形データと、圧縮前の波形データ111とのS/N比をS/N比計算部24で計算し、圧縮区間・S/N比保存部225に圧縮区間の開始点及び終了点とともに保存される。
【0068】
そして、圧縮区間・S/N比保存部225に保存されているデータのうち、最もS/N比の高い区間データを解凍区間として、当該区間データの開始位置及び終了位置を解凍位置保存部145に保存する。
【0069】
実際の解凍時には、解凍したい対象となる音節が入力されると、辞書データ解凍部15においては、解凍位置保存部145に保存されている区間データに基づいて解凍を行う。そして、解凍された波形データについては、必要な部分だけカットして使用される。
【0070】
以上のように本実施の形態によれば、波形データにおける圧縮位置や解凍位置を、音声合成時のS/N比が高くなる位置でもって決定することができ、品質の高い音声合成を行うことが可能となる。
【0071】
また、圧縮すべき波形データの容量を必要最小限に抑制することができるので、解凍時間を短縮することができ、音声合成のリアルタイム性を確保することも可能となる。
【0072】
次に、本発明の実施の形態にかかる音声データ圧縮・解凍装置を実現するプログラムの処理の流れについて説明する。図8に本発明の実施の形態にかかる音声データ圧縮・解凍装置を実現するプログラムの処理の流れ図を示す。
【0073】
図8において、波形データを既存の音声波形辞書等から抽出して入力すると(ステップS81)、当該波形データの中で音声合成に使用する部分を特定し、その前後で圧縮する開始点及び終了点を仮設定する(ステップS82)。
【0074】
次に、仮設定した圧縮区間について圧縮及び解凍を行う(ステップS83)。解凍された波形データの品質が高ければ(ステップS84:Yes)、仮設定した圧縮区間を圧縮・解凍位置として確定し(ステップS85)、音声合成に用いる波形データとしてデータベースに登録する(ステップS86)。解凍された波形データの品質が高くなければ(ステップS84:No)、圧縮位置を再度仮設定して(ステップS87)、上述した処理を繰り返す。
【0075】
本発明の実施の形態にかかる音声データ圧縮・解凍装置を実現するプログラムを記憶した記録媒体は、図9に示す記録媒体の例に示すように、CD−ROM92−1やフロッピーディスク92−2等の可搬型記録媒体92だけでなく、通信回線の先に備えられた他の記憶装置91や、コンピュータ93のハードディスクやRAM等の記録媒体94のいずれでも良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【0076】
また、本発明の実施の形態にかかる音声データ圧縮・解凍装置により生成された圧縮データ等を記録した記録媒体も、図9に示す記録媒体の例に示すように、CD−ROM92−1やフロッピーディスク92−2等の可搬型記録媒体92だけでなく、通信回線の先に備えられた他の記憶装置91や、コンピュータ93のハードディスクやRAM等の記録媒体94のいずれでも良く、例えば本発明にかかる音声データ圧縮・解凍装置を利用する際にコンピュータにより読み取られる。
【0077】
【発明の効果】
以上のように本発明にかかる音声データ圧縮・解凍装置によれば、波形データにおける圧縮位置や解凍位置を、音声合成時のS/N比が高い位置で決定することができ、品質の高い音声合成を行うことが可能となる。
【0078】
また本発明にかかる音声データ圧縮・解凍装置によれば、圧縮すべき波形データの容量を必要最小限に抑制することができるので、解凍時間を短縮することができ、音声合成のリアルタイム性を確保することが可能となる。
【図面の簡単な説明】
【図1】 従来の音声データ圧縮・解凍装置の構成図
【図2】 本発明の実施の形態にかかる音声データ圧縮・解凍装置の構成図
【図3】 本発明の他の実施例にかかる音声データ圧縮・解凍装置の構成図
【図4】 本発明の他の実施例にかかる音声データ圧縮・解凍装置の構成図
【図5】 本発明の実施の形態にかかる音声データ圧縮・解凍装置における音声合成の構成図
【図6】 本発明の一実施例にかかる音声データ圧縮・解凍装置の構成図
【図7】 本発明の他の実施例にかかる音声データ圧縮・解凍装置の構成図
【図8】 本発明の実施の形態にかかる音声データ圧縮・解凍装置における処理の流れ図
【図9】 記録媒体の例示図
【符号の説明】
11 辞書データ入力部
12 辞書データ圧縮部
13、21 圧縮辞書データ保存部
14 音声辞書データベース
15 辞書データ解凍部
16 解凍波形データ出力部
22 圧縮位置決定部
23 解凍位置決定部
24 S/N比計算部
51 音声合成部
91 回線先の記憶装置
92 CD−ROMやフロッピーディスク等の可搬型記録媒体
92−1 CD−ROM
92−2 フロッピーディスク
93 コンピュータ
94 コンピュータ上のRAM/ハードディスク等の記録媒体
111 波形データ
112、142 音素ラベル
113、143 ピッチ情報
141 圧縮波形データ
144 圧縮位置情報
145 解凍位置情報
221 無音区間削除部
222 有音区間波形生成部
223 圧縮区間設定部
224、231 音節抽出部
225 圧縮区間・S/N比保存部
232 音節波形区間抽出部
233 解凍区間設定部
234 解凍区間・S/N比保存部

Claims (17)

  1. 波形データを含む音声データを既存の音声波形辞書から抽出して入力する辞書データ入力部と、
    前記波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を設定する圧縮位置決定部と、
    設定した圧縮区間について前記波形データを圧縮する辞書データ圧縮部と、
    圧縮された前記波形データを解凍する辞書データ解凍部とを含み、
    圧縮された前記波形データの解凍結果の品質が最も高かった前記圧縮する開始点及び終了点で指定される前記圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記圧縮する開始点及び終了点をデータベースに登録することを特徴とした音声データ圧縮・解凍装置。
  2. 前記圧縮位置決定部において、前記波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を仮設定し、
    仮設定した圧縮区間について前記波形データを圧縮する辞書データ圧縮部と、
    圧縮された前記波形データを解凍する辞書データ解凍部と、
    解凍された前記波形データについてS/N比を計算するS/N比計算部とを含み、
    前記S/N比が最も高かった前記圧縮する開始点及び終了点で指定される前記圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データをデータベースに登録する請求項1記載の音声データ圧縮・解凍装置。
  3. 音声合成に用いる前記波形データとしてデータベースに登録された圧縮された前記波形データの前後で解凍する開始点及び終了点を設定する解凍位置決定部をさらに含み、
    前記辞書データ解凍部において、設定した解凍区間について前記波形データを解凍する請求項1記載の音声データ圧縮・解凍装置。
  4. 前記圧縮位置決定部において、ピッチ単位で圧縮する開始点及び終了点を定める請求項1記載の音声データ圧縮・解凍装置。
  5. 前記圧縮位置決定部において、フレーム単位で圧縮する開始点及び終了点を定める請求項1記載の音声データ圧縮・解凍装置。
  6. 請求項1又は5記載の装置にて前記データベースに登録された前記圧縮された波形データを、前記データベースに登録された前記圧縮する開始点及び終了点に基づいて解凍することを特徴とする音声データ解凍装置。
  7. 波形データを含む音声データを既存の音声波形辞書から抽出して入力する辞書データ入力部と、
    前記波形データの中で音声合成に用いる部分を特定し、その部分を含む圧縮位置を決定する圧縮位置決定部と、
    設定した圧縮区間について前記波形データを圧縮する辞書データ圧縮部と、
    圧縮された前記波形データの前後で解凍する開始点と終了点を設定する解凍位置決定部と、
    設定した解凍区間について圧縮された前記波形データを解凍する辞書データ解凍部とを含み、
    圧縮された前記波形データの解凍結果の品質が最も高かった前記解凍する開始点及び終了点で指定される前記解凍区間を解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記解凍する開始点及び終了点をデータベースに登録することを特徴とした音声データ圧縮・解凍装置。
  8. 請求項7記載の装置にて前記データベースに登録された前記圧縮された波形データを、前記データベースに登録された前記解凍する開始点及び終了点に基づいて解凍することを特徴とする音声データ解凍装置。
  9. 前記解凍位置決定部において、圧縮された前記波形データの前後で解凍する開始点と終了点を仮設定し、
    仮設定した解凍区間について圧縮された前記波形データを解凍する辞書データ解凍部と、
    解凍された前記波形データについてS/N比を計算するS/N比計算部とを含み、
    前記S/N比が最も高かった前記解凍する開始点及び終了点で指定される前記解凍区間を解凍位置として確定する請求項7記載の音声データ圧縮・解凍装置。
  10. 前記解凍位置決定部において、ピッチ単位で解凍する開始点及び終了点を定める請求項7記載の音声データ圧縮・解凍装置。
  11. 前記解凍位置決定部において、ビット詰めするバイト数と開始点から解凍する終了点を定める請求項7記載の音声データ圧縮・解凍装置。
  12. 波形データを含む音声データを既存の音声波形辞書から抽出して入力する工程と、
    前記波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を設定する工程と、
    設定した圧縮区間について前記波形データを圧縮する工程と、
    圧縮された前記波形データを解凍する工程とを含み、
    圧縮された前記波形データの解凍結果の品質が最も高かった前記圧縮する開始点及び終了点で指定される前記圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記圧縮する開始点及び終了点をデータベースに登録することを特徴とする音声データ圧縮・解凍方法。
  13. 波形データを含む音声データを既存の音声波形辞書から抽出して入力する工程と、
    前記波形データの中で音声合成に用いる部分を特定し、その部分を含む圧縮位置を決定する工程と、
    設定した圧縮区間について前記波形データを圧縮する工程と、
    圧縮された前記波形データの前後で解凍する開始点と終了点を設定する工程と、
    設定した解凍区間について圧縮された前記波形データを解凍する工程とを含み、
    圧縮された前記波形データの解凍結果の品質が最も高かった前記解凍する開始点及び終了点で指定される前記解凍区間を解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記解凍する開始点及び終了点をデータベースに登録することを特徴とする音声データ圧縮・解凍方法。
  14. 請求項12記載の方法にて前記データベースに登録された前記圧縮された波形データを、前記データベースに登録された前記圧縮する開始点及び終了点に基づいて解凍することを特徴とする音声データ解凍方法
  15. 請求項13記載の方法にて前記データベースに登録された前記圧縮された波形データを、前記データベースに登録された前記解凍する開始点及び終了点に基づいて解凍することを特徴とする音声データ解凍方法
  16. 波形データを含む音声データを既存の音声波形辞書から抽出して入力するステップと、
    前記波形データの中で音声合成に用いる部分を特定し、その前後で圧縮する開始点及び終了点を設定するステップと、
    設定した圧縮区間について前記波形データを圧縮するステップと、
    圧縮された前記波形データを解凍するステップとを含み、
    圧縮された前記波形データの解凍結果の品質が最も高かった前記圧縮する開始点及び終了点で指定される前記圧縮区間を圧縮・解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記圧縮する開始点及び終了点をデータベースに登録することを特徴とするコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
  17. 波形データを含む音声データを既存の音声波形辞書から抽出して入力するステップと、
    前記波形データの中で音声合成に用いる部分を特定し、その部分を含む圧縮位置を決定するステップと、
    設定した圧縮区間について前記波形データを圧縮するステップと、
    圧縮された前記波形データの前後で解凍する開始点と終了点を設定するステップと、
    設定した解凍区間について圧縮された前記波形データを解凍するステップとを含み、
    圧縮された前記波形データの解凍結果の品質が最も高かった前記解凍する開始点及び終了点で指定される前記解凍区間を解凍位置として確定し、音声合成に用いる前記波形データとして前記圧縮された波形データと前記解凍する開始点及び終了点をデータベースに登録することを特徴とするコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP34461599A 1999-12-03 1999-12-03 音声データ圧縮・解凍装置及び方法 Expired - Fee Related JP4367808B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP34461599A JP4367808B2 (ja) 1999-12-03 1999-12-03 音声データ圧縮・解凍装置及び方法
US09/722,522 US6928408B1 (en) 1999-12-03 2000-11-28 Speech data compression/expansion apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34461599A JP4367808B2 (ja) 1999-12-03 1999-12-03 音声データ圧縮・解凍装置及び方法

Publications (2)

Publication Number Publication Date
JP2001166796A JP2001166796A (ja) 2001-06-22
JP4367808B2 true JP4367808B2 (ja) 2009-11-18

Family

ID=18370643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34461599A Expired - Fee Related JP4367808B2 (ja) 1999-12-03 1999-12-03 音声データ圧縮・解凍装置及び方法

Country Status (2)

Country Link
US (1) US6928408B1 (ja)
JP (1) JP4367808B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108178A (ja) 2001-09-27 2003-04-11 Nec Corp 音声合成装置及び音声合成用素片作成装置
US8768701B2 (en) * 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus
JP5322793B2 (ja) * 2009-06-16 2013-10-23 三菱電機株式会社 音声合成装置及び音声合成方法
JP6415929B2 (ja) * 2014-10-30 2018-10-31 株式会社東芝 音声合成装置、音声合成方法およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
JPH07129190A (ja) 1993-09-10 1995-05-19 Hitachi Ltd 話速変換方法及び話速変換装置並びに電子装置
US5717818A (en) 1992-08-18 1998-02-10 Hitachi, Ltd. Audio signal storing apparatus having a function for converting speech speed
FR2729244B1 (fr) * 1995-01-06 1997-03-28 Matra Communication Procede de codage de parole a analyse par synthese
JP3342310B2 (ja) 1996-09-02 2002-11-05 シャープ株式会社 音声復号化装置
US6055496A (en) * 1997-03-19 2000-04-25 Nokia Mobile Phones, Ltd. Vector quantization in celp speech coder
JPH10307581A (ja) 1997-05-08 1998-11-17 Fueisu:Kk 波形データ圧縮装置および方法
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding

Also Published As

Publication number Publication date
US6928408B1 (en) 2005-08-09
JP2001166796A (ja) 2001-06-22

Similar Documents

Publication Publication Date Title
US20080109225A1 (en) Speech Synthesis Device, Speech Synthesis Method, and Program
US8626323B2 (en) Method and apparatus for playing audio files
US7276655B2 (en) Music synthesis system
US20090171674A1 (en) Playback device systems and methods
US8214216B2 (en) Speech synthesis for synthesizing missing parts
JPH06230800A (ja) 音声データ圧縮及び再生の方法及び装置
US6941267B2 (en) Speech data compression/expansion apparatus and method
CN106098081A (zh) 声音文件的音质识别方法及装置
JP4367808B2 (ja) 音声データ圧縮・解凍装置及び方法
JP3618217B2 (ja) 音声のピッチ符号化方法及び音声のピッチ符号化装置並びに音声のピッチ符号化プログラムが記録された記録媒体
JP4306086B2 (ja) 音声合成用辞書作成装置及び方法
US20060086238A1 (en) Apparatus and method for reproducing MIDI file
JP2010048959A (ja) 音声出力システム及び車載装置
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
US20010025560A1 (en) Waveform data time expanding and compressing device
JPH1051337A (ja) Fm文字多重放送録音制御プログラム装置
US7795526B2 (en) Apparatus and method for reproducing MIDI file
US20050197830A1 (en) Method for calculating a frame in audio decoding
JP4206230B2 (ja) 音声合成用データ削減方法、音声合成用データ削減装置および音声合成用データ削減プログラム
JP2001265779A (ja) 音響検索方法
JP4037973B2 (ja) 波形再生装置
CN117742649A (zh) Usb声卡播放cd方法、装置、微处理器及电子设备
CN115206345A (zh) 基于时频结合的音乐人声分离方法、装置、设备及介质
CN112509553A (zh) 一种语音合成方法、装置以及计算机可读存储介质
JP3520054B2 (ja) 音声認識装置、コンピュータプログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090820

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090821

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120904

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120904

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130904

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees