JP2004012908A

JP2004012908A - 音声信号補間装置、音声信号補間方法及びプログラム

Info

Publication number: JP2004012908A
Application number: JP2002167453A
Authority: JP
Inventors: Yasushi Sato; 佐藤　寧
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2002-06-07
Filing date: 2002-06-07
Publication date: 2004-01-15
Anticipated expiration: 2022-06-07
Also published as: EP1512952B1; JP3881932B2; EP1512952A4; DE60328686D1; US20040153314A1; US20070271091A1; CN1514931A; EP1512952A1; CN1333383C; WO2003104760A1; US7676361B2; US7318034B2; DE03730668T1

Abstract

【課題】人の音声を、圧縮された状態から高音質を保ちつつ復元するための音声信号補間装置等を提供することである。
【解決手段】補間する対象の音声を表す音声信号を音声データ入力部１が取得すると、ピッチ抽出部２がこの音声信号をフィルタリングし、フィルタリングの結果に基づいてピッチ長を特定する。ピッチ長固定部３は、この音声信号の単位ピッチ分にあたる区間の時間長を一定に揃え、ピッチ波形データを生成する。ピッチ波形データはサブバンド分割部４によりスペクトルを表すサブバンドデータへと変換され、複数のサブバンドデータが平均化部５により平均化された後、サブバンド合成部６によって音声の波形を表す信号へと変換される。この信号の各区間のピッチの時間長はピッチ復元部７によって復元され、音声出力部８により、この信号が表す音声が再生される。
【選択図】　図１

Description

【０００１】
【発明の属する技術分野】
この発明は、音声信号補間装置、音声信号補間方法及びプログラムに関する。
【０００２】
【従来の技術】
有線や無線での放送あるいは通信の手法による音楽などの配信が近年盛んになっている。これらの手法による音楽などの配信を行う場合、帯域が過度に広くなることによるデータ量の増大や占有帯域幅の広がりを避けるため、一般に、音楽を表すデータは、ＭＰ３（ＭＰＥＧ１　ａｕｄｉｏ　ｌａｙｅｒ　３）形式やＡＡＣ（Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ）形式など、周波数マスキングの手法を採り入れた音声圧縮形式で圧縮された上で配信されている。
周波数マスキングは、音声信号のうち高レベルのスペクトル成分に周波数が近接する低レベルのスペクトル成分が人間には聞き取られにくい、という現象を利用して音声圧縮を行う手法である。
【０００３】
図４（ｂ）は、図４（ａ）に示す原音声のスペクトルが、周波数マスキングの手法を用いて圧縮された結果を示すグラフである。（なお、図（ａ）は、具体的には、人が発声した音声をＭＰ３形式で圧縮した結果のスペクトルを例示するものである。）
図示するように、音声を周波数マスキングの手法により圧縮すると、一般的には、２キロヘルツ以上の成分が大幅に失われ、また、２キロヘルツ未満であっても、スペクトルのピークを与える成分（音声の基本周波数成分や高調波成分のスペクトル）の近傍の成分はやはり大幅に失われる。
【０００４】
一方、圧縮された音声のスペクトルを補間して元の音声のスペクトルに近づける手法としては、特開２００１−３５６７８８に開示されている手法が知られている。この手法は、圧縮後に残存しているスペクトルのうちから補間用帯域を抽出し、圧縮によりスペクトル成分が失われた帯域内に、補間用帯域内の分布と同じ分布を示すようなスペクトル成分を、スペクトル全体の包絡線に沿うようにして挿入する、という手法である。
【０００５】
【発明が解決しようとする課題】
しかし、特開２００１−３５６７８８の手法を用いて図４（ｂ）に示すスペクトルを補間した場合、図４（ｃ）に示すような、元の音声のスペクトルとは大きく異なるスペクトルしか得られず、このスペクトルを有する音声を再生しても、極めて不自然な音声にしかならない。この問題は、人が発声した音声をこの手法によって圧縮した場合には一般的に生じる問題である。
【０００６】
この発明は、上記実状に鑑みてなされたものであり、人の音声を、圧縮された状態から高音質を保ちつつ復元するための周波数補間装置及び周波数補間方法を提供することを目的とする。
【０００７】
【課題を解決するための手段】
上記目的を達成すべく、この発明の第１の観点にかかる音声信号補間装置は、音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工するピッチ波形信号生成手段と、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成するスペクトル抽出手段と、
前記スペクトル抽出手段が生成した複数のデータに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成する平均化手段と、
前記平均化手段が生成した平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する音声信号復元手段と、を備える、
ことを特徴とする。
【０００８】
前記ピッチ波形信号生成手段は、
制御に従って周波数特性を変化させ、前記入力音声信号をフィルタリングすることにより、前記音声の基本周波数成分を抽出する可変フィルタと、
前記可変フィルタにより抽出された基本周波数成分に基づいて前記音声の基本周波数を特定し、特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるように前記可変フィルタを制御するフィルタ特性決定手段と、
前記入力音声信号を、前記可変フィルタにより抽出された基本周波数成分の値に基づき、単位ピッチ分の音声信号からなる区間へと区切るピッチ抽出手段と、
前記入力音声信号の各前記区間内を互いに実質的に同数の標本でサンプリングすることにより、各該区間内の時間長が実質的に同一に揃ったピッチ波形信号を生成するピッチ長固定部と、を備えるものであってもよい。
【０００９】
前記フィルタ特性決定手段は、前記可変フィルタにより抽出された基本周波数成分が所定値に達するタイミングが来る周期を特定し、特定した周期に基づいて前記基本周波数を特定するクロス検出手段を備えるものであってもよい。
【００１０】
前記フィルタ特性決定手段は、
フィルタリングされる前の入力音声信号に基づいて、当該入力音声信号が表す音声のピッチの時間長を検出する平均ピッチ検出手段と、
前記クロス検出手段が特定した周期と前記平均ピッチ検出手段が特定したピッチの時間長とが互いに所定量以上異なっているか否かを判別して、異なっていないと判別したときは前記クロス検出手段が特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御し、異なっていると判別したときは前記平均ピッチ検出手段が特定したピッチの時間長から特定される基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御する判別手段と、を備えるものであってもよい。
【００１１】
前記平均ピッチ検出手段は、
前記可変フィルタによりフィルタリングされる前の入力音声信号のケプストラムが極大値をとる周波数を求めるケプストラム分析手段と、
前記可変フィルタによりフィルタリングされる前の入力音声信号の自己相関関数のピリオドグラムが極大値をとる周波数を求める自己相関分析手段と、
前記ケプストラム分析手段及び前記自己相関分析手段が求めた各周波数に基づいて当該入力音声信号が表す音声のピッチの平均値を求め、求めた平均値を当該音声のピッチの時間長として特定する平均計算手段と、を備えるものであってもよい。
【００１２】
また、この発明の第２の観点にかかる音声信号補間方法は、
音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工し、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成し、
前記入力音声信号のスペクトルを表す複数の前記データに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成し、
前記平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する、
ことを特徴とする。
【００１３】
また、この発明の第３の観点にかかるプログラムは、
コンピュータを、
音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工するピッチ波形信号生成手段と、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成するスペクトル抽出手段と、
前記スペクトル抽出手段が生成した複数のデータに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成する平均化手段と、
前記平均化手段が生成した平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する音声信号復元手段と、
して機能させるためのものであることを特徴とする。
【００１４】
【発明の実施の形態】
以下、図面を参照して、この発明の実施の形態を説明する。
図１は、この発明の実施の形態に係る音声信号補間装置の構成を示す図である。図示するように、この音声信号補間装置は、音声データ入力部１と、ピッチ抽出部２と、ピッチ長固定部３と、サブバンド分割部４と、平均化部５と、サブバンド合成部６と、ピッチ復元部７と、音声出力部８とより構成されている。
【００１５】
音声データ入力部１は、例えば、記録媒体（例えば、フレキシブルディスクやＭＯ（Ｍａｇｎｅｔｏ　Ｏｐｔｉｃａｌ　ｄｉｓｋ）やＣＤ−Ｒ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ−Ｒｅｃｏｒｄａｂｌｅ）など）に記録されたデータを読み取る記録媒体ドライバ（フレキシブルディスクドライブや、ＭＯドライブや、ＣＤ−Ｒドライブなど）より構成されている。
音声データ入力部１は、音声の波形を表す音声データを取得して、ピッチ長固定部３に供給する。
【００１６】
なお、音声データは、ＰＣＭ（Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
【００１７】
ピッチ抽出部２、ピッチ長固定部３、サブバンド分割部４、サブバンド合成部６及びピッチ復元部７は、いずれも、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）やＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のデータ処理装置より構成されている。
なお、ピッチ抽出部２、ピッチ長固定部３、サブバンド分割部４、サブバンド合成部６及びピッチ復元部７の一部又は全部の機能を単一のデータ処理装置が行うようにしてもよい。
【００１８】
ピッチ抽出部２は、機能的には、たとえば図２に示すように、ケプストラム解析部２１と、自己相関解析部２２と、重み計算部２３と、ＢＰＦ（Ｂａｎｄ　Ｐａｓｓ　Ｆｉｌｔｅｒ）係数計算部２４と、ＢＰＦ２５と、ゼロクロス解析部２６と、波形相関解析部２７と、位相調整部２８とより構成されている。
なお、ケプストラム解析部２１、自己相関解析部２２、重み計算部２３、ＢＰＦ（Ｂａｎｄ　Ｐａｓｓ　Ｆｉｌｔｅｒ）係数計算部２４、ＢＰＦ２５、ゼロクロス解析部２６、波形相関解析部２７及び位相調整部２８の一部又は全部の機能を単一のデータ処理装置が行うようにしてもよい。
【００１９】
ケプストラム解析部２１は、音声データ入力部１より供給される音声データにケプストラム分析を施すことにより、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部２３へと供給する。
【００２０】
具体的には、ケプストラム解析部２１は、音声データ入力部１より音声データを供給されると、まず、この音声データの強度を、元の値の対数に実質的に等しい値へと変換する。（対数の底は任意であり、例えば常用対数などでよい。）
次に、ケプストラム解析部２１は、値が変換された音声データのスペクトル（すなわち、ケプストラム）を、高速フーリエ変換の手法（あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法）により求める。
そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部２３へと供給する。
【００２１】
自己相関解析部２２は、音声データ入力部１より音声データを供給されると、音声データの波形の自己相関関数に基づいて、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部２３へと供給する。
【００２２】
具体的には、自己相関解析部２２は、音声データ入力部１より音声データを供給されるとまず、数式１の右辺により表される自己相関関数ｒ（ｌ）を特定する。
【００２３】
【数１】

【００２４】
次に、自己相関解析部２２は、自己相関関数ｒ（ｌ）をフーリエ変換した結果得られる関数（ピリオドグラム）の極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部２３へと供給する。
【００２５】
重み計算部２３は、ケプストラム解析部２１及び自己相関解析部２２より基本周波数を示すデータを１個ずつ合計２個供給されると、これら２個のデータが示す基本周波数の逆数の絶対値の平均を求める。そして、求めた値（すなわち、平均ピッチ長）を示すデータを生成し、ＢＰＦ係数計算部２４へと供給する。
【００２６】
ＢＰＦ係数計算部２４は、平均ピッチ長を示すデータを重み計算部２３より供給され、ゼロクロス解析部２６より後述のゼロクロス信号を供給されると、供給されたデータやゼロクロス信号に基づき、平均ピッチ長とピッチ信号とゼロクロスの周期とが互いに所定量以上異なっているか否かを判別する。そして、異なっていないと判別したときは、ゼロクロスの周期の逆数を中心周波数（ＢＰＦ２５の通過帯域の中央の周波数）とするように、ＢＰＦ２５の周波数特性を制御する。一方、所定量以上異なっていると判別したときは、平均ピッチ長の逆数を中心周波数とするように、ＢＰＦ２５の周波数特性を制御する。
【００２７】
ＢＰＦ２５は、中心周波数が可変なＦＩＲ（Ｆｉｎｉｔｅ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅ）型のフィルタの機能を行う。
具体的には、ＢＰＦ２５は、自己の中心周波数を、ＢＰＦ係数計算部２４の制御に従った値に設定する。そして、音声データ入力部１より供給される音声データをフィルタリングして、フィルタリングされた音声データ（ピッチ信号）を、ゼロクロス解析部２６及び波形相関解析部２７へと供給する。ピッチ信号は、音声データのサンプリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、ＢＰＦ２５の帯域幅は、ＢＰＦ２５の通過帯域の上限が音声データの表す音声の基本周波数の２倍以内に常に収まるような帯域幅であることが望ましい。
【００２８】
ゼロクロス解析部２６は、ＢＰＦ２５から供給されたピッチ信号の瞬時値が０となる時刻（ゼロクロスする時刻）が来るタイミングを特定し、特定したタイミングを表す信号（ゼロクロス信号）を、ＢＰＦ係数計算部２４へと供給する。
ただし、ゼロクロス解析部２６は、ピッチ信号の瞬時値が０でない所定の値となる時刻が来るタイミングを特定し、特定したタイミングを表す信号を、ゼロクロス信号に代えてＢＰＦ係数計算部２４へと供給するようにしてもよい。
【００２９】
波形相関解析部２７は、音声データ入力部１より音声データを供給され、波形相関解析部２７よりピッチ信号を供給されると、ピッチ信号の単位周期（例えば１周期）の境界が来るタイミングで音声データを区切る。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する。
【００３０】
具体的には、波形相関解析部２７は、それぞれの区間毎に、例えば、数式２の右辺により表される値ｃｏｒを、位相を表すφ（ただし、φは０以上の整数）の値を種々変化させた場合それぞれについて求める。そして、波形相関解析部２７は、値ｃｏｒが最大になるようなφの値Ψを特定し、値Ψを示すデータを生成して、この区間内の音声データの位相を表す位相データとして位相調整部２８に供給する。
【００３１】
【数２】

【００３２】
なお、区間の時間的な長さは、１ピッチ分程度であることが望ましい。区間が長いほど、区間内のサンプル数が増えてピッチ波形信号のデータ量が増大し、あるいは、サンプリング間隔が増大してピッチ波形信号が表す音声が不正確になる、という問題が生じる。
【００３３】
位相調整部２８は、音声入力部１より音声データを供給され、波形相関解析部２７より音声データの各区間の位相Ψを示すデータを供給されると、それぞれの区間の音声データの位相を、位相データが示すこの区間の位相Ψに等しくなるように移相する。そして、移相された音声データをピッチ長固定部３に供給する。
【００３４】
ピッチ長固定部３は、移相された音声データを位相調整部２８より供給されると、この音声データの各区間をサンプリングし直し（リサンプリングし）、リサンプリングされた音声データを、サブバンド分割部４に供給する。なお、ピッチ長固定部３は、音声データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングする。
また、ピッチ長固定部３は、各区間の元のサンプル数を示すサンプル数データを生成し、音声出力部８に供給する。音声データ入力部１が取得し音声データのサンプリング間隔が既知であるものとすれば、サンプル数データは、この音声データの単位ピッチ分の区間の元の時間長を表す情報として機能する。
【００３５】
サブバンド分割部４は、ピッチ長固定部３より供給された音声データにＤＣＴ（Ｄｉｓｃｒｅｔｅ　Ｃｏｓｉｎｅ　Ｔｒａｎｓｆｏｒｍ）等の直交変換、あるいは離散的フーリエ変換（例えば高速フーリエ変換など）を施すことにより、一定の周期で（例えば、単位ピッチ分の周期又は単位ピッチ分の整数倍の周期で）サブバンドデータを生成する。そして、サブバンドデータを生成するたびに、生成したサブバンドデータを平均化部５へと供給する。サブバンドデータは、サブバンド分割部４に供給された音声データが表す音声のスペクトル分布を表すデータである。
【００３６】
平均化部５は、サブバンド分割部４より複数回にわたって供給されるサブバンドデータに基づいて、スペクトル成分の値が平均化されたサブバンドデータ（以下、平均化サブバンドデータと呼ぶ）を生成し、サブバンド合成部６へと供給する。
【００３７】
平均化部５は、機能的には、図３に示すように、サブバンドデータ記憶部５１と、平均化処理部５２とより構成されている。
【００３８】
サブバンドデータ記憶部５１は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等のメモリより構成されており、サブバンド分割部４より供給されるサブバンドデータを、平均化処理部５２のアクセスに従って、最も新しく供給された方から３個記憶する。そして、平均化処理部５２のアクセスに従って、自己が記憶している信号のうち最も古い２個（古い方から３個目及び２個目）を、平均化処理部５２へと供給する。
【００３９】
平均化処理部５２は、ＤＳＰやＣＰＵ等より構成されている。なお、ピッチ抽出部２、ピッチ長固定部３、サブバンド分割部４、サブバンド合成部６及びピッチ復元部７の一部又は全部の機能を単一のデータ処理装置が、平均化処理部５２の機能を行うようにしてもよい。
【００４０】
平均化処理部５２は、上述のサブバンドデータ１個がサブバンド分割部４より供給されると、サブバンドデータ記憶部５１にアクセスする。そして、サブバンド分割部４より供給された最も新しいサブバンドデータをサブバンドデータ記憶部５１に記憶させ、また、サブバンドデータ記憶部５１が記憶している信号のうち、最も古い２個を、サブバンドデータ記憶部５１から読み出す。
【００４１】
そして、平均化処理部５２は、サブバンド分割部４より供給された１個とサブバンドデータ記憶部５１から読み出した２個、合計３個のサブバンドデータが表すスペクトル成分について、周波数が同じもの毎に強度の平均値（例えば、算術平均）を求める。そして、求めた各スペクトル成分の強度の平均値の周波数分布を表すデータ（すなわち、平均化サブバンドデータ）を生成して、サブバンド合成部６へと供給する。
【００４２】
平均化サブバンドデータを生成するために用いた３個のサブバンドデータが表すスペクトル成分のうち、周波数がｆ（ただしｆ＞０）であるものの強度が、ｉ１、ｉ２及びｉ３であるとすると（ただしｉ１≧０、ｉ２≧０、且つｉ３≧０）、平均化サブバンドデータが表すスペクトル成分のうち周波数がｆであるものの強度は、ｉ１、ｉ２及びｉ３の平均値（例えば、ｉ１、ｉ２及びｉ３の算術平均）に等しい。
【００４３】
サブバンド合成部６は、平均化部５より供給された平均化サブバンドデータに変換を施すことにより、この平均化サブバンドデータにより各周波数成分の強度が表されるような音声データを生成する。そして、生成した音声データをピッチ復元部７へと供給する。なお、サブバンド合成部６が生成する音声データは、たとえばＰＣＭ変調されたディジタル信号の形式を有していればよい。
【００４４】
サブバンド合成部６が平均化サブバンドデータに施す変換は、サブバンド分割部４がサブバンドデータを生成するために音声データに施した変換に対して実質的に逆変換の関係にあるような変換である。具体的には、たとえばサブバンドデータが音声データにＤＣＴを施して生成されたものである場合、サブバンド合成部６は、平均化サブバンドデータにＩＤＣＴ（Ｉｎｖｅｒｓｅ　ＤＣＴ）を施すようにすればよい。
【００４５】
ピッチ復元部７は、サブバンド合成部６より供給された音声データの各区間を、ピッチ長固定部３より供給されるサンプル数データが示すサンプル数でリサンプリングすることにより、各区間の時間長を、ピッチ長固定部３で変更される前の時間長に復元する。そして、各区間の時間長が復元された音声データを、音声出力部８へと供給する。
【００４６】
音声出力部８は、ＰＣＭデコーダや、Ｄ／Ａ（Ｄｉｇｉｔａｌ−ｔｏ−Ａｎａｌｏｇ）コンバータや、ＡＦ（Ａｕｄｉｏ　Ｆｒｅｑｕｅｎｃｙ）増幅器や、スピーカなどより構成されている。
音声出力部８は、ピッチ復元部７から供給された、区間の時間長を復元された音声データを取得して、この音声データを復調し、Ｄ／Ａ変換及び増幅を行い、得られたアナログ信号を用いてスピーカを駆動することにより音声を再生する。
【００４７】
以上説明した動作の結果得られる音声について、上述した図４、及び図５〜図７を参照して説明する。
図５は、図４（ｂ）に示すスペクトルを有する信号を、図１に示す音声補間装置を用いて補間した結果得られる信号のスペクトルを示すグラフである。
図６（ａ）は、図４（ａ）に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフである。
図６（ｂ）は、図４（ｂ）に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフである。
図７は、図５に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフである。
【００４８】
図５に示すスペクトルを図４（ａ）及び図４（ｃ）に示すスペクトルと比較すれば分かるように、マスキング処理を施された音声に図１の音声補間装置によってスペクトル成分を補間して得られるスペクトルは、マスキング処理を施された音声に特開２００１−３５６７８８の手法を用いてスペクトル成分を補間して得られるスペクトルに比べて、原音声のスペクトルに近いものとなる。
【００４９】
また、図６（ｂ）に示すように、マスキング処理によって一部のスペクトル成分を除去された音声の基本周波数成分や高調波成分の強度の時間変化のグラフは、図６（ａ）に示す原音声の基本周波数成分や高調波成分の強度の時間変化のグラフに比べて、滑らかさが失われている。（なお、図６（ａ）、図６（ｂ）及び図７において、「ＢＮＤ０」として示すグラフは音声の基本周波数成分の強度を示し、「ＢＮＤｋ」（ただし、ｋは１から８までの整数）として示すグラフは、この音声の（ｋ＋１）次高調波成分の強度を示している。）
【００５０】
一方、図７に示すように、マスキング処理を施された音声に図１の音声補間装置によってスペクトル成分を補間して得られる信号の基本周波数成分や高調波成分の強度の時間変化のグラフは、図６（ｂ）に示すグラフに比べて滑らかであり、図６（ａ）に示す原音声の基本周波数成分や高調波成分の強度の時間変化のグラフに近いものとなっている。
【００５１】
この結果、図１の音声補間装置により再生される音声は、特開２００１−３５６７８８の手法による補間を経て再生された音声に比べても、また、マスキング処理を施された上でスペクトルの補間を経ずに再生された音声と比べても、原音声に近い自然な音声として聞こえる。
【００５２】
また、この音声信号補間装置に入力された音声データは、ピッチ長固定部３によって単位ピッチ分の区間の時間長を規格化され、ピッチのゆらぎの影響を除去される。このため、サブバンド分割部４により生成されるサブバンドデータは、この音声データが表す音声の各周波数成分（基本周波数成分及び高調波成分）の強度の時間変化を正確に表すものとなる。従って、平均化部５により生成されるサブバンドデータは、この音声データが表す音声の各周波数成分の強度の平均値の時間変化を正確に表すものとなる。
【００５３】
なお、このピッチ波形抽出システムの構成は上述のものに限られない。
たとえば、音声データ入力部１は、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよい。この場合、音声データ入力部１は、例えばモデムやＤＳＵ（Ｄａｔａ　Ｓｅｒｖｉｃｅ　Ｕｎｉｔ）、ルータ等からなる通信制御部を備えていればよい。
【００５４】
また、音声データ入力部１は、マイクロフォン、ＡＦ増幅器、サンプラー、Ａ／Ｄ（Ａｎａｌｏｇ−ｔｏ−Ｄｉｇｉｔａｌ）コンバータ及びＰＣＭエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてＡ／Ｄ変換した後、サンプリングされた音声信号にＰＣＭ変調を施すことにより、音声データを取得すればよい。なお、音声データ入力部１が取得する音声データは、必ずしもＰＣＭ信号である必要はない。
【００５５】
また、音声出力部８は、ピッチ復元部７より供給された音声データやこの音声データを復調して得られるデータを、通信回線を介して外部に供給するようにしてもよい。この場合、音声出力部８は、モデムやＤＳＵ等からなる通信制御部を備えていればよい。
また、音声出力部８は、ピッチ復元部７より供給された音声データやこの音声データを復調して得られるデータを、外部の記録媒体や、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。この場合、音声出力部８は、記録媒体ドライバや、ハードディスクコントローラ等の制御回路を備えていればよい。
【００５６】
また、平均化部５が平均化サブバンドデータを生成するために用いるサブバンドデータの個数は、平均化サブバンドデータ１個あたり複数個であればよく、必ずしも３個には限られない。また、平均化サブバンドデータを生成するために用いる複数回分のサブバンドデータは、互いに連続してサブバンド分割部４から供給されたものである必要はなく、例えば、平均化部５は、サブバンド分割部４より供給されるサブバンドデータを１個おき（又は複数個おき）に複数個取得して、取得したサブバンドデータのみを平均化サブバンドデータの生成に用いるようにしてもよい。
なお、平均化処理部５２は、サブバンドデータ１個がサブバンド分割部４より供給されると、サブバンドデータ記憶部５１にこのサブバンドデータをいったん記憶させてから、最も新しいサブバンドデータ３個を読み出して、平均化サブバンドデータの生成に用いるようにしても差し支えない。
【００５７】
以上、この発明の実施の形態を説明したが、この発明にかかる音声信号補間装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、Ｄ／ＡコンバータやＡＦ増幅器やスピーカを備えたパーソナルコンピュータに上述の音声データ入力部１、ピッチ抽出部２、ピッチ長固定部３、サブバンド分割部４、平均化部５、サブバンド合成部６、ピッチ復元部７及び音声出力部８の動作を実行させるためのプログラムを格納した媒体（ＣＤ−ＲＯＭ、ＭＯ、フレキシブルディスク等）から該プログラムをインストールすることにより、上述の処理を実行する音声信号補間装置を構成することができる。
【００５８】
また、例えば、通信回線の掲示板（ＢＢＳ）にこのプログラムをアップロードし、これを通信回線を介して配信してもよく、また、このプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこのプログラムを復元するようにしてもよい。
そして、このプログラムを起動し、ＯＳの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
【００５９】
なお、ＯＳが処理の一部を分担する場合、あるいは、ＯＳが本願発明の１つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。
【００６０】
【発明の効果】
以上説明したように、この発明によれば、人の音声を、圧縮された状態から高音質を保ちつつ復元するための音声信号補間装置及び音声信号補間方法が実現される。
【図面の簡単な説明】
【図１】この発明の実施の形態に係る音声信号補間装置の構成を示すブロック図である。
【図２】ピッチ抽出部の構成を示すブロック図である。
【図３】平均化部の構成を示すブロック図である。
【図４】（ａ）は、原音声のスペクトルの一例を示すグラフであり、（ｂ）は、（ａ）に示すスペクトルを周波数マスキングの手法を用いて圧縮した結果得られるスペクトルを示すグラフであり、（ｃ）は、（ａ）に示すスペクトルを従来の手法を用いて補間した結果得られるスペクトルを示すグラフである。
【図５】図４（ｂ）に示すスペクトルを有する信号を、図１に示す音声補間装置を用いて補間した結果得られる信号のスペクトルを示すグラフである。
【図６】（ａ）は、図４（ａ）に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフであり、（ｂ）は、図４（ｂ）に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフである。
【図７】図５に示すスペクトルを有する音声の基本周波数成分及び高調波成分の強度の時間変化を示すグラフである。
【符号の説明】
１　　　音声データ入力部
２　　　ピッチ抽出部
２１　　　ケプストラム解析部
２２　　　自己相関解析部
２３　　　重み計算部
２４　　　ＢＰＦ係数計算部
２５　　　ＢＰＦ
２６　　　ゼロクロス解析部
２７　　　波形相関解析部
２８　　　位相調整部
３　　　ピッチ長固定部
４　　　サブバンド分割部
５　　　平均化部
５１　　　サブバンドデータ記憶部
５２　　　平均化処理部
６　　　サブバンド合成部
７　　　ピッチ復元部
８　　　音声出力部

Claims

音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工するピッチ波形信号生成手段と、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成するスペクトル抽出手段と、
前記スペクトル抽出手段が生成した複数のデータに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成する平均化手段と、
前記平均化手段が生成した平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する音声信号復元手段と、を備える、
ことを特徴とする音声信号補間装置。
前記ピッチ波形信号生成手段は、
制御に従って周波数特性を変化させ、前記入力音声信号をフィルタリングすることにより、前記音声の基本周波数成分を抽出する可変フィルタと、
前記可変フィルタにより抽出された基本周波数成分に基づいて前記音声の基本周波数を特定し、特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるように前記可変フィルタを制御するフィルタ特性決定手段と、
前記入力音声信号を、前記可変フィルタにより抽出された基本周波数成分の値に基づき、単位ピッチ分の音声信号からなる区間へと区切るピッチ抽出手段と、
前記入力音声信号の各前記区間内を互いに実質的に同数の標本でサンプリングすることにより、各該区間内の時間長が実質的に同一に揃ったピッチ波形信号を生成するピッチ長固定部と、を備える、
ことを特徴とする請求項１に記載の音声信号補間装置。
前記フィルタ特性決定手段は、前記可変フィルタにより抽出された基本周波数成分が所定値に達するタイミングが来る周期を特定し、特定した周期に基づいて前記基本周波数を特定するクロス検出手段を備える、
ことを特徴とする請求項２に記載の音声信号補間装置。
前記フィルタ特性決定手段は、
フィルタリングされる前の入力音声信号に基づいて、当該入力音声信号が表す音声のピッチの時間長を検出する平均ピッチ検出手段と、
前記クロス検出手段が特定した周期と前記平均ピッチ検出手段が特定したピッチの時間長とが互いに所定量以上異なっているか否かを判別して、異なっていないと判別したときは前記クロス検出手段が特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御し、異なっていると判別したときは前記平均ピッチ検出手段が特定したピッチの時間長から特定される基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御する判別手段と、を備える、
ことを特徴とする請求項３に記載の音声信号補間装置。
前記平均ピッチ検出手段は、
前記可変フィルタによりフィルタリングされる前の入力音声信号のケプストラムが極大値をとる周波数を求めるケプストラム分析手段と、
前記可変フィルタによりフィルタリングされる前の入力音声信号の自己相関関数のピリオドグラムが極大値をとる周波数を求める自己相関分析手段と、
前記ケプストラム分析手段及び前記自己相関分析手段が求めた各周波数に基づいて当該入力音声信号が表す音声のピッチの平均値を求め、求めた平均値を当該音声のピッチの時間長として特定する平均計算手段と、を備える、
ことを特徴とする請求項４に記載の音声信号補間装置。
音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工し、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成し、
前記入力音声信号のスペクトルを表す複数の前記データに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成し、
前記平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する、
ことを特徴とする音声信号補間方法。
コンピュータを、
音声の波形を表す入力音声信号を取得し、当該入力音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該入力音声信号をピッチ波形信号へと加工するピッチ波形信号生成手段と、
ピッチ波形信号に基づき、前記入力音声信号のスペクトルを表すデータを生成するスペクトル抽出手段と、
前記スペクトル抽出手段が生成した複数のデータに基づき、前記入力音声信号の各スペクトル成分の平均値の分布を示すスペクトルを表す平均化データを生成する平均化手段と、
前記平均化手段が生成した平均化データが表すスペクトルを有する音声を表す出力音声信号を生成する音声信号復元手段と、
して機能させるためのプログラム。