JP2001117600A - 音声信号処理装置および音声信号処理方法 - Google Patents

音声信号処理装置および音声信号処理方法

Info

Publication number
JP2001117600A
JP2001117600A JP30027599A JP30027599A JP2001117600A JP 2001117600 A JP2001117600 A JP 2001117600A JP 30027599 A JP30027599 A JP 30027599A JP 30027599 A JP30027599 A JP 30027599A JP 2001117600 A JP2001117600 A JP 2001117600A
Authority
JP
Japan
Prior art keywords
sine wave
phase
component
audio signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP30027599A
Other languages
English (en)
Other versions
JP4455701B2 (ja
Inventor
Hiroshi Kayama
啓 嘉山
Sera Xavier
セラ ザビエル
Bonada Jordi
ボナダ ジョルディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universitat Pompeu Fabra UPF
Yamaha Corp
Original Assignee
Universitat Pompeu Fabra UPF
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universitat Pompeu Fabra UPF, Yamaha Corp filed Critical Universitat Pompeu Fabra UPF
Priority to JP30027599A priority Critical patent/JP4455701B2/ja
Publication of JP2001117600A publication Critical patent/JP2001117600A/ja
Application granted granted Critical
Publication of JP4455701B2 publication Critical patent/JP4455701B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

(57)【要約】 【課題】 正弦波分析を行って抽出した基本波成分と倍
音成分間の位相関係を保持した変換処理を行うことによ
り、より自然な変換処理音声を作り出す。 【解決手段】 音声信号が入力されると、SMS分析が
行われ、正弦波成分が抽出される。抽出した正弦波成分
の位相情報から基本周波数と各倍音成分との位相の関係
を示す位相関係情報を取得する。そして、SMS変換処
理がなされた後、上記のように取得した位相関係情報を
用いて、変換処理後の位相を形成する。これにより、元
の信号にみられた基本波周波数と倍音成分の位相関係が
保持された変換処理後の音声信号を生成することができ
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力される音声信
号に対して正弦波分析を行い正弦波成分を取得し、該正
弦波成分に変換処理を行う音声信号処理装置、および音
声信号処理方法に関する。
【0002】
【従来の技術】入力された音声の周波数特性などを変え
て出力する音声変換装置が開発されており、このような
音声変換装置を利用したカラオケ装置も開発されてい
る。
【0003】上記のような音声変換装置としては、入力
される音声信号に正弦波分析を行って複数の正弦波成分
(基本波成分および倍音成分)と残差成分(主に無声
音)を抽出し、抽出した各正弦波成分に周波数変換など
の処理を施す。そして、変換処理後の新たな正弦波成分
と残差成分を合成することにより、入力された音声信号
の変換を行うものが開発されている。
【0004】
【発明が解決しようとする課題】ところで、上述したよ
うな各正弦波成分に変換処理を施す場合、基本波成分お
よび倍音成分について、新たに振幅、周波数および位相
を形成する必要がある。従って、変換処理の際には、正
弦波分析により得られた各正弦波成分の全てについて、
振幅、周波数および位相を示すデータを属性(attribut
e)データとして保持し、保持した属性データを用いて
変換処理後の新たな各正弦波成分の振幅、周波数および
位相を形成していた。
【0005】しかし、上述したように元の正弦波成分の
位相を示すデータを用いて新たな正弦波成分の位相を形
成する方法では、ピッチシフトやタイムストレッチ(時
間伸張)などの変換処理を行った場合、位相の不連続が
生じてしまい、これに起因して変換した出力音声の音質
が劣化して自然さが損なわれてしまう。また、基本波成
分と倍音成分の位相を連続するように形成した場合も、
元の信号から取得した各成分間の位相関係が崩れてしま
い、これに起因して音質が劣化して自然さが損なわれて
しまう。
【0006】また、位相を示すデータを属性データとし
て保持せずに、新たな正弦波成分の位相を形成する方法
も考えられている。この場合、各正弦波成分の周波数に
関わらず、位相をランダムに生成したり、位相を任意の
固定値とする方法があるが、この場合にも各正弦波成分
間の位相に相関性がなく、音質が劣化して自然さが損な
われてしまう。
【0007】また、位相を示すデータを属性データとし
て保持せずに、新たな正弦波成分の位相を形成する方法
としては、正弦波分析によって得られた周波数を示すデ
ータから新たな正弦波成分の位相を形成する方法もあ
る。しかしながら、この方法で位相を形成する場合に
は、入力される音声がインパルス的な音であったり、ピ
ッチが低域な音である場合には、新たに生成した位相と
元の位相との違いに起因して、聴取者は音の鮮明さや残
響感の違いを感じてしまう。特に、低周波数領域におい
ては、位相の人の知覚は顕著であり、低周波領域の音の
場合には聴取者が感じる違和感が大きくなってしまう。
【0008】本発明は、上記の事情を考慮してなされた
ものであり、正弦波分析を行って抽出した複数の正弦波
成分間の位相関係を保持したまま変換処理を行うことに
より、より自然な変換処理音声を作り出すことが可能な
音声信号処理装置、および音声信号処理方法を提供する
ことを目的とする。
【0009】
【課題を解決するための手段】上記課題を解決するた
め、本発明の請求項1に記載の音声信号処理装置は、入
力される音声信号に正弦波分析を施して正弦波成分を取
得する正弦波取得手段と、前記正弦波取得手段により取
得された正弦波成分に変換処理を施して出力する変換手
段とを備える音声信号処理装置において、前記正弦波取
得手段により取得された正弦波成分の基本波成分および
各倍音成分の位相関係を示す位相関係情報を取得する位
相関係情報取得手段を備え、前記変換手段は、前記位相
関係情報取得手段により取得された位相関係情報および
変換処理後の新たな基本波成分の位相に基づいて、出力
すべき倍音成分の位相を形成する位相形成手段を有して
いることを特徴としている。
【0010】また、請求項2に記載の音声信号処理装置
は、請求項1に記載の音声信号処理装置において、前記
位相関係情報取得手段は、前記正弦波取得手段により取
得された正弦波成分から前記位相関係情報を取得するこ
とを特徴としている。
【0011】また、請求項3に記載の音声信号処理装置
は、請求項1に記載の音声信号処理装置において、前記
位相関係情報取得手段は、予め設定された条件にしたが
って擬似的な前記位相関係情報を生成することを特徴と
している。
【0012】また、請求項4に記載の音声信号処理装置
は、請求項3に記載の音声信号処理装置において、前記
擬似的な位相関係情報は、前記正弦波取得手段により取
得された正弦波成分の倍音成分の周波数に応じて決定さ
れることを特徴としている。
【0013】また、請求項5に記載の音声信号処理装置
は、請求項4に記載の音声信号処理装置において、前記
擬似的な位相関係情報は、倍音成分の周波数が所定周波
数未満である場合には位相関係情報を固定値とし、倍音
成分の周波数が前記所定周波数以上である場合には倍音
成分の周波数を変数とする予め設定された関数により決
定されることを特徴としている。
【0014】また、請求項6に記載の音声信号処理装置
は、請求項3に記載の音声信号処理装置において、前記
擬似的な位相関係情報は、前記正弦波取得手段により取
得された正弦波成分のエンベロープ形状に応じて決定さ
れることを特徴としている。
【0015】また、請求項7に記載の音声信号処理装置
は、請求項5または6に記載の音声信号処理装置におい
て、前記位相関係情報取得手段は、生成する前記擬似的
な位相関係情報にゆらぎを付与することを特徴としてい
る。
【0016】また、請求項8に記載の音声信号処理方法
は、入力される音声信号に正弦波分析を施して正弦波成
分を取得する正弦波取得ステップと、前記正弦波取得ス
テップにより取得された正弦波成分に変換処理を施して
出力する変換ステップとを備える音声信号処理方法にお
いて、前記正弦波取得ステップにより取得された正弦波
成分の基本波成分および各倍音成分の位相関係を示す位
相関係情報を取得する位相関係情報取得ステップを備
え、前記変換ステップでは、前記位相関係情報取得ステ
ップにより取得された位相関係情報および変換処理後の
新たな基本波成分の位相に基づいて、出力すべき倍音成
分の位相を形成することを特徴としている。
【0017】また、請求項9に記載の音声信号処理方法
は、請求項8に記載の音声信号処理方法において、前記
位相関係情報取得ステップでは、前記正弦波取得ステッ
プにより取得された正弦波成分から前記位相関係情報を
取得することを特徴としている。
【0018】また、請求項10に記載の音声信号処理方
法は、請求項8に記載の音声信号処理方法において、前
記位相関係情報取得ステップは、予め設定された条件に
したがって擬似的な前記位相関係情報を生成することを
特徴としている。
【0019】また、請求項11に記載の音声信号処理方
法は、請求項10に記載の音声信号処理方法において、
前記擬似的な位相関係情報は、前記正弦波取得ステップ
により取得された正弦波成分の倍音成分の周波数に応じ
て決定されることを特徴としている。
【0020】また、請求項12に記載の音声信号処理方
法は、請求項11に記載の音声信号処理方法において、
前記擬似的な位相関係情報は、倍音成分の周波数が所定
周波数未満である場合には位相関係情報を固定値とし、
倍音成分の周波数が前記所定周波数以上である場合には
倍音成分の周波数を変数とする予め設定された関数によ
り決定されることを特徴としている。
【0021】また、請求項13に記載の音声信号処理方
法は、請求項10に記載の音声信号処理方法において、
前記擬似的な位相関係情報は、前記正弦波取得ステップ
により取得された正弦波成分のエンベロープ形状に応じ
て決定されることを特徴としている。
【0022】また、請求項14に記載の音声信号処理方
法は、請求項12または13に記載の音声信号処理方法
において、前記位相関係情報取得ステップでは、生成す
る前記擬似的な位相関係情報にゆらぎを付与することを
特徴としている。
【0023】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態について説明する。 A.第1実施形態 A−1.構成 まず、図1は本発明の第1実施形態に係る音声信号処理
装置の構成を示す。同図に示すように、この音声信号処
理装置は、SMS(Spectral Modeling Synthesis)分
析部100と、変換処理部101と、位相関係情報取得
部102と、位相形成部103と、逆FFT部104
と、パラメータ設定部25とを備えている。
【0024】SMS分析部100は、入力される音声信
号をフレーム単位に区切り、フレーム単位に区切られた
音声信号を出力する時間窓処理部10と、時間窓処理部
10からのフレーム単位の音声信号に対して高速フーリ
エ変換(FFT)処理を行い、周波数分析を行う周波数
分析部11とを有している。なお、本実施形態におい
て、音声信号とは人の発する声を信号化したものに限ら
ず、楽器の発生した楽音等を含んだ音全般を信号化した
ものをいう。
【0025】周波数分析部11は、フレーム単位の音声
信号に対してFFTを行うことにより、その正弦波成分
と残差成分を抽出する。正弦波成分とは、基本周波数お
よび基本周波数の倍数にあたる周波数(倍音)の成分を
いう。また、正弦波成分として抽出されるデータとして
は、周波数を示す周波数情報fnと、振幅を示す振幅情
報Anと、位相を示す位相情報Ψnとが含まれている。こ
こで、残差成分とは入力信号から正弦波成分を除いた成
分であり、音声に含まれる無声成分を多く含んでいる。
【0026】SMS分析部100によって抽出された残
差成分は、逆FFT部104に出力され、正弦波成分は
変換処理部101および位相関係情報取得部102に出
力される。ここで、変換処理部101には正弦波成分の
うち周波数情報fnおよび振幅情報Anが出力され、位相
関係情報取得部102には位相情報Ψnが出力されるよ
うになっている。
【0027】変換処理部101は、パラメータ設定部2
5により設定されたパラメータ等に基づいて、SMS分
析部100から供給される正弦波成分(位相情報Ψnを
除く)に変換処理を行うものである。例えば、この音声
信号処理装置がカラオケ装置に適用されている場合に
は、図2に示すような構成のものなどが用いられる。
【0028】図2において、符号110は分離部であ
り、周波数分析部11が出力する周波数値F0〜Fnと振
幅値A0〜Anとを分離する。ピッチ検出部111は、分
離部110から供給される周波数値に基づいて各フレー
ム毎のピッチを検出する。この場合のピッチ検出は、分
離部110が出力する周波数値のうち最も低い値から所
定数(例えば3個程度)の周波数値を選択し、それらの
周波数値を所定の重み付けをした後に、それらの平均を
算出してピッチPSとする。また、ピッチ検出部111
は、ピッチを検出することができないフレームについて
は、ピッチ無しを示す信号を出力する。ピッチ無しのフ
レームとは、そのフレーム内の音声信号がほとんど無声
音やノイズによって構成されている場合である。このよ
うなフレームについては、周波数スペクトルが倍音構成
とならないので、ピッチ無しと判定する。
【0029】次に、符号20は音声を似せようとする対
象(以下、ターゲットという)の情報が記憶されている
ターゲット情報記憶部である。ターゲット情報記憶部2
0は、曲毎にターゲットの情報を記憶している。ターゲ
ットの情報は、ターゲットの音声の音階的なピッチを抽
出したピッチ情報PToと、ピッチの揺らぎ成分PTf
と、確定的な振幅成分(分離部110が出力する振幅値
A0、A1、A2……と同種の成分)とを有しており、こ
れらの情報は、音階的ピッチ記憶部21、ゆらぎピッチ
記憶部22および確定的振幅成分記憶部23に各々記憶
されている。ターゲット情報記憶部20は、カラオケ演
奏に同期して、上述した各情報を読み出すようになって
いる。
【0030】次に、音階的ピッチ記憶部21から読み出
されたピッチ情報PToは、割合制御部30においてピ
ッチPSと混合される。この場合の混合は、次の式に基
づいて行われる。 (1.0-α)*PS+α*PTo ここで、αは0から1までの値をとるパラメータであ
り、割合制御部30から出力される信号は、α=0でピッ
チPSに等しくなり、α=1でピッチ情報PToに等しく
なる。また、パラメータαは、操作者がパラメータ設定
部25(図1参照)を操作することによって任意の値が
設定される。パラメータ設定部25においては、後述す
るパラメータβ、γも設定可能になっている。
【0031】次に、ピッチ正規化部12は、分離部11
0から出力される各周波数値f0〜fnをピッチPSで割
り、周波数値を正規化する。正規化された各周波数値f
0/PS〜fn/PS(ディメンジョンは無名数)は、乗
算部15によって割合制御部からの信号と乗算され、そ
のディメンジョンは再び周波数となる。この場合、パラ
メータαの値により、マイク1から音声を入力している
歌い手(以下、シンガーという)のピッチの影響が強く
なるか、あるいは、ターゲットのピッチの影響が強くな
るかが決定される。
【0032】割合制御部31は、ゆらぎピッチ記憶部2
2から出力される揺らぎ成分PTfにパラメータβ(0
≦β≦1)を乗算部14で乗算して出力する。この場
合、揺らぎ成分PTfは、セントの単位でピッチ情報P
Toに対する偏差を示している。従って、割合制御部3
1においては、揺らぎ成分PTfを1200(1オクタ
ーブは1200セント)で除し、それに対し2のべきを
とる演算を行う。すなわち、以下の演算を行う。 POW(2,(PTf*β/1200)) この演算結果と乗算部15の出力信号が乗算され、さら
に、乗算部14の出力信号は、乗算部17において、ト
ランスポーズ制御部32の出力信号と乗算される。トラ
ンスポーズ制御部32は、移調を行う音程に応じた値を
出力するものである。どの程度の移調を行うかは、任意
に設定されるが、通常は、移調なしが設定されるか、あ
るいは、オクターブ単位の変化が指定される。オクター
ブ単位の変化が指定されるのは、ターゲットが男性でシ
ンガーが女性(あるいはその逆)の場合のように、歌う
音程にオクターブの差がある場合などのときである。以
上のようにして、ピッチ正規化部12から出力された周
波数値は、ターゲットのピッチ、揺らぎ成分が付与さ
れ、さらに、必要であればオクターブ変換が行われた後
に出力される。
【0033】次に、符号13は、振幅検出部であり、分
離部110から供給される振幅値A0、A1、A2……の
平均値MSをフレーム毎に検出する。振幅正規化部16
においては、振幅値A0、A1、A2……をその平均値で
割り、振幅値を正規化する。割合制御部18において
は、確定的振幅成分記憶部23から読み出される確定的
振幅成分AT0、AT1、AT2……(これらは正規化されて
いる)と正規化された振幅値とを混合する。混合の度合
いはパラメータγに従って行われる。確定的振幅成分A
T0、AT1、AT2……をATn(n=1、2、3……)で表
し、振幅正規化部16から出力される振幅値をASn’
(n=1、2、3……)で表すと、割合制御部18の動
作は次の演算で表される。 (1-γ)*ASn'+γ*ATn γはパラメータ設定部25(図1参照)において適宜設
定されるパラメータであり、0から1までの値をとる。
γが大きいほど、ターゲットの影響を強く受ける。音声
信号の正弦波成分の振幅は、声質を決めるものであるか
ら、γが大きいほどターゲットの声質に近くなる。割合
制御部18の出力信号は、乗算部19において、平均値
MSと乗算される。すなわち、正規化された信号から振
幅を直接表す信号に変換される。
【0034】このようにして変換処理がなされた周波数
情報f”nおよび振幅情報A”nが出力される。
【0035】図1に示す位相関係情報取得部102は、
正弦波成分の基本周波数の位相Ψ0と、各倍音成分の位
相Ψn(nは倍音の次数)との位相関係を示す位相関係
情報を取得する。以下、このような位相関係情報を取得
する方法について図3を参照しながら説明する。
【0036】まず、現在の時刻tNにおける基本周波数
の位相ΨN0が最も手前で定数C(例えば、C=π)とな
るように位相をシフトしたときの位相シフト時間tCN
すると、tCNは基本周波数f0(現在のフレームのピッ
チ)、ΨN0および定数Cより、次式により表される。
【数1】 各倍音成分の位相について、上記式で算出した位相シフ
ト時間tCNを用いて次式のように表現することができ
る。
【数2】 上記式において、ΨN’0=Cである。このようにして、
基本周波数と各倍音成分との位相の関係を示すΨN’nを
各倍音成分の位相関係情報として位相関係情報取得部1
02が取得して保持する。従って、本実施形態において
は、分析された位相ΨNnそのものを示す情報を保持しな
いようになっている。
【0037】図1に示す位相形成部103は、上述した
ように位相関係情報取得部102に取得された位相関係
情報ΨN’nと、変換処理部101により変換処理がなさ
れた後の周波数情報f”nとに基づいて、変換処理後の
位相を形成する。このような位相形成方法について図4
を参照しながら説明する。
【0038】まず、ピッチの進行、基本周波数の進行、
または元の信号の基本周波数と位相に基づく関数等によ
り各フレームの基本周波数の位相ΨN”0が決定される。
具体的に例示すると、フレーム処理を進めていく上で、
無声音から有声音になったとき、もしくは無音から有声
音になったとき(前フレームでピッチが検出されなかっ
た場合)の基本周波数の位相Ψ”N0を定数Cとすれば、
次フレーム(前フレームでピッチが検出された場合)の
位相についてはこの位相(=C)、基本周波数f”n
(あるいはピッチ)および1フレームの長さTから変換
処理後の基本周波数のΨN”0を決定することができる。
以後同様に、前フレームでピッチが検出されなかった場
合にはΨ”N0=Cとし、前フレームでピッチが検出され
た場合には、次式により位相Ψ”N0を決定する。 Ψ”N0=2πf”n+Ψ”N-10
【0039】このように変換処理後の基本周波数の位相
ΨN”0が決定されると、変換処理部101から供給され
る変換処理後の基本周波数f”nを用いた次式により位
相シフト時間tSNが決定される。
【数3】 上記式により算出された位相シフト時間tSN、位相関係
情報取得部102により取得された位相関係情報ΨN
n、および変換処理部101から供給される変換処理後
の各倍音成分の周波数f”nを用い、次の式により変換
処理後の時刻tNにおける位相ΨN”nが表される。
【数4】 これにより、位相形成部103は変換処理後の各倍音成
分の位相を形成し、変換処理後の位相を示す位相情報Ψ
N”nを逆FFT部104に出力する。
【0040】逆FFT部104には、位相形成部103
からの位相情報Ψ”nに加え、変換処理部101からの
変換処理後の周波数情報f”nおよび振幅情報A”nと、
SMS分析部100からの残差成分とが供給される。こ
れらに逆FFT処理を施し、正弦波成分と残差成分がS
MS合成されて合成音声信号を出力する。
【0041】A−2.動作 次に、上記構成の音声信号処理装置の動作について図5
を参照しながら説明する。まず、音声信号が入力される
と、入力音声信号にSMS分析部100によりフレーム
単位でSMS分析が施され、正弦波成分と残差成分が抽
出される。ここで、正弦波成分として、周波数情報f
n、振幅情報Anおよび位相情報Ψnが取得される(ステ
ップSa1)。
【0042】そして、位相情報Ψnに基づいて、正弦波
成分の基本周波数と各倍音成分の位相の関係を示す位相
関係情報Ψ’nが取得される(ステップSa2)。ま
た、周波数情報fnおよび振幅情報Anに対してはターゲ
ット音声データと乗算されるといった変換処理がなされ
(ステップSa3)、変換処理後の周波数情報f”nお
よび振幅情報A”nが取得される。
【0043】そして、ステップSa2において取得され
た位相情報Ψ’nと、ステップSa3において変換され
た変換後の周波数f”nとに基づいて、変換処理後の位
相Ψ”nが形成される(ステップSa4)。このように
して変換処理後の正弦波成分(f”n、A”n、Ψ”n)
と、ステップSa1において抽出された残差成分が合成
されて合成出力信号が生成される(ステップSa5)。
【0044】このように本実施形態に係る音声信号処理
装置によれば、音声信号に変換処理を行った場合にも、
変換処理後の基本周波数と倍音成分の位相の関係を、元
の信号にみられた位相関係を崩すことなく保持すること
ができる。従って、変換処理後の音声信号に位相の不連
続が生じることを低減でき、変換処理後に出力される音
声をより自然な感じとすることができる。ピッチシフト
やタイムストレッチなどの変換処理を行った場合にも、
位相の不連続が生じず、変換後の音声の劣化(不自然
さ)を抑制することができる。
【0045】B.第2実施形態 次に、本発明の第2実施形態に係る音声信号処理装置に
ついて説明する。なお、第2実施形態に係る音声信号処
理装置は、位相関係情報取得部102による位相関係情
報の取得方法が上記第1実施形態と異なる以外は、上記
第1実施形態と同様の構成(図1参照)であるため、同
様の部分についての説明を省略し、位相関係情報取得部
102による位相関係情報の取得方法について図6を参
照しながら説明する。
【0046】第2実施形態に係る音声信号処理装置で
は、位相関係情報取得部102がSMS分析により得ら
れる位相情報Ψnを保持せず、また上記第1実施形態の
ようにSMS分析により得られた正弦波成分から位相関
係情報Ψ’nを取得するのではなく、元の音声信号にみ
られた基本周波数と倍音成分の位相の関係を示す位相関
係情報Ψ’nを擬似的に生成し、この擬似的な位相関係
情報Ψ’nを用いて位相形成部103(図1参照)が変
換後の位相Ψ”nを形成している。
【0047】このような擬似的な位相関係情報Ψ’nの
生成方法について詳細に説明する。第2実施形態におけ
る位相関係情報取得部102は、図6に示すように、予
め設定された境界周波数fb(例えば、2kHz)未満
の基本周波数または倍音成分と、境界周波数fb以上の
倍音成分とで擬似的な位相関係情報Ψ’nの生成方法を
使い分けている。
【0048】より具体的には、境界周波数fb未満の周
波数を有する基本周波数および倍音成分については擬似
位相関係情報Ψ’nを定数C(例えば、C=π)とし、
境界周波数fb以上の周波数の倍音成分については擬似
位相関係情報Ψ’nを各倍音成分の周波数値fに応じて
変化する所定の関数(例えば、F(f)=0)で算出す
る。つまり、境界周波数fb未満の基本周波数および倍
音成分については、擬似位相関係情報Ψ’n=Cとし、
境界周波数fb以上の倍音成分については、擬似位相関
係情報Ψ’n=F(f)とする。すなわち、位相関係情報
取得部102は、次式を用いて擬似位相関係情報Ψ’n
を取得する。
【数5】 このようにして位相関係情報取得部102が取得した擬
似位相関係情報Ψ’Nnを用いて、位相形成部103が変
換処理後の位相ΨN”nを形成する方法について図7を参
照しながら説明する。
【0049】まず、上記第1実施形態と同様に変換処理
後の基本周波数の位相Ψ”N0(N番目のフレームの位
相)が決定されると、この位相ΨN”0および変換処理後
の基本周波数f”0を用いた上記式(1)により、位相
シフト時間tSNが決定される。
【0050】従って、変換処理後の各倍音成分の位相Ψ
N”nは、上記のように取得した擬似位相関係情報ΨN’n
および変換処理後の周波数f”nを用いて上記式(2)
により表される。
【0051】上記式(2)において、変換処理後の周波
数が境界周波数fb未満の倍音成分については擬似位相
情報ΨN’n=Cが用いられ、境界周波数fb以上の倍音
成分については擬似位相情報ΨN’n=F(f)が用いら
れる。このようにして変換処理後の各倍音成分の位相Ψ
N”nを形成することができる。
【0052】第2実施形態に係る音声信号処理装置で
は、上記第1実施形態と同様に音声信号に変換処理を行
った場合にも、変換処理後の基本周波数と各倍音成分の
位相関係を、元の信号にみられた位相関係を擬似的に保
持することができる。従って、位相の不連続等に起因す
る合成出力後の音声の不自然さを低減することができ
る。また、擬似的な位相関係情報Ψ’nを用いて位相を
形成しているので、保持する元の信号の正弦波成分のデ
ータ量を少なくすることができる。
【0053】なお、上述したように生成する擬似位相関
係情報Ψ’nをより自然なものとするために定数Cおよ
び関数F(f)にゆらぎを与えるようにしてもよい。具
体的に例示すると、フレーム毎あるいは各倍音毎に乱数
(Rand(−1≦Rand≦1)を発生する乱数発生手段を設
け、定数CL(例えば、CL=0.25)および定数C R
(例えば、CR=0.125)を用いた次式によりΨ’n
を算出するようにしてもよい。 C=C+CLπRand if f<fb F(f)=F(f)+CRπRand if f≧fb このようにすれば、より自然な位相関係を示す擬似位相
情報Ψ’nを取得することができ、合成出力後の音声に
より自然さをもたせることができる。
【0054】C.第3実施形態 次に、本発明の第3実施形態に係る音声信号処理装置に
ついて図8を参照しながら説明する。同図に示すよう
に、第3実施形態に係る音声信号処理装置では、SMS
分析部100による分析で取得した位相情報Ψnを保持
せずに、正弦波成分として周波数情報fnおよび振幅情
報Anを変換処理部101に出力している。
【0055】変換処理部101では、第1実施形態と同
様に変換処理がなされて、変換処理後の周波数情報f”
nおよび振幅情報A”nに加えて、正弦波分析によりスペ
クトラルシェープが取得され、このスペクトラルシェー
プが位相関係情報取得部102に供給されるようになっ
ている。そして、位相関係情報取得部102では、供給
されたスペクトラルシェープのエンベロープ形状に応じ
て、擬似的な位相関係情報Ψ’nを生成するようになっ
ている。
【0056】第3実施形態における位相関係情報取得部
102では、まず、変換処理部101から供給されるス
ペクトラルシェープ(図9参照)のピーク周波数F
(1)、F(2)、F(3)、……を用い、次式により各
ピーク周波数の強度Q(1)、Q(2)、Q(3)、……
を求めている。
【数6】 上記式において、F(n)Uはスペクトラルシェープの高
域ピーク減衰周波数であり、F(n)Lはスペクトラルシ
ェープの低域ピーク減衰周波数である。このように算出
した各ピーク周波数の強度Q(1)、Q(2)、Q
(3)、……を用い、次式により各倍音の擬似位相関係
情報Ψ’nを算出する。ここで、上記第1実施形態と同
様に基本周波数の擬似位相関係情報Ψ’0は定数C(例
えば、C=π)である。
【数7】 上記式において、Bは定数であり、S(n)は各倍音の
擬似位相関係情報の基本周波数からのシフト量を示す。
【0057】第3実施形態では、各倍音成分の周波数値
fがスペクトラルシェープのいずれのピーク周波数間
(F(1)〜F(2)間やF(2)〜F(3)間など)の値
であるかによって、それぞれ異なる擬似位相関係情報
Ψ’nが生成されることになる。
【0058】このようにして各倍音成分の擬似位相関係
情報Ψ’nが取得されると、上記第1および第2実施形
態と同様に、この擬似位相関係情報Ψ’nと、変換処理
後の周波数情報f”nと、基本周波数の位相Ψ”0とを用
いて、上記式(1)により位相シフト時間tSNが算出さ
れる。
【0059】従って、図10に示す変換処理後の各倍音
成分の位相ΨN”n(N番目のフレームの位相)は、上記
のように取得した擬似位相関係情報Ψ’nおよび変換処
理後の周波数f”nを用いて上記式(2)により算出さ
れる。このようにして各倍音成分の位相ΨN”nを形成す
ることができる。
【0060】第3実施形態に係る音声信号処理装置で
は、上記第1および第2実施形態と同様に音声信号に変
換処理を行った場合にも、変換処理後の基本周波数と各
倍音成分の位相関係を、元の信号にみられた位相関係を
擬似的に保持することができる。従って、位相の不連続
等に起因する合成出力後の音声の不自然さを低減するこ
とができる。また、擬似的な位相関係情報Ψ’nを用い
て位相を形成しているので、保持する元の信号の正弦波
成分のデータ量を少なくすることができる。
【0061】なお、第3実施形態においても、擬似位相
関係情報Ψ’nをより自然なものとするために定数Cお
よび定数Bにゆらぎを与えるようにしてもよい。具体的
に例示すると、フレーム毎あるいは各倍音毎に乱数(Ra
nd(−1≦Rand≦1)を発生する乱数発生手段を設け、
定数CL(例えば、CL=0.25)および定数CR(例
えば、CR=0.125)を用いた次式によりΨ’nを算
出するようにしてもよい。 C=C+CLπRand B=B+CRπRand このようにすれば、より自然な位相関係を示す擬似位相
情報Ψ’nを取得することができ、合成出力後の音声に
より自然さをもたせることができる。
【0062】D.変形例 なお、本発明は、上述した様々な実施形態に限定される
ものではなく、以下のような種々の変形が可能である。
【0063】(1)上述した各実施形態においては、変
換処理部101により変換された変換後の周波数情報
f”nを用い、すなわちfnから得られる周波数情報f”
nを用いて位相シフト時間tSNを算出するようにしてい
たが、変換処理部101において調和関係を有する完全
倍音構造の倍音成分を生成するようにし、すなわちfn
から得られる周波数情報f”n、を用いずに変換後の位
相Ψ”nを算出するようにしてもよい。
【0064】完全倍音構造の各倍音の周波数f”nは、
平均ピッチAveragePitchを用いて次式により表される。 f”n=AveragePitch(n+1) 上記式において、AveragePitchは前フレームのピッチと
現在のフレームのピッチとの平均値である(前フレーム
でピッチが得られなかった場合には、現在のフレームの
ピッチ)。上記各実施形態において、変換後の倍音成分
の位相Ψ”nを算出する際に用いたf”nに代えてAverag
ePitch(n+1)を用いれば、fnから得られる周波数情報
f”nを用いずに変換後の位相を形成することができ
る。このように完全倍音構造の倍音成分を生成すれば、
fnから得られる周波数情報f”nを用いず、つまり保持
するデータ数を削減しても、位相Ψ”nを形成すること
ができる。
【0065】(2)また、正弦波成分の抽出方法は、上
述した実施形態で説明した方法に限らず、音声信号から
正弦波成分を抽出できる方法であればよい。
【0066】(3)また、上述した実施形態において
は、SMS分析を行った後、位相関係情報取得部102
が位相関係情報を取得し、この位相関係情報を用いて変
換後の位相を形成するようにしていたが、分析した音声
信号のエネルギーの集中度が高い場合には上記のような
位相形成方法により生成した合成音声に不自然さを低減
させる効果が生じないこともある。この点を考慮し、分
析した音声信号のエネルギーの集中度を検知し、この検
知結果に応じて上記位相形成方法を行うか否かを決定す
るようにしてもよい。
【0067】(4)また、変換処理部101が行う変換
処理は、上記実施形態で説明したものに限らず、他の合
成・変換等の処理であってもよい。
【0068】
【発明の効果】以上説明したように、本発明によれば、
正弦波分析を行って抽出した複数の正弦波成分間の位相
関係を保持したまま変換処理を行うことにより、より自
然な変換処理音声を作り出すことが可能となる。
【図面の簡単な説明】
【図1】 本発明の第1実施形態に係る音声信号処理装
置の構成を示すブロック図である。
【図2】 前記音声信号処理装置の構成要素である変換
処理部の構成例を示すブロック図である。
【図3】 前記音声信号処理装置の構成要素である位相
関係情報取得部による位相関係情報の取得方法を説明す
るための図である。
【図4】 前記音声信号処理装置の構成要素である位相
形成部による位相形成方法を説明するための図である。
【図5】 前記音声信号処理装置の動作を説明するため
のフローチャートである。
【図6】 本発明の第2実施形態に係る音声信号処理装
置の構成要素である位相関係情報取得部による位相関係
情報の取得方法を説明するための図である。
【図7】 前記第2実施形態に係る音声信号処理装置の
構成要素である位相形成部による位相形成方法を説明す
るための図である。
【図8】 本発明の第3実施形態に係る音声信号処理装
置の構成を示すブロック図である。
【図9】 前記第3実施形態に係る音声信号処理装置の
構成要素である位相関係情報取得部による位相関係情報
の取得方法を説明するための図である。
【図10】 前記第3実施形態に係る音声信号処理装置
の構成要素である位相形成部による位相形成方法を説明
するための図である。
【符号の説明】
10……時間窓処理部、11……周波数分析部、100
……SMS分析部、101……変換処理部、102……
位相関係情報取得部、103……位相形成部、104…
…逆FFT部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ザビエル セラ スペイン バルセロナ 08002 メルセ 12 (72)発明者 ジョルディ ボナダ スペイン バルセロナ 08002 メルセ 12 Fターム(参考) 5D045 BA01 5D108 BF20

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 入力される音声信号に正弦波分析を施し
    て正弦波成分を取得する正弦波取得手段と、 前記正弦波取得手段により取得された正弦波成分に変換
    処理を施して出力する変換手段とを備える音声信号処理
    装置において、 前記正弦波取得手段により取得された正弦波成分の基本
    波成分と各倍音成分との位相関係を示す位相関係情報を
    取得する位相関係情報取得手段を備え、 前記変換手段は、前記位相関係情報取得手段により取得
    された位相関係情報および変換処理後の新たな基本波成
    分の位相に基づいて、出力すべき倍音成分の位相を形成
    する位相形成手段を有していることを特徴とする音声信
    号処理装置。
  2. 【請求項2】 前記位相関係情報取得手段は、前記正弦
    波取得手段により取得された正弦波成分から前記位相関
    係情報を取得することを特徴とする請求項1に記載の音
    声信号処理装置。
  3. 【請求項3】 前記位相関係情報取得手段は、予め設定
    された条件にしたがって擬似的な前記位相関係情報を生
    成することを特徴とする請求項1に記載の音声信号処理
    装置。
  4. 【請求項4】 前記擬似的な位相関係情報は、前記正弦
    波取得手段により取得された正弦波成分の倍音成分の周
    波数に応じて決定されることを特徴とする請求項3に記
    載の音声信号処理装置。
  5. 【請求項5】 前記擬似的な位相関係情報は、倍音成分
    の周波数が所定周波数未満である場合には位相関係情報
    を固定値とし、倍音成分の周波数が前記所定周波数以上
    である場合には倍音成分の周波数を変数とする予め設定
    された関数により決定されることを特徴とする請求項4
    に記載の音声信号処理装置。
  6. 【請求項6】 前記擬似的な位相関係情報は、前記正弦
    波取得手段により取得された正弦波成分のエンベロープ
    形状に応じて決定されることを特徴とする請求項3に記
    載の音声信号処理装置。
  7. 【請求項7】 前記位相関係情報取得手段は、生成する
    前記擬似的な位相関係情報にゆらぎを付与することを特
    徴とする請求項5または6に記載の音声信号処理装置。
  8. 【請求項8】 入力される音声信号に正弦波分析を施し
    て正弦波成分を取得する正弦波取得ステップと、 前記正弦波取得ステップにより取得された正弦波成分に
    変換処理を施して出力する変換ステップとを備える音声
    信号処理方法において、 前記正弦波取得ステップにより取得された正弦波成分の
    基本波成分と各倍音成分との位相関係を示す位相関係情
    報を取得する位相関係情報取得ステップを備え、 前記変換ステップでは、前記位相関係情報取得ステップ
    により取得された位相関係情報および変換処理後の新た
    な基本波成分の位相に基づいて、出力すべき倍音成分の
    位相を形成することを特徴とする音声信号処理方法。
  9. 【請求項9】 前記位相関係情報取得ステップでは、前
    記正弦波取得ステップにより取得された正弦波成分から
    前記位相関係情報を取得することを特徴とする請求項8
    に記載の音声信号処理方法。
  10. 【請求項10】 前記位相関係情報取得ステップは、予
    め設定された条件にしたがって擬似的な前記位相関係情
    報を生成することを特徴とする請求項8に記載の音声信
    号処理方法。
  11. 【請求項11】 前記擬似的な位相関係情報は、前記正
    弦波取得ステップにより取得された正弦波成分の倍音成
    分の周波数に応じて決定されることを特徴とする請求項
    10に記載の音声信号処理方法。
  12. 【請求項12】 前記擬似的な位相関係情報は、倍音成
    分の周波数が所定周波数未満である場合には位相関係情
    報を固定値とし、倍音成分の周波数が前記所定周波数以
    上である場合には倍音成分の周波数を変数とする予め設
    定された関数により決定されることを特徴とする請求項
    11に記載の音声信号処理方法。
  13. 【請求項13】 前記擬似的な位相関係情報は、前記正
    弦波取得ステップにより取得された正弦波成分のエンベ
    ロープ形状に応じて決定されることを特徴とする請求項
    10に記載の音声信号処理方法。
  14. 【請求項14】 前記位相関係情報取得ステップでは、
    生成する前記擬似的な位相関係情報にゆらぎを付与する
    ことを特徴とする請求項12または13に記載の音声信
    号処理方法。
JP30027599A 1999-10-21 1999-10-21 音声信号処理装置および音声信号処理方法 Expired - Fee Related JP4455701B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30027599A JP4455701B2 (ja) 1999-10-21 1999-10-21 音声信号処理装置および音声信号処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30027599A JP4455701B2 (ja) 1999-10-21 1999-10-21 音声信号処理装置および音声信号処理方法

Publications (2)

Publication Number Publication Date
JP2001117600A true JP2001117600A (ja) 2001-04-27
JP4455701B2 JP4455701B2 (ja) 2010-04-21

Family

ID=17882840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30027599A Expired - Fee Related JP4455701B2 (ja) 1999-10-21 1999-10-21 音声信号処理装置および音声信号処理方法

Country Status (1)

Country Link
JP (1) JP4455701B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004049304A1 (ja) * 2002-11-25 2004-06-10 Matsushita Electric Industrial Co., Ltd. 音声合成方法および音声合成装置
JP2005208627A (ja) * 2003-12-25 2005-08-04 Casio Comput Co Ltd 音声分析合成装置、及びプログラム
JP2006243006A (ja) * 2005-02-28 2006-09-14 Casio Comput Co Ltd 音響効果付与装置、基音抽出装置、及びプログラム
JP2009237589A (ja) * 2003-12-25 2009-10-15 Casio Comput Co Ltd 音声分析合成装置、及びプログラム
US7672835B2 (en) 2004-12-24 2010-03-02 Casio Computer Co., Ltd. Voice analysis/synthesis apparatus and program
JP2010191474A (ja) * 2010-06-07 2010-09-02 Casio Computer Co Ltd 基音抽出装置、及びプログラム
JPWO2012035595A1 (ja) * 2010-09-13 2014-01-20 パイオニア株式会社 再生装置、再生方法及び再生プログラム
JP2015138193A (ja) * 2014-01-23 2015-07-30 日本放送協会 音声信号処理装置及びプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004049304A1 (ja) * 2002-11-25 2004-06-10 Matsushita Electric Industrial Co., Ltd. 音声合成方法および音声合成装置
CN100365704C (zh) * 2002-11-25 2008-01-30 松下电器产业株式会社 声音合成方法以及声音合成装置
US7562018B2 (en) 2002-11-25 2009-07-14 Panasonic Corporation Speech synthesis method and speech synthesizer
JP2005208627A (ja) * 2003-12-25 2005-08-04 Casio Comput Co Ltd 音声分析合成装置、及びプログラム
JP2009237589A (ja) * 2003-12-25 2009-10-15 Casio Comput Co Ltd 音声分析合成装置、及びプログラム
JP4513556B2 (ja) * 2003-12-25 2010-07-28 カシオ計算機株式会社 音声分析合成装置、及びプログラム
US7672835B2 (en) 2004-12-24 2010-03-02 Casio Computer Co., Ltd. Voice analysis/synthesis apparatus and program
JP2006243006A (ja) * 2005-02-28 2006-09-14 Casio Comput Co Ltd 音響効果付与装置、基音抽出装置、及びプログラム
JP2010191474A (ja) * 2010-06-07 2010-09-02 Casio Computer Co Ltd 基音抽出装置、及びプログラム
JPWO2012035595A1 (ja) * 2010-09-13 2014-01-20 パイオニア株式会社 再生装置、再生方法及び再生プログラム
JP2015138193A (ja) * 2014-01-23 2015-07-30 日本放送協会 音声信号処理装置及びプログラム

Also Published As

Publication number Publication date
JP4455701B2 (ja) 2010-04-21

Similar Documents

Publication Publication Date Title
RU2487426C2 (ru) Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала
US11410637B2 (en) Voice synthesis method, voice synthesis device, and storage medium
US7149682B2 (en) Voice converter with extraction and modification of attribute data
JP3266819B2 (ja) 周期信号変換方法、音変換方法および信号分析方法
JP3941611B2 (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP4455701B2 (ja) 音声信号処理装置および音声信号処理方法
JP2018077283A (ja) 音声合成方法
JP2006017946A (ja) 音声処理装置およびプログラム
JPH04358200A (ja) 音声合成装置
WO2007135786A1 (ja) 帯域外信号生成装置及び周波数帯域拡張装置
Arroabarren et al. Instantaneous frequency and amplitude of vibrato in singing voice
JPH08305396A (ja) 音声帯域拡大装置および音声帯域拡大方法
JP4757971B2 (ja) ハーモニー音付加装置
JP2006349848A (ja) 帯域拡張装置及び不足帯域信号生成器
JP5745453B2 (ja) 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
JP4245114B2 (ja) 音色制御装置
JP2000010597A (ja) 音声変換装置及び音声変換方法
JPH07261798A (ja) 音声分析合成装置
JP2000003200A (ja) 音声信号処理装置及び音声信号処理方法
JP2000003197A (ja) 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
JP4172369B2 (ja) 楽音処理装置、楽音処理方法及び楽音処理プログラム
JP2018077281A (ja) 音声合成方法
JP2018077280A (ja) 音声合成方法
JP2004077918A (ja) 音声合成装置、方法及びプログラム
CN116092457A (zh) 音频信号处理方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100204

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140212

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees