JP6992612B2

JP6992612B2 - 音声処理方法および音声処理装置

Info

Publication number: JP6992612B2
Application number: JP2018043115A
Authority: JP
Inventors: 竜之介大道; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2022-01-13
Anticipated expiration: 2038-03-09
Also published as: JP2019159011A; US20200365170A1; WO2019172396A1; US11348596B2

Description

本発明は、音声を表す音声信号を処理する技術に関する。

歌唱表現等の音声表現を音声に付加する各種の技術が従来から提案されている。例えば特許文献１には、音声信号の各調波成分を周波数領域で移動させることにより、当該音声信号が表す音声を、濁声または嗄声等の特徴的な声質の音声に変換する技術が開示されている。

特開２０１４－２３３８号公報

しかし、特許文献１の技術のもとでは、例えば基本周波数等の音響特性が経時的に遷移する区間について、聴感的に自然な音声を生成するという観点から更なる改善の余地がある。以上の事情を考慮して、本発明は、聴感的に自然な音声を合成することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音声処理方法は、音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第１定常期間を前方に収縮し、前記複数の定常期間のうち前記第１定常期間の直後において当該第１定常期間とは音高が相違する第２定常期間と前記第１定常期間との間の遷移期間を前方に伸長する。

以上の課題を解決するために、本発明の好適な態様に係る音声処理装置は、音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第１定常期間を前方に収縮し、前記複数の定常期間のうち前記第１定常期間の直後において当該第１定常期間とは音高が相違する第２定常期間と前記第１定常期間との間の遷移期間を前方に伸長する時間伸縮部を具備する。

本発明の実施形態に係る音声処理装置の構成を例示するブロック図である。音声処理装置の機能的な構成を例示するブロック図である。音声信号における定常期間の説明図である。信号解析処理の具体的な手順を例示するフローチャートである。調整処理部が実行する処理の具体的な手順を例示するフローチャートである。時間伸縮処理の説明図である。変動強調処理の説明図である。

図１は、本発明の好適な形態に係る音声処理装置１００の構成を例示するブロック図である。本実施形態の音声処理装置１００は、利用者が楽曲を歌唱した音声（以下「歌唱音声」という）を調整する信号処理装置である。

図１に例示される通り、音声処理装置１００は、制御装置１１と記憶装置１２と操作装置１３と放音装置１４とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声処理装置１００として好適に利用される。操作装置１３は、利用者からの指示を受付ける入力機器である。例えば、利用者が操作する複数の操作子、または利用者による接触を検知するタッチパネルが、操作装置１３として好適に利用される。

記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成されたメモリであり、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。例えば、記憶装置１２は音声信号Ｘを記憶する。音声信号Ｘは、利用者が楽曲を歌唱した歌唱音声を表す時間領域の音響信号である。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。また、音声処理装置１００とは別体の記憶装置１２（例えばクラウドストレージ）を用意し、制御装置１１が通信網を介して記憶装置１２に対する書込および読出を実行してもよい。すなわち、記憶装置１２を音声処理装置１００から省略してもよい。

制御装置１１は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、各種の演算処理および制御処理を実行する。本実施形態の制御装置１１は、音声信号Ｘに対する処理で音声信号Ｙを生成する。音声信号Ｙは、音声信号Ｘを調整した音響信号である。放音装置１４は、例えばスピーカまたはヘッドホンであり、制御装置１１が生成した音声信号Ｙが表す音声を放音する。なお、制御装置１１が生成した音声信号Ｙをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。また、音声処理装置１００が放音装置１４を具備する構成を図１では例示したが、音声処理装置１００とは別体の放音装置１４を音声処理装置１００に有線または無線で接続してもよい。

図２は、制御装置１１の機能的な構成を例示するブロック図である。図２に例示される通り、制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、音声信号Ｘから音声信号Ｙを生成するための複数の機能（信号解析部２１および調整処理部２２）を実現する。なお、相互に別体で構成された複数の装置で制御装置１１の機能を実現してもよいし、制御装置１１の機能の一部または全部を専用の電子回路で実現してもよい。

信号解析部２１は、音声信号Ｘを解析することで複数の定常期間Ｑを特定する。各定常期間Ｑは、音声信号Ｘのうち音響特性が時間的に安定している期間である。図３は、定常期間Ｑの説明図である。音声信号Ｘの波形と基本周波数ｆの時間変化とが図３には併記されている。信号解析部２１は、基本周波数ｆとスペクトル形状とを含む音響特性が時間的に安定している期間を定常期間Ｑとして特定する。具体的には、信号解析部２１は、各定常期間Ｑの始点ＴSと終点ＴEとを指定する。なお、楽曲内で相前後する２個の音符の間では、基本周波数ｆまたはスペクトル形状（すなわち音韻）が変化する場合が多い。したがって、各定常期間Ｑは、楽曲内の１個の音符に相当する期間とも換言される。

図４は、信号解析部２１が音声信号Ｘを解析する処理（以下「信号解析処理」という）Ｓaのフローチャートである。例えば操作装置１３に対する利用者からの指示を契機として図４の信号解析処理Ｓaが開始される。図４に例示される通り、信号解析部２１は、時間軸上の複数の単位期間（フレーム）の各々について音声信号Ｘの基本周波数ｆを算定する（Ｓa1）。基本周波数ｆの算定には公知の技術が任意に採用される。各単位期間は、定常期間Ｑに想定される時間長と比較して充分に短い期間である。

信号解析部２１は、音声信号Ｘのスペクトル形状を表すメルケプストラムＭを単位期間毎に算定する（Ｓa2）。メルケプストラムＭは、音声信号Ｘの周波数スペクトルの包絡線を表す複数の係数で表現される。メルケプストラムＭは、歌唱音声の音韻を表す特徴量とも表現される。メルケプストラムＭの算定には公知の技術が任意に採用される。なお、音声信号Ｘのスペクトル形状を表す特徴量として、メルケプストラムＭの代わりにＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）を算定してもよい。

信号解析部２１は、音声信号Ｘが表す歌唱音声の有声性を単位期間毎に推定する（Ｓa3）。すなわち、歌唱音声が有声音および無声音の何れに該当するかが判定される。有声性（有声／無声）の推定には公知の技術が任意に採用される。なお、基本周波数ｆの算定（Ｓa1）とメルケプストラムＭの算定（Ｓa2）と有声性の推定（Ｓa3）とについて順序は任意であり、以上に例示した順序には限定されない。

信号解析部２１は、基本周波数ｆの時間的な変化の度合を示す第１指標δ1を単位期間毎に算定する（Ｓa4）。例えば相前後する２個の単位期間の間における基本周波数ｆの差分が第１指標δ1として算定される。基本周波数ｆの時間的な変化が顕著であるほど第１指標δ1は大きい数値となる。

信号解析部２１は、メルケプストラムＭの時間的な変化の度合を示す第２指標δ2を単位期間毎に算定する（Ｓa5）。例えば、相前後する２個の単位期間の間においてメルケプストラムＭの係数毎の差分を複数の係数について合成（例えば加算または平均）した数値が、第２指標δ2として好適である。歌唱音声のスペクトル形状の時間的な変化が顕著であるほど第２指標δ2は大きい数値となる。例えば歌唱音声の音韻が変化する時点の付近では、第２指標δ2は大きい数値となる。

信号解析部２１は、第１指標δ1および第２指標δ2に応じた変動指標Δを単位期間毎に算定する（Ｓa6）。例えば、第１指標δ1と第２指標δ2との加重和が変動指標Δとして単位期間毎に算定される。第１指標δ1および第２指標δ2の各々の加重値は、所定の固定値、または操作装置１３に対する利用者からの指示に応じた可変値に設定される。以上の説明から理解される通り、音声信号Ｘの基本周波数ｆまたはメルケプストラムＭ（すなわちスペクトル形状）の時間的な変動が大きいほど、変動指標Δは大きい数値になるという傾向がある。

信号解析部２１は、音声信号Ｘにおける複数の定常期間Ｑを特定する（Ｓa7）。本実施形態の信号解析部２１は、歌唱音声の有声性の推定の結果（Ｓa3）と変動指標Δとに応じて定常期間Ｑを特定する。具体的には、信号解析部２１は、歌唱音声が有声音であると推定され、かつ、変動指標Δが所定の閾値を下回る一連の単位期間の集合を定常期間Ｑとして画定する。歌唱音声が無声音であると推定された単位期間、または、変動指標Δが閾値を上回る単位期間は、定常期間Ｑから除外される。信号解析部２１は、基本周波数ｆの時系列を時間軸上で平滑化することで基本周波数Ｆの時系列を算定する（Ｓa8）。

以上に例示した信号解析処理Ｓaにより、音声信号Ｘについて時間軸上の複数の定常期間Ｑが特定される。図３に例示される通り、歌唱音声の有声音が継続する一連の期間（以下「有声期間」という）Ｖ内に複数の定常期間Ｑが包含される場合がある。なお、時間軸上で相前後する２個の定常期間Ｑの間隔に相当する期間を以下では「遷移期間Ｇ」と表記する。遷移期間Ｇは、相前後する２個の定常期間Ｑのうち前方の定常期間Ｑの終点ＴEから後方の定常期間Ｑの始点ＴSまでの期間である。

図２の調整処理部２２は、音声信号Ｘの各遷移期間Ｇについて調整処理を実行する。本実施形態の調整処理部２２は、図２に例示される通り、時間伸縮部３１と変動強調部３２とを含んで構成される。時間伸縮部３１は、遷移期間Ｇを時間軸上で伸長する時間伸縮処理を実行し、変動強調部３２は、遷移期間Ｇ内における基本周波数Ｆの変動を強調する変動強調処理を実行する。調整処理は、時間伸縮処理と変動強調処理とを包含する。図５は、調整処理部２２による動作の手順を例示するフローチャートである。信号解析処理Ｓaの終了後に、遷移期間Ｇ毎に図５の処理が実行される。

音声信号Ｘの全部の遷移期間Ｇについて調整処理を実行すると、音声信号Ｘが過剰に調整され、音声信号Ｙの再生音が煩雑で鬱陶しい印象の音声と知覚される可能性がある。以上の事情を考慮して、本実施形態では、音声信号Ｘの複数の遷移期間Ｇのうち特定の条件を充足する遷移期間Ｇに限定して調整処理が実行される。

図５の処理を開始すると、調整処理部２２は、処理対象の遷移期間Ｇについて調整処理Ｓb2（時間伸縮処理Ｓb21および変動強調処理Ｓb22）を実行するか否かを判定する（Ｓb1）。具体的には、時間伸縮部３１は、以下の条件Ｃ1および条件Ｃ2の何れかを充足する遷移期間Ｇについて調整処理Ｓb2を実行すると判定する。ただし、遷移期間Ｇについて調整処理Ｓb2を実行するか否かを判定する条件は、以下の例示に限定されない。
［条件Ｃ1］有声期間Ｖ内で音高が最高である定常期間Ｑの直前の遷移期間Ｇである。
［条件Ｃ2］直前の定常期間Ｑの終点ＴEにおける基本周波数Ｆと直後の定常期間Ｑの始点ＴSにおける基本周波数Ｆとの差分が所定の閾値を上回る遷移期間Ｇである。

なお、条件Ｃ1の判定に参酌される音高は、例えば、定常期間Ｑ内における基本周波数Ｆの代表値（例えば平均値または中央値）である。遷移期間Ｇについて調整処理Ｓb2を実行しないと判定した場合（Ｓb1：NO）、調整処理部２２は、以下に例示する調整処理Ｓb2を実行することなく図５の処理を終了する。

＜時間伸縮処理Ｓb21＞
遷移期間Ｇについて調整処理Ｓb2を実行すると判定した場合（Ｓb1：YES）、時間伸縮部３１は、時間伸縮処理Ｓb21を実行する。図６は、時間伸縮処理Ｓb21の説明図である。図６においては、時間軸上で相前後する定常期間Ｑ1（第１定常期間の例示）と定常期間Ｑ2（第２定常期間の例示）との間の遷移期間Ｇについて調整処理Ｓb2を実行する場合が想定されている。定常期間Ｑ2は、複数の定常期間Ｑのうち定常期間Ｑ1の直後に位置する１個の定常期間Ｑである。定常期間Ｑ1と定常期間Ｑ2との間で音高は相違する。

図６に図示された調整期間Ｒは、遷移期間Ｇの一部の期間である。調整期間Ｒの始点ＴS_Rは、定常期間Ｑ1の終点ＴE1と一致する。調整期間Ｒの終点ＴE_Rは、定常期間Ｑ1の終点ＴE1と定常期間Ｑ2の始点ＴS2との間の時点である。具体的には、調整期間Ｒの終点ＴE_Rは、定常期間Ｑ2の始点ＴS2から所定の時間だけ前方の時点である。

時間伸縮処理Ｓb21において、時間伸縮部３１は、定常期間Ｑ1を前方に収縮する。具体的には、時間伸縮部３１は、図６に例示される通り、定常期間Ｑ1の始点ＴS1を時刻ｔaに維持したまま、当該定常期間Ｑ1の終点ＴE1が時刻ｔcから前方の時刻ｔbまで移動するように定常期間Ｑ1を収縮する。図６の時刻ｔbは、収縮前の定常期間Ｑ1の始点ＴS1の時刻ｔaと終点ＴE1の時刻ｔcとの間の時刻である。例えば時刻ｔbは、時刻ｔaから所定の時間だけ後方の時刻、または時刻ｔcから所定の時間だけ前方の時刻である。定常期間Ｑ1は、始点ＴS1から終点ＴE1までの全体にわたり均等に収縮される。なお、定常期間Ｑ内では有声音の周期波形が安定的に反復される。したがって、以上に例示した均等な収縮に代えて、周期波形を単位として定常期間Ｑを部分的に削除することで、当該定常期間Ｑを収縮してもよい。

また、時間伸縮処理Ｓb21において、時間伸縮部３１は、遷移期間Ｇ内の調整期間Ｒを前方に伸長する。具体的には、時間伸縮部３１は、調整期間Ｒの終点ＴE_Rを時刻ｔdに維持したまま、当該調整期間Ｒの始点ＴS_R（すなわち定常期間Ｑ1の終点ＴE1）が時刻ｔcから前方の時刻ｔbまで移動するように調整期間Ｒを伸長する。調整期間Ｒは、始点ＴS_Rから終点ＴE_Rまでの全体にわたり均等に伸長される。以上に説明した調整期間Ｒの伸長により遷移期間Ｇも前方に伸長される。ただし、伸長前の遷移期間Ｇのうち調整期間Ｒの終点ＴE_Rから定常期間Ｑ2の始点ＴS2までの期間（すなわち調整期間Ｒ以外の期間）は伸長されない。

以上に例示した通り、本実施形態においては、定常期間Ｑ1が前方に収縮されるとともに遷移期間Ｇが前方に伸長されるから、相前後する音符の間で音高を変化させる場合に前方の音符の末尾側の部分において音高の変化を準備するという発音の傾向を反映した聴感的に自然な音声信号Ｙを生成できる。特に、定常期間Ｑ1の始点ＴS1を維持したまま定常期間Ｑ1が収縮され、調整期間Ｒの終点ＴE_Rを維持したまま調整期間Ｒが伸長される。したがって、定常期間Ｑ1および定常期間Ｑ2の各々の始点を変化させることなく、前述の傾向を反映した聴感的に自然な音声信号Ｙを生成できるという利点がある。

＜変動強調処理Ｓb22＞
以上に説明した時間伸縮処理Ｓb21が終了すると、変動強調部３２は、遷移期間Ｇ内における基本周波数Ｆの変動を強調する変動強調処理Ｓb22を実行する。図７は、変動強調処理Ｓb22の説明図である。

図７に例示される通り、音声信号Ｘの基本周波数Ｆ(t)は、遷移期間Ｇの始点（定常期間Ｑ1の終点ＴE1）から単調減少して極小点に到達し、当該極小点から遷移期間Ｇの終点（定常期間Ｑ2の始点ＴS2）まで単調増加するという傾向がある。以上に例示した基本周波数Ｆの変動は「しゃくり」「フォール」とも表現される歌唱表現である。本実施形態にでは、変動強調処理Ｓb22により、相前後する２個の音符間において基本周波数Ｆが変動するという発音の傾向が強調された聴感的に自然な音声信号Ｙを生成できる。

変動強調部３２は、図７に例示される通り、遷移期間Ｇ内の基本周波数Ｆ(t)を基本周波数Ｆa(t)に変換する。基本周波数Ｆa(t)は、遷移期間Ｇ内における基本周波数Ｆ(t)の時間的な変動を強調した周波数である。変換後の基本周波数Ｆa(t)は、関数ｈ(t)を適用した以下の数式(1)の演算により算定される。
Ｆa(t)＝Ｆ(t)－Λ・ｈ(t) …(1)

図７の関数ｈ(t)は、以上に説明した基本周波数Ｆの変動に対応した形状の曲線を表現する。例えば関数ｈ(t)は、二乗余弦（raised cosine）関数の組合せで表現される。具体的には、図７に例示される通り、関数ｈ(t)は、遷移期間Ｇの始点の時刻ｔbから極大点の時刻ｔeまで曲線的に単調増加し、時刻ｔeから遷移期間Ｇの終点の時刻ｔfまで曲線的に単調減少する関数である。関数ｈ(t)の極大点の時刻ｔeは、音声信号Ｘの基本周波数Ｆの極小点の時刻に調整される。

数式(1)の係数Λは、以下の数式(2)で表現される正数である。
Λ＝Λ0－max（λ1，λ2，λ3） …(2)
数式(2)の記号max( )は、括弧内の複数の数値のうちの最大値を選択する演算を意味する。数式(2)の初期値Λ0は所定の正数に設定される。数式(2)の複数の係数λ（λ1，λ2，λ３）は非負値（０または正数）である。数式(1)および数式(2)から理解される通り、係数Λが大きいほど、基本周波数Ｆ(t)に対する関数ｈ(t)の影響（基本周波数Ｆ(t)の減少幅）が増大し、結果的には基本周波数Ｆa(t)の時間的な変動が強調される。他方、数式(2)の複数の係数λ（λ1，λ2，λ３）のうちの何れかが大きいほど、係数Λは小さい数値となる。したがって、数式(2)の複数の係数λの何れかが大きいほど、基本周波数Ｆa(t)の変動を強調する度合が低減される。数式(2)の各係数λは例えば以下のように設定される。

（１）係数λ1
変動強調部３２は、時間伸縮処理Ｓb21による伸長後の遷移期間Ｇの時間長τに応じて係数λ1を設定する。具体的には、遷移期間Ｇの時間長τが所定の閾値τthを下回る場合、変動強調部３２は、係数λ1を、閾値τthと時間長τとの差分(τth－τ)に応じた正数に設定する。例えば、閾値τthと時間長τとの差分(τth－τ)が大きいほど（すなわち時間長τが短いほど）、係数λ1は大きい数値に設定される。遷移期間Ｇの時間長τが閾値τthを上回る場合、係数λ1は０に設定される。

以上の説明から理解される通り、変動強調部３２は、伸長後の遷移期間Ｇの時間長τが閾値τthを下回る場合に、遷移期間Ｇ内における基本周波数Ｆ(t)の変動を強調する度合を低減する。したがって、相前後する音符の間隔が短い場合に当該間隔内における基本周波数の変動が抑制される、という歌唱の傾向を音声信号Ｙに反映させることができる。

（２）係数λ2
変動強調部３２は、定常期間Ｑ1と定常期間Ｑ2との間における音高差Ｄに応じて係数λ2を設定する。音高差Ｄは、例えば、図７に例示される通り、定常期間Ｑ1の終点ＴE1における基本周波数Ｆ(tb)と定常期間Ｑ2の始点ＴS2における基本周波数Ｆ(tf)との差分である。具体的には、音高差Ｄが所定の閾値Ｄthを下回る場合、変動強調部３２は、係数λ2を、閾値Ｄthと閾値Ｄとの差分(Ｄth－Ｄ)に応じた正数に設定する。例えば、閾値Ｄthと閾値Ｄとの差分(Ｄth－Ｄ)が大きいほど（すなわち音高差Ｄが小さいほど）、係数λ2は大きい数値に設定される。音高差Ｄが閾値Ｄthを上回る場合、係数λ2は０に設定される。

以上の説明から理解される通り、変動強調部３２は、音高差Ｄが閾値Ｄthを下回る場合に、遷移期間Ｇ内における基本周波数Ｆ(t)の変動を強調する度合を低減する。したがって、相前後する音符の間で音高差が小さい場合に音符間における基本周波数の変動が抑制される、という歌唱の傾向を音声信号Ｙに反映させることができる。

（３）係数λ3
変動強調部３２は、遷移期間Ｇ内における基本周波数Ｆの変動量Ｚに応じて係数λ3を設定する。変動量Ｚは、図７に例示される通り、遷移期間Ｇ内における基本周波数Ｆの最大値と最小値との差分である。具体的には、変動量Ｚが所定の閾値Ｚthを下回る場合、変動強調部３２は、係数λ3を、閾値Ｚthと変動量Ｚとの差分(Ｚth－Ｚ)に応じた正数に設定する。例えば、閾値Ｚthと変動量Ｚとの差分(Ｚth－Ｚ)が大きいほど（すなわち変動量Ｚが小さいほど）、係数λ3は大きい数値に設定される。変動量Ｚが閾値Ｚthを上回る場合、係数λ3は０に設定される。

以上の説明から理解される通り、変動強調部３２は、基本周波数Ｆの変動量Ｚが所定の閾値Ｚthを下回る場合に、遷移期間Ｇ内における基本周波数Ｆ(t)の変動を強調する度合を低減する。したがって、遷移期間Ｇ内における基本周波数の変動の度合が変動強調処理Ｓb22の前後で極端に変化する可能性が低減される。

以上に説明した時間伸縮処理Ｓb21および変動強調処理Ｓb22により生成された音声信号Ｙが放音装置１４に供給されることで音声が放音される。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の形態では、定常期間Ｑ1を全体にわたり均等に収縮したが、定常期間Ｑ1の収縮の度合を当該定常期間Ｑ1内の位置に応じて変化させてもよい。また、前述の形態では、調整期間Ｒを全体にわたり均等に伸長したが、調整期間Ｒの伸長の度合を当該調整期間Ｒ内の位置に応じて変化させてもよい。

（２）前述の形態では、時間伸縮処理Ｓb21および変動強調処理Ｓb22の双方を実行したが、時間伸縮処理Ｓb21および変動強調処理Ｓb22の一方を省略してもよい。また、時間伸縮処理Ｓb21と変動強調処理Ｓb22の順序を逆転してもよい。

（３）前述の形態では、第１指標δ1と第２指標δ2とから算定される変動指標Δを利用して音声信号Ｘの定常期間Ｑを特定したが、第１指標δ1と第２指標δ2とに応じて定常期間Ｑを特定する方法は以上の例示に限定されない。例えば、信号解析部２１は、第１指標δ1に応じた第１暫定期間と第２指標δ2に応じた第２暫定期間とを特定する。第１暫定期間は、例えば第１指標δ1が閾値を下回る有声音の期間である。すなわち、基本周波数ｆが時間的に安定している期間が第１暫定期間として特定される。第２暫定期間は、例えば第２指標δ2が閾値を下回る有声音の期間である。すなわち、スペクトル形状が時間的に安定している期間が第２暫定期間として特定される。信号解析部２１は、第１暫定期間と第２暫定期間とが相互に重複する期間を定常期間Ｑとして特定する。すなわち、音声信号Ｘのうち基本周波数ｆとスペクトル形状との双方が時間的に安定している期間が定常期間Ｑとして特定される。以上の説明から理解される通り、定常期間Ｑの特定において変動指標Δの算定を省略してもよい。

（４）前述の形態では、音声信号Ｘのうち基本周波数ｆおよびスペクトル形状の双方が時間的に安定する期間を定常期間Ｑとして特定したが、音声信号Ｘのうち基本周波数ｆおよびスペクトル形状の一方が時間的に安定する期間を定常期間Ｑとして特定してもよい。

（５）前述の形態では、音声処理装置１００の利用者が歌唱した歌唱音声を表す音声信号Ｘを処理したが、音声信号Ｘが表す音声は、利用者による歌唱音声に限定されない。例えば、素片接続型または統計モデル型の公知の音声合成技術により合成された音声信号Ｘを処理してもよい。また、光ディスク等の記録媒体から読出された音声信号Ｘを処理してもよい。

＜付記＞
以上に例示した形態から、例えば以下の構成が把握される。

本発明の好適な態様（第１態様）に係る音声処理方法は、音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第１定常期間を前方に収縮し、前記複数の定常期間のうち前記第１定常期間の直後において当該第１定常期間とは音高が相違する第２定常期間と前記第１定常期間との間の遷移期間を前方に伸長する。以上の態様では、音声信号の第１定常期間が前方に収縮されるとともに遷移期間が前方に伸長されるから、相前後する２個の定常期間の間で音高を変化させる場合に前方の定常期間の末尾側の部分において音高の変化を準備するという発音の傾向を反映した聴感的に自然な音声信号を生成できる。

第１態様の好適例（第２態様）では、前記第１定常期間の収縮において、前記第１定常期間の始点を維持したまま当該第１定常期間の終点を前方に移動し、前記遷移期間の伸長においては、前記遷移期間のうち前記第１定常期間の終点と前記第２定常期間の始点よりも前方の時点との間の調整期間について、当該終点を維持したまま始点を前方に移動する。以上の態様では、第１定常期間の始点を維持したまま第１定常期間が収縮され、遷移期間のうち調整期間の終点を維持したまま当該調整期間が伸長される。したがって、第１定常期間および第２定常期間の各々に対応する発音の始点を変化させることなく、前方の定常期間の末尾側の部分において音高の変化を準備するという前述の傾向を反映した音声信号を生成できる。

第１態様または第２態様の好適例（第３態様）において、前記伸長後の前記遷移期間内における基本周波数の時間的な変動を強調する。以上の態様によれば、遷移期間内において基本周波数が変動するという発音の傾向を反映した聴感的に自然な音声信号を生成できる。

第３態様の好適例（第４態様）において、前記伸長後の遷移期間の時間長が閾値を下回る場合に、前記遷移期間内における基本周波数の変動を強調する度合を低減する。以上の態様によれば、伸長後の遷移期間が短い場合に当該遷移期間内における基本周波数の変動が抑制されるという傾向を音声信号に反映させることができる。

第３態様または第４態様の好適例（第５態様）において、前記第１定常期間の終点における基本周波数と前記第２定常期間の始点における基本周波数との差分が閾値を下回る場合に、前記遷移期間内における前記基本周波数の変動を強調する度合を低減する。以上の態様によれば、相前後する２個の定常期間における音高差が小さい場合に両者間の遷移期間内における基本周波数の変動が抑制されるという傾向を音声信号に反映させることができる。

第３態様から第５態様の何れかの好適例（第６態様）において、前記遷移期間内における基本周波数の変動量が閾値を下回る場合に、前記遷移期間内における基本周波数の変動を強調する度合を低減する。以上の態様によれば、遷移期間内において基本周波数が過度に変動する可能性を低減できる。

本発明の好適な態様（第７態様）に係る音声処理装置は、音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第１定常期間を前方に収縮し、前記複数の定常期間のうち前記第１定常期間の直後において当該第１定常期間とは音高が相違する第２定常期間と前記第１定常期間との間の遷移期間を前方に伸長する時間伸縮部を具備する。

第７態様の好適例（第８態様）に係る音声処理装置は、前記伸長後の前記遷移期間内における基本周波数の時間的な変動を強調する変動強調部を具備する。

１００…音声処理装置、１１…制御装置、１２…記憶装置、１３…操作装置、１４…放音装置、２１…信号解析部、２２…調整処理部、３１…時間伸縮部、３２…変動強調部。

Claims

音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第１定常期間を前方に収縮し、前記複数の定常期間のうち前記第１定常期間の直後において当該第１定常期間とは音高が相違する第２定常期間と前記第１定常期間との間の遷移期間を前方に伸長する
コンピュータにより実現される音声処理方法。
前記第１定常期間の収縮においては、前記第１定常期間の始点を維持したまま当該第１定常期間の終点を前方に移動し、
前記遷移期間の伸長においては、前記遷移期間のうち前記第１定常期間の終点と前記第２定常期間の始点よりも前方の時点との間の調整期間について、当該終点を維持したまま始点を前方に移動する
請求項１の音声処理方法。
前記伸長後の前記遷移期間内における基本周波数の時間的な変動を強調する
請求項１または請求項２の音声処理方法。
前記伸長後の遷移期間の時間長が閾値を下回る場合に、前記遷移期間内における基本周波数の変動を強調する度合を低減する
請求項３の音声処理方法。
前記第１定常期間の終点における基本周波数と前記第２定常期間の始点における基本周波数との差分が閾値を下回る場合に、前記遷移期間内における前記基本周波数の変動を強調する度合を低減する
請求項３または請求項４の音声処理方法。
前記遷移期間内における基本周波数の変動量が閾値を下回る場合に、前記遷移期間内における基本周波数の変動を強調する度合を低減する
請求項３から請求項５の何れかの音声処理方法。
音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第１定常期間を前方に収縮し、前記複数の定常期間のうち前記第１定常期間の直後において当該第１定常期間とは音高が相違する第２定常期間と前記第１定常期間との間の遷移期間を前方に伸長する時間伸縮部
を具備する音声処理装置。
前記伸長後の前記遷移期間内における基本周波数の時間的な変動を強調する変動強調部
を具備する請求項７の音声処理装置。