JP2019159012A

JP2019159012A - 音処理方法および音処理装置

Info

Publication number: JP2019159012A
Application number: JP2018043116A
Authority: JP
Inventors: 竜之介大道; Ryunosuke Daido; 嘉山　啓; Hiroshi Kayama; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2019-09-19
Anticipated expiration: 2038-03-09
Also published as: US11646044B2; US20200402525A1; EP3764357A4; JP7139628B2; WO2019172397A1; CN111837183A; EP3764357A1

Abstract

【課題】聴感的に自然な音声を合成する。【解決手段】音処理装置は、歌唱音声を表す第１音信号における第１スペクトル包絡概形と、第１音信号のうち第１時点の第１基準スペクトル包絡概形との差分である第１差分と、参照音声を表す第２音信号における第２スペクトル包絡概形と、第２音信号のうち第２時点の第２基準スペクトル包絡概形との差分である第２差分とを第１スペクトル包絡概形に合成することで、歌唱音声を参照音声に応じて変形した変形音を表す第３音信号における合成スペクトル包絡概形を生成する合成処理部を具備する。【選択図】図２

Description

本発明は、音を表す音信号を処理する技術に関する。

歌唱表現等の音表現を音声に付加する各種の技術が従来から提案されている。例えば特許文献１には、音声信号の各調波成分を周波数領域で移動させることにより、当該音声信号が表す音声を、濁声または嗄声等の特徴的な声質の音声に変換する技術が開示されている。

特開２０１４−２３３８号公報

しかし、特許文献１の技術においては、聴感的に自然な音を生成するという観点から更なる改善の余地がある。以上の事情を考慮して、本発明は、聴感的に自然な音を合成することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音処理方法は、第１音を表す第１音信号における第１スペクトル包絡概形と、前記第１音信号のうち第１時点の第１基準スペクトル包絡概形との差分である第１差分と、前記第１音とは音響特性が相違する第２音を表す第２音信号における第２スペクトル包絡概形と、前記第２音信号のうち第２時点の第２基準スペクトル包絡概形との差分である第２差分とを前記第１スペクトル包絡概形に合成することで、前記第１音を前記第２音に応じて変形した変形音を表す第３音信号における合成スペクトル包絡概形を生成する。

以上の課題を解決するために、本発明の好適な態様に係る音処理装置は、第１音を表す第１音信号における第１スペクトル包絡概形と、前記第１音信号のうち第１時点の第１基準スペクトル包絡概形との差分である第１差分と、前記第１音とは音響特性が相違する第２音を表す第２音信号における第２スペクトル包絡概形と、前記第２音信号のうち第２時点の第２基準スペクトル包絡概形との差分である第２差分とを前記第１スペクトル包絡概形に合成することで、前記第１音を前記第２音に応じて変形した変形音を表す第３音信号における合成スペクトル包絡概形を生成する合成処理部を具備する。

本発明の実施形態に係る音処理装置の構成を例示するブロック図である。音処理装置の機能的な構成を例示するブロック図である。第１音信号における定常期間の説明図である。信号解析処理の具体的な手順を例示するフローチャートである。歌唱音声の発音が開始された直後における基本周波数の時間変化である。歌唱音声の発音が終了する直前における基本周波数の時間変化である。リリース処理の具体的な手順を例示するフローチャートである。リリース処理の説明図である。スペクトル包絡概形の説明図である。アタック処理の具体的な手順を例示するフローチャートである。アタック処理の説明図である。

図１は、本発明の好適な形態に係る音処理装置１００の構成を例示するブロック図である。本実施形態の音処理装置１００は、利用者が楽曲を歌唱した音声（以下「歌唱音声」という）に対して各種の音表現を付加する信号処理装置である。音表現は、歌唱音声（第１音の例示）に対して付加される音響特性である。楽曲の歌唱に着目すると、音表現は、音声の発音（すなわち歌唱）に関する音楽的な表現または表情である。具体的には、ボーカルフライ、唸り声、または嗄れ声のような歌唱表現が、音表現の好適例である。なお、音表現は、声質とも換言される。

音表現は、発音の開始の直後に音量が増加していく部分（以下「アタック部」という）と、発音の終了の直前に音量が減少してく部分（以下「リリース部」という）とにおいて特に顕著となる。以上の傾向を考慮して、本実施形態では、歌唱音声のうち特にアタック部およびリリース部に対して音表現を付加する。

図１に例示される通り、音処理装置１００は、制御装置１１と記憶装置１２と操作装置１３と放音装置１４とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音処理装置１００として好適に利用される。操作装置１３は、利用者からの指示を受付ける入力機器である。例えば、利用者が操作する複数の操作子、または利用者による接触を検知するタッチパネルが、操作装置１３として好適に利用される。

制御装置１１は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、各種の演算処理および制御処理を実行する。本実施形態の制御装置１１は、歌唱音声に音表現を付与した音声（以下「変形音」という）を表す第３音信号Ｙを生成する。放音装置１４は、例えばスピーカまたはヘッドホンであり、制御装置１１が生成した第３音信号Ｙが表す変形音を放音する。なお、制御装置１１が生成した第３音信号Ｙをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。なお、音処理装置１００が放音装置１４を具備する構成を図１では例示したが、音処理装置１００とは別体の放音装置１４を音処理装置１００に有線または無線で接続してもよい。

記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成されたメモリであり、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。また、音処理装置１００とは別体の記憶装置１２（例えばクラウドストレージ）を用意し、制御装置１１が通信網を介して記憶装置１２に対する書込および読出を実行してもよい。すなわち、記憶装置１２を音処理装置１００から省略してもよい。

本実施形態の記憶装置１２は、第１音信号Ｘ1と第２音信号Ｘ2とを記憶する。第１音信号Ｘ1は、音処理装置１００の利用者が楽曲を歌唱した歌唱音声を表す音響信号である。第２音信号Ｘ2は、利用者以外の歌唱者（例えば歌手）が音表現を付加して歌唱した音声（以下「参照音声」という）を表す音響信号である。第１音信号Ｘ1と第２音信号Ｘ2とでは音響特性（例えば声質）が相違する。本実施形態の音処理装置１００は、第２音信号Ｘ2が表す参照音声（第２音の例示）の音表現を、第１音信号Ｘ1が表す歌唱音声に付加することで、変形音の第３音信号Ｙを生成する。なお、歌唱音声と参照音声との間で楽曲の異同は不問である。なお、以上の説明では歌唱音声の発声者と参照音声の発声者とが別人である場合を想定したが、歌唱音声の発声者と参照音声の発声者とは同一人でもよい。例えば、歌唱音声は、音表現を付加せずに利用者が歌唱した音声であり、参照音声は、当該利用者が歌唱表現を付加した音声である。

図２は、制御装置１１の機能的な構成を例示するブロック図である。図２に例示される通り、制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、第１音信号Ｘ1と第２音信号Ｘ2とから第３音信号Ｙを生成するための複数の機能（信号解析部２１および合成処理部２２）を実現する。なお、相互に別体で構成された複数の装置で制御装置１１の機能を実現してもよいし、制御装置１１の機能の一部または全部を専用の電子回路で実現してもよい。

信号解析部２１は、第１音信号Ｘ1の解析により解析データＤ1を生成し、第２音信号Ｘ2の解析により解析データＤ2を生成する。信号解析部２１が生成した解析データＤ1および解析データＤ2は記憶装置１２に格納される。

解析データＤ1は、第１音信号Ｘ1における複数の定常期間Ｑ1を表すデータである。図３に例示される通り、解析データＤ1が示す各定常期間Ｑ1は、第１音信号Ｘ1のうち基本周波数ｆ1とスペクトル形状とが時間的に安定している可変長の期間である。解析データＤ1は、各定常期間Ｑ1の始点の時刻（以下「始点時刻」という）Ｔ1_Sと終点の時刻（以下「終点時刻」という）Ｔ1_Eとを指定する。なお、楽曲内で相前後する２個の音符の間では、基本周波数ｆ1またはスペクトル形状（すなわち音韻）が変化する場合が多い。したがって、各定常期間Ｑ1は、楽曲内の１個の音符に相当する期間である可能性が高い。

同様に、解析データＤ2は、第２音信号Ｘ2における複数の定常期間Ｑ2を表すデータである。各定常期間Ｑ2は、第２音信号Ｘ2のうち基本周波数ｆ2とスペクトル形状とが時間的に安定している可変長の期間である。解析データＤ2は、各定常期間Ｑ2の始点時刻Ｔ2_Sと終点時刻Ｔ2_Eとを指定する。定常期間Ｑ1と同様に、各定常期間Ｑ2は、楽曲内の１個の音符に相当する期間である可能性が高い。

図４は、信号解析部２１が第１音信号Ｘ1を解析する処理（以下「信号解析処理」という）Ｓ0のフローチャートである。例えば操作装置１３に対する利用者からの指示を契機として図４の信号解析処理Ｓ0が開始される。図４に例示される通り、信号解析部２１は、時間軸上の複数の単位期間（フレーム）の各々について第１音信号Ｘ1の基本周波数ｆ1を算定する（Ｓ01）。基本周波数ｆ1の算定には公知の技術が任意に採用される。各単位期間は、定常期間Ｑ1に想定される時間長と比較して充分に短い期間である。

信号解析部２１は、第１音信号Ｘ1のスペクトル形状を表すメルケプストラムＭ1を単位期間毎に算定する（Ｓ02）。メルケプストラムＭ1は、第１音信号Ｘ1の周波数スペクトルの包絡線を表す複数の係数で表現される。メルケプストラムＭ1は、歌唱音声の音韻を表す特徴量とも表現される。メルケプストラムＭ1の算定には公知の技術が任意に採用される。なお、第１音信号Ｘ1のスペクトル形状を表す特徴量として、メルケプストラムＭ1の代わりにＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）を算定してもよい。

信号解析部２１は、第１音信号Ｘ1が表す歌唱音声の有声性を単位期間毎に推定する（Ｓ03）。すなわち、歌唱音声が有声音および無声音の何れに該当するかが判定される。有声性（有声／無声）の推定には公知の技術が任意に採用される。なお、基本周波数ｆ1の算定（Ｓ01）とメルケプストラムＭ1の算定（Ｓ02）と有声性の推定（Ｓ03）とについて順序は任意であり、以上に例示した順序には限定されない。

信号解析部２１は、基本周波数ｆ1の時間的な変化の度合を示す第１指標δ1を単位期間毎に算定する（Ｓ04）。例えば相前後する２個の単位期間の間における基本周波数ｆ1の差分が第１指標δ1として算定される。基本周波数ｆ1の時間的な変化が顕著であるほど第１指標δ1は大きい数値となる。

信号解析部２１は、メルケプストラムＭ1の時間的な変化の度合を示す第２指標δ2を単位期間毎に算定する（Ｓ05）。例えば、相前後する２個の単位期間の間においてメルケプストラムＭ1の係数毎の差分を複数の係数について合成（例えば加算または平均）した数値が、第２指標δ2として好適である。歌唱音声のスペクトル形状の時間的な変化が顕著であるほど第２指標δ2は大きい数値となる。例えば歌唱音声の音韻が変化する時点の付近では、第２指標δ2は大きい数値となる。

信号解析部２１は、第１指標δ1および第２指標δ2に応じた変動指標Δを単位期間毎に算定する（Ｓ06）。例えば、第１指標δ1と第２指標δ2との加重和が変動指標Δとして単位期間毎に算定される。第１指標δ1および第２指標δ2の各々の加重値は、所定の固定値、または操作装置１３に対する利用者からの指示に応じた可変値に設定される。以上の説明から理解される通り、第１音信号Ｘ1の基本周波数ｆ1またはメルケプストラムＭ1（すなわちスペクトル形状）の時間的な変動が大きいほど、変動指標Δは大きい数値になるという傾向がある。

信号解析部２１は、第１音信号Ｘ1における複数の定常期間Ｑ1を特定する（Ｓ07）。本実施形態の信号解析部２１は、歌唱音声の有声性の推定の結果（Ｓ03）と変動指標Δとに応じて定常期間Ｑ1を特定する。具体的には、信号解析部２１は、歌唱音声が有声音であると推定され、かつ、変動指標Δが所定の閾値を下回る一連の単位期間の集合を定常期間Ｑ1として画定する。歌唱音声が無声音であると推定された単位期間、または、変動指標Δが閾値を上回る単位期間は、定常期間Ｑ1から除外される。以上の手順により第１音信号Ｘ1の各定常期間Ｑ1を画定すると、信号解析部２１は、各定常期間Ｑ1の始点時刻Ｔ1_Sと終点時刻Ｔ1_Eとを指定する解析データＤ1を記憶装置１２に格納する（Ｓ08）。

信号解析部２１は、以上に説明した信号解析処理Ｓ0を、参照音声を表す第２音信号Ｘ2についても実行することで解析データＤ2を生成する。具体的には、信号解析部２１は、第２音信号Ｘ2の単位期間毎に、基本周波数ｆ2の算定（Ｓ01）とメルケプストラムＭ2の算定（Ｓ02）と有声性（有声／無声）の推定（Ｓ03）とを実行する。信号解析部２１は、基本周波数ｆ2の時間的な変化の度合を示す第１指標δ1と、メルケプストラムＭ2の時間的な変化の度合を示す第２指標δ2とに応じた変動指標Δを算定する（Ｓ04−Ｓ06）。そして、信号解析部２１は、参照音声の有声性の推定の結果（Ｓ03）と変動指標Δとに応じて第２音信号Ｘ2の各定常期間Ｑ2を特定する（Ｓ07）。信号解析部２１は、各定常期間Ｑ2の始点時刻Ｔ2_Sと終点時刻Ｔ2_Eとを指定する解析データＤ2を記憶装置１２に格納する（Ｓ08）。なお、解析データＤ1および解析データＤ2を、操作装置１３に対する利用者からの指示に応じて編集してもよい。

図２の合成処理部２２は、第２音信号Ｘ2の解析データＤ2を利用して第１音信号Ｘ1の解析データＤ1を変形する。本実施形態の合成処理部２２は、アタック処理部３１とリリース処理部３２と音声合成部３３とを含んで構成される。アタック処理部３１は、第２音信号Ｘ2におけるアタック部の音表現を第１音信号Ｘ1に付加するアタック処理Ｓ1を実行する。リリース処理部３２は、第２音信号Ｘ2におけるリリース部の音表現を第１音信号Ｘ1に付加するリリース処理Ｓ2を実行する。音声合成部３３は、アタック処理部３１およびリリース処理部３２による処理後の解析データから変形音の第３音信号Ｙを合成する。

図５には、歌唱音声の発音が開始された直後における基本周波数ｆ1の時間変化が図示されている。図５に例示される通り、定常期間Ｑ1の直前には有声期間Ｖaが存在する。有声期間Ｖaは、定常期間Ｑ1に先行する有声音の期間である。有声期間Ｖaは、歌唱音声の音響特性（例えば基本周波数ｆ1またはスペクトル形状）が定常期間Ｑ1の直前に不安定に変動する期間である。例えば、歌唱音声の発音が開始した直後の定常期間Ｑ1に着目すると、歌唱音声の発音が開始される時刻τ1_Aから当該定常期間Ｑ1の始点時刻Ｔ1_Sまでのアタック部が有声期間Ｖaに相当する。なお、以上の説明では歌唱音声に着目したが、参照音声についても同様に、定常期間Ｑ2の直前に有声期間Ｖaが存在する。合成処理部２２（具体的にはアタック処理部３１）は、アタック処理Ｓ1において、第１音信号Ｘ1のうち有声期間Ｖaと直後の定常期間Ｑ1とに対して第２音信号Ｘ2におけるアタック部の音表現を付加する。

図６には、歌唱音声の発音が終了する直前における基本周波数ｆ1の時間変化が図示されている。図６に例示される通り、定常期間Ｑ1の直後には有声期間Ｖrが存在する。有声期間Ｖrは、定常期間Ｑ1に後続する有声音の期間である。有声期間Ｖrは、歌唱音声の音響特性（例えば基本周波数ｆ2またはスペクトル形状）が定常期間Ｑ1の直後に不安定に変動する期間である。例えば、歌唱音声の発音が終了する直前の定常期間Ｑ1に着目すると、当該定常期間Ｑ1の終点時刻Ｔ1_Eから歌唱音声が消音する時刻τ1_Rまでのリリース部が有声期間Ｖrに相当する。なお、以上の説明では歌唱音声に着目したが、参照音声についても同様に、定常期間Ｑ2の直後に音声期間Ｖrが存在する。合成処理部２２（具体的にはリリース処理部３２）は、リリース処理Ｓ2において、第１音信号Ｘ1のうち有声期間Ｖrと直前の定常期間Ｑ1とに対して第２音信号Ｘ2のリリース部の音表現を付加する。

＜リリース処理Ｓ2＞
図７は、リリース処理部３２が実行するリリース処理Ｓ2の具体的な内容を例示するフローチャートである。第１音信号Ｘ1の定常期間Ｑ1毎に図７のリリース処理Ｓ2が実行される。

リリース処理Ｓ2を開始すると、リリース処理部３２は、第１音信号Ｘ1のうち処理対象の定常期間Ｑ1に第２音信号Ｘ2のリリース部の音表現を付加するか否かを判定する（Ｓ21）。具体的には、リリース処理部３２は、以下に例示する条件Ｃr1から条件Ｃr3の何れかに該当する定常期間Ｑ1についてはリリース部の音表現を付加しないと判定する。ただし、第１音信号Ｘ1の定常期間Ｑ1に音表現を付加するか否かを判定する条件は以下の例示に限定されない。
［条件Ｃr1］定常期間Ｑ1の時間長が所定値を下回る。
［条件Ｃr2］定常期間Ｑ1の直後の無声期間の時間長が所定値を下回る。
［条件Ｃr3］定常期間Ｑ1に後続する有声期間Ｖrの時間長が所定値を上回る。

時間長が充分に短い定常期間Ｑ1には自然な声質で音表現を付加することが困難である。そこで、定常期間Ｑ1の時間長が所定値を下回る場合（条件Ｃr1）、リリース処理部３２は、当該定常期間Ｑ1を音表現の付加対象から除外する。また、定常期間Ｑ1の直後に充分に短い無声期間が存在する場合、当該無声期間は、歌唱音声の途中における無声子音の期間である可能性がある。そして、無声子音の期間に音表現を付加すると、聴感的な違和感が知覚されるという傾向がある。以上の傾向を考慮して、定常期間Ｑ1の直後の無声期間の時間長が所定値を下回る場合（条件Ｃr2）、リリース処理部３２は、当該定常期間Ｑ1を音表現の付加対象から除外する。また、定常期間Ｑ1の直後の有声期間Ｖrの時間長が充分に長い場合には、歌唱音声に既に充分な音表現が付加されている可能性が高い。そこで、定常期間Ｑ1に後続する有声期間Ｖrの時間長が充分に長い場合（条件Ｃr3）、リリース処理部３２は、当該定常期間Ｑ1を音表現の付加対象から除外する。第１音信号Ｘ1の定常期間Ｑ1に音表現を付加しないと判定した場合（Ｓ21：NO）、リリース処理部３２は、以下に詳述する処理（Ｓ22−Ｓ26）を実行することなくリリース処理Ｓ2を終了する。

第１音信号Ｘ1の定常期間Ｑ1に第２音信号Ｘ2のリリース部の音表現を付加すると判定した場合（Ｓ21：YES）、リリース処理部３２は、第２音信号Ｘ2の複数の定常期間Ｑ2のうち、第１音信号Ｘ1の定常期間Ｑ1に付加されるべき音表現に対応する定常期間Ｑ2を選択する（Ｓ22）。具体的には、リリース処理部３２は、処理対象の定常期間Ｑ1に楽曲内の状況が近似する定常期間Ｑ2を選択する。例えば、１個の定常期間（以下「着目定常期間」という）について考慮される状況（context）としては、着目定常期間の時間長、着目定常期間の直後の定常期間の時間長、着目定常期間と直後の定常期間との間の音高差、着目定常期間の音高、および着目定常期間の直前の無音期間の時間長が例示される。リリース処理部３２は、以上に例示した状況について定常期間Ｑ1との差異が最小となる定常期間Ｑ2を選択する。

リリース処理部３２は、以上の手順で選択した定常期間Ｑ2に対応する音表現を第１音信号Ｘ1（解析データＤ1）に付加するための処理（Ｓ23−Ｓ26）を実行する。図８は、リリース処理部３２が第１音信号Ｘ1にリリース部の音表現を付加する処理の説明図である。

図８には、第１音信号Ｘ1と第２音信号Ｘ2と変形後の第３音信号Ｙとの各々について、時間軸上の波形と基本周波数の時間変化とが併記されている。図８において、歌唱音声の定常期間Ｑ1の始点時刻Ｔ1_Sおよび終点時刻Ｔ1_Eと、当該定常期間Ｑ1の直後の有声期間Ｖrの終点時刻τ1_Rと、当該定常期間Ｑ1の直後の音符に対応する有声期間Ｖaの始点時刻τ1_Aと、参照音声の定常期間Ｑ2の始点時刻Ｔ2_Sおよび終点時刻Ｔ2_Eと、当該定常期間Ｑ2の直後の有声期間Ｖrの終点時刻τ2_Rとが、既知の情報である。

リリース処理部３２は、処理対象の定常期間Ｑ1とステップＳ22で選択した定常期間Ｑ2との間で時間軸上の位置関係を調整する（Ｓ23）。具体的には、リリース処理部３２は、定常期間Ｑ2の時間軸上の位置を、定常期間Ｑ1の端点（Ｔ1_S，Ｔ1_E）を基準とした位置に調整する。本実施形態のリリース処理部３２は、図８に例示される通り、定常期間Ｑ1の終点時刻Ｔ1_Eに定常期間Ｑ2の終点時刻Ｔ2_Eが時間軸上で一致するように、第２音信号Ｘ2（定常期間Ｑ2）を第１音信号Ｘ1の時間軸上に配置する。

＜処理期間Ｚ1_Rの伸長（Ｓ24）＞
リリース処理部３２は、第１音信号Ｘ1のうち第２音信号Ｘ2の音表現が付加される期間（以下「処理期間」という）Ｚ1_Rを時間軸上で伸縮する（Ｓ24）。図８に例示される通り、処理期間Ｚ1_Rは、音表現の付加が開始される時刻（以下「合成開始時刻」という）Ｔm_Rから定常期間Ｑ1の直後の有声期間Ｖrの終点時刻τ1_Rまでの期間である。合成開始時刻Ｔm_Rは、歌唱音声の定常期間Ｑ1の始点時刻Ｔ1_Sと参照音声の定常期間Ｑ2の始点時刻Ｔ2_Sとのうち後方の時刻である。図８の例示の通り、定常期間Ｑ2の始点時刻Ｔ2_Sが定常期間Ｑ1の始点時刻Ｔ1_Sの後方に位置する場合には、定常期間Ｑ2の始点時刻Ｔ2_Sが合成開始時刻Ｔm_Rとして設定される。ただし、合成開始時刻Ｔm_Rは始点時刻Ｔ2_Sに限定されない。

図８に例示される通り、本実施形態のリリース処理部３２は、第１音信号Ｘ1の処理期間Ｚ1_Rを、第２音信号Ｘ2のうち表現期間Ｚ2_Rの時間長に応じて伸長する。表現期間Ｚ2_Rは、第２音信号Ｘ2のうちリリース部の音表現を表す期間であり、第１音信号Ｘ1に対する当該音表現の付加に利用される。図８に例示される通り、表現期間Ｚ2_Rは、合成開始時刻Ｔm_Rから定常期間Ｑ2の直後の有声期間Ｖrの終点時刻τ2_Rまでの期間である。

歌手等の熟練した歌唱者が歌唱した参照音声には相応の時間長にわたる充分な音表現が付加されるのに対し、歌唱に不慣れな利用者が歌唱した歌唱音声では音表現が時間的に不足する傾向がある。以上の傾向のもとでは、図８に例示される通り、参照音声の表現期間Ｚ2_Rが歌唱音声の処理期間Ｚ1_Rと比較して長い期間となる。したがって、本実施形態のリリース処理部３２は、第１音信号Ｘ1の処理期間Ｚ1_Rを、第２音信号Ｘ2の表現期間Ｚ2_Rの時間長まで伸長する。

処理期間Ｚ1_Rの伸長は、第１音信号Ｘ1（歌唱音声）の任意の時刻ｔ1と変形後の第３音信号Ｙ（変形音）の任意の時刻ｔとを相互に対応付ける処理（マッピング）で実現される。図８には、歌唱音声の時刻ｔ1（縦軸）と変形音の時刻ｔ（横軸）との対応関係が図示されている。

図８の対応関係における時刻ｔ1は、変形音の時刻ｔに対応する第１音信号Ｘ1の時刻である。図８に鎖線で併記された基準線Ｌは、第１音信号Ｘ1が伸縮されない状態（ｔ1＝ｔ）を意味する。また、変形音の時刻ｔに対する歌唱音声の時刻ｔ1の勾配が基準線Ｌと比較して小さい区間は、第１音信号Ｘ1が伸長される区間を意味する。時刻ｔに対する時刻ｔ1の勾配が基準線Ｌと比較して大きい区間は、歌唱音声が収縮される区間を意味する。

時刻ｔ1と時刻ｔとの対応関係は、以下に例示する数式(1a)から数式(1c)の非線形関数で表現される。

時刻Ｔ_Rは、図８に例示される通り、合成開始時刻Ｔm_Rと処理期間Ｚ1_Rの終点時刻τ1_Rとの間に位置する所定の時刻である。例えば、定常期間Ｑ1の始点時刻Ｔ1_Sと終点時刻Ｔ1_Eとの中点（(Ｔ1_S＋Ｔ1_E)/２）と合成開始時刻Ｔm_Rとのうちの後方の時刻が時刻Ｔ_Rとして設定される。数式(1a)から理解される通り、処理期間Ｚ1_Rのうち時刻Ｔ_Rの前方の期間は伸縮されない。すなわち、時刻Ｔ_Rから処理期間Ｚ1_Rの伸長が開始される。

数式(1b)から理解される通り、処理期間Ｚ1_Rのうち時刻Ｔ_Rの後方の期間は、当該時刻Ｔ_Rに近い位置において伸長の度合が大きく、終点時刻τ1_Rに近付くほど伸長の度合が小さくなるように時間軸上で伸長される。数式(1b)の関数η(t)は、時間軸上の前方ほど処理期間Ｚ1_Rを伸長し、時間軸上の後方ほど処理期間Ｚ1_Rの伸長の度合を低減するための非線形関数である。具体的には、例えば時刻ｔの２次関数（η(t)＝ｔ^２）が関数η(t)として好適に利用される。以上に説明した通り、本実施形態では、処理期間Ｚ1_Rの終点時刻τ1_Rに近い位置ほど伸長の度合が小さくなるように処理期間Ｚ1_Rが時間軸上で伸長される。したがって、歌唱音声の終点時刻τ1_Rの近傍の音響特性を変形音においても充分に維持することが可能である。なお、時刻Ｔ_Rに近い位置では、終点時刻τ1_Rの近傍と比較して、伸長に起因した聴感上の違和感が知覚され難い傾向がある。したがって、前述の例示のように時刻Ｔ_Rに近い位置において伸長の度合を増大させても、変形音の聴感上の自然性は殆ど低下しない。なお、第１音信号Ｘ1のうち表現期間Ｚ2_Rの終点時刻τ2_Rから次の有声期間Ｖrの始点時刻τ1_Aまでの期間は数式(1c)から理解される通り時間軸上で短縮される。なお、終点時刻τ2_Rから始点時刻τ1_Aまでの期間には音声が存在しないから、第１音信号Ｘ1を部分的な削除により削除してもよい。

以上の例示の通り、歌唱音声の処理期間Ｚ1_Rは参照音声の表現期間Ｚ2_Rの時間長に伸長される。他方、参照音声の表現期間Ｚ2_Rは時間軸上で伸縮されない。すなわち、変形音の時刻ｔに対応する配置後の第２音信号Ｘ2の時刻ｔ2は当該時刻ｔに一致する（ｔ2＝ｔ）。以上の例示の通り、本実施形態においては、歌唱音声の処理期間Ｚ1_Rが表現期間Ｚ2_Rの時間長に応じて伸長されるから、第２音信号Ｘ2の伸長は不要である。したがって、第２音信号Ｘ2が表すリリース部の音表現を正確に第１音信号Ｘ1に付加することが可能である。

以上に例示した手順で処理期間Ｚ1_Rを伸長すると、リリース処理部３２は、第１音信号Ｘ1の伸長後の処理期間Ｚ1_Rを第２音信号Ｘ2の表現期間Ｚ2_Rに応じて変形する（Ｓ25−Ｓ26）。具体的には、歌唱音声の伸長後の処理期間Ｚ1_Rと参照音声の表現期間Ｚ2_Rとの間で、基本周波数の合成（Ｓ25）とスペクトル包絡概形の合成（Ｓ26）とが実行される。

＜基本周波数の合成（Ｓ25）＞
リリース処理部３２は、以下の数式(2)の演算により第３音信号Ｙの各時刻ｔにおける基本周波数Ｆ(t)を算定する。

数式(2)における平滑基本周波数Ｆ1(t1)は、第１音信号Ｘ1の基本周波数ｆ1(t1)の時系列を時間軸上で平滑化した周波数である。同様に、数式(2)の平滑基本周波数Ｆ2(t2)は、第２音信号Ｘ2の基本周波数ｆ2(t2)の時系列を時間軸上で平滑化した周波数である。数式(2)の係数λ1および係数λ2は１以下の非負値に設定される（０≦λ1≦１，０≦λ2≦１）。

数式(2)から理解される通り、数式(2)の第２項は、歌唱音声の基本周波数ｆ1(t1)と平滑基本周波数Ｆ1(t1)との差分を、係数λ1に応じた度合で、第１音信号Ｘ1の基本周波数ｆ1(t1)から低減する処理である。また、数式(2)の第３項は、参照音声の基本周波数ｆ2(t2)と平滑基本周波数Ｆ2(t2)との差分を、係数λ2に応じた度合で、第１音信号Ｘ1の基本周波数ｆ1(t1)に付加する処理である。以上の説明から理解される通り、リリース処理部３２は、歌唱音声の基本周波数ｆ1(t1)と平滑基本周波数Ｆ1(t1)との差分を、参照音声の基本周波数ｆ2(t2)と平滑基本周波数Ｆ2(t2)との差分に置換する要素として機能する。すなわち、第１音信号Ｘ1における伸長後の処理期間Ｚ1_R内の基本周波数ｆ1(t1)の時間変化が、第２音信号Ｘ2における表現期間Ｚ2_R内の基本周波数ｆ2(t2)の時間変化に近付く。

＜スペクトル包絡概形の合成（Ｓ26）＞
リリース処理部３２は、歌唱音声の伸長後の処理期間Ｚ1_Rと参照音声の表現期間Ｚ2_Rとの間でスペクトル包絡概形を合成する。第１音信号Ｘ1のスペクトル包絡概形Ｇ1は、図９に例示される通り、第１音信号Ｘ1の周波数スペクトルｇ1の概形であるスペクトル包絡ｇ2を周波数領域で更に平滑化した強度分布を意味する。具体的には、音韻性（音韻に依存した差異）および個人性（発声者に依存した差異）が知覚できなくなる程度にスペクトル包絡ｇ2を平滑化した強度分布がスペクトル包絡概形Ｇ1である。例えばスペクトル包絡ｇ2を表すメルケプストラムの複数の係数のうち低次側に位置する所定個の係数によりスペクトル包絡概形Ｇ1が表現される。以上の説明では第１音信号Ｘ1のスペクトル包絡概形Ｇ1に着目したが、第２音信号Ｘ2のスペクトル包絡概形Ｇ2も同様である。

リリース処理部３２は、以下の数式(3)の演算により第３音信号Ｙの各時刻ｔにおけるスペクトル包絡概形（以下「合成スペクトル包絡概形」という）Ｇ(t)を算定する。

数式(3)の記号Ｇ1_refは、基準スペクトル包絡概形である。第１音信号Ｘ1の複数のスペクトル包絡概形Ｇ1のうち、特定の時点における１個のスペクトル包絡概形Ｇ1が、基準スペクトル包絡概形Ｇ1_ref（第１基準スペクトル包絡概形の例示）として利用される。具体的には、基準スペクトル包絡概形Ｇ1_refは、第１音信号Ｘ1のうち合成開始時刻Ｔm_R（第１時点の例示）におけるスペクトル包絡概形Ｇ1(Tm_R)である。すなわち、基準スペクトル包絡概形Ｇ1_refが抽出される時点は、定常期間Ｑ1の始点時刻Ｔ1_Sおよび定常期間Ｑ2の始点時刻Ｔ2_Sのうち後方の時刻に位置する。なお、基準スペクトル包絡概形Ｇ1_refが抽出される時点は合成開始時刻Ｔm_Rに限定されない。例えば、定常期間Ｑ1内の任意の時点のスペクトル包絡概形Ｇ1が基準スペクトル包絡概形Ｇ1_refとして利用される。

同様に、数式(3)の基準スペクトル包絡概形Ｇ2_refは、第２音信号Ｘ2の複数のスペクトル包絡概形Ｇ2のうち、特定の時点における１個のスペクトル包絡概形Ｇ2である。具体的には、基準スペクトル包絡概形Ｇ2_refは、第２音信号Ｘ2のうち合成開始時刻Ｔm_R（第２時点の例示）におけるスペクトル包絡概形Ｇ2(Tm_R)である。すなわち、基準スペクトル包絡概形Ｇ2_refが抽出される時点は、定常期間Ｑ1の始点時刻Ｔ1_Sおよび定常期間Ｑ2の始点時刻Ｔ2_Sのうち後方の時刻に位置する。なお、基準スペクトル包絡概形Ｇ2_refが抽出される時点は合成開始時刻Ｔm_Rに限定されない。例えば、定常期間Ｑ1内の任意の時点のスペクトル包絡概形Ｇ2が基準スペクトル包絡概形Ｇ2_refとして利用される。

数式(3)の係数μ1および係数μ2は、１以下の非負値に設定される（０≦μ1≦１，０≦μ2≦１）。数式(3)の第２項は、歌唱音声のスペクトル包絡概形Ｇ1(t1)と基準スペクトル包絡概形Ｇ1_refとの差分を、係数μ1（第１係数の例示）に応じた度合で、第１音信号Ｘ1のスペクトル包絡概形Ｇ1(t1)から低減する処理である。また、数式(3)の第３項は、参照音声のスペクトル包絡概形Ｇ2(t2)と基準スペクトル包絡概形Ｇ2_refとの差分を、係数μ2（第２係数の例示）に応じた度合で、第２音信号Ｘ2のスペクトル包絡概形Ｇ2(b)から低減する処理である。以上の説明から理解される通り、リリース処理部３２は、歌唱音声のスペクトル包絡概形Ｇ1(t1)と基準スペクトル包絡概形Ｇ1_refとの差分（第１差分の例示）を、参照音声のスペクトル包絡概形Ｇ2(t2)と基準スペクトル包絡概形Ｇ2_refとの差分（第２差分の例示）に置換する要素として機能する。

＜アタック処理Ｓ1＞
図１０は、アタック処理部３１が実行するアタック処理Ｓ1の具体的な内容を例示するフローチャートである。第１音信号Ｘ1の定常期間Ｑ1毎に図１０のアタック処理Ｓ1が実行される。なお、アタック処理Ｓ1の具体的な手順はリリース処理Ｓ2と同様である。

アタック処理Ｓ1を開始すると、アタック処理部３１は、第１音信号Ｘ1のうち処理対象の定常期間Ｑ1に第２音信号Ｘ2のアタック部の音表現を付加するか否かを判定する（Ｓ11）。具体的には、アタック処理部３１は、以下に例示する条件Ｃa1から条件Ｃa5の何れかに該当する定常期間Ｑ1についてはアタック部の音表現を付加しないと判定する。ただし、第１音信号Ｘ1の定常期間Ｑ1に音表現を付加するか否かを判定する条件は以下の例示に限定されない。
［条件Ｃa1］定常期間Ｑ1の時間長が所定値を下回る。
［条件Ｃa2］定常期間Ｑ1内で平滑化した基本周波数ｆ1の変動幅が所定値を上回る。
［条件Ｃa3］定常期間Ｑ1のうち始点を含む所定長の期間内で平滑化した基本周波数ｆ1の変動幅が所定値を上回る。
［条件Ｃa4］定常期間Ｑ1の直前の有声期間Ｖaの時間長が所定値を上回る。
［条件Ｃa5］定常期間Ｑ1の直前の有声期間Ｖaにおける基本周波数ｆ1の変動幅が所定値を上回る。

条件Ｃa1は、前述の条件Ｃr1と同様に、時間長が充分に短い定常期間Ｑ1には自然な声質で音表現を付加することが困難であるという事情を考慮した条件である。また、定常期間Ｑ1内で基本周波数ｆ1が大きく変動する場合には、歌唱音声に充分な音表現が付加されている可能性が高い。そこで、平滑後の基本周波数ｆ1の変動幅が所定値を上回る定常期間Ｑ1は、音表現の付加対象から除外される（条件Ｃa2）。条件Ｃa3は、条件Ｃa2と同様の内容であるが、定常期間Ｑ1のうち特にアタック部に近い期間に着目した条件である。また、定常期間Ｑ1の直前の有声期間Ｖaの時間長が充分に長い場合、または有声期間Ｖa内で基本周波数ｆ1が大きく変動する場合には、歌唱音声に既に充分な音表現が付加されている可能性が高い。そこで、直前の有声期間Ｖaの時間長が所定値を上回る定常期間Ｑ1（条件Ｃa4）と、有声期間Ｖa内での基本周波数ｆ1の変動幅が所定値を上回る定常期間Ｑ1（条件Ｃa5）とは、音表現の付加対象から除外される。定常期間Ｑ1に音表現を付加しないと判定した場合（Ｓ11：YES）、アタック処理部３１は、以下に詳述する処理（Ｓ12−Ｓ16）を実行することなくアタック処理Ｓ1を終了する。

第１音信号Ｘ1の定常期間Ｑ1に第２音信号Ｘ2のアタック部の音表現を付加すると判定した場合（Ｓ11：YES）、アタック処理部３１は、第２音信号Ｘ2の複数の定常期間Ｑ2のうち、定常期間Ｑ1に付加されるべき音表現に対応する定常期間Ｑ2を選択する（Ｓ12）。アタック処理部３１が定常期間Ｑ2を選択する方法は、リリース処理部３２が定常期間Ｑ2を選択する方法と同様である。

アタック処理部３１は、以上の手順で選択した定常期間Ｑ2に対応する音表現を第１音信号Ｘ1に付加するための処理（Ｓ13−Ｓ16）を実行する。図１１は、アタック処理部３１が第１音信号Ｘ1にアタック部の音表現を付加する処理の説明図である。

アタック処理部３１は、処理対象の定常期間Ｑ1とステップＳ12で選択した定常期間Ｑ2との間で時間軸上の位置関係を調整する（Ｓ13）。具体的には、アタック処理部３１は、図１１に例示される通り、定常期間Ｑ1の始点時刻Ｔ1_Sに定常期間Ｑ2の始点時刻Ｔ2_Sが時間軸上で一致するように、第２音信号Ｘ2（定常期間Ｑ2）を第１音信号Ｘ1の時間軸上に配置する。

＜処理期間Ｚ1_Aの伸長＞
アタック処理部３１は、第１音信号Ｘ1のうち第２音信号Ｘ2の音表現が付加される処理期間Ｚ1_Aを時間軸上で伸長する（Ｓ14）。処理期間Ｚ1_Aは、定常期間Ｑ1の直前の有声期間Ｖaの始点時刻τ1_Aから音表現の付加が終了される時刻（以下「合成終了時刻」という）Ｔm_Aまでの期間である。合成終了時刻Ｔm_Aは、例えば定常期間Ｑ1の始点時刻Ｔ1_S（定常期間Ｑ2の始点時刻Ｔ2_S）である。すなわち、アタック処理Ｓ1においては、定常期間Ｑ1の前方の有声期間Ｖaが処理期間Ｚ1_Aとして伸長される。前述の通り、定常期間Ｑ1は楽曲の音符に相当する期間である。有声期間Ｖaを伸長し、定常期間Ｑ1は伸長しない構成によれば、定常期間Ｑ1の始点時刻Ｔ1_Sの変化が抑制される。すなわち、歌唱音声における音符の先頭が前後に移動する可能性を低減できる。

図１１に例示される通り、本実施形態のアタック処理部３１は、第１音信号Ｘ1の処理期間Ｚ1_Aを、第２音信号Ｘ2のうち表現期間Ｚ2_Aの時間長に応じて伸長する。表現期間Ｚ2_Aは、第２音信号Ｘ2のうちアタック部の音表現を表す期間であり、第１音信号Ｘ1に対する当該音表現の付加に利用される。図１１に例示される通り、表現期間Ｚ2_Aは、定常期間Ｑ2の直前の有声期間Ｖaである。

具体的には、アタック処理部３１は、第１音信号Ｘ1の処理期間Ｚ1_Aを、第２音信号Ｘ2の表現期間Ｚ2_Aの時間長まで伸長する。図１１には、歌唱音声の時刻ｔ1（縦軸）と変形音の時刻ｔ（横軸）との対応関係が図示されている。

図１１に例示される通り、本実施形態では、処理期間Ｚ1_Aの始点時刻τ1_Aに近い位置ほど伸長の度合が小さくなるように処理期間Ｚ1_Aが時間軸上で伸長される。したがって、歌唱音声の始点時刻τ1_Aの近傍の音響特性を変形音においても充分に維持することが可能である。他方、参照音声の表現期間Ｚ2_Aは時間軸上で伸縮されない。したがって、第２音信号Ｘ2が表すアタック部の音表現を正確に第１音信号Ｘ1に付加することが可能である。

以上に例示した手順で処理期間Ｚ1_Aを伸長すると、アタック処理部３１は、第１音信号Ｘ1の伸長後の処理期間Ｚ1_Aを第２音信号Ｘ2の表現期間Ｚ2_Aに応じて変形する（Ｓ15−Ｓ16）。具体的には、歌唱音声の伸長後の処理期間Ｚ1_Aと参照音声の表現期間Ｚ2_Aとの間で、基本周波数の合成（Ｓ25）とスペクトル包絡概形の合成（Ｓ26）とが実行される。

具体的には、アタック処理部３１は、前述の数式(2)と同様の演算により、第１音信号Ｘ1の基本周波数ｆ1(t1)と第２音信号Ｘ2の基本周波数ｆ2(t2)とから第３音信号Ｙの基本周波数Ｆ(t)を算定する。すなわち、アタック処理部３１は、基本周波数ｆ1(t1)と平滑後の基本周波数Ｆ1(t1)との差分を係数λ1に応じた度合で第１音信号Ｘ1の基本周波数ｆ1(t1)から低減し、基本周波数ｆ2(t2)と平滑後の基本周波数Ｆ2(t2)との差分を係数λ2に応じた度合で第１音信号Ｘ1の基本周波数ｆ1(t1)に付加することで、第３音信号Ｙの基本周波数Ｆ(t)を算定する。したがって、第１音信号Ｘ1における伸長後の処理期間Ｚ1_A内の基本周波数ｆ1(t1)の時間変化が、第２音信号Ｘ2における表現期間Ｚ2_A内の基本周波数ｆ2(t2)の時間変化に近付く。

また、アタック処理部３１は、歌唱音声の伸長後の処理期間Ｚ1_Aと参照音声の表現期間Ｚ2_Aとの間でスペクトル包絡概形を合成する。具体的には、アタック処理部３１は、前述の数式(3)と同様の演算により、第１音信号Ｘ1のスペクトル包絡概形Ｇ1(t1)と第２音信号Ｘ2のスペクトル包絡概形Ｇ2(t2)とから第３音信号Ｙの合成スペクトル包絡概形Ｇ(t)を算定する。アタック処理Ｓ1において数式(3)に適用される基準スペクトル包絡概形Ｇ1_refは、第１音信号Ｘ1のうち合成終了時刻Ｔm_A（第１時点の例示）におけるスペクトル包絡概形Ｇ1(Tm_A)である。すなわち、基準スペクトル包絡概形Ｇ1_refが抽出される時点は、定常期間Ｑ1の始点時刻Ｔ1_Sに位置する。

同様に、アタック処理Ｓ1において数式(3)に適用される基準スペクトル包絡概形Ｇ2_refは、第２音信号Ｘ2のうち合成終了時刻Ｔm_A（第２時点の例示）におけるスペクトル包絡概形Ｇ2(Tm_A)である。すなわち、基準スペクトル包絡概形Ｇ2_refが抽出される時点は、定常期間Ｑ1の始点時刻Ｔ1_Sに位置する。

以上の説明から理解される通り、本実施形態のアタック処理部３１およびリリース処理部３２の各々は、定常期間Ｑ1の端点（始点時刻Ｔ1_Sまたは終点時刻Ｔ1_E）を基準とした時間軸上の位置において第２音信号Ｘ2（解析データＤ2）を利用して第１音信号Ｘ1（解析データＤ1）を変形する。以上に例示したアタック処理Ｓ1およびリリース処理Ｓ2により、変形音を表す第３音信号Ｙの基本周波数Ｆ(t)の時系列と合成スペクトル包絡概形Ｇ(t)の時系列とが生成される。図２の音声合成部３３は、第３音信号Ｙの基本周波数Ｆ(t)の時系列と合成スペクトル包絡概形Ｇ(t)の時系列とから第３音信号Ｙを生成する。

図２の音声合成部３３は、アタック処理Ｓ1およびリリース処理Ｓ2の結果（すなわち変形後の解析データ）を利用して変形音の第３音信号Ｙを合成する。具体的には、音声合成部３３は、第１音信号Ｘ1から算定される各周波数スペクトルｇ1を合成スペクトル包絡概形Ｇ(t)に沿うように調整し、かつ、第１音信号Ｘ1の基本周波数ｆ1を基本周波数Ｆ(t)に調整する。周波数スペクトルｇ1および基本周波数ｆ1の調整は例えば周波数領域で実行される。音声合成部３３は、以上に例示した調整後の周波数スペクトルを時間領域に変換することで第３音信号Ｙを合成する。

以上に説明した通り、本実施形態では、第１音信号Ｘ1のスペクトル包絡概形Ｇ1(t1)と基準スペクトル包絡概形Ｇ1_refとの差分（Ｇ1(t1)−Ｇ1_ref）と、第２音信号Ｘ2のスペクトル包絡概形Ｇ2(t2)と基準スペクトル包絡概形Ｇ2_refとの差分（Ｇ2(t2)−Ｇ2_ref）とが、第１音信号Ｘ1のスペクトル包絡概形Ｇ1(t1)に合成される。したがって、第１音信号Ｘ1のうち、第２音信号Ｘ2を利用して変形される期間（処理期間Ｚ1_A，Ｚ1_R）と当該期間の前後の期間との境界において音響特性が連続する聴感的に自然な変形音を生成できる。

また、本実施形態では、第１音信号Ｘ1のうち基本周波数ｆ1およびスペクトル形状が時間的に安定している定常期間Ｑ1が特定され、定常期間Ｑ1の端点（始点時刻Ｔ1_Sまたは終点時刻Ｔ1_E）を基準として配置された第２音信号Ｘ2を利用して第１音信号Ｘ1が変形される。したがって、第１音信号Ｘ1の適切な期間が第２音信号Ｘ2に応じて変形され、聴感的に自然な変形音を生成できる。

本実施形態では、第１音信号Ｘ1の処理期間（Ｚ1_A，Ｚ1_R）が第２音信号Ｘ2の表現期間（Ｚ2_A，Ｚ2_R）の時間長に応じて伸長されるから、第２音信号Ｘ2の伸長は不要である。したがって、参照音声の音響特性（例えば音表現）が正確に第１音信号Ｘ1に付加され、聴感的に自然な変形音を生成できる。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の形態では、第１指標δ1と第２指標δ2とから算定される変動指標Δを利用して第１音信号Ｘ1の定常期間Ｑ1を特定したが、第１指標δ1と第２指標δ2とに応じて定常期間Ｑ1を特定する方法は以上の例示に限定されない。例えば、信号解析部２１は、第１指標δ1に応じた第１暫定期間と第２指標δ2に応じた第２暫定期間とを特定する。第１暫定期間は、例えば第１指標δ1が閾値を下回る有声音の期間である。すなわち、基本周波数ｆ1が時間的に安定している期間が第１暫定期間として特定される。第２暫定期間は、例えば第２指標δ2が閾値を下回る有声音の期間である。すなわち、スペクトル形状が時間的に安定している期間が第２暫定期間として特定される。信号解析部２１は、第１暫定期間と第２暫定期間とが相互に重複する期間を定常期間Ｑ1として特定する。すなわち、第１音信号Ｘ1のうち基本周波数ｆ1とスペクトル形状との双方が時間的に安定している期間が定常期間Ｑ1として特定される。以上の説明から理解される通り、定常期間Ｑ1の特定において変動指標Δの算定を省略してもよい。なお、以上の説明では定常期間Ｑ1の特定に着目したが、第２音信号Ｘ2における定常期間Ｑ2の特定についても同様である。

（２）前述の形態では、第１音信号Ｘ1のうち基本周波数ｆ1およびスペクトル形状の双方が時間的に安定する期間を定常期間Ｑ1として特定したが、第１音信号Ｘ1のうち基本周波数ｆ1およびスペクトル形状の一方が時間的に安定する期間を定常期間Ｑ1として特定してもよい。同様に、第２音信号Ｘ2のうち基本周波数ｆ2およびスペクトル形状の一方が時間的に安定する期間を定常期間Ｑ2として特定してもよい。

（３）前述の形態では、第１音信号Ｘ1のうち合成開始時刻Ｔm_Rまたは合成終了時刻Ｔm_Aにおけるスペクトル包絡概形Ｇ1を基準スペクトル包絡概形Ｇ1_refとして利用したが、基準スペクトル包絡概形Ｇ1_refが抽出される時点（第１時点）は以上の例示に限定されない。例えば、定常期間Ｑ1の端点（始点時刻Ｔ1_Sまたは終点時刻Ｔ1_E）におけるスペクトル包絡概形Ｇ1を基準スペクトル包絡概形Ｇ1_refとしてもよい。ただし、基準スペクトル包絡概形Ｇ1_refが抽出される第１時点は、第１音信号Ｘ1のうちスペクトル形状が安定している定常期間Ｑ1内の時点であることが望ましい。

基準スペクトル包絡概形Ｇ2_refについても同様である。すなわち、前述の形態では、第２音信号Ｘ2のうち合成開始時刻Ｔm_Rまたは合成終了時刻Ｔm_Aにおけるスペクトル包絡概形Ｇ2を基準スペクトル包絡概形Ｇ2_refとして利用したが、基準スペクトル包絡概形Ｇ2_refが抽出される時点（第２時点）は以上の例示に限定されない。例えば、定常期間Ｑ2の端点（始点時刻Ｔ2_Sまたは終点時刻Ｔ2_E）におけるスペクトル包絡概形Ｇ2を基準スペクトル包絡概形Ｇ2_refとしてもよい。ただし、基準スペクトル包絡概形Ｇ2_refが抽出される第２時点は、第２音信号Ｘ2のうちスペクトル形状が安定している定常期間Ｑ2内の時点であることが望ましい。

また、第１音信号Ｘ1のうち基準スペクトル包絡概形Ｇ1_refが抽出される第１時点と、第２音信号Ｘ2のうち基準スペクトル包絡概形Ｇ2_refが抽出される第２時点とは、時間軸上の相異なる時点でもよい。

（４）前述の形態では、音処理装置１００の利用者が歌唱した歌唱音声を表す第１音信号Ｘ1を処理したが、第１音信号Ｘ1が表す音声は、利用者による歌唱音声に限定されない。例えば、素片接続型または統計モデル型の公知の音声合成技術により合成された第１音信号Ｘ1を処理してもよい。また、光ディスク等の記録媒体から読出された第１音信号Ｘ1を処理してもよい。第２音信号Ｘ2についても同様に、任意の方法で取得される。

また、第１音信号Ｘ1および第２音信号Ｘ2が表す音響は、狭義の音声（すなわち人間が発声する言語音）に限定されない。例えば、楽器の演奏音を表す第１音信号Ｘ1に各種の音表現（例えば演奏表現）を付加する場合にも本発明は適用される。例えば、演奏表現が付加されていない単調な演奏音を表す第１音信号Ｘ1に対し、第２音信号Ｘ2を利用してビブラート等の演奏表現が付加される。

＜付記＞
以上に例示した形態から、例えば以下の構成が把握される。

本発明の好適な態様（第１態様）に係る音処理方法は、第１音を表す第１音信号における第１スペクトル包絡概形と、前記第１音信号のうち第１時点の第１基準スペクトル包絡概形との差分である第１差分と、前記第１音とは音響特性が相違する第２音を表す第２音信号における第２スペクトル包絡概形と、前記第２音信号のうち第２時点の第２基準スペクトル包絡概形との差分である第２差分とを前記第１スペクトル包絡概形に合成することで、前記第１音を前記第２音に応じて変形した変形音を表す第３音信号における合成スペクトル包絡概形を生成する。以上の態様では、第１音信号の第１スペクトル包絡概形と第１基準スペクトル包絡概形との間の第１差分と、第２音信号のスペクトル包絡概形と第２基準スペクトル包絡概形との間の第２差分とを、第１スペクトル包絡概形に合成することで、第１音を第２音に応じて変形した変形音における合成スペクトル包絡概形が生成される。したがって、第１音信号のうち第２音信号が合成される期間と当該期間の前後の期間との境界において音響特性が連続する聴感的に自然な変形音を生成できる。
なお、スペクトル包絡概形は、スペクトル包絡の概形である。具体的には、音韻性（音韻間の差異）および個人性（発話者間の差異）が知覚できなくなる程度にスペクトル包絡を平滑化した周波数軸上の強度分布がスペクトル包絡概形に相当する。周波数スペクトルの概形を表すメルケプストラムの複数の係数のうち低次側に位置する所定個の係数によりスペクトル包絡概形が表現される。

第１態様の好適例（第２態様）において、前記第１音信号のうちスペクトル形状が時間的に安定する第１定常期間と、前記第２音信号のうちスペクトル形状が時間的に安定する第２定常期間との間で終点が一致するように前記第１音信号と前記第２音信号との時間的な位置を調整したときに、前記第１時点および前記第２時点は、前記第１定常期間の始点および前記第２定常期間の始点のうち後方の時点である。以上の態様では、第１定常期間と第２定常期間との間で終点を一致させたときに、第１定常期間の始点および第２定常期間の始点のうち後方の時点が第１時点および第２時点として選定される。したがって、第１定常期間および第２定常期間の始点において音響特性の連続性を維持しながら、第２音におけるリリース部の音響特性を第１音に付加した変形音を生成できる。

第１態様の好適例（第３態様）において、前記第１音信号のうちスペクトル形状が時間的に安定する第１定常期間と、前記第２音信号のうちスペクトル形状が時間的に安定する第２定常期間との間で始点が一致するように前記第１音信号と前記第２音信号との時間的な位置を調整したときに、前記第１時点および前記第２時点は、前記第１定常期間の始点である。以上の態様では、第１定常期間と第２定常期間との間で始点を一致させたときに、第１定常期間の始点（第２定常期間の始点）がが第１時点および第２時点として選定される。したがって、第１定常期間の始点の移動を抑制しながら、第２音の発音点付近における音響特性を第１音に付加した変形音を生成できる。

第１態様から第３態様の何れかの好適例（第４態様）において、前記合成スペクトル包絡概形の生成では、前記第１スペクトル包絡概形に対して、前記第１差分に第１係数を乗算した結果を減算し、前記第２差分に第２係数を乗算した結果を加算する。以上の態様では、第１差分に第１係数を乗算した結果を第１スペクトル包絡概形から減算し、第２差分に第２係数を乗算した結果を第１スペクトル包絡概形に加算することで、合成スペクトル包絡概形の時系列が生成される。したがって、第１音の音表現を低減するとともに第２音の音表現を有効に付加した変形音を生成できる。

本発明の好適な態様（第５態様）に係る音処理装置は、第１音を表す第１音信号における第１スペクトル包絡概形と、前記第１音信号のうち第１時点の第１基準スペクトル包絡概形との差分である第１差分と、前記第１音とは音響特性が相違する第２音を表す第２音信号における第２スペクトル包絡概形と、前記第２音信号のうち第２時点の第２基準スペクトル包絡概形との差分である第２差分とを前記第１スペクトル包絡概形に合成することで、前記第１音を前記第２音に応じて変形した変形音を表す第３音信号における合成スペクトル包絡概形を生成する合成処理部を具備する。

第５態様の好適例（第６態様）において、前記第１音信号のうちスペクトル形状が時間的に安定する第１定常期間と、前記第２音信号のうちスペクトル形状が時間的に安定する第２定常期間との間で終点が一致するように前記第１音信号と前記第２音信号との時間的な位置を調整したときに、前記第１時点および前記第２時点は、前記第１定常期間の始点および前記第２定常期間の始点のうち後方の時点である。

第５態様の好適例（第７態様）において、前記第１音信号のうちスペクトル形状が時間的に安定する第１定常期間と、前記第２音信号のうちスペクトル形状が時間的に安定する第２定常期間との間で始点が一致するように前記第１音信号と前記第２音信号との時間的な位置を調整したときに、前記第１時点および前記第２時点は、前記第１定常期間の始点である。

第５態様から第７態様の何れかの好適例（第８態様）において、前記合成処理部は、前記第１スペクトル包絡概形に対して、前記第１差分に第１係数を乗算した結果を減算し、前記第２差分に第２係数を乗算した結果を加算する。

１００…音処理装置、１１…制御装置、１２…記憶装置、１３…操作装置、１４…放音装置、２１…信号解析部、２２…合成処理部、３１…アタック処理部、３２…リリース処理部、３３…音声合成部。

Claims

第１音を表す第１音信号における第１スペクトル包絡概形と、前記第１音信号のうち第１時点の第１基準スペクトル包絡概形との差分である第１差分と、
前記第１音とは音響特性が相違する第２音を表す第２音信号における第２スペクトル包絡概形と、前記第２音信号のうち第２時点の第２基準スペクトル包絡概形との差分である第２差分と
を前記第１スペクトル包絡概形に合成することで、前記第１音を前記第２音に応じて変形した変形音を表す第３音信号における合成スペクトル包絡概形を生成する、
コンピュータにより実現される音処理方法。
前記第１音信号のうちスペクトル形状が時間的に安定する第１定常期間と、前記第２音信号のうちスペクトル形状が時間的に安定する第２定常期間との間で終点が一致するように前記第１音信号と前記第２音信号との時間的な位置を調整したときに、前記第１時点および前記第２時点は、前記第１定常期間の始点および前記第２定常期間の始点のうち後方の時点である
請求項１の音処理方法。
前記第１音信号のうちスペクトル形状が時間的に安定する第１定常期間と、前記第２音信号のうちスペクトル形状が時間的に安定する第２定常期間との間で始点が一致するように前記第１音信号と前記第２音信号との時間的な位置を調整したときに、前記第１時点および前記第２時点は、前記第１定常期間の始点である
請求項１の音処理方法。
前記合成スペクトル包絡概形の生成においては、
前記第１スペクトル包絡概形に対して、
前記第１差分に第１係数を乗算した結果を減算し、
前記第２差分に第２係数を乗算した結果を加算する
請求項１から請求項３の何れかの音処理方法。
第１音を表す第１音信号における第１スペクトル包絡概形と、前記第１音信号のうち第１時点の第１基準スペクトル包絡概形との差分である第１差分と、
前記第１音とは音響特性が相違する第２音を表す第２音信号における第２スペクトル包絡概形と、前記第２音信号のうち第２時点の第２基準スペクトル包絡概形との差分である第２差分と
を前記第１スペクトル包絡概形に合成することで、前記第１音を前記第２音に応じて変形した変形音を表す第３音信号における合成スペクトル包絡概形を生成する合成処理部
を具備する音処理装置。
前記第１音信号のうちスペクトル形状が時間的に安定する第１定常期間と、前記第２音信号のうちスペクトル形状が時間的に安定する第２定常期間との間で終点が一致するように前記第１音信号と前記第２音信号との時間的な位置を調整したときに、前記第１時点および前記第２時点は、前記第１定常期間の始点および前記第２定常期間の始点のうち後方の時点である
請求項５の音処理装置。
前記第１音信号のうちスペクトル形状が時間的に安定する第１定常期間と、前記第２音信号のうちスペクトル形状が時間的に安定する第２定常期間との間で始点が一致するように前記第１音信号と前記第２音信号との時間的な位置を調整したときに、前記第１時点および前記第２時点は、前記第１定常期間の始点である
請求項５の音処理装置。
前記合成処理部は、前記第１スペクトル包絡概形に対して、前記第１差分に第１係数を乗算した結果を減算し、前記第２差分に第２係数を乗算した結果を加算する
請求項５から請求項７の何れかの音処理装置。