JP6680029B2

JP6680029B2 - 音響処理方法および音響処理装置

Info

Publication number: JP6680029B2
Application number: JP2016060425A
Authority: JP
Inventors: 陽前澤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-03-24
Filing date: 2016-03-24
Publication date: 2020-04-15
Anticipated expiration: 2036-03-24
Also published as: WO2017164216A1; JP2017173608A; US20190019525A1; US10891966B2

Description

本発明は、音響信号を処理する技術に関する。

音高や音質（例えば音韻）を維持しながら音響信号を時間軸上で伸縮するタイムストレッチ技術が従来から提案されている。例えば特許文献１には、音響信号のピッチに対応する処理フレーム長を単位とした間引または補間により音響信号を時間軸上で伸縮する技術が開示されている。

特開２００６−１７９００号公報

しかし、例えばグリッサンドのように音響特性が非定常に変動する過渡区間が、音響特性が定常的に維持される定常区間と同等に時間軸上で伸縮された場合、伸縮前の音響から乖離した不自然な印象の音響として受聴者に知覚され得る。以上の事情を考慮して、本発明は、聴感的な自然性を維持しながら音響信号を伸縮することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音響処理方法は、コンピュータ（例えば単体のコンピュータまたは複数のコンピュータで構成されるシステム）が、第１音響信号の特徴量を複数の第１期間の各々について抽出し、各第１期間の間で特徴量の類似指標を算定し、各第１期間の間の類似指標と各第１期間の間を遷移する遷移コストとに応じた割当コストが最小となるように、第１音響信号の伸縮後の目標期間内の複数の第２期間の各々に複数の第１期間の何れかを対応させる時間対応処理を実行し、複数の第２期間の各々に第１期間を対応させた結果から目標期間にわたる第２音響信号を生成する。以上の態様では、各第１期間の間の類似指標に応じた割当コストが最小となるように、目標期間内の各第２期間に第１期間を対応させる。すなわち、第１音響信号のうち特徴量が時間軸上で定常的に維持される区間や特徴量の変動が反復される区間（例えばビブラートの１周期分）が時間軸上で伸縮され、特徴量の変動が他の区間と類似しない区間（例えばグリッサンドのように特徴量が非定常に変動する過渡区間）については伸縮の対象から除外される。したがって、例えば特徴量が定常的に維持される定常区間と特徴量が非定常に変動する過渡区間との双方を含む全区間にわたり第１音響信号を均等に伸縮する構成と比較して、聴感的な自然性を維持しながら音響信号を伸縮することが可能である。また、各第１期間の間を遷移する遷移コストに応じた割当コストが最小となるように、目標期間内の各第２期間に第１期間を対応させる。したがって、時間軸上で過度に乖離した第１期間の間の遷移は制約される。以上の観点からしても、聴感的な自然性を維持しながら音響信号を伸縮できるという前述の効果が実現される。

本発明の好適な態様において、時間対応処理では、各第１期間の間の遷移コストを、当該各第１期間の間の時間差が閾値を下回る場合に第１値に設定し、当該時間差が閾値を上回る場合に、第１値を上回る第２値に設定する。以上の態様では、各第１期間の間の時間差が閾値を下回る場合に遷移コストが第１値に設定され、時間差が閾値を上回る場合には、第１値を上回る第２値に遷移コストが設定されるから、各第１期間の間の遷移を所定の範囲内に制約できる。したがって、聴感的な自然性を維持しながら音響信号を伸縮できるという前述の効果は格別に顕著である。

本発明の好適な態様において、時間対応処理では、複数の第２期間の各々について、当該第２期間の直前の第２期間における割当コストの最小値を基礎コストとして順次に算定し、当該直前の第２期間の基礎コストと、類似指標および遷移コストとに応じた割当コストが最小となるように、複数の第２期間の各々に複数の第１期間の何れかを対応させる。

本発明の好適な態様において、時間対応処理では、複数の第２期間の各々について、各第１期間および各第２期間の間の暫定的な関係のもとで当該第２期間に対応する所定の範囲内の第１期間が対応するように、基礎コストを設定する。以上の態様では、複数の第２期間の各々について、各第１期間と各第２期間との暫定的な関係のもとで当該第２期間に対応する所定の範囲内の第１期間が対応するように基礎コストが設定される。したがって、各第１期間と各第２期間との暫定的な関係から過度に乖離しない範囲で第２音響信号を生成することが可能である。

本発明の好適な態様において、時間対応処理では、第１音響信号の発音点に対応する第１期間と、各第１期間および各第２期間の間の暫定的な関係のもとで発音点に対応する第２期間とが相互に対応するように、基礎コストを設定する。以上の態様では、第１音響信号の発音点に対応する第１期間と、各第１期間および各第２期間の間の暫定的な関係のもとで当該発音点に対応する第２期間とが相互に対応するように基礎コストが設定される。すなわち、第１音響信号における各発音点間の時間比率を反映した第２音響信号（例えば各発音点間の時間比率が第１音響信号と同等に維持された第２音響信号）が生成される。したがって、音響のリズムが第１音響信号と同等に維持された聴感的に自然な第２音響信号を生成できるという利点がある。

本発明の第１実施形態に係る音響処理装置の構成図である。音響信号の伸縮の説明図である。類似行列の説明図である。時間対応処理のフローチャートである。基礎コストの説明図である。遷移行列の説明図である。伸縮処理のフローチャートである。伸縮前後にわたる音響信号の関係の説明図である。第２実施形態における基礎コストの説明図である。第３実施形態における基礎コストの説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音響処理装置１００の構成図である。図１に例示される通り、第１実施形態の音響処理装置１００は、制御装置１２と記憶装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステムで実現される。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響処理装置１００として利用され得る。

記憶装置１４は、制御装置１２が実行するプログラムや制御装置１２が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として任意に採用される。第１実施形態の記憶装置１４は、楽音や音声等の各種の音響を表す音響信号ｘA（第１音響信号の例示）を記憶する。なお、例えば光ディスク等の記録媒体に記録された音響信号ｘAを再生する再生装置から音響処理装置１００に音響信号ｘAを供給することも可能である。

制御装置１２は、例えばＣＰＵ（Central Processing Unit）等の処理回路で構成され、音響処理装置１００の各要素を統括的に制御する。第１実施形態の制御装置１２は、図２に例示される通り、音響信号ｘAを時間軸上で伸縮した音響信号ｘB（第２音響信号の例示）を生成する。図１の放音装置１８（例えばスピーカやヘッドホン）は、制御装置１２が生成した音響信号ｘBに応じた音響を放音する。なお、音響信号ｘBをデジタルからアナログに変換するＤ/Ａ変換器や音響信号ｘBを増幅する増幅器の図示は便宜的に省略した。

入力装置１６は、利用者からの指示を受付ける操作機器である。例えば複数の操作子やタッチパネルが入力装置１６として好適に使用される。入力装置１６を適宜に操作することで、利用者は伸縮率αを任意に指示することが可能である。伸縮率αは、音響信号ｘAに対する音響信号ｘBの時間比率である。すなわち、制御装置１２は、図２に例示される通り、音響信号ｘAのα倍の時間長の期間（以下「目標期間」という）にわたる音響信号ｘBを生成する。具体的には、伸縮率αが１を下回る場合には音響信号ｘAを時間軸上で収縮した音響信号ｘBが生成され、伸縮率αが１を上回る場合には音響信号ｘAを時間軸上で伸長した音響信号ｘBが生成される。

図１に例示される通り、第１実施形態の制御装置１２は、記憶装置１４に記憶されたプログラムを実行することで、音響信号ｘAの伸縮により音響信号ｘBを生成するための複数の機能（特徴抽出部２２，指標算定部２４，解析処理部２６，信号生成部２８）を実現する。なお、制御装置１２の機能を複数の装置に分散した構成や、制御装置１２の機能の一部または全部を専用の電子回路が実現する構成も採用され得る。

特徴抽出部２２は、音響信号ｘAの音響的な特性に関する特徴量Ｆを抽出する。第１実施形態の特徴抽出部２２は、図２に例示される通り、音響信号ｘAを時間軸上で区分した複数（Ｋ個）の期間ＵAの各々について音響信号ｘAの特徴量Ｆを抽出する。各期間ＵA（第１期間の例示）は、所定の時間長の区間（フレーム）であり、相前後する各期間ＵAは相互に重複し得る。特徴抽出部２２が抽出する特徴量Ｆの種類は任意であるが、音響信号ｘAが表す音響の聴感的な特性を適切に表現し得る種類の特徴量Ｆが好適である。例えば、音響信号ｘAの振幅スペクトルや振幅スペクトルの時間変化（例えば時間微分）等が特徴量Ｆとして好適である。ピッチやパワー，スペクトル包絡等を特徴量Ｆとして音響信号ｘAから抽出することも可能である。また、例えば打楽器の演奏音を音響信号ｘAが表す場合には、パワーや減衰特性（発音点からの減衰率），ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）等の特徴量Ｆが好適である。

指標算定部２４は、音響信号ｘAのＫ個の期間ＵAの各々の相互間で特徴量Ｆの類似指標Ｒ[n,m]を算定する。第１実施形態の指標算定部２４は、図３に例示される類似行列ＭRを生成する。類似行列ＭRは、類似指標Ｒ[1,1]〜Ｒ[K,K]を要素とするＫ行×Ｋ列の正方行列である。類似行列ＭRのうち第ｎ行の第ｍ列（ｎ，ｍ＝１〜Ｋ）に位置する類似指標Ｒ[n,m]は、Ｋ個の期間ＵAのうち第ｎ番目の期間ＵAの特徴量Ｆと第ｍ番目の期間ＵAの特徴量Ｆとの類否の指標である。第１実施形態では、２個の特徴量Ｆの距離を類似指標Ｒ[n,m]として例示する。類似指標Ｒ[n,m]として利用され得る距離の典型例はユークリッド距離であるが、例えば板倉-斉藤距離やＩ-ダイバージェンス等の各種の距離規範が類似指標Ｒ[n,m]として利用され得る。以上の説明から理解される通り、第１実施形態では、２個の特徴量Ｆが相互に類似するほど類似指標Ｒ[n,m]は小さい数値となる。

解析処理部２６は、音響信号ｘAのα倍の時間長にわたる図２の目標期間内の複数（Ｑ個）の期間ＵBの各々に、音響信号ｘAのＫ個の期間ＵAの何れかを対応させる。すなわち、音響信号ｘAの各期間ＵAと音響信号ｘBの各期間ＵBとの最適な対応を解析する経路探索処理が実行される。具体的には、解析処理部２６は、目標期間内の相異なる期間ＵBに対応するＱ個の指標Ｚ[1]〜Ｚ[Q]を算定する。任意の１個の指標Ｚ[q]は、音響信号ｘAのＫ個の期間ＵAのうち目標期間の第ｑ番目（ｑ＝１〜Ｑ）の期間ＵBに対応する期間ＵAの番号（１〜Ｋ）に設定される。各期間ＵB（第２期間の例示）は、所定の時間長の区間であり、相前後する各期間ＵBは相互に重複し得る。

信号生成部２８は、解析処理部２６がＱ個の期間ＵBの各々に期間ＵAを対応させた結果（指標Ｚ[1]〜Ｚ[Q]）から目標期間にわたる音響信号ｘBを生成する。概略的には、音響信号ｘAのＫ個の期間ＵAのうち任意の１個の指標Ｚ[q]が指定する期間ＵAをＱ個の期間ＵBにわたり配列することで、目標期間にわたる音響信号ｘBが生成される。

具体的には、信号生成部２８は、音響信号ｘAの期間ＵA毎の複素スペクトルＸA[1]〜ＸA[K]から音響信号ｘBの期間ＵB毎の複素スペクトルＸB[1]〜ＸB[Q]を生成し、複数の複素スペクトルＸB[1]〜ＸB[Q]の各々を逆フーリエ変換により時間領域に変換してから相互に連結することで音響信号ｘBを生成する。任意の１個の期間ＵBにおける音響信号ｘBの複素スペクトルＸB[q]は、例えば以下の数式(1)で表現される。

すなわち、音響信号ｘBのうち第ｑ番目の期間ＵBの複素スペクトルＸB[q]は、音響信号ｘAのうち指標Ｚ[q]で指定される期間ＵAの振幅スペクトル|ＸA[Z[q]]|と、直前の第(ｑ−１)番目の期間ＵBの位相角arg ＸB[q-1]に位相差Δφ[q]を加算した位相スペクトルとで構成される。位相差Δφ[q]は、音響信号ｘAのうち指標Ｚ[q]で指定される期間ＵAの位相角arg(ＸA[Z[q]])と直前の期間ＵAの位相角arg(ＸA[Z[q]]−１)との差分である。すなわち、第１実施形態の信号生成部２８は、音響信号ｘBの複素スペクトルＸB[q]をフェーズボコーダ技術により生成する。ただし、解析処理部２６による処理結果に応じた音響信号ｘBを生成する方法は以上の例示に限定されない。例えば、ＰＳＯＬＡ(Pitch Synchronous Overlap and Add)等の音響処理技術により音響信号ｘBを生成することも可能である。

解析処理部２６の具体的な動作を説明する。図４は、解析処理部２６がＱ個の期間ＵBの各々に期間ＵAを対応させる処理（以下「時間対応処理」という）Ｓ3のフローチャートである。

解析処理部２６は、目標期間内のＱ個の期間ＵBの各々について音響信号ｘAの期間ＵA毎の基礎コストＣ[n,q]を算定する（Ｓ31）。Ｋ個の期間ＵAの各々とＱ個の期間ＵBの各々との組合せ毎に基礎コストＣ[n,q]が算定され、図５に例示される通り、基礎コストＣ[n,q]（Ｃ[1,1]〜Ｃ[K,Q]）を要素とするＫ行×Ｑ列の行列が生成される。任意の１個の基礎コストＣ[n,q]は、音響信号ｘBの第ｑ番目の期間ＵBにおいて音響信号ｘAの第ｎ番目の期間ＵAを再生する場合の最小コストである。具体的には、解析処理部２６は、以下の数式(2)の漸化式で表現される通り、直前（第(q-1)番目）の期間ＵBについて算定されて相異なる期間ＵAに対応するＫ個の割当コストΨ[q-1,n,1]〜Ψ[q-1,n,K]の最小値（min）を基礎コストＣ[n,q]として算定する。

数式(2)から理解される通り、第ｑ番目の期間ＵBと第ｎ番目の期間ＵAとに対応する基礎コストＣ[n,q]の算定に使用される割当コストΨ[q-1,n,m]は、直前の期間ＵBの基礎コストＣ[m,q-1]と、類似指標Ｒ[n-1,m]および遷移コストＴ[n,m]との合計である。類似指標Ｒ[n-1,m]は、音響信号ｘAの第(n-1)番目の期間ＵAと音響信号ｘAの任意（第ｍ番目）の期間ＵAとの間の特徴量Ｆの距離である。したがって、音響信号ｘAの第(n-1)番目の期間ＵAと第ｍ番目の期間ＵAとの間で特徴量Ｆが類似するほど割当コストΨ[q-1,n,m]は小さい数値となり、基礎コストＣ[n,q]として選択され易くなる。

遷移コストＴ[n,m]は、音響信号ｘAにおいて第ｎ番目の期間ＵAから任意（第ｍ番目）の期間ＵAに遷移するときのコストである。具体的には、図６に例示される通り、遷移コストＴ[n,m]を要素とするＫ行×Ｋ列の遷移行列ＭTが記憶装置１４に格納され、解析処理部２６は、任意の期間ＵAの組合せに対応する遷移コストＴ[n,m]を遷移行列ＭTから特定する。

音響信号ｘAのうち第ｎ番目の期間ＵAから時間軸上で極端に離間した期間ＵA（第ｍ番目）まで音響信号ｘBにおいて飛躍すると、音響信号ｘBの再生音が聴感的に不自然な印象となる。そこで、解析処理部２６は、第ｎ番目の期間ＵAに対して閾値δ1だけ手前の時点ｔ1よりも前方の期間ＵAに第ｎ番目の期間ＵAから遷移するとき（ｎ−δ1＞ｍ）の遷移コストＴ[n,m]を数値τHに設定する。同様に、解析処理部２６は、第ｎ番目の期間ＵAに対して閾値δ2だけ遅延した時点ｔ2よりも後方の期間ＵAに第ｎ番目の期間ＵAから遷移するとき（ｎ＋δ2＜ｍ）の遷移コストＴ[n,m]を数値τHに設定する。数値τHは、充分に大きい数値（例えばτH＝∞）である。したがって、第ｎ番目の期間ＵAから時点ｔ1の前方の期間ＵAへの遷移に対応する割当コストΨ[q-1,n,m]や、第ｎ番目の期間から時点ｔ2の後方の期間ＵAへの遷移に対応する割当コストΨ[q-1,n,m]は、基礎コストＣ[n,q]として選択されない。他方、第ｎ番目の期間ＵAから閾値δ1だけ手前の時点ｔ1と、第ｎ番目の期間ＵAから閾値δ2だけ後方の時点ｔ2との間の期間ＵAに第ｎ番目の期間ＵAから遷移するとき（ｎ−δ1≦ｍ≦ｎ＋δ2）の遷移コストＴ[n,m]は数値τLに設定される。数値τLは、数値τHを充分に下回る数値（例えばゼロ）である。すなわち、第ｎ番目の期間ＵAに対して所定の範囲内の遷移だけが許容される。以上に例示した遷移コストＴ[n,m]の設定は、以下の数式(3)で表現される。

以上に例示した基礎コストＣ[n,q]の算定とともに、第１実施形態の解析処理部２６は、以下の数式(4)の漸化式により候補指標Ｉ[n,q]を算定する（Ｓ32）。

すなわち、解析処理部２６は、割当コストΨ[q-1,n,m]を最小化する変数ｍを、第ｑ番目の期間ＵBの候補指標Ｉ[n,q]として算定する。具体的には、直前（第(q-1)番目）の期間ＵBについて算定されて相異なる期間ＵAに対応するＫ個の割当コストΨ[q-1,n,1]〜Ψ[q-1,n,K]の最小値に対応する変数ｍが、期間ＵBの候補指標Ｉ[n,q]として採択される。

そして、解析処理部２６は、以下の数式(5)で表現される通り、目標期間の末尾（第Ｑ番目）の指標Ｚ[Q]を、音響信号ｘAの末尾に位置する期間ＵAの番号Ｋに設定するとともに、そこから時間軸上の前方に向けて候補指標Ｉ[n,q]を辿ること（バックトラック）により、目標期間内のＱ個の期間ＵBの各々について指標Ｚ[q]を設定する（Ｓ33）。

図７は、第１実施形態の音響処理装置１００が音響信号ｘAを伸縮する処理（以下「伸縮処理」という）のフローチャートである。例えば音響信号ｘAの伸縮を指示するための操作を利用者が入力装置１６に付与した場合に図７の伸縮処理が開始される。

伸縮処理を開始すると、特徴抽出部２２は、記憶装置１４に記憶された音響信号ｘAの各期間ＵAについて特徴量Ｆを抽出する（Ｓ1）。指標算定部２４は、音響信号ｘAのＫ個の期間ＵAの各々の相互間において、特徴抽出部２２が抽出した特徴量Ｆの類似指標Ｒ[n,m]を算定する（Ｓ2）。

解析処理部２６は、図４を参照して説明した時間対応処理Ｓ3（Ｓ31〜Ｓ33）により、目標期間内のＱ個の期間ＵBの各々に期間ＵAを対応させる。すなわち、解析処理部２６は、Ｑ個の期間ＵBの各々について指標Ｚ[q]を設定する。信号生成部２８は、時間対応処理Ｓ3の結果（指標Ｚ[1]〜Ｚ[Q]）から目標期間にわたる音響信号ｘBを生成する（Ｓ4）。

図８は、音響信号ｘA（縦軸）と音響信号ｘB（横軸）との対応関係の模式図である。前述の通り、解析処理部２６は、割当コストΨ[q-1,n,m]が最小となるように、目標期間内のＱ個の期間ＵBの各々に音響信号ｘAのＫ個の期間ＵAの何れかを対応させる。第１実施形態の割当コストΨ[q-1,n,m]は、第ｎ番目の直前（第(n-1)番目）の期間ＵAと第ｍ番目の期間ＵAとの間の特徴量Ｆの類似指標Ｒ[n-1,m]に応じて算定される。したがって、図８に例示される通り、音響信号ｘAのうち特徴量Ｆが時間軸上で定常的に維持される定常区間や特徴量Ｆの変動が反復される変動区間（例えばビブラートの１周期分）を含む区間Ｙ1は時間軸上で伸縮（すなわち複数回にわたり反復）され、特徴量Ｆの変動が他の区間と類似しない過渡区間Ｙ2（例えばグリッサンドのように特徴量Ｆが非定常に変動する区間）については伸縮の対象から除外される。したがって、例えば特徴量Ｆが定常的に維持される定常区間と、特徴量Ｆが非定常に変動する過渡区間との双方を同等に伸縮する構成と比較して、聴感的な自然性を維持しながら音響信号ｘAを伸縮することが可能である。

また、第１実施形態の割当コストΨ[q-1,n,m]は、第ｎ番目の期間ＵAから第ｍ番目の期間ＵAに対する遷移コストＴ[n,m]に応じて算定されるから、時間軸上で相互に過度に乖離した２個の期間ＵAの間の遷移は制約される。以上の観点からしても、聴感的な自然性を維持しながら音響信号ｘAを伸縮できるという前述の効果が実現される。第１実施形態では特に、第ｎ番目の期間ＵAと第ｍ番目の期間ＵAとの時間差が閾値を下回る場合（ｎ−δ1≦ｍ≦ｎ＋δ2）に遷移コストＴ[n,m]が数値τL（第１値の例示）に設定され、時間差が閾値を上回る場合（ｎ−δ1＞ｍ，ｎ＋δ2＜ｍ）に遷移コストＴ[n,m]が数値τH（第２値の例示）に設定される。すなわち、音響信号ｘAの２個の期間ＵAの間の遷移が所定の範囲内に制約される。したがって、聴感的な自然性を維持しながら音響信号を伸縮できるという前述の効果は格別に顕著である。

＜第２実施形態＞
本発明の第２実施形態について説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態および後述の第３実施形態では、音響信号ｘAの各期間ＵAと音響信号ｘBの各期間ＵBとについて暫定的な関係（以下「暫定関係」という）を設定し、暫定関係から過度に乖離しないように目標期間内の期間ＵB毎の指標Ｚ[q]を設定する。暫定関係は、図９に例示される通り、各期間ＵAと各期間ＵBとの関係を示す暫定指標Λ[q]で規定される。例えば、音響信号ｘAの第１番目の期間ＵAから第Ｋ番目の期間ＵAまでをＱ個の期間ＵBの時系列に対して均等に対応させた暫定関係が表現されるように、第２実施形態では暫定指標Λ[q]を以下の数式(6)のように定義する。

数式(6)から理解される通り、暫定関係のもとでは、第Ｑ番目の期間ＵB（ｑ＝Ｑ＝αＫ）に、音響信号ｘAのうち第Ｋ番目の期間ＵAが対応する（Λ[Q]＝Ｋ）。数式(6)から理解される通り、第２実施形態の暫定関係は、音響信号ｘAを全区間にわたり均等に伸縮して音響信号ｘBを生成した場合の各期間ＵAと各期間ＵBとの対応関係であるとも換言され得る。

第２実施形態では、指標Ｚ[q]で指定される各期間ＵAと各期間ＵBとの関係が、数式(6)の暫定関係から過度に乖離しないように、基礎コストＣ[n,q]が設定される。具体的には、解析処理部２６は、以下の数式(7)により基礎コストＣ[n,q]を設定する。

数式(7)から理解される通り、第ｑ番目の期間ＵBについて算定されるＫ個の基礎コストＣ[1,q]〜Ｃ[K,q]のうち、数式(6)の暫定関係のもとで当該期間ＵBに対応する所定の範囲（以下「許容範囲」という）の外側の基礎コストＣ[n,q]は、数値τHに設定される。図９に例示される通り、許容範囲は、暫定指標Λ[q]が示す期間ＵAを中心とした所定幅（２×δTH）の範囲である。数式(7)の数値τHは充分に大きい数値（例えばτH＝∞）に設定される。したがって、各期間ＵAと各期間ＵBとの関係は、暫定関係に対して許容範囲の内側に制限される。

以上の説明から理解される通り、第２実施形態では、第ｑ番目の期間ＵBについて、数式(6)の暫定関係で規定される許容範囲内の期間ＵAが対応するように、基礎コストＣ[n,q]が設定される。したがって、各期間ＵAと各期間ＵBとの暫定関係から過度に乖離しない範囲で音響信号ｘBを生成することが可能である。

＜第３実施形態＞
図１０は、第３実施形態における基礎コストＣ[n,q]の説明図である。音響信号ｘAにおいて各種の音響が開始する時点（以下「発音点」という）の間隔の比率が音響信号ｘBにて維持されずに変動すると、音響信号ｘBの再生音は、発音のリズムが不規則に変動する不自然な印象となる。そこで、第２実施形態では、図１０に例示される通り、音響信号ｘAのうち発音点ｔAに対応する期間ＵAと、暫定関係のもとで当該発音点ｔAに対応する期間ＵBとが相互に対応するように、基礎コストＣ[n,q]が設定される。なお、音響信号ｘAの発音点ｔAの検出には公知の技術が任意に採用され得る。

具体的には、解析処理部２６は、暫定関係のもとで音響信号ｘAの発音点ｔAに対応する期間ＵB（すなわちΛ[q]＝ｔAとなる期間ＵB）については、以下の数式(8)のように基礎コストＣ[n,q]を設定する。

数式(8)および図１０から理解される通り、暫定関係のもとで発音点ｔAに対応する第ｑ番目の期間ＵBについて算定されるＫ個の基礎コストＣ[1,q]〜Ｃ[K,q]のうち、発音点ｔAが存在する１個の期間ＵA（ｎ＝Λ[q]）の基礎コストＣ[n,q]は数値τLに設定される。他方、発音点ｔAが存在しない期間ＵA（ｎ≠Λ[q]）の基礎コストＣ[n,q]は、数値τLを充分に上回る数値τHに設定される。数値τLは例えばゼロに設定され（τL＝０）、数値τHは例えば無限大に設定される（τH＝∞）。

以上の構成によれば、暫定関係のもとで発音点ｔAに対応する期間ＵBについては、Ｋ個の期間ＵAのうち当該発音点ｔAに対応する期間ＵAの番号ｎのみが指標Ｚ[q]として採択される。したがって、音響信号ｘAにおける各発音点ｔA間の時間比率は音響信号ｘBにおいても同等に維持される。すなわち、第２実施形態によれば、発音のリズムが音響信号ｘAと同等に維持された聴感的に自然な音響信号ｘBを生成できるという利点がある。なお、第２実施形態の構成を第３実施形態に適用することも可能である。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、図６に例示した遷移行列ＭTを参照して解析処理部２６が遷移コストＴ[n,m]を設定したが、遷移行列ＭTの１列分に対応するベクトル（以下「遷移ベクトル」という）を記憶装置１４に格納することも可能である。解析処理部２６は、遷移対象の２個の期間ＵAの組合せに対応する遷移コストＴ[n,m]を遷移ベクトルから特定する。以上の構成によれば、Ｋ行×Ｋ列の遷移行列ＭTを保持する必要がないから、記憶装置１４に必要な記憶容量を削減することが可能である。

（２）前述の各形態では、音響信号ｘAの全区間を共通の伸縮率αで伸縮したが、音響信号ｘBの任意の時点で伸縮率αを実時間的に変化させることも可能である。例えば、目標期間を時間軸上で複数の単位区間に区分し、図７の伸縮処理を単位区間毎に逐次的に実行する構成が想定される。例えば入力装置１６に対する操作に応じて単位区間毎に伸縮率αは更新される。任意の１個の単位区間の末尾の期間ＵBと直後の単位区間の先頭の期間ＵBとを、音響信号ｘAにおいて相前後する期間ＵAの組合せに制限することも可能である。

（３）前述の各形態では、音響信号ｘAの各期間ＵAと音響信号ｘBの各期間ＵBとの間の暫定関係として直線的な関係を例示したが（数式(6)）、暫定関係は以上の例示に限定されない。例えば、各期間ＵAと各期間ＵBとの間の暫定関係を曲線的な関係（例えばΛ[q]＝β×ｑ²）とすることも可能である（βは所定の正数）。

（４）移動体通信網やインターネット等の通信網を介して端末装置（例えば携帯電話機やスマートフォン）と通信するサーバ装置で音響処理装置１００を実現することも可能である。具体的には、音響処理装置１００は、端末装置から受信した音響信号ｘAに対する図７の伸縮処理で音響信号ｘBを生成し、伸縮後の音響信号ｘBを端末装置に送信する。

（５）前述の各形態で例示した音響処理装置１００は、前述の各形態の例示の通り、制御装置１２とプログラムとの協働で実現される。本発明の好適な態様に係るプログラムは、音響信号ｘAの特徴量Ｆを複数の期間ＵAの各々について抽出する特徴抽出部２２、各期間ＵAの間で特徴量Ｆの類似指標Ｒ[n,m]を算定する指標算定部２４、各期間ＵAの間の類似指標Ｒ[n,m]と各期間ＵAの間を遷移する遷移コストＴ[n,m]とに応じた割当コストΨ[q-1,n,m]が最小となるように、目標期間内の複数の期間ＵBの各々に複数の期間ＵAの何れかを対応させる解析処理部２６、および、解析処理部２６が複数の期間ＵBの各々に期間ＵAを対応させた結果から目標期間にわたる音響信号ｘBを生成する信号生成部２８としてコンピュータを機能させる。

以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。

１００…音響処理装置、１２…制御装置、１４…記憶装置、１６…入力装置、１８…放音装置、２２…特徴抽出部、２４…指標算定部、２６…解析処理部、２８…信号生成部。

Claims

コンピュータが、
第１音響信号の特徴量を複数の第１期間の各々について抽出し、
前記各第１期間の間で前記特徴量の類似指標を算定し、
前記各第１期間の間の類似指標と前記各第１期間の間を遷移する遷移コストとに応じた割当コストが最小となるように、前記第１音響信号の伸縮後の目標期間内の複数の第２期間の各々に前記複数の第１期間の何れかを対応させる時間対応処理を実行し、
前記複数の第２期間の各々に前記第１期間を対応させた結果から前記目標期間にわたる第２音響信号を生成する
音響処理方法。
前記時間対応処理では、前記各第１期間の間の遷移コストを、当該各第１期間の間の時間差が閾値を下回る場合に第１値に設定し、当該時間差が前記閾値を上回る場合に、前記第１値を上回る第２値に設定する
請求項１の音響処理方法。
前記時間対応処理では、前記複数の第２期間の各々について、当該第２期間の直前の第２期間における前記割当コストの最小値を基礎コストとして順次に算定し、当該直前の第２期間の基礎コストと、前記類似指標および前記遷移コストとに応じた割当コストが最小となるように、前記複数の第２期間の各々に前記複数の第１期間の何れかを対応させる
請求項１または請求項２の音響処理方法。
前記時間対応処理では、前記複数の第２期間の各々について、前記各第１期間および前記各第２期間の間の暫定的な関係のもとで当該第２期間に対応する所定の範囲内の第１期間が対応するように、前記基礎コストを設定する
請求項３の音響処理方法。
前記時間対応処理では、前記第１音響信号の発音点に対応する第１期間と、前記各第１期間および前記各第２期間の間の暫定的な関係のもとで前記発音点に対応する第２期間とが相互に対応するように、前記基礎コストを設定する
請求項３または請求項４の音響処理方法。
第１音響信号の特徴量を複数の第１期間の各々について抽出する特徴抽出部と、
前記各第１期間の間で前記特徴量の類似指標を算定する指標算定部と、
前記各第１期間の間の類似指標と前記各第１期間の間を遷移する遷移コストとに応じた割当コストが最小となるように、前記第１音響信号の伸縮後の目標期間内の複数の第２期間の各々に前記複数の第１期間の何れかを対応させる解析処理部と、
前記解析処理部が前記複数の第２期間の各々に前記第１期間を対応させた結果から前記目標期間にわたる第２音響信号を生成する信号生成部と
を具備する音響処理装置。