JP6680029B2 - 音響処理方法および音響処理装置 - Google Patents

音響処理方法および音響処理装置 Download PDF

Info

Publication number
JP6680029B2
JP6680029B2 JP2016060425A JP2016060425A JP6680029B2 JP 6680029 B2 JP6680029 B2 JP 6680029B2 JP 2016060425 A JP2016060425 A JP 2016060425A JP 2016060425 A JP2016060425 A JP 2016060425A JP 6680029 B2 JP6680029 B2 JP 6680029B2
Authority
JP
Japan
Prior art keywords
period
periods
acoustic signal
cost
transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016060425A
Other languages
English (en)
Other versions
JP2017173608A (ja
Inventor
陽 前澤
陽 前澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2016060425A priority Critical patent/JP6680029B2/ja
Priority to PCT/JP2017/011375 priority patent/WO2017164216A1/ja
Publication of JP2017173608A publication Critical patent/JP2017173608A/ja
Priority to US16/135,818 priority patent/US10891966B2/en
Application granted granted Critical
Publication of JP6680029B2 publication Critical patent/JP6680029B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音響信号を処理する技術に関する。
音高や音質(例えば音韻)を維持しながら音響信号を時間軸上で伸縮するタイムストレッチ技術が従来から提案されている。例えば特許文献1には、音響信号のピッチに対応する処理フレーム長を単位とした間引または補間により音響信号を時間軸上で伸縮する技術が開示されている。
特開2006−17900号公報
しかし、例えばグリッサンドのように音響特性が非定常に変動する過渡区間が、音響特性が定常的に維持される定常区間と同等に時間軸上で伸縮された場合、伸縮前の音響から乖離した不自然な印象の音響として受聴者に知覚され得る。以上の事情を考慮して、本発明は、聴感的な自然性を維持しながら音響信号を伸縮することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音響処理方法は、コンピュータ(例えば単体のコンピュータまたは複数のコンピュータで構成されるシステム)が、第1音響信号の特徴量を複数の第1期間の各々について抽出し、各第1期間の間で特徴量の類似指標を算定し、各第1期間の間の類似指標と各第1期間の間を遷移する遷移コストとに応じた割当コストが最小となるように、第1音響信号の伸縮後の目標期間内の複数の第2期間の各々に複数の第1期間の何れかを対応させる時間対応処理を実行し、複数の第2期間の各々に第1期間を対応させた結果から目標期間にわたる第2音響信号を生成する。以上の態様では、各第1期間の間の類似指標に応じた割当コストが最小となるように、目標期間内の各第2期間に第1期間を対応させる。すなわち、第1音響信号のうち特徴量が時間軸上で定常的に維持される区間や特徴量の変動が反復される区間(例えばビブラートの1周期分)が時間軸上で伸縮され、特徴量の変動が他の区間と類似しない区間(例えばグリッサンドのように特徴量が非定常に変動する過渡区間)については伸縮の対象から除外される。したがって、例えば特徴量が定常的に維持される定常区間と特徴量が非定常に変動する過渡区間との双方を含む全区間にわたり第1音響信号を均等に伸縮する構成と比較して、聴感的な自然性を維持しながら音響信号を伸縮することが可能である。また、各第1期間の間を遷移する遷移コストに応じた割当コストが最小となるように、目標期間内の各第2期間に第1期間を対応させる。したがって、時間軸上で過度に乖離した第1期間の間の遷移は制約される。以上の観点からしても、聴感的な自然性を維持しながら音響信号を伸縮できるという前述の効果が実現される。
本発明の好適な態様において、時間対応処理では、各第1期間の間の遷移コストを、当該各第1期間の間の時間差が閾値を下回る場合に第1値に設定し、当該時間差が閾値を上回る場合に、第1値を上回る第2値に設定する。以上の態様では、各第1期間の間の時間差が閾値を下回る場合に遷移コストが第1値に設定され、時間差が閾値を上回る場合には、第1値を上回る第2値に遷移コストが設定されるから、各第1期間の間の遷移を所定の範囲内に制約できる。したがって、聴感的な自然性を維持しながら音響信号を伸縮できるという前述の効果は格別に顕著である。
本発明の好適な態様において、時間対応処理では、複数の第2期間の各々について、当該第2期間の直前の第2期間における割当コストの最小値を基礎コストとして順次に算定し、当該直前の第2期間の基礎コストと、類似指標および遷移コストとに応じた割当コストが最小となるように、複数の第2期間の各々に複数の第1期間の何れかを対応させる。
本発明の好適な態様において、時間対応処理では、複数の第2期間の各々について、各第1期間および各第2期間の間の暫定的な関係のもとで当該第2期間に対応する所定の範囲内の第1期間が対応するように、基礎コストを設定する。以上の態様では、複数の第2期間の各々について、各第1期間と各第2期間との暫定的な関係のもとで当該第2期間に対応する所定の範囲内の第1期間が対応するように基礎コストが設定される。したがって、各第1期間と各第2期間との暫定的な関係から過度に乖離しない範囲で第2音響信号を生成することが可能である。
本発明の好適な態様において、時間対応処理では、第1音響信号の発音点に対応する第1期間と、各第1期間および各第2期間の間の暫定的な関係のもとで発音点に対応する第2期間とが相互に対応するように、基礎コストを設定する。以上の態様では、第1音響信号の発音点に対応する第1期間と、各第1期間および各第2期間の間の暫定的な関係のもとで当該発音点に対応する第2期間とが相互に対応するように基礎コストが設定される。すなわち、第1音響信号における各発音点間の時間比率を反映した第2音響信号(例えば各発音点間の時間比率が第1音響信号と同等に維持された第2音響信号)が生成される。したがって、音響のリズムが第1音響信号と同等に維持された聴感的に自然な第2音響信号を生成できるという利点がある。
本発明の第1実施形態に係る音響処理装置の構成図である。 音響信号の伸縮の説明図である。 類似行列の説明図である。 時間対応処理のフローチャートである。 基礎コストの説明図である。 遷移行列の説明図である。 伸縮処理のフローチャートである。 伸縮前後にわたる音響信号の関係の説明図である。 第2実施形態における基礎コストの説明図である。 第3実施形態における基礎コストの説明図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100の構成図である。図1に例示される通り、第1実施形態の音響処理装置100は、制御装置12と記憶装置14と入力装置16と放音装置18とを具備するコンピュータシステムで実現される。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響処理装置100として利用され得る。
記憶装置14は、制御装置12が実行するプログラムや制御装置12が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用される。第1実施形態の記憶装置14は、楽音や音声等の各種の音響を表す音響信号xA(第1音響信号の例示)を記憶する。なお、例えば光ディスク等の記録媒体に記録された音響信号xAを再生する再生装置から音響処理装置100に音響信号xAを供給することも可能である。
制御装置12は、例えばCPU(Central Processing Unit)等の処理回路で構成され、音響処理装置100の各要素を統括的に制御する。第1実施形態の制御装置12は、図2に例示される通り、音響信号xAを時間軸上で伸縮した音響信号xB(第2音響信号の例示)を生成する。図1の放音装置18(例えばスピーカやヘッドホン)は、制御装置12が生成した音響信号xBに応じた音響を放音する。なお、音響信号xBをデジタルからアナログに変換するD/A変換器や音響信号xBを増幅する増幅器の図示は便宜的に省略した。
入力装置16は、利用者からの指示を受付ける操作機器である。例えば複数の操作子やタッチパネルが入力装置16として好適に使用される。入力装置16を適宜に操作することで、利用者は伸縮率αを任意に指示することが可能である。伸縮率αは、音響信号xAに対する音響信号xBの時間比率である。すなわち、制御装置12は、図2に例示される通り、音響信号xAのα倍の時間長の期間(以下「目標期間」という)にわたる音響信号xBを生成する。具体的には、伸縮率αが1を下回る場合には音響信号xAを時間軸上で収縮した音響信号xBが生成され、伸縮率αが1を上回る場合には音響信号xAを時間軸上で伸長した音響信号xBが生成される。
図1に例示される通り、第1実施形態の制御装置12は、記憶装置14に記憶されたプログラムを実行することで、音響信号xAの伸縮により音響信号xBを生成するための複数の機能(特徴抽出部22,指標算定部24,解析処理部26,信号生成部28)を実現する。なお、制御装置12の機能を複数の装置に分散した構成や、制御装置12の機能の一部または全部を専用の電子回路が実現する構成も採用され得る。
特徴抽出部22は、音響信号xAの音響的な特性に関する特徴量Fを抽出する。第1実施形態の特徴抽出部22は、図2に例示される通り、音響信号xAを時間軸上で区分した複数(K個)の期間UAの各々について音響信号xAの特徴量Fを抽出する。各期間UA(第1期間の例示)は、所定の時間長の区間(フレーム)であり、相前後する各期間UAは相互に重複し得る。特徴抽出部22が抽出する特徴量Fの種類は任意であるが、音響信号xAが表す音響の聴感的な特性を適切に表現し得る種類の特徴量Fが好適である。例えば、音響信号xAの振幅スペクトルや振幅スペクトルの時間変化(例えば時間微分)等が特徴量Fとして好適である。ピッチやパワー,スペクトル包絡等を特徴量Fとして音響信号xAから抽出することも可能である。また、例えば打楽器の演奏音を音響信号xAが表す場合には、パワーや減衰特性(発音点からの減衰率),MFCC(Mel-Frequency Cepstrum Coefficients)等の特徴量Fが好適である。
指標算定部24は、音響信号xAのK個の期間UAの各々の相互間で特徴量Fの類似指標R[n,m]を算定する。第1実施形態の指標算定部24は、図3に例示される類似行列MRを生成する。類似行列MRは、類似指標R[1,1]〜R[K,K]を要素とするK行×K列の正方行列である。類似行列MRのうち第n行の第m列(n,m=1〜K)に位置する類似指標R[n,m]は、K個の期間UAのうち第n番目の期間UAの特徴量Fと第m番目の期間UAの特徴量Fとの類否の指標である。第1実施形態では、2個の特徴量Fの距離を類似指標R[n,m]として例示する。類似指標R[n,m]として利用され得る距離の典型例はユークリッド距離であるが、例えば板倉-斉藤距離やI-ダイバージェンス等の各種の距離規範が類似指標R[n,m]として利用され得る。以上の説明から理解される通り、第1実施形態では、2個の特徴量Fが相互に類似するほど類似指標R[n,m]は小さい数値となる。
解析処理部26は、音響信号xAのα倍の時間長にわたる図2の目標期間内の複数(Q個)の期間UBの各々に、音響信号xAのK個の期間UAの何れかを対応させる。すなわち、音響信号xAの各期間UAと音響信号xBの各期間UBとの最適な対応を解析する経路探索処理が実行される。具体的には、解析処理部26は、目標期間内の相異なる期間UBに対応するQ個の指標Z[1]〜Z[Q]を算定する。任意の1個の指標Z[q]は、音響信号xAのK個の期間UAのうち目標期間の第q番目(q=1〜Q)の期間UBに対応する期間UAの番号(1〜K)に設定される。各期間UB(第2期間の例示)は、所定の時間長の区間であり、相前後する各期間UBは相互に重複し得る。
信号生成部28は、解析処理部26がQ個の期間UBの各々に期間UAを対応させた結果(指標Z[1]〜Z[Q])から目標期間にわたる音響信号xBを生成する。概略的には、音響信号xAのK個の期間UAのうち任意の1個の指標Z[q]が指定する期間UAをQ個の期間UBにわたり配列することで、目標期間にわたる音響信号xBが生成される。
具体的には、信号生成部28は、音響信号xAの期間UA毎の複素スペクトルXA[1]〜XA[K]から音響信号xBの期間UB毎の複素スペクトルXB[1]〜XB[Q]を生成し、複数の複素スペクトルXB[1]〜XB[Q]の各々を逆フーリエ変換により時間領域に変換してから相互に連結することで音響信号xBを生成する。任意の1個の期間UBにおける音響信号xBの複素スペクトルXB[q]は、例えば以下の数式(1)で表現される。
Figure 0006680029
すなわち、音響信号xBのうち第q番目の期間UBの複素スペクトルXB[q]は、音響信号xAのうち指標Z[q]で指定される期間UAの振幅スペクトル|XA[Z[q]]|と、直前の第(q−1)番目の期間UBの位相角arg XB[q-1]に位相差Δφ[q]を加算した位相スペクトルとで構成される。位相差Δφ[q]は、音響信号xAのうち指標Z[q]で指定される期間UAの位相角arg(XA[Z[q]])と直前の期間UAの位相角arg(XA[Z[q]]−1)との差分である。すなわち、第1実施形態の信号生成部28は、音響信号xBの複素スペクトルXB[q]をフェーズボコーダ技術により生成する。ただし、解析処理部26による処理結果に応じた音響信号xBを生成する方法は以上の例示に限定されない。例えば、PSOLA(Pitch Synchronous Overlap and Add)等の音響処理技術により音響信号xBを生成することも可能である。
解析処理部26の具体的な動作を説明する。図4は、解析処理部26がQ個の期間UBの各々に期間UAを対応させる処理(以下「時間対応処理」という)S3のフローチャートである。
解析処理部26は、目標期間内のQ個の期間UBの各々について音響信号xAの期間UA毎の基礎コストC[n,q]を算定する(S31)。K個の期間UAの各々とQ個の期間UBの各々との組合せ毎に基礎コストC[n,q]が算定され、図5に例示される通り、基礎コストC[n,q](C[1,1]〜C[K,Q])を要素とするK行×Q列の行列が生成される。任意の1個の基礎コストC[n,q]は、音響信号xBの第q番目の期間UBにおいて音響信号xAの第n番目の期間UAを再生する場合の最小コストである。具体的には、解析処理部26は、以下の数式(2)の漸化式で表現される通り、直前(第(q-1)番目)の期間UBについて算定されて相異なる期間UAに対応するK個の割当コストΨ[q-1,n,1]〜Ψ[q-1,n,K]の最小値(min)を基礎コストC[n,q]として算定する。
Figure 0006680029
数式(2)から理解される通り、第q番目の期間UBと第n番目の期間UAとに対応する基礎コストC[n,q]の算定に使用される割当コストΨ[q-1,n,m]は、直前の期間UBの基礎コストC[m,q-1]と、類似指標R[n-1,m]および遷移コストT[n,m]との合計である。類似指標R[n-1,m]は、音響信号xAの第(n-1)番目の期間UAと音響信号xAの任意(第m番目)の期間UAとの間の特徴量Fの距離である。したがって、音響信号xAの第(n-1)番目の期間UAと第m番目の期間UAとの間で特徴量Fが類似するほど割当コストΨ[q-1,n,m]は小さい数値となり、基礎コストC[n,q]として選択され易くなる。
遷移コストT[n,m]は、音響信号xAにおいて第n番目の期間UAから任意(第m番目)の期間UAに遷移するときのコストである。具体的には、図6に例示される通り、遷移コストT[n,m]を要素とするK行×K列の遷移行列MTが記憶装置14に格納され、解析処理部26は、任意の期間UAの組合せに対応する遷移コストT[n,m]を遷移行列MTから特定する。
音響信号xAのうち第n番目の期間UAから時間軸上で極端に離間した期間UA(第m番目)まで音響信号xBにおいて飛躍すると、音響信号xBの再生音が聴感的に不自然な印象となる。そこで、解析処理部26は、第n番目の期間UAに対して閾値δ1だけ手前の時点t1よりも前方の期間UAに第n番目の期間UAから遷移するとき(n−δ1>m)の遷移コストT[n,m]を数値τHに設定する。同様に、解析処理部26は、第n番目の期間UAに対して閾値δ2だけ遅延した時点t2よりも後方の期間UAに第n番目の期間UAから遷移するとき(n+δ2<m)の遷移コストT[n,m]を数値τHに設定する。数値τHは、充分に大きい数値(例えばτH=∞)である。したがって、第n番目の期間UAから時点t1の前方の期間UAへの遷移に対応する割当コストΨ[q-1,n,m]や、第n番目の期間から時点t2の後方の期間UAへの遷移に対応する割当コストΨ[q-1,n,m]は、基礎コストC[n,q]として選択されない。他方、第n番目の期間UAから閾値δ1だけ手前の時点t1と、第n番目の期間UAから閾値δ2だけ後方の時点t2との間の期間UAに第n番目の期間UAから遷移するとき(n−δ1≦m≦n+δ2)の遷移コストT[n,m]は数値τLに設定される。数値τLは、数値τHを充分に下回る数値(例えばゼロ)である。すなわち、第n番目の期間UAに対して所定の範囲内の遷移だけが許容される。以上に例示した遷移コストT[n,m]の設定は、以下の数式(3)で表現される。
Figure 0006680029
以上に例示した基礎コストC[n,q]の算定とともに、第1実施形態の解析処理部26は、以下の数式(4)の漸化式により候補指標I[n,q]を算定する(S32)。
Figure 0006680029
すなわち、解析処理部26は、割当コストΨ[q-1,n,m]を最小化する変数mを、第q番目の期間UBの候補指標I[n,q]として算定する。具体的には、直前(第(q-1)番目)の期間UBについて算定されて相異なる期間UAに対応するK個の割当コストΨ[q-1,n,1]〜Ψ[q-1,n,K]の最小値に対応する変数mが、期間UBの候補指標I[n,q]として採択される。
そして、解析処理部26は、以下の数式(5)で表現される通り、目標期間の末尾(第Q番目)の指標Z[Q]を、音響信号xAの末尾に位置する期間UAの番号Kに設定するとともに、そこから時間軸上の前方に向けて候補指標I[n,q]を辿ること(バックトラック)により、目標期間内のQ個の期間UBの各々について指標Z[q]を設定する(S33)。
Figure 0006680029
図7は、第1実施形態の音響処理装置100が音響信号xAを伸縮する処理(以下「伸縮処理」という)のフローチャートである。例えば音響信号xAの伸縮を指示するための操作を利用者が入力装置16に付与した場合に図7の伸縮処理が開始される。
伸縮処理を開始すると、特徴抽出部22は、記憶装置14に記憶された音響信号xAの各期間UAについて特徴量Fを抽出する(S1)。指標算定部24は、音響信号xAのK個の期間UAの各々の相互間において、特徴抽出部22が抽出した特徴量Fの類似指標R[n,m]を算定する(S2)。
解析処理部26は、図4を参照して説明した時間対応処理S3(S31〜S33)により、目標期間内のQ個の期間UBの各々に期間UAを対応させる。すなわち、解析処理部26は、Q個の期間UBの各々について指標Z[q]を設定する。信号生成部28は、時間対応処理S3の結果(指標Z[1]〜Z[Q])から目標期間にわたる音響信号xBを生成する(S4)。
図8は、音響信号xA(縦軸)と音響信号xB(横軸)との対応関係の模式図である。前述の通り、解析処理部26は、割当コストΨ[q-1,n,m]が最小となるように、目標期間内のQ個の期間UBの各々に音響信号xAのK個の期間UAの何れかを対応させる。第1実施形態の割当コストΨ[q-1,n,m]は、第n番目の直前(第(n-1)番目)の期間UAと第m番目の期間UAとの間の特徴量Fの類似指標R[n-1,m]に応じて算定される。したがって、図8に例示される通り、音響信号xAのうち特徴量Fが時間軸上で定常的に維持される定常区間や特徴量Fの変動が反復される変動区間(例えばビブラートの1周期分)を含む区間Y1は時間軸上で伸縮(すなわち複数回にわたり反復)され、特徴量Fの変動が他の区間と類似しない過渡区間Y2(例えばグリッサンドのように特徴量Fが非定常に変動する区間)については伸縮の対象から除外される。したがって、例えば特徴量Fが定常的に維持される定常区間と、特徴量Fが非定常に変動する過渡区間との双方を同等に伸縮する構成と比較して、聴感的な自然性を維持しながら音響信号xAを伸縮することが可能である。
また、第1実施形態の割当コストΨ[q-1,n,m]は、第n番目の期間UAから第m番目の期間UAに対する遷移コストT[n,m]に応じて算定されるから、時間軸上で相互に過度に乖離した2個の期間UAの間の遷移は制約される。以上の観点からしても、聴感的な自然性を維持しながら音響信号xAを伸縮できるという前述の効果が実現される。第1実施形態では特に、第n番目の期間UAと第m番目の期間UAとの時間差が閾値を下回る場合(n−δ1≦m≦n+δ2)に遷移コストT[n,m]が数値τL(第1値の例示)に設定され、時間差が閾値を上回る場合(n−δ1>m,n+δ2<m)に遷移コストT[n,m]が数値τH(第2値の例示)に設定される。すなわち、音響信号xAの2個の期間UAの間の遷移が所定の範囲内に制約される。したがって、聴感的な自然性を維持しながら音響信号を伸縮できるという前述の効果は格別に顕著である。
<第2実施形態>
本発明の第2実施形態について説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態および後述の第3実施形態では、音響信号xAの各期間UAと音響信号xBの各期間UBとについて暫定的な関係(以下「暫定関係」という)を設定し、暫定関係から過度に乖離しないように目標期間内の期間UB毎の指標Z[q]を設定する。暫定関係は、図9に例示される通り、各期間UAと各期間UBとの関係を示す暫定指標Λ[q]で規定される。例えば、音響信号xAの第1番目の期間UAから第K番目の期間UAまでをQ個の期間UBの時系列に対して均等に対応させた暫定関係が表現されるように、第2実施形態では暫定指標Λ[q]を以下の数式(6)のように定義する。
Figure 0006680029
数式(6)から理解される通り、暫定関係のもとでは、第Q番目の期間UB(q=Q=αK)に、音響信号xAのうち第K番目の期間UAが対応する(Λ[Q]=K)。数式(6)から理解される通り、第2実施形態の暫定関係は、音響信号xAを全区間にわたり均等に伸縮して音響信号xBを生成した場合の各期間UAと各期間UBとの対応関係であるとも換言され得る。
第2実施形態では、指標Z[q]で指定される各期間UAと各期間UBとの関係が、数式(6)の暫定関係から過度に乖離しないように、基礎コストC[n,q]が設定される。具体的には、解析処理部26は、以下の数式(7)により基礎コストC[n,q]を設定する。
Figure 0006680029
数式(7)から理解される通り、第q番目の期間UBについて算定されるK個の基礎コストC[1,q]〜C[K,q]のうち、数式(6)の暫定関係のもとで当該期間UBに対応する所定の範囲(以下「許容範囲」という)の外側の基礎コストC[n,q]は、数値τHに設定される。図9に例示される通り、許容範囲は、暫定指標Λ[q]が示す期間UAを中心とした所定幅(2×δTH)の範囲である。数式(7)の数値τHは充分に大きい数値(例えばτH=∞)に設定される。したがって、各期間UAと各期間UBとの関係は、暫定関係に対して許容範囲の内側に制限される。
以上の説明から理解される通り、第2実施形態では、第q番目の期間UBについて、数式(6)の暫定関係で規定される許容範囲内の期間UAが対応するように、基礎コストC[n,q]が設定される。したがって、各期間UAと各期間UBとの暫定関係から過度に乖離しない範囲で音響信号xBを生成することが可能である。
<第3実施形態>
図10は、第3実施形態における基礎コストC[n,q]の説明図である。音響信号xAにおいて各種の音響が開始する時点(以下「発音点」という)の間隔の比率が音響信号xBにて維持されずに変動すると、音響信号xBの再生音は、発音のリズムが不規則に変動する不自然な印象となる。そこで、第2実施形態では、図10に例示される通り、音響信号xAのうち発音点tAに対応する期間UAと、暫定関係のもとで当該発音点tAに対応する期間UBとが相互に対応するように、基礎コストC[n,q]が設定される。なお、音響信号xAの発音点tAの検出には公知の技術が任意に採用され得る。
具体的には、解析処理部26は、暫定関係のもとで音響信号xAの発音点tAに対応する期間UB(すなわちΛ[q]=tAとなる期間UB)については、以下の数式(8)のように基礎コストC[n,q]を設定する。
Figure 0006680029
数式(8)および図10から理解される通り、暫定関係のもとで発音点tAに対応する第q番目の期間UBについて算定されるK個の基礎コストC[1,q]〜C[K,q]のうち、発音点tAが存在する1個の期間UA(n=Λ[q])の基礎コストC[n,q]は数値τLに設定される。他方、発音点tAが存在しない期間UA(n≠Λ[q])の基礎コストC[n,q]は、数値τLを充分に上回る数値τHに設定される。数値τLは例えばゼロに設定され(τL=0)、数値τHは例えば無限大に設定される(τH=∞)。
以上の構成によれば、暫定関係のもとで発音点tAに対応する期間UBについては、K個の期間UAのうち当該発音点tAに対応する期間UAの番号nのみが指標Z[q]として採択される。したがって、音響信号xAにおける各発音点tA間の時間比率は音響信号xBにおいても同等に維持される。すなわち、第2実施形態によれば、発音のリズムが音響信号xAと同等に維持された聴感的に自然な音響信号xBを生成できるという利点がある。なお、第2実施形態の構成を第3実施形態に適用することも可能である。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の各形態では、図6に例示した遷移行列MTを参照して解析処理部26が遷移コストT[n,m]を設定したが、遷移行列MTの1列分に対応するベクトル(以下「遷移ベクトル」という)を記憶装置14に格納することも可能である。解析処理部26は、遷移対象の2個の期間UAの組合せに対応する遷移コストT[n,m]を遷移ベクトルから特定する。以上の構成によれば、K行×K列の遷移行列MTを保持する必要がないから、記憶装置14に必要な記憶容量を削減することが可能である。
(2)前述の各形態では、音響信号xAの全区間を共通の伸縮率αで伸縮したが、音響信号xBの任意の時点で伸縮率αを実時間的に変化させることも可能である。例えば、目標期間を時間軸上で複数の単位区間に区分し、図7の伸縮処理を単位区間毎に逐次的に実行する構成が想定される。例えば入力装置16に対する操作に応じて単位区間毎に伸縮率αは更新される。任意の1個の単位区間の末尾の期間UBと直後の単位区間の先頭の期間UBとを、音響信号xAにおいて相前後する期間UAの組合せに制限することも可能である。
(3)前述の各形態では、音響信号xAの各期間UAと音響信号xBの各期間UBとの間の暫定関係として直線的な関係を例示したが(数式(6))、暫定関係は以上の例示に限定されない。例えば、各期間UAと各期間UBとの間の暫定関係を曲線的な関係(例えばΛ[q]=β×q2)とすることも可能である(βは所定の正数)。
(4)移動体通信網やインターネット等の通信網を介して端末装置(例えば携帯電話機やスマートフォン)と通信するサーバ装置で音響処理装置100を実現することも可能である。具体的には、音響処理装置100は、端末装置から受信した音響信号xAに対する図7の伸縮処理で音響信号xBを生成し、伸縮後の音響信号xBを端末装置に送信する。
(5)前述の各形態で例示した音響処理装置100は、前述の各形態の例示の通り、制御装置12とプログラムとの協働で実現される。本発明の好適な態様に係るプログラムは、音響信号xAの特徴量Fを複数の期間UAの各々について抽出する特徴抽出部22、各期間UAの間で特徴量Fの類似指標R[n,m]を算定する指標算定部24、各期間UAの間の類似指標R[n,m]と各期間UAの間を遷移する遷移コストT[n,m]とに応じた割当コストΨ[q-1,n,m]が最小となるように、目標期間内の複数の期間UBの各々に複数の期間UAの何れかを対応させる解析処理部26、および、解析処理部26が複数の期間UBの各々に期間UAを対応させた結果から目標期間にわたる音響信号xBを生成する信号生成部28としてコンピュータを機能させる。
以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。
100…音響処理装置、12…制御装置、14…記憶装置、16…入力装置、18…放音装置、22…特徴抽出部、24…指標算定部、26…解析処理部、28…信号生成部。

Claims (6)

  1. コンピュータが、
    第1音響信号の特徴量を複数の第1期間の各々について抽出し、
    前記各第1期間の間で前記特徴量の類似指標を算定し、
    前記各第1期間の間の類似指標と前記各第1期間の間を遷移する遷移コストとに応じた割当コストが最小となるように、前記第1音響信号の伸縮後の目標期間内の複数の第2期間の各々に前記複数の第1期間の何れかを対応させる時間対応処理を実行し、
    前記複数の第2期間の各々に前記第1期間を対応させた結果から前記目標期間にわたる第2音響信号を生成する
    音響処理方法。
  2. 前記時間対応処理では、前記各第1期間の間の遷移コストを、当該各第1期間の間の時間差が閾値を下回る場合に第1値に設定し、当該時間差が前記閾値を上回る場合に、前記第1値を上回る第2値に設定する
    請求項1の音響処理方法。
  3. 前記時間対応処理では、前記複数の第2期間の各々について、当該第2期間の直前の第2期間における前記割当コストの最小値を基礎コストとして順次に算定し、当該直前の第2期間の基礎コストと、前記類似指標および前記遷移コストとに応じた割当コストが最小となるように、前記複数の第2期間の各々に前記複数の第1期間の何れかを対応させる
    請求項1または請求項2の音響処理方法。
  4. 前記時間対応処理では、前記複数の第2期間の各々について、前記各第1期間および前記各第2期間の間の暫定的な関係のもとで当該第2期間に対応する所定の範囲内の第1期間が対応するように、前記基礎コストを設定する
    請求項3の音響処理方法。
  5. 前記時間対応処理では、前記第1音響信号の発音点に対応する第1期間と、前記各第1期間および前記各第2期間の間の暫定的な関係のもとで前記発音点に対応する第2期間とが相互に対応するように、前記基礎コストを設定する
    請求項3または請求項4の音響処理方法。
  6. 第1音響信号の特徴量を複数の第1期間の各々について抽出する特徴抽出部と、
    前記各第1期間の間で前記特徴量の類似指標を算定する指標算定部と、
    前記各第1期間の間の類似指標と前記各第1期間の間を遷移する遷移コストとに応じた割当コストが最小となるように、前記第1音響信号の伸縮後の目標期間内の複数の第2期間の各々に前記複数の第1期間の何れかを対応させる解析処理部と、
    前記解析処理部が前記複数の第2期間の各々に前記第1期間を対応させた結果から前記目標期間にわたる第2音響信号を生成する信号生成部と
    を具備する音響処理装置。
JP2016060425A 2016-03-24 2016-03-24 音響処理方法および音響処理装置 Active JP6680029B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016060425A JP6680029B2 (ja) 2016-03-24 2016-03-24 音響処理方法および音響処理装置
PCT/JP2017/011375 WO2017164216A1 (ja) 2016-03-24 2017-03-22 音響処理方法および音響処理装置
US16/135,818 US10891966B2 (en) 2016-03-24 2018-09-19 Audio processing method and audio processing device for expanding or compressing audio signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016060425A JP6680029B2 (ja) 2016-03-24 2016-03-24 音響処理方法および音響処理装置

Publications (2)

Publication Number Publication Date
JP2017173608A JP2017173608A (ja) 2017-09-28
JP6680029B2 true JP6680029B2 (ja) 2020-04-15

Family

ID=59900406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016060425A Active JP6680029B2 (ja) 2016-03-24 2016-03-24 音響処理方法および音響処理装置

Country Status (3)

Country Link
US (1) US10891966B2 (ja)
JP (1) JP6680029B2 (ja)
WO (1) WO2017164216A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081233B (zh) * 2019-12-31 2023-01-06 联想(北京)有限公司 一种音频处理方法及电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5982608A (ja) * 1982-11-01 1984-05-12 Nippon Telegr & Teleph Corp <Ntt> 音声の再生速度制御方式
US5083310A (en) * 1989-11-14 1992-01-21 Apple Computer, Inc. Compression and expansion technique for digital audio data
DE69231369T2 (de) * 1991-09-30 2001-03-29 Sony Corp., Tokio/Tokyo Verfahren und Einrichtung zur Audiodatenkompression
JPH07160299A (ja) * 1993-12-06 1995-06-23 Hitachi Denshi Ltd 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式
JP3404837B2 (ja) * 1993-12-07 2003-05-12 ソニー株式会社 多層符号化装置
JP3508609B2 (ja) * 1999-03-24 2004-03-22 ヤマハ株式会社 波形データ編集方法、波形データ編集装置および記録媒体
US7010491B1 (en) * 1999-12-09 2006-03-07 Roland Corporation Method and system for waveform compression and expansion with time axis
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US6915241B2 (en) * 2001-04-20 2005-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method for segmentation and identification of nonstationary time series
JP2006017900A (ja) 2004-06-30 2006-01-19 Mitsubishi Electric Corp タイムストレッチ処理装置
JP2008209447A (ja) * 2007-02-23 2008-09-11 Yamaha Corp 時間軸圧伸方法、時間軸圧伸装置、プログラムおよび基本周期特定方法
JP2009181044A (ja) * 2008-01-31 2009-08-13 Sony Corp 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
WO2017164216A1 (ja) 2017-09-28
JP2017173608A (ja) 2017-09-28
US20190019525A1 (en) 2019-01-17
US10891966B2 (en) 2021-01-12

Similar Documents

Publication Publication Date Title
CN110782908B (zh) 一种音频信号处理的方法及装置
EP3065130B1 (en) Voice synthesis
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP5728913B2 (ja) 音声合成情報編集装置およびプログラム
JPWO2018084305A1 (ja) 音声合成方法、音声合成装置およびプログラム
JP2017111372A (ja) 音声合成方法、音声合成制御方法、音声合成装置および音声合成制御装置
JP5888356B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP5434587B2 (ja) 音声合成装置及び方法とプログラム
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP6520108B2 (ja) 音声合成装置、方法、およびプログラム
CN113781989B (zh) 一种音频的动画播放、节奏卡点识别方法及相关装置
KR102018286B1 (ko) 음원 내 음성 성분 제거방법 및 장치
JP2018077283A (ja) 音声合成方法
JP6680029B2 (ja) 音響処理方法および音響処理装置
KR20150118974A (ko) 음성 처리 장치
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP6747236B2 (ja) 音響解析方法および音響解析装置
JP2008304610A (ja) 信号特徴抽出方法、信号探索方法、信号特徴抽出装置、コンピュータプログラム、及び、記録媒体
JP6489261B2 (ja) 音響解析方法および音響解析装置
JP6323159B2 (ja) 音響解析装置
JP2018077281A (ja) 音声合成方法
JP2018077280A (ja) 音声合成方法
Fragkopoulos et al. Note Recognizer: Web Application that Assists Music Learning by Detecting and Processing Musical Characteristics from Audio Files or Microphone in Real-Time
JP2017111274A (ja) データ処理装置
Panagiotakis Note Recognizer: Web Application that Assists Music Learning by Detecting and Processing Musical Characteristics from Audio Files or Microphone in Real-Time

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200302

R151 Written notification of patent or utility model registration

Ref document number: 6680029

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151