JP2019159012A - 音処理方法および音処理装置 - Google Patents

音処理方法および音処理装置 Download PDF

Info

Publication number
JP2019159012A
JP2019159012A JP2018043116A JP2018043116A JP2019159012A JP 2019159012 A JP2019159012 A JP 2019159012A JP 2018043116 A JP2018043116 A JP 2018043116A JP 2018043116 A JP2018043116 A JP 2018043116A JP 2019159012 A JP2019159012 A JP 2019159012A
Authority
JP
Japan
Prior art keywords
sound
sound signal
period
time
envelope outline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018043116A
Other languages
English (en)
Other versions
JP7139628B2 (ja
Inventor
竜之介 大道
Ryunosuke Daido
竜之介 大道
嘉山 啓
Hiroshi Kayama
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2018043116A priority Critical patent/JP7139628B2/ja
Priority to CN201980017203.2A priority patent/CN111837183A/zh
Priority to PCT/JP2019/009220 priority patent/WO2019172397A1/ja
Priority to EP19763716.8A priority patent/EP3764357A4/en
Publication of JP2019159012A publication Critical patent/JP2019159012A/ja
Priority to US17/014,312 priority patent/US11646044B2/en
Application granted granted Critical
Publication of JP7139628B2 publication Critical patent/JP7139628B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】聴感的に自然な音声を合成する。【解決手段】音処理装置は、歌唱音声を表す第1音信号における第1スペクトル包絡概形と、第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、参照音声を表す第2音信号における第2スペクトル包絡概形と、第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とを第1スペクトル包絡概形に合成することで、歌唱音声を参照音声に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する合成処理部を具備する。【選択図】図2

Description

本発明は、音を表す音信号を処理する技術に関する。
歌唱表現等の音表現を音声に付加する各種の技術が従来から提案されている。例えば特許文献1には、音声信号の各調波成分を周波数領域で移動させることにより、当該音声信号が表す音声を、濁声または嗄声等の特徴的な声質の音声に変換する技術が開示されている。
特開2014−2338号公報
しかし、特許文献1の技術においては、聴感的に自然な音を生成するという観点から更なる改善の余地がある。以上の事情を考慮して、本発明は、聴感的に自然な音を合成することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音処理方法は、第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とを前記第1スペクトル包絡概形に合成することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する。
以上の課題を解決するために、本発明の好適な態様に係る音処理装置は、第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とを前記第1スペクトル包絡概形に合成することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する合成処理部を具備する。
本発明の実施形態に係る音処理装置の構成を例示するブロック図である。 音処理装置の機能的な構成を例示するブロック図である。 第1音信号における定常期間の説明図である。 信号解析処理の具体的な手順を例示するフローチャートである。 歌唱音声の発音が開始された直後における基本周波数の時間変化である。 歌唱音声の発音が終了する直前における基本周波数の時間変化である。 リリース処理の具体的な手順を例示するフローチャートである。 リリース処理の説明図である。 スペクトル包絡概形の説明図である。 アタック処理の具体的な手順を例示するフローチャートである。 アタック処理の説明図である。
図1は、本発明の好適な形態に係る音処理装置100の構成を例示するブロック図である。本実施形態の音処理装置100は、利用者が楽曲を歌唱した音声(以下「歌唱音声」という)に対して各種の音表現を付加する信号処理装置である。音表現は、歌唱音声(第1音の例示)に対して付加される音響特性である。楽曲の歌唱に着目すると、音表現は、音声の発音(すなわち歌唱)に関する音楽的な表現または表情である。具体的には、ボーカルフライ、唸り声、または嗄れ声のような歌唱表現が、音表現の好適例である。なお、音表現は、声質とも換言される。
音表現は、発音の開始の直後に音量が増加していく部分(以下「アタック部」という)と、発音の終了の直前に音量が減少してく部分(以下「リリース部」という)とにおいて特に顕著となる。以上の傾向を考慮して、本実施形態では、歌唱音声のうち特にアタック部およびリリース部に対して音表現を付加する。
図1に例示される通り、音処理装置100は、制御装置11と記憶装置12と操作装置13と放音装置14とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音処理装置100として好適に利用される。操作装置13は、利用者からの指示を受付ける入力機器である。例えば、利用者が操作する複数の操作子、または利用者による接触を検知するタッチパネルが、操作装置13として好適に利用される。
制御装置11は、例えばCPU(Central Processing Unit)等の処理回路であり、各種の演算処理および制御処理を実行する。本実施形態の制御装置11は、歌唱音声に音表現を付与した音声(以下「変形音」という)を表す第3音信号Yを生成する。放音装置14は、例えばスピーカまたはヘッドホンであり、制御装置11が生成した第3音信号Yが表す変形音を放音する。なお、制御装置11が生成した第3音信号Yをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。なお、音処理装置100が放音装置14を具備する構成を図1では例示したが、音処理装置100とは別体の放音装置14を音処理装置100に有線または無線で接続してもよい。
記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成されたメモリであり、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、音処理装置100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、制御装置11が通信網を介して記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12を音処理装置100から省略してもよい。
本実施形態の記憶装置12は、第1音信号X1と第2音信号X2とを記憶する。第1音信号X1は、音処理装置100の利用者が楽曲を歌唱した歌唱音声を表す音響信号である。第2音信号X2は、利用者以外の歌唱者(例えば歌手)が音表現を付加して歌唱した音声(以下「参照音声」という)を表す音響信号である。第1音信号X1と第2音信号X2とでは音響特性(例えば声質)が相違する。本実施形態の音処理装置100は、第2音信号X2が表す参照音声(第2音の例示)の音表現を、第1音信号X1が表す歌唱音声に付加することで、変形音の第3音信号Yを生成する。なお、歌唱音声と参照音声との間で楽曲の異同は不問である。なお、以上の説明では歌唱音声の発声者と参照音声の発声者とが別人である場合を想定したが、歌唱音声の発声者と参照音声の発声者とは同一人でもよい。例えば、歌唱音声は、音表現を付加せずに利用者が歌唱した音声であり、参照音声は、当該利用者が歌唱表現を付加した音声である。
図2は、制御装置11の機能的な構成を例示するブロック図である。図2に例示される通り、制御装置11は、記憶装置12に記憶されたプログラムを実行することで、第1音信号X1と第2音信号X2とから第3音信号Yを生成するための複数の機能(信号解析部21および合成処理部22)を実現する。なお、相互に別体で構成された複数の装置で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
信号解析部21は、第1音信号X1の解析により解析データD1を生成し、第2音信号X2の解析により解析データD2を生成する。信号解析部21が生成した解析データD1および解析データD2は記憶装置12に格納される。
解析データD1は、第1音信号X1における複数の定常期間Q1を表すデータである。図3に例示される通り、解析データD1が示す各定常期間Q1は、第1音信号X1のうち基本周波数f1とスペクトル形状とが時間的に安定している可変長の期間である。解析データD1は、各定常期間Q1の始点の時刻(以下「始点時刻」という)T1_Sと終点の時刻(以下「終点時刻」という)T1_Eとを指定する。なお、楽曲内で相前後する2個の音符の間では、基本周波数f1またはスペクトル形状(すなわち音韻)が変化する場合が多い。したがって、各定常期間Q1は、楽曲内の1個の音符に相当する期間である可能性が高い。
同様に、解析データD2は、第2音信号X2における複数の定常期間Q2を表すデータである。各定常期間Q2は、第2音信号X2のうち基本周波数f2とスペクトル形状とが時間的に安定している可変長の期間である。解析データD2は、各定常期間Q2の始点時刻T2_Sと終点時刻T2_Eとを指定する。定常期間Q1と同様に、各定常期間Q2は、楽曲内の1個の音符に相当する期間である可能性が高い。
図4は、信号解析部21が第1音信号X1を解析する処理(以下「信号解析処理」という)S0のフローチャートである。例えば操作装置13に対する利用者からの指示を契機として図4の信号解析処理S0が開始される。図4に例示される通り、信号解析部21は、時間軸上の複数の単位期間(フレーム)の各々について第1音信号X1の基本周波数f1を算定する(S01)。基本周波数f1の算定には公知の技術が任意に採用される。各単位期間は、定常期間Q1に想定される時間長と比較して充分に短い期間である。
信号解析部21は、第1音信号X1のスペクトル形状を表すメルケプストラムM1を単位期間毎に算定する(S02)。メルケプストラムM1は、第1音信号X1の周波数スペクトルの包絡線を表す複数の係数で表現される。メルケプストラムM1は、歌唱音声の音韻を表す特徴量とも表現される。メルケプストラムM1の算定には公知の技術が任意に採用される。なお、第1音信号X1のスペクトル形状を表す特徴量として、メルケプストラムM1の代わりにMFCC(Mel-Frequency Cepstrum Coefficients)を算定してもよい。
信号解析部21は、第1音信号X1が表す歌唱音声の有声性を単位期間毎に推定する(S03)。すなわち、歌唱音声が有声音および無声音の何れに該当するかが判定される。有声性(有声/無声)の推定には公知の技術が任意に採用される。なお、基本周波数f1の算定(S01)とメルケプストラムM1の算定(S02)と有声性の推定(S03)とについて順序は任意であり、以上に例示した順序には限定されない。
信号解析部21は、基本周波数f1の時間的な変化の度合を示す第1指標δ1を単位期間毎に算定する(S04)。例えば相前後する2個の単位期間の間における基本周波数f1の差分が第1指標δ1として算定される。基本周波数f1の時間的な変化が顕著であるほど第1指標δ1は大きい数値となる。
信号解析部21は、メルケプストラムM1の時間的な変化の度合を示す第2指標δ2を単位期間毎に算定する(S05)。例えば、相前後する2個の単位期間の間においてメルケプストラムM1の係数毎の差分を複数の係数について合成(例えば加算または平均)した数値が、第2指標δ2として好適である。歌唱音声のスペクトル形状の時間的な変化が顕著であるほど第2指標δ2は大きい数値となる。例えば歌唱音声の音韻が変化する時点の付近では、第2指標δ2は大きい数値となる。
信号解析部21は、第1指標δ1および第2指標δ2に応じた変動指標Δを単位期間毎に算定する(S06)。例えば、第1指標δ1と第2指標δ2との加重和が変動指標Δとして単位期間毎に算定される。第1指標δ1および第2指標δ2の各々の加重値は、所定の固定値、または操作装置13に対する利用者からの指示に応じた可変値に設定される。以上の説明から理解される通り、第1音信号X1の基本周波数f1またはメルケプストラムM1(すなわちスペクトル形状)の時間的な変動が大きいほど、変動指標Δは大きい数値になるという傾向がある。
信号解析部21は、第1音信号X1における複数の定常期間Q1を特定する(S07)。本実施形態の信号解析部21は、歌唱音声の有声性の推定の結果(S03)と変動指標Δとに応じて定常期間Q1を特定する。具体的には、信号解析部21は、歌唱音声が有声音であると推定され、かつ、変動指標Δが所定の閾値を下回る一連の単位期間の集合を定常期間Q1として画定する。歌唱音声が無声音であると推定された単位期間、または、変動指標Δが閾値を上回る単位期間は、定常期間Q1から除外される。以上の手順により第1音信号X1の各定常期間Q1を画定すると、信号解析部21は、各定常期間Q1の始点時刻T1_Sと終点時刻T1_Eとを指定する解析データD1を記憶装置12に格納する(S08)。
信号解析部21は、以上に説明した信号解析処理S0を、参照音声を表す第2音信号X2についても実行することで解析データD2を生成する。具体的には、信号解析部21は、第2音信号X2の単位期間毎に、基本周波数f2の算定(S01)とメルケプストラムM2の算定(S02)と有声性(有声/無声)の推定(S03)とを実行する。信号解析部21は、基本周波数f2の時間的な変化の度合を示す第1指標δ1と、メルケプストラムM2の時間的な変化の度合を示す第2指標δ2とに応じた変動指標Δを算定する(S04−S06)。そして、信号解析部21は、参照音声の有声性の推定の結果(S03)と変動指標Δとに応じて第2音信号X2の各定常期間Q2を特定する(S07)。信号解析部21は、各定常期間Q2の始点時刻T2_Sと終点時刻T2_Eとを指定する解析データD2を記憶装置12に格納する(S08)。なお、解析データD1および解析データD2を、操作装置13に対する利用者からの指示に応じて編集してもよい。
図2の合成処理部22は、第2音信号X2の解析データD2を利用して第1音信号X1の解析データD1を変形する。本実施形態の合成処理部22は、アタック処理部31とリリース処理部32と音声合成部33とを含んで構成される。アタック処理部31は、第2音信号X2におけるアタック部の音表現を第1音信号X1に付加するアタック処理S1を実行する。リリース処理部32は、第2音信号X2におけるリリース部の音表現を第1音信号X1に付加するリリース処理S2を実行する。音声合成部33は、アタック処理部31およびリリース処理部32による処理後の解析データから変形音の第3音信号Yを合成する。
図5には、歌唱音声の発音が開始された直後における基本周波数f1の時間変化が図示されている。図5に例示される通り、定常期間Q1の直前には有声期間Vaが存在する。有声期間Vaは、定常期間Q1に先行する有声音の期間である。有声期間Vaは、歌唱音声の音響特性(例えば基本周波数f1またはスペクトル形状)が定常期間Q1の直前に不安定に変動する期間である。例えば、歌唱音声の発音が開始した直後の定常期間Q1に着目すると、歌唱音声の発音が開始される時刻τ1_Aから当該定常期間Q1の始点時刻T1_Sまでのアタック部が有声期間Vaに相当する。なお、以上の説明では歌唱音声に着目したが、参照音声についても同様に、定常期間Q2の直前に有声期間Vaが存在する。合成処理部22(具体的にはアタック処理部31)は、アタック処理S1において、第1音信号X1のうち有声期間Vaと直後の定常期間Q1とに対して第2音信号X2におけるアタック部の音表現を付加する。
図6には、歌唱音声の発音が終了する直前における基本周波数f1の時間変化が図示されている。図6に例示される通り、定常期間Q1の直後には有声期間Vrが存在する。有声期間Vrは、定常期間Q1に後続する有声音の期間である。有声期間Vrは、歌唱音声の音響特性(例えば基本周波数f2またはスペクトル形状)が定常期間Q1の直後に不安定に変動する期間である。例えば、歌唱音声の発音が終了する直前の定常期間Q1に着目すると、当該定常期間Q1の終点時刻T1_Eから歌唱音声が消音する時刻τ1_Rまでのリリース部が有声期間Vrに相当する。なお、以上の説明では歌唱音声に着目したが、参照音声についても同様に、定常期間Q2の直後に音声期間Vrが存在する。合成処理部22(具体的にはリリース処理部32)は、リリース処理S2において、第1音信号X1のうち有声期間Vrと直前の定常期間Q1とに対して第2音信号X2のリリース部の音表現を付加する。
<リリース処理S2>
図7は、リリース処理部32が実行するリリース処理S2の具体的な内容を例示するフローチャートである。第1音信号X1の定常期間Q1毎に図7のリリース処理S2が実行される。
リリース処理S2を開始すると、リリース処理部32は、第1音信号X1のうち処理対象の定常期間Q1に第2音信号X2のリリース部の音表現を付加するか否かを判定する(S21)。具体的には、リリース処理部32は、以下に例示する条件Cr1から条件Cr3の何れかに該当する定常期間Q1についてはリリース部の音表現を付加しないと判定する。ただし、第1音信号X1の定常期間Q1に音表現を付加するか否かを判定する条件は以下の例示に限定されない。
[条件Cr1]定常期間Q1の時間長が所定値を下回る。
[条件Cr2]定常期間Q1の直後の無声期間の時間長が所定値を下回る。
[条件Cr3]定常期間Q1に後続する有声期間Vrの時間長が所定値を上回る。
時間長が充分に短い定常期間Q1には自然な声質で音表現を付加することが困難である。そこで、定常期間Q1の時間長が所定値を下回る場合(条件Cr1)、リリース処理部32は、当該定常期間Q1を音表現の付加対象から除外する。また、定常期間Q1の直後に充分に短い無声期間が存在する場合、当該無声期間は、歌唱音声の途中における無声子音の期間である可能性がある。そして、無声子音の期間に音表現を付加すると、聴感的な違和感が知覚されるという傾向がある。以上の傾向を考慮して、定常期間Q1の直後の無声期間の時間長が所定値を下回る場合(条件Cr2)、リリース処理部32は、当該定常期間Q1を音表現の付加対象から除外する。また、定常期間Q1の直後の有声期間Vrの時間長が充分に長い場合には、歌唱音声に既に充分な音表現が付加されている可能性が高い。そこで、定常期間Q1に後続する有声期間Vrの時間長が充分に長い場合(条件Cr3)、リリース処理部32は、当該定常期間Q1を音表現の付加対象から除外する。第1音信号X1の定常期間Q1に音表現を付加しないと判定した場合(S21:NO)、リリース処理部32は、以下に詳述する処理(S22−S26)を実行することなくリリース処理S2を終了する。
第1音信号X1の定常期間Q1に第2音信号X2のリリース部の音表現を付加すると判定した場合(S21:YES)、リリース処理部32は、第2音信号X2の複数の定常期間Q2のうち、第1音信号X1の定常期間Q1に付加されるべき音表現に対応する定常期間Q2を選択する(S22)。具体的には、リリース処理部32は、処理対象の定常期間Q1に楽曲内の状況が近似する定常期間Q2を選択する。例えば、1個の定常期間(以下「着目定常期間」という)について考慮される状況(context)としては、着目定常期間の時間長、着目定常期間の直後の定常期間の時間長、着目定常期間と直後の定常期間との間の音高差、着目定常期間の音高、および着目定常期間の直前の無音期間の時間長が例示される。リリース処理部32は、以上に例示した状況について定常期間Q1との差異が最小となる定常期間Q2を選択する。
リリース処理部32は、以上の手順で選択した定常期間Q2に対応する音表現を第1音信号X1(解析データD1)に付加するための処理(S23−S26)を実行する。図8は、リリース処理部32が第1音信号X1にリリース部の音表現を付加する処理の説明図である。
図8には、第1音信号X1と第2音信号X2と変形後の第3音信号Yとの各々について、時間軸上の波形と基本周波数の時間変化とが併記されている。図8において、歌唱音声の定常期間Q1の始点時刻T1_Sおよび終点時刻T1_Eと、当該定常期間Q1の直後の有声期間Vrの終点時刻τ1_Rと、当該定常期間Q1の直後の音符に対応する有声期間Vaの始点時刻τ1_Aと、参照音声の定常期間Q2の始点時刻T2_Sおよび終点時刻T2_Eと、当該定常期間Q2の直後の有声期間Vrの終点時刻τ2_Rとが、既知の情報である。
リリース処理部32は、処理対象の定常期間Q1とステップS22で選択した定常期間Q2との間で時間軸上の位置関係を調整する(S23)。具体的には、リリース処理部32は、定常期間Q2の時間軸上の位置を、定常期間Q1の端点(T1_S,T1_E)を基準とした位置に調整する。本実施形態のリリース処理部32は、図8に例示される通り、定常期間Q1の終点時刻T1_Eに定常期間Q2の終点時刻T2_Eが時間軸上で一致するように、第2音信号X2(定常期間Q2)を第1音信号X1の時間軸上に配置する。
<処理期間Z1_Rの伸長(S24)>
リリース処理部32は、第1音信号X1のうち第2音信号X2の音表現が付加される期間(以下「処理期間」という)Z1_Rを時間軸上で伸縮する(S24)。図8に例示される通り、処理期間Z1_Rは、音表現の付加が開始される時刻(以下「合成開始時刻」という)Tm_Rから定常期間Q1の直後の有声期間Vrの終点時刻τ1_Rまでの期間である。合成開始時刻Tm_Rは、歌唱音声の定常期間Q1の始点時刻T1_Sと参照音声の定常期間Q2の始点時刻T2_Sとのうち後方の時刻である。図8の例示の通り、定常期間Q2の始点時刻T2_Sが定常期間Q1の始点時刻T1_Sの後方に位置する場合には、定常期間Q2の始点時刻T2_Sが合成開始時刻Tm_Rとして設定される。ただし、合成開始時刻Tm_Rは始点時刻T2_Sに限定されない。
図8に例示される通り、本実施形態のリリース処理部32は、第1音信号X1の処理期間Z1_Rを、第2音信号X2のうち表現期間Z2_Rの時間長に応じて伸長する。表現期間Z2_Rは、第2音信号X2のうちリリース部の音表現を表す期間であり、第1音信号X1に対する当該音表現の付加に利用される。図8に例示される通り、表現期間Z2_Rは、合成開始時刻Tm_Rから定常期間Q2の直後の有声期間Vrの終点時刻τ2_Rまでの期間である。
歌手等の熟練した歌唱者が歌唱した参照音声には相応の時間長にわたる充分な音表現が付加されるのに対し、歌唱に不慣れな利用者が歌唱した歌唱音声では音表現が時間的に不足する傾向がある。以上の傾向のもとでは、図8に例示される通り、参照音声の表現期間Z2_Rが歌唱音声の処理期間Z1_Rと比較して長い期間となる。したがって、本実施形態のリリース処理部32は、第1音信号X1の処理期間Z1_Rを、第2音信号X2の表現期間Z2_Rの時間長まで伸長する。
処理期間Z1_Rの伸長は、第1音信号X1(歌唱音声)の任意の時刻t1と変形後の第3音信号Y(変形音)の任意の時刻tとを相互に対応付ける処理(マッピング)で実現される。図8には、歌唱音声の時刻t1(縦軸)と変形音の時刻t(横軸)との対応関係が図示されている。
図8の対応関係における時刻t1は、変形音の時刻tに対応する第1音信号X1の時刻である。図8に鎖線で併記された基準線Lは、第1音信号X1が伸縮されない状態(t1=t)を意味する。また、変形音の時刻tに対する歌唱音声の時刻t1の勾配が基準線Lと比較して小さい区間は、第1音信号X1が伸長される区間を意味する。時刻tに対する時刻t1の勾配が基準線Lと比較して大きい区間は、歌唱音声が収縮される区間を意味する。
時刻t1と時刻tとの対応関係は、以下に例示する数式(1a)から数式(1c)の非線形関数で表現される。
Figure 2019159012
時刻T_Rは、図8に例示される通り、合成開始時刻Tm_Rと処理期間Z1_Rの終点時刻τ1_Rとの間に位置する所定の時刻である。例えば、定常期間Q1の始点時刻T1_Sと終点時刻T1_Eとの中点((T1_S+T1_E)/2)と合成開始時刻Tm_Rとのうちの後方の時刻が時刻T_Rとして設定される。数式(1a)から理解される通り、処理期間Z1_Rのうち時刻T_Rの前方の期間は伸縮されない。すなわち、時刻T_Rから処理期間Z1_Rの伸長が開始される。
数式(1b)から理解される通り、処理期間Z1_Rのうち時刻T_Rの後方の期間は、当該時刻T_Rに近い位置において伸長の度合が大きく、終点時刻τ1_Rに近付くほど伸長の度合が小さくなるように時間軸上で伸長される。数式(1b)の関数η(t)は、時間軸上の前方ほど処理期間Z1_Rを伸長し、時間軸上の後方ほど処理期間Z1_Rの伸長の度合を低減するための非線形関数である。具体的には、例えば時刻tの2次関数(η(t)=t)が関数η(t)として好適に利用される。以上に説明した通り、本実施形態では、処理期間Z1_Rの終点時刻τ1_Rに近い位置ほど伸長の度合が小さくなるように処理期間Z1_Rが時間軸上で伸長される。したがって、歌唱音声の終点時刻τ1_Rの近傍の音響特性を変形音においても充分に維持することが可能である。なお、時刻T_Rに近い位置では、終点時刻τ1_Rの近傍と比較して、伸長に起因した聴感上の違和感が知覚され難い傾向がある。したがって、前述の例示のように時刻T_Rに近い位置において伸長の度合を増大させても、変形音の聴感上の自然性は殆ど低下しない。なお、第1音信号X1のうち表現期間Z2_Rの終点時刻τ2_Rから次の有声期間Vrの始点時刻τ1_Aまでの期間は数式(1c)から理解される通り時間軸上で短縮される。なお、終点時刻τ2_Rから始点時刻τ1_Aまでの期間には音声が存在しないから、第1音信号X1を部分的な削除により削除してもよい。
以上の例示の通り、歌唱音声の処理期間Z1_Rは参照音声の表現期間Z2_Rの時間長に伸長される。他方、参照音声の表現期間Z2_Rは時間軸上で伸縮されない。すなわち、変形音の時刻tに対応する配置後の第2音信号X2の時刻t2は当該時刻tに一致する(t2=t)。以上の例示の通り、本実施形態においては、歌唱音声の処理期間Z1_Rが表現期間Z2_Rの時間長に応じて伸長されるから、第2音信号X2の伸長は不要である。したがって、第2音信号X2が表すリリース部の音表現を正確に第1音信号X1に付加することが可能である。
以上に例示した手順で処理期間Z1_Rを伸長すると、リリース処理部32は、第1音信号X1の伸長後の処理期間Z1_Rを第2音信号X2の表現期間Z2_Rに応じて変形する(S25−S26)。具体的には、歌唱音声の伸長後の処理期間Z1_Rと参照音声の表現期間Z2_Rとの間で、基本周波数の合成(S25)とスペクトル包絡概形の合成(S26)とが実行される。
<基本周波数の合成(S25)>
リリース処理部32は、以下の数式(2)の演算により第3音信号Yの各時刻tにおける基本周波数F(t)を算定する。
Figure 2019159012
数式(2)における平滑基本周波数F1(t1)は、第1音信号X1の基本周波数f1(t1)の時系列を時間軸上で平滑化した周波数である。同様に、数式(2)の平滑基本周波数F2(t2)は、第2音信号X2の基本周波数f2(t2)の時系列を時間軸上で平滑化した周波数である。数式(2)の係数λ1および係数λ2は1以下の非負値に設定される(0≦λ1≦1,0≦λ2≦1)。
数式(2)から理解される通り、数式(2)の第2項は、歌唱音声の基本周波数f1(t1)と平滑基本周波数F1(t1)との差分を、係数λ1に応じた度合で、第1音信号X1の基本周波数f1(t1)から低減する処理である。また、数式(2)の第3項は、参照音声の基本周波数f2(t2)と平滑基本周波数F2(t2)との差分を、係数λ2に応じた度合で、第1音信号X1の基本周波数f1(t1)に付加する処理である。以上の説明から理解される通り、リリース処理部32は、歌唱音声の基本周波数f1(t1)と平滑基本周波数F1(t1)との差分を、参照音声の基本周波数f2(t2)と平滑基本周波数F2(t2)との差分に置換する要素として機能する。すなわち、第1音信号X1における伸長後の処理期間Z1_R内の基本周波数f1(t1)の時間変化が、第2音信号X2における表現期間Z2_R内の基本周波数f2(t2)の時間変化に近付く。
<スペクトル包絡概形の合成(S26)>
リリース処理部32は、歌唱音声の伸長後の処理期間Z1_Rと参照音声の表現期間Z2_Rとの間でスペクトル包絡概形を合成する。第1音信号X1のスペクトル包絡概形G1は、図9に例示される通り、第1音信号X1の周波数スペクトルg1の概形であるスペクトル包絡g2を周波数領域で更に平滑化した強度分布を意味する。具体的には、音韻性(音韻に依存した差異)および個人性(発声者に依存した差異)が知覚できなくなる程度にスペクトル包絡g2を平滑化した強度分布がスペクトル包絡概形G1である。例えばスペクトル包絡g2を表すメルケプストラムの複数の係数のうち低次側に位置する所定個の係数によりスペクトル包絡概形G1が表現される。以上の説明では第1音信号X1のスペクトル包絡概形G1に着目したが、第2音信号X2のスペクトル包絡概形G2も同様である。
リリース処理部32は、以下の数式(3)の演算により第3音信号Yの各時刻tにおけるスペクトル包絡概形(以下「合成スペクトル包絡概形」という)G(t)を算定する。
Figure 2019159012
数式(3)の記号G1_refは、基準スペクトル包絡概形である。第1音信号X1の複数のスペクトル包絡概形G1のうち、特定の時点における1個のスペクトル包絡概形G1が、基準スペクトル包絡概形G1_ref(第1基準スペクトル包絡概形の例示)として利用される。具体的には、基準スペクトル包絡概形G1_refは、第1音信号X1のうち合成開始時刻Tm_R(第1時点の例示)におけるスペクトル包絡概形G1(Tm_R)である。すなわち、基準スペクトル包絡概形G1_refが抽出される時点は、定常期間Q1の始点時刻T1_Sおよび定常期間Q2の始点時刻T2_Sのうち後方の時刻に位置する。なお、基準スペクトル包絡概形G1_refが抽出される時点は合成開始時刻Tm_Rに限定されない。例えば、定常期間Q1内の任意の時点のスペクトル包絡概形G1が基準スペクトル包絡概形G1_refとして利用される。
同様に、数式(3)の基準スペクトル包絡概形G2_refは、第2音信号X2の複数のスペクトル包絡概形G2のうち、特定の時点における1個のスペクトル包絡概形G2である。具体的には、基準スペクトル包絡概形G2_refは、第2音信号X2のうち合成開始時刻Tm_R(第2時点の例示)におけるスペクトル包絡概形G2(Tm_R)である。すなわち、基準スペクトル包絡概形G2_refが抽出される時点は、定常期間Q1の始点時刻T1_Sおよび定常期間Q2の始点時刻T2_Sのうち後方の時刻に位置する。なお、基準スペクトル包絡概形G2_refが抽出される時点は合成開始時刻Tm_Rに限定されない。例えば、定常期間Q1内の任意の時点のスペクトル包絡概形G2が基準スペクトル包絡概形G2_refとして利用される。
数式(3)の係数μ1および係数μ2は、1以下の非負値に設定される(0≦μ1≦1,0≦μ2≦1)。数式(3)の第2項は、歌唱音声のスペクトル包絡概形G1(t1)と基準スペクトル包絡概形G1_refとの差分を、係数μ1(第1係数の例示)に応じた度合で、第1音信号X1のスペクトル包絡概形G1(t1)から低減する処理である。また、数式(3)の第3項は、参照音声のスペクトル包絡概形G2(t2)と基準スペクトル包絡概形G2_refとの差分を、係数μ2(第2係数の例示)に応じた度合で、第2音信号X2のスペクトル包絡概形G2(b)から低減する処理である。以上の説明から理解される通り、リリース処理部32は、歌唱音声のスペクトル包絡概形G1(t1)と基準スペクトル包絡概形G1_refとの差分(第1差分の例示)を、参照音声のスペクトル包絡概形G2(t2)と基準スペクトル包絡概形G2_refとの差分(第2差分の例示)に置換する要素として機能する。
<アタック処理S1>
図10は、アタック処理部31が実行するアタック処理S1の具体的な内容を例示するフローチャートである。第1音信号X1の定常期間Q1毎に図10のアタック処理S1が実行される。なお、アタック処理S1の具体的な手順はリリース処理S2と同様である。
アタック処理S1を開始すると、アタック処理部31は、第1音信号X1のうち処理対象の定常期間Q1に第2音信号X2のアタック部の音表現を付加するか否かを判定する(S11)。具体的には、アタック処理部31は、以下に例示する条件Ca1から条件Ca5の何れかに該当する定常期間Q1についてはアタック部の音表現を付加しないと判定する。ただし、第1音信号X1の定常期間Q1に音表現を付加するか否かを判定する条件は以下の例示に限定されない。
[条件Ca1]定常期間Q1の時間長が所定値を下回る。
[条件Ca2]定常期間Q1内で平滑化した基本周波数f1の変動幅が所定値を上回る。
[条件Ca3]定常期間Q1のうち始点を含む所定長の期間内で平滑化した基本周波数f1の変動幅が所定値を上回る。
[条件Ca4]定常期間Q1の直前の有声期間Vaの時間長が所定値を上回る。
[条件Ca5]定常期間Q1の直前の有声期間Vaにおける基本周波数f1の変動幅が所定値を上回る。
条件Ca1は、前述の条件Cr1と同様に、時間長が充分に短い定常期間Q1には自然な声質で音表現を付加することが困難であるという事情を考慮した条件である。また、定常期間Q1内で基本周波数f1が大きく変動する場合には、歌唱音声に充分な音表現が付加されている可能性が高い。そこで、平滑後の基本周波数f1の変動幅が所定値を上回る定常期間Q1は、音表現の付加対象から除外される(条件Ca2)。条件Ca3は、条件Ca2と同様の内容であるが、定常期間Q1のうち特にアタック部に近い期間に着目した条件である。また、定常期間Q1の直前の有声期間Vaの時間長が充分に長い場合、または有声期間Va内で基本周波数f1が大きく変動する場合には、歌唱音声に既に充分な音表現が付加されている可能性が高い。そこで、直前の有声期間Vaの時間長が所定値を上回る定常期間Q1(条件Ca4)と、有声期間Va内での基本周波数f1の変動幅が所定値を上回る定常期間Q1(条件Ca5)とは、音表現の付加対象から除外される。定常期間Q1に音表現を付加しないと判定した場合(S11:YES)、アタック処理部31は、以下に詳述する処理(S12−S16)を実行することなくアタック処理S1を終了する。
第1音信号X1の定常期間Q1に第2音信号X2のアタック部の音表現を付加すると判定した場合(S11:YES)、アタック処理部31は、第2音信号X2の複数の定常期間Q2のうち、定常期間Q1に付加されるべき音表現に対応する定常期間Q2を選択する(S12)。アタック処理部31が定常期間Q2を選択する方法は、リリース処理部32が定常期間Q2を選択する方法と同様である。
アタック処理部31は、以上の手順で選択した定常期間Q2に対応する音表現を第1音信号X1に付加するための処理(S13−S16)を実行する。図11は、アタック処理部31が第1音信号X1にアタック部の音表現を付加する処理の説明図である。
アタック処理部31は、処理対象の定常期間Q1とステップS12で選択した定常期間Q2との間で時間軸上の位置関係を調整する(S13)。具体的には、アタック処理部31は、図11に例示される通り、定常期間Q1の始点時刻T1_Sに定常期間Q2の始点時刻T2_Sが時間軸上で一致するように、第2音信号X2(定常期間Q2)を第1音信号X1の時間軸上に配置する。
<処理期間Z1_Aの伸長>
アタック処理部31は、第1音信号X1のうち第2音信号X2の音表現が付加される処理期間Z1_Aを時間軸上で伸長する(S14)。処理期間Z1_Aは、定常期間Q1の直前の有声期間Vaの始点時刻τ1_Aから音表現の付加が終了される時刻(以下「合成終了時刻」という)Tm_Aまでの期間である。合成終了時刻Tm_Aは、例えば定常期間Q1の始点時刻T1_S(定常期間Q2の始点時刻T2_S)である。すなわち、アタック処理S1においては、定常期間Q1の前方の有声期間Vaが処理期間Z1_Aとして伸長される。前述の通り、定常期間Q1は楽曲の音符に相当する期間である。有声期間Vaを伸長し、定常期間Q1は伸長しない構成によれば、定常期間Q1の始点時刻T1_Sの変化が抑制される。すなわち、歌唱音声における音符の先頭が前後に移動する可能性を低減できる。
図11に例示される通り、本実施形態のアタック処理部31は、第1音信号X1の処理期間Z1_Aを、第2音信号X2のうち表現期間Z2_Aの時間長に応じて伸長する。表現期間Z2_Aは、第2音信号X2のうちアタック部の音表現を表す期間であり、第1音信号X1に対する当該音表現の付加に利用される。図11に例示される通り、表現期間Z2_Aは、定常期間Q2の直前の有声期間Vaである。
具体的には、アタック処理部31は、第1音信号X1の処理期間Z1_Aを、第2音信号X2の表現期間Z2_Aの時間長まで伸長する。図11には、歌唱音声の時刻t1(縦軸)と変形音の時刻t(横軸)との対応関係が図示されている。
図11に例示される通り、本実施形態では、処理期間Z1_Aの始点時刻τ1_Aに近い位置ほど伸長の度合が小さくなるように処理期間Z1_Aが時間軸上で伸長される。したがって、歌唱音声の始点時刻τ1_Aの近傍の音響特性を変形音においても充分に維持することが可能である。他方、参照音声の表現期間Z2_Aは時間軸上で伸縮されない。したがって、第2音信号X2が表すアタック部の音表現を正確に第1音信号X1に付加することが可能である。
以上に例示した手順で処理期間Z1_Aを伸長すると、アタック処理部31は、第1音信号X1の伸長後の処理期間Z1_Aを第2音信号X2の表現期間Z2_Aに応じて変形する(S15−S16)。具体的には、歌唱音声の伸長後の処理期間Z1_Aと参照音声の表現期間Z2_Aとの間で、基本周波数の合成(S25)とスペクトル包絡概形の合成(S26)とが実行される。
具体的には、アタック処理部31は、前述の数式(2)と同様の演算により、第1音信号X1の基本周波数f1(t1)と第2音信号X2の基本周波数f2(t2)とから第3音信号Yの基本周波数F(t)を算定する。すなわち、アタック処理部31は、基本周波数f1(t1)と平滑後の基本周波数F1(t1)との差分を係数λ1に応じた度合で第1音信号X1の基本周波数f1(t1)から低減し、基本周波数f2(t2)と平滑後の基本周波数F2(t2)との差分を係数λ2に応じた度合で第1音信号X1の基本周波数f1(t1)に付加することで、第3音信号Yの基本周波数F(t)を算定する。したがって、第1音信号X1における伸長後の処理期間Z1_A内の基本周波数f1(t1)の時間変化が、第2音信号X2における表現期間Z2_A内の基本周波数f2(t2)の時間変化に近付く。
また、アタック処理部31は、歌唱音声の伸長後の処理期間Z1_Aと参照音声の表現期間Z2_Aとの間でスペクトル包絡概形を合成する。具体的には、アタック処理部31は、前述の数式(3)と同様の演算により、第1音信号X1のスペクトル包絡概形G1(t1)と第2音信号X2のスペクトル包絡概形G2(t2)とから第3音信号Yの合成スペクトル包絡概形G(t)を算定する。アタック処理S1において数式(3)に適用される基準スペクトル包絡概形G1_refは、第1音信号X1のうち合成終了時刻Tm_A(第1時点の例示)におけるスペクトル包絡概形G1(Tm_A)である。すなわち、基準スペクトル包絡概形G1_refが抽出される時点は、定常期間Q1の始点時刻T1_Sに位置する。
同様に、アタック処理S1において数式(3)に適用される基準スペクトル包絡概形G2_refは、第2音信号X2のうち合成終了時刻Tm_A(第2時点の例示)におけるスペクトル包絡概形G2(Tm_A)である。すなわち、基準スペクトル包絡概形G2_refが抽出される時点は、定常期間Q1の始点時刻T1_Sに位置する。
以上の説明から理解される通り、本実施形態のアタック処理部31およびリリース処理部32の各々は、定常期間Q1の端点(始点時刻T1_Sまたは終点時刻T1_E)を基準とした時間軸上の位置において第2音信号X2(解析データD2)を利用して第1音信号X1(解析データD1)を変形する。以上に例示したアタック処理S1およびリリース処理S2により、変形音を表す第3音信号Yの基本周波数F(t)の時系列と合成スペクトル包絡概形G(t)の時系列とが生成される。図2の音声合成部33は、第3音信号Yの基本周波数F(t)の時系列と合成スペクトル包絡概形G(t)の時系列とから第3音信号Yを生成する。
図2の音声合成部33は、アタック処理S1およびリリース処理S2の結果(すなわち変形後の解析データ)を利用して変形音の第3音信号Yを合成する。具体的には、音声合成部33は、第1音信号X1から算定される各周波数スペクトルg1を合成スペクトル包絡概形G(t)に沿うように調整し、かつ、第1音信号X1の基本周波数f1を基本周波数F(t)に調整する。周波数スペクトルg1および基本周波数f1の調整は例えば周波数領域で実行される。音声合成部33は、以上に例示した調整後の周波数スペクトルを時間領域に変換することで第3音信号Yを合成する。
以上に説明した通り、本実施形態では、第1音信号X1のスペクトル包絡概形G1(t1)と基準スペクトル包絡概形G1_refとの差分(G1(t1)−G1_ref)と、第2音信号X2のスペクトル包絡概形G2(t2)と基準スペクトル包絡概形G2_refとの差分(G2(t2)−G2_ref)とが、第1音信号X1のスペクトル包絡概形G1(t1)に合成される。したがって、第1音信号X1のうち、第2音信号X2を利用して変形される期間(処理期間Z1_A,Z1_R)と当該期間の前後の期間との境界において音響特性が連続する聴感的に自然な変形音を生成できる。
また、本実施形態では、第1音信号X1のうち基本周波数f1およびスペクトル形状が時間的に安定している定常期間Q1が特定され、定常期間Q1の端点(始点時刻T1_Sまたは終点時刻T1_E)を基準として配置された第2音信号X2を利用して第1音信号X1が変形される。したがって、第1音信号X1の適切な期間が第2音信号X2に応じて変形され、聴感的に自然な変形音を生成できる。
本実施形態では、第1音信号X1の処理期間(Z1_A,Z1_R)が第2音信号X2の表現期間(Z2_A,Z2_R)の時間長に応じて伸長されるから、第2音信号X2の伸長は不要である。したがって、参照音声の音響特性(例えば音表現)が正確に第1音信号X1に付加され、聴感的に自然な変形音を生成できる。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の形態では、第1指標δ1と第2指標δ2とから算定される変動指標Δを利用して第1音信号X1の定常期間Q1を特定したが、第1指標δ1と第2指標δ2とに応じて定常期間Q1を特定する方法は以上の例示に限定されない。例えば、信号解析部21は、第1指標δ1に応じた第1暫定期間と第2指標δ2に応じた第2暫定期間とを特定する。第1暫定期間は、例えば第1指標δ1が閾値を下回る有声音の期間である。すなわち、基本周波数f1が時間的に安定している期間が第1暫定期間として特定される。第2暫定期間は、例えば第2指標δ2が閾値を下回る有声音の期間である。すなわち、スペクトル形状が時間的に安定している期間が第2暫定期間として特定される。信号解析部21は、第1暫定期間と第2暫定期間とが相互に重複する期間を定常期間Q1として特定する。すなわち、第1音信号X1のうち基本周波数f1とスペクトル形状との双方が時間的に安定している期間が定常期間Q1として特定される。以上の説明から理解される通り、定常期間Q1の特定において変動指標Δの算定を省略してもよい。なお、以上の説明では定常期間Q1の特定に着目したが、第2音信号X2における定常期間Q2の特定についても同様である。
(2)前述の形態では、第1音信号X1のうち基本周波数f1およびスペクトル形状の双方が時間的に安定する期間を定常期間Q1として特定したが、第1音信号X1のうち基本周波数f1およびスペクトル形状の一方が時間的に安定する期間を定常期間Q1として特定してもよい。同様に、第2音信号X2のうち基本周波数f2およびスペクトル形状の一方が時間的に安定する期間を定常期間Q2として特定してもよい。
(3)前述の形態では、第1音信号X1のうち合成開始時刻Tm_Rまたは合成終了時刻Tm_Aにおけるスペクトル包絡概形G1を基準スペクトル包絡概形G1_refとして利用したが、基準スペクトル包絡概形G1_refが抽出される時点(第1時点)は以上の例示に限定されない。例えば、定常期間Q1の端点(始点時刻T1_Sまたは終点時刻T1_E)におけるスペクトル包絡概形G1を基準スペクトル包絡概形G1_refとしてもよい。ただし、基準スペクトル包絡概形G1_refが抽出される第1時点は、第1音信号X1のうちスペクトル形状が安定している定常期間Q1内の時点であることが望ましい。
基準スペクトル包絡概形G2_refについても同様である。すなわち、前述の形態では、第2音信号X2のうち合成開始時刻Tm_Rまたは合成終了時刻Tm_Aにおけるスペクトル包絡概形G2を基準スペクトル包絡概形G2_refとして利用したが、基準スペクトル包絡概形G2_refが抽出される時点(第2時点)は以上の例示に限定されない。例えば、定常期間Q2の端点(始点時刻T2_Sまたは終点時刻T2_E)におけるスペクトル包絡概形G2を基準スペクトル包絡概形G2_refとしてもよい。ただし、基準スペクトル包絡概形G2_refが抽出される第2時点は、第2音信号X2のうちスペクトル形状が安定している定常期間Q2内の時点であることが望ましい。
また、第1音信号X1のうち基準スペクトル包絡概形G1_refが抽出される第1時点と、第2音信号X2のうち基準スペクトル包絡概形G2_refが抽出される第2時点とは、時間軸上の相異なる時点でもよい。
(4)前述の形態では、音処理装置100の利用者が歌唱した歌唱音声を表す第1音信号X1を処理したが、第1音信号X1が表す音声は、利用者による歌唱音声に限定されない。例えば、素片接続型または統計モデル型の公知の音声合成技術により合成された第1音信号X1を処理してもよい。また、光ディスク等の記録媒体から読出された第1音信号X1を処理してもよい。第2音信号X2についても同様に、任意の方法で取得される。
また、第1音信号X1および第2音信号X2が表す音響は、狭義の音声(すなわち人間が発声する言語音)に限定されない。例えば、楽器の演奏音を表す第1音信号X1に各種の音表現(例えば演奏表現)を付加する場合にも本発明は適用される。例えば、演奏表現が付加されていない単調な演奏音を表す第1音信号X1に対し、第2音信号X2を利用してビブラート等の演奏表現が付加される。
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
本発明の好適な態様(第1態様)に係る音処理方法は、第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とを前記第1スペクトル包絡概形に合成することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する。以上の態様では、第1音信号の第1スペクトル包絡概形と第1基準スペクトル包絡概形との間の第1差分と、第2音信号のスペクトル包絡概形と第2基準スペクトル包絡概形との間の第2差分とを、第1スペクトル包絡概形に合成することで、第1音を第2音に応じて変形した変形音における合成スペクトル包絡概形が生成される。したがって、第1音信号のうち第2音信号が合成される期間と当該期間の前後の期間との境界において音響特性が連続する聴感的に自然な変形音を生成できる。
なお、スペクトル包絡概形は、スペクトル包絡の概形である。具体的には、音韻性(音韻間の差異)および個人性(発話者間の差異)が知覚できなくなる程度にスペクトル包絡を平滑化した周波数軸上の強度分布がスペクトル包絡概形に相当する。周波数スペクトルの概形を表すメルケプストラムの複数の係数のうち低次側に位置する所定個の係数によりスペクトル包絡概形が表現される。
第1態様の好適例(第2態様)において、前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で終点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点および前記第2定常期間の始点のうち後方の時点である。以上の態様では、第1定常期間と第2定常期間との間で終点を一致させたときに、第1定常期間の始点および第2定常期間の始点のうち後方の時点が第1時点および第2時点として選定される。したがって、第1定常期間および第2定常期間の始点において音響特性の連続性を維持しながら、第2音におけるリリース部の音響特性を第1音に付加した変形音を生成できる。
第1態様の好適例(第3態様)において、前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で始点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点である。以上の態様では、第1定常期間と第2定常期間との間で始点を一致させたときに、第1定常期間の始点(第2定常期間の始点)がが第1時点および第2時点として選定される。したがって、第1定常期間の始点の移動を抑制しながら、第2音の発音点付近における音響特性を第1音に付加した変形音を生成できる。
第1態様から第3態様の何れかの好適例(第4態様)において、前記合成スペクトル包絡概形の生成では、前記第1スペクトル包絡概形に対して、前記第1差分に第1係数を乗算した結果を減算し、前記第2差分に第2係数を乗算した結果を加算する。以上の態様では、第1差分に第1係数を乗算した結果を第1スペクトル包絡概形から減算し、第2差分に第2係数を乗算した結果を第1スペクトル包絡概形に加算することで、合成スペクトル包絡概形の時系列が生成される。したがって、第1音の音表現を低減するとともに第2音の音表現を有効に付加した変形音を生成できる。
本発明の好適な態様(第5態様)に係る音処理装置は、第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とを前記第1スペクトル包絡概形に合成することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する合成処理部を具備する。
第5態様の好適例(第6態様)において、前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で終点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点および前記第2定常期間の始点のうち後方の時点である。
第5態様の好適例(第7態様)において、前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で始点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点である。
第5態様から第7態様の何れかの好適例(第8態様)において、前記合成処理部は、前記第1スペクトル包絡概形に対して、前記第1差分に第1係数を乗算した結果を減算し、前記第2差分に第2係数を乗算した結果を加算する。
100…音処理装置、11…制御装置、12…記憶装置、13…操作装置、14…放音装置、21…信号解析部、22…合成処理部、31…アタック処理部、32…リリース処理部、33…音声合成部。

Claims (8)

  1. 第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、
    前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分と
    を前記第1スペクトル包絡概形に合成することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する、
    コンピュータにより実現される音処理方法。
  2. 前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で終点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点および前記第2定常期間の始点のうち後方の時点である
    請求項1の音処理方法。
  3. 前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で始点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点である
    請求項1の音処理方法。
  4. 前記合成スペクトル包絡概形の生成においては、
    前記第1スペクトル包絡概形に対して、
    前記第1差分に第1係数を乗算した結果を減算し、
    前記第2差分に第2係数を乗算した結果を加算する
    請求項1から請求項3の何れかの音処理方法。
  5. 第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、
    前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分と
    を前記第1スペクトル包絡概形に合成することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する合成処理部
    を具備する音処理装置。
  6. 前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で終点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点および前記第2定常期間の始点のうち後方の時点である
    請求項5の音処理装置。
  7. 前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で始点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点である
    請求項5の音処理装置。
  8. 前記合成処理部は、前記第1スペクトル包絡概形に対して、前記第1差分に第1係数を乗算した結果を減算し、前記第2差分に第2係数を乗算した結果を加算する
    請求項5から請求項7の何れかの音処理装置。
JP2018043116A 2018-03-09 2018-03-09 音処理方法および音処理装置 Active JP7139628B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2018043116A JP7139628B2 (ja) 2018-03-09 2018-03-09 音処理方法および音処理装置
CN201980017203.2A CN111837183A (zh) 2018-03-09 2019-03-08 声音处理方法、声音处理装置及记录介质
PCT/JP2019/009220 WO2019172397A1 (ja) 2018-03-09 2019-03-08 音処理方法、音処理装置および記録媒体
EP19763716.8A EP3764357A4 (en) 2018-03-09 2019-03-08 VOICE PROCESSING METHOD, VOICE PROCESSING DEVICE AND RECORDING MEDIA
US17/014,312 US11646044B2 (en) 2018-03-09 2020-09-08 Sound processing method, sound processing apparatus, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018043116A JP7139628B2 (ja) 2018-03-09 2018-03-09 音処理方法および音処理装置

Publications (2)

Publication Number Publication Date
JP2019159012A true JP2019159012A (ja) 2019-09-19
JP7139628B2 JP7139628B2 (ja) 2022-09-21

Family

ID=67847157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018043116A Active JP7139628B2 (ja) 2018-03-09 2018-03-09 音処理方法および音処理装置

Country Status (5)

Country Link
US (1) US11646044B2 (ja)
EP (1) EP3764357A4 (ja)
JP (1) JP7139628B2 (ja)
CN (1) CN111837183A (ja)
WO (1) WO2019172397A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7439432B2 (ja) 2019-09-27 2024-02-28 ヤマハ株式会社 音響処理方法、音響処理装置およびプログラム
JP7439433B2 (ja) 2019-09-27 2024-02-28 ヤマハ株式会社 表示制御方法、表示制御装置およびプログラム
JP7484118B2 (ja) 2019-09-27 2024-05-16 ヤマハ株式会社 音響処理方法、音響処理装置およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244694A (ja) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 声質変換方法
JP2017203963A (ja) * 2016-05-13 2017-11-16 日本放送協会 音声加工装置、及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3035939B2 (ja) * 1989-11-30 2000-04-24 日本電気株式会社 音声分析合成装置
JP3259759B2 (ja) * 1996-07-22 2002-02-25 日本電気株式会社 音声信号伝送方法及び音声符号復号化システム
JP3444396B2 (ja) * 1996-09-11 2003-09-08 日本電信電話株式会社 音声合成方法、その装置及びプログラム記録媒体
KR100351590B1 (ko) * 2000-12-19 2002-09-05 (주)신종 음성 변환 방법
JP2006030609A (ja) * 2004-07-16 2006-02-02 Yamaha Corp 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
JP4349316B2 (ja) * 2005-04-28 2009-10-21 ヤマハ株式会社 音声分析及び合成装置、方法、プログラム
CN101796575B (zh) * 2007-09-06 2012-07-18 富士通株式会社 声音信号生成方法以及声音信号生成装置
JP2009284110A (ja) * 2008-05-20 2009-12-03 Funai Electric Advanced Applied Technology Research Institute Inc 音声入力装置及びその製造方法、並びに、情報処理システム
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
JP2010250131A (ja) * 2009-04-16 2010-11-04 Victor Co Of Japan Ltd 雑音除去装置
AU2016204672B2 (en) * 2010-07-02 2016-08-18 Dolby International Ab Audio encoder and decoder with multiple coding modes
CN102456352A (zh) * 2010-10-26 2012-05-16 深圳Tcl新技术有限公司 一种背景音频处理装置以及处理方法
MX339764B (es) * 2011-02-18 2016-06-08 Ntt Docomo Inc Descodificador de habla, codificador de habla, metodo para descodificacion de habla, metodo para codificacion de habla, programa para descodificacion de habla, y programa para codificacion de habla.
JP5772739B2 (ja) 2012-06-21 2015-09-02 ヤマハ株式会社 音声処理装置
US9159329B1 (en) * 2012-12-05 2015-10-13 Google Inc. Statistical post-filtering for hidden Markov modeling (HMM)-based speech synthesis
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
EP3225037B1 (en) * 2014-09-23 2019-05-08 Binauric SE Method and apparatus for generating a directional sound signal from first and second sound signals
CN106205623B (zh) * 2016-06-17 2019-05-21 福建星网视易信息系统有限公司 一种声音转换方法及装置
JP6821970B2 (ja) * 2016-06-30 2021-01-27 ヤマハ株式会社 音声合成装置および音声合成方法
EP3537432A4 (en) * 2016-11-07 2020-06-03 Yamaha Corporation LANGUAGE SYNTHESIS PROCEDURE
US10504538B2 (en) * 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244694A (ja) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 声質変換方法
JP2017203963A (ja) * 2016-05-13 2017-11-16 日本放送協会 音声加工装置、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
東 晃弘: "周波数非線形伸縮を用いた対数パワースペクトル包絡のモーフィングによる声質変換", 電子情報通信学会論文誌 第2号, vol. 第J84-A巻,第2号, JPN6019017607, February 2001 (2001-02-01), JP, pages 238 - 242, ISSN: 0004705599 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7439432B2 (ja) 2019-09-27 2024-02-28 ヤマハ株式会社 音響処理方法、音響処理装置およびプログラム
JP7439433B2 (ja) 2019-09-27 2024-02-28 ヤマハ株式会社 表示制御方法、表示制御装置およびプログラム
JP7484118B2 (ja) 2019-09-27 2024-05-16 ヤマハ株式会社 音響処理方法、音響処理装置およびプログラム

Also Published As

Publication number Publication date
US11646044B2 (en) 2023-05-09
US20200402525A1 (en) 2020-12-24
EP3764357A4 (en) 2022-04-20
JP7139628B2 (ja) 2022-09-21
WO2019172397A1 (ja) 2019-09-12
CN111837183A (zh) 2020-10-27
EP3764357A1 (en) 2021-01-13

Similar Documents

Publication Publication Date Title
JP4246792B2 (ja) 声質変換装置および声質変換方法
EP3065130B1 (en) Voice synthesis
JP5961950B2 (ja) 音声処理装置
JP6724932B2 (ja) 音声合成方法、音声合成システムおよびプログラム
US11646044B2 (en) Sound processing method, sound processing apparatus, and recording medium
US11289066B2 (en) Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
WO2019181767A1 (ja) 音処理方法、音処理装置およびプログラム
JP6747236B2 (ja) 音響解析方法および音響解析装置
JP7200483B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP7106897B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP5573529B2 (ja) 音声処理装置およびプログラム
JP6011039B2 (ja) 音声合成装置および音声合成方法
WO2019172396A1 (ja) 音声処理方法、音声処理装置および記録媒体
JP6191094B2 (ja) 音声素片切出装置
JP6056190B2 (ja) 音声合成装置
JP2018072370A (ja) 音響解析方法および音響解析装置
JP2018072369A (ja) 音響解析方法および音響解析装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220822

R151 Written notification of patent or utility model registration

Ref document number: 7139628

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151