JP6428256B2 - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP6428256B2
JP6428256B2 JP2014263512A JP2014263512A JP6428256B2 JP 6428256 B2 JP6428256 B2 JP 6428256B2 JP 2014263512 A JP2014263512 A JP 2014263512A JP 2014263512 A JP2014263512 A JP 2014263512A JP 6428256 B2 JP6428256 B2 JP 6428256B2
Authority
JP
Japan
Prior art keywords
component
frequency
unit
spectrum
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014263512A
Other languages
English (en)
Other versions
JP2016122157A (ja
Inventor
ジョルディ ボナダ
ボナダ ジョルディ
ブラアウ メルレイン
ブラアウ メルレイン
慶二郎 才野
慶二郎 才野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2014263512A priority Critical patent/JP6428256B2/ja
Priority to US14/980,517 priority patent/US9865276B2/en
Publication of JP2016122157A publication Critical patent/JP2016122157A/ja
Application granted granted Critical
Publication of JP6428256B2 publication Critical patent/JP6428256B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Description

本発明は、音声信号を処理する技術に関する。
音声信号が表す音声の声質を変換する技術が従来から提案されている。例えば特許文献1には、処理対象の音声信号(以下「対象信号」という)の声質を、事前に収録された目標音声信号が表す濁声や嗄れ声等の特徴的(non-modal)な声質に変換する技術が開示されている。特許文献1の技術では、対象信号の基本周波数に調整された目標音声信号のスペクトルが各調波周波数を中心として複数の帯域(以下「単位帯域」という)に区分され、各単位帯域の成分が周波数軸上で再配置される。そして、再配置後の各単位帯域内の調波周波数の振幅および位相が対象信号の振幅および位相に合致するように単位帯域毎に振幅および位相が調整される。
特開2014−002338号公報
特許文献1の技術では、周波数軸上で相互に隣合う各調波周波数の中間の地点を境界として複数の単位帯域が画定されたうえで単位帯域毎に振幅や位相が調整されるから、各単位帯域の境界(すなわち各調波周波数の中間の地点)では振幅や位相が不連続となる。調波成分が非調波成分と比較して充分に豊富な音声の生成を前提とすれば、各調波周波数の中間の地点(すなわち強度が充分に低い地点)に存在する非調波成分の振幅や位相の不連続は受聴者に殆ど知覚されない。しかし、非調波成分を豊富に含有する濁声や嗄れ声等の特徴的な声質では、調波周波数の中間の地点での振幅や位相の不連続が顕在化し、聴感的に不自然な音声と知覚される可能性がある。以上の事情を考慮して、本発明は、非調波成分を優勢に含有する声質で聴感的に自然な音声を生成することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音声処理装置は、目標声質の音声を表す第1音声信号の第1基本周波数を、目標声質とは相違する初期声質の音声を表す第2音声信号の第2基本周波数に調整する音高調整手段と、音高調整手段による調整後の第1音声信号のスペクトルを第2基本周波数に対応する各調波周波数で区分した複数の単位帯域成分の各々を、音高調整手段による調整前の第1音声信号のスペクトルのうち当該単位帯域成分に対応する成分の近傍に位置するように、第2基本周波数に対応する各調波周波数に配置する成分配置手段と、成分配置手段による配置後の各単位帯域成分の成分値を第2音声信号のスペクトルの成分値に応じて調整するとともに、第2基本周波数に対応する各調波周波数を含む各特定帯域については第2音声信号のスペクトルの成分値を適用することで、変換スペクトルを生成する成分調整手段とを具備する。
以上の構成では、音高調整手段による調整後の第1音声信号のスペクトルを第2基本周波数に対応する各調波周波数で区分した複数の単位帯域成分の各々について成分値が調整されるから、各調波周波数の間の非調波成分における成分値の不連続が抑制される。したがって、例えば調波周波数の間の地点を境界として各単位帯域成分を画定する構成と比較して、非調波成分を優勢に含有する声質で聴感的に自然な音声を生成できるという利点がある。他方、調波周波数を境界として各単位帯域成分を画定する構成では、調波周波数での成分値の不連続が問題となり得る。本発明の前述の好適な態様では、調波周波数を含む特定帯域については第2音声信号のスペクトルの成分値が適用されるから、調波成分での成分値の不連続を防止できる(ひいては目標声質を忠実に再現できる)という利点がある。
本発明の好適な態様において、成分調整手段は、成分配置手段による配置後の各単位帯域成分のうち第2基本周波数に対応する調波周波数での成分値が、第2音声信号のスペクトルのうち当該調波周波数での成分値に合致するように、各単位帯域成分の成分値を調整する。以上の態様では、成分配置手段による処理後の各単位帯域成分のうち調波周波数での成分値が第2音声信号のスペクトルのうち当該調波周波数での成分値に調整されるから、第2音声信号の音韻を高度に維持した音声を生成できるという利点がある。
本発明の好適な態様において、成分値は位相を含み、成分調整手段は、成分配置手段による配置後の各単位帯域成分に包含される各周波数成分の時間軸上の移動量が一定となるように、当該単位帯域成分内の周波数毎に移相量を相違させる。以上の態様では、各周波数成分の時間軸上の移動量が一定となるように単位帯域成分内の周波数毎に相異なる移相量が設定されるから、第1音声信号の目標声質を忠実に反映した音声を生成できるという利点がある。なお、以上の態様の具体例は例えば第3実施形態として後述される。
本発明の好適な態様に係る音声処理装置は、第2基本周波数に対応する基本周期で音高調整手段による調整後の第1音声信号に存在する時間波形のピークに対して所定の位置関係にある分析窓により第1音声信号を時間軸上で複数の単位区間に区分して当該単位区間毎にスペクトルを算定する第1周波数解析手段と、第2基本周波数に対応する基本周期で第2音声信号に存在する時間波形のピークに対して前所定の位置関係にある分析窓により第2音声信号を時間軸上で複数の単位区間に区分して当該単位区間毎にスペクトルを算定する第2周波数解析手段とを具備する。以上の態様では、第1音声信号の時間波形のピークに対する分析窓の位置関係と、第2音声信号の時間波形のピークに対する分析窓の位置関係とが共通するから、第1音声信号の目標音質を忠実に反映した音声を生成できるという利点がある。なお、以上の態様の具体例は例えば第2実施形態として後述される。
以上の各態様に係る音声処理装置は、音声信号の処理に専用される電子回路によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声処理装置の動作方法(音声処理方法)としても特定される。
第1実施形態に係る音声処理装置の構成図である。 変換処理部の構成図である。 変換処理部の動作の説明図である。 第2実施形態における各周波数解析部の動作の説明図である。 対比例で生成される音声信号の波形の説明図である。 第3実施形態における位相補正の説明図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100の構成図である。音声処理装置100には外部機器12から音声信号x(t)が供給される。音声信号x(t)は、特定の音高および音韻(発音内容)で発音された会話音や歌唱音等の音声を表す時間領域の信号である(t:時間)。例えば、周囲の音響を収音して音声信号x(t)を生成する収音機器、可搬型または内蔵型の記録媒体から音声信号x(t)を取得して出力する再生機器、あるいは通信網から音声信号x(t)を受信して出力する通信機器が外部機器12として利用され得る。
第1実施形態の音声処理装置100は、音声信号x(t)の声質(以下「初期声質」という)とは相違する特定の声質(以下「目標声質」という)の音声を示す時間領域の音声信号y(t)を生成する信号処理装置(すなわち声質変換装置)である。第1実施形態の目標声質は、初期声質と比較して独特(non-modal)な声質である。具体的には、発声時の声帯の挙動が通常の発声とは相違する声質が目標声質として好適である。例えば濁声や嗄れ声や唸り声等の特徴的な声質(rough, harsh, growl, hoarse, rough)が目標声質として例示され得る。なお、典型的には初期声質と目標声質とは別個の発声者の声質であるが、ひとりの発声者の相異なる声質を初期声質および目標声質とすることも可能である。音声処理装置100が生成した音声信号y(t)は放音機器14(スピーカやヘッドホン)に供給されて音波として放射される。
図1に例示される通り、音声処理装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムや演算処理装置22が使用する各種のデータを記憶する。具体的には、第1実施形態の記憶装置24は、目標声質の音声を表す時間領域の音声信号(以下「目標音声信号」という)rA(t)を記憶する。目標音声信号rA(t)は、特定の音韻(典型的には母音)を略一定の音高で定常的に発音した目標声質の音声のサンプル系列である。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置24として任意に利用される。目標音声信号rA(t)は「第1音声信号」の例示であり、音声信号x(t)は「第2音声信号」の例示である。
演算処理装置22は、記憶装置24に格納されたプログラムを実行することで、音声信号x(t)から音声信号y(t)を生成するための複数の機能(周波数解析部32,変換処理部34,波形生成部36)を実現する。なお、演算処理装置22の機能を複数の装置に分散した構成や、演算処理装置22の機能の一部を音声処理専用の電子回路が実現する構成も採用され得る。また、例えば演算処理装置22が公知の音声合成処理で生成した合成音声の音声信号x(t)や記憶装置24に事前に記憶された音声信号x(t)を処理する構成(したがって外部機器12は省略される)も採用される。
周波数解析部32は、音声信号x(t)のスペクトル(複素スペクトル)X(k)を生成する。具体的には、周波数解析部32は、所定の窓関数で表現される分析窓(例えばハニング窓)を利用して音声信号x(t)を時間軸上で区分した単位区間(フレーム)毎にスペクトルX(k)を順次に算定する。記号kは、周波数軸上に設定された複数の周波数のうちの任意の1個を意味する。また、第1実施形態の周波数解析部32は、音声信号x(t)の基本周波数(ピッチ)PXを単位区間毎に順次に特定する。基本周波数PXの特定には公知のピッチ検出技術が任意に採用される。
変換処理部34は、音声信号x(t)の音高および音韻を維持しながら音声信号x(t)の声質を初期声質から目標声質に変換する。具体的には、第1実施形態の変換処理部34は、周波数解析部32が単位区間毎に生成するスペクトルX(k)と記憶装置24に記憶された目標音声信号rA(t)とを利用した変換処理により目標声質の音声信号y(t)のスペクトル(以下「変換スペクトル」という)Y(k)を単位区間毎に順次に生成する。変換処理部34が実行する変換処理の具体的な内容は後述する。
波形生成部36は、変換処理部34が単位区間毎に生成する変換スペクトルY(k)から時間領域の音声信号y(t)を生成する。音声信号y(t)の生成には短時間逆フーリエ変換が好適に利用される。波形生成部36が生成した音声信号y(t)が放音機器14に供給されて音波として放射される。なお、音声信号x(t)と音声信号y(t)とを時間領域または周波数領域において混合することも可能である。
変換処理部34の具体的な構成および動作を以下に説明する。図2は、変換処理部34の構成図である。図2に例示される通り、第1実施形態の変換処理部34は、音高調整部42と周波数解析部44と声質変換部46とを具備する。図3は、変換処理部34の動作の説明図である。
音高調整部42は、記憶装置24に記憶された目標音声信号rA(t)の基本周波数(第1基本周波数)PRを、周波数解析部32が特定した音声信号x(t)の基本周波数(第2基本周波数)PXに調整することで時間領域の目標音声信号rB(t)を生成する。具体的には、音高調整部42は、目標音声信号rA(t)を時間領域でリサンプリングすることで基本周波数PXの目標音声信号rB(t)を生成する。したがって、目標音声信号rB(t)の音韻は調整前の目標音声信号rA(t)と同様である。音高調整部42によるリサンプリングのサンプリングレートは、基本周波数PRに対する基本周波数PXの比率λ(λ=PX/PR)に設定される。なお、目標音声信号rA(t)の基本周波数PRの特定には公知のピッチ検出技術が任意に採用される。また、基本周波数PRを目標音声信号rA(t)とともに記憶装置24に事前に記憶して比率λの算定に適用することも可能である。
図2の周波数解析部44は、音高調整部42による調整(以下「音高調整」という)後の目標音声信号rB(t)のスペクトル(複素スペクトル)R(k)を生成する。具体的には、周波数解析部44は、所定の窓関数で表現される分析窓を利用して目標音声信号rB(t)を時間軸上で区分した単位区間毎にスペクトルR(k)を順次に算定する。周波数解析部32によるスペクトルX(k)の算定および周波数解析部44によるスペクトルR(k)の算定には、短時間フーリエ変換等の公知の周波数分析が任意に採用される。
図3には、周波数解析部44が生成する目標音声信号rB(t)のスペクトルR(k)が図示され、音高調整部42による音高調整前の目標音声信号rA(t)のスペクトルR0(k)が便宜的に併記されている。図3に例示される通り、音高調整後のスペクトルR(k)は、音高調整前のスペクトルR0(k)を周波数軸上で比率λに応じて一様に伸縮した関係にある。
図2の声質変換部46は、周波数解析部32が音声信号x(t)の単位区間毎に生成した初期声質のスペクトルX(k)と周波数解析部44が目標音声信号rB(t)の単位区間毎に生成した目標声質のスペクトルR(k)とを利用して、音声信号x(t)の音高および音韻を目標声質で発声した音声信号y(t)の変換スペクトルY(k)を単位区間毎に順次に生成する。図2に例示される通り、第1実施形態の声質変換部46は、成分配置部52と成分調整部54とを包含する。
成分配置部52は、図3に例示される通り、音高調整部42による音高調整後の基本周波数PXに対応する調波周波数H(n)毎に目標声質のスペクトルR(k)を周波数軸上で区分した複数の成分(以下「単位帯域成分」という)U(n)を周波数軸上に再配置したスペクトル(以下「再配置スペクトル」という)S(k)を生成する。調波周波数H(n)は、基本周波数PXのn倍(nは自然数)の周波数である。すなわち、調波周波数H(1)は基本周波数PXに相当し、第2次以降(n=2,3,4,……)の各調波周波数H(n)は第n次の倍音周波数n・PXに相当する。
第1実施形態における目標音声信号rB(t)の音声は、濁声や嗄れ声等の特徴的な目標声質であるから、図3からも理解される通り、目標音声信号rB(t)のスペクトルR(k)は、周波数軸上で相互に隣合う各調波周波数H(n)の間の非調波成分を通常の声質の音声と比較して豊富に含有する。非調波成分は、目標声質の聴感的な印象を特徴付ける重要な音響成分であるとも換言され得る。第1実施形態の各単位帯域成分U(n)は、周波数軸上の各調波周波数H(n)を境界(端点)としてスペクトルR(k)を区分した各帯域の信号成分である。具体的には、第n番目の単位帯域成分U(n)は、目標音声信号rB(t)のスペクトルR(k)のうち調波周波数H(n)から調波周波数H(n+1)までの帯域成分に相当する。したがって、各単位帯域成分U(n)では、調波周波数H(n)と調波周波数H(n+1)との間に存在して目標声質の聴感的な印象を特徴付ける非調波成分がスペクトルR(k)と同等に維持される。
図3に例示される通り、音高調整後のスペクトルR(k)と音高調整前のスペクトルR0(k)とでは同帯域での形状が相違する。したがって、音高調整後のスペクトルR(k)の声質は、スペクトルR0(k)の目標声質とは相違し得る。以上の相違を低減して目標声質を高度に再現する観点から、第1実施形態の成分配置部52は、複数の単位帯域成分U(n)の各々を、音高調整前のスペクトルR0(k)のうち当該単位帯域成分U(n)に対応する周波数成分の近傍に位置するように、音高調整後の基本周波数PXに対応する各調波周波数H(n)に配置することで再配置スペクトルS(k)を生成する。すなわち、第n番目の単位帯域成分U(n)は、目標音声信号rA(t)のスペクトルR0(k)の第n次の調波周波数の近傍に配置される。以上に例示した再配置の結果、再配置前のスペクトルR(k)と比較して目標声質のスペクトルR0(k)に形状が近似する基本周波数PXの再配置スペクトルS(k)が生成される。
具体的には、例えば音声信号x(t)の基本周波数PXが目標音声信号rA(t)の基本周波数PRを下回る場合、図3に例示される通り、第1番目の単位帯域成分U(1)は、音高調整前の目標音声信号rA(t)の基本周波数PRの近傍に位置する調波周波数H(1)に配置され、第2番目の単位帯域成分U(2)は、音高調整前の目標音声信号rA(t)の第2次の倍音周波数2PRの近傍に位置する調波周波数H(2)および調波周波数H(3)に反復的に配置される。第3番目の単位帯域成分U(3)は、目標音声信号rA(t)の第3次の倍音周波数3PRの近傍に位置する調波周波数H(4)に配置される。以上の例示から理解される通り、音声信号x(t)の基本周波数PXが目標音声信号rA(t)の基本周波数PRを下回る場合(λ<1)には、各単位帯域成分U(n)が適宜に反復(複製)されて周波数軸上に配列される。他方、基本周波数PXが基本周波数PRを上回る場合(λ>1)には、各単位帯域成分U(n)が適宜に間引かれて周波数軸上に配列される。
以上のように各単位帯域成分U(n)の反復や間引を考慮して、以下の説明では、成分配置部52による再配置後の各単位帯域成分U(n)の番号nを低域側から順番の番号(インデックス)mに更新する。具体的には、番号mは以下の数式(1)で表現される。
Figure 0006428256

数式(1)の記号〈 〉は床関数を意味する。すなわち、関数〈x+0.5〉は、数値xを四捨五入した整数を算定する演算である。以上の説明から理解される通り、周波数軸上に配列された複数の単位帯域成分U(m)で構成される再配置スペクトルS(k)が生成される。再配置スペクトルS(k)の任意の1個の単位帯域成分U(m)は、調波周波数H(m)から調波周波数H(m+1)までの帯域成分である。
図2の成分調整部54は、成分配置部52による再配置後の各単位帯域成分U(m)の成分値(振幅および位相)を音声信号x(t)のスペクトルX(k)の成分値に応じて調整することで中間スペクトルY0(k)を生成する。具体的には、第1実施形態の成分調整部54は、成分配置部52が生成した再配置スペクトルS(k)を適用した以下の数式(2)の演算で中間スペクトルY0(k)を算定する。数式(2)の記号jは虚数単位である。
Figure 0006428256
数式(2)の変数g(m)は、再配置スペクトルS(k)の各単位帯域成分U(m)の振幅を音声信号x(t)のスペクトルX(k)の振幅に応じて調整するための補正値(ゲイン)であり、以下の数式(3)で表現される。
Figure 0006428256

数式(3)の記号AH(m)は、単位帯域成分U(m)のうち調波周波数H(m)の成分の振幅であり、記号AX(m)は、音声信号x(t)のうち調波周波数H(m)の成分の振幅である。任意の1個の単位帯域成分U(m)内の各周波数の振幅の補正に共通の補正値g(m)が適用される。以上に説明した補正値g(m)により、単位帯域成分U(m)のうち調波周波数H(m)での振幅AH(m)が音声信号x(t)の調波周波数H(m)での振幅AX(m)に補正される。
他方、数式(2)の記号θ(m)は、再配置スペクトルS(k)の各単位帯域成分U(m)の位相を音声信号x(t)のスペクトルX(k)の位相に応じて調整するための補正値(移相量)であり、以下の数式(4)で表現される。
Figure 0006428256

数式(4)の記号φH(m)は、単位帯域成分U(m)のうち調波周波数H(m)の成分の位相であり、記号φX(m)は、音声信号x(t)のうち調波周波数H(m)の成分の位相である。任意の1個の単位帯域成分U(m)内の各周波数の位相の補正に共通の補正値θ(m)が適用される。以上に説明した補正値θ(m)により、図3に例示される通り、単位帯域成分U(m)のうち調波周波数H(m)での位相φH(m)が音声信号x(t)の調波周波数H(m)での位相φX(m)に補正され、単位帯域成分U(m)の各周波数の位相が補正値θ(m)に応じた同等の移相量だけ変化する。
以上の説明から理解される通り、第1実施形態では、調波周波数H(m)を境界として各単位帯域成分U(m)が画定されるから、数式(2)による成分値(振幅や位相)の調整の前後で、各調波周波数H(m)の間の非調波成分における成分値の連続性は保持される。他方、成分配置部52による各単位帯域成分U(m)の再配置と成分調整部54による単位帯域成分U(m)毎の成分値の補正とに起因して、各調波周波数H(m)では、図3に位相について例示される通り、数式(2)による補正後に成分値の不連続が発生し得る。再配置スペクトルS(k)の各調波周波数H(m)には調波成分が存在するから、各調波周波数H(m)での成分値の不連続により再生音が聴感的に不自然な印象になる可能性がある。
以上に詳述した各調波周波数H(m)での成分値の不連続を抑制する観点から、第1実施形態の成分調整部54は、図3に位相について例示される通り、数式(2)の演算で生成された中間スペクトルY0(k)のうち各調波周波数H(m)を含む特定の周波数帯域(以下「特定帯域」という)B(m)について音声信号x(t)のスペクトルX(k)の成分値を適用することで変換スペクトルY(k)を生成する。具体的には、中間スペクトルY0(k)のうち各特定帯域B(m)の成分値を、音声信号x(t)のスペクトルX(k)のうち当該特定帯域B(M)の成分値に置換することで変換スペクトルY(k)を生成する。特定帯域B(m)は、典型的には調波周波数H(m)を中心とする周波数帯域である。各特定帯域B(m)の帯域幅は、中間スペクトルY0(k)の各調波周波数H(m)に対応するピークを内包するように実験的または統計的に事前に選定される。以上に説明した単位帯域成分U(m)毎の成分値の補正と特定帯域B(m)内の成分値の置換とにより単位区間毎に生成された変換スペクトルY(k)が波形生成部36に順次に供給されて時間領域の音声信号y(n)に変換される。
前述の通り、周波数軸上で相互に隣合う各調波周波数H(n)の間の地点(例えば各調波周波数H(n)の中点)を境界として目標音声信号rB(t)のスペクトルR(k)を複数の単位帯域成分U(n)に区分する構成では、非調波成分の成分値が周波数軸上で不連続となる。非調波成分の強度が充分に低い通常の音声の生成を前提とすれば、以上の不連続は受聴者に殆ど知覚されないが、濁声や嗄れ声等の特徴的な音声は非調波成分を豊富に含有するから、非調波成分における成分値の不連続が顕在化し、聴感的に不自然な音声と知覚される可能性がある。以上の構成とは対照的に、第1実施形態では、各調波周波数H(n)を境界として目標音声信号rB(t)のスペクトルR(k)が複数の単位帯域成分U(n)に区分されるから、単位帯域成分U(n)毎の成分値の補正後に、非調波成分の周波数における成分値の不連続が発生しない。したがって、第1実施形態によれば、非調波成分を優勢に含有する声質で聴感的に自然な音声を生成できるという利点がある。
他方、各調波周波数H(n)を境界として複数の単位帯域成分U(n)を画定する構成では、調波周波数H(n)での成分値の不連続が問題となり得る。第1実施形態では、調波周波数H(m)を含む特定帯域B(m)については音声信号x(t)のスペクトルX(k)の成分値が流用されるから、各調波周波数H(m)を境界として各単位帯域成分U(n)を画定する構成にも関わらず、調波周波数H(n)での成分値の不連続を回避できるという利点がある。
また、第1実施形態では、成分配置部52による再配置後の各単位帯域成分U(m)のうち調波周波数H(m)での成分値(AH(m),φH(m))が音声信号x(t)のスペクトルX(k)の当該調波周波数H(m)での成分値(AX(m),φX(m))に合致するように各単位帯域成分U(m)の成分値が調整されるから、音声信号x(t)の音韻を高度に維持した音声信号y(t)を生成できるという利点がある。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図4には、音高調整部42により基本周波数PXに調整された目標音声信号rB(t)の時間波形と、基本周波数PXの音声信号x(t)の時間波形とが併記されている。図4に例示される通り、目標音声信号rB(t)および音声信号x(t)には、基本周波数PXに対応する基本周期TX(TX=1/PX)毎に時間波形のピークτが観測される。なお、濁声や嗄れ声等の特徴的な音声の目標音声信号rB(t)には、高強度のピークτと低強度のピークτとが基本周期TX毎に交互に発生し、通常の音声の音声信号x(t)には、略同等の強度のピークτが基本周期TX毎に発生する、という傾向がある。
図4に例示される通り、第2実施形態の周波数解析部44(第1周波数解析手段)は、目標音声信号rB(t)の時間軸上のピークτを検出し、各ピークτに対応する分析窓WAにより目標音声信号rB(t)を区分した単位区間毎にスペクトルR(k)を算定する。同様に、周波数解析部32(第2周波数解析手段)は、音声信号x(t)の時間軸上のピークτを検出し、各ピークτに対応する分析窓WBにより音声信号x(t)を区分した単位区間毎にスペクトルX(k)を算定する。目標音声信号rB(t)の各ピークτに対する分析窓WAの位置関係と、音声信号x(t)の各ピークτに対する分析窓WBの位置関係とは共通する。具体的には、各ピークτを中心として分析窓WAおよび分析窓WBが設定される。各ピークτの検出には公知の技術が任意に採用され得る。例えば信号強度が極大となる複数の時点のうち基本周期TXを間隔とする各時点をピークτとして検出することが可能である。
図5は、時間軸上の各ピークτに対する分析窓の位置関係を目標音声信号rB(t)と音声信号x(t)とで相違させた構成(以下「対比例」という)のもとで生成される音声信号y(t)の波形図である。図5には発声者が実際に発声した嗄れ声の時間波形(自然音声)も併記されている。図5から理解される通り、対比例で生成される音声信号y(t)は、実際の嗄れ声と比較して時間軸上の波形のピークが曖昧な波形となり、結果的に自然音声とは相違する違和感のある音声と知覚される場合がある。以上の波形の相違の原因のひとつは、各周波数成分の位相(位相スペクトル)の相違である。具体的には、各周波数成分の位相が目標音声信号rB(t)と音声信号x(t)とで本来的に相違することも音声信号y(t)の波形の曖昧性の原因となり得るが、実際には、目標音声信号rB(t)に対する分析窓の時間軸上の位置と音声信号x(t)に対する分析窓の時間軸上の位置とが相違することが、音声信号y(t)の波形の曖昧性の支配的な原因として想定される。
第2実施形態では、図4を参照して前述した通り、目標音声信号rB(t)の各ピークτに対する分析窓WAの位置関係と、音声信号x(t)の各ピークτに対する分析窓WBの位置関係とが共通する。したがって、分析窓の位置の相違に起因した音声信号y(t)の波形の曖昧性が低減される。すなわち、第2実施形態によれば、図5に例示された自然音声のように基本周期TX毎に顕著なピークが観測される自然な嗄れ声の音声信号y(t)を生成できるという利点がある。なお、調波周波数H(m)を境界として各単位帯域成分U(m)を画定する第1実施形態の構成は第2実施形態にとって必須ではない。すなわち、第2実施形態では、例えば、周波数軸上で相互に隣合う各調波周波数H(m)の間の地点(例えば各調波周波数H(m)の中点)を境界として各単位帯域成分U(m)を画定することも可能である。
<第3実施形態>
前掲の数式(2)および数式(4)から理解される通り、第1実施形態では、任意の1個の単位帯域成分U(m)内の全周波数にわたる位相を共通の補正量(移相量)θ(m)だけ変化させる(すなわち、単位帯域成分U(m)の位相スペクトルを位相軸の方向に平行移動する構成)構成を例示した。以上の構成では、補正値θ(m)を適用した移相による時間軸上の移動量は単位帯域成分U(m)内の周波数毎に相違するから、目標音声信号rB(t)の時間波形が変化する可能性がある。
以上の事情を考慮して、第3実施形態の成分調整部54は、成分配置部52による配置後の各単位帯域成分U(m)に包含される各周波数成分の時間軸上の移動量が一定となるように、単位帯域成分U(m)内の周波数毎に相異なる補正値θ(m,k)を設定する。具体的には、成分調整部54は、以下の数式(5)の演算で位相の補正値θ(m,k)を算定する。数式(5)から理解される通り、第3実施形態の補正値θ(m,k)は、周波数に依存する係数δkを第1実施形態の補正値θ(m)に乗算した数値である。
Figure 0006428256
数式(5)の記号fkは、周波数軸上の第k番目の周波数を意味する。補正値θ(m,k)の算定に適用される係数δkは、第m番目の調波周波数H(m)(すなわち単位帯域成分U(m)の帯域左端の周波数fk)に対する単位帯域成分U(m)内の各周波数fkの比率として定義される。すなわち、図6から理解される通り、単位帯域成分U(m)内の高域側ほど補正値θ(m,k)は増加し、結果的に単位帯域成分U(m)内の各周波数成分の時間軸上の移動量は一定となる。したがって、第3実施形態によれば、時間軸上の移動量が単位帯域成分U(m)の周波数毎に相違することに起因した目標音声信号rB(t)の時間波形の変化が抑制され、目標音声信号rB(t)(さらには目標音声信号rA(t))の声質を忠実に再現した音声信号y(t)を生成できるという利点がある。なお、第3実施形態を第2実施形態に適用することも可能である。
<変形例>
以上に例示した形態は多様に変形される。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、基本周波数PRの目標音声信号rA(t)を時間領域でリサンプリングすることで基本周波数PXの目標音声信号rB(t)を生成したが、目標音声信号rA(t)のスペクトルR0(k)を周波数領域で周波数軸の方向に伸縮することで基本周波数PXのスペクトルR(k)を生成することも可能である。
(2)前述の各形態では、再配置スペクトルS(k)の振幅および位相の双方を補正したが、振幅および位相の一方のみを調整することも可能である。すなわち、成分調整部54による調整対象となる成分値は振幅および位相の少なくとも一方である。振幅のみを調整する構成では、目標音声信号rB(t)の振幅スペクトルをスペクトルR(k)として算定し、位相のみを調整する構成では、目標音声信号rB(t)の位相スペクトルをスペクトルR(k)として算定することも可能である。
(3)前述の各形態では、特定帯域B(m)の帯域幅を所定値に設定したが、特定帯域B(m)の帯域幅の設定方法は適宜に変更される。例えば、音声信号y(t)の変換スペクトルY(k)における振幅の不連続を抑制するという観点からすると、再配置スペクトルS(k)のうち振幅が極小となる周波数を端点として特定帯域B(m)を設定する構成が好適である。また、単位帯域成分U(m)の帯域幅に応じて特定帯域B(m)の帯域幅を可変に設定することも可能である。
(4)移動通信網やインターネット等の通信網を介して端末装置と通信するサーバ装置(典型的にはウェブサーバ)で音声処理装置100を実現することも可能である。具体的には、音声処理装置100は、端末装置から通信網を介して受信した音声信号x(t)から前述の各形態と同様の方法で音声信号y(t)を生成して端末装置に送信する。以上の構成によれば、音声信号x(t)の声質変換を代行するクラウドサービスを端末装置の利用者に提供することが可能である。なお、音声信号x(t)のスペクトルX(k)が端末装置から音声処理装置100に送信される構成(例えば端末装置が周波数解析部32を具備する構成)では音声処理装置100から周波数解析部32が省略される。また、変換スペクトルY(k)を音声処理装置100から端末装置に送信する構成(例えば端末装置が波形生成部36を具備する構成)では音声処理装置100から波形生成部36が省略される。
100……音声処理装置、12……外部機器、14……放音機器、22……演算処理装置、24……記憶装置、32……周波数解析部、34……変換処理部、36……波形生成部、42……音高調整部、44……周波数解析部、46……声質変換部、52……成分配置部、54……成分調整部。

Claims (4)

  1. 目標声質の音声を表す第1音声信号の第1基本周波数を、前記目標声質とは相違する初期声質の音声を表す第2音声信号の第2基本周波数に調整する音高調整手段と、
    前記音高調整手段による調整後の第1音声信号のスペクトルを前記第2基本周波数に対応する各調波周波数で区分した複数の単位帯域成分の各々を、前記音高調整手段による調整前の第1音声信号のスペクトルのうち当該単位帯域成分に対応する成分の近傍に位置するように、前記第2基本周波数に対応する各調波周波数に配置する成分配置手段と、
    前記成分配置手段による配置後の各単位帯域成分の成分値を前記第2音声信号のスペクトルの成分値に応じて調整するとともに、前記第2基本周波数に対応する前記各調波周波数を含む各特定帯域については前記第2音声信号のスペクトルの成分値を適用することで、変換スペクトルを生成する成分調整手段と
    を具備する音声処理装置。
  2. 前記成分調整手段は、前記成分配置手段による配置後の各単位帯域成分のうち前記第2基本周波数に対応する調波周波数での成分値が、前記第2音声信号のスペクトルのうち当該調波周波数での成分値に合致するように、前記各単位帯域成分の成分値を調整する
    請求項1の音声処理装置。
  3. 前記成分値は位相を含み、
    前記成分調整手段は、前記成分配置手段による配置後の各単位帯域成分に包含される各周波数成分の時間軸上の移動量が一定となるように、当該単位帯域成分内の周波数毎に移相量を相違させる
    請求項1または請求項2の音声処理装置。
  4. 前記第2基本周波数に対応する基本周期で前記音高調整手段による調整後の第1音声信号に存在する時間波形のピークに対して所定の位置関係にある分析窓により前記第1音声信号を時間軸上で複数の単位区間に区分して当該単位区間毎にスペクトルを算定する第1周波数解析手段と、
    前記第2基本周波数に対応する基本周期で前記第2音声信号に存在する時間波形のピークに対して前所定の位置関係にある分析窓により前記第2音声信号を時間軸上で複数の単位区間に区分して当該単位区間毎にスペクトルを算定する第2周波数解析手段と
    を具備する請求項1から請求項3の何れかの音声処理装置。
JP2014263512A 2014-12-25 2014-12-25 音声処理装置 Expired - Fee Related JP6428256B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014263512A JP6428256B2 (ja) 2014-12-25 2014-12-25 音声処理装置
US14/980,517 US9865276B2 (en) 2014-12-25 2015-12-28 Voice processing method and apparatus, and recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014263512A JP6428256B2 (ja) 2014-12-25 2014-12-25 音声処理装置

Publications (2)

Publication Number Publication Date
JP2016122157A JP2016122157A (ja) 2016-07-07
JP6428256B2 true JP6428256B2 (ja) 2018-11-28

Family

ID=56164969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014263512A Expired - Fee Related JP6428256B2 (ja) 2014-12-25 2014-12-25 音声処理装置

Country Status (2)

Country Link
US (1) US9865276B2 (ja)
JP (1) JP6428256B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6300328B2 (ja) * 2016-02-04 2018-03-28 和彦 外山 環境音生成装置及びそれを用いた環境音生成システム、環境音生成プログラム、音環境形成方法及び記録媒体
US20190362737A1 (en) * 2018-05-25 2019-11-28 i2x GmbH Modifying voice data of a conversation to achieve a desired outcome

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3697699A (en) * 1969-10-22 1972-10-10 Ltv Electrosystems Inc Digital speech signal synthesizer
US3703609A (en) * 1970-11-23 1972-11-21 E Systems Inc Noise signal generator for a digital speech synthesizer
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
JP3907027B2 (ja) * 1998-06-23 2007-04-18 ヤマハ株式会社 音声変換装置および音声変換方法
JP4286405B2 (ja) * 1999-10-21 2009-07-01 ヤマハ株式会社 信号分析装置および信号分析方法
JP3718642B2 (ja) * 2001-06-12 2005-11-24 エタニ電機株式会社 音響機器、音響空間、電気信号伝送線路等の伝達特性測定方法
WO2006070768A1 (ja) * 2004-12-27 2006-07-06 P Softhouse Co., Ltd. オーディオ波形処理装置、方式およびプログラム
JP5098569B2 (ja) * 2007-10-25 2012-12-12 ヤマハ株式会社 帯域拡張再生装置
JP2009244705A (ja) * 2008-03-31 2009-10-22 Brother Ind Ltd ピッチシフトシステムおよびプログラム
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
WO2011004579A1 (ja) * 2009-07-06 2011-01-13 パナソニック株式会社 声質変換装置、音高変換装置および声質変換方法
US20110125494A1 (en) * 2009-11-23 2011-05-26 Cambridge Silicon Radio Limited Speech Intelligibility
JP5039865B2 (ja) * 2010-06-04 2012-10-03 パナソニック株式会社 声質変換装置及びその方法
JP5716595B2 (ja) * 2011-01-28 2015-05-13 富士通株式会社 音声補正装置、音声補正方法及び音声補正プログラム
US9520144B2 (en) * 2012-03-23 2016-12-13 Dolby Laboratories Licensing Corporation Determining a harmonicity measure for voice processing
JP5772739B2 (ja) 2012-06-21 2015-09-02 ヤマハ株式会社 音声処理装置
US9396740B1 (en) * 2014-09-30 2016-07-19 Knuedge Incorporated Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes

Also Published As

Publication number Publication date
JP2016122157A (ja) 2016-07-07
US20160189725A1 (en) 2016-06-30
US9865276B2 (en) 2018-01-09

Similar Documents

Publication Publication Date Title
JP5341128B2 (ja) 補聴器における安定性の改善
US8271292B2 (en) Signal bandwidth expanding apparatus
CN103999487A (zh) 听觉装置的稳定性和语音可听性改进
US9855893B2 (en) Generating an audio signal with a configurable distance cue
JP4738213B2 (ja) 利得調整方法及び利得調整装置
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
WO2014129233A1 (ja) 音声強調装置
US11727949B2 (en) Methods and apparatus for reducing stuttering
JP6428256B2 (ja) 音声処理装置
WO2019172397A1 (ja) 音処理方法、音処理装置および記録媒体
US8492639B2 (en) Audio processing apparatus and method
JP2016134706A (ja) ミキシング装置、信号ミキシング方法、及びミキシングプログラム
JP2012022166A (ja) 音声処理装置、音声処理方法および電話装置
JP2006017946A (ja) 音声処理装置およびプログラム
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
US20090222268A1 (en) Speech synthesis system having artificial excitation signal
JP2011227256A (ja) 信号補正装置
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
JP2010151965A (ja) 音声処理装置、及び、音声処理方法
JP2018072723A (ja) 音響処理方法および音響処理装置
Mu Perceptual quality improvement and assessment for virtual bass system
JP6409417B2 (ja) 音響処理装置
JP6337698B2 (ja) 音響処理装置
JP5745453B2 (ja) 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
JP6011039B2 (ja) 音声合成装置および音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181015

R151 Written notification of patent or utility model registration

Ref document number: 6428256

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees