JP2010191042A - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP2010191042A
JP2010191042A JP2009033641A JP2009033641A JP2010191042A JP 2010191042 A JP2010191042 A JP 2010191042A JP 2009033641 A JP2009033641 A JP 2009033641A JP 2009033641 A JP2009033641 A JP 2009033641A JP 2010191042 A JP2010191042 A JP 2010191042A
Authority
JP
Japan
Prior art keywords
phase
component
frequency spectrum
frequency
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009033641A
Other languages
English (en)
Inventor
Yasuo Yoshioka
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2009033641A priority Critical patent/JP2010191042A/ja
Publication of JP2010191042A publication Critical patent/JP2010191042A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】喉詰声の特性を音声信号に付与する。
【解決手段】ピーク検出部34は、音声信号VINの周波数スペクトルFから局所的ピークPkを検出する。成分生成部40は効果成分Ckを生成する。効果成分Ckの位相φ(fk)は、局所的ピークPkの位相θ(fk)を、経時的に変化する調整値X(fk)と逆位相を意味するπだけ変化させた位相に設定される。効果成分Ckの振幅a(fk)は、局所的ピークPkの振幅A(fk)に応じて設定される。特性付与部50は、周波数スペクトルFのうち局所的ピークPkの周波数fkに効果成分Ckを付加する。
【選択図】図1

Description

本発明は、音声信号を処理する技術に関する。
音声信号の周波数スペクトルを加工することで様々な効果を付与する技術が従来から提案されている。例えば特許文献1には、音声信号の周波数スペクトルにおける各局所的ピークの間隔内に所定の成分(例えば正弦波成分)を付加することで、軋み音(CREAK)や唸り音(GROWL)の効果を付与する効果付与装置が開示されている。
特開2006−10906号公報
特許文献1の技術によれば、音声信号に軋み音や唸り音の特性を付与することが可能であるが、現実の応用の場面では更に多様な種類の音声を生成することが要求される。例えば、喉を詰めて発声したような音声(以下「喉詰声」という)の特性を音声信号に付与できれば、いわゆるダミ声のような独特の印象の音声や喉歌の歌唱音を生成することが可能となる。以上の事情を考慮して、本発明は、喉詰声の特性を音声信号に付与することを目的とする。
以上の課題を解決するために、本発明に係る音声処理装置は、音声信号の周波数スペクトルから局所的ピークを検出するピーク検出手段と、局所的ピークの位相を変化させた位相に設定されるとともに当該局所的ピークの周波数に位置する効果成分を生成する成分生成手段と、周波数スペクトルに効果成分を付加する特性付与手段とを具備する。以上の構成においては、局所的ピークの位相を変化させた位相の効果成分が周波数スペクトルのうち局所的ピークの周波数に付加されるから、声帯と仮声帯とが略同等の周期のもとで別位相で振動する状態に起因した喉詰声の特性を音声信号(周波数スペクトル)に付加することが可能である。
本発明の好適な態様において、ピーク検出手段は、周波数スペクトルから複数の局所的ピークを特定し、成分生成手段は、複数の局所的ピークの各々について、当該局所的ピークの位相を変化させた位相に設定されるとともに当該局所的ピークの周波数に位置する効果成分を生成し、特性付与手段は、周波数スペクトルに複数の効果成分を付加する。以上の態様においては、音声信号の周波数スペクトルに複数の効果成分が付加されるから、例えば1個の効果成分のみを音声信号の周波数スペクトルに付加する構成と比較すると、現実の喉詰声に近い特性を音声信号に付加できるという利点がある。
本発明の好適な態様において、成分生成手段は、効果成分の振幅を周波数スペクトルの局所的ピークの振幅に応じて設定する。例えば、効果成分の振幅は、周波数スペクトルの局所的ピークの振幅や、局所的ピークの振幅から所定の演算で算定した数値に設定される。以上の構成によれば、効果成分の振幅が局所的ピークの振幅に応じて設定されるから、効果成分の付与の前後にわたる周波数スペクトルの特性(特にフォルマントの特性や調波構造)の変化を低減できる(効果成分の付与前の特性を高度に維持できる)という利点がある。
本発明の好適な態様において、成分生成手段は、局所的ピークの位相をπだけ変化させることで効果成分の位相を設定する。以上の態様においては、声帯と仮声帯とが略逆位相で振動する状態に起因した典型的な喉詰声の特性を付与できるという利点がある。なお、局所的ピークの位相をπだけ変化させることで効果成分の位相を設定する構成は、成分生成手段が局所的ピークの位相をπだけ変化させる処理のみを実行する構成のほか、局所的ピークの位相をπだけ変化させる処理に加えて別の方法で位相を変化させる処理(例えば、経時的に変動する調整値に応じて局所的ピークの位相を変化させる処理)を実行する構成も包含する。
本発明の好適な態様において、成分生成手段は、経時的に変動する調整値に応じて局所的ピークの位相を変化させることで、効果成分の位相を設定する。以上の態様においては、仮声帯の振動の周期が経時的に変動するという現象に起因した喉詰声の特性を忠実に再現できる。さらに好適な態様の音声処理装置は、乱数の範囲を可変に設定する制御手段(例えば第3実施形態の制御部64)を具備し、成分生成手段は、制御手段が設定した範囲内で発生した乱数から調整値を算定する。以上の好適な態様においては、調整値(更には効果成分の位相)の基礎となる乱数の範囲が可変に設定されるから、音声信号に付加される喉詰声の特性の度合を可変に制御できるという利点がある。例えば、利用者からの指示に応じて制御手段が乱数の範囲を可変に設定する構成によれば、喉詰声の特性の度合を利用者が適宜に調整できるという格別の効果が実現される。
本発明の好適な態様に係る音声処理装置は、混合比を可変に設定する制御手段(例えば図1や図8の制御部64)を具備し、特性付与手段は、周波数スペクトルと効果成分とを当該混合比で混合する。以上の態様においては、周波数スペクトルと効果成分との混合比が可変に設定されるから、音声信号に付加される喉詰声の特性の度合を可変に制御できるという利点がある。例えば、利用者からの指示に応じて制御手段が混合比を可変に設定する構成(例えば後述の第1実施形態)によれば、喉詰声の特性の度合を利用者が適宜に調整できるという効果が実現される。また、音声信号の特性(例えば音量や音高)に応じて制御手段が混合比を可変に設定する構成(例えば後述の第4実施形態)によれば、音声信号に付加される喉詰声の程度を、音声信号の特性にとって適切な度合に自動的に(すなわち、利用者からの指示を必要とせずに)制御できるという利点がある。
また、以上の各態様に係る音声処理装置は、音声信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声信号の周波数スペクトルから局所的ピークを検出するピーク検出処理と、局所的ピークの位相を変化させた位相に設定されるとともに当該局所的ピークの周波数に位置する効果成分を生成する成分生成処理と、周波数スペクトルに効果成分を付加する特性付与処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音声処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音声処理装置のブロック図である。 周波数スペクトルと特性スペクトルとの関係を示す概念図である。 声帯の振動と仮声帯の振動との関係を示す概念図である。 生成処理部のブロック図である。 特性付与部のブロック図である。 本発明の第2実施形態における周波数スペクトルと付加スペクトルとの関係を示す概念図である。 位相の変化を説明するための概念図である。 本発明の第4実施形態に係る音声処理装置のブロック図である。 音声信号の音量と調整部のゲインとの関係を示すグラフである。 音声信号のピッチと調整部のゲインとの関係を示すグラフである。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100のブロック図である。図1に示すように、音声処理装置100には、信号供給装置12と放音機器14と入力装置16とが接続される。信号供給装置12は、音声の波形を表す音声信号VINを音声処理装置100に供給する。例えば、周囲の音声を収音して音声信号VINを生成する収音機器や、記録媒体(例えば光ディスク)から音声信号VINを取得する再生装置や、通信網から音声信号VINを受信する通信装置が、信号供給装置12として利用される。音声信号VINは、発声者の声帯の振動に主に由来する音声(すなわち、仮声帯の振動に起因した成分が少ない音声)の波形を表す。
音声処理装置100は、喉詰声の特性を音声信号VINに付与した音声信号VOUTを生成する装置(効果付与装置)である。すなわち、音声信号VINの音声は喉詰声(ダミ声)に変換される。喉詰声は、発声時に喉を詰めることで声帯とともに仮声帯を振動させたときの音声である。音声処理装置100は、仮声帯の振動の特性(後述の付加スペクトルE)を音声信号VINに付加することで音声信号VOUTを生成する。音声処理装置100が生成した音声信号VOUTは、放音機器(例えばスピーカやヘッドホン)14に供給されることで音波として再生される。入力装置16は、音声処理装置100に対する指示の入力のために利用者が操作する操作子で構成される。
図1に示すように、音声処理装置100は、演算処理装置22と記憶装置24とで構成されるコンピュータシステムである。記憶装置24は、演算処理装置22が実行するプログラム26や演算処理装置22が使用するデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置24として任意に採用される。
演算処理装置22は、記憶装置24に格納されたプログラム26を実行することで、音声信号VINから音声信号VOUTを生成するための複数の機能(周波数分析部32,ピーク検出部34,成分生成部40,特性付与部50,逆変換部62,制御部64)を実現する。なお、演算処理装置22の各要素を複数の装置(集積回路)に分散的に搭載した構成や、音声信号VINの処理に専用される電子回路(DSP)が各要素を実現する構成も採用される。
図1の周波数分析部32は、音声信号VINを時間軸上で区分した複数のフレームの各々について周波数スペクトルF(振幅スペクトルおよび位相スペクトル)を生成する。周波数スペクトルFの生成には、高速フーリエ変換などの公知の技術が任意に採用される。図2に示すように、各フレームの周波数スペクトルFのうち基音と各倍音とに対応した周波数f1〜fnには、振幅(強度)が局所的に極大となるn個のピーク(以下「局所的ピーク」という)P1〜Pnが存在する。音声信号VINの音声は、仮声帯の振動に由来した成分が少ない音声(非喉詰声)であるから、周波数スペクトルFの主要な成分は、発声者の声帯の振動に由来する。
図1のピーク検出部34は、各フレームの周波数スペクトルFからn個の局所的ピークP1〜Pnを検出する。更に詳述すると、ピーク検出部34は、図2に示すように、局所的ピークPk(k=1〜n)が存在する周波数fkと、当該周波数fkにおける振幅A(fk)および位相θ(fk)とを、n個の局所的ピークP1〜Pnの各々について特定する。局所的ピークPkの検出には公知の技術が任意に採用される。
図1の成分生成部40は、音声信号VINに付加する特性(効果)を表すスペクトル(以下「付加スペクトル」という)Eをピーク検出部34による検出の結果からフレーム毎に生成する。具体的には、付加スペクトルEは、喉詰声の発声時における仮声帯の振動を模擬したスペクトルに相当する。
図3は、喉詰声の発声時における声帯の振動および仮声帯の振動の波形図である。図3から理解されるように、喉詰声の発声時には、仮声帯の振動の周期は声帯の振動と略一致するが、仮声帯の振動の位相は声帯の振動とは相違することが観察される。具体的には、仮声帯は、声帯の振動とは略逆位相(位相差π)で振動する。成分生成部40は、仮声帯の以上の特性が模擬されるように付加スペクトルEを生成する。
図2に示すように、付加スペクトルEは、各局所的ピークPkに対応するn個の効果成分C1〜Cnで構成される。喉詰声の発声時に仮声帯と声帯とが略同等の周期で振動することが模擬されるように、第k番目の効果成分Ckは、周波数スペクトルFの局所的ピークPkと同じ周波数fkに配置される。また、効果成分Ckの振幅a(fk)は、周波数スペクトルFのうち周波数fkにおける振幅A(fk)(すなわち、局所的ピークPkの極大点の振幅)に設定される。他方、効果成分Ckの位相φ(fk)は、局所的ピークPkにおける位相θ(fk)を変化させた数値に設定される。具体的には、喉詰声の発声時に仮声帯と声帯とが略逆位相で振動することが模擬されるように、効果成分Ckの位相φ(fk)は、局所的ピークPkの位相θ(fk)をπ(rad)だけ変化させた位相と略一致する。
図4は、成分生成部40の具体的なブロック図である。図4に示すように、成分生成部40は、乱数発生部42と位相設定部44と生成処理部46とを含んで構成される。乱数発生部42は、所定の範囲内の乱数λ(例えば−0.05≦λ≦+0.05)を音声信号VINのフレーム毎に順次に発生する。なお、乱数λの発生の周期は任意に変更される。例えば、乱数発生部42は、複数のフレームを単位として乱数λを発生し得る。
位相設定部44は、効果成分Ckの位相φ(fk)をn個の周波数f1〜fnの各々について設定する。具体的には、位相設定部44は、周波数スペクトルFにおける局所的ピークPkの位相θ(fk)について以下の数式(1)の演算を実行することで効果成分Ckの位相φ(fk)を算定する。
φ(fk)=θ(fk)+X(fk)+π ……(1)
数式(1)から理解されるように、効果成分Ckの位相φ(fk)は、局所的ピークPkの位相θ(fk)を、調整値X(fk)とπとの加算値だけ変化させた位相に相当する。位相θ(fk)に対するπ(rad)の加算が、声帯の振動(位相θ(fk))を逆位相に変化させる(仮声帯の振動の位相を模擬する)ことに相当する。
ところで、仮声帯の振動は声帯の振動と比較して不安定である。したがって、仮声帯の振動の周期は完全には一定ではなく、声帯の振動のピッチ周期(基本周波数に対応する周期)Tを中心として不規則に変動する。数式(1)の調整値X(fk)は、仮声帯の位相(周期)の変動(揺れ)を模擬するための変数である。位相設定部44は、例えば以下の数式(2a)の演算を実行することで調整値X(fk)を算定する。数式(2a)の負号(−)は正号(+)に変更され得る。
X(fk)=−D・2π・fk ……(2a)
数式(2a)の変数Dは、仮声帯の振動の周期(前述のように刻々と変化する)を意味する。位相設定部44は、乱数発生部42が発生する乱数λと音声信号VINのピッチ(基本周波数)PTとについて以下の数式(2b)の演算を実行することで数式(2a)の変数Dを算定する。なお、ピッチPTの検出には公知の技術が任意に採用されるが、例えば、周波数スペクトルFのうち局所的ピークP1の周波数(基本周波数)f1をピッチPT(PT=1/T)として利用できる。
D=(1+λ)/PT ……(2b)
数式(2a)および数式(2b)から理解されるように、調整値X(fk)は、音声信号VINのピッチ周期Tに対応する基準値(T・2π・fk)を中心とする範囲内で乱数λに応じて刻々と変動する。
図4の生成処理部46は、位相設定部44が設定した位相φ(fk)とピーク検出部34が特定した振幅A(fk)(a(fk))とを有するスペクトル成分を効果成分Ckとして生成し、n個の効果成分C1〜Cnを周波数f1〜fnに配置することで付加スペクトルEを設定する。例えば、位相φ(fk)および振幅a(fk)の正弦波のスペクトル成分が効果成分Ckとして好適に利用される。ただし、効果成分Ckの生成に利用されるスペクトル成分の種類は任意である。例えば、任意の周期波形(正弦波,三角波,鋸歯状波,矩形波など)のスペクトル成分や、事前に収録された音声のスペクトル成分が効果成分Ckの生成に利用され得る。
図1の特性付与部50は、周波数分析部32が各フレームについて生成する周波数スペクトルFに、成分生成部40が当該フレームについて生成する付加スペクトルEを付加することで、出力スペクトルGを生成する。周波数スペクトルFは声帯の振動に由来したスペクトルであり、付加スペクトルEは仮声帯の振動を模擬したスペクトルであるから、両者を混合した出力スペクトルGは、声帯および仮声帯の双方の振動で発生する喉詰声のスペクトルに相当する。
図5は、特性付与部50の具体的なブロック図である。図5に示すように、特性付与部50は、調整部52と合成部54とを含んで構成される。調整部52は、付加スペクトルEにゲインηを乗算することで各効果成分Ckの強度(周波数スペクトルFに対する付加スペクトルEの相対的な強度)を調整する。合成部54は、周波数分析部32が生成した周波数スペクトルFと調整部52による調整後の付加スペクトルE(効果成分C1〜Cn)とを加算することで出力スペクトルGを生成する。図1の制御部64は、入力装置16に対する利用者からの指示に応じて調整部52のゲインηを可変に制御する。したがって、利用者からの指示に応じた混合比(ゲインη)で周波数スペクトルFと付加スペクトルEとが混合される。
図1の逆変換部62は、特性付与部50が生成した各フレームの出力スペクトルGを逆フーリエ変換で時間領域の信号に変換し、各フレームの変換後の信号を時間軸上で相互に連結することで音声信号VOUTを生成する。音声信号VOUTは放音機器14に出力される。したがって、音声信号VINの音声を変換した喉詰声が放音機器14から音波として再生される。
以上の形態においては、音声信号VINの局所的ピークPkの位相θ(fk)を変化させた位相φ(fk)の効果成分Ck(C1〜Cn)が周波数スペクトルFのうち局所的ピークPkの周波数fkに付加されるから、声帯と仮声帯とが略同等の周期のもとで別位相(典型的には逆位相)で振動する状態に起因した喉詰声を忠実に再現することが可能である。特に、局所的ピークPkの位相θ(fk)をπだけ変化させる(数式(1))ことで効果成分Ckの位相φ(fk)が設定されるから、仮声帯が声帯と逆位相で振動する典型的な喉詰声を生成できる。さらに、乱数λから算定される調整値X(fk)に応じて効果成分Ckの位相φ(fk)が刻々と変動するから、仮声帯の振動の周期が不規則に変動するという現象も模擬した自然な喉詰声を生成できるという利点もある。
また、周波数スペクトルFと付加スペクトルEとの混合比(ゲインη)が利用者からの指示に応じて可変に制御されるから、再生音における喉詰声の特性の度合(喉詰声らしさ)を利用者が適宜に調整できるという利点がある。例えば、調整部52のゲインηを高目に設定するほど、再生音における喉詰声の特性(すなわち、受聴者が再生音から知覚する喉の詰まり具合)が強調されるといった具合である。
<B:第2実施形態>
本発明の第2実施形態について説明する。第1実施形態では、付加スペクトルEの効果成分Ckとして正弦波のスペクトル成分を利用した。第2実施形態においては、周波数スペクトルFから抽出されるスペクトル成分を効果成分Ckとして利用する。なお、以下の各形態において作用や機能が第1実施形態と同様である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
周波数スペクトルFのn個の局所的ピークP1〜Pnを検出すると、ピーク検出部34は、図6に示すように、周波数スペクトルFを局所的ピークPk毎にn個の成分(以下「単位成分」という)R1〜Rnに区分する。単位成分Rkは、局所的ピークPkの周波数fkと当該周波数fkの前後の周波数とを含む周波数帯域内のスペクトル成分である。例えば、周波数軸上で隣合う2個の局所的ピークPの中点を境界として各単位成分Rkが画定される。
成分生成部40は、周波数スペクトルFの単位成分Rkから付加スペクトルEの効果成分Ck(C1〜Cn)を生成する。図7の部分(A)は、単位成分Rkの位相スペクトルに相当し、図7の部分(B)は、効果成分Ckの位相スペクトルに相当する。図7の部分(B)には、図7の部分(A)の位相スペクトルが破線で併記されている。図7に示すように、成分生成部40は、単位成分Rkの各周波数における位相(局所的ピークPkの位相θ(fk)のほかに局所的ピークPkの前後の帯域内の位相を含む)に対し、位相の反転を意味するπと数式(2a)の調整値X(fk)とを加算することで、効果成分Ckを生成する。
したがって、効果成分Ckのうち局所的ピークPkの周波数fkにおける位相φ(fk)は、図6や図7に示すように、周波数スペクトルFの局所的ピークPkの位相θ(fk)を、数式(1)の定義の通り、調整値X(fk)とπとの加算に相当する変化量Δ(Δ=X(fk)+π)だけ変化させた数値となる。また、効果成分Ckのうち周波数fk以外の各周波数における位相も同様に、単位成分Rkの当該周波数の位相を変化量Δだけ変化させた数値となる。すなわち、効果成分Ckの位相スペクトルは、単位成分Rkの位相スペクトルを位相軸に沿って平行移動したスペクトルに相当する。他方、効果成分Ckの振幅や周波数帯域は単位成分Rkから変化しない。以上のように生成された効果成分C1〜Cnを周波数軸上に配列した付加スペクトルEが特性付与部50にて周波数スペクトルFに付加される。
以上の形態においても第1実施形態と同様の効果が実現される。更に、各局所的ピークPkに対応する単位成分Rk毎に周波数スペクトルFの位相を変化させる(略反転させる)ことで効果成分Ckが生成されるから、音声信号VINの音声の特性(フォルマントの特性や調波構造)が付加スペクトルEにて忠実に維持される。したがって、音声信号VINの特性を高度に維持した自然な喉詰声を生成できるという利点がある。
<C:第3実施形態>
本発明の第3実施形態について説明する。第1実施形態の制御部64は、入力装置16に対する操作に応じて調整部52のゲインηを可変に制御した。第3実施形態は、制御部64が可変に制御する変数を第1実施形態から変更または追加した形態である。
第1に、制御部64は、入力装置16に対する利用者からの操作に応じて乱数λの範囲を可変に制御する。成分生成部40(乱数発生部42)は、制御部64から指示される範囲内の乱数λを発生する。乱数λの範囲が広いほど、調整値X(fk)の増減の範囲が拡大して、付加スペクトルEにおける各位相φ(fk)の経時的な変化(周波数スペクトルFの位相θ(fk)との相違)が増加する。
位相φ(fk)の変化が過度に小さい場合(乱数λの範囲が狭い場合)、付加スペクトルEで模擬される仮声帯の位相の変動(揺れ)が極端に抑制されるから、再生音は人工的な喉詰声となる。他方、位相φ(fk)の変化が過度に大きい場合(乱数λの範囲が広い場合)、周波数スペクトルFで模擬される声帯の位相と付加スペクトルEで模擬される仮声帯の位相との相違が顕著となるから、現実の喉詰声から乖離した特性の再生音が生成される。利用者が入力装置16を操作して乱数λを適切な範囲に調整することで、喉詰声の特性を適度に付加した自然な喉詰声の生成が可能となる。
第2に、制御部64は、時間軸上の波形が相違する複数種のスペクトル成分(例えば、正弦波,三角波,鋸歯状波,矩形波)の何れかを入力装置16に対する操作に応じて選択する。成分生成部40(生成処理部46)は、制御部64が指示する種類のスペクトル成分から効果成分Ckを生成する。再生音の特性は、効果成分Ckの波形(スペクトル成分の周波数特性)に応じて変化する。したがって、利用者の所望の特性の喉詰声を生成できるという利点がある。なお、以上においては音声信号VINとは無関係のスペクトル成分を選択の候補として例示したが、第2実施形態の単位成分R1〜Rnも、効果成分Ckの生成のために選択されるスペクトル成分の候補として利用され得る。
第3に、制御部64は、付加スペクトルEを構成する効果成分Ckの個数m(m≦n)を利用者からの指示に応じて可変に設定する。効果成分Ckは局所的ピークPkに対応して生成されるから、効果成分Ckの個数mの指定は、周波数スペクトルFのうち付加スペクトルEの生成にとって有意な局所的ピークPkの個数mの指定と実質的には等価である。
成分生成部40(生成処理部46)は、制御部64から指示される個数mの効果成分C1〜Cmを生成して周波数軸上に配列することで付加スペクトルEを生成する。個数mが多いほど喉詰声の特性が強調され、個数mが少ないほど演算処理装置22による処理量が削減される。したがって、利用者が効果成分Ckの個数を適宜に調整することで、再生音における喉詰声の特性の度合と演算処理装置22の処理量との何れかを任意に優先させる(あるいは、両者を適度に両立させる)ことが可能となる。
なお、以上においては効果成分Ckの個数mを制御したが、効果成分Ck(局所的ピークPk)の周波数帯域を利用者からの指示に応じて制御部64が可変に設定する構成も採用される。成分生成部40は、制御部64から指示される周波数帯域内の効果成分Ckのみ(当該周波数帯域内の局所的ピークPkのみに対応する効果成分Ck)を生成する。すなわち、効果成分Ckの周波数帯域の制御は、効果成分Ckの個数mの制御と実質的に等価である。
以上の形態においては、喉詰声の特性の付与に適用される変数が利用者からの指示に応じて可変に制御されるから、利用者が希望する多様な特性の喉詰声を生成できるという利点がある。なお、利用者からの指示に応じて制御部64が制御する変数は以上の例示に限定されない。
<D:第4実施形態>
図8は、本発明の第4実施形態に係る音声処理装置100Aのブロック図である。図8に示すように、音声処理装置100Aは、第1実施形態の音声処理装置100に特徴抽出部66を追加した構成である。特徴抽出部66は、音声信号VINの音量Lを所定の期間毎(例えばフレーム毎)に順次に算定する。なお、特徴抽出部66に音声信号VINを入力する構成を図8では例示するが、周波数分析部32が生成した周波数スペクトルFから特徴抽出部66が音量Lを算定する構成(特徴抽出部66に周波数スペクトルFを入力する構成)も採用される。
制御部64は、特徴抽出部66が抽出した音量Lに応じて調整部52(特性付与部50)のゲインηを可変に設定する。図9は、音量Lとゲインηとの関係を示すグラフである。図9に示すように、制御部64は、概略的には、音量Lが大きいほどゲインηを大きい数値に設定する。更に詳述すると以下の通りである。
音量Lが最小値L1である場合(例えば無音時)にはゲインηが最小値η1に設定される。音量Lが閾値L2を下回る範囲内では、音量Lの増加とともにゲインηも増加する。また、音量Lが閾値L2を上回る範囲内ではゲインηが最大値η2に維持される。制御部64は、ゲインηの最小値η1および最大値η2と音量Lの閾値L2とを、例えば入力装置16に対する操作に応じて可変に設定する。特性付与部50の調整部52は、制御部64が設定したゲインηを付加スペクトルEに乗算する。
以上の形態においては、周波数スペクトルFと付加スペクトルEとの混合比(調整部52のゲインη)が音声信号VINの音量Lに応じて可変に制御されるから、例えば、再生音における喉詰声の特性を音声信号VINの特性(音量L)にとって好適な度合に自動的に制御できるという利点がある。例えば、図9の例示では音量Lが大きいほどゲインηは大きい数値に設定されるから、音量が大きいほど喉詰声の特性が顕在化する(音量が小さい場合には喉詰声と非喉詰声との相違が曖昧になる)という傾向を忠実に再現することが可能である。また、音量Lが閾値L2を上回る場合には音量Lに拘わらずゲインηが最大値η2に維持されるから、喉詰声の特性が不自然なほどに過剰に顕在化するのを防止できるという利点もある。
以上の形態においては音声信号VINの音量Lに応じてゲインηを制御したが、ゲインηの設定の基礎となる音声信号VINの特徴量は音量Lに限定されない。例えば、特徴抽出部66が音声信号VINのピッチ(音高)PTを抽出し、制御部64がピッチPTに応じて調整部52のゲインηを可変に設定する構成も好適である。図10は、ピッチPTとゲインηとの関係を例示するグラフである。図10に示すように、制御部64は、概略的には、ピッチPTが低いほどゲインηを小さい数値に設定する。
ピッチPTが最小値PT1である場合にはゲインηが最大値η2に設定される。ピッチPTが閾値PT2を下回る範囲内では、ピッチPTの増加とともにゲインηは減少する。また、ピッチPTが閾値PT2を上回る範囲内ではゲインηが最小値η1に維持される。ゲインηの最小値η1および最大値η2やピッチPTの閾値PT2は可変に設定される。
図10の関係のもとでは、ピッチ(音高)が低いほど喉詰声の特性が顕在化する(ピッチが高い場合には喉詰声と非喉詰声との相違が曖昧になる)という傾向を再現することが可能である。また、ピッチPTが閾値PT2を上回る場合にはピッチPTに拘わらずゲインηが最小値η1に維持されるから、ピッチPTが高い場合でも所定の程度の喉詰声の特性は維持されるという利点がある。
なお、特徴抽出部66による抽出値とゲインηとの関係は適宜に変更される。例えば、音量Lが大きいほどゲインηを小さい数値に設定する構成や、ピッチPTが高いほどゲインηを大きい数値に設定する構成も採用される。
<E:変形例>
以上に例示した各形態は様々に変形され得る。変形の具体的な態様を以下に例示する。なお、以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
効果成分Ckの振幅a(fk)を設定する方法は以上の例示(振幅a(fk)を周波数スペクトルFの振幅A(fk)に合致させる方法)に限定されない。例えば、周波数スペクトルFの振幅A(fk)に所定値を乗算することで振幅a(fk)を算定する構成や、振幅a(fk)を振幅A(fk)とは無関係の所定値に設定する構成も採用される。ただし、振幅a(fk)を振幅A(fk)とは無関係に設定した場合、再生音の特性(特に調波構造)が音声信号VINの特性から乖離する可能性がある。他方、振幅a(fk)を振幅A(fk)に設定する第1実施形態や振幅A(fk)の演算値に設定する構成のように、周波数スペクトルFの振幅A(fk)に応じて効果成分Ckの振幅a(fk)を設定する構成によれば、音声信号VINの調波構造(基音および各倍音の成分の周波数や強度の関係)を高度に維持した喉詰声を生成できるという利点がある。
(2)変形例2
以上の各形態の調整部52に加えて、または、以上の各形態の調整部52に代えて、周波数スペクトルFの強度を調整する調整部が特性付与部50に配置され得る。すなわち、周波数スペクトルFと付加スペクトルEとの混合比を可変に制御する構成が本発明においては好適であり、周波数スペクトルFおよび付加スペクトルEの何れの強度を調整するかは任意である。もっとも、周波数スペクトルFおよび付加スペクトルEの強度の調整は本発明において必須ではない。
(3)変形例3
以上の各形態においては入力装置16に対する操作に応じて各種の変数(第1実施形態のゲインηや第3実施形態の乱数λの範囲など)を制御したが、変数の制御の基礎が利用者からの指示である構成は本発明において必須ではない。例えば、他装置からの指示に応じて変数を制御する構成や、記憶装置24に記憶されたデータ(例えば変数の数値を時系列に指示するデータ)に応じて変数を制御する構成も採用される。もっとも、演算処理装置22にて利用される変数を可変に制御する構成(制御部64)は本発明において必須ではない。
(4)変形例4
以上の各形態においては、付加スペクトルEの生成に使用される周波数スペクトルFを周波数分析部32が音声信号VINから生成したが、記憶装置24に事前に格納された周波数スペクトルFを付加スペクトルEの生成や付加に適用する構成も採用される。したがって、周波数分析部32は省略され得る。また、特性付与部50が生成した出力スペクトルGを、通信網や記録媒体を介して外部の装置に提供したうえで喉詰声の再生に利用する構成(すなわち、逆変換部62を音声処理装置100から省略した構成)も採用される。
(5)変形例5
以上の各形態においては、発生者の声帯の振動に主に由来する音声(非喉詰声)の音声信号VINに喉詰声の特性を付与したが、声帯および仮声帯の双方の振動に由来する喉詰声の音声信号VINも演算処理装置22による処理の対象となり得る。すなわち、音声信号VINが表す喉詰声の特性を更に強調した音声信号VOUT(出力スペクトルG)が生成される。また、演算処理装置22による処理(喉詰声の特性の付与)の対象となる音声は現実の発声音に限定されない。例えば、公知の音声合成技術で生成された音声信号VIN(または周波数スペクトルF)に喉詰声の特性を付与する場合にも本発明を利用できる。
(6)変形例6
効果成分Ckの個数は任意である。例えば、図2や図6においては、局所的ピークPkと同数(n個)の効果成分C1〜Cnを周波数スペクトルFに付加する場合を例示したが、1個の効果成分Ck(例えば、局所的ピークP1に対応する効果成分C1)のみを周波数スペクトルFに付加する構成でも、喉詰声の特性を音声信号VINに付加するという所期の効果は実現される。
(7)変形例7
以上の各形態においては付加スペクトルEを音声信号VINのフレーム毎に生成したが、付加スペクトルEの生成の周期は適宜に変更される。例えば、複数のフレームを1周期として付加スペクトルEが生成され得る。1周期内の各フレームの周波数スペクトルFには共通の付加スペクトルEが付加される。なお、複数のフレームを単位として付加スペクトルEを生成する構成では、相前後する付加スペクトルEで各周波数の位相が不連続となる可能性がある。そこで、相前後する各付加スペクトルEで各周波数における位相の連続性を維持するための処理(例えば、各付加スペクトルの周波数毎の位相の時系列を平滑化する処理)が好適に実行される。
100,100A……音声処理装置、12……信号供給装置、14……放音機器、16……入力装置、22……演算処理装置、24……記憶装置、32……周波数分析部、34……ピーク検出部、40……成分生成部、42……乱数発生部、44……位相設定部、46……生成処理部、50……特性付与部、52……調整部、54……合成部、62……逆変換部、64……制御部、66……特徴抽出部。

Claims (6)

  1. 音声信号の周波数スペクトルから局所的ピークを検出するピーク検出手段と、
    前記局所的ピークの位相を変化させた位相に設定されるとともに当該局所的ピークの周波数に位置する効果成分を生成する成分生成手段と、
    前記周波数スペクトルに前記効果成分を付加する特性付与手段と
    を具備する音声処理装置。
  2. 前記ピーク検出手段は、前記周波数スペクトルから複数の局所的ピークを特定し、
    前記成分生成手段は、前記複数の局所的ピークの各々について、当該局所的ピークの位相を変化させた位相に設定されるとともに当該局所的ピークの周波数に位置する効果成分を生成し、
    前記特性付与手段は、前記周波数スペクトルに前記複数の効果成分を付加する
    請求項1の音声処理装置。
  3. 前記成分生成手段は、前記効果成分の振幅を前記周波数スペクトルの当該局所的ピークの振幅に応じて設定する
    請求項1または請求項2の音声処理装置。
  4. 前記成分生成手段は、前記局所的ピークの位相をπだけ変化させることで前記効果成分の位相を設定する
    請求項1から請求項3の何れかの音声処理装置。
  5. 前記成分生成手段は、経時的に変動する調整値に応じて前記局所的ピークの位相を変化させることで前記効果成分の位相を設定する
    請求項1から請求項4の何れかの音声処理装置。
  6. 音声信号の周波数スペクトルから局所的ピークを検出するピーク検出処理と、
    前記局所的ピークの位相を変化させた位相に設定されるとともに当該局所的ピークの周波数に位置する効果成分を生成する成分生成処理と、
    前記周波数スペクトルに前記効果成分を付加する特性付与処理と
    をコンピュータに実行させるプログラム。
JP2009033641A 2009-02-17 2009-02-17 音声処理装置およびプログラム Pending JP2010191042A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009033641A JP2010191042A (ja) 2009-02-17 2009-02-17 音声処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009033641A JP2010191042A (ja) 2009-02-17 2009-02-17 音声処理装置およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014001682A Division JP5928489B2 (ja) 2014-01-08 2014-01-08 音声処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2010191042A true JP2010191042A (ja) 2010-09-02

Family

ID=42817170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009033641A Pending JP2010191042A (ja) 2009-02-17 2009-02-17 音声処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2010191042A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015099363A (ja) * 2013-10-17 2015-05-28 ヤマハ株式会社 音声処理装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265481A (ja) * 1992-03-16 1993-10-15 Csk Corp 自然動画における音声編集装置
JP2003058176A (ja) * 2001-08-13 2003-02-28 Nippon Telegr & Teleph Corp <Ntt> 喉頭音源合成方法およびこの方法を実施する装置
JP2003058175A (ja) * 2001-08-13 2003-02-28 Nippon Telegr & Teleph Corp <Ntt> 喉頭音源合成方法およびこの方法を実施する装置
JP2003255998A (ja) * 2002-02-27 2003-09-10 Yamaha Corp 歌唱合成方法と装置及び記録媒体
JP2006010906A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
JP2006017946A (ja) * 2004-06-30 2006-01-19 Yamaha Corp 音声処理装置およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265481A (ja) * 1992-03-16 1993-10-15 Csk Corp 自然動画における音声編集装置
JP2003058176A (ja) * 2001-08-13 2003-02-28 Nippon Telegr & Teleph Corp <Ntt> 喉頭音源合成方法およびこの方法を実施する装置
JP2003058175A (ja) * 2001-08-13 2003-02-28 Nippon Telegr & Teleph Corp <Ntt> 喉頭音源合成方法およびこの方法を実施する装置
JP2003255998A (ja) * 2002-02-27 2003-09-10 Yamaha Corp 歌唱合成方法と装置及び記録媒体
JP2006010906A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
JP2006017946A (ja) * 2004-06-30 2006-01-19 Yamaha Corp 音声処理装置およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015099363A (ja) * 2013-10-17 2015-05-28 ヤマハ株式会社 音声処理装置

Similar Documents

Publication Publication Date Title
US11410637B2 (en) Voice synthesis method, voice synthesis device, and storage medium
JP4645241B2 (ja) 音声処理装置およびプログラム
JP6821970B2 (ja) 音声合成装置および音声合成方法
US11875777B2 (en) Information processing method, estimation model construction method, information processing device, and estimation model constructing device
JP2018077283A (ja) 音声合成方法
US8492639B2 (en) Audio processing apparatus and method
JP5928489B2 (ja) 音声処理装置およびプログラム
JP2010191042A (ja) 音声処理装置およびプログラム
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
US8927847B2 (en) Glitch-free frequency modulation synthesis of sounds
JP6171393B2 (ja) 音響合成装置および音響合成方法
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
JP2006010906A (ja) 音声効果付与装置及び音声効果付与プログラム
JP2007248551A (ja) 波形データ生産方法、波形データ生産装置、プログラムおよび波形メモリ生産方法
JP6337698B2 (ja) 音響処理装置
JP6683103B2 (ja) 音声合成方法
JP2010032599A (ja) 音声処理装置およびプログラム
JP2018077281A (ja) 音声合成方法
JP4729859B2 (ja) 音響効果装置
RU2591640C1 (ru) Способ модификации голоса и устройство для его осуществления (варианты)
Rautray et al. Parametric Analysis of Audio Effects on Vocal and Instrumental Audio Samples
Anderson A Research Dissertation Submitted in Partial Fulfilment of the Requirements for the Degree of Master of Music in Music Technology
Anderson The amalgamation of acoustic and digital audio techniques for the creation of adaptable sound output for musical theatre
Dutilleux et al. Modulators and demodulators
Furukawa et al. Live-Electronics Algorithms in the Multimedia Work" Swim Swan

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130523

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131022