JP5479823B2 - 効果装置 - Google Patents

効果装置 Download PDF

Info

Publication number
JP5479823B2
JP5479823B2 JP2009201008A JP2009201008A JP5479823B2 JP 5479823 B2 JP5479823 B2 JP 5479823B2 JP 2009201008 A JP2009201008 A JP 2009201008A JP 2009201008 A JP2009201008 A JP 2009201008A JP 5479823 B2 JP5479823 B2 JP 5479823B2
Authority
JP
Japan
Prior art keywords
vowel
signal
effect
input
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009201008A
Other languages
English (en)
Other versions
JP2011053371A (ja
JP2011053371A5 (ja
Inventor
高博 阿江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Roland Corp
Original Assignee
Roland Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Roland Corp filed Critical Roland Corp
Priority to JP2009201008A priority Critical patent/JP5479823B2/ja
Priority to US12/871,829 priority patent/US8457969B2/en
Publication of JP2011053371A publication Critical patent/JP2011053371A/ja
Publication of JP2011053371A5 publication Critical patent/JP2011053371A5/ja
Application granted granted Critical
Publication of JP5479823B2 publication Critical patent/JP5479823B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/195Modulation effects, i.e. smooth non-discontinuous variations over a time interval, e.g. within a note, melody or musical transition, of any sound parameter, e.g. amplitude, pitch, spectral response or playback speed
    • G10H2210/201Vibrato, i.e. rapid, repetitive and smooth variation of amplitude, pitch or timbre within a note or chord
    • G10H2210/211Pitch vibrato, i.e. repetitive and smooth variation in pitch, e.g. as obtainable with a whammy bar or tremolo arm on a guitar
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/195Modulation effects, i.e. smooth non-discontinuous variations over a time interval, e.g. within a note, melody or musical transition, of any sound parameter, e.g. amplitude, pitch, spectral response or playback speed
    • G10H2210/221Glissando, i.e. pitch smoothly sliding from one note to another, e.g. gliss, glide, slide, bend, smear or sweep
    • G10H2210/225Portamento, i.e. smooth continuously variable pitch-bend, without emphasis of each chromatic pitch during the pitch change, which only stops at the end of the pitch shift, as obtained, e.g. by a MIDI pitch wheel or trombone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/245Ensemble, i.e. adding one or more voices, also instrumental voices
    • G10H2210/251Chorus, i.e. automatic generation of two or more extra voices added to the melody, e.g. by a chorus effect processor or multiple voice harmonizer, to produce a chorus or unison effect, wherein individual sounds from multiple sources with roughly the same timbre converge and are perceived as one
    • G10H2210/255Unison, i.e. two or more voices or instruments sounding substantially the same pitch, e.g. at the same time
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は効果装置に関し、特に、歌唱の特徴であるしゃくりを模擬する頻度や態様を、実際の歌唱に似せることで、歌唱の斉唱効果(ダブリング効果)を効果的に得ることができる効果装置に関するものである。
従来、入力された音声信号に効果を付与した効果音声信号を生成し、その効果音声信号を入力された音声信号と混合することで、入力された楽音信号に対して(単独の歌唱に対して)、あたかも複数人で同じメロディを歌唱しているような効果(斉唱効果、またはダブリング効果)を付与する効果装置(ダブリングエフェクタ)が知られている。また、CDなどのレコーディング現場では、通常の単独歌唱に対して、その単独歌唱をダブリングエフェクタに通して得た効果音を、例えば歌唱で盛り上がるサビの部分で元の単独歌唱に付与して、サビの部分の歌声が特に浮きだって聴こえるような効果をつけることも一般的に行なわれている。このようなアプリケーションで使用されるダブリングエフェクタでは、一般的に、まず入力された音声信号に遅延をかけることが行なわれる。遅延をかけた音声信号をもとの音声信号に混合することで、手軽に斉唱効果を得ることが出来ることは公知の手法である。しかし、単に遅延効果のみを常に一定の割合で歌唱に与えるだけの変調で得られる効果音では、得られる斉唱効果は単調であり機械的で面白みに欠ける。
このような単調さをなくして、より人間の歌唱による斉唱効果のような変化に富んだ斉唱効果を得るために、さらにいくつかの手法が導入されている。例えば、特許3903975号記載の楽音処理装置で示されるように、歌唱の歌い始め(アタック)を検出し、その歌唱の歌い始め部分で入力された音声信号のピッチを大きく変化させて、しゃくり効果を模擬した効果音声信号を生成する手法がある。この手法では、入力された音声信号の音量レベルを検出し、その音量レベルが、閾値未満から閾値以上に変化した場合にのみ、入力された音声信号のピッチを大きく変化させて、しゃくり効果を模擬した効果音声信号を生成している。このような手法は、人間の歌唱の特徴を模擬することで、より自然な斉唱効果を得ようとするアプローチである。なお、ここで言う「しゃくり」とは、歌の歌い始めにおいて、歌唱のピッチが本来のピッチから若干外れ、時間の経過と共に、歌手が自ら発した歌声のピッチを耳で聴いて、自らの歌唱のピッチを、歌唱(発声)を持続させながら本来のピッチに収束させていく一種のフィードバック現象を示すものである。
特許3903975号記載の楽音処理装置は、上記以外にも、次のようにして、ダブリングエフェクタの効果音声信号を生成している。即ち、入力された音声信号を分析して、入力された音声信号のピッチ、音量レベルおよびスペクトルの抽出を行う。そして、抽出したスペクトルから、入力された音声信号が有声音か無声音かの判別を行い、無声音である場合には、入力された音声信号のピッチや音量レベルに対して擬似ランダム信号による変調を行い、ダブリングエフェクタの効果音声信号を生成している。なお、有声音とは、母音(a,i,u,e,oの各音)に加え、破裂音の一部(b,d,gの各音)、摩擦音の一部(v,zの各音)、鼻音(m,nの各音)、流音(l,rの各音)を示し、無声音とは、破裂音の一部(p,t,kの各音)および摩擦音の一部(f,s)を示している。
特許3903975号
従来のダブリングエフェクタによると、前述したように、しゃくりを模擬した効果を含む効果音声信号は、入力された音声信号の音量レベルが閾値未満から閾値以上に変化した場合にのみ生成される。よって、入力された入力信号の音量レベルが閾値以上の状態が続くとき、すなわち歌唱が継続して行なわれている状態(歌い続けている途中の状態)では、効果音声信号が生成されず、しゃくりを模擬することができない。ところが、実際の歌唱では、音量レベルが閾値以上の状態が続く歌唱の途中であっても、例えばある音節における子音から母音に切り換わるときなどのタイミングで、しゃくりが発生する場合があることがわかっている。つまり、従来のダブリングエフェクタが斉唱効果を付与する場合、従来技術では、しゃくりを模擬する頻度が実際の歌唱と比べて低いため、効果音声信号を元の歌唱に混合して得られる、一人の歌唱による斉唱効果が効果的に得られないという問題点があった。
また、特許3903975号記載の楽音処理装置では、入力された音声信号が無声音である場合に、ダブリングエフェクタの効果音声信号を生成している。よって、入力された音声信号が、有声音から有声音へ変化する状態では、具体的には、例えば、鼻音や流音から母音へ変化する状態では、効果音声信号が生成されない。つまり、従来技術では、ダブリング効果を得る頻度は限られており、効果音声信号をもとの歌唱に混合して得られる、一人の歌唱による斉唱効果が効果的に得られないという問題点があった。
本発明は、上述した問題点を解決するためになされたものであり、しゃくりを模擬する頻度を高めて、実際の歌唱の特徴をより正確に模擬することにより、一人の歌唱による斉唱効果を効果的に得ることができる効果装置を提供することを目的としている。
この目的を達成するために請求項1記載の効果装置は、音声信号が入力される入力手段と、その入力手段から入力された音声信号を所定タイミング毎に取得し、その取得した音声信号に効果を付与する効果付与手段と、その効果付与手段により効果が付与された音声信号である効果音声信号を、前記入力手段から入力された音声信号と混合して出力する出力手段とを備えたものであって、前記効果付与手段は、前記入力手段に入力された音声信号が母音または子音であるかを前記所定タイミングに対応して判別する判別手段と、その判別手段により判別された音声信号が、子音から母音へ切り換わったことを検出する検出手段と、少なくとも、前記音声信号の子音から母音への切り換わりが前記検出手段によって検出された場合に、前記所定タイミングで取得される音声信号のピッチを変更する変更手段と、その変更手段により前記音声信号のピッチが変更される場合、前記音声信号のピッチの変更量を、所定の関数で示される度合いで規定量に収束させる収束手段と、その収束手段により前記ピッチの収束が行われている音声信号を前記効果音声信号として前記出力手段へ出力する出力実行手段とを備えている。
請求項2記載の効果装置は、請求項1記載の効果装置において、前記効果付与手段は、前記音声信号の子音から母音への切り換わりが前記検出手段によって検出される場合に、その母音へ切り換わった前記音声信号の振幅を検出し、その検出した振幅が第1閾値以上であるかを判定する振幅判定手段を備え、前記変更手段は、前記母音へ切り換わる音声信号の振幅が第1閾値以上であると前記振幅判定手段によって判定された場合に、前記所定タイミングで取得される音声信号のピッチを変更する。なお、振幅は、音量レベルを示している。
請求項3記載の効果装置は、請求項1または2に記載の効果装置において、前記効果付与手段は、前記入力手段に入力された音声信号が母音であると前記判別手段により判別された場合に、その入力された母音の音声信号における振幅が第2閾値以上であるかを判定する母音振幅判定手段と、前記入力された母音の音声信号における振幅が前記第2閾値以上であると前記母音振幅判定手段によって判定された場合に、前記判別手段により前回判別された音声信号も母音であったかを検出する連続母音検出手段と、前回判別された音声信号も母音であったと前記連続母音検出手段によって検出された場合に、前記入力された母音の音声信号における振幅増加量を検出し、その検出した振幅増加量が所定値以上であるかを判定する振幅増加量判定手段とを備え、前記変更手段は、前記入力された母音の音声信号における振幅増加量が所定値以上であると前記振幅増加量判定手段により判定された場合に、前記所定タイミングで取得される音声信号のピッチを変更す。なお、第2閾値は、請求項2記載の第1閾値と同一値であっても良いし、前記第1閾値とは異なる値であっても良い。
請求項4記載の効果装置は、請求項3記載の効果装置において、前記効果付与手段は、前記入力された母音の音声信号における振幅が前記第2閾値よりも小さいと前記母音振幅判定手段によって連続して判定され続けた時間と、前記入力手段に入力された音声信号が子音であると前記判別手段によって連続して判別され続けた時間との合計時間を計時する計時手段と、その計時手段により計時された前記合計時間が所定時間を超えたかを判定する計時判定手段とを備え、前記変更手段は、前記合計時間が前記所定時間を超えたと前記計時判定手段によって判定された場合に、前記所定タイミングで取得される音声信号のピッチ変更を許可する時間判定許可手段を備えている。
請求項1記載の効果装置によれば、少なくとも、音声信号の子音から母音への切り換わりが検出手段によって検出された場合には、所定タイミングで取得される音声信号のピッチが更手段によって変更される。このとき、更手段により変更された楽音信号のピッチの変更量は、所定の関数で示される度合いで束手段によって規定量に収束される。この束手段によりピッチの収束が行われている音声信号は、実行手段によって、効果音声信号として出力手段へ出力される。そして、出力手段は、この効果音声信号を、入力手段から入力された音声信号と混合して出力する。このように、音声信号の子音から母音への切り換わりが検出手段によって検出された場合には、所定タイミングで取得される音声信号のピッチを変更することで、しゃくりを模擬した効果を含む効果音声信号(以下、効果音声信号Aと称する)を生成することができる。ここで、子音とは、母音(a,i,u,e,oの各音)以外の音、即ち、破裂音(b,d,g,p,t,kの各音)、摩擦音(v,z,f,sの各音)、鼻音(m,nの各音)、流音(l,rの各音)である。よって、音声信号の子音から母音への切り換わりが検出手段によって検出されさえすれば、入力された入力信号の音量レベルに関係なく、その切り換わりが、例えば、有声音である鼻音や流音から有声音である母音へ変化する状態であっても、しゃくりを模擬した効果を含む効果音声信号Aを生成することができる。従って、しゃくりを模擬する頻度を高め、歌唱の斉唱効果(ダブリング効果)を効果的に得ることができるという効果がある。なお、規定量は、変更量よりも少ない量を示しており、ゼロを例示することができる。これは、請求項3も同様である。
請求項2記載の効果装置によれば、請求項1記載の効果装置の奏する効果に加え、子音から母音へ切り換わる音声信号の振幅が第1閾値以上であると振幅判定手段によって判定された場合、変更手段により、所定タイミングで取得される音声信号のピッチ変更変更される。よって、音声信号が子音から母音へ切り換わる場合でも、その母音の振幅が、即ち、母音の音量レベルが、第1閾値以上となる大きさのときに限って、効果音声信号Aを生成することができる。よって、請求項1記載の効果装置で生成するしゃくりを模擬した効果を含む効果音声信号Aと比較して、しゃくりを模擬した効果を得る頻度は減ることになるが、逆にこれは、本来の人間の歌唱で実際に発生するしゃくりの頻度により近づく結果となり都合が良い。なぜならば、実際の歌唱では、歌手がしゃくりを入れる場所は通常、歌い始めや、歌の途中で感情を込めてある程度の大きな声でお腹で声を支えながらしっかりとアクセントをつけて歌う箇所に集中しており、歌の途中で比較的小さな声で軽くさらりと流して歌う箇所には通常しゃくりが入らないことは、歌唱を分析的に鑑賞することで容易に認識できる周知の事実であり、請求項2記載の効果装置は、このような歌唱の特性をほぼ正確に模擬するものだからである。従って、子音から母音へ切り換わる音声信号の振幅に関わらず、音声信号が子音から母音へ切り換わる度に、毎回しゃくりを模擬した効果を含む効果音声信号Aを生成する場合と比較して、しゃくりを模擬した効果を含む効果音声信号Aの生成の頻度を、違和感のない範囲に留めることができるという効果がある。
請求項3記載の効果装置によれば、請求項1または2に記載の効果装置の奏する効果に加え、入力された母音の音声信号における振幅が第2閾値以上であると母音振幅判定手段によって判定された場合には、連続母音検出手段は、判別手段により前回判別された音声信号も母音であったかを検出する。そして、前回判別された音声信号も母音であったと連続母音検出手段によって検出された場合には、振幅増加量判定手段は、入力された母音の音声信号における振幅増加量を検出し、その検出した振幅増加量が所定値以上であるかを判定する。その後、入力された母音の音声信号における振幅増加量が所定値以上であると振幅増加量判定手段により判定された場合には、所定タイミングで取得される音声信号のピッチが更手段によって変更される。このとき、更手段により変更された楽音信号のピッチの変更量は、所定の関数で示される度合いで束手段によって規定量に収束される。この束手段によりピッチの収束が行われている音声信号を、実行手段は、力手段に出力させる。このように、判別手段により前回判別された音声信号も母音であり、入力された母音の音声信号における振幅が第2閾値以上である上に、入力された母音の音声信号における振幅増加量が所定値以上であった場合には、所定タイミングで取得される音声信号のピッチを変更する。よって、音声信号が子音から母音へと変化しない場合においても、その前後の母音の音声レベルが第2閾値以上となる大きさであり、且つ、その変化した母音の振幅増加量が所定値以上であるときには、しゃくりを模擬した効果を含む効果音声信号Aを生成することができる。よって、音声信号が子音から母音へと変化する場合のみならず、音声信号が上述した条件を満たした上で母音から母音へと変化する場合にも、しゃくりを模擬した効果を付与して、その頻度を高めることができるという効果がある。
請求項4記載の効果装置によれば、請求項3記載の効果装置の奏する効果に加え、計時手段は、入力された母音の音声信号における振幅が第2閾値よりも小さいと母音振幅判定手段によって連続して判定され続けた時間と、入力手段に入力された音声信号が子音であると判別手段によって連続して判別され続けた時間との合計時間を計時する。そして、計時判定手段は、計時手段により計時された合計時間が所定時間を超えたかを判定する。その結果、合計時間が所定時間を超えたと計時判定手段によって判定された場合には、時間判定許可手段は、所定タイミングで取得される音声信号の更手段によるピッチ変更を許可する。このように、計時手段により計時された合計時間が所定時間を超えた場合に限り、時間判定許可手段は、所定タイミングで取得された音声信号の更手段によるピッチ変更を許可して、しゃくりを模擬した効果を含む効果音声信号Aの生成を許可する。よって、計時手段により計時された合計時間が所定時間を超えたかを判定することなく、しゃくりを模擬した効果を含む効果音声信号Aを生成する場合、即ち、音声信号が子音から母音へ切り換わる度に、或いは、音声信号が請求項2の条件を満たした上で子音から母音へと変化する度に、または請求項3記載の条件を満たした上で母音から母音へと変化する度に、頻繁に、しゃくりを模擬した効果を含む効果音声信号Aを生成する場合と比較して、しゃくりを模擬した効果を含む効果音声信号Aの生成の頻度は減ることになるが、逆にこれは、本来の人間の歌唱で実際に発生するしゃくりの頻度により近づく結果となり都合が良い。なぜならば、これもまた、実際の歌唱でのしゃくり発生の頻度により近づける効果的な手法であるからである。実際の歌唱では、歌手がしゃくりを入れる場合は、しゃくりを効果的に歌唱効果として生かすために、歌い始めの音節、あるいは歌詞が続く途中の音節において十分な時間をかけてしゃくりを入れる場合がほとんどである。テンポ120位のミディアムテンポの曲の歌唱を例に取ると、しゃくりの長さ(しゃくりが開始してから収束するまでの継続時間)は、通常8分音符程度かそれ以上の十分な長さをかけてじっくりと付与される。特にこぶしを利かすことで歌唱の雰囲気を盛り上げる手法を取ることが多い演歌の歌唱ではこの傾向が顕著に観察できる。また、歌唱の途中にしゃくりを連続して各音節に入れることは不自然であり、思いを込めてここぞと思う箇所にだけ入れることが歌唱の一つのテクニックである。これより、歌唱中で発生するしゃくりの前後では別のしゃくりは連続して発生することが稀だということがわかる。また、別の観点からしゃくりを分析すると、1つの音節のしゃくり効果に十分な時間がかかるということは、しゃくりの発生する時間間隔という観点からは、しゃくりは短い音節では発生することが少ないということである。例えばミディアムテンポの歌唱において、16分音符のタイミングで連続的に歌唱される場合は、しゃくり効果を付与することは稀である。これらの傾向は、しゃくりを入れる歌唱を分析的に鑑賞することで容易に認識できる周知の事実であり、請求項4記載の効果装置は、このような歌唱の特性をほぼ正確に模擬するものだからである。以上より、請求項4に記載の効果装置は、しゃくり発生の頻度を違和感のない範囲に留めることができるという効果がある。
本発明の効果装置の一例であるダブリングエフェクタの電気的構成を示したブロック図である。 DSPで実行される信号処理を、機能ブロックを用いて模式的に示した図である。 DSPで実行される信号処理であるダブリング処理を示したフローチャートである。 可変遅延部で実行される可変遅延処理を示したフローチャートである。
以下、本発明の好ましい実施例について、添付図面を参照して説明する。図1は、本発明の効果装置の一例であるダブリングエフェクタ1の電気的構成を示したブロック図である。このダブリングエフェクタ1は、従来の一般的なダブリングエフェクタと比較して、しゃくりを模擬する頻度を高めることができるものである。
ダブリングエフェクタ1は、アナログデジタルコンバータ(以下、「A/Dコンバータ」と称す)11と、デジタルシグナルプロセッサ(以下、「DSP」と称す)12と、デジタルアナログコンバータ(以下、「D/Aコンバータ」と称す)13と、CPU14と、ROM15と、RAM16と、表示器17と、操作子18とを有している。
A/Dコンバータ11は、IN端子から入力された音声信号を、アナログ信号からデジタル信号へ変換して、DSP_IN端子へ出力するコンバータである。DSP12は、DSP_IN端子から入力された音声信号(デジタル信号)を分配し、分配した一方の音声信号(デジタル信号)に効果を付与し、その効果を付与した音声信号である効果音声信号(デジタル信号)を、分配した他方の音声信号(デジタル信号)と混合して、DSP_OUT端子へ出力するプロセッサである。D/Aコンバータ13は、DSP_OUT端子から入力された混合信号(音声信号と効果音声信号とが混合された信号)を、デジタル信号からアナログ信号へ変換して、OUT端子へ出力するコンバータである。
なお、DSP12には、制御端子と書込端子と取得端子とが更に設けられている。制御端子は、DSP12の各種制御を行うCPU14からの制御信号を入力する端子であり、各素子14〜18が接続されている。ここで、CPU14は、DSP12および各素子15〜18を制御する中央制御装置である。ROM15は、このダブリングエフェクタ1で実行される制御プログラム等を格納した書換不能なメモリである。図3で後述するDSP12による信号処理は、制御プログラムとして、ROM15に記憶されている。RAM16は、各種のデータを一時的に記憶するためのメモリである。RAM16には、データを入力する入力端子とデータを出力する出力端子が設けられている。入力端子には、DSP12の書込端子が接続されている。ここで、RAM16のうち、DSP12の書込端子から入力端子を介して入力される音声信号が読み書きされる音声信号バッファ部分は、リングバッファで構成される。なお、リングバッファの読み書き動作を制御することによって、記憶された信号の遅延やピッチ変化を得ることは公知である。この音声信号バッファでは、予め定められた書込アドレスポインタの書込速度(単位時間当たりの書込アドレス歩進数)に対応して、書込端子から出力される音声信号(DSP_IN端子から入力された音声信号)が、出力の時間順に連続して記憶される。(なお、以後、RAM16に記憶された音声信号を、「分割音声信号」と称す。)また、RAM16の出力端子には、DSP12の読出端子が接続されている。これにより、DSP12は、読出アドレスポインタの読出速度(単位時間当たりの読出アドレス歩進数)に対応して、分割音声信号を、読出端子を介してRAM16から連続して読出すことができる。この時、読出アドレスポインタの読出アドレスを書込ポイントのアドレスよりも前のアドレスを指定することで遅延が生じ、また、読出アドレスポインタによる読出速度を書込アドレスポインタによる書込速度よりも早くすることでピッチが上がり、逆に遅くすることでピッチが下がる。
表示器17は、ダブリングエフェクタ1の設定状態や動作状態等の各種状態を表示するLCDである。操作子18は、ダブリングエフェクタ1の設定変更や動作変更等の各種変更の操作を行う入力装置である。
次に、図2を参照して、DSP12の信号処理について説明する。図2は、DSP12で実行される信号処理を、機能ブロックを用いて模式的に示した図である。DSP12は、機能ブロックとして、子音判別部21と、レベル検出部22と、効果音声制御部23と、可変遅延部24と、ランダム信号発生部25と、固定遅延部26と、クロスフェード部27と、ミキサ28と、振幅制御部29と、音声信号アンプ30と、最終段ミキサ31とを有している。
なお、本実施形態のダブリングエフェクタ1は、特に一人歌唱の場合に自然な斉唱効果を得ることに重点を置いたものである。この自然な斉唱効果を得るための効果音声信号に求められる要素として、大きく分けて次の4つが考えられる。まず、第1の要素として、タイミングのずれ(遅延)が考えられる。この要素は、可変遅延部24、固定遅延部26で実現している。第2の要素として、ビブラート(ピッチ変動1)が考えられる。この要素は、可変遅延部24中のビブラート処理で実現している。第3の要素として、しゃくり(ピッチ変動2)が考えられる。この要素は、可変遅延部24中のしゃくり初期値設定処理およびしゃくり減衰設定処理で実現している。最後に、第4の要素として、音量のゆらぎ(レベル変動)が考えられる。この要素は、振幅制御部29で実現している。本実施形態におけるダブリングエフェクタ1は、上述した4つの要素(タイミングのずれ、ビブラート、しゃくり、音量のゆらぎ)を、それぞれ図2に示したブロックで実現している。この4つの要素のうち、ビブラート、しゃくり、音量のゆらぎについては、ランダム信号発生部25からのランダム信号を受けて、それぞれランダムに変動が発生するような構成としている。また、タイミングのずれについては、後述するように、しゃくり効果のしゃくり初期値としゃくり減衰関数とをランダムに設定する結果として、しゃくりが発生した場合にランダムな遅延が発生することになる。歌手の歌唱を注意深く聴くと、同じ歌手が同じ曲の同じ歌詞を繰返し歌うたびに毎回ニュアンスが異なって聴こえるが、これは上述した4つの要素が、繰返し歌うたびにランダムに発生していることによるものとみなすことができる。これは、歌手の歌唱というものが持つ本質的な特徴と考えてもよい。歌手が人間である以上、上述の4つの歌唱のニュアンスをまったく同じように再現することはきわめて困難であり、厳密に言えば2度と同じニュアンスを持った歌唱をすることはできないのである。以上より、上記のようなランダム変動を持つ構成を取ることは、ダブリングエフェクトの効果をより自然なものにするアプローチであり、本実施形態のダブリングエフェクタ1は、このような歌唱の本質的特徴をより自然に模擬するための方法として、本発明の目的であるしゃくりを模擬する頻度を高めることに加えて、上述の4つの要素をランダムな変動量として得ることにより、一人の歌唱による斉唱効果をより効果的に得ることができる。
子音判別部21は、DSP_IN端子から入力された音声信号が、母音または子音であるかを判別し、その判別結果を、効果音声制御部23へ出力するものである。また、レベル検出部22は、DSP_IN端子から入力された音声信号の振幅を検出して、入力された音声信号の音声レベルを、効果音声制御部23へ出力するものである。なお、子音判別部21による判別およびレベル検出部22による検出は、後述するダブリング処理(図3参照)内で、所定タイミング毎に繰り返し実行される。
効果音声制御部23は、子音判別部21による判別結果とレベル検出部22による検出結果とに応じて、点線矢印で示すように、可変遅延部24へ、しゃくり初期値設定処理を指示する信号、即ち、しゃくりトリガを出力する。また、効果音声制御部23は、クロスフェード部27に対してクロスフェード制御を行なう。このクロスフェード制御については後述する。
可変遅延部24は、分割音声信号が母音かつ音量レベルが閾値を超える場合に、後述する固定遅延部26と同様の所定の時間の遅延に、更に、ピッチ最終変化設定処理による最終ピッチ変化量を加えた効果音声信号Aを生成して、その効果音声信号Aを、クロスフェード部27のアンプ27aへ出力するものである。
ここで、可変遅延部24と対になる固定遅延部26は、分割音声信号が子音または音量レベルが閾値以下の場合に、読出アドレスポインタの位置を書込アドレスポインタの位置よりも所定の時間、例えば20msの遅延が生じる位置に設定して、書込ポインタの書込速度と同じ速度でRAM16から分割音声信号の読出を行ない、効果音信号Bを生成して、その効果音声信号Bをクロスフェード部27のアンプ27bへ出力するものである。
なお、可変遅延部24および固定遅延部26による分割音声信号の読出は常時行なわれるが、後述するクロスフェード部27は、クロスフェード動作時以外の定常状態では、可変遅延部24からの効果音声信号Aと固定遅延部26からの効果音声信号Bとを排他的にどちらか一方のみをミキサ28に出力する。
また、可変遅延部24は、しゃくりトリガを効果音声制御部23から受けない限りは、固定遅延部26と同様である所定の時間(例えば、20ms)遅らせる遅延処理に、後述するビブラート処理によるピッチ変化量を加えて分割音声信号をRAM16から読出し、得られた効果音声信号Aをクロスフェード部27に出力する。ここで遅延処理に着目すると、分割音声信号、即ち、DSP_IN端子から入力された音声信号は、可変遅延部24または固定遅延部26のいずれか一方を経由してクロスフェード部27へ出力されるので、可変遅延部24がしゃくりトリガを効果音声制御部23から受けない限りは、結局入力された音声信号は所定の時間分遅延した後に出力されることになる。よって、この遅延が生じている間に、前述したようなしゃくり処理を行なうか否かの判定、すなわち音量変化の閾値判定処理や母音・子音の判別判定処理などの一連の処理を、時間的な余裕を持って行うことが出来て都合が良い。
また、可変遅延部24は、特に、しゃくりトリガを効果音声制御部23から受けた場合、固定遅延部26と同様である所定の時間(例えば、20ms)遅らせる遅延処理に、後述するピッチ最終変化決定処理で得られた最終ピッチ変化量を加えて、分割音声信号をRAM16から読出し、得られた効果音声信号Aをクロスフェード部27に出力する。
すなわち、可変遅延部24は、特にしゃくりトリガを効果音声制御部23から受けた場合には、しゃくり初期値設定処理と、しゃくり減衰設定処理と、ビブラート処理との3つのそれぞれの処理結果を合算した結果であるピッチ最終変化設定処理が遅延処理に加えられて実行される。このピッチ最終変化設定処理を構成する3つの処理を次に個別に説明する。
1つ目のしゃくり初期値設定処理では、RAM16から取得される分割音声信号のピッチを高く変更するか、或いは低く変更するか(以後、「ピッチの変更方向」と称す)を決定すると共に、ピッチの変更量を決定する。
2つ目のしゃくり減衰設定処理では、しゃくり初期値設定処理で決定されたピッチの変更方向およびピッチの変更量で、分割音声信号のピッチを変更する場合に、経過時間に対応するその変更量(ピッチの収束速度)をゼロに収束させるための度合いを示す減衰関数を決定する。
3つ目のビブラート処理では、決定されたピッチの変更方向およびピッチの変更量で、分割音声信号のピッチを変更する場合に、その変更するピッチに付与するピッチの揺れの量(ビブラート)を決定する。ピッチ最終変化決定処理では、これら3つの処理結果を合算してピッチの変更方向の情報も含めた最終ピッチ変更量を求める。
次に、求められた最終ピッチ変更量が遅延処理に加えられる処理について説明する。まず遅延処理であるが、これは読出しポインタのスタート位置を所定の時間における遅延を実現する位置にまで遡って設定することにより行なわれる。この時の、デフォルトのアドレス読出位置は、本実施形態では固定遅延部26で設定される所定の時間の遅延を実現するアドレスと同じとする。また、デフォルトのアドレス読出速度は、ピッチ変更量がゼロとなるようにアドレス書込速度と同じアドレス読出速度とする。この遅延設定により設定される読出しポインタの位置を基準に、さらにピッチ最終変化決定処理で求められた最終ピッチ変更量に応じて、読出アドレスポインタの読出位置をジャンプさせるとともに、アドレス読出速度をデフォルト値から増減させる。この時、ピッチ最終変化設定処理によるピッチ変更量がランダムに変化すると、しゃくり発生時の遅延量とピッチの収束速度もランダムに変化することは自明である。
例えば、しゃくりトリガを効果音声制御部23から受けた場合に、ピッチ最終変化設定処理によるピッチ変更方向が負、つまりしゃくり初期値のピッチがデフォルト値よりも低い場合であれば、アドレス読出し位置はデフォルトのアドレス読出位置よりもさらにアドレス書込位置に近い方にジャンプすると共に、アドレス読出速度はデフォルトのアドレス読出速度よりも遅く設定される。アドレス読出し位置がデフォルトのアドレス読出位置よりもさらにアドレス書込位置に近い方にジャンプすることで、遅延時間はデフォルトの遅延時間よりも短くなる。その後、しゃくり減衰設定処理で決定された減衰関数に従ってピッチの変化量が減衰していくにつれ、アドレス読出速度は徐々に早くなり、仮にしゃくり発生の如何にかかわらず常時行われているビブラート処理によるピッチの変化量を除いて考えると、最終的にはデフォルトのアドレス読出位置に戻ると共に(遅延時間がデフォルトの遅延時間に戻ると共に)、アドレス読出速度もデフォルトの読出速度に戻る(ピッチ変化量がゼロに収束する)。このようにして、可変遅延部24(DSP12)は、分割音声信号をRAM16から読み出す。
この結果、可変遅延部24がRAM16から読み出すことにより得られる分割音声信号は、そのピッチが、本来のピッチ(デフォルトのアドレス読出位置からデフォルトの読出速度で読み出される分割音声信号のピッチ)に対して、大きく変更されたものとなると共に、変更したピッチが減衰関数に従って本来のピッチに戻るものであり、最終的にはピッチの変更量はゼロに収束し、デフォルトの遅延のみになって、更に、ビブラートが付与されたものとなる。なお、可変遅延部24による分割音声信号の取得は、規定時間毎に繰り返し実行されるが、この詳細は図4を参照して後述する。
ランダム信号発生部25は、ランダムな信号を発生するものであり、それぞれ別々のランダム信号を発生させる3つの発生部Ra(25a),Rb(25b),Rc(25c)を有している。発生部Ra(25a)は、点線矢印で示すように、しゃくり初期値設定処理およびしゃくり減衰設定処理で使用するランダム信号を発生させるものである。発生部Ra(25a)で発生させたランダム信号により、しゃくり初期値設定処理で決定するピッチの変更方向およびピッチの変更量と、しゃくり減衰設定処理で決定する減衰関数を、しゃくりトリガの入力の度に、ランダムにすることができる。(即ち、ピッチ最終変化決定処理で決定される最終ピッチ変更量を、しゃくりトリガの入力の度に、ランダムにすることができる。)この発生部Ra(25a)により、効果音声信号で模擬するしゃくりの程度や継続時間を変化に富んだものにして、結果、実際の歌唱でのしゃくりの変化のニュアンスに近づけることができるので、しゃくりの模擬を自然なものにすることができる。
発生部Rb(25b)は、点線矢印で示すように、ビブラート処理で使用するランダム信号を発生させるものである。発生部Rb(25b)で発生させたランダム信号により、ビブラート処理で決定する揺れの量を、ランダムにすることができる。この発生部Rb(25b)により、効果音声信号で模擬するしゃくりに、ランダムなビブラートを付与することができる。従って、しゃくりの際のピッチのゆれを実際の歌唱でのしゃくりの変化のニュアンスに近づけることができるので、しゃくりの模擬をより自然なものにすることができる。
発生部Rc(25c)は、点線矢印で示すように、後述する振幅制御部29で使用するランダム信号を発生させるものである。発生部Rc(25c)で発生させたランダム信号により、振幅制御部29で制御する信号の振幅変化量を、ランダムにすることができる。
クロスフェード部27は、可変遅延部24から出力された効果音声信号Aと固定遅延部26から出力された効果音声信号Bとをクロスフェードさせて、ミキサ28へ出力するものである。クロスフェード部27は、効果音声信号Aの増幅を行うアンプ27aと、効果音声信号Bの増幅を行うアンプ27bとを有している。アンプ27aおよびアンプ27bは、点線矢印で示すように、各々別々に、効果音声制御部23からの制御信号が入力される構成であり、入力された制御信号に応じた増幅率で、各々別々に、効果音声信号の増幅を行う。具体的には、効果音声信号Bから、効果音声信号Aへと、ミキサ28へ出力する信号を切り換える場合には、アンプ27bの増幅率を連続的に徐々に減少させる制御信号が効果音声制御部23から出力される一方で、アンプ27aの増幅率を連続的に徐々に増加させる制御信号が効果音声制御部23から出力される。これにより、クロスフェード部27では、効果音声信号Bの音声レベルを連続的に徐々に音量ゼロへ減少させる一方で、効果音声信号Aの音声レベルを音量ゼロから連続的に徐々に増加させることができる。即ち、効果音声信号Bから効果音声信号Aへと、ミキサ28へ出力する信号をクロスフェードすることができる。なお、この場合にしゃくりが発生すると、しゃくりの模擬を含む効果音声信号Aのピッチが急激に変更されることがある。これはしゃくりが発生すると、しゃくり初期値設定処理によりランダムに設定されるピッチ変化の度合いが大きくなることが頻繁に発生するため、可変遅延部24の読出しポインタの位置がしゃくり発生直前の位置からしゃくり発生開始直後の読出し位置へと大きくジャンプすることに起因する。よってこの瞬間、読出し波形の急激な変化によるノイズが生じ、可変遅延部24から出力される場合がある。しかし、このノイズが発生した時、クロスフェード部27によるクロスフェード動作は開始された直後となり、ミキサ28へ出力されるしゃくりの模擬を含む効果音声信号Aの音声レベルは音量ゼロ近くに抑えられている。よって、上述したように可変遅延部24からノイズが出力されても、そのノイズを、クロスフェード部27で抑制することができる。
ミキサ28は、アンプ27aから出力された効果音声信号Aと、アンプ27bから出力された効果音声信号Bとを混合した混合信号を、振幅制御部29へ出力するものである。
振幅制御部29は、ミキサ28で混合された混合信号の振幅を、発生部Rc(25c)から出力されたランダム信号に対応して変化させ、さらに所定の増幅率を乗算した振幅の調整を行なった上で最終段ミキサ31へ出力するものである。この振幅制御部29の振幅変化により、混合信号の音声レベルをランダムに変化させるとともに、混合信号の音声レベルの最終調整を行うことができる。音声信号アンプ30は、DSP_IN端子へ入力した音声信号を増幅して、最終段ミキサ31へ出力するものである。最終段ミキサ31は、振幅制御部29から出力される混合信号(効果音声信号Aと効果音声信号Bとが混合された信号)と、音声信号アンプ30から出力される音声信号(DSP_IN端子へ入力した音声信号)とを入力し、それらを混合した混合信号を、DSP_OUT端子へ出力するものである。
次に、図3を参照して、DSP12で実行される信号処理について説明する。図3は、DSP12で実行される信号処理であるダブリング処理を示したフローチャートである。このダブリング処理は、ダブリングエフェクタ1の電源オン中、繰返し実行される。なお、ダブリング処理では、Now_Con_FlagおよびOld_Con_Flagの2つのフラグと、Now_Level、Old_Levelおよびtの3つの変数を使用する。
Now_Con_Flagは、DSP_IN端子に入力された音声信号の判別結果が子音であるかを示すフラグであり、判別結果が子音である場合には、「1」となる一方、判別結果が子音でない場合には(母音である場合には)、「0」に設定される。
Old_Con_Flagは、DSP_IN端子に入力された音声信号の前回の判別結果が子音であるかを示すフラグであり、前回の判別結果が子音である場合には、「1」となる一方、前回の判別結果が子音でない場合には(母音である場合には)、「0」に設定される。なお、Now_Con_FlagおよびOld_Con_Flagは、何れも、RAM16の所定領域に設けられている。
Now_Levelは、DSP_IN端子に入力された音声信号の入力レベル(音量レベル)を示す変数であり、Old_Levelは、DSP_IN端子に入力された音声信号の前回の入力レベル(音量レベル)を示す変数である。また、tは、RAM16に設けられたカウンタ(図示せず)のカウント値を示す変数である。なお、このカウンタは、DSP_IN端子に入力された音声信号が子音であると判別された場合に、或いは、DSP_IN端子に入力された音声信号の入力レベル(音量レベル)が閾値Lc以下である場合に、カウントアップが開始される。また、それ以外の場合、即ち、DSP_IN端子に入力された音声信号が母音と判別され、且つ、DSP_IN端子に入力された音声信号の入力レベル(音量レベル)が閾値Lcを超える場合に、カウントアップが停止してゼロクリアされる。なお、このカウンタは、カウントアップが開始されると、S7の処理を経由するたびに(実行するたびに)、カウント値tをカウントアップする。
図3に示すように、ダブリング処理では、まず、初期化処理を実行する(S1)。具体的には、Now_Con_FlagおよびOld_Con_Flagの各フラグと、Now_Level、Old_Levelおよびtの各変数とを、ゼロに設定する(S1)。
次に、Old_Con_Flagの値をNow_Con_Flagへ代入し、Old_Levelの値をNow_Levelへ代入して(S2)、DSP_IN端子に入力された音声信号を検出する(S3)。そして、検出した音声信号の入力レベル(音声レベル)の値を、Now_Levelに設定する(S4)。
その後、S3で検出した音声信号が子音であるか母音であるかの判別を行う(S5)。なお、S5における判別は、例えば、特許2529207号に記載の公知技術や特開平11−249658号に記載の公知技術を用いて行う。
S5の判別が肯定される場合、即ち、S3で検出した音声信号が子音である場合には(S5:Yes)、Now_Con_Flagを「1」に設定して(S6)、カウンタによるカウントアップを開始する(S7)。そして、効果音声信号Bを固定遅延部26から出力する処理である固定遅延処理を実行する(S8)。具体的には、読出アドレスポインタの位置を書込アドレスポインタの位置よりも所定の時間、例えば20msの遅延が生じる位置に設定して、書込ポインタの書込速度と同じ速度でRAM16から分割音声信号の読出を行ない、RAM16から分割音声信号を取得し、その取得した分割音声信号を、効果音声信号Bとしてクロスフェード部27のアンプ27bへ出力する。その後、S17の処理へ移行する。
一方、S5の判別が否定される場合、即ち、S3で検出した音声信号が母音である場合であるが(S5:No)、以下に述べる2つの場合にしゃくり初期設定処理13が行なわれることを説明する。S3で検出した音声信号が母音である場合は、Now_Con_Flagを「0」に設定して(S9)、Now_Levelの値が閾値Lcより大きいか否かを判定する(S10)。S10の判定が肯定される場合、即ち、Now_Levelの値が閾値Lcより大きい場合(S10:Yes)、次の処理として以下の第1あるいは第2のような2つの処理が想定される。
まず、第1の処理として、Old_Con_Flagが「1」であるか否か、即ち、前回判別した音声信号が子音であるか否かが判定される(S11)。そして、Old_Con_Flagが「1」であると判定されると(S11:Yes)、前回の音声信号が子音であったのが今回新たに子音から母音に切りわったものとみなし、次のS12の処理が行われる。S12では、カウンタのカウント値を示す変数tが、即ち、カウンタのカウント開始からの経過時間が、予め定められた時間Ts以上となっているか否かを判定する。変数tが、時間Ts以上である場合には(S12:Yes)、効果音声制御部23から可変遅延部24へ、しゃくりトリガを出力して、ピッチの変更方向およびピッチの変更量を決定するしゃくり初期値設定処理を実行する(S13)。
ただし、変数tが、予め定められた時間Ts未満である場合には(S12:No)、効果音声信号Aが過度に頻繁に生成されることを防止するために、S13のしゃくり初期値設定処理に移行することなく、S15の処理へ移行する。
第2の処理として、S11の判定で、Old_Con_Flagが「0」であると判定された場合には、即ち、DSP_IN端子に入力された音声信号が母音であると前回判別されていた場合には(S11:No)、Old_Levelの値が閾値Lcよりも大きいか否かが判定される(S14)。そして、Old_Levelの値が閾値Lc以下であると判定されると(S14:No)、S12の判定へ移行し、S12の判定が肯定された場合には(S12:Yes)、しゃくり初期値設定処理を実行する。つまり、しゃくり初期値設定処理は、前回判別された音声信号が母音であり、今回判別された分割音声信号も母音であるときに、前回判別された母音の入力レベルが閾値Lc以下であり、且つ、今回判別された母音の入力レベルが閾値Lcを超える場合に、変数tが予め定められた時間Ts以上であれば、しゃくり初期値設定処理が実行される。なお、S14の判定が肯定された場合には(S14:Yes)、母音の入力レベルが閾値Lcよりも大きい状態が前回から今回にかけて継続しているので、S12の処理へ移行せず(S13のしゃくり初期値設定処理を中止して)、S15の処理へ移行する。
上述した第1の処理および第2の処理は、即ち、A.S3で検出した音声信号の音量レベルが閾値Lcを超え(S10:Yes)、更に音声信号が子音から母音に新たに変化した場合(S11:Yes)、B.S3で検出した音声信号の音量レベルが閾値Lcを超え(S10:Yes)、かつ母音であり(S5:No)、かつ母音が継続している状態で(S11:No)、更にその音量レベルが前回は閾値Lc以下(S14:Yes)だったのが今回新たに閾値Lcを超えて変化した場合(S14:No)、という2つの場合に加え、更に子音または音量が閾値以下の状態が予め定められた時間Ts以上継続した場合(S12:Yes)に、しゃくり初期値設定処理(S13)が行われるということである。
なお、S10の判定で、Now_Levelの値が閾値Lc以下であると判定された場合には(S10:No)、DSP_IN端子に入力された音声信号が母音であっても、その母音の入力レベルは小さいものに過ぎないので、しゃくりを模擬した効果を付与する対象とはみなされず、S7の処理を実行する(S13のしゃくり初期値設定処理に移行することなく、S7の処理を実行する)。なお、ダブリング処理では、S3で検出した音声信号が無音である場合にも、S10の判別でNoと判定される。
S12による否定の判定後、S13の実行後、或いは、S14による肯定の判定後、カウントを停止すると共にカウンタをゼロクリアし(S15)、可変遅延処理を実行する(S16)。その後、S17の処理へ移行する。
ここで、図4を参照して、可変遅延処理について説明する。図4は、可変遅延部24で実行される可変遅延処理を示したフローチャートである。この可変遅延処理(S16)では、しゃくり初期値設定処理(S13)が実行された場合は、後述するS20〜S24の全ての処理が実行される。しかし、しゃくり初期値設定処理(S13)が実行されない場合(例えば入力された音声信号の音量レベルが前回も今回も閾値Lcを超えており、かつ前回も今回も母音である場合や、特に閾値Lcを超える音量レベルで母音が十分長い時間継続している場合など)は、しゃくりの模擬によるピッチ変化は、しゃくり減衰設定処理によって十分に収束した状態となっているので、可変遅延処理では、固定遅延部26と同様の遅延処理(S20)に加えて、発生部Rbからの変調信号によるビブラートを加えるビブラート処理(S21)のみが行われる。よって、可変遅延部24から出力される効果音声信号Aは、しゃくりを模擬した効果を含まず、遅延処理とビブラート処理によるピッチ変更とが行われた信号となる。
可変遅延処理では、まず、遅延処理を実行する。この遅延処理では、固定遅延部26で設定される所定の時間と同じ時間、遅延を行う。次に、ビブラート処理を実行する(S21)。このビブラート処理では、S13の処理で決定されたピッチの変更方向およびピッチの変更量で、分割音声信号のピッチを変更する場合に、その変更するピッチに付与する揺れの量(ビブラート)を決定する。
次に、しゃくり減衰設定処理を実行する(S22)。このしゃくり減衰設定処理では、しゃくり初期値設定処理で決定されたピッチの変更方向およびピッチの変更量で、分割音声信号のピッチを変更する場合に、経過時間に対応するその変更量をゼロに収束させるための減衰の度合い(減衰速度)を示す減衰関数を決定する。
そして、ピッチ最終変化決定処理を実行する(S23)。このピッチ最終変化決定処理では、しゃくり初期値設定処理(S13)、ビブラート処理(S21)およびしゃくり減衰設定処理(S22)の3つの処理結果を合算してピッチの変更方向の情報も含めた最終ピッチ変更量を求める。
最後に、分割音声信号取得処理を実行する(S24)。この分割音声信号取得処理では、S23の処理で決定された最終ピッチ変更量に応じて、遅延処理(S20)により設定される読出しポインタの位置を基準に、読出アドレスポインタの読出位置をジャンプさせるとともに、アドレス読出速度をデフォルト値から増減させる。そして、読出アドレスポインタの読出位置とアドレス読出速度とに対応して、可変遅延部24は、RAM16から分割音声信号を取得し、その取得した分割音声信号を、効果音声信号Aとして、クロスフェード部27のアンプ27aへ出力する。その後、この可変遅延処理を終了する。
このように、可変遅延部24では、ピッチ最終変化決定処理の実行による遅延およびピッチ変化が、最終的に、処理効果信号Aに対して付与される。なお、ビブラート処理のランダム変調を除くピッチ最終変化決定処理での遅延処理(S20)については、例えば前述したような閾値Lcを超える音量レベルで母音が十分長い時間継続しているような場合であって、しゃくり初期値設定処理(S13)が実行されない状態では、固定遅延部26の遅延処理と同一の遅延処理を行うことで、クロスフェード部27による効果音信号A、B間の経路切換え時に互いの信号の位相をそろえる効果を得る。これにより自然なクロスフェード処理が可能となる。
図3の説明に戻る。可変遅延処理(S16)、または、固定遅延処理(S8)の実行後、クロスフェード処理を実行する(S17)。このクロスフェード処理では、可変遅延部24から出力された効果音声信号Aと固定遅延部26から出力された効果音声信号Bとを、クロスフェード部27でクロスフェードした後に、ミキサ28へ出力する。その後、振幅のランダム変調処理を実行する(S18)。この振幅のランダム変調処理では、ミキサ28で混合された混合信号の振幅を、ランダム信号発生部25の発生部Rc(25c)から出力されたランダム信号に対応して変化させ、最終段ミキサ31へ出力する。S18の実行後、S2の処理へ戻る。
上述した通り、本実施形態のダブリングエフェクタ1によれば、入力された音声信号が子音から母音へ切り換わり、かつその切り換わった母音の入力レベルが閾値Lcよりも大きく、更には、変数tが予め定められた時間Ts以上である場合には、しゃくり初期値設定処理を実行して、その後、可変遅延処理を実行する。この、しゃくり初期値設定処理および可変遅延処理で、分割音声信号のピッチを変更することで、しゃくりを模擬した効果を含む効果音声信号Aを生成することができる。ここで、子音とは、母音(a,i,u,e,oの各音)以外の音、即ち、破裂音(b,d,g,p,t,kの各音)、摩擦音(v,z,f,sの各音)、鼻音(m,nの各音)、流音(l,rの各音)である。よって、音声信号の子音から母音への切り換わりが、例えば、有声音である鼻音や流音から、有声音である母音へと変化する状態であってもなお、効果音声信号Aを生成することができる。従って、ダブリングエフェクタ1によれば、有声音と無声音を判断して同様のしゃくりを模擬する場合に比べて、よりしゃくりを模擬する頻度を高めることができる。
また、ダブリングエフェクタ1によれば、前回判別された音声信号が母音であり、今回判別された分割音声信号も母音であるときに、前回判別された母音の入力レベルが閾値Lc以下であり、且つ、今回判別された母音の入力レベルが閾値Lcを超える場合に(今回判別された母音の入力レベルの増加量が所定量を超える場合に)、変数tが予め定められた時間Ts以上であれば、このときも、しゃくり初期値設定処理を実行し、その後、可変遅延処理を実行して効果音声信号Aを生成する。よって、入力された音声信号が子音から母音へと変化する場合のみならず、入力された音声信号が上述した条件を満たした上で母音から母音へと変化する場合にもやはりしゃくりを模擬して、その頻度を高めることができる。
また、ダブリングエフェクタ1によれば、入力された音声信号が母音であることが検出された場合でも、その母音の入力レベルが閾値Lc以下である場合には(S10:No)、S13のしゃくり初期値設定処理を行わない一方で、効果音声信号Bを生成する。よって、検出された母音の入力レベルに関わらず、入力された音声信号が子音から母音へ切り換わる度に、過度に頻繁に効果音声信号Aを生成する場合と比較して、音量が小さい場合にはしゃくりを入れない処理を行うことでしゃくりの発生する頻度を減らし、効果音声信号Aの生成を実際の歌唱で生ずるしゃくりの頻度に近づけて、より違和感のない範囲の頻度に留めることができる。
また、ダブリングエフェクタ1では、入力された音声信号の子音から母音への切り換わりが検出され、その切り換わった母音の入力レベルが閾値Lcよりも大きい場合であっても、或いは、前回判別された音声信号が母音であり、今回判別された分割音声信号も母音であるときに、今回判別された母音の入力レベルの増加量が所定量を超える場合であっても、変数tが予め定められた時間Ts未満であれば、しゃくり初期値設定処理を実行しない(しゃくり初期値設定処理の実行を中止する)。よって、変数tが予め定められた時間Ts以上であるかを判定することなく効果音声信号Aを生成する場合、即ち、入力された音声信号が子音から母音へ切り換わる度に、或いは、入力された音声信号が母音から母音へと変化する度に、その都度頻繁に、効果音声信号Aを生成する場合と比較して、しゃくりの発生する頻度は減り、効果音声信号Aの生成を違和感のない範囲に留めることができる。このことは、実際の歌唱でのしゃくりが入る場合をより正確に模擬することができる制御である。なぜなら、実際の歌唱を分析すると、歌手がしゃくりを入れる時は、例えば歌い始めの場面で、あるいは歌詞の途中でも特に強調したい歌詞の最初などで、歌手はしゃくりに十分な時間をかけて、歌い手としての思いを、例えばこぶしを利かせるようにしてしゃくりを強調しつつ歌う場面が多いことからである。歌詞の途中で、早い言葉で、たとえばミディアムテンポで16分音符のようなリズムで歌う歌詞の音節の一節一節にしゃくりが入ることはまずないこともわかっている。本願のダブリングエフェクタ1は、このような実際の歌唱の模擬をより正確に行なうことが出来るというわけである。
また、ダブリングエフェクタ1では、可変遅延部24および固定遅延部26は、DSP_IN端子からの音声信号の入力開始から、デフォルト設定としてある所定の時間、例えば20ms遅延して、分割音声信号の取得を開始する。可変遅延部24については、前述したようにしゃくりが模擬されると、ピッチ最終変化幅決定処理でランダムに処理されたピッチ変更幅に応じた遅延量が20ms遅延に加算される。可変遅延部24および固定遅延部26からの分割音声信号をクロスフェード処理することにより、入力された音声信号と混合される効果音声信号を、入力された音声信号に対して、常時遅延させることができる。ここで、遅延させた歌唱をもとの歌唱に加算する手法は、もっとも簡単で手軽に斉唱効果を得る方法として公知の手法である。よって、クロスフェード処理後得られる分割音声信号が常時遅延されることで、DSP_IN端子から音声信号が入力されている期間中、常時、斉唱効果を付与することができる。また、可変遅延部24および固定遅延部26の分割音声信号の取得が、音声信号の入力開始から20ms遅延していることは、この20msの間に、入力された音声信号の音量変化の閾値判定処理や母音・子音の判別判定処理などの一連の処理のための時間を確保できるという点で有利である。よって、システムに負担をかけることなく、かつ簡易な構成で子音または母音の判別処理やしゃくり生成処理を行うことができる。
また、ダブリングエフェクタ1では、ピッチ最終変化決定処理で決定される最終ピッチ変更量を、しゃくりトリガの入力の度にランダムに変化させることで、読出アドレスポインタの読出位置およびアドレス読出速度を、ランダムに変化させることができる。このように、読出アドレスポインタの読出位置およびアドレス読出速度をランダムにさせるという簡易な構成で、効果音声信号で模擬するしゃくりを変化の富んだものにすることができるので、その結果得られる斉唱効果を、決められた一定の変調を効果音声信号で繰り返すのではなく変化の富んだものにすることができる。従って、簡易な構成で、しゃくりの模擬を自然なものにすることができると共に、斉唱効果も、自然なものにすることができる。
また、ダブリングエフェクタ1では、S12の判定で用いられる時間Tsを短くすることで、しゃくり初期値設定処理の実行頻度を上げ(しゃくりの頻度を上げ)、逆に、時間Tsを長くすることで、しゃくり初期値設定処理の実行頻度を下げるようにして(しゃくりの頻度を下げるようにして)、歌唱に合わせてしゃくりの頻度を調整することができる。
更に、ダブリングエフェクタ1では、S10およびS14の判定で用いられる閾値Lcを小さくすることで、しゃくり初期値設定処理の実行頻度を上げ(しゃくりの頻度を上げ)、逆に、閾値Lcを大きくすることで、しゃくり初期値設定処理の実行頻度を下げるようにして(しゃくりの頻度を下げるようにして)、歌唱に合わせてしゃくりの頻度を調整することができる。
以上、本実施形態に基づき本発明を説明したが、本発明は上記形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の変形改良が可能であることは容易に推察できるものである。
また、上述した実施形態のダブリングエフェクタ1では、しゃくり減衰設定処理で決定される減衰関数は、しゃくり初期値設定処理(S13)で設定される分割音声信号のピッチの変更量の初期値を、ゼロに収束させるための関数であったが、減衰関数が収束させる値は、これに限られるものではない。即ち、減衰関数が収束させる値は、ゼロに限らず、しゃくり初期値設定処理(S13)で設定されたピッチの変更量よりも少ない変更量となる値であれば良い。
また、上述した実施形態のダブリングエフェクタ1で使用した時間Tsと閾値Lcとの両方を、或いは、いずれか一方のみを、個別の変調信号、例えば数ヘルツ程度の正弦波を用いて変調をかけたり、さらにその変調波自体をランダムに変調にすることで、しゃくりが発生する条件設定そのものにゆらぎを持たせてもよい。この場合、ダブリングエフェクタは、上述した実施形態のダブリングエフェクタ1と比較して、更に変化にとんだしゃくりを発生させることができる。
上述した実施形態のダブリングエフェクタ1では、前回判別された音声信号が母音であり、今回判別された分割音声信号も母音であるときに、前回判別された母音の入力レベルが閾値Lc以下であり(S14:No)、且つ、今回判別された母音の入力レベルが閾値Lcを超える場合に(S10:Yes)、S12の判定を実行したが、これに限られるものではない。即ち、S10およびS14の2つの判定を実行することなく、前回判別された母音の入力レベルから今回判別された母音の入力レベルの増加分(変化分)を算出し、その増加分が、規定の値を超えていれば、S12の処理を実行するように構成しても良い。この構成によれば、S12の処理への移行を、母音の入力レベルの増加分で判定することができる。
1 ダブリングエフェクタ(効果装置)
12 DSP(効果付与手段の一部、出力手段の一部)
16 RAM(遅延取得手段の一部)
21 子音判別部(判別手段)
22 レベル検出部(振幅判定手段)
24 可変遅延部(更手段、束手段の一部、実行手段の一部
25a 発生部Ra(ピッチ変化手段、収束変化手段)
25b 発生部Rb(揺れ付与手段)
S5 ダブリング処理(検出手段の一部)
S10 ダブリング処理(母音振幅判定手段)
S11 ダブリング処理(連続母音検出手段)
S12 ダブリング処理(計時判定手段)
S12:Yes ダブリング処理(時間判定許可手段)
S14 ダブリング処理(振幅増加量判定手段)
S16 可変遅延処理(束手段の一部、延取得手段の一部)
S23 ピッチ最終変化決定処理(束手段の一部、実行手段の一部、
IN端子(入力手段)
OUT端子(出力手段の一部)
Now_Con_Flag(検出手段の一部)
Old_Con_Flag(検出手段の一部)
カウンタ(計時手段)
ダブリング処理(効果付与手段の一部)

Claims (4)

  1. 音声信号が入力される入力手段と、その入力手段から入力された音声信号を所定タイミング毎に取得し、その取得した音声信号に効果を付与する効果付与手段と、その効果付与手段により効果が付与された音声信号である効果音声信号を、前記入力手段から入力された音声信号と混合して出力する出力手段とを備えた効果装置において、
    前記効果付与手段は、
    前記入力手段に入力された音声信号が母音または子音であるかを前記所定タイミングに対応して判別する判別手段と、
    その判別手段により判別された音声信号が、子音から母音へ切り換わったことを検出する検出手段と、
    少なくとも、前記音声信号の子音から母音への切り換わりが前記検出手段によって検出された場合に、前記所定タイミングで取得される音声信号のピッチを変更する変更手段と、
    その変更手段により前記音声信号のピッチが変更される場合、前記音声信号のピッチの変更量を、所定の関数で示される度合いで規定量に収束させる収束手段と、
    その収束手段により前記ピッチの収束が行われている音声信号を前記効果音声信号として前記出力手段へ出力する出力実行手段とを備えていることを特徴とする効果装置。
  2. 前記効果付与手段は、
    前記音声信号の子音から母音への切り換わりが前記検出手段によって検出される場合に、その母音へ切り換わった前記音声信号の振幅を検出し、その検出した振幅が第1閾値以上であるかを判定する振幅判定手段を備え、
    記変更手段は、
    前記母音へ切り換わる音声信号の振幅が第1閾値以上であると前記振幅判定手段によって判定された場合に、前記所定タイミングで取得される音声信号のピッチを変更することを特徴とする請求項1記載の効果装置。
  3. 前記効果付与手段は、
    前記入力手段に入力された音声信号が母音であると前記判別手段により判別された場合に、その入力された母音の音声信号における振幅が第2閾値以上であるかを判定する母音振幅判定手段と、
    前記入力された母音の音声信号における振幅が前記第2閾値以上であると前記母音振幅判定手段によって判定された場合に、前記判別手段により前回判別された音声信号も母音であったかを検出する連続母音検出手段と、
    前回判別された音声信号も母音であったと前記連続母音検出手段によって検出された場合に、前記入力された母音の音声信号における振幅増加量を検出し、その検出した振幅増加量が所定値以上であるかを判定する振幅増加量判定手段とを備え、
    前記変更手段は、
    前記入力された母音の音声信号における振幅増加量が所定値以上であると前記振幅増加量判定手段により判定された場合に、前記所定タイミングで取得される音声信号のピッチを変更することを特徴とする請求項1または2に記載の効果装置。
  4. 前記効果付与手段は、
    前記入力された母音の音声信号における振幅が前記第2閾値よりも小さいと前記母音振幅判定手段によって連続して判定され続けた時間と、前記入力手段に入力された音声信号が子音であると前記判別手段によって連続して判別され続けた時間との合計時間を計時する計時手段と、
    その計時手段により計時された前記合計時間が所定時間を超えたかを判定する計時判定手段とを備え、
    記変更手段は、
    前記合計時間が前記所定時間を超えたと前記計時判定手段によって判定された場合に、前記所定タイミングで取得される音声信号のピッチ変更を許可する時間判定許可手段を備えていることを特徴とする請求項3記載の効果装置。
JP2009201008A 2009-08-31 2009-08-31 効果装置 Expired - Fee Related JP5479823B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009201008A JP5479823B2 (ja) 2009-08-31 2009-08-31 効果装置
US12/871,829 US8457969B2 (en) 2009-08-31 2010-08-30 Audio pitch changing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009201008A JP5479823B2 (ja) 2009-08-31 2009-08-31 効果装置

Publications (3)

Publication Number Publication Date
JP2011053371A JP2011053371A (ja) 2011-03-17
JP2011053371A5 JP2011053371A5 (ja) 2012-10-11
JP5479823B2 true JP5479823B2 (ja) 2014-04-23

Family

ID=43626151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009201008A Expired - Fee Related JP5479823B2 (ja) 2009-08-31 2009-08-31 効果装置

Country Status (2)

Country Link
US (1) US8457969B2 (ja)
JP (1) JP5479823B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9843825B1 (en) * 2016-06-10 2017-12-12 Apple Inc. Distributed and synchronized media switching
EP3508284A4 (en) * 2016-08-31 2020-04-08 Takenaka Corporation SYSTEM FOR CLEANING CONTAMINATED FLOOR
JP6992612B2 (ja) * 2018-03-09 2022-01-13 ヤマハ株式会社 音声処理方法および音声処理装置
CN109348274B (zh) * 2018-09-12 2021-03-23 咪咕音乐有限公司 一种直播互动方法、装置及存储介质
US10981073B2 (en) * 2018-10-22 2021-04-20 Disney Enterprises, Inc. Localized and standalone semi-randomized character conversations

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3333022B2 (ja) * 1993-11-26 2002-10-07 富士通株式会社 歌声合成装置
JP2838977B2 (ja) * 1995-01-17 1998-12-16 ヤマハ株式会社 カラオケ装置
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
GB2371948B (en) * 2001-02-02 2005-09-14 Nokia Mobile Phones Ltd Mobile telecommunications device
US20040066404A1 (en) * 2002-10-08 2004-04-08 Bellsouth Intellectual Property Corporation Adding contacts to recipient list
JP3903975B2 (ja) * 2003-09-30 2007-04-11 ヤマハ株式会社 楽音処理装置、楽音処理方法及び楽音処理プログラム

Also Published As

Publication number Publication date
JP2011053371A (ja) 2011-03-17
US8457969B2 (en) 2013-06-04
US20110054886A1 (en) 2011-03-03

Similar Documents

Publication Publication Date Title
JP3598598B2 (ja) カラオケ装置
JP5479823B2 (ja) 効果装置
JP5799966B2 (ja) 採点装置及びプログラム
CN111739495B (zh) 伴奏控制装置、电子乐器、控制方法以及记录介质
JP2011053371A5 (ja)
US5998725A (en) Musical sound synthesizer and storage medium therefor
WO2015060340A1 (ja) 歌唱音声の合成
JP2007310204A (ja) 楽曲練習支援装置、制御方法及びプログラム
JPH11184490A (ja) 規則音声合成による歌声合成方法
JP4163584B2 (ja) カラオケ装置
JP4038836B2 (ja) カラオケ装置
JP3645030B2 (ja) 電子楽器
JP6171393B2 (ja) 音響合成装置および音響合成方法
JP4123583B2 (ja) カラオケ装置
JP5141407B2 (ja) 楽曲再生装置
JPH08286689A (ja) 音声信号処理装置
JP3645364B2 (ja) 周波数検出装置
JP3613859B2 (ja) カラオケ装置
JP4081859B2 (ja) 歌声発生装置およびカラオケ装置
JPH08328555A (ja) 演奏制御装置
JP4296767B2 (ja) ブレス音合成方法、ブレス音合成装置およびプログラム
JPH10143177A (ja) カラオケ装置
JP2734797B2 (ja) 電子楽器
JP3517315B2 (ja) カラオケ装置
JP6295691B2 (ja) 楽曲処理装置および楽曲処理方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120823

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140213

R150 Certificate of patent or registration of utility model

Ref document number: 5479823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees