JP2006145867A - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP2006145867A
JP2006145867A JP2004336224A JP2004336224A JP2006145867A JP 2006145867 A JP2006145867 A JP 2006145867A JP 2004336224 A JP2004336224 A JP 2004336224A JP 2004336224 A JP2004336224 A JP 2004336224A JP 2006145867 A JP2006145867 A JP 2006145867A
Authority
JP
Japan
Prior art keywords
audio signal
time length
audio
unit
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004336224A
Other languages
English (en)
Other versions
JP4701684B2 (ja
Inventor
Hidenori Kenmochi
秀紀 劔持
Bonada Jordi
ボナダ ジョルディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2004336224A priority Critical patent/JP4701684B2/ja
Priority to EP05110717A priority patent/EP1659569B1/en
Priority to US11/273,749 priority patent/US8170870B2/en
Priority to DE602005006217T priority patent/DE602005006217T2/de
Publication of JP2006145867A publication Critical patent/JP2006145867A/ja
Application granted granted Critical
Publication of JP4701684B2 publication Critical patent/JP4701684B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/245Ensemble, i.e. adding one or more voices, also instrumental voices
    • G10H2210/251Chorus, i.e. automatic generation of two or more extra voices added to the melody, e.g. by a chorus effect processor or multiple voice harmonizer, to produce a chorus or unison effect, wherein individual sounds from multiple sources with roughly the same timbre converge and are perceived as one
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】 多様な特性をもった自然な音声を生成する。
【解決手段】 生成手段10は周期Taの音声信号Saを生成する。分配手段20は、生成手段10が生成した音声信号Saを第1系統と第2系統とに分配する。遅延手段30は、第1系統の音声信号Sb1と第2系統の音声信号Sb2との位相差が、音声信号Saの周期Taの略半分である第1の時間長L1と当該第1の時間長L1よりも短い第2の時間長L2との加算値または差分値に相当する位相差となるように、第1系統の音声信号Sa1を第2系統の音声信号Sa2に対して遅延させる。増幅手段40は、第1系統の音声信号Sc1と第2系統の音声信号Sc2との振幅比が所定の数値となるように音声信号Sb1およびSb2を増幅する。加算手段50は、音声信号Sc1と音声信号Sc2とを加算して出力する。
【選択図】 図2

Description

本発明は、音声信号を処理する技術の分野に属し、特に、音声信号に効果を付与して出力する技術に関する。
所望の特性の音声を生成する各種の技術が従来から提案されている。例えば、特許文献1には、いわゆるハスキーボイスを合成する技術が開示されている。この技術においては、特定の音声を示す音声信号に対してフレームごとにSMS(Spectral Modeling Synthesis)分析が実施されることにより調和成分と非調和成分とが周波数領域のデータとして抽出されて音声素片(音素または音素連鎖)が生成される。そして、実際に音声を合成する場合には、所望の音韻(例えば歌詞)に対応する音声素片が相互に連結されたうえで調和成分と非調和成分とが加算され、この加算の結果に対してフレームごとに逆FFT処理を実施することによって音声信号が生成される。この構成において、調和成分に加算される非調和成分の態様を適宜に変化させることによって所望の特性(ハスキーボイスの特性)をもった音声信号を生成することができる。
特開2002−202790号公報(段落0049および段落0050)
ところで、現実の人間の肉声は、その波形の周期が不規則に時々刻々と変化していく場合がある。濁声(いわゆるダミ声)など個性的な音声においてはこの傾向が特に顕著である。しかしながら、上述した従来の技術にあっては、フレームを単位とした周波数領域での処理によって音声が合成されるため、この合成された音声信号の周期はひとつのフレーム内において必然的に一定となる。したがって、この技術によって生成される音声は、周期の変動が実際の人間の肉声よりも少なく機械的で不自然な音声になりやすいという問題が生じ得る。なお、ここでは音声素片の連結によって音声を合成する場合を例示したが、利用者が発声した音声の特性を変化させて出力する技術においても同様の問題が生じ得る。すなわち、この技術においても、マイクロホンなどの収音機器から供給される音声信号がフレームごとに周波数領域のデータに変換され、その周波数特性をフレームごとに適宜に変化させたうえで時間領域の音声信号が生成されるから、ひとつのフレームにおける周期は一定となる。したがって、この技術にあっても、特許文献1の技術と同様に、実際の人間の肉声に近い自然な音声を生成するには限界がある。本発明は、このような事情に鑑みてなされたものであり、多様な特性をもった自然な音声を生成することを目的としている。
この課題を解決するために、本発明に係る音声処理装置の第1の特徴は、音声を示す音声信号を生成する生成手段と、生成手段が生成した音声信号を第1系統と第2系統とに分配する分配手段と、第1系統の音声信号と第2系統の音声信号との位相差が、生成手段が生成した音声信号の周期の略半分である第1の時間長と当該第1の時間長よりも短い(更に具体的には第1の時間長の略半分よりも短い)第2の時間長との加算値または差分値に相当する位相差となるように、第1系統の音声信号を第2系統の音声信号に対して遅延させる遅延手段と、遅延手段によって位相差が付与された第1系統および第2系統の音声信号を加算して出力する加算手段とを具備することにある。なお、この構成の具体例は第1実施形態として後述される。
この構成によれば、各系統に分岐された音声信号の位相差が、生成手段が生成した音声信号の周期の略半分である第1の時間長と当該第1の時間長よりも短い第2の時間長との加算値または差分値に相当する位相差となるように、第1系統の音声信号が第2系統の音声信号に対して遅延させられるから、各系統の音声信号を加算して得られる音声信号は周期が一波ごとに変動する波形となる。したがって、本発明によれば、実際の人間の嗄れ声や濁声を模した自然な音声を生成することができる。
なお、本発明における遅延手段は、ひとつの遅延部によって実現されてもよいし(例えば図12参照)、第1の時間長および第2の時間長の各々に対応する複数の遅延部によって実現されてもよい。後者の構成において、遅延手段は、遅延量算定手段が算定した第1の時間長だけ第1系統の音声信号を第2系統の音声信号に対して遅延させる第1遅延部(例えば図4の遅延部31)と、第1の時間長よりも短い第2の時間長だけ第1系統の音声信号を第2系統の音声信号に対して遅延させる第2遅延部(例えば図4の遅延部32)とを有する。
本発明の望ましい態様においては、生成手段が生成した音声信号の振幅を特定する振幅特定手段が設けられ、遅延手段は、振幅特定手段が特定した振幅に応じて第2の時間長を変化させる。この態様によれば、生成手段が生成した音声信号の振幅に応じて第2の時間長が変更されるから、現実の発声の特性を精度よく再現することができる。例えば、生成手段が生成した音声信号の振幅が大きいほど第2の時間長を長くすれば(すなわち生成手段が生成した音声信号の振幅が小さいほど第2の時間長を短くすれば)、音量が大きいほど濁声としての特性が顕著となるという発声の傾向を再現することができる。この態様の具体例は第1実施形態の第2の態様(図5)として後述される。
更に他の態様においては、第2の時間長を指定するデータを受信し、このデータによって指定される第2の時間長を遅延手段に指定する制御手段が設けられる。この態様によれば、データの内容を適宜に選定することにより、濁声としての特性を適宜なタイミングにて自動的に変更することができる。この態様の具体例は第1実施形態の第3の態様(図7)として後述される。
更に他の態様においては、第1系統の音声信号と第2系統の音声信号との振幅比を調整する増幅手段が設けられ、加算手段は、増幅手段による調整後の第1系統および第2系統の音声信号を加算して出力する。この態様によれば、第1系統の音声信号と第2系統の音声信号との振幅比を増幅手段によって適宜に調整することにより、所望の特性をもった濁声を出力することができる。なお、増幅手段に設定されるゲインを選定する方法は任意である。例えば、利用者が入力機器を操作することによって指定したゲインが増幅手段に設定される構成としてもよいし、生成手段が生成した音声信号の振幅を特定する振幅特定手段が、この特定した振幅に応じて増幅手段のゲインを設定する構成としてもよい。
本発明に係る音声処理装置の第2の特徴は、音声を示す音声信号を生成する生成手段と、生成手段が生成した音声信号を第1系統と第2系統とに分配する分配手段と、第1系統の音声信号と第2系統の音声信号との位相差が、生成手段が生成した音声信号の周期の略半分である第1の時間長に相当する位相差となるように、第1系統の音声信号を第2系統の音声信号に対して遅延させる遅延手段と、第1系統の音声信号の振幅を経時的に変化させる増幅手段と、遅延手段および増幅手段による処理を経た第1系統および第2系統の音声信号を加算して出力する加算手段とを具備することにある。なお、この構成の具体例は第2実施形態として後述される。
この構成によれば、第2系統の音声信号に対して第1の時間長だけ遅延された第1系統の音声信号の振幅が経時的に変化するから、例えば、第1系統の音声信号の振幅を時間の経過とともに増加させていけば、生成手段が生成した音声信号のピッチから時間の経過とともに徐々にその2倍のピッチ(すなわち1オクターブだけ上のピッチ)に遷移していくような自然な音声を生成することができる。なお、本発明におけるピッチとは音声の基本周波数である。
第2の特徴に係る音声処理装置の他の態様においては、生成手段が生成した音声信号の振幅を特定する振幅特定手段が設けられ、増幅手段は、振幅特定手段が特定した振幅に応じて第1系統の音声信号の振幅を変化させる。この態様によれば、ある時点から振幅が徐々に増加していくような音声信号を生成手段が生成した場合に、当初のピッチ(生成手段が生成した音声信号のピッチ)から徐々に1オクターブだけ高いピッチの音声に到達するような音声を生成することができる。この態様の具体例は第2実施形態の第1の態様(図8参照)として後述される。
なお、増幅手段のゲインを設定するための構成はこれに限られない。例えば、他の態様においては、増幅手段のゲインを指定するデータを受信し、このデータによって指定されるゲインを増幅手段に指定する制御手段が設けられる。この態様において、制御手段が、データに基づいて、増幅手段に指定されるゲインを時間の経過とともに増幅させていけば、当初のピッチから徐々に1オクターブだけ高いピッチの音声に遷移していくような自然な音声を生成することができる。この態様の具体例は、第2実施形態の第2の態様(図10)として後述される。
第1および第2の特徴に係る音声処理装置の具体的な態様においては、目標となるピッチ(図3のピッチP0)に対応した周期(図3の周期T0)を第1の時間長として遅延手段に指定する遅延量算定手段が設けられ、生成手段は、目標となるピッチの略半分のピッチの音声信号を生成する。この態様によれば、目標となるピッチに応じた音声を生成することができる。
なお、目標となるピッチを選定する方法やそのピッチの音声信号を生成手段にて生成するための方法は任意である。例えば、生成手段が、目標となるピッチを指定するデータを受信し、このデータによって指定されるピッチの略半分のピッチ(図3のピッチPa)の音声信号を音声素片の連結によって合成し、遅延量算定手段が、データによって指定されるピッチに対応する周期を第1の時間長として算定する構成が採用される(第1および第2実施形態)。また、収音機器から供給される音声信号のピッチを目標となるピッチとして検出するピッチ検出手段を具備する構成においては、遅延量算定手段が、ピッチ検出手段が検出したピッチに対応する周期を第1の時間長として算定し、生成手段が、収音機器から供給される音声信号をピッチ検出手段が検出したピッチの略半分のピッチに変換して出力する(例えば図14参照)。何れの構成においても、多様な特性をもった自然な音声を生成することができる。
なお、本発明の音声処理装置においては、第1の特徴と第2の特徴とを適宜に組み合わせてもよい。例えば、第2の特徴に係る音声処理装置の遅延手段を、第1系統の音声信号と第2系統の音声信号との位相差が、第1の時間長と当該第1の時間長よりも短い第2の時間長との加算値または差分値に相当する位相差となるように、第1系統の音声信号を第2系統の音声信号に対して遅延させる手段としてもよい。また、本発明に係る音声処理装置は音声信号が第1系統と第2系統とに分配される構成として特定されているが、生成手段によって生成された音声信号が更に多数の系統に分配される構成も、このうちのひとつの系統を第1系統として把握するとともに他のひとつの系統を第2系統として把握すれば本発明の範囲に含まれ得る。
本発明に係る音声処理装置は、音声処理に専用されるDSP(Digital Signal Processor)などのハードウェアによって実現されるほか、パーソナルコンピュータなどのコンピュータとプログラムとの協働によっても実現される。本発明の第1の特徴に係るプログラムは、音声を示す音声信号を生成する生成処理と、生成処理にて生成した音声信号を分配した第1系統の音声信号と第2系統の音声信号との位相差が、生成処理にて生成した音声信号の周期の略半分である第1の時間長と当該第1の時間長よりも短い第2の時間長との加算値または差分値に相当する位相差となるように、第1系統の音声信号を第2系統の音声信号に対して遅延させる遅延処理と、遅延処理によって位相差が付与された第1系統および第2系統の音声信号を加算して出力する加算処理とを実行させる内容となる。
また、第2の特徴に係るプログラムは、音声を示す音声信号を生成する生成処理と、生成処理にて生成した音声信号を分配した第1系統の音声信号と第2系統の音声信号との位相差が、生成処理にて生成した音声信号の周期の略半分である第1の時間長に相当する位相差となるように、第1系統の音声信号を第2系統の音声信号に対して遅延させる遅延処理と、第1系統の音声信号の振幅を経時的に変化させる増幅処理と、遅延処理および増幅処理を経た第1系統および第2系統の音声信号を加算して出力する加算処理とを実行させる内容となる。
これらのプログラムによっても本発明の第1および第2の特徴に係る音声処理装置と同様の作用および効果が得られる。なお、本発明に係るプログラムは、CD−ROMなどコンピュータ読み取り可能な記録媒体に格納された形態にて利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態にてサーバ装置から提供されてコンピュータにインストールされる。
また、本発明は、音声を処理するための方法としても特定される。すなわち、第1の特徴に係る音声処理方法は、音声を示す音声信号を生成する生成過程と、生成過程にて生成した音声信号を分配した第1系統の音声信号と第2系統の音声信号との位相差が、生成過程にて生成した音声信号の周期の略半分である第1の時間長と当該第1の時間長よりも短い第2の時間長との加算値または差分値に相当する位相差となるように、第1系統の音声信号を第2系統の音声信号に対して遅延させる遅延過程と、遅延過程にて位相差が付与された第1系統および第2系統の音声信号を加算して出力する加算過程とを有する。また、第2の特徴に係る音声処理方法は、音声を示す音声信号を生成する生成過程と、生成過程にて生成した音声信号を分配した第1系統の音声信号と第2系統の音声信号との位相差が、生成処理にて生成した音声信号の周期の略半分である第1の時間長に相当する位相差となるように、第1系統の音声信号を第2系統の音声信号に対して遅延させる遅延過程と、第1系統の音声信号の振幅を経時的に変化させる増幅過程と、遅延過程および増幅過程を経た第1系統および第2系統の音声信号を加算して出力する加算過程とを有する。
以上のように、本発明によれば、多様な特性をもった自然な音声を生成することができる。
本発明に係る音声処理装置は、濁声などの多様な音声を生成するために特に好適に利用される。そこで、本発明に係る音声処理装置の形態の説明に先立ち、濁声を示す音声信号の波形について説明する。図1の部分(b)は、濁声を示す音声信号Soutの時間軸T上における波形を示す図である。同図における縦軸は振幅Aである。また、同図の部分(a)には、嗄れや濁りのない明瞭な音声(いわゆる澄んだ音声)を示す音声信号S0が対比のために併記されている。図1の部分(a)に示されるように、音声信号S0の波形は、繰り返しの単位となる波形(以下「単位波形」という)Uが時間軸上に等間隔に配列された形状となる。この音声信号S0において各単位波形Uの周期T0は略等しい。これに対し、図1の部分(b)に示されるように、濁声を示す音声信号Soutの波形は、互いに周期が相違する2種類の単位波形U(U1およびU2)が時間軸上にて交互に配列された形状となる。例えば、図1の部分(b)において、単位波形U1の周期T1はその直後に連なる単位波形U2の周期T2よりも長く、さらにこの周期T2は単位波形U2の直後の単位波形U1の周期T1よりも短い。
<A:第1実施形態>
まず、図2を参照して、本発明の第1実施形態に係る音声処理装置の構成を説明する。この音声処理装置Dは、図1の部分(b)に示されるような濁声の音声信号Soutを生成するための装置であり、図2に示されるように、生成手段10と分配手段20と遅延手段30と増幅手段40と加算手段50とを有する。なお、生成手段10、遅延手段30、増幅手段40および加算手段50の各々は、音声信号の処理に専用されるDSPなどのハードウェアによって実現されてもよいし、CPU(Central Processing Unit)などの演算処理装置がプログラムを実行することによって実現されてもよい。
図2に示される生成手段10は、時間領域の音声信号(すなわち実際の音波の波形に相似する波形の信号)Saを生成する手段である。更に詳述すると、生成手段10は、図3の部分(b)に示されるような波形の音声信号Saを生成する。一方、同図の部分(a)には、音声処理装置Dが生成すべき音声信号Soutと同等のピッチP0(目標となるピッチ)を有する音声信号S0の波形が他の音声信号との対比のために併記されている。この音声信号S0は、図1の部分(a)に示したように、聴感上において明瞭(つまり嗄れ声や濁声ではない)と知覚される音声を示す信号である。図3の部分(b)に示されるように、生成手段10が生成する音声信号Saは、音声信号S0よりも1オクターブだけ低い音声を示す。すなわち、生成手段10は、目標となるピッチP0の略半分のピッチPa(周期Ta)の音声信号Saを生成する。
図2に示される分配手段20は、生成手段10が生成した音声信号Saを第1系統の音声信号Sa1と第2系統の音声信号Sa2とに分配する手段である。図2においては、生成手段10の出力端から延在する伝送路を2系統(チャネル)に分岐させることによって分配手段20を実現した場合が例示されている。音声信号Sa1およびSa2は遅延手段30に入力される。この遅延手段30は、第1系統の音声信号Sa1を第2系統の音声信号Sa2に対して相対的に遅延させ、各々を音声信号Sb1およびSb2として増幅手段40に出力する。増幅手段40は、音声信号Sb1と音声信号Sb2との振幅比を適宜に調整し、この調整後の各信号を音声信号Sc1およびSc2として出力する手段である。加算手段50は、増幅手段40から出力された第1系統の音声信号Sc1と第2系統の音声信号Sc2とを加算することにより音声信号Soutを生成して出力する。この音声信号Soutはスピーカやイヤホンなどの放音機器に供給されたうえで音波として放音される。
ここで、図3の部分(c)には、遅延手段30から出力される音声信号Sb2が示され、同図の部分(e)には、遅延手段30から出力される音声信号Sb1が示されている。本実施形態においては、音声信号Sb1と音声信号Sb2との位相差が、音声信号Saの周期Taの略半分である時間長L1とこれよりも短い時間長L2との加算値(L1+L2)に相当する位相差となるように、音声信号Sa1を音声信号Sa2に対して遅延させる。更に詳述すると、遅延手段30は、第1に、音声信号Sa1を音声信号Saの周期Taの略半分(すなわち目標となるピッチP0に対応する周期T0)に等しい時間長L1だけ遅延させることにより、図3の部分(d)に示される音声信号Sa1’を生成し、第2に、この音声信号Sa1’を時間長L1よりも短い時間長L2だけ遅延させることにより、図3の部分(e)に示される音声信号Sb1を生成する。いま、仮に音声信号Sa1’と音声信号Sb2とを加算したとすると、その加算によって生成される音声信号Soutは、図1の部分(a)や図3の部分(a)に示されるように、各々の周期T0が等しい多数の単位波形Uが等間隔に配置された波形となる。これに対し、音声信号Sa1’を更に時間長L2だけ遅延させた音声信号Sb1を音声信号Sb2と加算すると、図1の部分(b)や図3の部分(f)に示されるように、各々の周期が相違する各単位波形U(U1やU2)を時間軸上にて交互に配列した波形の音声信号Soutが生成される。上述したように、このような特性の音声信号Soutは、濁声など表情に富んだ個性的な音声を示す信号である。
以上のように、本実施形態においては、目標のピッチP0の略半分のピッチPaとされた時間領域の音声信号Saが2系統に分岐され、各系統の音声信号Sa1およびSa2が時間長L1と時間長L2との加算値に相当する位相差を付与されたうえで相互に加算されることによって音声信号Soutが生成される。このように音声信号が時間領域にて(フレームに区分することなく)処理されるから、図1の部分(b)に示したように、各単位波形Uの時間長が時々刻々と変化する音声、すなわち実際の人間の濁声に近い自然な音声を生成することができる。以下では、図2に示した音声処理装置Dの更に具体的な態様を説明する。なお、以下に示す各図において同様の作用を営む部分については共通の符号が付されている。
<A1:第1の態様>
図4は、第1の態様に係る音声処理装置の構成を示すブロック図である。本態様に係る音声処理装置Da1の生成手段10は、外部から入力されるピッチデータDpおよび音韻データDvに基づいて音声素片を連結することによって音声信号Saを合成する手段である。ピッチデータDpは、音声処理装置Da1から出力されるべき音声信号Soutのピッチを指定するデータであり、音韻データDvは、音声信号Soutが示す音声の音韻を指定するデータである。例えば音声処理装置Da1を歌唱合成装置に適用した場合、楽曲の音程(音符)を示すデータがピッチデータDpとして利用され、歌詞の文字を指定するデータが音韻データDvとして利用される。
図4に示されるように、本態様における生成手段10はピッチ変換部11と合成部12とを有する。このうちピッチ変換部11は、外部から供給されたピッチデータDpをそれよりも1オクターブだけ低いピッチPaを示すデータに変換して合成部12に出力する。すなわち、ピッチ変換部11は、目標となるピッチP0の略半分のピッチPaを合成部12に指定する手段である。一方、合成部12は、音韻データDvに応じた音声素片を連結してなる音声信号をピッチデータDpが示すピッチPaに調整することによって音声信号Saを出力する手段である。更に詳述すると、合成部12は、音素または音素連鎖である音声素片を音韻(母音および子音ならびにこれらの組み合わせ)ごとに記憶する記憶手段を備える。そして、合成部12は、第1に、記憶手段に記憶された多数の音声素片のうち音韻データDvに応じた音声素片を順次に選択して連結し、第2に、この音声素片の配列から音声信号を生成し、第3に、この音声信号のピッチをピッチデータDpが示すピッチPaに調整することによって音声信号Saを生成して出力する。もっとも、本発明において音声信号Saを合成するための方法はこれに限られない。合成部12から出力された音声信号Saは分配手段20によって2系統の音声信号Sa1およびSa2に分配される。
本態様における遅延手段30は遅延部31と遅延部32とを有する。このうち遅延部31は、第1系統の音声信号Sa1を時間長L1だけ遅延させて音声信号Sa1’を出力する。一方、遅延部32は、遅延部31から出力された音声信号Sa1’を時間長L2だけ遅延させて音声信号Sb1を出力する。本態様における時間長L2は予め定められた固定値である。これに対し、時間長L1は、音声信号SaのピッチPaに応じて適宜に変更される。図4に示される遅延量算定部61は、この時間長L1を算定して遅延部31に設定する手段である。遅延量算定部61にはピッチデータDpが供給される。遅延量算定部61は、このピッチデータDpが示すピッチP0に対応する周期T0(すなわち音声信号Saの周期Taの略半分の時間長)を算定し、ここで算定した周期T0を時間長L1として遅延部31に指定する。なお、第2系統の音声信号Sa2は遅延処理や増幅処理を施されることなく加算手段50に供給されるが、ここでは説明の便宜のために、遅延手段30から出力される音声信号Sb2と増幅手段40から出力される音声信号Sc2とが符号を区別して表記されている(以下でも同様)。
一方、増幅手段40は、第1系統に対応して配置された増幅部41を有する。この増幅部41は、音声信号Sb1を増幅し、この増幅後の信号を音声信号Sc1として出力する。増幅部41におけるゲインは、図示しない入力機器(例えば操作子を備えたキーボード)に対する操作の内容に応じて適宜に変更される。ここで、増幅部41におけるゲインが増加するほど、音声信号Sc1の振幅は音声信号Sc2の振幅に対して相対的に増大していく。音声信号Soutが示す濁声の特性は音声信号Sc1の影響を大きく受けるから、増幅部41のゲインが増加して音声信号Sc1の振幅が増大するほど、音声信号Soutが示す音声の濁声らしさは増大していく。このように、利用者は、入力機器を適宜に操作することにより、音声処理装置Da1から出力される音声の特性を任意に選定することができる。
以上の構成のもと、生成手段10にて合成された音声信号Saは音声信号Sa1と音声信号Sa2とに分岐され(図3の部分(b)参照)、このうち音声信号Sa1は、音声信号Saの周期の略半分の時間長L1と所定の時間長L2との加算値だけ遅延させられたうえで音声信号Sb1として増幅手段40に出力される(図3の部分(e)参照)。さらに、この音声信号Sb1は増幅部41によって所望の振幅に調整されて音声信号Sc1として出力される。一方、音声信号Sa2は遅延や増幅を経ることなく音声信号Sc2として加算手段50に供給される(図3の部分(c)参照)。そして、音声信号Sc1と音声信号Sc2とは加算手段50にて加算され、この加算によって生成された音声信号Soutが放音機器から音波として出力される。
このように、本態様においては、音声信号Saが音韻データDvおよびピッチデータDpに基づいて合成されるから、様々な楽曲の歌唱音声を濁声として生成することができる。また、遅延部31の遅延量(時間長L1)がピッチデータDpに応じて選定されるから、楽曲のピッチ(音程)に応じた多様な濁声を任意に生成することができる。
<A2:第2の態様>
濁声は、その音量が大きいほど聴感上における特徴が顕著となる傾向がある。例えば、小音量にて発声した音声はそれほど濁っているように聴こえないが、大音量にて発声した音声は相当に濁っているように聴こえるといった具合である。このような傾向を再現するため、本態様に係る音声処理装置Da2は、音声信号Saの音量に応じて遅延部32の遅延量を調整するようになっている。
ところで、音声が濁っているように聴こえる程度(以下「濁声度」という)は、図1の部分(b)に示される周期T1と周期T2との相違が大きいほど増大する。この周期T1と周期T2との相違は、第1系統の音声信号Sc1と第2系統の音声信号Sc2との位相差が時間長L1から離れるほど大きくなる。例えばいま、時間長L2をゼロとした場合を想定すると、音声信号Saの周期Taの略半分に相当する時間長L1だけ音声信号Sc2よりも遅延した音声信号Sc1を音声信号Sc2と加算して得られる音声信号Soutは、図1の部分(a)に示される明瞭な音声のように総ての単位波形Uの周期T0が略等しい波形となるから、濁声としての特徴はほとんど現れない。一方、時間長L2を増加させていくと、音声信号Soutにおける周期T1と周期T2との相違は徐々に増加していくから、この音声信号Soutが示す音声の濁声度も増大していく。すなわち、音声処理装置Da2から出力される音声の濁声度は、遅延部32に設定される遅延量(時間長L2)によって決定されるということができる。そこで、本実施形態においては、音声信号Saの音量に応じて遅延部32に設定される時間長L2が変更されるようになっている。
図5は、本態様に係る音声処理装置の構成を示すブロック図である。同図に示されるように、この音声処理装置Da2は、図4に示した各部に加えて振幅特定部621を備えている。振幅特定部621は、生成手段10(合成部12)から出力される音声信号Saの振幅(音量)を検出し、この振幅に応じた時間長L2を遅延部32に指定する。更に詳述すると、振幅特定部621は、図6に示されるように、音声信号Saの振幅Aが大きいほど長い時間長L2を遅延部32に指定する。ただし、時間長L2が音声信号Saの周期Taの「1/4」を越えると、今度は周期T1と周期T2との相違が減少することになって濁声度は低減されていくから、振幅特定部621は、遅延部に指定する時間長L2を「0」から「1/4Ta」までの範囲内で音声信号Saの振幅Aに応じて変化させる。つまり、図6に示されるように、音声信号Saの振幅Aが所定の閾値Athを越える場合、遅延部に指定される時間長L2は「1/4Ta」となる。このように、本態様によれば、音声信号Saの振幅Aが大きいほど音声信号Soutの濁声度が増大していくから、実際に人間が発声したときの濁声度の変化の傾向を再現することができる。なお、濁声度を変化させるための要素以外の構成や動作は第1の態様と共通である。
<A3:第3の態様>
第1の態様においては遅延部32に設定される時間長L2が予め定められた構成を例示し、第2の態様においては音声信号Saの振幅Aに応じて時間長L2が制御される構成を例示したが、その他の要素によって遅延手段30の遅延量が決定される構成としてもよい。例えば、以下に示されるように、外部から入力されるデータ(以下「制御データ」という)Dcに応じて遅延部32の時間長L2が決定される構成も採用される。
図7は、本態様に係る音声処理装置の構成を示すブロック図である。同図に示されるように、音声処理装置Da3は、図4に示した各要素に加えて制御部631を有する。この制御部631は、外部から入力される制御データDcに基づいて遅延手段30の遅延部32を制御する手段である。制御データDcは、遅延部32の遅延量(時間長L2)を指定するデータであり、例えばMIDI規格に準拠したデータ構造となっている。すなわち、この制御データDcは、時間長L2を指定するイベントデータと各イベントが実行されるタイミングを示すタイミングデータとからなる多数の組がシーケンシャルに配列されたデータである。制御部631は、タイミングデータによって指定されるタイミングが到来すると、そのタイミングデータと対をなすイベントデータが示す時間長L2を遅延部32に対して指定する。この遅延部32は、遅延部31から供給される音声信号Sa1’を、制御部631から指定される時間長L2だけ遅延させて音声信号Sb1として出力する。その他の構成や動作は第1の態様と同様である。
第2の態様にて説明したように、音声信号Soutが示す音声の濁声度は時間長L2によって決定されるから、本態様によれば、制御データDcに応じて音声信号Soutの濁声度を任意のタイミングにて変更することができる。さらに、例えば、本態様に係る音声処理装置Da3を歌唱合成装置に適用した場合、楽曲の演奏と同期したタイミングにて時間長L2が変更されるように制御データDcを作成すれば、楽曲の演奏に伴なう歌唱の興趣性を高めることができる。
<B:第2実施形態>
次に、本発明の第2実施形態に係る音声処理装置について説明する。
第1実施形態においては、増幅手段40のゲインが入力機器への操作に応じて決定される構成を例示した。これに対し、本実施形態においては、遅延手段30に設定される遅延量は時間長L1に維持される一方、増幅手段40のゲインが時間の経過とともに随時に変更されるようになっている。なお、本実施形態に係る音声処理装置Dの構成は図2に示した構成と同様であるため、本実施形態のうち第1実施形態と同様の作用を営む要素については共通の符号を付してその説明を適宜に省略する。
<B1:第1の態様>
図8は、本実施形態の第1の態様に係る音声処理装置の構成を示すブロック図である。同図に示されるように、音声処理装置Db1は、図4に示した各部に加えて振幅特定部622を備えている。この振幅特定部622は、図5に示した振幅特定部621と同様に、生成手段10(合成部12)から出力される音声信号Saの振幅A(音量)を検出する手段である。ただし、本態様における振幅特定部622は、音声信号Saの振幅Aに応じて増幅部41のゲインGを制御する。更に詳述すると、振幅特定部622は、音声信号Saの振幅Aが大きいほど増幅部41のゲインGを増加させる。ただし、音声信号Saの振幅が閾値を越える場合には、増幅部41に指定されるゲインGは所定値を維持する。
図9は、本態様に関わる各音声信号の波形を示す図である。同図の部分(a)においては、音声信号Saの振幅Aが時間の経過とともに徐々に増加していく場合が想定されている。以下では、このときの音声信号Saの振幅Aの増加率を「Ca」と表記する。この増加率Caは、時間軸上において前後する単位波形Uの振幅が変化する度合を示すパラメータであり、より具体的には各単位波形Uのピークを連結した直線の傾きである。図9の部分(b)に示されるように、遅延手段30は、この音声信号Saをその周期Taの略半分に相当する時間長L1だけ遅延させることによって音声信号Sb1を出力する。
一方、増幅手段40の増幅部41は、振幅特定部622による制御のもと、音声信号Saの振幅Aに応じたゲインGで音声信号Sb1を増幅することによって音声信号Sc1を出力する。ここで、図9の部分(c)に示されるように、振幅特定部622は、音声信号Sc1の振幅の増加率Cb(すなわち音声信号Sc1の各単位波形Uのピークを連結した直線の傾き)が音声信号Saの振幅Aの増加率Caよりも大きくなるように、増幅部41に指定するゲインGを音声信号Saの振幅Aに応じて変化させる。一方、音声信号Sa2はそのままの波形を維持したまま音声信号Sc2として加算手段50に供給される。したがって、音声信号Sc1の各単位波形Uにおけるピークの振幅は、それよりも時間長L1だけ手前に現れる音声信号Sc2のピークの振幅よりも大きくなる。
図9の部分(d)には、音声信号Sc1と音声信号Sc2とを加算して生成された音声信号Soutの波形が示されている。同図に示されるように、この音声信号Soutは、音声信号Sc2(=Sa2)に対応するピークp2と音声信号Sc1に対応するピークp1とが周期Taの略半分の時間長(周期T0)ごとに交互に現れる波形となる。このうち音声信号Sc2に対応する各ピークp2の振幅は、時間の経過とともに増加率Caにて増加していく。一方、音声信号Sc1に対応する各ピークp1の振幅は、増加率Caよりも大きい増加率Cbにて時間の経過ともに増加していく。音声信号Saが増加し始めた段階(つまり図9の左側の段階)では、増加率Cbにて増加していくピークp1の振幅がピークp2と比較して充分に大きいため、この音声信号Soutに基づいて放音機器から発せられる音声はピッチPaの音声として利用者に知覚される。一方、音声信号Saの振幅が増加していくとピークp2の振幅はピークp1の振幅に近づいていくから、放音機器から発せられる音声のピッチは徐々にピッチP0に近づいていき、遂にはピークp1の振幅とピークp2の振幅とが一致して、図1の部分(a)に示したピッチP0の音声信号S0と同等の波形となる。つまり、本態様のように増幅部41のゲインGを音声信号Saの振幅Aに応じて徐々に増加させていくことにより、目標となるピッチP0の音声よりも1オクターブだけ低い音声(ピッチPa)から徐々にピッチP0に近づいていく音声を生成することができる。
なお、ここでは音声信号Saからその振幅Aを検出する構成を例示したが、音声信号Saの振幅Aを指定するデータを外部から取得することによってその振幅を特定する構成としてもよい。例えば、図8に破線で示されるように、生成手段10の合成部12が、音声信号Saの振幅Aを指定する音量データDaを外部から受信して当該振幅Aの音声信号Saを合成する構成においては、この音量データDaによって指定される振幅Aに基づいて振幅特定部622が増幅部41のゲインGを制御する構成としてもよい。この場合にも各音声信号Soutの波形は図9(d)に示した形状となる。
<B2:第2の態様>
第1の態様においては、音声信号Saの振幅Aに応じて増幅手段40のゲインGが制御される構成を例示した。これに対し、本態様においては、外部から入力されるデータに応じて増幅手段40のゲインが制御される構成となっている。
図10は、本態様に係る音声処理装置の構成を示すブロック図である。同図に示されるように、音声処理装置Db2は、図4に示した各要素に加えて制御部632を有する。この制御部632は、外部から入力される制御データDcに基づいて増幅手段40の増幅部41を制御する手段である。制御データDcは、増幅部41のゲインGを指定するデータであり、例えばMIDI規格に準拠したデータ構造となっている。すなわち、この制御データDcは、ゲインGを指定するイベントデータと各イベントのタイミングを示すタイミングデータとからなる多数の組が配列されたデータである。制御部632は、タイミングデータによって指定されるタイミングが到来すると、そのタイミングデータと対をなすイベントデータが示すゲインGを増幅部41に対して指定する。本態様においては、増幅部41に指定されるゲインが時間の経過とともに「0」から徐々に「1」まで増加していくように制御データDcが生成されている場合を想定する。
図11は、本態様に関わる各音声信号の波形を示す図である。同図の部分(a)に示されるように、生成手段10が生成したピッチPaの音声信号Saが2系統に分岐される点は第1実施形態と同様である。そして、第2系統の音声信号Sa2はその波形を維持したまま音声信号Sc2として加算手段50に供給される。また、図11の部分(b)に示されるように、第1系統の音声信号Sa1は遅延手段30によって時間長L1だけ遅延されて音声信号Sb1として増幅部41に供給される。一方、制御部632は、制御データDcに従って、増幅部41に指定するゲインを「0」から「1」まで時間の経過とともに増加させていく。したがって、増幅部41から出力される音声信号Sc1は、図11の部分(c)に示されるように、時間の経過とともに振幅Aが増加して最終的に音声信号Sc2と略等しい振幅に到達する波形となる。
図11の部分(d)には、音声信号Sc1と音声信号Sc2とを加算して生成された音声信号Soutの波形が示されている。同図に示されるように、この音声信号Soutは、音声信号Sc2(すなわち音声信号Sa)に対応するピークp2と音声信号Sc1に対応するピークp1とが周期Taの略半分の時間長(周期T0)ごとに交互に現れる波形となる。音声信号Sc2に対応する各ピークp2の振幅Aは略一定(音声信号Saの振幅)を維持する。一方、音声信号Sc1に対応する各ピークp1の振幅Aは、制御データDcに応じて時間の経過とともに徐々に増加していく。したがって、音声信号Soutに基づいて放音機器から発せられる音声は、図11の左方の時点ではピッチPa(すなわち目標となるピッチP0よりも1オクターブだけ低いピッチ)となり、時間の経過とともに徐々にピッチが増大して最終的にはピッチP0に到達する音声となる。このように、本態様によっても第1の態様と同様の効果が奏される。さらに、本態様においては、音声信号Sc1の振幅が音声信号Saとは無関係に制御データDcに応じて制御されるから、音声信号Saの振幅が充分に確保されていれば、たとえ制御データDcがゲイン「0」を示している場合であっても、ピッチPaの音声を明確に出力することができる。
<C:変形例>
各実施形態に対しては種々の変形が加えられる。具体的な変形の態様は以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
(1)第1実施形態の各態様と第2実施形態の各態様とを組み合わせてもよい。例えば、第2実施形態においては遅延手段30の遅延量が時間長L1に設定される構成を例示したが、第1実施形態と同様に時間長L1と時間長L2との加算値が遅延手段30の遅延量として設定される構成も採用される。この構成における時間長L2は、図4の構成のように入力機器への操作に応じて定められてもよいし、図5の構成のように音声信号Saの振幅に応じて定められてもよいし、図7の構成のように制御データDcに応じて定められてもよい。また、例えば、図5の態様と図8の態様とを組み合わせ、振幅特定部62(振幅特定部621の機能と振幅特定部622の機能とを併せ持った手段)が、音声信号Saの振幅Aに応じて遅延部32の時間長L2と増幅部41のゲインGとを制御する構成としてもよい。また、図7の態様と図10の態様とを組み合わせ、時間長L2およびゲインGの双方を指定する制御データDcを受信した制御部63(制御部631の機能と制御部632の機能とを併せ持った手段)が、この時間長L2を遅延部32に指定するとともにゲインGを増幅部41に指定する構成としてもよい。
(2)各実施形態においては、遅延手段30が遅延部31および遅延部32を具備する構成を例示したが、図12に示されるように、遅延手段30がひとつの遅延部33のみを具備する構成も採用される。この構成においても、遅延量算定部61が、外部から供給されるピッチデータDpに応じて時間長L1を算定し、この時間長L1と所定の時間長L2との加算値を遅延量として遅延部33に指定する構成とすれば、第1実施形態と同様の作用が得られる。また、図12においては、第1系統に対応するように遅延部33および増幅部41を配置した構成を例示したが、図13に示されるように、第2系統に対応するように同様の遅延部34および増幅部42を配置した構成も採用される。要するに、本態様においては、第1系統の音声信号Sc1と第2系統の音声信号Sc2との位相差が時間長L1と時間長L2との加算値に相当する位相差となるように音声信号Sa1およびSa2の少なくとも一方が他方に対して相対的に遅延される構成、または、第1系統の音声信号Sc1と第2系統の音声信号Sc2との振幅比が所望の数値となるように音声信号Sb1およびSb2の少なくとも一方が増幅される構成であれば足り、各音声信号に対する遅延や増幅を実現するための構成の如何は不問である。
(3)各実施形態においては、合成部12が音声素片から音声信号Saを合成する構成を例示したが、この構成に代えて、またはこの構成とともに、利用者が実際に発声した音声に応じて音声信号Saが生成される構成も採用される。図14は、本変形例に係る音声処理装置Dの構成を示すブロック図である。同図に示される収音機器70は、利用者が発声した音声を収音してこの音声に応じた音声信号S0を出力する手段(例えばマイクロホン)である。この収音機器70から出力された音声信号S0は生成手段10とピッチ検出部65とに供給される。利用者が濁声でない明瞭な音声を発声した場合、この音声信号S0の波形は図1の部分(a)や図3の部分(a)に示した形状となる。
図14に示されるように、本変形例における生成手段10はピッチ変換部15を有する。このピッチ変換部15は、収音機器70から供給される音声信号S0のピッチP0をその略半分のピッチPaの音声信号Sa(つまり音声信号S0が示す音声に対して1オクターブだけ低い音声を示す信号)に変換して出力する手段である。したがって、ピッチ変換部15から出力される音声信号Saの波形は図3の部分(b)に示した形状となる。音声信号S0のピッチP0をシフトするための方法としては公知である種々の方法が採用される。
一方、ピッチ検出部65は、収音機器70から供給される音声信号S0のピッチP0を検出し、この検出したピッチP0を遅延量算定部61に通知する手段である。遅延量算定部61は、第1の態様と同様に、ピッチP0に対応する周期T0(すなわち音声信号Saの周期Taの略半分の時間長)を算定し、この周期T0を時間長L1として遅延部31に指定する。その他の構成は第1の態様と共通である。この変形例によれば、利用者が発声した音声を濁声に変換して出力することができるから、例えばカラオケ装置などに適用することによって新たな興趣性を提供することができる。なお、図14に示される構成においては、加算手段50から出力される音声信号Soutを収音機器70から出力される音声信号S0と加算したうえで放音機器から音波として出力する構成としてもよい。この構成によれば、利用者の音声とともにその音声から生成された濁声が放音されるから、更に興趣性を高めることができる。
また、音声信号Soutを生成するための基礎となる音声信号Saは予め用意されたものであってもよい。すなわち、音声信号Saを予め記憶手段(図示略)に記憶しておき、この音声信号Saを順次に読み出して分配手段20に供給する構成としてもよい。このように、本発明においては、音声を示す音声信号Saが生成される構成であれば足り、その生成の方法の如何は不問である。
(4)第1実施形態においては、時間長L1と時間長L2との加算値に相当する時間長が遅延手段30による遅延量として設定される構成を例示したが、この遅延手段30に設定される遅延量を時間長L1と時間長L2との差分値(L1−L2)に相当する時間長としても第1実施形態と同様の作用が奏される。
(5)各実施形態においては、遅延手段30の後段に増幅手段40が配置された構成を例示したが、この配置を逆転させてもよい。すなわち、分配手段20から出力された音声信号Sa1および音声信号Sa2を増幅手段40が適宜に増幅して音声信号Sb1およびSb2として出力する一方、遅延手段30が、増幅手段40から出力された音声信号Sb1およびSb2を遅延させて音声信号Sc1およびSc2を出力する構成も採用される。
濁声を示す音声信号の波形を示す図である。 第1実施形態に係る音声処理装置の構成を示すブロック図である。 音声処理装置による処理に関わる音声信号の波形を示す図である。 第1実施形態の第1の態様に係る音声処理装置の構成を示すブロック図である。 第1実施形態の第2の態様に係る音声処理装置の構成を示すブロック図である。 同態様における音声信号Saの振幅と時間長L2との関係を示すグラフである。 第1実施形態の第3の態様に係る音声処理装置の構成を示すブロック図である。 第2実施形態の第1の態様に係る音声処理装置の構成を示すブロック図である。 同態様における各音声信号の波形を示す図である。 第2実施形態の第2の態様に係る音声処理装置の構成を示すブロック図である。 同態様における各音声信号の波形を示す図である。 変形例に係る音声処理装置の構成を示すブロック図である。 変形例に係る音声処理装置の構成を示すブロック図である。 変形例に係る音声処理装置の構成を示すブロック図である。
符号の説明
D(Da1,Da2,Da3,Db1,Db2)……音声処理装置、10……生成手段、11……ピッチ変換部、12……合成部、15……ピッチ変換部、20……分配手段、30……遅延手段、31,32……遅延部、40……増幅手段、41,42……増幅部、50……加算手段、61……遅延量算定部、621,622……振幅特定部、631,632……制御部、65……ピッチ検出部、70……収音機器、Sa1,Sb1,Sc1……第1系統の音声信号、Sa2,Sb2,Sc2……第2系統の音声信号。

Claims (11)

  1. 音声を示す音声信号を生成する生成手段と、
    前記生成手段が生成した音声信号を第1系統と第2系統とに分配する分配手段と、
    前記第1系統の音声信号と前記第2系統の音声信号との位相差が、前記生成手段が生成した音声信号の周期の略半分である第1の時間長と当該第1の時間長よりも短い第2の時間長との加算値または差分値に相当する位相差となるように、前記第1系統の音声信号を前記第2系統の音声信号に対して遅延させる遅延手段と、
    前記遅延手段によって位相差が付与された前記第1系統および前記第2系統の音声信号を加算して出力する加算手段と
    を具備する音声処理装置。
  2. 前記生成手段が生成する音声信号の振幅を特定する振幅特定手段を具備し、
    前記遅延手段は、前記振幅特定手段が特定した振幅に応じて前記第2の時間長を変化させる
    請求項1に記載の音声処理装置。
  3. 前記第2の時間長を指定するデータを受信し、このデータによって指定される第2の時間長を前記遅延手段に指定する制御手段
    を具備する請求項1に記載の音声処理装置。
  4. 前記第1系統の音声信号と前記第2系統の音声信号との振幅比を調整する増幅手段を具備し、
    前記加算手段は、前記増幅手段による調整後の前記第1系統および前記第2系統の音声信号を加算して出力する
    請求項1に記載の音声処理装置。
  5. 音声を示す音声信号を生成する生成手段と、
    前記生成手段が生成した音声信号を第1系統と第2系統とに分配する分配手段と、
    前記第1系統の音声信号と前記第2系統の音声信号との位相差が、前記生成手段が生成した音声信号の周期の略半分である第1の時間長に相当する位相差となるように、前記第1系統の音声信号を前記第2系統の音声信号に対して遅延させる遅延手段と、
    前記第1系統の音声信号の振幅を経時的に変化させる増幅手段と、
    前記遅延手段および前記増幅手段による処理を経た前記第1系統および前記第2系統の音声信号を加算して出力する加算手段と
    を具備する音声処理装置。
  6. 前記遅延手段は、前記第1系統の音声信号と前記第2系統の音声信号との位相差が、前記第1の時間長と当該第1の時間長よりも短い第2の時間長との加算値または差分値に相当する位相差となるように、前記第1系統の音声信号を前記第2系統の音声信号に対して遅延させる
    請求項5に記載の音声処理装置。
  7. 前記生成手段が生成する音声信号の振幅を特定する振幅特定手段を具備し、
    前記増幅手段は、前記振幅特定手段が特定した振幅に応じて前記第1系統の音声信号の振幅を変化させる
    請求項5に記載の音声処理装置。
  8. 増幅手段のゲインを指定するデータを受信し、このデータによって指定されるゲインを前記増幅手段に指定する制御手段
    を具備する請求項5に記載の音声処理装置。
  9. 目標となるピッチに対応した周期を第1の時間長として前記遅延手段に指定する遅延量算定手段を具備し、
    前記生成手段は、前記目標となるピッチの略半分のピッチの音声信号を生成する
    請求項1から請求項8の何れかに記載の音声処理装置。
  10. コンピュータに、
    音声を示す音声信号を生成する生成処理と、
    前記生成処理にて生成した音声信号を分配した第1系統の音声信号と前記第2系統の音声信号との位相差が、前記生成処理にて生成した音声信号の周期の略半分である第1の時間長と当該第1の時間長よりも短い第2の時間長との加算値または差分値に相当する位相差となるように、前記第1系統の音声信号を前記第2系統の音声信号に対して遅延させる遅延処理と、
    前記遅延処理によって位相差が付与された前記第1系統および前記第2系統の音声信号を加算して出力する加算処理と
    を実行させるためのプログラム。
  11. コンピュータに、
    音声を示す音声信号を生成する生成処理と、
    前記生成処理にて生成した音声信号を分配した前記第1系統の音声信号と前記第2系統の音声信号との位相差が、前記生成処理にて生成した音声信号の周期の略半分である第1の時間長に相当する位相差となるように、前記第1系統の音声信号を前記第2系統の音声信号に対して遅延させる遅延処理と、
    前記第1系統の音声信号の振幅を経時的に変化させる増幅処理と、
    前記遅延処理および前記増幅処理を経た前記第1系統および前記第2系統の音声信号を加算して出力する加算処理と
    を実行させるためのプログラム。
JP2004336224A 2004-11-19 2004-11-19 音声処理装置およびプログラム Expired - Fee Related JP4701684B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004336224A JP4701684B2 (ja) 2004-11-19 2004-11-19 音声処理装置およびプログラム
EP05110717A EP1659569B1 (en) 2004-11-19 2005-11-14 Apparatus for and program of processing audio signal
US11/273,749 US8170870B2 (en) 2004-11-19 2005-11-14 Apparatus for and program of processing audio signal
DE602005006217T DE602005006217T2 (de) 2004-11-19 2005-11-14 Audiosignalverarbeitungsvorrichtung und -programm

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004336224A JP4701684B2 (ja) 2004-11-19 2004-11-19 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2006145867A true JP2006145867A (ja) 2006-06-08
JP4701684B2 JP4701684B2 (ja) 2011-06-15

Family

ID=35852169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004336224A Expired - Fee Related JP4701684B2 (ja) 2004-11-19 2004-11-19 音声処理装置およびプログラム

Country Status (4)

Country Link
US (1) US8170870B2 (ja)
EP (1) EP1659569B1 (ja)
JP (1) JP4701684B2 (ja)
DE (1) DE602005006217T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311831B2 (en) 2007-10-01 2012-11-13 Panasonic Corporation Voice emphasizing device and voice emphasizing method
JP2014059588A (ja) * 2014-01-08 2014-04-03 Yamaha Corp 音声処理装置およびプログラム
US8898062B2 (en) 2007-02-19 2014-11-25 Panasonic Intellectual Property Corporation Of America Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2587166C (en) * 2007-05-03 2008-10-07 Imperial Oil Resources Limited An improved process for recovering solvent from asphaltene containing tailings resulting from a separation process
CA2592725C (en) * 2007-06-26 2009-04-14 Imperial Oil Resources Limited A method for cleaning fouled vessels in the paraffinic froth treatment process
CA2594205C (en) * 2007-07-20 2009-11-24 Imperial Oil Resources Limited Use of a fluorocarbon polymer as a surface of a vessel or conduit used in a paraffinic froth treatment process for reducing fouling
CA2595336C (en) * 2007-07-31 2009-09-15 Imperial Oil Resources Limited Reducing foulant carry-over or build-up in a paraffinic froth treatment process
US9584564B2 (en) 2007-12-21 2017-02-28 Brighttalk Ltd. Systems and methods for integrating live audio communication in a live web event
US20090200210A1 (en) * 2008-02-11 2009-08-13 Hommema Scott E Method Of Removing Solids From Bitumen Froth
WO2009117192A1 (en) * 2008-03-20 2009-09-24 Exxonmobil Upstream Research Company Enhancing emulsion stability
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
US8252170B2 (en) 2008-06-27 2012-08-28 Exxonmobil Upstream Research Company Optimizing feed mixer performance in a paraffinic froth treatment process
CA2672004C (en) 2009-07-14 2012-03-27 Imperial Oil Resources Limited Feed delivery system for a solid-liquid separation vessel
US9222929B2 (en) 2009-12-07 2015-12-29 Exxonmobil Upstream Research Company Solvent surveillance in solvent-based heavy oil recovery processes
CA2714842C (en) 2010-09-22 2012-05-29 Imperial Oil Resources Limited Controlling bitumen quality in solvent-assisted bitumen extraction
US9420030B2 (en) * 2010-12-15 2016-08-16 Brighttalk Ltd. System and method for distributing web events via distribution channels
JP2012194417A (ja) * 2011-03-17 2012-10-11 Sony Corp 音声処理装置および方法、並びにプログラム
CA2734811C (en) 2011-03-29 2012-11-20 Imperial Oil Resources Limited Feedwell system for a separation vessel
DE102012200524A1 (de) 2012-01-16 2013-07-18 Robert Bosch Gmbh Verstärkervorrichtung sowie Verfahren zum Aktivieren einer oder der Verstärkervorrichtung
US9159310B2 (en) * 2012-10-19 2015-10-13 The Tc Group A/S Musical modification effects
DE102013011529B3 (de) * 2013-07-10 2014-10-16 Audi Ag Rundfunkempfangsgerät
JP6300328B2 (ja) * 2016-02-04 2018-03-28 和彦 外山 環境音生成装置及びそれを用いた環境音生成システム、環境音生成プログラム、音環境形成方法及び記録媒体
US11276390B2 (en) * 2018-03-22 2022-03-15 Casio Computer Co., Ltd. Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme
US11533576B2 (en) * 2021-03-29 2022-12-20 Cae Inc. Method and system for limiting spatial interference fluctuations between audio signals
CN113129909B (zh) * 2021-04-19 2024-05-03 北京大米科技有限公司 单麦克风语音数据处理方法、装置及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675587A (ja) * 1992-08-25 1994-03-18 Sharp Corp マイクエコー装置
JPH07129164A (ja) * 1993-10-29 1995-05-19 Yamaha Corp 効果装置
JP2001142477A (ja) * 1999-11-12 2001-05-25 Matsushita Electric Ind Co Ltd 有声音形成装置とそれを用いた音声認識装置
JP2005049758A (ja) * 2003-07-31 2005-02-24 Sega Corp カラオケ装置、音声処理方法及びプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01269994A (ja) * 1988-04-21 1989-10-27 Yamaha Corp 楽音信号発生装置
JPH02239292A (ja) * 1989-03-13 1990-09-21 Canon Inc 音声合成装置
JP2580821B2 (ja) * 1990-02-20 1997-02-12 ヤマハ株式会社 楽音波形信号形成装置
JP3582809B2 (ja) * 1996-03-12 2004-10-27 ローランド株式会社 効果装置
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
US5998724A (en) * 1997-10-22 1999-12-07 Yamaha Corporation Tone synthesizing device and method capable of individually imparting effect to each tone to be generated
US6606388B1 (en) * 2000-02-17 2003-08-12 Arboretum Systems, Inc. Method and system for enhancing audio signals
JP4067762B2 (ja) 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
JP3711880B2 (ja) * 2001-03-09 2005-11-02 ヤマハ株式会社 音声分析及び合成装置、方法、プログラム
JP2003101359A (ja) * 2001-09-21 2003-04-04 Pioneer Electronic Corp リミッタ付増幅器
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
US20030220787A1 (en) * 2002-04-19 2003-11-27 Henrik Svensson Method of and apparatus for pitch period estimation
US7366659B2 (en) * 2002-06-07 2008-04-29 Lucent Technologies Inc. Methods and devices for selectively generating time-scaled sound signals
KR100539574B1 (ko) * 2002-12-26 2005-12-29 엘지전자 주식회사 반향을 이용한 오디오 및 음성의 음색 변환 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675587A (ja) * 1992-08-25 1994-03-18 Sharp Corp マイクエコー装置
JPH07129164A (ja) * 1993-10-29 1995-05-19 Yamaha Corp 効果装置
JP2001142477A (ja) * 1999-11-12 2001-05-25 Matsushita Electric Ind Co Ltd 有声音形成装置とそれを用いた音声認識装置
JP2005049758A (ja) * 2003-07-31 2005-02-24 Sega Corp カラオケ装置、音声処理方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8898062B2 (en) 2007-02-19 2014-11-25 Panasonic Intellectual Property Corporation Of America Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
US8311831B2 (en) 2007-10-01 2012-11-13 Panasonic Corporation Voice emphasizing device and voice emphasizing method
JP2014059588A (ja) * 2014-01-08 2014-04-03 Yamaha Corp 音声処理装置およびプログラム

Also Published As

Publication number Publication date
EP1659569B1 (en) 2008-04-23
JP4701684B2 (ja) 2011-06-15
DE602005006217D1 (de) 2008-06-05
DE602005006217T2 (de) 2009-05-14
EP1659569A1 (en) 2006-05-24
US8170870B2 (en) 2012-05-01
US20060111903A1 (en) 2006-05-25

Similar Documents

Publication Publication Date Title
JP4701684B2 (ja) 音声処理装置およびプログラム
Saitou et al. Speech-to-singing synthesis: Converting speaking voices to singing voices by controlling acoustic features unique to singing voices
JP4207902B2 (ja) 音声合成装置およびプログラム
US7945446B2 (en) Sound processing apparatus and method, and program therefor
JP6561499B2 (ja) 音声合成装置および音声合成方法
JP2005018097A (ja) 歌唱合成装置
JP2006030575A (ja) 音声合成装置およびプログラム
US11727949B2 (en) Methods and apparatus for reducing stuttering
JP6821970B2 (ja) 音声合成装置および音声合成方法
WO2012111043A1 (ja) 信号処理方法、信号処理装置、再生装置およびプログラム
JP6728843B2 (ja) 電子楽器、楽音発生装置、楽音発生方法及びプログラム
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP6171393B2 (ja) 音響合成装置および音響合成方法
JP4304934B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP2010169766A (ja) 電子透かし情報の埋め込みおよび抽出を行うための装置およびプログラム
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
JP2011215292A (ja) 歌唱判定装置およびカラオケ装置
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP2011180194A (ja) 音素符号変換装置、音素符号データベース、および音声合成装置
JP5471138B2 (ja) 音素符号変換装置および音声合成装置
JP2011197235A (ja) 音響信号制御装置およびカラオケ装置
JP6182894B2 (ja) 音響処理装置および音響処理方法
JP5481958B2 (ja) 音素符号変換装置および音声合成装置
JP2010160289A (ja) 音程を自動で修正するmidiカラオケシステム
KR100283802B1 (ko) Tempo 변환 기능을 갖는 컴퓨터 음악반주기

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110221

R150 Certificate of patent or registration of utility model

Ref document number: 4701684

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees