JP4645241B2 - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP4645241B2
JP4645241B2 JP2005067907A JP2005067907A JP4645241B2 JP 4645241 B2 JP4645241 B2 JP 4645241B2 JP 2005067907 A JP2005067907 A JP 2005067907A JP 2005067907 A JP2005067907 A JP 2005067907A JP 4645241 B2 JP4645241 B2 JP 4645241B2
Authority
JP
Japan
Prior art keywords
spectrum
conversion
pitch
peak
envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005067907A
Other languages
English (en)
Other versions
JP2006251375A (ja
Inventor
秀紀 劔持
靖雄 吉岡
ボナダ ジョルディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2005067907A priority Critical patent/JP4645241B2/ja
Priority to EP06110600.1A priority patent/EP1701336B1/en
Priority to US11/372,812 priority patent/US7945446B2/en
Publication of JP2006251375A publication Critical patent/JP2006251375A/ja
Application granted granted Critical
Publication of JP4645241B2 publication Critical patent/JP4645241B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/08Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones
    • G10H1/10Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones for obtaining chorus, celeste or ensemble effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H5/00Instruments in which the tones are generated by means of electronic generators
    • G10H5/005Voice controlled instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/245Ensemble, i.e. adding one or more voices, also instrumental voices
    • G10H2210/251Chorus, i.e. automatic generation of two or more extra voices added to the melody, e.g. by a chorus effect processor or multiple voice harmonizer, to produce a chorus or unison effect, wherein individual sounds from multiple sources with roughly the same timbre converge and are perceived as one
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音声の特性を変化させる技術に関する。
利用者が発声した音声(以下「入力音声」という)に音楽的な効果を付与するための種々の技術が従来から提案されている。例えば特許文献1には、入力音声のピッチを変換することによって生成された協和音(入力音声と和音を構成する音声)を入力音声と加算して出力する技術が開示されている。この構成によれば、実際の発声者がひとりであっても、恰も複数人にて別個の旋律を合唱しているかのような音声を出力することができる。また、例えば入力音声を楽器の演奏音とすれば、複数の楽器によって別個の旋律を合奏しているかのような音声が生成される。
特開平10−78776号公報(段落0013および図1参照)
ところで、合唱や合奏の形態としては、各歌唱者や演奏者が別個の旋律を歌唱または演奏する形態(いわゆるコーラス)のほか、複数の歌唱者や演奏者が同一の旋律を歌唱または演奏するユニゾンと呼ばれる形態がある。特許文献1に記載された構成においては、入力音声のピッチを変換することによって協和音が生成されるため、複数人が別個の旋律を歌唱ないし演奏したときの音声を生成することはできるものの、複数人が共通の旋律を歌唱または演奏するユニゾンの効果を入力音声に付与することはできない。なお、特許文献1に記載された構成においても、例えば入力音声のピッチを変更せずに音響的な特性(声質)のみを変換した音声を入力音声とともに出力すれば、複数人が共通の旋律を歌唱または演奏しているかのような効果を付与することも一応は可能である。しかしながら、この場合には、ユニゾンを構成する音声ごとに入力音声の特性を変換するための仕組みを用意することが不可欠となる。したがって、多人数によるユニゾンを実現しようとすれば、DSP(Digital Signal Processor)などのハードウェアによって入力音声の特性が変換される構成においてはその回路規模が肥大化し、この変換がソフトウェアによって実現される構成においては演算装置の処理負荷が過大になるといった問題がある。本発明は、このような事情に鑑みてなされたものであり、入力音声を簡易な構成によって多人数での合唱音や合奏音に変換することを目的としている。
この課題を解決するために、本発明に係る音声処理装置は、入力された入力音声のスペクトルエンベロープを検出するエンベロープ検出手段と、前記入力音声のピッチを検出するピッチ検出手段と、並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得手段と、前記スペクトル取得手段が取得した変換用スペクトルに含まれる各ピークの周波数を、前記ピッチ検出手段が検出したピッチに応じて、前記入力音声のスペクトルに含まれるピークの周波数に近づけるように変化させるピッチ変換手段と、前記ピッチ変換手段によってピークの周波数が変化させられた変換用スペクトルのスペクトルエンベロープを前記エンベロープ検出手段が検出したスペクトルエンベロープと略一致させるように、当該変換用スペクトルの一のピークのスペクトル強度と、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度との比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした所定の帯域のスペクトル強度に対して当該比を乗算する処理を、各ピークについて行うことで、当該変換用スペクトルのスペクトルエンベロープを調整するエンベロープ調整手段と、前記エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段とを具備することを特徴としている。なお、本発明にいう「音声」には、人間が発声した音声や楽器の演奏音といった種々の音響が含まれる。
この構成によれば、並列に発生した複数の音声を含む変換用音声の変換用スペクトルのエンベロープが入力音声のスペクトルエンベロープと略一致するように調整されるから、入力音声と同様の音韻をもった複数の音声(すなわち合奏音や合唱音)を示す出力音声信号を生成することができる。しかも、複数の音声の各々について入力音声の特性を変換するための仕組みは原理的に不要であるから、音声処理装置の構成は特許文献1の構成と比較して大幅に簡素化される。
なお、エンベロープ検出手段が検出したスペクトルエンベロープと変換用スペクトルのスペクトルエンベロープとが「略一致する」とは、エンベロープ調整手段による調整後の周波数スペクトルから生成された出力音声信号に基づいて実際に音声が放音されたときに、その音声の音韻が聴感上において入力音声の音韻と同一であると知覚される程度に近似(理想的には一致)していることを意味する。したがって、入力音声のスペクトルエンベロープとエンベロープ調整手段による調整後のスペクトルエンベロープとは厳密な意味で完全に一致している必要は必ずしもない。
本発明に係る音声処理装置において、音声生成手段が生成した出力音声信号は、例えばスピーカやイヤホンなどの放音機器に供給されて音声(以下「出力音声」という)として出力される。ただし、この出力音声信号が利用の態様は任意である。例えば、出力音声信号が記録媒体に記憶されたうえで、当該記憶手段を再生する他の装置にて出力音声が出力される態様としてもよいし、出力音声信号が通信回線を介して他の装置に送信されて当該装置にて音声として再生される態様としてもよい。
なお、音声生成手段が生成する出力音声信号のピッチ(換言すると出力音声のピッチ)は、入力音声のピッチとは無関係なピッチであってもよいが、より好適には入力音声に応じたピッチ(例えば入力音声と略一致するピッチや入力音声と協和音を構成するピッチ)とされる。
好適な態様においては、前記エンベロープ調整手段は、前記一のピークのスペクトル強度で、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度を除した比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした前記帯域のスペクトル強度に対して当該比を乗算する処理を各ピークについて行う。
より具体的な態様において、ピッチ変換手段は、ピッチ検出手段が検出したピッチに応じて変換用スペクトルを周波数軸の方向に伸長または縮小する。この態様によれば、変換用スペクトルの各周波数に対して入力音声のピッチに応じた数値を乗算するという簡易な処理によって変換用スペクトルのピッチを調整することができる。また、他の態様において、ピッチ変換手段は、変換用スペクトルにおける各ピークの周波数を含むスペクトル分布領域(例えばピークの周波数を中心とする所定幅の周波数帯域)の各々をピッチ検出手段が検出したピッチに応じた周波数軸の方向に移動させる(図8参照)。この態様によれば、変換用スペクトルの各ピークの周波数を所期の周波数に合致させることができるから、変換用スペクトルのピッチを所望のピッチに精度よく調整することができる。
もっとも、出力音声を入力音声に応じたピッチとするための構成は任意である。例えば、入力音声のピッチを検出するピッチ検出手段を設けたうえで、スペクトル取得手段が、各々のピッチが相違する複数の変換用音声のうちピッチ検出手段が検出したピッチに近似(理想的には一致)するピッチの変換用音声の変換用スペクトルを取得する態様としてもよい(図6参照)。この態様によれば、変換用音声のピッチを変換するための仕組みを不要とすることができる。ただし、変換用スペクトルのピッチを変換する構成と、各々のピッチが異なる複数の変換用音声の何れかを選択する構成とを組み合わせてもよい。例えば、各々が異なるピッチに対応する複数の変換用スペクトルのうち入力音声のピッチに近似するピッチに対応した変換用スペクトルをスペクトル取得手段が取得し、この選択した変換用スペクトルのピッチをピッチ変換手段がピッチデータに応じて変換する構成も採用される。
ところで、複数の歌唱者や演奏者から略同一のピッチにて同時に(並列に)発せられた音声の周波数スペクトルは、その各ピークの帯域幅(例えば図3に示される帯域幅W2)が、単一の歌唱者や演奏者から発せられた音声の周波数スペクトルにおける各ピークの帯域幅(例えば図2に示される帯域幅W1)よりも広い場合が多い。いわゆるユニゾンにおいては、各歌唱者や各演奏者の音声のピッチが厳密には一致していないからである。このような観点から、本発明に係る音声処理装置は、入力された入力音声のスペクトルエンベロープを検出するエンベロープ検出手段と、前記入力音声のピッチを検出するピッチ検出手段と、変換用音声の周波数スペクトルである第1変換用スペクトル、および、前記第1変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり前記第1変換用スペクトルよりも各ピークの帯域幅が広い第2変換用スペクトルの何れかを取得するスペクトル取得手段と、前記スペクトル取得手段が取得した変換用スペクトルに含まれる各ピークの周波数を、前記ピッチ検出手段が検出したピッチに応じて、前記入力音声のスペクトルに含まれるピークの周波数に近づけるように変化させるピッチ変換手段と、前記ピッチ変換手段によってピークの周波数が変化させられた変換用スペクトルのスペクトルエンベロープを前記エンベロープ検出手段が検出したスペクトルエンベロープと略一致させるように、当該変換用スペクトルの一のピークのスペクトル強度と、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度との比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした所定の帯域のスペクトル強度に対して当該比を乗算する処理を、各ピークについて行うことで、当該変換用スペクトルのスペクトルエンベロープを調整するエンベロープ調整手段と、前記エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段とを具備する構成としても特定される。なお、この構成の具体例は第2実施形態(図5)として後述される。
この構成によれば、出力音声信号を生成するための周波数スペクトルとして第1変換用スペクトルおよび第2変換用スペクトルの何れかが選択されるから、第1変換用スペクトルに応じた特性の出力音声信号と第2変換用スペクトルに応じた特性の出力音声信号とを選択的に生成することができる。例えば、第1変換用スペクトルが選択された場合には単一の歌唱者または演奏者から発せられた出力音声を生成することができ、第2変換用スペクトルが選択された場合には複数の歌唱者や演奏者から発せられた出力音声を生成することができる。なお、ここでは第1変換用スペクトルと第2変換用スペクトルとが特定されているが、更に他の変換用スペクトルが選択手段による選択の対象とされる構成としてもよい。例えば、それぞれ各ピークの帯域幅が相違する複数の変換用スペクトルを記憶手段に記憶させておき、このうちの何れかを選択手段が選択して出力音声信号の生成に利用するといった構成も採用される。
本発明に係る音声処理装置は、音声処理に専用されるDSPなどのハードウェアによって実現されるほか、パーソナルコンピュータなどのコンピュータとプログラムとの協働によっても実現される。このプログラムは、コンピュータに、入力された入力音声のスペクトルエンベロープを検出するエンベロープ検出処理と、前記入力音声のピッチを検出するピッチ検出処理と、並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得処理と、前記スペクトル取得処理にて取得した変換用スペクトルに含まれる各ピークの周波数を、前記ピッチ検出にて検出したピッチに応じて、前記入力音声のスペクトルに含まれるピークの周波数に近づけるように変化させるピッチ変換処理と、前記ピッチ変換処理にてピークの周波数が変化させられた変換用スペクトルのスペクトルエンベロープを前記エンベロープ検出処理にて検出したスペクトルエンベロープと略一致させるように、当該変換用スペクトルの一のピークのスペクトル強度と、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度との比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした所定の帯域のスペクトル強度に対して当該比を乗算する処理を、各ピークについて行うことで、当該変換用スペクトルのスペクトルエンベロープを調整するエンベロープ調整処理と、前記エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理とを実行させる内容となる。また、他の態様に係るプログラムは、このプログラムは、コンピュータに、入力された入力音声のスペクトルエンベロープを検出するエンベロープ検出処理と、前記入力音声のピッチを検出するピッチ検出処理と、変換用音声の周波数スペクトルである第1変換用スペクトル、および、前記第1変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり前記第1変換用スペクトルよりも各ピークの帯域幅が広い第2変換用スペクトルの何れかを取得するスペクトル取得処理と、前記スペクトル取得処理にて取得した変換用スペクトルに含まれる各ピークの周波数を、前記ピッチ検出にて検出したピッチに応じて、前記入力音声のスペクトルに含まれるピークの周波数に近づけるように変化させるピッチ変換処理と、前記ピッチ変換処理にてピークの周波数が変化させられた変換用スペクトルのスペクトルエンベロープを前記エンベロープ検出処理にて検出したスペクトルエンベロープと略一致させるように、当該変換用スペクトルの一のピークのスペクトル強度と、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度との比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした所定の帯域のスペクトル強度に対して当該比を乗算する処理を、各ピークについて行うことで、当該変換用スペクトルのスペクトルエンベロープを調整するエンベロープ調整処理と、前記エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理とを実行させる内容となる。これらのプログラムは、コンピュータ読取り可能な記録媒体(例えばCD−ROM)に格納された態様にて利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態にてサーバ装置から提供されてコンピュータにインストールされる。
また、本発明は、入力音声を処理するための方法としても特定される。この方法は、入力された入力音声のスペクトルエンベロープを検出するエンベロープ検出過程と、前記入力音声のピッチを検出するピッチ検出過程と、並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得過程と、前記スペクトル取得過程にて取得した変換用スペクトルに含まれる各ピークの周波数を、前記ピッチ検出にて検出したピッチに応じて、前記入力音声のスペクトルに含まれるピークの周波数に近づけるように変化させるピッチ変換過程と、前記ピッチ変換過程にてピークの周波数が変化させられた変換用スペクトルのスペクトルエンベロープを前記エンベロープ検出過程にて検出したスペクトルエンベロープと略一致させるように、当該変換用スペクトルの一のピークのスペクトル強度と、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度との比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした所定の帯域のスペクトル強度に対して当該比を乗算する処理を、各ピークについて行うことで、当該変換用スペクトルのスペクトルエンベロープを調整するエンベロープ調整過程と、前記エンベロープ調整過程後の変換用スペクトルから出力音声信号を生成する音声生成過程とを有する。他の観点に基づく音声処理方法は、入力された入力音声のスペクトルエンベロープを検出するエンベロープ検出過程と、前記入力音声のピッチを検出するピッチ検出過程と、変換用音声の周波数スペクトルである第1変換用スペクトル、および、前記第1変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり前記第1変換用スペクトルよりも各ピークの帯域幅が広い第2変換用スペクトルの何れかを取得するスペクトル取得過程と、前記スペクトル取得過程にて取得した変換用スペクトルに含まれる各ピークの周波数を、前記ピッチ検出にて検出したピッチに応じて、前記入力音声のスペクトルに含まれるピークの周波数に近づけるように変化させるピッチ変換過程と、前記ピッチ変換過程にてピークの周波数が変化させられた変換用スペクトルのスペクトルエンベロープを前記エンベロープ検出過程にて検出したスペクトルエンベロープと略一致させるように、当該変換用スペクトルの一のピークのスペクトル強度と、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度との比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした所定の帯域のスペクトル強度に対して当該比を乗算する処理を、各ピークについて行うことで、当該変換用スペクトルのスペクトルエンベロープを調整するエンベロープ調整過程と、前記エンベロープ調整過程後の変換用スペクトルから出力音声信号を生成する音声生成過程とを有する。
以上のように、本発明によれば、簡易な構成によって多人数での合唱や合奏を実現することができる。
<A:第1実施形態>
まず、図1を参照して、本発明の第1実施形態に係る音声処理装置の構成および動作を説明する。同図に示される音声処理装置の各部は、例えばCPU(Central Processing Unit)などの演算回路がプログラムを実行することによって実現されてもよいし、DSPなど音声処理に専用されるハードウェアによって実現されてもよい。後述する各実施形態においても同様である。
図1に示されるように、音声処理装置Dは、周波数分析手段10と、スペクトル変換手段20と、スペクトル取得手段30と、音声生成手段40と、記憶手段50とを有する。このうち周波数分析手段10には音声入力部61が接続される。この音声入力部61は、利用者が発する入力音声に応じた信号(以下「入力音声信号」という)Vinを出力する手段であり、例えば、入力音声の時間軸上における波形を表わすアナログの電気信号を出力する収音機器(マイクロホン)と、この電気信号をデジタルの入力音声信号Vinに変換するA/D変換器とを有する。
周波数分析手段10は、音声入力部61から供給される入力音声信号VinのピッチPinおよびスペクトルエンベロープEVinを特定する手段であり、FFT(Fast Fourier Transform)部11とピッチ検出部12とエンベロープ検出部13とを有する。このうちFFT部11は、音声入力部61から供給される入力音声信号Vinを所定の時間長(例えば5msないし10ms)のフレームに切り出し、各フレームの入力音声信号Vinに対してFFT処理を含む周波数分析を実行して周波数スペクトル(以下「入力スペクトル」という)SPinを検出する。入力音声信号Vinの各フレームは時間軸上において相互に重なり合うように選定される。これらのフレームは簡易的には同一の時間長とされるが、入力音声信号VinのピッチPin(後述するようにピッチ検出部12によって検出される)に応じて時間長が変化する構成としてもよい。図2には、ひとりの利用者が発声した入力音声のうちひとつのフレームについて特定された入力スペクトルSPinが例示されている。この場合の入力スペクトルSPinは、基音および倍音に相当する各周波数においてスペクトル強度Mの局所的なピークpが極めて狭い帯域幅W1にて現れる。FFT部11は、入力音声信号Vinの入力スペクトルSPinを表わすデータ(以下「入力スペクトルデータ」という)Dinをフレームごとにピッチ検出部12とエンベロープ検出部13とに出力する。入力スペクトルデータDinは複数の単位データを含む。各単位データは、周波数軸上に所定の間隔ごとに選定された複数の周波数Finの各々と当該周波数における入力スペクトルSPinのスペクトル強度Minとが組み合わされたデータである。
図1に示されるピッチ検出部12は、FFT部11から供給される入力スペクトルデータDinに基づいて入力音声のピッチPinを検出する手段である。更に詳述すると、ピッチ検出部12は、図2に示されるように、入力スペクトルデータDinが示す入力スペクトルSPinのうち基音に相当するピークp(すなわち周波数が最小であるピークp)の周波数をピッチPinとして検出する。一方、エンベロープ検出部13は、入力音声のスペクトルエンベロープ(スペクトル包絡)EVinを検出する手段である。スペクトルエンベロープEVinは、図2に示されるように、入力スペクトルSPinのピークpを連結した包絡線である。このスペクトルエンベロープEVinを検出する方法としては、例えば、入力スペクトルSPinのうち周波数軸上において相互に隣接するピークpの間隙を直線的に補間することによってスペクトルエンベロープEVinを折線として検出する方法や、各ピークpを通過する曲線を3次のスプライン補間など各種の補間処理によって算定してスペクトルエンベロープEVinを検出する方法などが採用される。エンベロープ検出部13は、図2に示されるように、こうして検出したスペクトルエンベロープEVinを示すデータ(以下「エンベロープデータ」という)Devを出力する。エンベロープデータDevは、入力スペクトルデータDinと同様に複数の単位データUevを含む。各単位データUevは、周波数軸上に所定の間隔ごとに選定された複数の周波数Fin(Fin1,Fin2,……)の各々と当該周波数FinにおけるスペクトルエンベロープEVinのスペクトル強度Mev(Mev1,Mev2,……)とが組み合わされたデータである。
次に、図1に示されるスペクトル変換手段20は、入力音声の特性を変化させた出力音声の周波数スペクトル(以下「出力スペクトル」という)SPnewを示すデータ(以下「新規スペクトルデータ」という)Dnewを生成する手段である。本実施形態におけるスペクトル変換手段20は、予め用意された特定の音声(以下「変換用音声」という)の周波数スペクトル(以下「変換用スペクトル」という)SPtと入力音声のスペクトルエンベロープEVinとに基づいて出力音声の周波数スペクトルSPnewを特定する。なお、周波数スペクトルSPnewを生成する手順については後述する。
一方、スペクトル取得手段30は、変換用スペクトルSPtを取得するための手段であり、FFT部31とピーク検出部32とデータ生成部33とを有する。このうちFFT部31には、記憶手段50(例えばハードディスク装置)から読み出された変換用音声信号Vtが供給される。この変換用音声信号Vtは、変換用音声の波形を特定の区間にわたって表わす時間領域の信号であり、予め記憶手段50に格納されている。FFT部31は、入力音声に係る手順と同様に、記憶手段50から順次に供給される変換用音声信号Vtを所定の時間長のフレームに切り出し、各フレームの変換用音声信号Vtに対してFFT処理を含む周波数分析を実行することによって変換用スペクトルSPtを検出する。一方、ピーク検出部32は、FFT部31によって特定された変換用スペクトルSPtのピークptを検出してその周波数を特定する。ピークptを検出する方法としては、例えば、周波数軸上において近接する所定数のピークのうちスペクトル強度が最大となるものをピークptとして検出する方法が採用される。
本実施形態においては、多数の発声者が略同一のピッチPtにて発声した音声(すなわち合唱や合奏といったユニゾンの音声)をマイクロホンなどの収音機器によって収音した信号が変換用音声信号Vinとして記憶手段50に記憶されている場合を想定する。このような変換用音声信号VtにFFT処理を施して得られる変換用スペクトルSPtは、図3に示されるように、変換用音声のピッチPtに応じた基音および倍音に相当する各周波数においてスペクトル強度Mの局所的なピークptが現れる点で図1の入力スペクトルSPinと共通するが、各ピークptの帯域幅W2が入力スペクトルSPinの各ピークpの帯域幅W1よりも広いという特性を有する。このようにピークptの帯域幅W2が広いのは、多数の発声者によって発声された各音声のピッチが完全には一致しないからである。
図1に示されるデータ生成部33は、変換用スペクトルSPtを示すデータ(以下「変換用スペクトルデータ」という)Dtを生成するための手段である。変換用スペクトルデータDtは、図3に示されるように、複数の単位データUtと指示子Aとを含む。各単位データUtは、エンベロープデータDevと同様に、周波数軸上に所定の間隔ごとに選定された複数の周波数Ft(Ft1,Ft2,……)の各々と当該周波数Ftにおける変換用スペクトルSPtのスペクトル強度Mt(Mt1,Mt2,……)とが組み合わされたデータ構造となっている。一方、指示子Aは、変換用スペクトルSPtのピークptを指示するためのデータ(例えばフラグ)であり、変換用スペクトルデータDtに含まれる総ての単位データUtのうちピーク検出部32によって検出されたピークptに対応する単位データUtに対して選択的に付加される。例えば、ピーク検出部32が周波数Ft3にピークptを検出した場合、図3に示されるように、周波数Ft3を含む単位データUtに指示子Aが付加され、これ以外の単位データUt(つまりピークpt以外の周波数に対応する単位データUt)に指示子Aは付加されない。
図1に示されるように、スペクトル変換手段20は、ピッチ変換部21とエンベロープ調整部22とを有する。スペクトル取得手段30から出力された変換用スペクトルデータDtはピッチ変換部21に入力される。このピッチ変換部21は、変換用スペクトルデータDtが示す変換用スペクトルSPtの各ピークptの周波数を、ピッチ検出部12が検出したピッチPinに応じて変化させる手段である。本実施形態におけるピッチ変換部21は、変換用スペクトルデータDtが示す変換用音声のピッチPtがピッチ検出部12によって検出されたピッチPinと略一致するように変換用スペクトルSPtを変形する。この変換の具体的な手順について図4を参照して説明する。
図4の部分(b)には、図3に示した変換用スペクトルSPtが図示されている。また、図4の部分(a)には、入力スペクトルSPin(図2に示したもの)が変換用スペクトルSPtとの対比のために併記されている。入力音声のピッチPinは利用者の発声に応じて変動するから、図4の部分(a)および部分(b)に示されるように、入力スペクトルSPinの各ピークpの周波数と変換用スペクトルSPtの各ピークptの周波数とは必ずしも一致しない。そこで、ピッチ変換部21は、変換用スペクトルSPtを周波数軸の方向に伸長または縮小することによって当該変換用スペクトルSPtの各ピークptの周波数を入力スペクトルSPinの各ピークpの周波数に合致させる。更に詳述すると、ピッチ変換部21は、ピッチ検出部12が検出したピッチPinと変換用音声のピッチPtとの比「Pin/Pt」を算定し、変換用スペクトルデータDtを構成する各単位データUtの周波数Ftに対して当該比を乗算する。なお、変換用音声のピッチPtは、例えば、変換用スペクトルSPtの多数のピークptのうち基音に相当するピークpt(すなわち周波数が最小であるピークpt)の周波数として特定される。この処理により、図4の部分(c)に示されるように、変換用スペクトルSPtの各ピークptは入力スペクトルSPinの各ピークpの周波数まで移動し、この結果として変換用音声のピッチPtは入力音声のピッチPinに略一致することになる。ピッチ変換部21は、こうしてピッチを変換した変換用スペクトルSPtを示す変換用スペクトルデータDtをエンベロープ調整部22に出力する。
エンベロープ調整部22は、この変換用スペクトルデータDtが示す変換用スペクトルSPtのスペクトル強度M(換言すればスペクトルエンベロープEVt)を調整することによって新規スペクトルSPnewを生成する手段である。更に詳述すると、エンベロープ調整部22は、図4の部分(d)に示されるように、新規スペクトルSPnewのスペクトルエンベロープが、エンベロープ検出部13によって検出されたスペクトルエンベロープEVinと略一致するように、変換用スペクトルSPtのスペクトル強度Mを調整する。スペクトル強度Mを調整する方法の具体例は以下の通りである。
エンベロープ調整部22は、まず、変換用スペクトルデータDtのうち指示子Aが付加されたひとつの単位データUtを選定する。この単位データUtは、変換用スペクトルSPtの何れかのピークpt(以下では特に「注目ピークpt」という)の周波数Ftおよびスペクトル強度Mtを含む(図3参照)。次いで、エンベロープ調整部22は、エンベロープ検出部13から供給されるエンベロープデータDevのうち注目ピークptの周波数Ftに近似または一致する周波数Finを含む単位データUevを選定する。そして、エンベロープ調整部22は、この選定した単位データUevに含まれるスペクトル強度Mevと注目ピークptのスペクトル強度Mtとの比「Mev/Mt」を算定し、注目ピークptを中心とした所定の帯域に属する変換用スペクトルSPtの各単位データUtのスペクトル強度Mtに対して当該比を乗算する。この一連の処理を変換用スペクトルSPtの総てのピークptについて繰り返すことにより、新規スペクトルSPnewは、図4の部分(d)に示されるように、各ピークの頂点がスペクトルエンベロープEVin上に位置する形状となる。エンベロープ調整部22は、この新規スペクトルSPnewを示す新規スペクトルデータDnewを出力する。
ピッチ変換部21やエンベロープ調整部22による処理は入力音声信号Vinを区分したフレームごとに実施される。ところで、変換用音声のフレーム数は記憶手段50に記憶された変換用音声信号Vtの時間長に応じて制約されるのに対して入力音声のフレーム数は利用者による発声の期間に応じて変化するため、入力音声のフレーム数と変換用音声のフレーム数とは一致しない場合が多い。変換用音声のフレーム数が入力音声のフレーム数よりも多い場合には、余ったフレームに対応する変換用スペクトルデータDtを破棄すれば足りる。一方、変換用音声のフレーム数が入力音声のフレーム数よりも少ない場合には、総てのフレームに対応する変換用スペクトルデータDtの使用後に最初のフレームの変換用スペクトルデータDtを使用するといった具合に、変換用スペクトルデータDtをループさせて使用すればよい。
次に、図1に示される音声生成手段40は、新規スペクトルSPnewに基づいて時間領域の出力音声信号Vnewを生成する手段であり、逆FFT部41と出力処理部42とを有する。このうち逆FFT部41は、エンベロープ調整部22からフレームごとに出力される新規スペクトルデータDnewに対して逆FFT処理を施して時間領域の出力音声信号Vnew0を生成する。出力処理部42は、こうして生成されたフレームごとの出力音声信号Vnew0に時間窓関数を乗算し、これらを時間軸上において相互に重なり合うように連結して出力音声信号Vnewを生成する。この出力音声信号Vnewは音声出力部63に供給される。音声出力部63は、出力音声信号Vnewをアナログの電気信号に変換するD/A変換器と、このD/A変換器からの出力信号に基づいて放音する放音機器(例えばスピーカやヘッドフォン)とを有する。
以上に説明したように、本実施形態においては、多数の発声者によって並列に発せられた複数の音声を含む変換用音声のスペクトルエンベロープEVtが入力音声のスペクトルエンベロープEVinと略一致するように調整されるから、入力音声と同様の音韻をもった複数の音声(すなわち合唱音や合奏音)を示す出力音声信号Vnewを生成することができる。したがって、ひとりの利用者による音声や演奏音が入力音声とされた場合であっても、恰も多数の発声者や演奏者によって合唱や合奏が行なわれているかのような出力音声を音声出力部63から出力することができる。しかも、複数の音声の各々について入力音声の特性を変化させるための仕組みは原理的に不要である。したがって、音声処理装置Dの構成は特許文献1の構成と比較して大幅に簡素化される。さらに、本実施形態においては、入力音声のピッチPinに応じて変換用音声のピッチPtが変換されるから、任意のピッチの合唱音や合奏音を生成することができる。また、このピッチの変換が、変換用スペクトルSPtを周波数軸の方向に伸長するという簡素な処理(乗算処理)によって実現されるという利点もある。
<B:第2実施形態>
次に、本発明の第2実施形態に係る音声処理装置について説明する。なお、本実施形態のうち第1実施形態と同様の要素については共通の符号を付してその説明を適宜に省略する。
図5は、本実施形態に係る音声処理装置Dの構成を示すブロック図である。同図に示されるように、この音声処理装置Dは、記憶手段50の記憶内容およびスペクトル取得手段30の構成が第1実施形態の音声処理装置Dとは相違するが、他の要素は同様の構成である。本実施形態においては、第1変換用音声信号Vt1と第2変換用音声信号Vt2とが記憶手段50に記憶される。第1変換用音声信号Vt1と第2変換用音声信号Vt2とは、互いに略同一のピッチPtにて発せられた変換用音声を収音した信号である。ただし、第1変換用音声信号Vt1は、図2に示した入力音声信号Vinと同様に、単一の音声(ひとりの発声者からの音声やひとつの楽器からの演奏音)の波形を示す信号であるのに対し、第2変換用音声信号Vt2は、第1実施形態の変換用音声信号Vtと同様に、各々が並列に発せられた複数の音声(多数の発声者からの音声や多数の楽器からの演奏音)からなる変換用音声を収音した信号である。したがって、第2変換用音声信号Vt2から特定される変換用スペクトルSPtの各ピークの帯域幅(図3に示す帯域幅W2)は、第1変換用音声信号Vt1から特定される変換用スペクトルSPtの各ピークの帯域幅(図1に示す帯域幅W1)よりも広い。
また、本実施形態におけるスペクトル取得手段30はFFT部31の前段に選択部34を有する。この選択部34は、外部から供給される選択信号に基づいて、第1変換用音声信号Vt1および第2変換用音声信号Vt2の何れかを選択して記憶手段50から読み出す手段である。選択信号は、例えば、入力機器67に対する操作に応じて供給される。この選択部34によって読み出された変換用音声信号VtがFFT部31に供給される。これ以後の構成および動作は第1実施形態と同様である。
このように、本実施形態においては、第1変換用音声信号Vt1および第2変換用音声信号Vt2の何れかが選択的に新規スペクトルSPnewの生成に利用される。そして、第1変換用音声信号Vt1が選択された場合には、入力音声の音韻と変換用音声の周波数特性とを兼ね備えた単一の出力音声が出力される一方、第2変換用音声信号Vt2が選択された場合には、第1実施形態と同様に、入力音声の音韻を維持した多数の音声からなる出力音声が出力される。すなわち、本実施形態においては、出力音声を単一の音声とするか複数の音声とするかを利用者が任意に選択することができる。
なお、本実施形態においては入力機器67への操作に応じて変換用音声信号Vtが選択される構成を例示したが、この選択の基準となる要素は任意に変更される。例えば、所定の時間間隔にて発生するタイマ割込を契機として第1変換用音声信号Vt1および第2変換用音声信号Vt2の一方から他方に切り替える構成としてもよい。さらに、本実施形態に係る音声処理装置Dをカラオケ装置に適用した場合には、カラオケ演奏される楽曲の進行に同期して第1変換用音声信号Vt1および第2変換用音声信号Vt2の一方から他方に切り替える構成も採用される。また、本実施形態においては、単一の音声を示す第1変換用音声信号Vt1と複数の音声を示す第2変換用音声信号Vt2とが記憶手段50に記憶された構成を例示したが、各変換用音声信号Vtが示す音声数はこれに限られない。例えば、各々が並列に発せられた所定数の音声からなる変換用音声を示す第1変換用音声信号Vt1と、これよりも多数の音声からなる変換用音声を示す第2変換用音声信号Vt2とを利用してもよい。
<C:変形例>
各実施形態に対しては種々の変形が加えられる。具体的な変形の態様は以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
(1)各実施形態においてはひとつのピッチPtの変換用音声信号Vt(またはVt1,Vt2)が記憶手段50に記憶された構成を例示したが、図6に示されるように、各々のピッチPt(Pt1,Pt2,……)が相違する複数の変換用音声信号Vtを記憶手段50に記憶させた構成も採用される。各変換用音声信号Vtは、並列に発生した多数の音声を含む変換用音声を収音したものである。図6の構成においては、ピッチ検出部12によって検出されたピッチPinがスペクトル取得手段30の選択部34にも供給されるようになっている。この選択部34は、入力音声のピッチPinに近似または一致するピッチPtの変換用音声信号Vtを選択的に記憶手段50から読み出してFFT部31に出力する手段である。この構成によれば、新規スペクトルSPnewの生成に利用される変換用音声信号VtのピッチPtを入力音声信号VinのピッチPi nに近づけることができるから、ピッチ変換部21による処理にて変換用スペクトルSPtの各ピークptの周波数を変化させる量が低減される。したがって、自然な形状の新規スペクトルSPnewを生成することができるという利点がある。なお、ここでは変換用音声信号Vtの選択に加えてピッチ変換部21による処理も実行する構成としたが、多数のピッチPtの変換用音声信号Vtが記憶手段50に記憶されていれば変換用音声信号Vtの選択のみによって所望のピッチの出力音声を生成することができるから、ピッチ変換部21は必ずしも必要ではない。
(2)各実施形態においては、変換用スペクトルデータDtの各単位データUtに含まれる周波数Ftに特定の数値(Pin/Pt)を乗算することによって変換用スペクトルSPtを周波数軸の方向に伸長または縮小する構成を例示したが、変換用スペクトルSPtのピッチPtを変換する方法は任意に変更される。例えば、各実施形態に示した方法においては、変換用スペクトルSPtが全帯域にわたって同率に伸長または縮小されるため、各ピークptの帯域幅が元のピークptの帯域幅よりも著しく広がってしまう場合が生じ得る。例えば、図7の部分(a)に示される変換用スペクトルSPtのピッチPtを第1実施形態の方法によって2倍のピッチに変換した場合、図7の部分(b)に示されるように各ピークptの帯域幅は2倍となる。このように各ピークptのスペクトル形状が大幅に変化すると変換用音声の特性とは著しく相違する出力音声が生成されることになる。このような問題を解消するために、ピッチ変換部21が、特定の数値(Pin/Pt)を乗算して得られた変換用スペクトルSPt(図7の部分(b)に示される周波数スペクトル)の各ピークptについて、図7の部分(c)に矢印Bにて示されるように、当該ピークptの帯域幅をピッチ変換前のピークptの帯域幅まで狭めるための演算処理を各単位データUtの周波数Ftに施してもよい。この構成によれば、変換用音声の特性を忠実に再現した出力音声を生成することができる。
また、ここでは各単位データUtの周波数Ftに対する乗算処理によってピッチPtを変換する場合を例示したが、図8の部分(a)に示されるように、変換用スペクトルSPtを周波数軸上にて複数の帯域(以下「スペクトル分布領域」という)Rに区分し、各スペクトル分布領域Rを周波数軸の方向に移動させることによってピッチPtを変化させてもよい。各スペクトル分布領域Rは、ひとつのピークptとその前後の帯域とを含むように選定される。ピッチ変換部21は、図8の部分(b)に示されるように、各スペクトル分布領域Rに属するピークptの周波数が、入力スペクトルSPin(図8の部分(c))に現れる各ピークpの周波数と略一致するように、各スペクトル分布領域Rを周波数軸の方向に移動させる。なお、図8の部分(b)に示されるように、相互に隣接するスペクトル分布領域Rの間隙には周波数スペクトルが存在しない帯域が生じ得るが、この帯域についてはスペクトル強度Mを所定値(例えばゼロ)に選定すればよい。この処理によれば、変換用スペクトルSPtの各ピークptの周波数を確実に入力音声のピークptの周波数に一致させることができるから、所望のピッチの出力音声を精度よく生成することができるという利点がある。
(3)各実施形態においては、記憶手段50に記憶された変換用音声信号Vtから変換用スペクトルSPtが特定される構成を例示したが、変換用スペクトルSPtを示す変換用スペクトルデータDtが予めフレームごとに記憶手段50に記憶された構成も採用される。この構成におけるスペクトル取得手段30は、記憶手段50から変換用スペクトルデータDtを読み出してスペクトル変換手段20に出力する構成であれば足り、FFT部31やピーク検出部32やデータ生成部33を備えている必要はない。また、ここでは記憶手段50に変換用スペクトルデータDtが記憶された構成を例示したが、スペクトル取得手段30は、例えば通信回線を介して接続された通信装置から変換用スペクトルデータDtを取得する手段であってもよい。このように、本発明におけるスペクトル取得手段30は、変換用スペクトルSPtを取得する手段であれば足り、その取得の方法や取得先の如何は不問である。
(4)各実施形態においては入力音声の周波数スペクトルSPinからピッチPinを検出する構成を例示したが、このピッチPinを検出する方法は任意に変更される。例えば、音声入力部61から入力された時間領域の入力音声信号VinからピッチPinを検出する構成としてもよい。ピッチPinを検出する方法としては、公知である各種の方法が採用される。
(5)各実施形態においては変換用音声のピッチPtを入力音声のピッチPinに一致させる構成を例示したが、変換用音声のピッチPtをこれ以外のピッチに変換してもよい。例えば、ピッチ変換部21が、入力音声のピッチPinと協和音を構成するピッチとなるように変換用音声のピッチPtを変換する構成も採用される。この構成に加え、出力処理部42から出力された出力音声信号Vnewと音声入力部61から入力された入力音声信号Vinとを加算したうえで音声出力部63から放音する構成を採用すれば、利用者が発声した入力音声とともにコーラス音を出力することができる。このように、本発明のうちピッチ変換部21を備えた態様においては、このピッチ変換部21が変換用音声のピッチPtを入力音声のピッチPinに応じて(すなわちピッチPinの変化に伴なって変換用音声のピッチPtが変化するように)変化させる構成であれば足りる。
第1実施形態に係る音声処理装置の構成を示すブロック図である。 入力音声に関する処理を説明するための図である。 変換用音声信号に関する処理を説明するための図である。 スペクトル変換手段による処理の内容を説明するための図である。 第2実施形態に係る音声処理装置の構成を示すブロック図である。 変形例に係る音声処理装置の構成を示すブロック図である。 変形例に係る音声処理装置におけるピッチ変換について説明するための図である。 変形例に係る音声処理装置におけるピッチ変換について説明するための図である。
符号の説明
D……音声処理装置、10……周波数分析手段、11……FFT部、12……ピッチ検出部、13……エンベロープ検出部、20……スペクトル変換手段、21……ピッチ変換部、22……エンベロープ調整部、30……スペクトル取得手段、31……FFT部、32……ピーク検出部、33……データ生成部、34……選択部、40……音声生成手段、41……逆FFT部、42……出力処理部、50……記憶手段、61……音声入力部、63……音声出力部、67……入力機器、Vin……入力音声信号、Vt,Vt1,Vt2……変換用音声信号、Vnew……出力音声信号、SPin……入力スペクトル、SPt……変換用スペクトル、SPnew……新規スペクトル、EVin……スペクトルエンベロープ、Din……入力スペクトルデータ、Dt……変換用スペクトルデータ、Dnew……新規スペクトルデータ、Dev……エンベロープデータ、R……スペクトル分布領域。

Claims (8)

  1. 入力された入力音声のスペクトルエンベロープを検出するエンベロープ検出手段と、
    前記入力音声のピッチを検出するピッチ検出手段と、
    並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得手段と、
    前記スペクトル取得手段が取得した変換用スペクトルに含まれる各ピークの周波数を、前記ピッチ検出手段が検出したピッチに応じて、前記入力音声のスペクトルに含まれるピークの周波数に近づけるように変化させるピッチ変換手段と、
    前記ピッチ変換手段によってピークの周波数が変化させられた変換用スペクトルのスペクトルエンベロープを前記エンベロープ検出手段が検出したスペクトルエンベロープと略一致させるように、当該変換用スペクトルの一のピークのスペクトル強度と、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度との比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした所定の帯域のスペクトル強度に対して当該比を乗算する処理を、各ピークについて行うことで、当該変換用スペクトルのスペクトルエンベロープを調整するエンベロープ調整手段と、
    前記エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段と
    を具備する音声処理装置。
  2. 前記エンベロープ調整手段は、
    前記一のピークのスペクトル強度で、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度を除した比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした前記帯域のスペクトル強度に対して当該比を乗算する処理を各ピークについて行う
    請求項1に記載の音声処理装置
  3. 前記ピッチ変換手段は、前記ピッチ検出手段が検出したピッチに応じて変換用スペクトルを周波数軸の方向に伸長または縮小する
    請求項1または2に記載の音声処理装置。
  4. 前記ピッチ変換手段は、前記変換用スペクトルにおける各ピークの周波数を含むスペクトル分布領域の各々を前記ピッチ検出手段が検出したピッチに応じて周波数軸の方向に移動させる
    請求項1または2に記載の音声処理装置。
  5. 記スペクトル取得手段は、各々のピッチが相違する複数の変換用音声のうち前記ピッチ検出手段が検出したピッチに近似するピッチの変換用音声の変換用スペクトルを取得する
    請求項1または2に記載の音声処理装置。
  6. 入力された入力音声のスペクトルエンベロープを検出するエンベロープ検出手段と、
    前記入力音声のピッチを検出するピッチ検出手段と、
    変換用音声の周波数スペクトルである第1変換用スペクトル、および、前記第1変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり前記第1変換用スペクトルよりも各ピークの帯域幅が広い第2変換用スペクトルの何れかを取得するスペクトル取得手段と、
    前記スペクトル取得手段が取得した変換用スペクトルに含まれる各ピークの周波数を、前記ピッチ検出手段が検出したピッチに応じて、前記入力音声のスペクトルに含まれるピークの周波数に近づけるように変化させるピッチ変換手段と、
    前記ピッチ変換手段によってピークの周波数が変化させられた変換用スペクトルのスペクトルエンベロープを前記エンベロープ検出手段が検出したスペクトルエンベロープと略一致させるように、当該変換用スペクトルの一のピークのスペクトル強度と、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度との比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした所定の帯域のスペクトル強度に対して当該比を乗算する処理を、各ピークについて行うことで、当該変換用スペクトルのスペクトルエンベロープを調整するエンベロープ調整手段と、
    前記エンベロープ調整手段による調整後の変換用スペクトルから出力音声信号を生成する音声生成手段と
    を具備する音声処理装置。
  7. コンピュータに、
    入力された入力音声のスペクトルエンベロープを検出するエンベロープ検出処理と、
    前記入力音声のピッチを検出するピッチ検出処理と、
    並列に発生した複数の音声を含む変換用音声の周波数スペクトルである変換用スペクトルを取得するスペクトル取得処理と、
    前記スペクトル取得処理にて取得した変換用スペクトルに含まれる各ピークの周波数を、前記ピッチ検出にて検出したピッチに応じて、前記入力音声のスペクトルに含まれるピークの周波数に近づけるように変化させるピッチ変換処理と、
    前記ピッチ変換処理にてピークの周波数が変化させられた変換用スペクトルのスペクトルエンベロープを前記エンベロープ検出処理に-て検出したスペクトルエンベロープと略一致させるように、当該変換用スペクトルの一のピークのスペクトル強度と、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度との比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした所定の帯域のスペクトル強度に対して当該比を乗算する処理を、各ピークについて行うことで、当該変換用スペクトルのスペクトルエンベロープを調整するエンベロープ調整処理と、
    前記エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理と
    を実行させるためのプログラム。
  8. コンピュータに、
    入力された入力音声のスペクトルエンベロープを検出するエンベロープ検出処理と、
    前記入力音声のピッチを検出するピッチ検出処理と、
    変換用音声の周波数スペクトルである第1変換用スペクトル、および、前記第1変換用スペクトルが示す変換用音声と略同一ピッチの音声の周波数スペクトルであり前記第1変換用スペクトルよりも各ピークの帯域幅が広い第2変換用スペクトルの何れかを取得するスペクトル取得処理と、
    前記スペクトル取得処理にて取得した変換用スペクトルに含まれる各ピークの周波数を、前記ピッチ検出にて検出したピッチに応じて、前記入力音声のスペクトルに含まれるピークの周波数に近づけるように変化させるピッチ変換処理と、
    前記ピッチ変換処理にてピークの周波数が変化させられた変換用スペクトルのスペクトルエンベロープを前記エンベロープ検出処理にて検出したスペクトルエンベロープと略一致させるように、当該変換用スペクトルの一のピークのスペクトル強度と、前記入力音声のスペクトルに含まれる当該一のピークに近似または一致する周波数のスペクトル強度との比を算定し、当該変換用スペクトルにおける当該一のピークを中心とした所定の帯域のスペクトル強度に対して当該比を乗算する処理を、各ピークについて行うことで、当該変換用スペクトルのスペクトルエンベロープを調整するエンベロープ調整処理と、
    前記エンベロープ調整処理後の変換用スペクトルから出力音声信号を生成する音声生成処理と
    を実行させるためのプログラム。
JP2005067907A 2005-03-10 2005-03-10 音声処理装置およびプログラム Expired - Fee Related JP4645241B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005067907A JP4645241B2 (ja) 2005-03-10 2005-03-10 音声処理装置およびプログラム
EP06110600.1A EP1701336B1 (en) 2005-03-10 2006-03-02 Sound processing apparatus and method, and program therefor
US11/372,812 US7945446B2 (en) 2005-03-10 2006-03-09 Sound processing apparatus and method, and program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005067907A JP4645241B2 (ja) 2005-03-10 2005-03-10 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2006251375A JP2006251375A (ja) 2006-09-21
JP4645241B2 true JP4645241B2 (ja) 2011-03-09

Family

ID=36600135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005067907A Expired - Fee Related JP4645241B2 (ja) 2005-03-10 2005-03-10 音声処理装置およびプログラム

Country Status (3)

Country Link
US (1) US7945446B2 (ja)
EP (1) EP1701336B1 (ja)
JP (1) JP4645241B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE515021T1 (de) * 2004-10-27 2011-07-15 Yamaha Corp Tonhöhenumsetzungsvorrichtung
JP4910764B2 (ja) * 2007-02-27 2012-04-04 ヤマハ株式会社 音声処理装置
FR2920583A1 (fr) * 2007-08-31 2009-03-06 Alcatel Lucent Sas Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs
US8494842B2 (en) * 2007-11-02 2013-07-23 Soundhound, Inc. Vibrato detection modules in a system for automatic transcription of sung or hummed melodies
EP3296992B1 (en) * 2008-03-20 2021-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for modifying a parameterized representation
WO2012070668A1 (ja) 2010-11-25 2012-05-31 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
JP2013003470A (ja) * 2011-06-20 2013-01-07 Toshiba Corp 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
JP6225818B2 (ja) * 2014-04-30 2017-11-08 ヤマハ株式会社 ピッチ情報生成装置、ピッチ情報生成方法、及びプログラム
JP7013789B2 (ja) * 2017-10-23 2022-02-01 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
DE112017008070T5 (de) * 2017-11-07 2020-07-09 Yamaha Corporation Klangausgabevorrichtung
CN111063364B (zh) * 2019-12-09 2024-05-10 广州酷狗计算机科技有限公司 生成音频的方法、装置、计算机设备和存储介质
CN113257211B (zh) * 2021-05-13 2024-05-24 杭州网易云音乐科技有限公司 音频调节方法、介质、装置和计算设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04147300A (ja) * 1990-10-11 1992-05-20 Fujitsu Ltd 話者の声質変換処理方式
JPH1020873A (ja) * 1996-07-08 1998-01-23 Sony Corp 音声信号処理装置
JPH1055191A (ja) * 1996-08-09 1998-02-24 Yamaha Corp カラオケ装置
JPH11126083A (ja) * 1997-10-22 1999-05-11 Matsushita Electric Ind Co Ltd カラオケ再生装置
JP2000003187A (ja) * 1998-06-16 2000-01-07 Yamaha Corp 音声特徴情報記憶方法および音声特徴情報記憶装置
JP2000075868A (ja) * 1998-08-27 2000-03-14 Roland Corp ハーモニー生成装置およびカラオケシステム
JP2000315100A (ja) * 1994-04-06 2000-11-14 Sony Corp ハーモニー生成装置
JP2001117578A (ja) * 1999-10-21 2001-04-27 Yamaha Corp ハーモニー音付加装置及び方法
JP2002182675A (ja) * 2000-12-11 2002-06-26 Yamaha Corp 音声合成装置、ボーカルデータ生成装置および歌唱装置
JP2003036082A (ja) * 1995-03-06 2003-02-07 Roland Corp ピッチ変換装置
JP2004077608A (ja) * 2002-08-12 2004-03-11 Yamaha Corp 合唱合成装置、合唱合成方法およびプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1013525B (zh) * 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US5231671A (en) * 1991-06-21 1993-07-27 Ivl Technologies, Ltd. Method and apparatus for generating vocal harmonies
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
US5956685A (en) * 1994-09-12 1999-09-21 Arcadia, Inc. Sound characteristic converter, sound-label association apparatus and method therefor
US5567901A (en) * 1995-01-18 1996-10-22 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
US5933808A (en) * 1995-11-07 1999-08-03 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms
JP3102335B2 (ja) * 1996-01-18 2000-10-23 ヤマハ株式会社 フォルマント変換装置およびカラオケ装置
US5749073A (en) * 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
JP3414150B2 (ja) 1996-09-03 2003-06-09 ヤマハ株式会社 コーラス効果付与装置
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6549884B1 (en) * 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
SE0101175D0 (sv) * 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filterbanks
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4207902B2 (ja) * 2005-02-02 2009-01-14 ヤマハ株式会社 音声合成装置およびプログラム

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04147300A (ja) * 1990-10-11 1992-05-20 Fujitsu Ltd 話者の声質変換処理方式
JP2000315100A (ja) * 1994-04-06 2000-11-14 Sony Corp ハーモニー生成装置
JP2003036082A (ja) * 1995-03-06 2003-02-07 Roland Corp ピッチ変換装置
JPH1020873A (ja) * 1996-07-08 1998-01-23 Sony Corp 音声信号処理装置
JPH1055191A (ja) * 1996-08-09 1998-02-24 Yamaha Corp カラオケ装置
JPH11126083A (ja) * 1997-10-22 1999-05-11 Matsushita Electric Ind Co Ltd カラオケ再生装置
JP2000003187A (ja) * 1998-06-16 2000-01-07 Yamaha Corp 音声特徴情報記憶方法および音声特徴情報記憶装置
JP2000075868A (ja) * 1998-08-27 2000-03-14 Roland Corp ハーモニー生成装置およびカラオケシステム
JP2001117578A (ja) * 1999-10-21 2001-04-27 Yamaha Corp ハーモニー音付加装置及び方法
JP2002182675A (ja) * 2000-12-11 2002-06-26 Yamaha Corp 音声合成装置、ボーカルデータ生成装置および歌唱装置
JP2004077608A (ja) * 2002-08-12 2004-03-11 Yamaha Corp 合唱合成装置、合唱合成方法およびプログラム

Also Published As

Publication number Publication date
JP2006251375A (ja) 2006-09-21
EP1701336B1 (en) 2013-04-24
US7945446B2 (en) 2011-05-17
US20060212298A1 (en) 2006-09-21
EP1701336A2 (en) 2006-09-13
EP1701336A3 (en) 2006-09-20

Similar Documents

Publication Publication Date Title
JP4645241B2 (ja) 音声処理装置およびプログラム
JP4207902B2 (ja) 音声合成装置およびプログラム
CN111418005B (zh) 声音合成方法、声音合成装置及存储介质
WO2020171033A1 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
JP6821970B2 (ja) 音声合成装置および音声合成方法
WO2020095951A1 (ja) 音響処理方法および音響処理システム
Jensen The timbre model
WO2021060493A1 (ja) 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置
WO2020158891A1 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
WO2014142200A1 (ja) 音声処理装置
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
WO2017135350A1 (ja) 記録媒体、音響処理装置および音響処理方法
JP4433734B2 (ja) 音声分析合成装置、音声分析装置、及びプログラム
JP2004077608A (ja) 合唱合成装置、合唱合成方法およびプログラム
JP5211437B2 (ja) 音声処理装置およびプログラム
JP2015087436A (ja) 音声処理装置、音声処理装置の制御方法およびプログラム
JP7088403B2 (ja) 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
JP6337698B2 (ja) 音響処理装置
JP2009237590A (ja) 音声効果付与装置
JP2010002937A (ja) 音声分析合成装置、音声分析装置、音声合成装置、及びプログラム
WO2020171036A1 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
Dony Armstrong et al. Pedal effects modeling for stringed instruments by employing schemes of dsp in real time for vocals and music
JP4910764B2 (ja) 音声処理装置
SHI Extending the Sound of the Guzheng
JP3907838B2 (ja) 音声変換装置及び音声変換方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4645241

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees