JP2006017946A - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP2006017946A
JP2006017946A JP2004194800A JP2004194800A JP2006017946A JP 2006017946 A JP2006017946 A JP 2006017946A JP 2004194800 A JP2004194800 A JP 2004194800A JP 2004194800 A JP2004194800 A JP 2004194800A JP 2006017946 A JP2006017946 A JP 2006017946A
Authority
JP
Japan
Prior art keywords
spectrum
envelope
data
frequency
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004194800A
Other languages
English (en)
Other versions
JP4654621B2 (ja
Inventor
Yasuo Yoshioka
靖雄 吉岡
Rosukosu Alex
ロスコス アレックス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2004194800A priority Critical patent/JP4654621B2/ja
Priority to EP05105600A priority patent/EP1612770B1/en
Priority to DE602005002403T priority patent/DE602005002403T2/de
Priority to US11/165,695 priority patent/US8073688B2/en
Publication of JP2006017946A publication Critical patent/JP2006017946A/ja
Application granted granted Critical
Publication of JP4654621B2 publication Critical patent/JP4654621B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】 入力音声から自然な出力音声を生成する。
【解決手段】 エンベロープ特定部23は、入力音声信号SinのスペクトルエンベロープEVinを示す入力エンベロープデータDEVinを生成する。テンプレート取得部33は、変換用音声の周波数スペクトルSPtを示す変換用スペクトルデータDSPtを記憶部51から読み出す。データ生成部3aは、入力エンベロープデータDEVinと変換用スペクトルデータDSPtとに基づいて、変換用音声の周波数スペクトルSPtに対応した形状の周波数スペクトルであってスペクトルエンベロープが入力音声のスペクトルエンベロープEVinと略一致する周波数スペクトルSPnewを特定し、この周波数スペクトルSPnewを示す新規スペクトルデータDSPnewを生成する。逆FFT部15および出力処理部16は、この新規スペクトルデータDSPnewに基づいて出力音声信号Snewを生成する。
【選択図】 図1

Description

本発明は、音声の特性を変化させる技術に関する。
利用者によって入力された音声(以下「入力音声」という)をこれとは特性が異なる音声(以下「出力音声」という)に変換して出力する種々の技術が従来から提案されている。例えば特許文献1には、入力音声に気息性(ブレスネス)を付与した出力音声を生成する構成が開示されている。この構成においては、広い帯域幅にわたってスペクトル強度が均一であるホワイトノイズのうち入力音声の第3フォルマントに対応する周波数帯域の成分を入力音声に加算することによって出力音声が生成される。
特開2000−3200号公報(段落0014および段落0015)
しかしながら、人間の気息による音声(以下「気息音」という)の特性はホワイトノイズの特性とは根本的に相違するため、単にホワイトノイズを気息音の成分として入力音声に加算するだけでは聴感上において自然な出力音声を生成することが困難であるという問題がある。また、ここでは気息性が付与された出力音声を生成する場合に着目したが、声帯の不規則な振動によって生じる音声(以下「嗄れ声(かれごえ)」という)や声帯の振動を伴なわない囁き声など様々な特性を持った出力音声を生成する場合にも同様の問題が生じ得る。例えば、公知のSMS(Spectral Modeling Synthesis)技術によって入力音声から調和成分と非調和成分(残差成分またはノイズ成分とも称される)とを抽出し、このうち非調和成分の強度を相対的に増加させたうえで調和成分と加算すれば嗄れ声を生成することも一応は可能である。しかしながら、人間の嗄れ声は声帯の不規則な振動を伴なう音声であり、単にノイズ成分に富んだ音声とは根本的に相違するから、この方法によっても自然な嗄れ声を生成するには限界がある。本発明は、このような事情に鑑みてなされたものであり、入力音声から自然な出力音声を生成することにある。
この課題を解決するために、本発明に係る音声処理装置は、入力音声の周波数スペクトルを特定する周波数分析手段と、前記周波数分析手段が特定した周波数スペクトルのスペクトルエンベロープを示す入力エンベロープデータを生成するエンベロープ特定手段と、変換用音声の周波数スペクトルを示す変換用スペクトルデータを取得する取得手段と、前記エンベロープ特定手段が生成した入力エンベロープデータと前記取得手段が取得した変換用スペクトルデータとに基づいて、前記変換用音声の周波数スペクトルに対応した形状の周波数スペクトルであってスペクトルエンベロープが前記入力音声のスペクトルエンベロープと略一致する周波数スペクトルを示す新規スペクトルデータを生成するデータ生成手段と、前記データ生成手段が生成した新規スペクトルデータに基づいて音声信号を生成する信号生成手段とを具備する。この構成によれば、変換用音声の周波数スペクトルに対応した形状の周波数スペクトルであってスペクトルエンベロープが入力音声のスペクトルエンベロープと略一致する周波数スペクトルが特定されるから、入力音声のピッチや音色(音韻)を維持しながら変換用音声の音質が反映された自然な出力音声を得ることができる。なお、新規スペクトルデータが示す周波数スペクトルのスペクトルエンベロープは入力音声のスペクトルエンベロープと厳密に一致する必要はなく、入力音声のスペクトルエンベロープに沿った形状となっていれば足りる。さらに詳述すると、新規スペクトルデータが示す周波数スペクトルのスペクトルエンベロープは、出力音声のピッチが入力音声のピッチと聴感上において同等となる程度に入力音声のスペクトルエンベロープと対応(略一致)していることが望ましい。
本発明の第1の態様において、前記取得手段は、前記変換用音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に属する周波数スペクトルを示す変換用スペクトルデータを取得し、前記データ生成手段は、前記入力音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に対応した変換用スペクトルデータに基づいて新規スペクトルデータを生成するスペクトル変換手段と、この新規スペクトルデータが示す周波数スペクトルの強度を前記入力エンベロープデータに基づいて調整するエンベロープ調整手段とを含む。この態様によれば、変換用音声がスペクトル分布領域に区分されたうえでスペクトル分布領域ごとに新規スペクトルデータが生成されるから、変換用音声および入力音声の周波数スペクトルに局所的なピークが現れる場合に特に好適である。なお、この態様の具体例は第1実施形態として後述される。
本発明の第1の態様において、前記周波数分析手段は、前記入力音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に属する周波数スペクトルを示す入力スペクトルデータを生成し、前記スペクトル変換手段は、前記各スペクトル分布領域の前記入力スペクトルデータを当該スペクトル分布領域に対応した前記変換用スペクトルデータに置換することによって前記新規スペクトルデータを生成する。この態様によれば、入力音声の周波数スペクトルをスペクトル分布領域ごとに変換用音声の周波数スペクトルに置換することによって新規スペクトルデータが生成されるから、煩雑な演算処理を要することなく出力音声が得られる。
また、本発明の第1の態様において、前記周波数分析手段は、前記入力音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に属する周波数スペクトルを示す入力スペクトルデータを生成し、前記スペクトル変換手段は、前記入力音声のスペクトル分布領域ごとに、このスペクトル分布領域の入力スペクトルデータが示す強度と当該スペクトル分布領域に対応する変換用スペクトルデータが示す強度とを特定の比率にて加算し、この加算値が強度とされた周波数スペクトルを示す前記新規スペクトルデータを生成する。この態様によれば、変換用音声の周波数スペクトルだけでなく入力音声の周波数スペクトルをも反映した自然な出力音声が得られる。
このように入力音声の周波数スペクトルと変換用音声の周波数スペクトルとを特定の比率にて加算する態様においては、前記入力音声の音量を検出する音量検出手段と、前記音量検出手段が検出した音量に応じて前記特定の比率を変化させるパラメータ調整手段とがさらに設けられる。この構成によれば、入力音声に応じて入力音声の周波数スペクトルと変換用音声の周波数スペクトルとの強度の比率が変化させられるから、人間の実際の発声に近い自然な出力音声が得られる。ところで、本発明の音声処理装置にて利用される変換用音声として嗄れ声を採用すれば、入力音声を嗄れ声に変換することができる。嗄れ声とは、発声に際して声帯の不規則な振動を伴なう音声であり、周波数スペクトルのうち基音や倍音に対応した各局所的ピークの間の帯域に不規則なピークやディップが現れる音声である。このような嗄れ声に特有の不規則性(声帯の振動の不規則性)は、その音声が大きいほど顕著となる傾向がある。そこで、本発明の望ましい態様において、前記パラメータ調整手段は、前記音量検出手段によって検出された音量が大きいほど前記変換用スペクトルデータが示す強度の比率が大きくなるように前記特定の比率を変化させる。この構成によれば、入力音声の音量が大きいほど出力音声における不規則性(いわば嗄れ声らしさ)を増加させることができ、人間の実際の発声に則した音声処理が実現される。また、前記入力音声の音量の変化に対する前記特定の比率の変化の態様を利用者による操作に応じて指定する指定手段を設けてもよい。こうすれば、利用者の好みに応じた多様な出力音声を生成することができる。なお、ここでは変換用音声を嗄れ声とした場合を例示したが、変換用音声の特性がこれに限られないことはもちろんである。
本発明の第2の態様においては、変換用音声を時間軸上にて区分した所定数のフレームの各々について前記変換用スペクトルデータを記憶する記憶手段と、前記各フレームにおける変換用音声のスペクトルエンベロープの強度を前記所定数のフレームについて平均化したエンベロープを示す平均エンベロープデータを取得する平均エンベロープ取得手段とがさらに設けられ、前記データ生成手段は、前記入力エンベロープデータが示すスペクトルエンベロープの強度と前記平均エンベロープデータが示すエンベロープの強度との差分値を算定する差分算定手段と、各フレームの変換用スペクトルデータが示す周波数スペクトルの強度と前記差分算定手段が算定した差分値とを加算する加算手段とを具備し、この加算手段による加算結果に基づいて前記新規スペクトルデータを生成する。この態様によれば、変換用音声の各フレームについて平均化されたスペクトルエンベロープと入力音声のスペクトルエンベロープとの差分値が変換用音声の周波数スペクトルに変換されることによって新規スペクトルデータが生成されるから、変換用音声の周波数スペクトルの経時的な変動を精度よく反映させた自然な出力音声が得られる。この態様においては、変換用音声をスペクトル分布領域に区分する必要がないから、変換用音声の周波数スペクトルに局所的なピークが現れない場合(例えば変換用音声が気息音などの無声音とされた場合)に特に好適である。なお、この態様の具体例は第2実施形態として後述される。
ところで、人間の音声における気息性は周波数が比較的に高い場合に特に顕著となる。そこで、本発明の第2の態様においては、前記新規スペクトルデータが示す音声のうち遮断周波数を超える帯域に属する成分を選択的に通過させるフィルタ手段を設けてもよい(図10参照)。さらに、前記入力音声の音量を検出する音量検出手段を設け、前記フィルタ手段が、前記音量検出手段が検出した音量に応じて前記遮断周波数を変化させる構成とすれば、より現実の発声に近い出力音声を得ることができる。例えば、入力音声の音量が大きいほど遮断周波数を上昇(あるいは下降)させるといった具合である。
本発明の第2の態様において変換用音声を気息音(囁き声)などの無声音とした場合、加算手段による加算値を強度とする周波数スペクトルは無声音に対応したものとなる。この無声音を出力音声としてそのまま出力してもよいが、この無声音と入力音声とを混合して出力する構成も採用される。すなわち、この構成においては、前記データ生成手段が、前記加算手段による算定値が強度とされた周波数スペクトルの強度と、前記周波数分析手段が検出した周波数スペクトルの強度とを特定の比率にて加算し、この加算値が強度とされた周波数スペクトルを示す前記新規スペクトルデータを生成する。こうすれば、入力音声に気息性が付与された自然な出力音声を得ることができる。ところで、人間が音声を聴いたときに知覚する気息性の程度はその音声の音量に応じて変化する傾向がある。そこで、本発明の音声処理装置には、前記入力音声の音量を検出する音量検出手段と、前記音量検出手段が検出した音量に応じて前記特定の比率を変化させるパラメータ調整手段とがさらに設けられる。聴感上における気息性の程度は音量が小さいほど顕著になると考えられるから、より望ましい態様において、前記パラメータ調整手段は、前記音量検出手段によって検出された音量が小さいほど、前記加算手段による算定値が強度とされた周波数スペクトルの強度の比率が大きくなるように、前記特定の比率を変化させる。この構成によれば、人間の聴覚の特性に整合した自然な出力音声が得られる。また、前記入力音声の音量の変化に対する前記特定の比率の変化の態様を利用者による操作に応じて指定する指定手段を設けてもよい。こうすれば、利用者の好みに応じた多様な出力音声を生成することができる。なお、ここでは変換用音声を嗄れ声とした場合を例示したが、変換用音声の特性がこれに限られないことはもちろんである。
本発明の音声処理装置において、ひとつのピッチにて発声された変換用音声に対応する変換用スペクトルデータに基づいて出力音声を生成してもよいが、入力音声のピッチが多様であり得るという事情に照らせば、異なるピッチに対応した複数の変換用スペクトルデータを予め用意しておく構成も採用され得る。すなわち、この構成においては、ピッチが相違する変換用音声の周波数スペクトルを各々が示す複数の変換用スペクトルデータを記憶する記憶手段と、前記入力音声のピッチを検出するピッチ検出手段とがさらに設けられ、前記取得手段は、前記記憶手段に記憶された複数の変換用スペクトルデータのうち前記ピッチ検出手段が検出したピッチに対応した変換用スペクトルデータを取得する。この構成によれば、入力音声のピッチに応じた変換用スペクトルデータに基づいて特に自然な出力音声を生成することができる。
本発明に係る音声処理装置は、音声処理に専用されるDSP(Digital Signal Processor)などのハードウェアによって実現されるほか、パーソナルコンピュータなどのコンピュータとプログラムとの協働によっても実現される。このプログラムは、コンピュータに、入力音声の周波数スペクトルを検出する周波数分析処理と、前記周波数分析処理によって検出された周波数スペクトルのスペクトルエンベロープを示す入力エンベロープデータを生成するエンベロープ特定処理と、変換用音声の周波数スペクトルを示す変換用スペクトルデータを取得する取得処理と、前記エンベロープ特定処理によって生成された入力エンベロープデータと前記取得処理によって取得された変換用スペクトルデータとに基づいて、前記変換用音声の周波数スペクトルに対応した形状の周波数スペクトルであってスペクトルエンベロープが前記入力音声のスペクトルエンベロープと略一致する周波数スペクトルを示す新規スペクトルデータを生成するデータ生成処理と、前記データ生成処理によって生成された新規スペクトルデータに基づいて音声信号を生成する信号生成処理とを実行させるものである。このプログラムによっても、本発明の音声処理装置について上述したのと同様の作用および効果が得られる。なお、本発明に係るプログラムは、CD−ROMなど可搬型の記録媒体に格納された形態にて利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態にてサーバ装置から提供されてコンピュータにインストールされる。
本発明の第1の態様に係る音声処理装置を実現するためのプログラムにおいて、前記取得処理は、前記変換用音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に属する周波数スペクトルを示す変換用スペクトルデータを取得する処理であり、前記データ生成処理は、前記入力音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に対応した変換用スペクトルデータに基づいて新規スペクトルデータを生成するスペクトル変換処理と、この新規スペクトルデータが示す周波数スペクトルの強度を前記入力エンベロープデータに基づいて調整するエンベロープ調整処理とを含む。また、本発明の第2の態様に係る音声処理装置を実現するためのプログラムは、変換用音声を時間軸上にて区分した各フレームにおけるスペクトルエンベロープを複数のフレームについて平均化したエンベロープを示す平均エンベロープデータを取得する平均エンベロープ取得処理を前記コンピュータにさらに実行させるプログラムであって、前記データ生成処理は、前記入力エンベロープデータが示すスペクトルエンベロープの強度と前記平均エンベロープデータが示すエンベロープの強度との差分値を算定する差分算定処理と、各フレームの変換用スペクトルデータが示す周波数スペクトルの強度と前記差分算定処理によって算定された差分値とを加算する加算処理とを含み、この加算処理による加算結果に基づいて前記新規スペクトルデータを生成する処理である。
図面を参照しながら本発明の実施の形態について説明する。
<A:第1実施形態>
まず、図1を参照して、本発明の第1実施形態に係る音声処理装置の構成および動作を説明する。同図に示される音声処理装置D1の各部は、例えばCPU(Central Processing Unit)などの演算処理装置がプログラムを実行することによって実現されてもよいし、DSPなど音声処理に専用されるハードウェアによって実現されてもよい。後述する各実施形態についても同様である。
図1に示される音声入力部10は、図2の部分(a)に示されるように、利用者によって発せられた入力音声に応じたデジタルの電気信号(以下「入力音声信号」という)Sinを出力する手段であり、例えば、入力音声の波形を表わすアナログの電気信号を出力するマイクロホンと、この電気信号をデジタルの入力音声信号Sinに変換して出力するA/D変換器とを備えている。周波数分析部12は、音声入力部10から供給される入力音声信号Sinを所定の時間長(例えば5msないし10ms)のフレームごとに切り出し、各フレームの入力音声信号Sinに対してFFT(Fast Fourier Transform)を含む周波数分析を実行して周波数スペクトル(振幅スペクトル)SPinを検出する。図2の部分(a)に示されるように、各フレームは時間軸上において相互に重なり合うように選定される。これらのフレームは簡易的には同一の時間長の区間とされるが、例えば入力音声信号Sinのピッチに応じて各フレームの時間長を変化させる構成としてもよい。一方、図2の部分(b)には、ひとつのフレームについて特定された周波数スペクトルSPinが例示されている。同図に示されるように、入力音声信号Sinの周波数スペクトルSPinにおいては、基音および倍音に相当する各周波数においてスペクトル強度の局所的なピーク(以下では単に「局所的ピーク」という)Pが現れる。周波数分析部12は、各フレームの入力音声信号Sinの周波数スペクトルSPinを表わすデータ(以下「入力スペクトルデータ」という)DSPinを出力する。入力スペクトルデータDSPinは、複数の単位データを含む。各単位データは、周波数軸上において所定の間隔にて選定された複数の周波数(以下「対象周波数」という)Finの各々と当該対象周波数Finにおけるスペクトル強度Minとの組[Fin,Min]である(図2の部分(c)参照)。
図1に示されるように、周波数分析部12から出力された入力スペクトルデータDSPinはスペクトル処理部2aに供給される。このスペクトル処理部2aは、ピーク検出部21とエンベロープ特定部23と領域区分部25とを有する。このうちピーク検出部21は、入力スペクトルデータDSPinが示す周波数スペクトルSPin(すなわちフレームごとの入力音声信号Sinの周波数スペクトルSPin)において複数の局所的ピークPを検出するための手段である。これらの局所的ピークPを検出する方法としては、例えば、周波数軸上において近接する所定数のピーク(局所的ピークP以外の微細なピークを含む)のうちスペクトル強度が最大となるピークを局所的ピークPとして検出する方法が採用される。一方、エンベロープ特定部23は、周波数スペクトルSPinのスペクトルエンベロープ(スペクトル包絡)EVinを特定するための手段である。このスペクトルエンベロープEVinは、図2の部分(b)に示されるように、ピーク検出部21によって検出された複数の局所的ピークPを連結した包絡線である。スペクトルエンベロープEVinを特定する方法としては、例えば、周波数軸上において相互に隣接する局所的ピークP同士を直線的に連結することによってスペクトルエンベロープEVinを折線として特定する方法や、局所的ピークPを通過する曲線をスプライン補間など各種の補間技術によって補間してスペクトルエンベロープEVinを特定する方法、あるいは周波数スペクトルSPinにおける各対象周波数Finのスペクトル強度Minについて移動平均を算定したうえで各算定値を連結することによってスペクトルエンベロープEVinを特定する方法が採用され得る。エンベロープ特定部23は、こうして特定したスペクトルエンベロープEVinを示すデータ(以下「入力エンベロープデータ」という)DEVinを出力する。この入力エンベロープデータDEVinは、入力スペクトルデータDSPinと同様に複数の単位データを含む。各単位データは、図2の部分(d)に示されるように、周波数軸上において所定の間隔ごとに選定された複数の対象周波数Finの各々と当該対象周波数FinにおけるスペクトルエンベロープEVinのスペクトル強度MEVとの組[Fin,MEV]である。
一方、図1に示される領域区分部25は、周波数スペクトルSPinを周波数軸上の複数の帯域(以下「スペクトル分布領域」という)Rinごとに区分するための手段である。さらに詳述すると、領域区分部25は、図2の部分(b)に示されるように、各々がひとつの局所的ピークPとその前後の帯域とを含むように複数のスペクトル分布領域Rinを特定する。例えば、領域区分部25は、図2の部分(b)に示されるように、周波数軸上において隣り合う2つの局所的ピークPの中点をスペクトル分布領域Rin(Rin1,Rin2、Rin3、……)の境界として特定する。ただし、スペクトル分布領域Rinを選定する方法はこれに限られない。例えば、周波数軸上において隣り合う2つの局所的ピークP間の帯域においてスペクトル強度Minが最低となる周波数(すなわち周波数スペクトルSPinのディップ)をスペクトル分布領域Rinの境界として特定してもよい。したがって、各スペクトル分布領域Rinの帯域幅は略一定であっても互いに相違していてもよい。図2の部分(c)に示されるように、領域区分部25は、入力スペクトルデータDSPinをスペクトル分布領域Rinごとに区分して出力する。
次に、図1に示されるデータ生成部3aは、入力音声の特性を変化させた出力音声の周波数スペクトルSPnewを示すデータ(以下「新規スペクトルデータ」)DSPnewを生成するための手段である。本実施形態におけるデータ生成部3aは、予め用意された特定の音声(以下「変換用音声」という)の周波数スペクトルSPtと入力音声のスペクトルエンベロープEVinとに基づいて出力音声の周波数スペクトルSPnewを特定する。図1に示される記憶部51は、この変換用音声の周波数スペクトルSPtを示すデータ(以下「変換用スペクトルデータ」という)DSPtを記憶する手段である。変換用スペクトルデータDSPtは、図2の部分(c)に示した入力スペクトルデータDSPinと同様に、周波数軸上において所定の間隔にて選定された複数の対象周波数Ftの各々と当該対象周波数Ftにおける周波数スペクトルSPtのスペクトル強度Mtとからなる複数の単位データ[Ft,Mt]を含んでいる。
ここで、図3の部分(a)は変換用音声の波形を示す図である。この変換用音声は、特定の発声者が略一定のピッチを維持しつつ所定の時間にわたって発生した音声である。図3の部分(b)には、この変換用音声の周波数スペクトルSPtが例示されている。同図の部分(b)に示される周波数スペクトルSPtは、入力音声について上述したのと同様に、変換用音声を複数のフレームに区分し、このフレームごとに周波数分析(特にFFT)を実行することによって特定されたスペクトルである。本実施形態においては、声帯の不規則な振動を伴なう有声音(すなわち嗄れ声)が変換用音声とされた場合を想定する。図3の部分(b)に示されるように、このような変換用音声の周波数スペクトルSPtには、基音および倍音に相当する局所的ピークPのほか、声帯の振動の不規則性に起因したピークpが各局所的ピークPの間の帯域に現れる。この周波数スペクトルSPtは、入力音声について上述したように、各々がひとつの局所的ピークPを含む複数のスペクトル分布領域Rt(Rt1、Rt2、Rt3、……)に区分される。
図3の部分(c)に示されるように、記憶部51には、図3の部分(b)に示した周波数スペクトルSPtを示す変換用スペクトルデータDSPtが複数のスペクトル分布領域Rtに区分されたうえでフレームごとに記憶部51に記憶されている。以下では、ひとつの種類の変換用音声から生成された変換用スペクトルデータDSPtの集合を「テンプレート」と表記する。図3の部分(d)に示されるように、ひとつのテンプレートは、変換用音声を区分した所定数のフレームの各々について、当該フレームの周波数スペクトルSPtにおける各スペクトル分布領域Rtごとの変換用スペクトルデータDSPtを含んでいる。
さらに、本実施形態においては、各々のピッチが相違する複数の変換用音声から生成された複数のテンプレートが記憶部51に記憶されている。すなわち、例えば図1に示されるテンプレート1は、発声者がピッチPt1にて発生したときの変換用音声から生成された変換用スペクトルデータDSPtを含むテンプレートであり、テンプレート2は、発声者がピッチPt2にて発生したときの変換用音声から生成された変換用スペクトルデータDSPtを含むテンプレートである。記憶部51には、各テンプレートの生成の基礎とされた変換用音声のピッチPt(Pt1、Pt2、……)が当該テンプレートに対して対応付けられて記憶されている。
図1に示されるピッチ・ゲイン検出部31は、入力スペクトルデータDSPinと入力エンベロープデータDEVinとに基づいて入力音声のピッチPinとゲイン(音量)Ainとを検出する手段である。このピッチPinとゲインAinとを抽出する方法としては公知である各種の方法が採用され得る。また、音声入力部10から出力された入力音声信号Sinに基づいてピッチPinおよびゲインAinを検出する構成としてもよい。ピッチ・ゲイン検出部31は、ピッチPinをテンプレート取得部33に通知するとともにゲインAinをパラメータ調整部35に通知する。テンプレート取得部33は、ピッチ・ゲイン検出部31から通知されたピッチPinに基づいて、記憶部51に記憶された複数のテンプレートの何れかを取得する手段である。さらに詳述すると、テンプレート取得部33は、複数のテンプレートのうち入力音声のピッチPinに近い(あるいは一致する)ピッチPtが対応付けられたテンプレートを選択して記憶部51から読み出す。こうして読み出されてテンプレートはスペクトル変換部411に出力される。
このスペクトル変換部411は、領域区分部25から供給される入力スペクトルデータDSPinとテンプレート取得部33から供給されるテンプレートの変換用スペクトルデータDSPtとに基づいて、周波数スペクトルSPnew’を特定するための手段である。本実施形態においては、入力スペクトルデータDSPinが示す周波数スペクトルSPinのスペクトル強度Minと、変換用スペクトルデータDSPtが示す周波数スペクトルSPtのスペクトル強度Mtとが特定の比率をもって加算されることによって周波数スペクトルSPnew’が特定される。この特定の方法について図4を参照しながら説明する。
上述したように、各フレームの入力音声から特定された周波数スペクトルSPinは複数のスペクトル分布領域Rinに区分され(図4の部分(c)参照)、各フレームの変換用音声から特定された周波数スペクトルSPtは複数のスペクトル分布領域Rtに区分されている(図4の部分(a)参照)。スペクトル変換部411は、第1に、周波数スペクトルSPinの各スペクトル分布領域Rinと周波数スペクトルSPtの各スペクトル分布領域Rtとを相互に対応付ける。例えば、複数のスペクトル分布領域Rinおよび複数のスペクトル分布領域Rtのうち周波数帯域が近いもの同士を相互に対応付ける。あるいは、所定の順番に配列されたスペクトル分布領域Rinおよびスペクトル分布領域Rtを各々の順番に従って選択したうえで相互に対応付けるようにしてもよい。
第2に、スペクトル変換部411は、図4の部分(a)および部分(b)に示されるように、各スペクトル分布領域Rtに属する周波数スペクトルSPtを、各スペクトル分布領域Rinに属する周波数スペクトルSPinに対応するように周波数軸上において移動させる。さらに詳述すると、スペクトル変換部411は、周波数スペクトルSPtのうち各スペクトル分布領域Rtに属する局所的ピークPの周波数が、このスペクトル分布領域Rtに対応付けられたスペクトル分布領域Rin(図4の部分(c))の局所的ピークPの周波数Fpと略一致するように、各スペクトル分布領域Rtに属する周波数スペクトルSPtを周波数軸上において移動させる。
第3に、スペクトル変換部411は、周波数スペクトルSPinの対象周波数Finにおけるスペクトル強度Minと、図4の部分(b)に示される周波数スペクトルSPtのうち当該対象周波数Finに対応する(例えば一致または近似する)対象周波数Ftにおけるスペクトル強度Mtとを特定の比率にて加算し、この加算値を周波数スペクトルSPnew’の対象周波数におけるスペクトル強度Mnew’として選定する。より具体的には、図4の部分(b)に示される周波数スペクトルSPtのスペクトル強度Mtに対して重み値α(0≦α≦1)を乗算した数値(α・Mt)と周波数スペクトルSPinのスペクトル強度Minに対して重み値(1−α)を乗算した数値((1−α)・Min)とを加算した数値をスペクトル強度Mnew’(=α・Mt+(1−α)・Min)として対象周波数Finごとに算定することによって周波数スペクトルSPnew’を特定する。そして、スペクトル変換部411は、この周波数スペクトルSPnew’を示す新規スペクトルデータDSPnew’を生成する。なお、変換用音声のスペクトル分布領域Rtの帯域幅が入力音声のスペクトル分布領域Rinの帯域幅よりも狭い場合には、周波数スペクトルSPinの対象周波数Finに対応する周波数スペクトルSPtが存在しない帯域Tが発生することになる。このような帯域Tについては、図4の部分(c)および部分(d)に示されるように、周波数スペクトルSPinの強度Minの最小値が周波数スペクトルSPnew’の強度Mnew’として採用される。あるいは、この帯域Tにおける周波数スペクトルSPnew’の強度Mnew’をゼロとしてもよい。以上の動作が入力音声の各フレームについて実行されることによって、フレームごとに周波数スペクトルSPnew’が特定される。
ところで、変換用音声のフレーム数は予め決められているのに対して入力音声のフレーム数は利用者による発声の期間に応じて変化するため、入力音声のフレーム数と変換用音声のフレーム数とは一致しない場合が多い。変換用音声のフレーム数が入力音声のフレーム数よりも多い場合には、ひとつのテンプレートに含まれる変換用スペクトルデータDSPtのうち余ったフレームに対応するものを破棄すれば足りる。一方、変換用音声のフレーム数が入力音声のフレーム数よりも少ない場合には、ひとつのテンプレートに含まれる最後のフレームに対応した変換用スペクトルデータDSPtに続いて、最初のフレームの変換用スペクトルデータDSPtを利用するといった具合に、変換用スペクトルデータDSPtをひとつのテンプレートにおいてループさせて(循環的に)使用すればよい。
上述したように、本実施形態においては変換用音声として嗄れ声が採用されている。したがって、周波数スペクトルSPnew’が示す音声は変換用音声の特性を反映した嗄れ声となる。ところで、このような嗄れ声に特有の荒さ(声帯の振動の不規則性の程度)は、その音声の音量が大きいほど聴感上において顕著となる(すなわち荒い音声に聴こえる)という傾向がある。このような傾向を再現するために、本実施形態においては、入力音声のゲインAinに応じて重み値αが制御されるようになっている。図5は、入力音声のゲインAinと重み値αとの関係を示すグラフである。同図に示されるように、ゲインAinが小さい場合には重み値αが相対的に小さい数値とされる(重み値(1−α)が大きい数値とされる)。上述したように周波数スペクトルSPnew’の強度Mnew’は、周波数スペクトルSPtのスペクトル強度Mtおよび重み値αとの乗算値と、周波数スペクトルSPinのスペクトル強度Minおよび重み値(1−α)との乗算値とを加算したものであるから、重み値αが小さい場合には、周波数スペクトルSPtが周波数スペクトルSPnew’に与える影響は相対的に低減される。したがって、この場合には周波数スペクトルSPnew’が示す音声の聴感上における荒さは小さくなる。一方、図5に示されるように、ゲインAinの増大に伴なって重み値αも増大する(重み値(1−α)が減少する)。このように重み値αが大きい場合には、周波数スペクトルSPtが周波数スペクトルSPnew’に与える影響は相対的に増大するから、周波数スペクトルSPnew’が示す音声の荒さは増大する。図1に示されるパラメータ調整部35は、ピッチ・ゲイン検出部31によって検出されたゲインAinに対して図5に示す特性に従うように重み値αを調整し、この重み値αおよび重み値(1−α)をスペクトル変換部411に指定する手段である。
さらに、本実施形態においては、ゲインAinと重み値αとの関係が利用者によって適宜に調整されるようになっている。図1に示されるパラメータ指定部36は、利用者によって操作される操作子を備え、この操作子への操作に応じて入力されたパラメータu1、u2およびu3をパラメータ調整部35に通知する。図5に示されるように、パラメータu1は、入力音声のゲインAinが最小値であるときの重み値αの数値に相当し、パラメータu2は、重み値αの最大値に相当し、パラメータu3は、重み値αが最大値u2に到達するときのゲインAinに相当する。したがって、例えば、利用者がパラメータu2を増加させた場合には、入力音声の音量が大きいとき(ゲインAinがパラメータu3を越えるとき)の出力音声の荒さを相対的に増大させることができる。あるいは、利用者がパラメータu3を増加させた場合には、出力音声の荒さを変化させ得る入力音声のゲインAinの範囲を拡大することができる。
さて、以上の手順により入力音声のフレームごとに生成された各スペクトル分布領域の新規スペクトルデータDSPnew’はエンベロープ調整部412に供給される。このエンベロープ調整部412は、周波数スペクトルSPnew’のスペクトルエンベロープを入力音声のスペクトルエンベロープEVinに対応した形状となるように調整して周波数スペクトルSPnewを特定する手段である。ここで、図4の部分(d)には、周波数スペクトルSPnew’とともに、入力音声のスペクトルエンベロープEVinが破線により付記されている。同図に示されるように、周波数スペクトルSPnew’は必ずしもスペクトルエンベロープEVinに対応した形状となっていないから、この周波数スペクトルSPnew’に対応した音声をそのまま出力音声として放音した場合には、入力音声とはピッチや音色が異なる音声が出力されることになって利用者に違和感を与えかねない。そこで、本実施形態においては、エンベロープ調整部412において周波数スペクトルSPnew’のスペクトルエンベロープを調整することにより、出力音声のピッチや音色を入力音声に合わせる構成となっているのである。
さらに詳述すると、エンベロープ調整部412は、周波数スペクトルSPnew’の局所的ピークPにおけるスペクトル強度Mnew’がスペクトルエンベロープEVin上に位置するように、周波数スペクトルSPnew’のスペクトル強度を調整する。すなわち、エンベロープ調整部412はまず、各スペクトル分布領域に属するひとつのピークPにおけるスペクトル強度Mnew’とその局所的ピークPの周波数FpにおけるスペクトルエンベロープEVinのスペクトル強度MEVとの強度比β(=MEV/Mnew’)を算定する。そして、エンベロープ調整部412は、そのスペクトル分布領域の新規スペクトルデータDSPnew’が示す総てのスペクトル強度Mnew’に対して強度比βを乗算し、この乗算値を周波数スペクトルSPnewの強度とする。図4の部分(e)に示されるように、こうして特定された周波数スペクトルSPnewのスペクトルエンベロープは、入力音声のスペクトルエンベロープEVinと一致することになる。
次に、図1に示される逆FFT部15は、データ生成部3aがフレームごとに生成した新規スペクトルデータDSPnewに対して逆FFT処理を施して時間領域の出力音声信号Snew’を生成する。出力処理部16は、こうして生成されたフレームごとの出力音声信号Snew’に時間窓関数を乗算し、これらを時間軸上において相互に重なり合うように接続して出力音声信号Snewを生成する。すなわち、逆FFT部15および出力処理部16は、新規スペクトルデータDSPnewから出力音声信号Snewを生成する手段として機能する。音声出力部17は、出力処理部16から供給される出力音声信号Snewをアナログの電気信号に変換するD/A変換器と、このD/A変換器からの出力信号に基づいて放音する放音機器(例えばスピーカやヘッドフォン)とを具備する。この音声出力部17から発せられる出力音声は、入力音声のピッチや音色を維持しつつ変換用音声たる嗄れ声の特性を反映させたものとなる。
以上に説明したように、本実施形態においては、変換用音声の周波数スペクトルSPtと入力音声のスペクトルエンベロープEVinとに基づいて出力音声の周波数スペクトルSPnewが特定されるから、聴感上において極めて自然な出力音声を得ることができる。また、本実施形態においては、ピッチが相違する変換用音声から生成された複数のテンプレートの何れかが入力音声のピッチPinに応じて特定されるから、ひとつのピッチの変換用音声から生成された変換用スペクトルデータDSPtに基づいて出力音声を生成する構成と比較して、より自然な出力音声を生成することができる。
さらに、周波数スペクトルSPtのスペクトル強度Mtに乗算される重み値αが入力音声のゲインAinに応じて制御されるから、重み値αが固定値とされた構成と比較して、より現実の嗄れ声に近い自然な出力音声を生成することができる。しかも、入力音声のゲインAinと重み値αとの関係が利用者による操作に応じて調整されるから、利用者の好みに合った多様な出力音声を生成することができる。
<B:第2実施形態>
次に、図6を参照して、本発明の第2実施形態に係る音声処理装置について説明する。なお、本実施形態に係る音声処理装置D2のうち上記第1実施形態に係る音声処理装置D1と同様の要素については共通の符号を付してその説明を適宜に省略する。
上記実施形態においては、入力音声の周波数スペクトルSPinが複数のスペクトル分布領域Rinに区分されるとともに変換用音声の周波数スペクトルSPtが複数のスペクトル分布領域Rtに区分されたうえでデータ生成部3aによる処理に供される構成を例示したが、本実施形態においては、このような区分が実行されない。このため、本実施形態におけるスペクトル処理部2bは領域区分部25を備えていない。すなわち、図7の部分(a)に示される入力音声信号Sinについてフレームごとの周波数スペクトルSPinを示す入力スペクトルデータDSPinが周波数分析部12から供給されると、この入力スペクトルデータDSPinは、図7の部分(b)に示されるように、そのままの形態にて(つまりスペクトル分布領域Rinに区分されることなく)データ生成部3bに出力される。一方、スペクトル処理部2bのエンベロープ特定部23は、上記第1実施形態と同様に、周波数スペクトルSPinのスペクトルエンベロープEVin(図7の部分(b)参照)を示す入力エンベロープデータDEVinをデータ生成部3bに出力する。
本実施形態においては、発声者の声帯の振動を伴なわない無声音(すなわち囁き声)が変換用音声とされた場合を想定する。なお、無声音とは言ってもピッチや音質の相違は聴感上において認識され得る。そこで、本実施形態においても上記第1実施形態と同様に、ピッチが相違する変換用音声から生成された複数のテンプレートが記憶部52に記憶されている。図7の部分(c)は、ひとつのピッチ感にて発音された変換用音声(無声音)の波形を示す図である。上記第1実施形態と同様に、この変換用音声は複数のフレームに区分されたうえで、図7の部分(d)に示されるように、各フレームごとに周波数スペクトルSPtが特定される。同図に示されるように、無声音の周波数スペクトルSPtには基音や倍音といった特徴的な帯域が存在しないから、この周波数スペクトルSPtには図3に示したような局所的ピークPが現れない。図7の部分(d)に示されるように、記憶部52に記憶されたひとつのテンプレートには、発声者が特定のピッチ感にて発声した変換用音声を区分した各フレームについて、その周波数スペクトルSPtを示す変換用スペクトルデータDSPt(ただしスペクトル分布領域Rtには区分されていない)と、この周波数スペクトルSPtのスペクトルエンベロープEVtを示す変換用エンベロープデータDEVtとが含まれている。
図6に示されるテンプレート取得部33は、上記第1実施形態と同様に、ピッチ・ゲイン検出部31から通知されたピッチPinに基づいて複数のテンプレートの何れかを選択して記憶部52から読み出す。そして、テンプレート取得部33は、このテンプレートに含まれる変換用スペクトルデータDSPt(全フレーム分)を加算部424に出力するとともに、総てのフレームの変換用エンベロープデータDEVtを平均エンベロープ取得部421に出力する。
この平均エンベロープ取得部421は、図7の部分(e)に示されるように、各フレームの変換用エンベロープデータDEVtが示すスペクトルエンベロープEVtを総てのフレームについて平均化したスペクトルエンベロープ(以下「平均エンベロープ」という)EVaveを特定するための手段である。より具体的には、平均エンベロープ取得部421は、各フレームの変換用エンベロープデータDEVtが示すスペクトルエンベロープEVtのうち特定の周波数におけるスペクトル強度の平均値を算定し、この平均値をスペクトル強度とする平均エンベロープEVaveを特定する。そして、平均エンベロープ取得部421は、この平均エンベロープEVaveを示す平均エンベロープデータDEVaveを差分算定部423に出力する。
一方、図6に示されるスペクトル処理部2bから出力された入力エンベロープデータDEVinは差分算定部423に供給される。この差分算定部423は、平均エンベロープデータDEVaveが示す平均エンベロープEVaveと入力エンベロープデータDEVinが示すスペクトルエンベロープEVinとのスペクトル強度の差分を算定するための手段である。すなわち、差分算定部423は、平均エンベロープEVaveの各対象周波数Ftにおけるスペクトル強度MtとスペクトルエンベロープEVinの各対象周波数Ftにおけるスペクトル強度Minとの差分値ΔMを算定してエンベロープ差分データΔEVを加算部424に出力する。エンベロープ差分データΔEVは複数の単位データを含む。各単位データは、各対象周波数Ftと差分値ΔMとの組[Ft,ΔM]である。
次に、加算部424は、変換用スペクトルデータDSPtが示す各フレームの周波数スペクトルSPtとエンベロープ差分データΔEVが示す差分値ΔMとを加算して周波数スペクトルSPnew’を算定する手段である。すなわち、加算部424は、各フレームの周波数スペクトルSPtのうち各対象周波数Ftのスペクトル強度Mtと、エンベロープ差分データΔEVのうち当該対象周波数Ftにおける差分値ΔMとを加算し、この算定値を強度Mnew’とする周波数スペクトルSPnew’を特定する。そして、この周波数スペクトルSPnew’を示す新規スペクトルデータDSPnew’をフレームごとに混合部425に出力する。以上の手順によって特定された周波数スペクトルSPnew’の形状は、図7の部分(f)に示されるように、変換用音声の周波数スペクトルSPtを反映したものとなる。したがって、この周波数スペクトルSPnew’が示す音声は変換用音声と同様の無声音となる。また、周波数スペクトルSPnew’のスペクトルエンベロープは入力音声のスペクトルエンベロープEVinと略一致するから、この周波数スペクトルSPnew’が示す音声は入力音声の音韻を反映した無声音となる。さらに、加算部424は、変換用音声のフレームごとに変換用スペクトルデータDSPtとエンベロープ差分データΔEVとの加算を実行するから、各フレームの周波数スペクトルSPnew’が示す音声を複数のフレームにわたって連結した音声は、変換用音声の周波数スペクトルSPtの経時的な変動(より具体的には各対象周波数Ftにおけるスペクトル強度Mtの微細な変動)を精緻に反映させたものとなる。
図6に示される混合部425は、入力音声の周波数スペクトルSPinと加算部424によって特定された周波数スペクトルSPnew’とを特定の比率にて混合することによって周波数スペクトルSPnewを特定する手段である。すなわち、混合部425は、入力スペクトルデータDSPinが示す周波数スペクトルSPinのうち対象周波数Finにおけるスペクトル強度Minに重み値(1−α)を乗算するとともに、新規スペクトルデータDSPnew’が示す周波数スペクトルSPnew’のうち当該対象周波数Finに対応した(例えば一致または近似する)対象周波数Ftにおけるスペクトル強度Mnew’に重み値αを乗算し、各乗算値の加算値をスペクトル強度Mnew(=(1−α)・Min+α・Mnew’)とする周波数スペクトルSPnewを特定する。そして、混合部425は、この周波数スペクトルSPnewを示す新規スペクトルデータDSPnewを逆FFT部15に出力する。これ以後の動作は上記第1実施形態と同様である。
ところで、混合部425において適用される重み値αは、上記第1実施形態と同様に、利用者がパラメータ指定部36から入力したパラメータと入力音声のゲインAinとに応じてパラメータ調整部35が選定する。ただし、本実施形態においては変換用音声が無声音とされているため、入力音声のゲインAinと重み値αとの関係が上記第1実施形態とは相違する。ここで、音声における気息性の程度は、その音声の音量が小さいほど聴感上において顕著となる(すなわち音量が小さい音声ほど囁き声らしく聴こえる)という傾向がある。このような傾向を再現するために、本実施形態においては、図8に示されるように、入力音声のゲインAinが小さいほど重み値αが大きくなるようにゲインAinと重み値αとの関係が選定されている。図8に示されるパラメータv1、v2およびv3はパラメータ指定部36に対する操作に応じて選定される。このうちパラメータv1は、入力音声のゲインAinが最小値であるときの重み値α(すなわち重み値αの最大値)に相当し、パラメータv2は、重み値αが最大値v1となるゲインAinの最大値に相当し、パラメータv3は、重み値αが最小値(ゼロ)となるときのゲインAinに相当する。
以上に説明したように、本実施形態においても上記第1実施形態と同様に、変換用音声の周波数スペクトルSPtと入力音声のスペクトルエンベロープEVinとに基づいて周波数スペクトルSPnew’が特定されるから、聴感上において極めて自然な出力音声を得ることができる。また、本実施形態においては、気息音の周波数スペクトルSPnew’と入力音声(典型的には有声音)の周波数スペクトルSPinとが入力音声のゲインAinに応じた比率にて混合されることによって出力音声の周波数スペクトルSPnewが生成されるから、人間の実際の声帯の挙動に近い自然な出力音声を生成することができる。
<C:第3実施形態>
次に、図9を参照して、本発明の第3実施形態に係る音声処理装置について説明する。この音声処理装置D3は、上記第1実施形態に係る音声処理装置D1と上記第2実施形態に係る音声処理装置D2とを組み合わせた構成となっている。なお、本実施形態に係る音声処理装置D3のうち上記各実施形態と同様の要素については共通の符号を付してその説明を省略する。
図9に示されるように、この音声処理装置D3は、音声入力部10および周波数分析部12の後段に、上記第1実施形態に示したスペクトル処理部2aおよびデータ生成部3aが配置され、このデータ生成部3aの後段に、上記第2実施形態に示したスペクトル処理部2bおよびデータ生成部3bが配置されている。このデータ生成部3bから出力された新規スペクトルデータDSPnewが逆FFT部15に出力される。パラメータ指定部36は、データ生成部3aにパラメータu1、u2およびu3を指定するための手段、ならびにデータ生成部3bにパラメータv1、v2およびv3を指定するための手段として共用される。
この構成のもと、スペクトル処理部2aおよびデータ生成部3aは、上記第1実施形態と同様の手順により、周波数分析部12から出力された入力スペクトルデータDSPinと記憶部51に記憶された変換用音声のテンプレートとに基づいて新規スペクトルデータSnew0を出力する。一方、スペクトル処理部2bおよびデータ生成部3bは、上記第2実施形態と同様の手順により、データ生成部3aから出力された新規スペクトルデータSnew0と記憶部52に記憶された変換用音声のテンプレートとに基づいて新規スペクトルデータDSPnewを出力する。この構成においても上記各実施形態と同様の効果が得られる。
なお、図9においては記憶部51と記憶部52とが別個の要素として図示されているが、単一の記憶部(記憶領域)に上記第1実施形態のテンプレートと第2実施形態のテンプレートとが一括して記憶される構成としてもよい。また、上記第2実施形態のスペクトル処理部2bおよびデータ生成部3bを第1実施形態のスペクトル処理部2aおよびデータ生成部3aの前段に配置した構成としてもよい。
<D:変形例>
上記各実施形態には種々の変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。以下に示す各態様を適宜に組み合わせてもよい。
(1)上記第1実施形態においては、周波数スペクトルSPinのスペクトル強度Minと周波数スペクトルSPtのスペクトル強度Mtとを加算することによって周波数スペクトルSPnew’を特定する構成を例示したが、周波数スペクトルSPnew’を特定する方法はこれに限られない。例えば、図4の部分(c)に示される周波数スペクトルSPinを同図の部分(b)に示される周波数スペクトルSPtに置換することによって周波数スペクトルSPnew’を生成する構成としてもよい。また、上記第1実施形態においては、周波数スペクトルSPnew’のスペクトル強度Mnew’と入力音声のスペクトルエンベロープEVinのスペクトル強度MEVとの強度比βを周波数スペクトルSPnew’に乗算することによって周波数スペクトルSPnewを生成する構成を例示したが、周波数スペクトルSPnew’の局所的ピークPをスペクトルエンベロープEVin上に位置させるための方法はこれに限られない。例えば、図4の部分(d)に示される周波数スペクトルSPnew’のスペクトル強度Mnew’に対してスペクトル分布領域Rinごとに特定の数値を加算することによって(すなわち周波数スペクトルSPnew’を図4(d)の縦軸方向に平行移動させることによって)周波数スペクトルSPnewを生成する構成としてもよい。このときに加算される数値は、例えば、スペクトルエンベロープEVinのスペクトル強度MEVと周波数スペクトルSPnew’のスペクトル強度Mnew’との差分値である。このように、上記第1実施形態においては、変換用音声の周波数スペクトルSPtの形状が周波数スペクトルSPnew’(さらには出力音声の周波数スペクトルSPnew)に反映されていれば足り、この周波数スペクトルSPnew’を特定するための方法の如何は不問である。
(2)上記第2実施形態の構成においては、気息音の周波数スペクトルSPnew’が広い周波数帯域にわたって分布することになる。しかしながら、気息音は有声音と比較して周波数が高い(すなわち低周波数の音声は囁き声になりにくい)という傾向に照らすと、より自然な出力音声を生成するためには周波数スペクトルSPnew’のうち特に周波数が低い成分を除去することが望ましい。そこで、図10に示されるように、周波数スペクトルSPnew’を特定する加算部424の後段にフィルタ427を配置してもよい。このフィルタ427は、所定の遮断周波数よりも高周波数側の帯域の成分のみを選択的に通過させるハイパスフィルタである。この構成によれば、気息音のうち遮断周波数よりも周波数が低い成分は除去されるから、より現実に近い自然な出力音声を生成することができる。また、フィルタ427の遮断周波数が適宜に変化させられる構成としてもよい。例えば、利用者による操作に応じて遮断周波数が上昇または下降する構成や、ピッチ・ゲイン検出部31によって検出されたピッチPinやゲインAinに応じて遮断周波数が上昇または下降する構成が採用される。
(3)上記第2実施形態においては、気息音を表わす周波数スペクトルSPnew’と入力音声の周波数スペクトルSPinとを混合したうえで逆FFT処理が実施される構成を例示したが、図11に示されるように、加算部424の後段に配置された逆FFT部428aにて周波数スペクトルSPnew’に逆FFT処理を実施して生成された信号(気息音を表わす時間領域の信号)と、逆FFT部428bにて周波数スペクトルSPinに逆FFT処理を実施して生成された信号(入力音声を表わす時間領域の信号)とを混合部425にて混合する構成としてもよい。この場合にも、混合部425における混合比(重み値α)をパラメータ調整部35によって適宜に調整する構成が採用され得る。なお、ここでは逆FFT部428bからの出力信号を混合部425に供給する構成を例示したが、図11に破線で示すように、音声入力部10から出力された入力音声信号Sinを直接的に混合部425に供給して逆FFT部428aからの出力信号と混合する構成としてもよい。
(4)上記第2実施形態においては、平均エンベロープ取得部421が複数のフレームの変換用エンベロープデータDEVtから平均エンベロープEVaveを特定する構成を例示したが、平均エンベロープEVaveを示す平均エンベロープデータDEVaveが予め記憶部52に記憶された構成としてもよい。この構成において、平均エンベロープ取得部421は記憶部52から平均エンベロープデータDEVaveを読み出して差分算定部423に出力する。また、上記実施形態においては、各フレームの変換用エンベロープデータDEVtから平均エンベロープEVaveが特定される構成を例示したが、各フレームの周波数スペクトルSPtを示す変換用スペクトルデータDSPtを平均化することによって平均エンベロープEVaveが特定される構成も採用される。
(5)上記各実施形態においては嗄れ声や囁き声を変換用音声とした場合を例示したが、変換用音声の態様(特に波形)は任意に選定され得る。例えば、波形が正弦波である音声を変換用音声として採用してもよい。この構成のもとで嗄れ声や囁き声が入力音声として入力されると、声帯の不規則な振動に起因した荒さや発声者の気息に起因した気息性が低減(あるいは排除)された明瞭な出力音声を生成することができる。
本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。 入力音声から入力スペクトルデータを生成する手順を説明するための図である。 変換用音声からテンプレートを生成する手順を説明するための図である。 同音声処理装置のうちデータ生成部3における処理内容を説明するための図である。 入力音声のゲインと重み値との関係を示すグラフである。 本発明の第2実施形態に係る音声処理装置の構成を示すブロック図である。 同音声処理装置のうちデータ生成部3における処理内容を説明するための図である。 入力音声のゲインと重み値との関係を示すグラフである。 本発明の第3実施形態に係る音声処理装置の構成を示すブロック図である。 第2実施形態の変形例に係る音声処理装置の構成を示すブロック図である。 第2実施形態の変形例に係る音声処理装置の構成を示すブロック図である。
符号の説明
D1,D2,D3……音声処理装置、10……音声入力部、12……周波数分析部、15……逆FFT部、16……出力処理部、17……音声出力部、2a,2b……スペクトル処理部、21……ピーク検出部、23……エンベロープ特定部、25……領域区分部、3a,3b……データ生成部、31……ピッチ・ゲイン検出部、33……テンプレート取得部、35……パラメータ調整部、36……パラメータ指定部、411……スペクトル変換部、412……エンベロープ調整部、421……平均エンベロープ取得部、423……差分算定部、424……加算部、425……混合部、51,52……記憶部、Sin……入力音声信号、SPin……入力音声の周波数スペクトル、DSPin……入力スペクトルデータ、EVin……入力音声のスペクトルエンベロープ、DEVin……入力エンベロープデータ、SPt……変換用音声の周波数スペクトル、DSPt……変換用スペクトルデータ、EVt……変換用音声のスペクトルエンベロープ、DEVt……変換用エンベロープデータ、EVave……平均エンベロープ、DEVave……平均エンベロープデータ、SPnew……出力音声の周波数スペクトル、DSPnew……新規スペクトルデータ、Rin……入力音声のスペクトル分布領域、Rt……変換用音声のスペクトル分布領域、u1,u2,u3,v1,v2,v3……パラメータ、P……局所的ピーク。

Claims (14)

  1. 入力音声の周波数スペクトルを特定する周波数分析手段と、
    前記周波数分析手段が特定した周波数スペクトルのスペクトルエンベロープを示す入力エンベロープデータを生成するエンベロープ特定手段と、
    変換用音声の周波数スペクトルを示す変換用スペクトルデータを取得する取得手段と、
    前記エンベロープ特定手段が生成した入力エンベロープデータと前記取得手段が取得した変換用スペクトルデータとに基づいて、前記変換用音声の周波数スペクトルに対応した形状の周波数スペクトルであってスペクトルエンベロープが前記入力音声のスペクトルエンベロープと略一致する周波数スペクトルを示す新規スペクトルデータを生成するデータ生成手段と、
    前記データ生成手段が生成した新規スペクトルデータに基づいて音声信号を生成する信号生成手段と
    を具備する音声処理装置。
  2. 前記取得手段は、前記変換用音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に属する周波数スペクトルを示す変換用スペクトルデータを取得し、
    前記データ生成手段は、前記入力音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に対応した変換用スペクトルデータに基づいて新規スペクトルデータを生成するスペクトル変換手段と、この新規スペクトルデータが示す周波数スペクトルの強度を前記入力エンベロープデータに基づいて調整するエンベロープ調整手段とを含む
    請求項1に記載の音声処理装置。
  3. 前記周波数分析手段は、前記入力音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に属する周波数スペクトルを示す入力スペクトルデータを生成し、
    前記スペクトル変換手段は、前記各スペクトル分布領域の前記入力スペクトルデータを当該スペクトル分布領域に対応した前記変換用スペクトルデータに置換することによって前記新規スペクトルデータを生成する
    請求項2に記載の音声処理装置。
  4. 前記周波数分析手段は、前記入力音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に属する周波数スペクトルを示す入力スペクトルデータを生成し、
    前記スペクトル変換手段は、前記入力音声のスペクトル分布領域ごとに、このスペクトル分布領域の入力スペクトルデータが示す強度と当該スペクトル分布領域に対応する変換用スペクトルデータが示す強度とを特定の比率にて加算し、この加算値が強度とされた周波数スペクトルを示す前記新規スペクトルデータを生成する
    請求項2に記載の音声処理装置。
  5. 前記入力音声の音量を検出する音量検出手段と、
    前記音量検出手段が検出した音量に応じて前記特定の比率を変化させるパラメータ調整手段と
    を具備する請求項4に記載の音声処理装置。
  6. 変換用音声を時間軸上にて区分した所定数のフレームの各々について前記変換用スペクトルデータを記憶する記憶手段と、
    前記各フレームにおける変換用音声のスペクトルエンベロープの強度を前記所定数のフレームについて平均化したエンベロープを示す平均エンベロープデータを取得する平均エンベロープ取得手段とを具備し、
    前記データ生成手段は、前記入力エンベロープデータが示すスペクトルエンベロープの強度と前記平均エンベロープデータが示すエンベロープの強度との差分値を算定する差分算定手段と、各フレームの変換用スペクトルデータが示す周波数スペクトルの強度と前記差分算定手段が算定した差分値とを加算する加算手段とを具備し、この加算手段による加算結果に基づいて前記新規スペクトルデータを生成する
    請求項1に記載の音声処理装置。
  7. 前記新規スペクトルデータが示す音声のうち遮断周波数を超える帯域に属する成分を選択的に通過させるフィルタ手段を具備する請求項6に記載の音声処理装置。
  8. 前記入力音声の音量を検出する音量検出手段を具備し、
    前記フィルタ手段は、前記音量検出手段が検出した音量に応じて前記遮断周波数を変化させる
    請求項7に記載の音声処理装置。
  9. 前記データ生成手段は、前記加算手段による算定値が強度とされた周波数スペクトルの強度と、前記周波数分析手段が検出した周波数スペクトルの強度とを特定の比率にて加算し、この加算値が強度とされた周波数スペクトルを示す前記新規スペクトルデータを生成する
    請求項6に記載の音声処理装置。
  10. 前記入力音声の音量を検出する音量検出手段と、
    前記音量検出手段が検出した音量に応じて前記特定の比率を変化させるパラメータ調整手段と
    を具備する請求項9に記載の音声処理装置。
  11. ピッチが相違する変換用音声の周波数スペクトルを各々が示す複数の変換用スペクトルデータを記憶する記憶手段と、
    前記入力音声のピッチを検出するピッチ検出手段とを具備し、
    前記取得手段は、前記記憶手段に記憶された複数の変換用スペクトルデータのうち前記ピッチ検出手段が検出したピッチに対応した変換用スペクトルデータを取得する
    請求項1に記載の音声処理装置。
  12. コンピュータに、
    入力音声の周波数スペクトルを検出する周波数分析処理と、
    前記周波数分析処理によって検出された周波数スペクトルのスペクトルエンベロープを示す入力エンベロープデータを生成するエンベロープ特定処理と、
    変換用音声の周波数スペクトルを示す変換用スペクトルデータを取得する取得処理と、
    前記エンベロープ特定処理によって生成された入力エンベロープデータと前記取得処理によって取得された変換用スペクトルデータとに基づいて、前記変換用音声の周波数スペクトルに対応した形状の周波数スペクトルであってスペクトルエンベロープが前記入力音声のスペクトルエンベロープと略一致する周波数スペクトルを示す新規スペクトルデータを生成するデータ生成処理と、
    前記データ生成処理によって生成された新規スペクトルデータに基づいて音声信号を生成する信号生成処理と
    を実行させるためのプログラム。
  13. 前記取得処理は、前記変換用音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に属する周波数スペクトルを示す変換用スペクトルデータを取得する処理であり、
    前記データ生成処理は、前記入力音声の周波数スペクトルにおいて強度がピークとなる各周波数を含むスペクトル分布領域ごとに、当該スペクトル分布領域に対応した変換用スペクトルデータに基づいて新規スペクトルデータを生成するスペクトル変換処理と、この新規スペクトルデータが示す周波数スペクトルの強度を前記入力エンベロープデータに基づいて調整するエンベロープ調整処理とを含む
    請求項12に記載のプログラム。
  14. 変換用音声を時間軸上にて区分した各フレームにおけるスペクトルエンベロープを複数のフレームについて平均化したエンベロープを示す平均エンベロープデータを取得する平均エンベロープ取得処理を前記コンピュータにさらに実行させるプログラムであって、
    前記データ生成処理は、前記入力エンベロープデータが示すスペクトルエンベロープの強度と前記平均エンベロープデータが示すエンベロープの強度との差分値を算定する差分算定処理と、各フレームの変換用スペクトルデータが示す周波数スペクトルの強度と前記差分算定処理によって算定された差分値とを加算する加算処理とを含み、この加算処理による加算結果に基づいて前記新規スペクトルデータを生成する処理である
    請求項12に記載のプログラム。
JP2004194800A 2004-06-30 2004-06-30 音声処理装置およびプログラム Expired - Fee Related JP4654621B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004194800A JP4654621B2 (ja) 2004-06-30 2004-06-30 音声処理装置およびプログラム
EP05105600A EP1612770B1 (en) 2004-06-30 2005-06-23 Voice processing apparatus and program
DE602005002403T DE602005002403T2 (de) 2004-06-30 2005-06-23 Gerät und Programm zur Sprachverarbeitung
US11/165,695 US8073688B2 (en) 2004-06-30 2005-06-24 Voice processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004194800A JP4654621B2 (ja) 2004-06-30 2004-06-30 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2006017946A true JP2006017946A (ja) 2006-01-19
JP4654621B2 JP4654621B2 (ja) 2011-03-23

Family

ID=34993090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004194800A Expired - Fee Related JP4654621B2 (ja) 2004-06-30 2004-06-30 音声処理装置およびプログラム

Country Status (4)

Country Link
US (1) US8073688B2 (ja)
EP (1) EP1612770B1 (ja)
JP (1) JP4654621B2 (ja)
DE (1) DE602005002403T2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310192A (ja) * 2006-05-19 2007-11-29 Yamaha Corp 音声処理装置およびプログラム
JP2010169889A (ja) * 2009-01-22 2010-08-05 Yamaha Corp 音声合成装置、およびプログラム
JP2010191042A (ja) * 2009-02-17 2010-09-02 Yamaha Corp 音声処理装置およびプログラム
JP2014059588A (ja) * 2014-01-08 2014-04-03 Yamaha Corp 音声処理装置およびプログラム
JP2016102860A (ja) * 2014-11-27 2016-06-02 日本放送協会 音声加工装置、及びプログラム
JP2019133686A (ja) * 2013-09-06 2019-08-08 イマージョン コーポレーションImmersion Corporation 音声信号のエンベロープに関係付けられる触覚効果を生成するためのシステム及び方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4445536B2 (ja) * 2007-09-21 2010-04-07 株式会社東芝 移動無線端末装置、音声変換方法およびプログラム
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
KR101541606B1 (ko) * 2013-11-21 2015-08-04 연세대학교 산학협력단 초음파 신호의 포락선 검출 방법 및 그 장치
US9607610B2 (en) * 2014-07-03 2017-03-28 Google Inc. Devices and methods for noise modulation in a universal vocoder synthesizer
WO2024056899A1 (en) * 2022-09-16 2024-03-21 Spinelli Holding Sa System for improving the speech intelligibility of people with temporary or permanent speech difficulties

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54131921A (en) * 1978-04-03 1979-10-13 Keio Giken Kogyo Kk Electronic keyboard instrument
JPH09244694A (ja) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 声質変換方法
JPH10254500A (ja) * 1997-01-07 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 補間音色合成方法
JPH10268895A (ja) * 1997-03-28 1998-10-09 Yamaha Corp 音声信号処理装置
JP2003157100A (ja) * 2001-11-22 2003-05-30 Nippon Telegr & Teleph Corp <Ntt> 音声通信方法及び装置、並びに音声通信プログラム
JP2003255998A (ja) * 2002-02-27 2003-09-10 Yamaha Corp 歌唱合成方法と装置及び記録媒体
JP2004038071A (ja) * 2002-07-08 2004-02-05 Yamaha Corp 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP2004061617A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd 受話音声処理装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5336902A (en) * 1992-10-05 1994-08-09 Hamamatsu Photonics K.K. Semiconductor photo-electron-emitting device
JP3502268B2 (ja) 1998-06-16 2004-03-02 ヤマハ株式会社 音声信号処理装置及び音声信号処理方法
US6549884B1 (en) * 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP3918606B2 (ja) 2002-03-28 2007-05-23 ヤマハ株式会社 音声合成装置、音声合成方法並びに音声合成用プログラム及びこのプログラムを記録したコンピュータで読み取り可能な記録媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54131921A (en) * 1978-04-03 1979-10-13 Keio Giken Kogyo Kk Electronic keyboard instrument
JPH09244694A (ja) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 声質変換方法
JPH10254500A (ja) * 1997-01-07 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 補間音色合成方法
JPH10268895A (ja) * 1997-03-28 1998-10-09 Yamaha Corp 音声信号処理装置
JP2003157100A (ja) * 2001-11-22 2003-05-30 Nippon Telegr & Teleph Corp <Ntt> 音声通信方法及び装置、並びに音声通信プログラム
JP2003255998A (ja) * 2002-02-27 2003-09-10 Yamaha Corp 歌唱合成方法と装置及び記録媒体
JP2004038071A (ja) * 2002-07-08 2004-02-05 Yamaha Corp 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP2004061617A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd 受話音声処理装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310192A (ja) * 2006-05-19 2007-11-29 Yamaha Corp 音声処理装置およびプログラム
JP2010169889A (ja) * 2009-01-22 2010-08-05 Yamaha Corp 音声合成装置、およびプログラム
JP2010191042A (ja) * 2009-02-17 2010-09-02 Yamaha Corp 音声処理装置およびプログラム
JP2019133686A (ja) * 2013-09-06 2019-08-08 イマージョン コーポレーションImmersion Corporation 音声信号のエンベロープに関係付けられる触覚効果を生成するためのシステム及び方法
JP2014059588A (ja) * 2014-01-08 2014-04-03 Yamaha Corp 音声処理装置およびプログラム
JP2016102860A (ja) * 2014-11-27 2016-06-02 日本放送協会 音声加工装置、及びプログラム

Also Published As

Publication number Publication date
DE602005002403D1 (de) 2007-10-25
EP1612770B1 (en) 2007-09-12
JP4654621B2 (ja) 2011-03-23
US8073688B2 (en) 2011-12-06
DE602005002403T2 (de) 2008-06-12
EP1612770A1 (en) 2006-01-04
US20060004569A1 (en) 2006-01-05

Similar Documents

Publication Publication Date Title
EP1612770B1 (en) Voice processing apparatus and program
Saitou et al. Speech-to-singing synthesis: Converting speaking voices to singing voices by controlling acoustic features unique to singing voices
RU2591732C2 (ru) Устройство и способ модификации аудио сигнала, используя захват гармоник
US7606709B2 (en) Voice converter with extraction and modification of attribute data
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
JP4645241B2 (ja) 音声処理装置およびプログラム
JP2004038071A (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
JP2002268658A (ja) 音声分析及び合成装置、方法、プログラム
Roebel et al. Analysis and modification of excitation source characteristics for singing voice synthesis
Raitio et al. Phase perception of the glottal excitation and its relevance in statistical parametric speech synthesis
JP2018077283A (ja) 音声合成方法
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
Babacan et al. Parametric representation for singing voice synthesis: A comparative evaluation
JP4455701B2 (ja) 音声信号処理装置および音声信号処理方法
US20220084492A1 (en) Generative model establishment method, generative model establishment system, recording medium, and training data preparation method
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
Arroabarren et al. Instantaneous frequency and amplitude of vibrato in singing voice
JP3706249B2 (ja) 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
JP5745453B2 (ja) 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
JP2016122157A (ja) 音声処理装置
JP6337698B2 (ja) 音響処理装置
JP6409417B2 (ja) 音響処理装置
JP5211437B2 (ja) 音声処理装置およびプログラム
JP2000003200A (ja) 音声信号処理装置及び音声信号処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees