JP2000276200A

JP2000276200A - 声質変換システム

Info

Publication number: JP2000276200A
Application number: JP11082728A
Authority: JP
Inventors: Akira Terasawa; 章寺澤; Hiroaki Takeyama; 博昭竹山; Sei Imai; 聖今井
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 1999-03-26
Filing date: 1999-03-26
Publication date: 2000-10-06
Anticipated expiration: 2019-03-26
Also published as: JP3555490B2

Abstract

(57)【要約】【課題】入力音声信号を信号処理技術を活用して略リ
アルタイミングで声質を変換することができる声質変換
システムを提供することにある。【解決手段】音声分析部１は、入力音声信号の周波数
スペクトルを抽出し、有声音検出部２は、有声音判別を
行う。基本周波数検出部３は有声音検出部２で有声音と
判別された音声区間に存在する基本周波数の検出を行
う。基本周波数処理部４は基本周波数検出部３で検出さ
れた基本周波数を低い周波数に変換する。音源信号発生
部５は、音声を合成するための音源信号を有声音検出部
２の検出結果に基づき発生させる。音声合成部７は、上
記音声分析部１で得られた周波数スペクトルを周波数処
理制御部６で低域側に周波数シフトした周波数スペクト
ルと音源信号発生部５から出力される音源信号を用いて
音声を合成して合成音声信号を出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、声質変換システム
に関するものである。

【０００２】

【従来の技術】現在、音声合成技術の応用が盛んに進め
られ、特にマルチメディア技術への応用としてインター
ネットでの情報提供のための音声活用や、カーナビゲー
ションのための音声メッセージ等の製品が開発されつつ
ある。これら音声情報提供に対して、利用者の好みに合
わせて音声を選択したい、利用者自身の発声を別の声質
に変換して相手に伝えたい等の要求が利用者から出てい
る。これらの要求に対して、利用者の好みに合わせた音
声情報提供や任意話者への声質変換する声質変換システ
ムとしては、特開平９−２９２８９８号、特開平９−２
５８７７９号、特開平９−３０５１９７号等に示される
システムがある。これらの従来のシステムは、予め記憶
しておいた平均標準パターンやターゲット話者音声パタ
ーンと入力音声のマッチングを行うことにより、声質を
変換することを特徴としている。ところが、これらの方
式では、変換に要する様々な音声パターンを予め記憶さ
せておく必要があり、また入力音声と記憶させておいた
音声パターンとの照合を行うための演算量が必要である
と考えられる。そのため、これら従来装置を実現するた
めには、膨大な記憶容量をもつメモリと極めて処理能力
の高い演算処理装置が必要である。

【０００３】

【発明が解決しようとする課題】実際、声質変換システ
ムを活用しようとした場合、膨大な音声パターンの記憶
メモリ容量と処理能力の高い演算処理装置が必要である
点は、活用しようとする製品の選択に支障をきたす恐れ
がある。また、声質変換後の音声は特定話者へ声質変換
する必要もなく、単に利用者自身の発声を別の声質に変
換すればよい分野も多い。

【０００４】例えば住戸外に取り付けられるカメラ付き
ドアホンと住戸内に取り付けられるモニタ付きインター
ホンから構成されるインターホンシステムにおいて、住
戸内の住人の性別にかかわらず、男性の声で住戸外の来
客と応答することができるようにする場合等がある。ま
た電話機の受話口に取り付けるアダプタ形状の装置等に
より、電話機に任意に取り付けて、相手によっては応対
時の音声を男性の声にするような場合等がある。

【０００５】本発明は、上記のような点に鑑みて為され
たもので、その目的とするところは入力音声をメモリに
記憶しておく音声パターンに変換するのではなく、入力
音声信号を信号処理技術を活用して略リアルタイミング
で声質を変換することができる声質変換システムを提供
することにある。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、請求項１の発明では、音声分析処理、音声合成処理
の際に、周波数軸変換処理を制御するための周波数処理
制御部と、入力音声を上記周波数処理制御部の制御によ
り音声分析する音声分析部と、上記音声分析部による音
声分析により得られる音声特徴パラメータから入力音声
が有声音か否かを判別する有声音検出部と、上記有声音
検出部で有声音と検出した場合、入力音声の基本周波数
を検出する基本周波数検出部と、上記基本周波数検出部
で検出された基本周波数を逓倍して基本周波数変換を行
う基本周波数処理部と、上記有声音検出部で有声音を検
出した場合、基本周波数処理部で基本周波数変換された
得られた基本周波数に応じてパルス信号を発生させ、有
声音を検出しなかった場合、白色雑音信号を発生させ、
これらパルス信号及び白色雑音信号を音源信号として出
力する音源信号発生部と、上記音声分析部で音声分析す
ることにより得られた特徴パラメータと、上記音源信号
発生部から得られた音源信号とを用いて、上記周波数処
理制御部による周波数制御に従い音声合成する音声合成
部とから成ることを特徴とする。

【０００７】請求項２の発明では、請求項１の発明にお
いて、上記音声分析部をＭＬＳＡ分析フィルタで構成
し、上記音声合成部をＭＬＳＡ合成フィルタで構成し、
メル周波数軸変換をメルケプストラム分析時と音声合成
時とで変えることで周波数軸変換処理を行うことを特徴
とする。

【０００８】請求項３の発明では、請求項１の発明にお
いて、上記音声分析部をフーリエ変換分析を用いたメル
ケプストラム分析部で構成し、上記音声合成部をＭＬＳ
Ａ合成フィルタで構成し、メル周波数軸変換をメルケプ
ストラム分析時と音声合成時とで変えることで周波数軸
変換処理を行うことを特徴とする。

【０００９】請求項４の発明では、請求項１乃至３の何
れかの発明において、上記有声音検出部は、上記音声分
析部により得られた音声特徴パラメータをフーリエ変換
により周波数軸上のパラメータに変換して、所望周波数
帯域の入力音声レベルを検出し、該検出レベルが閾値よ
りも大きい場合に有声音検出とすることを特徴とする。

【００１０】請求項５の発明では、請求項１乃至３の何
れかの発明において、上記有声音検出部は、上記音声分
析部により得られた音声特徴パラメータを近似フーリエ
変換により周波数軸上のパラメータに変換して、所望周
波数帯域での入力音声レベルを検出し、該検出レベルが
閾値よりも大きい場合に有声音検出とすることを特徴と
する。

【００１１】請求項６の発明では、請求項１乃至３の何
れかの発明において、上記有声音検出部は、音声分析パ
ラメータの対数パワーを用いて、対数パワー値が閾値よ
りも大きい場合に有声音検出とすることを特徴とする。

【００１２】請求項７の発明では、請求項４乃至６の何
れかの発明において、上記閾値は、音声入力信号に応じ
て設定されることを特徴とする。

【００１３】請求項８の発明では、請求項２の発明にお
いて、上記基本周波数検出部は、上記ＭＬＳＡ分析フィ
ルタから出力される残差信号の自己相関を用いたピーク
検出の間隔により基本周波数を検出することを特徴とす
る。

【００１４】請求項９の発明では、請求項３の発明にお
いて、上記基本周波数検出部は、上記メルケプストラム
分析部により得られるメルケプストラムパラメータの高
次成分のピーク検出の間隔により基本周波数を検出する
ことを特徴とする。

【００１５】請求項１０の発明では、請求項２の発明に
おいて、上記基本周波数検出部は、上記ＭＬＳＡ分析フ
ィルタから出力される残差信号の零交差数解析により基
本周波数を検出することを特徴とする。

【００１６】請求項１１の発明では、請求項２の発明に
おいて、上記基本周波数検出部は、上記ＭＬＳＡ分析フ
ィルタから出力される残差信号を入力とするニューラル
ネットワークにより基本周波数を推定検出することを特
徴とする。

【００１７】請求項１２の発明では、請求項１乃至１１
の何れかの発明において、上記基本周波数検出部により
検出した基本周波数と１時刻前の基本周波数との傾きが
予め設定した傾き範囲を越えた場合に、該傾き範囲に入
るように上記検出した基本周波数を補正する基本周波数
補正処理部を付設したことを特徴とする。

【００１８】請求項１３の発明では、請求項１乃至１２
の何れかの発明において、上記基本周波数処理部は、検
出される基本周波数に応じた、基本周波数変換処理を行
うことを特徴とする。

【００１９】請求項１４の発明では、請求項１乃至１３
の何れかの発明において、上記音源信号発生部は、発生
させるパルス信号の振幅に応じて上記白色雑音信号の振
幅を制御することを特徴とする。

【００２０】請求項１５の発明では、請求項１乃至１４
の何れかの発明において、上記音声合成部より出力され
る合成音声信号に対してダウンサンプリングを行って再
生音声の周波数帯域の制限を加えた合成音声信号を出力
するダウンサンプリング部を付設したことを特徴とす
る。

【００２１】

【発明の実施の形態】以下本発明を実施形態により説明
する。

【００２２】（実施形態１）本実施形態装置は、図１に
示す構成を基本構成とし、図示するように音声分析部１
と、有声音検出部２と、基本周波数検出部３と、基本周
波数処理部４と、音源信号発生部５と、周波数処理制御
部６と、音声合成部７とから構成されており、音声分析
部１では、入力音声信号の周波数スペクトルを音声特徴
パラメータとして抽出し、有声音検出部２では、上記音
声分析部１で抽出された周波数スペクトル（音声特徴パ
ラメータ）を利用して有声音判別を行う。また、有声音
検出部２で有声音と判別された音声区間は、入力音声信
号に周期性のある基本周波数が存在すると考えられるの
で、基本周波数検出部３で基本周波数の検出を行う。こ
こで女性音声は、男性音声に比べて基本周波数が高いた
め、基本周波数処理部４では基本周波数検出部３で検出
された基本周波数を低い周波数に変換する。音源信号発
生部５では、有声音検出部２の検出結果に基づき、有声
音検出区間において、基本周波数処理部４で処理された
基本周波数に従いパルス信号を発生させ、それ以外の区
間において、白色雑音信号を発生させ、これら信号を音
声を合成するための音源信号としして出力する。音声合
成部７では、上記音声分析部１で得られた周波数スペク
トル（音声特徴パラメータ）を周波数処理制御部６で低
域側に周波数シフトした周波数スペクトルと音源信号発
生部５により発生させた音源信号を用いて音声を合成し
て合成音声信号を出力する。

【００２３】ここで本実施形態を、インターホンに組み
込んだり、電話機にアダプタとして付加し、通話を行う
際に、発話者の希望に応じて当該システムを動作させ、
発話者の音声信号を入力音声信号として入力し、その入
力音声信号に基づいて、上述のように音声合成を行うこ
とにより、略リアルタイムに声質を変換して通話するこ
とが可能となる。また、声質を変換して通話することに
より、女性の単身住宅でも男性の声質で対応できるた
め、簡易的な防犯が可能となる。さらに、計算量が少
なく実現することが可能であり、またメモリ量もほとん
ど必要ない。

【００２４】（実施形態２）本実施形態では、基本構成
としては実施形態１と同じであるが、音声特徴パラメー
タを音声分析により抽出する音声分析部としてリアルタ
イムで適応メルケプストラム分析を行う適応デジタルフ
ィルタであるＭＬＳＡ分析フィルタ１００を用い、音声
合成部として、ＭＬＳＡ合成フィルタ７０を用いて構成
する。

【００２５】ＭＬＳＡ分析フィルタ１００及びＭＬＳＡ
合成フィルタ７０はメル周波数軸上の分析処理を活用し
ているものである。ＭＬＳＡ分析フィルタはｐａｄｅ近
似によりメル対数スペクトルを近似するデジタルフィル
タであり、メル尺度を規定するパラメータαとメル対数
化プストラム係数ｂ（ｍ）からなる複数の基本フィルタ
Ｆ（ｚ）＜図３（ａ）参照＞と、ｐａｄｅ係数ｐ₁ …と
から図３（ｂ）のように構成される。また適応デジタル
フィルタ技術を用いて、入力音声信号に応じて適応的に
メル対数ケプストラム係数ｂ（ｍ）を基本フィルタＦ
（ｚ）で算出することにより、ＭＬＳＡ分析フィルタ１
００は、入力音声信号のメル対数スペクトルモデルを適
応的に近似するフィルタとなり、その出力として、残差
信号が得られる。特に、メル尺度を規定するパラメータ
αの選択により、人間の聴覚特性を生かした適応デジタ
ルフィルタであると言える。そのため、従来の音声分析
法に比べて分析次数を減らすことができ、例えば８ｋＨ
ｚサンプリングでは、ｍ＝１２、α＝０．３１にとるこ
とにより、略リアルタイムで人間の聴覚特性に合わせた
音声分析が行える。

【００２６】音声合成部を構成するＭＬＳＡ合成フィル
タ７０は、ＭＬＳＡ分析フィルタ１００の逆フィルタで
あり、メル周波数軸上の分析処理を活用しており、該周
波数軸の伸縮を利用し、周波数処理制御部６では、メル
周波数軸変換の伸縮パラメータを制御する。

【００２７】而して本実施形態では、入力音声信号から
音声分析部であるＭＬＳＡ分析フィルタ１００は音声分
析して、メルケプストラムパラメータを音声特徴パラメ
ータとして有声音検出部２へ出力する。このメルケプス
トラムパラメータに基づいて有声音検出部２では有声音
判別を行い、一方有声音区間に対応して基本周波数検出
部３ではＭＬＳＡ分析フィルタ１００からの残差信号か
ら基本周波数の検出を行う。音源信号発生部５では、有
声音検出部２の検出結果に基づき、有声音検出区間にお
いて、基本周波数処理部４で処理された基本周波数に従
いパルス信号を発振出力し、それ以外の区間において、
白色雑音信号を発振出力し、これら発振出力を音声合成
のための音源信号としてＭＬＳＡ合成フィルタ７０へ出
力する。ＭＬＳＡ合成フィルタ７０では、ＭＬＳＡ分析
フィルタ１００からのメルケプストラムパラメータと、
音源信号とを用いて、周波数処理制御部６の周波数制御
処理による制御に従い音声合成を行い、合成音声信号を
出力する。

【００２８】ここで本実施形態に用いることができる基
本周波数検出部３の例を次に説明する。

【００２９】例１図４は本例を示しており、本例の基本周波数検出部３
は、図示するようにＭＬＳＡ分析フィルタ１００から出
力される残差信号の自己相関を基本周波数が存在すると
考えられる区間に対して計算する自己相関計算部３０
と、該自己相関計算部３０で計算された自己関数のピー
クが出現する区間を検出するピーク検出部３１と、該ピ
ーク検出部３１により検出された区間を用いて基本周波
数を算出する基本周波数算出部３２とにより構成され
る。

【００３０】本例の基本周波数検出部３では、ＭＬＳＡ
分析フィルタ１００から出力される残差信号を利用する
ことで、入力音声信号レベルを吸収することが可能とな
るため、常に一定に検出精度で基本周波数の検出が可能
となる。

【００３１】例２本例の基本周波数検出部３は図５に示すようにＭＬＳＡ
分析フィルタ１００から出力される残差信号の零交差を
解析して零交差数値を求める零交差解析部３３と、零交
差数値から基本周波数を算出する基本周波数算出部３４
とにより構成される。

【００３２】例３本例の基本周波数検出部３は図６に示すようにＭＬＳＡ
分析フィルタ１００から出力される残差信号を入力とす
る基本周波数検出ニューラルネットワーク３５からな
り、この基本周波数検出ニューラルネットワーク３５は
入力音声信号に対応したピッチの値を出力するように予
め学習が行われているものであって、基本周波数を推定
する。

【００３３】上記の例１〜３の何れの基本周波数検出部
３もＭＬＳＡ分析フィルタ１００の残差信号を利用する
ことで、入力音声信号レベルを吸収することが可能とな
り、そのため常に一定に検出精度で基本周波数の検出が
できることになる。

【００３４】またＭＬＳＡ分析フィルタ１００による適
応デジタルフィルタの精度の高い分析結果を利用するこ
とにより、高い精度の検出が可能となる。

【００３５】更に例３の場合には、残差信号を予め学習
した基本周波数検出ニューラルネットワーク３５を利用
しているため、ニューラルネットワーク構成時の統計的
な検出を行うことが可能となり、その結果精度の高い基
本周波数の検出ができることになる。

【００３６】（実施形態３）上記実施形態２では音声合
成部をＭＬＳＡ分析フィルタ１００で構成しているが、
本実施形態では図７に示すようにメルケプストラム分析
部１０１により構成している点で実施形態１とは相違す
る。

【００３７】メルケプストラム分析部１０１は、入力音
声信号に対してフーリエ変換、対数変換、メル周波数軸
変換、逆フーリエ変換を行うメルケプストラム分析を行
い、音声特徴パラメータとしてメルケプストラムパラメ
ータを抽出するもので、音声合成部を構成するＭＬＳＡ
合成フィルタ７０と互いにメル周波数軸上の分析処理を
活用しており、その周波数軸の伸縮を利用し、周波数処
理制御部６ではメル周波数軸変換のパラメータを制御す
るようになっている。

【００３８】また基本周波数検出部３は、例えば図８に
示すようにメルケプストラム分析部１０１から出力され
るメルケプストラムパラメータの内、高次数部（高ケフ
レンシー部パラメータ）のピーク検出をピーク検出部３
６で行い、その検出されたピークの区間から基本周波数
算出部３７で基本周波数を算出するようになっている。
その他の構成は実施形態２と同じであるので、ここでは
説明は省略する。

【００３９】而して本実施形態ではメルケプストラム分
析部１０１から抽出される音声特徴パラメータであるメ
ルケプストラムパラメータに基づいて有声音検出部２に
より有声音検出を行い、基本周波数検出部３で基本周波
数を検出する。音源信号発生部５では実施形態２と同様
に、有声音検出部２の検出結果に基づき、有声音検出区
間において、基本周波数処理部４で処理された基本周波
数に従いパルス信号を発振出力し、それ以外の区間にお
いて、白色雑音信号を発振出力し、これら発振出力を音
声合成のための音源信号としてＭＬＳＡ合成フィルタ７
０へ出力する。ＭＬＳＡ合成フィルタ７０では、メルケ
プストラム分析部１０１からのメルケプストラムパラメ
ータと、音源信号とを用いて、周波数処理制御部６の周
波数制御処理による制御に従い音声合成を行い、合成音
声信号を出力する。

【００４０】ここでメルケプストラムパラメータを用い
て有声音を検出する本実施形態（上記実施形態２）に用
いることができる有声検出部２の例を次に示す。

【００４１】例１本例の有声検出部２は図９に示すようにメルケプストラ
ムパラメータをフーリエ変換し、メル対数軸上のスペク
トルに変換するフーリエ変換部２０と、その変換結果か
ら得られるメル対数スペクトルの指定周波数帯域、例え
ば図１０に示す８０Ｈｚ〜６００Ｈｚのレベル検出を行
うレベル検出部２１と、検出したレベル値を予め設定し
ておいた有声音検出閾値とを比較してその閾値より入力
音声のレベル値が大きい場合有声音を検出したとする比
較部２２とで構成される。図１０はメル対数軸上のメル
対数スペクトルの例と上述した指定周波数帯域の例を示
しており、図示する指定周波数帯域は、音声の有声音の
代表である母音のフォルマント周波数帯域を利用したも
のである。

【００４２】本例の場合、日本語の特徴を生かし、有声
音の代表的且つ勢力の大きい母音を誤り無く検出するこ
とにより、有声音検出性能を上げることが可能なもので
あり、またレベルを検知する周波数帯域を指定すること
により、周囲騒音の影響にも強くなる。

【００４３】例２本例の有声音検出部２は図１１に示すように複数の指定
周波数帯域のレベル検出部２１１〜２１ｎ及び夫々のレ
ベル検出部２１１〜２１ｎに対応した閾値が設定された
比較部２２１〜２１ｎを設け、指定帯域とその閾値は１
つ決めておくだけでなく、各母音に対して、各々の指定
帯域と各々の閾値を用意しており、どこかの指定帯域の
一つでも閾値を超えると有声音検出と見なすようになっ
ている。尚ＯＲは比較部２２１〜２２ｎの出力の論理和
を取るオアゲートである。

【００４４】例３上記例１の有声音検出部２における比較部２２の閾値を
本実施形態では、図１２に示すようにフーリエ変換部２
０から出力されるメル対数スペクトルから入力音声信号
のレベルを常時検出して、有声音検出の閾値を入力音声
信号のレベルに応じて決定する閾値決定部２７を具備
し、この閾値決定部２７で決定した閾値を比較部２２に
与えるようにしてある。

【００４５】勿論例２の各比較部２２１〜２２ｎの閾値
を決定する場合にも本例の閾値決定部２７を用いても良
い。

【００４６】本例によれば、有声音検出の閾値を入力音
声信号レベルに応じて決定変更することにより、入力音
声のレベルの大小の影響や入力される周囲騒音の影響に
対応することが可能となる。

【００４７】例４上記例１〜３はフーリエ変換を行ってメル対数スペクト
ルに変換するものであったが、この場合メルケプストラ
ムパラメータをメル対数スペクトルに変換する際に必要
なフーリエ変換の計算量が多い。そこで、本例の有声検
出部２は同じ作用をするフーリエ変換近似算出法を用い
て、フーリエ変換を行わずに、指定周波数帯域のレベル
を検出するようにしたものである。

【００４８】つまり、所望周波数帯域のみ一定値をまず
とり、その他の帯域は０とする矩形スペクトル（対数ス
ペクトル）を図１３（ａ）に示すように用意し、この矩
形スペクトルに対してメル周波数軸変換を音声分析時と
同じメル周波数軸伸縮パラメータにより行う。その結果
図１３（ｂ）示すように得られるメル対数スペクトルの
逆フーリエ変換を行い、所望帯域のみ値をもつメル周波
数スペクトルのメルケプストラム係数ａ（１）…を得
る。実際、この所望帯域のみ値をもつメル周波数スペク
トルのメルケプストラム係数は、指定周波数帯域を決定
しておけば前もって算出可能であり、音声検出する際に
毎回計算する必要はない。

【００４９】図１４は本例の有声音検出部２の構成を示
しており、上述の所望の周波数帯域のスペクトルのメル
ケプストラム係数ａ（ｍ）を予め決定される所定周波数
帯域に基づいて算出記憶している所定周指定周波数用メ
ルケプストラム係数算出部２３と、音声分析部１から入
力するメルケプストラムパラメータから入力音声信号の
メルケプストラム係数ｃ（ｍ）を算出する入力音声信号
用メルケプストラム係数算出部２４と、両メルケプスト
ラム係数ａ（ｍ）、ｃ（ｍ）の積和演算（Σａ（ｍ）ｃ
（ｍ））を行う積和部２５と、その結果積和演算の値を
閾値と比較して、有声音を検出する比較部２２とからな
る。上記の指定周波数帯域は、音声の有声音の代表であ
る母音のフォルマント周波数帯域を利用したものであ
り、指定帯域とその閾値は１つ決めておくだけでなく、
例２と同様に各母音に対して、各々の指定帯域と各々の
閾値を用意し、どこかの指定帯域の一つでも閾値を超え
ると有声音検出とを見なすようにしても良い。

【００５０】本例の場合も、日本語の特徴を生かし、有
声音の代表的且つ勢力の大きい母音を誤り無く検出する
ことにより、有声音検出性能を上げることが可能なもの
であり、またレベルを検出する周波数帯域を指定するこ
とにより、周囲騒音の影響にも強くなる。

【００５１】例５本例の有声音検出部２は、メルケプストラムパラメータ
の０次成分が入力音声信号の対数パワーを表しているこ
とに着目したもので、図１５に示すように音声分析部１
から入力するメルケプストラムパラメータから入力音声
信号のメルケプストラム係数ｃ（ｍ）を算出する入力音
声信号用メルケプストラム係数算出部２４と、算出され
たメルケプストラム係数ｃ（ｍ）からｍ＝０、つまり０
次元（ｃ（０））のデータを抽出する０次元データ抽出
部２６と、この抽出された値と閾値とを比較して有声音
の検出を行う比較部２２とから構成される。

【００５２】本例の場合、音声分析の結果を利用するこ
とで、音声パワーをリアルタイムで活用することが可能
となる。

【００５３】ところで、本実施形態での有声音検出部２
の例１乃至５の構成は本実施形態と同様に音声特徴パラ
メータとしてメルケプストラムパラメータを用いる実施
形態２の有声音検出部２として用いることができるのは
勿論のことである。

【００５４】（実施形態４）本実施形態は実施形態１〜
３における基本周波数検出部３で検出される基本周波数
の検出誤りの影響を小さくするために、図１６に示すよ
うに基本周波数検出部３の後段に、基本周波数検出部３
で検出した基本周波数と、１時刻前の基本周波数との傾
きを計算し、この傾きが、予め設定しておいた傾きの範
囲外の場合、基本周波数を誤検出したとして、予め設定
しておいた傾きの範囲内に入る様に補正を加える処理を
行う基本周波数補正部８を設け、この基本周波数補正部
８で補正された基本周波数を、実施形態１〜３におけ
る、基本周波数処理部４へ出力するのである。

【００５５】図１７は基本周波数補正の例を示してお
り、この例の場合現時点ｔで検出された基本周波数がｆ
_tで、１時刻前ｔ−１で検出された基本周波数がｆ_t-1で
あって、その時の傾きが予め設定してある傾きの範囲外
にある場合を示しており、この場合基本周波数補正部８
は基本周波数ｆ_tを予め設定しておいた傾きの範囲内に
入るようにようにｆ_t’に補正するのである。

【００５６】尚その他の構成は実施形態１〜３の何れか
の構成と同じ構成を採用することができるから、ここで
は図示及び説明を省略する。

【００５７】而して本実施形態では、検出される基本周
波数の時間的な変動が急激な場合、誤検出した可能性が
高いため、その補正を行うことで、合成された音声の声
質を向上させることができる。またその補正された基本
周波数の時間的な変化は緩やかなものとなり、急激な基
本周波数変化によって発生する合成音声のイントネーシ
ョンの不自然性を解消することが可能となる。

【００５８】（実施形態５）本実施形態は、実施形態１
〜３（或いは実施形態４）において、基本周波数検出部
３で検出された基本周波数を逓倍して高周波数から低周
波数に変換するための基本周波数処理部４において、図
示するように検出された基本周波数に応じて基本周波数
の変換処理を行うか行わないかを決定し、基本周波数処
理部４の制御を行う基本周波数処理制御部９を付加した
ものである。その他の構成は実施形態１〜３或いは実施
形態４と同じ構成を採用することができるので、図示及
び説明を省略する。

【００５９】而して本実施形態では、入力音声が男性周
波数帯域（低い周波数）の場合に、更に低周波数に変換
されるのを防ぐことができ、また合成音声は、常に一般
的な男性音声周波数帯域の音声となり、合成音声とし
て、通常音声と違和感の無い音声を提供することができ
る。

【００６０】（実施形態６）本実施形態は、有声音検出
部２の検出結果と、基本周波数処理部４の結果を用いて
音源信号を発生させる音源信号発生部５において、音源
信号のパワー集中を防ぐために、発生させるパルス信号
Ｐの列（図１９（ｂ）参照）及び白色雑音信号ＷＮ（図
１９（ａ）参照）の振幅を推定する推定機能と、パルス
信号Ｐの振幅に対応して白色雑音信号ＷＮの発生の振幅
を適応的に制御する処理機能とを設け、パルス信号の発
生のタイミングを、基本周波数処理部４の結果に依存す
るものとし、音源信号のパワー集中を防ぐために、図２
０に示すように白色雑音信号ＷＮの直後のパルス信号Ｐ
は、音源信号のパワー集中を防ぐため、白色雑音信号Ｗ
Ｎの直後数ｍｓ間無音信号Ｓを発生させ、その後パルス
信号Ｐを発生させる構成とする。

【００６１】尚本実施形態は音源信号発生部５以外の構
成は上記実施形態１乃至５の何れかの構成を採用すれば
よいので、その他の構成は図示せず、説明も省略する。

【００６２】而して本実施形態では合成音声に急激なパ
ワー変動に起因するクリック性の雑音が発生するのを防
ぐことができ、またパルス信号Ｐと白色雑音信号ＷＮの
振幅制御を行うことにより、合成音声の音質として滑ら
かな音声を提供することができる。

【００６３】（実施形態７）ところで、音声合成部によ
り出力される音声は、入力音声信号の声質を変換した音
声であり、周波数スペクトルの移動を伴った処理を行っ
ているために、再生可能周波数の高周波帯域の処理の効
果が少ないことにより合成音声に歪が生じる可能性があ
り、この歪を削除するために、本実施形態では、図２１
に示すように音声合成部を構成するＭＬＳＡ合成フィル
タ７０より出力した合成音声信号に対して、ダウンサン
プリング部１０でサンプリング周波数制限を行い、上記
の高周波帯域を再生周波数帯域から除外するようにした
ものである。つまり本実施形態では、例えば１０ｋＨｚ
のサンプリング周波数で得られた合成音声信号をダウン
サンプリング部１０により８ｋＨｚのサンプリング周波
数でダウンサンプリングを行うようなっている。

【００６４】尚その他の構成は実施形態２乃至６の何れ
かの構成と同じ構成を採用できるからここでは図示及び
説明を省略する。またＭＬＳＡ合成フィルタ７０を用い
ず、他の音声合成手段を用いる、例えば実施形態１の構
成に採用しても良い。

【００６５】而して図２２（ａ）に示すように周波数軸
変動大の周波数帯域と、周波数軸変動小の周波数帯域の
内、合成音声に歪みが発生し易いスペクトル成分の高周
波数帯域を図２２（ｂ）に示すようにダウンサンプリン
グ部７１にてダウンサンプリングして再生周波数帯域か
ら除外する。

【００６６】このようにして本実施形態では、合成音声
の歪み成分の影響が無くなり、合成音声の音質を向上さ
せることができる。

【００６７】

【発明の効果】請求項１の発明は、音声分析処理、音声
合成処理の際に、周波数軸変換処理を制御するための周
波数処理制御部と、入力音声を上記周波数処理制御部の
制御により音声分析する音声分析部と、上記音声分析部
による音声分析により得られる音声特徴パラメータから
入力音声が有声音か否かを判別する有声音検出部と、上
記有声音検出部で有声音と検出した場合、入力音声の基
本周波数を検出する基本周波数検出部と、上記基本周波
数検出部で検出された基本周波数を逓倍して基本周波数
変換を行う基本周波数処理部と、上記有声音検出部で有
声音を検出した場合、基本周波数処理部で基本周波数変
換された得られた基本周波数に応じてパルス信号を発生
させ、有声音を検出しなかった場合、白色雑音信号を発
生させ、これらパルス信号及び白色雑音信号を音源信号
として出力する音源信号発生部と、上記音声分析部で音
声分析することにより得られた特徴パラメータと、上記
音源信号発生部から得られた音源信号とを用いて、上記
周波数処理制御部による周波数制御に従い音声合成する
音声合成部とから成るので、大容量のメモリや複雑な演
算処理が不要で、入力音声をリアルタイムに且つ少ない
演算量で声質を変換することができ、その結果小型のシ
ステムとして実現が可能となり、インターホンに内蔵し
たり、通常の電話機にアダプタとして取り付けるシステ
ムとして構築することができ、更に声質変換後の音声
が、入力音声を変換するので、決まった人の声になるこ
とがなく、簡易的な防犯装置にも有効に活用できるとい
う効果がある。

【００６８】請求項２の発明は、請求項１の発明におい
て、上記音声分析部をＭＬＳＡ分析フィルタで構成し、
上記音声合成部をＭＬＳＡ合成フィルタで構成し、メル
周波数軸変換をメルケプストラム分析時と音声合成時と
で変えることで周波数軸変換処理を行うので、人間の聴
覚的特徴を生かした適応的な分析方法により、極めて簡
易に音声分析が可能となり、またＭＬＳＡ分析フィルタ
と、ＭＬＳＡ合成フィルタの分析パラメータであるメル
周波数軸変換パラメータを制御することにより、入力音
声信号のメル対数スペクトル分布を変換することが可能
となるという効果がある。

【００６９】請求項３の発明は、請求項１の発明におい
て、上記音声分析部をフーリエ変換分析を用いたメルケ
プストラム分析部で構成し、上記音声合成部をＭＬＳＡ
合成フィルタで構成し、メル周波数軸変換をメルケプス
トラム分析時と音声合成時とで変えることで周波数軸変
換処理を行うので、人間の聴覚的特徴を生かした精度の
高い音声分析ができ、また分析において、メル周波数帯
域分析を行うため、合成時のＭＬＳＡ分析フィルタと共
に、メル周波数軸変換パラメータを制御することによ
り、入力音声信号のメル対数スペクトル分布を変換でき
るという効果がある。

【００７０】請求項４の発明は、請求項１乃至３の何れ
かの発明において、上記有声音検出部は、上記音声分析
部により得られた音声特徴パラメータをフーリエ変換に
より周波数軸上のパラメータに変換して、所望周波数帯
域の入力音声レベルを検出し、該検出レベルが閾値より
も大きい場合に有声音検出とするので、有声音検出部の
検出性能を上げることができ、特に日本語の特徴を生か
し、有声音の代表的かつ勢力の大きい母音を誤り無く検
出することにより有声音検出性能を上げることが可能と
なり、またレベルを検出する周波数帯域を指定すること
により、周囲騒音の影響にも強くになるという効果があ
る。特に、検出性能を落とさずに計算量を下げることを
可能とあるという効果がある。

【００７１】請求項５の発明は、請求項１乃至３の何れ
かの発明において、上記有声音検出部は、上記音声分析
部により得られた音声特徴パラメータを近似フーリエ変
換により周波数軸上のパラメータに変換して、所望周波
数帯域での入力音声レベルを検出し、該検出レベルが閾
値よりも大きい場合に有声音検出とするので、有声音検
出部の検出性能をあげることができ、請求項４の発明と
同様に、特に日本語の特徴を生かし、有声音の代表的か
つ勢力の大きい母音を誤り無く検出することにより有声
音検出性能を上げることが可能となり、またレベルを検
出する周波数帯域を指定することにより、周囲騒音の影
響にも強くなるという効果がある。

【００７２】請求項６の発明は、請求項１乃至３の何れ
かの発明において、上記有声音検出部が、音声分析パラ
メータの対数パワーを用いて、対数パワー値が閾値より
も大きい場合に有声音検出とするので、有声音検出に音
声分析の結果を利用することができ、また、分析結果を
利用することで、音声パワーをリアルタイムで活用する
ことが可能となるという効果がある。

【００７３】請求項７の発明は、請求項４乃至６の何れ
かの発明において、上記閾値を、入力音声信号に応じて
設定するので、検出閾値を入力音声信号レベルに応じて
変更することにより、入力音声のレベルの大小の影響や
入力される周囲騒音の影響にも対応することが可能とな
るという効果がある。

【００７４】請求項８の発明は、請求項２の発明におい
て、上記基本周波数検出部は、上記ＭＬＳＡ分析フィル
タから出力される残差信号の自己相関を用いたピーク検
出の間隔により基本周波数を検出するので、入力音声信
号レベルを吸収することが可能となり、そのため常に一
定の検出精度で検出が可能となるという効果がある。

【００７５】請求項９の発明は、請求項３の発明におい
て、上記基本周波数検出部が、メルケプストラム分析部
により得られるメルケプストラムパラメータの高次成分
のピーク検出の間隔により基本周波数を検出するので、
分析精度と同等の検出精度を保つことが可能となるとい
う効果がある。

【００７６】請求項１０の発明は、請求項２の発明にお
いて、上記基本周波数検出部が、上記ＭＬＳＡ分析フィ
ルタから出力される残差信号の零交差数解析により基本
周波数を検出するので、ＭＬＳＡ分析フィルタによる適
応デジタルフィルタの精度の高い分析結果を利用するこ
とが可能となるという効果がある。

【００７７】請求項１１の発明は、請求項２の発明にお
いて、上記基本周波数検出部が、上記ＭＬＳＡ分析フィ
ルタから出力される残差信号を入力とするニューラルネ
ットワークにより基本周波数を推定検出するので、入力
音声信号の変化に対応でき、ニューラルネットワーク構
成時の統計的な検出を行うことが可能となり、その結果
精度の高い基本周波数検出が可能となるという効果があ
る。

【００７８】請求項１２の発明は、請求項１乃至１１の
何れかの発明において、上記基本周波数検出部により検
出した基本周波数と１時刻前の基本周波数との傾きが予
め設定した傾き範囲を越えた場合に、該傾き範囲に入る
ように上記検出した基本周波数を補正する基本周波数補
正処理部を付設したので、検出された基本周波数の時間
的な変動が急激で、誤検出した可能性が高い場合にも、
補正を行うことで、合成された音声の音質を向上させる
ことができ、また、その補正された基本周波数の時間的
な変化を緩やかなものとして、急激な基本周波数変化に
よって発生する合成音声のイントネーションの不自然性
を解消することが可能となるという効果がある。

【００７９】請求項１３の発明は、請求項１乃至１２の
何れかの発明において、上記基本周波数処理部が、検出
される基本周波数に応じた、基本周波数変換処理を行う
ので、入力音声が声質変換に不適当な基本周波数帯域の
場合に声質変換を行なわれるのを防ぐことができ、得ら
れる合成音声が、常に所定の基本周波数帯域の音声とな
り、合成音声の音質として、通常音声と違和感の無い音
声を提供することが可能となるという効果がある。

【００８０】請求項１４の発明は、請求項１乃至１３の
何れかの発明において、上記音源信号発生部が、発生さ
せるパルス信号の振幅に応じて上記白色雑音信号の振幅
を制御するので、合成音声に急激なパワー変動に起因す
るクリック性の雑音が発生しないようにでき、また、パ
ルス信号と白色性雑音信号の振幅制御を行うことによ
り、合成音声の音質として、滑らかな音声を提供するこ
とが可能となるという効果がある。

【００８１】請求項１５の発明は、請求項１乃至１４の
何れかの発明において、上記音声合成部より出力される
合成音声信号に対してダウンサンプリングを行って再生
音声の周波数帯域の制限を加えた合成音声信号を出力す
るダウンサンプリング部を付設したので、スペクトルの
処理に起因する再生可能周波数の高周波数部の処理の効
果の少ない帯域における音声歪みの影響を、サンプリン
グ周波数制限を行うことにより、音声歪みを起こす可能
性のある周波数帯域を再生周波数帯域から除外すること
が可能となり、合成音声の音質に歪み成分の影響がなく
なり、合成音声の音質を向上させることが可能となると
いう効果がある。

【図面の簡単な説明】

【図１】本発明の実施形態１の構成図である。

【図２】本発明の実施形態２の構成図である。

【図３】（ａ）は同上に用いるＭＬＳＡ分析フィルタを
構成する基本フィルタの構成図である。（ｂ）は同上に
用いるＭＬＳＡ分析フィルタの具体的例の構成図であ
る。

【図４】同上に用いる基本周波数検出部の例１を示す構
成図である。

【図５】同上に用いる基本周波数検出部の例２を示す構
成図である。

【図６】同上に用いる基本周波数検出部の例３を示す構
成図である。

【図７】本発明の実施形態３の構成図である。

【図８】同上に用いる基本周波数検出部の一例を示す構
成図である。

【図９】同上に用いる有声音検出部の例１を示す構成図
である。

【図１０】同上の音声有声音検出部のレベル検出の説明
図である。

【図１１】同上に用いる有声音検出部の例２を示す構成
図である。

【図１２】同上に用いる有声音検出部の例３を示す構成
図である。

【図１３】同上に用いる有声音検出部の例４の原理説明
図である。

【図１４】同上の有声音検出部の例４を示す構成図であ
る。

【図１５】同上に用いる有声音検出部の例５を示す構成
図である。

【図１６】本発明の実施形態４に要部の構成図である。

【図１７】同上に用いる基本周波数補正部の動作説明図
である。

【図１８】本発明の実施形態５に要部の構成図である。

【図１９】本発明の実施形態６の音源信号発生部５の発
生信号例の説明図である。

【図２０】同上の音源信号発生部の動作説明図である。

【図２１】本発明の実施形態７の要部の構成図である。

【図２２】同上のダウンサンプリング部の動作説明図で
ある。

【符号の説明】

１音声分析部２有声音検出部３基本周波数検出部４基本周波数処理部５音源信号発生部６周波数処理制御部７音声合成部

Claims

【特許請求の範囲】

【請求項１】音声分析処理、音声合成処理の際に、周
波数軸変換処理を制御するための周波数処理制御部と、入力音声を上記周波数処理制御部の制御により音声分析
する音声分析部と、上記音声分析部による音声分析により得られる音声特徴
パラメータから入力音声が有声音か否かを判別する有声
音検出部と、上記有声音検出部で有声音と検出した場合、入力音声の
基本周波数を検出する基本周波数検出部と、上記基本周波数検出部で検出された基本周波数を逓倍し
て基本周波数変換を行う基本周波数処理部と、上記有声音検出部で有声音を検出した場合、基本周波数
処理部で基本周波数変換された得られた基本周波数に応
じてパルス信号を発生させ、有声音を検出しなかった場
合、白色雑音信号を発生させ、これらパルス信号及び白
色雑音信号を音源信号として出力する音源信号発生部
と、上記音声分析部で音声分析することにより得られた特徴
パラメータと、上記音源信号発生部から得られた音源信
号とを用いて、上記周波数処理制御部による周波数制御
に従い音声合成する音声合成部とから成ることを特徴と
する声質変換システム。
【請求項２】上記音声分析部をＭＬＳＡ分析フィルタ
で構成し、上記音声合成部をＭＬＳＡ合成フィルタで構
成し、メル周波数軸変換をメルケプストラム分析時と音
声合成時とで変えることで周波数軸変換処理を行うこと
を特徴とする請求項１記載の声質変換システム。
【請求項３】上記音声分析部をフーリエ変換分析を用
いたメルケプストラム分析部で構成し、上記音声合成部
をＭＬＳＡ合成フィルタで構成し、メル周波数軸変換を
メルケプストラム分析時と音声合成時とで変えることで
周波数軸変換処理を行うことを特徴とする請求項１記載
の声質変換システム。
【請求項４】上記有声音検出部は、上記音声分析部に
より得られた音声特徴パラメータをフーリエ変換により
周波数軸上のパラメータに変換して、所望周波数帯域の
入力音声レベルを検出し、該検出レベルが閾値よりも大
きい場合に有声音検出とすることを特徴とする請求項１
乃至３の何れかに記載の声質変換システム。
【請求項５】上記有声音検出部は、上記音声分析部に
より得られた音声特徴パラメータを近似フーリエ変換に
より周波数軸上のパラメータに変換して、所望周波数帯
域での入力音声レベルを検出し、該検出レベルが閾値よ
りも大きい場合に有声音検出とすることを特徴とする請
求項１乃至３の何れかに記載の声質変換システム。
【請求項６】上記有声音検出部は、音声分析パラメー
タの対数パワーを用いて、対数パワー値が閾値よりも大
きい場合に有声音検出とすることを特徴とする請求項１
乃至３の何れかに記載の声質変換システム。
【請求項７】上記閾値は、音声入力信号に応じて設定
されることを特徴とする請求項４乃至６の何れかに記載
の声質変換システム。
【請求項８】上記基本周波数検出部は、上記ＭＬＳＡ
分析フィルタから出力される残差信号の自己相関を用い
たピーク検出の間隔により基本周波数を検出することを
特徴とする請求項２記載の声質変換システム。
【請求項９】上記基本周波数検出部は、上記メルケプ
ストラム分析部により得られるメルケプストラムパラメ
ータの高次成分のピーク検出の間隔により基本周波数を
検出することを特徴とする請求項３記載の声質変換シス
テム。
【請求項１０】上記基本周波数検出部は、上記ＭＬＳ
Ａ分析フィルタから出力される残差信号の零交差数解析
により基本周波数を検出することを特徴とする請求項２
記載の声質変換システム。
【請求項１１】上記基本周波数検出部は、上記ＭＬＳ
Ａ分析フィルタから出力される残差信号を入力とするニ
ューラルネットワークにより基本周波数を推定検出する
ことを特徴とする請求項２記載の声質変換システム。
【請求項１２】上記基本周波数検出部により検出した
基本周波数と１時刻前の基本周波数との傾きが予め設定
した傾き範囲を越えた場合に、該傾き範囲に入るように
上記検出した基本周波数を補正する基本周波数補正処理
部を付設したことを特徴とする請求項１乃至１１の何れ
かに記載の声質変換システム。
【請求項１３】上記基本周波数処理部は、検出される
基本周波数に応じた、基本周波数変換処理を行うことを
特徴とする請求項１乃至１２の何れかに記載の声質変換
システム。
【請求項１４】上記音源信号発生部は、発生させるパ
ルス信号の振幅に応じて上記白色雑音信号の振幅を制御
することを特徴とする請求項１乃至１３の何れかに記載
の声質変換システム。
【請求項１５】上記音声合成部より出力される合成音
声信号に対してダウンサンプリングを行って再生音声の
周波数帯域の制限を加えた合成音声信号を出力するダウ
ンサンプリング部を付設したことを特徴とする請求項１
乃至１４の何れかに記載の声質変換システム。