JP3502265B2

JP3502265B2 - 音声分析装置、音声分析方法、および音声分析プログラムを記録した記録媒体

Info

Publication number: JP3502265B2
Application number: JP16759098A
Authority: JP
Inventors: 靖雄吉岡; セラザビエル
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1998-06-15
Filing date: 1998-06-15
Publication date: 2004-03-02
Anticipated expiration: 2018-06-15
Also published as: JP2000003188A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、入力された音声
の有声・無声判定を行う音声分析装置、音声分析方法、
および音声分析プログラムを記録した記録媒体に関す
る。

【０００２】

【従来の技術】従来より、音声分析の技術分野において
は、入力された音声信号の有声・無声判定を行うさまざ
まな技術が提案されている。このような技術の代表的な
ものとして、まず、単位時間あたりの波形のゼロクロス
数が多い場合に無声であると判定する手法がある。ま
た、自己相関関数を用いて判定する手法やケプストラム
分析を用いて判定する手法もある。このような技術は、
例えば、「音声の音響分析」（著者レイ・Ｄ・ケン
ト、１９９６年５月１０日初版発行、海文堂出版発行）
などに説明されている。

【０００３】

【発明が解決しようとする課題】ところで、無声音に
は、”ｓ”などの摩擦音の他、”ｐ”などの破裂音があ
るが、上述のゼロクロス数に基づいて行う判定では、無
声音のうちの摩擦音（ｓなど）は判定できるが、破裂音
（ｐなど）は判定できないという問題があった。また、
自己相関関数を用いて判定する手法やケプストラム分析
を用いて判定する手法によっても、完全に判定すること
は困難だった。このように、従来の技術においては、有
声・無声判定を精度良く行うことができないという問題
があった。

【０００４】本発明は、上述した課題を解決するために
さなれたものであり、有声・無声判定を精度良く行うこ
とができる音声分析装置、音声分析方法、および音声分
析プログラムを記録した記録媒体を提供することを目的
とする。

【０００５】

【課題を解決するための手段】上述した課題を解決する
ために、請求項１に記載の発明は、フレーム毎に入力音
声信号の有声・無声判定を行う音声分析装置において、
前記フレーム中の前記入力音声信号のゼロクロス数を検
出するゼロクロス数検出手段と、当該フレーム中の前記
入力音声信号のエネルギーを検出するエネルギー検出手
段と、前記エネルギーが予め設定した第１のエネルギー
しきい値未満であるフレームについて前記ゼロクロス数
にかかわらず無音であると判定する無音判定手段と、前
記無音判定手段により無音であると判定されなかったフ
レームについて有声・無声を判定する手段であり、前記
ゼロクロス数が予め設定された第２のゼロクロスしきい
値以上である場合は、前記エネルギーにかかわらず無声
であると判定する第１の無声判定手段と、前記第１の無
声判定手段にて無声であると判定されなかったフレーム
について有声・無声を更に判定する手段であり、前記ゼ
ロクロス数が予め設定された第１のゼロクロスしきい値
以上前記第２のゼロクロスしきい値未満であり、かつ、
前記エネルギーが前記第１のエネルギーしきい値以上予
め設定した第２のエネルギーしきい値未満である場合
は、無声であると判定する第２の無声判定手段とを備え
ることを特徴とする。また、請求項２に記載の発明は、
請求項１に記載の音声分析装置において、前記ゼロクロ
ス数検出手段は、１サンプルあたりに換算したゼロクロ
ス数であるゼロクロス要素を検出し、前記エネルギー検
出手段は、当該フレームの正規化されたサンプル値の絶
対値の平均値であるエネルギー要素を検出することを特
徴とする。

【０００６】請求項３に記載の発明は、フレーム毎に
入力音声信号の有声・無声判定を行う音声分析装置にお
いて、前記フレームに含まれる正弦波を周波数およびア
ンプによって示す周波数成分を検出する周波数成分検出
手段と、前記周波数成分のうち、最大アンプを有する周
波数成分が予め定めた基準周波数よりも高い前記周波数
成分であれば無声であると判定する周波数軸上判定手段
とを備えることを特徴とする。また、請求項４に記載の
発明は、請求項３に記載の音声分析装置において、前記
周波数軸上判定手段は、前記高周波数成分のアンプの平
均値と予め設定した基準周波数よりも低い前記周波数成
分である低周波成分のアンプの平均値との比と、予め設
定した基準値とに基づいて有声・無声判定を行うことを
特徴とする。

【０００７】また、請求項５に記載の発明は、フレー
ム毎に入力音声信号の有声・無声判定を行う音声分析装
置において、前記フレーム中の前記入力音声信号のゼロ
クロス数を検出するゼロクロス数検出手段と、当該フレ
ーム中の前記入力音声信号のエネルギーを検出するエネ
ルギー検出手段と、前記エネルギーが予め設定した第１
のエネルギーしきい値未満であるフレームについて前記
ゼロクロス数にかかわらず無音であると判定する無音判
定手段と、前記無音判定手段により無音であると判定さ
れなかったフレームについて有声・無声を判定する手段
であり、前記ゼロクロス数が予め設定された第２のゼロ
クロスしきい値以上である場合は、前記エネルギーにか
かわらず無声であると判定する無声判定手段と、前記フ
レームに含まれる正弦波を周波数およびアンプによって
示す周波数成分を検出する周波数成分検出手段と、前記
周波数成分のうち、予め定めた基準周波数よりも高い前
記周波数成分である高周波成分のアンプに基づいてフレ
ームの有声・無声判定を行う周波数軸上判定手段とを備
え、前記無声判定手段によって前記フレームが無声であ
ると判定されなかった場合に、前記周波数軸上判定手段
による判定を行うことを特徴とする。また、請求項６に
記載の発明は、フレーム毎に入力音声信号の有声・無声
判定を行う音声分析装置において、前記フレーム中の前
記入力音声信号のゼロクロス数を検出するゼロクロス数
検出手段と、当該フレーム中の前記入力音声信号のエネ
ルギーを検出するエネルギー検出手段と、前記エネルギ
ーが予め設定した第１のエネルギーしきい値未満である
フレームについて前記ゼロクロス数にかかわらず無音で
あると判定する無音判定手段と、前記無音判定手段によ
り無音であると判定されなかったフレームについて有声
・無声を判定する手段であり、前記ゼロクロス数が予め
設定された第２のゼロクロスしきい値以上である場合
は、前記エネルギーにかかわらず無声であると判定する
第１の無声判定手段と、前記第１の無声判定手段にて無
声であると判定されなかったフレームについて有声・無
声を更に判定する手段であり、前記ゼロクロス数が予め
設定された第１のゼロクロスしきい値以上前記第２のゼ
ロクロスしきい値未満であり、かつ、前記エネルギーが
前記第１のエネルギーしきい値以上予め設定した第２の
エネルギーしきい値未満である場合は、無声であると判
定する第２の無声判定手段と、前記フレームに含まれる
正弦波を周波数およびアンプによって示す周波数成分を
検出する周波数成分検出手段と、前記周波数成分のう
ち、予め定めた基準周波数よりも高い前記周波数成分で
ある高周波成分のアンプに基づいて、前記フレームの有
声・無声判定を行う周波数軸上判定手段とを備え、前記
第２の無声判定手段によって前記フレームが無声である
と判定されなかった場合に前記周波数軸上判定手段によ
る判定を行うことを特徴とする。

【０００８】また、請求項７に記載の発明は、フレー
ム毎に入力音声信号の有声・無声判定を行う音声分析方
法において、前記フレーム中の前記入力音声信号のゼロ
クロス数を検出するゼロクロス数検出段階と、当該フレ
ーム中の前記入力音声信号のエネルギーを検出するエネ
ルギー検出段階と、前記エネルギーが予め設定した第１
のエネルギーしきい値未満であるフレームについて前記
ゼロクロス数にかかわらず無音であると判定する無音判
定段階と、前記無音判定段階において無音であると判定
されなかったフレームについて有声・無声を判定する段
階であり、前記ゼロクロス数が予め設定された第２のゼ
ロクロスしきい値以上である場合は、前記エネルギーに
かかわらず無声であると判定する第１の無声判定段階
と、前記第１の無声判定段階にて無声であると判定され
なかったフレームについて有声・無声を更に判定する段
階であり、前記ゼロクロス数が予め設定された第１のゼ
ロクロスしきい値以上前記第２のゼロクロスしきい値未
満であり、かつ、前記エネルギーが前記第１のエネルギ
ーしきい値以上予め設定した第２のエネルギーしきい値
未満である場合は、無声であると判定する第２の無声判
定段階とを備えることを特徴とする。また、請求項８に
記載の発明は、フレーム毎に入力音声信号の有声・無声
判定を行う音声分析方法において、前記フレームに含ま
れる正弦波を周波数およびアンプによって示す周波数成
分を検出する周波数成分検出段階と、前記周波数成分の
うち、最大アンプを有する周波数成分が予め定めた基準
周波数よりも高い前記周波数成分であれば無声であると
判定する周波数軸上判定段階とを備えることを特徴とす
る。

【０００９】また、請求項９に記載の発明は、コンピ
ュータを用いて、フレーム毎に入力音声信号の有声・無
声判定を行う音声分析プログラムを記録した記録媒体で
あって、前記フレーム中の前記入力音声信号のゼロクロ
ス数を検出するゼロクロス数検出段階と、当該フレーム
中の前記入力音声信号のエネルギーを検出するエネルギ
ー検出段階と、前記エネルギーが予め設定した第１のエ
ネルギーしきい値未満であるフレームについて前記ゼロ
クロス数にかかわらず無音であると判定する無音判定段
階と、前記無音判定段階において無音であると判定され
なかったフレームについて有声・無声を判定する段階で
あり、前記ゼロクロス数が予め設定された第２のゼロク
ロスしきい値以上である場合は、前記エネルギーにかか
わらず無声であると判定する第１の無声判定段階と、前
記第１の無声判定段階にて無声であると判定されなかっ
たフレームについて有声・無声を更に判定する段階であ
り、前記ゼロクロス数が予め設定された第１のゼロクロ
スしきい値以上前記第２のゼロクロスしきい値未満であ
り、かつ、前記エネルギーが前記第１のエネルギーしき
い値以上予め設定した第２のエネルギーしきい値未満で
ある場合は、無声であると判定する第２の無声判定段階
とを備えることを特徴とする。また、請求項１０に記載
の発明は、コンピュータを用いて、フレーム毎に入力音
声信号の有声・無声判定を行う音声分析プログラムを記
録した記録媒体であって、前記フレームに含まれる正弦
波を周波数およびアンプによって示す周波数成分を検出
する周波数成分検出段階と、前記周波数成分のうち、最
大アンプを有する周波数成分が予め定めた基準周波数よ
りも高い前記周波数成分であれば無声であると判定する
周波数軸上判定段階とを備えることを特徴とする。

【００１０】

【発明の実施の形態】以下、図面を参照して、本発明の
実施の形態について説明する。

【００１１】１．実施形態の構成１−１．構成の概略説明図１は、実施形態の構成を示す機能ブロック図である。
実施形態は、本発明にかかる音声分析装置であり、入力
信号を分析して有声・無声を判定するものである。本実
施形態にかかる音声分析装置は、図１に示すように、マ
イク１、分析窓生成部２、入力音声信号切出部３、時間
軸上検出部４、高速フーリエ変換部５、ピーク検出部
６、周波数軸上検出部７、およびピッチ検出部８を備え
て構成されている。

【００１２】図１において、マイク１は、歌唱者の声を
収集して入力音声信号Ｓｖとして入力音声信号切出部３
に出力する。分析窓生成部２は、前回のフレームで検出
したピッチの周期の固定倍（例えば、３．５倍など）の
周期を有する分析窓（例えばハミング窓）ＡＷを生成
し、入力音声信号切出部３に出力する。なお、初期状態
あるいは前回のフレームが無声音（含む無音）の場合に
は、予め設定した固定周期の分析窓を分析窓ＡＷとして
入力音声信号切出部３に出力する。入力音声信号切出部
３は、入力された分析窓ＡＷと入力音声信号Ｓｖとを掛
け合わせ、入力音声信号Ｓｖをフレーム単位で切り出
し、フレーム音声信号ＦＳｖとして時間軸上検出部４お
よび高速フーリエ変換部５に出力する。

【００１３】時間軸上検出部４は、後に詳しく説明する
ように、時間軸上のデータであるフレーム音声信号ＦＳ
ｖに基づいて無音および有声・無声判定を行うものであ
り、無音判定部４ａおよび無声判定部４ｂを備えて構成
されている。また、高速フーリエ変換部５は、フレーム
音声信号ＦＳｖを解析処理して周波数スペクトルをピー
ク検出部６に出力し、ピーク検出部６は周波数スペクト
ルよりピークを検出する。より具体的には、図２に示す
ような周波数スペクトルに対して、×印を付けたピーク
を検出する。この１フレーム分のピーク組は、当該フレ
ームに含まれる正弦波を周波数とアンプ（振幅）の組み
合わせとして表したデータであり、当該フレームの周波
数成分ＳＳｖとして、（Ｆ０、Ａ０）、（Ｆ１、Ａ
１）、（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）というよ
うに（周波数、アンプ）で表され、周波数軸上検出部７
およびピッチ検出部８に出力されることとなる。

【００１４】周波数軸上検出部７は、後に詳しく説明す
るように、入力されたピーク組、すなわち周波数軸上の
データに基づいて有声・無声判定を行うものであり、無
声判定部７ａを備えて構成されている。ピッチ検出部８
は、入力されたピーク組に基づいて、当該ピーク組が対
応するフレームのピッチを検出するものであり、ピッチ
が検出されるか否かに基づいて有声・無声判定を行うも
のである。より具体的には、ピーク組を構成するピーク
列がほぼ整数倍の周期で並んでいる場合はピッチを検出
して有声音と判定する。

【００１５】このように本実施形態は、時間軸上検出部
４、周波数軸上検出部７およびピッチ検出部８のそれぞ
れにおいて有声・無声判定を行うことができるようにな
っている。

【００１６】１−２．各検出部の詳細な説明次に、時間軸上検出部４および周波数軸上検出部７につ
いてより詳細に説明する。

【００１７】（１）時間軸上検出部４まず時間軸上検出部４について説明する。時間軸上検出
部４は、図１に示すように、フレーム音声信号ＦＳｖの
ゼロクロス要素（Zero Crossing Factor）およびエネル
ギー要素（Energy Factor）を検出して、無声・有声を
判定するものであり、図１に示すように無音判定部４ａ
および無声判定部４ｂを備えて構成されている。ここ
で、図３は、時間軸上検出部４における無声・有声判定
の原理を示す図であり、図中、縦軸はエネルギー要素を
示しており、横軸はゼロクロス要素を示している。ゼロ
クロス要素とは、１サンプルあたりのゼロクロス数であ
り、当該フレームのゼロクロス要素ＺＣＦは次式によっ
て求められる。ＺＣＦ＝当該フレームのゼロクロス数／当該フレームの
サンプル数また、エネルギー要素とは、当該フレームの正規化され
たサンプル値の絶対値の平均値であり、当該フレームの
エネルギー要素ＥＦは次式によって求められる。ＥＦ＝正規化されたサンプル値の絶対値の総和／当該フ
レームのサンプル数

【００１８】そして、本実施形態では、ゼロクロス要素
軸上の２つのしきい値、およびエネルギー要素軸上の２
つのしきい値に基づいて、有声・無声判定を行う。な
お、図３中において、ゼロクロス要素軸上のしきい値
は、第１ゼロクロスしきい値であるSilence Zero Cross
ing（以下、ＳＺＣと略す）および、第２ゼロクロスし
きい値であるConsonant Zero Crossing（以下、ＣＺＣ
と略す）である。また、エネルギー要素軸上のしきい値
は、第１エネルギーしきい値であるSilence Energy/5
（以下、ＳＥ／５と略す）および、第２エネルギーしき
い値であるSilence Energy（以下、ＳＥと略す）であ
る。なお、ＳＥ／５は、Silence Energyの５分の１であ
る。

【００１９】ここで、図３を参照すると、ＺＣＦ≧ＣＺ
Ｃの領域（領域）、ＳＺＣ≦ＺＣＦ＜ＣＺＣかつＳＥ
／５≦ＥＦ＜ＳＥの領域（領域）、およびＥＦ＜ＳＥ
／５の領域（領域）が示されている。当該フレームの
ゼロクロス要素ＺＣＦおよびエネルギー要素ＥＦが領域
にある場合は、ゼロクロス数が十分多く、”ｓ”など
の摩擦音であると判定できる。従って、当該フレームは
無声と判定する。ところで、無声音にはエネルギー要素
が小さいという特徴がある。従って、完全に無声である
と判定できる程ゼロクロス要素ＺＣＦが大きくない場合
であっても、エネルギー要素がある程度小さければ無声
と判定してもよい。そこで、当該フレームのゼロクロス
要素ＺＣＦおよびエネルギー要素ＥＦが領域にある場
合は、無声と判定する。しかし、あまりにエネルギー要
素が小さい場合は、人の聴覚では音声を認識できないの
で、ゼロクロス要素の大小にかかわらず無音であると判
定する。そこで本実施例においては、無音と判定するし
きい値をＳＥ／５に設定している。すなわち、人の聴覚
で音声を認識できるエネルギー要素を、無声音のエネル
ギー要素の５分の１程度であることを前提としている。
そして、当該フレームのゼロクロス要素ＺＣＦおよびエ
ネルギー要素ＥＦが領域にある場合は、無音と判定す
る。

【００２０】すなわち、ゼロクロス要素軸上のしきい値
ＣＺＣは、当該フレームが無声であると判定してよい下
限を示す１サンプルあたりのゼロクロス数である。ま
た、ゼロクロス要素軸上のしきい値ＳＺＣは、当該フレ
ームが無声である可能性が高いとは言えないが、もしエ
ネルギー要素がある程度（ＳＥ）未満であれば無声であ
ると判定してよい下限を示す１サンプルあたりのゼロク
ロス数である。エネルギー要素軸上のしきい値ＳＥは、
ゼロクロス要素ＺＣＦがしきい値ＳＺＣ以上しきい値Ｃ
ＺＣ未満（ＳＺＣ≦ＺＣＦ＜ＣＺＣ）である場合に、当
該フレームが無声と判定してよい上限を示す正規化され
たサンプル値の絶対値の平均値である。なお、これらの
しきい値ＣＺＣ、ＳＺＣ、ＳＥは、実験的・経験的に定
められる値であり、例えば、ＣＺＣには０．２５が、Ｓ
ＺＣには０．１４が、ＳＥには０．０１が適している。

【００２１】以上説明した手法による有声・無声判定
は、具体的には、図１に示した時間軸上検出部４の無音
判定部４ａにおいて、当該フレームのゼロクロス要素Ｚ
ＣＦおよびエネルギー要素ＥＦがＥＦ＜ＳＥ／５（図３
領域）に該当するか否かの判定が行われ、無声判定部
４ｂにおいてＺＣＦ≧ＣＺＣ（図３領域）あるいはＣ
ＺＣ≧ＺＣＦ≧ＳＺＣかつＳＥ／５＜ＥＦ＜ＳＥ（図３
領域）に該当するか否かの判定が行われる。

【００２２】このように、時間軸上の処理において、従
来より行われていたゼロクロス数に基づく判定のみなら
ず、エネルギー要素も考慮して有声・無声判定を行うの
で、より精度良く判定することができるようになる。

【００２３】（２）周波数軸上検出部７次に、図４を参照して周波数軸上検出部７について説明
する。周波数軸上検出部７は、図１に示すように、ピー
ク検出部６において検出されたピーク組、すなわち（周
波数、アンプ）で表された周波数成分ＳＳｖ（周波数軸
上のデータ）に基づいて有声・無声判定を行うものであ
り、無声判定部７ａを備えて構成されている。

【００２４】図４中（Ａ）（Ｂ）（Ｃ）は、ピーク検出
の結果検出された周波数成分ＳＳｖの分布パターンを３
種類示したものであり、図中縦軸がアンプを示してお
り、横軸が周波数を示している。一般に、有声音の場合
は（Ａ）に示すように、低い周波数成分である程アンプ
が大きく、高い周波数成分である程アンプが小さくなる
という特徴がある。そこで、本実施形態では、（Ｂ）お
よび（Ｃ）に示すように、予め定めた基準周波数より高
い周波数成分（高周波成分）に着目して有声・無声判定
を行う。なお、予め定めた基準周波数より低い周波数成
分は低周波成分という。

【００２５】まず、図４（Ｂ）では、周波数成分ＳＳｖ
のうち、最大アンプをもつ周波数成分の周波数Ｆｍａｘ
が予め定めた基準周波数Ｆｓ以上（Ｆｍａｘ≧Ｆｓ）で
ある場合は無声と判定する。すなわち、図４（Ｂ）に示
す判定においては、Ｆｓ以上に属する周波数成分を高周
波成分としている。これは、高周波成分に対応するアン
プが低周波成分のアンプよりも大きい場合は、当該フレ
ームが有声音である確率は低いからである。なお、図４
（Ｂ）に示す例では、予め定めた基準周波数Ｆｓを４，
０００Ｈｚとしており、最大アンプに対応する周波数Ｆ
ｍａｘは４，０００Ｈｚ以上であるので、当該フレーム
は無声と判定される。

【００２６】また、図４（Ｃ）では、低周波成分のアン
プの平均値Ａｌと、高周波成分のアンプの平均値Ａｈと
を比較することによって有声・無声判定を行う。これ
は、高周波成分のアンプの平均値が十分に大きい場合
は、当該フレームが有声音である確率は低いからであ
る。なお、図４（Ｃ）に示す例では、１，０００Ｈｚ以
下の平均値Ａｌと、５，０００Ｈｚ以上の平均値Ａｈを
求め、Ａｈ／Ａｌ≧Ａｓであれば、このフレームを無声
と判定する。ここで、Ａｓは無声であるか否かを判定す
る基準となる基準値であり、実験などに基づいて予め設
定される値であり、０．１７程度が適している。

【００２７】以上説明した手法による有声・無声判定
は、具体的には、図１に示した周波数軸上検出部７の無
声判定部７ａにおいて、当該フレームの周波数成分ＳＳ
ｖがＦｍａｘ≧Ｆｓ（図４（Ｂ））あるいはＡｈ／Ａｌ
≧Ａｓ（図４（Ｃ））に該当するか否かの判定が行われ
る。

【００２８】このように、通常の音声の有声音ではあり
得ないものを無声音として前もって取り除くことによ
り、より精度良く有声・無声判定を行うことができる。

【００２９】２．実施形態の動作次に、実施形態の動作について説明する。まず、図１に
示す機能ブロック図および図５に示すフローチャートを
参照しながら、実施形態の動作について説明する。ま
ず、マイク１から入力された歌唱者の入力音声信号Ｓｖ
をフレーム単位で切り出す処理が行われる（Ｓ１０
１）。すなわち、入力音声信号切出部３は、分析窓生成
部２において生成された分析窓ＡＷと入力音声信号Ｓｖ
とを掛け合わせ、フレーム音声信号ＦＳvとして時間軸
上検出部４および高速フーリエ変換部５に出力する。

【００３０】次に、時間軸上検出部４は、入力されたフ
レーム音声信号ＦＳｖに基づいて、上述のゼロクロス要
素ＺＣＦおよびエネルギー要素ＥＦを検出する（Ｓ１０
２）。そして、まず無声判定部４ａにおいてＥＦ＜ＳＥ
／５であるか否かを判定する（Ｓ１０３）。ステップＳ
１０３の判定において、ＥＦ＜ＳＥ／５であると判定さ
れた場合は（Ｓ１０３；ＹＥＳ）、フレーム音声信号Ｆ
Ｓｖが図３に示した領域に該当するので、歌唱者の音
声を無音であると判定して、検出結果「無音」を出力す
る。

【００３１】一方、ステップＳ１０３の判定において、
ＥＦ＜ＳＥ／５ではないと判定された場合は（Ｓ１０
３；ＮＯ）、フレーム音声信号ＦＳｖは無声判定部４ｂ
に出力される。次に、無声判定部４ｂは、ステップＳ１
０２において算出したゼロクロス要素ＺＣＦが上述のＣ
ＺＣ以上であるか否か（ＺＣＦ≧ＣＺＣ）を判定し（Ｓ
１０４）、ＣＺＣ以上であると判定した場合は（Ｓ１０
４；ＹＥＳ）、フレーム音声信号ＦＳｖが図３に示した
領域に該当するので、歌唱者の音声を無声であると判
定して、検出結果「無声」を出力する。また、ステップ
Ｓ１０４の判定においてゼロクロス要素ＺＣＦが上述の
ＣＺＣ以上ではないと判定した場合（Ｓ１０４；ＮＯ）
であっても、無声判定部４ｂは、さらにゼロクロス要素
ＺＣＦがＳＺＣ以上であり、かつエネルギー要素ＥＦが
ＳＥ未満（ＺＣＦ≧ＳＺＣかつＥＦ＜ＳＥ）か否かを判
定し（Ｓ１０５）、ＺＣＦ≧ＳＺＣかつＥＦ＜ＳＥであ
ると判定した場合は（Ｓ１０５；ＹＥＳ）、フレーム音
声信号ＦＳｖが図３に示した領域に該当するので、当
該フレームは無声であると判定して、検出結果「無声」
を出力する。

【００３２】しかし、ステップＳ１０５の判定において
ＺＣＦ≧ＳＺＣかつＥＦ＜ＳＥではないと判定した場合
は（Ｓ１０５；ＮＯ）、無声判定部４ｂは歌唱者の音声
が無声であると判定できなかった旨を通知する通知信号
Ｎｏを出力する。通知信号Ｎｏが無声判定部４ｂから出
力されると、高速フーリエ変換部５はフレーム音声信号
ＦＳｖを解析処理して周波数スペクトルをピーク検出部
６に出力し（Ｓ１０６）、ピーク検出部６は周波数スペ
クトルよりピークを検出する処理を行い（Ｓ１０７）、
検出したピーク組を、周波数成分ＳＳｖとして周波数軸
上検出部７およびピッチ検出部８に出力する。

【００３３】次に、周波数軸上検出部７は、無声判定部
７ａにおいて、まずすべての周波数成分ＳＳｖ中で最大
アンプの周波数Ｆｍａｘがしきい値Ｆｓ以上（Ｆｍａｘ
≧Ｆｓ）であるか否かを判定し（Ｓ１０８）、Ｆｍａｘ
≧Ｆｓであると判定した場合は（Ｓ１０８；ＹＥＳ）、
図４に示した（Ｂ）に該当するので、当該フレームは無
声であると判定して、検出結果「無声」を出力する。ま
た、ステップＳ１０８の判定において、Ｆｍａｘ≧Ｆｓ
であると判定しなかった場合でも（Ｓ１０８；ＮＯ）、
無声判定部７ａは、低周波成分（例えば１，０００Ｈｚ
以下）のアンプの平均値Ａｌと、高周波成分（例えば
５，０００Ｈｚ以上）のアンプの平均値Ａｈを求め、Ａ
ｈ／Ａｌ≧Ａｓであるか否かを判定する（Ｓ１０９）。
そして、Ａｈ／Ａｌ≧Ａｓであると判定した場合は（Ｓ
１０９；ＹＥＳ）、図４に示した（Ｃ）に該当するの
で、当該フレームは無声であると判定して、検出結果
「無声」を出力する。

【００３４】しかし、ステップＳ１０９の判定におい
て、Ａｈ／Ａｌ≧Ａｓであると判定しなかった場合は
（Ｓ１０９；ＮＯ）、周波数軸上検出部７の無声判定部
７ａから通知信号Ｎｏが出力され、ピッチ検出部８は入
力される周波数成分ＳＳｖに基づいてピッチを検出する
処理を行う（Ｓ１１０）。そしてピッチ検出部８は、ス
テップＳ１１０の処理結果に基づいてピッチがあるか否
かを判定し（Ｓ１１１）、ピッチが無いと判定した場合
は（Ｓ１１１；ＮＯ）、当該フレームは無声であると判
定して、検出結果「無声」を出力する。一方、ステップ
Ｓ１１１の判定において、ピッチがあると判定した場合
は（Ｓ１１１；ＹＥＳ）、当該フレームは有声であると
判定して、検出結果「有声」を出力するとともに、ステ
ップＳ１１０において検出されたピッチを出力する。

【００３５】このように、まず時間軸上検出部４におい
て、上述した３つのしきい値（ＣＺＣ、ＳＺＣ、ＳＥ）
に基づいて有声・無声判定を行い、無声であると判定で
きなかった場合は周波数軸上検出部７においてさらに有
声・無声判定を行うので、段階的に有声・無声判定を行
うことができる。また、時間軸上検出部４および周波数
軸上検出部７において無声と判定されなかったフレーム
についてのみピッチ検出部８においてピッチ検出を行
い、さらに有声・無声判定を行うので、より精度よく有
声・無声判定を行うことができる。

【００３６】３．変形例なお、本発明は既述した実施形態に限定されるものでは
なく、以下のような各種の変形が可能である。

【００３７】例えば上記実施形態において示した具体的
な数値は、あくまでも例示であってこれらに限定される
ものではない。また、上記実施形態においては、各フレ
ームの音声信号のゼロクロス数をゼロクロス要素ＺＣＦ
に換算して判定を行っているが、他の算出方法で求めた
ゼロクロス数に対応するパラメータを用いても良い。同
様に、各フレームの音声信号のエネルギーについても、
エネルギー要素ＥＦに限らず、他の算出方法で求めたエ
ネルギーに対応するパラメータを用いても良い。

【００３８】また、上記実施形態では、無音と判定する
しきい値をＳＥ／５に設定しているが、これに限らず他
の値であってもかまわないし、必ずしも固定値である必
要もない。例えば、しきい値を数種類用意しておき、以
前に処理したフレームが無音と判定される状況に応じて
しきい値を変化させてもよい。このようにすれば、ＳＥ
／５前後のエネルギー要素ＥＦであるフレームが連続し
て入力される場合であっても、頻繁に有音、無音の判定
を繰り返すことを防止することができる。

【００３９】なお、上記実施形態は、図示せぬＲＯＭに
記憶された制御プログラムに基づいて上述の処理をおこ
なっているが、これに限らず、不揮発性メモリカード、
ＣＤ−ＲＯＭ、フロッピーディスク、光磁気ディスク、
および磁気ディスク等の可搬型の記録媒体に記録された
制御プログラムをハードディスク等の記憶装置に転送で
きるように構成して、記憶装置に記憶された制御プログ
ラムに基づいて上述の処理を行ってもよい。このように
すれば、制御プログラムの追加（インストール）や更新
（バージョンアップ）の際に便利である。

【００４０】

【発明の効果】以上、説明したように、本発明によれ
ば、有声・無声判定を精度良く行うことができる。

【図面の簡単な説明】

【図１】実施形態の構成を示すブロック図である。

【図２】周波数スペクトルのピーク検出を説明するた
めの説明図である。

【図３】時間軸上における判定を説明するための説明
図である。

【図４】周波数軸上における判定を説明するための説
明図である。

【図５】実施形態の動作を示すフローチャートであ
る。

【符号の説明】

１……マイク、２……分析窓生成部、３……入力音声信号切出部、４……時間軸上検出部、５……高速フーリエ変換部、６……ピーク検出部、７……周波数軸上検出部、８……ピッチ検出部、ＡＷ……分析窓、Ｓｖ……入力音声信号、ＦＳｖ……フレーム音声信号、ＳＳｖ……周波数成分、Ｎｏ……通知信号。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ザビエルセラスペインバルセロナカルデデュー 08440 ２−２ビスカイア19 (56)参考文献特開昭60−28698（ＪＰ，Ａ) 特開平７−56598（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/06

Claims

(57)【特許請求の範囲】

【請求項１】フレーム毎に入力音声信号の有声・無声
判定を行う音声分析装置において、前記フレーム中の前記入力音声信号のゼロクロス数を検
出するゼロクロス数検出手段と、当該フレーム中の前記入力音声信号のエネルギーを検出
するエネルギー検出手段と、前記エネルギーが予め設定した第１のエネルギーしきい
値未満であるフレームについて前記ゼロクロス数にかか
わらず無音であると判定する無音判定手段と、前記無音判定手段により無音であると判定されなかった
フレームについて有声・無声を判定する手段であり、前
記ゼロクロス数が予め設定された第２のゼロクロスしき
い値以上である場合は、前記エネルギーにかかわらず無
声であると判定する第１の無声判定手段と、前記第１の無声判定手段にて無声であると判定されなか
ったフレームについて有声・無声を更に判定する手段で
あり、前記ゼロクロス数が予め設定された第１のゼロク
ロスしきい値以上前記第２のゼロクロスしきい値未満で
あり、かつ、前記エネルギーが前記第１のエネルギーし
きい値以上予め設定した第２のエネルギーしきい値未満
である場合は、無声であると判定する第２の無声判定手
段とを備えることを特徴とする音声分析装置。
【請求項２】前記ゼロクロス数検出手段は、１サンプ
ルあたりに換算したゼロクロス数であるゼロクロス要素
を検出し、前記エネルギー検出手段は、当該フレームの正規化され
たサンプル値の絶対値の平均値であるエネルギー要素を
検出することを特徴とする請求項１に記載の音声分析装
置。
【請求項３】フレーム毎に入力音声信号の有声・無声
判定を行う音声分析装置において、前記フレームに含まれる正弦波を周波数およびアンプに
よって示す周波数成分を検出する周波数成分検出手段
と、前記周波数成分のうち、最大アンプを有する周波数成分
が予め定めた基準周波数よりも高い前記周波数成分であ
れば無声であると判定する周波数軸上判定手段とを備え
ることを特徴とする音声分析装置。
【請求項４】前記周波数軸上判定手段は、前記高周波
数成分のアンプの平均値と予め設定した基準周波数より
も低い前記周波数成分である低周波成分のアンプの平均
値との比と、予め設定した基準値とに基づいて有声・無
声判定を行うことを特徴とする請求項３に記載の音声分
析装置。
【請求項５】フレーム毎に入力音声信号の有声・無声
判定を行う音声分析装置において、前記フレーム中の前記入力音声信号のゼロクロス数を検
出するゼロクロス数検出手段と、当該フレーム中の前記入力音声信号のエネルギーを検出
するエネルギー検出手段と、前記エネルギーが予め設定した第１のエネルギーしきい
値未満であるフレームについて前記ゼロクロス数にかか
わらず無音であると判定する無音判定手段と、前記無音判定手段により無音であると判定されなかった
フレームについて有声・無声を判定する手段であり、前
記ゼロクロス数が予め設定された第２のゼロクロスしき
い値以上である場合は、前記エネルギーにかかわらず無
声であると判定する無声判定手段と、前記フレームに含まれる正弦波を周波数およびアンプに
よって示す周波数成分を検出する周波数成分検出手段
と、前記周波数成分のうち、予め定めた基準周波数よりも高
い前記周波数成分である高周波成分のアンプに基づいて
フレームの有声・無声判定を行う周波数軸上判定手段と
を備え、前記無声判定手段によって前記フレームが無声であると
判定されなかった場合に、前記周波数軸上判定手段によ
る判定を行うことを特徴とする音声分析装置。
【請求項６】フレーム毎に入力音声信号の有声・無声
判定を行う音声分析装置において、前記フレーム中の前記入力音声信号のゼロクロス数を検
出するゼロクロス数検出手段と、当該フレーム中の前記入力音声信号のエネルギーを検出
するエネルギー検出手段と、前記エネルギーが予め設定した第１のエネルギーしきい
値未満であるフレームについて前記ゼロクロス数にかか
わらず無音であると判定する無音判定手段と、前記無音判定手段により無音であると判定されなかった
フレームについて有声・無声を判定する手段であり、前
記ゼロクロス数が予め設定された第２のゼロクロスしき
い値以上である場合は、前記エネルギーにかかわらず無
声であると判定する第１の無声判定手段と、前記第１の無声判定手段にて無声であると判定されなか
ったフレームについて有声・無声を更に判定する手段で
あり、前記ゼロクロス数が予め設定された第１のゼロク
ロスしきい値以上前記第２のゼロクロスしきい値未満で
あり、かつ、前記エネルギーが前記第１のエネルギーし
きい値以上予め設定した第２のエネルギーしきい値未満
である場合は、無声であると判定する第２の無声判定手
段と、前記フレームに含まれる正弦波を周波数およびアンプに
よって示す周波数成分を検出する周波数成分検出手段
と、前記周波数成分のうち、予め定めた基準周波数よりも高
い前記周波数成分である高周波成分のアンプに基づい
て、前記フレームの有声・無声判定を行う周波数軸上判
定手段とを備え、前記第２の無声判定手段によって前記フレームが無声で
あると判定されなかった場合に前記周波数軸上判定手段
による判定を行うことを特徴とする音声分析装置。
【請求項７】フレーム毎に入力音声信号の有声・無声
判定を行う音声分析方法において、前記フレーム中の前記入力音声信号のゼロクロス数を検
出するゼロクロス数検出段階と、当該フレーム中の前記入力音声信号のエネルギーを検出
するエネルギー検出段階と、前記エネルギーが予め設定した第１のエネルギーしきい
値未満であるフレームについて前記ゼロクロス数にかか
わらず無音であると判定する無音判定段階と、前記無音判定段階において無音であると判定されなかっ
たフレームについて有声・無声を判定する段階であり、
前記ゼロクロス数が予め設定された第２のゼロクロスし
きい値以上である場合は、前記エネルギーにかかわらず
無声であると判定する第１の無声判定段階と、前記第１の無声判定段階にて無声であると判定されなか
ったフレームについて有声・無声を更に判定する段階で
あり、前記ゼロクロス数が予め設定された第１のゼロク
ロスしきい値以上前記第２のゼロクロスしきい値未満で
あり、かつ、前記エネルギーが前記第１のエネルギーし
きい値以上予め設定した第２のエネルギーしきい値未満
である場合は、無声であると判定する第２の無声判定段
階とを備えることを特徴とする音声分析方法。
【請求項８】フレーム毎に入力音声信号の有声・無声
判定を行う音声分析方法において、前記フレームに含まれる正弦波を周波数およびアンプに
よって示す周波数成分を検出する周波数成分検出段階
と、前記周波数成分のうち、最大アンプを有する周波数成分
が予め定めた基準周波数よりも高い前記周波数成分であ
れば無声であると判定する周波数軸上判定段階とを備え
ることを特徴とする音声分析方法。
【請求項９】コンピュータを用いて、フレーム毎に入
力音声信号の有声・無声判定を行う音声分析プログラム
を記録した記録媒体であって、前記フレーム中の前記入力音声信号のゼロクロス数を検
出するゼロクロス数検出段階と、当該フレーム中の前記入力音声信号のエネルギーを検出
するエネルギー検出段階と、前記エネルギーが予め設定した第１のエネルギーしきい
値未満であるフレームについて前記ゼロクロス数にかか
わらず無音であると判定する無音判定段階と、前記無音判定段階において無音であると判定されなかっ
たフレームについて有声・無声を判定する段階であり、
前記ゼロクロス数が予め設定された第２のゼロクロスし
きい値以上である場合は、前記エネルギーにかかわらず
無声であると判定する第１の無声判定段階と、前記第１の無声判定段階にて無声であると判定されなか
ったフレームについて有声・無声を更に判定する段階で
あり、前記ゼロクロス数が予め設定された第１のゼロク
ロスしきい値以上前記第２のゼロクロスしきい値未満で
あり、かつ、前記エネルギーが前記第１のエネルギーし
きい値以上予め設定した第２のエネルギーしきい値未満
である場合は、無声であると判定する第２の無声判定段
階とを備えることを特徴とする音声分析プログラムを記
録した記録媒体。
【請求項１０】コンピュータを用いて、フレーム毎に
入力音声信号の有声・無声判定を行う音声分析プログラ
ムを記録した記録媒体であって、前記フレームに含まれる正弦波を周波数およびアンプに
よって示す周波数成分を検出する周波数成分検出段階
と、前記周波数成分のうち、最大アンプを有する周波数成分
が予め定めた基準周波数よりも高い前記周波数成分であ
れば無声であると判定する周波数軸上判定段階とを備え
ることを特徴とする音声分析プログラムを記録した記録
媒体。