JP3502265B2 - 音声分析装置、音声分析方法、および音声分析プログラムを記録した記録媒体 - Google Patents

音声分析装置、音声分析方法、および音声分析プログラムを記録した記録媒体

Info

Publication number
JP3502265B2
JP3502265B2 JP16759098A JP16759098A JP3502265B2 JP 3502265 B2 JP3502265 B2 JP 3502265B2 JP 16759098 A JP16759098 A JP 16759098A JP 16759098 A JP16759098 A JP 16759098A JP 3502265 B2 JP3502265 B2 JP 3502265B2
Authority
JP
Japan
Prior art keywords
unvoiced
frame
zero
energy
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP16759098A
Other languages
English (en)
Other versions
JP2000003188A (ja
Inventor
靖雄 吉岡
セラ ザビエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP16759098A priority Critical patent/JP3502265B2/ja
Priority to TW088108973A priority patent/TW430778B/zh
Priority to EP10009510A priority patent/EP2264696B1/en
Priority to EP12000670A priority patent/EP2450887A1/en
Priority to EP99110936A priority patent/EP0982713A3/en
Publication of JP2000003188A publication Critical patent/JP2000003188A/ja
Priority to US10/282,754 priority patent/US7149682B2/en
Priority to US10/282,536 priority patent/US7606709B2/en
Priority to US10/282,992 priority patent/US20030055647A1/en
Application granted granted Critical
Publication of JP3502265B2 publication Critical patent/JP3502265B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、入力された音声
の有声・無声判定を行う音声分析装置、音声分析方法、
および音声分析プログラムを記録した記録媒体に関す
る。
【0002】
【従来の技術】従来より、音声分析の技術分野において
は、入力された音声信号の有声・無声判定を行うさまざ
まな技術が提案されている。このような技術の代表的な
ものとして、まず、単位時間あたりの波形のゼロクロス
数が多い場合に無声であると判定する手法がある。ま
た、自己相関関数を用いて判定する手法やケプストラム
分析を用いて判定する手法もある。このような技術は、
例えば、「音声の音響分析」(著者 レイ・D・ケン
ト、1996年5月10日初版発行、海文堂出版発行)
などに説明されている。
【0003】
【発明が解決しようとする課題】ところで、無声音に
は、”s”などの摩擦音の他、”p”などの破裂音があ
るが、上述のゼロクロス数に基づいて行う判定では、無
声音のうちの摩擦音(sなど)は判定できるが、破裂音
(pなど)は判定できないという問題があった。また、
自己相関関数を用いて判定する手法やケプストラム分析
を用いて判定する手法によっても、完全に判定すること
は困難だった。このように、従来の技術においては、有
声・無声判定を精度良く行うことができないという問題
があった。
【0004】本発明は、上述した課題を解決するために
さなれたものであり、有声・無声判定を精度良く行うこ
とができる音声分析装置、音声分析方法、および音声分
析プログラムを記録した記録媒体を提供することを目的
とする。
【0005】
【課題を解決するための手段】上述した課題を解決する
ために、請求項1に記載の発明は、フレーム毎に入力音
声信号の有声・無声判定を行う音声分析装置において、
前記フレーム中の前記入力音声信号のゼロクロス数を検
出するゼロクロス数検出手段と、当該フレーム中の前記
入力音声信号のエネルギーを検出するエネルギー検出手
段と、前記エネルギーが予め設定した第1のエネルギー
しきい値未満であるフレームについて前記ゼロクロス数
にかかわらず無音であると判定する無音判定手段と、前
記無音判定手段により無音であると判定されなかったフ
レームについて有声・無声を判定する手段であり、前記
ゼロクロス数が予め設定された第2のゼロクロスしきい
値以上である場合は、前記エネルギーにかかわらず無声
であると判定する第1の無声判定手段と、前記第1の無
声判定手段にて無声であると判定されなかったフレーム
について有声・無声を更に判定する手段であり、前記ゼ
ロクロス数が予め設定された第1のゼロクロスしきい値
以上前記第2のゼロクロスしきい値未満であり、かつ、
前記エネルギーが前記第1のエネルギーしきい値以上予
め設定した第2のエネルギーしきい値未満である場合
は、無声であると判定する第2の無声判定手段とを備え
ることを特徴とする。また、請求項2に記載の発明は、
請求項1に記載の音声分析装置において、前記ゼロクロ
ス数検出手段は、1サンプルあたりに換算したゼロクロ
ス数であるゼロクロス要素を検出し、前記エネルギー検
出手段は、当該フレームの正規化されたサンプル値の絶
対値の平均値であるエネルギー要素を検出することを特
徴とする。
【0006】 請求項3に記載の発明は、フレーム毎に
入力音声信号の有声・無声判定を行う音声分析装置にお
いて、前記フレームに含まれる正弦波を周波数およびア
ンプによって示す周波数成分を検出する周波数成分検出
手段と、前記周波数成分のうち、最大アンプを有する周
波数成分が予め定めた基準周波数よりも高い前記周波数
成分であれば無声であると判定する周波数軸上判定手段
とを備えることを特徴とする。また、請求項4に記載の
発明は、請求項3に記載の音声分析装置において、前記
周波数軸上判定手段は、前記高周波数成分のアンプの平
均値と予め設定した基準周波数よりも低い前記周波数成
分である低周波成分のアンプの平均値との比と、予め設
定した基準値とに基づいて有声・無声判定を行うことを
特徴とする。
【0007】 また、請求項5に記載の発明は、フレー
ム毎に入力音声信号の有声・無声判定を行う音声分析装
置において、前記フレーム中の前記入力音声信号のゼロ
クロス数を検出するゼロクロス数検出手段と、当該フレ
ーム中の前記入力音声信号のエネルギーを検出するエネ
ルギー検出手段と、前記エネルギーが予め設定した第1
のエネルギーしきい値未満であるフレームについて前記
ゼロクロス数にかかわらず無音であると判定する無音判
定手段と、前記無音判定手段により無音であると判定さ
れなかったフレームについて有声・無声を判定する手段
であり、前記ゼロクロス数が予め設定された第2のゼロ
クロスしきい値以上である場合は、前記エネルギーにか
かわらず無声であると判定する無声判定手段と、前記フ
レームに含まれる正弦波を周波数およびアンプによって
示す周波数成分を検出する周波数成分検出手段と、前記
周波数成分のうち、予め定めた基準周波数よりも高い前
記周波数成分である高周波成分のアンプに基づいてフレ
ームの有声・無声判定を行う周波数軸上判定手段とを備
え、前記無声判定手段によって前記フレームが無声であ
ると判定されなかった場合に、前記周波数軸上判定手段
による判定を行うことを特徴とする。また、請求項6に
記載の発明は、フレーム毎に入力音声信号の有声・無声
判定を行う音声分析装置において、前記フレーム中の前
記入力音声信号のゼロクロス数を検出するゼロクロス数
検出手段と、当該フレーム中の前記入力音声信号のエネ
ルギーを検出するエネルギー検出手段と、前記エネルギ
ーが予め設定した第1のエネルギーしきい値未満である
フレームについて前記ゼロクロス数にかかわらず無音で
あると判定する無音判定手段と、前記無音判定手段によ
り無音であると判定されなかったフレームについて有声
・無声を判定する手段であり、前記ゼロクロス数が予め
設定された第2のゼロクロスしきい値以上である場合
は、前記エネルギーにかかわらず無声であると判定する
第1の無声判定手段と、前記第1の無声判定手段にて無
声であると判定されなかったフレームについて有声・無
声を更に判定する手段であり、前記ゼロクロス数が予め
設定された第1のゼロクロスしきい値以上前記第2のゼ
ロクロスしきい値未満であり、かつ、前記エネルギーが
前記第1のエネルギーしきい値以上予め設定した第2の
エネルギーしきい値未満である場合は、無声であると判
定する第2の無声判定手段と、前記フレームに含まれる
正弦波を周波数およびアンプによって示す周波数成分を
検出する周波数成分検出手段と、前記周波数成分のう
ち、予め定めた基準周波数よりも高い前記周波数成分で
ある高周波成分のアンプに基づいて、前記フレームの有
声・無声判定を行う周波数軸上判定手段とを備え、前記
第2の無声判定手段によって前記フレームが無声である
と判定されなかった場合に前記周波数軸上判定手段によ
る判定を行うことを特徴とする。
【0008】 また、請求項7に記載の発明は、フレー
ム毎に入力音声信号の有声・無声判定を行う音声分析方
法において、前記フレーム中の前記入力音声信号のゼロ
クロス数を検出するゼロクロス数検出段階と、当該フレ
ーム中の前記入力音声信号のエネルギーを検出するエネ
ルギー検出段階と、前記エネルギーが予め設定した第1
のエネルギーしきい値未満であるフレームについて前記
ゼロクロス数にかかわらず無音であると判定する無音判
定段階と、前記無音判定段階において無音であると判定
されなかったフレームについて有声・無声を判定する段
階であり、前記ゼロクロス数が予め設定された第2のゼ
ロクロスしきい値以上である場合は、前記エネルギーに
かかわらず無声であると判定する第1の無声判定段階
、前記第1の無声判定段階にて無声であると判定され
なかったフレームについて有声・無声を更に判定する段
階であり、前記ゼロクロス数が予め設定された第1のゼ
ロクロスしきい値以上前記第2のゼロクロスしきい値未
満であり、かつ、前記エネルギーが前記第1のエネルギ
ーしきい値以上予め設定した第2のエネルギーしきい値
未満である場合は、無声であると判定する第2の無声判
定段階とを備えることを特徴とする。また、請求項8に
記載の発明は、フレーム毎に入力音声信号の有声・無声
判定を行う音声分析方法において、前記フレームに含ま
れる正弦波を周波数およびアンプによって示す周波数成
分を検出する周波数成分検出段階と、前記周波数成分の
うち、最大アンプを有する周波数成分が予め定めた基準
周波数よりも高い前記周波数成分であれば無声であると
判定する周波数軸上判定段階とを備えることを特徴とす
る。
【0009】 また、請求項9に記載の発明は、コンピ
ュータを用いて、フレーム毎に入力音声信号の有声・無
声判定を行う音声分析プログラムを記録した記録媒体で
あって、前記フレーム中の前記入力音声信号のゼロクロ
ス数を検出するゼロクロス数検出段階と、当該フレーム
中の前記入力音声信号のエネルギーを検出するエネルギ
ー検出段階と、前記エネルギーが予め設定した第1のエ
ネルギーしきい値未満であるフレームについて前記ゼロ
クロス数にかかわらず無音であると判定する無音判定段
階と、前記無音判定段階において無音であると判定され
なかったフレームについて有声・無声を判定する段階で
あり、前記ゼロクロス数が予め設定された第2のゼロク
ロスしきい値以上である場合は、前記エネルギーにかか
わらず無声であると判定する第1の無声判定段階と、前
記第1の無声判定段階にて無声であると判定されなかっ
たフレームについて有声・無声を更に判定する段階であ
り、前記ゼロクロス数が予め設定された第1のゼロクロ
スしきい値以上前記第2のゼロクロスしきい値未満であ
り、かつ、前記エネルギーが前記第1のエネルギーしき
い値以上予め設定した第2のエネルギーしきい値未満で
ある場合は、無声であると判定する第2の無声判定段階
を備えることを特徴とする。また、請求項10に記載
の発明は、コンピュータを用いて、フレーム毎に入力音
声信号の有声・無声判定を行う音声分析プログラムを記
録した記録媒体であって、前記フレームに含まれる正弦
波を周波数およびアンプによって示す周波数成分を検出
する周波数成分検出段階と、前記周波数成分のうち、
大アンプを有する周波数成分が予め定めた基準周波数よ
りも高い前記周波数成分であれば無声であると判定す
周波数軸上判定段階とを備えることを特徴とする。
【0010】
【発明の実施の形態】以下、図面を参照して、本発明の
実施の形態について説明する。
【0011】1.実施形態の構成 1−1.構成の概略説明 図1は、実施形態の構成を示す機能ブロック図である。
実施形態は、本発明にかかる音声分析装置であり、入力
信号を分析して有声・無声を判定するものである。本実
施形態にかかる音声分析装置は、図1に示すように、マ
イク1、分析窓生成部2、入力音声信号切出部3、時間
軸上検出部4、高速フーリエ変換部5、ピーク検出部
6、周波数軸上検出部7、およびピッチ検出部8を備え
て構成されている。
【0012】図1において、マイク1は、歌唱者の声を
収集して入力音声信号Svとして入力音声信号切出部3
に出力する。分析窓生成部2は、前回のフレームで検出
したピッチの周期の固定倍(例えば、3.5倍など)の
周期を有する分析窓(例えばハミング窓)AWを生成
し、入力音声信号切出部3に出力する。なお、初期状態
あるいは前回のフレームが無声音(含む無音)の場合に
は、予め設定した固定周期の分析窓を分析窓AWとして
入力音声信号切出部3に出力する。入力音声信号切出部
3は、入力された分析窓AWと入力音声信号Svとを掛
け合わせ、入力音声信号Svをフレーム単位で切り出
し、フレーム音声信号FSvとして時間軸上検出部4お
よび高速フーリエ変換部5に出力する。
【0013】時間軸上検出部4は、後に詳しく説明する
ように、時間軸上のデータであるフレーム音声信号FS
vに基づいて無音および有声・無声判定を行うものであ
り、無音判定部4aおよび無声判定部4bを備えて構成
されている。また、高速フーリエ変換部5は、フレーム
音声信号FSvを解析処理して周波数スペクトルをピー
ク検出部6に出力し、ピーク検出部6は周波数スペクト
ルよりピークを検出する。より具体的には、図2に示す
ような周波数スペクトルに対して、×印を付けたピーク
を検出する。この1フレーム分のピーク組は、当該フレ
ームに含まれる正弦波を周波数とアンプ(振幅)の組み
合わせとして表したデータであり、当該フレームの周波
数成分SSvとして、(F0、A0)、(F1、A
1)、(F2、A2)、……、(FN、AN)というよ
うに(周波数、アンプ)で表され、周波数軸上検出部7
およびピッチ検出部8に出力されることとなる。
【0014】周波数軸上検出部7は、後に詳しく説明す
るように、入力されたピーク組、すなわち周波数軸上の
データに基づいて有声・無声判定を行うものであり、無
声判定部7aを備えて構成されている。ピッチ検出部8
は、入力されたピーク組に基づいて、当該ピーク組が対
応するフレームのピッチを検出するものであり、ピッチ
が検出されるか否かに基づいて有声・無声判定を行うも
のである。より具体的には、ピーク組を構成するピーク
列がほぼ整数倍の周期で並んでいる場合はピッチを検出
して有声音と判定する。
【0015】このように本実施形態は、時間軸上検出部
4、周波数軸上検出部7およびピッチ検出部8のそれぞ
れにおいて有声・無声判定を行うことができるようにな
っている。
【0016】1−2.各検出部の詳細な説明 次に、時間軸上検出部4および周波数軸上検出部7につ
いてより詳細に説明する。
【0017】(1)時間軸上検出部4 まず時間軸上検出部4について説明する。時間軸上検出
部4は、図1に示すように、フレーム音声信号FSvの
ゼロクロス要素(Zero Crossing Factor)およびエネル
ギー要素(Energy Factor)を検出して、無声・有声を
判定するものであり、図1に示すように無音判定部4a
および無声判定部4bを備えて構成されている。ここ
で、図3は、時間軸上検出部4における無声・有声判定
の原理を示す図であり、図中、縦軸はエネルギー要素を
示しており、横軸はゼロクロス要素を示している。ゼロ
クロス要素とは、1サンプルあたりのゼロクロス数であ
り、当該フレームのゼロクロス要素ZCFは次式によっ
て求められる。 ZCF=当該フレームのゼロクロス数/当該フレームの
サンプル数 また、エネルギー要素とは、当該フレームの正規化され
たサンプル値の絶対値の平均値であり、当該フレームの
エネルギー要素EFは次式によって求められる。 EF=正規化されたサンプル値の絶対値の総和/当該フ
レームのサンプル数
【0018】そして、本実施形態では、ゼロクロス要素
軸上の2つのしきい値、およびエネルギー要素軸上の2
つのしきい値に基づいて、有声・無声判定を行う。な
お、図3中において、ゼロクロス要素軸上のしきい値
は、第1ゼロクロスしきい値であるSilence Zero Cross
ing(以下、SZCと略す)および、第2ゼロクロスし
きい値であるConsonant Zero Crossing(以下、CZC
と略す)である。また、エネルギー要素軸上のしきい値
は、第1エネルギーしきい値であるSilence Energy/5
(以下、SE/5と略す)および、第2エネルギーしき
い値であるSilence Energy(以下、SEと略す)であ
る。なお、SE/5は、Silence Energyの5分の1であ
る。
【0019】ここで、図3を参照すると、ZCF≧CZ
Cの領域(領域)、SZC≦ZCF<CZCかつSE
/5≦EF<SEの領域(領域)、およびEF<SE
/5の領域(領域)が示されている。当該フレームの
ゼロクロス要素ZCFおよびエネルギー要素EFが領域
にある場合は、ゼロクロス数が十分多く、”s”など
の摩擦音であると判定できる。従って、当該フレームは
無声と判定する。ところで、無声音にはエネルギー要素
が小さいという特徴がある。従って、完全に無声である
と判定できる程ゼロクロス要素ZCFが大きくない場合
であっても、エネルギー要素がある程度小さければ無声
と判定してもよい。そこで、当該フレームのゼロクロス
要素ZCFおよびエネルギー要素EFが領域にある場
合は、無声と判定する。しかし、あまりにエネルギー要
素が小さい場合は、人の聴覚では音声を認識できないの
で、ゼロクロス要素の大小にかかわらず無音であると判
定する。そこで本実施例においては、無音と判定するし
きい値をSE/5に設定している。すなわち、人の聴覚
で音声を認識できるエネルギー要素を、無声音のエネル
ギー要素の5分の1程度であることを前提としている。
そして、当該フレームのゼロクロス要素ZCFおよびエ
ネルギー要素EFが領域にある場合は、無音と判定す
る。
【0020】すなわち、ゼロクロス要素軸上のしきい値
CZCは、当該フレームが無声であると判定してよい下
限を示す1サンプルあたりのゼロクロス数である。ま
た、ゼロクロス要素軸上のしきい値SZCは、当該フレ
ームが無声である可能性が高いとは言えないが、もしエ
ネルギー要素がある程度(SE)未満であれば無声であ
ると判定してよい下限を示す1サンプルあたりのゼロク
ロス数である。エネルギー要素軸上のしきい値SEは、
ゼロクロス要素ZCFがしきい値SZC以上しきい値C
ZC未満(SZC≦ZCF<CZC)である場合に、当
該フレームが無声と判定してよい上限を示す正規化され
たサンプル値の絶対値の平均値である。なお、これらの
しきい値CZC、SZC、SEは、実験的・経験的に定
められる値であり、例えば、CZCには0.25が、S
ZCには0.14が、SEには0.01が適している。
【0021】以上説明した手法による有声・無声判定
は、具体的には、図1に示した時間軸上検出部4の無音
判定部4aにおいて、当該フレームのゼロクロス要素Z
CFおよびエネルギー要素EFがEF<SE/5(図3
領域)に該当するか否かの判定が行われ、無声判定部
4bにおいてZCF≧CZC(図3領域)あるいはC
ZC≧ZCF≧SZCかつSE/5<EF<SE(図3
領域)に該当するか否かの判定が行われる。
【0022】このように、時間軸上の処理において、従
来より行われていたゼロクロス数に基づく判定のみなら
ず、エネルギー要素も考慮して有声・無声判定を行うの
で、より精度良く判定することができるようになる。
【0023】(2)周波数軸上検出部7 次に、図4を参照して周波数軸上検出部7について説明
する。周波数軸上検出部7は、図1に示すように、ピー
ク検出部6において検出されたピーク組、すなわち(周
波数、アンプ)で表された周波数成分SSv(周波数軸
上のデータ)に基づいて有声・無声判定を行うものであ
り、無声判定部7aを備えて構成されている。
【0024】図4中(A)(B)(C)は、ピーク検出
の結果検出された周波数成分SSvの分布パターンを3
種類示したものであり、図中縦軸がアンプを示してお
り、横軸が周波数を示している。一般に、有声音の場合
は(A)に示すように、低い周波数成分である程アンプ
が大きく、高い周波数成分である程アンプが小さくなる
という特徴がある。そこで、本実施形態では、(B)お
よび(C)に示すように、予め定めた基準周波数より高
い周波数成分(高周波成分)に着目して有声・無声判定
を行う。なお、予め定めた基準周波数より低い周波数成
分は低周波成分という。
【0025】まず、図4(B)では、周波数成分SSv
のうち、最大アンプをもつ周波数成分の周波数Fmax
が予め定めた基準周波数Fs以上(Fmax≧Fs)で
ある場合は無声と判定する。すなわち、図4(B)に示
す判定においては、Fs以上に属する周波数成分を高周
波成分としている。これは、高周波成分に対応するアン
プが低周波成分のアンプよりも大きい場合は、当該フレ
ームが有声音である確率は低いからである。なお、図4
(B)に示す例では、予め定めた基準周波数Fsを4,
000Hzとしており、最大アンプに対応する周波数F
maxは4,000Hz以上であるので、当該フレーム
は無声と判定される。
【0026】また、図4(C)では、低周波成分のアン
プの平均値Alと、高周波成分のアンプの平均値Ahと
を比較することによって有声・無声判定を行う。これ
は、高周波成分のアンプの平均値が十分に大きい場合
は、当該フレームが有声音である確率は低いからであ
る。なお、図4(C)に示す例では、1,000Hz以
下の平均値Alと、5,000Hz以上の平均値Ahを
求め、Ah/Al≧Asであれば、このフレームを無声
と判定する。ここで、Asは無声であるか否かを判定す
る基準となる基準値であり、実験などに基づいて予め設
定される値であり、0.17程度が適している。
【0027】以上説明した手法による有声・無声判定
は、具体的には、図1に示した周波数軸上検出部7の無
声判定部7aにおいて、当該フレームの周波数成分SS
vがFmax≧Fs(図4(B))あるいはAh/Al
≧As(図4(C))に該当するか否かの判定が行われ
る。
【0028】このように、通常の音声の有声音ではあり
得ないものを無声音として前もって取り除くことによ
り、より精度良く有声・無声判定を行うことができる。
【0029】2.実施形態の動作 次に、実施形態の動作について説明する。まず、図1に
示す機能ブロック図および図5に示すフローチャートを
参照しながら、実施形態の動作について説明する。ま
ず、マイク1から入力された歌唱者の入力音声信号Sv
をフレーム単位で切り出す処理が行われる(S10
1)。すなわち、入力音声信号切出部3は、分析窓生成
部2において生成された分析窓AWと入力音声信号Sv
とを掛け合わせ、フレーム音声信号FSvとして時間軸
上検出部4および高速フーリエ変換部5に出力する。
【0030】次に、時間軸上検出部4は、入力されたフ
レーム音声信号FSvに基づいて、上述のゼロクロス要
素ZCFおよびエネルギー要素EFを検出する(S10
2)。そして、まず無声判定部4aにおいてEF<SE
/5であるか否かを判定する(S103)。ステップS
103の判定において、EF<SE/5であると判定さ
れた場合は(S103;YES)、フレーム音声信号F
Svが図3に示した領域に該当するので、歌唱者の音
声を無音であると判定して、検出結果「無音」を出力す
る。
【0031】一方、ステップS103の判定において、
EF<SE/5ではないと判定された場合は(S10
3;NO)、フレーム音声信号FSvは無声判定部4b
に出力される。次に、無声判定部4bは、ステップS1
02において算出したゼロクロス要素ZCFが上述のC
ZC以上であるか否か(ZCF≧CZC)を判定し(S
104)、CZC以上であると判定した場合は(S10
4;YES)、フレーム音声信号FSvが図3に示した
領域に該当するので、歌唱者の音声を無声であると判
定して、検出結果「無声」を出力する。また、ステップ
S104の判定においてゼロクロス要素ZCFが上述の
CZC以上ではないと判定した場合(S104;NO)
であっても、無声判定部4bは、さらにゼロクロス要素
ZCFがSZC以上であり、かつエネルギー要素EFが
SE未満(ZCF≧SZCかつEF<SE)か否かを判
定し(S105)、ZCF≧SZCかつEF<SEであ
ると判定した場合は(S105;YES)、フレーム音
声信号FSvが図3に示した領域に該当するので、当
該フレームは無声であると判定して、検出結果「無声」
を出力する。
【0032】しかし、ステップS105の判定において
ZCF≧SZCかつEF<SEではないと判定した場合
は(S105;NO)、無声判定部4bは歌唱者の音声
が無声であると判定できなかった旨を通知する通知信号
Noを出力する。通知信号Noが無声判定部4bから出
力されると、高速フーリエ変換部5はフレーム音声信号
FSvを解析処理して周波数スペクトルをピーク検出部
6に出力し(S106)、ピーク検出部6は周波数スペ
クトルよりピークを検出する処理を行い(S107)、
検出したピーク組を、周波数成分SSvとして周波数軸
上検出部7およびピッチ検出部8に出力する。
【0033】次に、周波数軸上検出部7は、無声判定部
7aにおいて、まずすべての周波数成分SSv中で最大
アンプの周波数Fmaxがしきい値Fs以上(Fmax
≧Fs)であるか否かを判定し(S108)、Fmax
≧Fsであると判定した場合は(S108;YES)、
図4に示した(B)に該当するので、当該フレームは無
声であると判定して、検出結果「無声」を出力する。ま
た、ステップS108の判定において、Fmax≧Fs
であると判定しなかった場合でも(S108;NO)、
無声判定部7aは、低周波成分(例えば1,000Hz
以下)のアンプの平均値Alと、高周波成分(例えば
5,000Hz以上)のアンプの平均値Ahを求め、A
h/Al≧Asであるか否かを判定する(S109)。
そして、Ah/Al≧Asであると判定した場合は(S
109;YES)、図4に示した(C)に該当するの
で、当該フレームは無声であると判定して、検出結果
「無声」を出力する。
【0034】しかし、ステップS109の判定におい
て、Ah/Al≧Asであると判定しなかった場合は
(S109;NO)、周波数軸上検出部7の無声判定部
7aから通知信号Noが出力され、ピッチ検出部8は入
力される周波数成分SSvに基づいてピッチを検出する
処理を行う(S110)。そしてピッチ検出部8は、ス
テップS110の処理結果に基づいてピッチがあるか否
かを判定し(S111)、ピッチが無いと判定した場合
は(S111;NO)、当該フレームは無声であると判
定して、検出結果「無声」を出力する。一方、ステップ
S111の判定において、ピッチがあると判定した場合
は(S111;YES)、当該フレームは有声であると
判定して、検出結果「有声」を出力するとともに、ステ
ップS110において検出されたピッチを出力する。
【0035】このように、まず時間軸上検出部4におい
て、上述した3つのしきい値(CZC、SZC、SE)
に基づいて有声・無声判定を行い、無声であると判定で
きなかった場合は周波数軸上検出部7においてさらに有
声・無声判定を行うので、段階的に有声・無声判定を行
うことができる。また、時間軸上検出部4および周波数
軸上検出部7において無声と判定されなかったフレーム
についてのみピッチ検出部8においてピッチ検出を行
い、さらに有声・無声判定を行うので、より精度よく有
声・無声判定を行うことができる。
【0036】3.変形例 なお、本発明は既述した実施形態に限定されるものでは
なく、以下のような各種の変形が可能である。
【0037】例えば上記実施形態において示した具体的
な数値は、あくまでも例示であってこれらに限定される
ものではない。また、上記実施形態においては、各フレ
ームの音声信号のゼロクロス数をゼロクロス要素ZCF
に換算して判定を行っているが、他の算出方法で求めた
ゼロクロス数に対応するパラメータを用いても良い。同
様に、各フレームの音声信号のエネルギーについても、
エネルギー要素EFに限らず、他の算出方法で求めたエ
ネルギーに対応するパラメータを用いても良い。
【0038】また、上記実施形態では、無音と判定する
しきい値をSE/5に設定しているが、これに限らず他
の値であってもかまわないし、必ずしも固定値である必
要もない。例えば、しきい値を数種類用意しておき、以
前に処理したフレームが無音と判定される状況に応じて
しきい値を変化させてもよい。このようにすれば、SE
/5前後のエネルギー要素EFであるフレームが連続し
て入力される場合であっても、頻繁に有音、無音の判定
を繰り返すことを防止することができる。
【0039】なお、上記実施形態は、図示せぬROMに
記憶された制御プログラムに基づいて上述の処理をおこ
なっているが、これに限らず、不揮発性メモリカード、
CD−ROM、フロッピーディスク、光磁気ディスク、
および磁気ディスク等の可搬型の記録媒体に記録された
制御プログラムをハードディスク等の記憶装置に転送で
きるように構成して、記憶装置に記憶された制御プログ
ラムに基づいて上述の処理を行ってもよい。このように
すれば、制御プログラムの追加(インストール)や更新
(バージョンアップ)の際に便利である。
【0040】
【発明の効果】以上、説明したように、本発明によれ
ば、有声・無声判定を精度良く行うことができる。
【図面の簡単な説明】
【図1】 実施形態の構成を示すブロック図である。
【図2】 周波数スペクトルのピーク検出を説明するた
めの説明図である。
【図3】 時間軸上における判定を説明するための説明
図である。
【図4】 周波数軸上における判定を説明するための説
明図である。
【図5】 実施形態の動作を示すフローチャートであ
る。
【符号の説明】
1……マイク、 2……分析窓生成部、 3……入力音声信号切出部、 4……時間軸上検出部、 5……高速フーリエ変換部、 6……ピーク検出部、 7……周波数軸上検出部、 8……ピッチ検出部、 AW……分析窓、 Sv……入力音声信号、 FSv……フレーム音声信号、 SSv……周波数成分、 No……通知信号。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ザビエル セラ スペイン バルセロナ カルデデュー 08440 2−2 ビスカイア19 (56)参考文献 特開 昭60−28698(JP,A) 特開 平7−56598(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/06

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】 フレーム毎に入力音声信号の有声・無声
    判定を行う音声分析装置において、 前記フレーム中の前記入力音声信号のゼロクロス数を検
    出するゼロクロス数検出手段と、 当該フレーム中の前記入力音声信号のエネルギーを検出
    するエネルギー検出手段と、 前記エネルギーが予め設定した第1のエネルギーしきい
    値未満であるフレームについて前記ゼロクロス数にかか
    わらず無音であると判定する無音判定手段と、 前記無音判定手段により無音であると判定されなかった
    フレームについて有声・無声を判定する手段であり、前
    記ゼロクロス数が予め設定された第2のゼロクロスしき
    い値以上である場合は、前記エネルギーにかかわらず無
    声であると判定する第1の無声判定手段と 前記第1の無声判定手段にて無声であると判定されなか
    ったフレームについて有声・無声を更に判定する手段で
    あり、前記ゼロクロス数が予め設定された第1のゼロク
    ロスしきい値以上前記第2のゼロクロスしきい値未満で
    あり、かつ、前記エネルギーが前記第1のエネルギーし
    きい値以上予め設定した第2のエネルギーしきい値未満
    である場合は、無声であると判定する第2の無声判定手
    段と を備えることを特徴とする音声分析装置。
  2. 【請求項2】 前記ゼロクロス数検出手段は、1サンプ
    ルあたりに換算したゼロクロス数であるゼロクロス要素
    を検出し、 前記エネルギー検出手段は、当該フレームの正規化され
    たサンプル値の絶対値の平均値であるエネルギー要素を
    検出することを特徴とする請求項1に記載の音声分析装
    置。
  3. 【請求項3】 フレーム毎に入力音声信号の有声・無声
    判定を行う音声分析装置において、 前記フレームに含まれる正弦波を周波数およびアンプに
    よって示す周波数成分を検出する周波数成分検出手段
    と、 前記周波数成分のうち、最大アンプを有する周波数成分
    予め定めた基準周波数よりも高い前記周波数成分であ
    れば無声であると判定する周波数軸上判定手段とを備え
    ることを特徴とする音声分析装置。
  4. 【請求項4】 前記周波数軸上判定手段は、前記高周波
    数成分のアンプの平均値と予め設定した基準周波数より
    も低い前記周波数成分である低周波成分のアンプの平均
    値との比と、予め設定した基準値とに基づいて有声・無
    声判定を行うことを特徴とする請求項に記載の音声分
    析装置。
  5. 【請求項5】 フレーム毎に入力音声信号の有声・無声
    判定を行う音声分析装置において、 前記フレーム中の前記入力音声信号のゼロクロス数を検
    出するゼロクロス数検出手段と、 当該フレーム中の前記入力音声信号のエネルギーを検出
    するエネルギー検出手段と、 前記エネルギーが予め設定した第1のエネルギーしきい
    値未満であるフレームについて前記ゼロクロス数にかか
    わらず無音であると判定する無音判定手段と、 前記無音判定手段により無音であると判定されなかった
    フレームについて有声・無声を判定する手段であり、前
    記ゼロクロス数が予め設定された第2のゼロクロスしき
    い値以上である場合は、前記エネルギーにかかわらず無
    声であると判定する無声判定手段と、 前記フレームに含まれる正弦波を周波数およびアンプに
    よって示す周波数成分を検出する周波数成分検出手段
    と、 前記周波数成分のうち、予め定めた基準周波数よりも高
    い前記周波数成分である高周波成分のアンプに基づいて
    フレームの有声・無声判定を行う周波数軸上判定手段と
    を備え、 前記無声判定手段によって前記フレームが無声であると
    判定されなかった場合に、前記周波数軸上判定手段によ
    る判定を行うことを特徴とする音声分析装置。
  6. 【請求項6】 フレーム毎に入力音声信号の有声・無声
    判定を行う音声分析装置において、 前記フレーム中の前記入力音声信号のゼロクロス数を検
    出するゼロクロス数検出手段と、 当該フレーム中の前記入力音声信号のエネルギーを検出
    するエネルギー検出手段と、 前記エネルギーが予め設定した第1のエネルギーしきい
    値未満であるフレームについて前記ゼロクロス数にかか
    わらず無音であると判定する無音判定手段と、 前記無音判定手段により無音であると判定されなかった
    フレームについて有声・無声を判定する手段であり、前
    記ゼロクロス数が予め設定された第2のゼロクロスしき
    い値以上である場合は、前記エネルギーにかかわらず無
    声であると判定する第1の無声判定手段と、 前記第1の無声判定手段にて無声であると判定されなか
    ったフレームについて有声・無声を更に判定する手段で
    あり、前記ゼロクロス数が予め設定された第1のゼロク
    ロスしきい値以上前記第2のゼロクロスしきい値未満で
    あり、かつ、前記エネルギーが前記第1のエネルギーし
    きい値以上予め設定した第2のエネルギーしきい値未満
    である場合は、無声であると判定する第2の無声判定手
    段と、 前記フレームに含まれる正弦波を周波数およびアンプに
    よって示す周波数成分を検出する周波数成分検出手段
    と、 前記周波数成分のうち、予め定めた基準周波数よりも高
    い前記周波数成分である高周波成分のアンプに基づい
    て、前記フレームの有声・無声判定を行う周波数軸上判
    定手段とを備え、 前記第2の無声判定手段によって前記フレームが無声で
    あると判定されなかった場合に前記周波数軸上判定手段
    による判定を行うことを特徴とする音声分析装置。
  7. 【請求項7】 フレーム毎に入力音声信号の有声・無声
    判定を行う音声分析方法において、 前記フレーム中の前記入力音声信号のゼロクロス数を検
    出するゼロクロス数検出段階と、 当該フレーム中の前記入力音声信号のエネルギーを検出
    するエネルギー検出段階と、 前記エネルギーが予め設定した第1のエネルギーしきい
    値未満であるフレームについて前記ゼロクロス数にかか
    わらず無音であると判定する無音判定段階と、 前記無音判定段階において無音であると判定されなかっ
    たフレームについて有声・無声を判定する段階であり、
    前記ゼロクロス数が予め設定された第2のゼロクロスし
    きい値以上である場合は、前記エネルギーにかかわらず
    無声であると判定する第1の無声判定段階と 前記第1の無声判定段階にて無声であると判定されなか
    ったフレームについて有声・無声を更に判定する段階で
    あり、前記ゼロクロス数が予め設定された第1のゼロク
    ロスしきい値以上前記第2のゼロクロスしきい値未満で
    あり、かつ、前記エネルギーが前記第1のエネルギーし
    きい値以上予め設定した第2のエネルギーしきい値未満
    である場合は、無声であると判定する第2の無声判定段
    階と を備えることを特徴とする音声分析方法。
  8. 【請求項8】 フレーム毎に入力音声信号の有声・無声
    判定を行う音声分析方法において、 前記フレームに含まれる正弦波を周波数およびアンプに
    よって示す周波数成分を検出する周波数成分検出段階
    と、 前記周波数成分のうち、最大アンプを有する周波数成分
    予め定めた基準周波数よりも高い前記周波数成分であ
    れば無声であると判定する周波数軸上判定段階とを備え
    ることを特徴とする音声分析方法。
  9. 【請求項9】 コンピュータを用いて、フレーム毎に入
    力音声信号の有声・無声判定を行う音声分析プログラム
    を記録した記録媒体であって、 前記フレーム中の前記入力音声信号のゼロクロス数を検
    出するゼロクロス数検出段階と、 当該フレーム中の前記入力音声信号のエネルギーを検出
    するエネルギー検出段階と、 前記エネルギーが予め設定した第1のエネルギーしきい
    値未満であるフレームについて前記ゼロクロス数にかか
    わらず無音であると判定する無音判定段階と、 前記無音判定段階において無音であると判定されなかっ
    たフレームについて有声・無声を判定する段階であり、
    前記ゼロクロス数が予め設定された第2のゼロクロスし
    きい値以上である場合は、前記エネルギーにかかわらず
    無声であると判定する第1の無声判定段階と 前記第1の無声判定段階にて無声であると判定されなか
    ったフレームについて有声・無声を更に判定する段階で
    あり、前記ゼロクロス数が予め設定された第1のゼロク
    ロスしきい値以上前記第2のゼロクロスしきい値未満で
    あり、かつ、前記エネルギーが前記第1のエネルギーし
    きい値以上予め設定した第2のエネルギーしきい値未満
    である場合は、無声であると判定する第2の無声判定段
    階と を備えることを特徴とする音声分析プログラムを記
    録した記録媒体。
  10. 【請求項10】 コンピュータを用いて、フレーム毎に
    入力音声信号の有声・無声判定を行う音声分析プログラ
    ムを記録した記録媒体であって、 前記フレームに含まれる正弦波を周波数およびアンプに
    よって示す周波数成分を検出する周波数成分検出段階
    と、 前記周波数成分のうち、最大アンプを有する周波数成分
    予め定めた基準周波数よりも高い前記周波数成分であ
    れば無声であると判定する周波数軸上判定段階とを備え
    ることを特徴とする音声分析プログラムを記録した記録
    媒体。
JP16759098A 1998-06-15 1998-06-15 音声分析装置、音声分析方法、および音声分析プログラムを記録した記録媒体 Expired - Fee Related JP3502265B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP16759098A JP3502265B2 (ja) 1998-06-15 1998-06-15 音声分析装置、音声分析方法、および音声分析プログラムを記録した記録媒体
TW088108973A TW430778B (en) 1998-06-15 1999-05-31 Voice converter with extraction and modification of attribute data
EP12000670A EP2450887A1 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
EP99110936A EP0982713A3 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
EP10009510A EP2264696B1 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
US10/282,754 US7149682B2 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data
US10/282,536 US7606709B2 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data
US10/282,992 US20030055647A1 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16759098A JP3502265B2 (ja) 1998-06-15 1998-06-15 音声分析装置、音声分析方法、および音声分析プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000003188A JP2000003188A (ja) 2000-01-07
JP3502265B2 true JP3502265B2 (ja) 2004-03-02

Family

ID=15852588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16759098A Expired - Fee Related JP3502265B2 (ja) 1998-06-15 1998-06-15 音声分析装置、音声分析方法、および音声分析プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3502265B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101286168B1 (ko) 2004-12-27 2013-07-15 가부시키가이샤 피 소프트하우스 오디오 신호처리장치, 방법 및 그 방법을 기록한 기록매체
CN111261191A (zh) * 2019-11-22 2020-06-09 惠州市德赛西威智能交通技术研究院有限公司 车载多媒体系统声音拼接和无声的自动化检测方法及系统
CN114534130A (zh) * 2020-11-25 2022-05-27 深圳市安联消防技术有限公司 一种呼吸面具气流噪音消除方法

Also Published As

Publication number Publication date
JP2000003188A (ja) 2000-01-07

Similar Documents

Publication Publication Date Title
Hansen et al. Feature analysis and neural network-based classification of speech under stress
Ying et al. A probabilistic approach to AMDF pitch detection
US7359856B2 (en) Speech detection system in an audio signal in noisy surrounding
EP2083417B1 (en) Sound processing device and program
US20110054910A1 (en) System and method for automatic temporal adjustment between music audio signal and lyrics
JPH0990974A (ja) 信号処理方法
Nwe et al. Singing voice detection in popular music
Heldner Spectral emphasis as an additional source of information in accent detection
Bhangale et al. Synthetic speech spoofing detection using MFCC and radial basis function SVM
Kaushik et al. Automatic detection and removal of disfluencies from spontaneous speech
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
JP3502265B2 (ja) 音声分析装置、音声分析方法、および音声分析プログラムを記録した記録媒体
Chen Nasal detection module for a knowledge-based speech recognition system
JP2007292940A (ja) 音声識別装置及び音声識別方法
JP2797861B2 (ja) 音声検出方法および音声検出装置
Jesus et al. Frication and voicing classification
JP5157474B2 (ja) 音処理装置およびプログラム
Ohtake et al. Newscast speech summarization via sentence shortening based on prosodic features
JPH07295588A (ja) 発話速度推定方法
Every et al. Enhancement of harmonic content of speech based on a dynamic programming pitch tracking algorithm.
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JP5157475B2 (ja) 音処理装置およびプログラム
JPH1097269A (ja) 音声検出装置及び方法
Rao et al. Robust Voicing Detection and F 0 Estimation Method
Sung et al. A study of knowledge-based features for obstruent detection and classification in continuous Mandarin speech

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031204

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071212

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071212

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081212

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081212

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091212

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101212

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101212

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131212

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees