JPH05346797A - 有声音判別方法 - Google Patents

有声音判別方法

Info

Publication number
JPH05346797A
JPH05346797A JP5000828A JP82893A JPH05346797A JP H05346797 A JPH05346797 A JP H05346797A JP 5000828 A JP5000828 A JP 5000828A JP 82893 A JP82893 A JP 82893A JP H05346797 A JPH05346797 A JP H05346797A
Authority
JP
Japan
Prior art keywords
signal
block
voiced sound
sub
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5000828A
Other languages
English (en)
Other versions
JP3277398B2 (ja
Inventor
Masayuki Nishiguchi
正之 西口
Atsushi Matsumoto
淳 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP00082893A priority Critical patent/JP3277398B2/ja
Priority to US08/048,034 priority patent/US5664052A/en
Priority to EP93106171A priority patent/EP0566131B1/en
Priority to DE69329511T priority patent/DE69329511T2/de
Publication of JPH05346797A publication Critical patent/JPH05346797A/ja
Priority to US08/753,347 priority patent/US5809455A/en
Application granted granted Critical
Publication of JP3277398B2 publication Critical patent/JP3277398B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames

Abstract

(57)【要約】 【構成】 入力信号の1ブロック(1フレーム)をサブ
ブロック分割部13でさらに分割し、統計的性質検出部
14でサブブロック毎に標準偏差又は実効値の情報とピ
ーク値情報とを検出する。偏在検出部17では標準偏差
又は実効値の時間軸上での偏在を検出し、偏在検出部1
9ではピーク値の偏在を検出して、これらの偏在検出情
報に基づいて判断部18が各ブロック毎に有声音か無声
音かを判別する。 【効果】 有声音か無声音(又はノイズ)かの判別が確
実に行える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声信号から有声音を
雑音又は無声音と区別して判別する有声音判別方法に関
する。
【0002】
【従来の技術】音声は音の性質として有声音と無声音に
区別される。有声音は声帯振動を伴う音声で周期的な振
動として観測される。無声音は声帯振動を伴わない音声
で非周期的な音として観測される。通常の音声では大部
分が有声音であり、無声音は無声子音と呼ばれる特殊な
子音のみである。有声音の周期は声帯振動の周期で決ま
り、これをピッチ周期、その逆数をピッチ周波数とい
う。これらピッチ周期及びピッチ周波数(以下、ピッチ
とした場合はピッチ周期を指す)は声の高低やイントネ
ーションを決める重要な要因である。したがって、上記
ピッチをどれだけ正確に捉えるかが音声の音質を左右す
る。しかし、上記ピッチを捉える場合には、上記音声の
周囲にある雑音いわゆる背景雑音や量子化の際の量子化
雑音を考慮しなければならない。これらの雑音又は無声
音と有声音を区別することが音声信号を符号化する場合
に重要となる。
【0003】上記音声信号の符号化の具体的な例として
は、MBE(Multiband Excitation: マルチバンド励
起)符号化、SBE(Singleband Excitation:シングル
バンド励起) 符号化、ハーモニック(Harmonic) 符号
化、SBC(Sub-band Coding:帯域分割符号化) 、LP
C(Linear Predictive Coding: 線形予測符号化) 、あ
るいはDCT(離散コサイン変換)、MDCT(モデフ
ァイドDCT)、FFT(高速フーリエ変換)等があ
る。
【0004】例えば、上記MBE符号化においては、入
力音声信号波形からピッチを抽出する場合、明確なピッ
チが表れない場合でもピッチの軌跡を捉えやすくしてい
た。そして、復号化側(合成側)は、上記ピッチを基に
余弦波(cosin)波合成により時間軸上の有声音波形を合
成し、別途合成される時間軸上の無声音波形と加算合成
し出力する。
【0005】
【発明が解決しようとする課題】ところで、ピッチを捉
えやすくすると上記背景雑音等の部分で本来のピッチで
ない間違ったピッチを捉えてしまう場合がある。もし、
上記MBE符号化で間違ったピッチを捉えてしまうと、
合成側では、その間違ったピッチの所で各cosin波のピ
ークが重なるようにcosin 波合成を行ってしまう。すな
わち、誤って捉えたピッチ周期毎に有声音の合成で行っ
ているような固定位相(0位相又はπ/2位相)の加算
で各cosin 波を合成し、ピッチが得られない筈の背景雑
音等を周期性を持つインパルス波形として合成する。つ
まり、本来、時間軸上で散らばっているべき背景雑音等
の振幅の強度があるフレームの1部分に周期性を持ちな
がら集中してしまい、非常に耳障りな異音を再生してし
まうことになる。
【0006】本発明は、上記実情に鑑みてなされたもの
であり、有声音を雑音又は無声音と区別し確実に判別で
き、合成側に対しては異音の発生を抑えさせることがで
きる有声音判別方法の提供を目的とする。
【0007】
【課題を解決するための手段】本発明に係る有声音判別
方法は、入力された音声信号をブロック単位で分割して
各ブロック毎に有声音か否かの判別を行う有声音判別方
法において、1ブロックの信号を複数のサブブロックに
分割する工程と、上記複数のサブブロック毎に信号の統
計的な性質を求める工程と、上記統計的な性質の時間軸
上での偏りに応じて有声音か否かを判別する工程とを有
することを特徴として上記課題を解決することができ
る。
【0008】ここで、上記信号の統計的な性質には、各
サブブロック毎の信号のピーク値、実効値又は標準偏差
を用いることができる。
【0009】他の発明に係る有声音判別方法として、入
力された音声信号をブロック単位で分割して各ブロック
毎に有声音か否かの判別を行う有声音判別方法におい
て、1ブロックの信号の周波数軸上のエネルギー分布を
求める工程と、上記1ブロックの信号のレベルを求める
工程と、上記1ブロックの信号の周波数軸上のエネルギ
ー分布と信号レベルとに応じて有声音か否かを判別する
工程とを有することを特徴として上記課題を解決するこ
とができる。
【0010】ここで、上記各サブブロック毎の信号のピ
ーク値、実効値又は標準偏差という統計的な性質と上記
1ブロックの信号の周波数軸上のエネルギー分布とに応
じて又は上記各サブブロック毎の信号のピーク値、実効
値又は標準偏差という統計的な性質と上記1ブロックの
信号のレベルとに応じて有声音か否かを判別してもよ
い。
【0011】さらに他の発明に係る有声音判別方法とし
て、入力された音声信号をブロック単位で分割して各ブ
ロック毎に有声音か否かの判別を行う有声音判別方法に
おいて、1ブロックの信号を複数のサブブロックに分割
する工程と、上記複数のサブブロック毎に時間軸上で信
号のピーク値、実効値又は標準偏差を求める工程と、上
記1ブロックの信号の周波数軸上のエネルギー分布を求
める工程と、上記1ブロックの信号のレベルを求める工
程と、上記複数のサブブロック毎の信号のピーク値、実
効値又は標準偏差と上記1ブロックの信号の周波数軸上
のエネルギー分布と上記1ブロックの信号のレベルとに
応じて有声音か否かを判別する工程とを有することを特
徴として上記課題を解決することができる。
【0012】またさらに他の発明に係る有声音判別方法
として、入力された音声信号をブロック単位で分割して
各ブロック毎に有声音か否かの判別を行う有声音判別方
法において、1ブロックの信号を複数のサブブロックに
分割する工程と、上記複数のサブブロック毎に時間軸上
で信号の実効値を求め、この実効値の標準偏差と平均値
とに基づいてサブブロック毎の実効値の分布を求める工
程と、上記1ブロックの信号の周波数軸上のエネルギー
分布を求める工程と、上記1ブロックの信号のレベルを
求める工程と、上記複数のサブブロック毎の実効値の分
布と上記1ブロックの信号の周波数軸上のエネルギー分
布と上記1ブロックの信号のレベルとの少なくとも2つ
に応じて有声音か否かを判別する工程とを有することを
特徴としている。
【0013】ここでいう有声音か否かの判別とは、有声
音か雑音又は無声音かを判別することであり、有声音を
確実に判別すると共に雑音又は無声音も確実に判別でき
る。つまり、入力音声信号から雑音(背景雑音)又は無
声音を判別することもできる。このようなときには、例
えば、強制的に入力音声信号の全帯域を無声音とする
と、合成側での異音の発生を抑えることができる。
【0014】
【作用】有声音と雑音又は無声音の統計的な性質の時間
軸上で偏りが異なるため、入力音声信号が有声音か雑音
又は無声音であるかを判別することができる。
【0015】
【実施例】以下、本発明に係る有声音判別方法の実施例
について、図面を参照しながら説明する。図1は、本発
明の第1の実施例となる有声音判別方法を説明するため
の有声音判別装置の概略構成を示している。この第1の
実施例は、音声の1ブロックの信号をさらに分割したサ
ブブロック毎の信号の統計的な性質の時間軸上での偏り
に応じて有声音か否かを判別する。
【0016】図1において、入力端子11には、図示し
ないHPF(ハイパスフィルタ)等のフィルタによりい
わゆるDC(直流)オフセット分の除去や帯域制限(例
えば200〜3400Hzに制限)のための少なくとも低
域成分(200Hz以下)の除去が行われた音声の信号が
供給される。この信号は、窓かけ処理部12に送られ
る。この窓かけ処理部12では1ブロックNサンプル
(例えばN=256)に対して方形窓をかけ、この1ブ
ロックを1フレームLサンプル(例えばL=160)の
間隔で時間軸方向に順次移動させており、各ブロック間
のオーバーラップはN−Lサンプル(96サンプル)と
なっている。上記窓かけ処理部12からのNサンプルの
ブロックの信号は、サブブロック分割部13に供給され
る。このサブブロック分割部13は、上記窓かけ処理部
12で分割された1ブロックの信号をさらに細分割す
る。そして、得られたサブブロック毎の信号は、統計的
性質検出部14に供給される。この統計的性質検出部1
4は、本第1の実施例の場合、標準偏差又は実効値情報
検出部15及びピーク値情報検出部16からなる。上記
標準偏差又は実効値情報検出部15で得られた標準偏差
又は実効値情報は、標準偏差又は実効値偏在検出部17
に供給される。この標準偏差又は実効値偏在検出部17
は、標準偏差又は実効値情報から時間軸上での偏りを検
出する。そして、この時間軸上での標準偏差又は実効値
の偏在情報は、判断部18に供給される。この判断部1
8は、時間軸上での標準偏差又は実効値の偏在情報を例
えば所定の閾値と比較することよりサブブロック毎の信
号が有声音であるか否かを判断し、その情報を出力端子
20から導出する。一方、上記ピーク値情報検出部16
で得られたピーク値情報は、ピーク値偏在検出部19に
供給される。このピーク値偏在検出部19は、上記ピー
ク値情報から時間軸上での信号のピーク値の偏りを検出
する。そして、この時間軸上での信号のピーク値の偏在
情報は、判断部18に供給される。この判断部18は、
上記時間軸上での信号のピーク値の偏在情報を例えば所
定の閾値と比較することによりサブブロック毎の信号が
有声音であるか否かを判断し、その判断情報を出力端子
20から導出する。
【0017】次に、本第1の実施例で統計的性質として
用いられる各サブブロック毎の信号のピーク値情報、標
準偏差又は実効値情報の検出とそれらの時間軸上での偏
在の検出について説明する。
【0018】ここで、上記各サブブロック毎の信号のピ
ーク値、標準偏差又は実効値を本第1の実施例で用いる
のは、有声音と雑音又は無声音の信号のピーク値、標準
偏差又は実効値が時間軸上で著しく異なるためである。
例えば、図2のAに示すような音声の母音(有声音)と
図2のCに示すような雑音又は子音(無声音)を比較す
る。母音の振幅のピークの並びは、図2のAのように時
間軸上で偏りながらも規則的であるのに対し、雑音又は
子音の振幅のピークの並びは時間軸上で一様(フラッ
ト)であるが不規則である。また、母音の標準偏差又は
実効値も、図2のBに示すように時間軸上で偏っている
のに対し、雑音又は子音の標準偏差又は実効値は、図2
のDに示すように時間軸上でフラットである。
【0019】先ず、信号の上記各サブブロック毎の標準
偏差又は実効値情報を検出する標準偏差又は実効値情報
検出部15と該標準偏差又は実効値情報の時間軸上での
偏在の検出について説明する。この標準偏差又は実効値
情報検出部15は、図3に示すように入力端子21から
のサブブロック毎の信号から標準偏差又は実効値を算出
する標準偏差又は実効値算出部22と、該標準偏差又は
実効値から相加平均を算出する相加平均算出部23と、
上記標準偏差又は実効値から相乗平均値を算出する相乗
平均算出部24とからなる。そして、上記相加平均値と
相乗平均値より時間軸上での偏在情報を標準偏差又は実
効値偏在検出部17が検出し、判断部18が該偏在情報
からサブブロック毎の音声信号が有声音か否かを判断
し、その判断情報が出力端子20から導出される。
【0020】上記エネルギーの分散から有声音か否かを
判断する原理を図1と図3を用いて説明する。上記窓か
け処理部12で方形窓をかけることにより切り出される
1ブロックのサンプル数Nを256サンプルとし、入力
サンプル列をx(n) とする。この1ブロック(256サ
ンプル)を上記サブブロック分割部13により8サンプ
ル毎に分割する。するとサブブロック長Bl =8のサブ
ブロックがN/Bl (256/8=32)個上記1ブロ
ックの中に存在することになる。この32個のサブブロ
ック毎の時間軸上データは、上記標準偏差又は実効値情
報検出部15の例えば標準偏差又は実効値算出部22に
供給される。
【0021】この標準偏差又は実効値算出部22は、上
記32個のサブブロック毎に時間軸上データの例えば標
準偏差σa (i) として、
【0022】
【数1】
【0023】で示される(1)式により算出した値を出
力する。ここでiはサブブロックのインデックスであ
り、kはサンプル数である。また、は1ブロック当た
りの入力サンプルの平均値である。この平均値は、1
ブロックの全サンプル(N個)の平均であり、各サブブ
ロック毎の平均ではないことに注意すべきである。
【0024】また、上記サブブロック毎の実効値は、上
記(1)式中の(x(n)−2の代わりに、各サン
プルxについて上記1ブロック内のサンプルの平均値
との差をとらない(x(n))2 を用いたものであり、
いわゆるrms(root meansquare、自乗平均の平方
根)とも称されるものである。
【0025】上記標準偏差σa (i) は、時間軸上での分
散を調べるために上記相加平均算出部23及び相乗平均
算出部24に供給される。上記相加平均算出部23及び
相乗平均算出部24は、相加平均値av:add 及び相乗平
均値av:mpy を、
【0026】
【数2】
【0027】で示される(2)及び(3)式により算出
する。これらの(1)式〜(3)式では標準偏差につい
てのみ例示しているが、実効値の場合も同様であること
は勿論である。
【0028】上記(2)及び(3)式により算出された
相加平均値av:add 及び相乗平均値av:mpy は、上記標
準偏差又は実効値偏在検出部17に供給される。この標
準偏差又は実効値偏在検出部17は、上記相加平均値a
v:add と相乗平均値av:mpyとから比率pf を、 pf =av:add /av:mpy ・・・(4) で求める。この比率pf は、時間軸上の標準偏差の偏在
を表す偏在情報である。この偏在情報(比率)pf は、
判断部18に供給され、該判断部18では、例えば、上
記偏在情報pf を閾値pthf と比較し有声音か否かの判
断を行う。例えば、上記閾値pthf を1.1 に設定してお
き、上記偏在情報pf が該閾値pthf より大きいと標準
偏差又は実効値の偏りが大きいと判断し有声音とする。
一方、上記分散情報pf が該閾値pthf より小さいと標
準偏差又は実効値の偏りが小さい(フラットである)と
判断し有声音でない(雑音又は無声音である)とする。
【0029】次に、ピーク値情報を検出するピーク値情
報検出部16と該ピーク値の時間軸上での偏在の検出に
ついて説明する。このピーク値情報検出部16は、図4
に示すように入力端子21からのサブブロック毎の信号
からピーク値を検出するピーク値検出部26と、このピ
ーク値検出部26からのピーク値の平均値を算出する平
均ピーク値算出部27と、入力端子25を介して供給さ
れるブロック毎の信号から標準偏差値を算出する標準偏
差算出部28とからなる。そして、上記ピーク値偏在検
出部19が上記平均ピーク値算出部27からの平均ピー
ク値を上記標準偏差算出部28からのブロック毎の標準
偏差値で除算し、時間軸上での平均ピーク値の偏在を検
出する。この平均ピーク値偏在情報は、判断部18に供
給される。この判断部18が該平均ピーク値偏在情報を
基にサブブロック毎の音声信号が有声音か否かを判断
し、該判断情報が出力端子20から導出される。
【0030】上記ピーク値情報から有声音か否かを判断
する原理を図1と図4を用いて説明する。上記ピーク値
検出部26には、上記窓かけ処理部12、サブブロック
分割部13及び入力端子21を介してサブブロック長B
l ( 例えば8)のサブブロック分の信号がN/Bl (2
56/8=32)個供給される。このピーク値検出部2
6は、例えば32個分のサブブロック毎のピーク値P
(i) を、
【0031】
【数3】
【0032】で示される(5)式の条件で検出する。こ
こでiはサブブロックのインデックスであり、kはサン
プル数である。また、MAXは最大値を求める関数であ
る。
【0033】そして、上記平均ピーク値算出部27が上
記ピーク値P(i) から平均ピーク値を、
【0034】
【数4】
【0035】で示される(6)式により算出する。
【0036】また、上記標準偏差算出部28は、ブロッ
ク毎の標準偏差値σb (i) を、
【0037】
【数5】
【0038】で求める。そして、上記ピーク値偏在検出
部19は、ピーク値偏在情報Pn を上記平均ピーク値
と上記標準偏差値σb (i) とから、 Pn /σb (i) ・・・(8) のように算出する。なお、上記標準偏差算出部28の代
わりに、実効値(rms値)を算出する実効値算出部を
用いてもよい。
【0039】上記(8)式により算出されたピーク値偏
在情報Pn は、時間軸上でのピーク値の偏在の度合いを
示すもので、上記判断部18に供給される。そして、上
記判断部18は、例えば、上記ピーク値偏在情報Pn
閾値Pthn と比較し有声音か否かの判断を行う。例え
ば、上記、ピーク値偏在情報Pn が該閾値Pthn より大
きいとピーク値の時間軸上での偏りが大きいと判断し有
声音とする。一方、上記ピーク値偏在情報Pn が閾値P
thn より小さいとピーク値の偏りが小さいと判断し有声
音でない(雑音又は無声音である)とする。
【0040】以上により、本発明に係る有声音判別方法
の第1の実施例は、各サブブロック毎の信号のピーク
値、実効値又は標準偏差のような統計的性質の時間軸上
での偏りに応じて有声音か否かを判別することができ
る。
【0041】次に図5は、本発明の第2の実施例として
の有声音判別方法を説明するための有声音判別装置の概
略構成を示す図である。この第2の実施例は、音声の1
ブロックの信号の周波数軸上のエネルギーの分布とレベ
ルとから有声音か否かを判別する。
【0042】この第2の実施例は、有声音のエネルギー
分布が周波数軸上の低域側に集中し、雑音又は無声音の
エネルギー分布が周波数軸上の高域側に集中する傾向を
用いている。
【0043】この図5において、入力端子31には、図
示しないHPF(ハイパスフィルタ)等のフィルタによ
りいわゆるDC(直流)オフセット分の除去や帯域制限
(例えば200〜3400Hzに制限)のための少なくと
も低域成分(200Hz以下)の除去が行われた音声の信
号が供給される。この信号は、窓かけ処理部32に送ら
れる。この窓かけ処理部32では1ブロックNサンプル
(例えばN=256)に対して例えばハミング窓をか
け、この1ブロックを1フレームLサンプル(例えばL
=160)の間隔で時間軸方向に順次移動させており、
各ブロック間のオーバーラップはN−L(96サンプ
ル)となっている。この窓かけ処理部32でNサンプル
のブロックとされた信号は、直交変換部33に供給され
る。この直交変換部33は、例えば1ブロック256サ
ンプルのサンプル列に対して1792サンプル分の0デ
ータを付加して(いわゆる0詰めして)2048サンプ
ルとし、この2048サンプルの時間軸データ列に対し
て、FFT(高速フーリエ変換)等の直交変換処理を施
し、周波数軸データ列に変換する。この直交変換部33
からの周波数軸上のデータは、エネルギー検出部34に
供給される。このエネルギー検出部34は、供給された
周波数軸上データを低域側と高域側に分け、それぞれ低
域側エネルギー検出部34aと高域側エネルギー検出部
34bによりエネルギーを検出する。この低域側エネル
ギー検出部34a及び高域側エネルギー検出部34bに
より検出された低域側エネルギー検出値及び高域側エネ
ルギー検出値は、エネルギー分布算出部35に供給さ
れ、比率(エネルギー分布情報)が求められる。このエ
ネルギー分布算出部35により求められたエネルギー分
布情報は、判断部37に供給される。また、上記低域側
エネルギー検出値と高域側エネルギー検出値は、信号レ
ベル算出部36に供給され、1サンプル当たりの信号の
レベルが計算される。この信号レベル算出部36によっ
て算出された信号レベル情報は、上記判断部37に供給
される。上記判断部37は、上記エネルギー分布情報及
び信号レベル情報を基に入力音声信号が有声音であるか
否かを判断し、判断情報を出力端子38から導出する。
【0044】以下に、この第2の実施例の動作を説明す
る。上記窓かけ処理部32でハミング窓をかけることに
より切り出される1ブロックのサンプル数Nを256サ
ンプルとし、入力サンプル列をx(n)とする。この1ブロ
ック(256サンプル)の時間軸上のデータは、上記直
交変換部33により1ブロックの周波数軸上のデータに
変換される。この1ブロックの周波数軸上のデータは、
上記エネルギー検出部34に供給され、振幅am (j)
が、
【0045】
【数6】
【0046】により求められる。この(9)式でR
e (j) は実数部を表し、Im (j) は虚数部を表す。ま
た、j はサンプル数で0以上N/2(=128サンプ
ル)未満の範囲にある。
【0047】上記エネルギー検出部34の低域側エネル
ギー検出部34a及び高域側エネルギー検出部34bで
は、上記(9)式に示された振幅am (j) から、低域側
エネルギーSL 及び高域側エネルギーSH 及びを、
【0048】
【数7】
【0049】で示される(10) 式及び(11)式により求め
る。ここでいう低域側は0〜2KHz 、高域側は2〜3.4
KHz の周波数帯である。上記(10)、(11)式により算出さ
れた低域側エネルギーSL 及び高域側エネルギーSH
上記分布算出部35に供給され、その比率SL /SH
より周波数軸上でのエネルギーの分布のバランス情報
(エネルギー分布情報)fb が求められる。すなわち、 fb =SL /SH ・・(12) となる。
【0050】この周波数軸上でのエネルギー分布情報f
b は、判断部37に供給される。この判断部37は、上
記エネルギー分布情報fb を例えば閾値fthb と比較し
有声音か否かの判断を行う。例えば上記閾値fthb を1
5に設定しておき上記エネルギー分布情報fb が該閾値
thb より小さいときは高域側にエネルギーが集中して
いて有声音でない(雑音又は無声音である)確率が高い
と判断することになる。
【0051】また、上記低域側エネルギーSL 及び高域
側エネルギーSH は、上記信号レベル算出部36に供給
される。この信号レベル算出部36は、上記低域側エネ
ルギーSL 及び高域側エネルギーSH とを用いて、信号
の平均レベルla 情報を、
【0052】
【数8】
【0053】で示される(13)式から求める。この平均
レベル情報la も判断部37に供給される。この判断部
37は、上記平均レベル情報la を例えば閾値ltha
比較し有声音か否かの判断を行う。例えば上記閾値l
tha を550 に設定しておき上記平均レベル情報la が該
閾値ltha より小さいときは有声音でない(雑音又は無
声音である)確率が高いと判断することになる。
【0054】上記判断部37は、上記エネルギー分布情
報fb と平均レベル情報la の内のどちらか一つの情報
からでも上述したように有声音か否かの判断が可能であ
るが、両方の情報を用いれば判断の信頼度は高くなる。
すなわち、 fb <fthb かつ la <ltha のとき有声音でないという信頼度の高い判断ができる。
そして、出力端子38から該判断情報を導出する。
【0055】ここで、この第2の実施例での上記エネル
ギー分布情報fb と平均レベル情報la を別々に、上述
した第1の実施例での時間軸上の標準偏差又は実効値の
偏在情報ある比率(偏在情報)pf と組み合わせて有声
音か否かの判断を行うこともできる。すなわち、 pf <pthf かつ fb <fthb 又はpf <pthf
つ la <ltha のとき有声音でないという信頼度の高い判断を行うこと
ができる。
【0056】以上により、この第2の実施例は、有声音
のエネルギー分布が周波数軸上の低域側に集中し、雑音
又は無声音のエネルギー分布が周波数軸上の高域側に集
中する傾向を用いて有声音か否かを判別することができ
る。
【0057】次に図6は、本発明の第3の実施例として
の有声音判別方法を説明するための有声音判別装置の概
略構成を示す図である。
【0058】この図6において、入力端子41には、少
なくとも低域成分(200Hz以下)が除去され、方形窓
により1ブロックNサンプル(例えばN=256)で窓
かけ処理されて時間軸方向に移動され、さらに1ブロッ
クが細分割されたサブブロック毎の信号が供給される。
このサブブロック毎の信号から上記統計的性質検出部1
4が統計的性質を検出する。そして上記第1の実施例で
説明したような偏在検出部17又は19が上記統計的性
質から統計的性質の時間軸上での偏りを検出する。この
偏在検出部17又は19からの偏在情報は、判断部39
に供給される。また、入力端子42には、少なくとも低
域成分(200Hz以下)が除去され、ハミング窓により
1ブロックNサンプル(例えばN=256)で窓かけ処
理されて時間軸方向に移動され、さらに直交変換により
周波数軸上に変換されたデータが供給される。この周波
数軸上に変換されたデータは、上記エネルギー検出部3
4に供給される。このエネルギー検出部34により検出
された高域側エネルギー検出値と低域側エネルギー検出
値は、エネルギー分布算出部35に供給される。このエ
ネルギー分布計算部35により求められたエネルギー分
布情報は、判断部39に供給される。さらに、上記高域
側エネルギー検出値と低域側エネルギー検出値は、信号
レベル算出部36に供給され、1サンプル当たりの信号
のレベルが計算される。この信号レベル計算部36によ
って計算された信号レベル情報は、上記判断部39に供
給される。上記判断部39には、上記偏在情報、エネル
ギー分布情報及び信号レベル情報が供給される。これら
の情報により判断部39は、入力音声信号が有声音であ
るか否かを判断する。そして、出力端子43から該判断
情報を導出する。
【0059】以下に、この第3の実施例の動作を説明す
る。この第3の実施例は、上記偏在検出部17、19か
らの各サブフレーム毎の信号の偏向情報pf 、上記分布
算出部35からのエネルギー分布情報fb 及び上記信号
レベル算出部36からの平均レベル情報la を用いて上
記判断部39で有声音か否かの判断を行うものである。
例えば、 pf <pthf かつ fb <fthb かつ la <l
tha のとき有声音でないという信頼度の高い判断を行う。
【0060】以上により、この第3の実施例は、統計的
性質の時間軸上での偏在情報、エネルギー分布情報及び
平均レベル情報とに応じて有声音か否かを判断する。
【0061】なお、本発明の上記実施例に係る有声音判
別方法は、上記具体例にのみ限定されるものでないこと
はいうまでもない。例えば、各サブフレーム毎の信号の
偏在情報pf を用いて有声音を判別する場合には、その
時間変化を追い例えば5フレーム連続して pf <pthf (pthf =1.1) のときに限りフラットとみなしフラグPfsを1とする。
一方、5フレームの内1フレームでも、 pf ≧pthf となったら、上記フラグPfsを0とする。そして、 fb <fbt かつ Pfs=1 かつ la <ltha のときに有声音でないという信頼度の非常に高い判断を
行うことができる。
【0062】そして、本発明に係る有声音判別方法によ
り、有声音でない、すなわち、背景雑音又は子音と判断
されたときには、入力音声信号の1ブロックを全て強制
的に無声音とすることにより、MBE等のボコーダの合
成側での異音の発生を防ぐことができる。
【0063】次に、本発明に係る有声音判別方法の第4
の実施例について、図7及び図8を参照しながら説明す
る。上述した第1の実施例においては、信号の上記サブ
ブロック毎の標準偏差や実効値(rms値)のデータの
分布を調べるために、標準偏差や実効値の各データの相
加平均と相乗平均との比率を求めているが、上記相乗平
均をとるためには、上記1フレーム内のサブブロックの
個数(例えば32個)のデータの乗算と32乗根の演算
とが必要とされる。この場合、先に32個のデータを乗
算するとオーバーフロー(桁あふれ)が生ずるため、先
に各データのそれぞれ32乗根をとった後に乗算を行う
ような工夫が必要とされる。このとき、32個の各デー
タ毎に32回の32乗根演算が必要となり、多くの演算
量が要求されることになる。
【0064】そこで、この第4の実施例においては、上
記32個の各サブブロック毎の実効値(rms値)のフ
レーム内での標準偏差σrms と平均値rmsとを求め、
これらの値に応じて(例えばこれらの値の比率に応じ
て)実効値rmsの分布を検出している。すなわち、上
記各サブブロック毎の実効値rms、このrmsのフレ
ーム内の標準偏差σrms 及び平均値rmsは、
【0065】
【数9】
【0066】と表せる。これらの式中で、iは上記サブ
ブロックのインデックス(例えばi=0〜31)、BL
はサブブロック内のサンプル数(サブブロック長、例え
ばBL=8)、BN は1フレーム内のサブブロックの個
数(例えばBN =32)をそれぞれ示し、1フレーム内
のサンプル数Nを例えば256としている。
【0067】上記(16)式の標準偏差σrms は、信号レ
ベルが大きくなるとそれだけで大きくなってしまうの
で、上記(15)式の平均値rmsで割り込んで正規化
(ノーマライズ)する。この正規化(ノーマライズ)し
た標準偏差をσm とするとき、 σm =σrms /rms ・・・ (17) となる。このσm は、有声部では大きな値となり、無声
部又は背景雑音部分では小さな値となる。このσm が閾
値σthより大きいときは有声とみなし、閾値σthより小
さいときは無声又は背景雑音の可能性ありとして、他の
条件(信号レベルやスペクトルの傾き)のチェックを行
う。なお、上記閾値σthの具体的な値としては、σth
0.4が挙げられる。
【0068】以上のような時間軸上のエネルギー分布の
分析処理は、図8のAに示すような音声の母音部と図8
のBに示すようなノイズ又は音声の子音部とで、上記サ
ブフレーム毎の短時間実効値(rms値)の分布に違い
が見られることに着目したものである。すなわち、図8
のAの母音部での上記短時間rms値の分布(曲線b参
照)には大きな偏りがあるのに対して、図8のBのノイ
ズ又は子音部での短時間rms値の分布(曲線b)はほ
ぼフラットである。なお、図8のA、Bの各曲線aは信
号波形(サンプル値)を示している。このような短時間
rms値の分布を調べるために、本実施例では、短時間
rms値のフレーム内の標準偏差σrmsと平均値rms
との比率、すなわち上記正規化(ノーマライズ)された
標準偏差をσm を用いているわけである。
【0069】この時間軸上のエネルギー分布の分析処理
のための構成については、図7の入力端子51からの入
力データを、実効値算出部61に送って上記サブブロッ
ク毎の実効値rms(i) を求め、平均値及び標準偏差算
出部62に送って上記平均値rms及び標準偏差σrms
を求めた後、正規化標準偏差算出部63に送って上記正
規化した標準偏差σm を求めている。この正規化標準偏
差σm は、ノイズ又は無声区間判別部64に送ってい
る。
【0070】次に、スペクトルの傾きのチェックについ
て説明する。通常、有声音部分では、周波数軸上で低域
にエネルギーが集中する。これに対して無声部又は背景
雑音部では高域側にエネルギーが集中しやすい。そこ
で、高域側と低域側のエネルギーの比をとって、その値
を雑音部か否かの評価尺度の1つとして使用する。すな
わち、図7の入力端子51からの1ブロック(1フレー
ム)内のx(n) (0≦n<N、N=256)に対して、
窓かけ処理部52にて適当な窓(例えばハミング窓)を
かけ、FFT(高速フーリエ変換)部53でFFT処理
を行って得た結果を、 Re(j) (0≦j<N/2) Im(j) (0≦j<N/2) とする。ただし、Re(j)はFFT係数の実部、Im(j)は
同虚部である。また、N/2は規格化周波数のπに相当
し、実周波数の4kHz(x(n) は8kHzサンプリン
グのデータなので)に当たる。
【0071】上記FFT処理結果は、振幅算出部54に
送って振幅am (j) を求めている。この振幅算出部54
は、上記第2の実施例のエネルギー検出部34と同様な
処理を行う部分であり、上記(9)式の演算が行われ
る。次に、この演算結果である振幅am (j) がSL 、S
H 、fb 算出部55に送られ、この算出部55におい
て、上記エネルギー検出部34内の低域側、高域側の各
エネルギー検出部34a、34bでの演算、すなわち上
記(10)式による低域側エネルギーSL の演算、及び上
記(11)式による高域側エネルギーSH の演算が行わ
れ、さらにこれらの比率であるエネルギーバランスを示
すパラメータfb (=SL /SH 、上記(12)式参照)
を求めている。この値が小さいときは高域側にエネルギ
ーが片寄っていてノイズ又は子音である可能性が高い。
このパラメータfb を上記ノイズ又は無声区間判別部6
4に送っている。
【0072】次に、上記第2の実施例の信号レベル算出
部36に相当する信号パワー算出部56において、上記
(13)式に示す信号の平均レベルあるいはパワーla
算出している。この信号レベルあるいは信号パワーla
も上記ノイズ又は無声区間判別部64に送っている。
【0073】ノイズ又は無声区間判別部64において
は、上記各算出された値σm 、fb 、la に基づいてノ
イズ又は無声区間を判別する。この判別ための処理をF
(・)と定義するとき、F(σm 、fb 、la )の関数
の具体例として次のようなものが挙げられる。
【0074】先ず、第1の具体例として、 fb <fbth かつ σm <σmth かつ la <lath ただし、fbth 、σmth 、lath はいずれも閾値 の条件とすることが考えられ、この条件が満足されると
き、ノイズと判断し、全バンドUV(無声音)とする。
ここで、各閾値の具体的な値としては、fbth =15、
σmth =0.4、lath =550が挙げられる。
【0075】次に、第2の例として、上記正規化標準偏
差σm の信頼度を向上するために、もう少し長時間のσ
m を観測することも考えられる。具体的には、Mフレー
ム連続してσm <σmth のときに限り、時間軸上のエネ
ルギー分布がフラットであると見なし、σm 状態フラグ
σstate をセット(σstate =1)する。1フレームで
もσm ≦σmth が出現したときには、上記σm 状態フラ
グσstate をリセット(σstate =0)する。そして、
上記関数F(・)としては、 fb <fbth かつ σstate =1 かつ la <lath のときにノイズあるいは無声と判断し、V/UVフラグ
をオールUVとする。
【0076】上記第2の例のように正規化標準偏差σm
の信頼度を高めた状態においては、信号レベル(信号パ
ワー)la のチェックを不要としてもよい。この場合の
関数F(・)としては、 fb <fbth かつ σstate =1 のときに、無声又はノイズと判断すればよい。
【0077】以上説明したような第4の実施例によれ
ば、DSPへのインプリメントが可能な程度の少ない演
算量で、正確にノイズ(背景雑音)区間や無声区間を検
出することが可能となり、背景雑音と判定された部分
(フレーム)は強制的に全バンドをUVとすることで、
背景雑音をエンコード/デコードすることによるうなり
音のような異音の発生を抑えることが可能になる。
【0078】以下、本発明に係る有声音判別方法が適用
可能な音声信号の合成分析符号化装置(いわゆるボコー
ダ)の一種のMBE(Multiband Excitation: マルチバ
ンド励起)ボコーダの具体例について、図面を参照しな
がら説明する。このMBEボコーダは、D. W. Griffin
and J. S. Lim,^Multiband Excitation Vocoder," IEEE
Trans.Acoustics,Speech,and Signal Processing, vo
l.36, No.8, pp. 1223-1235, Aug.1988に開示されてい
るものであり、従来のPARCOR ( PARtialauto-CO
Rrelation: 偏自己相関)ボコーダ等では、音声のモデ
ル化の際に有声音区間と無声音区間とをブロックあるい
はフレーム毎に切り換えていたのに対し、MBEボコー
ダでは、同時刻(同じブロックあるいはフレーム内)の
周波数軸領域に有声音(Voiced)区間と無声音(Unvoic
ed)区間とが存在するという仮定でモデル化している。
【0079】図9は、上記MBEボコーダの実施例の全
体の概略構成を示すブロック図である。この図9におい
て、入力端子101には音声信号が供給されるようにな
っており、この入力音声信号は、HPF(ハイパスフィ
ルタ)等のフィルタ102に送られて、いわゆるDC
(直流)オフセット分の除去や帯域制限(例えば200
〜3400Hzに制限)のための少なくとも低域成分(2
00Hz以下)の除去が行われる。このフィルタ102を
介して得られた信号は、ピッチ抽出部103及び窓かけ
処理部104にそれぞれ送られる。ピッチ抽出部103
では、入力音声信号データが所定サンプル数N(例えば
N=256)単位でブロック分割され(あるいは方形窓
による切り出しが行われ)、このブロック内の音声信号
についてのピッチ抽出が行われる。このような切り出し
ブロック(256サンプル)を、例えば図10のAに示
すようにLサンプル(例えばL=160)のフレーム間
隔で時間軸方向に移動させており、各ブロック間のオー
バラップはN−Lサンプル(例えば96サンプル)とな
っている。また、窓かけ処理部104では、1ブロック
Nサンプルに対して所定の窓関数、例えばハミング窓を
かけ、この窓かけブロックを1フレームLサンプルの間
隔で時間軸方向に順次移動させている。
【0080】このような窓かけ処理を数式で表すと、 xw (k,q) =x(q) w(kL-q) ・・・(18) となる。この(18)式において、kはブロック番号を、
qはデータの時間インデックス(サンプル番号)を表
し、処理前の入力信号のq番目のデータx(q) に対して
第kブロックの窓(ウィンドウ)関数w(kL-q)により窓
かけ処理されることによりデータxw (k,q) が得られる
ことを示している。ピッチ抽出部103内での図10の
Aに示すような方形窓の場合の窓関数wr (r) は、 wr (r) =1 0≦r<N ・・・(19) =0 r<0,N≦r また、窓かけ処理部104での図10のBに示すような
ハミング窓の場合の窓関数wh (r) は、 wh (r) = 0.54 − 0.46 cos(2πr/(N-1)) 0≦r<N ・・・(20) =0 r<0,N≦r である。このような窓関数wr (r) あるいはwh (r) を
用いるときの上記(18)式の窓関数w(r) (=w(kL-
q))の否零区間は、 0≦kL−q<N これを変形して、 kL−N<q≦kL 従って、例えば上記方形窓の場合に窓関数wr (kL-q)=
1となるのは、図11に示すように、kL−N<q≦k
Lのときとなる。また、上記(18)〜(20)式は、長さ
N(=256)サンプルの窓が、L(=160)サンプ
ルずつ前進してゆくことを示している。以下、上記(1
9)式、(20)式の各窓関数で切り出された各N点(0
≦r<N)の否零サンプル列を、それぞれxwr(k,r) 、
wh(k,r) と表すことにする。
【0081】窓かけ処理部104では、図12に示すよ
うに、上記(20)式のハミング窓がかけられた1ブロッ
ク256サンプルのサンプル列xwh(k,r) に対して17
92サンプル分の0データが付加されて(いわゆる0詰
めされて)2048サンプルとされ、この2048サン
プルの時間軸データ列に対して、直交変換部105によ
り例えばFFT(高速フーリエ変換)等の直交変換処理
が施される。
【0082】ピッチ抽出部103では、上記xwr(k,r)
のサンプル列(1ブロックNサンプル)に基づいてピッ
チ抽出が行われる。このピッチ抽出法には、時間波形の
周期性や、スペクトルの周期的周波数構造や、自己相関
関数を用いるもの等が知られているが、本実施例では、
センタクリップ波形の自己相関法を採用している。この
ときのブロック内でのセンタクリップレベルについて
は、1ブロックにつき1つのクリップレベルを設定して
もよいが、ブロックを細分割した各部(各サブブロッ
ク)の信号のピークレベル等を検出し、これらの各サブ
ブロックのピークレベル等の差が大きいときに、ブロッ
ク内でクリップレベルを段階的にあるいは連続的に変化
させるようにしている。このセンタクリップ波形の自己
相関データのピーク位置に基づいてピーク周期を決めて
いる。このとき、現在フレームに属する自己相関データ
(自己相関は1ブロックNサンプルのデータを対象とし
て求められる)から複数のピークを求めておき、これら
の複数のピークの内の最大ピークが所定の閾値以上のと
きには該最大ピーク位置をピッチ周期とし、それ以外の
ときには、現在フレーム以外のフレーム、例えば前後の
フレームで求められたピッチに対して所定の関係を満た
すピッチ範囲内、例えば前フレームのピッチを中心とし
て±20%の範囲内にあるピークを求め、このピーク位
置に基づいて現在フレームのピッチを決定するようにし
ている。このピッチ抽出部103ではオープンループに
よる比較的ラフなピッチのサーチが行われ、抽出された
ピッチデータは高精度(ファイン)ピッチサーチ部10
6に送られて、クローズドループによる高精度のピッチ
サーチ(ピッチのファインサーチ)が行われる。
【0083】高精度(ファイン)ピッチサーチ部106
には、ピッチ抽出部103で抽出された整数(インテジ
ャー)値の粗(ラフ)ピッチデータと、直交変換部10
5により例えばFFTされた周波数軸上のデータとが供
給されている。この高精度ピッチサーチ部106では、
上記粗ピッチデータ値を中心に、0.2〜0.5きざみで±
数サンプルずつ振って、最適な小数点付き(フローティ
ング)のファインピッチデータの値へ追い込む。このと
きのファインサーチの手法として、いわゆる合成による
分析 (Analysis by Synthesis)法を用い、合成されたパ
ワースペクトルが原音のパワースペクトルに最も近くな
るようにピッチを選んでいる。
【0084】このピッチのファインサーチについて説明
する。先ず、上記MBEボコーダにおいては、上記FF
T等により直交変換された周波数軸上のスペクトルデー
タとしてのS(j) を S(j) =H(j) |E(j) | 0<j<J ・・・(21) と表現するようなモデルを想定している。ここで、Jは
πωs =fs /2に対応し、サンプリング周波数fs
2πωs が例えば8kHzのときには4kHzに対応する。
上記(21)式中において、周波数軸上のスペクトルデー
タS(j) が図13のAに示すような波形のとき、H(j)
は、図13のBに示すような元のスペクトルデータS
(j) のスペクトル包絡線(エンベロープ)を示し、E
(j) は、図13のCに示すような等レベルで周期的な励
起信号(エキサイテイション)のスペクトルを示してい
る。すなわち、FFTスペクトルS(j) は、スペクトル
エンベロープH(j) と励起信号のパワースペクトル|E
(j) |との積としてモデル化される。
【0085】上記励起信号のパワースペクトル|E(j)
|は、上記ピッチに応じて決定される周波数軸上の波形
の周期性(ピッチ構造)を考慮して、1つの帯域(バン
ド)の波形に相当するスペクトル波形を周波数軸上の各
バンド毎に繰り返すように配列することにより形成され
る。この1バンド分の波形は、例えば上記図12に示す
ような256サンプルのハミング窓関数に1792サン
プル分の0データを付加(0詰め)した波形を時間軸信
号と見なしてFFTし、得られた周波数軸上のある帯域
幅を持つインパルス波形を上記ピッチに応じて切り出す
ことにより形成することができる。
【0086】次に、上記ピッチに応じて分割された各バ
ンド毎に、上記H(j) を代表させるような(各バンド毎
のエラーを最小化するような)値(一種の振幅)|Am
|を求める。ここで、例えば第mバンド(第m高調波の
帯域)の下限、上限の点をそれぞれam 、bm とすると
き、この第mバンドのエラーεm は、
【0087】
【数10】
【0088】で表せる。このエラーεm を最小化するよ
うな|Am |は、
【0089】
【数11】
【0090】となり、この(23)式の|Am |のとき、
エラーεm を最小化する。このような振幅|Am |を各
バンド毎に求め、得られた各振幅|Am |を用いて上記
(22)式で定義された各バンド毎のエラーεm を求め
る。次に、このような各バンド毎のエラーεm の全バン
ドの総和値Σεm を求める。さらに、このような全バン
ドのエラー総和値Σεm を、いくつかの微小に異なるピ
ッチについて求め、エラー総和値Σεm が最小となるよ
うなピッチを求める。
【0091】すなわち、上記ピッチ抽出部103で求め
られたラフピッチを中心として、例えば 0.25 きざみで
上下に数種類ずつ用意する。これらの複数種類の微小に
異なるピッチの各ピッチに対してそれぞれ上記エラー総
和値Σεm を求める。この場合、ピッチが定まるとバン
ド幅が決まり、上記(23)式より、周波数軸上データの
パワースペクトル|S(j) |と励起信号スペクトル|E
(j) |とを用いて上記(22)式のエラーεm を求め、そ
の全バンドの総和値Σεm を求めることができる。この
エラー総和値Σεm を各ピッチ毎に求め、最小となるエ
ラー総和値に対応するピッチを最適のピッチとして決定
するわけである。以上のようにして高精度ピッチサーチ
部106で最適のファイン(例えば 0.25 きざみ)ピッ
チが求められ、この最適ピッチに対応する振幅|Am
が決定される。
【0092】以上ピッチのファインサーチの説明におい
ては、説明を簡略化するために、全バンドが有声音(Vo
iced)の場合を想定しているが、上述したようにMBE
ボコーダにおいては、同時刻の周波数軸上に無声音(Un
voiced)領域が存在するというモデルを採用しているこ
とから、上記各バンド毎に有声音/無声音の判別を行う
ことが必要とされる。
【0093】上記高精度ピッチサーチ部106からの最
適ピッチ及び振幅|Am |のデータは、有声音/無声音
判別部107に送られ、上記各バンド毎に有声音/無声
音の判別が行われる。この判別のために、NSR(ノイ
ズtoシグナル比)を利用する。すなわち、第mバンド
のNSRは、
【0094】
【数12】
【0095】と表せ、このNSR値が所定の閾値(例え
ば0.3)より大のとき(エラーが大きい)ときには、そ
のバンドでの|Am ||E(j) |による|S(j) |の近
似が良くない(上記励起信号|E(j) |が基底として不
適当である)と判断でき、当該バンドをUV(Unvoice
d、無声音)と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをV
(Voiced、有声音)と判別する。
【0096】次に、振幅再評価部108には、直交変換
部105からの周波数軸上データ、高精度ピッチサーチ
部106からのファインピッチと評価された振幅|Am
|との各データ、及び上記有声音/無声音判別部107
からのV/UV(有声音/無声音)判別データが供給さ
れている。この振幅再評価部108では、有声音/無声
音判別部107において無声音(UV)と判別されたバ
ンドに関して、再度振幅を求めている。このUVのバン
ドについての振幅|Am UVは、
【0097】
【数13】
【0098】にて求められる。
【0099】この振幅再評価部108からのデータは、
データ数変換(一種のサンプリングレート変換)部10
9に送られる。このデータ数変換部109は、上記ピッ
チに応じて周波数軸上での分割帯域数が異なり、データ
数(特に振幅データの数)が異なることを考慮して、一
定の個数にするためのものである。すなわち、例えば有
効帯域を3400Hzまでとすると、この有効帯域が上記
ピッチに応じて、8バンド〜63バンドに分割されるこ
とになり、これらの各バンド毎に得られる上記振幅|A
m |(UVバンドの振幅|Am UVも含む)データの個
数mMX+1も8〜63と変化することになる。このため
データ数変換部109では、この可変個数mMX+1の振
幅データを一定個数NC (例えば44個)のデータに変
換している。
【0100】ここで本実施例においては、周波数軸上の
有効帯域1ブロック分の振幅データに対して、ブロック
内の最後のデータからブロック内の最初のデータまでの
値を補間するようなダミーデータを付加してデータ個数
をNF 個に拡大した後、帯域制限型のKOS倍(例えば8
倍)のオーバーサンプリングを施すことによりKOS倍の
個数の振幅データを求め、このKOS倍の個数(( mMX
1)×KOS個)の振幅データを直線補間してさらに多く
のNM 個(例えば2048個)に拡張し、このNM 個の
データを間引いて上記一定個数NC (例えば44個)の
データに変換する。
【0101】このデータ数変換部109からのデータ
(上記一定個数NC の振幅データ)がベクトル量子化部
110に送られて、所定個数のデータ毎にまとめられて
ベクトルとされ、ベクトル量子化が施される。ベクトル
量子化部110からの量子化出力データは、出力端子1
11を介して取り出される。また、上記高精度のピッチ
サーチ部106からの高精度(ファイン)ピッチデータ
は、ピッチ符号化部115で符号化され、出力端子11
2を介して取り出される。さらに、上記有声音/無声音
判別部107からの有声音/無声音(V/UV)判別デ
ータは、出力端子113を介して取り出される。これら
の各出力端子111〜113からのデータは、所定の伝
送フォーマットの信号とされて伝送される。
【0102】なお、これらの各データは、上記Nサンプ
ル(例えば256サンプル)のブロック内のデータに対
して処理を施すことにより得られるものであるが、ブロ
ックは時間軸上を上記Lサンプルのフレームを単位とし
て前進することから、伝送するデータは上記フレーム単
位で得られる。すなわち、上記フレーム周期でピッチデ
ータ、V/UV判別データ、振幅データが更新されるこ
とになる。
【0103】次に、伝送されて得られた上記各データに
基づき音声信号を合成するための合成側(デコード側)
の概略構成について、図14を参照しながら説明する。
この図14において、入力端子121には上記ベクトル
量子化された振幅データが、入力端子122には上記符
号化されたピッチデータが、また入力端子123には上
記V/UV判別データがそれぞれ供給される。入力端子
121からの量子化振幅データは、逆ベクトル量子化部
124に送られて逆量子化され、データ数逆変換部12
5に送られて逆変換され、得られた振幅データが有声音
合成部126及び無声音合成部127に送られる。入力
端子122からの符号化ピッチデータは、ピッチ復号化
部128で復号化され、データ数逆変換部125、有声
音合成部126及び無声音合成部127に送られる。ま
た入力端子123からのV/UV判別データは、有声音
合成部126及び無声音合成部127に送られる。
【0104】有声音合成部126では例えば余弦(cosin
e)波合成により時間軸上の有声音波形を合成し、無声音
合成部127では例えばホワイトノイズをバンドパスフ
ィルタでフィルタリングして時間軸上の無声音波形を合
成し、これらの各有声音合成波形と無声音合成波形とを
加算部129で加算合成して、出力端子130より取り
出すようにしている。この場合、上記振幅データ、ピッ
チデータ及びV/UV判別データは、上記分析時の1フ
レーム(Lサンプル、例えば160サンプル)毎に更新
されて与えられるが、フレーム間の連続性を高める(円
滑化する)ために、上記振幅データやピッチデータの各
値を1フレーム中の例えば中心位置における各データ値
とし、次のフレームの中心位置までの間(合成時の1フ
レーム)の各データ値を補間により求める。すなわち、
合成時の1フレーム(例えば上記分析フレームの中心か
ら次の分析フレームの中心まで)において、先端サンプ
ル点での各データ値と終端(次の合成フレームの先端)
サンプル点での各データ値とが与えられ、これらのサン
プル点間の各データ値を補間により求めるようにしてい
る。
【0105】以下、有声音合成部126における合成処
理を詳細に説明する。上記V(有声音)と判別された第
mバンド(第m高調波の帯域)における時間軸上の上記
1合成フレーム(Lサンプル、例えば160サンプル)
分の有声音をVm (n) とするとき、この合成フレーム内
の時間インデックス(サンプル番号)nを用いて、 Vm (n) =Am (n) cos(θm (n)) 0≦n<L ・・・(26) と表すことができる。全バンドの内のV(有声音)と判
別された全てのバンドの有声音を加算(ΣVm (n) )し
て最終的な有声音V(n) を合成する。
【0106】この(26)式中のAm (n) は、上記合成フ
レームの先端から終端までの間で補間された第m高調波
の振幅である。最も簡単には、フレーム単位で更新され
る振幅データの第m高調波の値を直線補間すればよい。
すなわち、上記合成フレームの先端(n=0)での第m
高調波の振幅値をA0m、該合成フレームの終端(n=
L:次の合成フレームの先端)での第m高調波の振幅値
をALmとするとき、 Am (n) = (L-n)A0m/L+nALm/L ・・・(27) の式によりAm (n) を計算すればよい。
【0107】次に、上記(26)式中の位相θm (n) は、 θm (0) =mωO1n+n2 m(ωL1−ω01)/2L+φ0m+Δωn ・・・(28) により求めることができる。この(28)式中で、φ0m
上記合成フレームの先端(n=0)での第m高調波の位
相(フレーム初期位相)を示し、ω01は合成フレーム先
端(n=0)での基本角周波数、ωL1は該合成フレーム
の終端(n=L:次の合成フレーム先端)での基本角周
波数をそれぞれ示している。上記(28)式中のΔωは、
n=Lにおける位相φLmがθm (L) に等しくなるような
最小のΔωを設定する。
【0108】以下、任意の第mバンドにおいて、それぞ
れn=0、n=LのときのV/UV判別結果に応じた上
記振幅Am (n) 、位相θm (n) の求め方を説明する。第
mバンドが、n=0、n=LのいずれもV(有声音)と
される場合に、振幅Am (n) は、上述した(27)式によ
り、伝送された振幅値A0m、ALmを直線補間して振幅A
m (n) を算出すればよい。位相θm (n) は、n=0でθ
m (0) =φ0mからn=Lでθm (L) がφLmとなるように
Δωを設定する。
【0109】次に、n=0のときV(有声音)で、n=
LのときUV(無声音)とされる場合に、振幅Am (n)
は、Am (0) の伝送振幅値A0mからAm (L) で0となる
ように直線補間する。n=Lでの伝送振幅値ALmは無声
音の振幅値であり、後述する無声音合成の際に用いられ
る。位相θm (n) は、θm (0) =φ0mとし、かつΔω=
0とする。
【0110】さらに、n=0のときUV(無声音)で、
n=LのときV(有声音)とされる場合には、振幅Am
(n) は、n=0での振幅Am (0) を0とし、n=Lで伝
送された振幅値ALmとなるように直線補間する。位相θ
m (n) については、n=0での位相θm (0) として、フ
レーム終端での位相値φLmを用いて、 θm (0) =φLm−m(ωO1+ωL1)L/2 ・・・(29) とし、かつΔω=0とする。
【0111】上記n=0、n=LのいずれもV(有声
音)とされる場合に、θm (L) がφLmとなるようにΔω
を設定する手法について説明する。上記(24)式で、n
=Lと置くことにより、 θm (L) =mωO1L+L2 m(ωL1−ω01)/2L+φ0m+ΔωL =m(ωO1+ωL1)L/2+φ0m+ΔωL =φLm となり、これを整理すると、Δωは、 Δω=(mod2π((φLm−φ0m) − mL(ωO1+ωL1)/2)/L ・・・(30) となる。この(30)式でmod2π(x) とは、xの主値を−
π〜+πの間の値で返す関数である。例えば、x=1.3
πのときmod2π(x) =−0.7π、x=2.3πのときmod2
π(x) =0.3π、x=−1.3πのときmod2π(x) =0.7
π、等である。
【0112】ここで、図15のAは、音声信号のスペク
トルの一例を示しており、バンド番号(ハーモニクスナ
ンバ)mが8、9、10の各バンドがUV(無声音)と
され、他のバンドはV(有声音)とされている。このV
(有声音)のバンドの時間軸信号が上記有声音合成部1
26により合成され、UV(無声音)のバンドの時間軸
信号が無声音合成部127で合成されるわけである。
【0113】以下、無声音合成部127における無声音
合成処理を説明する。ホワイトノイズ発生部131から
の時間軸上のホワイトノイズ信号波形を、所定の長さ
(例えば256サンプル)で適当な窓関数(例えばハミ
ング窓)により窓かけをし、STFT処理部132によ
りSTFT(ショートタームフーリエ変換)処理を施す
ことにより、図15のBに示すようなホワイトノイズの
周波数軸上のパワースペクトルを得る。このSTFT処
理部132からのパワースペクトルをバンド振幅処理部
133に送り、図15のCに示すように、上記UV(無
声音)とされたバンド(例えばm=8、9、10)につ
いて上記振幅|Am UVを乗算し、他のV(有声音)と
されたバンドの振幅を0にする。このバンド振幅処理部
133には上記振幅データ、ピッチデータ、V/UV判
別データが供給されている。バンド振幅処理部133か
らの出力は、ISTFT処理部134に送られ、位相は
元のホワイトノイズの位相を用いて逆STFT処理を施
すことにより時間軸上の信号に変換する。ISTFT処
理部134からの出力は、オーバーラップ加算部135
に送られ、時間軸上で適当な(元の連続的なノイズ波形
を復元できるように)重み付けをしながらオーバーラッ
プ及び加算を繰り返し、連続的な時間軸波形を合成す
る。オーバーラップ加算部135からの出力信号が上記
加算部129に送られる。
【0114】このように、各合成部126、127にお
いて合成されて時間軸上に戻された有声音部及び無声音
部の各信号は、加算部129により適当な固定の混合比
で加算して、出力端子130より再生された音声信号を
取り出す。
【0115】なお、上記図5の音声分析側(エンコード
側)の構成や図14の音声合成側(デコード側)の構成
については、各部をハードウェア的に記載しているが、
いわゆるDSP(ディジタル信号プロセッサ)等を用い
てソフトウェアプログラムにより実現することも可能で
ある。
【0116】また、本発明に係る有声音判別方法は、例
えば、自動車電話の送信側で環境雑音(背景雑音等)を
落としたいというようなとき、背景雑音を検出する手段
としても用いられる。すなわち、雑音に乱された低品質
の音声を処理し、雑音の影響を取り除き、聞きやすい音
にするようないわゆるスピーチエンハンスメントでの雑
音検出にも適用される。
【0117】
【発明の効果】本発明に係る有声音判別方法は、信号の
1ブロックをさらに分割した複数のサブブロック毎に求
めた信号の統計的な性質の時間軸上での偏りに応じて有
声音を雑音又は無声音かと区別することにより、確実に
判別できる。そして、MBE等のボコーダに適用する場
合には、音声のサブブロックに有声音入力がないとき、
すなわち雑音又は無声音の入力があるとき、強制的に入
力音声信号の全帯域を無声音として、間違ったピッチを
検出することがないようにし、合成側での異音の発生を
抑えることができる。
【0118】また、サブブロック毎の実効値(短時間r
ms値)の標準偏差及び平均値に基づいて短時間rms
値の分布を調べることにより、少ない演算量で正確な有
声音区間判別が行える。
【図面の簡単な説明】
【図1】本発明に係る有声音判別方法の第1の実施例を
説明するための有声音判別装置の概略構成を示す機能ブ
ロック図である。
【図2】信号の統計的性質を説明するための波形図であ
る。
【図3】第1の実施例を説明するための有声音判別装置
の要部の構成を示す機能ブロック図である。
【図4】第1の実施例を説明するための有声音判別装置
の要部の構成を示す機能ブロック図である。
【図5】本発明に係る有声音判別方法の第2の実施例を
説明するための有声音判別装置の概略構成を示す機能ブ
ロック図である。
【図6】本発明に係る有声音判別方法の第3の実施例を
説明するための有声音判別装置の要部の概略構成を示す
機能ブロック図である。
【図7】本発明に係る有声音判別方法の第4の実施例を
説明するための有声音判別装置の概略構成を示す機能ブ
ロック図である。
【図8】信号の統計的性質としての短時間rms値の分
布を説明するための波形図である。
【図9】本発明に係る有声音判別方法が適用可能な装置
の具体例としての音声信号の合成分析符号化装置の分析
側(エンコード側)の概略構成を示す機能ブロック図で
ある。
【図10】窓かけ処理を説明するための図である。
【図11】窓かけ処理と窓関数との関係を説明するため
の図である。
【図12】直交変換(FFT)処理対象としての時間軸
データを示す図である。
【図13】周波数軸上のスペクトルデータ、スペクトル
包絡線(エンベロープ)及び励起信号のパワースペクト
ルを示す図である。
【図14】本発明に係る有声音判別方法が適用可能な装
置の具体例としての音声信号の合成分析符号化装置の合
成側(デコード側)の概略構成を示す機能ブロック図で
ある。
【図15】音声信号を合成する際の無声音合成を説明す
るための図である。
【符号の説明】
12・・・・・窓かけ処理部 13・・・・・サブブロック分割部 14・・・・・統計的性質検出部 15・・・・・標準偏差又は実効値情報検出部 16・・・・・ピーク値情報検出部 17・・・・・標準偏差又は実効値偏在検出部 18・・・・・判断部 19・・・・・ピーク値偏在検出部 61・・・・・サブブロック毎の実効値算出部 62・・・・・実効値の平均と標準偏差算出部 63・・・・・正規化された標準偏差算出部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声信号をブロック単位で分
    割して各ブロック毎に有声音か否かの判別を行う有声音
    判別方法において、 1ブロックの信号を複数のサブブロックに分割する工程
    と、 上記複数のサブブロック毎に信号の統計的な性質を求め
    る工程と、 上記統計的な性質の時間軸上での偏りに応じて有声音か
    否かを判別する工程とを有することを特徴とする有声音
    判別方法。
  2. 【請求項2】 上記信号の統計的な性質とは各サブブロ
    ック毎の信号のピーク値、実効値又は標準偏差であるこ
    とを特徴とする請求項1記載の有声音判別方法。
  3. 【請求項3】 入力された音声信号をブロック単位で分
    割して各ブロック毎に有声音か否かの判別を行う有声音
    判別方法において、 1ブロックの信号の周波数軸上のエネルギー分布を求め
    る工程と、 上記1ブロックの信号のレベルを求める工程と、 上記1ブロックの信号の周波数軸上のエネルギー分布と
    信号レベルとに応じて有声音か否かを判別する工程とを
    有することを特徴とする有声音判別方法。
  4. 【請求項4】 入力された音声信号をブロック単位で分
    割して各ブロック毎に有声音か否かの判別を行う有声音
    判別方法において、 1ブロックの信号を複数のサブブロックに分割する工程
    と、 上記複数のサブブロック毎の信号のピーク値、実効値又
    は標準偏差の時間軸上での偏りを求める工程と、 1ブロックの信号の周波数軸上のエネルギー分布を求め
    る工程と、 上記1ブロックの信号のレベルを求める工程と、 上記複数のサブブロック毎の信号のピーク値、実効値又
    は標準偏差の時間軸上での偏りと上記1ブロックの信号
    の周波数軸上のエネルギー分布又は上記1ブロックの信
    号のレベルとに応じて有声音か否かを判別する工程とを
    有することを特徴とする有声音判別方法。
  5. 【請求項5】 入力された音声信号をブロック単位で分
    割して各ブロック毎に有声音か否かの判別を行う有声音
    判別方法において、 1ブロックの信号を複数のサブブロックに分割する工程
    と、 上記複数のサブブロック毎に時間軸上で信号のピーク
    値、実効値又は標準偏差を求める工程と、 上記1ブロックの信号の周波数軸上のエネルギー分布を
    求める工程と、 上記1ブロックの信号のレベルを求める工程と、 上記複数のサブブロック毎の信号のピーク値、実効値又
    は標準偏差と上記1ブロックの信号の周波数軸上のエネ
    ルギー分布と上記1ブロックの信号のレベルとに応じて
    有声音か否かを判別する工程とを有することを特徴とす
    る有声音判別方法。
  6. 【請求項6】 入力された音声信号をブロック単位で分
    割して各ブロック毎に有声音か否かの判別を行う有声音
    判別方法において、 1ブロックの信号を複数のサブブロックに分割する工程
    と、 上記複数のサブブロック毎に時間軸上で信号の実効値を
    求め、この実効値の標準偏差と平均値とに基づいてサブ
    ブロック毎の実効値の分布を求める工程と、 上記1ブロックの信号の周波数軸上のエネルギー分布を
    求める工程と、 上記1ブロックの信号のレベルを求める工程と、 上記複数のサブブロック毎の実効値の分布と上記1ブロ
    ックの信号の周波数軸上のエネルギー分布と上記1ブロ
    ックの信号のレベルとの少なくとも2つに応じて有声音
    か否かを判別する工程とを有することを特徴とする有声
    音判別方法。
  7. 【請求項7】 上記複数のサブブロック毎の実効値の分
    布と上記1ブロックの信号の周波数軸上のエネルギー分
    布と上記1ブロックの信号のレベルとの少なくとも1つ
    の時間的な変化をトラッキングし、その結果に基づいて
    有声音か否かを判別することを特徴とする請求項6記載
    の有声音判別方法。
  8. 【請求項8】 上記1ブロックの信号について複数の周
    波数バンド毎に有声音/無声音の識別フラグを設定する
    際に、上記有声音判別工程において否と判別されたブロ
    ックは、全てのバンドを無声音フラグとすることを特徴
    とする請求項6記載の有声音判別方法。
JP00082893A 1992-04-15 1993-01-06 有声音判別方法 Expired - Lifetime JP3277398B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP00082893A JP3277398B2 (ja) 1992-04-15 1993-01-06 有声音判別方法
US08/048,034 US5664052A (en) 1992-04-15 1993-04-14 Method and device for discriminating voiced and unvoiced sounds
EP93106171A EP0566131B1 (en) 1992-04-15 1993-04-15 Method and device for discriminating voiced and unvoiced sounds
DE69329511T DE69329511T2 (de) 1992-04-15 1993-04-15 Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
US08/753,347 US5809455A (en) 1992-04-15 1996-11-25 Method and device for discriminating voiced and unvoiced sounds

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP12146092 1992-04-15
JP4-121460 1992-04-15
JP00082893A JP3277398B2 (ja) 1992-04-15 1993-01-06 有声音判別方法

Publications (2)

Publication Number Publication Date
JPH05346797A true JPH05346797A (ja) 1993-12-27
JP3277398B2 JP3277398B2 (ja) 2002-04-22

Family

ID=26333922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00082893A Expired - Lifetime JP3277398B2 (ja) 1992-04-15 1993-01-06 有声音判別方法

Country Status (4)

Country Link
US (2) US5664052A (ja)
EP (1) EP0566131B1 (ja)
JP (1) JP3277398B2 (ja)
DE (1) DE69329511T2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7634399B2 (en) 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US7970606B2 (en) 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
US8036886B2 (en) 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
JP2012177913A (ja) * 2011-02-02 2012-09-13 Jvc Kenwood Corp 子音区間検出装置および子音区間検出方法
US8595002B2 (en) 2003-04-01 2013-11-26 Digital Voice Systems, Inc. Half-rate vocoder
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
SE513892C2 (sv) * 1995-06-21 2000-11-20 Ericsson Telefon Ab L M Spektral effekttäthetsestimering av talsignal Metod och anordning med LPC-analys
JP3680374B2 (ja) * 1995-09-28 2005-08-10 ソニー株式会社 音声合成方法
KR970017456A (ko) * 1995-09-30 1997-04-30 김광호 음성신호의 무음 및 무성음 판별방법 및 그 장치
FR2741743B1 (fr) * 1995-11-23 1998-01-02 Thomson Csf Procede et dispositif pour l'amelioration de l'intelligibilite de la parole dans les vocodeurs a bas debit
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
JP3552837B2 (ja) * 1996-03-14 2004-08-11 パイオニア株式会社 周波数分析方法及び装置並びにこれを用いた複数ピッチ周波数検出方法及び装置
US5937381A (en) * 1996-04-10 1999-08-10 Itt Defense, Inc. System for voice verification of telephone transactions
JP3439307B2 (ja) * 1996-09-17 2003-08-25 Necエレクトロニクス株式会社 発声速度変換装置
JP4121578B2 (ja) * 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
DE69816610T2 (de) * 1997-04-16 2004-06-09 Dspfactory Ltd., Waterloo Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten
US6188979B1 (en) * 1998-05-28 2001-02-13 Motorola, Inc. Method and apparatus for estimating the fundamental frequency of a signal
US6377914B1 (en) 1999-03-12 2002-04-23 Comsat Corporation Efficient quantization of speech spectral amplitudes based on optimal interpolation technique
US6487531B1 (en) 1999-07-06 2002-11-26 Carol A. Tosaya Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US7508944B1 (en) * 2000-06-02 2009-03-24 Digimarc Corporation Using classification techniques in digital watermarking
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US8280072B2 (en) 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
KR100367700B1 (ko) * 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US6965904B2 (en) * 2001-03-02 2005-11-15 Zantaz, Inc. Query Service for electronic documents archived in a multi-dimensional storage space
US7289626B2 (en) * 2001-05-07 2007-10-30 Siemens Communications, Inc. Enhancement of sound quality for computer telephony systems
TW589618B (en) * 2001-12-14 2004-06-01 Ind Tech Res Inst Method for determining the pitch mark of speech
JP3867627B2 (ja) * 2002-06-26 2007-01-10 ソニー株式会社 観客状況推定装置と観客状況推定方法および観客状況推定プログラム
US6915224B2 (en) * 2002-10-25 2005-07-05 Jung-Ching Wu Method for optimum spectrum analysis
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
WO2004084467A2 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
WO2005023614A2 (en) * 2003-09-03 2005-03-17 Nsk Ltd. Stability control apparatus and load mesuring instrument for wheel supporting rolling bearing unit
US7983909B2 (en) 2003-09-15 2011-07-19 Intel Corporation Method and apparatus for encoding audio data
US20050091066A1 (en) * 2003-10-28 2005-04-28 Manoj Singhal Classification of speech and music using zero crossing
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
EP1569200A1 (en) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Identification of the presence of speech in digital audio data
US7457747B2 (en) * 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
JP5092748B2 (ja) 2005-09-02 2012-12-05 日本電気株式会社 雑音抑圧の方法及び装置並びにコンピュータプログラム
US8175868B2 (en) * 2005-10-20 2012-05-08 Nec Corporation Voice judging system, voice judging method and program for voice judgment
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
KR100653643B1 (ko) * 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US7873114B2 (en) * 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
CN101779476B (zh) 2007-06-13 2015-02-25 爱利富卡姆公司 全向性双麦克风阵列
JP5446874B2 (ja) * 2007-11-27 2014-03-19 日本電気株式会社 音声検出システム、音声検出方法および音声検出プログラム
DE102008039329A1 (de) * 2008-01-25 2009-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US8996389B2 (en) * 2011-06-14 2015-03-31 Polycom, Inc. Artifact reduction in time compression
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
US9454976B2 (en) 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds
US10917611B2 (en) 2015-06-09 2021-02-09 Avaya Inc. Video adaptation in conferencing using power or view indications
US9685170B2 (en) * 2015-10-21 2017-06-20 International Business Machines Corporation Pitch marking in speech processing
US11295751B2 (en) * 2019-09-20 2022-04-05 Tencent America LLC Multi-band synchronized neural vocoder

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4158751A (en) * 1978-02-06 1979-06-19 Bode Harald E W Analog speech encoder and decoder
EP0092612B1 (en) * 1982-04-27 1987-07-08 Koninklijke Philips Electronics N.V. Speech analysis system
DE3276731D1 (en) 1982-04-27 1987-08-13 Philips Nv Speech analysis system
US4817155A (en) * 1983-05-05 1989-03-28 Briar Herman P Method and apparatus for speech analysis
US4764966A (en) * 1985-10-11 1988-08-16 International Business Machines Corporation Method and apparatus for voice detection having adaptive sensitivity
US4696031A (en) * 1985-12-31 1987-09-22 Wang Laboratories, Inc. Signal detection and discrimination using waveform peak factor
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US5007093A (en) * 1987-04-03 1991-04-09 At&T Bell Laboratories Adaptive threshold voiced detector
JPH01502779A (ja) * 1987-04-03 1989-09-21 アメリカン テレフォン アンド テレグラフ カムパニー 適応多変数推定装置
US5046100A (en) * 1987-04-03 1991-09-03 At&T Bell Laboratories Adaptive multivariate estimating apparatus
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5323337A (en) * 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
JP3475446B2 (ja) * 1993-07-27 2003-12-08 ソニー株式会社 符号化方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7970606B2 (en) 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
US8315860B2 (en) 2002-11-13 2012-11-20 Digital Voice Systems, Inc. Interoperable vocoder
US7634399B2 (en) 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US7957963B2 (en) 2003-01-30 2011-06-07 Digital Voice Systems, Inc. Voice transcoder
US8595002B2 (en) 2003-04-01 2013-11-26 Digital Voice Systems, Inc. Half-rate vocoder
US8036886B2 (en) 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
US8433562B2 (en) 2006-12-22 2013-04-30 Digital Voice Systems, Inc. Speech coder that determines pulsed parameters
JP2012177913A (ja) * 2011-02-02 2012-09-13 Jvc Kenwood Corp 子音区間検出装置および子音区間検出方法
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation

Also Published As

Publication number Publication date
JP3277398B2 (ja) 2002-04-22
EP0566131B1 (en) 2000-10-04
US5664052A (en) 1997-09-02
DE69329511D1 (de) 2000-11-09
EP0566131A2 (en) 1993-10-20
US5809455A (en) 1998-09-15
EP0566131A3 (ja) 1994-03-30
DE69329511T2 (de) 2001-02-08

Similar Documents

Publication Publication Date Title
JP3277398B2 (ja) 有声音判別方法
JP3840684B2 (ja) ピッチ抽出装置及びピッチ抽出方法
EP0981816B9 (en) Audio coding systems and methods
US7092881B1 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
US5781880A (en) Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
EP0640952B1 (en) Voiced-unvoiced discrimination method
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
US6456965B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
JPH10105194A (ja) ピッチ検出方法、音声信号符号化方法および装置
JPH10105195A (ja) ピッチ検出方法、音声信号符号化方法および装置
JP3325248B2 (ja) 音声符号化パラメータの取得方法および装置
JPH05281996A (ja) ピッチ抽出装置
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
JP3218679B2 (ja) 高能率符号化方法
JP2001249698A (ja) 音声符号化パラメータ取得方法、音声復号方法及び装置
US6438517B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6662153B2 (en) Speech coding system and method using time-separated coding algorithm
JP3362471B2 (ja) 音声信号の符号化方法及び復号化方法
JP3271193B2 (ja) 音声符号化方法
JP3398968B2 (ja) 音声分析合成方法
JP3218681B2 (ja) 背景雑音検出方法及び高能率符号化方法
JP3321933B2 (ja) ピッチ検出方法
JP3223564B2 (ja) ピッチ抽出方法
CN112233686B (zh) Nvocplus高速宽带声码器的语音数据处理方法
JP3221050B2 (ja) 有声音判別方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080215

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090215

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120215

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130215

Year of fee payment: 11

EXPY Cancellation because of completion of term