JPH0335297A - 有音・無音検出方式 - Google Patents

有音・無音検出方式

Info

Publication number
JPH0335297A
JPH0335297A JP1168310A JP16831089A JPH0335297A JP H0335297 A JPH0335297 A JP H0335297A JP 1168310 A JP1168310 A JP 1168310A JP 16831089 A JP16831089 A JP 16831089A JP H0335297 A JPH0335297 A JP H0335297A
Authority
JP
Japan
Prior art keywords
sound
silence
silent
voice
principal component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1168310A
Other languages
English (en)
Inventor
Masami Akamine
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1168310A priority Critical patent/JPH0335297A/ja
Priority to EP19900301081 priority patent/EP0381507A3/en
Publication of JPH0335297A publication Critical patent/JPH0335297A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の目的〕 (産業上の利用分野) この発明は、音声信号の有音部分をセル化し伝送するA
TM通信や音声認識の基本技術である音声信号の有音・
無音検出方式に関する。
(従来の技術) 音声信号の有音部分をセル化して伝送するATM通信や
音声認識、有音部分のみを録音する録音装置において、
音声の有音区間、または、音声の始端・終端を検出する
有音・無音検出は最も基本的で重要な技術である。この
有音・無音検出が正しく行われないと、音声が途切れた
り、雑音が増加したり、音声認識で認識率が下がったり
する。
従来、有音・無音検出法として、特開昭60−2003
0号公報に開示されているr音声の始端・終端検出装置
」が知られている。以下にこの従来の方法を説明する。
第6図は、従来の始端・終端検出装置のブロック図であ
る。第6図において、 600はエネルギー抽出部で、
整流平滑回路で構成され信号のパワーをフレーム毎に抽
出する。610はスペクトル形状抽出部で、低域(25
0−600F(z) 、  中域(600−1500H
z)、  高域(1500〜4000Hz) (733
種類の帯域通貨フィルタ群とll流平滑回路で構成され
、各帯域におけるフレーム毎のパワーがスペクトル情報
として用いられている。エネルギー抽出部600と−ス
ペクトル形状抽出部610とで特微量抽出部620を構
成する。630はマルチプレクサで、600がらの信号
パワーと610からの帯域フィルタパワーを時分割で有
音・無音判定部640へ入力するためのものである66
40は有音・無音判定部で無音、無声音、有声音の判別
を行うためのものである。650゜660は閾値メモリ
と標準パターンメモリであり有音・無音判定部640で
用いられる定数値が格納されている。閾値メモリ650
にはパワーの2つの閾値E□、E2が格納されている。
また、標準パターンメモリ660には、無音・無声音を
判定するための線形判別関数と無音・無声音を判別する
ための線形判別関数の係数が格納されている。これら2
つの閾値E工、E2と2つの線形判別関数の係数は、予
め使用する環境下で発声された音声データの統計処理に
より求められ、格納されている。670は始端・終端候
補検出部であり、有音・無音判定部より送られてくるフ
レーム毎の有音・無音判定結果の持続時間により、音声
の始端・終端候補を検出する。680は始端・終端決定
部で、最終的な始端・終端を決定する。
以上のように構成された音声の始端・終端検出装置の動
作については上記公報に詳述されているので、ここでは
有音・無音判定法の概略について説明する。
マイク等により入力される音声を含む信号は、フレーム
毎に対数パワーLPWと対数帯域パワーLP1(i=1
〜3)に変換される。有音・無音判定部640は、 こ
れらの4つのパラメータと閾値メモリ650と標準パタ
ーンメモリ660に格納されている。閾値E工、E2と
2つの線形判別関数の係数を用いて入力されたフレーム
が有音であるか無音であるかを判定する。
この有音・無音判定は、まず最初に2つのエネルギー閾
値E、、E、と対数パワーLPWとの比較により次のよ
うに行われる。
LPW>Eエ     ならば有音 L P W < E z      ならば無音E2≦
LPW≦Eエ  ならば不定 不定の場合には、 さらに対数帯域パワーLP□(1=
l〜3)と660に格納されている2つの線形判別関数
の係数を用いて1式(1)の判別関数値FXを計算し、
FXにより有音・無音を判定する。
但し、Atは660に格納されている判別関数の係数で
あり、LPiは、660に格納されている標準パターン
である。
式(1)のA1およびLP、は予め、使用環境下で発声
された音声データの無音・無声音・有声音を統計処理し
て求められる。FXの値は入力が無音のとき負で、入力
が無声音あるいは有声音のとき正の値をとるように設定
されている。スペクトル形状による有音・無音判定は、
無音/無声音と無音/有声音の2つの線形判別関数を計
算し、いずれか一方でも正の値をとるならば有音、2つ
兵員の値ならば無音と判定する。つまりこの方法は、入
力信号のパワーを用いて有音、無音、不定と判定し、次
に、不定の場合は、3つの帯域通過フィルタの出力信号
のパワーによるスペクトル形状のマツチングをとること
により有音・無音の判定を行っている。
このように、この従来法は、2段階に分けて有音・無音
の判定を行うと共に、不定の場合にはスペクトルの形状
の相異を利用して有音・無音の判定を行っているので、
エネルギーの小さな無声子音や有声子音の脱落を少なく
できる。
しかし、従来のスペクトル形状の相異を利用′した有音
・無音検出法では、スペクトル形状を表わすパラメータ
が少なく、また、パラメータの選び方に理論的根拠がな
いため、有音・無音判定を誤ってしまい音声の脱落や雑
音の付加が避けられない場合がある。つまり、従来法の
パラメータは、低域(250〜600I(z)、  中
域(600〜1500Hz)、高域(1500〜400
0Hz)の3つの帯域フィルタ出力の対数パワーとなっ
ているが、例えば、第7図に示すように無音声のスペク
トルが(a)で雑音のスペクトルが(b)である場合、
両者のスペクトルは大きく異なっているにも関らず、式
(1)で計算される線形判別関数の値と同一になってし
まい、有音・無音判定を誤ってしまう(但し、A工=1
)。
その結果、音声の脱落や雑音の付加が避けられない場合
がある。これは、パラメータ数が少なく、また、帯域フ
ィルタの選択がかならずしも適切ではないためである。
このように従来法では、パラメータの選択法に理論的根
拠がないため、パラメータの選択すなわち帯域フィルタ
の帯域の設定は試行錯誤し二頼らざるを得す設定のため
多大な労力を費すと共にパラメータが必ずしも適切では
ないという問題がある。帯域フィルタの数を増しパラメ
ータ数を増加させれば、有音・無音判定の誤りは改善さ
せることができる。しかし、有音・無音判定のための判
定関数の計算量は増大し、また、パラメータ設定のため
の労力も膨大なものになる。
上記公報では、式(1)の線形判別関数の代りにマハラ
ノビス距離を用いることができることが記述されている
が、マハラノビス距離を用いると演算2がさらに増大す
る。
(発明が解決しようとする課題) 上述したように、従来の有音・無音検出方法は、演算量
を少なくするためにパラメータ数を少なくした場合、有
音・無音判定を誤ってしまい音声の脱落や雑音の付加が
避けられない場合があるという問題点がある。また、従
来の方法は、パラメータの選択に当って理論的な選択基
準がないため、多くの労力を要するという問題点がある
本発明は、このような問題点に鑑みて行われ、有音・無
音検出精度が高く音声の脱落・雑音の付加が少ない有音
・無音検出方式を提供することを目的とする。
〔発明の構成〕
(課題を解決するための手段) 本発明は電話や認識装置が使用される環境下で予め集収
された音声を試聴や波形の視認などにより予め有音と無
音にラベル付けし、次に有音部と無音部の特徴パラメー
タをそれぞれ主成分分析し、有音部と無音部の主成分ベ
クトルを予め求めておくと共に、予め集収された音声を
用いて、あルフレームnの複数の過去のフレーム(n−
1)。
(n −2)‥が有音部は無音であったという条件のも
とで、nフレームが有音である条件付確率及び無音であ
る条件付確率を予め求、めでおき、検出対象フレームの
特徴パラメータを、有音部特徴パラメータの主成分ベク
トル空間又は無音部特徴パラメータの主成分ベクトル空
間上に射影し、その射影点の位置により、有音、無音、
不定と判定する有音・無音検出方式である。又さらに検
出において不定の場合は、過去の複数のフレームの有音
、無音の状態を条件とした場合の現フレームの有音及び
無音の条件付確率を予め求められているテーブルから参
照し、有音の条件付確率が高ければ有音、無音の条件付
確率が高ければ無音と判定するという有音・無音検出方
式である。
(作用) まず、音声信号等の音響信号の特徴パラメータを求める
0次のそのパラメータを別のパラメータに変換した後パ
ラメータ数を元の特徴パラメータより少なくすることを
考える。第5図にこの概念を示す、第5図において、L
個の元の特徴パラメータを工1(1=1+2+ ‥・、
L) とし、:clを要素とするベクトルをXとする。
変換は直交変換とし、変換行列をAとする。変換後の特
徴パラメータをν1(1=1+2+‥・tL)−yiを
要素とするベクトルをY、  N個のパラメータ数j(
j=1.2.‥・、N)を残して残りの(L−N)個を
零とした特徴パラメータベクトルをVとする(但し、N
<L、tは行列の転置を表す)このとき、パラメータ数
削減によって生じる誤差ベクトルeは、元の特徴パラメ
ータベクトルXとマの逆変換との差として次式のように
記述される。
e=X  k”Y =A−’ (Y−Y) この誤差の2乗平均値σr”=E[ete]を最小にす
る変換を行えば、特徴パラメータ数を少なくすることに
よる誤差が最小になる。但し、Eは期待値であるσr′
を最小化する変換は、 χ、の自己相関行列の固有ベク
トルを行ベクトルとする行列Aによる変換、すなわちK
L変換であることが知られている。 また固有ベクトル
は、工iの主成分分析によって得られる主成分ベクトル
と同じであり、固有値の大きい順に対応した固有ベクト
ルが第1゜第2.第3.‥・主成分ベクトルに対応する
L個の特徴パラメータXをKL変換した後、パラメータ
数を削減する操作は、第1〜第N主成分ベクトルを座標
軸とするN次元主成分ベクトル空間上に、Xを射影する
ことに対応する。従って。
特徴パラメータを主成分ベクトル9間上に射影すること
により1元の特徴パラメータをより少ないパラメータ次
元で表現する場合の誤差、言い換えれば元の特徴パラメ
ータのもつ情報のロスを最小にしながら特徴パラメータ
数を少なくできる。
有音部と無音部の特徴パラメータは、特性の違い、たと
えばスペクトル形状の違いによって主成分ベクトル空間
上の特定の領域に分布する。有音・無音判定はこの性質
を利用し、特徴パラメータを主成分ベクトル空間上に射
影した時の射影点と予め定められた有音/無音の領域の
比較により、有音、無音、不定と判定する。
不定の場合は、更に、予め求められた、過去のフレーム
の有音・無音状態を条件とした場合の現フレームの有音
・無音の条件付確率をもとに有音か無音かの最終判定を
行う。これにより有音・無音の検出精度が高く、しかも
音声の脱落・雑音の付加が少なくなるのである。
(実施例) 以下、本発明に係る一実施例を図面を参照して説明する
第1図は本発明の一実施例に係る有音・無音検出器のブ
ロック図である。第1図において、110はLPCケプ
ストラム抽出回路であり入力端子100から入力した信
号のLPGケプストラムC1(i=1.2.‥・、P)
を公知の方法によりフレーム(16ms)ごとに計算す
る。但しPは分析次数であり例えばP=16とする。L
PCケプストラムの計算法については例えば古井貞煕「
ディジタル音声処理」(東海大学出版会1985)に記
述されている。
求められたLPGケプストラムC1は特徴パラメータ射
影回路140に入力される。この回路140は内積演算
回路120及び有音主成分ベクトルメモリ130で構成
される。
有音主成分ベクトルメモリ130は第2図に示すフロー
チャート如く、予め電話使用環境下で集収された音声(
学習データ)を集収しくステップ)、有音であるラベル
付けを行い(ステップ2)、有音部のLPGケプストラ
ムを計算しくステップ3)。
このLPGケプストラムに対し主成分分析を行うことに
よって得られる。実際にはLPCケプストラムの共分散
行列計算を行い(ステップ4)、固有値を求め(ステッ
プ5)、絶対値の大きい固有値に対応する固有ベクトル
から順に主成分ベクトルとする(ステップ6)。 ここ
では第1〜第3の3つの主成分ベクトルV工、 V、、
 V、がメモリ130に格納されている。内積演算回路
120は、LPCケプストラムC1を要素とするベクト
ルC=(C1゜C2m ”’ r Cp)と主成分ペク
ト/L/ V s 、v x 、V 3 )ニーの内積
演算を次式に従って行い、 V□、V2 # V3を座
標軸とする3次元の主成分空間上のベクトルCの射影点
Qを求める。
ここで、 ?/iJは主成分ベクトルv1の第j要素、
Qlは射影点Qの座標軸Viの成分である。
有音領域規定パラメータメモリ160は、主成分ベクト
ル空間上の有音領域を規定するパラメータが格納されて
おり、同様に無音領域規定パラメータメモリ170には
主成分ベクトル空間上の無音領域を規定するパラメータ
が格納されている。有音及び無音の領域をVよ、■2軸
上で第3図に示すように長方形(図中斜線部)とした場
合、有音領域を規定するパラメータは、 V1□e V
 ih+ u zt+ V ahとなり、無音領域を規
定するパラメータはξxj+ξx、 h + ξ2□ 
ξ2hとなる。これらのパラメータは。
予め、電話使用環境下で収集された音声の有音区間のL
PGPプストラムと無音区間のLPCPプストラムを統
計処理して定められる。 判定回路150は、射影点Q
2が主成分ベクトル空間上で、有音領域と無音領域のど
の領域に属するか又は、どの領域にも属さないかという
ことで(a)有音、(b)無音、(C)不定の判定を行
う。すなわち、(C) その他  不定 と判定する。
有音/無音判定回路1110では、第4図のフローチャ
ートに示す如く判定回路150の出力ステップ1が、有
音と無音のときはその結果をそのまま出力(エンドへ)
する。
不定の場合(ステップ2)は、過去の3フレームの判定
結果を条件とした現フレームの有音、無音の条件付確率
を条件付確率テーブル200からテーブルルックアップ
により求め(ステップ3)、有音の条件付確率が無音の
条件付確率より(ステップ4)大きい場合に有音、その
逆の場合に無音と判定する(ステップ5)。190は判
定結果を少なくとも3フレ一ム分蓄積する判定結果メモ
リである。
nフレームの判定結果をT。とおくと、 過去の3フレ
ームの判定結果T。−4t ’rn−1# Tn−1を
条件とした条件付確率P(Tn/Tn−0,T、−、、
T、−、)は次式で表わされる。
p(’r、、’rn−、To−、、’rn−、)とP 
(T n−t 、T n−1Tn−i)は、予め電話使
用環境下で収集された音声(学習データ)にフレームご
とに波形やスペクトルの視認等によって有音、無音のラ
ベル付けを行い、連続する4フレーム及び3フレームの
有音。
無音ラベルを基に、確率計算を行い予め求められる。0
式の計算で得られた条件付確率は予め、条件付確率テー
ブル200に格納しておく。
以上のように学習データから得られた条件付確率を基に
有音・無音判定を行うことは、有音→無音→有音→無音
というパターンは非常に少ないといった音声に関する知
識を利用して、判定していることになるので有音・無音
の誤判定が減るという効果がある。
尚信号の特徴パラメータとしてLPCPプストラムの他
に、信号パワー、零交差数1M形予測係数、自己相関係
数、DFT係数及びそれらの組合せを用いることもでき
る。また1判定の際に用いる主成分ベクトルの数や条件
付確率を計算する際の過去のフレーム数は任意の数に設
定することもできる等、種々変形可能である。
〔発明の効果〕
本発明は、特徴パラメータを主成分ベクトル空間上に射
影した上で有音・無音判定を行うので。
有音・無音判定に用いるパラメータを少なくした場合で
も、元の特徴パラメータのもつ情報の損失が最も小さく
、有音/無音検出精度が高い。この結果、有音/無音判
定の誤リレこよる音声の脱落や雑音の付加を少なくでき
るという効果がある。
また1本発明では、主成分ベクトル空間上の射影点の領
域判定により有音・無音・不定と判定した後、不定の場
合は過去のフレームの判定結果を条件とした現フレーム
の有音・無音の条件付確率を基に有音・無音判定を行う
2段階の判定を用いていると共に条件付確率という音声
に関する知識を用いているので、パワーの小さい有声子
音や無声子音等の誤判定が減り語頭や語尾の脱落や雑音
の付加が減少するという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例に係る有音・無音検出器のブ
ロック図、第2図は本発明の一実施例に係る主成分ベク
トルを求める手順を示すフローチャート、第3図は本発
明の一実施例に係る主成分ベクトル空間上の有音領域を
示す図、第4図は本発明の一実施例に係る有音・無音判
定の手順を示すフローチャート、第5図は本発明の詳細
な説明に用いた特徴パラメータ数削減の概念を示す図、
第6図は従来の有音・無音検出装置のブロック図、第7
図は従来の有音・無音検出装置で同一のスペクトル形状
と判定されるスペクトルの例を示す図である。 100‥・入力端子。 110‥・LPCケプストラム抽出回路。 120‥・内積演算回路、 130‥・有音主成分ベクトルメモリ。 140‥・特徴パラメータ射影回路、 150‥・判定回路、 160‥・有音領域規定パラメータメモリ、170‥・
無音領域規定パラメータメモリ、180‥・有音/無音
判定回路、 190‥・判定結果メモリ、 200‥・条件付確率テーブル、 600‥・エネルギー抽出部。 610‥スペクトル形状抽出部、 620‥・特徴量抽出部、 630‥・マルチプレクサ
、640‥・有音・無音判定部、650‥・閾値メモリ
、660‥・標準パターンメモリ、 670‥・始端・終端候補検出部、 680‥・始端・終端決定部

Claims (2)

    【特許請求の範囲】
  1. (1)所定の環境下で集収された音声データに対し有音
    部と無音部の主成分ベクトルを予め求めておくと共に、
    予め集収された音声データを用いて、あるフレームnの
    複数の過去のフレーム(n−1)、(n−2)‥が有音
    又は無音であったという条件のもとで、nフレームが有
    音である条件付確率及び無音である条件付確率を予め求
    めておき、検出対象となるフレームの特徴パラメータを
    、有音部の主成分ベクトル空間又は無音部の主成分ベク
    トル空間上に射影し、その射影点の位置により、有音、
    無音、あるいは不定と判定することを特徴とする有音・
    無音検出方式。
  2. (2)請求項1記載の有音・無音検出方式において不定
    の場合、過去の複数のフレームの有音、無音の状態を条
    件とした場合の現フレームの有音及び無音の条件付確率
    を予め求められているテーブルから参照し、有音の条件
    付確率が高ければ有音、無音の条件付確率が高ければ無
    音と判定することを特徴とする有音・無音検出方式。
JP1168310A 1989-02-02 1989-07-01 有音・無音検出方式 Pending JPH0335297A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP1168310A JPH0335297A (ja) 1989-07-01 1989-07-01 有音・無音検出方式
EP19900301081 EP0381507A3 (en) 1989-02-02 1990-02-01 Silence/non-silence discrimination apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1168310A JPH0335297A (ja) 1989-07-01 1989-07-01 有音・無音検出方式

Publications (1)

Publication Number Publication Date
JPH0335297A true JPH0335297A (ja) 1991-02-15

Family

ID=15865656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1168310A Pending JPH0335297A (ja) 1989-02-02 1989-07-01 有音・無音検出方式

Country Status (1)

Country Link
JP (1) JPH0335297A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000032730A (ko) * 1998-11-17 2000-06-15 서평원 음성인식 시스템의 잡음 처리 방법
JP2008151840A (ja) * 2006-12-14 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000032730A (ko) * 1998-11-17 2000-06-15 서평원 음성인식 시스템의 잡음 처리 방법
JP2008151840A (ja) * 2006-12-14 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置
JP4758879B2 (ja) * 2006-12-14 2011-08-31 日本電信電話株式会社 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法

Similar Documents

Publication Publication Date Title
EP3955246B1 (en) Voiceprint recognition method and device based on memory bottleneck feature
CN108900725B (zh) 一种声纹识别方法、装置、终端设备及存储介质
US4956865A (en) Speech recognition
US5339385A (en) Speaker verifier using nearest-neighbor distance measure
US5097509A (en) Rejection method for speech recognition
US5167004A (en) Temporal decorrelation method for robust speaker verification
EP0625774A2 (en) A method and an apparatus for speech detection
JPS62231997A (ja) 音声認識システム及びその方法
KR20000004972A (ko) 음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및음성 인식 방법과 장치
US4937870A (en) Speech recognition arrangement
EP0685835B1 (en) Speech recognition based on HMMs
Campbell Speaker recognition
WO2002091358A1 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
JPH0222960B2 (ja)
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
Khetri et al. Automatic speech recognition for marathi isolated words
JPH0335297A (ja) 有音・無音検出方式
KR100480506B1 (ko) 음성 인식 방법
JPH04369698A (ja) 音声認識方式
Li et al. Keyword-specific normalization based keyword spotting for spontaneous speech
Pattanayak et al. Significance of single frequency filter for the development of children's KWS system.
Revathi et al. Perceptual features based isolated digit and continuous speech recognition using iterative clustering approach
Jung et al. Normalized minimum-redundancy and maximum-relevancy based feature selection for speaker verification systems
JPH02203397A (ja) 有音・無音検出方式
CA2013263C (en) Rejection method for speech recognition