JPH0335297A - 有音・無音検出方式 - Google Patents
有音・無音検出方式Info
- Publication number
- JPH0335297A JPH0335297A JP1168310A JP16831089A JPH0335297A JP H0335297 A JPH0335297 A JP H0335297A JP 1168310 A JP1168310 A JP 1168310A JP 16831089 A JP16831089 A JP 16831089A JP H0335297 A JPH0335297 A JP H0335297A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- silence
- silent
- voice
- principal component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims description 21
- 230000001755 vocal effect Effects 0.000 title abstract 6
- 239000013598 vector Substances 0.000 claims abstract description 36
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000000034 method Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の目的〕
(産業上の利用分野)
この発明は、音声信号の有音部分をセル化し伝送するA
TM通信や音声認識の基本技術である音声信号の有音・
無音検出方式に関する。
TM通信や音声認識の基本技術である音声信号の有音・
無音検出方式に関する。
(従来の技術)
音声信号の有音部分をセル化して伝送するATM通信や
音声認識、有音部分のみを録音する録音装置において、
音声の有音区間、または、音声の始端・終端を検出する
有音・無音検出は最も基本的で重要な技術である。この
有音・無音検出が正しく行われないと、音声が途切れた
り、雑音が増加したり、音声認識で認識率が下がったり
する。
音声認識、有音部分のみを録音する録音装置において、
音声の有音区間、または、音声の始端・終端を検出する
有音・無音検出は最も基本的で重要な技術である。この
有音・無音検出が正しく行われないと、音声が途切れた
り、雑音が増加したり、音声認識で認識率が下がったり
する。
従来、有音・無音検出法として、特開昭60−2003
0号公報に開示されているr音声の始端・終端検出装置
」が知られている。以下にこの従来の方法を説明する。
0号公報に開示されているr音声の始端・終端検出装置
」が知られている。以下にこの従来の方法を説明する。
第6図は、従来の始端・終端検出装置のブロック図であ
る。第6図において、 600はエネルギー抽出部で、
整流平滑回路で構成され信号のパワーをフレーム毎に抽
出する。610はスペクトル形状抽出部で、低域(25
0−600F(z) 、 中域(600−1500H
z)、 高域(1500〜4000Hz) (733
種類の帯域通貨フィルタ群とll流平滑回路で構成され
、各帯域におけるフレーム毎のパワーがスペクトル情報
として用いられている。エネルギー抽出部600と−ス
ペクトル形状抽出部610とで特微量抽出部620を構
成する。630はマルチプレクサで、600がらの信号
パワーと610からの帯域フィルタパワーを時分割で有
音・無音判定部640へ入力するためのものである66
40は有音・無音判定部で無音、無声音、有声音の判別
を行うためのものである。650゜660は閾値メモリ
と標準パターンメモリであり有音・無音判定部640で
用いられる定数値が格納されている。閾値メモリ650
にはパワーの2つの閾値E□、E2が格納されている。
る。第6図において、 600はエネルギー抽出部で、
整流平滑回路で構成され信号のパワーをフレーム毎に抽
出する。610はスペクトル形状抽出部で、低域(25
0−600F(z) 、 中域(600−1500H
z)、 高域(1500〜4000Hz) (733
種類の帯域通貨フィルタ群とll流平滑回路で構成され
、各帯域におけるフレーム毎のパワーがスペクトル情報
として用いられている。エネルギー抽出部600と−ス
ペクトル形状抽出部610とで特微量抽出部620を構
成する。630はマルチプレクサで、600がらの信号
パワーと610からの帯域フィルタパワーを時分割で有
音・無音判定部640へ入力するためのものである66
40は有音・無音判定部で無音、無声音、有声音の判別
を行うためのものである。650゜660は閾値メモリ
と標準パターンメモリであり有音・無音判定部640で
用いられる定数値が格納されている。閾値メモリ650
にはパワーの2つの閾値E□、E2が格納されている。
また、標準パターンメモリ660には、無音・無声音を
判定するための線形判別関数と無音・無声音を判別する
ための線形判別関数の係数が格納されている。これら2
つの閾値E工、E2と2つの線形判別関数の係数は、予
め使用する環境下で発声された音声データの統計処理に
より求められ、格納されている。670は始端・終端候
補検出部であり、有音・無音判定部より送られてくるフ
レーム毎の有音・無音判定結果の持続時間により、音声
の始端・終端候補を検出する。680は始端・終端決定
部で、最終的な始端・終端を決定する。
判定するための線形判別関数と無音・無声音を判別する
ための線形判別関数の係数が格納されている。これら2
つの閾値E工、E2と2つの線形判別関数の係数は、予
め使用する環境下で発声された音声データの統計処理に
より求められ、格納されている。670は始端・終端候
補検出部であり、有音・無音判定部より送られてくるフ
レーム毎の有音・無音判定結果の持続時間により、音声
の始端・終端候補を検出する。680は始端・終端決定
部で、最終的な始端・終端を決定する。
以上のように構成された音声の始端・終端検出装置の動
作については上記公報に詳述されているので、ここでは
有音・無音判定法の概略について説明する。
作については上記公報に詳述されているので、ここでは
有音・無音判定法の概略について説明する。
マイク等により入力される音声を含む信号は、フレーム
毎に対数パワーLPWと対数帯域パワーLP1(i=1
〜3)に変換される。有音・無音判定部640は、 こ
れらの4つのパラメータと閾値メモリ650と標準パタ
ーンメモリ660に格納されている。閾値E工、E2と
2つの線形判別関数の係数を用いて入力されたフレーム
が有音であるか無音であるかを判定する。
毎に対数パワーLPWと対数帯域パワーLP1(i=1
〜3)に変換される。有音・無音判定部640は、 こ
れらの4つのパラメータと閾値メモリ650と標準パタ
ーンメモリ660に格納されている。閾値E工、E2と
2つの線形判別関数の係数を用いて入力されたフレーム
が有音であるか無音であるかを判定する。
この有音・無音判定は、まず最初に2つのエネルギー閾
値E、、E、と対数パワーLPWとの比較により次のよ
うに行われる。
値E、、E、と対数パワーLPWとの比較により次のよ
うに行われる。
LPW>Eエ ならば有音
L P W < E z ならば無音E2≦
LPW≦Eエ ならば不定 不定の場合には、 さらに対数帯域パワーLP□(1=
l〜3)と660に格納されている2つの線形判別関数
の係数を用いて1式(1)の判別関数値FXを計算し、
FXにより有音・無音を判定する。
LPW≦Eエ ならば不定 不定の場合には、 さらに対数帯域パワーLP□(1=
l〜3)と660に格納されている2つの線形判別関数
の係数を用いて1式(1)の判別関数値FXを計算し、
FXにより有音・無音を判定する。
但し、Atは660に格納されている判別関数の係数で
あり、LPiは、660に格納されている標準パターン
である。
あり、LPiは、660に格納されている標準パターン
である。
式(1)のA1およびLP、は予め、使用環境下で発声
された音声データの無音・無声音・有声音を統計処理し
て求められる。FXの値は入力が無音のとき負で、入力
が無声音あるいは有声音のとき正の値をとるように設定
されている。スペクトル形状による有音・無音判定は、
無音/無声音と無音/有声音の2つの線形判別関数を計
算し、いずれか一方でも正の値をとるならば有音、2つ
兵員の値ならば無音と判定する。つまりこの方法は、入
力信号のパワーを用いて有音、無音、不定と判定し、次
に、不定の場合は、3つの帯域通過フィルタの出力信号
のパワーによるスペクトル形状のマツチングをとること
により有音・無音の判定を行っている。
された音声データの無音・無声音・有声音を統計処理し
て求められる。FXの値は入力が無音のとき負で、入力
が無声音あるいは有声音のとき正の値をとるように設定
されている。スペクトル形状による有音・無音判定は、
無音/無声音と無音/有声音の2つの線形判別関数を計
算し、いずれか一方でも正の値をとるならば有音、2つ
兵員の値ならば無音と判定する。つまりこの方法は、入
力信号のパワーを用いて有音、無音、不定と判定し、次
に、不定の場合は、3つの帯域通過フィルタの出力信号
のパワーによるスペクトル形状のマツチングをとること
により有音・無音の判定を行っている。
このように、この従来法は、2段階に分けて有音・無音
の判定を行うと共に、不定の場合にはスペクトルの形状
の相異を利用して有音・無音の判定を行っているので、
エネルギーの小さな無声子音や有声子音の脱落を少なく
できる。
の判定を行うと共に、不定の場合にはスペクトルの形状
の相異を利用して有音・無音の判定を行っているので、
エネルギーの小さな無声子音や有声子音の脱落を少なく
できる。
しかし、従来のスペクトル形状の相異を利用′した有音
・無音検出法では、スペクトル形状を表わすパラメータ
が少なく、また、パラメータの選び方に理論的根拠がな
いため、有音・無音判定を誤ってしまい音声の脱落や雑
音の付加が避けられない場合がある。つまり、従来法の
パラメータは、低域(250〜600I(z)、 中
域(600〜1500Hz)、高域(1500〜400
0Hz)の3つの帯域フィルタ出力の対数パワーとなっ
ているが、例えば、第7図に示すように無音声のスペク
トルが(a)で雑音のスペクトルが(b)である場合、
両者のスペクトルは大きく異なっているにも関らず、式
(1)で計算される線形判別関数の値と同一になってし
まい、有音・無音判定を誤ってしまう(但し、A工=1
)。
・無音検出法では、スペクトル形状を表わすパラメータ
が少なく、また、パラメータの選び方に理論的根拠がな
いため、有音・無音判定を誤ってしまい音声の脱落や雑
音の付加が避けられない場合がある。つまり、従来法の
パラメータは、低域(250〜600I(z)、 中
域(600〜1500Hz)、高域(1500〜400
0Hz)の3つの帯域フィルタ出力の対数パワーとなっ
ているが、例えば、第7図に示すように無音声のスペク
トルが(a)で雑音のスペクトルが(b)である場合、
両者のスペクトルは大きく異なっているにも関らず、式
(1)で計算される線形判別関数の値と同一になってし
まい、有音・無音判定を誤ってしまう(但し、A工=1
)。
その結果、音声の脱落や雑音の付加が避けられない場合
がある。これは、パラメータ数が少なく、また、帯域フ
ィルタの選択がかならずしも適切ではないためである。
がある。これは、パラメータ数が少なく、また、帯域フ
ィルタの選択がかならずしも適切ではないためである。
このように従来法では、パラメータの選択法に理論的根
拠がないため、パラメータの選択すなわち帯域フィルタ
の帯域の設定は試行錯誤し二頼らざるを得す設定のため
多大な労力を費すと共にパラメータが必ずしも適切では
ないという問題がある。帯域フィルタの数を増しパラメ
ータ数を増加させれば、有音・無音判定の誤りは改善さ
せることができる。しかし、有音・無音判定のための判
定関数の計算量は増大し、また、パラメータ設定のため
の労力も膨大なものになる。
拠がないため、パラメータの選択すなわち帯域フィルタ
の帯域の設定は試行錯誤し二頼らざるを得す設定のため
多大な労力を費すと共にパラメータが必ずしも適切では
ないという問題がある。帯域フィルタの数を増しパラメ
ータ数を増加させれば、有音・無音判定の誤りは改善さ
せることができる。しかし、有音・無音判定のための判
定関数の計算量は増大し、また、パラメータ設定のため
の労力も膨大なものになる。
上記公報では、式(1)の線形判別関数の代りにマハラ
ノビス距離を用いることができることが記述されている
が、マハラノビス距離を用いると演算2がさらに増大す
る。
ノビス距離を用いることができることが記述されている
が、マハラノビス距離を用いると演算2がさらに増大す
る。
(発明が解決しようとする課題)
上述したように、従来の有音・無音検出方法は、演算量
を少なくするためにパラメータ数を少なくした場合、有
音・無音判定を誤ってしまい音声の脱落や雑音の付加が
避けられない場合があるという問題点がある。また、従
来の方法は、パラメータの選択に当って理論的な選択基
準がないため、多くの労力を要するという問題点がある
。
を少なくするためにパラメータ数を少なくした場合、有
音・無音判定を誤ってしまい音声の脱落や雑音の付加が
避けられない場合があるという問題点がある。また、従
来の方法は、パラメータの選択に当って理論的な選択基
準がないため、多くの労力を要するという問題点がある
。
本発明は、このような問題点に鑑みて行われ、有音・無
音検出精度が高く音声の脱落・雑音の付加が少ない有音
・無音検出方式を提供することを目的とする。
音検出精度が高く音声の脱落・雑音の付加が少ない有音
・無音検出方式を提供することを目的とする。
(課題を解決するための手段)
本発明は電話や認識装置が使用される環境下で予め集収
された音声を試聴や波形の視認などにより予め有音と無
音にラベル付けし、次に有音部と無音部の特徴パラメー
タをそれぞれ主成分分析し、有音部と無音部の主成分ベ
クトルを予め求めておくと共に、予め集収された音声を
用いて、あルフレームnの複数の過去のフレーム(n−
1)。
された音声を試聴や波形の視認などにより予め有音と無
音にラベル付けし、次に有音部と無音部の特徴パラメー
タをそれぞれ主成分分析し、有音部と無音部の主成分ベ
クトルを予め求めておくと共に、予め集収された音声を
用いて、あルフレームnの複数の過去のフレーム(n−
1)。
(n −2)‥が有音部は無音であったという条件のも
とで、nフレームが有音である条件付確率及び無音であ
る条件付確率を予め求、めでおき、検出対象フレームの
特徴パラメータを、有音部特徴パラメータの主成分ベク
トル空間又は無音部特徴パラメータの主成分ベクトル空
間上に射影し、その射影点の位置により、有音、無音、
不定と判定する有音・無音検出方式である。又さらに検
出において不定の場合は、過去の複数のフレームの有音
、無音の状態を条件とした場合の現フレームの有音及び
無音の条件付確率を予め求められているテーブルから参
照し、有音の条件付確率が高ければ有音、無音の条件付
確率が高ければ無音と判定するという有音・無音検出方
式である。
とで、nフレームが有音である条件付確率及び無音であ
る条件付確率を予め求、めでおき、検出対象フレームの
特徴パラメータを、有音部特徴パラメータの主成分ベク
トル空間又は無音部特徴パラメータの主成分ベクトル空
間上に射影し、その射影点の位置により、有音、無音、
不定と判定する有音・無音検出方式である。又さらに検
出において不定の場合は、過去の複数のフレームの有音
、無音の状態を条件とした場合の現フレームの有音及び
無音の条件付確率を予め求められているテーブルから参
照し、有音の条件付確率が高ければ有音、無音の条件付
確率が高ければ無音と判定するという有音・無音検出方
式である。
(作用)
まず、音声信号等の音響信号の特徴パラメータを求める
0次のそのパラメータを別のパラメータに変換した後パ
ラメータ数を元の特徴パラメータより少なくすることを
考える。第5図にこの概念を示す、第5図において、L
個の元の特徴パラメータを工1(1=1+2+ ‥・、
L) とし、:clを要素とするベクトルをXとする。
0次のそのパラメータを別のパラメータに変換した後パ
ラメータ数を元の特徴パラメータより少なくすることを
考える。第5図にこの概念を示す、第5図において、L
個の元の特徴パラメータを工1(1=1+2+ ‥・、
L) とし、:clを要素とするベクトルをXとする。
変換は直交変換とし、変換行列をAとする。変換後の特
徴パラメータをν1(1=1+2+‥・tL)−yiを
要素とするベクトルをY、 N個のパラメータ数j(
j=1.2.‥・、N)を残して残りの(L−N)個を
零とした特徴パラメータベクトルをVとする(但し、N
<L、tは行列の転置を表す)このとき、パラメータ数
削減によって生じる誤差ベクトルeは、元の特徴パラメ
ータベクトルXとマの逆変換との差として次式のように
記述される。
徴パラメータをν1(1=1+2+‥・tL)−yiを
要素とするベクトルをY、 N個のパラメータ数j(
j=1.2.‥・、N)を残して残りの(L−N)個を
零とした特徴パラメータベクトルをVとする(但し、N
<L、tは行列の転置を表す)このとき、パラメータ数
削減によって生じる誤差ベクトルeは、元の特徴パラメ
ータベクトルXとマの逆変換との差として次式のように
記述される。
e=X k”Y
=A−’ (Y−Y)
この誤差の2乗平均値σr”=E[ete]を最小にす
る変換を行えば、特徴パラメータ数を少なくすることに
よる誤差が最小になる。但し、Eは期待値であるσr′
を最小化する変換は、 χ、の自己相関行列の固有ベク
トルを行ベクトルとする行列Aによる変換、すなわちK
L変換であることが知られている。 また固有ベクトル
は、工iの主成分分析によって得られる主成分ベクトル
と同じであり、固有値の大きい順に対応した固有ベクト
ルが第1゜第2.第3.‥・主成分ベクトルに対応する
。
る変換を行えば、特徴パラメータ数を少なくすることに
よる誤差が最小になる。但し、Eは期待値であるσr′
を最小化する変換は、 χ、の自己相関行列の固有ベク
トルを行ベクトルとする行列Aによる変換、すなわちK
L変換であることが知られている。 また固有ベクトル
は、工iの主成分分析によって得られる主成分ベクトル
と同じであり、固有値の大きい順に対応した固有ベクト
ルが第1゜第2.第3.‥・主成分ベクトルに対応する
。
L個の特徴パラメータXをKL変換した後、パラメータ
数を削減する操作は、第1〜第N主成分ベクトルを座標
軸とするN次元主成分ベクトル空間上に、Xを射影する
ことに対応する。従って。
数を削減する操作は、第1〜第N主成分ベクトルを座標
軸とするN次元主成分ベクトル空間上に、Xを射影する
ことに対応する。従って。
特徴パラメータを主成分ベクトル9間上に射影すること
により1元の特徴パラメータをより少ないパラメータ次
元で表現する場合の誤差、言い換えれば元の特徴パラメ
ータのもつ情報のロスを最小にしながら特徴パラメータ
数を少なくできる。
により1元の特徴パラメータをより少ないパラメータ次
元で表現する場合の誤差、言い換えれば元の特徴パラメ
ータのもつ情報のロスを最小にしながら特徴パラメータ
数を少なくできる。
有音部と無音部の特徴パラメータは、特性の違い、たと
えばスペクトル形状の違いによって主成分ベクトル空間
上の特定の領域に分布する。有音・無音判定はこの性質
を利用し、特徴パラメータを主成分ベクトル空間上に射
影した時の射影点と予め定められた有音/無音の領域の
比較により、有音、無音、不定と判定する。
えばスペクトル形状の違いによって主成分ベクトル空間
上の特定の領域に分布する。有音・無音判定はこの性質
を利用し、特徴パラメータを主成分ベクトル空間上に射
影した時の射影点と予め定められた有音/無音の領域の
比較により、有音、無音、不定と判定する。
不定の場合は、更に、予め求められた、過去のフレーム
の有音・無音状態を条件とした場合の現フレームの有音
・無音の条件付確率をもとに有音か無音かの最終判定を
行う。これにより有音・無音の検出精度が高く、しかも
音声の脱落・雑音の付加が少なくなるのである。
の有音・無音状態を条件とした場合の現フレームの有音
・無音の条件付確率をもとに有音か無音かの最終判定を
行う。これにより有音・無音の検出精度が高く、しかも
音声の脱落・雑音の付加が少なくなるのである。
(実施例)
以下、本発明に係る一実施例を図面を参照して説明する
。
。
第1図は本発明の一実施例に係る有音・無音検出器のブ
ロック図である。第1図において、110はLPCケプ
ストラム抽出回路であり入力端子100から入力した信
号のLPGケプストラムC1(i=1.2.‥・、P)
を公知の方法によりフレーム(16ms)ごとに計算す
る。但しPは分析次数であり例えばP=16とする。L
PCケプストラムの計算法については例えば古井貞煕「
ディジタル音声処理」(東海大学出版会1985)に記
述されている。
ロック図である。第1図において、110はLPCケプ
ストラム抽出回路であり入力端子100から入力した信
号のLPGケプストラムC1(i=1.2.‥・、P)
を公知の方法によりフレーム(16ms)ごとに計算す
る。但しPは分析次数であり例えばP=16とする。L
PCケプストラムの計算法については例えば古井貞煕「
ディジタル音声処理」(東海大学出版会1985)に記
述されている。
求められたLPGケプストラムC1は特徴パラメータ射
影回路140に入力される。この回路140は内積演算
回路120及び有音主成分ベクトルメモリ130で構成
される。
影回路140に入力される。この回路140は内積演算
回路120及び有音主成分ベクトルメモリ130で構成
される。
有音主成分ベクトルメモリ130は第2図に示すフロー
チャート如く、予め電話使用環境下で集収された音声(
学習データ)を集収しくステップ)、有音であるラベル
付けを行い(ステップ2)、有音部のLPGケプストラ
ムを計算しくステップ3)。
チャート如く、予め電話使用環境下で集収された音声(
学習データ)を集収しくステップ)、有音であるラベル
付けを行い(ステップ2)、有音部のLPGケプストラ
ムを計算しくステップ3)。
このLPGケプストラムに対し主成分分析を行うことに
よって得られる。実際にはLPCケプストラムの共分散
行列計算を行い(ステップ4)、固有値を求め(ステッ
プ5)、絶対値の大きい固有値に対応する固有ベクトル
から順に主成分ベクトルとする(ステップ6)。 ここ
では第1〜第3の3つの主成分ベクトルV工、 V、、
V、がメモリ130に格納されている。内積演算回路
120は、LPCケプストラムC1を要素とするベクト
ルC=(C1゜C2m ”’ r Cp)と主成分ペク
ト/L/ V s 、v x 、V 3 )ニーの内積
演算を次式に従って行い、 V□、V2 # V3を座
標軸とする3次元の主成分空間上のベクトルCの射影点
Qを求める。
よって得られる。実際にはLPCケプストラムの共分散
行列計算を行い(ステップ4)、固有値を求め(ステッ
プ5)、絶対値の大きい固有値に対応する固有ベクトル
から順に主成分ベクトルとする(ステップ6)。 ここ
では第1〜第3の3つの主成分ベクトルV工、 V、、
V、がメモリ130に格納されている。内積演算回路
120は、LPCケプストラムC1を要素とするベクト
ルC=(C1゜C2m ”’ r Cp)と主成分ペク
ト/L/ V s 、v x 、V 3 )ニーの内積
演算を次式に従って行い、 V□、V2 # V3を座
標軸とする3次元の主成分空間上のベクトルCの射影点
Qを求める。
ここで、 ?/iJは主成分ベクトルv1の第j要素、
Qlは射影点Qの座標軸Viの成分である。
Qlは射影点Qの座標軸Viの成分である。
有音領域規定パラメータメモリ160は、主成分ベクト
ル空間上の有音領域を規定するパラメータが格納されて
おり、同様に無音領域規定パラメータメモリ170には
主成分ベクトル空間上の無音領域を規定するパラメータ
が格納されている。有音及び無音の領域をVよ、■2軸
上で第3図に示すように長方形(図中斜線部)とした場
合、有音領域を規定するパラメータは、 V1□e V
ih+ u zt+ V ahとなり、無音領域を規
定するパラメータはξxj+ξx、 h + ξ2□
ξ2hとなる。これらのパラメータは。
ル空間上の有音領域を規定するパラメータが格納されて
おり、同様に無音領域規定パラメータメモリ170には
主成分ベクトル空間上の無音領域を規定するパラメータ
が格納されている。有音及び無音の領域をVよ、■2軸
上で第3図に示すように長方形(図中斜線部)とした場
合、有音領域を規定するパラメータは、 V1□e V
ih+ u zt+ V ahとなり、無音領域を規
定するパラメータはξxj+ξx、 h + ξ2□
ξ2hとなる。これらのパラメータは。
予め、電話使用環境下で収集された音声の有音区間のL
PGPプストラムと無音区間のLPCPプストラムを統
計処理して定められる。 判定回路150は、射影点Q
2が主成分ベクトル空間上で、有音領域と無音領域のど
の領域に属するか又は、どの領域にも属さないかという
ことで(a)有音、(b)無音、(C)不定の判定を行
う。すなわち、(C) その他 不定 と判定する。
PGPプストラムと無音区間のLPCPプストラムを統
計処理して定められる。 判定回路150は、射影点Q
2が主成分ベクトル空間上で、有音領域と無音領域のど
の領域に属するか又は、どの領域にも属さないかという
ことで(a)有音、(b)無音、(C)不定の判定を行
う。すなわち、(C) その他 不定 と判定する。
有音/無音判定回路1110では、第4図のフローチャ
ートに示す如く判定回路150の出力ステップ1が、有
音と無音のときはその結果をそのまま出力(エンドへ)
する。
ートに示す如く判定回路150の出力ステップ1が、有
音と無音のときはその結果をそのまま出力(エンドへ)
する。
不定の場合(ステップ2)は、過去の3フレームの判定
結果を条件とした現フレームの有音、無音の条件付確率
を条件付確率テーブル200からテーブルルックアップ
により求め(ステップ3)、有音の条件付確率が無音の
条件付確率より(ステップ4)大きい場合に有音、その
逆の場合に無音と判定する(ステップ5)。190は判
定結果を少なくとも3フレ一ム分蓄積する判定結果メモ
リである。
結果を条件とした現フレームの有音、無音の条件付確率
を条件付確率テーブル200からテーブルルックアップ
により求め(ステップ3)、有音の条件付確率が無音の
条件付確率より(ステップ4)大きい場合に有音、その
逆の場合に無音と判定する(ステップ5)。190は判
定結果を少なくとも3フレ一ム分蓄積する判定結果メモ
リである。
nフレームの判定結果をT。とおくと、 過去の3フレ
ームの判定結果T。−4t ’rn−1# Tn−1を
条件とした条件付確率P(Tn/Tn−0,T、−、、
T、−、)は次式で表わされる。
ームの判定結果T。−4t ’rn−1# Tn−1を
条件とした条件付確率P(Tn/Tn−0,T、−、、
T、−、)は次式で表わされる。
p(’r、、’rn−、To−、、’rn−、)とP
(T n−t 、T n−1Tn−i)は、予め電話使
用環境下で収集された音声(学習データ)にフレームご
とに波形やスペクトルの視認等によって有音、無音のラ
ベル付けを行い、連続する4フレーム及び3フレームの
有音。
(T n−t 、T n−1Tn−i)は、予め電話使
用環境下で収集された音声(学習データ)にフレームご
とに波形やスペクトルの視認等によって有音、無音のラ
ベル付けを行い、連続する4フレーム及び3フレームの
有音。
無音ラベルを基に、確率計算を行い予め求められる。0
式の計算で得られた条件付確率は予め、条件付確率テー
ブル200に格納しておく。
式の計算で得られた条件付確率は予め、条件付確率テー
ブル200に格納しておく。
以上のように学習データから得られた条件付確率を基に
有音・無音判定を行うことは、有音→無音→有音→無音
というパターンは非常に少ないといった音声に関する知
識を利用して、判定していることになるので有音・無音
の誤判定が減るという効果がある。
有音・無音判定を行うことは、有音→無音→有音→無音
というパターンは非常に少ないといった音声に関する知
識を利用して、判定していることになるので有音・無音
の誤判定が減るという効果がある。
尚信号の特徴パラメータとしてLPCPプストラムの他
に、信号パワー、零交差数1M形予測係数、自己相関係
数、DFT係数及びそれらの組合せを用いることもでき
る。また1判定の際に用いる主成分ベクトルの数や条件
付確率を計算する際の過去のフレーム数は任意の数に設
定することもできる等、種々変形可能である。
に、信号パワー、零交差数1M形予測係数、自己相関係
数、DFT係数及びそれらの組合せを用いることもでき
る。また1判定の際に用いる主成分ベクトルの数や条件
付確率を計算する際の過去のフレーム数は任意の数に設
定することもできる等、種々変形可能である。
本発明は、特徴パラメータを主成分ベクトル空間上に射
影した上で有音・無音判定を行うので。
影した上で有音・無音判定を行うので。
有音・無音判定に用いるパラメータを少なくした場合で
も、元の特徴パラメータのもつ情報の損失が最も小さく
、有音/無音検出精度が高い。この結果、有音/無音判
定の誤リレこよる音声の脱落や雑音の付加を少なくでき
るという効果がある。
も、元の特徴パラメータのもつ情報の損失が最も小さく
、有音/無音検出精度が高い。この結果、有音/無音判
定の誤リレこよる音声の脱落や雑音の付加を少なくでき
るという効果がある。
また1本発明では、主成分ベクトル空間上の射影点の領
域判定により有音・無音・不定と判定した後、不定の場
合は過去のフレームの判定結果を条件とした現フレーム
の有音・無音の条件付確率を基に有音・無音判定を行う
2段階の判定を用いていると共に条件付確率という音声
に関する知識を用いているので、パワーの小さい有声子
音や無声子音等の誤判定が減り語頭や語尾の脱落や雑音
の付加が減少するという効果がある。
域判定により有音・無音・不定と判定した後、不定の場
合は過去のフレームの判定結果を条件とした現フレーム
の有音・無音の条件付確率を基に有音・無音判定を行う
2段階の判定を用いていると共に条件付確率という音声
に関する知識を用いているので、パワーの小さい有声子
音や無声子音等の誤判定が減り語頭や語尾の脱落や雑音
の付加が減少するという効果がある。
第1図は本発明の一実施例に係る有音・無音検出器のブ
ロック図、第2図は本発明の一実施例に係る主成分ベク
トルを求める手順を示すフローチャート、第3図は本発
明の一実施例に係る主成分ベクトル空間上の有音領域を
示す図、第4図は本発明の一実施例に係る有音・無音判
定の手順を示すフローチャート、第5図は本発明の詳細
な説明に用いた特徴パラメータ数削減の概念を示す図、
第6図は従来の有音・無音検出装置のブロック図、第7
図は従来の有音・無音検出装置で同一のスペクトル形状
と判定されるスペクトルの例を示す図である。 100‥・入力端子。 110‥・LPCケプストラム抽出回路。 120‥・内積演算回路、 130‥・有音主成分ベクトルメモリ。 140‥・特徴パラメータ射影回路、 150‥・判定回路、 160‥・有音領域規定パラメータメモリ、170‥・
無音領域規定パラメータメモリ、180‥・有音/無音
判定回路、 190‥・判定結果メモリ、 200‥・条件付確率テーブル、 600‥・エネルギー抽出部。 610‥スペクトル形状抽出部、 620‥・特徴量抽出部、 630‥・マルチプレクサ
、640‥・有音・無音判定部、650‥・閾値メモリ
、660‥・標準パターンメモリ、 670‥・始端・終端候補検出部、 680‥・始端・終端決定部
ロック図、第2図は本発明の一実施例に係る主成分ベク
トルを求める手順を示すフローチャート、第3図は本発
明の一実施例に係る主成分ベクトル空間上の有音領域を
示す図、第4図は本発明の一実施例に係る有音・無音判
定の手順を示すフローチャート、第5図は本発明の詳細
な説明に用いた特徴パラメータ数削減の概念を示す図、
第6図は従来の有音・無音検出装置のブロック図、第7
図は従来の有音・無音検出装置で同一のスペクトル形状
と判定されるスペクトルの例を示す図である。 100‥・入力端子。 110‥・LPCケプストラム抽出回路。 120‥・内積演算回路、 130‥・有音主成分ベクトルメモリ。 140‥・特徴パラメータ射影回路、 150‥・判定回路、 160‥・有音領域規定パラメータメモリ、170‥・
無音領域規定パラメータメモリ、180‥・有音/無音
判定回路、 190‥・判定結果メモリ、 200‥・条件付確率テーブル、 600‥・エネルギー抽出部。 610‥スペクトル形状抽出部、 620‥・特徴量抽出部、 630‥・マルチプレクサ
、640‥・有音・無音判定部、650‥・閾値メモリ
、660‥・標準パターンメモリ、 670‥・始端・終端候補検出部、 680‥・始端・終端決定部
Claims (2)
- (1)所定の環境下で集収された音声データに対し有音
部と無音部の主成分ベクトルを予め求めておくと共に、
予め集収された音声データを用いて、あるフレームnの
複数の過去のフレーム(n−1)、(n−2)‥が有音
又は無音であったという条件のもとで、nフレームが有
音である条件付確率及び無音である条件付確率を予め求
めておき、検出対象となるフレームの特徴パラメータを
、有音部の主成分ベクトル空間又は無音部の主成分ベク
トル空間上に射影し、その射影点の位置により、有音、
無音、あるいは不定と判定することを特徴とする有音・
無音検出方式。 - (2)請求項1記載の有音・無音検出方式において不定
の場合、過去の複数のフレームの有音、無音の状態を条
件とした場合の現フレームの有音及び無音の条件付確率
を予め求められているテーブルから参照し、有音の条件
付確率が高ければ有音、無音の条件付確率が高ければ無
音と判定することを特徴とする有音・無音検出方式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1168310A JPH0335297A (ja) | 1989-07-01 | 1989-07-01 | 有音・無音検出方式 |
EP19900301081 EP0381507A3 (en) | 1989-02-02 | 1990-02-01 | Silence/non-silence discrimination apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1168310A JPH0335297A (ja) | 1989-07-01 | 1989-07-01 | 有音・無音検出方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0335297A true JPH0335297A (ja) | 1991-02-15 |
Family
ID=15865656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1168310A Pending JPH0335297A (ja) | 1989-02-02 | 1989-07-01 | 有音・無音検出方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0335297A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000032730A (ko) * | 1998-11-17 | 2000-06-15 | 서평원 | 음성인식 시스템의 잡음 처리 방법 |
JP2008151840A (ja) * | 2006-12-14 | 2008-07-03 | Nippon Telegr & Teleph Corp <Ntt> | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置 |
-
1989
- 1989-07-01 JP JP1168310A patent/JPH0335297A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000032730A (ko) * | 1998-11-17 | 2000-06-15 | 서평원 | 음성인식 시스템의 잡음 처리 방법 |
JP2008151840A (ja) * | 2006-12-14 | 2008-07-03 | Nippon Telegr & Teleph Corp <Ntt> | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置 |
JP4758879B2 (ja) * | 2006-12-14 | 2011-08-31 | 日本電信電話株式会社 | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3955246B1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
US4956865A (en) | Speech recognition | |
US5339385A (en) | Speaker verifier using nearest-neighbor distance measure | |
US5097509A (en) | Rejection method for speech recognition | |
US5167004A (en) | Temporal decorrelation method for robust speaker verification | |
EP0625774A2 (en) | A method and an apparatus for speech detection | |
JPS62231997A (ja) | 音声認識システム及びその方法 | |
KR20000004972A (ko) | 음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및음성 인식 방법과 장치 | |
US4937870A (en) | Speech recognition arrangement | |
EP0685835B1 (en) | Speech recognition based on HMMs | |
Campbell | Speaker recognition | |
WO2002091358A1 (en) | Method and apparatus for rejection of speech recognition results in accordance with confidence level | |
JPH0222960B2 (ja) | ||
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
Khetri et al. | Automatic speech recognition for marathi isolated words | |
JPH0335297A (ja) | 有音・無音検出方式 | |
KR100480506B1 (ko) | 음성 인식 방법 | |
JPH04369698A (ja) | 音声認識方式 | |
Li et al. | Keyword-specific normalization based keyword spotting for spontaneous speech | |
Pattanayak et al. | Significance of single frequency filter for the development of children's KWS system. | |
Revathi et al. | Perceptual features based isolated digit and continuous speech recognition using iterative clustering approach | |
Jung et al. | Normalized minimum-redundancy and maximum-relevancy based feature selection for speaker verification systems | |
JPH02203397A (ja) | 有音・無音検出方式 | |
CA2013263C (en) | Rejection method for speech recognition |