JPH02204799A - 有音・無音検出方式 - Google Patents
有音・無音検出方式Info
- Publication number
- JPH02204799A JPH02204799A JP1022522A JP2252289A JPH02204799A JP H02204799 A JPH02204799 A JP H02204799A JP 1022522 A JP1022522 A JP 1022522A JP 2252289 A JP2252289 A JP 2252289A JP H02204799 A JPH02204799 A JP H02204799A
- Authority
- JP
- Japan
- Prior art keywords
- voiced
- parameters
- sound
- feature
- voiceless
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000001514 detection method Methods 0.000 claims description 13
- 238000000513 principal component analysis Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 15
- 238000000034 method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 230000009466 transformation Effects 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000237518 Arion Species 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005201 scrubbing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 230000035900 sweating Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の目的〕
(産業上の利用分野)
この発明は、斤声の有音部分のみをセル化し伝送するA
T M (Asynchronous Transf
er Mode )通信や有音部分のみを録音する鎌音
猥遣や音声認識の基本技術である音声信号の有音・無音
検出方式に関する。
T M (Asynchronous Transf
er Mode )通信や有音部分のみを録音する鎌音
猥遣や音声認識の基本技術である音声信号の有音・無音
検出方式に関する。
(従来の技術)
音声の有音部分のみをセル化し伝送するATM通信や1
音声娼遣、有音部分のみと録音する録ぎ模家において、
音声の有音区間又は音声の始端・終端を検出する有音/
無音演出は最も基本的でかつX要な処理である。有音/
無音演出が正確に行われないと音声が途切れたり、音声
認識の誤りが増加したりrる。特にATfl&信1こ旧
いては回線を有効利用するためのキーとなると思われる
。
音声娼遣、有音部分のみと録音する録ぎ模家において、
音声の有音区間又は音声の始端・終端を検出する有音/
無音演出は最も基本的でかつX要な処理である。有音/
無音演出が正確に行われないと音声が途切れたり、音声
認識の誤りが増加したりrる。特にATfl&信1こ旧
いては回線を有効利用するためのキーとなると思われる
。
信号の入力条件による入力信号レベルの変動に依存せず
1周囲雑音レベルの大きい場合でも、レベルの小さい語
頭子音の脱落を減少させることができる有音/無音噴出
法の従来例として特開昭60−200300号公報「音
声の始端、終端検出装置」が知られている。以下に、こ
の従来法の説明を行う。
1周囲雑音レベルの大きい場合でも、レベルの小さい語
頭子音の脱落を減少させることができる有音/無音噴出
法の従来例として特開昭60−200300号公報「音
声の始端、終端検出装置」が知られている。以下に、こ
の従来法の説明を行う。
第5図は上記公報に記載された始端睦終端検出装置のプ
ロVり図である。窮5図において、600はエネルギー
抽出部で、整流平滑回路で構成され信号のパワーをフレ
ーム毎に抽出する。610はスペクトル形状抽出部で、
低域(250〜600Hz)%中11(600〜150
0Hz)、高域(1500〜4000Hz)の3橿−の
帯域フィルタ群と整流平滑回路で構成され、各帯域にぢ
けるフレーム毎■パワーがスペクトル情報として用いら
れいる。エネルギー抽出部600とスペクトル形状抽出
部610とで特徴険抽出部620を構成する。630ク
マルチプレクサで、600からの信号パワーと610か
らの帯域フィルタパワーを時分側で有音・無音判定部6
40へ入力するためのものである。640は有音・無音
判定部で無音、焦声音、有声斤の判別を行うためのもの
である。650.660は閾値メモリと標準パターンメ
モリであり有蒔・無音判定部640で用いられる定数値
が格納されている。閾値メモリ650#こはパワーの2
つの閾値El。
ロVり図である。窮5図において、600はエネルギー
抽出部で、整流平滑回路で構成され信号のパワーをフレ
ーム毎に抽出する。610はスペクトル形状抽出部で、
低域(250〜600Hz)%中11(600〜150
0Hz)、高域(1500〜4000Hz)の3橿−の
帯域フィルタ群と整流平滑回路で構成され、各帯域にぢ
けるフレーム毎■パワーがスペクトル情報として用いら
れいる。エネルギー抽出部600とスペクトル形状抽出
部610とで特徴険抽出部620を構成する。630ク
マルチプレクサで、600からの信号パワーと610か
らの帯域フィルタパワーを時分側で有音・無音判定部6
40へ入力するためのものである。640は有音・無音
判定部で無音、焦声音、有声斤の判別を行うためのもの
である。650.660は閾値メモリと標準パターンメ
モリであり有蒔・無音判定部640で用いられる定数値
が格納されている。閾値メモリ650#こはパワーの2
つの閾値El。
E、が格納されている。また、標準パターンメモIJ
660には、無音・無声音を判定するための線形判別関
数と無音・無声音を11別するための線形判別関数の係
数が格納されている。これら2つの閾I直E1゜’Ei
x と2つの線形判別関数の係数は、予め使用する環境
下で発声された音声データの統計処理により求められ、
格納されている。670は始端・終端候補演出部であり
、有音・無音判定部より送られてくるフレーム毎の有音
・無音判定結果の持続時間により、音声の始鴇−終端候
補を検出する。680は始端・終端決定部で、最終的な
始喝赤終端を決定する。
660には、無音・無声音を判定するための線形判別関
数と無音・無声音を11別するための線形判別関数の係
数が格納されている。これら2つの閾I直E1゜’Ei
x と2つの線形判別関数の係数は、予め使用する環境
下で発声された音声データの統計処理により求められ、
格納されている。670は始端・終端候補演出部であり
、有音・無音判定部より送られてくるフレーム毎の有音
・無音判定結果の持続時間により、音声の始鴇−終端候
補を検出する。680は始端・終端決定部で、最終的な
始喝赤終端を決定する。
以上のよう壷こ構成された音声の始端・終4演出ffl
置の実際の動作については簡単に説明すると、まずマイ
ク等により入力される音声を富む信号はフレーム町に対
数パワーLPWと対数帯域パワーLi’1(i=1〜3
)fこ変換される。有音・無音判定部64°0は、これ
らの4つのパラメータと閾値メモリ650と標準パター
ンメモリ660#ζ格納されている閾値E+−E*と2
つのII形判別関数の係数を用いて入力されたフレーム
が有音であるか無音であるかを判定する。
置の実際の動作については簡単に説明すると、まずマイ
ク等により入力される音声を富む信号はフレーム町に対
数パワーLPWと対数帯域パワーLi’1(i=1〜3
)fこ変換される。有音・無音判定部64°0は、これ
らの4つのパラメータと閾値メモリ650と標準パター
ンメモリ660#ζ格納されている閾値E+−E*と2
つのII形判別関数の係数を用いて入力されたフレーム
が有音であるか無音であるかを判定する。
この有丘・無音判定は、まず最初に2つのエネルギー閾
値E1.E@と、対数パワーL、PWとの比較により次
円よう憂ζ行われる。
値E1.E@と、対数パワーL、PWとの比較により次
円よう憂ζ行われる。
L P W > E I ならば有音LPW(E、
ならば無音 E* くLPW<、鮨 ならば不定 不定の場合憂こは、さら曇こ対数帯域パワーLPIC−
i −1〜3)と660に格納されている2つの・顧形
刊別関数の係数を用いて1式(1)のi’lJ別関数値
FXを計算し、FXにより有音−無音を判定する。
ならば無音 E* くLPW<、鮨 ならば不定 不定の場合憂こは、さら曇こ対数帯域パワーLPIC−
i −1〜3)と660に格納されている2つの・顧形
刊別関数の係数を用いて1式(1)のi’lJ別関数値
FXを計算し、FXにより有音−無音を判定する。
但し、Atは660に格納されている判別関数の係数で
あり、 Lptは660に格納されている標準パターン
である。
あり、 Lptは660に格納されている標準パターン
である。
式!1)のA18よびLPlは予め、使用環境下で発声
された音声データの無音φ無声計・有声音を統計処理し
て求められる。FXO値は人、力が無音のとき負で、入
力が無声汁あるいは有声音のとき正の値をとるように設
定されている。スペクトル形状による有晋争無f ft
l定は無f/無声丘と無音/’4fP晋の2つの線形判
別関数を計算しいずれか一方でも正の値をとるならば有
音、2つ共食の値ならば無音と判定するというものであ
る。このような方法は無音ゆ無声行・有声音のスペクト
ル形状の相異を利用しているため、エネルギーの小さな
無声千斤や有声子音の脱落を少な(できるという、特徴
をもつ。
された音声データの無音φ無声計・有声音を統計処理し
て求められる。FXO値は人、力が無音のとき負で、入
力が無声汁あるいは有声音のとき正の値をとるように設
定されている。スペクトル形状による有晋争無f ft
l定は無f/無声丘と無音/’4fP晋の2つの線形判
別関数を計算しいずれか一方でも正の値をとるならば有
音、2つ共食の値ならば無音と判定するというものであ
る。このような方法は無音ゆ無声行・有声音のスペクト
ル形状の相異を利用しているため、エネルギーの小さな
無声千斤や有声子音の脱落を少な(できるという、特徴
をもつ。
しかして、この方法では、スペクトル形状を民わすパラ
メータが少なく%また/lラメータの選び方に理論的根
拠がないため、有音/無音判定を誤りてしまい音声の脱
落や雑音の付加が避けられない場合がある。この方法に
よるパラメータは、低域(250〜600Hz)、中域
(600〜1500Hz)。
メータが少なく%また/lラメータの選び方に理論的根
拠がないため、有音/無音判定を誤りてしまい音声の脱
落や雑音の付加が避けられない場合がある。この方法に
よるパラメータは、低域(250〜600Hz)、中域
(600〜1500Hz)。
高域(1500〜4000Hz)の3つの帯域フ(A/
り出力の対数パワーとなりているが2例えば、第6図1
こ示すように無声音のスペクトルが(荀で、雑音のスペ
クトルが(b)であるような場合、両者のスペクトルは
大きく異なりているにも関らず1式(1)で計算される
線形判別関数の値は同一になりてしまい、有音φ無f判
定を娯つてしまう(但し、^1=1)。その結果、音声
の脱落や雑音の付加が避けられない場合がある。このよ
5な問題はパラメータ数が少ない上に、帯域フィルタの
選択が適切ではないため曇こ生じるものである、又、さ
らiこパラメータの選択法に理論的根拠がないため、パ
ラメータの選択すなわち帯域フィルタの帯域の設定は試
行錯ifこ頓らざるを得ず設定のため多大な労力を資す
と共にパラメータの必ずしも適切ではないという問題が
ある。
り出力の対数パワーとなりているが2例えば、第6図1
こ示すように無声音のスペクトルが(荀で、雑音のスペ
クトルが(b)であるような場合、両者のスペクトルは
大きく異なりているにも関らず1式(1)で計算される
線形判別関数の値は同一になりてしまい、有音φ無f判
定を娯つてしまう(但し、^1=1)。その結果、音声
の脱落や雑音の付加が避けられない場合がある。このよ
5な問題はパラメータ数が少ない上に、帯域フィルタの
選択が適切ではないため曇こ生じるものである、又、さ
らiこパラメータの選択法に理論的根拠がないため、パ
ラメータの選択すなわち帯域フィルタの帯域の設定は試
行錯ifこ頓らざるを得ず設定のため多大な労力を資す
と共にパラメータの必ずしも適切ではないという問題が
ある。
帯域フィルタの数を増しパラメータ数を増加させれば、
有音・無音判定の誤りは改善させることができるが、有
音/無音判定のための判別関数の計算量は増大し、tた
パラメータ設定のための労力も膨大なものになる。上記
公ff1(こよる技術では式(1)の線形判別関数の代
りlこマノ1ラノビス距雛を用いることが記述されてい
るが、マハラノビス距離を用いると演算量が−f1増大
する。
有音・無音判定の誤りは改善させることができるが、有
音/無音判定のための判別関数の計算量は増大し、tた
パラメータ設定のための労力も膨大なものになる。上記
公ff1(こよる技術では式(1)の線形判別関数の代
りlこマノ1ラノビス距雛を用いることが記述されてい
るが、マハラノビス距離を用いると演算量が−f1増大
する。
(発明が解決しようとする課題)
上述したようCc、従来の有f/無f@出法は。
演算l:fi−少な(するため番こパラメータ数を少な
くした場合、有音/無音判定を誤りてしまい音声の脱落
や雑音の付加が避けられない場合があるといり問題点が
ある。また、従来の方法では、パラメータの選択着ζ当
りて理論的な選択基準がないため。
くした場合、有音/無音判定を誤りてしまい音声の脱落
や雑音の付加が避けられない場合があるといり問題点が
ある。また、従来の方法では、パラメータの選択着ζ当
りて理論的な選択基準がないため。
多くの労力を要するという問題点もある。
そこで本発明は、このような問題点を解決するためにな
されたものでその目的は有晋/無音検出槽度が高(音声
の脱落・雑陰の付770が少ない有音・無音検出方式を
提供すること醗こある。
されたものでその目的は有晋/無音検出槽度が高(音声
の脱落・雑陰の付770が少ない有音・無音検出方式を
提供すること醗こある。
(課!!!を解決するための手段)
本発明では、上記の問題点を解決するため音声信号を牙
む音響信号の特徴を侵す信号パワーやLPC係数等のパ
ラメータを求め1例えば電話の使用環境下で収集された
音声の有音部と雑音を富む無音部の特徴パラメータO主
成分分析によりて。
む音響信号の特徴を侵す信号パワーやLPC係数等のパ
ラメータを求め1例えば電話の使用環境下で収集された
音声の有音部と雑音を富む無音部の特徴パラメータO主
成分分析によりて。
予め求められた有音部特徴パラメータの主成分ベクトル
空間又は無音部特徴パラメータの主成分ベクトル空間の
上曇こ、フレームごとの特徴ハラメータを射影し、特徴
パラメータのこの射影点が主成分ベクトル空間上で予め
定められた有音と無音の領域にあるかどうか)!−検出
すること曇こより有音/無f判定を行う有音・#If検
出方式である。
空間又は無音部特徴パラメータの主成分ベクトル空間の
上曇こ、フレームごとの特徴ハラメータを射影し、特徴
パラメータのこの射影点が主成分ベクトル空間上で予め
定められた有音と無音の領域にあるかどうか)!−検出
すること曇こより有音/無f判定を行う有音・#If検
出方式である。
(作用)
まず、音声信号等のi響信号の特徴パラメータを求める
1次のそのパラメータと別のパラメータに変換した後パ
ラメータ数を元の特徴パラメータより少なくすることを
考える。第・4図iここの概念を示す。粛4図において
、L個の元の特徴パラメータをx i (1=1 @
2 *−・−* L)とし、xlを要素とするベクトル
をXとする。変換は直交変換とし。
1次のそのパラメータと別のパラメータに変換した後パ
ラメータ数を元の特徴パラメータより少なくすることを
考える。第・4図iここの概念を示す。粛4図において
、L個の元の特徴パラメータをx i (1=1 @
2 *−・−* L)とし、xlを要素とするベクトル
をXとする。変換は直交変換とし。
変換行列を^とする。変換後の特徴パラメータをy i
(1=1−2 e・・・・・・、L)、71を要素と
するベクトルをY、N(I!fiのパラメータ)’j(
j=1.2.・・・・・・N)を残して、残りの(L−
N)個を零とした特徴パラメータベクトルをYとする。
(1=1−2 e・・・・・・、L)、71を要素と
するベクトルをY、N(I!fiのパラメータ)’j(
j=1.2.・・・・・・N)を残して、残りの(L−
N)個を零とした特徴パラメータベクトルをYとする。
但し、N(Lとする。
このとき、パラメータ数削減ζこよりて生じる誤差ベク
トルeは1元の特徴パラメータベクトルXとYの逆変換
との差として次式のように記述される。
トルeは1元の特徴パラメータベクトルXとYの逆変換
との差として次式のように記述される。
e=X−八−Y
=A−1(Y−Y)
この誤差の2乗平均値・:4=E(e te)を最小f
こする変換を行えば、特徴パラメータ数を少なくするこ
と曇こよる倶葦が最小になる。但し、tは行列の転It
、Eは期待1にである。rr業?最小化する変咲は、x
Lの自己相関行列の固有ベクトルを行うべクトルとする
行列A#こよる変換、すなわちKLf換であることが知
られている。また固有ベクトルは、xlの主成分分析に
よりて得られる主成分ベクトルと同じであり、固有値の
大きい@lζ対応した固有ベクトルが第1.第2、第3
.・・・・・・主成分ベクトルに対応する。
こする変換を行えば、特徴パラメータ数を少なくするこ
と曇こよる倶葦が最小になる。但し、tは行列の転It
、Eは期待1にである。rr業?最小化する変咲は、x
Lの自己相関行列の固有ベクトルを行うべクトルとする
行列A#こよる変換、すなわちKLf換であることが知
られている。また固有ベクトルは、xlの主成分分析に
よりて得られる主成分ベクトルと同じであり、固有値の
大きい@lζ対応した固有ベクトルが第1.第2、第3
.・・・・・・主成分ベクトルに対応する。
L個の特徴パラメータXをKL変換した後、パラメータ
数を削減する操作は、第1〜第N主成分ベクトルを座標
軸とするN次元主成分ベクトル空間土豪こ、Xを射影す
ることに対応する。従りて。
数を削減する操作は、第1〜第N主成分ベクトルを座標
軸とするN次元主成分ベクトル空間土豪こ、Xを射影す
ることに対応する。従りて。
特徴パラメータを主成分ベクトル空間上lこ射影するこ
とにより1元の特徴パラメータをより少ないパラメータ
次元で表現する場合の誤差、言い換えれば元の特徴パラ
メータのもつ情報のロスを最小−こしながら特徴パラメ
ータ数を少なくできる。
とにより1元の特徴パラメータをより少ないパラメータ
次元で表現する場合の誤差、言い換えれば元の特徴パラ
メータのもつ情報のロスを最小−こしながら特徴パラメ
ータ数を少なくできる。
有音部と#廿部の特徴パラメータは、特徴の違い例えば
スペクトル形状の違いによりて、主成分ベクトル空間上
の特定の領域gこ分布する。有音・無f判定は、この性
質を利用し、特徴パラメータの主成分ベクトル空間上の
射影点と、主成分ベクトル空間上で予め定められた有音
と無音の領域の比較により行う。
スペクトル形状の違いによりて、主成分ベクトル空間上
の特定の領域gこ分布する。有音・無f判定は、この性
質を利用し、特徴パラメータの主成分ベクトル空間上の
射影点と、主成分ベクトル空間上で予め定められた有音
と無音の領域の比較により行う。
(実施例)
以下本発明lこ係る一実施例を図面を参照して説明する
。まず1本発明を用いる^TM通信に用いる音声セル化
装置について第7図を用いて説明する。この装置は回I
@を有効利用し、しかも高速番こ伝送するためのもので
あうで、入力される音声信号を一方は音声符号上器70
2に2いて符号化し。
。まず1本発明を用いる^TM通信に用いる音声セル化
装置について第7図を用いて説明する。この装置は回I
@を有効利用し、しかも高速番こ伝送するためのもので
あうで、入力される音声信号を一方は音声符号上器70
2に2いて符号化し。
他方は雑i信号を雑音符号化器7034C’:Eいて符
号化する。そしてこれらの符号化された信号はセル化装
置705でセル化され伝送される。音声の符号化−こ際
しては、有ft!i5と無音部を有皆無音演出器701
4こ2いて演出し、有音のみをセル化するようスイッチ
706を切り替えml」御する。又雑を昏こついても有
音雑音演出器704fこεいて有音な雑音のみを噴出し
、符号化させる。雑音は音声lこ自然さを与えるためl
こ設けられて、有音声以外つまり無音が噴出された時、
スイッチ704を雑貨符号化器703開に切り替えられ
伝送される。
号化する。そしてこれらの符号化された信号はセル化装
置705でセル化され伝送される。音声の符号化−こ際
しては、有ft!i5と無音部を有皆無音演出器701
4こ2いて演出し、有音のみをセル化するようスイッチ
706を切り替えml」御する。又雑を昏こついても有
音雑音演出器704fこεいて有音な雑音のみを噴出し
、符号化させる。雑音は音声lこ自然さを与えるためl
こ設けられて、有音声以外つまり無音が噴出された時、
スイッチ704を雑貨符号化器703開に切り替えられ
伝送される。
このブロック図に8ける伝送の方式(システム)の例は
、■有音部と無音部(雑音をきむ)とで異なる符号化を
施し伝送する方法、あるいは異なるビジトレード(24
に、8Kbps )で伝送する方法等が考えられる。
、■有音部と無音部(雑音をきむ)とで異なる符号化を
施し伝送する方法、あるいは異なるビジトレード(24
に、8Kbps )で伝送する方法等が考えられる。
又このブロック図では示されないが■雑音のみ(無音フ
レーム)を初期の段階(例えば接続時点)で受信側に伝
送してぢき、この雑音を受信側で常に再生し雑音に所定
の変化が噴出された時に初めてこの雑音を伝送し直す方
法や、■音声だけを伝送し、無iは全く送らない方法等
も考えられる。
レーム)を初期の段階(例えば接続時点)で受信側に伝
送してぢき、この雑音を受信側で常に再生し雑音に所定
の変化が噴出された時に初めてこの雑音を伝送し直す方
法や、■音声だけを伝送し、無iは全く送らない方法等
も考えられる。
■のmeは、受信側でもりている白色雑音等により雑音
を再生するようにすればよい。
を再生するようにすればよい。
以上のシステム番ご用いられた有音・無音噴出について
評しく述べる。
評しく述べる。
1lX1図は本発明の一実施例に係る上記;1!汁・無
音噴出器のブロック図である。第1図−こおいて。
音噴出器のブロック図である。第1図−こおいて。
110はLL’Cケプストラム抽出回路であり、入力端
子100から入力した信号のLPCケプストラムC1(
1=1.2.・・・・・・、P)を公知の方法−こより
フレームごと(10ms )に計算する。但し、Pは分
析次数であり1例えばP:16とする。LPCケプスト
ラムの計算法については例えば古井貞煕:「ディジタル
音声処理」、東海大学出版会、 1985に記述されて
いる。求められたLPCケプストラムC1は内積演算回
路120へ入力される。130は有音主成分ベクトルメ
モリであり、予め電話使用環境下で収集された音声の有
音部のLPCケプストラムに対し主成分分析を行い得ら
れる第1〜第3の3つの主成分ベクトルV、 、V、
、V、が格納されている。但し、主成分ベクトルViの
要素ヲ1j(j=1.2.・・・、t−’)とする、内
積演算回路120は、LPCケプストラム抽出回路lこ
より計算されたLPCケプストラムC1を要素とするベ
クトルC”’(Ct 、Ct−・・・・・・、Cp)と
主成分ベクトルメモリに格納されている。第1〜嘉3主
収分ベクトルv1〜v畠との内檀演$を次式憂こ従りて
行い。
子100から入力した信号のLPCケプストラムC1(
1=1.2.・・・・・・、P)を公知の方法−こより
フレームごと(10ms )に計算する。但し、Pは分
析次数であり1例えばP:16とする。LPCケプスト
ラムの計算法については例えば古井貞煕:「ディジタル
音声処理」、東海大学出版会、 1985に記述されて
いる。求められたLPCケプストラムC1は内積演算回
路120へ入力される。130は有音主成分ベクトルメ
モリであり、予め電話使用環境下で収集された音声の有
音部のLPCケプストラムに対し主成分分析を行い得ら
れる第1〜第3の3つの主成分ベクトルV、 、V、
、V、が格納されている。但し、主成分ベクトルViの
要素ヲ1j(j=1.2.・・・、t−’)とする、内
積演算回路120は、LPCケプストラム抽出回路lこ
より計算されたLPCケプストラムC1を要素とするベ
クトルC”’(Ct 、Ct−・・・・・・、Cp)と
主成分ベクトルメモリに格納されている。第1〜嘉3主
収分ベクトルv1〜v畠との内檀演$を次式憂こ従りて
行い。
クトル空間上のLPCケプストラムベクトルCの射影点
Qを求める。
Qを求める。
但し、Qlは射影点Qの座標軸V1方向の成分である。
内積演算回路120と有音主成分ベクトルメモリ130
により特徴パラメータ射影回路140を構成する。16
0は有音領域規定パラメータメモリであり、主成分ベク
トル空間上の有音領域を規定するパラメータが格納され
ている。有音領域を第2図に示すような長方体とした場
合、有音領域を規定するパラメータはVt’evlh、
すi、仏り。
により特徴パラメータ射影回路140を構成する。16
0は有音領域規定パラメータメモリであり、主成分ベク
トル空間上の有音領域を規定するパラメータが格納され
ている。有音領域を第2図に示すような長方体とした場
合、有音領域を規定するパラメータはVt’evlh、
すi、仏り。
す5l−Vhとなる。これらのパラメータは、予め直結
使用環境下で収集された有音及び雑斤を言む無音のLP
Cケプストラムを統計処理して定められる。有音拳無i
判定回路150は、射影点Qが第2図の有音領域内lこ
存在するか否かによりて有音・無iの判定を行う。すな
わち it l <QS りじhかつ?/i l <、Qt
’:り占りかつ活1(、Qs り國h■とき有音、・そ
れ以外C無音と判定する。
使用環境下で収集された有音及び雑斤を言む無音のLP
Cケプストラムを統計処理して定められる。有音拳無i
判定回路150は、射影点Qが第2図の有音領域内lこ
存在するか否かによりて有音・無iの判定を行う。すな
わち it l <QS りじhかつ?/i l <、Qt
’:り占りかつ活1(、Qs り國h■とき有音、・そ
れ以外C無音と判定する。
この実施例では、有音/無音判定に用いているパラメー
タはQs−Q會−Qsの3つである。本実施例では、有
音/無音判定を射影点Qが有音領域に入るかどうかとい
うことで行りているが、有音領域の重心と射影点Qとの
距離で行うこともできる例えば、有音領域の重心をV=
( と8き、距@Dを次式で定義し、Dと予め定めた閾値T
hとの比較によりDくThならば有#、D〉Thならば
無音と判定することもできる。
タはQs−Q會−Qsの3つである。本実施例では、有
音/無音判定を射影点Qが有音領域に入るかどうかとい
うことで行りているが、有音領域の重心と射影点Qとの
距離で行うこともできる例えば、有音領域の重心をV=
( と8き、距@Dを次式で定義し、Dと予め定めた閾値T
hとの比較によりDくThならば有#、D〉Thならば
無音と判定することもできる。
但しsAlは重み係数である。
従来の有音/#I#検出去では、距離による判定が用い
られ、領域による判定は従来になかりたものである。領
域−こよる判定は、有音又はfI@汁が主成分ベクトル
空間上で特別な領域に分布する場曾でも、有汁―無晋刊
足がCきるので、有音/無音噴出の精度が向上するとい
う効果がある。例えば式(4) ic :& イて、A
i=1(1=1.2.3)と’Jd(zNた場合、Dく
Thとなる領域は球の内部となるように。
られ、領域による判定は従来になかりたものである。領
域−こよる判定は、有音又はfI@汁が主成分ベクトル
空間上で特別な領域に分布する場曾でも、有汁―無晋刊
足がCきるので、有音/無音噴出の精度が向上するとい
う効果がある。例えば式(4) ic :& イて、A
i=1(1=1.2.3)と’Jd(zNた場合、Dく
Thとなる領域は球の内部となるように。
11こよる判定では、有音の領域の形が距離の定義によ
りて決まり、任意の形を設定することができないのに対
し、領域による判定では、任意の形を設定することがで
きる。
りて決まり、任意の形を設定することができないのに対
し、領域による判定では、任意の形を設定することがで
きる。
本発明lこ係る他の実施例を図を参照しながら説明する
。嘉3図は1本発明の実施例に係る有音/無音噴出器の
ブロック図である。第3図において210はLPCケプ
ストラム油田回路であり第1゜図における110と同一
のものである。また、220と250は内積演算回路で
あり、@1図の120と同一のものである。
。嘉3図は1本発明の実施例に係る有音/無音噴出器の
ブロック図である。第3図において210はLPCケプ
ストラム油田回路であり第1゜図における110と同一
のものである。また、220と250は内積演算回路で
あり、@1図の120と同一のものである。
230は有音の主成分ベクトルメモリであり。
予め゛直結使用環境下で収集された音声の有f部のLP
Cケ1ストラム−こ対し主成分分析を行うことにより得
られる有音の第1−第3の3つの主成分ベクトルが格納
されている。また、360は無音の主成分ベクトルメモ
リであり、予め電話使用環境下で収集された雑音を富む
音声の無音部のLPCケプストラムに対し主成分分析を
行うことにより得ら几るStの第1〜第3の3つの主成
分ベクトルが格納されている。内積演算回路220と有
i主成分ベクトルメモリ230昏こより有音特徴パラメ
ータ射影回路240を構成し、240は、210から出
力されるLPCケプストラムベクトルと230に格納さ
れている有音主成分ベクトルとの内積演算を行い有音の
主成分ベクトル空間上の射影点を求める。
Cケ1ストラム−こ対し主成分分析を行うことにより得
られる有音の第1−第3の3つの主成分ベクトルが格納
されている。また、360は無音の主成分ベクトルメモ
リであり、予め電話使用環境下で収集された雑音を富む
音声の無音部のLPCケプストラムに対し主成分分析を
行うことにより得ら几るStの第1〜第3の3つの主成
分ベクトルが格納されている。内積演算回路220と有
i主成分ベクトルメモリ230昏こより有音特徴パラメ
ータ射影回路240を構成し、240は、210から出
力されるLPCケプストラムベクトルと230に格納さ
れている有音主成分ベクトルとの内積演算を行い有音の
主成分ベクトル空間上の射影点を求める。
また、内積演算回路250と無音生成分ベクトルメモリ
260#こより無音特徴パラメータ射影回路270を構
成し、270は210から出力されるLPCケプストラ
ムベクトルと2601c格納されている!1i主我分収
クトルとの内積演算を行い無音の主成分ベクトル空間上
の射影点を求める。
260#こより無音特徴パラメータ射影回路270を構
成し、270は210から出力されるLPCケプストラ
ムベクトルと2601c格納されている!1i主我分収
クトルとの内積演算を行い無音の主成分ベクトル空間上
の射影点を求める。
290は有音領域規定パラメータメモリであり。
有音の主成分ベクトル空間上で有i@域を規定するパラ
メータが格納されている。同様に310は無音領域規定
パラメータメモリであり、無音の主成分ベクトル空間上
で無音領域を規定するパラメータが格納されている。有
音領域規定パラメータ及び無音領域規定パラメータは、
予め1話使用環境下で収集された有音及び雑音を言む無
音のLPCケプストラムを統計処理して定められる。2
80は有音判定回路であり、240によりて求められた
有音主成分ベクトル空間上のLPCケプストラムベクト
ルの射影点が290fこ格納されている有音領域規定パ
ラメータで規定される有音領域に存在すれば有音と判定
し11”を出力し、それ以外で10”を出力する。一方
、300はW@晋判定回路であり、270によりて求め
られた無音主成分ベクトル空間上のLPCケプストラム
ベクトルの射影点が310に格納されている無音領域規
定パラメータで規定される魚汁領域に存在すれば無音と
判定し1′″を出力し、それ以外で“0”を出力する。
メータが格納されている。同様に310は無音領域規定
パラメータメモリであり、無音の主成分ベクトル空間上
で無音領域を規定するパラメータが格納されている。有
音領域規定パラメータ及び無音領域規定パラメータは、
予め1話使用環境下で収集された有音及び雑音を言む無
音のLPCケプストラムを統計処理して定められる。2
80は有音判定回路であり、240によりて求められた
有音主成分ベクトル空間上のLPCケプストラムベクト
ルの射影点が290fこ格納されている有音領域規定パ
ラメータで規定される有音領域に存在すれば有音と判定
し11”を出力し、それ以外で10”を出力する。一方
、300はW@晋判定回路であり、270によりて求め
られた無音主成分ベクトル空間上のLPCケプストラム
ベクトルの射影点が310に格納されている無音領域規
定パラメータで規定される魚汁領域に存在すれば無音と
判定し1′″を出力し、それ以外で“0”を出力する。
有f/無を判定画113320は有音判定回路280の
出力と無音判定回路300の出力′Ifr−総什して有
音/#、#判定を行う。例えば1次のよう多こ有f/無
音判定を行う。
出力と無音判定回路300の出力′Ifr−総什して有
音/#、#判定を行う。例えば1次のよう多こ有f/無
音判定を行う。
有音判定回路出力が1かつ無音判定回路出力がOのとき
有音〃 0 〃 1のとき無
音〃 1 〃 lのとき有
音〃 0 〃 0のとき有音
このようfこすることにより、例えば、予め電話使用環
境下で収集された斤声のLPCケプストラムと異なるパ
ターンをもつ音声が入力された場合、有音判定回路出力
が@O′となった場合でも総合判定−によりて正しく有
iと判定され音1声の脱落を防止できるという効果があ
る。
有音〃 0 〃 1のとき無
音〃 1 〃 lのとき有
音〃 0 〃 0のとき有音
このようfこすることにより、例えば、予め電話使用環
境下で収集された斤声のLPCケプストラムと異なるパ
ターンをもつ音声が入力された場合、有音判定回路出力
が@O′となった場合でも総合判定−によりて正しく有
iと判定され音1声の脱落を防止できるという効果があ
る。
尚1本発明は上記の実施例に限らず各種の変形例が考え
られる0例えば、信号の特徴パラメータとしてLP’c
ケプストラムの他に、信号パワー零交差数%線形予側係
数、自己相関係数、DFT係数及びそれらの組合せを用
いることができる。
られる0例えば、信号の特徴パラメータとしてLP’c
ケプストラムの他に、信号パワー零交差数%線形予側係
数、自己相関係数、DFT係数及びそれらの組合せを用
いることができる。
以上述べたよう#c、特徴パラメータを主成分ベクトル
空間上に射影した上で有音/無昔判定を行うので、有I
/無#判定に用いるパラメータ数を少なくした場合でも
1元の特徴パラメータのもつ情報の損失が最も小さく有
音/焦辻検出#度が高く、有f/g汁判定の誤りによる
音声の脱落や雑音の付JJOを少なくすることができる
という効果がある。また、有音/無汗判定に用いるパラ
メータの選択に当りて、まず多くの特徴パラメータを求
め、そのパラメータと固有値最大の@l主成分ベクトル
から順に@2.@3・・・・・・・・・主成分ベクトル
へと内積演算を行うて得られるパラメータを用いれば元
の特徴パラメータのもつ情報の損失が最小となるという
理論的な規準があるので、有f/無f判定に用いるパラ
メータの設定が容易であるという効果がある。
空間上に射影した上で有音/無昔判定を行うので、有I
/無#判定に用いるパラメータ数を少なくした場合でも
1元の特徴パラメータのもつ情報の損失が最も小さく有
音/焦辻検出#度が高く、有f/g汁判定の誤りによる
音声の脱落や雑音の付JJOを少なくすることができる
という効果がある。また、有音/無汗判定に用いるパラ
メータの選択に当りて、まず多くの特徴パラメータを求
め、そのパラメータと固有値最大の@l主成分ベクトル
から順に@2.@3・・・・・・・・・主成分ベクトル
へと内積演算を行うて得られるパラメータを用いれば元
の特徴パラメータのもつ情報の損失が最小となるという
理論的な規準があるので、有f/無f判定に用いるパラ
メータの設定が容易であるという効果がある。
以上1本発明によれば演算量は少ないにもかかわらず、
有音・無音の判定を精度よく行い得、システムへの信頼
性も向上するという効果を突する。
有音・無音の判定を精度よく行い得、システムへの信頼
性も向上するという効果を突する。
第1図は本発明の一実施例に係る有f/無f検出器のブ
ロック図、第2図は1本発明の一実施例に係る主成分ベ
クトル空間上の有音領域を示す図。 第3図は本発明の他の実施例に係るIt/無音噴出器の
ブロック図、第4図は本発明の詳細な説明の際に用いた
特徴パラメータ数削減の概念を示す図、@5図は、従来
の有斤/無ltF!Il出瑛這のブロック図、@6図は
、従来の有音/無f噴出装置で同一のスペクトル形状と
判定されるスペクトルの例を示す図、第7図は音声セル
化誤食のプロVり図である。 100.200・・・入力端子、110,210・・・
LPCケプストラム抽出回路、120,220.250
・・・内積演算回路、130,230・・・有音主成分
ベクトルメモリ、260・・・無音主成分ベクトルメモ
リ、140・・・特徴パラメータ射影回路、 150,
320・・・有音/無音判定回M、160.290・・
・有貸領域規定/寸うメータメモリ、240・・・有音
特徴パラメータ射影回路、270・・・無f!r特徴パ
ラメータ射影回路、280・・・有音判定回路、300
・・・無音判定回路、 310・・・無音領域規定パ
ラメータメモリ、600・・・エネルギー油出部、61
O・・・スペクトル形状曲出部、620・・・特徴身抽
出部、630・・・マルチプレクサ、640・・・有f
−無f 14定部、650・・・閾値メモ17,660
・・・標準パターンメモリ、670・・・始端・終端候
補、噴出部、680・・・始端Φ終端決定部。 代理人 弁理士 則 近 Wl 右同
松 山 光 之私 第 図 第 図 第 図
ロック図、第2図は1本発明の一実施例に係る主成分ベ
クトル空間上の有音領域を示す図。 第3図は本発明の他の実施例に係るIt/無音噴出器の
ブロック図、第4図は本発明の詳細な説明の際に用いた
特徴パラメータ数削減の概念を示す図、@5図は、従来
の有斤/無ltF!Il出瑛這のブロック図、@6図は
、従来の有音/無f噴出装置で同一のスペクトル形状と
判定されるスペクトルの例を示す図、第7図は音声セル
化誤食のプロVり図である。 100.200・・・入力端子、110,210・・・
LPCケプストラム抽出回路、120,220.250
・・・内積演算回路、130,230・・・有音主成分
ベクトルメモリ、260・・・無音主成分ベクトルメモ
リ、140・・・特徴パラメータ射影回路、 150,
320・・・有音/無音判定回M、160.290・・
・有貸領域規定/寸うメータメモリ、240・・・有音
特徴パラメータ射影回路、270・・・無f!r特徴パ
ラメータ射影回路、280・・・有音判定回路、300
・・・無音判定回路、 310・・・無音領域規定パ
ラメータメモリ、600・・・エネルギー油出部、61
O・・・スペクトル形状曲出部、620・・・特徴身抽
出部、630・・・マルチプレクサ、640・・・有f
−無f 14定部、650・・・閾値メモ17,660
・・・標準パターンメモリ、670・・・始端・終端候
補、噴出部、680・・・始端Φ終端決定部。 代理人 弁理士 則 近 Wl 右同
松 山 光 之私 第 図 第 図 第 図
Claims (3)
- (1)音声信号の音響信号の特徴を表わす特徴パラメー
タを求める手段と、 この手段により求められた特徴パラメータを、予め設定
された有音部の特徴パラメータの主成分ベクトル空間又
は無音部の特徴パラメータの主成分ベクトル空間上に射
影する手段と、 この手段により射影された前記特徴パラメータの射影点
の位置と主成分ベクトル空間上で予め定められた有音又
は無音の領域を用いて有音・無音判定を行う手段を有す
ることを特徴とする有音・無音検出方式。 - (2)特徴パラメータを求める手段は、音響信号の特徴
を表わす信号パワーやLPC係数等を用いて特徴パラメ
ータを求めることを特徴とする請求項1記載の有音・無
音検出方式。 - (3)予め設定される有音部又は無音部の特徴パラメー
タの主成分ベクトル空間は、使用される装置の特徴パラ
メータの主成分分析により求められることを特徴とする
請求項1記載の有音・無音検出方式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1022522A JPH02204799A (ja) | 1989-02-02 | 1989-02-02 | 有音・無音検出方式 |
EP19900301081 EP0381507A3 (en) | 1989-02-02 | 1990-02-01 | Silence/non-silence discrimination apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1022522A JPH02204799A (ja) | 1989-02-02 | 1989-02-02 | 有音・無音検出方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02204799A true JPH02204799A (ja) | 1990-08-14 |
Family
ID=12085112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1022522A Pending JPH02204799A (ja) | 1989-02-02 | 1989-02-02 | 有音・無音検出方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02204799A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002261553A (ja) * | 2001-03-02 | 2002-09-13 | Ricoh Co Ltd | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム |
-
1989
- 1989-02-02 JP JP1022522A patent/JPH02204799A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002261553A (ja) * | 2001-03-02 | 2002-09-13 | Ricoh Co Ltd | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム |
JP4548953B2 (ja) * | 2001-03-02 | 2010-09-22 | 株式会社リコー | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0302663B1 (en) | Low cost speech recognition system and method | |
CA2020242C (en) | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns | |
NL8300718A (nl) | Werkwijze en inrichting voor herkenning van een foneem in een stemsignaal. | |
KR20180098806A (ko) | 자연어 인식 성능 개선 방법 및 장치 | |
JPH0990974A (ja) | 信号処理方法 | |
KR20000004972A (ko) | 음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및음성 인식 방법과 장치 | |
Hong et al. | Statistics pooling time delay neural network based on x-vector for speaker verification | |
JPH01296299A (ja) | 音声認識装置 | |
Laskowski et al. | An instantaneous vector representation of delta pitch for speaker-change prediction in conversational dialogue systems | |
US5751898A (en) | Speech recognition method and apparatus for use therein | |
JPH0222960B2 (ja) | ||
JPH02204799A (ja) | 有音・無音検出方式 | |
JPH01204099A (ja) | 音声認識装置 | |
JPH04369698A (ja) | 音声認識方式 | |
Siegel et al. | A pattern classification algorithm for the voiced/unvoiced decision | |
JPH0335297A (ja) | 有音・無音検出方式 | |
JPH0426479B2 (ja) | ||
KR100349656B1 (ko) | 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법 | |
JPH02203397A (ja) | 有音・無音検出方式 | |
JPH0442299A (ja) | 音声区間検出装置 | |
JPH034918B2 (ja) | ||
Kubanek et al. | A hybrid method of user identification with use independent speech and facial asymmetry | |
Balasubramaniyam et al. | Feature based Speaker Embedding on conversational speeches | |
JP3032215B2 (ja) | 有音検出装置及びその方法 | |
Vieira et al. | Speaker verification for security systems using artificial neural networks |