JPH0222398B2

JPH0222398B2 -

Info

Publication number: JPH0222398B2
Application number: JP56175431A
Authority: JP
Inventors: Tomio Sakata
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1981-10-31
Filing date: 1981-10-31
Publication date: 1990-05-18
Also published as: GB2109205A; JPS5876899A; US4535473A; DE3233637A1; DE3233637C2; GB2109205B

Description

【発明の詳細な説明】本発明は弧立発声された単語音声の音声区間を
効果的に検出し得る音声区間検出装置に関する。

弧立発生された単語音声をパターンマツチング
等によつて認識する場合、その音声区間を正確に
検出することが重要である。一般に音声がエネル
ギーのＳ／Ｎにして30dB以上の比較的静かな環
境で発生される場合、これを広帯域マイクロホン
を介して入力することにより、そのパワーや零交
差数が所定の閾値を越える区間を調べることによ
つて比較的簡易にその音声区間を検出することが
できる。また会話形の音声認識システムにあつて
は、デイスプレイ表示や音声出力等によつて発声
者に発声促進を行わしめることによつて音声区間
を検出することができる。つまり、この場合には
発声前の無音区間のパワーや零交差数の平均値、
更にその分散等を求めて背景雑音レベルに適合し
た閾値を設定した上で音声入力を得ることが可能
となるので、その音声区間検出を容易に行うこと
ができる。

ところが、周囲の雑音レベルが高いときや、そ
の雑音レベルが変動する場合には、如何に前処理
によつて閾値を定めたとしても正確な音声区間の
検出が困難である。即ち、閾値を低めに設定した
場合には閾値を越える雑音が頻出し、所謂付加誤
りが増加する。逆に閾値を高めに設定した場合、
その閾値より低い音声成分が欠けて所謂脱落誤り
が増加すると云う問題が生じる。しかも、無音区
間が保証されている場合には、上述したように背
景雑音レベルに応じて閾値を可変することができ
るが、一般に上記無音区間が必ずしも保証されて
いるとは云えない。この為、閾値を設定して音声
入力の音声区間を正確に検出することが非常に困
難であつた。

本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、背景雑音と音声
信号とのＳ／Ｎが悪く、しかも背景雑音のレベル
や性質が大きく変動する環境下で発声された音声
の音声区間を正確に検出することのできる簡易で
実用性の高い音声区間検出装置を提供することに
ある。

本発明の概要は、音声信号の音声パラメータ時
系列から音声区間と無音区間とが含まれる区間を
抽出し、その区間における上記音声パラメータの
頻度分布から上記無音区間の音声パラメータの平
均値を求め、その平均値に従つて閾値を設定する
ことによつて上述した目的を効果的に達成したも
のである。

先ず本発明の基本的な考え方につき説明する。

音声信号の音声区間を検出する場合、上記音声
信号の音声パラメータ時系列が用いられる。この
音声パラメータ時系列のグラフ化されたデータを
人間が見た場合、かなり正確に上記音声区間を検
出することができる。これは人間がその思考過程
において、音声パラメータ値を音声のクラスに属
するものかあるいは無音のクラスに属するものか
に分け、これから音声区間を検出するに最適な閾
値を決める。その後、この閾値を用いて各時点の
音声パラメータ値が音声区間に属するか否かの判
定を行い、更に音声区間に属する音声パラメータ
の時点が適当な長さ以上継続しているか否かを判
定し、これらの情報に従つて音声区間を検出して
いるものと考えられる。このような思考過程を音
声認識処理の音声区間検出処理に組込むことによ
つて、その正確な音声区間検出を可能としたもの
が本発明に係る音声区間検出装置である。

以下、図面を参照して本発明の一実施例につき
説明する。尚、ここでは音声信号より抽出され
る、音声パラメータとして、その短時間エネルギ
ーＥを考えることにするが、勿論他の要素をパラ
メータとすることも可能である。

第１図は実施例装置の概略構成を示す図で、第
２図ａ，ｂおよび第３図はその作用を説明する為
の図である。

第１図において、広帯域マイクロホンから入力
増幅器を介して入力された音声信号は音声パラメ
ータ抽出部１に導びかれる。この音声パラメータ
抽出部１は上記音声信号のエネルギーを、例えば
10msec程度の短時間τ毎に求め、その平均値を
音声パラメータとして一定周期で出力するもので
ある。そして、このようにして求められた前記音
声信号の音声パラメータ時系列は所定時間幅に亘
つて一旦バツフアメモリ２に記憶される。第２図
ａはこのようにしてバツフアメモリ２に記憶され
る音声パラメータの時系列を示している。またこ
の第２図ａに示す音声信号は、比較的背景難音レ
ベルが高い場合を示している。

しかして、バツフアメモリ２に記憶された音声
パラメータは移動平均計算部３に導びかれてその
移動平均パラメータ値が第２図ｂに示すように求
められる。この音声信号の移動平均パラメータ値
の時系列が第１段目の音声区間検出部４に導びか
れる。この音声区間検出部４では、第２図ｂに示
すように、入力された音声パラメータＥの移動平
均時系列の値が、所定の閾値E₁を越えるか否か
をその先頭から順次判定し、上記移動平均値が始
めて閾値E₁を越える時点a₁と、この時点a₁以後上
記移動平均値が始めて閾値E₁を下回る時点b₁をそ
れぞれ検出している。その時点a₁から時点b₁に至
る範囲は音声区間として信頼性の高いものであ
り、これによつて上記時点a₁は音声信号の仮始端
として、また時点b₁は音声区間の仮終端としてそ
れぞれ検出される。

ところで、このような仮始端と仮終端の検出に
おける前記音声パラメータの移動平均処理は次の
ような意味をもつ。短時間エネルギーは音声区間
と無音区間とを判別する為の、比較的有効なパラ
メータであることは良く知られている。然し乍
ら、背景雑音レベルが比較的高い環境下において
入力される音声信号には、瞬間的に大きなエネル
ギーを持つたパルス性の雑音が混入する虞れが多
分にある。この為、音声パラメータの短時間エネ
ルギーＥをそのまま用いて仮始端および仮終端の
検出を行つた場合、上記パルス性の雑音を音声区
間に取込んでしまうと云う不具合が起る。そこ
で、上記したように短時間エネルギーの移動平均
を求めることによつて上述したパルス性の雑音を
ならすことにより、第２図ｂに示すようにその特
徴を示すパラメータ成分を得ることができる。従
つて、このように処理した移動平均値を用いるこ
とにより、パルス性雑音に左右されることなく安
定に音声信号の存在区間を検出することが可能と
なる。しかるのち、上記検出された仮始端a₁と仮
終端b₁によつて定まる音声区間において、短時間
エネルギーＥの移動平均値のレベルが最も高い時
点Ｍを音声信号が存在する最も信頼性の高い時点
として検出する。

しかして、上述の如く第１段目の音声区間検出
部４で求められた仮始端a₁および仮終端b₁の情報
は、頻度分布計数部５に与えられる。この頻度分
布計数部５では、仮始端a₁の前位置に相当する所
定時間幅Nuの無音区間の始点a₂と、前記仮終端
b₁の後位置に相当する所定時間幅Nuの無音区間
の終点b₂とを定め、始点a₂から終点b₂に至る区間
を頻度分布計数区間Nsとして定めている。つま
り、前記a₁，b₁で定められる音声区間を挾む前後
の所定時間幅Nuの無音区間を含む領域を頻度分
布計算区間としている。そして、この計算区間の
音声パラメータを前記バツフアメモリ２より読出
してそのヒストグラムを第３図のように求め、頻
度分布を求めている。尚、上記所定時間幅Nuは、
大略100〜200msec程度に定められる。しかして
閾値計算部６では、頻度分布計数部５によつて求
められたヒストグラムに従つて、或る短時間エネ
ルギーの値E_THを閾値として、短時間エネルギー
Ｅの分布を２つのクラスに分けている。そして、
エネルギーＥが上記閾値E_THより低いクラスを無
音クラス、また閾値E_THより高いクラスを音声ク
ラスとして定めている。そして、この２つのクラ
ス間の級間分散σ_Bを計算し、この級間分散σ_Bが最
大となるべく、最適な閾値E_THOを求めている。こ
の閾値E_THOに従つて閾値計算部６はＥ＜E_THOなる
無音クラスの頻度分布から無音区間の短時間エネ
ルギーＥの平均値を求め、更にこの平均値に短時
間エネルギーＥの所謂ばらつきを考慮した上で所
定の値を加え、これを音声区間検出の正規の閾値
E_OPとして出力している。

尚、無音クラスと音声クラスを区分する最適閾
値E_THOを求めるに際し、閾値E_THを短時間エネル
ギーＥの最小値から最大値まで変化させて、その
全てにおける級間分散σ_Bを求め、級間分散σ_Bが最
大となる閾値E_THを検出して最適閾値E_THOを決定
するようにしてもよい。しかしこのように処理す
ることは複雑である上、実際には級間分散σ_Bが単
峰性を有することから、これを利用して級間分散
σ_Bの極大値を検出したとき、これを最大値と看做
して最適閾値E_THOを決定するようにしてもよい。

しかして、第２段目の音声区間検出部７には閾
値計算部６で求められた閾値E_OPおよび前記第１
段目の音声区間検出部４で求められた時点Ｍの情
報をそれぞれ入力している。そして、これら情報
E_OP、Ｍに従つて前記バツフアメモリ２から読出
した音声パラメータを処理して、その音声区間の
始端ａと終端ｂとをそれぞれ求めている。

この音声区間検出部７における音声区間の始点
ａおよび終点ｂの検出アルゴリズムは次の通りで
ある。即ち始端ａの検出は、中心時点Ｍより短時
間エネルギーＥの時系列を逆に辿り、その値が閾
値E_OPを下廻る時点を検出する。つまりＥ＜E_OPな
る時点を検出する。そして、Ｅ＜E_OPとなる最初
の時点をとし、この時点より前方にＥ＜E_OP
なる区間が所定の時間幅N₁だけ継続するか否か
を調べる。上記時間幅N₁は、例えば200〜
250msec程度である。そして、上記時間幅N₁の
条件が満たされたとき、上記時点を始点ａとし
て検出する。尚、上記最初のＥ＜E_OP点検出後、
時間幅N₁なる無音区間が検出されないとき、そ
の間にＥ＞E_OPとなる区間が所定時間幅N₂に満た
ない場合には、これをパルス性の雑音によるもの
だと看做し、無音区間として判定する。従つてこ
の場合には、先の時点に逆上つて始端ａが決定
されることになる。

またＥ＞E_OPなる区間が所定時間幅N₂以上継続
した場合には単語中の別の音声区間であると看做
して、次のＥ＜E_OPとなる時点を改めてと設定
し、同様に無音区間（時間幅N₁）の検出を行い、
これを順次繰返して始端ａを決定する。

一方、終端も同様なアルゴリズによつて検出さ
れるが、この場合中心時点Ｍから時系列方向（時
間方向）に短時間エネルギーＥを検出して行われ
る。

以上のようにして音声区間検出部７により入力
音声の音声パラメータ時系列から、その音声区間
を示す始端ａと終端ｂとがそれぞれ正確に検出さ
れることになる。従つて、背景雑音レベルが高い
場合であつても、またそのレベルが変動する環境
下にあつても簡易にして正確に音声区間の検出を
行うことができる。しかも第１図に示したように
装置構成は簡単であり、また安定動作が期待でき
る。従つて実用的利点は絶大である。また始点ａ
および終点ｂの検出アルゴリズムも簡単であり、
信頼性の高い高精度な検出が可能となる。

尚、本発明は上記実施例に限定されるものでは
ない。例えば音声パラメータとして、LPC分析
による予測誤差や、音声信号の相関係数等を用い
ることができる。また頻度計算のアルゴリズム等
も種々変形できる。要するに本発明はその要旨を
逸脱しない範囲で種々変形して実施することがで
きる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す音声区間検出
装置の概略構成図、第２図ａ，ｂおよび第３図は
実施例装置の作用を説明する為の音声パラメータ
とその移動平均とヒストグラムをそれぞれ示す図
である。１…音声パラメータ抽出部、２…バツフアメモ
リ、３…移動平均計算部、４…音声区間検出部、
５…頻度分布計数部、６…閾値計算部、７…音声
区間検出部。

Claims

【特許請求の範囲】１入力音声からその音声パラメータ時系列を抽
出する手段と、その音声パラメータ時系列を記憶
するメモリと、上記音声パラメータ時系列から音
声区間の仮始端と仮終端とをそれぞれ抽出する手
段と、上記仮始端と仮終端とによつて定められる
音声区間およびこの音声区間を挟む前後の所定時
間幅の無音区間の音声パラメータを前記メモリか
ら抽出してこれらの抽出された音声パラメータの
頻度分布を求める手段と、この頻度分布の従つて
上記無音区間における音声パラメータの平均値を
求める手段と、この平均値に従つて前記メモリに
記憶された音声パラメータに対する閾値を設定し
て音声区間の始端を検出する手段と、前記平均値
に従つて前記メモリに記憶された音声パラメータ
に対する閾値を設定して音声区間の終端を検出す
る手段とを具備したことを特徴とする音声区間検
出装置。２音声区間の仮始端と仮終端とをそれぞれ検出
する手段は、メモリに記憶された音声パラメータ
時系列の移動平均パラメータ値を求め、この移動
平均パラメータ値が所定の時間幅継続したとき、
その始点を仮始端とし、且つそり終点を仮終端と
してそれぞれ検出するものである特許請求の範囲
第１項に記載の音声区間検出装置。３頻度分布から無音区間における音声パラメー
タの平均値を求める手段は、頻度分布を２つのク
ラスに分割したときクラス間の級間分散が最大と
なる値にて頻度分布を２つのクラスに分け、その
一方を無音区間のものと看做すと共に他方を音声
区間のものと看做して上記音声区間のクラスの平
均値を無音区間の音声パラメータの平均値として
求めるものである特許請求の範囲第１項に記載の
音声区間検出装置。４音声パラメータの平均値に従つて設定される
閾値は、上記無音区間の音声パラメータの平均値
に所定の値を加えて設定されるものである特許請
求の範囲第１項に記載の音声区間検出装置。５音声区間の始端を検出する手段は、仮始端か
ら仮終端の間での移動平均パラメータ値により音
声区間の中心を検出し、その点から前方に音声パ
ラメータ値が閾値を下回つているどうかを調べて
いき、音声パラメータ値が閾値を下回つて所定の
時間幅継続したとき、その始点を音声区間の始端
として決定するものである特許請求の範囲第１項
に記載の音声区間検出装置。６音声区間の終端を検出する手段は、仮始端か
ら仮終端の間での移動平均パラメータ値により音
声区間の中心を検出し、その点から後方に音声パ
ラメータ値が閾値を下回つているどうかを調べて
いき、音声パラメータ値が閾値を下回つて所定の
時間幅継続したとき、その始点を音声区間の終端
として決定するものである特許請求の範囲第１項
に記載の音声区間検出装置。