JPS5876899A

JPS5876899A - 音声区間検出装置

Info

Publication number: JPS5876899A
Application number: JP56175431A
Authority: JP
Inventors: 坂田　富生
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1981-10-31
Filing date: 1981-10-31
Publication date: 1983-05-10
Also published as: JPH0222398B2; DE3233637C2; GB2109205A; DE3233637A1; GB2109205B; US4535473A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は孤立発声された単語音声の音声区間を効果的に
検出し得る音声区間検出装置に関する。

孤立発生された単語音声をパターンマッチング等によっ
て認識する場合、その音声区間を正確に検出することが
重要である。一般に音声がエネルギーのＳ／Ｎにして３
０ｄＢ以上の比較的静かな環境で発生される場合、これ
を広帯域マイクロホンを介して入力することにより、そ
のパワーや零交差数が所定の閾値を越える区間を調べる
ことによって比較的簡易にその音声区間を検出すること
ができる。また会話形の音声認識システムにあっては、
ディスプレイ表示や音声出力等によって発声に発声促進
を行わしめることによって音声区間を検出することがで
きる。

つまり、この場合には発声前の無音区間のパワーや零交
差数の平均値、更にその分散等を求めて背景雑音レベル
に適合した閾値を設定した上で音声入力を得ることが可
能となるので、その音声区間検出を容易に行うことがで
きる。

ところが、周囲の雑音レベルが高いときや、その雑音レ
ベルが変動する場合には、如何に前処理によって閾値を
定めたとしても正確な音声区間の検出が困難である。即
ち、閾値を低めに設定した場合には閾値を越える雑音が
頻出し、所謂付加誤りが増加する。逆に閾値を高めに設
定した場合、その閾値より低い音声成分が欠けて所謂脱
落誤りが増加すると云う問題が生じる。

しかも、無音区間が保証されている場合には、上述した
ように背景雑音レベルに応じて閾値を可変することがで
きるが、一般に上記無音区間が必ずしも保証されている
とは云えない。この為、閾値を設定して音声入力の音声
区間を正確に検出することが非常に困難であった。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、背景雑音と音声信号とのＳ／Ｎ
が悪く、しかも背景雑音のレベルや性質が大きく変動す
る環境下で発声された音声の音声区間を正確に検出する
ことのできる簡易で実用性の高い音声区間検出装置を提
供することにある。

本発明の概要は、音声信号の音声パラメータ時系列から
音声区間と無音区間とが含まれる区間を抽出し、その区
間における上記音声パラメータの頻度分布から上記無音
区間の音声パラメータの平均値を求め、この平均値に従
って閾値を設定することによって上述した目的を効果的
に達成したものである。

先ず本発明の基本的な考え方につき説明する。

音声信号の音声区間を検出する場合、上記音声信号の音
声パラメータ時系列が用いられる。

この音声パラメータ声系列のグラフ化されたデータを人
間が見た場合、かなり正確に上記音声区間を検出するこ
とができる。これは人間がその思考過程において、音声
パラメータ値を音声のクラスに属するものかあるいは無
音のクラスに属するものかに分け、これから音声区間を
検出するに最適な閾値を決める。その後、この閾値を用
いて各時点の音声パラメータ値が音声区間に属するか否
かの判定を行い、更に音声区間に属する音声パラメータ
の時点が適当な長さ以上継続しているか否かを判定し、
これらの情報に従って音声区間を検出しているものと考
えられる。従って、このような思考過程を音声認識処理
の音声区間検出処理に組込むことによって、その正確な
音声区間検出を可能としたものが本発明に係る音声区間
検出装置である。

以下、図面を参照して本発明の一実施例につき説明する
。尚、ここでは音声信号より抽出される、音声パラメー
タとして、その短時間エネルギーＥを考えることにする
が、勿論他の要素をパラメータとすることも可能である
。

第１図は実施例装置の概略構成を示す図で、第２図（ａ
）（ｂ）および第３図はその作用を説明する為の図であ
る。

第１図において、広帯域マイクロホンから入力増幅器を
介して入力された音声信号は音声パラメータ抽出部１に
導びかれる。この音声パラメータ抽出部１は上記音声信
号のエネルギーを、例えば１０ｍｓｅｃ程度の短時間τ
毎に求め、その平均値を音声パラメータとして一定周期
で出力するものである。そして、このようにして求めら
れた前記音声信号の音声パラメータ時系列は所定時間幅
に亘って一旦バッファメモリ２に記憶される。第２図（
ａ）はこのようにしてバッファメモリ２に記憶される音
声パラメータの時系列を示している。またこの第２図（
ａ）に示す音声信号は、比較的背景雑音レベルが高い場
合を示している。

しかして、バッファメモリ２に記憶された音声パラメー
タは移動平均計算部３に導びかれてその移動平均パラメ
ータ値が第２図（ｂ）に示すように求められる。この音
声信号の移動平均パラメータ値の時系列が第１段目の音
声区間検出部４に導びかれる。この音声区間検出部４で
は、第２図（ｂ）に示すように、入力された音声パラメ
ータＥの移動平均時系列の値が、所定の閾値Ｅ１を越え
るか否かをその先頭から順次判定し、上記移動平均値が
始めて閾値Ｅ１を越える時点ａ１と、この時点ａ１以後
上記移動平均値が始めて閾値Ｅ１を下回る時点ｂ１をそ
れぞれ検出している。この時点ａ１から時点ｂ１に至る
範囲は音声区間として信頼性の高いものであり、これに
よって上記時点ａ１は音声信号の仮始端として、また時
時ｂ１は音声区間の仮終端としてそれぞれ検出される。

ところで、このような仮始端と仮終端の検出における前
記音声パラメータの移動平均処理は次のような意味をも
つ。短時間エネルギーは音声区間と無音区間とを判別す
る為の、比較的有効なパラメータであることは良く知ら
れている。

然し乍ら、背景雑音レベルが比較的高い環境下において
入力される音声信号には、瞬時的に大きなエネルギーを
持ったパルス性の雑音が混入する虞れが多分にある。こ
の為、音声パラメータの短時間エネルギーＥをそのまま
用いて仮始端および仮終端の検出を行った場合、上記パ
ルス性の雑音を音声区間に取込んでしまうと云う不具合
が起る。そこで、上記したように短時間エネルギーの移
動平均を求めることによって上述したパルス性の雑音を
ならすことにより、第２図（ｂ）に示すようにその特徴
を示すパラメータ成分を得ることができる。従って、こ
のように処理した移動平均値を用いることにより、パル
ス性雑音に左右されることなく安定に音声信号の存在区
間を検出することが可能となる。しかるのち、上記検出
され九仮始端ａ１と仮終端ｂ１によって定まる音声区間
において、短時間エネルギーＥの移動平均値のレベルが
最も高い時点Ｍを音声信号が存在する最も信頼性の高い
時点として検出する。

しかして、上述の如く第１段目の音声区間検出部４で求
められた仮始端ａ１および仮終端ｂ１め情報は、頻度分
布計数部５に与えられる。この頻度分布計数部５では、
仮始端ａ１の前位置に相当する所定時間幅Ｎｕの無音区
間の始点ａ２と、前記仮終端ｂ１の後位置に相当する所
定時間幅Ｎｕの無音区間の終点ｂ２とを定め、始点ａ２
から終点ｂ２に至る区間を頻度分布計数区間Ｎａとして
定めている。つまり、前記ａ１，ｂ１で定められる音声
区間を挾む前後の所定時間幅Ｎｕの無音区間を含む領域
を頻度分布計算区間としている。そして、こＯ計算区間
の音声パラメータを前記パッファメモリ２より読出して
そのヒストグラムを第３図のように求め、頻度分布を求
めている。尚、上記所定時間幅Ｎｕは、大略１００〜２
００ｍｓｅｃ程度に定められる。しかして閾値計算部６
では、頻度分布計数部５によって求められたヒストグラ
ムに従って、或る短時間エネルギーの値ＥＴＨを閾値と
して、短時間エネルギーＥの分布を２つのクラスに分け
ている。

そして、エネルギーＥが上記閾値ＥＴＨより低いクラス
を無音クラス、また閾値ＥＴＨより高いクラスを音声ク
ラスとして定めている。そして、この２つのクラス間の
級間分散σＢを計算し、この級間分散σＢが最大となる
べく、最適な閾値ＥＴＨＯを求めている。この閾値ＥＴ
ＨＯに従って閾値計算部６はＥ＜ＥＴＨＯなる無音クラ
スの頻度分布から無音区間の短時間エネルギーＥの平均
値を求め、更にこの平均値に短時間エネルギーＥの所謂
ばらつきを考慮した上で所定の値を加え、゛これを音声
区間検出の正規の閾値ＥＯＰとして出力している。

尚、無音クラスと音声クラスを区分する最適閾値ＥＴＨ
Ｏを求めるに際し、閾値ＥＴＨを短時間エネルギーＥの
最小値から最大値まで変化させて、その全てにおける級
間分散σＢを求め、級間分散σＢが最大となる閾値ＥＴ
Ｈを検出して最適閾値ＥＴＨＯを決定するようにしても
よい。しかしこのように処理することは複雑である上、
実際には級間分散σＢが単峰性を有することから、これ
を利用して級間分散σＢの極大値を検出したとき、これ
を最大値と看倣して最適閾値ＥＴＨＯを決定するように
してもよい。

しかして、第２段目の音声区間検出部１には閾値計算部
６で求められた閾値ＥＯＰおよび前記第１段目の音声区
間検出部４で求められた時点Ｍの情報をそれぞれ入力し
ている。そして、これら情報ＥＯＰ、Ｍに従って前記バ
ッファメモリ２から読出した音声パラメータを処理して
、その音声区間の始端ａと終端ｂとをそれぞれ求めてい
る。

この音声区間検出部１における音声区間の始点ａおよび
終点ｂの検出アルゴリズムは次の通りである。即ち始端
ａの検出は、中心時点Ｍより短時間エネルギーＥの時系
列を逆に辿り、その値が閾値ＥＯＰを下廻る時点を検出
する。つまりＥ＜ＥＯＰなる時点を検出する。そして、
Ｅ＜ＥＯＰとなる最初の時点をａとし、この時点ａより
前方にＥ＜ＥＯＰなる区間が所定の時間幅Ｎ１だけ継続
するか否かを調べる。上記時間幅Ｎ１は、例えば２００
〜２５０ｍｓｅｃ程度である。そして、上記時間幅Ｎ１
の条件が満たされたとき、上記時点ａを始点ａとして検
出する。尚、上記最初のＥ＜ＥＯＰ点検出後、時間幅Ｎ
１なる無音区間が検出されないとき、その間にＥ＞ＥＯ
Ｐとなる区間が所定時間幅Ｎ２に満たない場合には、こ
れをパルス性の雑音によるものだと看倣し、無音区間と
して判定する。従ってこの場合には、先の時点ａに逆上
って始端ａが決定されることになる。

またＥ＞ＥＯＰなる区間が所定時間幅Ｎ３以上継続した
場合には単語中の別の音声区間であると看倣して、次の
Ｅ＜ＥＯＰとなる時点を改めてａと設定し、同様に無音
区間（時間幅Ｎ１）の検出を行い、これを順次繰返して
始端ａを決定する。

一方、終端も同様なアルゴリズによって検出されるが、
この場合中心時点Ｍから時系列方向（時間方向）に短時
間エネルギーＥを検出して行われる。

以上のようにして音声区間検出部１により入力音声の音
声パラメータ時系列から、その音声区間を示す始端ａと
終端ｂとがそれぞれを確に検出されることになる。従っ
て、背景雑音レベルが高い場合であっても、またそのレ
ベルが変動する環境下にあっても簡易にして正確に音声
区間の検出を行うことができる。しかも第１図に示した
ように装置構成は簡単であり、また安定動作が期待でき
る。従って実用的利点は絶大である。また始点ａおよび
終点ｂの検出アルゴリズムも簡単であり、信頼性の高い
高精度な検出が可能となる。

尚、本発明は上記実施例に限定されるものではない。例
えば音声パラメータとして、ＬＰＣ分析による予測誤差
や、音声信号の相関係数等を用いることができる。また
頻度計算のアルゴリズム等も種々変形できる。要するに
本発明はその要旨を逸脱しない範囲で種々変形して実施
することかできる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す音声区間検出装置の概
略構成図、第２図（ａ）（ｂ）および第３図は実施例装
置の作用を説明する為の音声パラメータとその移動平均
とヒストグラムをそれぞれ示す図である。１・・・音声パラメータ抽出部、２・・・バッファメモ
リ、３・・・移動平均計算部、４・・・音声区間検出部
、５・・・頻度分布計数部、６・・・閾値計算部、７・
・・音声区間検出部。出願人代理人　　弁理士　鈴　江　武　彦第３図手続補正書特許庁長噛　　島ＦＢ４−樹　殿１、事件の表ボ特屓帖　暫６−１７を今３１号２、発明的λ邦弥音３０問検出震１３、補ＩＥをする者慣性との関係　％ｔｒ出４吻人（３゜−ｒ）肇克を瑚電気林弐全昶４、代理人う、白＠ネ山′ミ稍殉１い′ 〒、−Ｉ！＃゛正の内盗（１）　　　Ｑ１１１Ｂ＊、ｅｌｒ＋喚＞ｓｉ〒Ｆ４　
＋＝　　”％ｐ−ｒ、ｔ’％イ鑓。（亮２１ｆｅ−発声渚に尭斉イｌ蓮」ヒ社正１３゜（２
）　　同１オ６勧、！−３舌Ｔ＠＋＝’ｔｋ奔バラメ−
２與系“３リヨヒあａ　ｔｅ　ｒ−ｉ％−、：声ハ０ラ
メータ畔り系号」」　七智テ正Ｊ３゜（３）＋’ｉ、＞
ｔ４Ｉ、Ｉｔｔ口ｔ＝　’　ｌ　＊ｌ”＋”ｅＡｌＮ＊
　＋：」’ｅ＊ａ　”ｅ　’　１４＜％”＋　Ｚ；４Ｌ
　Ｉ’；」＆　’ｈＬ３Ｒ。

Claims

【特許請求の範囲】

（１）入力音声からその音声パラメータ時系列を抽出す
る手段と、この音声パラメータ時系列を記憶するメモリ
と、上記音声パラメータ時系列から音声区間の仮始端と
仮終端とをそれぞれ検出する手段と、上記仮始端と仮終
端とによって定められる音声区間およびこの音声区間を
挾む前後の所定時間幅の無音区間の音声パラメータを前
記メモリから抽出してこれらの抽出された音声パラメー
タの頻度分布を求める手段と、この頻度分布に従って上
記無音区間における音声パラメータの平均値を求める手
段と、この平均値に従って前記メモリに記憶された音声
パラメータに対する閾値を設定して音声区間の始端と終
端とをそれぞれ検出する手段とを具備したことを特徴と
する音声区間検出装置。
（２）音声区間の仮始端と仮終端とをそれぞれ検出する
手段は、メモリに記憶された音声パラメータ時系列の移
動平均パラメータ値を求め、この移動平均パラメータ値
が所定の値を越えて所定の時間幅継続したとき、その始
点を仮始端とし、且つその終点を仮終端としてそれぞれ
検出するものである特許請求の範囲第１項記載の音声区
間検出装置。
（３）頻度分布から無音区間における音声パラメータの
平均値を求める手段は、頻度分布を２つのクラスに分割
したときクラス間の級間分散が最大となる値にて頻度分
布を２つのクラスに分け、その一方を無音区間のものと
看倣すと共に他方を音声区間のものと看倣して上記無音
区間のクラスの平均値を無音区間の音声パラメータの平
均値として求めるものである特許請求の範囲第１項記載
の音声区間検出装置。
（４）音声パラメータの平均値に従って設定される閾値
は、上記無音区間の音声パラメータの平均値に所定の値
を加えて設定されるものである特許請求の範囲第１項記
載の音声区間検出装置。
（５）音声区間の始端（終端）を検出する手段は、仮始
端から仮終端の間で移動平均パラメータ値により音声区
間の中心を検出し、その点から前方（後方）に音声パラ
メータ値が閾値を下まわっているかどうか調べていき、
音声パラメータ値が、閾値を下まわって所定の時間幅継
続したとき、その始点を音声区間の始端（終端）として
それぞれ決定するものである特許請求の範囲第１項記載
の音声区間検出装置。