JP2643202B2 - 入力音声の定常部、過渡部、不確定部の検出装置 - Google Patents

入力音声の定常部、過渡部、不確定部の検出装置

Info

Publication number
JP2643202B2
JP2643202B2 JP62310569A JP31056987A JP2643202B2 JP 2643202 B2 JP2643202 B2 JP 2643202B2 JP 62310569 A JP62310569 A JP 62310569A JP 31056987 A JP31056987 A JP 31056987A JP 2643202 B2 JP2643202 B2 JP 2643202B2
Authority
JP
Japan
Prior art keywords
transient
steady
difference value
detection parameter
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62310569A
Other languages
English (en)
Other versions
JPH01150200A (ja
Inventor
誠 赤羽
曜一郎 佐古
篤信 平岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP62310569A priority Critical patent/JP2643202B2/ja
Priority to KR1019880016203A priority patent/KR0136608B1/ko
Priority to AU26617/88A priority patent/AU612737B2/en
Priority to GB8828532A priority patent/GB2213623B/en
Priority to DE3841376A priority patent/DE3841376A1/de
Priority to FR888816163A priority patent/FR2624297B1/fr
Publication of JPH01150200A publication Critical patent/JPH01150200A/ja
Application granted granted Critical
Publication of JP2643202B2 publication Critical patent/JP2643202B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、音声認識において、入力音声の音韻区間
を分割するために重要な情報となる入力音声の定常部、
過渡部、不確定部の検出装置に関する。
〔発明の概要〕
この発明は周波数方向に分割されたチャンネルのそれ
ぞれの時間方向のブロック内の分散の和として求められ
た過渡検出パラメータと、その差分値とから入力音声の
過渡部、定常部、どちらとも言えない不確定部の検出を
行なうようにしたもので、より精度よく、検出ができる
ようにしたものである。
〔従来の技術〕
連続音声、大語彙音声認識の場合には、音韻認識が基
本となる。この音韻認識に当っては認識対象の入力音声
を音韻区間毎に分割する必要がある。
例えば「す」という語を発音したとき、音声波形は第
3図Aに示すようになり、子音「S」と母音「U」とに
音韻分割することができる。この場合に、この音声波形
から明らかなように、音韻が変化する部分すなわち過渡
部内に分割点が存在することが明らかであり、また1つ
の音韻区間内の定常性を有する部分、すなわち定常部で
音韻認識をすれば認識を正しく行なうことができる。
この過渡性及び定常性を計る手段として以下に説明す
るような過渡検出パラメータを用いる方法が提案されて
いる。
この過渡検出パラメータは、音声スペクトルの変化量
を各チャンネル(周波数)の時間方向のブロック内の分
散の和として定義される。
すなわち、先ず、音声スペクトルSi(n)を周波数方
向の以下に示す平均値Savg(n)でゲインを正規化す
る。
ここで、iはチャンネル番号、qはチャンネル数を示
す。また、qチャンネルの各チャンネルの情報は時間方
向にサンプリングされるが、同一時点のqチャンネルの
情報のブロックをフレームといい、nは認識に使用され
るフレームの番号を示している。
ゲイン正規化の行われた音声スペクトルi(n)は i(n)=Si(n)−Savg(n) ‥‥(2) となる。
過渡検出パラメータT(n)は、そのフレームの前後
のMフレームの合計(2M+1)である〔n−M,n+M〕
ブロック内の各チャンネルの時間方向の分散の和として
定義する。
ここで、 で各チャンネルのブロック内の時間方向の平均値であ
る。
なお、実際的には〔n−M,n+M〕ブロック中心付近
の変化は、音のゆらぎやノイズを拾いやすいので、過渡
検出パラメータT(n)の計算から取り除くことにし、
第(3)式は次のように変更される。
そして、第(5)式において、a=1,M=28,m=3,q=
32としてパラメータT(n)が求められ、前述した「S
U」の入力音声の場合、第3図Bのようになる。
そこで、この過渡検出パラメータT(n)に対し、ス
レッショールト値を設定して比較し、スレッショールド
値より大きいところを過渡部、スレッショールド値より
小さいところを定常部として検出することができる。
〔発明が解決しようとする問題点〕
ところで、過渡検出パラメータT(n)は、音声スペ
クトルの変化の一番激しい過渡点−パラメータT(n)
のピーク点−を検出するのを主たる目的としているた
め、過渡性、定常性を計る場合に、これを単純に適用す
ることは困難である。すなわち、スレッショールド値の
設定が困難であり、定常部と過渡部とを正しく分けるこ
とがむずかしかった。
この発明は、より精度よく定常部、過渡部を検出でき
る装置を提供することを目的とする。
〔問題点を解決するための手段〕
この発明においては、例えば第1図に示すように音響
分析手段(5)と、過渡検出パラメータ演算手段(6)
と、過渡検出パラメータの差分値を求める差分値演算手
段(7)と、過渡部、定常部、不確定部の判別手段
(8)とからなる。
〔作用〕
音響分析手段(5)は入力音声を周波数方向に複数チ
ャンネルに分けて音響分析を行ない、音声スペクトルを
得る。
過渡検出パラメータ演算手段(6)は音響分析手段
(5)からの音声スペクトルから過渡検出パラメータを
得る。
差分値演算手段(7)は連続する2フレーム間の過渡
検出パラメータの差分値を求める。
判別手段(8)は過渡検出パラメータと差分値とから
入力音声の定常部を決定し、差分値から過渡部を決定
し、定常部でも過渡部でない期間は不確定部として検出
する。
〔実施例〕
第1図はこの発明による検出装置の一実施例を備えた
音声認識装置の一例を示す。
すなわち、マイクロホン(1)からの音声信号がアン
プ(2)及び帯域制限用のローパスフィルタ(3)を介
してA/Dコンバータ(4)に供給され、例えば12.5kHzの
サンプリング周波数で12ビットのデジタル音声信号に変
換される。このデジタル音声信号は音響分析手段(5)
に供給される。
この音響分析手段(5)はバンドパスフィルタバンク
(51)およびその他の音響分析手段(54)からなってい
る。バンドパスフィルタバンク(51)は、例えば32チャ
ンネルのデジタルバンドパスフィルタ(5110)(5111
(5112)‥‥(51131)を備える。このデジタルバンド
パスフィルタ(5110)(5111)‥‥(51131)は例えば
バターワース4次のデジタルフィルタにて構成され、25
0Hzから5.5kHzまでの帯域が対数軸上で等間隔で分割さ
れた各帯域が各フィルタの通過帯域となるようにされて
いる。そして、各デジタルバンドパスフィルタ(5110
(5111)‥‥(51131)の出力信号はそれぞれ整流回路
(5120)(5121)(5122)‥‥(51231)に供給され、
これら整流回路(5120)〜(51231)の出力はそれぞれ
デジタルローパスフィルタ(5130)(5131)(5132)‥
‥(51331)に供給される。これらデジタルローパスフ
ィルタ(5130)(5131)(5132)‥‥(51331)は例え
ばカットオフ周波数52.8HzのFIRローパスフィルタにて
構成される。各デジタルローパスフィルタ(5130)(51
31)(5132)‥‥(51331)の出力信号はサンプラー(5
2)に供給される。このサンプラー(52)ではデジタル
ローパスフィルタ(5130)(5131)‥‥(51331)の出
力信号をフレーム周期5.12msec毎にサンプリングする。
したがって、これよりはサンプル時系列(音声スペクト
ル)Si(n)(i=1,2,‥‥32;nはフレーム番号でn=
1,2‥‥q)が得られる。
このサンプラー(52)からの出力、つまりサンプル時
系列Si(n)は正規化回路(53)に供給され、これより
正規化された音声スペクトルの時系列i(n)が得ら
れる。
また、他の音響分析手段(54)では、この例では入力
音声の対数パワー、ゼロクロスレート、前後のサンプル
間の相関の強さを示す1次パーコール(PARCOR)係数、
パワースペクトルの傾きが求められる。これらの情報
は、サンプラー(55)に供給されて、サンプラー(52)
と同じサンプリングパルスによりサンプリングされる。
したがって、このサンプラー(55)からは各分析情報が
音声スペクトルSi(n)と同じサンプル時系列とされて
得られる。
正規化回路(53)からの音声スペクトルのサンプル時
係数Si(n)は過渡検出パラメータ演算手段(6)に供
給され、前述の第(5)式の演算がなされて、過渡検出
パラメータT(n)が求められる。この場合、第(5)
式において、M=5,m=2とし、前述の従前の場合の
値、M=28,m=3に比べて小さくして、過渡部、定常部
検出のためと、計算量削減を図っている。
この演算手段(6)からの過渡検出パラメータT
(n)は、差分値演算手段(7)に供給され、過渡検出
パラメータの差分値dT(n)が dT(n)=T(n+1)−T(n) ‥‥(6) として求められる。
そして、演算手段(6)からの過渡検出パラメータT
(n)と、演算手段(7)からの差分値dT(n)とは判
定手段(8)に供給されて、この判定手段(8)からは
過渡部、定常部、不確定部の判定出力が得られる。これ
ら判定出力は音韻セグメンテーション手段(9)に供給
される。一方、演算手段(6)からの過渡検出パラメー
タ時系列T(n)と、サンプラー(55)からの他の音響
分析結果のパラメータ時系列とが、この音韻セグメンテ
ーション手段(9)にセグメンテーション用パラメータ
として供給されるとともに、音韻認識手段(10)に認識
処理用パラメータとして供給される。
そして、音韻セグメンテーション手段(9)では、判
定手段(8)からの過渡部、定常部、不確定部の判定出
力を参照しながら、主として過渡部内に音韻区間境界が
存在するとし、演算手段(6)およびサンプラー(55)
からのパラメータから音韻区間候補を求める。この音韻
区間候補は音韻認識手段(10)に供給される。この音韻
認識手段(10)では与えられた音響パラメータを認識処
理用パラメータとし、音韻セグメンテーション手段
(9)で求められた音韻区間候補を参照しながら音韻認
識を実行する。そして、この音韻認識手段(10)からは
認識された音韻記号が得られ、これが後段の連続音声、
大語彙音声認識手段に供給される。
次に、判定手段(8)について説明するに、この例で
は判定手段(8)はパラメータメモリ(81)、差分値メ
モリ(82)、定常部判定部(83)、過渡点検出部(8
4)、過渡部判定部(85)、不確定部判定部(86)から
なる。パラメータメモリ(81)には演算手段(6)から
の過渡検出パラメータT(n)がストアされ、また、差
分値メモリ(82)には差分値dT(n)がストアされる。
以下、判定の動作を順次説明する。
定常部判定部(83)はメモリ(81)および(82)に
サーチ信号を送り、順次パラメータT(n)およびdT
(n)をメモリ(81)(82)から読み出し、 T(n)≦TS1 ‥‥(7) または T(n)≦TS2(ただしTS1<TS2)かつ dT(n)≦|d0| ‥‥(8) を満足する区間を定常部として判定する。ここで、TS1,
TS2,d0は設定されたスレッショールド値であり、例え
ば、TS1=1.0,TS2=1.5,d0=0.1とされる。
過渡点検手段(84)ではパラメータメモリ(81)か
ら読み出された過渡検出パラメータT(n)のピーク点
(第3図B参照)を検出し、このピーク点を過渡部の中
心である過渡点とし、この過渡点の位置情報(フレーム
番号)を過渡部判定部(85)に供給する。
過渡部判定部(85)は、差分値メモリ(82)に過渡
点を基点としたサーチ信号を送り、差分値dT(n)を読
み出す。この場合に先ず過渡点を基点として時間的に過
去にサーチ(以下後方サーチという)し、差分値dT
(n)が、 dT(n)≧d1(d1はスレッショールド値) ‥‥(9) を満足する区間を判定し、後方過渡部とする。例えばd1
=0.2とする。
この後方サーチにおいて、上記(9)式を満足する
区間が定常部判定部(83)で判定された定常部と重なる
ときは、その定常部と重なる直前の点までを過渡部とす
る。
次に、過渡部判定部(85)は過渡部を基点として時
間的に未来にサーチ(以下前方サーチという)し、 dT(n)≦−d1 ‥‥(10) を満足する区間を判定し、前方過渡部とする。
この前方サーチにおいても、上記(10)式を満足す
る区間が定常部と重なったときは、その定常部と重なる
直前の点までを過渡部とする。
後方過渡部と前方過渡部とで、一つの過渡点を中心
とした過渡部が検出される。以上が各過渡点について行
なわれ、過渡部のすべての判定がなされる。
次に、定常部判定部(83)の判定出力と、過渡部判
定部(85)の判定出力とから、不確定部判定部(86)で
は、定常部および過渡部のどちらにも決定されなかった
区間を不確定部とする。
この不確定部判定部(86)の判定出力は、定常部判定
部(83)の判定出力および過渡部判定部(85)の判定出
力とともに、前述したように音韻セグメンテーション手
段(9)に供給される。
なお、判定手段(8)の判定出力を音韻認識手段(1
0)に供給し、認識に当たって定常部を特に注目すると
ともに、不確定部は変動要因となるので、この区間を認
識時には無視するようにすることにより、より正しい認
識を行なうことができる。
なお、以上はコンピュータを用いて演算処理すること
ができる。第2図はそのときの定常部、過渡部、不確定
部の判定手順を示すフローチャートである。
〔発明の効果〕
この発明は、過渡検出パラメータを単にスレッショー
ルド値と比較して過渡部と定常部とを判定するのではな
く、過渡検出パラメータの差分値を求め、過渡検出パラ
メータと、その差分値から定常部を定め、差分値から過
渡部を定めるようにしたので、より精度よく過渡部、定
常部の判定ができる。
また、この発明では過渡部でも定常部でもない区間を
不確定部として検出するようにしたので、この不確定部
判定出力を求めることにより、変動要因となるこの不確
定部を除去した区間で音韻区間判定や音韻認識をするこ
とが可能になる。
【図面の簡単な説明】
第1図はこの発明の一実施例を適用した音声認識装置の
一例のブロック図、第2図はこの発明の要部の一例の説
明のためのフローチャート、第3図は入力音声波形と過
渡パラメータの説明のための波形図である。 (5)は音響分析手段、(51)はバンドパスフィルタバ
ンク、(6)は過渡検出パラメータ演算手段、(7)は
差分値演算手段、(8)は判定手段である。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭60−86600(JP,A) 特開 昭60−86599(JP,A) 特開 昭60−84000(JP,A)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】a)入力音声を周波数方向に複数のチャン
    ネルに分けて音響分析を行い音声スペクトルを求める音
    響分析手段と、 b)上記音声スペクトルから、これらのチャンネルの時
    間方向のブロック内の音声スペクトルの分散の和として
    の過渡検出パラメータを得る手段と、 c)連続する2フレーム間の上記過渡検出パラメータの
    差分値を求める手段と、 d)上記過渡検出パラメータと差分値から上記入力音声
    の定常部を決定し、上記差分値から上記入力音声の過渡
    部を決定し、定常部でも過渡部でもない部分を不確定部
    とする判別手段と からなる入力音声の定常部、過渡部、不確定部の検出装
    置。
JP62310569A 1987-12-08 1987-12-08 入力音声の定常部、過渡部、不確定部の検出装置 Expired - Fee Related JP2643202B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP62310569A JP2643202B2 (ja) 1987-12-08 1987-12-08 入力音声の定常部、過渡部、不確定部の検出装置
KR1019880016203A KR0136608B1 (ko) 1987-12-08 1988-12-06 음성신호 검색용 음성인식 장치
AU26617/88A AU612737B2 (en) 1987-12-08 1988-12-06 A phoneme recognition system
GB8828532A GB2213623B (en) 1987-12-08 1988-12-07 Voice signal status detection systems
DE3841376A DE3841376A1 (de) 1987-12-08 1988-12-08 System zur erkennung von phonemen
FR888816163A FR2624297B1 (fr) 1987-12-08 1988-12-08 Systeme de detection d'une condition d'un signal vocal pour la reconnaissance de phonemes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62310569A JP2643202B2 (ja) 1987-12-08 1987-12-08 入力音声の定常部、過渡部、不確定部の検出装置

Publications (2)

Publication Number Publication Date
JPH01150200A JPH01150200A (ja) 1989-06-13
JP2643202B2 true JP2643202B2 (ja) 1997-08-20

Family

ID=18006817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62310569A Expired - Fee Related JP2643202B2 (ja) 1987-12-08 1987-12-08 入力音声の定常部、過渡部、不確定部の検出装置

Country Status (1)

Country Link
JP (1) JP2643202B2 (ja)

Also Published As

Publication number Publication date
JPH01150200A (ja) 1989-06-13

Similar Documents

Publication Publication Date Title
EP0219712B1 (en) Method of and system for speech recognition
JP3105465B2 (ja) 音声区間検出方法
JP3033061B2 (ja) 音声雑音分離装置
JP2005266797A (ja) 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
JP2000310993A (ja) 音声検出装置
JP2643202B2 (ja) 入力音声の定常部、過渡部、不確定部の検出装置
Samad et al. Pitch detection of speech signals using the cross-correlation technique
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
JPH04100099A (ja) 音声検出装置
JP3520430B2 (ja) 左右音像方向抽出方法
Pal et al. Modified energy based method for word endpoints detection of continuous speech signal in real world environment
KR100526110B1 (ko) 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
KR100194953B1 (ko) 유성음 구간에서 프레임별 피치 검출 방법
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JP2001083978A (ja) 音声認識装置
JP3008404B2 (ja) 音声認識装置
JP2880683B2 (ja) 雑音抑制装置
JPH01170998A (ja) 音韻区間情報形成装置
JP2583854B2 (ja) 有声無声判定方法
JPH0398098A (ja) 音声認識装置
JP2638829B2 (ja) 音声ピッチ抽出装置
JP3049711B2 (ja) 音声処理装置
JP3032215B2 (ja) 有音検出装置及びその方法
JP3063856B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees