JPH07113834B2 - 音声区間検出方式 - Google Patents
音声区間検出方式Info
- Publication number
- JPH07113834B2 JPH07113834B2 JP62126342A JP12634287A JPH07113834B2 JP H07113834 B2 JPH07113834 B2 JP H07113834B2 JP 62126342 A JP62126342 A JP 62126342A JP 12634287 A JP12634287 A JP 12634287A JP H07113834 B2 JPH07113834 B2 JP H07113834B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- inter
- voice
- unit
- voice section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】 産業上の利用分野 本発明は、音声認識装置に関し、特に、音声区間を検出
する音声区間検出方式に関する。
する音声区間検出方式に関する。
従来の技術 従来、パワー音声区間検出方式は入力音声から算出され
たパワーと閾値を用いて行われていた。従来の技術しと
ては、共立出版社から刊行されている新美康永著「音声
認識」のP68,P70に記載されている。以下従来技術につ
いて第3図を使用して説明する。
たパワーと閾値を用いて行われていた。従来の技術しと
ては、共立出版社から刊行されている新美康永著「音声
認識」のP68,P70に記載されている。以下従来技術につ
いて第3図を使用して説明する。
入力音声のパワーのnフレーム分の積分値が閾値TS2よ
りも大きくなったときに音声が検出されたと判断し、そ
の積分フレーム内のパワーが閾値TS1よりも大となるフ
レームを始端フレームtsとする。
りも大きくなったときに音声が検出されたと判断し、そ
の積分フレーム内のパワーが閾値TS1よりも大となるフ
レームを始端フレームtsとする。
一方、終端検出はパワーが閾値TEよりも小なる区間がm
フレーム続いたときにパワーが最初にTEよりも小さくな
ったフレームを終端フレームteとする。終端フレームts
と終端フレームte区間を音声区間、フレームtsとteを検
出することを音声区間検出と呼ぶ。
フレーム続いたときにパワーが最初にTEよりも小さくな
ったフレームを終端フレームteとする。終端フレームts
と終端フレームte区間を音声区間、フレームtsとteを検
出することを音声区間検出と呼ぶ。
なお、本音声検出方式は一般に広く知られている。
発明が解決しようとする問題点 上述した従来のパワー音声区間検出方式は入力音声のパ
ワー情報のみを用いて音声区間を検出しているために、
語頭にパワーが低い子音があるときには語頭の子音を落
として音声区間を検出してしまうという欠点がある。
ワー情報のみを用いて音声区間を検出しているために、
語頭にパワーが低い子音があるときには語頭の子音を落
として音声区間を検出してしまうという欠点がある。
語頭の子音を落とさずに音声区間を検出すめためには、
閾値を小さくすれば良いが、閾値を小さくすると発声の
前後の呼気音も含めて音声区間とするという欠点があ
る。
閾値を小さくすれば良いが、閾値を小さくすると発声の
前後の呼気音も含めて音声区間とするという欠点があ
る。
本発明は従来の上記実情に鑑みてなされたものであり、
従って本発明の目的は、従来の技術に内在する上記諸欠
点を解消することを可能とした新規な音声区間検出方式
を提供することにある。
従って本発明の目的は、従来の技術に内在する上記諸欠
点を解消することを可能とした新規な音声区間検出方式
を提供することにある。
問題点を解決するための手段 上記目的を達成する為に、本発明に係る音声区間検出方
式は、上述した従来のパワー音声検出方式に加えて、入
力音声の特徴ベクトルの時系列からフレーム間のベクト
ル間距離を演算するフレーム間距離演算部と、フレーム
パルスによって入力音声のフレーム数を計数するフレー
ムカウンタと前記フレーム間距離演算部の演算結果をフ
レーム毎に記憶する記憶部と、後記ピーク検出検索範囲
設定部により指定された範囲のフレーム内で前記記憶部
に記憶されているフレーム間距離値を検索し最初にピー
クとなる点を検出するピーク検出部と、前記パワー音声
区間検出部により出力された結果から前記ピーク検出部
でフレーム間距離値の最大値を求めるときの検索範囲を
指定するピーク検出検索範囲設定部とを備えて構成され
る。
式は、上述した従来のパワー音声検出方式に加えて、入
力音声の特徴ベクトルの時系列からフレーム間のベクト
ル間距離を演算するフレーム間距離演算部と、フレーム
パルスによって入力音声のフレーム数を計数するフレー
ムカウンタと前記フレーム間距離演算部の演算結果をフ
レーム毎に記憶する記憶部と、後記ピーク検出検索範囲
設定部により指定された範囲のフレーム内で前記記憶部
に記憶されているフレーム間距離値を検索し最初にピー
クとなる点を検出するピーク検出部と、前記パワー音声
区間検出部により出力された結果から前記ピーク検出部
でフレーム間距離値の最大値を求めるときの検索範囲を
指定するピーク検出検索範囲設定部とを備えて構成され
る。
実施例 次に、本発明をその好ましい一実施例について図面を参
照して具体的に説明する。
照して具体的に説明する。
第1図は本発明の一実施例を示すブロック構成図であ
る。
る。
第1図を参照するに、参照番号1は従来の音声区間検出
方式である入力音声のパワーと閾値を用いて音声区間を
検出するパワー音声区間検出部、2は外部から与えられ
る入力音声の特徴ベクトルの時系列からフレーム間のベ
クトル間距離を演算するフレーム間距離演算部、3は外
部から与えられるフレームパルスによって入力音声のフ
レーム数をカウントするフレームカウンタ、4はフレー
ム間距離演算部2の演算結果をフレームごとに記憶して
おくための記憶部、5は後記のピーク検出検索範囲設定
部6で指定された範囲のフレーム内で記憶部4に記憶さ
れているフレーム間距離値を検索し最初にピークとなる
点を検出するピーク検出部、6はパワー音声区間検出部
1で出力された結果からピーク検出部5でフレーム間距
離値の最大値を求めるときの検索範囲を指定するための
ピーク検出検索範囲設定部をそれぞれ示す。
方式である入力音声のパワーと閾値を用いて音声区間を
検出するパワー音声区間検出部、2は外部から与えられ
る入力音声の特徴ベクトルの時系列からフレーム間のベ
クトル間距離を演算するフレーム間距離演算部、3は外
部から与えられるフレームパルスによって入力音声のフ
レーム数をカウントするフレームカウンタ、4はフレー
ム間距離演算部2の演算結果をフレームごとに記憶して
おくための記憶部、5は後記のピーク検出検索範囲設定
部6で指定された範囲のフレーム内で記憶部4に記憶さ
れているフレーム間距離値を検索し最初にピークとなる
点を検出するピーク検出部、6はパワー音声区間検出部
1で出力された結果からピーク検出部5でフレーム間距
離値の最大値を求めるときの検索範囲を指定するための
ピーク検出検索範囲設定部をそれぞれ示す。
次に本発明の動作について説明する。
外部から与えられた入力音声のパワー時系列P1,P2,…
Pi…とあらかじめ設定された閾値TS1,TS2,TE,m,nを用
いて音声区間を検出し、ピーク検出検索範囲設定部6に
始端フレームtsとなる仮始端フレームisと終端フレーム
teとなる仮終端フレームieとを出力する。音声区間検出
部1は一般に広く知られているパワーと閾値を用いる方
式であり、その一例は前記従来の技術の欄で述べた通り
である。
Pi…とあらかじめ設定された閾値TS1,TS2,TE,m,nを用
いて音声区間を検出し、ピーク検出検索範囲設定部6に
始端フレームtsとなる仮始端フレームisと終端フレーム
teとなる仮終端フレームieとを出力する。音声区間検出
部1は一般に広く知られているパワーと閾値を用いる方
式であり、その一例は前記従来の技術の欄で述べた通り
である。
フレーム間距離演算部2は外部から与えられる入力音声
の特徴ベクトルの時系列a1,a2,a3…ai…からフレーム
間距離を次式(1)によって演算する。
の特徴ベクトルの時系列a1,a2,a3…ai…からフレーム
間距離を次式(1)によって演算する。
di=|ai−ai1|または di=(ai-ai1)2 …(1) diはiフレームでのフレーム間距離値である。なお、上
記演算はフレーム内で演算が終了する必要がある。フレ
ーム間距離演算部2の演算結果は記憶部4のフレームカ
ウンタ3でアドレッシングされたiフレームの場所に記
憶される。
記演算はフレーム内で演算が終了する必要がある。フレ
ーム間距離演算部2の演算結果は記憶部4のフレームカ
ウンタ3でアドレッシングされたiフレームの場所に記
憶される。
フレームカウンタ3は、外部から供給されるフレームパ
ルスによってカウントアップし、パワー音声区間検出部
1の仮始端フレームisと仮終端フレームieを決定すると
き及び記憶部4にフレーム間距離値を格納するときのア
ドレッシングに使用される。
ルスによってカウントアップし、パワー音声区間検出部
1の仮始端フレームisと仮終端フレームieを決定すると
き及び記憶部4にフレーム間距離値を格納するときのア
ドレッシングに使用される。
ピーク検出検索範囲設定部6はパワー音声区間検出部1
から与えられる仮始端フレームisと仮終端フレームieよ
り次式(2)を用いてフレーム間距離値のピークを検索
する範囲を決定する。
から与えられる仮始端フレームisと仮終端フレームieよ
り次式(2)を用いてフレーム間距離値のピークを検索
する範囲を決定する。
iss始端側の検索開始フレームを示し、iseは始端側の検
索終了フレームを示す。iesは終端側の検索開始フレー
ムを示し、ieeは終端側の検索終了フレームを示す。
P1,P2,P3はパラメータとして外部から与えられる。
索終了フレームを示す。iesは終端側の検索開始フレー
ムを示し、ieeは終端側の検索終了フレームを示す。
P1,P2,P3はパラメータとして外部から与えられる。
ピーク検出部5はピーク検出検索範囲設定部6から与え
られた始端側の検索開始フレームissと始端側の検索終
了フレームiseを使って記憶部4に記憶されているフレ
ーム間距離値をissフレームから逆時間方向にiseフレー
ムまでを検索して最初にピークとなる点を求める。この
ときの記憶部4のアドレッシングはピーク検出部5によ
って行われる。そのときのフレームismを始端フレーム
として外部に出力する。
られた始端側の検索開始フレームissと始端側の検索終
了フレームiseを使って記憶部4に記憶されているフレ
ーム間距離値をissフレームから逆時間方向にiseフレー
ムまでを検索して最初にピークとなる点を求める。この
ときの記憶部4のアドレッシングはピーク検出部5によ
って行われる。そのときのフレームismを始端フレーム
として外部に出力する。
次にピーク検出部5はピーク検出検索範囲設定部6から
与えられる終端側の検索開始フレームiesと終端側の検
索終了フレームieeを使って記憶部4に記憶されている
フレーム間距離値をiesフレームから時間方向にieeフレ
ームまでを検索して最初にピークとなる点を求める。こ
のときの記憶部4のアドレッシングもピーク検出部5に
よって行われる。そのときのフレームiesを終端フレー
ムとして外部に出力する。
与えられる終端側の検索開始フレームiesと終端側の検
索終了フレームieeを使って記憶部4に記憶されている
フレーム間距離値をiesフレームから時間方向にieeフレ
ームまでを検索して最初にピークとなる点を求める。こ
のときの記憶部4のアドレッシングもピーク検出部5に
よって行われる。そのときのフレームiesを終端フレー
ムとして外部に出力する。
以上の説明は説明の都合上パワー音声区間検出部で終端
フレームieを検出してから実際の始端フレームismと終
端フレームiemを求めるようにしたが、実際にはフレー
ムに同期して行う方が望ましいが、フレームに同期して
行う方式は容易に類推できるので説明を省略する。
フレームieを検出してから実際の始端フレームismと終
端フレームiemを求めるようにしたが、実際にはフレー
ムに同期して行う方が望ましいが、フレームに同期して
行う方式は容易に類推できるので説明を省略する。
また、広く知られているマイクロプロセッサを用いるこ
とによりソフトウェアまたはファームウェアでも容易に
実現できる。
とによりソフトウェアまたはファームウェアでも容易に
実現できる。
フレーム間距離値はフレーム間の相違度を表しフレーム
間の特徴が著しく異なる程フレーム間距離値は大きな値
となる。
間の特徴が著しく異なる程フレーム間距離値は大きな値
となる。
ここで、入力音声の始端部に着目すると、第2図に示す
ように、雑音領域から音声領域に移行するのでフレーム
間距離diは始端フレームでピークになる。一方、入力音
声の終端部に着目すると、第2図に示すように、音声領
域から雑音領域に移行するのでフレーム間距離diは終端
フレームでピークとなる。
ように、雑音領域から音声領域に移行するのでフレーム
間距離diは始端フレームでピークになる。一方、入力音
声の終端部に着目すると、第2図に示すように、音声領
域から雑音領域に移行するのでフレーム間距離diは終端
フレームでピークとなる。
発明の効果 以上説明したように、本発明によれば、従来の入力音声
のパワーと閾値を用いた音声区間検出に実験的に確認し
たフレーム間距離値を用いた音声区間検出を加えること
により、語頭にパワーの低い子音がある単語でもパワー
音声区間検出用の閾値を小さくすることなく正確に音声
区間検出が可能となり、認識率を向上できる効果が得ら
れる。
のパワーと閾値を用いた音声区間検出に実験的に確認し
たフレーム間距離値を用いた音声区間検出を加えること
により、語頭にパワーの低い子音がある単語でもパワー
音声区間検出用の閾値を小さくすることなく正確に音声
区間検出が可能となり、認識率を向上できる効果が得ら
れる。
第1図は本発明の一実施例を示すブロック構成図、第2
図は本発明に係る音声区間検出の例、第3図は従来の音
声区間検出方式を説明する為の図である。 1……パワー音声区間検出部、2……フレーム間距離演
算部、3……フレームカウンタ、4……フレーム間距離
記憶部、5……ピーク検出部、6……ピーク検出検索範
囲設定部
図は本発明に係る音声区間検出の例、第3図は従来の音
声区間検出方式を説明する為の図である。 1……パワー音声区間検出部、2……フレーム間距離演
算部、3……フレームカウンタ、4……フレーム間距離
記憶部、5……ピーク検出部、6……ピーク検出検索範
囲設定部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−233791(JP,A) 特開 昭60−200300(JP,A) 特開 昭62−56998(JP,A)
Claims (1)
- 【請求項1】従来の音声区間検出方式である入力音声の
パワーとあらかじめ設定された閾値を用いて音声区間を
検出し後記ピーク検出検索範囲設定部に仮始端フレーム
と仮終端フレームとを出力するパワー音声区間検出部
と、外部から与えられる入力音声の特徴ベクトルの時系
列a1,a2,……ai……からフレーム間のベクトル間距離
を下記式(1)により演算するフレーム間距離演算部
と、外部か di=|ai−ai1|または di=(ai-ai1)2 …(1) ただし、di:iフレームでのフレーム間距離値 ら与えられるフレームパルスによって入力音声のフレー
ム数を計数するフレームカウンタと、前記フレーム間距
離演算部の演算結果をフレーム毎に記憶する記憶部と、
後記ピーク検出検索範囲設定部により指定された範囲の
フレーム内で前記記憶部に記憶されているフレーム間距
離値を検索し最初にピークとなる点を検出するピーク検
出部と、前記パワー音声区間検出部により出力された前
記仮始端フレームisと仮終端フレームieとを用いて下記
式(2)により前記ピーク検出部でフレーム間距離値の
最大値を求めるときの検索範囲を指定するピーク検出検
索範囲設定部とを備えたことを特徴とする音声区間検出
方式。 iss=is ise=is−P1 ies=ie−P2 …(2) iee=ie+P3 ただし、 iss:始端側の検索開始フレーム、 ise:始端側の検索終了フレーム、 ies:終端側の検索開始フレーム、 iee:終端側の検索終了フレーム、 P1,P2,P3:外部から与えられるパラメータ、
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62126342A JPH07113834B2 (ja) | 1987-05-23 | 1987-05-23 | 音声区間検出方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62126342A JPH07113834B2 (ja) | 1987-05-23 | 1987-05-23 | 音声区間検出方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63291096A JPS63291096A (ja) | 1988-11-28 |
JPH07113834B2 true JPH07113834B2 (ja) | 1995-12-06 |
Family
ID=14932793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62126342A Expired - Lifetime JPH07113834B2 (ja) | 1987-05-23 | 1987-05-23 | 音声区間検出方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07113834B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009078093A1 (ja) | 2007-12-18 | 2009-06-25 | Fujitsu Limited | 非音声区間検出方法及び非音声区間検出装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60200300A (ja) * | 1984-03-23 | 1985-10-09 | 松下電器産業株式会社 | 音声の始端・終端検出装置 |
JPS61233791A (ja) * | 1985-04-09 | 1986-10-18 | 株式会社リコー | 音声認識装置における音声区間検出方式 |
JPS6256998A (ja) * | 1985-09-06 | 1987-03-12 | 株式会社リコー | 子音区間検出装置 |
-
1987
- 1987-05-23 JP JP62126342A patent/JPH07113834B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPS63291096A (ja) | 1988-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5299436B2 (ja) | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 | |
JPH07113834B2 (ja) | 音声区間検出方式 | |
US5963895A (en) | Transmission system with speech encoder with improved pitch detection | |
JPH08292787A (ja) | 音声・非音声判別方法 | |
JP2001166783A (ja) | 音声区間検出方法 | |
JPH07113835B2 (ja) | 音声検出方式 | |
JP3422716B2 (ja) | 話速変換方法および装置および話速変換プログラムを格納した記録媒体 | |
JP3360978B2 (ja) | 音声認識装置 | |
JP2625682B2 (ja) | 音声区間の始端検出装置 | |
JPS6147437B2 (ja) | ||
JPH0588839B2 (ja) | ||
JPS62141595A (ja) | 音声検出方式 | |
JP2737109B2 (ja) | 音声区間検出方式 | |
JPS61259296A (ja) | 音声区間検出方式 | |
JP2748383B2 (ja) | 音声認識方式 | |
KR20010026290A (ko) | 음성 신호 피치 지점 자동 검출 방법 | |
JPH0823756B2 (ja) | 音声区間検出方式 | |
JP2003029781A (ja) | 音声認識システム | |
JPS61292199A (ja) | 音声認識装置 | |
JPH0740200B2 (ja) | 音声区間検出方法 | |
JPS63799B2 (ja) | ||
JP3226068B2 (ja) | データ伝送装置 | |
JPH02296297A (ja) | 音声認識装置 | |
JPH06105399B2 (ja) | 音声認識方式 | |
JPH0766272B2 (ja) | 音声セグメンテ−ション装置 |