JP2001350488A - 音声検出方法及び装置とその記録媒体 - Google Patents

音声検出方法及び装置とその記録媒体

Info

Publication number
JP2001350488A
JP2001350488A JP2000166746A JP2000166746A JP2001350488A JP 2001350488 A JP2001350488 A JP 2001350488A JP 2000166746 A JP2000166746 A JP 2000166746A JP 2000166746 A JP2000166746 A JP 2000166746A JP 2001350488 A JP2001350488 A JP 2001350488A
Authority
JP
Japan
Prior art keywords
variation
calculating
filter
band energy
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000166746A
Other languages
English (en)
Other versions
JP4221537B2 (ja
Inventor
Atsushi Murashima
淳 村島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2000166746A priority Critical patent/JP4221537B2/ja
Application filed by NEC Corp filed Critical NEC Corp
Priority to EP01113066A priority patent/EP1160763B1/en
Priority to AT01113066T priority patent/ATE323931T1/de
Priority to CA002349102A priority patent/CA2349102C/en
Priority to DE60118831T priority patent/DE60118831T2/de
Priority to US09/871,368 priority patent/US7117150B2/en
Publication of JP2001350488A publication Critical patent/JP2001350488A/ja
Priority to US11/501,958 priority patent/US7698135B2/en
Application granted granted Critical
Publication of JP4221537B2 publication Critical patent/JP4221537B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measuring Frequencies, Analyzing Spectra (AREA)
  • Interface Circuits In Exchanges (AREA)

Abstract

(57)【要約】 【課題】 音声検出方法および装置の検出性能を改善す
る。 【解決手段】 第1のフィルタ(図1の2061)は、
入力音声信号の線スペクトル周波数とその長時間平均と
の差分に基づく第1の変動量の長時間平均を計算する。
第2のフィルタ(図1の2062)は、入力音声信号の
全帯域エネルギーとその長時間平均との差分に基づく第
2の変動量の長時間平均を計算する。第3のフィルタ
(図1の2063)は、入力音声信号の低域エネルギー
とその長時間平均との差分に基づく第3の変動量の長時
間平均を計算する。第4のフィルタ(図1の2064)
は、入力音声信号の零交叉数とその長時間平均との差分
に基づく第4の変動量の長時間平均を計算する。音声/
非音声判定回路(図1の1040)は、前記第1の変動
量の長時間平均、前記第2の変動量の長時間平均、前記
第3の変動量の長時間平均および前記第4の変動量の長
時間平均を用いて音声信号を音声区間と非音声区間とに
判別する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号を低ビッ
トレートで伝送するための符号化装置および復号装置に
おいて、符号化方法および復号方法を音声区間と非音声
区間とで切り替える際に用いる音声検出方法および装置
に関する。
【0002】
【従来の技術】携帯電話などの移動体音声通信では会話
音声の背景に雑音が存在するが、非音声区間における背
景雑音を伝送するのに必要となるビットレートは音声に
比べて低いと考えられる。このため、回線の使用効率向
上の観点から、音声区間の検出を行い、非音声区間では
背景雑音に特化したビットレートの低い符号化方式を使
用することが多い。例えば、ITU-T 標準G.729音声符号
化方式では、非音声区間では断続的に背景雑音について
の少ない情報を伝送する。このとき、音声検出は、音声
品質の劣化を回避し、かつビットレートを効果的に低減
するために、正確に動作することが求められる。ここ
で、従来の音声検出方式として、例えば、「A Silence
Compression Scheme for G.729 Optimized for Termina
ls Conforming to ITU-T V.70」(ITU-T Recommendatio
n G.729, Annex B)(「文献1」という)、あるいは
「ITU-T勧告V.70端末に適した標準JT-G729に対する無音
圧縮手法」(電信電話技術委員会標準JT-G729、付属資
料B)(「文献2」という)のB.3節(VADアルゴリズム
の詳細記述)の記載、あるいは、「ITU-T Recommendati
onG.729 Annex B: A Silence Compression Scheme for
Use with G.729 Optimizedfor V.70 Digital Simultane
ous Voiceand Data Applications」(IEEE Communicati
on Magazine, pp.64-73, September 1997)(「文献
3」という)が参照される。
【0003】図6は、従来の音声検出装置の構成例を示
すブロック図である。この音声検出装置への音声の入力
は、Tfrmsec(例えば、10 msec)周期のブロック単位
(フレーム)で行われるものとする。フレーム長をLfr
サンプル(例えば、80サンプル)とする。1フレームの
サンプル数は、入力音声のサンプリング周波数(例え
ば、8kHz)によって定まる。
【0004】図5を参照して、従来の音声検出装置の各
構成要素について説明する。
【0005】入力端子10から音声を入力し、入力端子
11から線形予測係数を入力する。ここで、線形予測係
数は、音声検出装置が用いられる音声符号化装置におい
て、前記入力音声ベクトルを線形予測分析して求められ
る。線形予測分析に関しては、周知の方法、例えば、L.
R. Rabinerらによる「Digital Processing of Speech
Signals」(Prentice-Hall, 1978)(「文献4」とい
う)の第8章「Linear Predictive Coding of Speech」
を参照できる。なお、本発明による音声検出装置が、音
声符号化装置とは独立に実現される場合には、前記線形
予測分析が該音声検出装置において実行される。
【0006】LSF計算回路1011は、入力端子11を
介して線形予測係数を入力し、前記線形予測係数から線
スペクトル周波数(Line Spectral Frequency: LSF)を
計算し、前記LSFを第1の変動量計算回路1031と第
1の移動平均計算回路1021とへ出力する。ここで、
線形予測係数からのLSFの計算に関しては、周知の方
法、例えば、文献1の3.2.3節に記述されている方法等
が用いられる。
【0007】全帯域エネルギー計算回路1012は、入
力端子10を介して音声(入力音声)を入力し、入力音
声の全帯域エネルギーを計算し、前記全帯域エネルギー
を第2の変動量計算回路1032と第2の移動平均計算
回路1022とへ出力する。ここで、全帯域エネルギー
fは、正規化された0次の自己相関関数R(0)の対数を
とったものであり、次式で表される。 また、自己相関係数は、次式で表される。 ここで、Nは入力音声に対する線形予測分析の窓の長さ
(分析窓長、例えば、240サンプル)であり、Sl(n)
は、前記窓をかけた入力音声である。
【0008】N>Lfrの場合は、過去のフレームにおい
て入力された音声を保持することにより、前記分析窓長
分の音声とする。
【0009】低域エネルギー計算回路1013は、入力
端子10を介して音声(入力音声)を入力し、入力音声
の低域エネルギーを計算し、前記低域エネルギーを第3
の変動量計算回路1033と第3の移動平均計算回路1
023とへ出力する。ここで、0からFiHzまでの低域エ
ネルギーEiは、次式で表される。 ここで、 はカットオフ周波数がFlHzのFIRフィルタのインパルス
応答であり、 は対角成分が自己相関係数R(k)であるテプリッツ自己
相関行列である。
【0010】零交叉数計算回路1014は、入力端子1
0を介して音声(入力音声)を入力し、入力音声ベクト
ルの零交叉数を計算し、前記零交叉数を第4の変動量計
算回路1034と第4の移動平均計算回路1024とへ
出力する。ここで、零交叉数Zcは、次式で表される。 ここで、S(n)は入力音声であり、sgn[x]はxが正のとき
1を、負のとき0をとる関数である。
【0011】第1の移動平均計算回路1021は、LSF
計算回路1011からLSFを入力し、前記LSFと過去のフ
レームにおいて計算された平均LSFとから現在のフレー
ム(現フレーム)における平均LSFを計算し、これを第
1の変動量計算回路1031へ出力する。ここで、第m
フレームにおけるLSFを とすると、第mフレームにおける平均LSF、 は次式で表される。 ここで、Pは線形予測次数(例えば、10)であり、βLSF
はある定数(例えば、0.7)である。
【0012】第2の移動平均計算回路1022は、全帯
域エネルギー計算回路1012から全帯域エネルギーを
入力し、前記全帯域エネルギーと過去のフレームにおい
て計算された平均全帯域エネルギーとから現フレームに
おける平均全帯域エネルギーを計算し、これを第2の変
動量計算回路1032へ出力する。ここで、第mフレー
ムにおける全帯域エネルギーをEf [m]とすると、第mフ
レームにおける平均全帯域エネルギー は次式で表される。 ここで、βEfはある定数(例えば、0.7)である。
【0013】第3の移動平均計算回路1023は、低域
エネルギー計算回路1013から低域エネルギーを入力
し、前記低域エネルギーと過去のフレームにおいて計算
された平均低域エネルギーとから現フレームにおける平
均低域エネルギーを計算し、これを第3の変動量計算回
路1033へ出力する。ここで、第mフレームにおける
低域エネルギーをEl [m]とすると、第mフレームにおけ
る平均低域エネルギー は次式で表される。 ここで、βElはある定数(例えば、0.7)である。
【0014】第4の移動平均計算回路1024は、零交
叉数計算回路1014から零交叉数を入力し、前記零交
叉数と過去のフレームにおいて計算された平均零交叉数
とから現フレームにおける平均零交叉数を計算し、これ
を第4の変動量計算回路1034へ出力する。ここで、
第mフレームにおける零交叉数をZc [m]とすると、第m
フレームにおける平均零交叉数 は次式で表される。 ここで、βZcはある定数(例えば、0.7)である。
【0015】第1の変動量計算回路1031は、LSF計
算回路1011からLSF、αi [m]を入力し、第1の移動
平均計算回路1021から平均LSF を入力し、前記LSFと前記平均LSFとから、スペクトル変
動量(第1の変動量)を計算し、前記第1の変動量を音
声/非音声判定回路1040へ出力する。ここで、第m
フレームにおける第1の変動量ΔS[m]は、次式で表さ
れる。 第2の変動量計算回路1032は、全帯域エネルギー計
算回路1012から全帯域エネルギーEf [m]を入力し、
第2の移動平均計算回路1022から平均全帯域エネル
ギー を入力し、前記全帯域エネルギーと前記平均全帯域エネ
ルギーとから全帯域エネルギー変動量(第2の変動量)
を計算し、前記第2の変動量を音声/非音声判定回路1
040へ出力する。ここで、第mフレームにおける第2
の変動量ΔEf [m]は、次式で表される。 第3の変動量計算回路1033は、低域エネルギー計算
回路1013から低域エネルギーEl [m]を入力し、第3
の移動平均計算回路1023から平均低域エネルギー を入力し、前記低域エネルギーと前記平均低域エネルギ
ーとから低域エネルギー変動量(第3の変動量)を計算
し、前記第3の変動量を音声/非音声判定回路1040
へ出力する。ここで、第mフレームにおける第3の変動
量ΔEl [m]は次式で表される。 第4の変動量計算回路1034は、零交叉数計算回路1
014から零交叉数Z c [m]を入力し、第4の移動平均計
算回路1024から平均零交叉数 を入力し、前記零交叉数と前記平均零交叉数とから零交
叉数変動量(第4の変動量)を計算し、前記第4の変動
量を音声/非音声判定回路1040へ出力する。ここ
で、第mフレームにおける第4の変動量ΔZc [m]は次式
で表される。 音声/非音声判定回路1040は、第1の変動量計算回
路1031から第1の変動量を入力し、第2の変動量計
算回路1032から第2の変動量を入力し、第3の変動
量計算回路1033から第3の変動量を入力し、第4の
変動量計算回路1034から第4の変動量を入力し、前
記第1の変動量と、前記第2の変動量と、前記第3の変
動量と、前記第4の変動量とからなる4次元ベクトル
が、4次元空間の音声領域内に存在するときは音声区間
と判定し、それ以外のときは非音声区間と判定し、前記
音声区間のときは判定フラグを1に設定し、前記非音声
区間のときは判定フラグを0に設定し、前記判定フラグ
を判定値平滑化回路1050へ出力する。音声と非音声
の判定(音声/非音声判定)には、例えば、文献1およ
び2のB.3.5節に記載されている14の境界判定を用い
ることができる。
【0016】判定値補正回路1050は、音声/非音声
判定回路1040から判定フラグを入力し、全帯域エネ
ルギー計算回路1012から全帯域エネルギーを入力
し、前記判定フラグをあらかじめ定められた条件式に従
って補正し、補正された判定フラグを出力端子12を介
して出力する。ここで、前記判定フラグの補正は以下の
ように行われる。前フレームが音声区間(すなわち判定
フラグが1)であり、かつ現フレームのエネルギーがあ
る閾値を越えていれば、判定フラグを1とする。また、
前フレームを含む2フレームが連続して音声区間であ
り、かつ現フレームのエネルギーと前フレームのエネル
ギーとの差分の絶対値がある閾値未満であれば、判定フ
ラグを1とする。一方、過去の10フレームが非音声区
間(すなわち判定フラグが0)であり、かつ現フレーム
のエネルギーと前フレームのエネルギーとの差分がある
閾値未満であれば、判定フラグを0とする。判定フラグ
の補正には、例えば、文献1および2のB.3.6節に記載
されている条件式を用いることができる。
【0017】
【発明が解決しようとする課題】上述した従来の音声検
出方式は、音声区間における検出誤り(音声区間を誤っ
て非音声区間と検出すること)および非音声区間におけ
る検出誤り(非音声区間を誤って音声区間と検出するこ
と)を生じる場合がある、という問題点を有している。
【0018】その理由は、スペクトルの変動量、エネル
ギーの変動量および零交叉数の変動量を直接用いて音声
/非音声判定を行うためである。実際の入力音声が音声
区間であっても、前記各変動量の値は変動が大きいた
め、音声区間に対応するようにあらかじめ定めた値域に
存在するとは限らない。よって、音声区間における前記
検出誤りが生じる。このことは、非音声区間内において
も同様である。
【0019】
【課題を解決するための手段】本願の第1の発明は、一
定時間長毎に入力した音声信号から計算される特徴量を
用いて、前記音声信号を一定時間長毎に音声区間と非音
声区間とに判別する音声検出方法において、前記特徴量
の変動量を、フィルタに入力することで得られる前記変
動量の長時間平均を用いることを特徴とする。
【0020】本願の第2の発明は、第1の発明におい
て、前記特徴量の変動量を前記特徴量とその長時間平均
とを用いて計算することを特徴とする。
【0021】本願の第3の発明は、第1または第2の発
明において、前記音声検出方法によって過去に出力され
た前記判別の結果を用いて、前記変動量の長時間平均を
計算する際の前記フィルタを切り替えることを特徴とす
る。
【0022】本願の第4の発明は、第1、第2または第
3の発明において、過去に入力された前記音声信号から
計算される特徴量を用いることを特徴とする。
【0023】本願の第5の発明は、第1、第2、第3ま
たは第4の発明において、前記特徴量として線スペクト
ル周波数、全帯域エネルギー、低域エネルギーおよび零
交叉数のうちの少なくとも一つを用いることを特徴とす
る。本願の第6の発明は、第5の発明において、音声復
号方法によって復号される線形予測係数から計算される
線スペクトル周波数と、前記音声復号方法によって過去
に出力された再生音声信号から計算される全帯域エネル
ギー、低域エネルギーおよび零交叉数のうちの少なくと
も一つを用いることを特徴とする。
【0024】本願の第7の発明は、一定時間長毎に入力
した音声信号から計算される特徴量を用いて、前記音声
信号を一定時間長毎に音声区間と非音声区間とに判別す
る音声検出装置において、前記音声信号から線スペクト
ル周波数(LSF)を計算するLSF計算回路と、前記音声信
号から全帯域エネルギーを計算する全帯域エネルギー計
算回路と、前記音声信号から低域エネルギーを計算する
低域エネルギー計算回路と、前記音声信号から零交叉数
を計算する零交叉数計算回路と、前記線スペクトル周波
数の変動量(第1の変動量)を計算する線スペクトル周
波数変動量計算部と、前記全帯域エネルギーの変動量
(第2の変動量)を計算する全帯域エネルギー変動量計
算部と、前記低域エネルギーの変動量(第3の変動量)
を計算する低域エネルギー変動量計算部と、前記零交叉
数の変動量(第4の変動量)を計算する零交叉数変動量
計算部と、前記第1の変動量の長時間平均を計算する第
1のフィルタと、前記第2の変動量の長時間平均を計算
する第2のフィルタと、前記第3の変動量の長時間平均
を計算する第3のフィルタと、前記第4の変動量の長時
間平均を計算する第4のフィルタと、を含んで構成され
ることを特徴とする。本願の第8の発明は、一定時間長
毎に入力した音声信号から計算される特徴量を用いて、
前記音声信号を一定時間長毎に音声区間と非音声区間と
に判別する音声検出装置において、前記音声信号から線
スペクトル周波数(LSF)を計算するLSF計算回路と、前
記音声信号から全帯域エネルギーを計算する全帯域エネ
ルギー計算回路と、前記音声信号から低域エネルギーを
計算する低域エネルギー計算回路と、前記音声信号から
零交叉数を計算する零交叉数計算回路と、前記線スペク
トル周波数とその長時間平均との差分に基づく第1の変
動量を計算する第1の変動量計算回路と、前記全帯域エ
ネルギーとその長時間平均との差分に基づく第2の変動
量を計算する第2の変動量計算回路と、前記低域エネル
ギーとその長時間平均との差分に基づく第3の変動量を
計算する第3の変動量計算回路と、前記零交叉数とその
長時間平均との差分に基づく第4の変動量を計算する第
4の変動量計算回路と、前記第1の変動量の長時間平均
を計算する第1のフィルタと、前記第2の変動量の長時
間平均を計算する第2のフィルタと、前記第3の変動量
の長時間平均を計算する第3のフィルタと、前記第4の
変動量の長時間平均を計算する第4のフィルタと、を含
んで構成されることを特徴とする。
【0025】本願の第9の発明は、第7または第8の発
明において、前記音声検出装置から過去に出力された前
記判別の結果を保持する第1の記憶回路と、前記第1の
変動量の長時間平均を計算する際に、前記第1の記憶回
路から入力した前記判別の結果を用いて、第5のフィル
タと第6のフィルタとを切り替える第1の切替器と、前
記第2の変動量の長時間平均を計算する際に、前記第1
の記憶回路から入力した前記判別の結果を用いて、第7
のフィルタと第8のフィルタとを切り替える第2の切替
器と、前記第3の変動量の長時間平均を計算する際に、
前記第1の記憶回路から入力した前記判別の結果を用い
て、第9のフィルタと第10のフィルタとを切り替える
第3の切替器と、前記第4の変動量の長時間平均を計算
する際に、前記第1の記憶回路から入力した前記判別の
結果を用いて、第11のフィルタと第12のフィルタと
を切り替える第4の切替器と、を含んで構成されること
を特徴とする。
【0026】本願の第10の発明は、第7、第8または
第9の発明において、過去に入力された前記音声信号か
ら前記線スペクトル周波数と、前記全帯域エネルギー
と、前記低域エネルギーと、前記零交叉数と、を計算す
ることを特徴とする。本願の第11の発明は、第7から
第10の発明のいずれかにおいて、特徴量として、線ス
ペクトル周波数、全帯域エネルギー、低域エネルギーお
よび零交叉数のうちの少なくとも一つを用いることを特
徴とする。
【0027】本願の第12の発明は、第7から第10の
発明のいずれかにおいて、音声復号装置から過去に出力
された再生音声信号を記憶保持する第2の記憶回路を備
え、前記第2の記憶回路から出力される前記再生音声信
号から計算される全帯域エネルギー、低域エネルギーお
よび零交叉数と、前記音声復号装置において復号される
線形予測係数から計算される線スペクトル周波数と、の
うちの少なくとも一つを用いることを特徴とする。
【0028】本願の第13の発明は、一定時間長毎に入
力した音声信号から計算される特徴量を用いて、前記音
声信号を一定時間長毎に音声区間と非音声区間とに判別
する音声検出方法を実行するプログラムを記録した記録
媒体において、(a)前記音声信号から線スペクトル周
波数(LSF)を計算する処理と、(b)前記音声信号から
全帯域エネルギーを計算する処理と、(c)前記音声信
号から低域エネルギーを計算する処理と、(d)前記音
声信号から零交叉数を計算する処理と、(e)前記線ス
ペクトル周波数の変動量(第1の変動量)を計算する処
理と、(f)前記全帯域エネルギーの変動量(第2の変
動量)を計算する処理と、(g)前記低域エネルギーの
変動量(第3の変動量)を計算する処理と、(h)前記
零交叉数の変動量(第4の変動量)を計算する処理と、
(I)前記第1の変動量の長時間平均を計算する処理
と、(j)前記第2の変動量の長時間平均を計算する処
理と、(k)前記第3の変動量の長時間平均を計算する
処理と、(l)前記第4の変動量の長時間平均を計算す
る処理と、の前記(a)から(l)の処理をコンピュータ
で実行させるプログラムを記録した記録媒体を提供す
る。本願の第14の発明は、一定時間長毎に入力した音
声信号から計算される特徴量を用いて、前記音声信号を
一定時間長毎に音声区間と非音声区間とに判別する音声
検出方法を実行するプログラムを記録した記録媒体にお
いて、(a)前記音声信号から線スペクトル周波数(LS
F)を計算する処理と、(b)前記音声信号から全帯域エ
ネルギーを計算する処理と、(c)前記音声信号から低
域エネルギーを計算する処理と、(d)前記音声信号か
ら零交叉数を計算する処理と、(e)前記線スペクトル
周波数とその長時間平均との差分に基づく第1の変動量
を計算する処理と、(f)前記全帯域エネルギーとその
長時間平均との差分に基づく第2の変動量を計算する処
理と、(g)前記低域エネルギーとその長時間平均との
差分に基づく第3の変動量を計算する処理と、(h)前
記零交叉数とその長時間平均との差分に基づく第4の変
動量を計算する処理と、(I)前記第1の変動量の長時
間平均を計算する処理と、(j)前記第2の変動量の長
時間平均を計算する処理と、(k)前記第3の変動量の
長時間平均を計算する処理と、(l)前記第4の変動量
の長時間平均を計算する処理と、の前記(a)から(l)
の処理をコンピュータで実行させるプログラムを記録し
た記録媒体を提供する。本願の第15の発明は、第13
または第14の発明において、(a)過去に出力された
前記判別の結果を保持する処理と、(b)前記第1の変
動量の長時間平均を計算する際に、前記第1の記憶回路
から入力した前記判別の結果を用いて、第5のフィルタ
と第6のフィルタとを切り替える処理と、(c)前記第
2の変動量の長時間平均を計算する際に、前記第1の記
憶回路から入力した前記判別の結果を用いて、第7のフ
ィルタと第8のフィルタとを切り替える処理と、(d)
前記第3の変動量の長時間平均を計算する際に、前記第
1の記憶回路から入力した前記判別の結果を用いて、第
9のフィルタと第10のフィルタとを切り替える処理
と、(e)前記第4の変動量の長時間平均を計算する際
に、前記第1の記憶回路から入力した前記判別の結果を
用いて、第11のフィルタと第12のフィルタとを切り
替える処理と、の前記(a)から(e)の処理を、前記コ
ンピュータに実行させるためのプログラムを記録した記
録媒体を提供する。
【0029】本願の第16の発明は、第13、第14ま
たは第15の発明において、過去に入力された前記音声
信号から前記線スペクトル周波数と、前記全帯域エネル
ギーと、前記低域エネルギーと、前記零交叉数と、を計
算する処理を、前記コンピュータに実行させるためのプ
ログラムを記録した記録媒体を提供する。
【0030】本願の第17の発明は、第13から第16
のいずれかの発明において、(a)前記音声信号から線
スペクトル周波数(LSF)を計算する処理と、(b)前記
音声信号から全帯域エネルギーを計算する処理と、
(c)前記音声信号から低域エネルギーを計算する処理
と、(d)前記音声信号から零交叉数を計算する処理
と、の前記(a)から(d)の処理のうちの少なくとも一つ
を、前記情報処理装置に実行させるためのプログラムを
記録した前記情報処理装置が読み取り可能な記録媒体を
提供する。本願の第18の発明は、第13から第17の
いずれかの発明において、(a) 音声復号装置から過去
に出力された再生音声信号を記憶保持する処理と、
(b)前記音声信号から線スペクトル周波数(LSF)を計
算する処理と、(c)前記音声信号から全帯域エネルギ
ーを計算する処理と、(d)前記音声信号から低域エネ
ルギーを計算する処理と、(e)前記再生音声信号から
零交叉数を計算する処理と、の前記(a)の処理と、前記
(b)から(e)の処理のうちの少なくとも一つを、前記情報
処理装置に実行させるためのプログラムを記録した前記
情報処理装置が読み取り可能な記録媒体を提供する。
【0031】本発明では、スペクトル変動量、エネルギ
ー変動量および零交叉数変動量の長時間平均を用いて音
声/非音声判定を行う。前記各変動量の長時間平均は、
前記各変動量そのものに比べて、音声および非音声の各
々の区間内における値の変動が小さいため、前記長時間
平均の値は、音声区間および非音声区間に対応するよう
にあらかじめ定めた値域に高い割合で存在する。したが
って、音声区間における検出誤りおよび非音声区間にお
ける検出誤りを低減できる。
【0032】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。
【0033】図1は、本発明の音声検出装置の第1の実
施の形態の構成を示す図である。図1において、図6と
同一または同等の要素には、同一の参照符号が付されて
いる。図1において、入力端子10および11、出力端
子12、LSF計算回路1011、全帯域エネルギー計算
回路1012、低域エネルギー計算回路1013、零交
叉数計算回路1014、第1の移動平均計算回路102
1、第2の移動平均計算回路1022、第3の移動平均
計算回路1023、第4の移動平均計算回路1024、
第1の変動量計算回路1031、第2の変動量計算回路
1032、第3の変動量計算回路1033、第4の変動
量計算回路1034および音声/非音声判定回路104
0は、図5に示した要素と同じであるので、これらの要
素の説明は省略し、以下では主に、図5に示した構成と
の相違点について説明する。
【0034】図1を参照すると、本発明の第1の実施の
形態においては、図5に示した構成に、第1のフィルタ
2061、第2のフィルタ2062、第3のフィルタ2
063および第4のフィルタ2064が付加されてい
る。本発明の第1の実施の形態において、図5の構成と
同様、音声の入力は、Tfrmsec(例えば、10 msec)周
期のブロック単位(フレーム)で行われるものとする。
フレーム長をLfrサンプル(例えば、80サンプル)とす
る。1フレームのサンプル数は、入力音声のサンプリン
グ周波数(例えば、8 kHz)によって定まる。
【0035】第1のフィルタ2061は、第1の変動量
計算回路1031から第1の変動量を入力し、前記第1
の変動量の平均値、中央値あるいは最頻値など、前記第
1の変動量の平均的な挙動を反映した値、第1の平均変
動量を計算し、前記第1の平均変動量を音声/非音声判
定回路1040へ出力する。ここで、前記平均値、中央
値あるいは最頻値の計算には、線形フィルタおよび非線
形フィルタを用いることができる。
【0036】ここでは、次式の平滑フィルタを用いて、
第mフレームにおける第1の変動量ΔS[m]と第(m−
1)フレームにおける第1の平均変動量 とから、第mフレームにおける第1の平均変動量 を計算する。 ここで、γは定数であり、例えば、γ=0.74で
ある。
【0037】第2のフィルタ2062は、第2の変動量
計算回路1032から第2の変動量を入力し、前記第2
の変動量の平均値、中央値あるいは最頻値など、前記第
2の変動量の平均的な挙動を反映した値、第2の平均変
動量を計算し、前記第2の平均変動量を音声/非音声判
定回路1040へ出力する。ここで、前記平均値、中央
値あるいは最頻値の計算には、線形フィルタおよび非線
形フィルタを用いることができる。
【0038】ここでは、次式の平滑フィルタを用いて、
第mフレームにおける第2の変動量ΔEf [m]と第(m−
1)フレームにおける第2の平均変動量 とから、第mフレームにおける第2の平均変動量 を計算する。 ここで、γEfは定数であり、例えば、γEf=0.6であ
る。
【0039】第3のフィルタ2063は、第3の変動量
計算回路1033から第3の変動量を入力し、前記第3
の変動量の平均値、中央値あるいは最頻値など、前記第
3の変動量の平均的な挙動を反映した値、第3の平均変
動量を計算し、前記第3の平均変動量を音声/非音声判
定回路1040へ出力する。ここで、前記平均値、中央
値あるいは最頻値の計算には、線形フィルタおよび非線
形フィルタを用いることができる。
【0040】ここでは、次式の平滑フィルタを用いて、
第mフレームにおける第3の変動量ΔEl [m]と第(m−
1)フレームにおける第3の平均変動量 とから、第mフレームにおける第3の平均変動量 を計算する。 ここで、γElは定数であり、例えば、γEl=0.6であ
る。
【0041】第4のフィルタ2064は、第4の変動量
計算回路1034から第4の変動量を入力し、前記第4
の変動量の平均値、中央値あるいは最頻値など、前記第
4の変動量の平均的な挙動を反映した値、第4の平均変
動量を計算し、前記第4の平均変動量を音声/非音声判
定回路1040へ出力する。ここで、前記平均値、中央
値あるいは最頻値の計算には、線形フィルタおよび非線
形フィルタを用いることができる。
【0042】ここでは、次式の平滑フィルタを用いて、
第mフレームにおける第4の変動量ΔZc [m]と第(m−
1)フレームにおける第4の平均変動量 とから、第mフレームにおける第4の平均変動量 を計算する。 ここで、γZcは定数であり、例えば、γZc=0.7であ
る。
【0043】なお、第1の変動量計算回路1031、第
2の変動量計算回路1032、第3の変動量計算回路1
033および第4の変動量計算回路1034において計
算される、第1の変動量、第2の変動量、第3の変動量
および第4の変動量は、各々、従来例で示した式の代わ
りに、次式を用いて計算することもできる。これは、以
下において記述される他の実施の形態に対しても同様で
ある。 あるいは、次式を用いることもできる。 m 次に本発明の第2の実施の形態について説明する。図2
は、本発明の音声検出装置の第2の実施の形態の構成を
示す図である。図2において、図1および図6と同一ま
たは同等の要素には、同一の参照符号が付されている。
【0044】図2を参照すると、本発明の第2の実施の
形態では、第1の変動量と、第2の変動量と、第3の変
動量と、第4の変動量の各々について平均値を計算する
フィルタを、音声/非音声判定回路1040の出力に従
って切り替える。ここで、平均値を計算するフィルタを
前記第1の実施の形態と同様の平滑フィルタとすると、
平滑化の強さを制御するパラメータ(平滑化強度パラメ
ータ)、γs, γEfElおよびmを、音声区間(すなわ
ち、音声/非音声判定回路1040から出力される判定
フラグが1)では大きくする。このことにより、前記第
1の変動量および各差分の平均値が、音声区間の全体的
な性質をよりよく反映することになり、音声区間での検
出誤りをさらに低減できる。他方、非音声区間(すなわ
ち、前記判定フラグが0)では前記平滑化強度パラメー
タを小さくすることで、非音声区間から音声区間への遷
移において、前記第1の変動量および各差分が平滑化さ
れることで生じる判定フラグの遷移の遅れ、すなわち検
出誤り、を回避できる。
【0045】なお、入力端子10および11、出力端子
12、LSF計算回路1011、全帯域エネルギー計算回
路1012、低域エネルギー計算回路1013、零交叉
数計算回路1014、第1の移動平均計算回路102
1、第2の移動平均計算回路1022、第3の移動平均
計算回路1023、第4の移動平均計算回路1024、
第1の変動量計算回路1031、第2の変動量計算回路
1032、第3の変動量計算回路1033、第4の変動
量計算回路1034および音声/非音声判定回路104
0は、図5に示した要素と同じであるので、これらの要
素の説明は省略する。
【0046】図2を参照すると、本発明の第2の実施の
形態においては、図1に示した第1の実施の形態の構成
における第1のフィルタ2061、第2のフィルタ20
62、第3のフィルタ2063および第4のフィルタ2
064に代わり、第5のフィルタ3061、第6のフィ
ルタ3062、第7のフィルタ3063、第8のフィル
タ3064、第9のフィルタ3065、第10のフィル
タ3066、第11のフィルタ3067、第12のフィ
ルタ3068、第1の切替器3071、第2の切替器3
072、第3の切替器3073、第4の切替器307
4、および第1の記憶回路3081、が付加されてい
る。以下ではこれらについて説明する。
【0047】第1の記憶回路3081は、音声/非音声
判定回路1040から判定フラグを入力し、これを記憶
保持し、記憶保持されている過去のフレームにおける前
記判定フラグを第1の切替器3071と、第2の切替器
3072と、第3の切替器3073と、第4の切替器3
074とに出力する。
【0048】第1の切替器3071は、第1の変動量計
算回路1031から第1の変動量を入力し、第1の記憶
回路3081から過去のフレームにおける判定フラグを
入力し、前記判定フラグが1(音声区間)のときは、前
記第1の変動量を第5のフィルタ3061へ出力し、前
記判定フラグが0(非音声区間)のときは、前記第1の
変動量を第6のフィルタ3062へ出力する。
【0049】第5のフィルタ3061は、第1の切替器
3071から第1の変動量を入力し、前記第1の変動量
の平均値、中央値あるいは最頻値など、前記第1の変動
量の平均的な挙動を反映した値、第1の平均変動量を計
算し、前記第1の平均変動量を音声/非音声判定回路1
040へ出力する。ここで、前記平均値、中央値あるい
は最頻値の計算には、線形フィルタおよび非線形フィル
タを用いることができる。ここでは、次式の平滑化フィ
ルタを用いて、第mフレームにおける第1の変動量ΔS
[m]と第(m−1)フレームにおける第1の平均変動量 とから、第mフレームにおける第1の平均変動量 を計算する。 ここで、γslは定数であり、例えば、γsl=0.80
である。
【0050】第6のフィルタ3062は、第1の切替器
3071から第1の変動量を入力し、前記第1の変動量
の平均値、中央値あるいは最頻値など、前記第1の変動
量の平均的な挙動を反映した値、第1の平均変動量を計
算し、前記第1の平均変動量を音声/非音声判定回路1
040へ出力する。ここで、前記平均値、中央値あるい
は最頻値の計算には、線形フィルタおよび非線形フィル
タを用いることができる。ここでは、次式の平滑化フィ
ルタを用いて、第mフレームにおける第1の変動量ΔS
[m]と第(m−1)フレームにおける第1の平均変動量 とから、第mフレームにおける第1の平均変動量 を計算する。 ここで、γs2は定数である。ただし、 例えば、γs2=0.64である。
【0051】第2の切替器3072は、第2の変動量計
算回路1032から第2の変動量を入力し、第1の記憶
回路3081から過去のフレームにおける判定フラグを
入力し、前記判定フラグが1(音声区間)のときは、前
記第2の変動量を第7のフィルタ3063へ出力し、前
記判定フラグが0(非音声区間)のときは、前記第2の
変動量を第8のフィルタ3064へ出力する。
【0052】第7のフィルタ3063は、第2の切替器
3072から第2の変動量を入力し、前記第2の変動量
の平均値、中央値あるいは最頻値など、前記第2の変動
量の平均的な挙動を反映した値、第2の平均変動量を計
算し、前記第2の平均変動量を音声/非音声判定回路1
040へ出力する。ここで、前記平均値、中央値あるい
は最頻値の計算には、線形フィルタおよび非線形フィル
タを用いることができる。ここでは、次式の平滑化フィ
ルタを用いて、第mフレームにおける第2の変動量ΔE
f [m]と第(m−1)フレームにおける第2の平均変動量 とから、第mフレームにおける第2の平均変動量 を計算する。 ここで、γEf1は定数であり、例えば、γEf1=0.70
である。
【0053】第8のフィルタ3064は、第2の切替器
3072から第2の変動量を入力し、前記第2の変動量
の平均値、中央値あるいは最頻値など、前記第2の変動
量の平均的な挙動を反映した値、第2の平均変動量を計
算し、前記第2の平均変動量を音声/非音声判定回路1
040へ出力する。ここで、前記平均値、中央値あるい
は最頻値の計算には、線形フィルタおよび非線形フィル
タを用いることができる。ここでは、次式の平滑化フィ
ルタを用いて、第mフレームにおける第2の変動量ΔE
f [m]と第(m−1)フレームにおける第2の平均変動量 とから、第mフレームにおける第2の平均変動量 を計算する。 ここで、γEf2は定数であり、但し、 例えば、γEf2=0.54である。
【0054】第3の切替器3073は、第3の変動量計
算回路1033から第3の変動量を入力し、第1の記憶
回路3081から過去のフレームにおける判定フラグを
入力し、前記判定フラグが1(音声区間)のときは、前
記第3の変動量を第9のフィルタ3065へ出力し、前
記判定フラグが0(非音声区間)のときは、前記第3の
変動量を第10のフィルタ3066へ出力する。
【0055】第9のフィルタ3065は、第3の切替器
3073から第3の変動量を入力し、前記第3の変動量
の平均値、中央値あるいは最頻値など、前記第3の変動
量の平均的な挙動を反映した値、第3の平均変動量を計
算し、前記第3の平均変動量を音声/非音声判定回路1
040へ出力する。ここで、前記平均値、中央値あるい
は最頻値の計算には、線形フィルタおよび非線形フィル
タを用いることができる。ここでは、次式の平滑化フィ
ルタを用いて、第mフレームにおける第3の変動量ΔE
l [m]と第(m−1)フレームにおける第3の平均変動量 とから、第mフレームにおける第3の平均変動量 を計算する。 ここで、γEf1は定数であり、例えば、γEf1=0.70
である。
【0056】第10のフィルタ3066は、第3の切替
器3073から第3の変動量を入力し、前記第3の変動
量の平均値、中央値あるいは最頻値など、前記第3の変
動量の平均的な挙動を反映した値、第3の平均変動量を
計算し、前記第3の平均変動量を音声/非音声判定回路
1040へ出力する。ここで、前記平均値、中央値ある
いは最頻値の計算には、線形フィルタおよび非線形フィ
ルタを用いることができる。ここでは、次式の平滑化フ
ィルタを用いて、第mフレームにおける第3の変動量Δ
l [m]と第(m−1)フレームにおける第3の平均変動
とから、第mフレームにおける第3の平均変動量 を計算する。 ここで、γEf2は定数であり、但し、 例えば、γEf2=0.54である。
【0057】第4の切替器3074は、第4の変動量計
算回路1034から第4の変動量を入力し、第1の記憶
回路3081から過去のフレームにおける判定フラグを
入力し、前記判定フラグが1(音声区間)のときは、前
記第4の変動量を第11のフィルタ3067へ出力し、
前記判定フラグが0(非音声区間)のときは、前記第4
の変動量を第12のフィルタ3068へ出力する。
【0058】第11のフィルタ3067は、第4の切替
器3074から第4の変動量を入力し、前記第4の変動
量の平均値、中央値あるいは最頻値など、前記第4の変
動量の平均的な挙動を反映した値、第4の平均変動量を
計算し、前記第4の平均変動量を音声/非音声判定回路
1040へ出力する。ここで、前記平均値、中央値ある
いは最頻値の計算には、線形フィルタおよび非線形フィ
ルタを用いることができる。ここでは、次式の平滑フィ
ルタを用いて、第mフレームにおける第4の変動量ΔZ
c [m]と第(m−1)フレームにおける第4の平均変動量 とから、第mフレームにおける第4の平均変動量 を計算する。 ここで、γZc1は定数であり、例えば、γZc1=0.78
である。
【0059】第12のフィルタ3068は、第4の切替
器3074から第4の変動量を入力し、前記第4の変動
量の平均値、中央値あるいは最頻値など、前記第4の変
動量の平均的な挙動を反映した値、第4の平均変動量を
計算し、前記第4の平均変動量を音声/非音声判定回路
1040へ出力する。ここで、前記平均値、中央値ある
いは最頻値の計算には、線形フィルタおよび非線形フィ
ルタを用いることができる。ここでは、次式の平滑フィ
ルタを用いて、第mフレームにおける第4の変動量ΔZ
c [m]と第(m−1)フレームにおける第4の平均変動量 とから、第mフレームにおける第4の平均変動量 を計算する。 ここで、γZc2は定数であり、例えば、 例えば、γZc2=0.64である。
【0060】次に本発明の第3の実施の形態について説
明する。図3は、本発明の音声検出装置の第3の実施の
形態の構成を示す図である。図3において、図1と同一
または同等の要素には、同一の参照符号が付されてい
る。本実施の形態は、例えば、音声復号装置において音
声と非音声とに応じて復号処理方法を切り替える等の目
的に対して、本願第1の実施の形態による音声検出装置
を利用する場合の構成例、と位置付けられる。このため
に本実施の形態では、入力端子10を介して、前記音声
復号装置から過去に出力された再生音声を入力し、入力
端子11を介して、音声復号装置において復号された線
形予測係数を入力する。なお、出力端子12、LSF計算
回路1011、全帯域エネルギー計算回路1012、低
域エネルギー計算回路1013、零交叉数計算回路10
14、第1の移動平均計算回路1021、第2の移動平
均計算回路1022、第3の移動平均計算回路102
3、第4の移動平均計算回路1024、第1の変動量計
算回路1031、第2の変動量計算回路1032、第3
の変動量計算回路1033、第4の変動量計算回路10
34、第1のフィルタ2061、第2のフィルタ206
2、第3のフィルタ2063、第4のフィルタ2064
および音声/非音声判定回路1040は、図1に示した
要素と同じであるので、説明を省略する。
【0061】図3を参照すると、本発明の第3の実施の
形態は、図1に示した第1の実施の形態の構成に加え
て、第2の記憶回路7071を備えている。以下では、
前記第2の記憶回路7071について説明する。
【0062】第2の記憶回路7071は、入力端子10
を介して、音声復号装置から出力される再生音声を入力
し、これを記憶保持し、記憶保持されている過去のフレ
ームの再生信号を全帯域エネルギー計算回路1012
と、低域エネルギー計算回路1013と、零交叉数計算
回路1014とへ出力する。
【0063】次に本発明の第4の実施の形態について説
明する。図4は、本発明の音声検出装置の第4の実施の
形態の構成を示す図である。図4において、図2と同一
または同等の要素には、同一の参照符号が付されてい
る。本実施の形態は、例えば、音声復号装置において音
声と非音声とに応じて復号処理方法を切り替える等の目
的に対して、本願第2の実施の形態による音声検出装置
を利用する場合の構成例、と位置付けられる。このため
に本実施の形態では、入力端子10を介して、音声復号
装置から出力される再生音声を入力し、入力端子11を
介して、音声復号装置において復号された線形予測係数
を入力する。なお、出力端子12、LSF計算回路101
1、全帯域エネルギー計算回路1012、低域エネルギ
ー計算回路1013、零交叉数計算回路1014、第1
の移動平均計算回路1021、第2の移動平均計算回路
1022、第3の移動平均計算回路1023、第4の移
動平均計算回路1024、第1の変動量計算回路103
1、第2の変動量計算回路1032、第3の変動量計算
回路1033、第4の変動量計算回路1034、第1の
切替器3071、第2の切替器3072、第3の切替器
3073、第4の切替器3074、第5のフィルタ30
61、第6のフィルタ3062、第7のフィルタ306
3、第8のフィルタ3064、第9のフィルタ306
5、第10のフィルタ3066、第11のフィルタ30
67、第12のフィルタ3068、第1の記憶回路30
81、および音声/非音声判定回路1040は、図2に
示した要素と同じであるので、説明を省略する。
【0064】図4を参照すると、本発明の第4の実施の
形態は、図2に示した第2の実施の形態の構成に加え
て、第2の記憶回路7071を備えている。ここで、前
記第2の記憶回路7071は、図3に示した要素と同じ
であるので、説明を省略する。
【0065】上記した本発明の各実施の形態の音声検出
装置は、ディジタル信号処理プロセッサ等のコンピュー
タ制御で実現するようにしてもよい。図5は、本発明の
第5の実施の形態として、上記各実施の形態の音声検出
装置をコンピュータで実現する場合の装置構成を模式的
に示す図である。記録媒体6から読み出されたプログラ
ムを実行するコンピュータ1において、一定時間長毎に
入力した音声信号から計算される特徴量を用いて、前記
音声信号を一定時間長毎に音声区間と非音声区間とに判
別する音声検出処理を実行するにあたり、記録媒体6に
は、(a)前記音声信号から線スペクトル周波数(LSF)
を計算する処理と、(b)前記音声信号から全帯域エネ
ルギーを計算する処理と、(c)前記音声信号から低域
エネルギーを計算する処理と、(d)前記音声信号から
零交叉数を計算する処理と、(e)前記線スペクトル周
波数とその長時間平均との差分に基づく第1の変動量を
計算する処理と、(f)前記全帯域エネルギーとその長
時間平均との差分に基づく第2の変動量を計算する処理
と、(g)前記低域エネルギーとその長時間平均との差
分に基づく第3の変動量を計算する処理と、(h)前記
零交叉数とその長時間平均との差分に基づく第4の変動
量を計算する処理と、(I)前記第1の変動量の長時間
平均を計算する処理と、(j)前記第2の変動量の長時
間平均を計算する処理と、(k)前記第3の変動量の長
時間平均を計算する処理と、(l)前記第4の変動量の
長時間平均を計算する処理と、の前記(a)から(l)の
処理を実行させるためのプログラムが記録されている。
【0066】記録媒体6から該プログラムを記録媒体読
出装置5、記録媒体読出装置インタフェース4を介して
メモリ3に読み出して実行する。上記プログラムは、マ
スクROM等、フラッシュ等の不揮発性メモリに格納して
もよく、記録媒体は不揮発性メモリを含むほか、CD-RO
M、FD、DVD(Digital Versatile Disk)、MT(磁気テー
プ)、可搬型HDD等の媒体のほか、例えばサーバ装置か
らコンピュータで該プログラムを通信媒体伝送する場合
等、プログラムを担持する有線、無線で通信される通信
媒体等も含む。
【0067】記録媒体6から読み出されたプログラムを
実行するコンピュータ1において、一定時間長毎に入力
した音声信号から計算される特徴量を用いて、前記音声
信号を一定時間長毎に音声区間と非音声区間とに判別す
る音声検出処理を実行するにあたり、記録媒体6には、
(a)過去に出力された前記判別の結果を保持する処理
と、(b)前記第1の変動量の長時間平均を計算する際
に、前記第1の記憶回路から入力した前記判別の結果を
用いて、第5のフィルタと第6のフィルタとを切り替え
る処理と、(c)前記第2の変動量の長時間平均を計算
する際に、前記第1の記憶回路から入力した前記判別の
結果を用いて、第7のフィルタと第8のフィルタとを切
り替える処理と、(d)前記第3の変動量の長時間平均
を計算する際に、前記第1の記憶回路から入力した前記
判別の結果を用いて、第9のフィルタと第10のフィル
タとを切り替える処理と、(e)前記第4の変動量の長
時間平均を計算する際に、前記第1の記憶回路から入力
した前記判別の結果を用いて、第11のフィルタと第1
2のフィルタとを切り替える処理と、の前記(a)から
(e)の処理を、前記コンピュータ1に実行させるため
のプログラムが記録されている。
【0068】記録媒体6から読み出されたプログラムを
実行するコンピュータ1において、一定時間長毎に入力
した音声信号から計算される特徴量を用いて、前記音声
信号を一定時間長毎に音声区間と非音声区間とに判別す
る音声検出処理を実行するにあたり、記録媒体6には、
過去に入力された前記音声信号から前記線スペクトル周
波数と、前記全帯域エネルギーと、前記低域エネルギー
と、前記零交叉数と、を計算する処理を、前記コンピュ
ータ1に実行させるためのプログラムが記録されてい
る。
【0069】記録媒体6から読み出されたプログラムを
実行するコンピュータ1において、記録媒体6には、
(a)音声復号装置から過去に出力された再生音声信号
を記憶保持する処理と、(b)前記再生音声信号から全
帯域エネルギーを計算する処理と、(c)前記再生音声
信号から低域エネルギーを計算する処理と、(d)前記
再生音声信号から零交叉数を計算する処理と、(e)前
記音声復号装置において復号される線形予測係数から線
スペクトル周波数を計算する処理と、の前記(a)から
(e)の処理を、前記コンピュータに実行させるための
プログラムが記録されている。
【0070】次に、上述した処理の動作をフローチャー
トを用いて説明する。 まず、上述した第1の実施の形
態に相当する動作を説明する。図7は第1の実施の形態
に相当する動作を説明する為のフローチャートである。
【0071】線形予測係数を入力し(Step l
1)、前記線形予測係数から線スペクトル周波数(Line
Spectral Frequency: LSF)を計算する(Step A
1)。ここで、線形予測係数からのLSFの計算に関して
は、周知の方法、例えば、文献1の3.2.3節に記述され
ている方法等が用いられる。
【0072】次に、計算したLSFと過去のフレームにお
いて計算された平均LSFとから現在のフレーム(現フレ
ーム)における移動平均LSFを計算する(Step A
2)。
【0073】ここで、第mフレームにおけるLSFを とすると、第mフレームにおける平均LSF、 は次式で表される。 ここで、Pは線形予測次数(例えば、10)であり、βLSF
はある定数(例えば、0.7)である。
【0074】続いて、 計算されたLSFαi [m]と移動平
均LSF とに基づいて、スペクトル変動量(第1の変動量)を計
算する(Step A3)。
【0075】ここで、第mフレームにおける第1の変動
量ΔS[m]は次式で表される。 さらに、第1の変動量ΔS[m]から、前記第1の変動量
の平均値、中央値あるいは最頻値など、前記第1の変動
量の平均的な挙動を反映した値、第1の平均変動量を計
算する(Step A3)。
【0076】ここでは、次式の平滑フィルタを用いて、
第mフレームにおける第1の変動量量ΔS[m]と第(m
−1)フレームにおける第1の平均変動量 とから、第mフレームにおける第1の平均変動量 を計算するものとする。 ここで、γは定数であり、例えば、γ=0.74で
ある。また、音声(入力音声)を入力し(Step l
2)、入力音声の全帯域エネルギーを計算する(Ste
p B1)。
【0077】ここで、全帯域エネルギーEfは、正規化
された0次の自己相関関数R(0)の対数をとったものであ
り、次式で表される。 また、自己相関係数は、次式で表される。 ここで、Nは入力音声に対する線形予測分析の窓の長さ
(分析窓長、例えば、240サンプル)であり、Sl(n)は、
前記窓をかけた入力音声である。N>Lfrの場合は、過
去のフレームにおいて入力された音声を保持することに
より、前記分析窓長分の音声とする。
【0078】次に、全帯域エネルギーEfと過去のフレ
ームにおいて計算された平均全帯域エネルギーとから現
フレームにおける全帯域エネルギーの移動平均を計算す
る(Step B2)。
【0079】ここで、第mフレームにおける全帯域エネ
ルギーをEf [m]とすると、第mフレームにおける全帯域
エネルギーの移動平均 は次式で表される。 ここで、βEfはある定数(例えば、0.7)である。
【0080】次に、全帯域エネルギー、Ef [m]と、全帯
域エネルギーの移動平均 とから、全帯域エネルギー変動量(第2の変動量)を計
算する(Step B3)。
【0081】ここで、第mフレームにおける第2の変動
量ΔEf [m]は、次式で表される。 さらに、第2の変動量ΔEf [m]から、第2の変動量の平
均値、中央値あるいは最頻値など、前記第2の変動量の
平均的な挙動を反映した値、第2の平均変動量を計算す
る(Step B4)。
【0082】ここでは、次式の平滑フィルタを用いて、
第mフレームにおける第2の変動量ΔEf [m]と第(m−
1)フレームにおける第2の平均変動量 とから、第mフレームにおける第2の平均変動量 を計算する。 ここで、γEfは定数であり、例えば、γEf=0.6であ
る。
【0083】また、入力音声から、入力音声の低域エネ
ルギーを計算する(Step C1)。ここで、0から
iHzまでの低域エネルギーEiは、次式で表される。 ここで、 はカットオフ周波数がFlHzのFIRフィルタのインパルス
応答であり、 は対角成分が自己相関係数R(k)であるテプリッツ自己相
関行列である。
【0084】次に、低域エネルギーと過去のフレームに
おいて計算された平均低域エネルギーとから現フレーム
における低域エネルギーの移動平均を計算する(Ste
pC2)。ここで、第mフレームにおける低域エネルギ
ーをEl [m]とすると、第mフレームにおける平均低域エ
ネルギー は次式で表される。 ここで、βElはある定数(例えば、0.7)である。
【0085】続いて、低域エネルギーEl [m]と、低域エ
ネルギーの移動平均 とから、低域エネルギー変動量(第3の変動量)を計算
する(Step C3)。ここで、第mフレームにおけ
る第3の変動量ΔEl [m]は次式で表される。 さらに、前記第3の変動量の平均値、中央値あるいは最
頻値など、前記第3の変動量の平均的な挙動を反映した
値、第3の平均変動量を計算する(StepC4)。こ
こでは、次式の平滑フィルタを用いて、第mフレームに
おける第3の変動量量ΔEl [m]と第(m−1)フレーム
における第3の平均変動量 とから、第mフレームにおける第3の平均変動量 を計算する。 ここで、γElは定数であり、例えば、γEl=0.6であ
る。
【0086】また、音声(入力音声)から入力音声ベク
トルの零交叉数を計算する(Step D1)。ここ
で、零交叉数Zcは、次式で表される。 ここで、S(n)は入力音声であり、sgn[x]はxが正のとき1
を、負のとき0をとる関数である。
【0087】次に、計算した零交叉数と過去のフレーム
において計算された平均零交叉数とから現フレームにお
ける零交叉数の移動平均を計算する(Step D
2)。ここで、第mフレームにおける零交叉数を とすると、第mフレームにおける平均零交叉数 は次式で表される。 ここで、βZcはある定数(例えば、0.7)である。
【0088】次に、零交叉数Zc [m]と、零交叉数の移動
平均 とをから、零交叉数変動量(第4の変動量)を計算する
(Step D3)。ここで、第mフレームにおける第
4の変動量ΔZc [m]は、次式で表される。 さらに、第4の変動量から、前記第4の変動量の平均
値、中央値あるいは最頻値など、前記第4の変動量の平
均的な挙動を反映した値、第4の平均変動量を計算する
(Srep D4)。ここでは、次式の平滑フィルタを
用いて、第mフレームにおける第4の変動量ΔZc [m]
第(m−1)フレームにおける第4の平均変動量 とから、第mフレームにおける第4の平均変動量 を計算する。 ここで、γZcは定数であり、例えば、γZc=0.7であ
る。
【0089】最後に、前記第1の平均変動量 と、前記第2の平均変動量 と、前記第3の平均変動量 と、前記第4の平均変動量 とからなる4次元ベクトルが、4次元空間の音声領域内
に存在するときは音声区間と判定し、それ以外のときは
非音声区間と判定する(Step E1)。
【0090】そして、前記音声区間のときは判定フラグ
を1に設定し(Step E3)、前記非音声区間のと
きは判定フラグを0に設定する(Step E2)し、
判定結果を出力する(Step E4)。
【0091】以上、処理が終了する。
【0092】次に、上述した第2の実施の形態に相当す
る処理の動作をフローチャートを用いて説明する。図
8、図9及び図10は第2の実施の形態に相当する動作
を説明する為のフローチャートである。尚、上述した動
作と同じ処理については説明を省略し、異なるものにつ
いてのみ説明する。
【0093】上述した処理と異なるのは、第1の変動
量、第2の変動量、第3の変動量及び第4の変動量を計
算した後、これらの平均値を計算する際、判定フラグの
種類により平均値を計算するフィルタを切り替える点で
ある。
【0094】まず、第1の変動量の場合について説明す
る。
【0095】Step A3で第1の変動量を計算した
後、過去の判定フラグが1か否かを確認する(Step
A11)。
【0096】判定フラグが1であれば、第2の実施の形
態における第5のフィルタのようなフィルタ処理を行
い、第1の平均変動量を計算する(Step A1
2)。例えば、次式の平滑化フィルタを用いて、第mフ
レームにおける第1の変動量ΔS[m ]と第(m−1)フ
レームにおける第1の平均変動量 とから、第mフレームにおける第1の平均変動量 を計算する。 ここで、γs1は定数であり、例えば、γs1=0.80で
ある。
【0097】一方、判定フラグが0であれば、第2の実
施の形態における第6のフィルタのようなフィルタ処理
を行い、第1の平均変動量を計算する(Step A1
3)。例えば、次式の平滑化フィルタを用いて、第mフ
レームにおける第1の変動量ΔS[m]と第(m−1)フ
レームにおける第1の平均変動量 とから、第mフレームにおける第1の平均変動量 を計算する。 ここで、γS2は定数である。ただし、 例えば、γS2=0.64である。
【0098】次に、第2の変動量の場合について説明す
る。
【0099】Step B3で第2の変動量を計算した
後、過去の判定フラグが1か否かを確認する(Step
B11)。
【0100】判定フラグが1であれば、第2の実施の形
態における第7のフィルタのようなフィルタ処理を行
い、第2の平均変動量を計算する(Step B1
2)。例えば、次式の平滑化フィルタを用いて、第mフ
レームにおける第2の変動量ΔEf [ m]と第(m−1)フ
レームにおける第2の平均変動量 とから、第mフレームにおける第2の平均変動量 を計算する。 ここで、γEf1は定数であり、例えば、γEf1=0.70
である。
【0101】一方、判定フラグが0であれば、第2の実
施の形態における第8のフィルタのようなフィルタ処理
を行い、第2の平均変動量を計算する(Step B1
3)。例えば、次式の平滑化フィルタを用いて、第mフ
レームにおける第2の変動量ΔEf [m]と第(m−1)フ
レームにおける第2の平均変動量 とから、第mフレームにおける第2の平均変動量 を計算する。 ここで、γEf2は定数であり、但し、 例えば、γEf2=0.54である。
【0102】続いて、第3の変動量の場合について説明
する。
【0103】Step C3で第3の変動量を計算した
後、過去の判定フラグが1か否かを確認する(Step
C11)。
【0104】判定フラグが1であれば、第2の実施の形
態における第9のフィルタのようなフィルタ処理を行
い、第3の平均変動量を計算する(Step C1
2)。例えば、次式の平滑化フィルタを用いて、第mフ
レームにおける第3の変動量ΔEl [ m]と第(m−1)フ
レームにおける第3の平均変動量 とから、第mフレームにおける第3の平均変動量 を計算する。 ここで、γEf1は定数であり、例えば、γEf1=0.70
である。
【0105】一方、判定フラグが0であれば、第2の実
施の形態における第10のフィルタのようなフィルタ処
理を行い、第3の平均変動量を計算する(Step C
13)。例えば、次式の平滑化フィルタを用いて、第m
フレームにおける第3の変動量ΔEl [m]と第(m−1)
フレームにおける第3の平均変動量 とから、第mフレームにおける第3の平均変動量 を計算する。 ここで、γEf2は定数であり、 γEf2=0.54である。
【0106】さらに、第4の変動量の場合について説明
する。
【0107】Step D3で第4の変動量を計算した
後、過去の判定フラグが1か否かを確認する(Step
D11)。
【0108】判定フラグが1であれば、第2の実施の形
態における第11のフィルタのようなフィルタ処理を行
い、第4の平均変動量を計算する(Step D1
2)。例えば、次式の平滑フィルタを用いて、第mフレ
ームにおける第4の変動量ΔZc [ m]と第(m−1)フレ
ームにおける第4の平均変動量 とから、第mフレームにおける第4の平均変動量 を計算する。 ここで、γzc1は定数であり、例えば、γzc1=0.78
である。
【0109】一方、判定フラグが0であれば、第2の実
施の形態における第12のフィルタのようなフィルタ処
理を行い、第4の平均変動量を計算する(Step D
13)。例えば、次式の平滑フィルタを用いて、第mフ
レームにおける第4の変動量ΔZc [m]と第(m−1)フ
レームにおける第4の平均変動量 とから、第mフレームにおける第4の平均変動量 を計算する。 ここで、γZc2は定数であり、但し、 γZc2=0.64である。
【0110】そして、前記第1の平均変動量 と、前記第2の平均変動量 と、前記第3の平均変動量 と、前記第4の平均変動量 とからなる4次元ベクトルが、4次元空間の音声領域内
に存在するときは音声区間と判定し、それ以外のときは
非音声区間と判定する(Step E1)。
【0111】続いて、上述した第3の実施の形態に相当
する処理の動作をフローチャートを用いて説明する。図
11は第3の実施の形態に相当する動作を説明する為の
フローチャートである。
【0112】本動作において上述した処理と異なるの
は、Step I11とStep I12であり、St
ep I11において音声復号装置において復号された
線形予測係数を入力する点と、Step I12におい
て音声復号装置から過去に出力された再生音声ベクトル
を入力する点とが異なる。
【0113】これら以外は、上述した動作と同じ処理な
ので、説明を省略する。
【0114】最後に、上述した第4の実施の形態に相当
する処理の動作をフローチャートを用いて説明する。図
12、図13及び図14は第4の実施の形態に相当する
動作を説明する為のフローチャートである。
【0115】本動作は、上述した第2の実施の形態に相
当する動作と第3の実施の形態に相当する動作を組み合
わせたことを特徴とする。従って、第2の実施の形態に
相当する動作と第3の実施の形態に相当する動作とは、
既に説明しているので、詳細な説明は省略する。
【0116】
【発明の効果】本発明の効果は、音声区間における検出
誤りおよび非音声区間における検出誤りを低減できるこ
とである。
【0117】その理由は、スペクトル変動量、エネルギ
ー変動量および零交叉数変動量の長時間平均を用いて音
声/非音声判定を行うからである。すなわち、前記各変
動量そのものに比べて、前記各変動量の長時間平均は、
音声および非音声の各々の区間内における値の変動が小
さいため、前記長時間平均の値は、音声区間および非音
声区間に対応するようにあらかじめ定めた値域に高い割
合で存在するからである。
【図面の簡単な説明】
【図1】本発明の音声検出装置の第1の実施の形態を示
すブロック図である。
【図2】本発明の音声検出装置の第2の実施の形態を示
すブロック図である。
【図3】本発明の音声検出装置の第3の実施の形態を示
すブロック図である
【図4】本発明の音声検出装置の第4の実施の形態を示
すブロック図である
【図5】本発明の第5の実施の形態を示すブロック図で
ある。
【図6】従来の音声検出装置を説明するブロック図であ
る。
【図7】本発明の実施の形態の動作を説明するためのフ
ローチャートである。
【図8】本発明の実施の形態の動作を説明するためのフ
ローチャートである。
【図9】本発明の実施の形態の動作を説明するためのフ
ローチャートである。
【図10】本発明の実施の形態の動作を説明するための
フローチャートである。
【図11】本発明の実施の形態の動作を説明するための
フローチャートである。
【図12】本発明の実施の形態の動作を説明するための
フローチャートである。
【図13】本発明の実施の形態の動作を説明するための
フローチャートである。
【図14】本発明の実施の形態の動作を説明するための
フローチャートである。
【符号の説明】
1 コンピュータ 2 CPU 3 メモリ 4 記録媒体読出装置インタフェース 5 記録媒体読出装置 6 記録媒体 10,11 入力端子 20 出力端子 1011 LSF計算回路 1012 全帯域エネルギー計算回路 1013 低域エネルギー計算回路 1014 零交叉数計算回路 1021 第1の移動平均計算回路 1022 第2の移動平均計算回路 1023 第3の移動平均計算回路 1024 第4の移動平均計算回路 1031 第1の変動量計算回路 1032 第2の変動量計算回路 1033 第3の変動量計算回路 1034 第4の変動量計算回路 1040 音声/非音声判定回路 1050 判定値補正回路 2061 第1のフィルタ 2062 第2のフィルタ 2063 第3のフィルタ 2064 第4のフィルタ 3061 第5のフィルタ 3062 第6のフィルタ 3063 第7のフィルタ 3064 第8のフィルタ 3065 第9のフィルタ 3066 第10のフィルタ 3067 第11のフィルタ 3068 第12のフィルタ 3071 第1の切替器 3072 第2の切替器 3073 第3の切替器 3074 第4の切替器 3081 第1の記憶回路 7071 第2の記憶回路

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 一定時間長毎に入力した音声信号から計
    算される特徴量を用いて、前記音声信号を一定時間長毎
    に音声区間と非音声区間とに判別する音声検出方法にお
    いて、 特徴量の変動量をフィルタに入力することで得られる変
    動量の長時間平均を用いて、音声信号を一定時間長毎に
    音声区間と非音声区間とに判別することを特徴とする音
    声検出方法。
  2. 【請求項2】 前記特徴量の変動量を、前記特徴量とそ
    の長時間平均とを用いて計算することを特徴とする請求
    項1に記載の音声検出方法。
  3. 【請求項3】 請求項1又は請求項2に記載の音声検出
    方法によって、過去に出力された判別の結果を用いて、
    前記変動量の長時間平均を計算する際の前記フィルタを
    切り替えることを特徴とする請求項1又は請求項2に記
    載の音声検出方法。
  4. 【請求項4】 過去に入力された音声信号から計算され
    る特徴量を用いることを特徴とする請求項1から請求項
    3のいずれかに記載の音声検出方法。
  5. 【請求項5】 前記特徴量として、線スペクトル周波
    数、全帯域エネルギー、低域エネルギー及び零交叉数の
    うちの少なくとも一つを用いることを特徴とする請求項
    1から請求項4のいずれかに記載の音声検出方法。
  6. 【請求項6】 音声復号方法によって復号される線形予
    測係数から計算される線スペクトル周波数と、前記音声
    復号方法によって過去に出力された再生音声信号から計
    算される全帯域エネルギー、低域エネルギー及び零交叉
    数のうちの少なくとも一つを用いることを特徴とする請
    求項5に記載の音声検出方法。
  7. 【請求項7】 一定時間長毎に入力した音声信号から計
    算される特徴量を用いて、前記音声信号を一定時間長毎
    に音声区間と非音声区間とに判別する音声検出装置にお
    いて、 音声信号から線スペクトル周波数(LSF)を計算するLSF
    計算回路と、 前記音声信号から全帯域エネルギーを計算する全帯域エ
    ネルギー計算回路と、 前記音声信号から低域エネルギーを計算する低域エネル
    ギー計算回路と、 前記音声信号から零交叉数を計算する零交叉数計算回路
    と、 前記線スペクトル周波数の変動量(第1の変動量)を計
    算する線スペクトル周波数変動量計算部と、 前記全帯
    域エネルギーの変動量(第2の変動量)を計算する全帯
    域エネルギー変動量計算部と、 前記低域エネルギーの
    変動量(第3の変動量)を計算する低域エネルギー変動
    量計算部と、 前記零交叉数の変動量(第4の変動量)を計算する零交
    叉数変動量計算部と、 前記第1の変動量の長時間平均を計算する第1のフィル
    タと、 前記第2の変動量の長時間平均を計算する第2のフィル
    タと、 前記第3の変動量の長時間平均を計算する第3のフィル
    タと、 前記第4の変動量の長時間平均を計算する第4のフィル
    タとを含むことを特徴とする音声検出装置。
  8. 【請求項8】 一定時間長毎に入力した音声信号から計
    算される特徴量を用いて、前記音声信号を一定時間長毎
    に音声区間と非音声区間とに判別する音声検出装置にお
    いて、 音声信号から線スペクトル周波数(LSF)を計算するLSF
    計算回路と、 前記音声信号から全帯域エネルギーを計算する全帯域エ
    ネルギー計算回路と、 前記音声信号から低域エネルギーを計算する低域エネル
    ギー計算回路と、 前記音声信号から零交叉数を計算する零交叉数計算回路
    と、 前記線スペクトル周波数とその長時間平均との差分に基
    づく第1の変動量を計算する第1の変動量計算回路と、 前記全帯域エネルギーとその長時間平均との差分に基づ
    く第2の変動量を計算する第2の変動量計算回路と、 前記低域エネルギーとその長時間平均との差分に基づく
    第3の変動量を計算する第3の変動量計算回路と、 前記零交叉数とその長時間平均との差分に基づく第4の
    変動量を計算する第4の変動量計算回路と、 前記第1の変動量の長時間平均を計算する第1のフィル
    タと、 前記第2の変動量の長時間平均を計算する第2のフィル
    タと、 前記第3の変動量の長時間平均を計算する第3のフィル
    タと、 前記第4の変動量の長時間平均を計算する第4のフィル
    タとを含むことを特徴とする音声検出装置。
  9. 【請求項9】 請求項7又は請求項8に記載の音声検出
    装置から過去に出力された前記判別の結果を保持する第
    1の記憶回路と、 前記第1の変動量の長時間平均を計算する際に、前記第
    1の記憶回路から入力した前記判別の結果を用いて、第
    5のフィルタと第6のフィルタとを切り替える第1の切
    替器と、 前記第2の変動量の長時間平均を計算する際に、前記第
    1の記憶回路から入力した前記判別の結果を用いて、第
    7のフィルタと第8のフィルタとを切り替える第2の切
    替器と、 前記第3の変動量の長時間平均を計算する際に、前記第
    1の記憶回路から入力した前記判別の結果を用いて、第
    9のフィルタと第10のフィルタとを切り替える第3の
    切替器と、 前記第4の変動量の長時間平均を計算する際に、前記第
    1の記憶回路から入力した前記判別の結果を用いて、第
    11のフィルタと第12のフィルタとを切り替える第4
    の切替器とを含むことを特徴とする請求項7または8記
    載の音声検出装置。
  10. 【請求項10】 過去に入力された前記音声信号から前
    記線スペクトル周波数と、前記全帯域エネルギーと、前
    記低域エネルギーと、前記零交叉数とを計算することを
    特徴とする請求項7から請求項9のいずれかに記載の音
    声検出装置。
  11. 【請求項 11】 前記特徴量として、線スペクトル周
    波数、全帯域エネルギー、低域エネルギーおよび零交叉
    数のうちの少なくとも一つを用いることを特徴とする請
    求項7から10のいずれかに記載の音声検出装置。
  12. 【請求項12】 音声復号装置から過去に出力された再
    生音声信号を記憶保持する第2の記憶回路を備え、 前記第2の記憶回路から出力される前記再生音声信号か
    ら計算される全帯域エネルギー、低域エネルギーおよび
    零交叉数と、前記音声復号装置において復号される線形
    予測係数から計算される線スペクトル周波数とのうちの
    少なくとも一つを用いることを特徴とする請求項7から
    請求項11のいずれかに記載の音声検出装置。
  13. 【請求項13】 一定時間長毎に入力した音声信号から
    計算される特徴量を用いて、前記音声信号を一定時間長
    毎に音声区間と非音声区間とに判別する音声検出装置を
    構成する情報処理装置に、 (a)前記音声信号から線スペクトル周波数(LSF)を計
    算する処理と、 (b)前記音声信号から全帯域エネル
    ギーを計算する処理と、 (c)前記音声信号から低域
    エネルギーを計算する処理と、 (d)前記音声信号か
    ら零交叉数を計算する処理と、 (e)前記線スペクト
    ル周波数の変動量(第1の変動量)を計算する処理と、
    (f)前記全帯域エネルギーの変動量(第2の変動
    量)を計算する処理と、 (g)前記低域エネルギーの
    変動量(第3の変動量)を計算する処理と、 (h)前記零交叉数の変動量(第4の変動量)を計算す
    る処理と、 (I)前記第1の変動量の長時間平均を計算する処理
    と、 (j)前記第2の変動量の長時間平均を計算する処理
    と、 (k)前記第3の変動量の長時間平均を計算する処理
    と、 (l)前記第4の変動量の長時間平均を計算する処理
    と、 の前記(a)から(l)の処理を実行させるためのプログ
    ラムを記録した前記情報処理装置が読み取り可能な記録
    媒体。
  14. 【請求項14】 一定時間長毎に入力した音声信号から
    計算される特徴量を用いて、前記音声信号を一定時間長
    毎に音声区間と非音声区間とに判別する音声検出装置を
    構成する情報処理装置に、 (a)前記音声信号から線スペクトル周波数(LSF)を計
    算する処理と、 (b)前記音声信号から全帯域エネルギーを計算する処
    理と、 (c)前記音声信号から低域エネルギーを計算する処理
    と、 (d)前記音声信号から零交叉数を計算する処理と、 (e)前記線スペクトル周波数とその長時間平均との差
    分に基づく第1の変動量を計算する処理と、 (f)前記全帯域エネルギーとその長時間平均との差分
    に基づく第2の変動量を計算する処理と、 (g)前記低域エネルギーとその長時間平均との差分に
    基づく第3の変動量を計算する処理と、 (h)前記零交叉数とその長時間平均との差分に基づく
    第4の変動量を計算する処理と、 (I)前記第1の変動量の長時間平均を計算する処理
    と、 (j)前記第2の変動量の長時間平均を計算する処理
    と、 (k)前記第3の変動量の長時間平均を計算する処理
    と、 (l)前記第4の変動量の長時間平均を計算する処理
    と、 の前記(a)から(l)の処理を実行させるためのプログ
    ラムを記録した前記情報処理装置が読み取り可能な記録
    媒体。
  15. 【請求項15】 請求項13又は請求項14に記載の記
    録媒体において、 (a)過去に出力された前記判別の結果を保持する処理
    と、 (b)前記第1の変動量の長時間平均を計算する際に、
    前記第1の記憶回路から入力した前記判別の結果を用い
    て、第5のフィルタと第6のフィルタとを切り替える処
    理と、 (c)前記第2の変動量の長時間平均を計算する際に、
    前記第1の記憶回路から入力した前記判別の結果を用い
    て、第7のフィルタと第8のフィルタとを切り替える処
    理と、 (d)前記第3の変動量の長時間平均を計算する際に、
    前記第1の記憶回路から入力した前記判別の結果を用い
    て、第9のフィルタと第10のフィルタとを切り替える
    処理と、 (e)前記第4の変動量の長時間平均を計算する際に、
    前記第1の記憶回路から入力した前記判別の結果を用い
    て、第11のフィルタと第12のフィルタとを切り替え
    る処理と、 の前記(a)から(e)の処理を、前記情報処理装置に実
    行させるためのプログラムを記録した前記情報処理装置
    が読み取り可能な記録媒体。
  16. 【請求項16】 請求項13から請求項15のいずれか
    に記載の記録媒体において、 前記特徴量として、過去に入力された前記音声信号から
    前記線スペクトル周波数と、前記全帯域エネルギーと、
    前記低域エネルギーと、前記零交叉数とを計算する処理
    を、前記情報処理装置に実行させるためのプログラムを
    記録した前記情報処理装置が読み取り可能な記録媒体。
  17. 【請求項 17】 請求項13から16のいずれかに記
    載の記録媒体において、(a)前記音声信号から線スペ
    クトル周波数(LSF)を計算する処理と、(b)前記音声
    信号から全帯域エネルギーを計算する処理と、(c)前
    記音声信号から低域エネルギーを計算する処理と、
    (d)前記音声信号から零交叉数を計算する処理と、の
    前記(a)から(d)の処理のうちの少なくとも一つを、前記
    情報処理装置に実行させるためのプログラムを記録した
    前記情報処理装置が読み取り可能な記録媒体。
  18. 【請求項 18】 請求項13から17のいずれかに記
    載の記録媒体において、(a) 音声復号装置から過去に
    出力された再生音声信号を記憶保持する処理と、(b)
    前記音声信号から線スペクトル周波数(LSF)を計算す
    る処理と、(c)前記音声信号から全帯域エネルギーを
    計算する処理と、(d)前記音声信号から低域エネルギ
    ーを計算する処理と、(e)前記再生音声信号から零交
    叉数を計算する処理と、の前記(a)の処理と、前記(b)か
    ら(e)の処理のうちの少なくとも一つを、前記情報処理
    装置に実行させるためのプログラムを記録した前記情報
    処理装置が読み取り可能な記録媒体。
JP2000166746A 2000-06-02 2000-06-02 音声検出方法及び装置とその記録媒体 Expired - Fee Related JP4221537B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2000166746A JP4221537B2 (ja) 2000-06-02 2000-06-02 音声検出方法及び装置とその記録媒体
AT01113066T ATE323931T1 (de) 2000-06-02 2001-05-29 Verfahren und vorrichtung zur sprachdetektion
CA002349102A CA2349102C (en) 2000-06-02 2001-05-29 Voice detecting method and apparatus, and medium thereof
DE60118831T DE60118831T2 (de) 2000-06-02 2001-05-29 Spracherkennungsverfahren und-vorrichtung sowie entsprechendes medium
EP01113066A EP1160763B1 (en) 2000-06-02 2001-05-29 Voice detecting method and apparatus
US09/871,368 US7117150B2 (en) 2000-06-02 2001-05-31 Voice detecting method and apparatus using a long-time average of the time variation of speech features, and medium thereof
US11/501,958 US7698135B2 (en) 2000-06-02 2006-08-10 Voice detecting method and apparatus using a long-time average of the time variation of speech features, and medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000166746A JP4221537B2 (ja) 2000-06-02 2000-06-02 音声検出方法及び装置とその記録媒体

Publications (2)

Publication Number Publication Date
JP2001350488A true JP2001350488A (ja) 2001-12-21
JP4221537B2 JP4221537B2 (ja) 2009-02-12

Family

ID=18670022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000166746A Expired - Fee Related JP4221537B2 (ja) 2000-06-02 2000-06-02 音声検出方法及び装置とその記録媒体

Country Status (6)

Country Link
US (2) US7117150B2 (ja)
EP (1) EP1160763B1 (ja)
JP (1) JP4221537B2 (ja)
AT (1) ATE323931T1 (ja)
CA (1) CA2349102C (ja)
DE (1) DE60118831T2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961698B1 (en) * 1999-09-22 2005-11-01 Mindspeed Technologies, Inc. Multi-mode bitstream transmission protocol of encoded voice signals with embeded characteristics
WO2006011405A1 (ja) * 2004-07-28 2006-02-02 The University Of Tokushima デジタルフィルタリング方法及び装置
JP2006209069A (ja) * 2004-12-28 2006-08-10 Advanced Telecommunication Research Institute International 音声区間検出装置および音声区間検出プログラム
JP2008151840A (ja) * 2006-12-14 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置
JP2008530591A (ja) * 2005-02-01 2008-08-07 クゥアルコム・インコーポレイテッド 背景雑音情報の断続伝送及び正確な再生の方法
KR100883652B1 (ko) 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
JP2009053618A (ja) * 2007-08-29 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
US7505898B2 (en) 2002-07-24 2009-03-17 Applied Minds, Inc. Method and system for masking speech
WO2009063662A1 (ja) * 2007-11-16 2009-05-22 Mitsubishi Electric Corporation 音声信号処理装置及び方法
WO2009078093A1 (ja) * 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
JP2010061151A (ja) * 2002-01-24 2010-03-18 Motorola Inc 雑音環境のための音声活動検出器及び有効化器
US7908142B2 (en) 2006-05-25 2011-03-15 Sony Corporation Apparatus and method for identifying prosody and apparatus and method for recognizing speech
JP2016145940A (ja) * 2015-02-09 2016-08-12 沖電気工業株式会社 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
KR100770895B1 (ko) * 2006-03-18 2007-10-26 삼성전자주식회사 음성 신호 분리 시스템 및 그 방법
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
CN102576528A (zh) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
CN105118520B (zh) * 2015-07-13 2017-11-10 腾讯科技(深圳)有限公司 一种音频开头爆音的消除方法及装置
KR101760753B1 (ko) * 2016-07-04 2017-07-24 주식회사 이엠텍 착용자의 상태를 알려 주는 청음 보조 장치
WO2019220725A1 (ja) * 2018-05-18 2019-11-21 パナソニックIpマネジメント株式会社 音声認識装置、音声認識方法、及びプログラム
CN112511698B (zh) * 2020-12-03 2022-04-01 普强时代(珠海横琴)信息技术有限公司 一种基于通用边界检测的实时通话分析方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6127598A (ja) 1984-07-19 1986-02-07 日本電気株式会社 音声信号の有音・無音判定方法
US5007093A (en) * 1987-04-03 1991-04-09 At&T Bell Laboratories Adaptive threshold voiced detector
US5487087A (en) * 1994-05-17 1996-01-23 Texas Instruments Incorporated Signal quantizer with reduced output fluctuation
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5806038A (en) * 1996-02-13 1998-09-08 Motorola, Inc. MBE synthesizer utilizing a nonlinear voicing processor for very low bit rate voice messaging
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置
US6438518B1 (en) * 1999-10-28 2002-08-20 Qualcomm Incorporated Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961698B1 (en) * 1999-09-22 2005-11-01 Mindspeed Technologies, Inc. Multi-mode bitstream transmission protocol of encoded voice signals with embeded characteristics
JP2010061151A (ja) * 2002-01-24 2010-03-18 Motorola Inc 雑音環境のための音声活動検出器及び有効化器
US7505898B2 (en) 2002-07-24 2009-03-17 Applied Minds, Inc. Method and system for masking speech
WO2006011405A1 (ja) * 2004-07-28 2006-02-02 The University Of Tokushima デジタルフィルタリング方法及び装置
US7890323B2 (en) 2004-07-28 2011-02-15 The University Of Tokushima Digital filtering method, digital filtering equipment, digital filtering program, and recording medium and recorded device which are readable on computer
JP2006209069A (ja) * 2004-12-28 2006-08-10 Advanced Telecommunication Research Institute International 音声区間検出装置および音声区間検出プログラム
US8102872B2 (en) 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
JP2008530591A (ja) * 2005-02-01 2008-08-07 クゥアルコム・インコーポレイテッド 背景雑音情報の断続伝送及び正確な再生の方法
US7908142B2 (en) 2006-05-25 2011-03-15 Sony Corporation Apparatus and method for identifying prosody and apparatus and method for recognizing speech
US9009048B2 (en) 2006-08-03 2015-04-14 Samsung Electronics Co., Ltd. Method, medium, and system detecting speech using energy levels of speech frames
KR100883652B1 (ko) 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
JP4758879B2 (ja) * 2006-12-14 2011-08-31 日本電信電話株式会社 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法
JP2008151840A (ja) * 2006-12-14 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置
US8214211B2 (en) 2007-08-29 2012-07-03 Yamaha Corporation Voice processing device and program
JP2009053618A (ja) * 2007-08-29 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
JPWO2009063662A1 (ja) * 2007-11-16 2011-03-31 三菱電機株式会社 音声信号処理装置及び方法
WO2009063662A1 (ja) * 2007-11-16 2009-05-22 Mitsubishi Electric Corporation 音声信号処理装置及び方法
WO2009078093A1 (ja) * 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
US8326612B2 (en) 2007-12-18 2012-12-04 Fujitsu Limited Non-speech section detecting method and non-speech section detecting device
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US8798991B2 (en) 2007-12-18 2014-08-05 Fujitsu Limited Non-speech section detecting method and non-speech section detecting device
JP2016145940A (ja) * 2015-02-09 2016-08-12 沖電気工業株式会社 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム

Also Published As

Publication number Publication date
EP1160763A3 (en) 2004-01-21
DE60118831D1 (de) 2006-05-24
EP1160763B1 (en) 2006-04-19
US20060271363A1 (en) 2006-11-30
US20020007270A1 (en) 2002-01-17
EP1160763A2 (en) 2001-12-05
ATE323931T1 (de) 2006-05-15
JP4221537B2 (ja) 2009-02-12
US7117150B2 (en) 2006-10-03
CA2349102C (en) 2007-05-01
CA2349102A1 (en) 2001-12-02
US7698135B2 (en) 2010-04-13
DE60118831T2 (de) 2006-11-30

Similar Documents

Publication Publication Date Title
JP2001350488A (ja) 音声検出方法及び装置とその記録媒体
US6704702B2 (en) Speech encoding method, apparatus and program
AU2009209444B2 (en) Lossless multi-channel audio codec using adaptive segmentation with random access point (RAP) and multiple prediction parameter set (MPPS) capability
RU2418324C2 (ru) Поддиапазонный речевой кодекс с многокаскадными таблицами кодирования и избыточным кодированием
US7502733B2 (en) Method and arrangement in a communication system
JP5792311B2 (ja) ピッチラグを推定すること
JP2007534020A (ja) 信号符号化
WO2005117366A1 (ja) 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
EP2438592A1 (en) Systems and methods for reconstructing an erased speech frame
JP2003512654A (ja) 音声の可変レートコーディングのための方法およびその装置
JP2016523380A (ja) 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
KR20040104508A (ko) 오디오 변환부호화기에서 적응 코드북 피치 지연 연산을위한 방법
JPH04270398A (ja) 音声符号化方式
US8078457B2 (en) Method for adapting for an interoperability between short-term correlation models of digital signals
KR20200081467A (ko) 인코딩 및 디코딩 오디오 신호들
JP3784583B2 (ja) 音声蓄積装置
KR20230129581A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
KR20050087366A (ko) 오디오 신호의 인코딩 방법
JP3435310B2 (ja) 音声符号化方法および装置
KR100594599B1 (ko) 수신단 기반의 패킷 손실 복구 장치 및 그 방법
JP2005316499A (ja) 音声符号化装置
JP2001147700A (ja) 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
JP4737416B2 (ja) 符号変換方法及び装置
JPWO2010067800A1 (ja) 符号化方法、復号方法、それらの装置、プログラム及び記録媒体
JP2022532094A (ja) コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイス

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081022

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131128

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees