JP2001236085A - 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 - Google Patents

音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置

Info

Publication number
JP2001236085A
JP2001236085A JP2000049085A JP2000049085A JP2001236085A JP 2001236085 A JP2001236085 A JP 2001236085A JP 2000049085 A JP2000049085 A JP 2000049085A JP 2000049085 A JP2000049085 A JP 2000049085A JP 2001236085 A JP2001236085 A JP 2001236085A
Authority
JP
Japan
Prior art keywords
coefficient
voice section
candidate
section
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000049085A
Other languages
English (en)
Inventor
Takeshi Kawamura
岳 河村
Yoshihisa Nakato
良久 中藤
Takeo Kanamori
丈郎 金森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000049085A priority Critical patent/JP2001236085A/ja
Publication of JP2001236085A publication Critical patent/JP2001236085A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 低S/Nの雑音状況下や、突発的非定常雑音
の発生する状況下でも、音声区間と、定常雑音区間と、
非定常雑音区間とを的確に取り出すことができる音声区
間検出装置を実現すること。 【解決手段】 音響分析手段11は音響信号を入力し、
複数の音響パラメータを重み付けして組み合わせて判別
係数を出力する。音声区間候補検出装置12Aは入力音
響信号に対して判別係数を用いて音声区間の始端候補と
出力端候補を検出する。音声区間決定手段は音声区間候
補長を算出し、候補長により音声区間を決定する。こう
すると、突発的に発生する非定常雑音に対して頑健な音
声区間検出装置が実現できる。各パラメータの特徴を利
用することで、特定の種類の非定常雑音に対して頑健な
装置を構成することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、定常雑音や突発的
に発生する非定常雑音に対して音声区間を検出する音声
区間検出装置と、定常雑音区間を検出する定常雑音区間
検出装置と、非定常雑音区間を検出する非定常雑音区間
検出装置と、雑音区間を検出する雑音区間検出装置とに
関する。
【0002】
【従来の技術】雑音下における音声区間検出の必要性
は、音声認識、音声符号・圧縮化技術、音声強調などの
分野で高まっている。従来の音声区間検出方式といえ
ば、次の(4)式を用いて入力信号レベルを検出する方
法が一般的である。
【数19】 尚、PX(ω)は入力信号スペクトル、∧(ハット)は
スペクトル信号の記号上に付加した推定の意味を表す冠
記号であり、∧付きのPN(ω)は推定ノイズスペクト
ルを示す。この(4)式の値が正であれば音声と判定
し、0以下であれば非音声と判定する。この方式は、定
常雑音、即ち音声に付加されて一定レベルを保ち続ける
ような背景騒音には有効である。
【0003】また入力信号が低S/Nの場合、背景騒音
の持つスペクトルの特徴と、音声信号の持つスペクトル
の特徴を利用して、特定帯域のパワーのみを抽出し、音
声又は非音声の判定を行う方式も一般的に知られてい
る。
【0004】このような方式を用いた音声区間検出装置
の従来構成について、図12〜15を用いて説明する。
音声区間の検出は、前述したように入力信号のレベルを
用いる方法が一般的である。また入力信号をローパスフ
ィルタに通して波形の包絡を得る方法を(5)式に示
す。
【数20】 Yは波形の包絡線、Xは入力信号のパワ、β1はローパ
スフィルタ(LPF)の係数(以後、時定数という)と
する。時定数が大きい程YのXに対する追随性は鈍くな
り、時定数が小さい程YのXに対する追随性は良くな
る。音声波形の微小変動を取り除いたものを検出するに
は、時定数を小さめに設定すればよい。
【0005】図12は従来の音声区間検出装置の構成例
1を示したものであり、音声区間候補検出手段12と音
声区間決定手段13Aとを含んで構成される。音声区間
候補検出手段12は、入力信号から音声区間の始終端候
補位置を検出するものである。音声区間決定手段13A
は、音声区間候補検出手段12より得られる複数の音声
区間候補を、単語や文章などのように1つの包含する音
声区間として判定するものである。
【0006】図13は従来の音声区間検出装置の構成例
2を示したものであり、音声区間決定手段13Bを含ん
で構成される。音声区間決定手段13Bは、入力信号か
ら音声区間の始終端位置を検出するもであり、この装置
に用いられるLPFの時定数は、図12に示す音声区間
検出装置に用いられるLPFの時定数より大きく設定さ
れる。
【0007】音声検出のための時定数を小さくすると、
入力信号への追随性がよくなり、音声区間候補の始終端
位置を精度よく検出できる。しかしながら音声区間候補
どうしの区分ができてしまい、後で音声区間として音声
区間候補をまとめ、音声区間の判定を行う作業が必要と
なる。この場合の機能を持たせたものが図12の音声区
間検出装置である。
【0008】一方、時定数を大きくすると、入力信号へ
の追随性が鈍るものの、単語1つをまとめて包絡させる
ことができる。この場合は2段階で音声区間検出を行う
必要がなくなる。このような機能を持たせたものが図1
3の音声区間検出装置である。この装置では入力信号へ
の追随性が悪くなるため、正確な音声区間の検出に支障
を来す可能性がある。
【0009】音声区間の検出には、性能的には図12に
示す構成の方がよい。図14は図12の構成による音声
区間の検出処理を機能的に表現したブロック図である。
入力信号X(t)を2乗手段12aで2乗し、2乗値y
1(t)に変換する。y1(t)を時定数β1のLPF
12bに通してスムージングをし、その出力を音声区間
のレベル波形y2(t)とする。一方、入力信号X
(t)を定常雑音レベル検出手段12cに入力し、定常
雑音のレベル波形y3(t)に変換する。次にレベル波
形y3(t)を乗算手段12dに入力し、定数δ1で乗
算したものをy4(t)とする。またレベル波形y3
(t)を乗算手段12eに入力し、定数δ2で乗算した
ものをy5(t)とする。閾値判定手段12fでは、レ
ベル波形y2(t)に対して第1の閾値y4(t)及び
第2の閾値y5(t)を用いてレベル判定する。ここで
はy4(t)を閾値判定線1として用い、y5(t)を
閾値判定線2として用いる。尚、図14における定常雑
音レベル検出方法の1つに、パワ変動幅に閾値を設け
て、閾値以上変動しない場合は暫定的に定常雑音区間と
し、そのレベルに追従させる方法がある。
【0010】図15(a)は入力信号X(t)の波形例
であり、音声信号(トリ_フォニーホールと発声した
例)に定常雑音が重畳され、更に非定常雑音も混入した
場合を示している。また図15(b)は従来のパワによ
る閾値判定の様子を示したものであり、(a)は秒を時
間単位として表示したのに対し、ここではフレーム数を
時間単位として表示している。ここではy2(t)と、
y4(t)又はy5(t)とを比較して、その大小によ
り音声区間か定常雑音区間か、又は中間的な性質の区間
かの判定を行っている。図15(c)に示すように、検
出結果として音声区間、ノイズ区間、グレー区間のいず
れかに判定される。
【0011】このように入力信号のS/Nが高い場合、
即ち約3〜6dB以上のS/N比の場合、定常雑音が付
加されていても、入力信号のレベルを見ることで、非定
常雑音を含めて音声区間を決定することができる。
【0012】
【発明が解決しようとする課題】しかしながら上記のよ
うな構成の音声区間検出装置では、非定常雑音が混入し
たときや、S/Nが悪い場合、即ち3dB以下のS/N
の場合、音声区間を明確に決定することができない。特
に、図14のβ1を小さく設定すると、音声と非定常雑
音の区別がつきにくくなり、非定常雑音を音声と誤って
判定してしまうことが多い。図15(c)は、β1を小
さくして入力信号への追随性を高めた場合、音声の前に
混入した非定常雑音がある程度のレベルを持つと、音声
と誤って判定される例を示している。
【0013】一方、図14のβ1を大きく設定すると、
突発的な非定常雑音を音声と判定することは少なくなる
ものの、音声レベルの立ち下がりや立ち上がりへの追随
性が鈍くなり、時間遅れが発生する。この場合、正確な
音声区間の検出が行えなくなってしまい、好ましくな
い。
【0014】以上のように従来方法は、定常雑音を想定
した入力信号レベルによる閾値判定法であり、非定常雑
音にロバストな性能と、音声区間の検出性能とが互いに
トレードオフの関係にあった。これは入力信号のレベル
を使って判定を行っている限り、解決できる課題ではな
い。
【0015】非定常雑音を音声と区別するためには、レ
ベル以外の音響パラメータP(係数関数と呼ぶ)により
生成した判別変数を使用する必要がある。即ち音声信号
に特徴を示す音響パラメータ、非定常雑音に特徴を示す
音響パラメータを併せて利用しなくてはならない。ま
た、β1を小さく設定することで、複数の音声区間候補
が塊として検出されてしまうが、これら塊状の音声区間
候補をどのようにして音声区間として一つの単語又は文
章にまとめて音声区間と見なすかという点も解決すべき
課題である。
【0016】本発明は、このような従来の問題点に鑑み
てなされたものであって、非定常雑音と音声、又は定常
雑音と音声の違いを複数の音響パラメータを用いて区別
することにより、非定常雑音を音声と誤って判断される
のを防ぐと共に、S/Nの悪い定常雑音下での音声区間
検出の性能を向上した音声区間検出装置を実現すること
を目的とする。また、音声区間検出装置の構成ブロック
の一部の機能を組み合わせることにより、定常雑音区間
を検出する定常雑音区間検出装置、非定常雑音区間を検
出する非定常雑音区間検出装置、及び雑音区間を検出す
る雑音区間検出装置を実現することを更なる目的とす
る。
【0017】
【課題を解決するための手段】本願の請求項1の発明
は、入力音響信号の音響分析を行い、前記音響信号が音
声、定常雑音、非定常雑音のいずれを含むかの評価指数
である音響パラメータPを1種類以上生成し、夫々の音
響パラメータPを重み付け加算した値を判別変数pとし
て出力する音響分析手段と、前記音響分析手段から出力
される判別変数pを用いて音声区間の始終端候補位置を
検出する音声区間候補検出手段と、前記音声区間候補検
出手段から出力される音声区間の始終端候補位置と前記
入力音響信号とから、音声区間を決定する音声区間決定
手段と、を具備することを特徴とするものである。
【0018】本願の請求項2の発明は、請求項1の音声
区間検出装置において、前記音響分析手段は、p1を判
別変数とし、tを次数、kを音響パラメータの種類を示
す番号とし、P(t,k)をt次の音響パラメータと
し、a(t,k)を重み付け係数とし、Δn_P(t,
k)を音響パラメータP(t,k)のn次回帰係数と
し、b(n,t,k)をn次回帰係数の重み付け係数と
するとき、(1)式を用いて入力音響信号の音響分析を
行い、判別変数p1を算出することを特徴とするもので
ある。
【0019】本願の請求項3の発明は、請求項2の音声
区間検出装置において、前記音響分析手段の音響パラメ
ータP(t,k)として、P(t,1)はt次の自己相
関係数、P(t,2)はt次の線形予測係数(LPC係
数)、P(t,3)はt次のPARCOR係数(Kパラ
メータ)、P(t,4)はt次の線形予測分析の予測残
差、P(t,5)はt次のLPCケプストラム係数、P
(t,6)はt次のLPCメルケプストラム係数、P
(t,7)はt次のメル線形予測係数(メルLPC係
数)、P(t,8)はt次のメルLPCケプストラム係
数であることを特徴とするものである。
【0020】本願の請求項4の発明は、請求項1の音声
区間検出装置において、前記音響分析手段は、p2を判
別変数とし、tを次数とし、P(t)をt次の音響パラ
メータとし、a(t)を重み付け係数とするとき、
(2)式を用いて入力音響信号の音響分析を行い、判別
変数p2を算出することを特徴とするものである。
【0021】本願の請求項5の発明は、請求項4の音声
区間検出装置において、前記音響分析手段の音響パラメ
ータP(t)として、P(t)は、t次の自己相関係
数、t次の線形予測係数(LPC係数)、t次のPAR
COR係数(Kパラメータ)、t次の線形予測分析の予
測残差、t次のLPCケプストラム係数、t次のLPC
メルケプストラム係数、t次のメル線形予測係数(メル
LPC係数)、t次のメルLPCケプストラム係数、夫
々の係数のn次回帰係数のうち、いずれかであることを
特徴とするものである。
【0022】本願の請求項6の発明は、請求項1の音声
区間検出装置において、前記音響分析手段は、rr
(t)をt次の自己相関係数とし、a(t)を重み付け
係数とし、Δn_rr(t)をt次自己相関係数のn次
回帰係数とし、b(n,t)をn次回帰係数の重み付け
係数とするとき、(3)式を用いて入力音響信号の音響
分析を行い、判別変数p3を算出することを特徴とする
ものである。
【0023】本願の請求項7の発明は、入力音響信号の
音響分析を行い、前記音響信号が音声、定常雑音、非定
常雑音のいずれを含むかの評価指数である音響パラメー
タPを1種類以上生成し、夫々の音響パラメータPを重
み付け加算した値を判別変数pとして出力する音響分析
手段と、前記音響分析手段から出力される判別変数pを
用いて音声区間の始終端候補位置を検出する音声区間候
補検出手段と、前記音声区間候補検出手段の出力する音
声区間の始終端候補位置と前記入力音響信号とから、音
声区間を決定する音声区間決定手段と、を具備し、前記
音声区間決定手段は、前記音声区間候補検出手段の出力
する音声区間の始終端候補位置から音声区間候補の長さ
を算出する音声区間候補長算出手段と、前記音声区間候
補検出手段の出力する音声区間の始終端候補位置から非
音声区間候補の長さを算出する非音声区間候補長算出手
段と、前記音声区間候補検出手段の出力する音声区間の
始終端候補位置と入力音響信号とから音声区間候補のレ
ベルを検出する音声区間候補レベル検出手段と、前記音
声区間候補長算出手段の出力する音声区間候補の長さ、
前記非音声区間候補長算出手段の出力する非音声区間候
補の長さ、及び前記音声区間候補レベル検出手段の出力
する音声区間候補の音声レベルにより音声区間の始終端
を判定する音声区間始終端判定手段と、を有することを
特徴とするものである。
【0024】本願の請求項8の発明は、請求項7の音声
区間検出装置において、前記音響分析手段は、p1を判
別変数とし、tを次数、kを音響パラメータの種類を示
す番号とし、P(t,k)をt次の音響パラメータと
し、a(t,k)を重み付け係数とし、Δn_P(t,
k)を音響パラメータP(t,k)のn次回帰係数と
し、b(n,t,k)をn次回帰係数の重み付け係数と
するとき、(1)式を用いて入力音響信号の音響分析を
行い、判別変数p1を算出することを特徴とするもので
ある。
【0025】本願の請求項9の発明は、請求項8の音声
区間検出装置において、前記音響分析手段の音響パラメ
ータP(t,k)として、P(t,1)はt次の自己相
関係数、P(t,2)はt次の線形予測係数(LPC係
数)、P(t,3)はt次のPARCOR係数(Kパラ
メータ)、P(t,4)はt次の線形予測分析の予測残
差、P(t,5)はt次のLPCケプストラム係数、P
(t,6)はt次のLPCメルケプストラム係数、P
(t,7)はt次のメル線形予測係数(メルLPC係
数)、P(t,8)はt次のメルLPCケプストラム係
数であることを特徴とするものである。
【0026】本願の請求項10の発明は、請求項7の音
声区間検出装置において、前記音響分析手段は、p2を
判別変数とし、tを次数とし、P(t)をt次の音響パ
ラメータとし、a(t)を重み付け係数とするとき、
(2)式を用いて入力音響信号の音響分析を行い、判別
変数p2を算出することを特徴とするものである。
【0027】本願の請求項11の発明は、請求項10の
音声区間検出装置において、前記音響分析手段の音響パ
ラメータP(t)として、P(t)は、t次の自己相関
係数、t次の線形予測係数(LPC係数)、t次のPA
RCOR係数(Kパラメータ)、t次の線形予測分析の
予測残差、t次のLPCケプストラム係数、t次のLP
Cメルケプストラム係数、t次のメル線形予測係数(メ
ルLPC係数)、t次のメルLPCケプストラム係数、
夫々の係数のn次回帰係数のうち、いずれかであること
を特徴とするものである。
【0028】本願の請求項12の発明は、請求項7の音
声区間検出装置において、前記音響分析手段は、rr
(t)をt次の自己相関係数とし、a(t)を重み付け
係数とし、Δn_rr(t)をt次自己相関係数のn次
回帰係数とし、b(n,t)をn次回帰係数の重み付け
係数とするとき、(3)式を用いて入力音響信号の音響
分析を行い、判別変数p3を算出することを特徴とする
ものである。
【0029】本願の請求項13の発明は、入力音響信号
の音響分析を行い、前記音響信号が音声、定常雑音、非
定常雑音のいずれを含むかの評価指数である音響パラメ
ータPを1種類以上生成し、夫々の音響パラメータPを
重み付け加算した値を判別変数pとして出力する音響分
析手段と、前記音響分析手段から出力される判別変数p
を用いて音声区間の始終端候補位置を検出する音声区間
候補検出手段と、前記音声区間候補検出手段の出力する
音声区間の始終端候補位置と前記入力音響信号とから音
声区間を決定する音声区間決定手段と、を具備し、前記
音声区間候補検出手段は、前記音響分析手段の出力する
判別変数pを用いて音声区間の始端候補位置を検出する
音声区間始端候補検出手段と、前記音声区間始端候補検
出手段の出力する音声区間始端候補と前記音響分析手段
の出力する判別変数とを用いて音声区間終端候補を検出
する音声区間終端候補検出手段と、を有するものであ
り、前記音声区間決定手段は、前記音声区間始端候補検
出手段の出力する音声区間の始端候補位置から音声区間
候補の連続する長さを算出する連続音声区間候補長算出
手段と、前記連続音声区間候補長算出手段の出力する音
声区間候補の連続する長さと前記音声区間始端候補検出
手段の出力する音声区間の始端候補位置とから音声区間
の始端を判定する音声区間始端判定手段と、前記音声区
間終端候補検出手段の出力する音声区間の終端候補位置
から非音声区間候補の連続する長さを算出する連続非音
声区間候補長算出手段と、前記連続非音声区間候補長算
出手段の出力する非音声区間候補の連続する長さ、前記
音声区間終端候補検出手段の出力する音声区間の終端候
補位置、及び前記音声区間始端判定手段の出力する始端
位置の有無や場所に基づいて音声区間の終端を決定する
音声区間終端判定手段と、を有することを特徴とするも
のである。
【0030】本願の請求項14の発明は、請求項13の
音声区間検出装置において、前記音響分析手段は、p1
を判別変数とし、tを次数、kを音響パラメータの種類
を示す番号とし、P(t,k)をt次の音響パラメータ
とし、a(t,k)を重み付け係数とし、Δn_P
(t,k)を音響パラメータP(t,k)のn次回帰係
数とし、b(n,t,k)をn次回帰係数の重み付け係
数とするとき、(1)式を用いて入力音響信号の音響分
析を行い、判別変数p1を算出することを特徴とするも
のである。
【0031】本願の請求項15の発明は、請求項13の
音声区間検出装置において、前記音響分析手段の音響パ
ラメータP(t,k)として、P(t,1)はt次の自
己相関係数、P(t,2)はt次の線形予測係数(LP
C係数)、P(t,3)はt次のPARCOR係数(K
パラメータ)、P(t,4)はt次の線形予測分析の予
測残差、P(t,5)はt次のLPCケプストラム係
数、P(t,6)はt次のLPCメルケプストラム係
数、P(t,7)はt次のメル線形予測係数(メルLP
C係数)、P(t,8)はt次のメルLPCケプストラ
ム係数であることを特徴とするものである。
【0032】本願の請求項16の発明は、請求項13の
音声区間検出装置において、 前記音響分析手段は、
p2を判別変数とし、tを次数とし、P(t)をt次の
音響パラメータとし、a(t)を重み付け係数とすると
き、(2)式を用いて入力音響信号の音響分析を行い、
判別変数p2を算出することを特徴とするものである。
【0033】本願の請求項17の発明は、請求項16の
音声区間検出装置において、前記音響分析手段の音響パ
ラメータP(t)として、P(t)は、t次の自己相関
係数、t次の線形予測係数(LPC係数)、t次のPA
RCOR係数(Kパラメータ)、t次の線形予測分析の
予測残差、t次のLPCケプストラム係数、t次のLP
Cメルケプストラム係数、t次のメル線形予測係数(メ
ルLPC係数)、t次のメルLPCケプストラム係数、
夫々の係数のn次回帰係数のうち、いずれかであること
を特徴とするものである。
【0034】本願の請求項18の発明は、請求項13の
音声区間検出装置において、前記音響分析手段は、rr
(t)をt次の自己相関係数とし、a(t)を重み付け
係数とし、Δn_rr(t)をt次自己相関係数のn次
回帰係数とし、b(n,t)をn次回帰係数の重み付け
係数とするとき、(3)式を用いて入力音響信号の音響
分析を行い、判別変数p3を算出することを特徴とする
ものである。
【0035】本願の請求項19の発明は、入力音響信号
から音声区間の始終端候補位置を検出する音声区間候補
検出手段と、前記音声区間候補検出手段の出力する音声
区間の始終端候補位置の情報を用いて入力音響信号の音
響分析を行い、前記音響信号が音声、定常雑音、非定常
雑音のいずれを含むかの評価指数である音響パラメータ
Pを1種類以上生成し、夫々の音響パラメータPを重み
付け加算した値を判別変数pとして出力する音響分析手
段と、前記音声区間候補検出手段の出力する音声区間候
補、前記音響分析手段の出力する判別変数p、及び入力
音響信号から音声区間を決定する音声区間決定手段と、
を具備することを特徴とするものである。
【0036】本願の請求項20の発明は、請求項19の
音声区間検出装置において、前記音響分析手段は、p1
を判別変数とし、tの次数、kの音響パラメータの種類
を示す番号とし、P(t,k)をt次の音響パラメータ
とし、a(t,k)を重み付け係数とし、Δn_P
(t,k)を音響パラメータP(t,k)のn次回帰係
数とし、b(n,t,k)をn次回帰係数の重み付け係
数とするとき、(1)式を用いて入力音響信号の音響分
析を行い、判別変数p1を算出することを特徴とするも
のである。
【0037】本願の請求項21の発明は、請求項20の
音声区間検出装置において、前記音響分析手段の音響パ
ラメータP(t,k)として、P(t,1)はt次の自
己相関係数、P(t,2)はt次の線形予測係数(LP
C係数)、P(t,3)はt次のPARCOR係数(K
パラメータ)、P(t,4)はt次の線形予測分析の予
測残差、P(t,5)はt次のLPCケプストラム係
数、P(t,6)はt次のLPCメルケプストラム係
数、P(t,7)はt次のメル線形予測係数(メルLP
C係数)、P(t,8)はt次のメルLPCケプストラ
ム係数であることを特徴とするものである。
【0038】本願の請求項22の発明は、請求項19の
音声区間検出装置において、前記音響分析手段は、p2
を判別変数とし、tを次数とし、P(t)をt次の音響
パラメータとし、a(t)を重み付け係数とするとき、
(2)式を用いて入力音響信号の音響分析を行い、判別
変数p2を算出することを特徴とするものである。
【0039】本願の請求項23の発明は、請求項19の
音声区間検出装置において、前記音響分析手段の音響パ
ラメータP(t)として、P(t)は、t次の自己相関
係数、t次の線形予測係数(LPC係数)、t次のPA
RCOR係数(Kパラメータ)、t次の線形予測分析の
予測残差、t次のLPCケプストラム係数、t次のLP
Cメルケプストラム係数、t次のメル線形予測係数(メ
ルLPC係数)、t次のメルLPCケプストラム係数、
夫々の係数のn次回帰係数のうち、いずれかであること
を特徴とするものである。
【0040】本願の請求項24の発明は、請求項19の
音声区間検出装置において、前記音響分析手段は、rr
(t)をt次の自己相関係数とし、a(t)を重み付け
係数とし、Δn_rr(t)をt次自己相関係数のn次
回帰係数とし、b(n,t)をn次回帰係数の重み付け
係数とするとき、(3)式を用いて入力音響信号の音響
分析を行い、判別変数p3を算出することを特徴とする
ものである。
【0041】本願の請求項25の発明は、入力音響信号
から音声区間の始終端候補位置を検出する音声区間候補
検出手段と、前記音声区間候補検出手段の出力する音声
区間の始終端候補位置の情報を用いて入力音響信号の音
響分析を行い、前記音響信号が音声、定常雑音、非定常
雑音のいずれを含むかの評価指数である音響パラメータ
Pを1種類以上生成し、夫々の音響パラメータPを重み
付け加算した値を判別変数pとして出力する音響分析手
段と、前記音声区間候補検出手段の出力する音声区間候
補、前記音響分析手段の出力する判別変数p、及び入力
音響信号から音声区間を決定する音声区間決定手段と、
を具備し、前記音声区間決定手段は、前記音声区間候補
検出手段の出力する音声区間の始終端候補位置から音声
区間候補の長さを算出する音声区間候補長算出手段と、
前記音声区間候補検出手段の出力する音声区間の始終端
候補位置から非音声区間候補の長さを算出する非音声区
間候補長算出手段と、前記音声区間候補検出手段の出力
する音声区間の始終端候補位置と入力音響信号とから音
声区間候補のレベルを検出する音声区間候補レベル検出
手段と、前記音声区間候補長算出手段の出力する音声区
間候補の長さ、前記非音声区間候補長算出手段の出力す
る非音声区間候補の長さ、及び前記音声区間候補レベル
検出手段の出力する音声区間候補の音声レベル、及び前
記音響分析手段の出力する判別変数pに基づいて音声区
間の始終端を判定する音声区間始終端判定手段と、を有
することを特徴とするものである。
【0042】本願の請求項26の発明は、請求項25の
音声区間検出装置において、前記音響分析手段は、p1
を判別変数とし、tを次数、kを音響パラメータの種類
を示す番号とし、P(t,k)をt次の音響パラメータ
とし、a(t,k)を重み付け係数とし、Δn_P
(t,k)を音響パラメータP(t,k)のn次回帰係
数とし、b(n,t,k)をn次回帰係数の重み付け係
数とするとき、(1)式を用いて入力音響信号の音響分
析を行い、判別変数p1を算出することを特徴とするも
のである。
【0043】本願の請求項27の発明は、請求項26の
音声区間検出装置において、前記音響分析手段の音響パ
ラメータP(t,k)として、P(t,1)はt次の自
己相関係数、P(t,2)はt次の線形予測係数(LP
C係数)、P(t,3)はt次のPARCOR係数(K
パラメータ)、P(t,4)はt次の線形予測分析の予
測残差、P(t,5)はt次のLPCケプストラム係
数、P(t,6)はt次のLPCメルケプストラム係
数、P(t,7)はt次のメル線形予測係数(メルLP
C係数)、P(t,8)はt次のメルLPCケプストラ
ム係数であることを特徴とするものである。
【0044】本願の請求項28の発明は、請求項25の
音声区間検出装置において、前記音響分析手段は、p2
を判別変数とし、tを次数とし、P(t)をt次の音響
パラメータとし、a(t)を重み付け係数とするとき、
(2)式を用いて入力音響信号の音響分析を行い、判別
変数p2を算出することを特徴とするものである。
【0045】本願の請求項29の発明は、請求項28の
音声区間検出装置において、前記音響分析手段の音響パ
ラメータP(t)として、P(t)は、t次の自己相関
係数、t次の線形予測係数(LPC係数)、t次のPA
RCOR係数(Kパラメータ)、t次の線形予測分析の
予測残差、t次のLPCケプストラム係数、t次のLP
Cメルケプストラム係数、t次のメル線形予測係数(メ
ルLPC係数)、t次のメルLPCケプストラム係数、
夫々の係数のn次回帰係数のうち、いずれかであること
を特徴とするものである。
【0046】本願の請求項30の発明は、請求項25の
音声区間検出装置において、前記音響分析手段は、rr
(t)をt次の自己相関係数とし、a(t)を重み付け
係数とし、Δn_rr(t)をt次自己相関係数のn次
回帰係数とし、b(n,t)をn次回帰係数の重み付け
係数とするとき、(3)式を用いて入力音響信号の音響
分析を行い、判別変数p3を算出することを特徴とする
ものである。
【0047】本願の請求項31の発明は、入力音響信号
から音声区間の始終端候補位置を検出する音声区間候補
検出手段と、前記音声区間候補検出手段の出力する音声
区間候補から音声区間を決定する音声区間決定手段と、
を具備し、前記音声区間候補検出手段は、入力音響信号
から音声区間の始端候補位置を検出する音声区間始端候
補検出手段と、前記音声区間始端候補検出手段の出力す
る音声区間始端候補と入力音響信号とから音声区間終端
候補を検出する音声区間終端候補検出手段と、を有する
ものであり、前記音声区間決定手段は、前記音声区間始
端候補検出手段の出力する音声区間の始端候補位置から
音声区間候補の連続する長さを算出する連続音声区間候
補長算出手段と、前記連続音声区間候補長算出手段の出
力する音声区間候補の連続する長さ、及び前記音声区間
始端候補検出手段の出力する音声区間の始端候補位置か
ら音声区間の始端候補を選別する音声区間始端候補選別
手段と、前記音声区間終端候補検出手段の出力する音声
区間の終端候補位置から非音声区間候補の連続する長さ
を算出する連続非音声区間候補長算出手段と、前記連続
非音声区間候補長算出手段の出力する非音声区間候補の
連続する長さ、及び前記音声区間終端候補検出手段の出
力する音声区間の終端候補位置から音声区間の終端候補
を選別する音声区間終端候補選別手段と、前記連続音声
区間候補長算出手段の出力する音声区間候補の連続する
長さ、前記音声区間始端候補選別手段の出力する音声区
間の始端候補位置、前記連続非音声区間候補長算出手段
の出力する非音声区間候補の連続する長さ、及び前記音
声区間終端候補選別手段の出力する音声区間の終端候補
位置の情報を用いて音響分析する部分を特定し、前記音
響信号が音声、定常雑音、非定常雑音のいずれを含むか
の評価指数である音響パラメータPを1種類以上生成
し、夫々の音響パラメータPを重み付け加算した値を判
別変数pとして出力する音響分析手段と、前記連続音声
区間候補長算出手段の出力する音声区間候補の連続する
長さ、前記音声区間始端候補選別手段の出力する音声区
間の始端候補位置、及び前記音響分析手段の出力する判
別変数pを用いて音声区間の始端を判定する音声区間始
端判定手段と、前記音声区間終端候補選別手段の出力す
る終端候補、前記連続非音声区間候補長算出手段の出力
する非音声区間候補の連続する長さ、前記音声区間始端
判定手段の出力する始端位置の有無や場所の情報を用い
て音声区間の終端を決定する音声区間終端判定手段と、
を有することを特徴とするものである。
【0048】本願の請求項32の発明は、請求項31の
音声区間検出装置において、前記音響分析手段は、p1
を判別変数とし、tを次数、kを音響パラメータの種類
を示す番号とし、P(t,k)をt次の音響パラメータ
とし、a(t,k)を重み付け係数とし、Δn_P
(t,k)を音響パラメータP(t,k)のn次回帰係
数とし、b(n,t,k)をn次回帰係数の重み付け係
数とするとき、(1)式を用いて入力音響信号の音響分
析を行い、判別変数p1を算出することを特徴とするも
のである。
【0049】本願の請求項33の発明は、請求項32の
音声区間検出装置において、前記音響分析手段の音響パ
ラメータP(t,k)として、P(t,1)はt次の自
己相関係数、P(t,2)はt次の線形予測係数(LP
C係数)、P(t,3)はt次のPARCOR係数(K
パラメータ)、P(t,4)はt次の線形予測分析の予
測残差、P(t,5)はt次のLPCケプストラム係
数、P(t,6)はt次のLPCメルケプストラム係
数、P(t,7)はt次のメル線形予測係数(メルLP
C係数)、P(t,8)はt次のメルLPCケプストラ
ム係数であることを特徴とするものである。
【0050】本願の請求項34の発明は、請求項31の
音声区間検出装置において、前記音響分析手段は、p2
を判別変数とし、tを次数とし、P(t)をt次の音響
パラメータとし、a(t)を重み付け係数とするとき、
(2)式を用いて入力音響信号の音響分析を行い、判別
変数p2を算出することを特徴とするものである。
【0051】本願の請求項35の発明は、請求項34の
音声区間検出装置において、前記音響分析手段の音響パ
ラメータP(t)として、P(t)は、t次の自己相関
係数、t次の線形予測係数(LPC係数)、t次のPA
RCOR係数(Kパラメータ)、t次の線形予測分析の
予測残差、t次のLPCケプストラム係数、t次のLP
Cメルケプストラム係数、t次のメル線形予測係数(メ
ルLPC係数)、t次のメルLPCケプストラム係数、
夫々の係数のn次回帰係数のうち、いずれかであること
を特徴とするものである。
【0052】本願の請求項36の発明は、請求項31の
音声区間検出装置において、前記音響分析手段は、rr
(t)をt次の自己相関係数とし、a(t)を重み付け
係数とし、Δn_rr(t)をt次自己相関係数のn次
回帰係数とし、b(n,t)をn次回帰係数の重み付け
係数とするとき、(3)式を用いて入力音響信号の音響
分析を行い、判別変数p3を算出することを特徴とする
ものである。
【0053】本願の請求項37の発明は、請求項1〜3
6のいずれか1項記載の音声区間検出装置を用いて入力
音響信号から音声区間と非定常雑音区間を取り除き、定
常雑音区間のみを取り出すことを特徴とするものであ
る。
【0054】本願の請求項38の発明は、請求項1〜3
6のいずれか1項記載の音声区間検出装置を用いて入力
音響信号から音声区間と定常雑音区間を取り除き、非定
常雑音区間のみを取り出すことを特徴とするものであ
る。
【0055】本願の請求項39の発明は、請求項1〜3
6のいずれか1項記載の音声区間検出装置を用いて入力
音響信号から音声区間を取り除き、定常雑音区間と非定
常雑音区間を取り出すことを特徴とするものである。
【0056】
【発明の実施の形態】以下、本発明の各実施の形態1〜
4における音声区間検出装置について、図面を参照しな
がら説明する。
【0057】(実施の形態1)本発明の実施の形態1に
おける音声区間検出装置について、図1及び図2を参照
しながら説明する。図1は本実施の形態における音声区
間検出装置の全体構成を示すブロック図である。以下で
扱う入力信号は、例えばデジタル化した上でのポイント
処理であっても、フレーム処理であっても良い。
【0058】この音声区間検出装置は、音響分析手段1
1、音声区間候補検出手段12A、音声区間決定手段1
3Cを含んで構成される。音響分析手段11は、入力音
響信号X(t)(以下、入力信号という)を音響分析す
るもので、次の(1)式で示される判別変数pを用いて
音響分析を行う。
【数21】 (1)式において、p1は判別変数 P(t,k)は音響パラメータと呼ばれる係数関数で、
tは次数、kは係数の種類を示す番号、a(t,k)は
重み付け係数で、tは次数、kは係数の種類を示す番
号、Δn_P(t,k)は係数関数P(t,k)のn次
回帰係数、b(n,t,k)はn次回帰係数の重み付け
係数である。
【0059】(1)式で用いられる具体的な係数関数は
次のものとする。 P(t,1);t次の自己相関係数 P(t,2);t次の線形予測係数(LPC係数) P(t,3);t次のPARCOR係数(Kパラメー
タ) P(t,4);t次の線形予測分析の予測残差 P(t,5);t次のLPCケプストラム係数 P(t,6);t次のLPCメルケプストラム係数 P(t,7);t次のメル線形予測係数(メルLPC係
数) P(t,8);t次のメルLPCケプストラム係数
【0060】また音響分析手段11は(2)式で示され
る判別変数p2を用いて音響分析を行うこともできる。
【数22】 P(t)は特定の係数関数で、tは次数 a(t)は重み付け係数で、tは次数 (2)式は判別変数として最も効果的な係数関数を1種
類用いる場合を示している。
【0061】また音響分析手段11は(3)式で示され
る判別変数p3を用いて音響分析を行うこともできる。
【数23】 rr(t)はt次の自己相関係数、a(t)はt次の重
み付け係数、Δn_rr(t)は係数関数rr(t)の
n次回帰係数、b(n,t)はn次回帰係数の重み付け
係数である。(3)式は判別変数として自己相関係数P
(t,1)=rr(t)を用いる場合を示している。
【0062】尚、音響分析手段11は予め設定した閾値
による閾値判定を行ってもよい。また音響分析手段11
は(1)式、(2)式については個々の音響パラメータ
の夫々について閾値判定し、それらの結果を出力するも
のであってもよい。但しその場合、(2)式のように次
数tについて重み付け係数を利用した和を取るものとす
る。
【0063】特に(3)式における1〜2次の自己相関
係数は、子音の/s/、/z/、/sh/などの摩擦音
や、紙を縒ったり丸めたりする音など、非定常な摩擦音
について特徴を示すことが実験で確認された。一方、3
〜7次の自己相関係数の1次回帰係数は、ある限定され
た帯域について、瞬間的なパワ変化の大きい音、例えば
携帯電話などのボタンを押圧するときに発する音などに
ついて特徴を示すパラメータであることが実験で確認さ
れた。
【0064】(1)〜(3)式における判別変数p1〜
p3を用いることにより、特定の非定常雑音で特徴を示
すパラメータをまとめ、総合的な音響分析の性能を得る
ことができる。非定常雑音全般に対してロバストな機能
を実現できる一方、必要であれば、特定の非定常雑音の
みに対してロバストな機能を実現することもできる。
【0065】音響分析に用いる閾値は、時々刻々と学習
しながら求めるような構造であったり、状況に応じて変
化するような値でもよい。前記の状況に対応する例とし
ては、S/Nの大小に応じて変化するものが挙げられ
る。
【0066】また音響分析手段11は、入力信号そのも
のを音響パラメータで解析するだけではなく、例えばF
FT、フィルタバンクなどによって周波数成分に分解す
る解析方法でもよい。
【0067】ここで音響分析手段11で用いた効果的な
判別変数の具体例を(6)式に示す。
【数24】 (6)式は(3)式の回帰係数の項を用いたもので、具
体的には携帯電話のボタン押圧時に発する音や、人が単
語又はメッセージを発声する直前に出てしまうリップ
音、舌打ち音などの非定常雑音に有効な判別変数を示し
たものである。paは3〜6次の自己相関係数の1次回
帰係数を用いたものであり、携帯電話のボタン操作音や
急激な変化のある非定常雑音に有効である。pbは1次
自己相関係数のみを用いたものであり、紙を縒ったり、
丸めたりするときなどの非定常摩擦音に有効である。
尚、自己相関係数を用いた判別変数pa、pbの設定方
法は(6)式に限定されるものではなく、入力音響信号
のサンプリング周波数、1フレームの長さ(サンプリン
グ数)によって異なり、rr(t)の次数、重み付け係
数a(t)の値は、サンプリング周波数、1フレームの
長さによって最適値に設定される。一般的には前述した
(3)式で表現される。
【0068】このような判別変数pa、pbを用いた閾
値判定の様子を図7に示す。図7(a)は入力信号X
(t)の波形例であり、音声信号(トリ_フォニーホー
ルと発声した例)に定常雑音が重畳され、更に非定常雑
音も混入した場合を示している。図7(b)は3〜6次
の自己相関係数の1次回帰係数を用いた判別変数paに
より判定した結果を示す。また図7(c)は1次の自己
相関係数を用いた判別変数pbにより判定した結果を示
す。即ち、pbは音声区間候補の区間内における1次自
己相関係数の時間方向の平均値を使って閾値判定してい
る。
【0069】paのように(1)〜(3)式の値そのも
のを閾値判定してもよいし、pbのように、更に時間方
向の平均を取ったりしてもよい。また閾値を超えた回
数、又は下回った回数を夫々カウントし、何回以上閾値
を超えた又は下回ったかというカウント制限を行った
り、音声区間候補長のうち何割で閾値を超えた又は下回
ったかという割合を求めたりして判定を行ってもよい。
【0070】図7(c)は、音声区間候補内での時間方
向平均を使い、閾値を何回下回ったかをフレーム数でカ
ウントし、音声区間候補内フレーム数のうち、カウント
したフレーム数の占める割合を計算し、閾値以上占めた
場合は非定常雑音と判定し、閾値以下の場合音声区間候
補と判定した例を示している。paでは正しく非定常雑
音の判定がなされなかったが、pbで非定常雑音の判定
が行われた。このようにpaとpbとを組み合わせて用
いると、結果的に非定常雑音を音声と誤って判定するこ
となく、音声区間の始端決定が正しく行われることが判
った。このような判別方法を用いた音声区間候補の検出
結果を図8(a),(b)に示す。
【0071】以上のように、図1の音声区間候補検出手
段12Aは、音響分析手段11から得られた情報をもと
に音声区間の候補を検出する。図8(b)に示す音声区
間候補検出結果では、「トリフォニー」と「ホール」と
の2つの音声区間候補が得られている。これは、音響分
析手段11で判定できるものが音素らしさを判定するも
のであることに起因している。実際に夫々の音素を言
葉、即ち「音声区間」としてまとめるには、音素のない
部分も含めて判断しなければならないことが多い。これ
は、時定数の小さい場合の従来の判別方式(パワレベル
による音声検出方式)でも同じことが言える。音声認識
や会話認識の場合には、音声区間候補を検出した後、そ
れらをまとめて音声区間と判定するアルゴリズムが必要
である。一方音声符号や圧縮化の場合には、必ずしも単
語や音声区間で判断する必要はなく、音声区間候補検出
だけで十分である。なお、音声区間候補の判定は、必ず
しも音声か非音声かの二分判定である必要はなく、音声
や非音声らしさを中間に数段階設け、複数種類の判定を
行うものであってもよい。
【0072】図1の音声区間決定手段13Cは、入力信
号と音声区間候補とから、正式に音声区間を決定するも
のである。この音声区間決定手段13Cを具体化したも
のを図2に示す。図2に示す音声区間決定手段13D
は、音声区間候補長算出手段21、非音声区間候補長算
出手段22、音声区間候補レベル検出手段23、音声区
間始終端判定手段24を含んで構成される。音声区間候
補長算出手段21は、音声区間候補の時間長を算出す
る。非音声区間候補長算出手段22は、非音声区間候補
の時間長を算出する。尚、音声・非音声区間の時間長は
フレーム数に代えてもよい。また入力信号の音声・非音
声判定結果が複数種類で出力される場合、算出した時間
長に重みを持たせてもよい。例えば、音声区間候補長算
出手段21で、図15(c)のような3種類判定の場
合、音声区間と判定すれば時間長を1倍し、グレー区間
と判定すれば時間長を0.5倍するという算出方法でも
よい。
【0073】音声区間候補レベル検出手段23は、音声
区間候補検出手段12により音声区間候補と判定された
場合、該当区間の入力信号と、非音声区間候補の入力信
号とのパワレベルを算出して閾値判定を行う。定常雑音
区間のレベル検出には、単純なパワ平均や(5)式のよ
うなローパスフィルタ型の平均値算出方法などが挙げら
れる。
【0074】音声区間始終端判定手段24は、音声区間
候補長算出手段21より得られる音声区間候補の時間
長、非音声区間候補長算出手段22より得られる非音声
区間候補間の非音声区間長、音声区間候補レベル検出手
段23より得られる音声区間候補のレベルを入力し、そ
の直前までの非音声区間候補のレベルから、音声区間即
ち単語や文章など音声区間候補間のかたまりを包含する
区間を判定する。音声候補区間は、ある一定時間(0.
030〜0.060秒)より長いという性質があり、そ
れよりも短い音声区間候補が上がった場合、非定常雑音
区間とする。また直前の定常雑音区間レベルと音声区間
候補のレベル差が一定比以上の場合、音声区間と認め
る。また文字で表すと、小さな「っ」のような促音で
は、単語中にある一定時間(0.300〜0.500
秒)以下の非音声部分(無音部分)が生じることがあ
る。そのため終端を判定するには、この一定時間以上の
非音声部分が語尾に継続して存在していると仮定しなけ
ればならない。この条件判定も音声区間始終端判定手段
24が行う。
【0075】以上のように本実施の形態の音声区間検出
装置によれば、音響分析手段11の出力情報(判別変
数)を用いて音声区間候補検出手段12Aが音声区間候
補を検出することで、非定常雑音にロバストな音声区間
検出機能が得られる。特に母音は音響パラメータ上では
特徴的である。この特性を活かして音声区間検出を行え
ば、音声認識では音声の始端検出ミスによる誤動作を防
ぐことができる。また、音声符号や圧縮化では不必要な
非定常雑音を取り除くことで、変換効率、圧縮率を上げ
ることができる。特に本発明の音声区間検出装置を音声
認識に使用する場合、音声認識で使用する音響パラメー
タをそのまま利用すれば、計算結果を共有することもで
き、構成的にも効率的となる。
【0076】(実施の形態2)次に本発明の実施の形態
2における音声区間検出装置について、図3を参照しな
がら説明する。図3は本実施の形態の音声区間検出装置
の全体構成を示すブロック図であり、図1の音声区間候
補検出手段12Aと音声区間決定手段13Cとを更に具
体的化したことを特徴とする。音響分析手段11は入力
信号X(t)に対して音響分析を行うもので、本実施の
形態1と同一の機能を有する。
【0077】本実施の形態の音声区間候補検出手段12
Bは、音声区間始端候補検出手段31と音声区間終端候
補検出手段32とを有している。音声区間始端候補検出
手段31は音響分析手段11から出力される判別変数を
用いて音声区間の始端候補位置を検出するものである。
音声区間終端候補検出手段32は音声区間始端候補検出
手段31の検出結果を用いて入力信号から音声区間の終
端候補位置を検出する。
【0078】本実施の形態の音声区間決定手段13E
は、連続音声区間候補長算出手段33、連続非音声区間
候補長算出手段34、音声区間始端判定手段35、音声
区間終端判定手段36とを有している。連続音声区間候
補長算出手段33は、音声区間始端候補検出手段31か
ら出力される音声区間始端候補の位置情報と、現在音声
区間候補か非音声区間候補かという情報とから、音声区
間候補が時間的にどれほど継続しているのかを算出す
る。候補長の算出には時間カウンタが用いられる。
【0079】連続非音声区間候補長算出手段34は、音
声区間終端候補検出手段32から出力される音声区間終
端候補の位置情報と、現在音声区間候補か非音声区間候
補かという情報とから、非音声区間候補が時間的にどれ
ほど継続しているのかを算出する。この候補長の算出に
も時間カウンタが用いられる。
【0080】音声区間始端判定手段35は、連続音声区
間候補長算出手段33からの音声区間候補長の情報と、
音声区間始端候補検出手段31からの音声区間始端候補
の位置情報とから音声区間の始端を決定する。音声区間
候補は、ある一定時間(0.030〜0.060秒)よ
り長いという性質があり、それよりも短い音声区間候補
が上がった場合、音声区間始端判定手段35は非定常雑
音と見なす。
【0081】音声区間終端判定手段36は、連続非音声
区間候補長算出手段34からの非音声区間候補長の情報
と、音声区間終端候補検出手段32からの音声区間終端
候補の位置情報とから音声区間の終端を決定する。文字
で表すと、小さな「っ」のような促音では、単語中にあ
る一定時間(0.300〜0.500秒)以下の非音声
部分(無音部分)が生じることがある。そのため終端を
判定するには、この一定時間以上の非音声部分が語尾に
継続して存在していると仮定しなければならない。音声
区間終端判定手段36では、このような条件による音声
区間終端候補の判定を行っている。
【0082】本実施の形態2の音声区間検出装置によれ
ば、入力信号の流れに応じたリアルタイム処理に優れ、
大きな時間遅れを発生することなく、音声区間の始端・
終端を決定することができる。また非定常雑音に対して
ロバストな音声区間検出装置が実現できる。
【0083】(実施の形態3)次に本発明の実施の形態
3における音声区間検出装置について、図4及び図5を
参照しながら説明する。図4は本実施の形態における音
声区間検出装置の全体構成を示すブロック図であり、音
響分析手段11、音声区間候補検出手段12C、音声区
間決定手段13Fを含んで構成される。この音声区間検
出装置は、まず従来型の検出方法で音声区間候補を検出
して後に、音響分析手段11により音声区間候補の音響
分析を行い、その結果音声区間候補が非定常雑音か音声
区間かを区別するという方式を採用したことを特徴とす
る。以下で扱う入力信号は、例えばデジタル化した上で
のポイント処理であっても良いし、フレーム処理でも良
い。本実施の形態における音響分析手段11、音声区間
候補検出手段12Cは、実施の形態1のものに準じる。
【0084】図5は、本実施の形態の音声区間決定手段
13Fと、音響分析手段11及び音声区間候補検出手段
12Cとの関係を具体的に示したブロック図である。音
声区間候補長算出手段21は音声区間候補の時間長を算
出する。非音声区間候補長算出手段22は非音声区間候
補の時間長を算出する。尚、音声・非音声区間の時間長
はフレーム数に代えても良い。また入力信号の音声・非
音声判定結果が複数種類の出力の場合、算出した時間長
に重みを持たせてもよい。例えば、音声区間候補長算出
手段21では、図15(c)に示すように検出結果が3
種類の場合において、音声区間と判定すれば時間長を1
倍し、グレー区間と判定すれば時間長を0.5倍すると
いう算出方法でもよい。
【0085】本実施の形態の音声区間検出装置は、まず
従来型の検出方法で音声区間候補を検出し、この後に音
声区間候補の音響分析を行い、その結果音声区間候補が
非定常雑音か音声区間かを区別することで、従来型の音
声区間検出方式の非定常雑音判定能力を高める効果が得
られる。また従来型で構成されるシステムやプログラム
でも、後から音響分析手段11を付加するだけなので、
わずかな労力で性能の向上を図ることができる。
【0086】(実施の形態4)次に本発明の実施の形態
4における音声区間検出装置について、図6を参照しな
がら説明する。図6は本実施の形態における音声区間検
出装置の全体構成を示したブロック図である。この音声
区間検出装置は音声区間候補検出手段12B、音声区間
決定手段13Gを含んで構成される。音声区間候補検出
手段12Bは実施の形態2のものと同一である。音響分
析手段11は音響区間決定手段13Gの内部に設けられ
る。
【0087】音声区間決定手段13Gは、連続音声区間
候補長算出手段33、連続非音声区間候補長算出手段3
4、音声区間始端判定手段35、音声区間終端判定手段
36、音響分析手段11に加えて、音声区間始端候補選
別手段61及び音声区間終端候補選別手段62を有して
いる。尚、以下で扱う入力信号は、例えばデジタル化し
た上でのポイント処理であっても良いし、フレーム処理
でも良い。
【0088】音声区間始端候補検出手段31は入力信号
から音声区間の始端候補位置を検出する。音声区間終端
候補検出手段32は入力信号から音声区間の終端候補位
置を検出する。これら検出手段は従来の入力信号レベル
による音声区間候補検出方式、即ち単純なパワ平均を用
いた閾値判定法などでもよい。
【0089】音声区間候補長算出手段33は、音声区間
始端候補検出手段31から出力される音声区間始端候補
の位置情報と、現在音声区間候補か非音声区間候補かと
いう情報とから、音声区間候補が時間的にどれ程継続し
ているのかを算出する。非音声区間候補長算出手段34
は、音声区間終端候補検出手段32から出力される音声
区間終端候補の位置情報と、現在音声区間候補か非音声
区間候補かという情報とから、非音声区間候補が時間的
にどれ程継続しているのかを算出する。
【0090】音声区間始端候補選別手段61は、連続音
声区間候補長算出手段33からの音声区間候補長の情報
と、音声区間始端候補検出手段31の音声区間始端候補
の位置情報とから、音声区間始端候補の数を絞り込む。
音声区間候補はある一定時間(0.030〜0.060
秒)より長いという性質があり、それよりも短い音声区
間候補が上がった場合、音声区間始端候補選別手段61
は非定常雑音と見なす。
【0091】音声区間終端候補選別手段62は、連続非
音声区間候補長算出手段34からの非音声区間候補長の
情報と、音声区間終端候補検出手段32の音声区間終端
候補の位置情報とから、音声区間終端候補の数を絞り込
む。文字で表すと、小さな「っ」のような促音では、単
語中にある一定時間(0.300〜0.500秒)以下
の非音声部分(無音部分)が生じる。そのため終端を判
定するには、この一定時間以上の非音声部分が語尾に継
続して存在していると仮定しなければならない。音声区
間終端候補選別手段62では、この条件による音声区間
終端候補の選別を行っている。
【0092】音響分析手段11は、連続音声区間候補長
算出手段33の出力する音声区間候補の連続する長さ、
音声区間始端候補選別手段61の出力する音声区間の始
端候補位置、連続非音声区間候補長算出手段34の出力
する非音声区間候補の連続する長さ、及び音声区間終端
候補選別手段62の出力する音声区間の終端候補位置の
情報を用いて音響分析する部分を特定し、音響信号が音
声、定常雑音、非定常雑音のいずれを含むかの評価指数
である音響パラメータPを1種類以上生成し、夫々の音
響パラメータPを重み付け加算した値を判別変数pとし
て出力する。判別変数pの生成方法は実施の形態1と同
様である。
【0093】音声区間始端決定手段35は、音響分析手
段11から得られる音響分析結果と、音声区間候補長算
出手段33から得られる連続音声区間候補長と、音声区
間始端候補選別手段61から得られる選別された音声区
間始端候補とから、音声区間の始端を正式に決定する。
音声区間始端候補からある一定の長さの音声区間候補長
(0.05〜0.200秒)経過したときに音響分析を
行い、その区間の音響分析結果から音声区間の始端か否
かを決定する。音声区間終端判定手段36は、音声区間
終端候補選別手段62から得られる音声区間終端候補
と、音声区間始端決定手段35から得られる正式な音声
区間始端位置とから、音声区間の正式な終端位置を決定
する。
【0094】本実施の形態3の音声区間検出装置は、入
力信号の流れに応じたリアルタイム処理ができ、大きな
時間遅れを発生することなく、音声区間の始端・終端を
決定していくことができる。また非定常雑音にロバスト
な音声区間検出装置が実現できる。
【0095】図9は、本実施の形態3と図12の従来例
との性能差を示した音声検出率の実験結果である。具体
的には、非定常雑音を含む音声信号を入力し、本実施の
形態3と従来例による音声区間の検出結果と、実際の音
声区間との時間的誤差が一定時間以下(0.12秒以
下)であるときに音声が正確に検出されたものと見なし
た。この結果によると、いずれの非定常雑音下でも、音
声検出の性能が向上していることがわかる。以上によ
り、レベル検出だけでは実現できない非定常雑音に対し
てロバストな音声区間検出を行うことができる。
【0096】(実施の形態5)次に本発明の実施の形態
5としての定常雑音区間検出装置について説明する。図
10は定常雑音区間検出装置の構成図であり、前述した
いずれかの実施の形態の音声区間検出装置80の後段に
定常雑音区間検出手段81を接続することにより実現で
きる。入力信号X(t)が入力されると、音声区間検出
装置80は音声区間tvと非定常雑音区間tn’を検出
する。定常雑音区間検出手段81は入力信号X(t)の
入力期間tから音声区間tvと非定常雑音区間tn’と
を除いた部分を定常雑音区間tnとして出力する。
【0097】(実施の形態6)次に本発明の実施の形態
6としての非定常雑音区間検出装置について説明する。
図11は非定常雑音区間検出装置の構成図であり、前述
した実施の形態の音声区間検出装置80に内部に設けら
れた音声区間決定手段13、35、36のいずれかの出
力を用いる。この構成で非定常雑音区間を出力すること
ができる。入力信号X(t)が入力されると、音声区間
検出装置80の音声区間決定手段13、35、36のい
ずれかは、音声区間tvと非定常雑音区間tn’を検出
する。この非定常雑音区間tn’を出力すれば良い。
【0098】また雑音期間を検出するには、図10の定
常雑音区間tnと図11の非定常雑音区間tn’のう
ち、いずれか一方が出力される期間を雑音期間とする
か、音声区間tv以外の期間を雑音期間として利用する
こともできる。
【0099】
【発明の効果】本発明の音声区間検出装置によれば、入
力音響信号に対して音響分析を行うことで、入力音響信
号の部分的な特徴を解析することができる。また、夫々
の音響パラメータが持つ特徴を総合した特徴パラメータ
(判別変数)を用いて閾値判定することで、区別のつき
にくい非定常雑音と音声、低S/N比状況下での定常雑
音と音声とを的確に区別することができる。
【0100】請求項1記載の音声区間検出装置によれ
ば、音響パラメータを用いた判別変数により音声区間候
補を検出することで、低S/Nの状況下においても、音
声、非定常雑音、定常雑音の特徴を同時に捉えて区別す
ることができる。
【0101】請求項2,3記載の音声区間検出装置によ
れば、複数の音響パラメータに重み付けして和を取るよ
うな評価尺度を用いて音声区間候補を検出することで、
低S/Nの状況下においても、音声、非定常雑音、定常
雑音の特徴を同時に捉えて区別することができる。
【0102】請求項4,5記載の音声区間検出装置によ
れば、任意のn次音響パラメータ又はそのn次回帰係数
について、夫々の次数で重み付けし、和を取るような評
価尺度を用いて音声区間候補を検出することで、低S/
Nの状況下においても、音声、特定の非定常雑音、定常
雑音の特徴を同時に捉えて区別することができる。
【0103】請求項6記載の音声区間検出装置によれ
ば、n次自己相関係数とそのn次回帰係数に夫々重み付
けし、和を取るような評価尺度を用いて音声区間候補を
検出することで、低S/Nの状況下においても、音声、
特定の非定常雑音、定常雑音の特徴を同時に捉えて区別
することができる。
【0104】請求項7〜12記載の音声区間検出装置に
よれば、請求項1〜6の発明の効果に加えて、別々に検
出された音声区間候補を1つの単語や文章としてまとめ
ることができる。このため精度よく音声区間を検出する
ことができる。また、音響分析手段を用いて音声区間候
補を検出することで、非定常雑音にロバストな音声区間
検出装置が得られる。母音は音響パラメータ上では特徴
的であるので、この特性を活かして音声区間検出を行え
ば、音声認識では音声の始端検出ミスによる誤動作を防
ぐことができる。また音声符号・圧縮化では不必要な非
定常雑音を取り除くことで、変換効率、圧縮率を上げる
ことができる。特に音声認識の場合、音声認識部で使用
する音響パラメータを利用する設計とすれば、計算結果
を共有することもでき、構成上効率的である。
【0105】請求項13〜18記載の音声区間検出装置
によれば、請求項1〜6の発明の効果に加えて、非定常
雑音にロバストな音声区間検出を時間遅れなくリアルタ
イムに行いたい場合に有効である。
【0106】請求項19〜24記載の音声区間検出装置
によれば、請求項1〜6の発明の効果に加えて、先ず従
来型の検出方法で音声区間候補を検出し、後に音声区間
候補の音響分析を行い、その結果音声区間候補が非定常
雑音か音声区間かを区別するという方式を採用すること
で、従来型の音声区間検出方式の非定常雑音の判定能力
をより高める効果が得られる。また従来型で構成される
システムやプログラムでも、音響分析部分を付加するだ
けなので、わずかな労力で性能向上を図ることができ
る。
【0107】請求項25〜30記載の音声区間検出装置
によれば、請求項19〜24の発明の効果に加えて、別
々に検出された音声区間候補を1つの単語や文章として
まとめることができる。このため精度よく音声区間を検
出することができる。また、従来型の検出方法で音声区
間候補を検出して後に音声区間候補の音響分析を行い、
その結果音声区間候補が非定常雑音か音声区間かを区別
するという方式を採用することで、従来型の音声区間検
出方式の非定常雑音の判定能力を高める効果が得られ
る。加えて、従来型で構成されるシステムやプログラム
でも、音響分析部分を付加するだけなので、わずかな労
力で性能向上を図ることができる。
【0108】請求項31〜36記載の音声区間検出装置
によれば、請求項19〜24の発明の効果に加えて、非
定常雑音にロバストな音声区間検出を時間遅れなくリア
ルタイムに行いたい場合に有効である。
【0109】請求項37記載の発明によれば、請求項1
〜36の音声区間検出装置の一部の機能を用いることに
より、定常雑音区間を検出することができる。
【0110】請求項38記載の発明によれば、請求項1
〜36の音声区間検出装置の一部の機能を用いることに
より、非定常雑音区間を検出することができる。
【0111】請求項39記載の発明によれば、請求項1
〜36の音声区間検出装置の一部の機能を用いることに
より、雑音区間を検出することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1における音声区間検出装
置の全体構成を示すブロック図である。
【図2】実施の形態1の音声区間検出装置の音声区間決
定手段の具体例を示したブロック図である。
【図3】本発明の実施の形態2における音声区間検出装
置の全体構成を示すブロック図である。
【図4】本発明の実施の形態3における音声区間検出装
置の全体構成を示すブロック図である。
【図5】実施の形態3の音声区間検出装置の音声区間決
定手段の具体例を示したブロック図である。
【図6】本発明の実施の形態4における音声区間検出装
置の全体構成を示すブロック図。
【図7】実施の形態4の音声区間検出装置の閾値判定方
法を示した説明図である。
【図8】実施の形態4の音声区間検出装置の動作結果を
示した説明図である。
【図9】実施の形態4の音声区間検出装置と従来例との
性能差を示した説明図である。
【図10】本発明の実施の形態5における定常雑音区間
検出装置の全体構成を示すブロック図である。
【図11】本発明の実施の形態6における非定常雑音区
間検出装置の全体構成を示すブロック図である。
【図12】従来の音声区間検出装置の構成例(その1)
を示すブロック図である。
【図13】従来の音声区間検出装置の構成例(その2)
を示すブロック図である。
【図14】従来例のレベル検出による音声区間検出装置
の原理図である。
【図15】従来例のレベル検出によるパラメータ動作と
その結果を示した説明図である。
【符号の説明】
11 音響分析手段 12A,12B 音声区間候補検出手段 13,13A,13B,13D,13E,13F,13
G 音声区間決定手段 21 音声区間候補長算出手段 22 非音声区間候補長算出手段 23 音声区間候補レベル検出手段 24 音声区間始終端判定手段 31 音声区間始端候補検出手段 32 音声区間終端候補検出手段 33 連続音声区間候補長算出手段 34 連続非音声区間候補長算出手段 35 音声区間始端決定手段 36 音声区間終端決定手段 61 音声区間始端候補選別手段 62 音声区間終端候補選別手段 80 音声区間検出装置 81 定常雑音区間検出装置
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 101:14 G10L 9/08 D 9/14 A D (72)発明者 金森 丈郎 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5D015 CC05 CC07 CC11 DD03 DD04

Claims (39)

    【特許請求の範囲】
  1. 【請求項1】 入力音響信号の音響分析を行い、前記音
    響信号が音声、定常雑音、非定常雑音のいずれを含むか
    の評価指数である音響パラメータPを1種類以上生成
    し、夫々の音響パラメータPを重み付け加算した値を判
    別変数pとして出力する音響分析手段と、 前記音響分析手段から出力される判別変数pを用いて音
    声区間の始終端候補位置を検出する音声区間候補検出手
    段と、 前記音声区間候補検出手段から出力される音声区間の始
    終端候補位置と前記入力音響信号とから、音声区間を決
    定する音声区間決定手段と、を具備することを特徴とす
    る音声区間検出装置。
  2. 【請求項2】 前記音響分析手段は、 p1を判別変数とし、tを次数、kを音響パラメータの
    種類を示す番号とし、P(t,k)をt次の音響パラメ
    ータとし、a(t,k)を重み付け係数とし、Δn_P
    (t,k)を音響パラメータP(t,k)のn次回帰係
    数とし、b(n,t,k)をn次回帰係数の重み付け係
    数とするとき、 【数1】 (1)式を用いて入力音響信号の音響分析を行い、判別
    変数p1を算出するものであることを特徴とする請求項
    1記載の音声区間検出装置。
  3. 【請求項3】 前記音響分析手段の音響パラメータP
    (t,k)において、P(t,1)はt次の自己相関係
    数、 P(t,2)はt次の線形予測係数(LPC係数)、 P(t,3)はt次のPARCOR係数(Kパラメー
    タ)、 P(t,4)はt次の線形予測分析の予測残差、 P(t,5)はt次のLPCケプストラム係数、 P(t,6)はt次のLPCメルケプストラム係数、 P(t,7)はt次のメル線形予測係数(メルLPC係
    数)、 P(t,8)はt次のメルLPCケプストラム係数であ
    ることを特徴とする請求項2記載の音声区間検出装置。
  4. 【請求項4】 前記音響分析手段は、 p2を判別変数とし、tを次数とし、P(t)をt次の
    音響パラメータとし、a(t)を重み付け係数とすると
    き、 【数2】 (2)式を用いて入力音響信号の音響分析を行い、判別
    変数p2を算出するものであることを特徴とする請求項
    1記載の音声区間検出装置。
  5. 【請求項5】 前記音響分析手段の音響パラメータP
    (t)において、 P(t)は、 t次の自己相関係数、 t次の線形予測係数(LPC係数)、 t次のPARCOR係数(Kパラメータ)、 t次の線形予測分析の予測残差、 t次のLPCケプストラム係数、 t次のLPCメルケプストラム係数、 t次のメル線形予測係数(メルLPC係数)、 t次のメルLPCケプストラム係数、 夫々の係数のn次回帰係数のうち、いずれかであること
    を特徴とする請求項4記載の音声区間検出装置。
  6. 【請求項6】 前記音響分析手段は、 rr(t)をt次の自己相関係数とし、a(t)を重み
    付け係数とし、Δn_rr(t)をt次自己相関係数の
    n次回帰係数とし、b(n,t)をn次回帰係数の重み
    付け係数とするとき、 【数3】 (3)式を用いて入力音響信号の音響分析を行い、判別
    変数p3を算出するものであることを特徴とする請求項
    1記載の音声区間検出装置。
  7. 【請求項7】 入力音響信号の音響分析を行い、前記音
    響信号が音声、定常雑音、非定常雑音のいずれを含むか
    の評価指数である音響パラメータPを1種類以上生成
    し、夫々の音響パラメータPを重み付け加算した値を判
    別変数pとして出力する音響分析手段と、 前記音響分析手段から出力される判別変数pを用いて音
    声区間の始終端候補位置を検出する音声区間候補検出手
    段と、 前記音声区間候補検出手段の出力する音声区間の始終端
    候補位置と前記入力音響信号とから、音声区間を決定す
    る音声区間決定手段と、を具備し、 前記音声区間決定手段は、 前記音声区間候補検出手段の出力する音声区間の始終端
    候補位置から音声区間候補の長さを算出する音声区間候
    補長算出手段と、 前記音声区間候補検出手段の出力する音声区間の始終端
    候補位置から非音声区間候補の長さを算出する非音声区
    間候補長算出手段と、 前記音声区間候補検出手段の出力する音声区間の始終端
    候補位置と入力音響信号とから音声区間候補のレベルを
    検出する音声区間候補レベル検出手段と、 前記音声区間候補長算出手段の出力する音声区間候補の
    長さ、前記非音声区間候補長算出手段の出力する非音声
    区間候補の長さ、及び前記音声区間候補レベル検出手段
    の出力する音声区間候補の音声レベルにより音声区間の
    始終端を判定する音声区間始終端判定手段と、を有する
    ものであることを特徴とする音声区間検出装置。
  8. 【請求項8】 前記音響分析手段は、 p1を判別変数とし、tを次数、kを音響パラメータの
    種類を示す番号とし、P(t,k)をt次の音響パラメ
    ータとし、a(t,k)を重み付け係数とし、Δn_P
    (t,k)を音響パラメータP(t,k)のn次回帰係
    数とし、b(n,t,k)をn次回帰係数の重み付け係
    数とするとき、 【数4】 (1)式を用いて入力音響信号の音響分析を行い、判別
    変数p1を算出するものであることを特徴とする請求項
    7記載の音声区間検出装置。
  9. 【請求項9】 前記音響分析手段の音響パラメータP
    (t,k)において、 P(t,1)はt次の自己相関係数、 P(t,2)はt次の線形予測係数(LPC係数)、 P(t,3)はt次のPARCOR係数(Kパラメー
    タ)、 P(t,4)はt次の線形予測分析の予測残差、 P(t,5)はt次のLPCケプストラム係数、 P(t,6)はt次のLPCメルケプストラム係数、 P(t,7)はt次のメル線形予測係数(メルLPC係
    数)、 P(t,8)はt次のメルLPCケプストラム係数であ
    ることを特徴とする請求項8記載の音声区間検出装置。
  10. 【請求項10】 前記音響分析手段は、 p2を判別変数とし、tを次数とし、P(t)をt次の
    音響パラメータとし、a(t)を重み付け係数とすると
    き、 【数5】 (2)式を用いて入力音響信号の音響分析を行い、判別
    変数p2を算出するものであることを特徴とする請求項
    7記載の音声区間検出装置。
  11. 【請求項11】 前記音響分析手段の音響パラメータP
    (t)において、 P(t)は、 t次の自己相関係数、 t次の線形予測係数(LPC係数)、 t次のPARCOR係数(Kパラメータ)、 t次の線形予測分析の予測残差、 t次のLPCケプストラム係数、 t次のLPCメルケプストラム係数、 t次のメル線形予測係数(メルLPC係数)、 t次のメルLPCケプストラム係数、 夫々の係数のn次回帰係数のうち、いずれかであること
    を特徴とする請求項10記載の音声区間検出装置。
  12. 【請求項12】 前記音響分析手段は、 rr(t)をt次の自己相関係数とし、a(t)を重み
    付け係数とし、Δn_rr(t)をt次自己相関係数の
    n次回帰係数とし、b(n,t)をn次回帰係数の重み
    付け係数とするとき、 【数6】 (3)式を用いて入力音響信号の音響分析を行い、判別
    変数p3を算出するものであることを特徴とする請求項
    7記載の音声区間検出装置。
  13. 【請求項13】 入力音響信号の音響分析を行い、前記
    音響信号が音声、定常雑音、非定常雑音のいずれを含む
    かの評価指数である音響パラメータPを1種類以上生成
    し、夫々の音響パラメータPを重み付け加算した値を判
    別変数pとして出力する音響分析手段と、 前記音響分析手段から出力される判別変数pを用いて音
    声区間の始終端候補位置を検出する音声区間候補検出手
    段と、 前記音声区間候補検出手段の出力する音声区間の始終端
    候補位置と前記入力音響信号とから音声区間を決定する
    音声区間決定手段と、を具備し、 前記音声区間候補検出手段は、 前記音響分析手段の出力する判別変数pを用いて音声区
    間の始端候補位置を検出する音声区間始端候補検出手段
    と、 前記音声区間始端候補検出手段の出力する音声区間始端
    候補と前記音響分析手段の出力する判別変数とを用いて
    音声区間終端候補を検出する音声区間終端候補検出手段
    と、を有するものであり、 前記音声区間決定手段は、 前記音声区間始端候補検出手段の出力する音声区間の始
    端候補位置から音声区間候補の連続する長さを算出する
    連続音声区間候補長算出手段と、 前記連続音声区間候補長算出手段の出力する音声区間候
    補の連続する長さと前記音声区間始端候補検出手段の出
    力する音声区間の始端候補位置とから音声区間の始端を
    判定する音声区間始端判定手段と、 前記音声区間終端候補検出手段の出力する音声区間の終
    端候補位置から非音声区間候補の連続する長さを算出す
    る連続非音声区間候補長算出手段と、 前記連続非音声区間候補長算出手段の出力する非音声区
    間候補の連続する長さ、前記音声区間終端候補検出手段
    の出力する音声区間の終端候補位置、及び前記音声区間
    始端判定手段の出力する始端位置の有無や場所に基づい
    て音声区間の終端を決定する音声区間終端判定手段と、
    を有するものであることを特徴とする音声区間検出装
    置。
  14. 【請求項14】 前記音響分析手段は、 p1を判別変数とし、tを次数、kを音響パラメータの
    種類を示す番号とし、P(t,k)をt次の音響パラメ
    ータとし、a(t,k)を重み付け係数とし、Δn_P
    (t,k)を音響パラメータP(t,k)のn次回帰係
    数とし、b(n,t,k)をn次回帰係数の重み付け係
    数とするとき、 【数7】 (1)式を用いて入力音響信号の音響分析を行い、判別
    変数p1を算出するものであることを特徴とする請求項
    13記載の音声区間検出装置。
  15. 【請求項15】 前記音響分析手段の音響パラメータP
    (t,k)において、 P(t,1)はt次の自己相関係数、 P(t,2)はt次の線形予測係数(LPC係数)、 P(t,3)はt次のPARCOR係数(Kパラメー
    タ)、 P(t,4)はt次の線形予測分析の予測残差、 P(t,5)はt次のLPCケプストラム係数、 P(t,6)はt次のLPCメルケプストラム係数、 P(t,7)はt次のメル線形予測係数(メルLPC係
    数)、 P(t,8)はt次のメルLPCケプストラム係数であ
    ることを特徴とする請求項13記載の音声区間検出装
    置。
  16. 【請求項16】 前記音響分析手段は、 p2を判別変数とし、tを次数とし、P(t)をt次の
    音響パラメータとし、a(t)を重み付け係数とすると
    き、 【数8】 (2)式を用いて入力音響信号の音響分析を行い、判別
    変数p2を算出するものであることを特徴とする請求項
    13記載の音声区間検出装置。
  17. 【請求項17】 前記音響分析手段の音響パラメータP
    (t)において、 P(t)は、 t次の自己相関係数、 t次の線形予測係数(LPC係数)、 t次のPARCOR係数(Kパラメータ)、 t次の線形予測分析の予測残差、 t次のLPCケプストラム係数、 t次のLPCメルケプストラム係数、 t次のメル線形予測係数(メルLPC係数)、 t次のメルLPCケプストラム係数、 夫々の係数のn次回帰係数のうち、いずれかであること
    を特徴とする請求項16記載の音声区間検出装置。
  18. 【請求項18】 前記音響分析手段は、 rr(t)をt次の自己相関係数とし、a(t)を重み
    付け係数とし、Δn_rr(t)をt次自己相関係数の
    n次回帰係数とし、b(n,t)をn次回帰係数の重み
    付け係数とするとき、 【数9】 (3)式を用いて入力音響信号の音響分析を行い、判別
    変数p3を算出するものであることを特徴とする請求項
    13記載の音声区間検出装置。
  19. 【請求項19】 入力音響信号から音声区間の始終端候
    補位置を検出する音声区間候補検出手段と、 前記音声区間候補検出手段の出力する音声区間の始終端
    候補位置の情報を用いて入力音響信号の音響分析を行
    い、前記音響信号が音声、定常雑音、非定常雑音のいず
    れを含むかの評価指数である音響パラメータPを1種類
    以上生成し、夫々の音響パラメータPを重み付け加算し
    た値を判別変数pとして出力する音響分析手段と、 前記音声区間候補検出手段の出力する音声区間候補、前
    記音響分析手段の出力する判別変数p、及び入力音響信
    号から音声区間を決定する音声区間決定手段と、を具備
    することを特徴とする音声区間検出装置。
  20. 【請求項20】 前記音響分析手段は、 p1を判別変数とし、tを次数、kを音響パラメータの
    種類を示す番号とし、P(t,k)をt次の音響パラメ
    ータとし、a(t,k)を重み付け係数とし、Δn_P
    (t,k)を音響パラメータP(t,k)のn次回帰係
    数とし、b(n,t,k)をn次回帰係数の重み付け係
    数とするとき、 【数10】 (1)式を用いて入力音響信号の音響分析を行い、判別
    変数p1を算出するものであることを特徴とする請求項
    19記載の音声区間検出装置。
  21. 【請求項21】 前記音響分析手段の音響パラメータP
    (t,k)において、 P(t,1)はt次の自己相関係数、 P(t,2)はt次の線形予測係数(LPC係数)、 P(t,3)はt次のPARCOR係数(Kパラメー
    タ)、 P(t,4)はt次の線形予測分析の予測残差、 P(t,5)はt次のLPCケプストラム係数、 P(t,6)はt次のLPCメルケプストラム係数、 P(t,7)はt次のメル線形予測係数(メルLPC係
    数)、 P(t,8)はt次のメルLPCケプストラム係数であ
    ることを特徴とする請求項20記載の音声区間検出装
    置。
  22. 【請求項22】 前記音響分析手段は、 p2を判別変数とし、tを次数とし、P(t)をt次の
    音響パラメータとし、a(t)を重み付け係数とすると
    き、 【数11】 (2)式を用いて入力音響信号の音響分析を行い、判別
    変数p2を算出するものであることを特徴とする請求項
    19記載の音声区間検出装置。
  23. 【請求項23】 前記音響分析手段の音響パラメータP
    (t)において、 P(t)は、 t次の自己相関係数、 t次の線形予測係数(LPC係数)、 t次のPARCOR係数(Kパラメータ)、 t次の線形予測分析の予測残差、 t次のLPCケプストラム係数、 t次のLPCメルケプストラム係数、 t次のメル線形予測係数(メルLPC係数)、 t次のメルLPCケプストラム係数、 夫々の係数のn次回帰係数のうち、いずれかであること
    を特徴とする請求項19記載の音声区間検出装置。
  24. 【請求項24】 前記音響分析手段は、 rr(t)をt次の自己相関係数とし、a(t)を重み
    付け係数とし、Δn_rr(t)をt次自己相関係数の
    n次回帰係数とし、b(n,t)をn次回帰係数の重み
    付け係数とするとき、 【数12】 (3)式を用いて入力音響信号の音響分析を行い、判別
    変数p3を算出するものであることを特徴とする請求項
    19記載の音声区間検出装置。
  25. 【請求項25】 入力音響信号から音声区間の始終端候
    補位置を検出する音声区間候補検出手段と、 前記音声区間候補検出手段の出力する音声区間の始終端
    候補位置の情報を用いて入力音響信号の音響分析を行
    い、前記音響信号が音声、定常雑音、非定常雑音のいず
    れを含むかの評価指数である音響パラメータPを1種類
    以上生成し、夫々の音響パラメータPを重み付け加算し
    た値を判別変数pとして出力する音響分析手段と、 前記音声区間候補検出手段の出力する音声区間候補、前
    記音響分析手段の出力する判別変数p、及び入力音響信
    号から音声区間を決定する音声区間決定手段と、を具備
    し、 前記音声区間決定手段は、 前記音声区間候補検出手段の出力する音声区間の始終端
    候補位置から音声区間候補の長さを算出する音声区間候
    補長算出手段と、 前記音声区間候補検出手段の出力する音声区間の始終端
    候補位置から非音声区間候補の長さを算出する非音声区
    間候補長算出手段と、 前記音声区間候補検出手段の出力する音声区間の始終端
    候補位置と入力音響信号とから音声区間候補のレベルを
    検出する音声区間候補レベル検出手段と、 前記音声区間候補長算出手段の出力する音声区間候補の
    長さ、前記非音声区間候補長算出手段の出力する非音声
    区間候補の長さ、及び前記音声区間候補レベル検出手段
    の出力する音声区間候補の音声レベル、及び前記音響分
    析手段の出力する判別変数pに基づいて音声区間の始終
    端を判定する音声区間始終端判定手段と、を有するもの
    であることを特徴とする音声区間検出装置。
  26. 【請求項26】 前記音響分析手段は、 p1を判別変数とし、tを次数、kを音響パラメータの
    種類を示す番号とし、P(t,k)をt次の音響パラメ
    ータとし、a(t,k)を重み付け係数とし、Δn_P
    (t,k)を音響パラメータP(t,k)のn次回帰係
    数とし、b(n,t,k)をn次回帰係数の重み付け係
    数とするとき、 【数13】 (1)式を用いて入力音響信号の音響分析を行い、判別
    変数p1を算出するものであることを特徴とする請求項
    25記載の音声区間検出装置。
  27. 【請求項27】 前記音響分析手段の音響パラメータP
    (t,k)において、 P(t,1)はt次の自己相関係数、 P(t,2)はt次の線形予測係数(LPC係数)、 P(t,3)はt次のPARCOR係数(Kパラメー
    タ)、 P(t,4)はt次の線形予測分析の予測残差、 P(t,5)はt次のLPCケプストラム係数、 P(t,6)はt次のLPCメルケプストラム係数、 P(t,7)はt次のメル線形予測係数(メルLPC係
    数)、 P(t,8)はt次のメルLPCケプストラム係数であ
    ることを特徴とする請求項26記載の音声区間検出装
    置。
  28. 【請求項28】 前記音響分析手段は、 p2を判別変数とし、tを次数とし、P(t)をt次の
    音響パラメータとし、a(t)を重み付け係数とすると
    き、 【数14】 (2)式を用いて入力音響信号の音響分析を行い、判別
    変数p2を算出するものであることを特徴とする請求項
    25記載の音声区間検出装置。
  29. 【請求項29】 前記音響分析手段の音響パラメータP
    (t)において、 P(t)は、 t次の自己相関係数、 t次の線形予測係数(LPC係数)、 t次のPARCOR係数(Kパラメータ)、 t次の線形予測分析の予測残差、 t次のLPCケプストラム係数、 t次のLPCメルケプストラム係数、 t次のメル線形予測係数(メルLPC係数)、 t次のメルLPCケプストラム係数、 夫々の係数のn次回帰係数のうち、いずれかであること
    を特徴とする請求項28記載の音声区間検出装置。
  30. 【請求項30】 前記音響分析手段は、 rr(t)をt次の自己相関係数とし、a(t)を重み
    付け係数とし、Δn_rr(t)をt次自己相関係数の
    n次回帰係数とし、b(n,t)をn次回帰係数の重み
    付け係数とするとき、 【数15】 (3)式を用いて入力音響信号の音響分析を行い、判別
    変数p3を算出するものであることを特徴とする請求項
    25記載の音声区間検出装置。
  31. 【請求項31】 入力音響信号から音声区間の始終端候
    補位置を検出する音声区間候補検出手段と、 前記音声区間候補検出手段の出力する音声区間候補から
    音声区間を決定する音声区間決定手段と、を具備し、 前記音声区間候補検出手段は、 入力音響信号から音声区間の始端候補位置を検出する音
    声区間始端候補検出手段と、 前記音声区間始端候補検出手段の出力する音声区間始端
    候補と入力音響信号とから音声区間終端候補を検出する
    音声区間終端候補検出手段と、を有するものであり、 前記音声区間決定手段は、 前記音声区間始端候補検出手段の出力する音声区間の始
    端候補位置から音声区間候補の連続する長さを算出する
    連続音声区間候補長算出手段と、 前記連続音声区間候補長算出手段の出力する音声区間候
    補の連続する長さ、及び前記音声区間始端候補検出手段
    の出力する音声区間の始端候補位置から音声区間の始端
    候補を選別する音声区間始端候補選別手段と、 前記音声区間終端候補検出手段の出力する音声区間の終
    端候補位置から非音声区間候補の連続する長さを算出す
    る連続非音声区間候補長算出手段と、 前記連続非音声区間候補長算出手段の出力する非音声区
    間候補の連続する長さ、及び前記音声区間終端候補検出
    手段の出力する音声区間の終端候補位置から音声区間の
    終端候補を選別する音声区間終端候補選別手段と、 前記連続音声区間候補長算出手段の出力する音声区間候
    補の連続する長さ、前記音声区間始端候補選別手段の出
    力する音声区間の始端候補位置、前記連続非音声区間候
    補長算出手段の出力する非音声区間候補の連続する長
    さ、及び前記音声区間終端候補選別手段の出力する音声
    区間の終端候補位置の情報を用いて音響分析する部分を
    特定し、前記音響信号が音声、定常雑音、非定常雑音の
    いずれを含むかの評価指数である音響パラメータPを1
    種類以上生成し、夫々の音響パラメータPを重み付け加
    算した値を判別変数pとして出力する音響分析手段と、 前記連続音声区間候補長算出手段の出力する音声区間候
    補の連続する長さ、前記音声区間始端候補選別手段の出
    力する音声区間の始端候補位置、及び前記音響分析手段
    の出力する判別変数pを用いて音声区間の始端を判定す
    る音声区間始端判定手段と、 前記音声区間終端候補選別手段の出力する終端候補、前
    記連続非音声区間候補長算出手段の出力する非音声区間
    候補の連続する長さ、前記音声区間始端判定手段の出力
    する始端位置の有無や場所の情報を用いて音声区間の終
    端を決定する音声区間終端判定手段と、を有するもので
    あることを特徴とする音声区間検出装置。
  32. 【請求項32】 前記音響分析手段は、 p1を判別変数とし、tを次数、kを音響パラメータの
    種類を示す番号とし、P(t,k)をt次の音響パラメ
    ータとし、a(t,k)を重み付け係数とし、Δn_P
    (t,k)を音響パラメータP(t,k)のn次回帰係
    数とし、b(n,t,k)をn次回帰係数の重み付け係
    数とするとき、 【数16】 (1)式を用いて入力音響信号の音響分析を行い、判別
    変数p1を算出するものであることを特徴とする請求項
    31記載の音声区間検出装置。
  33. 【請求項33】 前記音響分析手段の音響パラメータP
    (t,k)において、 P(t,1)はt次の自己相関係数、 P(t,2)はt次の線形予測係数(LPC係数)、 P(t,3)はt次のPARCOR係数(Kパラメー
    タ)、 P(t,4)はt次の線形予測分析の予測残差、 P(t,5)はt次のLPCケプストラム係数、 P(t,6)はt次のLPCメルケプストラム係数、 P(t,7)はt次のメル線形予測係数(メルLPC係
    数)、 P(t,8)はt次のメルLPCケプストラム係数であ
    ることを特徴とする請求項32記載の音声区間検出装
    置。
  34. 【請求項34】 前記音響分析手段は、 p2を判別変数とし、tを次数とし、P(t)をt次の
    音響パラメータとし、a(t)を重み付け係数とすると
    き、 【数17】 (2)式を用いて入力音響信号の音響分析を行い、判別
    変数p2を算出するものであることを特徴とする請求項
    31記載の音声区間検出装置。
  35. 【請求項35】 前記音響分析手段の音響パラメータP
    (t)において、 P(t)は、 t次の自己相関係数、 t次の線形予測係数(LPC係数)、 t次のPARCOR係数(Kパラメータ)、 t次の線形予測分析の予測残差、 t次のLPCケプストラム係数、 t次のLPCメルケプストラム係数、 t次のメル線形予測係数(メルLPC係数)、 t次のメルLPCケプストラム係数、 夫々の係数のn次回帰係数のうち、いずれかであること
    を特徴とする請求項34記載の音声区間検出装置。
  36. 【請求項36】 前記音響分析手段は、 rr(t)をt次の自己相関係数とし、a(t)を重み
    付け係数とし、Δn_rr(t)をt次自己相関係数の
    n次回帰係数とし、b(n,t)をn次回帰係数の重み
    付け係数とするとき、 【数18】 (3)式を用いて入力音響信号の音響分析を行い、判別
    変数p3を算出するものであることを特徴とする請求項
    31記載の音声区間検出装置。
  37. 【請求項37】 請求項1〜36のいずれか1項記載の
    音声区間検出装置を用いて入力音響信号から音声区間と
    非定常雑音区間を取り除き、定常雑音区間のみを取り出
    すことを特徴とする定常雑音区間検出装置。
  38. 【請求項38】 請求項1〜36のいずれか1項記載の
    音声区間検出装置を用いて入力音響信号から音声区間と
    定常雑音区間を取り除き、非定常雑音区間のみを取り出
    すことを特徴とする非定常雑音区間検出装置。
  39. 【請求項39】 請求項1〜36のいずれか1項記載の
    音声区間検出装置を用いて入力音響信号から音声区間を
    取り除き、定常雑音区間と非定常雑音区間を取り出すこ
    とを特徴とする雑音区間検出装置。
JP2000049085A 2000-02-25 2000-02-25 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 Pending JP2001236085A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000049085A JP2001236085A (ja) 2000-02-25 2000-02-25 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000049085A JP2001236085A (ja) 2000-02-25 2000-02-25 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置

Publications (1)

Publication Number Publication Date
JP2001236085A true JP2001236085A (ja) 2001-08-31

Family

ID=18571071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000049085A Pending JP2001236085A (ja) 2000-02-25 2000-02-25 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置

Country Status (1)

Country Link
JP (1) JP2001236085A (ja)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
WO2004111996A1 (ja) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置
JP2005292812A (ja) * 2004-03-09 2005-10-20 Nippon Telegr & Teleph Corp <Ntt> 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム、およびプログラムの記録媒体
JP2005535920A (ja) * 2002-08-09 2005-11-24 モトローラ・インコーポレイテッド バックエンドの音声検出装置を有する配信音声認識および方法
JP2006133284A (ja) * 2004-11-02 2006-05-25 Kddi Corp 音声情報抽出装置
JP2007010892A (ja) * 2005-06-29 2007-01-18 Toa Corp 音声信号判断装置
JP2007034262A (ja) * 2005-06-23 2007-02-08 Nippon Telegr & Teleph Corp <Ntt> 信号判定装置、信号判定方法、信号判定プログラムおよび記録媒体
JP2007072005A (ja) * 2005-09-05 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 非定常雑音判別方法、その装置、そのプログラム及びその記録媒体
JP2007079127A (ja) * 2005-09-14 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> データ形式判別方法、信号符号化方法、それらの方法を用いた装置、プログラム、および記録媒体
EP1813921A1 (en) * 2006-01-30 2007-08-01 Omron Corporation Method of extracting, device for extracting and device for inspecting abnormal sound
JP2010230814A (ja) * 2009-03-26 2010-10-14 Fujitsu Ltd 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
JP2011141890A (ja) * 2001-10-09 2011-07-21 Immersion Corp コンピュータ装置からのオーディオ出力に基づく触覚フィードバック感覚
US8326612B2 (en) 2007-12-18 2012-12-04 Fujitsu Limited Non-speech section detecting method and non-speech section detecting device
JP2014071403A (ja) * 2012-10-01 2014-04-21 Kyushu Institute Of Technology 音響信号処理装置及び音響信号処理方法
WO2016203753A1 (ja) * 2015-06-16 2016-12-22 日本電気株式会社 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
JP2017511901A (ja) * 2014-03-12 2017-04-27 華為技術有限公司Huawei Technologies Co.,Ltd. 音声信号を検出するための方法および装置
KR101737824B1 (ko) * 2009-12-16 2017-05-19 삼성전자주식회사 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
JP2018041083A (ja) * 2014-07-29 2018-03-15 テレフオンアクチーボラゲット エルエム エリクソン(パブル) オーディオ信号における背景雑音の推定
WO2020218597A1 (ja) * 2019-04-26 2020-10-29 株式会社Preferred Networks 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム
CN112885323A (zh) * 2021-02-22 2021-06-01 联想(北京)有限公司 音频信息处理方法、装置及电子设备

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011141890A (ja) * 2001-10-09 2011-07-21 Immersion Corp コンピュータ装置からのオーディオ出力に基づく触覚フィードバック感覚
JP2005535920A (ja) * 2002-08-09 2005-11-24 モトローラ・インコーポレイテッド バックエンドの音声検出装置を有する配信音声認識および方法
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
US7567900B2 (en) 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
WO2004111996A1 (ja) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置
JP2005292812A (ja) * 2004-03-09 2005-10-20 Nippon Telegr & Teleph Corp <Ntt> 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム、およびプログラムの記録媒体
JP2006133284A (ja) * 2004-11-02 2006-05-25 Kddi Corp 音声情報抽出装置
JP2007034262A (ja) * 2005-06-23 2007-02-08 Nippon Telegr & Teleph Corp <Ntt> 信号判定装置、信号判定方法、信号判定プログラムおよび記録媒体
JP4653673B2 (ja) * 2005-06-23 2011-03-16 日本電信電話株式会社 信号判定装置、信号判定方法、信号判定プログラムおよび記録媒体
JP4493557B2 (ja) * 2005-06-29 2010-06-30 ティーオーエー株式会社 音声信号判断装置
JP2007010892A (ja) * 2005-06-29 2007-01-18 Toa Corp 音声信号判断装置
JP2007072005A (ja) * 2005-09-05 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 非定常雑音判別方法、その装置、そのプログラム及びその記録媒体
JP2007079127A (ja) * 2005-09-14 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> データ形式判別方法、信号符号化方法、それらの方法を用いた装置、プログラム、および記録媒体
JP4520922B2 (ja) * 2005-09-14 2010-08-11 日本電信電話株式会社 データ形式判別方法、装置、プログラム、および記録媒体
EP1813921A1 (en) * 2006-01-30 2007-08-01 Omron Corporation Method of extracting, device for extracting and device for inspecting abnormal sound
US8326612B2 (en) 2007-12-18 2012-12-04 Fujitsu Limited Non-speech section detecting method and non-speech section detecting device
US8798991B2 (en) 2007-12-18 2014-08-05 Fujitsu Limited Non-speech section detecting method and non-speech section detecting device
JP2010230814A (ja) * 2009-03-26 2010-10-14 Fujitsu Ltd 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
KR101737824B1 (ko) * 2009-12-16 2017-05-19 삼성전자주식회사 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
JP2014071403A (ja) * 2012-10-01 2014-04-21 Kyushu Institute Of Technology 音響信号処理装置及び音響信号処理方法
CN107293287B (zh) * 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
US11417353B2 (en) 2014-03-12 2022-08-16 Huawei Technologies Co., Ltd. Method for detecting audio signal and apparatus
JP2017511901A (ja) * 2014-03-12 2017-04-27 華為技術有限公司Huawei Technologies Co.,Ltd. 音声信号を検出するための方法および装置
CN107086043A (zh) * 2014-03-12 2017-08-22 华为技术有限公司 检测音频信号的方法和装置
CN107293287A (zh) * 2014-03-12 2017-10-24 华为技术有限公司 检测音频信号的方法和装置
US10304478B2 (en) 2014-03-12 2019-05-28 Huawei Technologies Co., Ltd. Method for detecting audio signal and apparatus
US10818313B2 (en) 2014-03-12 2020-10-27 Huawei Technologies Co., Ltd. Method for detecting audio signal and apparatus
JP2018041083A (ja) * 2014-07-29 2018-03-15 テレフオンアクチーボラゲット エルエム エリクソン(パブル) オーディオ信号における背景雑音の推定
US11114105B2 (en) 2014-07-29 2021-09-07 Telefonaktiebolaget Lm Ericsson (Publ) Estimation of background noise in audio signals
US11636865B2 (en) 2014-07-29 2023-04-25 Telefonaktiebolaget Lm Ericsson (Publ) Estimation of background noise in audio signals
WO2016203753A1 (ja) * 2015-06-16 2016-12-22 日本電気株式会社 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
WO2020218597A1 (ja) * 2019-04-26 2020-10-29 株式会社Preferred Networks 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム
CN112885323A (zh) * 2021-02-22 2021-06-01 联想(北京)有限公司 音频信息处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
JP2001236085A (ja) 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
Renevey et al. Entropy based voice activity detection in very noisy conditions.
KR100770839B1 (ko) 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
Sadjadi et al. Unsupervised speech activity detection using voicing measures and perceptual spectral flux
Moattar et al. A simple but efficient real-time voice activity detection algorithm
KR950013551B1 (ko) 잡음신호예측장치
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
KR101444099B1 (ko) 음성 구간 검출 방법 및 장치
US9454976B2 (en) Efficient discrimination of voiced and unvoiced sounds
WO2004111996A1 (ja) 音響区間検出方法および装置
Basu A linked-HMM model for robust voicing and speech detection
Khoa Noise robust voice activity detection
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
Kitaoka et al. Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
ÖZAYDIN Examination of energy based voice activity detection algorithms for noisy speech signals
JPS60200300A (ja) 音声の始端・終端検出装置
JP4601970B2 (ja) 有音無音判定装置および有音無音判定方法
JP2797861B2 (ja) 音声検出方法および音声検出装置
KR20090065181A (ko) 잡음 검출 방법 및 장치
JP3046029B2 (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Dekens et al. On Noise Robust Voice Activity Detection.
Stahl et al. Phase-processing for voice activity detection: A statistical approach
Haghani et al. Robust voice activity detection using feature combination