JPH1097269A - 音声検出装置及び方法 - Google Patents

音声検出装置及び方法

Info

Publication number
JPH1097269A
JPH1097269A JP8250632A JP25063296A JPH1097269A JP H1097269 A JPH1097269 A JP H1097269A JP 8250632 A JP8250632 A JP 8250632A JP 25063296 A JP25063296 A JP 25063296A JP H1097269 A JPH1097269 A JP H1097269A
Authority
JP
Japan
Prior art keywords
signal
voice
noise
acoustic feature
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8250632A
Other languages
English (en)
Inventor
Osamu Mizuno
理 水野
Kiyoaki Aikawa
清明 相川
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8250632A priority Critical patent/JPH1097269A/ja
Publication of JPH1097269A publication Critical patent/JPH1097269A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】雑音耐性に優れ,音声信号の音素数に依存しな
い音声検出を行う音声検出装置及び方法を提供する. 【解決手段】入力信号の音響的特徴量を抽出する音響的
特徴量検出部13と,雑音信号の音響的特微量の分布を学
習して求め,特徴量分布メモリ18に記憶する雑音特徴量
分布学習部17と,記憶した分布と入力信号の音響的特微
量の存在領域との距離を表す確率値を求め,入力信号の
音響的特徴量と予め記憶された雑音信号の音響的特微量
とを比較する確率計算部14と,その比較結果に基づいて
音声信号を含んだ信号の区間を検出する音声区間検出部
15とから構成されている.

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,音声信号を含む区
間を,入力信号の中から検出する信号処理装置及び方法
に関するものである.本発明による音声信号の検出は,
音声認識のための音声区間検出や,音声によって機器を
制御するボイススイッチ等に利用できる.
【0002】
【従来の技術】以下では,従来の3つの技術について音
声検索技術について説明する.はじめに,音声の振幅
(パワー)に基づいた音声検出技術について説明する.
ここで,パワーとは入力信号の単位時間あたりの2乗和
である.入力信号の中で入力信号のパワーがある閾値以
上に達したフレームを音声の母音のフレームと仮定し,
その前後数フレームを含めて音声区間として検出する.
パワーによる検出方法では,音声のパワーが周囲の雑音
のパワーより大きいことを仮定するために,周囲の雑音
が大きくなると音声を検出できなくなるという問題があ
る.
【0003】つぎに,音声の基本周波数(ピッチ周波
数)に基づいた音声検出技術について説明する.母音定
常部のピッチ周波数は50Hzから500Hzであるので,入力
信号のピッチ周波数を調べ,これが50Hzから500Hzの範
囲内にあるフレームを母音のフレームと仮定し,その前
後数フレームを含めて音声区間として検出している.ピ
ッチ周波数は,倍ピッチや半ピッチなどの要因により安
定して抽出することが難しいという問題がある.また,
周波数が50Hzから500Hz以内である場合を音声とみなす
ため,この周波数範囲内にピッチ周波数を持つ信号は雑
音であっても音声と誤検出してしまうという問題があ
る.母音部の波形のピッチ周期での相関性が高いことを
利用してピッチ周波数を求めているため,雑音が音声に
重畳すると高い相関値が得られなくなり,音声を検出で
きなくなるという問題もある.
【0004】つぎに,音声のスペクトル変化に基づいた
音声検出方法について説明する.話し言葉などの言語音
声の場合,音素は固有のスペクトルパターンを持ってい
るため,音素と音素の境界においてスペクトル変化量が
大きくなる.スペクトル変化量のピークは,およそ音素
の間隔で観測される.この点では定常音や緩やかに流れ
る音楽,そして歌声のスペクトル変化は異なる.入力さ
れた信号のスペクトル変化の単位時間あたりの頻度を調
べ,これが言語音声にみられる特徴と一致する場合を言
語音声として検出する.スペクトル変化の頻度を調べる
ため音素数の少ない音声信号であったり,冗長性があっ
て時間あたりのスペクトルの変化頻度の少ないものは検
出が難しいという問題がある.
【0005】
【発明が解決しようとする課題】従来のパワーによる検
出方法では,周囲の雑音のパワーが大きくなると音声の
パワーと区別できず誤って雑音を音声として誤検出する
場合がある.ピッチ周波数による検出方法では,雑音が
定常的であるとは限らないため安定してピッチ周波数が
得られなくなり音声を全く検出できない場合や雑音を音
声として誤検出する場合がある.スペクトル変化に基づ
いた方法では,1音素からなる単語のようにスペクトル
変化の頻度が少ない音声信号では誤検出する場合があ
る.雑音環境下で音声認識のための音声区間検出やボイ
ススイッチを実現するためには,雑音耐性に優れ,音声
信号の音素数に依存しない音声検出技術が必要である.
本発明の目的は,雑音環境下においても入力信号から音
声を含む信号を検出するこのような技術を提供すること
にある.
【0006】
【課題を解決するための手段】上記課題を解決するた
め,請求項1記載の音声検出装置は,音声が雑音環境下
で発せられた信号の中から音声の部分のみを検出する信
号処理装置において,入力信号の音響的特徴量を抽出す
る音響的特徴量検出手段と,音響的特徴量検出手段によ
って抽出された入力信号の音響的特徴量と予め記憶され
た雑音信号の音響的特微量とを比較する比較手段と,そ
の比較結果に基づいて音声信号を含んだ信号の区間を検
出する音声区間検出手段とを備えることを特徴としてい
る.
【0007】また,請求項2記載の音声検出装置は,上
記比較手段が,雑音信号の音響的特微量の分布を学習し
て記憶し,その分布と入力信号の音響的特微量の存在領
域との距離を表す確率値を求め,その確率値と所定の閾
値と比較することによって入力信号の音響的特徴量と雑
音信号の音響的特微量とを比較することを特徴としてい
る.
【0008】また,請求項3記載の音声検出装置は,上
記音響的特微量が,LPCケプストラム,またはFFT
ケプストラムであることを特徴としている.
【0009】また,請求項4記載の音声検出方法は,音
声が雑音環境下で発せられた信号の中から,声の部分の
みを検出する信号処理方法において,音声の発せられる
雑音環境下での雑音信号の音響的特微量をもとめ,その
特微量と入力信号の特徴量とが異なっている場合に,そ
の区間を音声信号を含んだ信号として検出することを特
徴としている.
【0010】また,請求項5記載の音声検出方法は,上
記雑音信号の音響的特微量と入力信号の音響的特微量と
の比較の過程において,雑音信号の特微量の分布を学習
し,その分布と入力信号の特微量の存在領域との距離を
確率的に表現することを特徴としている.
【0011】また,請求項6記載の音声検出方法は,上
記信号を表現する特微量が,LPCケプストラム,また
はFFTケプストラムであることを特徴している.
【0012】本発明では雑音信号の音響的特微量が入力
信号の音響的特微量と異なる信号を音声信号を含んだ信
号として検出している.従って,パワーやピッチ周波数
による検出方法と比べ雑音耐性が高く,動的尺度による
検出方法のように音素数に依存しない検出ができる.
【0013】
【発明の実施の形態】以下,図面を参照して,本発明の
一実施形態について説明する.図1は本発明による音声
検出装置を示すブロック図である.信号入力端子11から
入力された入力信号は,A/D変換部12でアナログ/デ
ィジタル変換されて,音響特徴量抽出部13へ入力され
る.音響的特徴量抽出部13は,入力されたディジタル信
号に基づいて,時刻tにおける次元数Nの音響的特徴量
ベクトルck(t)を求める.ここで,kは次元数であ
り,音響的特徴量ベクトルck(t)は,LPC(線形予
測符号化)ケプストラムあるいはFFT(高速フーリエ
変換)ケプストラムとすることができる.なお,音響的
特徴量ベクトルck(t)を求める計算方法については,
例えば,文献「デジタル音声信号処理」,著者古井,東
海大学出版会発行に記載されているような周知の手法を
用いることができる.信号入力端子11から入力された入
力信号が検出対象の信号である場合は,音響的特徴量抽
出部13で求められた音響的特徴量ベクトルck(t)は,
直接,確率計算部14へ入力される.
【0014】本音声検出装置においては,音声信号を検
出を行うに先立ち予め検出対象の音声が発せられる雑音
環境下での雑音信号の音響的特微量を用意しておく必要
がある.これは,所定の雑音信号を検出対象の信号と同
様に信号入力端子11に入力して行うことができる.この
場合,入力された雑音信号は,A/D変換部12,音響的
特徴量抽出部13,及び所定の切り替え手段を経て,雑音
特徴量分布学習部17へ供給される.雑音特徴量分布学習
部17は,入力された雑音信号に基づいて,雑音環境下で
の特微量の分布を学習して求め,それを特徴量分布メモ
リ18に格納する.特徴量の分布は,平均μk,分散σkに
よって表すことができる.特微量の分布の学習は,例え
ば,予め所定の記憶手段に記憶しておいた複数種類の音
声信号の特徴量と複数種類の雑音信号の特徴量とを合成
する等して行うことができる.
【0015】確率計算部14は,入力信号の音響的特徴量
ベクトルck(t)と,予め特徴量分布メモリ18に記憶さ
れている雑音信号の音響的特微量の分布とを用いて,入
力信号の音響的特徴量と雑音信号の音響的特徴量の比較
を行う.次元間の相関がないとすると時刻tの入力信号
と雑音との距離を表す確率値P(t)は,
【0016】
【数1】
【0017】によって表現できる.確率計算部14は,求
めた確率値P(t)に対してハミング窓によってスムージ
ングをかけ,その結果と所定の閾値とを比較する.これ
は雑音のスペクトル平均と音声のスペクトル平均の差分
をとる動的尺度(「音声の動的尺度に含まれる個人性情
報」,著者嵯峨山および板倉,日本音響学会昭和54年度
春季研究発表会講演論文集,3-2-7,pp.589-590(197
9)参照)を発展させた窓関数と考えることができる.
つまり,音声区間であれば,音声信号を含むスペクトル
と学習した雑音のスペクトルとの距離が大きくなり,P
(t)の値が小さく(すなわち−logP(t)が大きく)な
る.従つて,−logP(t)について閾値を設けることで
音声/非音声の判別ができる.
【0018】つぎに確率計算部14における入力信号の音
響的特徴量と雑音信号の音響的特徴量の比較結果は,音
声区間検出部15へ供給される.音声区間検出部15は,確
率値の対数の負の値−logP(t)が所定の閾値より大き
いと判別された区間の始端及び終端を検出する.そし
て,音声検出区間出力部16が,検出した音声区間を示す
信号を出力装置あるいは後段の信号処理装置へ出力す
る.
【0019】本発明の音声検出装置の構成は,図1に示
す構成に限定されることなく,例えば,雑音特徴量分布
学習部17へ直接雑音信号を入力して特徴量の分布を学習
する等の変更が可能である.
【0020】本発明の他の応用例としてパラメータ時系
列から特定のパターンを検出するのにも応用できる.医
療用スペクトル等に用いれば不整脈検出にも使うことが
できる.
【0021】
【実施例】本発明による音声検出方法の実施例を説明す
る.ATR(国際電気通信基礎技術研究所)音声データ
ベースの216単語セット男女計4名分に前後1秒間のポ
ーズを付け,その信号全区間に電子協の騒音データベー
スより「自動車走行音」,「人混み」の2種類を0dB,1
0dBで重畳させる.雑音を重畳した信号から雑音の確率
分布を求めるため前から数十フレーム間の音響的特微量
を求め,各次元毎の平均と分散を求める.音響的特微量
は,LPCケプストラムの分析条件を窓幅32ms,シフト
幅8ms,分析次数16次でもとめ,△ケプストラムの分析
窓幅は19フレームとする.続けて入力信号の音響的特微
量を求め,雑音の確率分布から上記(2)式により各時刻
の確率値P(t)を求める.確率値の時系列の数フレーム
間に関してハミング窓によつてスムージングし最終的に
得られた確率値から予め決定した閾値によって音声区間
を決定する.
【0022】図2に本手法と動的尺度による検出方法と
の比較を行った結果を示す.雑音学習フレーム数は30フ
レームである.動的尺度による検出方法の分析条件は分
析窓400ms,フレーム周期200msである.そのため,±20
0ms,±300msの範囲で評価を行った.動的尺度による方
法と比べて本手法は誤差範囲を厳しくした場合での検出
率が高いことが分かる.また,「人混み」雑音0dBでは
許容誤差を±300msにしても動的尺度による結果を上回
っている.図3に本手法による音声境界からの平均誤差
と標準偏差を示す.この図からも分かるように「人混
み」0dBを除いた検出結果に対して,始終端ともに高い
精度で検出していることが分かる.
【0023】
【発明の効果】以上の通りであって,この発明は雑音信
号と音声信号を含んだ信号の音響的特微量の比較によっ
て検出を行うために,パワーの大きい雑音が重畳してい
る音声であっても,音声を含む信号を安定に検出でき
る.そして,単位時間あたりのスペクトルの変化頻度の
少ない音声信号であっても精度よく検出できる.よっ
て,背景雑音の大きい環境であっても,音声認識の前処
理として認識すべき音声区間を検出したり,ボイススイ
ッチとして利用することができる.また,さらに,雑音
を統計的に表現しているため,NOVO合成(「Recogn
ition of Noisy Speech by Composition of Hidden Mar
kov Models」F.Martin著,信学会音声研資,SP92-96(199
2-12)参照)にそのまま適用でき,音声認識の雑音耐性を
高められるという利点もある.
【図面の簡単な説明】
【図1】 本発明による音声検出装置の一実施形態例を
示すブロック図である.
【図2】 本発明の実施例による音声検出結果を示す図
である.
【図3】 本発明の実施例の効果を示す図である.
【符号の説明】
13 音響的特徴量抽出部 14 確率値計算部 15 音声区間検出部 17 雑音特徴量分布学習部 18 特徴量分布メモリ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】音声が,雑音環境下で発せられた信号の中
    から,音声の部分のみを検出する信号処理装置におい
    て,入力信号の音響的特徴量を抽出する音響的特徴量検
    出手段と,音響的特徴量検出手段によって抽出された入
    力信号の音響的特徴量と予め記憶された雑音信号の音響
    的特微量とを比較する比較手段と,その比較結果に基づ
    いて音声信号を含んだ信号の区間を検出する音声区間検
    出手段とを備えることを特徴とする音声検出装置.
  2. 【請求項2】上記比較手段が,雑音信号の音響的特微量
    の分布を学習して記憶し,その分布と入力信号の音響的
    特微量の存在領域との距離を表す確率値を求め,その確
    率値と所定の閾値と比較することによって入力信号の音
    響的特徴量と雑音信号の音響的特微量とを比較すること
    を特徴とする請求項1記載の音声検出装置.
  3. 【請求項3】上記音響的特微量が,LPCケプストラ
    ム,またはFFTケプストラムであることを特徴とする
    請求項1又は2記載の音声検出装置.
  4. 【請求項4】音声が,雑音環境下で発せられた信号の中
    から,音声の部分のみを検出する信号処理方法におい
    て,音声の発せられる雑音環境下での雑音信号の音響的
    特微量をもとめ,その特微量と入力信号の特徴量とが異
    なっている場合に,その区間を音声信号を含んだ信号と
    して検出することを特徴とする音声検出方法.
  5. 【請求項5】上記雑音信号の音響的特微量と入力信号の
    音響的特微量との比較の過程において,雑音信号の特微
    量の分布を学習し,その分布と入力信号の特微量の存在
    領域との距離を確率的に表現することを特徴とする請求
    項4記載の音声検出方法.
  6. 【請求項6】上記信号を表現する特微量が,LPCケプ
    ストラム,またはFFTケプストラムであることを特徴
    とする請求項4又は5記載の音声検出方法.
JP8250632A 1996-09-20 1996-09-20 音声検出装置及び方法 Pending JPH1097269A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8250632A JPH1097269A (ja) 1996-09-20 1996-09-20 音声検出装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8250632A JPH1097269A (ja) 1996-09-20 1996-09-20 音声検出装置及び方法

Publications (1)

Publication Number Publication Date
JPH1097269A true JPH1097269A (ja) 1998-04-14

Family

ID=17210749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8250632A Pending JPH1097269A (ja) 1996-09-20 1996-09-20 音声検出装置及び方法

Country Status (1)

Country Link
JP (1) JPH1097269A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326612B2 (en) 2007-12-18 2012-12-04 Fujitsu Limited Non-speech section detecting method and non-speech section detecting device
US8775173B2 (en) 2011-03-18 2014-07-08 Fujitsu Limited Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
CN110299153A (zh) * 2018-03-22 2019-10-01 卡西欧计算机株式会社 声音区间检测装置、声音区间检测方法以及记录介质
CN111341333A (zh) * 2020-02-10 2020-06-26 腾讯科技(深圳)有限公司 噪声检测方法、噪声检测装置、介质及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326612B2 (en) 2007-12-18 2012-12-04 Fujitsu Limited Non-speech section detecting method and non-speech section detecting device
US8798991B2 (en) 2007-12-18 2014-08-05 Fujitsu Limited Non-speech section detecting method and non-speech section detecting device
US8775173B2 (en) 2011-03-18 2014-07-08 Fujitsu Limited Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
CN110299153A (zh) * 2018-03-22 2019-10-01 卡西欧计算机株式会社 声音区间检测装置、声音区间检测方法以及记录介质
CN111341333A (zh) * 2020-02-10 2020-06-26 腾讯科技(深圳)有限公司 噪声检测方法、噪声检测装置、介质及电子设备

Similar Documents

Publication Publication Date Title
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US10410623B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
Wyse et al. Toward contentbased audio indexing and retrieval and a new speaker discrimination technique
US6553342B1 (en) Tone based speech recognition
JPH0990974A (ja) 信号処理方法
JPWO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US7908142B2 (en) Apparatus and method for identifying prosody and apparatus and method for recognizing speech
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
JP2797861B2 (ja) 音声検出方法および音声検出装置
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP3523382B2 (ja) 音声認識装置及び音声認識方法
JPH1097269A (ja) 音声検出装置及び方法
EP0177854B1 (en) Keyword recognition system using template-concatenation model
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
CN106920558A (zh) 关键词识别方法及装置
JPH0283595A (ja) 音声認識方法
Awais et al. Continuous arabic speech segmentation using FFT spectrogram
Al-hazaimeh et al. Cross correlation–new based technique for speaker recognition
Vlaj et al. Effective Pitch Value Detection in Noisy Intelligent Environments for Efficient Natural Language Processing
Gulzar et al. An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words
JP2001083978A (ja) 音声認識装置
Malcangi Softcomputing approach to segmentation of speech in phonetic units
Sumer Salient Features Extraction for Emotion Detection Using Modified Kull Back Leibler Divergence