JPH05108089A - 音声区間検出方法 - Google Patents

音声区間検出方法

Info

Publication number
JPH05108089A
JPH05108089A JP3264537A JP26453791A JPH05108089A JP H05108089 A JPH05108089 A JP H05108089A JP 3264537 A JP3264537 A JP 3264537A JP 26453791 A JP26453791 A JP 26453791A JP H05108089 A JPH05108089 A JP H05108089A
Authority
JP
Japan
Prior art keywords
voice
section
signal
linear prediction
density distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3264537A
Other languages
English (en)
Inventor
Mitsugi Matsushita
貢 松下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3264537A priority Critical patent/JPH05108089A/ja
Publication of JPH05108089A publication Critical patent/JPH05108089A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】 騒音下における音声区間の検出精度を向上さ
せた音声区間検出方法を提供すること。 【構成】 音響/電気信号変換部1により音声を集音し
て電気信号x(t) に変換し、この電気信号x(t) をA/
D変換部2によりデジタル信号xn に変換し、線形予測
分析部3によりデジタル信号xn の線形予測分析を行っ
て線形予測係数ai を求め、デジタル信号xn と線形予
測係数ai とから残差信号演算部4により予測残差信号
n を求め、この予測残差信号en から確率密度分布演
算部5により確率密度分布P(k)を求め、この確率密度
分布P(k)に基づいて、予測残差信号en が予め定めら
れた基準値以上になる確率が低い区間を音声の存在する
音声区間Sとして検出するようにした。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識に利用される
音声の区間を検出する技術に係り、特に騒音下の自動車
の中や工場の中における音声区間検出方法に関する。
【0002】
【従来の技術】音声認識装置を実現する上で、音声区間
の検出は非常に重要な問題であり、以後の音声の認識結
果に大きな影響を及ぼすものである。従来にあっては、
音声のパワーを2つの閾値(スレッショルドレベル)と
比較することにより音声の区間を検出する方法が用いら
れていた。なお、このような方法については、例えば、
「音声認識」新見著、共立出版、p.68〜69 に記載され
ている。また、特開昭60−39700号公報に開示さ
れた「音声区間検出方法」がある。これは、まず、パワ
ーにより音声区間を大まかに検出し、次に、語頭を隣接
フレームとの残差パワーに重みをおいたケプストラム距
離を用いて修正することにより、音声区間の検出精度を
高めるようにしたものである。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
たような従来の音声区間検出方法では、自動車の中や工
場の中のような騒音下において音声区間を検出すること
は困難である。本発明は、特に騒音下において音声区間
の検出精度を高めようとするものである。
【0004】
【課題を解決するための手段】請求項1記載の発明で
は、音響/電気信号変換部により音声を集音して電気信
号に変換し、この電気信号をA/D変換部によりデジタ
ル信号に変換し、このデジタル信号から音声の存在する
音声区間を検出するようにした音声区間検出方法におい
て、線形予測分析部により前記デジタル信号の線形予測
分析を行って線形予測係数を求め、前記デジタル信号と
前記線形予測係数とから残差信号演算部により予測残差
信号を求め、この予測残差信号から確率密度分布演算部
により確率密度分布を求め、この確率密度分布に基づい
て音声の存在する音声区間を検出するようにした。
【0005】請求項2記載の発明では、請求項1記載の
発明において、確率密度分布演算部で得られた確率密度
分布に基づいて検出される音声の存在する音声区間を、
残差信号演算部により得られた予測残差信号が予め定め
られた基準値以上になる確率が低い区間とした。
【0006】請求項3記載の発明では、請求項1又は2
記載の発明において、音響/電気信号変換部により得ら
れた電気信号若しくはA/D変換器により得られたデジ
タル信号に基づいて音声パワーを求め、この音声パワー
により音声の存在する音声区間を検出する際に重みづけ
を行うようにした。
【0007】請求項4記載の発明では、請求項1,2又
は3記載の発明において、線形予測分析部により得られ
た線形予測係数若しくは残差信号演算部により得られた
予測残差信号に基づいて残差パワーを求め、この残差パ
ワーにより音声の存在する音声区間を検出する際に重み
づけを行うようにした。
【0008】
【作用】請求項1,2記載の発明においては、デジタル
信号の線形予測分析を行って線形予測係数を求め、デジ
タル信号と線形予測係数とから予測残差信号を求め、こ
の予測残差信号から確率密度分布を求め、この確率密度
分布に基づいて音声の存在する音声区間を、予測残差信
号が予め定められた基準値以上になる確率が低い区間と
して検出することにより、騒音下においても音声区間の
検出精度を高めることが可能となる。
【0009】請求項3,4記載の発明においては、音響
/電気信号変換部により得られた電気信号若しくはA/
D変換器により得られたデジタル信号に基づいて音声パ
ワーを求め、さらに、線形予測分析部により得られた線
形予測係数若しくは残差信号演算部により得られた予測
残差信号に基づいて残差パワーを求め、確率密度分布演
算部により得られた確率密度分布と音声パワーと残差パ
ワーとに基づいて音声の存在する音声区間を検出するこ
とにより、請求項1,2記載の発明に比べて騒音下での
音声区間の検出精度をより一層高めることが可能とな
る。
【0010】
【実施例】請求項1,2記載の発明の一実施例を図1な
いし図3に基づいて説明する。本実施例は、図1に示す
音声区間検出装置を用いて実施するようにしたものであ
る。まず、本実施例に用いる音声区間検出装置の全体構
成の概略を図1に基づいて述べる。音響/電気信号変換
部(マイクロフォン)1の出力側に、A/D変換部2
と、線形予測分析部3と、残差信号演算部4と、確率密
度分布演算部5と、音声区間検出部6とが順次直列に接
続されている。
【0011】また、上述したような音声区間検出装置を
用いて以下に示す方法により実施するようにしたもので
ある。前記音響/電気信号変換部1により音声を集音し
て電気信号x(t)に変換し、この電気信号x(t)を前記A
/D変換部2によりデジタル信号xn に変換し、前記線
形予測分析部3により前記デジタル信号xn の線形予測
分析を行って線形予測係数(LPC)ai を求め、前記
デジタル信号xn と前記線形予測係数ai とから前記残
差信号演算部4により予測残差信号enを求め、この予
測残差信号en から前記確率密度分布演算部により確率
密度分布P(k)を求め、この確率密度分布P(k)に基づ
いて前記音声区間検出部6により音声の存在する音声区
間Sを検出するようになっている。
【0012】さらに、確率密度分布演算部5で得られた
確率密度分布P(k)に基づいて検出される音声の存在す
る音声区間Sを、残差信号演算部4により得られた予測
残差信号en が予め定められた基準値以上になる確率が
低い区間S1 とするようになっている。
【0013】次に、上述したような音声区間検出装置と
方法とを用いた本実施例の具体例を図1及び図2に基づ
いて説明する。まず、図1に示すように、音声を音響/
電気信号変換部1により集音して電気信号x(t) に変換
し、この電気信号x(t) をA/D変換部2によりデジタ
ル信号xn に変換する。そして、線形予測分析部3で
は、10msec程度のフレーム単位毎に、前記デジタル信
号xn の線形予測分析を行って線形予測係数ai を求め
る。この線形予測係数ai の求め方は、
【0014】
【数1】
【0015】で表されるen の2乗のフレーム区間中の
総和が最小となるような線形予測係数ai を求めるもの
で、周知のレビンソン・ダービンのアルゴリズムを用い
て効率よく解くことが可能である。ついで、残差信号演
算部4において、A/D変換部2により得られたデジタ
ル信号xn と線形予測分析部3にて求められた線形予測
係数ai とにより、(1)式を用いて、予測残差信号e
n を求める。
【0016】さらに、確率密度分布演算部5において、
残差信号演算部4にて求められた予測残差信号en の確
率密度分布P(k)を求める。この確率密度分布P(k)を
求める方法としては、予測残差信号en の絶対値の最大
値emax を求め、この最大値emax の範囲を数段階に設
定し、予測残差信号en が各範囲に存在する確率を求め
る方法を用いる。すなわち、予測残差信号en の絶対値
の最大値emax の範囲を、 P(0):−emax ≦en <−0.75emax P(1):−0.75emax ≦en <−0.5emax P(2):−0.5emax ≦en <−0.25emax P(3):−0.25emax ≦en <0 P(4):0≦en <0.25emax P(5):0.25emax ≦en <0.5emax P(6):0.5emax ≦en <0.75emax P(7):0.75emax ≦en ≦emax に設定し、各範囲内に存在する確率、若しくは、度数を
求める。そして、音声区間検出部6では、確率密度分布
演算部5にて求められた確率密度分布P(k)から、音声
の存在する音声区間Sを検出する。この音声区間Sを検
出する方法としては、例えば、 Q=P(0)+P(1)+P(6)+P(7) ・・・(2) として、図3のフローチャートに示すように、(2)式
に示すQが予め定めておいた基準値(閾値)Th以下と
なる区間S1 を音声の存在する音声区間Sであると判定
する方法を用いる。ここに、音響/電気信号変換部1に
母音が入力された場合、予測残差信号en には母音に含
まれるピッチ性が現われ、ピッチ周期毎に予測残差信号
n は大きな値となり、母音のピッチ周期以外の区間で
は比較的小さな値となるため、予測残差信号en が大き
な値をとる確率が小さくなる。その結果、母音の存在す
る区間では、(2)式に示すQが予め定めておいた基準
値Th以下となるため、その区間を音声の存在する音声
区間Sとして判定する。したがって、確率密度分布演算
部5により求められた確率密度分布P(k)の総和Qが予
め定めておいた基準値Th以下の区間S1 を音声の存在
する音声区間Sであると判定することにより、騒音下に
おいても音声の存在する音声区間Sの検出精度を高める
ことが可能となる。
【0017】なお、上述したような線形予測分析部3の
線形予測係数ai 、残差信号演算部4の予測残差信号e
n 、確率密度分布演算部5の確率密度分布P(k)を求め
る方法、或いは、音声区間検出部6において確率密度分
布P(k)から音声区間Sを求める方法は、本実施例で用
いた方法に限るものではなく、他の方法を用いても実施
可能となるものである。
【0018】次に、請求項3記載の発明の一実施例を図
4及び図5に基づいて説明する。本実施例は、図4に示
す音声区間検出装置を用いて実施するようにしたもので
ある。まず、本実施例に用いる音声区間検出装置の全体
構成の概略を図4に基づいて述べる。なお、請求項1,
2記載の発明の一実施例(図1ないし図3参照)におい
て説明した部分と同一部分については同一符号を用い、
その説明も省略する。A/D変換部2の出力側と音声区
間検出部6との間に音声パワー検出部7が設けられてい
る。
【0019】また、上述したような音声区間検出装置を
用いて以下に示す方法により実施するようにしたもので
ある。音響/電気信号変換部1により得られた電気信号
x(t) 若しくはA/D変換器2により得られたデジタル
信号xn に基づいて前記音声パワー検出部7により音声
パワーYmを求め、この音声パワーYmにより音声の存
在する音声区間Sを検出する際に重みづけを行うように
なっている。
【0020】そして、上述したような音声認識装置と方
法とを用いた本実施例の具体例を図5に示すフローチャ
ートに基づいて説明する。音声パワー検出部7において
は、音響/電気信号変換部1により得られた電気信号x
(t) 、若しくは、この電気信号x(t) がA/D変換部2
によりA/D変換されたデジタル信号xn に基づいて、
音声パワーYmを求める。すなわち、音声パワーYm
を、
【0021】
【数2】
【0022】とし、フレーム毎のデジタル信号xn の2
乗値の短時間平均値を求める方法や、デジタル信号xn
の絶対値の短時間平均値を求める方法を用いて(3)式
の音声パワーYmを求める。
【0023】そして、音声区間検出部6では、音声パワ
ー検出部7により検出された音声パワーYmにより、前
述の「音声認識」、共立出版、新見著、p.68〜69 に記
載されている音声パワーを2つの閾値と比較する方法を
用いて音声の存在する区間S 2 が検出される。さらに、
この区間S2 と、前述の請求項1,2記載の発明の一実
施例で説明した確率密度分布P(k)から求められた区間
1 とのAND/ORをとった区間を最終的に音声の存
在する音声区間Sとして検出する。したがって、音声パ
ワー検出部7にて求められた音声パワーYmを、音声の
存在する音声区間Sを検出する際の判定基準に加えるこ
とにより、騒音下においても、請求項1,2記載の発明
の一実施例と比べて、音声の存在する音声区間Sの検出
精度をより一層高めることが可能となる。
【0024】なお、上述したような音声パワー検出部7
の音声パワーYmを求める方法や、音声区間検出部6に
おいて、確率密度分布P(k)から求められた区間S1
音声パワーYmから検出された区間S2 とから音声区間
Sを検出する方法は、本実施例で用いた方法に限るもの
ではなく、他の方法を用いても実施可能となるものであ
る。
【0025】次に、請求項4記載の発明の一実施例を図
6及び図7に基づいて説明する。本実施例は、図6に示
す音声区間検出装置を用いて実施するようにしたもので
ある。まず、本実施例で用いる音声区間検出装置の全体
構成の概略を図6に基づいて述べる。なお、請求項3記
載の発明の一実施例(図4及び図5参照)において説明
した部分と同一部分については同一符号を用い、その説
明も省略する。線形予測分析部3の出力側と音声区間検
出部6との間に残差パワー検出部8が設けられている。
【0026】また、上述したような音声区間検出装置を
用いて以下に示す方法により実施するようにしたもので
ある。線形予測分析部3により得られた線形予測係数a
i 若しくは残差信号演算部4により得られた予測残差信
号en に基づいて残差パワー検出部8により残差パワー
Zmを求め、この残差パワーZmにより音声の存在する
音声区間Sを検出する際に重みづけを行うようになって
いる。
【0027】そして、上述したような音声認識装置と方
法とを用いた本実施例の具体例を図7に示すフローチャ
ートに基づいて説明する。残差パワー検出部8において
は、残差信号演算部4により得られた予測残差信号
n 、若しくは、線形予測分析部3から、残差パワーZ
mを求める。すなわち、残差パワーZmを、
【0028】
【数3】
【0029】として、フレーム毎の予測残差信号en
2乗値の短時間平均値を求める方法や、予測残差信号e
n の絶対値の短時間平均値を求める方法を用いて(4)
式の残差パワーZmを求める。また、線形予測分析部3
において線形予測係数ai を求める際に、残差パワーZ
mに相当するものが検出されるので、この残差パワーZ
mに相当するものをそのまま残差パワーZmとして用い
てもよいものである。
【0030】そして、音声区間検出部6においては、残
差パワー検出部8により検出された残差パワーZmを用
いて、前述の「音声認識」、共立出版、新見著、p.68
〜69に記載されている音声パワーを2つの閾値と比較す
る方法により音声の存在する区間S3 を検出する。さら
に、この区間S3 と、前述の請求項1,2記載の発明の
一実施例で説明した確率密度分布P(k)から求められた
区間S1 と、前述の請求項3記載の発明の一実施例で説
明した音声パワーYmから求められた区間S2とのAN
D/ORをとった区間を最終的に音声の存在する音声区
間Sとして検出する。したがって、確率密度分布P(k)
と音声パワーYmと残差パワーZmとのそれぞれから検
出された区間S1 と区間S2 と区間S3 とのAND/O
Rをとることにより、騒音下においても、前述の請求項
3記載の発明の一実施例に比べて、音声の存在する音声
区間Sの検出精度をさらに一層高めることが可能とな
る。しかも、音声の子音の欠落を少なくさせることが可
能となる。
【0031】なお、上述したような残差パワー検出部8
において残差パワーZmを求める方法、音声区間検出部
6の確率密度分布P(k)から求められた区間S1 と音声
パワーYmから検出された区間S2 と残差パワーZmに
より検出された区間S3 とから音声区間Sを検出する方
法は、本実施例で用いた方法に限るものではなく、他の
方法を用いても実施可能となるものである。
【0032】
【発明の効果】請求項1,2記載の発明は、音響/電気
信号変換部により音声を集音して電気信号に変換し、こ
の電気信号をA/D変換部によりデジタル信号に変換
し、このデジタル信号から音声の存在する音声区間を検
出するようにした音声区間検出方法において、線形予測
分析部により前記デジタル信号の線形予測分析を行って
線形予測係数を求め、前記デジタル信号と前記線形予測
係数とから残差信号演算部により予測残差信号を求め、
この予測残差信号から確率密度分布演算部により確率密
度分布を求め、この確率密度分布に基づいて音声の存在
する音声区間を、予測残差信号が予め定められた基準値
以上になる確率が低い区間として検出するようにしたの
で、騒音下においても音声区間の検出精度を高めること
ができるものである。
【0033】請求項2,3記載の発明は、音響/電気信
号変換部により得られた電気信号若しくはA/D変換器
により得られたデジタル信号に基づいて求められた音声
パワーや、線形予測分析部により得られた線形予測係数
若しくは残差信号演算部により得られた予測残差信号に
基づいて求められた残差パワーにより音声の存在する音
声区間を検出するようにしたので、騒音下においても音
声区間の検出精度をより一層高めることができるもので
ある。
【図面の簡単な説明】
【図1】請求項1,2記載の発明の一実施例を示すブロ
ック図である。
【図2】図1の音声区間検出装置を用いて音声の電気信
号から音声の存在する音声区間が検出されるまでの処理
の流れを示すフローチャートである。
【図3】図2の音声区間検出処理の流れを含めて示すフ
ローチャートである。
【図4】請求項3記載の発明の一実施例を示すブロック
図である。
【図5】図4の音声区間検出装置を用いて音声の電気信
号から音声の存在する音声区間が検出されるまでの処理
の流れを示すフローチャートである。
【図6】請求項4記載の発明の一実施例を示すブロック
図である。
【図7】図6の音声区間検出装置を用いて音声の電気信
号から音声の存在する音声区間が検出されるまでの処理
の流れを示すフローチャートである。
【符号の説明】
1 音響/電気信号変換部 2 A/D変換部 3 線形予測分析部 4 残差信号演算部 5 確率密度分布演算部 x(t) 線形予測係数 xn デジタル信号 ai 線形予測係数 en 予測残差信号 Ym 音声パワー Zm 残差パワー S 音声区間

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音響/電気信号変換部により音声を集音
    して電気信号に変換し、この電気信号をA/D変換部に
    よりデジタル信号に変換し、このデジタル信号から音声
    の存在する音声区間を検出するようにした音声区間検出
    方法において、線形予測分析部により前記デジタル信号
    の線形予測分析を行って線形予測係数を求め、前記デジ
    タル信号と前記線形予測係数とから残差信号演算部によ
    り予測残差信号を求め、この予測残差信号から確率密度
    分布演算部により確率密度分布を求め、この確率密度分
    布に基づいて音声の存在する音声区間を検出するように
    したことを特徴とする音声区間検出方法。
  2. 【請求項2】 確率密度分布演算部で得られた確率密度
    分布に基づいて検出される音声の存在する音声区間を、
    残差信号演算部により得られた予測残差信号が予め定め
    られた基準値以上になる確率が低い区間としたことを特
    徴とする請求項1記載の音声区間検出方法。
  3. 【請求項3】 音響/電気信号変換部により得られた電
    気信号若しくはA/D変換器により得られたデジタル信
    号に基づいて音声パワーを求め、この音声パワーにより
    音声の存在する音声区間を検出する際に重みづけを行う
    ようにしたことを特徴とする請求項1又は2記載の音声
    区間検出方法。
  4. 【請求項4】 線形予測分析部により得られた線形予測
    係数若しくは残差信号演算部により得られた予測残差信
    号に基づいて残差パワーを求め、この残差パワーにより
    音声の存在する音声区間を検出する際に重みづけを行う
    ようにしたことを特徴とする請求項1,2又は3記載の
    音声区間検出方法。
JP3264537A 1991-10-14 1991-10-14 音声区間検出方法 Pending JPH05108089A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3264537A JPH05108089A (ja) 1991-10-14 1991-10-14 音声区間検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3264537A JPH05108089A (ja) 1991-10-14 1991-10-14 音声区間検出方法

Publications (1)

Publication Number Publication Date
JPH05108089A true JPH05108089A (ja) 1993-04-30

Family

ID=17404646

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3264537A Pending JPH05108089A (ja) 1991-10-14 1991-10-14 音声区間検出方法

Country Status (1)

Country Link
JP (1) JPH05108089A (ja)

Similar Documents

Publication Publication Date Title
EP1569422B1 (en) Method and apparatus for multi-sensory speech enhancement on a mobile device
EP0637012B1 (en) Signal processing device
EP2431972B1 (en) Method and apparatus for multi-sensory speech enhancement
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
EP0474496B1 (en) Speech recognition apparatus
US6823304B2 (en) Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant
EP1229517B1 (en) Method for recognizing speech with noise-dependent variance normalization
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
JP3270866B2 (ja) 雑音除去方法および雑音除去装置
JP2010026323A (ja) 話速検出装置
Burchard et al. A single chip phoneme based HMM speech recognition system for consumer applications
JPH05108089A (ja) 音声区間検出方法
JP2000276200A (ja) 声質変換システム
JP2564821B2 (ja) 音声判定検出装置
JP2001083978A (ja) 音声認識装置
JPH0720892A (ja) 音声認識装置におけるノイズキャンセリング装置
JP2018036442A (ja) 音声処理プログラム、音声処理方法及び音声処理装置
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JP2000194385A (ja) 音声認識処理装置
JP2772598B2 (ja) 音声符号化装置
JP3328642B2 (ja) 音声判別装置及び音声判別方法
Suk et al. Voice/non-voice classification using reliable fundamental frequency estimator for voice activated powered wheelchair control
JP2583854B2 (ja) 有声無声判定方法