JPH06110488A - 音声検出方法および音声検出装置 - Google Patents
音声検出方法および音声検出装置Info
- Publication number
- JPH06110488A JPH06110488A JP4261164A JP26116492A JPH06110488A JP H06110488 A JPH06110488 A JP H06110488A JP 4261164 A JP4261164 A JP 4261164A JP 26116492 A JP26116492 A JP 26116492A JP H06110488 A JPH06110488 A JP H06110488A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- voice
- speech
- phonological
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【目的】 音声の検出に適したパラメータを用い、音声
中の母音や子音の識別に基づいた音韻性検出により、会
話中の音声を検出する音声検出装置に関するもので、比
較的簡単な構成で自動的にしかも高精度に音声の検出が
可能な音声検出装置を提供する。 【構成】 入力信号から特徴抽出部11にて一定時間毎
に複数の特徴量を抽出し、音韻標準モデル作成部12に
て学習用音声データから作成した各音韻毎の標準モデル
との統計的距離を計算する類似度計算部13と、数フレ
ーム分の距離値を一括して用いてフレーム平均距離を計
算し、適当な閾値と比較することで音声中の音韻性を検
出する音韻判定部14と、音韻判定部により判定された
音韻の存在比率をもとに、最終判定部15にてファジィ
推論により音声を検出する構成を有する。
中の母音や子音の識別に基づいた音韻性検出により、会
話中の音声を検出する音声検出装置に関するもので、比
較的簡単な構成で自動的にしかも高精度に音声の検出が
可能な音声検出装置を提供する。 【構成】 入力信号から特徴抽出部11にて一定時間毎
に複数の特徴量を抽出し、音韻標準モデル作成部12に
て学習用音声データから作成した各音韻毎の標準モデル
との統計的距離を計算する類似度計算部13と、数フレ
ーム分の距離値を一括して用いてフレーム平均距離を計
算し、適当な閾値と比較することで音声中の音韻性を検
出する音韻判定部14と、音韻判定部により判定された
音韻の存在比率をもとに、最終判定部15にてファジィ
推論により音声を検出する構成を有する。
Description
【0001】
【産業上の利用分野】本発明は、様々な定常あるいは非
定常な雑音の存在する実環境下において、入力信号が会
話音声であるかそれ以外であるかを判定する音声検出方
法および音声検出装置に関するものである。
定常な雑音の存在する実環境下において、入力信号が会
話音声であるかそれ以外であるかを判定する音声検出方
法および音声検出装置に関するものである。
【0002】
【従来の技術】DSP(デジタル・シグナル・プロセッ
サ)に代表されるディジタル信号処理の普及にともな
い、家電製品や音響製品分野にディジタル信号処理技術
が利用されるようになった。このような高付加価値製品
の中で、音楽再生時にコンサートホールやライブハウス
などの臨場感を付加するために、残響や反射音を利用し
たテレビやオーディオ製品が開発されている。しかし、
このような効果音は、音楽など広帯域な信号には効果的
でも、人間の会話音声などのような信号には必ずしも効
果的とは言えない場合がある。そこで、会話音声と音楽
とを判別し、音楽には効果音を付加する、音声には効果
音を付加しないと言ったような、音声検出装置が必要と
される。
サ)に代表されるディジタル信号処理の普及にともな
い、家電製品や音響製品分野にディジタル信号処理技術
が利用されるようになった。このような高付加価値製品
の中で、音楽再生時にコンサートホールやライブハウス
などの臨場感を付加するために、残響や反射音を利用し
たテレビやオーディオ製品が開発されている。しかし、
このような効果音は、音楽など広帯域な信号には効果的
でも、人間の会話音声などのような信号には必ずしも効
果的とは言えない場合がある。そこで、会話音声と音楽
とを判別し、音楽には効果音を付加する、音声には効果
音を付加しないと言ったような、音声検出装置が必要と
される。
【0003】また、音声認識等の音声処理を行う装置で
は、音声以外の雑音が入力され誤って音声と判断される
と誤認識を生じる。そこで、入力された信号が正確に音
声であるかどうかを判定できる音声検出装置が必要とさ
れる。
は、音声以外の雑音が入力され誤って音声と判断される
と誤認識を生じる。そこで、入力された信号が正確に音
声であるかどうかを判定できる音声検出装置が必要とさ
れる。
【0004】従来の音声検出装置では、処理の簡素化の
ための入力信号のパワー値が閾値よりも大きい部分を音
声と判別する方法が一般的に行われる。しかし様々な定
常あるいは非定常な雑音の存在する実環境で使用するこ
とを考えると、音声以外のパワーの大きな様々な音が入
力される可能性があり、パワーだけでは音声の検出はで
きない。また、たとえこの方法で比較的継続時間の短い
非定常な雑音が判別できても、音声と同様な継続時間を
持つ定常な雑音はほとんど判別不可能である。
ための入力信号のパワー値が閾値よりも大きい部分を音
声と判別する方法が一般的に行われる。しかし様々な定
常あるいは非定常な雑音の存在する実環境で使用するこ
とを考えると、音声以外のパワーの大きな様々な音が入
力される可能性があり、パワーだけでは音声の検出はで
きない。また、たとえこの方法で比較的継続時間の短い
非定常な雑音が判別できても、音声と同様な継続時間を
持つ定常な雑音はほとんど判別不可能である。
【0005】
【発明が解決しようとする課題】しかしながら、人間が
音声と雑音とをある程度正確に判別できるのは、単純な
信号のパワーを用いた有音/無音判定だけでなく、音声
中の音韻系列の出現頻度、ピッチや抑揚、さらに連続音
声認識の手法などの高度な知識に基づく判断がなされて
いるからであると考えられる。音声、特に会話音声中に
は様々な音韻が出現するが、それら音韻の発声頻度は、
発声される言語や文法によってある程度決まっていると
いえる。例えば日本語音声の場合、音韻の発声は、V、
C+V、V+C+V(Vは母音、Cは子音)など母音
(Vowel)、子音(Consonant)、無音(Silence) の繰
り返しによって構成されている。そこで、ある程度長い
時間間隔で音韻の発声回数を調べてみると、母音・子音
はある程度決まった頻度で発声されていると考えられ
る。
音声と雑音とをある程度正確に判別できるのは、単純な
信号のパワーを用いた有音/無音判定だけでなく、音声
中の音韻系列の出現頻度、ピッチや抑揚、さらに連続音
声認識の手法などの高度な知識に基づく判断がなされて
いるからであると考えられる。音声、特に会話音声中に
は様々な音韻が出現するが、それら音韻の発声頻度は、
発声される言語や文法によってある程度決まっていると
いえる。例えば日本語音声の場合、音韻の発声は、V、
C+V、V+C+V(Vは母音、Cは子音)など母音
(Vowel)、子音(Consonant)、無音(Silence) の繰
り返しによって構成されている。そこで、ある程度長い
時間間隔で音韻の発声回数を調べてみると、母音・子音
はある程度決まった頻度で発声されていると考えられ
る。
【0006】本発明は、上記の課題を解決するもので、
音声中の各音韻の検出に基づいた高性能な音声検出装置
を提供することを目的とする。本発明は、会話中の音声
の検出を実現するための方法として、音声認識技術を用
いて、音声の各音韻毎の標準モデルを用いることで音声
中の母音や子音をある程度識別し、音声中の音韻性を検
出することでその存在比率により会話音声とそれ以外の
音を判別する音声検出装置を提供する。音声であるかそ
れ以外であるかを表した特徴量を総合的に判定するため
の評価値として、数フレーム分を1塊に考えて算出され
る統計的距離を用い、連続発声された音声中の母音、子
音あるいは無音部分の存在比率により会話音声の検出を
行う。一般に会話音声区間では、比較的パワーの変動が
大きく、また母音や子音など様々な音韻が一定の割合で
発声されていると考えられる。
音声中の各音韻の検出に基づいた高性能な音声検出装置
を提供することを目的とする。本発明は、会話中の音声
の検出を実現するための方法として、音声認識技術を用
いて、音声の各音韻毎の標準モデルを用いることで音声
中の母音や子音をある程度識別し、音声中の音韻性を検
出することでその存在比率により会話音声とそれ以外の
音を判別する音声検出装置を提供する。音声であるかそ
れ以外であるかを表した特徴量を総合的に判定するため
の評価値として、数フレーム分を1塊に考えて算出され
る統計的距離を用い、連続発声された音声中の母音、子
音あるいは無音部分の存在比率により会話音声の検出を
行う。一般に会話音声区間では、比較的パワーの変動が
大きく、また母音や子音など様々な音韻が一定の割合で
発声されていると考えられる。
【0007】本発明は、会話音声の検出に適したパラメ
ータを用い、音声中の母音や子音の識別に基づいた音韻
性検出により、高性能でしかも簡単な構成による会話音
声の検出が可能な音声検出装置を提供することを目的と
する。
ータを用い、音声中の母音や子音の識別に基づいた音韻
性検出により、高性能でしかも簡単な構成による会話音
声の検出が可能な音声検出装置を提供することを目的と
する。
【0008】
【課題を解決するための手段】本発明は上記目的を達成
するために、入力信号から一定時間毎に音声中の音韻性
を特徴付ける特徴量を抽出する特徴抽出部と、あらかじ
め多数の学習用音声データについて前記特徴抽出部で抽
出した特徴量を用いて各音韻毎の平均値と共分散行列を
算出し、音韻毎の標準モデルを作成する音韻標準モデル
作成部と、入力信号からフレーム単位に前記特徴抽出部
で抽出した特徴量について、前記音韻標準モデル作成部
にて作成した各音韻毎の標準モデルとの統計的距離を計
算する類似度計算部と、音韻検出しようとするフレーム
とその前後数フレームにおいて前記類似度計算部にて計
算された距離値を用いて各音韻毎にフレーム平均距離を
計算し、ある適当な閾値とを比較することでどの音韻か
を判定する音韻判定部と、パワーの一定レベル以上の入
力信号の塊について前記音韻判定部により、いずれかの
音韻と判定されたフレームの存在比率に基づき、ファジ
ィ推論によりその区間が音声かそれ以外の音かを判定す
る最終判定部とを備えたものである。
するために、入力信号から一定時間毎に音声中の音韻性
を特徴付ける特徴量を抽出する特徴抽出部と、あらかじ
め多数の学習用音声データについて前記特徴抽出部で抽
出した特徴量を用いて各音韻毎の平均値と共分散行列を
算出し、音韻毎の標準モデルを作成する音韻標準モデル
作成部と、入力信号からフレーム単位に前記特徴抽出部
で抽出した特徴量について、前記音韻標準モデル作成部
にて作成した各音韻毎の標準モデルとの統計的距離を計
算する類似度計算部と、音韻検出しようとするフレーム
とその前後数フレームにおいて前記類似度計算部にて計
算された距離値を用いて各音韻毎にフレーム平均距離を
計算し、ある適当な閾値とを比較することでどの音韻か
を判定する音韻判定部と、パワーの一定レベル以上の入
力信号の塊について前記音韻判定部により、いずれかの
音韻と判定されたフレームの存在比率に基づき、ファジ
ィ推論によりその区間が音声かそれ以外の音かを判定す
る最終判定部とを備えたものである。
【0009】
【作用】本発明は、上記した構成により、会話音声の検
出を実現するための方法として、音声認識技術を用い
て、会話音声の検出に適した特徴量を用い、またあらか
じめ信頼性の高い多数の音声データから作成した各音韻
毎の標準モデルを用いることで、音声中の母音や子音を
ある程度識別し、音声中の音韻性を検出しているので、
正確な会話音声の検出が可能となる。
出を実現するための方法として、音声認識技術を用い
て、会話音声の検出に適した特徴量を用い、またあらか
じめ信頼性の高い多数の音声データから作成した各音韻
毎の標準モデルを用いることで、音声中の母音や子音を
ある程度識別し、音声中の音韻性を検出しているので、
正確な会話音声の検出が可能となる。
【0010】
【実施例】以下本発明の一実施例について説明する。図
1は本発明の一実施例の全体構成を示すブロック構成図
である。図1において、11は音声判別のための複数の
特徴量を抽出する特徴抽出部で、1フレーム毎のパワー
を計算するパワー算出部11aと、1フレーム毎の1次
および7次の自己相関係数を算出する自己相関係数算出
部11bと、1フレーム毎の1次および3次のケプスト
ラム係数を算出するケプストラム係数算出部11cとか
ら構成される。これらの特徴量は入力信号の音韻性を検
出するために用いられるものであり、上記以外の特徴
量、すなわち1次以上の自己相関係数や、1次以上のケ
プストラム係数、あるいは他の音声分析により得られる
特徴量を用いても、音声の特徴を捉えていることでは同
じであるので、使用可能である。自己相関係数は、エネ
ルギーの集中周波数域の違いが反映される特徴量であ
り、1次の自己相関係数の値は、エネルギーが高い周波
数帯域に優勢に存在している無声音などランダム性の強
い雑音では0に近い値を示し、有声音などでは1に近い
値を示す。一方、7次の自己相関係数の値は、エネルギ
ーの集中周波数域が比較的低い周波数帯域に優勢に存在
している雑音では1に近い値を示し、有声音などではそ
の値が0に近くなる。ケプストラム係数は、スペクトル
の形状を表す特徴量であり、同じ有声音でも各音韻毎に
その値は大きく異なる。1次のケプストラム係数は有声
音か無声音かなどの大まかなスペクトルの形状の違いを
表す量であり、音韻/i/を除く有声音ではその値が
1.0以上を示し、それ以外の音では1.0以下の値を
示す。3次のケプストラム係数は、音韻/i/にのみ際
だった特徴を示し、/i/の検出に適した特徴量であ
る。
1は本発明の一実施例の全体構成を示すブロック構成図
である。図1において、11は音声判別のための複数の
特徴量を抽出する特徴抽出部で、1フレーム毎のパワー
を計算するパワー算出部11aと、1フレーム毎の1次
および7次の自己相関係数を算出する自己相関係数算出
部11bと、1フレーム毎の1次および3次のケプスト
ラム係数を算出するケプストラム係数算出部11cとか
ら構成される。これらの特徴量は入力信号の音韻性を検
出するために用いられるものであり、上記以外の特徴
量、すなわち1次以上の自己相関係数や、1次以上のケ
プストラム係数、あるいは他の音声分析により得られる
特徴量を用いても、音声の特徴を捉えていることでは同
じであるので、使用可能である。自己相関係数は、エネ
ルギーの集中周波数域の違いが反映される特徴量であ
り、1次の自己相関係数の値は、エネルギーが高い周波
数帯域に優勢に存在している無声音などランダム性の強
い雑音では0に近い値を示し、有声音などでは1に近い
値を示す。一方、7次の自己相関係数の値は、エネルギ
ーの集中周波数域が比較的低い周波数帯域に優勢に存在
している雑音では1に近い値を示し、有声音などではそ
の値が0に近くなる。ケプストラム係数は、スペクトル
の形状を表す特徴量であり、同じ有声音でも各音韻毎に
その値は大きく異なる。1次のケプストラム係数は有声
音か無声音かなどの大まかなスペクトルの形状の違いを
表す量であり、音韻/i/を除く有声音ではその値が
1.0以上を示し、それ以外の音では1.0以下の値を
示す。3次のケプストラム係数は、音韻/i/にのみ際
だった特徴を示し、/i/の検出に適した特徴量であ
る。
【0011】次に、12はあらかじめ多数の学習用音声
データについて特徴抽出部11で抽出した特徴量を用い
て母音あるいは無声摩擦音毎の平均値と共分散行列を算
出し、母音毎のあるいは無声摩擦音毎の標準モデルを作
成する音韻標準モデル作成部である。13は特徴抽出部
11から出力される入力信号のフレーム毎の1次および
7次の自己相関係数と1次および3次のケプストラム係
数について、音韻標準モデル作成部12にて作成した各
音韻標準モデルとの対数尤度を計算する類似度計算部で
あり、14は類似度計算部13にて計算に用いたフレー
ムの前後数フレームにおいて、類似度計算部13で同様
に計算された対数尤度を用いて、各音韻毎にフレーム平
均対数尤度を計算し、ある適当な閾値とを比較すること
でその入力信号数フレームが該当音韻であるかどうかを
判定する音韻判定部である。15はパワーの一定レベル
以上の入力信号の塊について前記音韻判定部14によ
り、判定された各音韻の存在比率に基づき、ファジィ推
論によりその区間が音声かそれ以外の音かを判定する最
終判定部である。
データについて特徴抽出部11で抽出した特徴量を用い
て母音あるいは無声摩擦音毎の平均値と共分散行列を算
出し、母音毎のあるいは無声摩擦音毎の標準モデルを作
成する音韻標準モデル作成部である。13は特徴抽出部
11から出力される入力信号のフレーム毎の1次および
7次の自己相関係数と1次および3次のケプストラム係
数について、音韻標準モデル作成部12にて作成した各
音韻標準モデルとの対数尤度を計算する類似度計算部で
あり、14は類似度計算部13にて計算に用いたフレー
ムの前後数フレームにおいて、類似度計算部13で同様
に計算された対数尤度を用いて、各音韻毎にフレーム平
均対数尤度を計算し、ある適当な閾値とを比較すること
でその入力信号数フレームが該当音韻であるかどうかを
判定する音韻判定部である。15はパワーの一定レベル
以上の入力信号の塊について前記音韻判定部14によ
り、判定された各音韻の存在比率に基づき、ファジィ推
論によりその区間が音声かそれ以外の音かを判定する最
終判定部である。
【0012】以下、本発明の一実施例について図1のブ
ロック構成図を参照しながら詳細に説明する。音響信号
がマイクロホンを通して入力されると、特徴抽出部11
でまず複数の特徴量が抽出される。パワー算出部11a
では、一定時間毎のパワー値Piが算出される。一定の
時間間隔は、ここでは例えばサンプリング周波数を10
KHzとして、200点(20ms)とし、この時間単
位をフレームと呼ぶ。ここで、Piはフレームiでのパ
ワー値を示す。このパワー値は発声条件の違いによるパ
ワーの違いを統一して扱えるように、パワーの大きな区
間内の最大値、最小値間を例えば0から1までの値に正
規化して用いる。
ロック構成図を参照しながら詳細に説明する。音響信号
がマイクロホンを通して入力されると、特徴抽出部11
でまず複数の特徴量が抽出される。パワー算出部11a
では、一定時間毎のパワー値Piが算出される。一定の
時間間隔は、ここでは例えばサンプリング周波数を10
KHzとして、200点(20ms)とし、この時間単
位をフレームと呼ぶ。ここで、Piはフレームiでのパ
ワー値を示す。このパワー値は発声条件の違いによるパ
ワーの違いを統一して扱えるように、パワーの大きな区
間内の最大値、最小値間を例えば0から1までの値に正
規化して用いる。
【0013】自己相関係数算出部11bでは、フレーム
毎に1次および7次の自己相関係数Ai(1)、Ai(7)が算
出され、さらにAi(1)、Ai(7)は0次の自己相関係数A
i(0)で正規化される。
毎に1次および7次の自己相関係数Ai(1)、Ai(7)が算
出され、さらにAi(1)、Ai(7)は0次の自己相関係数A
i(0)で正規化される。
【0014】ケプストラム係数算出部11cでは、フレ
ームiでの1次および3次のケプストラム係数Ci(1)、
Ci(3)が線形予測分析により求められる。
ームiでの1次および3次のケプストラム係数Ci(1)、
Ci(3)が線形予測分析により求められる。
【0015】音韻標準モデル作成部12では、あらかじ
め多数の学習用音声データを用いて、各音韻について特
徴抽出部11で得られる特徴量を抽出し、各音韻毎の標
準モデルを作成する。ここでは、音韻として5母音/a
/、/i/、/u/、/e/、/o/と、2無声摩擦音
/h/、/s/の2カテゴリー7種類の音韻を使用す
る。これら7つの音韻は比較的定常性のある音韻であ
り、音声の局所的な継続性を見る場合に適していると考
えられる。ただし、他の音韻例えば、鼻音、有声破裂
音、破擦音、流音、半母音等を用いても、音声の特徴を
表していることには変わりないので何等差し支えない。
ここでは次の方法により音韻毎の平均値と共分散行列を
算出し音韻標準モデルを作成する。ある音韻kの学習用
音韻データをyN(データ数N)とすると、 yN がm次
元の多次元正規分布に従うと仮定した場合に、その平均
値 μkと共分散行列 Σkを(数1),(数2)のように
計算にて求めることができる。
め多数の学習用音声データを用いて、各音韻について特
徴抽出部11で得られる特徴量を抽出し、各音韻毎の標
準モデルを作成する。ここでは、音韻として5母音/a
/、/i/、/u/、/e/、/o/と、2無声摩擦音
/h/、/s/の2カテゴリー7種類の音韻を使用す
る。これら7つの音韻は比較的定常性のある音韻であ
り、音声の局所的な継続性を見る場合に適していると考
えられる。ただし、他の音韻例えば、鼻音、有声破裂
音、破擦音、流音、半母音等を用いても、音声の特徴を
表していることには変わりないので何等差し支えない。
ここでは次の方法により音韻毎の平均値と共分散行列を
算出し音韻標準モデルを作成する。ある音韻kの学習用
音韻データをyN(データ数N)とすると、 yN がm次
元の多次元正規分布に従うと仮定した場合に、その平均
値 μkと共分散行列 Σkを(数1),(数2)のように
計算にて求めることができる。
【0016】
【数1】
【0017】
【数2】
【0018】ただし、yN、μkはm次元のベクトル(m
次元の特徴量を持つ)であり、Σkはm*m次元のマト
リックスである。
次元の特徴量を持つ)であり、Σkはm*m次元のマト
リックスである。
【0019】これにより、音韻毎の標準モデルのモデル
形状(平均値μk、及び分散Σk)が求められる。学習用
音韻データとしては、例えばある標準話者の音韻kの部
分を学習用データから切り出して用いればよい。また、
複数の話者の音声データを用いることで、話者の発声の
変動に強い標準モデルを作成することができる。
形状(平均値μk、及び分散Σk)が求められる。学習用
音韻データとしては、例えばある標準話者の音韻kの部
分を学習用データから切り出して用いればよい。また、
複数の話者の音声データを用いることで、話者の発声の
変動に強い標準モデルを作成することができる。
【0020】類似度計算部13は、特徴抽出部11から
出力されるフレーム毎の入力信号のいくつかの特徴量に
ついて、音韻標準モデル作成部12にて作成した各音韻
標準モデルとの対数尤度を計算する部分である。音韻検
出に用いる距離尺度は、使用する各特徴量の分布を多次
元正規分布と仮定した場合の統計的距離尺度であり、あ
る音韻標準モデルkに対するiフレーム目の入力ベクト
ルxi の対数尤度Likは、(数3)で計算される。
出力されるフレーム毎の入力信号のいくつかの特徴量に
ついて、音韻標準モデル作成部12にて作成した各音韻
標準モデルとの対数尤度を計算する部分である。音韻検
出に用いる距離尺度は、使用する各特徴量の分布を多次
元正規分布と仮定した場合の統計的距離尺度であり、あ
る音韻標準モデルkに対するiフレーム目の入力ベクト
ルxi の対数尤度Likは、(数3)で計算される。
【0021】
【数3】
【0022】ただし、xiはm次元のベクトル(m次元
の特徴量)であり、tは転値、−1は逆行列を示す。
の特徴量)であり、tは転値、−1は逆行列を示す。
【0023】音韻判定部14は、音声の局所的な時間的
継続性を表現するため、検出しようとする目的フレーム
の前後Nフレーム(これをセグメントという)を用い
て、音韻判定を行う。各音韻毎に類似度計算部13にて
計算された対数尤度Likを用いて、次の条件式(数4)
を満たせばそのセグメントは該当音韻であるとみなす。
継続性を表現するため、検出しようとする目的フレーム
の前後Nフレーム(これをセグメントという)を用い
て、音韻判定を行う。各音韻毎に類似度計算部13にて
計算された対数尤度Likを用いて、次の条件式(数4)
を満たせばそのセグメントは該当音韻であるとみなす。
【0024】
【数4】
【0025】ただし、LkTH は音韻標準モデルkに関す
る判別閾値(フレーム平均対数尤度の閾値)である。
る判別閾値(フレーム平均対数尤度の閾値)である。
【0026】このように、各特徴量の影響を効果的に、
しかも総合的に判定できる対数尤度を用いることで、特
徴量の値の変動に対して頑健な検出装置が構築できる。
しかも総合的に判定できる対数尤度を用いることで、特
徴量の値の変動に対して頑健な検出装置が構築できる。
【0027】最終判定部15は、パワーの一定レベル以
上の入力信号の塊について各音韻の存在比率に基づき、
ファジィ推論によりその区間が音声かそれ以外の音かを
判定する最終判定部ある。本実施例では、ファジィ推論
として、推論ルールの後件部を実数値で表現する簡略化
ファジィ推論を使用した。ただし、他のファジィ推論を
用いても、音声中の音韻性をもとに音声らしさを表現す
る意味では同じであるので、全く差し支えない。最終判
定部では、まずパワー計算部11aで得られたパワー値
系列から、決められたパワーしきい値より大きい区間が
連続して続く区間(Nフレーム)を音声候補区間とす
る。この音声候補区間内において、音韻判定部14によ
り、音韻セグメントが、/a/、/i/、/u/、/e
/、/o/と判定された場合は母音グループ、/h/、
/s/と判定された場合は摩擦音グループと言ったよう
にカテゴリー毎に分類する。そして個々のグループに判
定された個数 Cmから、(数5)によりカテゴリー毎の
占有率 Rmを求める。
上の入力信号の塊について各音韻の存在比率に基づき、
ファジィ推論によりその区間が音声かそれ以外の音かを
判定する最終判定部ある。本実施例では、ファジィ推論
として、推論ルールの後件部を実数値で表現する簡略化
ファジィ推論を使用した。ただし、他のファジィ推論を
用いても、音声中の音韻性をもとに音声らしさを表現す
る意味では同じであるので、全く差し支えない。最終判
定部では、まずパワー計算部11aで得られたパワー値
系列から、決められたパワーしきい値より大きい区間が
連続して続く区間(Nフレーム)を音声候補区間とす
る。この音声候補区間内において、音韻判定部14によ
り、音韻セグメントが、/a/、/i/、/u/、/e
/、/o/と判定された場合は母音グループ、/h/、
/s/と判定された場合は摩擦音グループと言ったよう
にカテゴリー毎に分類する。そして個々のグループに判
定された個数 Cmから、(数5)によりカテゴリー毎の
占有率 Rmを求める。
【0028】
【数5】
【0029】ただし、mはカテゴリー数である。また、
ここでは音韻グループごとに占有率を求めたが、各音韻
毎に占有率を求めてもよい。この占有率 Rmをファジィ
推論の入力変数とし、出力変数を音声性Sとすると、フ
ァジィ推論の推論ルールは次の(数6)のように表され
る。
ここでは音韻グループごとに占有率を求めたが、各音韻
毎に占有率を求めてもよい。この占有率 Rmをファジィ
推論の入力変数とし、出力変数を音声性Sとすると、フ
ァジィ推論の推論ルールは次の(数6)のように表され
る。
【0030】
【数6】
【0031】ここで、jはルール番号、Ajmはメンバー
シップ関数、 fjは実数値である。入力データ
(R1、..、Rm)が入力されると、(数6)から(数
7)の結論が得られる。
シップ関数、 fjは実数値である。入力データ
(R1、..、Rm)が入力されると、(数6)から(数
7)の結論が得られる。
【0032】
【数7】
【0033】ただし、∧はmin演算である。μj は、
各推論ルールとの適合度を示す。(数6)の推論ルール
は複数個あるので、(数7)の結果を総合した最終推論
結果は(数8)のようになる。
各推論ルールとの適合度を示す。(数6)の推論ルール
は複数個あるので、(数7)の結果を総合した最終推論
結果は(数8)のようになる。
【0034】
【数8】
【0035】この最終出力Sは、音声候補区間がどの程
度音声性を持つかを表している。ここで、(数6)の推
論ルールの1例を示す。音韻グループ数2(母音グルー
プおよび摩擦音グループ)であるから、m=2となる。
図2は母音グループのメンバーシップ関数A11〜A41を
表し、図3は摩擦音グループのメンバーシップ関数A12
〜A42を表している。また、(表1)は図2および図3
のメンバーシップ関数を用いた時のルールをテーブルで
表しており、ルールテーブルの内部は各規則の後件部の
実数値を示している。
度音声性を持つかを表している。ここで、(数6)の推
論ルールの1例を示す。音韻グループ数2(母音グルー
プおよび摩擦音グループ)であるから、m=2となる。
図2は母音グループのメンバーシップ関数A11〜A41を
表し、図3は摩擦音グループのメンバーシップ関数A12
〜A42を表している。また、(表1)は図2および図3
のメンバーシップ関数を用いた時のルールをテーブルで
表しており、ルールテーブルの内部は各規則の後件部の
実数値を示している。
【0036】
【表1】
【0037】このようにして音声候補区間がどの程度音
声性を持つかが表現でき、これを全ての音声候補区間に
ついて行い、最終的な音声か否かの判定、すなわち最終
出力Sがある閾値より大きければ音声、閾値より小さけ
れば非音声などと言った音声の検出が行われる。
声性を持つかが表現でき、これを全ての音声候補区間に
ついて行い、最終的な音声か否かの判定、すなわち最終
出力Sがある閾値より大きければ音声、閾値より小さけ
れば非音声などと言った音声の検出が行われる。
【0038】以上のように本発明の実施例の音声検出装
置によれば、入力信号から一定時間毎に音声中の音韻性
を特徴付ける特徴量を抽出する特徴抽出部11と、あら
かじめ多数の学習用音声データについて前記特徴抽出部
で抽出した特徴量を用いて各音韻毎の平均値と共分散行
列を算出し、音韻毎の標準モデルを作成する音韻標準モ
デル作成部12と、入力信号からフレーム単位に前記特
徴抽出部で抽出した複数の特徴量と前記音韻標準モデル
作成部にて作成した各音韻毎の標準モデルとの対数尤度
を計算する類似度計算部13と、音韻検出しようとする
フレームとその前後数フレームにおいて前記類似度計算
部にて計算された対数尤度を用いて各音韻毎にフレーム
平均対数尤度を計算し、ある適当な閾値と比較すること
でどの音韻かを判定する音韻判定部14と、パワーの一
定レベル以上の入力信号の塊について前記音韻判定部に
より、いずれかの音韻と判定されたフレームの存在比率
に基づき、ファジィ推論によりその区間が音声かそれ以
外の音であるかを判定する最終判定部15とを備えたも
のであり、比較的簡単な構成で様々な雑音下での音声を
正確に検出することができる音声検出装置を提供するこ
とができる。
置によれば、入力信号から一定時間毎に音声中の音韻性
を特徴付ける特徴量を抽出する特徴抽出部11と、あら
かじめ多数の学習用音声データについて前記特徴抽出部
で抽出した特徴量を用いて各音韻毎の平均値と共分散行
列を算出し、音韻毎の標準モデルを作成する音韻標準モ
デル作成部12と、入力信号からフレーム単位に前記特
徴抽出部で抽出した複数の特徴量と前記音韻標準モデル
作成部にて作成した各音韻毎の標準モデルとの対数尤度
を計算する類似度計算部13と、音韻検出しようとする
フレームとその前後数フレームにおいて前記類似度計算
部にて計算された対数尤度を用いて各音韻毎にフレーム
平均対数尤度を計算し、ある適当な閾値と比較すること
でどの音韻かを判定する音韻判定部14と、パワーの一
定レベル以上の入力信号の塊について前記音韻判定部に
より、いずれかの音韻と判定されたフレームの存在比率
に基づき、ファジィ推論によりその区間が音声かそれ以
外の音であるかを判定する最終判定部15とを備えたも
のであり、比較的簡単な構成で様々な雑音下での音声を
正確に検出することができる音声検出装置を提供するこ
とができる。
【0039】
【発明の効果】以上の実施例から明らかなように本発明
によれば、音声を特徴付ける複数の特徴量を抽出し、多
数の学習用音声データを用いて各音韻毎の標準モデルを
作成しておき、入力信号から得られた複数の特徴量と各
音韻標準モデルとの対数尤度を計算し、数フレーム分を
一括して音韻性の検出を行い、その結果をもとに音韻と
判定されたフレームの存在比率から、ファジィ推論によ
りその区間が音声かそれ以外の音であるかを最終判定
し、音声の検出を行うように構成しているので、比較的
簡単な構成で入力信号が音声かそれ以外かを正確に判定
することができる音声検出装置を提供することができ
る。
によれば、音声を特徴付ける複数の特徴量を抽出し、多
数の学習用音声データを用いて各音韻毎の標準モデルを
作成しておき、入力信号から得られた複数の特徴量と各
音韻標準モデルとの対数尤度を計算し、数フレーム分を
一括して音韻性の検出を行い、その結果をもとに音韻と
判定されたフレームの存在比率から、ファジィ推論によ
りその区間が音声かそれ以外の音であるかを最終判定
し、音声の検出を行うように構成しているので、比較的
簡単な構成で入力信号が音声かそれ以外かを正確に判定
することができる音声検出装置を提供することができ
る。
【図1】本発明の一実施例の音声検出装置の全体構成を
示すブロック図
示すブロック図
【図2】母音グループのメンバーシップ関数A11〜A41
を表す図
を表す図
【図3】摩擦音グループのメンバーシップ関数A12〜A
42を表す図
42を表す図
【符号の説明】 11 特徴抽出部 11a パワー算出部 11b 自己相関係数算出部 11c ケプストラム係数算出部 12 音韻標準モデル作成部 13 類似度計算部 14 音韻判定部 15 最終判定部
Claims (5)
- 【請求項1】入力信号から一定時間毎に、音声中の音韻
性を特徴付ける特徴量を抽出し、前記特徴量により音声
中の音韻性を検出し、その存在比率により音声とそれ以
外とを判別して音声のみを検出することを特徴とする音
声検出方法。 - 【請求項2】音声を特徴付ける音声中の音韻性として、
音韻が母音であることを特徴とする請求項1記載の音声
検出方法。 - 【請求項3】音声を特徴付ける音声中の音韻性として、
音韻が子音であることを特徴とする請求項1記載の音声
検出方法。 - 【請求項4】入力信号から一定時間毎に音声中の音韻性
を特徴付ける特徴量を抽出する特徴抽出部と、あらかじ
め多数の学習用音声データについて前記特徴抽出部で抽
出した特徴量を用いて音韻毎の平均値と共分散行列を算
出し、音韻毎の標準モデルを作成する音韻標準モデル作
成部と、入力信号からフレーム単位に前記特徴抽出部で
抽出した特徴量について、前記音韻標準モデル作成部に
て作成した各音韻毎の標準モデルとの統計的距離を計算
する類似度計算部と、音韻検出しようとするフレームと
その前後数フレームにおいて前記類似度計算部にて計算
された距離値を用いて各音韻毎にフレーム平均距離を計
算し、ある適当な閾値とを比較することによりどの音韻
かを判定する音韻判定部と、パワーの一定レベル以上の
入力信号の塊について前記音韻判定部により、いずれか
の音韻と判定されたフレームの個数の割合がある適当な
閾値以上のときにその塊を音声と判定する最終判定部と
を備えたことを特徴とする音声検出装置。 - 【請求項5】最終判定部は、何れかの音韻と判定された
フレームの存在比率に基づき、ファジィ推論により音声
とそれ以外の音の判定を行うことを特徴とする請求項4
記載の音声検出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4261164A JP2797861B2 (ja) | 1992-09-30 | 1992-09-30 | 音声検出方法および音声検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4261164A JP2797861B2 (ja) | 1992-09-30 | 1992-09-30 | 音声検出方法および音声検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06110488A true JPH06110488A (ja) | 1994-04-22 |
JP2797861B2 JP2797861B2 (ja) | 1998-09-17 |
Family
ID=17358010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4261164A Expired - Fee Related JP2797861B2 (ja) | 1992-09-30 | 1992-09-30 | 音声検出方法および音声検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2797861B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005241717A (ja) * | 2004-02-24 | 2005-09-08 | Kawai Musical Instr Mfg Co Ltd | 自然楽器の楽音判定装置におけるモデル作成装置およびモデル作成用プログラム |
WO2008007616A1 (fr) * | 2006-07-13 | 2008-01-17 | Nec Corporation | Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible |
JP2009020460A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
JP2010515085A (ja) * | 2006-12-27 | 2010-05-06 | インテル・コーポレーション | 音声セグメンテーションの方法および装置 |
JP2012198289A (ja) * | 2011-03-18 | 2012-10-18 | Fujitsu Ltd | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
US9536525B2 (en) | 2014-09-09 | 2017-01-03 | Fujitsu Limited | Speaker indexing device and speaker indexing method |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3526911B2 (ja) | 1993-04-20 | 2004-05-17 | クラリオン株式会社 | 音声認識装置及び音声認識方法 |
CN102222499B (zh) * | 2005-10-20 | 2012-11-07 | 日本电气株式会社 | 声音判别系统、声音判别方法以及声音判别用程序 |
-
1992
- 1992-09-30 JP JP4261164A patent/JP2797861B2/ja not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005241717A (ja) * | 2004-02-24 | 2005-09-08 | Kawai Musical Instr Mfg Co Ltd | 自然楽器の楽音判定装置におけるモデル作成装置およびモデル作成用プログラム |
WO2008007616A1 (fr) * | 2006-07-13 | 2008-01-17 | Nec Corporation | Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible |
JP2010515085A (ja) * | 2006-12-27 | 2010-05-06 | インテル・コーポレーション | 音声セグメンテーションの方法および装置 |
JP2009020460A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
JP2012198289A (ja) * | 2011-03-18 | 2012-10-18 | Fujitsu Ltd | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
US9536525B2 (en) | 2014-09-09 | 2017-01-03 | Fujitsu Limited | Speaker indexing device and speaker indexing method |
Also Published As
Publication number | Publication date |
---|---|
JP2797861B2 (ja) | 1998-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0625774B1 (en) | A method and an apparatus for speech detection | |
Ibrahim | Preprocessing technique in automatic speech recognition for human computer interaction: an overview | |
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
JPH0990974A (ja) | 信号処理方法 | |
EP2083417B1 (en) | Sound processing device and program | |
US20150066500A1 (en) | Speech processing device, speech processing method, and speech processing program | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
Kola et al. | Voice activity detection | |
JP2007017620A (ja) | 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体 | |
JP2012048119A (ja) | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
KR20210000802A (ko) | 인공지능 음성 인식 처리 방법 및 시스템 | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
Varela et al. | Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector | |
KR102418256B1 (ko) | 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법 | |
Hassan et al. | A method for voiced/unvoiced classification of Noisy speech by analyzing time-domain features of spectrogram image | |
Sudhakar et al. | Automatic speech segmentation to improve speech synthesis performance | |
JP5157474B2 (ja) | 音処理装置およびプログラム | |
JP2006010739A (ja) | 音声認識装置 | |
JPH05173592A (ja) | 音声/非音声判別方法および判別装置 | |
KR20150092587A (ko) | 연속된 짧은 펄스로 구성된 소리를 인식하는 방법 | |
Joseph et al. | Indian accent detection using dynamic time warping | |
Zheng et al. | A robust keyword detection system for criminal scene analysis | |
JP5157475B2 (ja) | 音処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |