JP2009210836A - 音声検出方法、音声検出装置および音声検出プログラム - Google Patents

音声検出方法、音声検出装置および音声検出プログラム Download PDF

Info

Publication number
JP2009210836A
JP2009210836A JP2008054109A JP2008054109A JP2009210836A JP 2009210836 A JP2009210836 A JP 2009210836A JP 2008054109 A JP2008054109 A JP 2008054109A JP 2008054109 A JP2008054109 A JP 2008054109A JP 2009210836 A JP2009210836 A JP 2009210836A
Authority
JP
Japan
Prior art keywords
autocorrelation
acoustic signal
voice
unit
continuity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008054109A
Other languages
English (en)
Other versions
JP5012579B2 (ja
Inventor
Mutsumi Saito
睦巳 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008054109A priority Critical patent/JP5012579B2/ja
Publication of JP2009210836A publication Critical patent/JP2009210836A/ja
Application granted granted Critical
Publication of JP5012579B2 publication Critical patent/JP5012579B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声よりも大きな騒音下においても、適切に音声を検出することを課題とする。
【解決手段】音響信号の入力を受け付けると、入力された当該音響信号と所定の時間間隔でずらした当該音響信号との相関の度合いを示す自己相関値を、複数の時間間隔各々に関して算出し、算出した自己相関値各々が、複数の時間間隔において極大値をとる場合に、当該極大値をとる場合の時間間隔でずらした各々の中から、全てもしくはいずれか複数の時間間隔でずらした音響信号各々を、音響信号の基本周期の候補である基本周期候補各々として選択し、選択した複数の基本周期候補各々の連続性を解析し、解析した連続性が所定の閾値以下の場合に、音声信号が含まれているか否かを検出する。
【選択図】 図1

Description

この発明は、音声検出方法、音声検出装置および音声検出プログラムに関する。
従来より、音声認識の分野においては、音声を検出する技術が盛んに研究開発されている。例えば、特許文献1は、音声信号のスペクトルが調波構造(一定の周波数間隔で複数の成分が存在する構造)を示すことに着目し、雑音下において調波構造を検出することで、音声を検出する手法を開示している。
また、例えば、特許文献2は、入力された音響信号のスペクトルについて、単位時間あたりの変化量を求め、求めた変化量が一般的な音声区間の変化量と一致するか否かを判定することで、音声を検出する手法を開示している。
特許第3744934号公報 特開平9−90974号公報
ところで、上記した従来の技術では、騒音下において適切に音声を検出することができないという課題があった。例えば、特許文献1が開示する手法は、雑音下において調波構造を検出することで音声を検出する手法であるが、調波構造を検出することができるのは、雑音の大きさが音声よりも小さい場合に限られる。このため、特許文献1が開示する手法では、調波構造を検出することができないような騒音下(例えば、SN比が−10dB、−20dBなど)において音声を正しく検出することができない。なお、特許文献2が開示する手法も、騒音下において適切に音声を検出するものではない。
そこで、この発明は、上記した従来技術の課題を解決するためになされたものであり、音声よりも大きな騒音下においても、適切に音声を検出することが可能な音声検出方法、音声検出装置および音声検出プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、開示の音声検出方法は、自己相関算出部と選択部と連続性解析部と音声検出部とを備えたコンピュータが、音響信号に音声信号が含まれているか否かを検出する音声検出方法であって、前記自己相関算出部が、音響信号の入力を受け付けると、入力された当該音響信号と所定の時間間隔でずらした当該音響信号との相関の度合いを示す自己相関値を、複数の時間間隔各々に関して算出する自己相関算出工程と、前記選択部が、前記自己相関算出工程によって算出された自己相関値各々が、複数の時間間隔において極大値をとる場合に、当該極大値をとる場合の時間間隔でずらした各々の中から、全てもしくはいずれか複数の時間間隔でずらした音響信号各々を、前記音響信号の基本周期の候補である基本周期候補各々として選択する選択工程と、前記連続性解析部が、前記選択工程によって選択された複数の基本周期候補各々の連続性を解析する連続性解析工程と、前記音声検出部が、前記連続性解析工程によって解析された連続性が所定の閾値以下の場合に、音声信号が含まれているか否かを検出する音声検出工程と、を有することを要件とする。
開示の音声検出方法、音声検出装置および音声検出プログラムによれば、音響信号の入力を受け付けると、入力された当該音響信号と所定の時間間隔でずらした当該音響信号との相関の度合いを示す自己相関値を、複数の時間間隔各々に関して算出し、算出した自己相関値各々が、複数の時間間隔において極大値をとる場合に、当該極大値をとる場合の時間間隔でずらした各々の中から、全てもしくはいずれか複数の時間間隔でずらした音響信号各々を、音響信号の基本周期の候補である基本周期候補各々として選択し、選択した複数の基本周期候補各々の連続性を解析し、解析した連続性が所定の閾値以下の場合に、音声信号が含まれているか否かを検出するので、騒音下においても、適切に音声を検出することが可能になる。
以下に添付図面を参照して、この発明に係る音声検出方法、音声検出装置および音声検出プログラムの実施例を詳細に説明する。なお、以下では、実施例1に係る音声検出装置の概要および特徴、実施例1に係る音声検出装置の構成、実施例1に係る音声検出装置による処理の手順、実施例1の効果を順に説明し、続いて、他の実施例について説明する。
[実施例1に係る音声検出装置の概要および特徴]
まず、図1を用いて、実施例1に係る音声検出装置の概要および特徴を説明する。図1は、実施例1に係る音声検出装置の概要および特徴を説明するための図である。
実施例1に係る音声検出装置は、音響信号に音声信号が含まれるか否かを検出することを概要とし、騒音下において適切に音声が含まれているかを検出することを主たる特徴とする。
この主たる特徴について簡単に説明する。実施例1に係る音声検出装置は、音響信号の入力を受け付けると(図1の(S1)を参照)、入力された音響信号について、短時間の音響信号ごとに自己相関値を算出する(図1の(S2)を参照)。具体的には、音声検出装置は、入力された音響信号と所定のラグ(時間間隔のずれ)を生じさせた当該音響信号との相関の度合いを示す自己相関値を、フレーム単位の音響信号ごとに複数のラグ各々に関して算出する(図1の(S2)を参照)。例えば、音声検出装置は、自己相関演算処理を行うことで、自己相関値を算出する。
続いて、音声検出装置は、自己相関値各々が複数のラグにおいて極大値をとる場合に、当該極大値をとる場合のラグ各々の中から、全てもしくはいずれか複数のラグ各々を、音響信号の基本周期候補各々として選択する(図1の(S3)を参照)。例えば、図1の例示において、音声検出装置は、3つのラグを基本周期候補各々として選択する。
そして、音声検出装置は、選択した複数の基本周期候補各々を、入力された音響信号の時間的な変化とともに観測(ある程度の継続時間にわたって観測)し、どのような軌跡を辿るかを観測することで、連続的に推移するか否かを解析する(図1の(S4)を参照)。例えば、図1の例示において、音声検出装置は、20フレームにわたって3つの基本周期候補各々を蓄積し、蓄積した基本周期候補各々を観測し、連続的に推移するか否かを解析する。
次に、実施例1に係る音声検出装置は、解析された結果に基づいて、入力された音響信号に音声が存在するか否かを検出する(図1の(S5)を参照)。例えば、図1の例示において、音声検出装置は、基本周期候補(C1)が連続的に推移していると解析された結果(軌跡の連続性を評価した値を閾値と比較するなどして解析された結果)に基づいて、入力された音響信号に音声信号が含まれていると検出する。
このように、実施例1に係る音声検出装置は、まず、音声の母音空間がある周期をもった周期波形であり、その周期が音声区間では連続的に変動しているという特性に着目している。また、実施例1に係る音声検出装置は、相関値が最大となるラグを基本周期として選択してその時間変化を観測する一般的な手法とは異なり、複数のラグを基本周期候補として選択して基本周期候補各々の時間変化を観測する。この結果、実施例1に係る音声検出装置は、本来音声の基本周期ではないラグが基本周期として判断されてしまうおそれや、音声の基本周期が見落とされるおそれを回避することができるので、騒音下において適切に音声を検出することが可能になるのである。
[実施例1に係る音声検出装置の構成]
次に、図2〜図14を用いて、実施例1に係る音声検出装置の構成を説明する。図2は、実施例1に係る音声検出装置の構成を示すブロック図であり、図3は、自己相関の算出について説明するための図であり、図4は、自己相関の算出(雑音がある場合とない場合との比較)について説明するための図であり、図5は、自己相関が最大となる周期の時間変化について説明するための図であり、図6は、自己相関の平滑化について説明するための図であり、図7は、自己相関が極大となるラグの検出について説明するための図であり、図8は、基本周期候補の蓄積について説明するための図であり、図9は、基本周期の推移について説明するための図であり、図10は、連続する基本周期候補の解析方法について説明するための図であり、図11は、連続する基本周期候補の解析例(c1から始まる場合)について説明するための図であり、図12は、連続する基本周期候補の解析例について説明するための図であり、図13および図14は、連続性の算出方法について説明するための図である。
実施例1に係る音声検出装置10は、図2に示すように、入力部11と、出力部12と、入出力制御I/F部13と、記憶部20と、制御部30とを備える。
入力部11は、制御部30による各種処理に利用される音響信号や、各種処理を実行する操作指示などを入力する。例えば、入力部11は、マイクによって音響信号を入力する。なお、入力部11によって入力された音響信号は、後述するA/D変換部31などによる処理に利用される。また、例えば、入力部11は、キーボードやマウスによって操作指示を入力する。
出力部12は、制御部30による各種処理の結果や、各種処理をするための操作指示などを出力する。例えば、出力部12は、スピーカやディスプレイによって各種処理の結果を出力する。
入出力制御I/F部13は、入力部11と、出力部12と、記憶部20と、制御部30との間におけるデータ転送を制御する。
記憶部20は、制御部30による各種処理に用いるデータを記憶し、特に本発明に密接に関連するものとしては、図2に示すように、音響信号波形サンプル記憶部21と、判定結果記憶部22とを備える。
音響信号波形サンプル記憶部21は、音響信号波形サンプルを記憶する。具体的には、音響信号波形サンプル記憶部21は、後述するA/D変換部31によってディジタル信号に変換された音響信号波形サンプルを記憶する。音響信号波形サンプル記憶部21によって記憶されている音響信号波形サンプルは、後述する自己相関演算部32などによる処理に利用される。また、音響信号波形サンプル記憶部21は、後述する基本周期候補選択部35によって選択された基本周期候補各々を記憶する。音響信号波形サンプル記憶部21によって記憶されている基本周期各々は、後述する連続性解析部36による処理に利用される。
判定結果記憶部22は、判定結果を記憶する。具体的には、判定結果記憶部22は、後述する連続性判定部37によって判定された判定結果を記憶する。なお、判定結果記憶部22によって記憶されている判定結果は、出力部12に出力されるなどする。
制御部30は、音声検出装置10を制御して各種処理を実行し、特に本発明に密接に関連するものとしては、図2に示すように、A/D変換部31と、自己相関演算部32と、自己相関平滑化部33と、自己相関極大値算出部34と、基本周期候補選択部35と、連続性解析部36と、連続性判定部37とを備える。また、制御部30は、後述する数式を用いて各種処理を実行する。
A/D変換部31は、音声検出装置10に入力された音響信号波形サンプルを、アナログ信号からディジタル信号へと変換する。具体的には、A/D変換部31は、入力部11によって入力された音響信号波形サンプルを、アナログ信号からディジタル信号へと変換し、変換した音響信号波形サンプルを音響信号波形サンプル記憶部21に格納する。
自己相関演算部32は、音響信号波形サンプルの自己相関値を算出する。具体的には、自己相関演算部32は、音響信号波形サンプル記憶部21に記憶されている音響信号波形サンプル(A/D変換部31によってディジタル信号へと変換されたもの)の自己相関値を算出し、算出した自己相関値を自己相関平滑化部33に伝達する。
ここで、まず、自己相関値の算出について説明する。自己相関値とは、波形サンプルに対して所定の演算を行うことで、自己の波形を時間軸上で少しずつずらした場合の相関値を算出したものである。例えば、図3の左図(『時間波形』)は、フレーム単位(例えば、10msなど)の波形サンプルを示すものである(なお、図3においては、説明の便宜上からアナログ信号で表現されている)。このような波形サンプルに対して自己相関演算を行うと、算出された相関値は、例えば、図3の右図(『自己相関関数』)に示すように、横軸にラグ、縦軸に相関値をとるグラフとして表現される。この時、図3の右図に示すように、相関値を算出した結果としてローカルピークが立つことがあるが、あるラグについてローカルピークが立つということは、あるラグについて相関値が高いということを意味する。これを言い換えると、波形サンプルに対してあるサンプル数だけ時間間隔のずれを生じさせた結果の相関値が高いということは、波形サンプルの基本周期が、当該サンプル数の値であると考え得ることを意味する。
具体的に数式を例示して説明すると、自己相関演算部32は、以下に示す(1)式で示される数式を利用して、自己相関値c(τ)を算出する。ここで、τとは、所定の時間間隔のずれを示すラグ(サンプル数)であり、Tとは、蓄積された波形サンプルの長さ(分析フレームの長さ)である。また、x(t)とは、時刻tの波形サンプルの振幅値である。
Figure 2009210836
なお、実施例1においては、自己相関演算部32が、自己相関関数を用いて自己相関値を算出する手法を説明するが、本発明はこれに限られるものではない。AMDF(Average Magnitude Difference Function)法を用いて演算することで自己相関値を算出する手法でもよい。また、ケプストラム演算(対数スペクトルの逆フーリエ変換)を用いて演算することで、演算の結果得られるケプストラム値を自己相関値として算出する手法でもよい。
ところで、音声を対象とした基本周期の解析を行う場合、一般的に、基本周波数が、100Hz〜500Hz程度の範囲について調査すればよい。したがって、例えば、音響信号波形サンプルを8000Hzでサンプリングした場合、ラグτは、16(8000Hz/500Hz)〜80(8000Hz/100Hz)サンプルの範囲を探索すればよい。
また、波形サンプルを蓄積する長さTは、一般的に、探索範囲の最大値の2〜4倍が適している。したがって、τが16〜80サンプルである場合、Tを探索範囲の最大値の4倍とすると、波形サンプルを蓄積する長さTは、320サンプルとなる。
また、自己相関値を算出する時間間隔(フレーム単位)は、一般的に、10〜20msがよい。例えば、時間間隔が10msである場合、自己相関演算部32は、音響信号波形サンプル記憶部21に記憶されている音響信号波形サンプルについて、80サンプルごとに自己相関値を算出する。分析フレームの長さTが320サンプルの場合、自己相関演算部32は、自己相関値を算出する度に、新しい80サンプルを音響信号波形サンプル記憶部21から入力し、古い80サンプルを廃棄する。
ところで、自己相関値を算出した結果は、横軸にラグ、縦軸に相関値をとるグラフとして表現される点は上記した通りであるが、音響信号が音声のみの場合と、音声に雑音が重畳した場合とでは、一般的に、図4に示すような違いが現れる。すなわち、図4の(a)に示すように、音響信号が音声のみの場合(雑音が全く無いクリアな音声の場合)には、音声の基本周期に相当するラグに、明確なピークが観測されるはずである。一方、図4の(b)に示すように、音声に雑音が重畳した場合には、明確なピークを観測することができない(雑音の影響によるピークも観測されてしまう)。
すると、相関値が最大となるラグを基本周期として選択してその時間変化を観測する一般的な手法によると、例えば、図5に示すような違いが現れる。すなわち、図5の(a)に示すように、音響信号が音声のみの場合には、連続的な変化が観測されるが、図5の(b)に示すように、音声に雑音が重畳した場合には、連続的な変化は観測されず、不連続な値として観測される。これは、音響信号が音声のみの場合には、音声の基本周期に相当するラグに明確なピークが観測されるので、そのようなピークとなるラグを基本周期として時間変化を観測すれば、音声の基本周期の特性である連続的な変化が観測される。一方、音声に雑音が重畳した場合には(例えば、音声に対して雑音が大きなレベルで重畳した場合などには)、本来音声の基本周期ではないラグが基本周期として判断されてしまう結果、不連続な値として観測されるのである。
言い換えると、音声に雑音が重畳する場合、一般的な手法では、相関値が最大となるラグを基本周期として選択する結果、本来音声の基本周期ではないラグが基本周期として判断され、音声の基本周期が見落とされるおそれがある。このようなことから、実施例1に係る音声検出装置10は、以下に説明するように、相関値が最大となるラグのみならず、他の極大値をも基本周期候補として選択する手法をとるものである。
図2に戻り、自己相関平滑化部33は、自己相関値系列を平滑化する。具体的には、自己相関平滑化部33は、自己相関演算部32によって算出された自己相関値系列を平滑化し、平滑化した自己相関値系列を自己相関極大値算出部34に伝達する。
具体的に数式を例示して説明すると、自己相関平滑化部33は、以下に示す(2)式で示される数式を利用して、自己相関値系列ac(τ)を平滑化し、平滑化した自己相関値系列acs(τ)を取得する。ここで、(2)式で示される数式は、隣接する4つの自己相関値の加算平均を演算することで、自己相関値系列を平滑化するものである。なお、自己相関値系列を平滑化する手法はこれに限られるものではなく、加算平均を採る個数を変更したり、各自己相関値に重みをつけるなど、他の手法によって平滑化する手法でもよい。
Figure 2009210836
こうして、自己相関平滑化部33は、図6の(a)に示すような自己相関値系列を、図6の(b)に示すような自己相関値系列に平滑化する。
自己相関極大値算出部34は、自己相関値の極大値を算出する。具体的には、自己相関極大値算出部34は、自己相関平滑化部33によって平滑化された自己相関値系列について極大値を算出し、算出した極大値を基本周期候補選択部35に伝達する。
具体的に数式を例示して説明すると、自己相関極大値算出部34は、以下に示す(3)式で示される数式を利用して、自己相関値系列について極大値を算出する。すなわち、(3)式で示される条件式を満たす場合に、ラグτは、極大値をとると判断する。なお、極大値を算出する手法はこれに限られるものではなく、以下に示す(4)式で示される条件式を満たす場合に極大値をとると判断するなど、他の手法によって極大値を算出する手法でもよい。
Figure 2009210836
Figure 2009210836
こうして、自己相関極大値算出部34は、図7の(a)に示すような自己相関値系列について、図7の(b)に示すように、極大値を検出する。
基本周期候補選択部35は、基本周期の候補を選択する。具体的には、基本周期候補選択部35は、自己相関極大値算出部34によって算出された極大値から基本周期候補を選択し、選択した基本周期候補を音響信号波形サンプル記憶部21に格納する。
例えば、基本周期候補選択部35は、自己相関極大値算出部34によって算出された極大値から相関値の大きい順にN個を選択し、選択したN個の相関値に対応するN個のラグτの値を基本周期候補とする。なお、Nの値をあまり大きくし過ぎると、雑音を音声として誤検出する確率が高くなるおそれがあるので、一般的には、Nの値は3程度にするのがよい。Nの値が3の時、選択された基本周期候補を、相関値の大きい順に、c1、c2、c3とする。
連続性解析部36は、基本周期の候補について、連続性を解析する。具体的には、連続性解析部36は、基本周期候補選択部35によって選択された基本周期の候補について、時間変化を観測し、連続的な変化が観測されるか否かを解析し、解析結果を連続性判定部37に伝達する。
例えば、連続性解析部36は、まず、図8に示すように、選択された基本周期候補(c1、c2、c3)について、ある区間(Mフレーム)にわたって蓄積する。一般的に、音声の中で明確な周期性を有するものは母音であるが、ひとつの母音の継続時間は、100〜200ms程度と考えられる。このため、例えば、フレーム単位が10msであれば、Mの値は10〜20フレーム程度に設定するのが適切である。
ここで、例えば、図9のラインに示すように、基本周期候補について、連続的な変化が観測される場合には、当該区間が音声の存在する区間(音声区間)であることがわかる。すなわち、音声を検出することができるのである。そこで、連続性解析部36は、続いて、図10に示すように、基本周期候補(c1、c2、c3)の連続性を解析する。例えば、連続性解析部36は、あるフレームについて基本周期候補が選択されている場合に、当該フレームについて基本周期候補を1つだけ選択し、次のフレームについて選択されている基本周期候補の内、1つだけ選択された基本周期候補に近いものを選択する。例えば、連続性解析部36は、図11に示すように、c1(t−1)を基本周期候補として選択すると、選択したc1(t−1)と、次のフレームについて選択されている基本周期候補各々との差を比較する。
具体的に数式を例示して説明すると、連続性解析部36は、以下に示す(5)式で示される数式を利用して、選択したc1(t−1)と、次のフレームについて選択されている基本周期候補各々との差分の絶対値(Δc1、Δc2、Δc3)を比較する。そして、連続性解析部36は、Δc1、Δc2、Δc3の内、最小となるものを選択する。例えば、Δc1が最小である場合、次のフレームについて、c1が基本周期候補であると判定する。
Figure 2009210836
なお、連続する基本周期候補を選択する手法はこれに限られるものではなく、差分の二乗和を利用するなど、他の手法によって基本周期候補を選択する手法でもよい。また、以下に示す(6)式で示される数式のように、基本周期候補について、重み付けを行ってもよく、さらに、差分の二乗和を利用してもよい。ここで、重み付けの値は、例えば、基本周期候補各々の相関値から算出することができる。例えば、フレームtでの相関値の最大値がacsmaxである場合、重み付けw1(t)は、以下に示す(7)式で求めることができる。
Figure 2009210836
Figure 2009210836
連続性解析部36は、連続する基本周期候補の選択を、指定されたフレーム数だけ繰り返す。ここで、図12に示すように、最初のフレームについて、c1〜c3各々の内のいずれを選択するかによって、続くフレームについて選択される基本周期候補は変化する。このため、連続性解析部36は、最初のフレームについて、c1〜c3を選択した場合各々について、続くフレームについて基本周期候補を選択する(連続性判定部37が、最も連続性の評価値が高いものを選択することとする)。なお、連続する基本周期候補を選択する手法はこれに限られるものではなく、動的計画法など、他の解析アルゴリズムを利用してもよい。
連続性判定部37は、基本周期の候補について、連続性を判定する。具体的には、連続性判定部37は、連続性解析部36によって解析された基本周期候補の連続性について判定し、当該音響信号波形サンプルに音声信号が含まれるか否かを判定し、判定した判定結果を判定結果記憶部22に格納する。
具体的に数式を例示して説明すると、連続性判定部37は、以下に示す(8)式で示される数式を利用して、前のフレームについての基本周期候補と当該フレームについての基本周期候補との差分の絶対値和を算出する(図13を参照)。そして、連続性判定部37は、以下に示す(9)式で示される数式を利用して、算出された絶対値和が閾値よりも小さい場合には、音声であると判定する。ここで、THR1は、雑音の大きさや検出に求められる精度によって調整するものであるが、例えば、サンプリング周波数が8000Hzで、基本周期の探索範囲が16〜80サンプルで、基本周期を蓄積するバッファの長さが20フレームの場合には、THR1を100程度に設定するのがよい。なお、連続性を判定する際の手法は、絶対値和を算出する手法に限られるものではなく、差分の二乗和を算出する手法など、他の手法によってもよい。
Figure 2009210836
Figure 2009210836
また、連続性を判定する際の手法は、多項式補間を利用する手法でもよい(図14を参照)。すなわち、例えば、連続性判定部37は、3次関数で補間された第t番目のフレームでの周期をq(t)とし、以下に示す(10)式で示される数式を設定する。そして、連続性判定部37は、選択されたパスに最も適合するように、係数a〜dの値を調整する。最適な係数a〜dの算出については、例えば、ラグランジュ補間やニュートン補間、スプライン補間などを利用することができる。
Figure 2009210836
また、連続性判定部37は、多項式近似との誤差の算出を、以下に示す(11)式で示される式を利用して行う。q(t)は、(10)式で示される3次関数によって算出される値であり、p(t)は、フレームtにおいて選択された基本周期の候補の値である。こうして、連続性判定部37は、以下に示す(12)式で示される条件式を満たす場合に、音声が存在していると判定する。THR2は、THR1と同様の値を設定すればよい。なお、多項式近似との誤算を算出する手法は、絶対値和を算出する手法に限られるものではなく、差分の二乗和を算出する手法など、他の手法によってもよい。
Figure 2009210836
Figure 2009210836
その後、実施例1における連続性判定部37は、(9)式や(12)式によって音声が存在していると判定した場合には、人の存在を検出したといった検出結果を、判定結果記憶部22に格納し、出力部12に出力する。なお、連続性判定部37は、判定結果記憶部22に格納した判定結果を出力部12に出力することなく、別途利用するなどしてもよい。
ところで、(9)式や(12)式は、2段階の判定基準を設けることで、明らかに人が存在する場合と人が存在するかもしれない場合とを判別することも可能である。例えば、(9)式において、人の存在の可能性が多少あるという場合の閾値をTHR1a、人の存在の可能性が非常に高い場合の閾値をTHR1bとした場合、条件式を以下に示す(13)式や(14)式とする。そして、例えば、THR1aを『100』程度に設定し、THR1bを『50』程度に設定する。すると、連続性判定部37は、(13)式を満たす場合と、(14)式を満たす場合とに分けて、異なる内容の情報(人の存在の可能性が多少あるという検出結果、人の存在の可能性が非常に高いという検出結果)を出力部12に出力することが可能になる。
Figure 2009210836
Figure 2009210836
[実施例1に係る音声検出装置による処理の手順]
続いて、図15を用いて、実施例1に係る音声検出装置による処理の手順を説明する。図15は、実施例1に係る音声検出装置による処理の手順を示すフローチャートである。
まず、実施例1に係る音声検出装置10は、A/D変換部31において、音響信号波形サンプルの入力を受け付けたか否かを判定する(ステップS101)。例えば、A/D変換部31は、音響信号波形サンプル記憶部21に、分析フレームの長さ分の音響信号波形サンプルが格納されたか否かを判定する。受け付けていないと判定した場合には(ステップS101否定)、A/D変換部31は、音響信号波形サンプルの入力を受け付けたか否かを判定する処理に戻る。
一方、受け付けたと判定した場合には(ステップS101肯定)、次に、A/D変換部31は、音響信号波形サンプルについて、アナログ信号からディジタル信号へと変換する(ステップS102)。
次に、音声検出装置10は、自己相関演算部32において、ディジタル信号に変換された音響信号波形サンプルを受け付けたか否かを判定する(ステップS103)。例えば、自己相関演算部32は、音響信号波形サンプル記憶部21に、分析フレームの長さ分の音響信号波形サンプル(ディジタル信号)が格納されたか否かを判定する。受け付けていないと判定した場合には(ステップS103否定)、自己相関演算部32は、音響信号波形サンプルを受け付けたか否かを判定する処理に戻る。
一方、受け付けたと判定した場合には(ステップS103肯定)、自己相関演算部32は、フレーム単位の音響信号波形サンプルについて、自己相関値を算出する(ステップS104)。
続いて、音声検出装置10において、自己相関平滑化部33は、フレーム単位の自己相関値系列を平滑化する(ステップS105)。
そして、音声検出装置10において、自己相関極大値算出部34は、自己相関値の極大値を算出する(ステップS106)。
次に、音声検出装置10において、基本周期候補選択部35は、基本周期候補を選択する(ステップS107)。例えば、基本周期候補選択部35は、自己相関極大値算出部34によって算出された極大値から相関値の大きい順にN個を選択し、選択したN個の相関値に対応するN個のラグτの値を基本周期候補とする。
続いて、音声検出装置10において、連続性解析部36は、基本周期候補をMフレームにわたって蓄積したか否かを判定する(ステップS108)。例えば、連続性解析部36は、音響信号波形サンプル記憶部21に、Mフレーム分の基本周期候補が蓄積されたか否かを判定する。蓄積していない場合には(ステップS108否定)、音声検出装置10は、自己相関演算部32において、音響信号波形サンプルを受け付けたか否かを判定する処理(ステップS103)に戻る。
一方、蓄積した場合には(ステップS108肯定)、音声検出装置10は、連続性解析部36において、基本周期候補について、連続性を解析する。具体的には、連続性解析部36は、基本周期候補選択部35によって選択された基本周期候補各々について、時間変化を観測し、連続的な変化が観測されるか否かを解析する。
そして、音声検出装置10は、連続性判定部37において、連続性を判定し(ステップS110)、音声を検出したと判定した場合には(ステップS111肯定)、人の存在を検出したといった検出結果を出力部12に出力することで通知するなどする(ステップS112)。一方、音声を検出していないと判定した場合には(ステップS111否定)、音声検出装置10は、処理を終了する。
[実施例1の効果]
上記してきたように、実施例1に係る音声検出装置によれば、相関値が最大となるラグを基本周期として選択してその時間変化を観測する一般的な手法とは異なり、複数のラグを基本周期候補として選択して基本周期候補各々の時間変化を観測する。この結果、実施例1に係る音声検出装置は、本来音声の基本周期ではないラグが基本周期として判断されてしまうおそれや、音声の基本周期が見落とされるおそれを回避することができるので、騒音下において適切に音声を検出することが可能になるのである。
言い換えると、実施例1に係る音声検出装置によれば、雑音が重畳したことによって音声の基本周期が正しく抽出されず、観測された基本周期の連続性が乱れている場合でも、連続性を回復することが可能となる。なお、雑音の場合は、周期がランダムであることが多いことから、上記してきた手法を用いても、連続的な周期が観測される確率は低い。結果として、実施例1に係る音声検出装置によれば、音声を誤検出する確率も低くなる。
こうして、実施例1に係る音声検出装置によれば、従来の手法では検出できないような、音声よりも雑音の方が大きいような高騒音環境下でも、音声の存在を検出することが可能になる。
さて、上記してきた実施例1に係る音声検出装置は、音声の母音空間がある周期をもった周期波形であり、その周期が音声区間では連続的に変動しているという特性に着目するものであった。ところで、実施例2に係る音声検出装置は、この他に、音声の母音空間が特徴的なパターンで変動していることにも着目するものである。
実施例2に係る音声検出装置の主たる特徴は、実施例1に係る音声検出装置において基本周期候補の時間的な変化を示す軌跡が取得された場合に、音声の標準的なパターンと取得された軌跡とをさらに比較することで、入力された音響信号に音声が存在するか否かを検出するものである。なお、実施例2に係る音声検出装置は、音声パターン記憶部に、音声の基本周期の時間的な変化を示す軌跡として標準的なパターンを予め記憶している。
かかる実施例2に係る音声検出装置は、実施例1に係る音声検出装置において得られる判定結果の正確さが十分でないときに有効である。図16は、基本周期の変化パターンの比較について説明するための図であり、図17は、実施例2に係る音声検出装置による処理の手順を示すフローチャートである。
まず、実施例2に係る音声検出装置は、(1)〜(14)の数式の他に、以下に示す数式を用いて処理を実行する。また、実施例2に係る音声検出装置は、図16に示すように、連続性の解析によって得られた基本周期候補の軌跡と、音声の標準的なパターン(変化パターン)とを比較する。
具体的に説明すると、実施例2に係る音声検出装置は、図11のようにして得られた基本周期候補の軌跡について、(10)式に示す3次関数での近似を行い、係数a、b、c、dを得る。また、音声検出装置は、予め、多数の音声データベースを用いて、音声の基本周期の標準的なパターンの3次関数近似を求め、それらの係数as(i)、bs(i)、cs(i)、ds(i)をデータベース化しておく(1≦i≦N Nはパターン数であり、任意の自然数)。
そして、音声検出装置は、以下に示す(15)式のように、差分diff3(i)を算出する。ここで、差分を算出する手法として、差分の絶対値和を算出する手法ではなく、差分の二乗和を算出する手法を用いてもよい。続いて、音声検出装置は、算出されたdiff3(i)(1≦i≦N)の中での最小値を算出して、diff3minとする。そして、音声検出装置は、以下に示す(16)式に示す条件式を満たすときに、音声が存在していると判定する。なお、THR3は、雑音の大きさや検出に求められる精度や、データベースとして用意した音声の基本周期の標準的なパターンによって調整し、設定される。
Figure 2009210836
Figure 2009210836
このような実施例2に係る音声検出装置は、図17に示すように、連続性を判定した後に(ステップS210)、音声の基本周期の標準的なパターンをさらに比較し(ステップS211)、その比較結果に基づいて音声を検出したか否かを判定する点が(ステップS212)、実施例1に係る音声検出装置と異なる点である。
ところで、上記してきた実施例1に係る音声検出装置や、実施例2に係る音声検出装置は、家庭あるいは企業におけるセキュリティ設備等において、人の存在を音声の検出によ
って判別する手法に適用することが可能である。
従来より、人が存在するか否かを検出するなど、ある場所の状態を確認することを目的として、監視カメラによる画像認識の技術が利用されている。もっとも、画像認識による確認は、カメラの視界という制限を受ける。また、画像(見た目)では異常が発見できないこともある。このように、ある場所の状態を確認する上で、画像認識だけでは不完全であることから、音響信号等を用いて補完することが望ましい。不審者がカメラに写っていなくても、不審者の発する音声を検出することができれば、監視機能を補完することができるからである。
しかしながら、一般的に、発声者と監視用マイクとの距離は遠く、また発声者が小声で発声している場合には、周囲の騒音に音声が埋もれてしまい、音声を検出することが非常に困難となる。このため、高騒音下でも音声の存在を検出する技術が必要となる。
実施例3に係る音声検出装置は、例えば、倉庫など、普段人の入らない場所や、夜間のオフィス、留守中の家庭など、本来人が存在しない場所で、不審者の存在を検出することを想定している。また、実施例3に係る音声検出装置は、監視対象の場所にマイクを設置して、入力される音響信号に音声が含まれているか否かを常に監視し、音声が含まれている場合には通知することを想定している。
そして、実施例1において説明した(9)式や(12)式によって音声を検出した場合に、実施例3に係る音声検出装置は、検出結果を、ネットワーク経由で監視センタに通知したり、警告ランプを点灯したりすることで、周囲に人の存在を通知する。これにより、不審者が侵入した場合に対応することができるのである。また、実施例3に係る音声検出装置は、実施例1において説明した(13)式を満たす場合には、注意を喚起するに留め、(14)式を満たす場合には、監視員が監視対象のエリアのチェックを行うことを促す、といった使い方も可能である。
[他の実施例]
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
上記の実施例において、音声検出装置は、音声の母音空間がある周期をもった周期波形であり、その周期が音声区間では連続的に変動しているという特性に着目するものであったが、本発明はこれに限られるものではない。例えば、子音空間にも母音空間と同様の特性を有するものがあるが、音声検出装置は、このような子音空間の特性に着目するものであってもよい。
[システム構成等]
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき(例えば、音響信号波形サンプルの入力を手動的に行うなど)、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順(図15、図17など)、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示(図2など)の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[コンピュータ]
また、上記の実施例で説明した各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図18を用いて、上記の実施例と同様の機能を有する音声検出プログラムを実行するコンピュータの一例を説明する。図18は、音声検出プログラムを実行するコンピュータを示す図である。
図18に示すように、音声検出プログラム(コンピュータ)40は、キャッシュ41、HDD(Hard Disk Drive)42、RAM(Random Access Memory)43、ROM(Read Only Memory)44およびCPU(Central Processing Unit)45をバス46で接続して構成される。ここで、ROM44には、上記の実施例と同様の機能を発揮する音声検出プログラム、つまり、図20に示すように、A/D変換プログラム44a、自己相関演算プログラム44b、自己相関平滑化プログラム44c、自己相関極大値算出プログラム44d、基本周期候補選択プログラム44e、連続性解析プログラム44f、連続性判定プログラム44gがあらかじめ記憶されている。また、RAM43には、音響信号波形サンプル43aおよび判定結果43bが記憶される。
そして、CPU45は、これらのプログラム44a〜44gを読み出して実行することで、図20に示すように、各プログラム44a〜44gは、A/D変換プロセス45a、自己相関演算プロセス45b、自己相関平滑化プロセス45c、自己相関極大値算出プロセス45d、基本周期候補選択プロセス45e、連続性解析プロセス45f、連続性判定プロセス45gとなる。なお、各プロセス45a〜45gは、図2に示したA/D変換部31、自己相関演算部32、自己相関平滑化部33、自己相関極大値算出部34、基本周期候補選択部35、連続性解析部36、連続性判定部37にそれぞれ対応する。
ところで、上記した各プログラム44a〜44gについては、必ずしもROM44に記憶させておく必要はなく、例えば、コンピュータ40に挿入されるフレキシブルディスク(FD)、CD−ROM、MOディスク、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータ40の内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ40に接続される「他のコンピュータ(またはサーバ)」に記憶させておき、コンピュータ40がこれらからプログラムを読み出して実行するようにしてもよい。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)自己相関算出部と選択部と連続性解析部と音声検出部とを備えたコンピュータが、音響信号に音声信号が含まれているか否かを検出する音声検出方法であって、
前記自己相関算出部が、音響信号の入力を受け付けると、入力された当該音響信号と所定の時間間隔でずらした当該音響信号との相関の度合いを示す自己相関値を、複数の時間間隔各々に関して算出する自己相関算出工程と、
前記選択部が、前記自己相関算出工程によって算出された自己相関値各々が、複数の時間間隔において極大値をとる場合に、当該極大値をとる場合の時間間隔でずらした各々の中から、全てもしくはいずれか複数の時間間隔でずらした音響信号各々を、前記音響信号の基本周期の候補である基本周期候補各々として選択する選択工程と、
前記連続性解析部が、前記選択工程によって選択された複数の基本周期候補各々の連続性を解析する連続性解析工程と、
前記音声検出部が、前記連続性解析工程によって解析された連続性が所定の閾値以下の場合に、音声信号が含まれているか否かを検出する音声検出工程と、
を有することを特徴とする音声検出方法。
(付記2)前記自己相関算出工程は、前記入力された音響信号と前記所定の時間間隔でずらした音響信号とについて、当該入力された音響信号を単位時間に区分したフレームごとに分解し、当該フレームごとの音響信号ごとに複数の時間間隔各々に関して自己相関値を求める相関処理を行うことで、当該フレームごとに自己相関値を算出することを特徴とする付記1に記載の音声検出方法。
(付記3)前記選択工程は、前記フレームごとに算出された自己相関値各々が、複数の時間間隔において極大値をとる場合に、当該極大値をとる場合の時間間隔でずらした各々の中から、全てもしくはいずれか複数の時間間隔でずらした音響信号各々を、当該フレームごとの前記基本周期候補各々として選択することを特徴とする付記2に記載の音声検出方法。
(付記4)前記連続性解析工程は、前記選択工程によってフレームごとに選択された複数の基本周期候補各々を複数のフレームにわたって記憶部に蓄積し、蓄積した当該複数の基本周期候補各々について、当該複数のフレームにわたる連続性を解析することを特徴とする付記3に記載の音声検出方法。
(付記5)前記コンピュータは、更に、比較部を有し、
前記比較部が、前記連続性解析工程によって解析された結果として、前記基本周期候補の時間的な変化を示す軌跡が取得された場合に、音声の基本周期の時間的な変化を示す軌跡として標準的なパターンを記憶する音声パターン記憶部に記憶されている当該標準的なパターンと、取得された軌跡とを比較する比較工程をさらに含み、
前記音声検出工程は、前記比較工程によって比較された結果に基づいて、前記入力された音響信号に音声信号が含まれるか否かを検出することを特徴とする付記1〜4のいずれか一つに記載の音声検出方法。
(付記6)前記コンピュータは、更に、出力部を備え、
前記出力部が、前記音声検出工程によって、前記入力された音響信号に音声が存在すると検出された場合に、当該検出の事実を所定の出力部に出力することで通知する通知工程をさらに含んだことを特徴とする付記1〜5のいずれか一つに記載の音声検出方法。
(付記7)音響信号に音声信号が含まれているか否かを検出する音声検出装置であって、
音響信号の入力を受け付けると、入力された当該音響信号と所定の時間間隔でずらした当該音響信号との相関の度合いを示す自己相関値を、複数の時間間隔各々に関して算出する自己相関算出手段と、
前記自己相関算出手段によって算出された自己相関値各々が、複数の時間間隔において極大値をとる場合に、当該極大値をとる場合の時間間隔でずらした各々の中から、全てもしくはいずれか複数の時間間隔でずらした音響信号各々を、前記音響信号の基本周期の候補である基本周期候補各々として選択する選択手段と、
前記選択手段によって選択された複数の基本周期候補各々の連続性を解析する連続性解析手段と、
前記連続性解析手段によって解析された連続性が所定の閾値以下の場合に、音声信号が含まれているか否かを検出する音声検出手段と、
を備えたことを特徴とする音声検出装置。
(付記8)前記自己相関算出手段は、前記入力された音響信号と前記所定の時間間隔でずらした音響信号とについて、当該入力された音響信号を単位時間に区分したフレームごとに分解し、当該フレームごとの音響信号ごとに複数の時間間隔各々に関して自己相関値を求める相関処理を行うことで、当該フレームごとに自己相関値を算出することを特徴とする付記7に記載の音声検出装置。
(付記9)音響信号に音声信号が含まれているか否かを検出する音声検出方法をコンピュータに実行させる音声検出プログラムであって、
音響信号の入力を受け付けると、入力された当該音響信号と所定の時間間隔でずらした当該音響信号との相関の度合いを示す自己相関値を、複数の時間間隔各々に関して算出する自己相関算出手順と、
前記自己相関算出手順によって算出された自己相関値各々が、複数の時間間隔において極大値をとる場合に、当該極大値をとる場合の時間間隔でずらした各々の中から、全てもしくはいずれか複数の時間間隔でずらした音響信号各々を、前記音響信号の基本周期の候補である基本周期候補各々として選択する選択手順と、
前記選択手順によって選択された複数の基本周期候補各々の連続性を解析する連続性解析手順と、
前記連続性解析手順によって解析された連続性が所定の閾値以下の場合に、音声信号が含まれているか否かを検出する音声検出手順と、
をコンピュータに実行させることを特徴とする音声検出プログラム。
(付記10)前記自己相関算出手順は、前記入力された音響信号と前記所定の時間間隔でずらした音響信号とについて、当該入力された音響信号を単位時間に区分したフレームごとに分解し、当該フレームごとの音響信号ごとに複数の時間間隔各々に関して自己相関値を求める相関処理を行うことで、当該フレームごとに自己相関値を算出することを特徴とする付記9に記載の音声検出プログラム。
実施例1に係る音声検出装置の概要および特徴を説明するための図である。 実施例1に係る音声検出装置の構成を示すブロック図である。 自己相関の算出について説明するための図である。 自己相関の算出(雑音がある場合とない場合との比較)について説明するための図である。 自己相関が最大となる周期の時間変化について説明するための図である。 自己相関の平滑化について説明するための図である。 自己相関が極大となるラグの検出について説明するための図である。 基本周期候補の蓄積について説明するための図である。 基本周期の推移について説明するための図である。 連続する基本周期候補の解析方法について説明するための図である。 連続する基本周期候補の解析例(c1から始まる場合)について説明するための図である。 連続する基本周期候補の解析例について説明するための図である。 連続性の算出方法について説明するための図である。 連続性の算出方法について説明するための図である。 実施例1に係る音声検出装置による処理の手順を示すフローチャートである。 基本周期の変化パターンの比較について説明するための図である。 実施例2に係る音声検出装置による処理の手順を示すフローチャートである。 音声検出プログラムを実行するコンピュータを示す図である。
符号の説明
10 音声検出装置
11 入力部
12 出力部
13 入出力制御I/F部
20 記憶部
21 音響信号波形サンプル記憶部
22 判定結果記憶部
30 制御部
31 A/D変換部
32 自己相関演算部
33 自己相関平滑化部
34 自己相関極大値算出部
35 基本周期候補選択部
36 連続性解析部
37 連続性判定部
40 音声検出プログラム(コンピュータ)
41 キャッシュ
42 HDD
43 RAM
44 ROM
45 CPU
46 バス

Claims (10)

  1. 自己相関算出部と選択部と連続性解析部と音声検出部とを備えたコンピュータが、音響信号に音声信号が含まれているか否かを検出する音声検出方法であって、
    前記自己相関算出部が、音響信号の入力を受け付けると、入力された当該音響信号と所定の時間間隔でずらした当該音響信号との相関の度合いを示す自己相関値を、複数の時間間隔各々に関して算出する自己相関算出工程と、
    前記選択部が、前記自己相関算出工程によって算出された自己相関値各々が、複数の時間間隔において極大値をとる場合に、当該極大値をとる場合の時間間隔でずらした各々の中から、全てもしくはいずれか複数の時間間隔でずらした音響信号各々を、前記音響信号の基本周期の候補である基本周期候補各々として選択する選択工程と、
    前記連続性解析部が、前記選択工程によって選択された複数の基本周期候補各々の連続性を解析する連続性解析工程と、
    前記音声検出部が、前記連続性解析工程によって解析された連続性が所定の閾値以下の場合に、音声信号が含まれているか否かを検出する音声検出工程と、
    を有することを特徴とする音声検出方法。
  2. 前記自己相関算出工程は、前記入力された音響信号と前記所定の時間間隔でずらした音響信号とについて、当該入力された音響信号を単位時間に区分したフレームごとに分解し、当該フレームごとの音響信号ごとに複数の時間間隔各々に関して自己相関値を求める相関処理を行うことで、当該フレームごとに自己相関値を算出することを特徴とする請求項1に記載の音声検出方法。
  3. 前記選択工程は、前記フレームごとに算出された自己相関値各々が、複数の時間間隔において極大値をとる場合に、当該極大値をとる場合の時間間隔でずらした各々の中から、全てもしくはいずれか複数の時間間隔でずらした音響信号各々を、当該フレームごとの前記基本周期候補各々として選択することを特徴とする請求項2に記載の音声検出方法。
  4. 前記連続性解析工程は、前記選択工程によってフレームごとに選択された複数の基本周期候補各々を複数のフレームにわたって記憶部に蓄積し、蓄積した当該複数の基本周期候補各々について、当該複数のフレームにわたる連続性を解析することを特徴とする請求項3に記載の音声検出方法。
  5. 前記コンピュータは、更に、比較部を有し、
    前記比較部が、前記連続性解析工程によって解析された結果として、前記基本周期候補の時間的な変化を示す軌跡が取得された場合に、音声の基本周期の時間的な変化を示す軌跡として標準的なパターンを記憶する音声パターン記憶部に記憶されている当該標準的なパターンと、取得された軌跡とを比較する比較工程をさらに含み、
    前記音声検出工程は、前記比較工程によって比較された結果に基づいて、前記入力された音響信号に音声信号が含まれるか否かを検出することを特徴とする請求項1〜4のいずれか一つに記載の音声検出方法。
  6. 前記コンピュータは、更に、出力部を備え、
    前記出力部が、前記音声検出工程によって、前記入力された音響信号に音声が存在すると検出された場合に、当該検出の事実を所定の出力部に出力することで通知する通知工程をさらに含んだことを特徴とする請求項1〜5のいずれか一つに記載の音声検出方法。
  7. 音響信号に音声信号が含まれているか否かを検出する音声検出装置であって、
    音響信号の入力を受け付けると、入力された当該音響信号と所定の時間間隔でずらした当該音響信号との相関の度合いを示す自己相関値を、複数の時間間隔各々に関して算出する自己相関算出手段と、
    前記自己相関算出手段によって算出された自己相関値各々が、複数の時間間隔において極大値をとる場合に、当該極大値をとる場合の時間間隔でずらした各々の中から、全てもしくはいずれか複数の時間間隔でずらした音響信号各々を、前記音響信号の基本周期の候補である基本周期候補各々として選択する選択手段と、
    前記選択手段によって選択された複数の基本周期候補各々の連続性を解析する連続性解析手段と、
    前記連続性解析手段によって解析された連続性が所定の閾値以下の場合に、音声信号が含まれているか否かを検出する音声検出手段と、
    を備えたことを特徴とする音声検出装置。
  8. 前記自己相関算出手段は、前記入力された音響信号と前記所定の時間間隔でずらした音響信号とについて、当該入力された音響信号を単位時間に区分したフレームごとに分解し、当該フレームごとの音響信号ごとに複数の時間間隔各々に関して自己相関値を求める相関処理を行うことで、当該フレームごとに自己相関値を算出することを特徴とする請求項7に記載の音声検出装置。
  9. 音響信号に音声信号が含まれているか否かを検出する音声検出方法をコンピュータに実行させる音声検出プログラムであって、
    音響信号の入力を受け付けると、入力された当該音響信号と所定の時間間隔でずらした当該音響信号との相関の度合いを示す自己相関値を、複数の時間間隔各々に関して算出する自己相関算出手順と、
    前記自己相関算出手順によって算出された自己相関値各々が、複数の時間間隔において極大値をとる場合に、当該極大値をとる場合の時間間隔でずらした各々の中から、全てもしくはいずれか複数の時間間隔でずらした音響信号各々を、前記音響信号の基本周期の候補である基本周期候補各々として選択する選択手順と、
    前記選択手順によって選択された複数の基本周期候補各々の連続性を解析する連続性解析手順と、
    前記連続性解析手順によって解析された連続性が所定の閾値以下の場合に、音声信号が含まれているか否かを検出する音声検出手順と、
    をコンピュータに実行させることを特徴とする音声検出プログラム。
  10. 前記自己相関算出手順は、前記入力された音響信号と前記所定の時間間隔でずらした音響信号とについて、当該入力された音響信号を単位時間に区分したフレームごとに分解し、当該フレームごとの音響信号ごとに複数の時間間隔各々に関して自己相関値を求める相関処理を行うことで、当該フレームごとに自己相関値を算出することを特徴とする請求項9に記載の音声検出プログラム。
JP2008054109A 2008-03-04 2008-03-04 音声検出方法、音声検出装置および音声検出プログラム Expired - Fee Related JP5012579B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008054109A JP5012579B2 (ja) 2008-03-04 2008-03-04 音声検出方法、音声検出装置および音声検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008054109A JP5012579B2 (ja) 2008-03-04 2008-03-04 音声検出方法、音声検出装置および音声検出プログラム

Publications (2)

Publication Number Publication Date
JP2009210836A true JP2009210836A (ja) 2009-09-17
JP5012579B2 JP5012579B2 (ja) 2012-08-29

Family

ID=41184057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008054109A Expired - Fee Related JP5012579B2 (ja) 2008-03-04 2008-03-04 音声検出方法、音声検出装置および音声検出プログラム

Country Status (1)

Country Link
JP (1) JP5012579B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012019927A (ja) * 2010-07-14 2012-02-02 Nippon Telegr & Teleph Corp <Ntt> 周期推定装置、周期推定方法、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6254296A (ja) * 1985-05-28 1987-03-09 日本電気株式会社 ピツチ抽出装置
JPS6455956A (en) * 1987-08-26 1989-03-02 Nec Corp Identification equipment for call signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6254296A (ja) * 1985-05-28 1987-03-09 日本電気株式会社 ピツチ抽出装置
JPS6455956A (en) * 1987-08-26 1989-03-02 Nec Corp Identification equipment for call signal

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012019927A (ja) * 2010-07-14 2012-02-02 Nippon Telegr & Teleph Corp <Ntt> 周期推定装置、周期推定方法、及びプログラム

Also Published As

Publication number Publication date
JP5012579B2 (ja) 2012-08-29

Similar Documents

Publication Publication Date Title
CN107928673B (zh) 音频信号处理方法、装置、存储介质和计算机设备
US7912709B2 (en) Method and apparatus for estimating harmonic information, spectral envelope information, and degree of voicing of speech signal
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
US8050910B2 (en) Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency
Janicki Spoofing countermeasure based on analysis of linear prediction error.
US8694314B2 (en) Voice authentication apparatus
US8046215B2 (en) Method and apparatus to detect voice activity by adding a random signal
JP2009008823A (ja) 音響認識装置、音響認識方法、及び、音響認識プログラム
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
US8086449B2 (en) Vocal fry detecting apparatus
JP2007328228A (ja) 信号処理装置、信号処理方法、及びプログラム
JP2013022188A (ja) 歩容解析方法、歩容解析装置及びそのプログラム
US8532986B2 (en) Speech signal evaluation apparatus, storage medium storing speech signal evaluation program, and speech signal evaluation method
JP6758890B2 (ja) 音声判別装置、音声判別方法、コンピュータプログラム
JP4099576B2 (ja) 情報識別装置及び方法、並びにプログラム及び記録媒体
JP5012579B2 (ja) 音声検出方法、音声検出装置および音声検出プログラム
US10956792B2 (en) Methods and apparatus to analyze time series data
JP4585590B2 (ja) 基本周波数変化量抽出装置、方法及びプログラム
CN113421590B (zh) 异常行为检测方法、装置、设备及存储介质
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム
JP7293826B2 (ja) 問題検出装置、問題検出方法および問題検出プログラム
JP2012185195A (ja) オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム
WO2020059498A1 (ja) 情報処理装置、情報処理方法、プログラム
JP2009237254A (ja) プログラム、情報記憶媒体、及び特定音認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120508

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120521

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150615

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees