JP5874344B2 - 音声判定装置、音声判定方法、および音声判定プログラム - Google Patents

音声判定装置、音声判定方法、および音声判定プログラム Download PDF

Info

Publication number
JP5874344B2
JP5874344B2 JP2011254578A JP2011254578A JP5874344B2 JP 5874344 B2 JP5874344 B2 JP 5874344B2 JP 2011254578 A JP2011254578 A JP 2011254578A JP 2011254578 A JP2011254578 A JP 2011254578A JP 5874344 B2 JP5874344 B2 JP 5874344B2
Authority
JP
Japan
Prior art keywords
spectrum
energy
band
sound
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011254578A
Other languages
English (en)
Other versions
JP2012128411A (ja
Inventor
孝朗 山邊
孝朗 山邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2011254578A priority Critical patent/JP5874344B2/ja
Publication of JP2012128411A publication Critical patent/JP2012128411A/ja
Application granted granted Critical
Publication of JP5874344B2 publication Critical patent/JP5874344B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Description

本発明は、入力信号の音声区間を検出する音声判定装置音声判定方法および、音声判定プログラムに関する。
音声を収音して生成した信号である入力信号には、音声が含まれる音声区間と、会話の合間や息継ぎ等により音声が含まれない非音声区間がある。例えば、音声認識装置では、音声区間と非音声区間とを特定することで、音声の認識率の向上、および、音声認識処理の効率化を図っている。また、携帯電話や無線機等を利用した移動体通信では、音声区間と非音声区間で、入力信号の符号化処理を切り替えることにより、音質を維持しつつ、圧縮率や転送効率を高めることができる。このような移動体通信では、リアルタイム性が要求されるため、音声区間の判定処理による音声の遅延を抑えることが望まれる。
上述した遅延を抑えた音声区間の判定処理として、例えば、入力信号のフレームの周波数分布の平坦度合いを示す数値が閾値以上であるか否かで、音声区間を検出したり(例えば、特許文献1)、入力信号のフレームにケプストラム法を用いて倍音成分を最も多く含む基本波を示す情報である調波情報を導出し、その調波情報と、そのフレームのエネルギーが閾値以上か否かを示すパワー情報とがそれぞれ音声の特徴を示すか否かで音声区間を検出したり(例えば、特許文献2)する技術が提案されている。
特開2004−272052号公報 特開2009−294537号公報
しかし、上述した特許文献1、2等の従来の音声区間の検出技術は、ノイズが比較的小さい環境では有効であるが、ノイズが大きくなると、入力信号のフレームの周波数分布の平坦さ(ピークの頻度)、ピッチ(音高)等の音声の性質が、ノイズに埋もれてしまい、音声区間の誤検出が生じ易くなる。
また、ケプストラム法は、フーリエ変換を2回も行う必要があり、周波数領域上の処理負荷が高いため電力消費が多くなる。そのため、特に、移動体通信のようにバッテリ駆動を前提とする場合、ケプストラム法を用いると、電力消費を賄うため、バッテリの容量を大きくする必要があり、高コスト化や大型化を招いてしまう。
そこで本発明は、このような課題に鑑み、ノイズレベルに拘らず、入力信号の音声区間を検出することが可能な、音声判定装置音声判定方法、および音声判定プログラムを提供することを目的としている。
上記課題を解決するために、本発明の音声判定装置は、入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部と、スペクトルパターンの各スペクトルのエネルギーと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうちスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた第1閾値を超えるか否かを判定するピーク検出部と、ピーク検出部の判定結果に基づいて、フレーム化入力信号が音声であるか否か判定する音声判定部と、音声判定部が音声でないと判定した場合には、スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出し、音声判定部が音声であると判定した場合には、スペクトルパターンの各分割周波数帯域におけるスペクトルから、エネルギー比が第1閾値を超えたスペクトル、または、エネルギー比が第1閾値を超えたスペクトルとスペクトルに隣接するスペクトルとを除外して、周波数方向の平均エネルギーを導出する周波数平均部と、分割周波数帯域毎に、平均エネルギーの時間方向の平均である帯域別エネルギーを導出する時間平均部と、を備えることを特徴とする
音声判定部は、エネルギー比が第1閾値を超えるスペクトルが予め定められた数以上であると、フレーム化入力信号が音声であると判定してもよい。
スペクトル生成部は、少なくとも200Hzから700Hzのスペクトルパターンを生成してもよい。
予め定められた帯域幅は、100Hzから150Hzまでの帯域幅であってもよい。
上記課題を解決するために、本発明の音声判定方法は、入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化ステップと、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成ステップと、スペクトルパターンの各スペクトルのエネルギーと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうちスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた第1閾値を超えた場合、フレーム化入力信号が音声であると判定する音声判定ステップと、音声判定ステップで音声でないと判定した場合には、スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出し、音声判定ステップで音声であると判定した場合には、スペクトルパターンの各分割周波数帯域におけるスペクトルから、エネルギー比が第1閾値を超えたスペクトル、または、エネルギー比が第1閾値を超えたスペクトルとスペクトルに隣接するスペクトルとを除外して、周波数方向の平均エネルギーを導出する周波数平均ステップと、分割周波数帯域毎に、平均エネルギーの時間方向の平均である帯域別エネルギーを導出する時間平均ステップとを有することを特徴とする。
上記課題を解決するために、本発明の音声判定プログラムは、入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化ステップと、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成ステップと、スペクトルパターンの各スペクトルのエネルギーと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうちスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた第1閾値を超えた場合、フレーム化入力信号が音声であると判定する音声判定ステップと、音声判定ステップで音声でないと判定した場合には、スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出し、音声判定ステップで音声であると判定した場合には、スペクトルパターンの各分割周波数帯域におけるスペクトルから、エネルギー比が第1閾値を超えたスペクトル、または、エネルギー比が第1閾値を超えたスペクトルとスペクトルに隣接するスペクトルとを除外して、周波数方向の平均エネルギーを導出する周波数平均ステップと、分割周波数帯域毎に、平均エネルギーの時間方向の平均である帯域別エネルギーを導出する時間平均ステップとをコンピュータに実行させることを特徴とする
以上説明したように本発明では、ノイズレベルに拘らず、入力信号の音声区間を検出することが可能となる。
音声を示す時間波形図である。 音声のフォルマント表示図である。 ノイズが比較的多い環境における音声を示す時間波形図である。 ノイズが比較的多い環境における音声のフォルマント表示図である。 音声判定装置の概略的な機能を示した機能ブロック図である。 音声判定方法の処理の流れを示すフローチャートである。
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。かかる実施形態に示す寸法、材料、その他具体的な数値等は、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、本明細書及び図面において、実質的に同一の機能、構成を有する要素については、同一の符号を付することにより重複説明を省略し、また本発明に直接関係のない要素は図示を省略する。
従来の音声区間の検出技術では、音声に対して、音声を収音する対象となる範囲におけるノイズである周囲ノイズ(雑音)が大きくなると、音声特性の検出が困難になり、音声区間の誤検出が生じてしまう場合がある。例えば、交通量の多い交差点、作業中の工事現場、および操業中の工場内等において、携帯電話や無線機等の移動体通信機器を用いて会話する場合、音声区間の判定が正しく行われないことがある。そのため、音声符号化処理において、音声区間を非音声区間と誤判定して、音声区間の入力信号の情報を圧縮し過ぎたり、非音声区間を音声区間と誤判定して効率的な符号化がなされなかったりして、音質の劣化を招き会話に支障をきたすことがあった。また、符号化回路を用いない場合であっても、ノイズキャンセル等の機能を有する移動体通信機器において、音声であるか否かの誤判定が生じると、正常にノイズをキャンセルできず、受話側が非常に聞き取り難い状況になっていた。
図1は、音声を示す時間波形図であり、図2は、図1に示す音声のフォルマント表示図である。また、図3は、ノイズが比較的多い環境における音声を示す時間波形図であり、図4は、図3に示す音声のフォルマント表示図である。図1、3における縦軸はエネルギー(dB)を、横軸は時間(s)を示し、図2、4における縦軸は周波数(Hz)を、横軸は時間(s)を示す。図1の時間軸は図2の時間軸に対応し、図3の時間軸は図4の時間軸に対応している。
図1に示す音声のみの時間波形を、図2のようにフォルマント表示図に表わすと、音声の特徴である縞模様を容易に観察することができる。しかし、図3に示すように、音声に周囲ノイズが加わった場合、その時間波形を図4のようにフォルマント表示すると、音声の特徴である縞模様の濃淡の規則性が崩れ、縞模様を識別し難くなる。このように周囲ノイズが大きい場合、ケプストラム法や単にスペクトルピークを検出する従来の音声区間の検出技術を用いても、音声の特徴が周囲ノイズに埋もれてしまい、音声区間を検出することができない場合があった。
また、移動体通信では、音声区間の判定処理による遅延を抑えることが望まれる。したがって、音声の特徴を検出し易くするための、周波数解析結果を数フレームに渡って加算する時間方向への重加算処理や、解析範囲の広い処理、例えば音節や文節に対するパターン認識を利用した処理、および時間領域のサンプルが長時間分必要な自己相関を用いた処理等は、遅延を招き適当ではない。
さらに、移動体通信のようにバッテリ駆動を前提とするシステムでは、低消費電力であることが望まれる。特に、デジタル無線では、遅延の少なさ、低処理負荷、エネルギーが高レベルなノイズの抑制が求められる。しかし、ケプストラム法は、比較的処理負荷が大きく電力消費が多くなってしまい、高コスト化や大型化を招く。
そこで、本実施形態では、ノイズレベルに拘らず、入力信号の音声区間を検出できる音声判定装置について詳述し、続いて、その音声判定装置を用いた音声判定方法について説明する。
(音声判定装置100)
図5は、音声判定装置100の概略的な構成を説明するための機能ブロック図である。音声判定装置100は、フレーム化部120と、スペクトル生成部122と、帯域分割部124と、周波数平均部126と、保持部128と、時間平均部130と、ピーク検出部132と、音声判定部134と、を含んで構成される。
フレーム化部120は、収音装置200が、音声を収音しデジタル信号に変換した入力信号を、予め定められた時間幅を有するフレーム単位(所定サンプル数長)で順次切り出し、フレーム単位の入力信号(以下、単に「フレーム化入力信号」と称す)を生成する。また、収音装置200から入力される入力信号がアナログ信号である場合、フレーム化部120の前段にADコンバーターを配置しデジタル信号に変換するとしてもよい。そして、フレーム化部120は、生成したフレーム化入力信号を順次、スペクトル生成部122に送信する。
スペクトル生成部122は、フレーム化部120から受信したフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFT(Fast Fourier Transform)やDCT(Discrete Cosine Transform)等の直交変換法を用いるとよい。
本実施形態において、スペクトル生成部122は、少なくとも200Hzから700Hzのスペクトルパターンを生成する。
後述する音声判定部134が音声区間を判定する際に検出する対象である、音声の特徴を示すスペクトル(以下、フォルマントと称す)には、通常、基音に相当する第1フォルマントから、その倍音部分である第nフォルマント(nは自然数)まで複数ある。このうち、第1フォルマントや第2フォルマントは200Hz未満の周波数帯域に存在することが多い。しかし、この帯域には、低域ノイズ成分が比較的高いエネルギーで含まれているため、フォルマントが埋没し易い。また700Hz以上のフォルマントは、フォルマント自体のエネルギーが低いため、やはりノイズ成分に埋没し易い。そのため、ノイズ成分に埋没し難い200Hzから700Hzのスペクトルパターンを音声区間の判定に用いることで、判定対象を絞り、効率的に音声区間の判定を行うことができる。
スペクトル生成部122によって生成されたスペクトルパターンは、帯域分割部124とピーク検出部132に送られる。
帯域分割部124は、適切な周波数帯域単位で音声に特徴的なスペクトルを検出するため、スペクトルパターンを、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域に分割する。
本実施形態において、予め定められた帯域幅は、100Hzから150Hzまでの帯域幅とする。例えば、分割周波数帯域はスペクトル10本前後の帯域幅となる。
音声の第1フォルマントは、およそ100Hzから150Hz程度の周波数で検出され、他のフォルマントはその倍音成分であるため、その倍数の周波数で検出される。そのため、分割周波数帯域を100Hzから150Hzの帯域幅とすることで、音声区間において、それぞれの分割周波数帯域に大凡一つずつフォルマントを含むようになり、各分割周波数帯域で適切に音声区間の判定ができる。これよりも分割周波数帯域の帯域幅を大きくすると、1つの分割周波数帯域に音声のエネルギーのピークが複数含まれる可能性があり、音声の特徴としてピークが複数の帯域で検出されるべきところ、1つにまとめて検出されてしまい、音声区間の判定の精度の低下を招く。逆に、分割周波数帯域の帯域幅を小さくしても、音声区間の判定の精度は向上せず、処理負荷のみが大きくなってしまう。
周波数平均部126は、分割周波数帯域毎の平均エネルギーを求める。本実施形態では、周波数平均部126は、分割周波数帯域毎に、分割周波数帯域におけるすべてのスペクトルのエネルギーを平均するが、演算負荷軽減のためスペクトルのエネルギーの代わりにスペクトルの最大または平均振幅値(絶対値)を代用してもよい。
保持部128は、RAM(Random Access Memory)、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ等の記憶媒体で構成され、帯域毎の平均エネルギーを過去の予め定められた数(本実施形態においてはNとする)のフレーム分保持する。
時間平均部130は、分割周波数帯域毎に、周波数平均部126で導出された平均エネルギーの時間方向の複数のフレームに渡る平均である帯域別エネルギーを導出する。すなわち、帯域別エネルギーは、分割周波数帯域毎の平均エネルギーの時間方向の複数のフレームに渡る平均値である。本実施形態において、帯域別エネルギーは、帯域毎のノイズのエネルギーの水準であるノイズレベルとみなす。帯域別エネルギーを平均エネルギーの時間方向の平均とすることで急激な変動を抑え時間方向に平滑化できる。具体的に、時間平均部130は、以下の数式1に示す計算を行う。
Figure 0005874344
…(数式1)
Eavr:平均エネルギーのNフレーム間における平均値
E(i):フレーム毎の平均エネルギー
また、時間平均部130は、直前のフレームの分割周波数帯域毎の平均エネルギーに、重み付け係数と時定数を用いて平均化に準じる処理をして、帯域別エネルギーの代用値を求めてもよい。その場合、時間平均部130は、以下の数式2、3に示す計算を行う。
Figure 0005874344
…(数式2)
Eavr2:帯域別エネルギーの代用値
E_last:直前のフレームにおける帯域別エネルギー
E_cur:該当フレームにおける平均エネルギー
ただし、音声区間の判定対象となっているフレームを該当フレームと称する。
Figure 0005874344
α:E_lastの重み付け係数
β:E_curの重み付け係数
T:時定数
…(数式3)
帯域別エネルギー(帯域毎のノイズレベル)は定常的な値であるため、該当フレームに即座に反映しなくてもよい。また、後述する音声判定部134が音声であると判定したフレーム化入力信号について、時間平均部130はその音声のエネルギーを帯域別エネルギーに反映しない場合や、反映の度合いを調整する場合がある。そのため、帯域別エネルギーを即座に反映せずに、音声判定部130の判定結果を待って、反映することとする。したがって、時間平均部130が導出した帯域別エネルギーは、該当フレームの次のフレームの判定処理に用いることとなる。
ピーク検出部132は、スペクトルパターンの各スペクトルと、そのスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比(SNR:Signal to Noise Ratio)を導出する。
具体的に、ピーク検出部132は、該当フレームの直前のフレームの帯域別の平均エネルギーを反映した帯域別エネルギーを用いて、以下の数式4に示す計算を行い、スペクトル毎にSNRを導出する。
Figure 0005874344
…(数式4)
SNR:信号対ノイズ比(スペクトルのエネルギー対帯域別エネルギー比)
E_spec:スペクトルのエネルギー
Noise_Level:帯域別エネルギー(帯域毎のノイズレベル)
例えばSNRが2となったスペクトルは、周囲の平均的なスペクトルに対して約6dB程度のゲインを有しているとわかる。
そして、ピーク検出部132は、スペクトル毎のSNRと、予め定められた第1閾値とを比較し、第1閾値を超えるか否かを判定する。そして、SNRが第1閾値を超えるスペクトルがあると、このスペクトルをフォルマントとみなし、フォルマントが検出された旨を示す情報を、音声判定部134に出力する。
音声判定部134は、フォルマントが検出されたという情報をピーク検出部132から受け付けると、ピーク検出部132の判定結果に基づいて、該当フレームのフレーム化入力信号が音声であるか否か判定する。より詳しくは、音声判定部134は、SNRが第1閾値を超えるスペクトルが予め定められた数(以下、第1所定数と称す)以上であると、フレーム化入力信号が音声であると判定する。
スペクトルパターンの全周波数帯域について、一括りに導出され、かつ、時間方向に平均化された平均エネルギーをノイズレベルとすると、仮に、ノイズレベルが小さい帯域にスペクトルピークがあり、本来、音声と判定すべきスペクトルがあっても、そのスペクトルと平均化された高いノイズレベルと比較して音声ではないと判定してしまい、そのフレーム化入力信号を非音声区間であると誤判定してしまう場合がある。本実施形態の音声判定装置100は、分割周波数帯域毎に、その分割周波数帯域の帯域別エネルギーを設定している。そのため、音声判定部134は、他の分割周波数帯域のノイズ成分の影響を受けずに、それぞれの分割周波数帯域毎にフォルマントの有無を精度よく判定することができる。
また、分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを用いて、次のフレームの処理で用いる帯域別エネルギーを更新するフィードバック構造をとることで、時間方向に平均化されたエネルギー、即ち、定常的なノイズのエネルギーを帯域別エネルギーとすることが可能となる。
上述したように、フォルマントには、第1フォルマントから、その倍音部分である第nフォルマントまで複数ある。したがって、任意の分割周波数帯域の帯域別エネルギー(ノイズレベル)が上昇し、フォルマントの一部がノイズに埋没しても、他の複数のフォルマントを検出できる場合がある。特に、周囲ノイズは低域に集中するため、基音に相当する第1フォルマントや2倍音に相当する第2フォルマントが低域のノイズに埋没していても、3倍音以上のフォルマントを検出できる可能性がある。そこで、音声判定部134は、SNRが第1閾値を超えるスペクトルが第1所定数以上であると、フレーム化入力信号が音声であると判定することで、よりノイズに強い音声区間の判定を行うことができる。
また、ピーク検出部132は、上述した第1閾値を、帯域別エネルギーや分割周波数帯域に応じて制御してもよい。具体的には、ピーク検出部132は、例えば、分割周波数帯域、帯域別エネルギーの範囲、および第1閾値を関連付けたテーブルを保持し、分析対象のスペクトルの分割周波数帯域と帯域別エネルギーに応じて、テーブルから取得した第1閾値を用いてもよい。こうすることで、分割周波数帯域や帯域別エネルギーの値に応じて適切に音声とみなせるスペクトルを判定することが可能となり、より確実な音声区間の判定を行うことができる。
また、ピーク検出部132は、SNRが第1閾値を超えるスペクトルが予め定められた数(第1所定数)以上に達した時点で、そのフレームの残りのスペクトルのSNRの導出およびSNRと第1閾値との比較処理を行わないこととしてもよい。こうすることで、ピーク検出部132の処理負荷を低減することが可能となる。
さらに、音声区間の判定の信頼性を上げるために、音声判定部134における処理の結果を時間平均部130に出力し、帯域別エネルギーへの音声による影響を回避してもよい。
すなわち、SNRが第1閾値を超えたスペクトルは、フォルマントの可能性が高い。また、音声は声帯の振動を伴うため中心周波数をピークとしながらそのエネルギー成分が隣接するスペクトルにも存在する。そのため、その前後のスペクトルにも、音声のエネルギー成分が含まれている可能性が高い。時間平均部130は、これらのスペクトルを一度に除外し、帯域別エネルギーを導出することで、音声の影響を排除できる。さらに、音声区間中において、突発的に生じた急激な変動を伴うノイズが含まれる場合、このノイズのスペクトルを帯域別エネルギーの導出に加味すると、ノイズレベルの推定に支障をきたす。したがって、時間平均部130は、このようなノイズも、SNRが第1閾値を超えたスペクトルやその前後のスペクトルとして検出し、除外することができる。
具体的に、音声判定部134は、SNRが第1閾値を超えたスペクトルを示す情報を時間平均部130に出力し、時間平均部130は、SNRが第1閾値を超えたスペクトルを含む分割周波数帯域の平均エネルギー、または、SNRが第1閾値を超えたスペクトルを含むフレーム化入力信号のすべての分割周波数帯域の平均エネルギーに、1以下の調整値を乗算したエネルギーに基づいて分割周波数帯域毎に帯域別エネルギーを導出してもよい。
音声はノイズに比べてエネルギーが比較的大きいため、音声のエネルギーを加味して帯域別エネルギーを導出すると、本来の帯域別エネルギーを適切に導出することができなくなってしまう。そこで、時間平均部130は、音声判定部134が第1閾値を超えたと判定した、即ち、音声と判定した分割周波数帯域またはフレーム化入力信号のすべての分割周波数帯域の平均エネルギーに、1以下の調整値を乗算した上で、帯域別エネルギーを導出することで、音声の影響を低減し、帯域別エネルギーを適切に導出することが可能となる。
この場合、音声判定部134は、1以下の調整値として所定の値を用いることもできるが、例えば、平均エネルギーの大きさの範囲と、1以下の調整値とを関連付けたテーブルを保持し、平均エネルギーの大きさに応じて、テーブルから取得した調整値を用いてもよい。かかる構成により、音声判定部134は、音声のエネルギーの大きさに応じて平均エネルギーを適切に低減できる。
また、音声区間中の周囲ノイズの大きさの変動に対応し、音声区間中のノイズ成分を帯域別エネルギーに反映するために、次のような手段を用いてもよい。
詳細に、周波数平均部126は、SNRが第1閾値を超えたスペクトル、または、SNRが第1閾値を超えたスペクトルとそのスペクトルに隣接するスペクトルとを除外して平均エネルギーを導出する。
具体的に、音声判定部134は、SNRが第1閾値を超えたスペクトルを示す情報を周波数平均部126に出力し、周波数平均部126は、SNRが第1閾値を超えたスペクトル、または、SNRが第1閾値を超えたスペクトルとそのスペクトルに隣接するスペクトルを除外した、残りのスペクトルについて、分割周波数帯域毎に平均エネルギーを導出して保持部128に保持させる。そして、時間平均部130は、保持部128に保持された平均エネルギーに基づいて帯域別エネルギーを導出する。
この実施例において、音声判定部134は、SNRが第1閾値を超えたスペクトルを示す情報を周波数平均部126に出力する。周波数平均部126は、音声判定部134からSNRが第1閾値を超えたスペクトルを示す情報を受け取る。周波数平均部126は、SNRが第1閾値を超えたスペクトル、または、SNRが第1閾値を超えたスペクトルとそのスペクトルに隣接するスペクトルを除外した、残りのスペクトルについて、分割周波数帯域毎に平均エネルギーを導出し、保持部128に保持させるとともに、SNRが第1閾値を超えたスペクトルを示す情報を保持部に保持する。時間平均部130は、保持部128に保持された平均エネルギーとSNRが第1閾値を超えたスペクトルを示す情報とを取得し、SNRが第1閾値を超えたスペクトルを含む分割周波数帯域の平均エネルギー、または、エネルギー比が第1閾値を超えたスペクトルを含むフレーム化入力信号のすべての分割周波数帯域の平均エネルギーを、時間方向の平均に反映しないようにして帯域別エネルギーを導出し、次のフレームまで保持する。
具体的に、時間平均部130は、上述した数式1を用いる場合、例えば、除外の対象となった分割周波数帯域、または除外の対象となった分割周波数帯域を含むフレーム化入力信号のすべての分割周波数帯域の平均エネルギーを含めず、以降の帯域別エネルギーを導出する。また、時間平均部130は、上述した数式2を用いる場合、例えば、除外の対象となった分割周波数帯域、または除外の対象となった分割周波数帯域を含むフレーム化入力信号のすべての分割周波数帯域の平均エネルギーについて、その平均エネルギーを数式2のE_curとして代入する際、一時的にα=T、β=0とするとしてもよい。
上述したように、SNRが第1閾値を超えたスペクトルやその前後のスペクトルは、フォルマントの可能性が高い。SNRが第1閾値を超えたスペクトルを含む分割周波数帯域の他のスペクトルにも音声のエネルギーの影響がある場合がある。また、音声の影響は、基音や倍音として複数の分割周波数帯域に広がっているため、SNRが第1閾値を超えたスペクトルが1つでもあると、そのフレーム化入力信号の他の分割周波数帯域にも音声のエネルギー成分が含まれる場合がある。そこで、時間平均部130は、この分割周波数帯域を除外して、帯域別エネルギーを導出したり、フレーム化入力信号全体を除外して、このフレームでは帯域別エネルギーを更新しないこととしたりすることで、帯域別エネルギーへの音声の影響を排除できる。
さらに、平均エネルギーを時間方向の平均に反映するか否かを判定するための、第1閾値とは異なる第2閾値を設け、音声判定部134は、SNRが第2閾値を超えたスペクトルを示す情報を周波数平均部126に出力し、時間平均部130は、エネルギー比が第2閾値を超えたスペクトルを含む分割周波数帯域の平均エネルギー、または、エネルギー比が第2閾値を超えたスペクトルを含むフレーム化入力信号のすべての分割周波数帯域の平均エネルギーを、時間方向の平均に反映しなくてもよい。
このように、第1閾値とは異なる第2閾値を設け、音声判定部134は、音声の判定処理とは別に、平均エネルギーを時間方向の平均に反映するか否かを判定する。こうすることで、音声判定部134は、音声の判定処理と、平均エネルギーの時間方向の平均への反映処理とを独立して判定することが可能となる。
例えば、第1閾値より第2閾値を大きく設定し、分割周波数帯域毎に、音声の判定処理と平均エネルギーの時間方向の平均への反映処理とを独立して行う場合、音声判定部134は、エネルギー比が第1閾値より大きいスペクトルを含まない分割周波数帯域を音声でないと判定し、また、その平均エネルギーを、時間方向の平均に反映する。また、音声判定部134は、エネルギー比が第1閾値より大きく第2閾値以下のスペクトルを含む分割周波数帯域を音声と判定するが、その平均エネルギーは、時間方向の平均に反映する。さらに、音声判定部134は、エネルギー比が第2閾値より大きいスペクトルを含む分割周波数帯域を音声と判定し、その平均エネルギーを、時間方向の平均に反映しない。
また、例えば、第1閾値より第2閾値を小さく設定し、分割周波数帯域毎に、音声の判定処理と平均エネルギーの時間方向の平均への反映処理とを独立して行う場合、音声判定部134は、エネルギー比が第2閾値より大きいスペクトルを含まない分割周波数帯域を音声でないと判定し、また、その平均エネルギーを、時間方向の平均に反映する。また、音声判定部134は、エネルギー比が第2閾値より大きく第1閾値以下のスペクトルを含む分割周波数帯域を音声でないと判定するが、その平均エネルギーは、時間方向の平均に反映しない。さらに、音声判定部134は、エネルギー比が第1閾値より大きいスペクトルを含む分割周波数帯域を音声と判定し、その平均エネルギーを、時間方向の平均に反映しない。このように、第1閾値とは異なる第2閾値を設けることで、時間平均部130は、より適切に帯域別エネルギーを導出することができる。
図1に示す音声のみの時間波形図のように、音声が存在する時間帯はエネルギーが高いことがわかる。この音声のエネルギーが帯域別エネルギーに影響を与えると、実際のノイズレベルよりも高い帯域別エネルギーに基づいて音声の判定処理を行うことになり、正しい結果を得られないことがある。本実施形態の音声判定装置100は、音声区間判定後に帯域別エネルギーへの影響度合いを制御することにより、正確な帯域別エネルギーを維持し、精度よくフォルマントを検出できる。
(音声判定方法)
次に、上述した音声判定装置100を用いて入力信号を分析し、その分析結果を用いて入力信号が音声か否かを判定する音声判定方法を説明する。
図6は、音声判定方法の全体的な流れを示したフローチャートである。入力信号の入力がある場合(S300におけるYES)、フレーム化部120は、音声判定装置100が取得したデジタル入力信号を、所定のフレーム単位で順次切り出し、フレーム化入力信号を生成する(S302)。そして、スペクトル生成部122は、フレーム化部120から受信したフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換してスペクトルパターンを生成する(S304)。
帯域分割部124は、スペクトルパターンの各スペクトルを複数の分割周波数帯域に分割する(S306)。ピーク検出部132は、時間平均部130から、任意の分割周波数帯域の帯域別エネルギーを取得する(S308)。ここでは、例えば、分割周波数帯域の処理の順番は、周波数の小さい順とし、ピーク検出部132は、分割周波数帯域の処理の順番に従って、時間平均部130から分割周波数帯域の帯域別エネルギーを取得する。
このとき取得される帯域別エネルギーは、音声判定処理を開始後、直前のフレームについての処理において更新された帯域別エネルギーとする。この帯域別エネルギーは、音声であるか否かが判定されていないフレーム化入力信号のスペクトルのエネルギーを含むことなく、所定の時間幅で時間方向に平均化された帯域毎のノイズレベルとなっている。
直前のフレームを反映して導出した帯域別エネルギーをノイズレベルとすることで、スペクトルのエネルギーのノイズレベル比を正確に導出でき、判定対象のスペクトルが周囲のスペクトルに対しピーク特性を持つか否かを分析可能となる。
ピーク検出部132は、取得した帯域別エネルギーに対応する分割周波数帯域について、その分割周波数帯域の対象のスペクトルと、取得した帯域別エネルギーとのエネルギー比であるSNRを導出する(S310)。ここで、対象のスペクトルは、まだSNRを導出していないスペクトルのうち、最も周波数の小さいスペクトルとする。
そして、ピーク検出部132は、導出したSNRと第1閾値とを比較する(S312)。第1閾値を超えるスペクトルがある、すなわちピーク特性を持つ場合(S312におけるYES)、その旨を示す情報として、例えば、第1閾値を超えたスペクトルの周波数を示す情報をピーク検出部132のワークエリアに保持する(S314)。また、ピーク検出部132は、ピーク特性の大きさを数値化(モデル化)して内部のワークエリアに保持してもよい。例えば、ピーク検出部132は分割周波数帯域の対象のスペクトルのうちSNRが高いと検出された数をカウントすることでピーク特性の大きさを数値化する。ワークエリアは一時的に検出された本数をカウント(保存)するバッファである。ピーク特性の大きさは、SNRの大きさから導出される。ピーク特性の大きさを音声区間の判定処理の基準にすると、すべてのフォルマントのうちノイズに埋没したフォルマントの占める割合が大きくとも、残された強いフォルマントを検出することで音声と判定することが可能となる。
本実施形態において、スペクトル生成部122が少なくとも200Hzから700Hzのスペクトルパターンを生成することとしている。しかし、例えば、スペクトル生成部122は200Hzから700Hzよりも広い周波数帯域のスペクトルパターンを生成し、ピーク検出部132の方が、スペクトルピーク分析(SNRの導出および第1閾値との比較処理)をスペクトルパターンの全帯域に渡り実行せずに、200Hzから700Hzに処理の対象となる帯域を絞って分析してもよい。
続いて、ピーク検出部132は、すべての分割周波数帯域についてスペクトルピーク分析が終了したか否かを判定する(S316)。すべての分割周波数帯域についてスペクトル分析が終了していない場合(S316におけるNO)、ピーク検出部132は、次の対象のスペクトルが、直前までと同じ分割周波数帯域に含まれるか否かを判定する(S318)。同じ分割周波数帯域に含まれない場合(S318におけるNO)、帯域別エネルギー取得ステップS308に戻る。同じ分割周波数帯域に含まれる場合(S318におけるYES)、SNR導出ステップS310に戻る。
すべての分割周波数帯域についてスペクトル分析が終了した場合(S316におけるYES)、音声判定部134は、ピーク検出部132からスペクトルピーク分析の結果を取得し、SNRが第1閾値を超えるスペクトルが第1所定数以上であるか否かを判定する(S320)。
SNRが第1閾値を超えるスペクトルが第1所定数未満である場合(S320におけるNO)、音声判定部134は、該当フレームのフレーム化入力信号が音声でないと判定する(S322)。
また、結果保持ステップS314において、ピーク検出部132がピーク特性の大きさを数値化して内部のワークエリアに保持している場合、音声判定部134は、その数値を予め定められた閾値と比較して、その閾値を超えていると該当フレームが音声であると判定してもよい。例えば、ピーク検出部132は分割周波数帯域の対象のスペクトルのうちSNRが高いと検出された数をカウントすることでピーク特性の大きさを数値化する。ワークエリアは一時的に検出された本数をカウント(保存)するバッファである。
音声判定部134が、該当フレームのフレーム化入力信号は音声でないと判定した場合、周波数平均部126は、スペクトル生成部122で生成されたスペクトルパターンを用いて分割周波数帯域毎の平均エネルギーを求め(S324)、保持部128に保持させる(S326)。定常的なノイズといえども分析時間が短いとエネルギーの変動が現れる。そこで、帯域別エネルギーを実際のノイズレベルに近い値に保つために、分割された帯域毎に時間領域の過去の情報を用いてさらに平均化する。具体的に、時間平均部130は、保持部128に保持された平均エネルギーを取得し、分割周波数帯域毎に平均エネルギーの時間方向の複数のフレームに渡る平均である帯域別エネルギーを導出して次のフレームまで保持する(S328)。なお、この帯域別エネルギーは次のフレームでピーク検出部132が、取得する帯域別エネルギーとなる(上述したS308)。
SNRが第1閾値を超えるスペクトルが第1所定数以上である場合(S320におけるYES)、音声判定部134は、該当フレームのフレーム化入力信号が音声であると判定する(S330)。そして、周波数平均部126は、SNRが第1閾値を超えたスペクトル、または、SNRが第1閾値を超えたスペクトルとそのスペクトルに隣接するスペクトルを除外した、残りのスペクトルについて、分割周波数帯域毎に平均エネルギーを導出し(S332)、保持部128に保持させる(S334)。
時間平均部130は、保持部128に保持された平均エネルギーを取得し、音声区間に対応した手段を用い帯域別エネルギーを導出して次のフレームまで保持する(S336)。なお、この帯域別エネルギーは次のフレームでピーク検出部132が、取得する帯域別エネルギーとなる(上述したS308)。
ここで、音声区間に対応した手段について詳述する。例えば、時間平均部130は、帯域別エネルギーに、該当フレームのエネルギーをまったく加味せず、直前のフレームの値を保持する。また、周囲ノイズの時間的な変動に追従させ、音声に重なって収録された周囲ノイズを反映させるために、時間平均部130は、音声と判定された分割周波数帯域またはフレーム化入力信号全体の平均エネルギーに1以下の調整値を乗算し重み付けを少なくした上で、帯域別エネルギーを導出してもよい。
さらに、時間平均部130は、エネルギー比が第2閾値を超えたスペクトルを含む分割周波数帯域の平均エネルギー、または、エネルギー比が第2閾値を超えたスペクトルを含むフレーム化入力信号のすべての分割周波数帯域の平均エネルギーを、時間方向の平均に反映しなくてもよい。
以上説明した音声判定方法によっても、ノイズレベルに拘らず、入力信号の音声区間を検出することが可能となる。
上述した音声判定装置100や音声判定方法を用いて、入力信号の音声区間を検出した後、例えば、符号化処理やノイズキャンセル処理を行う場合、音声判定装置100が音声区間を正確に判定できるため、符号化処理においては、音質の劣化を抑制しつつ圧縮率を高めることができ、ノイズキャンセル処理においては、ノイズを効率的に相殺することが可能となる。
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明はかかる実施形態に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
なお、本明細書の音声判定方法における各工程は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいはサブルーチンによる処理を含んでもよい。
本発明は、入力信号の音声区間を検出する音声判定装置音声判定方法、および音声判定プログラムに利用することができる。

100 …音声判定装置
120 …フレーム化部
122 …スペクトル生成部
124 …帯域分割部
126 …周波数平均部
128 …保持部
130 …時間平均部
132 …ピーク検出部
134 …音声判定部

Claims (6)

  1. 入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部と、
    前記フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部と、
    前記スペクトルパターンの各スペクトルのエネルギーと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうち前記スペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた第1閾値を超えるか否かを判定するピーク検出部と、
    前記ピーク検出部の判定結果に基づいて、前記フレーム化入力信号が音声であるか否か判定する音声判定部と、
    前記音声判定部が音声でないと判定した場合には、前記スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出し、前記音声判定部が音声であると判定した場合には、前記スペクトルパターンの各分割周波数帯域におけるスペクトルから、前記エネルギー比が前記第1閾値を超えたスペクトル、または、前記エネルギー比が前記第1閾値を超えたスペクトルと前記スペクトルに隣接するスペクトルとを除外して、周波数方向の平均エネルギーを導出する周波数平均部と、
    前記分割周波数帯域毎に、前記平均エネルギーの時間方向の平均である前記帯域別エネルギーを導出する時間平均部と、
    を備えることを特徴とする音声判定装置。
  2. 前記音声判定部は、前記エネルギー比が前記第1閾値を超えるスペクトルが予め定められた数以上であると、前記フレーム化入力信号が音声であると判定することを特徴とする請求項1に記載の音声判定装置。
  3. 前記スペクトル生成部は、少なくとも200Hzから700Hzのスペクトルパターンを生成することを特徴とする請求項1または2に記載の音声判定装置。
  4. 前記予め定められた帯域幅は、100Hzから150Hzまでの帯域幅であることを特徴とする請求項1からのいずれか1項に記載の音声判定装置。
  5. 入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化ステップと、
    前記フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成ステップと、
    前記スペクトルパターンの各スペクトルのエネルギーと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうち前記スペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた第1閾値を超えた場合、前記フレーム化入力信号が音声であると判定する音声判定ステップと、
    前記音声判定ステップで音声でないと判定した場合には、前記スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出し、前記音声判定ステップで音声であると判定した場合には、前記スペクトルパターンの各分割周波数帯域におけるスペクトルから、前記エネルギー比が前記第1閾値を超えたスペクトル、または、前記エネルギー比が前記第1閾値を超えたスペクトルと前記スペクトルに隣接するスペクトルとを除外して、周波数方向の平均エネルギーを導出する周波数平均ステップと、
    前記分割周波数帯域毎に、前記平均エネルギーの時間方向の平均である前記帯域別エネルギーを導出する時間平均ステップとを有することを特徴とする音声判定方法。
  6. 入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化ステップと、
    前記フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成ステップと、
    前記スペクトルパターンの各スペクトルのエネルギーと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうち前記スペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた第1閾値を超えた場合、前記フレーム化入力信号が音声であると判定する音声判定ステップと、
    前記音声判定ステップで音声でないと判定した場合には、前記スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出し、前記音声判定ステップで音声であると判定した場合には、前記スペクトルパターンの各分割周波数帯域におけるスペクトルから、前記エネルギー比が前記第1閾値を超えたスペクトル、または、前記エネルギー比が前記第1閾値を超えたスペクトルと前記スペクトルに隣接するスペクトルとを除外して、周波数方向の平均エネルギーを導出する周波数平均ステップと、
    前記分割周波数帯域毎に、前記平均エネルギーの時間方向の平均である前記帯域別エネルギーを導出する時間平均ステップとをコンピュータに実行させることを特徴とする音声判定プログラム。
JP2011254578A 2010-11-24 2011-11-22 音声判定装置、音声判定方法、および音声判定プログラム Active JP5874344B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011254578A JP5874344B2 (ja) 2010-11-24 2011-11-22 音声判定装置、音声判定方法、および音声判定プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010260798 2010-11-24
JP2010260798 2010-11-24
JP2011254578A JP5874344B2 (ja) 2010-11-24 2011-11-22 音声判定装置、音声判定方法、および音声判定プログラム

Publications (2)

Publication Number Publication Date
JP2012128411A JP2012128411A (ja) 2012-07-05
JP5874344B2 true JP5874344B2 (ja) 2016-03-02

Family

ID=46065149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011254578A Active JP5874344B2 (ja) 2010-11-24 2011-11-22 音声判定装置、音声判定方法、および音声判定プログラム

Country Status (3)

Country Link
US (1) US9047878B2 (ja)
JP (1) JP5874344B2 (ja)
CN (1) CN102479504B (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180019233A (ko) * 2015-12-28 2018-02-23 미츠비시 히타치 파워 시스템즈 가부시키가이샤 터빈 날개의 보수 방법
KR20180020289A (ko) * 2015-12-28 2018-02-27 미츠비시 히타치 파워 시스템즈 가부시키가이샤 터빈 날개의 보수 방법
KR101967629B1 (ko) * 2018-09-13 2019-04-10 임강민 원자력 발전설비 예측진단용 신호데이터 처리장치
KR101967637B1 (ko) * 2018-09-13 2019-04-10 임강민 증강현실을 활용한 원자력 발전설비 예측진단용 신호데이터 처리장치
KR101967641B1 (ko) * 2018-09-13 2019-04-10 임강민 증강현실을 활용한 원자력 발전설비의 기계학습식 예측진단장치
KR101967633B1 (ko) * 2018-09-13 2019-04-10 임강민 원자력 발전설비의 기계학습식 예측진단장치
KR101983603B1 (ko) * 2018-09-13 2019-05-29 임강민 증강현실을 활용한 원자력 발전설비의 기계학습식 예측진단장치
KR101984248B1 (ko) * 2018-09-13 2019-05-30 임강민 원자력 발전설비의 기계학습식 예측진단장치
KR101991296B1 (ko) * 2018-09-13 2019-06-27 임강민 원자력 발전설비의 기계학습식 예측진단장치

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP5910379B2 (ja) * 2012-07-12 2016-04-27 ソニー株式会社 情報処理装置、情報処理方法、表示制御装置および表示制御方法
WO2014039028A1 (en) * 2012-09-04 2014-03-13 Nuance Communications, Inc. Formant dependent speech signal enhancement
CN103716470B (zh) * 2012-09-29 2016-12-07 华为技术有限公司 语音质量监控的方法和装置
JP6135106B2 (ja) * 2012-11-29 2017-05-31 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
CN104063155B (zh) * 2013-03-20 2017-12-19 腾讯科技(深圳)有限公司 内容分享方法、装置及电子设备
JP6206271B2 (ja) * 2014-03-17 2017-10-04 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法及び雑音低減プログラム
JP6464411B6 (ja) * 2015-02-25 2019-03-13 Dynabook株式会社 電子機器、方法及びプログラム
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
JP6597062B2 (ja) 2015-08-31 2019-10-30 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法、雑音低減プログラム
CA2996010C (en) * 2015-09-29 2023-09-26 Abraham ESPINOZA Warning system for animal farrowing operations
CN106920543B (zh) * 2015-12-25 2019-09-06 展讯通信(上海)有限公司 语音识别方法及装置
CN107481734B (zh) * 2017-10-13 2020-09-11 清华大学 语音质量评价方法及装置
WO2019133073A1 (en) * 2017-12-29 2019-07-04 Swinetech, Inc. Improving detection, prevention, and reaction in a warning system for animal farrowing operations
CN111567065B (zh) * 2018-01-09 2022-07-12 杜比实验室特许公司 降低不需要的声音传输
CN108831492B (zh) * 2018-05-21 2019-10-25 广州国视科技有限公司 一种处理语音数据的方法、装置、设备及可读存储介质
US10699727B2 (en) * 2018-07-03 2020-06-30 International Business Machines Corporation Signal adaptive noise filter
CN108922558B (zh) * 2018-08-20 2020-11-27 广东小天才科技有限公司 一种语音处理方法、语音处理装置及移动终端
SG10201809737UA (en) * 2018-11-01 2020-06-29 Rakuten Inc Information processing device, information processing method, and program
US11170799B2 (en) * 2019-02-13 2021-11-09 Harman International Industries, Incorporated Nonlinear noise reduction system
CN110431625B (zh) * 2019-06-21 2023-06-23 深圳市汇顶科技股份有限公司 语音检测方法、语音检测装置、语音处理芯片以及电子设备
JP7228497B2 (ja) * 2019-09-27 2023-02-24 三菱重工業株式会社 信号処理装置、信号処理方法およびプログラム
CN111883183B (zh) * 2020-03-16 2023-09-12 珠海市杰理科技股份有限公司 语音信号筛选方法、装置、音频设备和系统
CN111613250B (zh) * 2020-07-06 2023-07-18 泰康保险集团股份有限公司 长语音端点检测方法与装置、存储介质、电子设备
CN112185410B (zh) * 2020-10-21 2024-04-30 北京猿力未来科技有限公司 音频处理方法及装置
CN112562735B (zh) * 2020-11-27 2023-03-24 锐迪科微电子(上海)有限公司 语音检测方法、装置、设备和存储介质
CN113520356B (zh) * 2021-07-07 2024-04-30 浙江大学 基于柯氏音的心脏疾病早期诊断系统
CN115547312B (zh) * 2022-11-30 2023-03-21 深圳时识科技有限公司 带活动检测的预处理器、芯片和电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3033061B2 (ja) * 1990-05-28 2000-04-17 松下電器産業株式会社 音声雑音分離装置
JPH07123242B2 (ja) * 1993-07-06 1995-12-25 日本電気株式会社 音声信号復号化装置
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
CZ294349B6 (cs) * 1994-11-04 2004-12-15 Koninklijke Philips Electronics N.V. Zařízení pro kódování a dekódování širokopásmového digitálního informačního signálu, způsob kódování a dekódování, kódovaný signál a nosič záznamu
EP0867856B1 (fr) * 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6253182B1 (en) * 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
US7543148B1 (en) * 1999-07-13 2009-06-02 Microsoft Corporation Audio watermarking with covert channel and permutations
JP3588030B2 (ja) * 2000-03-16 2004-11-10 三菱電機株式会社 音声区間判定装置及び音声区間判定方法
US8019091B2 (en) * 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
JP4365103B2 (ja) * 2001-05-11 2009-11-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 圧縮オーディオにおける信号電力の推定
JP3963850B2 (ja) 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
US8073684B2 (en) * 2003-04-25 2011-12-06 Texas Instruments Incorporated Apparatus and method for automatic classification/identification of similar compressed audio files
US20050096898A1 (en) * 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
US7917356B2 (en) * 2004-09-16 2011-03-29 At&T Corporation Operating method for voice activity detection/silence suppression system
JP5081730B2 (ja) 2008-06-06 2012-11-28 株式会社レイトロン 音声区間検出装置および音声区間検出方法
JP5732976B2 (ja) * 2011-03-31 2015-06-10 沖電気工業株式会社 音声区間判定装置、音声区間判定方法、及びプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180019233A (ko) * 2015-12-28 2018-02-23 미츠비시 히타치 파워 시스템즈 가부시키가이샤 터빈 날개의 보수 방법
KR20180020289A (ko) * 2015-12-28 2018-02-27 미츠비시 히타치 파워 시스템즈 가부시키가이샤 터빈 날개의 보수 방법
KR102045739B1 (ko) * 2015-12-28 2019-11-18 미츠비시 히타치 파워 시스템즈 가부시키가이샤 터빈 날개의 보수 방법
KR102045742B1 (ko) * 2015-12-28 2019-11-18 미츠비시 히타치 파워 시스템즈 가부시키가이샤 터빈 날개의 보수 방법
KR101967629B1 (ko) * 2018-09-13 2019-04-10 임강민 원자력 발전설비 예측진단용 신호데이터 처리장치
KR101967637B1 (ko) * 2018-09-13 2019-04-10 임강민 증강현실을 활용한 원자력 발전설비 예측진단용 신호데이터 처리장치
KR101967641B1 (ko) * 2018-09-13 2019-04-10 임강민 증강현실을 활용한 원자력 발전설비의 기계학습식 예측진단장치
KR101967633B1 (ko) * 2018-09-13 2019-04-10 임강민 원자력 발전설비의 기계학습식 예측진단장치
KR101983603B1 (ko) * 2018-09-13 2019-05-29 임강민 증강현실을 활용한 원자력 발전설비의 기계학습식 예측진단장치
KR101984248B1 (ko) * 2018-09-13 2019-05-30 임강민 원자력 발전설비의 기계학습식 예측진단장치
KR101991296B1 (ko) * 2018-09-13 2019-06-27 임강민 원자력 발전설비의 기계학습식 예측진단장치

Also Published As

Publication number Publication date
CN102479504B (zh) 2015-12-09
US9047878B2 (en) 2015-06-02
CN102479504A (zh) 2012-05-30
US20120130711A1 (en) 2012-05-24
JP2012128411A (ja) 2012-07-05

Similar Documents

Publication Publication Date Title
JP5874344B2 (ja) 音声判定装置、音声判定方法、および音声判定プログラム
KR100883712B1 (ko) 음원 방향 추정 방법, 및 음원 방향 추정 장치
US8600073B2 (en) Wind noise suppression
JP2012133346A (ja) 音声処理装置および音声処理方法
EP1953734B1 (en) Sound determination method and sound determination apparatus
US20210074312A1 (en) Method and Apparatus for Detecting a Voice Activity in an Input Audio Signal
EP2828852B1 (en) Post-processing gains for signal enhancement
JP5862349B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
CN103718241B (zh) 噪音抑制装置
US20130191118A1 (en) Noise suppressing device, noise suppressing method, and program
US20110081026A1 (en) Suppressing noise in an audio signal
US8116463B2 (en) Method and apparatus for detecting audio signals
US9460731B2 (en) Noise estimation apparatus, noise estimation method, and noise estimation program
US8751221B2 (en) Communication apparatus for adjusting a voice signal
EP2851898B1 (en) Voice processing apparatus, voice processing method and corresponding computer program
JP2014122939A (ja) 音声処理装置および方法、並びにプログラム
CN112485761B (zh) 一种基于双麦克风的声源定位方法
CN106920543B (zh) 语音识别方法及装置
AU2024200622A1 (en) Methods and apparatus to fingerprint an audio signal via exponential normalization
JP6179081B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
CN113160846B (zh) 噪声抑制方法和电子设备
CN113316075A (zh) 一种啸叫检测方法、装置及电子设备
JP2013167805A (ja) ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム
JP5958218B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
JP5772648B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150320

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151023

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20151030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160104

R150 Certificate of patent or registration of utility model

Ref document number: 5874344

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150