JP6531412B2 - 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム - Google Patents

目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム Download PDF

Info

Publication number
JP6531412B2
JP6531412B2 JP2015023518A JP2015023518A JP6531412B2 JP 6531412 B2 JP6531412 B2 JP 6531412B2 JP 2015023518 A JP2015023518 A JP 2015023518A JP 2015023518 A JP2015023518 A JP 2015023518A JP 6531412 B2 JP6531412 B2 JP 6531412B2
Authority
JP
Japan
Prior art keywords
target sound
smoothing
power
threshold
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015023518A
Other languages
English (en)
Other versions
JP2016145940A (ja
Inventor
大 藤枝
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2015023518A priority Critical patent/JP6531412B2/ja
Priority to US15/011,465 priority patent/US9779762B2/en
Publication of JP2016145940A publication Critical patent/JP2016145940A/ja
Application granted granted Critical
Publication of JP6531412B2 publication Critical patent/JP6531412B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、SNR推定装置及びプログラムに関し、例えば、音声信号に重畳された雑音成分を抑圧する前処理の装置及びプログラムに適用し得るものである。
入力信号における、目的音成分である音声成分(背景技術の説明では目的音成分が音声成分であるとする)が含まれている区間(以下、音声区間と呼ぶ)を、音声成分が含まれていない区間(以下、非音声区間又は雑音区間と呼ぶ)と弁別できるように検出する音声区間検出技術では、従来、入力信号のパワーが所定の閾値以上ならば音声区間と判定するという方法が主に利用されている。しかし、この方法では、音声成分のパワー(以下、音声パワーと呼ぶ)や雑音成分のパワー(以下、雑音パワーと呼ぶ)が変動する場合には対応することが難しい。
一方、非特許文献1に記載されている技術を用いた音声区間検出装置は、図21のような構成を有する。すなわち、図21に示す音声区間検出装置1000は、パワー算出部1001、平滑化部1002、雑音パワー推定部1003、SNR推定部1004及び音声区間判定部1005を有する。非特許文献1の記載技術は、S/N比(以下、SNRと記載する)の推定技術に関するものであり、図21に示す構成のうち、音声区間判定部1005を除いた部分がSNRの推定のための構成である。なお、非特許文献1の5章「APPLICATIONS」には、音声区間判定部1005に相当する、所定の閾値を用いて音声区間を検出する応用例が示されている。
非特許文献1の記載技術を用いた音声区間検出動作を簡単に説明する。
パワー算出部1001は、16ミリ秒分(算出期間A)の入力信号の2乗和を算出して、これを入力パワーとする。平滑化部1002は、所定の定数係数α(αとして0.95〜0.98が好適)を用いて、直前の平滑化入力パワーのα倍とパワー算出部1001から与えられた入力パワーの(1−α)倍とを加算して、平滑化入力パワーとする。雑音パワー推定部1003は、過去156ミリ秒間(算出期間B)の最小の平滑化入力パワーを第1の暫定推定雑音パワーとし、過去625(算出期間C)ミリ秒間の最小の平滑化入力パワーを第2の暫定推定雑音パワーとし、第1の暫定推定雑音パワーが算出期間Cの間単調増加していれば第1の暫定推定雑音パワーを推定雑音パワーとし、単調増加していなければ第2の暫定推定雑音パワーを推定雑音パワーとする。SNR推定部1004は、推定雑音パワーに所定の定数係数β(例えば、βを1.5とする)を乗じて過大推定雑音パワーを得て、過大推定雑音パワーが平滑化入力パワーより大きければSNR推定値(ここでは事前SNRの推定値)を0とし、過大推定雑音パワーが平滑化入力パワーより小さければ平滑化入力パワーを過大推定雑音パワーで除した値から1を減じた値をSNR推定値とする。音声区間判定部1005は、SNR推定値が所定の閾値より大きければ音声区間を表す真値を出力し、そうでなければ非音声区間を表す偽値を出力する。非特許文献1の記載技術では、この閾値の具体的な値に言及していないが、例えば2.0を適用できる。
R.Martin,"An efficient algorithm to estimate the instantaneous SNR of speech signals,"in Proc.EUROSPEECH 1993,pp1093−1096,1993.
非特許文献1の記載技術は、推定雑音パワーを平滑化入力パワーの所定期間の最小値としているため、非音声区間における入力パワー(=雑音パワー)の変動の大きさによって結果が変わるという問題がある。この問題の一部は、推定雑音パワーに定数係数βを乗じることによって解決しているが、乗じるべき係数βは、非特許文献1で言及されている算出期間Aと算出期間Cだけでなく、雑音成分の特性によっても変化するものである。そのため、非特許文献1の記載技術では、最適な定数係数βを得ることはできず、さらに雑音成分の特性が変化した場合にも対応できない。
そのため、雑音パワーが変動している場合であっても高精度に目的音区間を検出することができる目的音区間検出装置及びプログラムが望まれており、また、そのような目的音区間検出装置及びプログラムを実現できる要素技術が望まれている。
第1の本発明は、入力信号における目的音区間を検出する目的音区間検出装置において、(1)上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、(2)上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段とを備え、(1a)上記第1の目的音区間検出手段は、上記第2の目的音区間検出手段が所定の単位時間前に出力した、第2の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第1の閾値を生成し、(2a)上記第2の目的音区間検出手段は、上記第1の目的音区間検出手段が同一の単位時間で出力した、第1の目的音区間の検出結果を少なくとも含む第1のパラメータを用いて上記第2の閾値を生成することを特徴とする。
第2の本発明は、入力信号における目的音区間を検出する目的音区間検出装置において、(1)上記入力信号に対して周波数解析する周波数解析部と、(2)周波数解析で得られた複数の周波数帯域の信号のそれぞれにおける、目的音区間を検出する複数の帯域別目的音区間検出手段と、(3)上記各帯域別目的音区間検出手段における目的音区間の検出結果を統合する帯域別結果統合部とを有し、(2a)上記各帯域別目的音区間検出手段として、それぞれ、第1の本発明の目的音区間検出装置の構成を適用していることを特徴とする。
第3の本発明は、入力信号における雑音パワーを推定する雑音推定装置において、(1)上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、(2)上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段とを備え、(1)上記第1の目的音区間検出手段は、(1−1)所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、(1−2)上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、(1−3)上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、(2)上記第2の目的音区間検出手段は、(2−1)同一の単位時間の上記第1の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第2の入力パワーを平滑化して第2の平滑化パワーを算出する第2の平滑化部と、(2−2)上記第2の平滑化パワーを少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、(2−3)上記第2の入力パワーを上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、(3)上記第1の平滑化部又は上記第2の平滑化部は、所定の単位時間前の上記第2の目的音区間の検出結果又は同一の単位時間の上記第1の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第1の平滑化パワー又は上記第2の平滑化パワーとして雑音パワーの推定値を得ることを特徴とする。
第4の本発明は、入力信号におけるSNRを推定するSNR推定装置において、(1)上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、(2)上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段とを備え、(1)上記第1の目的音区間検出手段は、(1−1)所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、(1−2)上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、(1−3)上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、(2)上記第2の目的音区間検出手段は、(2−1)同一の単位時間の上記第2の入力パワー及び上記第1の平滑化パワーに基づいてSNRの推定値を算出するSNR算出部と、(2−2)同一の単位時間の上記第1の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記SNR推定値を平滑化してSNRの平滑値を算出する第2の平滑化部と、(2−3)上記SNR平滑値を少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、(2−4)上記SNR推定値を上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、(3)上記SNR算出部からの上記SNR推定値を上記入力信号におけるSNR推定値として得ることを特徴とする。
第5の本発明は、入力信号における目的音区間を検出する目的音区間検出プログラムであって、コンピュータを、(1)上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、(2)上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段として機能させるものであり、(1a)上記第1の目的音区間検出手段は、上記第2の目的音区間検出手段が所定の単位時間前に出力した、第2の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第1の閾値を生成し、(2a)上記第2の目的音区間検出手段は、上記第1の目的音区間検出手段が同一の単位時間で出力した、第1の目的音区間の検出結果を少なくとも含む第1のパラメータを用いて上記第2の閾値を生成することを特徴とする。
第6の本発明は、入力信号における雑音パワーを推定する雑音推定プログラムであって、コンピュータを、(1)上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、(2)上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段として機能させるものであり、(1)上記第1の目的音区間検出手段は、(1−1)所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、(1−2)上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、(1−3)上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、(2)上記第2の目的音区間検出手段は、(2−1)同一の単位時間の上記第1の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第2の入力パワーを平滑化して第2の平滑化パワーを算出する第2の平滑化部と、(2−2)上記第2の平滑化パワーを少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、(2−3)上記第2の入力パワーを上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、(3)上記第1の平滑化部又は上記第2の平滑化部は、所定の単位時間前の上記第2の目的音区間の検出結果又は同一の単位時間の上記第1の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第1の平滑化パワー又は上記第2の平滑化パワーとして雑音パワーの推定値を得ることを特徴とする。
第7の本発明は、入力信号におけるSNRを推定するSNR推定プログラムであって、コンピュータを、(1)上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、(2)上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段として機能させ、(1)上記第1の目的音区間検出手段は、(1−1)所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、(1−2)上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、(1−3)上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、(2)上記第2の目的音区間検出手段は、(2−1)同一の単位時間の上記第2の入力パワー及び上記第1の平滑化パワーに基づいてSNRの推定値を算出するSNR算出部と、(2−2)同一の単位時間の上記第1の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記SNR推定値を平滑化してSNRの平滑値を算出する第2の平滑化部と、(2−3)上記SNR平滑値を少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、(2−4)上記SNR推定値を上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、(3)上記SNR算出部からの上記SNR推定値を上記入力信号におけるSNR推定値として得ることを特徴とする。
本発明によれば、雑音パワーが変動している場合であっても高精度に目的音区間を検出することができる目的音区間検出装置及びプログラムを提供できる。また、そのような目的音区間検出装置及びプログラムを実現できる雑音推定装置及びプログラムやSNR推定装置及びプログラムを提供できる。
第1の実施形態の音声区間検出装置の構成を示すブロック図である。 第1の実施形態の音声区間検出装置における第1の音声区間検出部の詳細構成を示すブロック図である。 第1の実施形態の音声区間検出装置における第2の音声区間検出部の詳細構成を示すブロック図である。 第1の実施形態の音声区間検出装置における各部信号波形図(その1)である。 第1の実施形態の音声区間検出装置における各部信号波形図(その2)である。 第1の実施形態の音声区間検出装置における各部信号波形図(その3)である。 第1の実施形態の音声区間検出装置における各部信号波形図(その4)である。 第1の実施形態の音声区間検出装置における各部信号波形図(その5)である。 第1の実施形態の音声区間検出装置における各部信号波形図(その6)である。 第1の実施形態を変形した実施形態の音声区間検出装置の構成を示すブロック図である。 第2の実施形態の音声区間検出装置における第1の音声区間検出部の詳細構成を示すブロック図である。 第2の実施形態の音声区間検出装置における第2の音声区間検出部の詳細構成を示すブロック図である。 第2の実施形態の音声区間検出装置における各部信号波形図(その1)である。 第2の実施形態の音声区間検出装置における各部信号波形図(その2)である。 第2の実施形態の音声区間検出装置における各部信号波形図(その3)である。 第2の実施形態の音声区間検出装置における各部信号波形図(その4)である。 第2の実施形態の音声区間検出装置における各部信号波形図(その5)である。 第2の実施形態の音声区間検出装置における各部信号波形図(その6)である。 第3の実施形態の音声区間検出装置における第1の音声区間検出部の詳細構成を示すブロック図である。 第3の実施形態の音声区間検出装置における第2の音声区間検出部の詳細構成を示すブロック図である。 従来の音声区間検出装置の構成を示すブロック図である。
(A)第1の実施形態
以下、本発明による目的音区間検出装置及びプログラム、並びに、雑音推定装置及びプログラムの第1の実施形態を、図面を参照しながら説明する。
第1の実施形態の目的音区間検出装置は、目的音区間が音声区間である音声区間検出装置である。第1の実施形態の音声区間検出装置及びプログラムには、第1の実施形態の雑音推定装置及びプログラムが要素技術として適用されているが、SNR推定装置及びプログラムは適用されていない。
(A−1)第1の実施形態の構成
図1は、第1の実施形態の音声区間検出装置の構成を示すブロック図である。
第1の実施形態の音声区間検出装置は、図1で示す構成部分をハードウェアで構成することも可能であり、また、CPUが実行するソフトウェア(音声区間検出プログラム)とCPUとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図1で表すことができる。
図1において、第1の実施形態の音声区間検出装置100は、パワー算出部101、第1の音声区間検出部102、第2の音声区間検出部103及び単位時間遅延部104を有する。
パワー算出部101は、入力信号(例えばデジタル信号)のTP秒間のパワーを算出し、得られた入力パワーPinを第1の音声区間検出部102及び第2の音声区間検出部103に与えるものである。パワーの算出方法として、公知の算出方法を適用することができる。例えば、2乗和若しくは絶対値和を入力パワーとして算出するようにしても良く、TP秒間の最大振幅を入力パワーとして算出するようにしても良い。
第1の音声区間検出部102は、1単位時間前の第2の音声区間検出部103の検出結果である第2の音声区間真偽値V2を含む第2のパラメータF2と、入力パワーPinとを用いて音声区間検出を行い、得られた音声区間真偽値(第1の音声区間真偽値)V1を含む第1のパラメータF1を第2の音声区間検出部103に与えるものである。音声区間を繰返し検出する上述した単位時間は、デジタル信号でなる入力信号のサンプリング周期(例えば、サンプリング周波数は8kHz)であっても良く、また、音声処理などで適用されている10ミリ秒等のフレームであっても良い。
第2の音声区間検出部103は、第1の音声区間検出部102の検出結果である第1の音声区間真偽値V1を少なくとも含む第1のパラメータF1と、入力パワーPinとを用いて音声区間検出を行い、得られた音声区間真偽値(第2の音声区間真偽値)V2を少なくとも含む第2のパラメータF2を、単位時間遅延部104を介して第1の音声区間検出部103に与えると共に、得られた音声区間真偽値(第2の音声区間真偽値)V2を、当該音声区間検出装置100からの出力として、次段の装置に与えるものである。
単位時間遅延部104は、第2の音声区間検出部103から出力された第2のパラメータF2を1単位時間だけ遅延させて第1の音声区間検出部102に与えるものである。
第1の音声区間検出部102及び第2の音声区間検出部103はそれぞれ、既存の音声区間検出技術をアレンジして適用しているものである。第1の音声区間検出部102が適用している既存の音声区間検出技術と、第2の音声区間検出部103が適用している既存の音声区間検出技術とは異なっていても良く、また、同じであっても良い。
第1の実施形態についての後述する説明では、第1の音声区間検出部102から第2の音声区間検出部103へは第1の音声区間真偽値V1を与え、第2の音声区間検出部103から第1の音声区間検出部102へ第2の音声区間真偽値V2を与える場合を説明する。しかし、第1の音声区間検出部102が適用している音声区間検出技術によっては他の値(算出値など)も第2の音声区間検出部103へ与えるようにしても良く、また、第2の音声区間検出部103が適用している音声区間検出技術によっては他の値(算出値など)も第1の音声区間検出部102へ与えるようにしても良い。また、同様な音声区間検出技術を適用している場合であっても、他方の音声区間検出部102又は103へ音声区間真偽値以外の値(算出値など)も与えるようにしても良い(後述する第2の実施形態や第3の実施形態参照)。そのため、上述したように、第1のパラメータF1や第2のパラメータF2を与えると表現している。
なお、図1では、第1の音声区間検出部102及び第2の音声区間検出部103がそれぞれ、入力パワーを利用して音声区間を検出する音声区間検出技術を適用しているため、共通に適用できるパワー算出部101を、第1の音声区間検出部102及び第2の音声区間検出部103の外部に記載しているが、第1の音声区間検出部102及び第2の音声区間検出部103の多くても一方だけが入力パワーを利用して音声区間を検出する音声区間検出技術を適用している場合には、共通するパワー算出部101は不要となる。また例えば、第1の音声区間検出部102が利用する入力パワーがTP秒間の2乗和であり、第2の音声区間検出部103が利用する入力パワーがTP秒間の最大振幅であるように、第1の音声区間検出部102及び第2の音声区間検出部103が利用する入力パワーが異なっていても良く、このような場合には、パワー算出部を、第1の音声区間検出部102及び第2の音声区間検出部103毎に別個に設けることを要する。以上を考慮して厳密に言えば、図1のパワー算出部101及び第1の音声区間検出部102で一方の音声区間検出部が構成され、図1のパワー算出部101及び第2の音声区間検出部103で他方の音声区間検出部が構成されているということができる。
図2は、第1の音声区間検出部102の詳細構成例を示すブロック図である。図2において、第1の音声区間検出部102は、第1の平滑化部201、第1の閾値算出部202及び第1の音声区間判定部203を有する。
第1の平滑化部201は、第1の音声区間参考真偽値Vr1(=1単位時間前の第2の音声区間真偽値V2)に基づいて入力パワーPinを平滑化し、得られた第1の平滑化パワーP1を第1の閾値算出部202に与える。第1の平滑化部201は、第1の音声区間参考真偽値Vr1が偽値(すなわち、雑音区間を表す値)であるときには入力パワーPinを平滑化して第1の平滑化パワーP1を更新し、第1の音声区間参考真偽値Vr1が真値(すなわち、音声区間を表す値)であるときには第1の平滑化パワーP1を更新しない。従って、第1の平滑化パワーP1が意味するのは雑音パワーの平滑化値(雑音パワーの平均的な値)である。なお、平滑化方法や平滑化構成は何ら限定されるものではない。例えば、時定数が0.2秒の時定数フィルタを用いて平滑化する。
第1の閾値算出部202は、第1の平滑化パワーP1に1以上の値をとる所定の定数係数C1(以下、第1の係数と呼ぶ)を乗じて、入力パワーPinと比較する第1の閾値TH1を形成して第1の音声区間判定部203に与えるものである。第1の平滑化パワーP1が雑音パワーの平均的な値を意味し、これに乗算することで、音声パワーと雑音パワーとを切り分けるための第1の閾値TH1を定める第1の係数C1の値は、限定されるものではないが、例えば、2を適用することができる。
第1の音声区間判定部203は、第1の閾値TH1と入力パワーPinを比較して音声区間か否かを判定し、第1の音声区間真偽値V1を出力する。第1の音声区間判定部203は、入力パワーPinが第1の閾値TH1より大きければ第1の音声区間真偽値V1として真値を出力し、そうでなければ偽値を出力する。
図3は、第2の音声区間検出部103の詳細構成例を示すブロック図である。図3において、第2の音声区間検出部103は、第2の平滑化部301、第2の閾値算出部302及び第2の音声区間判定部303を有する。
第2の平滑化部301は、第2の音声区間参考真偽値Vr2(同一単位時間における第1の音声区間真偽値V1)に基づいて入力パワーPinを平滑化し、得られた第2の平滑化パワーP2を第2の閾値算出部302に与える。第2の平滑化部301は、第2の音声区間参考真偽値Vr2が真値(すなわち、音声区間を表す値)であるときには入力パワーPinを平滑化して第2の平滑化パワーP2を更新し、第2の音声区間参考真偽値Vr2が偽値(すなわち、雑音区間を表す値)であるときには第2の平滑化パワーP2を更新しない。従って、第2の平滑化パワーP2が意味するのは音声パワーの平滑化値(音声パワーの平均的な値)である。なお、平滑化方法や平滑化構成は何ら限定されるものではない。例えば、時定数が0.8秒の時定数フィルタを用いて平滑化する。
時定数は対象信号の追従性と平滑化された値の安定性とのトレードオフで決定されるものであり、上述した第1の平滑化部201は雑音区間の入力パワーPinを平滑化するのに対して、第2の平滑化部301は音声区間の入力パワーPinを平滑化するので、後者の方については安定性に重みをおき、後者の時定数の方を長くするように選定した。
第2の閾値算出部302は、第2の平滑化パワーP2に0より大きく1以下の値をとる所定の定数係数C2(以下、第2の係数と呼ぶ)を乗じて、入力パワーPinと比較する第2の閾値TH2を形成して第2の音声区間判定部303に与えるものである。第2の平滑化パワーP1が音声パワーの平均的な値を意味し、これに乗算することで、音声パワーと雑音パワーとを切り分けるための第2の閾値TH2を定める第2の係数C2の値は、限定されるものではないが、例えば、0.5を適用することができる。
第2の音声区間判定部303は、第2の閾値TH2と入力パワーPinを比較して音声区間か否かを判定し、第2の音声区間真偽値V2を出力する。第2の音声区間判定部303は、入力パワーPinが第2の閾値TH2より大きければ第2の音声区間真偽値V2として真値を出力し、そうでなければ偽値を出力する。
上述した第1の音声区間検出部102及び/又は第2の音声区間検出部103は、音声区間検出で多用されるハングオーバーを行うようにしても良い。ハングオーバーについては、後述する動作説明の項で明らかにする。
(A−2)第1の実施形態の動作
次に、上述した構成を有する第1の実施形態の音声区間検出装置100の動作を説明する。まず、第1の実施形態の音声区間検出装置100の全体動作を説明した後、第1の音声区間検出部102及び第2の音声区間検出部103の動作を順に説明し、さらに、ハングオーバー動作についても説明する。
図4〜図9は、第1の実施形態の音声区間検出装置100における各部信号波形図である。図4は第1の実施形態の音声区間検出装置100への入力信号を示し、図5は入力パワーPinを示し、図6は第1の平滑化パワーP1(実線)を示し、図7は第1の音声区間真偽値V1を示し、図8は第2の平滑化パワーP2(実線)を示し、図9は第2の音声区間真偽値V2を示している。なお、図7及び図9はそれぞれ、後述するように第1の音声区間判定部203及び第2の音声区間判定部303の両方でハングオーバー動作を採用し、第1の音声区間判定部203におけるハングオーバー時間Thn1が、第2の音声区間判定部303におけるハングオーバー時間Thn2より短い場合での信号波形図を示している。
図1において、第1の実施形態の音声区間検出装置100への入力信号(図4参照)はパワー算出部101に与えられ、パワー算出部101において、入力信号のTP秒間のパワーが算出され、得られた入力パワーPin(図5参照)が第1の音声区間検出部102及び第2の音声区間検出部103に与えられる。
第1の音声区間検出部102には、入力パワーPinに加え、1単位時間前の第2の音声区間検出部103の検出結果である第2の音声区間真偽値V2(図9参照)が与えられる。第1の音声区間検出部102においては、入力パワーPinと1単位時間前の第2の音声区間真偽値V2とが適用されて、後述するような音声区間検出動作が実行され、得られた第1の音声区間真偽値V1(図7参照)が第2の音声区間検出部103に与えられる。
第2の音声区間検出部103には、入力パワーPinに加え、第1の音声区間検出部102の検出結果である第1の音声区間真偽値V1が与えられる。第2の音声区間検出部103においては、入力パワーPinと第1の音声区間真偽値V1とが適用されて、後述するような音声区間検出動作が実行され、得られた第2の音声区間真偽値V2が単位時間遅延部104を介して1単位時間だけ遅延されて第2の音声区間検出部103に与えられると共に、得られた第2の音声区間真偽値V2が、当該音声区間検出装置100からの出力として、次段の装置に与えられる。
次に、第1の音声区間検出部102の動作を、図2を参照しながら説明する。
第1の平滑化部201においては、第1の音声区間参考真偽値Vr1(=1単位時間前の第2の音声区間真偽値V2)に基づいて入力パワーPinが平滑化される。すなわち、第1の音声区間参考真偽値Vr1が偽値であるときには入力パワーPinが平滑化されて第1の平滑化パワーP1(図6参照)が更新され、一方、第1の音声区間参考真偽値Vr1が真値であるときには第1の平滑化パワーP1が更新されずにその直前の第1の平滑化パワーP1が維持される。
上述のようにして得られた第1の平滑化パワーP1が第1の閾値算出部202に与えられ、第1の閾値算出部202において、1以上の値をとる第1の係数C1が乗算される。そして、第1の音声区間判定部203において、乗算結果である第1の閾値TH1と、入力パワーPinとが比較され、入力パワーPinが第1の閾値TH1より大きいときに、真値の第1の音声区間真偽値V1が第1の音声区間判定部203から第2の音声区間検出部103へ出力され、入力パワーPinが第1の閾値TH1以下のときに、偽値の第1の音声区間真偽値V1が第1の音声区間判定部203から第2の音声区間検出部103へ出力される。
次に、第2の音声区間検出部103の動作を、図3を参照しながら説明する。
第2の平滑化部301においては、第2の音声区間参考真偽値Vr2(=同一の単位時間での第1の音声区間真偽値V1)に基づいて入力パワーPinが平滑化される。すなわち、第2の音声区間参考真偽値Vr2が真値であるときには入力パワーPinが平滑化されて第2の平滑化パワーP2(図8参照)が更新され、一方、第2の音声区間参考真偽値Vr2が偽値であるときには第2の平滑化パワーP2が更新されずにその直前の第2の平滑化パワーP2が維持される。
上述のようにして得られた第2の平滑化パワーP2が第2の閾値算出部302に与えられ、第2の閾値算出部302において、0より大きく1以下の値をとる第2の係数C2が乗算される。そして、第2の音声区間判定部303において、乗算結果である第2の閾値TH2と、入力パワーPinとが比較され、入力パワーPinが第2の閾値TH2より大きいときに、真値の第2の音声区間真偽値V2が第2の音声区間判定部303から第1の音声区間検出部102及び次段の装置へ出力され、入力パワーPinが第2の閾値TH2以下のときに、偽値の第2の音声区間真偽値V2が第2の音声区間判定部303から第1の音声区間検出部102及び次段の装置へ出力される。
以上では、ハングオーバー動作を実行しないように説明したが、第1の音声区間判定部203及び第2の音声区間判定部303の少なくとも一方でハングオーバー動作を実行するようにしても良い。
以下、第1の音声区間判定部203及び第2の音声区間判定部303の少なくとも一方で実行されるハングオーバー動作について説明する。なお、ハングオーバー動作は、第1の音声区間判定部203及び第2の音声区間判定部303の両方で行っても良く、また、一方で行っても良い(但し、第1の音声区間判定部203及び第2の音声区間判定部303の両方でハングオーバー動作を実行しない実施形態も本発明の一つの実施形態となる)。
第1の音声区間判定部203におけるハングオーバー動作と第2の音声区間判定部303におけるハングオーバー動作とは、同様であるので、以下では、第1の音声区間判定部203におけるハングオーバー動作のみを説明し、第2の音声区間判定部303におけるハングオーバー動作の説明は省略する。
第1の音声区間判定部203に関し、最後に真値が出力されてからの第1の経過時間Te1に対する所定のハングオーバー時間Thn1を予め定めておく。第1の音声区間判定部203は、第1の閾値TH1と入力パワーPinを比較した際、(i)Pin>TH1である場合には真値の第1の音声区間真偽値V1を出カすると共に第1の経過時間Te1を0クリアし、(ii)Pin≦TH1且つTe1≦Thn1である場合には真値の第1の音声区間真偽値V1を出カすると共に第1の経過時間Te1を1単位時間分だけインクリメントし、(iii)Pin≦TH1且つTe1>Thn1である場合には偽値の第1の音声区間真偽値V1を出力する。
ここで、第1の音声区間判定部203及び第2の音声区間判定部303の両方でハングオーバー動作を行う場合において、第1の音声区間判定部203におけるハングオーバー時間Thn1と、第2の音声区間判定部303におけるハングオーバー時間Thn2とは同じであっても良く、また、異なっていても良い。以下では、異なるようにさせる例を説明する。第1の実施形態では、第1の音声区間真偽値V1は第2の音声区間検出部103において音声パワーの平均的な値の推定に用いられるので、雑音区間を誤って音声区間と判定させないために、第1の音声区間判定部203のハングオーバー時間Thn1は短めに設定される。逆に、第2の音声区間真偽値V2は第1の音声区間検出部102において雑音パワーの平均的な値の推定に用いられるので、音声区間を誤って雑音区間と判定させないために、第2の音声区間判定部303のハングオーバー時間Thn2は長めに設定される。例えば、第1の音声区間判定部203におけるハングオーバー時間Thn1を0.1秒とし、第2の音声区間判定部303におけるハングオーバー時間Thn2を0.2秒とする設定が好適である。
(A−3)第1の実施形態の構成に至った考え方
次に、第1の実施形態の音声区間検出装置100の構成に至った考え方(後述する実施形態も同様である)を説明する。
本来、音声区間を検出するためにはSNRが必要であり(非特許文献1参照)、SNRの算出に必要な雑音パワーを推定するには音声区間か否かが既知でなければならない。従って、各推定及び検出が1回ずつしか行われない場合、それらは不正確な情報に基づいて行われることとなり、得られる結果も不正確となる。
発明者はこの矛盾点に注目し、各推定及び検出を2回繰り返すことで推定精度及び検出精度を向上させられると考えた。ここで、2回目の推定及び検出のために1回目の結果を利用し(フィードフォワード)、さらには1回目の推定及び検出のために直前に実施された2回目の結果を利用する(フィードバック)。
仮に、パラメータのフィードバックがない場合、1回目の推定及び検出は何ら事前情報を得ないまま実施されるため、粗い結果、若しくは精度の悪い結果しか得られない。2回目の推定及び検出によって多少の精度の改善はなされるが、1回目の結果の信頼性が低いため、その改善度合いは限定的となる。
一方、パラメータのフィードバックがある場合、1回目の推定及び検出は、事前情報として、1単位時間前に実施された精度の良い2回目の推定及び検出の結果を利用できる。該結果は1単位時間の遅延を有するほかは信頼に足る情報であるから、1回目の推定及び検出の結果も一定以上の精度を保つことができる。そして、2回目の推定及び検出によってその精度はさらに改善され、結果として高安定性と高精度を有する音声区間の検出結果を得ることができる。
またさらに、1回目は非音声区間の特徴に基づいた推定及び検出を行い、2回目は音声区間の特徴に基づいた推定及び検出を行うというように、1回目と2回目とでは異なる観点を持たせることで、それぞれの欠点を補い合うことができるので、より高い安定性と精度を得ることができる。
以上により、推定及び検出を2回行って、それぞれの結果をフィードフォワードし且つフィードバックする方法は、1回しか行わない方法やフィードバックを行わない方法に比して格段に推定精度を向上させることができる。さらに、2回の推定及び検出を、それぞれ異なる観点で行うことで、さらに推定精度を向上させることができる。
(A−4)第1の実施形態の効果
第1の実施形態によれば、第1の音声区間検出部及び第2の音声区間検出部が互いのパラメータ(音声パワーの平均的な値の推定値(平滑化パワーP1)及び音声区間の検出結果、並びに、雑音パワーの平均的な値の推定値(平滑化パワーP2)及び音声区間の検出結果)の更新を補い合うことで、パラメータを安定に更新させることができ、精度の高い音声区間の検出結果を得ることができる。
(A−5)第1の実施形態の変形実施形態
上述した第1の実施形態の説明では、第2の音声区間検出部103(言い換えると第2の音声区間判定部303)がハングオーバー動作をしても良く、また、ハングオーバー動作をしなくても良い旨を説明した。ハングオーバー動作を行う場合であれば、第1の音声区間検出部102にフィードバックされる音声区間真偽値も次段の装置に出力される音声区間真偽値もハングオーバー動作されたものとなり、ハングオーバー動作を行なわない場合であれば、第1の音声区間検出部102にフィードバックされる音声区間真偽値も次段の装置に出力される音声区間真偽値もハングオーバー動作がなされていないものとなる。
図10は、第1の実施形態をハングオーバー面で変形した実施形態の音声区間検出装置100Aの構成を示すブロック図である。
この音声区間検出装置100Aにおいては、ハングオーバー動作を実行しない第2の音声区間検出部103(言い換えると第2の音声区間判定部303)に加えて、第2の音声区間検出部103から出力された第2の音声区間真偽値V2に対してハングオーバー動作を実行するハングオーバー部105が設けられている。第2の音声区間検出部103から出力された第2の音声区間真偽値V2は、単位時間遅延部104を介して第1の音声区間検出部102に与えられると共に、ハングオーバー部105を介して次段の装置に与えられる。
ハングオーバー部105には、自己が出力する音声区間真偽値V0に真値が設定されてからの経過時間Te0に対する所定のハングオーバー時間Thn0を予め定めておく。ハングオーバー部105は、(i)入力された第2の音声区間真偽値V2が真値である場合には真値の音声区間真偽値V0を出カすると共に経過時間Te0を0クリアし、(ii)第2の音声区間真偽値V2が偽値で且つTe0≦Thn0である場合には真値の音声区間真偽値V0を出カすると共に経過時間Te0を1単位時間分だけインクリメントし、(iii)第2の音声区間真偽値V2が偽値で且つTe0>Thn0である場合には偽値の音声区間真偽値V0を出力する。ハングオーバー時間Thn0は、音声区間真偽値V0の用途によって最適な値は異なるが、例えば、音声認識に利用する場合であれば0.5秒が好適である。
(B)第2の実施形態
次に、本発明による目的音区間検出装置及びプログラムの第2の実施形態を、図面を参照しながら説明する。
第2の実施形態の目的音区間検出装置は、目的音区間が音声区間である音声区間検出装置である。第2の実施形態の音声区間検出装置及びプログラムには、上述した第1の実施形態の雑音推定装置及びプログラムが要素技術として適用されているが、SNR推定装置及びプログラムは適用されていない。
(B−1)第2の実施形態の構成
第2の実施形態の音声区間検出装置(以下、符号「100B」を用いる)の全体構成も、上述した図1で表すことができる。但し、第1の音声区間検出部(以下、符号「102B」を用いる)及び第2の音声区間検出部(以下、符号「103B」を用いる)の詳細な構成が第1の実施形態と異なっている。そのため、以下では、主として、第1の音声区間検出部102B及び第2の音声区間検出部103Bの詳細構成を説明する。
図11は、第2の実施形態における第1の音声区間検出部102Bの詳細構成を示すブロック図であり、上述した第1の実施形態に係る図2との同一、対応部分には同一、対応符号を付して示している。
図11において、第1の音声区間検出部102Bは、第1の平滑化部201、第1の閾値算出部202B及び第1の音声区間判定部203を有する。第1の平滑化部201及び第1の音声区間判定部203は第1の実施形態のものと同様であるので、その機能説明は省略する。
第2の実施形態における第1の閾値算出部202Bは、第1の平滑化部201から出力された第1の平滑化パワーP1と、単位時間遅延部104を介して第2の音声区間検出部103Bから与えられた第1の参考平滑化パワーPr1(=1単位時間前の第2の平滑化パワーP2)とに基づいて、入力パワーPinと比較する第1の閾値TH1Bを形成して第1の音声区間判定部203に与えるものである。
第1の閾値TH1Bの形成に用いられる2つの値のうち、第1の平滑化パワーP1が雑音パワーの平均的な値を意味し、第1の参考平滑化パワーPr1が1単位時間前の音声パワーの平均的な値を意味するので、第1の閾値TH1Bとして、第1の平滑化パワーP1及び第1の参考平滑化パワーPr1の平均値を適用することが好ましい。平均値は相加平均(P1+Pr1)/2であっても相乗平均(P1×Pr1)1/2であっても良い。第1の閾値TH1Bとして平均値以外を適用する場合においては、第1の閾値TH1Bを、第1の平滑化パワーP1より大きく平均値より小さい値とし、第1の音声区間判定部203で雑音区間より音声区間と判定される機会を多くすることが好ましい。演算の容易性などから、第1の閾値TH1Bの値として相加平均(P1+Pr1)/2が好適である。
第2の実施形態の場合、第1の音声区間検出部102Bは、第1の平滑化部201から出力された第1の平滑化パワーP1と第1の音声区間判定部203から出力された第1の音声区間真偽値V1とを含む第1のパラメータF1を第2の音声区間検出部103Bに与える。
図12は、第2の実施形態における第2の音声区間検出部103Bの詳細構成を示すブロック図であり、上述した第1の実施形態に係る図3との同一、対応部分には同一、対応符号を付して示している。
図12において、第2の音声区間検出部103Bは、第2の平滑化部301、第2の閾値算出部302B及び第2の音声区間判定部303を有する。第2の平滑化部301及び第2の音声区間判定部303は第1の実施形態のものと同様であるので、その機能説明は省略する。
第2の実施形態における第2の閾値算出部302Bは、第2の平滑化部301から出力された第2の平滑化パワーP2と、第1の音声区間検出部102Bから与えられた第2の参考平滑化パワーPr2(=同一単位時間の第1の平滑化パワーP1)とに基づいて、入力パワーPinと比較する第2の閾値TH2Bを形成して第2の音声区間判定部303に与えるものである。
第2の閾値TH2Bの形成に用いられる2つの値のうち、第2の平滑化パワーP2が音声パワーの平均的な値を意味し、第2の参考平滑化パワーPr2が雑音パワーの平均的な値を意味するので、第2の閾値TH2Bとして、第2の平滑化パワーP2及び第2の参考平滑化パワーPr2の平均値を適用することが好ましい。平均値は相加平均(P2+Pr2)/2であっても相乗平均(P2×Pr2)1/2であっても良い。第2の閾値TH2Bとして平均値以外を適用する場合においては、第2の閾値TH2Bを、第1の平滑化パワーP1より大きく平均値より小さい値とし、第2の音声区間判定部303で雑音区間より音声区間と判定される機会を多くすることが好ましい。演算の容易性などから、第2の閾値TH2Bの値として相加平均(P1+Pr1)/2が好適である。
第2の実施形態の場合、第2の音声区間検出部103Bは、第2の平滑化部301から出力された第2の平滑化パワーP2と第2の音声区間判定部303から出力された第2の音声区間真偽値V2とを含む第2のパラメータF2を単位時間遅延部104を介して第1の音声区間検出部102Bに与えると共に、第2の音声区間判定部303から出力された第2の音声区間真偽値V2を次段の装置に与える。
(B−2)第2の実施形態の動作
次に、第2の実施形態の音声区間検出装置100Bの動作を説明する。第2の実施形態の音声区間検出装置100Bの全体動作も第1の実施形態の音声区間検出装置100の全体動作と同様であるので全体動作の説明は省略し、以下では、第2の実施形態における第1の音声区間検出部102B及び第2の音声区間検出部103Bの動作を順に説明する。
図13〜図18は、第2の実施形態の音声区間検出装置100Bにおける各部信号波形図である。なお、図13〜図18の各部信号が前提とする入力信号及び入力パワーPinの信号波形図は、上述した図4及び図5の通りである。図13は第1の平滑化パワーP1(実線)を示し、図14は第1の閾値TH1B(実線)を示し、図15は第1の音声区間真偽値V1を示し、図16は第2の平滑化パワーP2(実線)を示し、図17は第2の閾値TH2B(実線)を示し、図18は第2の音声区間真偽値V2を示している。
まず、第1の音声区間検出部102Bの動作を、図11を参照しながら説明する。
第1の平滑化部201においては、第1の音声区間参考真偽値Vr1(=1単位時間前の第2の音声区間真偽値V2;図18参照)に基づいて入力パワーPin(図5参照)が平滑化され、得られた第1の平滑化パワーP1(図13参照)が第1の閾値算出部202Bに与えられる。第1の閾値算出部202Bには、1単位時間前の第2の平滑化パワーP2である第1の参考平滑化パワーPr1(図16参照)も与えられる。第1の閾値算出部202Bにおいては、第1の平滑化パワーP1と第1の参考平滑化パワーPr1とに基づいて、入力パワーPinと比較される第1の閾値TH1B(図14参照)が上述した方法により形成されて第1の音声区間判定部203に与えられる。そして、第1の音声区間判定部203において、第1の閾値TH1Bと、入力パワーPinとが比較され、入力パワーPinが第1の閾値TH1Bより大きいときに、真値の第1の音声区間真偽値V1(図15参照)が形成され、入力パワーPinが第1の閾値TH1B以下のときに、偽値の第1の音声区間真偽値V1(図15参照)が形成される。そして、第1の平滑化部201から出力された第1の平滑化パワーP1と第1の音声区間判定部203から出力された第1の音声区間真偽値V1とを含む第1のパラメータF1が第2の音声区間検出部103Bに与えられる。
次に、第2の音声区間検出部103Bの動作を、図12を参照しながら説明する。
第2の平滑化部301においては、第2の音声区間参考真偽値Vr2(=同一単位時間の第1の音声区間真偽値V1;図15参照)に基づいて入力パワーPin(図5参照)が平滑化され、得られた第2の平滑化パワーP2(図16参照)が第2の閾値算出部302Bに与えられる。第2の閾値算出部302Bには、同一単位時間の第1の平滑化パワーP1である第2の参考平滑化パワーPr2(図13参照)も与えられる。第2の閾値算出部302Bにおいては、第2の平滑化パワーP2と第2の参考平滑化パワーPr2とに基づいて、入力パワーPinと比較される第2の閾値TH2B(図17参照)が上述した方法により形成されて第2の音声区間判定部303に与えられる。そして、第2の音声区間判定部303において、第2の閾値TH2Bと、入力パワーPinとが比較され、入力パワーPinが第2の閾値TH2Bより大きいときに、真値の第2の音声区間真偽値V2(図18参照)が形成され、入力パワーPinが第2の閾値TH2B以下のときに、偽値の第2の音声区間真偽値V2(図18参照)が形成される。そして、第2の平滑化部301から出力された第2の平滑化パワーP2と第2の音声区間判定部303から出力された第2の音声区間真偽値V2とを含む第2のパラメータF2が単位時間遅延部104を介して第1の音声区間検出部102Bに与えられると共に、第2の音声区間判定部303から出力された第2の音声区間真偽値V2が次段の装置に与えられる。
第2の実施形態においても、第1の実施形態と同様に、第1の音声区間判定部203及び第2の音声区間判定部303の少なくとも一方でハングオーバー動作を実行するようにしても良い。ハングオーバー動作を両方で行う場合において、第1の音声区間判定部203におけるハングオーバー時間と第2の音声区間判定部303におけるハングオーバー時間とが同じであっても良く、異なっていても良い。第2の実施形態においても、第1の音声区間判定部203におけるハングオーバー時間を0.1秒、第2の音声区間判定部303におけるハングオーバー時間を0.2秒とすることが好ましい態様である。
また、第1の実施形態と同様に、第2の実施形態についても、図10に示したようなハングオーバー部15を有する変形を行うことができる。このハングオーバー部15におけるハングオーバー時間として0.5秒が好適である。
(B−3)第2の実施形態の効果
第2の実施形態によっても、第1の音声区間検出部及び第2の音声区間検出部が互いのパラメータ(音声パワーの平均的な値の推定値(平滑化パワーP1)と雑音パワーの平均的な値の推定値(平滑化パワーP2))の更新を補い合うことで、パラメータを安定に更新させることができ、精度の高い音声区間の検出結果を得ることができる。
これに加え、第2の実施形態によれば、音声と雑音のパワーバランスが未知の場合や、このパワーバランスが時間的に変動する場合においても、入力パワーと比較される閾値を適切に更新でき、この点からも、精度の高い音声区間の検出結果を得ることができる。
(C)第3の実施形態
次に、本発明による目的音区間検出装置及びプログラムの第3の実施形態を、図面を参照しながら説明する。
第3の実施形態の目的音区間検出装置は、目的音区間が音声区間である音声区間検出装置である。第3の実施形態の音声区間検出装置及びプログラムには、上述した第1の実施形態の雑音推定装置及びプログラムと第3の実施形態のSNR推定装置及びプログラムとが要素技術として適用されている。
(C−1)第3の実施形態の構成
第3の実施形態の音声区間検出装置(以下、符号「100C」を用いる)の全体構成も、上述した図1で表すことができる。但し、第1の音声区間検出部(以下、符号「102C」を用いる)及び第2の音声区間検出部(以下、符号「103C」を用いる)の詳細な構成などが第1の実施形態と異なっている。そのため、以下では、主として、第1の音声区間検出部102C及び第2の音声区間検出部103Cの詳細構成を説明する。
第1の実施形態及び第2の実施形態では、第1の音声区間検出部及び第2の音声区間検出部共に、入力パワーに基づいて音声区間か否かを判定していた。
この第3の実施形態では、第1の音声区間検出部102Cは、入力パワーPinに基づいて音声区間の検出を行うが、第2の音声区間検出部103Cは、SNR(ここでは事後SNR)を推定し、推定したSNRに基づいて音声区間の検出を行う。
図19は、第3の実施形態における第1の音声区間検出部102Cの詳細構成を示すブロック図であり、上述した第1の実施形態に係る図2との同一、対応部分には同一符号を付して示している。
第3の実施形態における第1の音声区間検出部102Cも、第1の実施形態と同様に、第1の平滑化部201、第1の閾値算出部202及び第1の音声区間判定部203を有する。第3の実施形態における第1の音声区間検出部102Cが、第1の実施形態のものと異なる点は、第1の平滑化部201から出力された第1の平滑化パワーP1及び第1の音声区間判定部203から出力された第1の音声区間真偽値V1を第1のパラメータF1として、単位時間遅延部104を介して、第2の音声区間検出部103Cに与える点である。
図20は、第3の実施形態における第2の音声区間検出部103Cの詳細構成を示すブロック図であり、上述した第1の実施形態に係る図3との同一、対応部分には同一、対応符号を付して示している。
図20において、第3の実施形態の第2の音声区間検出部103Cは、第2の平滑化部301C、第2の閾値算出部302C及び第2の音声区間判定部303Cに加え、SNR算出部304を有する。
SNR算出部304は、入力パワーPin(SNRのSに相当する)を、雑音パワーの推定値である第2の参考平滑化パワーPr2(=1単位時間前の第1の平滑化パワーP1;SNRのRに相当する)で除してSNRの推定値Riを得、得られたSNR推定値Riを第2の平滑化部301C及び第2の音声区間判定部303Cに与える。
第3の実施形態における第2の平滑化部301Cは、第1及び第2の実施形態のものと異なって入力パワーPinではなく、SNR推定値Riを平滑化するものである。第2の平滑化部301Cは、第2の音声区間参考真偽値Vr2(=1単位時間前の第1の音声区間真偽値V1)に基づいてSNR推定値Riを平滑化し、得られたSNR平滑化値Rsを第2の閾値算出部302Cに与える。第2の平滑化部301Cは、第2の音声区間参考真偽値Vr2が真値(すなわち音声区間)であるときにはSNR推定値Riを平滑化してSNR平滑化値Rsを更新し、第2の音声区間参考真偽値Vr2が偽値(すなわち雑音区間)であるときにはSNR平滑化値Rsを更新しないで維持する。従って、SNR平滑化値Rsが意味するのは音声区間の平均的なSNRである。なお、平滑化の方法は何ら限定されるものではない。例えば、時定数が0.8秒の時定数フィルタが好適である。
第3の実施形態における第2の閾値算出部302Cは、SNR平滑化値Rsが音声区間のSNRを意味することから、SNR平滑化値Rsに、0より大きく1以下の定数値をとる第2の係数C2Cを乗じて、SNR推定値Riと比較する第2の閾値TH2Cを形成して第2の音声区間判定部303Cに与えるものである。SNR平滑化値Rsに乗算することで、音声区間のSNR推定値と雑音区間のSNR推定値とを切り分けるための第2の閾値TH2Cを定める第2の係数C2Cの値は、限定されるものではないが、例えば、0.5を適用することができる。
第3の実施形態における音声区間判定部303Cは、SNR推定値Riと第2の閾値TH2Cを比較して音声区間か否かを表す第2の音声区間真偽値V2を形成するものである。第2の音声区間判定部303Cは、SNR推定値Riが第2の閾値TH2Cより大きければ第2の音声区間真偽値V2として真値を出力し、そうでなければ偽値を出力する。
(C−2)第3の実施形態の動作
次に、第3の実施形態の音声区間検出装置100Cの動作を説明する。第3の実施形態の音声区間検出装置100Cの全体動作も第1の実施形態の音声区間検出装置100の全体動作と同様であるので全体動作の説明は省略する。また、第3の実施形態における第1の音声区間検出部102Cの動作も第1の実施形態における音声区間検出部102の動作と同様であるのでその動作説明は省略する。但し、第3の実施形態における第1の音声区間検出部102Cから、第1の平滑化パワーP1及び第1の音声区間真偽値V1を含む第1のパラメータF1が出力されるようになされている。以下では、第3の実施形態における第2の音声区間検出部103Cの動作を説明する。
図20において、SNR算出部304には、入力パワーPinと雑音パワーの推定値である第2の参考平滑化パワーPr2(1単位時間前の第1の平滑化パワーP1)とが与えられ、入力パワーPinを第2の参考平滑化パワーPr2で除してSNRの推定値Riが得られ、得られたSNR推定値Riが第2の平滑化部301C及び第2の音声区間判定部303Cに与えられる。
SNR推定値Riは第2の平滑化部301Cによって第2の音声区間参考真偽値Vr2(=1単位時間前の第1の音声区間真偽値V1)が参照されて平滑化される。すなわち、第2の音声区間参考真偽値Vr2が真値(すなわち音声区間)であるときにはSNR推定値Riが平滑化されてSNR平滑化値Rsが更新され、第2の音声区間参考真偽値Vr2が偽値(すなわち雑音区間)であるときにはSNR平滑化値Rsが更新されないで維持され、このようにして得られたSNR平滑化値Rsが第2の閾値算出部302Cに与えられる。そして、第2の閾値算出部302Cにおいて、SNR平滑化値Rsに、0より大きく1以下の定数値をとる第2の係数C2Cが乗算されて、SNR推定値Riと比較される第2の閾値TH2Cが形成されて第2の音声区間判定部303Cに与えられる。
SNR推定値Riと第2の閾値TH2Cとが第2の音声区間判定部303Cにおいて比較され、SNR推定値Riが第2の閾値TH2Cより大きときに真値の第2の音声区間真偽値V2が出力され、SNR推定値Riが第2の閾値TH2C以下のときに偽値の第2の音声区間真偽値V2が出力される。
第3の実施形態においても、第1の実施形態と同様に、第1の音声区間判定部203C及び第2の音声区間判定部303Cの少なくとも一方でハングオーバー動作を実行するようにしても良い。ハングオーバー動作を両方で行う場合において、第1の音声区間判定部203Cにおけるハングオーバー時間と第2の音声区間判定部303Cにおけるハングオーバー時間とが同じであっても良く、異なっていても良い。第3の実施形態においても、第1の音声区間判定部203Cにおけるハングオーバー時間を0.1秒、第2の音声区間判定部303Cにおけるハングオーバー時間を0.2秒とすることが好ましい態様である。
また、第1の実施形態と同様に、第3の実施形態についても、図10に示したようなハングオーバー部15を有する変形を行うことができる。このハングオーバー部15におけるハングオーバー時間として0.5秒が好適である。
(C−3)第3の実施形態の効果
第3の実施形態によれば、第1の音声区間検出部及び第2の音声区間検出部が、入力信号のパワーに基づく推定及び判定と、入力信号におけるSNRに基づく推定及び判定の、それぞれのパラメータと判定結果を使って互いに推定及び判定を行うので、精度の高い音声区間の検出結果を得ることができる。
(C−4)第3の実施形態の変形実施形態
上記では、第1の音声区間検出部が入力パワーに基づいて音声区間を検出し、第2の音声区間検出部がSNRに基づいて音声区間を検出するものを説明したが、第1の音声区間検出部がSNRに基づいて音声区間を検出し、第2の音声区間検出部が入力パワーに基づいて音声区間を検出するものであっても良く、また、第1の音声区間検出部も第2の音声区間検出部もSNRに基づいて音声区間を検出するものであっても良い。
(D)他の実施形態
上記各実施形態の説明においても種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
上記各実施形態では、第1の音声区間検出部が第2の音声区間検出部の1単位時間前の検出結果が雑音区間を示しているときに所定の特徴量を更新すると共に、第2の音声区間検出部が第1の音声区間検出部の同一単位時間の検出結果が音声区間を示しているときに所定の特徴量を更新する場合を示したが、特徴量を更新する区間の組み合わせはこれに限定されるものではない。例えば、第1の音声区間検出部が音声区間で特徴量を更新し、第2の音声区間検出部が雑音区間で更新するようにしても良く、第1の音声区間検出部及び第2の音声区間検出部が共に雑音区間で更新するようにしても良く、第1の音声区間検出部及び第2の音声区間検出部が共に音声区間で更新するようにしても良い。更新区間の選定によっては、第1の音声区間検出部において、SNRに基づいた音声区間の検出を行っても良い。
上記各実施形態では、第2の音声区間検出部による音声区間の検出結果(第2の音声区間真偽値)を次段の装置に出力するものを示したが、次段の装置に出力する音声区間の検出結果はこれに限定されるものではない。例えば、第1の音声区間検出部による音声区間の検出結果(第1の音声区間真偽値)を次段の装置に出力するようにしても良く、第1の音声区間検出部による音声区間の検出結果と第2の音声区間検出部による音声区間の検出結果の論理積や論理和を次段の装置に出力するようにしても良い。
上記各実施形態では、次段の装置に2値の検出結果を出力するものを示したが、次段の装置に3値の検出結果(音声区間、雑音区間、どちらとも言えない区間)を出力するようにしても良い。例えば、入力パワーやSNR推定値と比較する閾値を2段にして3値の検出結果を得るようにすれば良い。また例えば、第1の音声区間検出部による音声区間の検出結果と第2の音声区間検出部による音声区間の検出結果とで異なる区間を、どちらとも言えない区間とするようにしても良い。
上記第1及び第2の実施形態では、第1の音声区間検出部及び第2の音声区間検出部が完全に別個の構成になっている場合を示したが、同一の音声区間検出部の主要部(平滑化部、閾値算出部、音声区間判定部)を1単位時間内に時分割で適用して、第1の音声区間検出部及び第2の音声区間検出部として機能させるようにしても良い。この場合には、第1の音声区間検出部として機能する際には、第2の音声区間検出部に関するデータ(例えば、第2の平滑化パワーP2や第2の係数C2等)を退避させ、第2の音声区間検出部として機能する際には、第1の音声区間検出部に関するデータ(例えば、第1の平滑化パワーP1や第1の係数C1等)を退避させるメモリなど、補助的な構成を設けることを要する。特許請求の範囲の表現はこのような同一構成を時分割で利用する場合を含むものとする。
上記各実施形態では、特徴量の平滑値に基づいて音声区間検出に用いる閾値を決定するものを示したが、他の方法によって閾値を決定するようにしても良い。例えば、雑音区間と判定された直前過去の所定期間(例えば3秒間;断続的に雑音区間が生じている場合には合算時間が3秒間)における入力パワーの最小値の所定倍を閾値とするようにしても良く、音声区間と判定された直前過去の所定期間(例えば3秒間)における入力パワーの最大値の所定倍を閾値とするようにしても良い。また、第3の実施形態のように特徴量としてSNRを用いる場合であれば、音声区間と判定された直前過去の所定期間(例えば3秒間)におけるSNRの最大値の所定倍を閾値とするようにしても良い。
上記各実施形態では、入力信号そのものを用いて音声区間を検出する場合を示したが、入力信号を周波数解析し、入力信号における一部の周波数帯域を用いて音声区間を検出するようにしても良く、また、入力信号の周波数帯域毎に上述した方法によって音声区間を検出し、全ての検出結果の統合(例えば、論理積、多数決、論理和)を行って最終的に出力する検出結果を得るようにしても良い。
上記各実施形態では、目的音区間として音声区間を検出する場合を示したが、本発明はこれに限定されるものではない。例えば、機械のモータ音がなっている区間を検出するような場合にも、本発明の技術思想を適用することができる。
100、100A、100B、100C…音声区間検出装置(目的音区間検出装置)、101…パワー算出部、102、102B、102C…第1の音声区間検出部、103、103B、103C…第2の音声区間検出部、104…単位時間遅延部、105…ハングオーバー部、201…第1の平滑化部、202、202B…第1の閾値算出部、203…第1の音声区間判定部、301、301C…第2の平滑化部、302、302B、302C…第2の閾値算出部、303、303C…第2の音声区間判定部、304…SNR算出部。

Claims (13)

  1. 入力信号における目的音区間を検出する目的音区間検出装置において、
    上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、
    上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段とを備え、
    上記第1の目的音区間検出手段は、上記第2の目的音区間検出手段が所定の単位時間前に出力した、第2の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第1の閾値を生成し、
    上記第2の目的音区間検出手段は、上記第1の目的音区間検出手段が同一の単位時間で出力した、第1の目的音区間の検出結果を少なくとも含む第1のパラメータを用いて上記第2の閾値を生成する
    ことを特徴とする目的音区間検出装置。
  2. 上記第1の目的音区間検出手段は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2の目的音区間検出手段は、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第2の入力パワーを平滑化して第2の平滑化パワーを算出する第2の平滑化部と、
    上記第2の平滑化パワーを少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記第2の入力パワーを上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有する
    ことを特徴とする請求項1に記載の目的音区間検出装置。
  3. 上記第1の平滑化部は、所定の単位時間前の上記第2の目的音区間の検出結果が目的音区間でない場合に上記第1の入力パワーの平滑化を実行し、所定の単位時間前の上記第2の目的音区間の検出結果が目的音区間の場合に上記第1の入力パワーの平滑化を停止して上記第1の平滑化パワーを維持させ、
    上記第2の平滑化部は、同一の単位時間の上記第1の目的音区間の検出結果が目的音区間の場合に上記第2の入力パワーの平滑化を実行し、同一の単位時間の上記第1の目的音区間の検出結果が目的音区間でない場合に上記第2の入力パワーの平滑化を停止して上記第2の平滑化パワーを維持させる
    ことを特徴とする請求項2に記載の目的音区間検出装置。
  4. 上記第1の平滑化部及び上記第2の平滑化部は、一方が、自己に入力された目的音区間の検出結果が目的音区間である場合に平滑化を実行し、他方が、自己に入力された目的音区間の検出結果が目的音区間でない場合に平滑化を実行するものであり、
    上記第1の閾値算出部は、上記第1の平滑化パワーと所定の単位時間前の上記第2の平滑化パワーを適用して、上記第1の閾値を算出し、
    上記第2の閾値算出部は、同一単位時間の上記第1の平滑化パワー及び上記第2の平滑化パワーを適用して、上記第2の閾値を算出する
    ことを特徴とする請求項2に記載の目的音区間検出装置。
  5. 上記第1の閾値算出部は、上記第1の平滑化パワーと所定の単位時間前の上記第2の平滑化パワーとの相加平均若しくは相乗平均を上記第1の閾値として算出することを特徴とする請求項4に記載の目的音区間検出装置。
  6. 上記第2の閾値算出部は、同一の単位時間の上記第1の平滑化パワーと上記第2の平滑化パワーとの相加平均若しくは相乗平均を上記第2の閾値として算出することを特徴とする請求項4又は5に記載の目的音区間検出装置。
  7. 上記第1の目的音区間検出手段は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2の目的音区間検出手段は、
    同一の単位時間の上記第2の入力パワー及び上記第1の平滑化パワーに基づいてSNRの推定値を算出するSNR算出部と、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記SNR推定値を平滑化してSNRの平滑値を算出する第2の平滑化部と、
    上記SNR平滑値を少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記SNR推定値を上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有する
    ことを特徴とする請求項1に記載の目的音区間検出装置。
  8. 入力信号における目的音区間を検出する目的音区間検出装置において、
    上記入力信号に対して周波数解析する周波数解析部と、
    周波数解析で得られた複数の周波数帯域の信号のそれぞれにおける、目的音区間を検出する複数の帯域別目的音区間検出手段と、
    上記各帯域別目的音区間検出手段における目的音区間の検出結果を統合する帯域別結果統合部とを有し、
    上記各帯域別目的音区間検出手段として、それぞれ、請求項1に記載の目的音区間検出装置の構成を適用している
    ことを特徴とする目的音区間検出装置。
  9. 入力信号における雑音パワーを推定する雑音推定装置において、
    上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、
    上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段とを備え、
    上記第1の目的音区間検出手段は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2の目的音区間検出手段は、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第2の入力パワーを平滑化して第2の平滑化パワーを算出する第2の平滑化部と、
    上記第2の平滑化パワーを少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記第2の入力パワーを上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、
    上記第1の平滑化部又は上記第2の平滑化部は、所定の単位時間前の上記第2の目的音区間の検出結果又は同一の単位時間の上記第1の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第1の平滑化パワー又は上記第2の平滑化パワーとして雑音パワーの推定値を得る
    ことを特徴とする雑音推定装置。
  10. 入力信号におけるSNRを推定するSNR推定装置において、
    上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、
    上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段とを備え、
    上記第1の目的音区間検出手段は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2の目的音区間検出手段は、
    同一の単位時間の上記第2の入力パワー及び上記第1の平滑化パワーに基づいてSNRの推定値を算出するSNR算出部と、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記SNR推定値を平滑化してSNRの平滑値を算出する第2の平滑化部と、
    上記SNR平滑値を少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記SNR推定値を上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、
    上記SNR算出部からの上記SNR推定値を上記入力信号におけるSNR推定値として得ることを特徴とするSNR推定装置。
  11. 入力信号における目的音区間を検出する目的音区間検出プログラムであって、
    コンピュータを、
    上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、
    上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段として機能させるものであり、
    上記第1の目的音区間検出手段は、上記第2の目的音区間検出手段が所定の単位時間前に出力した、第2の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第1の閾値を生成し、
    上記第2の目的音区間検出手段は、上記第1の目的音区間検出手段が同一の単位時間で出力した、第1の目的音区間の検出結果を少なくとも含む第1のパラメータを用いて上記第2の閾値を生成する
    ことを特徴とする目的音区間検出プログラム。
  12. 入力信号における雑音パワーを推定する雑音推定プログラムであって、
    コンピュータを、
    上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、
    上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段として機能させるものであり、
    上記第1の目的音区間検出手段は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2の目的音区間検出手段は、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第2の入力パワーを平滑化して第2の平滑化パワーを算出する第2の平滑化部と、
    上記第2の平滑化パワーを少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記第2の入力パワーを上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、
    上記第1の平滑化部又は上記第2の平滑化部は、所定の単位時間前の上記第2の目的音区間の検出結果又は同一の単位時間の上記第1の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第1の平滑化パワー又は上記第2の平滑化パワーとして雑音パワーの推定値を得る
    ことを特徴とする雑音推定プログラム。
  13. 入力信号におけるSNRを推定するSNR推定プログラムであって、
    コンピュータを、
    上記入力信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、上記入力信号における目的音区間を検出する第1の目的音区間検出手段と、
    上記入力信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、上記入力信号における目的音区間を検出する第2の目的音区間検出手段として機能させ、
    上記第1の目的音区間検出手段は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2の目的音区間検出手段は、
    同一の単位時間の上記第2の入力パワー及び上記第1の平滑化パワーに基づいてSNRの推定値を算出するSNR算出部と、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記SNR推定値を平滑化してSNRの平滑値を算出する第2の平滑化部と、
    上記SNR平滑値を少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記SNR推定値を上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、
    上記SNR算出部からの上記SNR推定値を上記入力信号におけるSNR推定値として得ることを特徴とするSNR推定プログラム。
JP2015023518A 2015-02-09 2015-02-09 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム Active JP6531412B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015023518A JP6531412B2 (ja) 2015-02-09 2015-02-09 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム
US15/011,465 US9779762B2 (en) 2015-02-09 2016-01-29 Object sound period detection apparatus, noise estimating apparatus and SNR estimation apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015023518A JP6531412B2 (ja) 2015-02-09 2015-02-09 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2016145940A JP2016145940A (ja) 2016-08-12
JP6531412B2 true JP6531412B2 (ja) 2019-06-19

Family

ID=56565273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015023518A Active JP6531412B2 (ja) 2015-02-09 2015-02-09 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム

Country Status (2)

Country Link
US (1) US9779762B2 (ja)
JP (1) JP6531412B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534099B (zh) * 2019-09-03 2021-12-14 腾讯科技(深圳)有限公司 语音唤醒处理方法、装置、存储介质及电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0424692A (ja) * 1990-05-18 1992-01-28 Ricoh Co Ltd 音声区間検出方式
JP3255584B2 (ja) * 1997-01-20 2002-02-12 ロジック株式会社 有音検知装置および方法
JP3759685B2 (ja) * 1999-05-18 2006-03-29 三菱電機株式会社 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法
JP3588030B2 (ja) * 2000-03-16 2004-11-10 三菱電機株式会社 音声区間判定装置及び音声区間判定方法
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
JP4521673B2 (ja) * 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 発話区間検出装置、コンピュータプログラム及びコンピュータ
US8938389B2 (en) * 2008-12-17 2015-01-20 Nec Corporation Voice activity detector, voice activity detection program, and parameter adjusting method
JP5725028B2 (ja) * 2010-08-10 2015-05-27 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
WO2012083552A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
US8990079B1 (en) * 2013-12-15 2015-03-24 Zanavox Automatic calibration of command-detection thresholds

Also Published As

Publication number Publication date
US20160232916A1 (en) 2016-08-11
JP2016145940A (ja) 2016-08-12
US9779762B2 (en) 2017-10-03

Similar Documents

Publication Publication Date Title
KR101910679B1 (ko) 마이크로폰 어레이를 위한 잡음 적응형 빔 형성 기법
EP3511937B1 (en) Device and method for sound source separation, and program
JP4886715B2 (ja) 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
RU2008146747A (ru) Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий
KR101670313B1 (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
JP6260504B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
US11869519B2 (en) Apparatus and method for decomposing an audio signal using a variable threshold
TR201821299T4 (tr) Kazanç faktörü yumuşatma için sistemler, yöntemler ve aparat.
JP4454591B2 (ja) 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
US11183199B2 (en) Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
US9002030B2 (en) System and method for performing voice activity detection
JP6531412B2 (ja) 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム
JP6596833B2 (ja) 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム
JP6064370B2 (ja) 雑音抑圧装置、方法及びプログラム
JP6844149B2 (ja) 利得調整装置および利得調整プログラム
JP5772562B2 (ja) 目的音抽出装置及び目的音抽出プログラム
Lim et al. Acoustic blur kernel with sliding window for blind estimation of reverberation time
KR100920625B1 (ko) 피치 신호의 트래킹 방법, 피치 신호의 트래킹 시스템 및 컴퓨터 판독 가능 기록매체
JP6729187B2 (ja) 音声処理プログラム、音声処理方法及び音声処理装置
JP6447357B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
JP2017041752A (ja) 車両用音響装置
Apel Sinusoidality analysis and noise synthesis in phase vocoder based timestretching
JP2017138409A (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
JP6554853B2 (ja) 雑音抑圧装置及びプログラム
KR20130037910A (ko) OpenVG 기반 다중 레이어 중첩부분의 위치좌표 결정 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190506

R150 Certificate of patent or registration of utility model

Ref document number: 6531412

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150