JP5157474B2 - 音処理装置およびプログラム - Google Patents
音処理装置およびプログラム Download PDFInfo
- Publication number
- JP5157474B2 JP5157474B2 JP2008014421A JP2008014421A JP5157474B2 JP 5157474 B2 JP5157474 B2 JP 5157474B2 JP 2008014421 A JP2008014421 A JP 2008014421A JP 2008014421 A JP2008014421 A JP 2008014421A JP 5157474 B2 JP5157474 B2 JP 5157474B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sound
- intensity
- speech
- index value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
また、第1指標値に加えて変調スペクトルの強度の最大値も音声/非音声の判定に利用されるから、非音声の変調スペクトルのうち強度が高い変調周波数の範囲と音声の変調スペクトルのうち強度が高い変調周波数の範囲とが近似する場合であっても、音声と非音声とを高精度に区別することが可能である。例えば、非音声の変調スペクトルの強度の最大値が音声の変調スペクトルの強度の最大値と比較して低いという傾向を前提とすると、判定手段は、変調スペクトルの強度の最大値が高いほど当該単位区間の入力音を音声と判定する可能性が高くなる(強度の最大値が低いほど入力音を非音声と判定する可能性が高くなる)ように音声/非音声を判定する。さらに具体的には、判定手段は、第1指標値からは音声と判定できる場合であっても、変調スペクトルの強度の最大値が閾値を下回る場合には入力音を非音声と判定する。
図1は、本発明の第1実施形態に係る遠隔会議システムのブロック図である。遠隔会議システム100は、地理的に離間した空間R1と空間R2とで複数の利用者U(会議の参加者)が相互に音声を授受するシステムである。各空間R(R1,R2)には、収音機器12と音処理装置14と音処理装置16と放音機器18とが設置される。
D1=1−(L1/L2) ……(A)
演算式(A)の内容から理解されるように、変調スペクトルMSのうち判定対象範囲A内の成分の強度L1が高いほど(すなわち入力音VINが音声である可能性が高いほど)指標値D1は小さい数値となる。したがって、指標値D1は、入力音VINが音声であるか非音声であるかの指標となる。また、判定対象範囲Aには発話時に音節が切替わる周波数が含まれるから、指標値D1は、音声に特有なリズム(発話のリズム)が入力音VINに含まれるか否かの指標としても把握される。
次に、本発明の第2実施形態について説明する。以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
演算式(B)から理解されるように、音響モデルMと単位区間TU内の入力音VINとで特徴量が類似するほど指標値D2は小さくなる。非音声と比較すると音声は母音の割合が多い(したがって音響モデルMとの音色の類似の程度が高い)という傾向がある。したがって、入力音VINが音声である場合に算定される指標値D2は、入力音VINが非音声である場合に算定される指標値D2と比較して小さい数値となる。すなわち、指標値D2は、入力音VINが音声であるか非音声であるかの指標となる。したがって、音響モデルMは、音声(人間の発話音)の統計モデルとしても把握される。
図10は、本発明の第3実施形態に係る音処理装置14のブロック図である。第1実施形態と同様に、図10の変調スペクトル特定部32および指標算定部34は入力音VINの単位区間TU毎に指標値D1を算定し、強度特定部36は変調スペクトルMSの強度の最大値Pを特定する。また、特徴抽出部52および指標算定部54は、第2実施形態と同様に、入力音VINの単位区間TU毎に指標値D2を算定する。
D3=D1+α・D2 ……(C)
演算式(C)から理解されるように、入力音VINが音声である可能性が高いほど(すなわち、変調スペクトルMSのうち判定対象範囲A内の強度L1が高いほど、または、音響モデルMと単位区間TU内の入力音VINとで特徴量が類似するほど)、指標値D3は小さい数値となる。加重値αは、図10の加重値設定部66が設定した正数(α>0)である。指標算定部62が算定した指標値D3は、判定部42における音声/非音声の判定に利用される。
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
変調スペクトル特定部32は図12の構成に変更される。図12の変調スペクトル特定部32は、図3と同様の周波数分析部322と成分抽出部324と周波数分析部326とに加えて平均部328を具備する。成分抽出部324が生成した時間軌跡STは、単位区間TUをさらに分割したm個の区間(以下「分割区間」という)に区分される(mは2以上の自然数)。周波数分析部326は、各分割区間の時間軌跡STに対してフーリエ変換を実行することで分割区間毎に変調スペクトルを算定する。平均部328は、単位区間TUを構成する各分割区間について算定されたm個の変調スペクトルを平均することで当該単位区間TUの変調スペクトルMSを算定する。図12の構成によれば、周波数分析部326が実行するフーリエ変換の点数が第1実施形態と比較して削減されるから、周波数分析部326によるフーリエ変換の負荷(計算量)やフーリエ変換に必要な記憶装置24の容量が削減されるという利点がある。
音声/非音声の判定に使用される閾値TH(THd1,THd2,THd3,THp,THdv)が可変に制御される構成も好適である。例えば図13に示すように、第3実施形態の音処理装置14に閾値設定部68が追加される。閾値設定部68は、SN比特定部64が算定したSN比Rに応じて閾値THを可変に制御する。
以上の各形態において、単位区間TUに含まれる音声の割合が少ない場合(例えば単位区間TUのなかの短い区間のみに音声が含まれる場合)には、当該単位区間TUは非音声と判定される可能性がある。したがって、非音声と判定された総ての単位区間TUについて一律に入力音VINを消音する構成においては、音声の開始や終了の部分(特に無声子音の部分)を僅かに含む単位区間TUが非音声と判定されて消音される場合がある。そこで、複数の単位区間TUについての判定部42による判定を考慮して各単位区間TU内の入力音VINの消音を実行する構成が好適である。
各指標値D(D1,D2,D3)の定義は適宜に変更される。したがって、各指標値D(D1,D2,D3)の大小と音声/非音声との関係は任意である。例えば、第1実施形態においては指標値D1が小さいほど入力音VINが音声と判定される可能性が高くなるように指標値D1を定義したが、例えば強度L2に対する強度L1の相対比を指標値D1(D1=L1/L2)と定義すれば、指標値D1が大きいほど音声と判定される可能性が高くなる。また、ひとつの加重値αを使用して指標値D3を定義したが、指標値D1と指標値D2とで独立に設定した加重値(β,γ)を適用して指標値D3(D3=β・D1+γ・D2)を算定する構成も好適である。また、指標値D3の算定に使用される加重値(α,β,γ)は固定値であってもよい。
第1実施形態および第3実施形態においては対数スペクトルS0において周波数帯域ωに属する成分の時間軌跡STに対してフーリエ変換を実行することで変調スペクトルMSを特定したが、音響信号SIN(入力音VIN)のケプストラムの時間軌跡に対してフーリエ変換を実行することで変調スペクトルMSを特定する構成も採用される。さらに詳述すると、変調スペクトル特定部32の周波数分析部322は、音響信号SINの各フレームについてケプストラムを算定し、成分抽出部324は、各フレームのケプストラムのうちケフレンシが特定の範囲内にある成分の時間軌跡STを抽出し、周波数分析部326は、ケプストラムの時間軌跡STに対して単位区間TU毎(または変形例1のように分割期間毎)にフーリエ変換を実行することで各単位区間TUの変調スペクトルMSを算定する。
音声/非音声の判定に使用される変数は適宜に変更される。例えば、第1実施形態や第3実施形態においては最大値Pに応じた判定(図8のステップSA3や図11のステップSB3)を省略してもよいし、第3実施形態においては有声指標値DVに応じた判定(図11のステップSB4)を省略してもよい。また、第1実施形態や第2実施形態に有声無声判定部72および指標算定部74を追加した構成も好適である。
以上の各形態においては、入力音VINを収音した空間R内の音処理装置14にて識別データdおよび出力信号SOUTを生成したが、識別データdを生成する位置や出力信号SOUTを生成する位置は適宜に変更される。例えば、収音機器12が生成した音響信号SINと判定部42の生成した識別データdとを音処理装置14が出力する構成においては、音響信号SINと識別データdとから出力信号SOUTを生成する音処理部44が受信側の音処理装置16に配置される。また、収音機器12が生成した音響信号SINを音処理装置14が送信する構成においては、受信側の音処理装置16に図2と同様の要素が設置される。もっとも、遠隔会議システム100は本発明の用途の例示に過ぎない。したがって、出力信号SOUTや音響信号SINの送受信は本発明において必須ではない。
以上の各形態においては、非音声と判定された単位区間TUの音響信号SINを音処理部44が出力しない(出力信号SOUTの音量をゼロに設定する)構成を例示したが、音処理部44による処理の内容は適宜に変更される。例えば、非音声と判定された単位区間TUについて音響信号SINの音量を低下させた信号を音処理部44が出力信号SOUTとして出力する構成や、音声と判定された単位区間TUと非音声と判定された単位区間TUとで別個の音響的な効果を音響信号SINに付与した信号を音処理部44が出力信号SOUTとして出力する構成も好適である。また、出力信号SOUTの出力先(音処理装置16)において音声認識や話者認識(話者識別または話者認証)が実行される構成において、音処理部44は、例えば、音声と判定された単位区間TUについては、音声認識や話者認識に使用される特徴量を音響信号SINから抽出して出力信号SOUTとして出力する一方、非音声と判定された単位区間TUについては特徴量の抽出を停止する。
Claims (5)
- 複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、
前記変調スペクトルのうち変調周波数の一部の範囲内の強度に応じた第1指標値を算定する第1指標算定手段と、
前記変調スペクトルの強度の最大値を特定する強度特定手段と、
前記各単位区間の入力音が音声か非音声かを前記第1指標値と前記強度特定手段が特定した強度の最大値とに基づいて判定する判定手段と
を具備する音処理装置。 - 前記第1指標算定手段は、前記変調スペクトルのうち変調周波数の一部の範囲内の強度と当該一部の範囲を包含する範囲内の強度との相対比に基づいて前記第1指標値を算定する
請求項1の音処理装置。 - 前記変調スペクトル特定手段は、
前記入力音の対数スペクトルまたはケプストラムにおける特定の成分の時間軌跡を特定する成分抽出手段と、
前記単位区間を区分した複数の分割区間の各々について前記時間軌跡をフーリエ変換する周波数分析手段と、
前記単位区間の前記複数の分割区間の各々についてのフーリエ変換の結果を平均することで当該単位区間の変調スペクトルを特定する平均手段と
を含む請求項1または請求項2の音処理装置。 - 前記入力音のSN比に応じて閾値を可変に設定する閾値設定手段を具備し、
前記判定手段は、前記第1指標値と前記閾値との大小に応じて前記入力音が音声か非音声かを判定する
請求項1から請求項3の何れかの音処理装置。 - 複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、
前記変調スペクトルのうち変調周波数の一部の範囲内の強度に応じた第1指標値を算定する第1指標算定処理と、
前記変調スペクトルの強度の最大値を特定する強度特定処理と、
前記各単位区間の入力音が音声か非音声かを前記第1指標値と前記強度特定処理で特定した強度の最大値とに基づいて判定する判定処理と
をコンピュータに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008014421A JP5157474B2 (ja) | 2008-01-25 | 2008-01-25 | 音処理装置およびプログラム |
EP09000943.2A EP2083417B1 (en) | 2008-01-25 | 2009-01-23 | Sound processing device and program |
US12/358,400 US8473282B2 (en) | 2008-01-25 | 2009-01-23 | Sound processing device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008014421A JP5157474B2 (ja) | 2008-01-25 | 2008-01-25 | 音処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009175473A JP2009175473A (ja) | 2009-08-06 |
JP5157474B2 true JP5157474B2 (ja) | 2013-03-06 |
Family
ID=41030624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008014421A Expired - Fee Related JP5157474B2 (ja) | 2008-01-25 | 2008-01-25 | 音処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5157474B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4937393B2 (ja) | 2010-09-17 | 2012-05-23 | 株式会社東芝 | 音質補正装置及び音声補正方法 |
JP7404664B2 (ja) | 2019-06-07 | 2023-12-26 | ヤマハ株式会社 | 音声処理装置及び音声処理方法 |
-
2008
- 2008-01-25 JP JP2008014421A patent/JP5157474B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009175473A (ja) | 2009-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2083417B1 (en) | Sound processing device and program | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
Goto et al. | A real-time filled pause detection system for spontaneous speech recognition | |
JP6024180B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP5961950B2 (ja) | 音声処理装置 | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
JP2009053618A (ja) | 音声処理装置およびプログラム | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
JP2007017620A (ja) | 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体 | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
Alonso-Martin et al. | Multidomain voice activity detection during human-robot interaction | |
JP5157474B2 (ja) | 音処理装置およびプログラム | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
JP5157475B2 (ja) | 音処理装置およびプログラム | |
Vlaj et al. | Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria | |
Kasap et al. | A unified approach to speech enhancement and voice activity detection | |
JP2011118290A (ja) | 音声認識装置 | |
JPS60114900A (ja) | 有音・無音判定法 | |
JP2006154212A (ja) | 音声評価方法および評価装置 | |
JP3046029B2 (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
JP2006010739A (ja) | 音声認識装置 | |
JP5169297B2 (ja) | 音処理装置およびプログラム | |
JP4349415B2 (ja) | 音信号処理装置およびプログラム | |
JP5272141B2 (ja) | 音声処理装置およびプログラム | |
JP2012220607A (ja) | 音認識方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5157474 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151221 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |