JP2009198892A - 音処理装置およびプログラム - Google Patents
音処理装置およびプログラム Download PDFInfo
- Publication number
- JP2009198892A JP2009198892A JP2008041520A JP2008041520A JP2009198892A JP 2009198892 A JP2009198892 A JP 2009198892A JP 2008041520 A JP2008041520 A JP 2008041520A JP 2008041520 A JP2008041520 A JP 2008041520A JP 2009198892 A JP2009198892 A JP 2009198892A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- index value
- unvoiced
- unit
- unit section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
【解決手段】変調スペクトル特定部34は、入力音VINの各単位区間TUについて変調スペクトルMSを特定する。指標算定部42は、変調スペクトルMSのうち変調周波数が所定の範囲に属する成分の強度に応じた指標値D1を算定する。指標算定部44は、入力音VINの零交差数に応じた指標値D2を各単位区間TUについて算定する。指標算定部46は、入力音VINの周波数スペクトルS0の平坦性に応じた指標値D3を各単位区間TUについて算定する。無声音判定部54は、各単位区間TUの入力音VINが無声音であるか否かを指標値D1と指標値D2と指標値D3とに基づいて判定する。
【選択図】図2
Description
D1=1−(L1/L2) ……(A)
演算式(A)の内容から理解されるように、変調スペクトルMSのうち判定対象範囲A内の成分の強度L1が高いほど(すなわち入力音VINが音声である可能性が高いほど)、指標値D1は小さい数値となる。したがって、指標値D1は、入力音VINが音声および非音声の何れであるかを判断するための指標となる。また、判定対象範囲Aは発話時に音節が切替わる周波数の成分を豊富に含むから、指標値D1は、音声に特有なリズム(発話のリズム)が入力音VINに含まれるか否かを判断するための指標としても把握される。
以上の形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
以上の形態においては変調スペクトルMSに応じた指標値D1と零交差数に応じた指標値D2と周波数スペクトルS0の平坦性に応じた指標値D3とを入力音VINの判別に利用したが、指標値D2および指標値D3の一方と指標値D1とに基づいて入力音VINを判別する構成も採用される。例えば、指標値D1と指標値D2とを利用する態様においては、図2の指標算定部46や図9のステップSB3が省略される。また、指標値D1と指標値D3とを利用する態様においては、図2の指標算定部44や図9のステップSB1が省略される。ただし、図2の構成のように3種類の指標値(D1〜D3)を利用する構成によれば、2種類の指標値Dのみを利用する構成と比較して入力音VINを高精度に判別できるという利点がある。
以上の形態においては、有声音の指標値D1を上回るとともに無声音の指標値D1を下回るように閾値T1Aが設定されるから、音声判定部52は、有声音を無声音や非音声から判別する手段として機能する。しかし、有声音および無声音の双方(すなわち音声)の指標値D1を上回るように閾値T1Aを設定することで、音声(有声音および無声音)を非音声から判別する手段として音声判定部52を機能させてもよい。なお、有声音および無声音の双方の指標値D1を上回るように閾値T1Aが設定された場合であっても、無声音の単位区間TUが非音声と誤判定される可能性はあるから、無声音を音声に分類する(すなわち非音声から除外する)ために無声音判定部54は好適に利用される。
以上の形態においては、入力音VINの総ての単位区間TUについて無声音判定部54が図9の処理(無声音の判別)を実行したが、音声判定部52が音声(有声音)でないと判定した単位区間TUについてのみ図9の処理を実行してもよい。本変形例においては、音声判定部52が音声と判定した単位区間TUについて無声音判定部54の処理が省略されるから、判定部50(無声音判定部54)による処理の負荷が削減されるという利点がある。
各指標値D(D1,D2,D3)の定義は適宜に変更される。したがって、各指標値D(D1,D2,D3)の大小と入力音VINの種類との関係は任意である。例えば、以上の形態においては、変調スペクトルMSにおける判定対象範囲A内の強度L1が高いほど指標値D1が減少するように指標値D1を定義した構成(すなわち指標値D1が小さいほど入力音VINが音声と判定される可能性が上昇する構成)を例示したが、判定対象範囲A内の強度L1が高いほど指標値D1が増加するように指標値D1を定義した構成(すなわち指標値D1が大きいほど入力音VINが音声と判定される可能性が上昇する構成)も採用される。強度L1が高いほど指標値D1が増加する構成において、音声判定部52は、指標値D1が閾値T1Aを上回る単位区間TUの入力音VINを有声音と判定し(ステップSA1およびステップSA2)、無声音判定部54は、指標値D1が閾値T1Bを上回る単位区間TUの入力音VINを無声音と判定する(ステップSB4およびステップSB5)。閾値T1Aは、閾値T1Bと比較して小さい数値に設定される。
以上の形態においては周波数スペクトルS0において周波数帯域ωに属する成分の時間軌跡STに対してフーリエ変換を実行することで変調スペクトルMSを特定したが、音響信号SIN(入力音VIN)のケプストラムの時間軌跡に対してフーリエ変換を実行することで変調スペクトルMSを特定する構成も採用される。さらに詳述すると、変調スペクトル特定部34の成分抽出部342は、音響信号SINの各フレームのケプストラムのうちケフレンシが特定の範囲内にある成分の時間軌跡STを抽出し、周波数分析部344は、ケプストラムの時間軌跡STに対して単位区間TU毎にフーリエ変換を実行することで各単位区間TUの変調スペクトルMSを算定する。
以上の形態においては、音声判定部52による判定に指標値D1を利用したが、入力音VINが音声(有声音)か否かを判定する方法には公知の技術が任意に採用される。例えば、音声判定部52が音響信号SINのピッチ(基本周波数)の検出を実行し、明確なピッチが検出された単位区間TUを音声と判定するとともにピッチが検出されない単位区間TUを非音声と判定する構成も好適である。もっとも、図2の構成においては、無声音判定部54で使用される指標値D1が音声判定部52でも使用されるから、指標値D1とは別個の指標値(例えばピッチ)が音声判定部52による判定に使用される構成と比較して指標値の算定の負荷が軽減されるという利点がある。なお、例えば入力音VINから無声音の単位区間TUのみを検出する音処理装置14においては音声判定部52が省略される。
以上の形態においては、入力音VINを収音した空間R内の音処理装置14にて識別データdおよび出力信号SOUTを生成したが、識別データdを生成する位置(入力音VINを分類する位置)や出力信号SOUTを生成する位置は適宜に変更される。例えば、収音機器12が生成した音響信号SINと判定部50の生成した識別データdとを音処理装置14が出力する構成においては、音響信号SINと識別データdとから出力信号SOUTを生成する音処理部60が受信側の音処理装置16に設置される。また、収音機器12が生成した音響信号SINを音処理装置14が送信する構成においては、受信側の音処理装置16に図2と同様の要素が設置される。もっとも、遠隔会議システム100は本発明の用途の例示に過ぎない。したがって、出力信号SOUTや音響信号SINの送受信は本発明において必須ではない。
以上の形態においては、非音声と判定された単位区間TUの音響信号SINを音処理部60が出力しない(出力信号SOUTの音量をゼロに設定する)構成を例示したが、音処理部60による処理の内容は適宜に変更される。例えば、非音声と判定された単位区間TUについて音響信号SINの音量を低下させた信号を音処理部60が出力信号SOUTとして出力する構成も好適である。また、音声(有声音または無声音)の単位区間TUと非音声の単位区間TUとについて音響信号SINに別個の音響的な効果を付与することで出力信号SOUTを生成する構成や、有声音の単位区間TUと無声音の単位区間TUとについて音響信号SINに別個の音響的な効果を付与する構成も採用される。さらに、出力信号SOUTの出力先(音処理装置16)において話者認識(話者識別または話者認証)や音声認識が実行される構成において、音処理部60は、例えば、有声音または無声音と判定された単位区間TUについては、音声認識や話者認識に使用される特徴量を音響信号SINから抽出して出力信号SOUTとして出力する一方、非音声と判定された単位区間TUについては特徴量の抽出を停止する。
Claims (11)
- 入力音の各単位区間について変調スペクトルを特定する変調スペクトル特定手段と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段と、
前記入力音の零交差数に応じた第2指標値を前記各単位区間について算定する第2指標算定手段と、
前記各単位区間の入力音が無声音であるか否かを前記第1指標値と前記第2指標値とに基づいて判定する無声音判定手段と
を具備する音処理装置。 - 前記入力音の周波数スペクトルの平坦性に応じた第3指標値を前記各単位区間について算定する第3指標算定手段を具備し、
前記無声音判定手段は、前記各単位区間の入力音が無声音であるか否かを前記第1指標値と前記第2指標値と前記第3指標値とに基づいて判定する
請求項1の音処理装置。 - 入力音の各単位区間について変調スペクトルを特定する変調スペクトル特定手段と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段と、
前記入力音の周波数スペクトルの平坦性に応じた第3指標値を前記各単位区間について算定する第3指標算定手段と、
前記各単位区間の入力音が無声音であるか否かを前記第1指標値と前記第3指標値とに基づいて判定する無声音判定手段と
を具備する音処理装置。 - 前記各単位区間の入力音が音声であるか否かを判定する音声判定手段
を具備する請求項1から請求項3の何れかの音処理装置。 - 前記音声判定手段は、前記各単位区間の入力音が音声であるか否かを前記第1指標値に基づいて判定する
請求項4の音処理装置。 - 前記第1指標算定手段は、前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度が高いほど前記第1指標値が減少するように前記第1指標値を算定し、
前記音声判定手段は、前記第1指標値が第1閾値を下回る単位区間の入力音を音声と判定し、
前記無声音判定手段は、前記第1閾値よりも大きい第2閾値を前記第1指標値が下回る単位区間の入力音を無声音と判定する
請求項4または請求項5の音処理装置。 - 前記第1指標算定手段は、前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度が高いほど前記第1指標値が増加するように前記第1指標値を算定し、
前記音声判定手段は、前記第1指標値が第1閾値を上回る単位区間の入力音を音声と判定し、
前記無声音判定手段は、前記第1閾値よりも小さい第2閾値を前記第1指標値が上回る単位区間の入力音を無声音と判定する
請求項4または請求項5の音処理装置。 - 前記無声音判定手段が無声音と判定した単位区間の入力音と他の単位区間の入力音とに対して異なる処理を実行する音処理手段
を具備する請求項1から請求項7の何れかの音処理装置。 - 前記音声判定手段が音声と判定した単位区間の入力音と前記無声音判定手段が無声音と判定した単位区間の入力音とに対して異なる処理を実行する音処理手段
を具備する請求項4から請求項7の何れかの音処理装置。 - 入力音の各単位区間について変調スペクトルを特定する変調スペクトル特定処理と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、
前記入力音の零交差数に応じた第2指標値を前記各単位区間について算定する第2指標算定処理と、
前記各単位区間の入力音が無声音であるか否かを前記第1指標値と前記第2指標値とに基づいて判定する無声音判定処理と
をコンピュータに実行させるプログラム。 - 入力音の各単位区間について変調スペクトルを特定する変調スペクトル特定処理と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、
前記入力音の周波数スペクトルの平坦性に応じた第3指標値を前記各単位区間について算定する第3指標算定処理と、
前記各単位区間の入力音が無声音であるか否かを前記第1指標値と前記第3指標値とに基づいて判定する無声音判定処理と
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008041520A JP5169297B2 (ja) | 2008-02-22 | 2008-02-22 | 音処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008041520A JP5169297B2 (ja) | 2008-02-22 | 2008-02-22 | 音処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009198892A true JP2009198892A (ja) | 2009-09-03 |
JP5169297B2 JP5169297B2 (ja) | 2013-03-27 |
Family
ID=41142421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008041520A Expired - Fee Related JP5169297B2 (ja) | 2008-02-22 | 2008-02-22 | 音処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5169297B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63262693A (ja) * | 1987-04-20 | 1988-10-28 | 日本電気株式会社 | 音声判定検出装置 |
JPH04100099A (ja) * | 1990-08-20 | 1992-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声検出装置 |
JP2000132177A (ja) * | 1998-10-20 | 2000-05-12 | Canon Inc | 音声処理装置及び方法 |
JP2001022368A (ja) * | 1993-08-17 | 2001-01-26 | Mitsubishi Electric Corp | 音声判別装置及び音声判別方法 |
-
2008
- 2008-02-22 JP JP2008041520A patent/JP5169297B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63262693A (ja) * | 1987-04-20 | 1988-10-28 | 日本電気株式会社 | 音声判定検出装置 |
JPH04100099A (ja) * | 1990-08-20 | 1992-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声検出装置 |
JP2001022368A (ja) * | 1993-08-17 | 2001-01-26 | Mitsubishi Electric Corp | 音声判別装置及び音声判別方法 |
JP2000132177A (ja) * | 1998-10-20 | 2000-05-12 | Canon Inc | 音声処理装置及び方法 |
Non-Patent Citations (5)
Title |
---|
CSNG200202401003; 金寺登他: '"ロバストな音声認識実現を目的とした変調スペクトル特性の検討"' 電子情報通信学会技術研究報告 Vol.97,No.439(1997-12), pp.15-22 * |
CSNG200701100008; 高橋亘他: '"RSFを用いた雑音ロバスト音声区間検出の一考察"' 電子情報通信学会技術研究報告 Vol.107,No.234(2007-09), pp.59-64 * |
JPN6012013512; 谷口徹他: '"音声・音楽識別を目的とした特徴量の検討"' 電子情報通信学会技術研究報告 Vol.102,No.527(2002-12), pp.87-91 * |
JPN6012013513; 高橋亘他: '"RSFを用いた雑音ロバスト音声区間検出の一考察"' 電子情報通信学会技術研究報告 Vol.107,No.234(2007-09), pp.59-64 * |
JPN6012013514; 金寺登他: '"ロバストな音声認識実現を目的とした変調スペクトル特性の検討"' 電子情報通信学会技術研究報告 Vol.97,No.439(1997-12), pp.15-22 * |
Also Published As
Publication number | Publication date |
---|---|
JP5169297B2 (ja) | 2013-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2083417B1 (en) | Sound processing device and program | |
JP2008139568A (ja) | 音声処理装置および音声処理方法、並びに、プログラム | |
US20100274554A1 (en) | Speech analysis system | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
US11727949B2 (en) | Methods and apparatus for reducing stuttering | |
JP2010210758A (ja) | 音声を含む信号の処理方法及び装置 | |
Alonso-Martin et al. | Multidomain voice activity detection during human-robot interaction | |
US8219390B1 (en) | Pitch-based frequency domain voice removal | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP2017187676A (ja) | 音声判別装置、音声判別方法、コンピュータプログラム | |
JP6565548B2 (ja) | 音響解析装置 | |
Bäckström et al. | Voice activity detection | |
JP5157474B2 (ja) | 音処理装置およびプログラム | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
JP5169297B2 (ja) | 音処理装置およびプログラム | |
JP2006154212A (ja) | 音声評価方法および評価装置 | |
JP2006010739A (ja) | 音声認識装置 | |
JP5157475B2 (ja) | 音処理装置およびプログラム | |
JP2023539121A (ja) | オーディオコンテンツの識別 | |
VH et al. | A study on speech recognition technology | |
JP6565549B2 (ja) | 音響解析装置 | |
Ishizuka et al. | A feature for voice activity detection derived from speech analysis with the exponential autoregressive model | |
JP4349415B2 (ja) | 音信号処理装置およびプログラム | |
JP2011158515A (ja) | 音声認識装置および音声認識方法 | |
Every et al. | Enhancement of harmonic content of speech based on a dynamic programming pitch tracking algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5169297 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |