JP2008209548A - 音高推定装置、音高推定方法およびプログラム - Google Patents
音高推定装置、音高推定方法およびプログラム Download PDFInfo
- Publication number
- JP2008209548A JP2008209548A JP2007045014A JP2007045014A JP2008209548A JP 2008209548 A JP2008209548 A JP 2008209548A JP 2007045014 A JP2007045014 A JP 2007045014A JP 2007045014 A JP2007045014 A JP 2007045014A JP 2008209548 A JP2008209548 A JP 2008209548A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- probability density
- function
- fundamental frequency
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】関数推定部22は、音響信号Vを区分した複数のフレームの各々について基本周波数の確率密度関数Pを推定する。確率密度関数Pは、高調波構造をモデル化する複数の音モデルの混合分布として各フレームの音響信号Vをモデル化したときの音モデルの重み値を示す。平滑化部24Aは、複数のフレームにわたる確率密度関数Pの平均を算定することで確率密度関数Pの関数値の時間的な変動を抑制する。音高特定部26は、平滑化部24による処理後の確率密度関数Pから音響信号Vの基本周波数F0を推定する。
【選択図】図1
Description
図1は、本発明の第1実施形態に係る音高推定装置の機能的な構成を示すブロック図である。音高推定装置Dは、図1に示すように、周波数分析部12とBPF(Band Pass Filter)14と音高推定部20と記憶部30とを含む。図1に図示された各部は、例えばCPUなどの演算処理装置がプログラムを実行することで実現されてもよいし、基本周波数F0の推定に専用されるDSPなどのハードウェアによって実現されてもよい。
次に、本発明の第2実施形態について説明する。なお、以下の各形態においては、構成や機能が第1実施形態と共通する要素に同じ符号を付して、各々の詳細な説明を適宜に省略する。
次に、本発明の第3実施形態について説明する。以上の各形態においては、確率密度関数Pの関数値や基本周波数F0などフレームごとに算定される特徴量について平均値が算定される構成を例示した。平均値の算定の対象となる特徴量の個数(サンプル数)を固定値とした場合、ノイズなどに起因した特徴量の偶発的な変動は確かに抑制されるが、対象音の実際の特性が急峻に変化した場合であっても特徴量が緩慢にしか変動しない(すなわち特徴量が実際の対象音の特性を忠実に反映しない)という問題がある。そこで、対象音の特性に応じて特徴量を急峻に変化させ得る平滑化部24(24A,24B)の具体例を以下に説明する。
次に、本発明の第4実施形態について説明する。第3実施形態においては、FIRフィルタを平滑化部24に適用した構成を例示したが、本実施形態においてはIIR(Infinite Impulse Response)フィルタが平滑化部24として利用される。
k=1/(a・|D|2+1)
すなわち、変化度|D|が小さいほど係数kは増加する(係数(1-k)は減少する)から、特徴量Eの平滑化の度合は大きくなる。一方、変化度|D|が大きい(すなわち自乗和Xの変動が大きい)ほど係数kは減少するから、新たに供給された特徴量Eが平滑化後の特徴量EAに与える影響は増大する。したがって、第3実施形態と同様に、ノイズなど偶発的な要因によらず対象音の特性が急峻に変化した場合に、特徴量EAを対象音に応じて急峻に変化させることが可能となる。
第1実施形態や第2実施形態のように特徴量(確率密度関数Pの関数値や基本周波数F0)が複数のフレームにわたる平均値に変換される構成においては、対象音を構成する各音の発音または消音を基本周波数F0の出力に迅速に反映させることが困難であるという問題がある。すなわち、対象音を構成する各音の発音の開始点から実際に当該音の基本周波数F0が出力され始める時点までに遅延が発生する場合や、発音の終了点から実際に当該音の基本周波数F0が出力され終える時点までに遅延が発生する場合がある。本発明の第4実施形態は、対象音を構成する各音の発音や消音を基本周波数F0に迅速に反映させるための形態である。
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
平滑化の対象となる特徴量Eは確率密度関数Pの関数値や基本周波数F0に限定されない。例えば、周波数分析部12やBPF14から出力された振幅スペクトルの強度を複数のフレームにわたって時間的に平滑化してもよい。また、以上の各形態のように音高特定部26にマルチエージェントモデルを採用した場合には、例えば各エージェントの信頼度(得点)を複数のフレームにわたって平滑化してもよい。すなわち、本発明の具体的な態様においては、フレームごとに算定される特徴量の時間的な変動を抑制する態様が特に好適に採用されるが、特徴量の具体的な意義やその算定の方法の如何は不問である。
以上の各形態を適宜に組み合わせてもよい。例えば、第1実施形態と第2実施形態とを組み合わせ、関数推定部22と音高特定部26との間に平滑化部24Aが介在するとともに音高特定部26の後段に平滑化部24Bが配置された構成としてもよい。また、第5実施形態においては、第1実施形態に検出部50を追加した構成を例示したが、第2実施形態に検出部50を追加した構成も当然に採用される。
第3実施形態においてはN個の特徴量E1〜ENの相加平均が特徴量EAとして算定される構成を例示したが、平均算定部242が特徴量EAを算定する方法は適宜に変更される。例えば、特徴量E1〜ENの加重平均が特徴量EAとして算定される構成としてもよい。特徴量E1〜ENの各々に乗算される係数(重み値)は、例えば新しい特徴量Eの係数ほど大きくなるように設定される。また、特徴量E1〜ENの時間的な変動を抑制するための処理は、特徴量E1〜ENの平均値の算定に限定されない。例えば最頻値(モード)、中央値(メディアン)、LPCまたは残差の演算など、特徴量E1〜ENの突発的な変動を平滑化し得る総ての処理を採用することが可能である。さらに、図7や図9の記憶部42および演算部44を、IIRフィルタの構造に変更してもよい。
以上の各形態においては音高特定部26にマルチエージェントモデルを使用した構成を例示したが、確率密度関数Pから基本周波数F0を特定する方法は任意である。例えば、確率密度関数Pのうち関数値が大きいほうから計数して所定数のピークの周波数を基本周波数F0として算定してもよい。
Claims (8)
- 音響信号を区分した複数のフレームの各々について、高調波構造をモデル化する複数の音モデルの混合分布として当該フレームの音響信号をモデル化したときの音モデルの重み値を示す基本周波数の確率密度関数を推定する関数推定手段と、
前記各確率密度関数から音響信号の基本周波数を推定する音高特定手段と、
前記関数推定手段または前記音高特定手段による処理に際してフレームごとに算定される特徴量の時間的な変動を抑制する平滑化手段と
を具備する音高推定装置。 - 前記平滑化手段は、前記関数推定手段が推定する確率密度関数の関数値の時間的な変動を抑制する
請求項1に記載の音高推定装置。 - 前記平滑化手段は、前記音高特定手段が特定する基本周波数の時間的な変動を抑制する
請求項1または請求項2に記載の音高推定装置。 - 音響信号を区分した各フレームについて振幅スペクトルを生成する周波数分析手段を具備し、
前記関数推定手段は、前記各振幅スペクトルに基づいて確率密度関数を推定し、
前記平滑化手段は、前記振幅スペクトルの強度の時間的な変動を抑制する
請求項1から請求項3の何れかに記載の音高推定装置。 - 前記平滑化手段は、
前記フレームごとに順次に算定される特徴量の複数個を記憶する記憶手段と、
前記記憶手段に記憶された複数個の特徴量から選択した所定数の特徴量の平均値を平滑化後の特徴量として算定する平均算定手段と、
前記平均算定手段が選択する特徴量の個数を制御する制御手段と
を具備する請求項1から請求項4の何れかに記載の音高推定装置。 - 発音の始点または終点を音響信号から検出する検出手段を具備し、
前記平滑化手段は、前記検出手段が検出した始点または終点に対応した時機の特徴量をそのまま出力する
請求項1から請求項5の何れかに記載の音高推定装置。 - 音響信号を区分した複数のフレームの各々について、高調波構造をモデル化する複数の音モデルの混合分布として当該フレームの音響信号をモデル化したときの音モデルの重み値を示す基本周波数の確率密度関数を推定し、
前記各確率密度関数から音響信号の基本周波数を推定する一方、
前記確率密度関数の推定または前記基本周波数の推定に際してフレームごとに算定される特徴量の時間的な変動を抑制する
音高推定方法。 - 音響信号を区分した複数のフレームの各々について、高調波構造をモデル化する複数の音モデルの混合分布として当該フレームの音響信号をモデル化したときの音モデルの重み値を示す基本周波数の確率密度関数を推定する関数推定処理と、
前記各確率密度関数から音響信号の基本周波数を推定する音高特定処理と、
前記関数推定処理または前記音高特定処理に際してフレームごとに算定される特徴量の時間的な変動を抑制する平滑化処理と
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007045014A JP4630983B2 (ja) | 2007-02-26 | 2007-02-26 | 音高推定装置、音高推定方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007045014A JP4630983B2 (ja) | 2007-02-26 | 2007-02-26 | 音高推定装置、音高推定方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008209548A true JP2008209548A (ja) | 2008-09-11 |
JP4630983B2 JP4630983B2 (ja) | 2011-02-09 |
Family
ID=39785925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007045014A Expired - Fee Related JP4630983B2 (ja) | 2007-02-26 | 2007-02-26 | 音高推定装置、音高推定方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4630983B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010540977A (ja) * | 2007-07-13 | 2010-12-24 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | レベルの時変の推定された確率密度を使用する時変オーディオ信号レベル |
KR101121217B1 (ko) | 2011-10-14 | 2012-03-22 | 주식회사 스마트송 | Iir 필터를 이용한 시간 영역에서의 피치 추정 장치 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0380299A (ja) * | 1989-08-23 | 1991-04-05 | Fujitsu Ltd | 単語音声予備選択方式 |
JPH09244695A (ja) * | 1996-03-04 | 1997-09-19 | Kobe Steel Ltd | 音声符号化装置及び復号化装置 |
JP2001356793A (ja) * | 2000-06-13 | 2001-12-26 | Casio Comput Co Ltd | 音声認識装置、及び音声認識方法 |
JP3413634B2 (ja) * | 1999-10-27 | 2003-06-03 | 独立行政法人産業技術総合研究所 | 音高推定方法及び装置 |
WO2005066927A1 (ja) * | 2004-01-09 | 2005-07-21 | Toudai Tlo, Ltd. | 多重音信号解析方法 |
-
2007
- 2007-02-26 JP JP2007045014A patent/JP4630983B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0380299A (ja) * | 1989-08-23 | 1991-04-05 | Fujitsu Ltd | 単語音声予備選択方式 |
JPH09244695A (ja) * | 1996-03-04 | 1997-09-19 | Kobe Steel Ltd | 音声符号化装置及び復号化装置 |
JP3413634B2 (ja) * | 1999-10-27 | 2003-06-03 | 独立行政法人産業技術総合研究所 | 音高推定方法及び装置 |
JP2001356793A (ja) * | 2000-06-13 | 2001-12-26 | Casio Comput Co Ltd | 音声認識装置、及び音声認識方法 |
WO2005066927A1 (ja) * | 2004-01-09 | 2005-07-21 | Toudai Tlo, Ltd. | 多重音信号解析方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010540977A (ja) * | 2007-07-13 | 2010-12-24 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | レベルの時変の推定された確率密度を使用する時変オーディオ信号レベル |
KR101121217B1 (ko) | 2011-10-14 | 2012-03-22 | 주식회사 스마트송 | Iir 필터를 이용한 시간 영역에서의 피치 추정 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP4630983B2 (ja) | 2011-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4630980B2 (ja) | 音高推定装置、音高推定方法およびプログラム | |
JP5641186B2 (ja) | 雑音抑圧装置およびプログラム | |
JP5187666B2 (ja) | 雑音抑圧装置およびプログラム | |
JP5152799B2 (ja) | 雑音抑圧装置およびプログラム | |
JP5157837B2 (ja) | ピッチ検出装置およびプログラム | |
JP4630983B2 (ja) | 音高推定装置、音高推定方法およびプログラム | |
JP5152800B2 (ja) | 雑音抑圧評価装置およびプログラム | |
JP5728903B2 (ja) | 音響処理装置およびプログラム | |
Gabrielli et al. | Adaptive linear prediction filtering in dwt domain for real-time musical onset detection | |
JP2011180219A (ja) | 係数設定装置および雑音抑圧装置 | |
JP4630982B2 (ja) | 音高推定装置、音高推定方法およびプログラム | |
JP4630979B2 (ja) | 音高推定装置、音高推定方法およびプログラム | |
JP4630981B2 (ja) | 音高推定装置、音高推定方法およびプログラム | |
JP5131172B2 (ja) | 周期特定装置およびプログラム | |
JP5513074B2 (ja) | グリッド検出装置及びプログラム | |
JP2013250356A (ja) | 係数設定装置および雑音抑圧装置 | |
JP2009150920A (ja) | エコーキャンセル装置、カラオケ装置、エコーキャンセル方法およびプログラム | |
JP4710037B2 (ja) | 音高推定装置、音高推定方法およびプログラム | |
JP5327375B2 (ja) | ピッチ検出装置およびプログラム | |
JP7275711B2 (ja) | オーディオ信号の処理方法 | |
JP4478802B2 (ja) | 音モデル生成装置、音モデル生成方法およびプログラム | |
JP4625935B2 (ja) | 音分析装置およびプログラム | |
JP2010107689A (ja) | ピッチ情報検出装置およびプログラム | |
JP2015169900A (ja) | 雑音抑圧装置 | |
JP3765313B2 (ja) | 楽音合成装置および楽音合成用プログラムが記録されたコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080929 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101012 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |