JP4127511B2 - 音源選択方法及び音源選択装置 - Google Patents
音源選択方法及び音源選択装置 Download PDFInfo
- Publication number
- JP4127511B2 JP4127511B2 JP2003065850A JP2003065850A JP4127511B2 JP 4127511 B2 JP4127511 B2 JP 4127511B2 JP 2003065850 A JP2003065850 A JP 2003065850A JP 2003065850 A JP2003065850 A JP 2003065850A JP 4127511 B2 JP4127511 B2 JP 4127511B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- source signal
- value
- calculated
- average power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
【発明の属する技術分野】
本発明は、複数の音源の中から目的音源を選択する音源選択方法及び音源選択装置に関する。
【0002】
【従来の技術】
従来から、音源選択方法及び音源選択装置には、発声内容依存型(音源信号の言語的な特徴に基づく音源選択)、発声内容独立型(音源信号の音響特性のみに基づく音源選択)の二種類に大別される(例えば、特許文献1参照。)。
【0003】
【特許文献1】
特開平5−181464号公報
【0004】
【発明が解決しようとする課題】
その発声内容依存型の音源選択方法は、誤選択率が低いという特徴はあるが、目的音源に相当する発話者の各人に対する大量かつ長時間の学習(トレーニング)が必要であり、実際に音源選択に応用する場合、目的の発話者を想定できず、目的音源に対する学習が不可能なので、音源選択方法及び音源選択装置への事前情報を取り込むことができず、また、目的音源ごとに特徴を表すための大量の情報を保存するためのメモリ(記憶部)が必要である。
【0005】
これに対して、発声内容独立型の音源選択方法は、学習過程は発声内容依存型と同様に必要ではあるが、短時間の学習で推定された音響的特徴パターンを使用しても、長時間の学習で推定したものと較べて大きな性能の劣化がないという長所がある一方で、スペクトルの平均的特徴やピッチ(音源の基本周波数)にのみ基づいて音源を選択するために誤って音源を選択する可能性がある。また、ピッチ抽出処理のための計算量が多く、実時間処理に適用し難いという不都合がある。
【0006】
本発明は、上記の事情に鑑みて為されたもので、処理時間が短くメモリの記憶容量の減少を図ることができしかも誤り率の小さい音源選択法及び音源選択装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
請求項1に記載の音源選択方法は、複数の音源の中から目的音源を選択するものであり、
目的音源信号のスペクトルの目的音源信号平均パワーと目的音源信号平均スパーシティとを演算して記憶する記憶ステップと、
複数の音源信号について各音源信号のスペクトルの音源信号平均パワーを演算して該音源信号平均パワーと前記目的音源信号平均パワーとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第1絶対値を求める第1演算ステップと、
複数の音源信号について各音源信号の平均スパーシティを演算して該平均スパーシティと前記目的音源信号平均スパーシティとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第2絶対値を求める第2演算ステップと、
前記第1演算ステップにより得られた第1絶対値が第1閾値よりも大きいか否かを判断して該第1閾値よりも大きい場合に複数の音源信号のうちの前記第1演算ステップにより得られた前記最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択し、前記第1演算ステップにより得られた第1絶対値が前記第1閾値以下の場合には、前記第2演算ステップを実行させて該第2演算ステップにより得られた第2絶対値が第2閾値よりも大きいか否かを判断して該第2閾値よりも大きい場合に前記第2演算ステップにより得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択する選択ステップと、
を有することを特徴とする。
【0008】
ただし、前記音源信号平均パワーは下記(5)式に従って演算され、前記平均スパーシティは下記(6)式に従って演算される。
【0009】
【数3】
【0010】
請求項2に記載の音源選択装置は、複数の音源の中から目的音源を選択するものであり、
目的音源信号のスペクトルの目的音源信号平均パワーと目的音源信号平均スパーシティとが記憶された記憶部と、
複数の音源信号について各音源信号のスペクトルの音源信号平均パワーを演算して該音源信号平均パワーと前記目的音源信号平均パワーとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第1絶対値を求め、音源信号平均パワーの相関演算により得られた第1絶対値が第1閾値よりも大きいか否かを判断して該第1閾値よりも大きい場合に複数の音源信号のうち音源信号平均パワーの相関演算により得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択し、音源信号平均パワーの相関演算により得られた第1絶対値が前記第1閾値以下の場合には、複数の音源信号について各音源信号の平均スパーシティを演算して該平均スパーシティと前記目的音源信号平均スパーシティとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第2絶対値を求め、平均スパーシティ相関演算により求められた第2絶対値が第2閾値よりも大きいか否かを判断して該第2閾値よりも大きい場合に平均スパーシティの相関演算により得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択する判定回路部とを有することを特徴とする。
【0011】
ただし、前記音源信号平均パワーは下記(7)式に従って演算され、前記平均スパーシティは下記(8)式に従って演算される。
【0012】
【数4】
【0013】
【発明の実施の形態】
図1は本発明に係わる音源選択装置の要部構成を示すブロック回路図である。
【0014】
音源選択装置1は、学習回路部2と判定回路部3とを有する。その学習回路部2は、目的音源の音源の特徴を抽出する目的音源音響特徴抽出部4、目的音源パラメータ推定部5、記憶部6を有する。
【0015】
判定回路部3は、各音源音響特徴抽出部7、各音源パラメータ推定部8、類似度計算部9、音源選択部10を有する。
【0016】
この音源選択装置1には、複数の音源信号s1、s2、…、sj、…、sk、…、sn(kは1からnまでの正の整数)が入力されるものとする。ここでは、目的音源はsjであるとする。
【0017】
音源の音響特徴としては、平均スペクトルと平均スパーシティとを採用するものとする。
【0018】
平均スペクトルは下記(9)式に示すShort−Time Fourier変換(STF)をFast−Fourier Transformation(FFT)を用いて求められる。
【0019】
【数5】
【0020】
ここで、sk(t)はk番目の入力信号、w(t)は窓関数、tcは窓関数の時間座標、t’は窓内部の時間座標、fは周波数、Sk(tc,f)は音源信号sk(t)の周波数スペクトル成分値である。
【0021】
また、Fourier変換FFTの点数は窓関数の長さと同じであり、隣接する2つの窓は一定間隔に保持される。
【0022】
スペクトルの平均パワーP(Sk(f))は、下記(10)式を用いて求められる。
【0023】
【数6】
【0024】
平均スパーシティは、下記(11)式を用いて求められる。
【0025】
【数7】
【0026】
その(10)式、(11)式において、E{…}は、窓関数の時間座標tcに関する平均値を意味する。
【0027】
学習回路部2は、演算式(9)〜(11)式に基づく演算を実行することにより、目的音源sjの学習を実行する。なお、式(9)〜式(11)については、添え字がkで表現されているが、添え字kをjに置き換えれば目的音源に対応した演算となる。
【0028】
目的音源信号sjが教師信号として学習回路部2に入力されると(図2のS.1参照)、目的音源音響特徴抽出部4が(9)式に基づいて窓付けFFTを実行し、フーリエ変換を行う(図2のS.2参照)。そのフーリエ変換処理による信号は、目的音源パラメータ推定部5に入力される。
【0029】
目的音源パラメータ推定部5は、式(10)に基づいて、目的音源の音源信号sjの目的音源信号平均パワースペクトルP(R(f))を算出する(図2のS.3参照)。この目的音源信号平均パワースペクトルP(R(f))は記憶部6に保存される((図2のS.4参照))。
【0030】
ついで、目的音源パラメータ推定部5は、式(11)に基づいて、目的音源の音源信号sjの平均スパーシティSpar(R(f))を算出する(図2のS.5参照)。この平均スパーシティSpar(R(f))も記憶部6に保存される。このS.1〜S.6が記憶ステップである。
【0031】
なお、R(f)は目的音源の音源信号sjのShort−Time Fourier変換(STF)である。
【0032】
この学習過程では、学習時間が長いほど学習の結果が良好となり、実際には数秒から数分程度の学習を必要とする。
【0033】
判定回路部3には、複数の音源信号s1〜snが入力される。各音源信号s1〜snはブロック毎に入力される(図3のS.1参照)。ここで、ブロックとは、窓の長さの倍数のサンプル数の集合を言う。
【0034】
音源音響特徴抽出部7は、各音源信号毎に式(9)に基づき窓付けFFTを実行し、フーリエ変換を行う(図3のS.2参照)。そのフーリエ変換処理による信号は、各音源毎パラメータ推定部8に入力される。
【0035】
各音源毎パラメータ推定部8は、式(10)に基づいて、各音源の音源信号s1〜snの音源信号平均パワースペクトルP(Sk(f))(k=1〜n)を算出する(図2のS.3参照)。その処理結果は類似度計算部9に入力される。
【0036】
類似度計算部9は音源信号平均パワースペクトルP(Sk(f))と目的音源信号平均パワースペクトルP(R(f))との相関度corr(P(Sk(f)),P(R(f)))を演算する(図3のS.4参照)。
【0037】
そして、類似度計算部9は、相関度corr(P(Sk(f)),P(R(f)))が最大となる音源信号の相関値kp maxとその次に大きな値となる音源信号の相関値kp nmaxとを決定する(図3のS.5参照)。
【0038】
そして、下記式(12)に基づいて最大値corr(kp max)と最大値の次に大きな相関値corr(kp nmax)との差の第1絶対値を演算する。この第1演算値を求めるまでのステップが第1演算ステップである。
【0039】
【数8】
【0040】
そして、その差の第1絶対値が第1閾値Threshold1よりも大きいか否かを判断する(図3のS.6参照)。差の第1絶対値が第1閾値Threshold1よりも大きい場合には、複数の音源信号のうち最大値kp maxに対応する音源信号を選択すべき旨の選択信号を音源選択部10に出力する(図3のS.7参照)。音源選択部10はその選択信号に基づき、複数の音源信号のうち最大値kp maxに対応する音源を目的音源信号sjとみなして出力する。この差の第1絶対値が第1閾値Threshold1よりも大きい場合に第1演算ステップにより得られた最大値kp maxに対応する音源信号を選択するステップが選択ステップである。
【0041】
その差の第1絶対値が第1閾値Threshold1よりも小さいときには、類似度計算部9は、各音源信号の平均スパーシティSpar(Sk(f))の演算を実行する(図3のS.8参照)。そして、平均スパーシティSpar(Sk(f))と目的音源平均スパーシティSpar(R(f))との相関演算を実行し、各音源信号について相関値corr(Spar(Sk(f)),Spar(R(f)))を求める(図3のS.9参照)。
【0042】
ついで、類似度計算部9は各相関値corr(Spar(Sk(f)),Spar(R(f)))のうち最大値corr(ks max)とその次に大きな値corr(ks nmax)とを決定する。そしてその最大値corr(ks max)とその次に大きな値corr(ks nmax)との差の第2絶対値を下記(13)式に基づき演算する。この第2絶対値を求める演算ステップが第2演算ステップである。
【0043】
【数9】
【0044】
そして、その差の第2絶対値が第2閾値Threshold2よりも大きいか否かを判断する(図3のS.10参照)。その差の第2絶対値が第2閾値Threshold2よりも大きい場合には、音源選択部10に最大値ks maxが得られた音源信号を目的音源信号sjとみなして選択すべき旨の選択信号を出力し(図3のS.11参照)、その差の第2絶対値が第2閾値Threshold2よりも小さい場合には、音源選択部10に最大値kp maxに対応する音源を目的音源信号sjとみなして選択すべき旨の信号を出力し(図3のS.12参照)、これにより、目的音源が選択される。
【0045】
【発明の効果】
本発明は、以上説明したように構成したので、処理時間が短くメモリの記憶容量の減少を図ることができしかも誤り率の小さい音源選択法及び音源選択装置を提供できる。
【図面の簡単な説明】
【図1】 本発明に係わる音源選択装置の要部構成を示すブロック図である。
【図2】 本発明に係わる音源選択回路の学習過程を説明するためのフローチャートである。
【図3】 本発明に係わる音源選択回路の音源選択手順を説明するためのフローチャートである。
【符号の説明】
1…音源選択装置
3…判定回路部
6…記憶部
Claims (2)
- 複数の音源の中から目的音源を選択する音源選択方法であって、
目的音源信号のスペクトルの目的音源信号平均パワーと目的音源信号平均スパーシティとを演算して記憶する記憶ステップと、
複数の音源信号について各音源信号のスペクトルの音源信号平均パワーを演算して該音源信号平均パワーと前記目的音源信号平均パワーとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第1絶対値を求める第1演算ステップと、
複数の音源信号について各音源信号の平均スパーシティを演算して該平均スパーシティーと前記目的音源信号平均スパーシティとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第2絶対値を求める第2演算ステップと、
前記第1演算ステップにより得られた第1絶対値が第1閾値よりも大きいか否かを判断して該第1閾値よりも大きい場合に複数の音源信号のうちの前記第1演算ステップにより得られた前記最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択し、前記第1演算ステップにより得られた第1絶対値が前記第1閾値以下の場合には、前記第2演算ステップを実行させて該第2演算ステップにより得られた第2絶対値が第2閾値よりも大きいか否かを判断して該第2閾値よりも大きい場合に前記第2演算ステップにより得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択する選択ステップと、
を有する音源選択方法。
ただし、前記音源信号平均パワーは下記(1)式に従って演算され、前記平均スパーシティは下記(2)式に従って演算される。
- 複数の音源の中から目的音源を選択する音源選択装置において、目的音源信号のスペクトルの目的音源信号平均パワーと目的音源信号平均スパーシティとが記憶された記憶部と、
複数の音源信号について各音源信号のスペクトルの音源信号平均パワーを演算して該音源信号平均パワーと前記目的音源信号平均パワーとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第1絶対値を求め、音源信号平均パワーの相関演算により得られた第1絶対値が第1閾値よりも大きいか否かを判断して該第1閾値よりも大きい場合に複数の音源信号のうち音源信号平均パワーの相関演算により得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択し、音源信号平均パワーの相関演算により得られた第1絶対値が前記第1閾値以下の場合には、複数の音源信号について各音源信号の平均スパーシティを演算して該平均スパーシティーと前記目的音源信号平均スパーシティとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第2絶対値を求め、平均スパーシティ相関演算により求められた第2絶対値が第2閾値よりも大きいか否かを判断して該第2閾値よりも大きい場合に平均スパーシティの相関演算により得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択する判定回路部とを有する音源選択装置。
ただし、前記音源信号平均パワーは下記(3)式に従って演算され、前記平均スパーシティは下記(4)式に従って演算される。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003065850A JP4127511B2 (ja) | 2003-03-12 | 2003-03-12 | 音源選択方法及び音源選択装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003065850A JP4127511B2 (ja) | 2003-03-12 | 2003-03-12 | 音源選択方法及び音源選択装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004272129A JP2004272129A (ja) | 2004-09-30 |
JP4127511B2 true JP4127511B2 (ja) | 2008-07-30 |
Family
ID=33126722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003065850A Expired - Fee Related JP4127511B2 (ja) | 2003-03-12 | 2003-03-12 | 音源選択方法及び音源選択装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4127511B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4760524B2 (ja) * | 2006-05-16 | 2011-08-31 | ソニー株式会社 | コントロール機器、ルーティング検証方法およびルーティング検証プログラム |
JP5463655B2 (ja) * | 2008-11-21 | 2014-04-09 | ソニー株式会社 | 情報処理装置、音声解析方法、及びプログラム |
EP2546831B1 (en) * | 2010-03-09 | 2020-01-15 | Mitsubishi Electric Corporation | Noise suppression device |
JP5374427B2 (ja) * | 2010-03-18 | 2013-12-25 | 株式会社日立製作所 | 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置 |
-
2003
- 2003-03-12 JP JP2003065850A patent/JP4127511B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004272129A (ja) | 2004-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161752B (zh) | 回声消除方法和装置 | |
KR101153093B1 (ko) | 다감각 음성 향상을 위한 방법 및 장치 | |
CN107564513B (zh) | 语音识别方法及装置 | |
WO2016015461A1 (zh) | 异常帧检测方法和装置 | |
CN109979486B (zh) | 一种语音质量评估方法及装置 | |
CN108962231B (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
CN103903633B (zh) | 检测语音信号的方法和装置 | |
CN113192536B (zh) | 语音质量检测模型的训练方法、语音质量检测方法及装置 | |
JP5446874B2 (ja) | 音声検出システム、音声検出方法および音声検出プログラム | |
CN112967735B (zh) | 语音质量检测模型的训练方法及语音质量的检测方法 | |
CN107393549A (zh) | 时延估计方法及装置 | |
TWI836607B (zh) | 用以估計失真程度的方法及系統 | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
US20190057705A1 (en) | Methods and apparatus to identify a source of speech captured at a wearable electronic device | |
JP4127511B2 (ja) | 音源選択方法及び音源選択装置 | |
CN112447183B (zh) | 音频处理模型的训练、音频去噪方法、装置及电子设备 | |
CN108847251B (zh) | 一种语音去重方法、装置、服务器及存储介质 | |
CN113393852A (zh) | 语音增强模型的构建方法及系统、语音增强方法及系统 | |
US11887615B2 (en) | Method and device for transparent processing of music | |
CN109741761B (zh) | 声音处理方法和装置 | |
JP4378098B2 (ja) | 音源選択装置および方法 | |
CN110648681A (zh) | 语音增强的方法、装置、电子设备及计算机可读存储介质 | |
CN112002343B (zh) | 语音纯度的识别方法、装置、存储介质及电子装置 | |
JP2005134685A5 (ja) | ||
JP2015031913A (ja) | 音声処理装置、音声処理方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080507 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080508 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110523 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110523 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120523 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130523 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |