JP2004272129A - 音源選択方法及び音源選択装置 - Google Patents

音源選択方法及び音源選択装置 Download PDF

Info

Publication number
JP2004272129A
JP2004272129A JP2003065850A JP2003065850A JP2004272129A JP 2004272129 A JP2004272129 A JP 2004272129A JP 2003065850 A JP2003065850 A JP 2003065850A JP 2003065850 A JP2003065850 A JP 2003065850A JP 2004272129 A JP2004272129 A JP 2004272129A
Authority
JP
Japan
Prior art keywords
sound source
source signal
value
absolute value
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003065850A
Other languages
English (en)
Other versions
JP4127511B2 (ja
Inventor
Sugaku Cho
数学 丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd filed Critical Clarion Co Ltd
Priority to JP2003065850A priority Critical patent/JP4127511B2/ja
Publication of JP2004272129A publication Critical patent/JP2004272129A/ja
Application granted granted Critical
Publication of JP4127511B2 publication Critical patent/JP4127511B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】処理時間が短くメモリの記憶容量の減少を図ることができしかも誤り率の小さい音源選択装置を提供する。
【解決手段】目的音源信号のスペクトルの平均パワーと平均スパーシティとが記憶された学習回路部と判定回路部を有し、判定回路部では、複数の音源信号についてスペクトルの平均パワーを演算して目的音源信号との相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第1絶対値を求め(ステップ1〜5)、第1絶対値が第1閾値よりも大きいか否かを判断し(ステップ6、7)、さらに、複数の音源信号について平均スパーシティを演算して目的音源信号との相関値を演算し、得られた複数の相関値のうち最大値と最大値の次に大きい値との差の第2絶対値を求め(ステップ8、9)、第2閾値よりも大きいか否かを判断して音源信号を選択する(ステップ10〜12)。
【選択図】 図3

Description

【0001】
【発明の属する技術分野】
本発明は、複数の音源の中から目的音源を選択する音源選択方法及び音源選択装置に関する。
【0002】
【従来の技術】
従来から、音源選択方法及び音源選択装置には、発声内容依存型(音源信号の言語的な特徴に基づく音源選択)、発声内容独立型(音源信号の音響特性のみに基づく音源選択)の二種類に大別される(例えば、特許文献1参照。)。
【0003】
【特許文献1】
特開平5−181464号公報
【0004】
【発明が解決しようとする課題】
その発声内容依存型の音源選択方法は、誤選択率が低いという特徴はあるが、目的音源に相当する発話者の各人に対する大量かつ長時間の学習(トレーニング)が必要であり、実際に音源選択に応用する場合、目的の発話者を想定できず、目的音源に対する学習が不可能なので、音源選択方法及び音源選択装置への事前情報を取り込むことができず、また、目的音源ごとに特徴を表すための大量の情報を保存するためのメモリ(記憶部)が必要である。
【0005】
これに対して、発声内容独立型の音源選択方法は、学習過程は発声内容依存型と同様に必要ではあるが、短時間の学習で推定された音響的特徴パターンを使用しても、長時間の学習で推定したものと較べて大きな性能の劣化がないという長所がある一方で、スペクトルの平均的特徴やピッチ(音源の基本周波数)にのみ基づいて音源を選択するために誤って音源を選択する可能性がある。また、ピッチ抽出処理のための計算量が多く、実時間処理に適用し難いという不都合がある。
【0006】
本発明は、上記の事情に鑑みて為されたもので、処理時間が短くメモリの記憶容量の減少を図ることができしかも誤り率の小さい音源選択法及び音源選択装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
請求項1に記載の音源選択方法は、複数の音源の中から目的音源を選択するものであり、
目的音源信号のスペクトルの目的音源信号平均パワーと目的音源信号平均スパーシティとを演算して記憶する記憶ステップと、
複数の音源信号について各音源信号のスペクトルの音源信号平均パワーを演算して該音源信号平均パワーと前記目的音源信号平均パワーとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第1絶対値を求める第1演算ステップと、
複数の音源信号について各音源信号の平均スパーシティを演算して該平均スパーシティと前記目的音源信号平均スパーシティとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第2絶対値を求める第2演算ステップと、
前記第1演算ステップにより得られた第1絶対値が第1閾値よりも大きいか否かを判断して該第1閾値よりも大きい場合に複数の音源信号のうちの前記第1演算ステップにより得られた前記最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択し、前記第1演算ステップにより得られた第1絶対値が前記第1閾値以下の場合には、前記第2演算ステップを実行させて該第2演算ステップにより得られた第2絶対値が第2閾値よりも大きいか否かを判断して該第2閾値よりも大きい場合に前記第2演算ステップにより得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択する選択ステップと、
を有することを特徴とする。
【0008】
ただし、前記音源信号平均パワーは下記(5)式に従って演算され、前記平均スパーシティは下記(6)式に従って演算される。
【0009】
【数3】
Figure 2004272129
【0010】
請求項2に記載の音源選択装置は、複数の音源の中から目的音源を選択するものであり、
目的音源信号のスペクトルの目的音源信号平均パワーと目的音源信号平均スパーシティとが記憶された記憶部と、
複数の音源信号について各音源信号のスペクトルの音源信号平均パワーを演算して該音源信号平均パワーと前記目的音源信号平均パワーとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第1絶対値を求め、音源信号平均パワーの相関演算により得られた第1絶対値が第1閾値よりも大きいか否かを判断して該第1閾値よりも大きい場合に複数の音源信号のうち音源信号平均パワーの相関演算により得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択し、音源信号平均パワーの相関演算により得られた第1絶対値が前記第1閾値以下の場合には、複数の音源信号について各音源信号の平均スパーシティを演算して該平均スパーシティと前記目的音源信号平均スパーシティとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第2絶対値を求め、平均スパーシティ相関演算により求められた第2絶対値が第2閾値よりも大きいか否かを判断して該第2閾値よりも大きい場合に平均スパーシティの相関演算により得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択する判定回路部とを有することを特徴とする。
【0011】
ただし、前記音源信号平均パワーは下記(7)式に従って演算され、前記平均スパーシティは下記(8)式に従って演算される。
【0012】
【数4】
Figure 2004272129
【0013】
【発明の実施の形態】
図1は本発明に係わる音源選択装置の要部構成を示すブロック回路図である。
【0014】
音源選択装置1は、学習回路部2と判定回路部3とを有する。その学習回路部2は、目的音源の音源の特徴を抽出する目的音源音響特徴抽出部4、目的音源パラメータ推定部5、記憶部6を有する。
【0015】
判定回路部3は、各音源音響特徴抽出部7、各音源パラメータ推定部8、類似度計算部9、音源選択部10を有する。
【0016】
この音源選択装置1には、複数の音源信号s、s、…、s、…、s、…、s(kは1からnまでの正の整数)が入力されるものとする。ここでは、目的音源はsであるとする。
【0017】
音源の音響特徴としては、平均スペクトルと平均スパーシティとを採用するものとする。
【0018】
平均スペクトルは下記(9)式に示すShort−Time Fourier変換(STF)をFast−Fourier Transformation(FFT)を用いて求められる。
【0019】
【数5】
Figure 2004272129
【0020】
ここで、s(t)はk番目の入力信号、w(t)は窓関数、tは窓関数の時間座標、t’は窓内部の時間座標、fは周波数、S(t,f)は音源信号s(t)の周波数スペクトル成分値である。
【0021】
また、Fourier変換FFTの点数は窓関数の長さと同じであり、隣接する2つの窓は一定間隔に保持される。
【0022】
スペクトルの平均パワーP(S(f))は、下記(10)式を用いて求められる。
【0023】
【数6】
Figure 2004272129
【0024】
平均スパーシティは、下記(11)式を用いて求められる。
【0025】
【数7】
Figure 2004272129
【0026】
その(10)式、(11)式において、E{…}は、窓関数の時間座標tに関する平均値を意味する。
【0027】
学習回路部2は、演算式(9)〜(11)式に基づく演算を実行することにより、目的音源sの学習を実行する。なお、式(9)〜式(11)については、添え字がkで表現されているが、添え字kをjに置き換えれば目的音源に対応した演算となる。
【0028】
目的音源信号sが教師信号として学習回路部2に入力されると(図2のS.1参照)、目的音源音響特徴抽出部4が(9)式に基づいて窓付けFFTを実行し、フーリエ変換を行う(図2のS.2参照)。そのフーリエ変換処理による信号は、目的音源パラメータ推定部5に入力される。
【0029】
目的音源パラメータ推定部5は、式(10)に基づいて、目的音源の音源信号sの目的音源信号平均パワースペクトルP(R(f))を算出する(図2のS.3参照)。この目的音源信号平均パワースペクトルP(R(f))は記憶部6に保存される((図2のS.4参照))。
【0030】
ついで、目的音源パラメータ推定部5は、式(11)に基づいて、目的音源の音源信号sの平均スパーシティSpar(R(f))を算出する(図2のS.5参照)。この平均スパーシティSpar(R(f))も記憶部6に保存される。このS.1〜S.6が記憶ステップである。
【0031】
なお、R(f)は目的音源の音源信号sのShort−Time Fourier変換(STF)である。
【0032】
この学習過程では、学習時間が長いほど学習の結果が良好となり、実際には数秒から数分程度の学習を必要とする。
【0033】
判定回路部3には、複数の音源信号s〜sが入力される。各音源信号s〜sはブロック毎に入力される(図3のS.1参照)。ここで、ブロックとは、窓の長さの倍数のサンプル数の集合を言う。
【0034】
音源音響特徴抽出部7は、各音源信号毎に式(9)に基づき窓付けFFTを実行し、フーリエ変換を行う(図3のS.2参照)。そのフーリエ変換処理による信号は、各音源毎パラメータ推定部8に入力される。
【0035】
各音源毎パラメータ推定部8は、式(10)に基づいて、各音源の音源信号s〜sの音源信号平均パワースペクトルP(S(f))(k=1〜n)を算出する(図2のS.3参照)。その処理結果は類似度計算部9に入力される。
【0036】
類似度計算部9は音源信号平均パワースペクトルP(S(f))と目的音源信号平均パワースペクトルP(R(f))との相関度corr(P(S(f)),P(R(f)))を演算する(図3のS.4参照)。
【0037】
そして、類似度計算部9は、相関度corr(P(S(f)),P(R(f)))が最大となる音源信号の相関値k maxとその次に大きな値となる音源信号の相関値k nmaxとを決定する(図3のS.5参照)。
【0038】
そして、下記式(12)に基づいて最大値corr(k max)と最大値の次に大きな相関値corr(k nmax)との差の第1絶対値を演算する。この第1演算値を求めるまでのステップが第1演算ステップである。
【0039】
【数8】
Figure 2004272129
【0040】
そして、その差の第1絶対値が第1閾値Threshold1よりも大きいか否かを判断する(図3のS.6参照)。差の第1絶対値が第1閾値Threshold1よりも大きい場合には、複数の音源信号のうち最大値k maxに対応する音源信号を選択すべき旨の選択信号を音源選択部10に出力する(図3のS.7参照)。音源選択部10はその選択信号に基づき、複数の音源信号のうち最大値k maxに対応する音源を目的音源信号sとみなして出力する。この差の第1絶対値が第1閾値Threshold1よりも大きい場合に第1演算ステップにより得られた最大値k maxに対応する音源信号を選択するステップが選択ステップである。
【0041】
その差の第1絶対値が第1閾値Threshold1よりも小さいときには、類似度計算部9は、各音源信号の平均スパーシティSpar(Sk(f))の演算を実行する(図3のS.8参照)。そして、平均スパーシティSpar(Sk(f))と目的音源平均スパーシティSpar(R(f))との相関演算を実行し、各音源信号について相関値corr(Spar(Sk(f)),Spar(R(f)))を求める(図3のS.9参照)。
【0042】
ついで、類似度計算部9は各相関値corr(Spar(Sk(f)),Spar(R(f)))のうち最大値corr(k max)とその次に大きな値corr(k nmax)とを決定する。そしてその最大値corr(k max)とその次に大きな値corr(k nmax)との差の第2絶対値を下記(13)式に基づき演算する。この第2絶対値を求める演算ステップが第2演算ステップである。
【0043】
【数9】
Figure 2004272129
【0044】
そして、その差の第2絶対値が第2閾値Threshold2よりも大きいか否かを判断する(図3のS.10参照)。その差の第2絶対値が第2閾値Threshold2よりも大きい場合には、音源選択部10に最大値k maxが得られた音源信号を目的音源信号sとみなして選択すべき旨の選択信号を出力し(図3のS.11参照)、その差の第2絶対値が第2閾値Threshold2よりも小さい場合には、音源選択部10に最大値k maxに対応する音源を目的音源信号sとみなして選択すべき旨の信号を出力し(図3のS.12参照)、これにより、目的音源が選択される。
【0045】
【発明の効果】
本発明は、以上説明したように構成したので、処理時間が短くメモリの記憶容量の減少を図ることができしかも誤り率の小さい音源選択法及び音源選択装置を提供できる。
【図面の簡単な説明】
【図1】本発明に係わる音源選択装置の要部構成を示すブロック図である。
【図2】本発明に係わる音源選択回路の学習過程を説明するためのフローチャートである。
【図3】本発明に係わる音源選択回路の音源選択手順を説明するためのフローチャートである。
【符号の説明】
1…音源選択装置
3…判定回路部
6…記憶部

Claims (2)

  1. 複数の音源の中から目的音源を選択する音源選択方法であって、
    目的音源信号のスペクトルの目的音源信号平均パワーと目的音源信号平均スパーシティとを演算して記憶する記憶ステップと、
    複数の音源信号について各音源信号のスペクトルの音源信号平均パワーを演算して該音源信号平均パワーと前記目的音源信号平均パワーとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第1絶対値を求める第1演算ステップと、
    複数の音源信号について各音源信号の平均スパーシティを演算して該平均スパーシティーと前記目的音源信号平均スパーシティとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第2絶対値を求める第2演算ステップと、
    前記第1演算ステップにより得られた第1絶対値が第1閾値よりも大きいか否かを判断して該第1閾値よりも大きい場合に複数の音源信号のうちの前記第1演算ステップにより得られた前記最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択し、前記第1演算ステップにより得られた第1絶対値が前記第1閾値以下の場合には、前記第2演算ステップを実行させて該第2演算ステップにより得られた第2絶対値が第2閾値よりも大きいか否かを判断して該第2閾値よりも大きい場合に前記第2演算ステップにより得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択する選択ステップと、
    を有する音源選択方法。
    ただし、前記音源信号平均パワーは下記(1)式に従って演算され、前記平均スパーシティは下記(2)式に従って演算される。
    Figure 2004272129
  2. 複数の音源の中から目的音源を選択する音源選択装置において、目的音源信号のスペクトルの目的音源信号平均パワーと目的音源信号平均スパーシティとが記憶された記憶部と、
    複数の音源信号について各音源信号のスペクトルの音源信号平均パワーを演算して該音源信号平均パワーと前記目的音源信号平均パワーとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第1絶対値を求め、音源信号平均パワーの相関演算により得られた第1絶対値が第1閾値よりも大きいか否かを判断して該第1閾値よりも大きい場合に複数の音源信号のうち音源信号平均パワーの相関演算により得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択し、音源信号平均パワーの相関演算により得られた第1絶対値が前記第1閾値以下の場合には、複数の音源信号について各音源信号の平均スパーシティを演算して該平均スパーシティーと前記目的音源信号平均スパーシティとの相関値を演算し、得られた複数の相関値のうち最大値と該最大値の次に大きい値との差の第2絶対値を求め、平均スパーシティ相関演算により求められた第2絶対値が第2閾値よりも大きいか否かを判断して該第2閾値よりも大きい場合に平均スパーシティの相関演算により得られた最大値に対応する音源信号を目的音源信号とみなして該音源信号を選択する判定回路部とを有する音源選択装置。
    ただし、前記音源信号平均パワーは下記(3)式に従って演算され、前記平均スパーシティは下記(4)式に従って演算される。
    Figure 2004272129
JP2003065850A 2003-03-12 2003-03-12 音源選択方法及び音源選択装置 Expired - Fee Related JP4127511B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003065850A JP4127511B2 (ja) 2003-03-12 2003-03-12 音源選択方法及び音源選択装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003065850A JP4127511B2 (ja) 2003-03-12 2003-03-12 音源選択方法及び音源選択装置

Publications (2)

Publication Number Publication Date
JP2004272129A true JP2004272129A (ja) 2004-09-30
JP4127511B2 JP4127511B2 (ja) 2008-07-30

Family

ID=33126722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003065850A Expired - Fee Related JP4127511B2 (ja) 2003-03-12 2003-03-12 音源選択方法及び音源選択装置

Country Status (1)

Country Link
JP (1) JP4127511B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007311845A (ja) * 2006-05-16 2007-11-29 Sony Corp コントロール機器、ルーティング検証方法およびルーティング検証プログラム
JP2010122630A (ja) * 2008-11-21 2010-06-03 Sony Corp 情報処理装置、音声解析方法、及びプログラム
JP2011199474A (ja) * 2010-03-18 2011-10-06 Hitachi Ltd 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置
CN102792373A (zh) * 2010-03-09 2012-11-21 三菱电机株式会社 噪音抑制装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007311845A (ja) * 2006-05-16 2007-11-29 Sony Corp コントロール機器、ルーティング検証方法およびルーティング検証プログラム
JP2010122630A (ja) * 2008-11-21 2010-06-03 Sony Corp 情報処理装置、音声解析方法、及びプログラム
CN102792373A (zh) * 2010-03-09 2012-11-21 三菱电机株式会社 噪音抑制装置
JP2011199474A (ja) * 2010-03-18 2011-10-06 Hitachi Ltd 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置

Also Published As

Publication number Publication date
JP4127511B2 (ja) 2008-07-30

Similar Documents

Publication Publication Date Title
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
CN110634497B (zh) 降噪方法、装置、终端设备及存储介质
KR101670313B1 (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
US20130035933A1 (en) Audio signal processing apparatus and audio signal processing method
EP2927906B1 (en) Method and apparatus for detecting voice signal
JP2007279444A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US20140177853A1 (en) Sound processing device, sound processing method, and program
EP4189677B1 (en) Noise reduction using machine learning
JP2014126856A (ja) 雑音除去装置及びその制御方法
US20070011001A1 (en) Apparatus for predicting the spectral information of voice signals and a method therefor
CN108847251B (zh) 一种语音去重方法、装置、服务器及存储介质
JP2004272129A (ja) 音源選択方法及び音源選択装置
JP2005258158A (ja) ノイズ除去装置
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
JP5772591B2 (ja) 音声信号処理装置
JP2021071586A (ja) 音抽出システム及び音抽出方法
JP6672478B2 (ja) 生体音解析方法、プログラム、記憶媒体及び生体音解析装置
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN113593604A (zh) 检测音频质量方法、装置及存储介质
JP2015031913A (ja) 音声処理装置、音声処理方法、及びプログラム
JP6716933B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
JP4378098B2 (ja) 音源選択装置および方法
JPWO2015093025A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
US20220319529A1 (en) Computer-readable recording medium storing noise determination program, noise determination method, and noise determination apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080507

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080508

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120523

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130523

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees