JP3700890B2 - 信号識別装置及び信号識別方法 - Google Patents
信号識別装置及び信号識別方法 Download PDFInfo
- Publication number
- JP3700890B2 JP3700890B2 JP18349897A JP18349897A JP3700890B2 JP 3700890 B2 JP3700890 B2 JP 3700890B2 JP 18349897 A JP18349897 A JP 18349897A JP 18349897 A JP18349897 A JP 18349897A JP 3700890 B2 JP3700890 B2 JP 3700890B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- input signal
- pitch
- frame energy
- average value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title description 40
- 230000005236 sound signal Effects 0.000 claims description 74
- 239000000284 extract Substances 0.000 claims description 8
- 239000011295 pitch Substances 0.000 description 119
- 238000004364 calculation method Methods 0.000 description 43
- 239000013598 vector Substances 0.000 description 43
- 230000014509 gene expression Effects 0.000 description 38
- 230000000694 effects Effects 0.000 description 14
- 238000013139 quantization Methods 0.000 description 12
- 239000006185 dispersion Substances 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 102100022441 Sperm surface protein Sp17 Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【目次】
以下の順序で本発明を説明する。
【0002】
発明の属する技術分野
従来の技術
発明が解決しようとする課題
課題を解決するための手段
発明の実施の形態
(1)第1の実施の形態
(1−1)符号化装置の全体構成(図1)
(1−2)信号識別回路
(1−2−1)信号識別の原理(図2及び図3)
(1−2−2)信号識別回路の構成(図4)
(1−3)動作及び効果(図5)
(2)第2の実施の形態(図6)
(3)他の実施の形態
発明の効果
【0003】
【発明の属する技術分野】
本発明は信号識別装置、コードブツク切換装置、信号識別方法及びコードブツク切換方法に関し、例えば入力信号を識別して符号化時に使用するコードブツクを切り換え得る符号化装置に適用して好適なものである。
【0004】
【従来の技術】
従来、音声信号等の入力信号を低ビツトレートで圧縮符号化する技術が種々提案されている。このような低ビツトレートの信号符号化技術の代表的なものとしてベクトル量子化がある。このベクトル量子化の最大の特徴は、従来から提案されている各種符号化方式が入力信号をスカラー量で扱うのに対して、入力信号をベクトル量として扱う点にある。
【0005】
ここでこのベクトル量子化について具体的に説明する。まず従来から提案されているMBE(Multiband Excitation:マルチバンド励起)符号化、SBE(Singleband Excitation :シングルバンド励起)符号化、ハーモニツク(Harmonic)符号化、SBC(Sub-band Coding :帯域分割符号化)、LPC(Linear Predictive Coding:線形予測符号化)、或いはDCT(離散コサイン変換)、MDCT(モデイフアイドDCT)等の符号化方式においては、入力信号から得られるスペクトル振幅やその他のパラメータ等を情報データとし、これら情報データをそれぞれスカラー量として扱つて量子化するようになされている。
【0006】
これに対してベクトル量子化においては、入力信号から得られる各種情報データをスカラー量として個々に量子化するのではなく、当該情報データを複数個ずつ組にしてこれをベクトルとし、そのベクトルを表す情報(例えばベクトル番号)を符号化するようになされている。これによりベクトル量子化においては、スカラー量子化の場合に比して、ビツトレートを一段と低減することができると共に、量子化効率を一段と向上することができるといつた効果がある。
【0007】
ここでベクトル量子化を実際に実現する場合には、まずベクトル番号が付された代表的なベクトルを複数個予めメモリ等の記憶回路に記憶しておき(以下、この代表的なベクトルを記憶した記憶回路をコードブツクと呼ぶ)、これを符号化装置に用意しておく。そして符号化装置においては、入力信号から得た情報データを所定個ずつ組にしてベクトルを形成し、このベクトルに最も類似している代表ベクトルをコードブツクの中から検索し、その最も類似している代表ベクトルを示すベクトル番号を読出して符号化する。これによりコードブツクさえ予め用意しておけば、容易にベクトル量子化を実現することができる。
【0008】
因みに、復号化装置においては、符号化装置で用意したコードブツクと同じコードブツクを用意しておけば、送られてくる符号化データ(すなわちベクトル番号を符号化したデータ)を基にコードブツクから対応する代表ベクトルを読み出して容易に復号化処理を行うことができる。
【0009】
ところで符号化対象の入力信号は一般的に信号種類に応じてその特性が異なる。従つてこのようなベクトル量子化を行う際には、量子化によつて生じる歪みを低減する上でも、コードブツクとして用意しておく代表ベクトルは入力信号の特性に合つたベクトルであることが望ましい。すなわち言い換えれば、入力信号の特性に合つた代表ベクトルをコードブツクとして用意しておけば、その入力信号に特化した符号化を行うことができる。例えば音声信号に合つた代表ベクトルをコードブツクに用意しておけば音声信号に特化した符号化を実現し得るし、楽音信号に合つた代表ベクトルをコードブツクに用意しておけば楽音信号に特化した符号化を実現し得る。
【0010】
因みに、ここで言う音声信号とは主たる信号成分が「人の声帯から発せられた音」によつて形成されている信号であり、楽音信号とは主たる信号成分が「少なくとも1つ以上の楽器から発せられた音」によつて形成されている信号を言う。
【0011】
従つてこのような音声信号に合つたコードブツク及び楽音信号に合つたコードブツクを符号化装置に用意しておき、これを入力信号の種類に応じてユーザが切り換えれば、入力信号の特性に合つた高品位の符号化を行うことができる。
【0012】
【発明が解決しようとする課題】
ところでかかる従来の符号化装置においては、音声信号に合つたコードブツクと楽音信号に合つたコードブツクをそれぞれ用意しておくことにより入力信号の特性に合つた符号化を行い得るようになされているものの、あくまでユーザが入力信号を識別してコードブツクを切り換えるようになされており、このためユーザが入力信号の識別作業及びコードブツクの切換作業を行わなければならないといつた不都合がある。すなわち言い換えれば、入力信号を自動的に識別し得るようにできれば、ユーザにとつての使い勝手を一段と向上し得ると思われる。
【0013】
本発明は以上の点を考慮してなされたもので、入力信号を容易に識別し得る信号識別装置及び信号識別方法を提案しようとするものである。
【0014】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、入力信号が有するピツチ成分としてピツチ強度を抽出するピツチ抽出手段と、入力信号が有するエネルギー成分として、入力信号の所定サンプル数をフレームとしたフレームエネルギーを算出し、当該フレームエネルギーから短時間平均値を差し引いた差分フレームエネルギーを算出するエネルギー算出手段と、ピツチ強度の平均値及び分散値を算出すると共に差分フレームエネルギーの平均値及び分散値を算出し、ピツチ強度の平均値及び分散値の比較に基づいて入力信号の識別を行い、当該ピツチ強度の平均値及び分散値では識別不能の場合に差分フレームエネルギーの平均値及び分散値の比較に基づいて入力信号が音声信号であるか楽音信号であるかを識別する識別手段とを設けるようにした。
【0015】
また本発明においては、入力信号が有するピツチ成分としてピツチ強度を抽出すると共に、入力信号が有するエネルギー成分として入力信号の所定サンプル数をフレームとしたフレームエネルギーを算出し、当該フレームエネルギーから短時間平均値を差し引いた差分フレームエネルギーを算出し、ピツチ強度及び差分フレームエネルギーの平均値及び分散値をそれぞれ算出し、ピツチ強度の平均値及び分散値の比較に基づいて上記入力信号の識別を行い、当該ピツチ強度の平均値及び分散値では識別不能の場合に差分フレームエネルギーの平均値及び分散値の比較に基づいて入力信号が音声信号であるか楽音信号であるかを識別するようにした。
【0016】
音声信号と楽音信号を比較すると、一般に音声信号はエネルギー的に特質した性質を有していると共に、楽音信号に比して強い周期性(すなわちピツチ成分)を有している。従つて、入力信号のピツチ強度及びエネルギー強度を算出し、ピツチ強度の平均値及び分散値の比較に基づいて入力信号の識別を行い、当該ピツチ強度の平均値及び分散値では識別不能の場合に差分フレームエネルギーの平均値及び分散値の比較に基づいて入力信号が音声信号であるか楽音信号であるかを識別すると、入力信号の種類を容易かつ確実に識別することができる。
【0020】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【0021】
(1)第1の実施の形態
(1−1)符号化装置の全体構成
図1において、1は全体として本発明を適用した符号化装置を示し、大きく分けて符号化器2とコードブツク切換部3とによつて構成される。コードブツク切換部3は信号識別回路4を有しており、音声信号又は楽音信号からなる入力信号S1の種類を当該信号識別回路4によつて識別するようになされている。この場合、信号識別回路4は、入力信号から所定の識別パラメータを算出してこれに所定の演算処理を施し、その演算結果に基づいて入力信号が音声信号であるか楽音信号であるかを識別するようになされている。そして信号識別回路4は、その識別結果に応じた切換制御信号S2を切換スイツチ5に送出することにより当該切換スイツチ5の接続状態を切り換え、これにより識別結果に応じたコードブツク6又は7を符号化器2に接続するようになされている。
【0022】
因みに、第1及び第2のコードブツク6、7はそれぞれベクトル番号が付された代表ベクトルを複数記憶したメモリからなつている。この場合、第1のコードブツク6には音声信号に合つた代表ベクトルすなわち音声信号に特化した代表ベクトルが格納されており、第2のコードブツクには楽音信号に合つた代表ベクトルすなわち楽音信号に特化した代表ベクトルが格納されている。
【0023】
符号化器2は入力信号S1に対してベクトル量子化を施す回路であり、当該入力信号S1から得られるスペクトル振幅データや各種パラメータデータ等からなる情報データを所定個(Mサンプル)ずつ組にしてM次ベクトルを形成し、当該M次ベクトルに最も類似(すなわちM次元空間上で最も距離が近い)している代表ベクトルを接続されている第1又は第2のコードブツク6、7から検索し、その検索の結果得られた代表ベクトルを示すベクトル番号を符号化して出力するようになされている。
【0024】
このようにしてこの符号化装置1では、入力信号の種類に応じて第1又は第2のコードブツクを切り換えるようになされており、これにより入力信号の種類に応じた最適な符号化処理を行つて高品位の符号化処理を行うことができる。
【0025】
因みに、この符号化装置1から出力される符号化データS3は、例えば送信回路(図示せず)に供給され、当該送信回路において所定の送信処理が施された後、復号化装置を有する受信装置に対して伝送されるようになされている。なお、受信装置に設けられた復号化装置としても、この符号化装置1と同様の第1及び第2のコードブツクを有しており、符号化データS3を基に第1又は第2のコードブツクから対応する代表ベクトルを読み出すことにより当該符号化データS3を復号化するようになされている。
【0026】
(1−2)信号識別回路
(1−2−1)信号識別の原理
この項では、まず信号識別回路4における信号識別方法の原理について説明する。一般に音声信号と楽音信号を比較すると、音声信号の方が楽音信号に比して短時間で振幅が大きく変化する性質があり、エネルギー的に特質した性質を持つている。また音声信号は、人間の声帯振動による呼気圧の断続を音源としている関係上、楽音信号に比して強い周期性を持つている。因みに、この周期性は一般にピツチと呼ばれており、音源が持つ基本周期(基本周波数の逆数値)として定義されている。
【0027】
このようにして音声信号は、エネルギー的に特質した性質を有していると共に、強いピツチ成分を持つといつた特質を有しており、これらの特質に着目すれば音声信号の識別を行うことができると思われる。従つてこの信号識別回路4においては、音声信号が持つこれらの特質を利用して入力信号S1が音声信号であるか楽音信号であるかを識別するようになされている。
【0028】
信号識別を行う場合、まず信号識別回路4は入力信号S1の 160サンプルを1フレームとし、各フレーム毎にエネルギー成分を算出する。また一方で信号識別回路4は、入力信号S1から残差信号を生成し、当該残差信号を基にピツチ成分を抽出する。そして信号識別回路4は、このようにして得られたエネルギー成分及びピツチ成分に対して所定の演算処理を施し、その演算結果に基づいて入力信号S1が音声信号であるか楽音信号であるかを識別するようになされている。
【0029】
この点について以下に順を追つて説明する。但し、以降の説明においては、入力信号S1を入力信号S〔n〕と呼び、入力信号S1から生成した残差信号を残差信号r〔n〕と呼ぶものとする。
【0030】
まずエネルギー成分を算出する場合には、信号識別回路4は、上述したように入力信号S〔n〕の 160サンプルを1フレームとし、次式
【0031】
【数1】
【0032】
に示すようにサンプル毎のエネルギーを累積することによりそのフレームが持つフレームエネルギーPを算出する。因みに、フレームエネルギーPが十分な値を持たないため無音だと思われる場合には、そのフレームを評価対象から除外する。
【0033】
続いて信号識別回路4は、このようにして求めたフレームエネルギーPから平均フレームエネルギーPavを算出する。この場合、現在着目しているフレームを含む過去4フレームのフレームエネルギーPに対して、次式
【0034】
【数2】
【0035】
に示す演算を行うことにより平均フレームエネルギーPavを算出する。
【0036】
次に信号識別回路4は、この求めた平均フレームエネルギーPavを使用して現在着目しているフレームについてフレームエネルギーPの変動量を算出する。具体的には、次式
【0037】
【数3】
【0038】
に示すように、フレームエネルギーPから平均フレームエネルギーPavを減算することにより当該平均フレームエネルギーPavに対する差分フレームエネルギーPd〔frm〕を算出する。
【0039】
信号識別回路4は、このような処理をフレーム毎に順に繰り返して行くことにより、まず 250フレーム分(約5秒分)の差分フレームエネルギーPd〔frm〕を取得する。なお、この実施の形態においては、この差分フレームエネルギーPd〔frm〕をエネルギー成分としている。
【0040】
また信号識別回路4は、この処理と並行してピツチ成分を抽出する。この場合、信号識別回路4はまず入力信号S〔n〕に対して逆フイルタリング処理を施すことにより残差信号r〔n〕を生成する。具体的には、入力信号S〔n〕をLPC(線形予測)分析することによりLPC係数を算出し、このLPC係数を使用して入力信号を予測合成し、その予測合成した入力信号と実際の入力信号S〔n〕との差分を求めることにより、残差信号r〔n〕を生成する。
【0041】
信号識別回路4は、このようにして得られた残差信号r〔n〕を基にピツチ成分を抽出する。ピツチ成分を求める場合には、上述したようにフレーム毎に抽出するのではなく、1フレームを4つのサブフレーム(40サンプル)に分割し、サブフレーム毎にピツチ成分を抽出する。但し、この場合も、フレームエネルギーが無いため無音と思われる場合には、そのフレームを評価対象から除外する。
【0042】
ピツチ成分を抽出する場合には、まずピツチL=20として、次式
【0043】
【数4】
【0044】
【数5】
【0045】
【数6】
【0046】
に示すように、残差信号r〔n〕から相互相関Rj及び自己相関Sjを算出し、その後、この相互相関Rj及び自己相関Sjを使用してピツチデータWLを算出する。続いてこのピツチLの値をL=21〜148 の範囲で順次繰り上げて行つて(4)式〜(6)式の演算を同様に行い、これによりピツチL=20〜148 に対するピツチデータWLを順に算出する。なお、この計算過程においては、相互相関RjとしてRj>0となる値を選択するものとする。
【0047】
次に、このようにして得られたピツチL=20〜148 に対するピツチデータWLの中から最大のピツチデータWを抽出し、この最大ピツチデータWに対して、次式
【0048】
【数7】
【0049】
に示す演算を行うことによりピツチ強度Cos〔sfrm〕を算出する。なお、(7)式における変数Tjは自己相関であり、次式
【0050】
【数8】
【0051】
によつて算出される。
【0052】
このような演算処理をサブフレーム毎に順に繰り返して行くことにより、1000サブフレーム( 250フレームに相当)からピツチ強度Cos〔sfrm〕をそれぞれ取得する。なお、この実施の形態においては、このピツチ強度Cos〔sfrm〕をピツチ成分を表すピツチパラメータとしている。
【0053】
続いて信号識別回路4は、このようにして求めた差分フレームエネルギーPd〔frm〕とピツチ強度Cos〔sfrm〕に所定の演算処理を施して入力信号S〔n〕が音声信号であるか楽音信号であるかを識別する。具体的には、信号識別回路4は、個々のデータを使用して、次式
【0054】
【数9】
【0055】
【数10】
【0056】
【数11】
【0057】
【数12】
【0058】
に示す演算処理を行うことにより差分フレームエネルギーPd〔frm〕の平均値Pd(av)及び分散値Pd(va)を算出すると共に、ピツチ強度Cos〔sfrm〕の平均値Cos(av)及び分散値Cos(va)を算出する。但し、(10)式から分かるように、差分フレームエネルギーPd〔frm〕に関しては分散値そのものではなく、実際には分散値の平方根である標準偏差を求めている。
【0059】
次に信号識別回路4は、このようにして得られたピツチ強度Cos〔sfrm〕の平均値Cos(av)及び分散値Cos(va)が、次式
【0060】
【数13】
【0061】
【数14】
【0062】
【数15】
【0063】
に示す判定不等式のうちいずれの不等式を満たすか評価する。その結果、(13)式を満足するのであれば入力信号S〔n〕は音声信号であると判定し、(15)式を満足するのであれば入力信号S〔n〕は楽音信号であると判定する。これに対して(14)式を満足するのであれば、入力信号S〔n〕がグレーゾーンに存在するものとしてここでは判定を下さず、次に説明する評価によつて信号種別を判定する。
【0064】
(14)式を満足したためグレーゾーンに存在する場合には、信号識別回路4は、差分フレームエネルギーPd〔frm〕の平均値Pd(av)及び分散値Pd(va)が、次式
【0065】
【数16】
【0066】
【数17】
【0067】
に示す判定不等式のうちいずれの不等式を満たすか評価する。その結果、(16)式を満足するのであれば入力信号S〔n〕は音声信号であると判定し、(17)式を満足するのであれば入力信号S〔n〕が楽音信号であると判定する。
【0068】
このようにして信号識別回路4は、算出したピツチ強度Cos〔sfrm〕の平均値Cos(av)及び分散値Cos(va)がいずれの判定不等式を満たすかによつて入力信号S〔n〕の種類を識別し、その判定ではグレーゾーンに存在するため識別不能の場合には、差分フレームエネルギーPd〔frm〕の平均値Pd(av)及び分散値Pd(va)がいずれの判定不等式を満たすかによつて入力信号S〔n〕の種類を識別する。このような2段階の識別処理を行うことにより、信号識別回路4は確実に入力信号S〔n〕の種類を識別できるようになされている。
【0069】
ここで実際に入力信号S〔n〕として各種の音声信号や楽音信号を入力したときのピツチ強度Cos〔sfrm〕の平均値Cos(av)と分散値Cos(va)の関係を図2に示す。この図2から分かるように、音声信号と楽音信号とでは、音声信号の方がピツチ強度の分散値Cos(va)が大きくなる傾向にあり、ピツチ強度の分散値Cos(va)を基準にして判定処理を行えば音声信号であるか楽音信号であるかを識別することが可能である。
【0070】
因みに、図2において示される実線よりも上の範囲は上述した(13)式の判定不等式を示しており、点線よりも下の範囲は上述した(15)式の判定不等式を示している。従つてこの図2から明らかなように、(13)式を満たせば入力信号S〔n〕が音声信号であると判定し得るし、(15)式を満たせば入力信号S〔n〕が楽音信号であると判定し得ることが分かる。
【0071】
次に入力信号S〔n〕として各種の音声信号や楽音信号を入力したときの差分フレームエネルギーPd〔frm〕の平均値Pd(av)と分散値Pd(va)の関係を図3に示す。この図3から分かるように、音声信号と楽音信号とでは、音声信号の方が差分フレームエネルギーの分散値Pd(va)が大きくなる傾向にあり、差分フレームエネルギーの分散値Pd(va)を基準にして判定処理を行えば音声信号であるか楽音信号であるかを識別することが可能である。
【0072】
因みに、図3において示される実線よりも上の範囲は上述した(16)式の判定不等式を示しており、実線よりも下の範囲は上述した(17)式の判定不等式を示している。従つて(16)式を満たせば入力信号S〔n〕が音声信号であると判定し得るし、(17)式を満たせば入力信号S〔n〕が楽音信号であると判定し得ることが分かる。なお、厳密には、図3の点A及びBに示すように、楽音信号であつても(16)式の不等式を満たすことが有り得るので、この差分フレームエネルギーによる判定だけでは誤判定することも有り得る。しかしながらこの信号識別回路4では、ピツチ強度による判定を行つた上でこの差分フレームエネルギーによる判定処理を行つており、2段階による判定処理を行つているので、点Aや点Bを音声信号と判定することを回避することができる。
【0073】
(1−2−2)信号識別回路の構成
この項では、信号識別回路4の具体的構成を説明する。信号識別回路4は上述した識別原理に基づいて入力信号S〔n〕の種類を識別するようになされており、図4に示すように、大きく分けて入力信号S1(=S〔n〕)が有するエネルギー成分を算出するエネルギー算出部4Xと、入力信号S1が有するピツチ成分を抽出するピツチ抽出部4Yと、エネルギー成分及びピツチ成分に所定の演算処理を施して当該演算結果に基づいて入力信号S1が音声信号であるか楽音信号であるかを識別する識別部4Zとによつて構成される。
【0074】
このような信号識別回路4においては、入力信号S1(=S〔n〕)をまずエネルギー算出部4Xのフレームエネルギー計算部4Aとピツチ抽出部4YのLPC逆フイルタリング部4Bに入力するようになされている。フレームエネルギー計算部4Aは、入力信号S1の 160サンプルを1フレームとして上述した(1)式に示す演算を順次行うことにより入力信号S1からフレームエネルギーPを順次算出し、これを後段の平均値及び差分値計算部4Cに出力する。
【0075】
平均値及び差分値計算部4Cは内部に少なくとも4フレーム分のフレームエネルギーPを蓄積し得るバツフアを有しており、フレームエネルギー計算部4Aから供給されるフレームエネルギーPを順次そのバツフアに格納するようになされている。そして平均値及び差分値計算部4Cは新たに入力されたフレームエネルギーPを含む過去4フレーム分のフレームエネルギーPを使用して(2)式の演算を行うことにより平均フレームエネルギーPavを算出すると共に、その新たに入力されたフレームエネルギーPからその平均フレームエネルギーPavを引いて(3)式の演算を行うことにより差分フレームエネルギーPd〔frm〕を算出する。平均値及び差分値計算部4Cは、このような演算処理を入力されるフレームエネルギーPに対して順次行つて行くことにより各フレームに関して差分フレームエネルギーPd〔frm〕を求め、これを後段の識別部4Zを構成するメモリ4Dに出力する。因みに、平均値及び差分値計算部4Cは、入力されるフレームエネルギーPが零の場合には、このような差分フレームエネルギー算出処理を行わず、そのフレームを評価対象外として取り扱う。
【0076】
一方、ピツチ抽出部4YのLPC逆フイルタリング部4Bは入力信号S1に対して上述したような逆フイルタリング処理を施すことにより当該入力信号S1から残差信号r〔n〕を生成し、これを後段のピツチ強度計算部4Eに出力する。
【0077】
ピツチ強度計算部4Eは、1フレームを4つのサブフレームに分割し、サブフレーム毎にピツチ強度を抽出する。具体的には、ピツチ強度計算部4Eは上述した(4)式〜(6)式の演算を行うことによりサブフレームの中からピツチデータWLを検索し、そのピツチデータWLの中から最大のピツチデータWを抽出する。そしてこのピツチデータWに対して上述した(7)及び(8)式の演算を行うことによりピツチ強度Cos〔sfrm〕を算出する。ピツチ強度計算部4Eはこの処理をサブフレーム毎に行うことにより各サブフレームからピツチ強度Cos〔sfrm〕を抽出し、これを順に後段の識別部4Zを構成するメモリ4Dに出力する。
【0078】
識別部4Zのメモリ4Dは差分フレームエネルギーPd〔frm〕及びピツチ強度Cos〔sfrm〕を記憶する記憶回路であり、平均値及び差分値計算部4Cから順次供給される差分フレームエネルギーPd〔frm〕及びピツチ強度計算部4Eから順次供給されるピツチ強度Cos〔sfrm〕をそれぞれ内部の記憶領域に格納する。
【0079】
カウンタ制御部4Fはフレーム番号frm及びサブフレーム番号sfrmをカウントすることによりメモリ4Dに入力される差分フレームエネルギーPd〔frm〕及びピツチ強度Cos〔sfrm〕の数をカウントするカウンタからなり、メモリ4Dに対して 250フレーム分の差分フレームエネルギーPd〔frm〕及び1000サブフレーム分のピツチ強度Cos〔sfrm〕が蓄積されると、接続スイツチ4Gをオン状態に切り換えるようになされている。
【0080】
このカウンタ制御部4Fの動作により接続スイツチ4Gがオン状態に切り換わると、平均値及び分散値計算部4Hは、メモリ4Dからそれぞれ差分フレームエネルギーPd〔frm〕及びピツチ強度Cos〔sfrm〕を読み出して(9)式〜(12)式に示す演算を行うことにより差分フレームエネルギーPd〔frm〕の平均値Pd(av)及び分散値Pd(va)並びにピツチ強度Cos〔sfrm〕の平均値Cos(av)及び分散値Cos(va)を算出し、これを続く音声・楽音識別部4Iに出力する。
【0081】
音声・楽音識別部4Iはまずピツチ強度Cos〔sfrm〕の平均値Cos(av)及び分散値Cos(va)が(13)式〜(15)式の判定不等式のうちいずれの判定不等式を満足するか判断することにより入力信号S1が音声信号であるか楽音信号であるかを判定する。このとき音声・楽音識別部4Iは、平均値Cos(av)及び分散値Cos(va)が(14)式を満たしたため信号識別ができなかつた場合には、差分フレームエネルギーPd〔frm〕の平均値Pd(av)及び分散値Pd(va)が(16)式及び(17)式の判定不等式のうちいずれの判定不等式を満足するか判断することにより入力信号S1が音声信号であるか楽音信号であるかを判定する。そして音声・楽音識別部4Iは、その判定結果に基づいた切換制御信号S2を切換スイツチ5に出力することにより、判定結果に応じたコードブツク6又は7を符号化器2に接続する。
【0082】
(1−3)動作及び効果
以上の構成において、この符号化装置1の場合には、入力信号S1を信号識別回路4に入力し、ここで入力信号S1の種類を識別することにより当該入力信号S1の特性に合つたコードブツク6又は7を符号化器2に接続する。これによりこの符号化装置1では、従来のようにユーザが入力信号S1の識別を行わなくても自動的に入力信号S1の種類を識別して当該入力信号S1に合つたコードブツク6又は7を符号化器2に接続し得、ユーザの手間を削減した上で高品位の符号化処理を行うことができる。
【0083】
ここで信号識別回路4における信号識別方法を図5に示すフローチヤートに沿つて説明する。まず信号識別回路4においては、ステツプSP1から入つてここでフレーム番号frm及びサブフレーム番号sfrmを共に零に設定すると共に、フレームエネルギーPを蓄えるバツフアの中身を零に設定し、続くステツプSP2に移る。
【0084】
ステツプSP2においては、信号識別回路4は、入力信号S1(=S〔n〕)に対してLPC逆フイルタリング処理を施すことにより残差信号r〔n〕を生成する。次のステツプSP3においては、信号識別回路4は、入力信号S〔n〕に対して(1)式に示す演算処理を施すことによりフレームエネルギーPを算出する。
【0085】
次のステツプSP4においては、信号識別回路4は、ステツプSP3において計算したフレームエネルギーPをフレームエネルギーP{0}としてバツフアに蓄えると共に、以前に蓄えられていたフレームエネルギーP{0}、P{1}、P{2}をP{1}、P{2}、P{3}として蓄える。次のステツプSP5においては、信号識別回路4は、フレームエネルギーP{0}として蓄えたフレームエネルギーPの値が所定の閾値Pthよりも大きいか否か判断し、閾値Pthよりも大きければ次のステツプSP6に移り、閾値Pthよりも小さければ評価対象外としてステツプSP2に戻る。
【0086】
ステツプSP6においては、信号識別回路4は、過去4フレーム分のフレームエネルギーP{0}〜P{3}を使用して(2)式の演算処理を行うことにより平均フレームエネルギーPavを算出すると共に、その算出した平均フレームエネルギーPavを使用して(3)式の演算処理を行うことによりフレームエネルギーP{0}として蓄えたフレームエネルギーPの差分フレームエネルギーPd〔frm〕を算出する。そして信号識別回路4は、この算出した差分フレームエネルギーPd〔frm〕をメモリ4Dに格納する。
【0087】
次のステツプSP7においては、信号識別回路4は、差分フレームエネルギーPd〔frm〕を算出したフレームの残差信号r〔n〕からサブフレーム毎にピツチ強度Cos〔sfrm〕を求める。この場合、サブフレームは1フレームを4分割したものなので、このステツプSP7においては4つのサブフレームからそれぞれピツチ強度Cos〔sfrm〕を算出する。そして信号識別回路4は、その算出したピツチ強度Cos〔sfrm〕を差分フレームエネルギーPd〔frm〕と同様にメモリ4Dに格納する。なお、信号識別回路4は、サブフレームからピツチ強度Cos〔sfrm〕を算出する毎にサブフレーム番号sfrmをインクリメントする。
【0088】
次のステツプSP8においては、信号識別回路4は、フレーム番号frmの値をインクリメントし、次のステツプSP9においてその値が「250 」よりも小さいか否か判定する。その結果、肯定結果が得られた場合にはステツプSP2に戻つて同様の処理を繰り返し、否定結果が得られた場合には次のステツプSP10に移る。
【0089】
ステツプSP10においては、信号識別回路4は、(9)式及び(10)式に示す演算処理を行うことにより 250フレームから得た差分フレームエネルギーPd〔frm〕からそれぞれ平均値Pd(av)及び分散値Pd(va)を算出すると共に、(11)式及び(12)式に示す演算処理を行うことにより1000サブフレームから得たピツチ強度Cos〔sfrm〕からそれぞれ平均値Cos(av)及び分散値Cos(va)を算出する。
【0090】
次のステツプSP11においては、信号識別回路4は、ピツチ強度Cos〔sfrm〕の平均値Cos(av)及び分散値Cos(va)が(13)式に示す判定不等式を満たすか否か判定し、当該(13)式を満たすようであればステツプSP12に進んで入力信号S1は音声信号であると判定し、満たさないようであれば次のステツプSP13に進む。
【0091】
次のステツプSP13においては、信号識別回路4は、ピツチ強度Cos〔sfrm〕の平均値Cos(av)及び分散値Cos(va)が(15)式に示す判定不等式を満たすか否か判定し、当該(15)式を満たすようであればステツプSP14に進んで入力信号S1は楽音信号であると判定し、満たさないようであれば次のステツプSP15に進む。
【0092】
次のステツプSP15においては、信号識別回路4は、差分フレームエネルギーPd〔frm〕の平均値Pd(av)及び分散値Pd(va)が(16)式に示す判定不等式を満たすか否か判定し、当該(16) 式を満たすようであればステツプSP16に進んで入力信号S1は音声信号であると判定し、満たさないようであればステツプSP17に進んで入力信号S1は楽音信号であると判定する。
【0093】
このようにして信号識別回路4においては、入力信号S1(=S〔n〕)の各フレームから差分フレームエネルギーPd〔frm〕を算出すると共に、入力信号S1に所定の処理を施して生成した残差信号r〔n〕の各サブフレームからピツチ強度Cos〔sfrm〕を算出する。そして信号識別回路4は、それらの差分フレームエネルギーPd〔frm〕及びピツチ強度Cos〔sfrm〕を所定フレーム分蓄積し、これを基に差分フレームエネルギーPd〔frm〕及びピツチ強度Cos〔sfrm〕の平均値Pd(av)、Cos(av)及び分散値Pd(va)、Cos(va)を算出する。そして信号識別回路4は、まずピツチ強度Cos〔sfrm〕の平均値Cos(av)及び分散値Cos(va)を基に入力信号S1が音声信号であるか楽音信号であるか識別し、その識別では判定しきれない場合には差分フレームエネルギーPd〔frm〕の平均値Pd(av)及び分散値Pd(va)を基に入力信号S1が音声信号であるか楽音信号であるか識別する。
【0094】
このようにピツチ強度Cos〔sfrm〕による識別と差分フレームエネルギーPd〔frm〕による識別を組み合わせて2段階の識別処理を行うようにしたことにより、この信号識別回路4では、入力信号S1の種類を確実に識別することができる。かくしてこの信号識別回路4の識別結果に応じてコードブツク6又は7を切り換えるようにしたことにより、この符号化装置1では、入力信号S1に応じた最適なコードブツク6又は7を使用して符号化処理を行うことができ、ユーザに煩雑な切換作業を要求することもなく、高品位の符号化処理を行うことができる。
【0095】
以上の構成によれば、入力信号S1(=S〔n〕)から差分フレームエネルギーPd〔frm〕及びピツチ強度Cos〔sfrm〕を算出し、これらの識別パラメータを所定フレーム分蓄積して差分フレームエネルギーPd〔frm〕及びピツチ強度Cos〔sfrm〕の平均値Pd(av)、Cos(av)及び分散値Pd(va)、Cos(va)を算出し、当該平均値Pd(av)、Cos(av)及び分散値Pd(va)、Cos(va)を基に入力信号S1の種類を識別するようにしたことにより、当該入力信号S1の種類を確実にかつ容易に識別することができる。またこの識別結果に応じてコードブツク6又は7を切り換えるようにしたことにより、ユーザが煩雑な切換作業を行わなくても、入力信号S1に応じた最適なコードブツク6又は7を使用して高品位の符号化処理を行うことができる。
【0096】
(2)第2の実施の形態
上述の第1の実施の形態においては、相互相関Rj及び自己相関Sjを用いてピツチデータWLを算出し、そのピツチデータWLのうちの最大のピツチデータWを自己相関Tjで割ることによりピツチ強度Cos〔sfrm〕を求め、これをピツチパラメータとした場合について述べたが、この第2の実施の形態においては次に説明するような方法によりピツチパラメータを求めるようになされている。
【0097】
この実施の形態による信号識別回路においては、まず例えば 256サンプル分の残差信号r〔n〕に対して時間窓関数(例えばハミング窓)をかけることにより新たな残差信号rh〔n〕を生成する。次にこのようにして求めた残差信号rh〔n〕に対してピツチL=20として、次式
【0098】
【数18】
【0099】
に示す演算処理を行うことにより相互相関Prlを求める。続いてこのピツチLの値をL=21〜148 の範囲で順次繰り上げて行つて(18)式の演算を同様に行い、これによりピツチL=20〜148 に対する相互相関Prlを求める。次にこのようにして求めたピツチL=20〜148 に対する相互相関Prlの中から最大の相互相関Prを抽出し、この最大相互相関Prに対して、次式
【0100】
【数19】
【0101】
に示す演算を行うことによりピツチ強度r0r〔frm〕を算出し、これをピツチパラメータとする。なお、(19)式における変数Pr0は自己相関であり、次式
【0102】
【数20】
【0103】
によつて算出される。
【0104】
このような演算処理を残差信号r〔n〕に対して順に行うことにより、この実施の形態による信号識別回路においては、ピツチ強度r0r〔frm〕を順に算出する。そしてピツチ強度r0r〔frm〕が例えば 250フレーム分蓄積すると、信号識別回路は、次式
【0105】
【数21】
【0106】
【数22】
【0107】
に示す演算処理を行うことによりピツチ強度r0r〔frm〕の平均値r0r(av)及び分算値r0r(va)を算出する。但し、この(22)式から分かるように厳密には分散値そのものではなく、分散値の平方根である標準偏差を求める。
【0108】
次に信号識別回路は、このようにして得られたピツチ強度r0r〔frm〕の平均値r0r(av)及び分算値r0r(va)が、次式
【0109】
【数23】
【0110】
【数24】
【0111】
【数25】
【0112】
に示す判定不等式のうちいずれの不等式を満たすか評価する。その結果、(23)式を満足するのであれば入力信号S〔n〕は音声信号であると判定し、(25)式を満足するのであれば入力信号S〔n〕は楽音信号であると判定する。これに対して(24)式を満足するのであれば、入力信号S〔n〕がグレーゾーンに存在するものとしてここでは判定を下さず、第1の実施の形態と同様に、差分フレームエネルギーPd〔frm〕の平均値Pd(av)及び分散値Pd(va)を使用した判定処理により入力信号S〔n〕の種類を識別する。
【0113】
このようにしてこの実施の形態による信号識別回路においては、残差信号r〔n〕に対して時間窓関数をかけることにより新たな残差信号rh〔n〕を生成し、この残差信号rh〔n〕からピツチLに関する相互相関Prlを算出し、その相互相関Prlのうちの最大の相互相関Prを自己相関Pr0で割ることによりピツチ強度r0r〔frm〕を求めるようになされており、このピツチ強度r0r〔frm〕の平均値r0r(av)及び分算値r0r(va)を分析することにより入力信号S〔n〕が音声信号であるか楽音信号であるかを識別するようになされている。
【0114】
ここで実際に入力信号S〔n〕として各種の音声信号や楽音信号を入力したときのピツチ強度r0r〔frm〕の平均値r0r(av)と分算値r0r(va)の関係を図6に示す。この図6から分かるように、音声信号と楽音信号とでは、音声信号の方がピツチ強度r0r〔frm〕の分散値r0r(va)が大きくなる傾向にあり、ピツチ強度の分散値r0r(va)を基準にして判定処理を行えば音声信号であるか楽音信号であるかを識別することが可能である。
【0115】
因みに、図6において示される実線よりも上の範囲は上述した(23)式の判定不等式を示しており、点線よりも下の範囲は上述した(25)式の判定不等式を示している。従つてこの図6から明らかなように、(23)式を満たせば入力信号S〔n〕が音声信号であると判定し得るし、(25)式を満たせば入力信号S〔n〕が楽音信号であると判定し得ることが分かる。なお、図6と図2を比較すると分かるように、この第2の実施の形態のようにピツチ強度r0r〔frm〕を求めた方が差が顕著に現れる傾向にあるので、入力信号S〔n〕の種類を一段と正確に識別し得る。
【0116】
以上の構成によれば、残差信号r〔n〕に対して時間窓関数をかけることにより新たな残差信号rh〔n〕を生成し、この残差信号rh〔n〕からピツチLに関する相互相関Prlを算出し、その相互相関Prlのうちの最大の相互相関Prを自己相関Pr0で割ることによりピツチ強度r0r〔frm〕を求め、このピツチ強度r0r〔frm〕の平均値r0r(av)及び分算値r0r(va)を分析することにより入力信号S〔n〕の種類を識別するようにしたことにより、一段と正確に入力信号S〔n〕の種類を識別することができる。
【0117】
(3)他の実施の形態
なお上述の実施の形態においては、1フレームを 160サンプルとしてフレームエネルギーPを算出した場合について述べたが、本発明はこれに限らず、1フレームをその他のサンプル数としてフレームエネルギーPを算出するようにしても良い。要は、入力信号の所定サンプル数をフレームとしたフレームエネルギーを求め、これをエネルギー成分とすれば上述の場合と同様の効果を得ることができる。
【0118】
また上述の実施の形態においては、4フレーム分のフレームエネルギーPを平均化することにより平均フレームエネルギーPavを算出した場合について述べたが、本発明はこれに限らず、平均フレームエネルギーを求める際のフレーム数をその他のフレーム数にしても良い。要は、所定数のフレームエネルギーを使用してエネルギー成分の短時間平均値を求めるようにすれば上述の場合と同様の効果を得ることができる。
【0119】
また上述の実施の形態においては、フレームエネルギーPと平均フレームエネルギーPavを使用して(3)式に示す演算を行うことにより差分フレームエネルギーPd〔frm〕を求めた場合について述べたが、本発明はこれに限らず、単にフレームエネルギーから平均フレームエネルギーを差し引くことにより差分フレームエネルギーを求めるようにしても良い。要は、エネルギー成分の短時間平均値を求め、これをエネルギー成分から差し引くことにより短時間平均値に対する変動量を求めるようにすれば上述の場合と同様の効果を得ることができる。
【0120】
また上述の実施の形態においては、 250フレーム分の差分フレームエネルギーPd〔frm〕を使用して平均値Pd(av)及び分散値Pd(va)を求めるようにした場合について述べたが、本発明はこれに限らず、差分フレームエネルギーの平均値及び分散値を求める際のフレーム数としてはその他のフレーム数であつても良い。要は、所定数の差分フレームエネルギーを使用して平均値及び分散値を求めるようにすれば上述の場合と同様の効果を得ることができる。
【0121】
また上述の第1の実施の形態においては、1000サブフレーム分のピツチ強度Cos〔sfrm〕を使用して平均値Cos(av)及び分散値Cos(va)を求めるようにした場合について述べたが、本発明はこれに限らず、ピツチ強度の平均値及び分散値を求める際のサブフレーム数としてはその他のサブフレーム数であつても良い。要は、所定数のピツチ強度Cos〔sfrm〕を使用して平均値及び分散値を求めるようにすれば上述の場合と同様の効果を得ることができる。
【0122】
また上述の第2の実施の形態においては、 250フレーム分のピツチ強度r0r〔frm〕を使用して平均値r0r(av)及び分散値r0r(va)を求めるようにした場合について述べたが、本発明はこれに限らず、ピツチ強度の平均値及び分散値を求める際のフレーム数としてはその他のフレーム数であつても良い。要は、所定数のピツチ強度r0r〔frm〕を使用して平均値及び分散値を求めるようにすれば上述の場合と同様の効果を得ることができる。
【0123】
また上述の実施の形態においては、差分フレームエネルギーPd〔frm〕の分散値Pd(va)として標準偏差を求めるようにした場合について述べたが、本発明はこれに限らず、分散値そのものを求めるようにしても上述の場合と同様の効果を得ることができる。
【0124】
また上述の第2の実施の形態においては、ピツチ強度r0r〔frm〕の分散値r0r(va)として標準偏差を求めるようにした場合について述べたが、本発明はこれに限らず、分散値そのものを求めるようにしても上述の場合と同様の効果を得ることができる。
【0125】
また上述の実施の形態においては、切換制御信号S2に応じて切換スイツチ5がコードブツク6又は7を切り換えるようにした場合について述べたが、本発明はこれに限らず、識別結果に応じて音声信号に特化した第1のコードブツクと楽音信号に特化した第2のコードブツクとを切り換える切換手段を設けるようにすれば上述の場合と同様の効果を得ることができる。
【0126】
また上述の実施の形態においては、入力信号S1から得られるスペクトル振幅データや各種パラメータデータ等からなる情報データをM個ずつ組にしてM次ベクトルを形成し、当該M次ベクトルに最も類似している代表ベクトルを第1又は第2のコードブツク6、7から検索して符号化処理する符号化装置1に本発明を適用した場合について述べたが、本発明はこれに限らず、音声信号に特化したコードブツクと楽音信号に特化したコードブツクを有し、入力信号の種類に応じていずれか一方のコードブツクを参照して当該入力信号を符号化するような符号化装置であれば本発明を広く適用し得る。要は、入力信号の種類を識別し、その識別結果に応じて音声信号に特化したコードブツクと楽音信号に特化したコードブツクを切り換えるようにすれば上述の場合と同様の効果を得ることができる。
【0127】
【発明の効果】
上述のように本発明によれば、入力信号のピツチ強度及び差分フレームエネルギーを算出し、ピツチ強度の平均値及び分散値の比較に基づいて入力信号の識別を行い、当該ピツチ強度の平均値及び分散値では識別不能の場合に差分フレームエネルギーの平均値及び分散値の比較に基づいて入力信号が音声信号であるか楽音信号であるかを識別することにより、入力信号の種類を容易かつ確実に識別することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態による符号化装置の構成を示すブロツク図である。
【図2】ピツチ強度Cos〔sfrm〕の平均値と分散値の関係を示すピツチ強度特性図である。
【図3】差分フレームエネルギーPd〔frm〕の平均値と分散値の関係を示す差分フレームエネルギー特性図である。
【図4】信号識別回路の構成を示すブロツク図である。
【図5】信号識別回路の信号識別方法を示すフローチヤートである。
【図6】ピツチ強度r0r〔frm〕の平均値と分散値の関係を示すピツチ強度特性図である。
【符号の説明】
1……符号化装置、2……符号化器、3……コードブツク切換部、4……信号識別回路、4A……フレームエネルギー計算部、4B……LPC逆フイルタリング部、4C……平均値及び差分値計算部、4D……メモリ、4E……ピツチ強度計算部、4F……カウンタ制御部、4G……接続スイツチ、4H……平均値及び分散値計算部、4I……音声・楽音識別部、4X……エネルギー算出部、4Y……ピツチ抽出部、4Z……識別部、5……切換スイツチ、6、7……コードブツク。
Claims (2)
- 入力信号が有するピツチ成分としてピツチ強度を抽出するピツチ抽出手段と、
上記入力信号が有するエネルギー成分として、上記入力信号の所定サンプル数をフレームとしたフレームエネルギーを算出し、当該フレームエネルギーから短時間平均値を差し引いた差分フレームエネルギーを算出するエネルギー算出手段と、
上記ピツチ強度の平均値及び分散値を算出すると共に、上記差分フレームエネルギーの平均値及び分散値を算出し、上記ピツチ強度の平均値及び分散値の比較に基づいて上記入力信号の識別を行い、当該ピツチ強度の平均値及び分散値では識別不能の場合に上記差分フレームエネルギーの平均値及び分散値の比較に基づいて上記入力信号が音声信号であるか楽音信号であるかを識別する識別手段と
を具えることを特徴とする信号識別装置。 - 入力信号が有するピツチ成分としてピツチ強度を抽出すると共に、上記入力信号が有するエネルギー成分として、上記入力信号の所定サンプル数をフレームとしたフレームエネルギーを算出し、当該フレームエネルギーから短時間平均値を差し引いた差分フレームエネルギーを算出し、
上記ピツチ強度の平均値及び分散値を算出すると共に、上記差分フレームエネルギーの平均値及び分散値を算出し、
上記ピツチ強度の平均値及び分散値の比較に基づいて上記入力信号の識別を行い、当該ピツチ強度の平均値及び分散値では識別不能の場合に上記差分フレームエネルギーの平均値及び分散値の比較に基づいて上記入力信号が音声信号であるか楽音信号であるかを識別する
ことを特徴とする信号識別方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18349897A JP3700890B2 (ja) | 1997-07-09 | 1997-07-09 | 信号識別装置及び信号識別方法 |
KR10-1998-0026968A KR100517567B1 (ko) | 1997-07-09 | 1998-07-04 | 신호식별장치,코드북절환장치,신호식별방법및코드북절환방법 |
US09/111,403 US6167372A (en) | 1997-07-09 | 1998-07-07 | Signal identifying device, code book changing device, signal identifying method, and code book changing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18349897A JP3700890B2 (ja) | 1997-07-09 | 1997-07-09 | 信号識別装置及び信号識別方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1124698A JPH1124698A (ja) | 1999-01-29 |
JP3700890B2 true JP3700890B2 (ja) | 2005-09-28 |
Family
ID=16136884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18349897A Expired - Fee Related JP3700890B2 (ja) | 1997-07-09 | 1997-07-09 | 信号識別装置及び信号識別方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6167372A (ja) |
JP (1) | JP3700890B2 (ja) |
KR (1) | KR100517567B1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3467469B2 (ja) * | 2000-10-31 | 2003-11-17 | Necエレクトロニクス株式会社 | 音声復号装置および音声復号プログラムを記録した記録媒体 |
US6694293B2 (en) * | 2001-02-13 | 2004-02-17 | Mindspeed Technologies, Inc. | Speech coding system with a music classifier |
DE10148351B4 (de) * | 2001-09-29 | 2007-06-21 | Grundig Multimedia B.V. | Verfahren und Vorrichtung zur Auswahl eines Klangalgorithmus |
DE50306934D1 (de) | 2003-01-03 | 2007-05-10 | Rohde & Schwarz | Messgerätmodule und messgerät |
JP4587916B2 (ja) * | 2005-09-08 | 2010-11-24 | シャープ株式会社 | 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体 |
US20070282613A1 (en) * | 2006-05-31 | 2007-12-06 | Avaya Technology Llc | Audio buddy lists for speech communication |
JP2009265261A (ja) * | 2008-04-23 | 2009-11-12 | Toyota Motor Corp | 特徴量抽出装置及び特徴量抽出方法 |
KR101380297B1 (ko) * | 2008-07-11 | 2014-04-02 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법 |
JP4816699B2 (ja) * | 2008-09-03 | 2011-11-16 | ソニー株式会社 | 楽曲処理方法、楽曲処理装置、及びプログラム |
JP5282523B2 (ja) * | 2008-10-23 | 2013-09-04 | 株式会社リコー | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム |
CN101847412B (zh) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | 音频信号的分类方法及装置 |
JP4497485B2 (ja) * | 2009-08-18 | 2010-07-07 | Kddi株式会社 | オーディオ情報分類装置 |
JP2010231241A (ja) * | 2010-07-12 | 2010-10-14 | Sharp Corp | 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体 |
CN104347067B (zh) | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN104753546B (zh) * | 2013-12-31 | 2017-06-23 | 鸿富锦精密工业(深圳)有限公司 | 消除移动装置干扰信号的方法以及电子设备 |
EP3039678B1 (en) * | 2015-11-19 | 2018-01-10 | Telefonaktiebolaget LM Ericsson (publ) | Method and apparatus for voiced speech detection |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3102385A1 (de) * | 1981-01-24 | 1982-09-02 | Blaupunkt-Werke Gmbh, 3200 Hildesheim | Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern |
DE3236000A1 (de) * | 1982-09-29 | 1984-03-29 | Blaupunkt-Werke Gmbh, 3200 Hildesheim | Verfahren zum klassifizieren von audiosignalen |
KR940001861B1 (ko) * | 1991-04-12 | 1994-03-09 | 삼성전자 주식회사 | 오디오 대역신호의 음성/음악 판별장치 |
DE69214882T2 (de) * | 1991-06-06 | 1997-03-20 | Matsushita Electric Ind Co Ltd | Gerät zur Unterscheidung von Musik und Sprache |
JPH05183522A (ja) * | 1992-01-06 | 1993-07-23 | Oki Electric Ind Co Ltd | 音声・楽音識別回路 |
JP3088838B2 (ja) * | 1992-04-09 | 2000-09-18 | シャープ株式会社 | 音楽検出回路及び該回路を用いた音声信号入力装置 |
JP2910417B2 (ja) * | 1992-06-17 | 1999-06-23 | 松下電器産業株式会社 | 音声音楽判別装置 |
US5712953A (en) * | 1995-06-28 | 1998-01-27 | Electronic Data Systems Corporation | System and method for classification of audio or audio/video signals based on musical content |
US5778335A (en) * | 1996-02-26 | 1998-07-07 | The Regents Of The University Of California | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding |
US5809472A (en) * | 1996-04-03 | 1998-09-15 | Command Audio Corporation | Digital audio data transmission system based on the information content of an audio signal |
-
1997
- 1997-07-09 JP JP18349897A patent/JP3700890B2/ja not_active Expired - Fee Related
-
1998
- 1998-07-04 KR KR10-1998-0026968A patent/KR100517567B1/ko not_active IP Right Cessation
- 1998-07-07 US US09/111,403 patent/US6167372A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US6167372A (en) | 2000-12-26 |
KR19990013606A (ko) | 1999-02-25 |
KR100517567B1 (ko) | 2005-12-14 |
JPH1124698A (ja) | 1999-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3700890B2 (ja) | 信号識別装置及び信号識別方法 | |
KR100427753B1 (ko) | 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치 | |
CN103258541B (zh) | 音频解码方法 | |
JP3707116B2 (ja) | 音声復号化方法及び装置 | |
CA2099655C (en) | Speech encoding | |
JP3557662B2 (ja) | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 | |
JP3680380B2 (ja) | 音声符号化方法及び装置 | |
KR100566713B1 (ko) | 음향 파라미터 부호화, 복호화 방법, 장치 및 프로그램, 음성 부호화, 복호화 방법, 장치 및 프로그램 | |
JP4270866B2 (ja) | 非音声のスピーチの高性能の低ビット速度コード化方法および装置 | |
JPH08179796A (ja) | 音声符号化方法 | |
US6678655B2 (en) | Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope | |
USRE43099E1 (en) | Speech coder methods and systems | |
JP2002023800A (ja) | マルチモード音声符号化装置及び復号化装置 | |
CA2555768A1 (en) | Coding model selection | |
WO2001020595A1 (en) | Voice encoder/decoder | |
JP2779325B2 (ja) | ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法 | |
KR0155315B1 (ko) | Lsp를 이용한 celp보코더의 피치 검색방법 | |
JP3297749B2 (ja) | 符号化方法 | |
JP3237178B2 (ja) | 符号化方法及び復号化方法 | |
JP2000132193A (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JP3916934B2 (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置 | |
JP2796408B2 (ja) | 音声情報圧縮装置 | |
JP3510168B2 (ja) | 音声符号化方法及び音声復号化方法 | |
JP4527175B2 (ja) | スペクトルパラメータ平滑化装置及びスペクトルパラメータ平滑化方法 | |
JPH0990989A (ja) | 変換符号化方法および変換復号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050624 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050707 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080722 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090722 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090722 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100722 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100722 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110722 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110722 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120722 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120722 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130722 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |