JP4928366B2 - ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体 - Google Patents

ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体 Download PDF

Info

Publication number
JP4928366B2
JP4928366B2 JP2007166882A JP2007166882A JP4928366B2 JP 4928366 B2 JP4928366 B2 JP 4928366B2 JP 2007166882 A JP2007166882 A JP 2007166882A JP 2007166882 A JP2007166882 A JP 2007166882A JP 4928366 B2 JP4928366 B2 JP 4928366B2
Authority
JP
Japan
Prior art keywords
section
candidate
pitch
candidate section
subframe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007166882A
Other languages
English (en)
Other versions
JP2009003387A (ja
Inventor
仲 大室
茂明 佐々木
祐介 日和▲崎▼
岳至 森
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007166882A priority Critical patent/JP4928366B2/ja
Publication of JP2009003387A publication Critical patent/JP2009003387A/ja
Application granted granted Critical
Publication of JP4928366B2 publication Critical patent/JP4928366B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Description

この発明は、ディジタル化された音声信号、音楽などの楽音信号を含む音響信号、その他周期的な成分を含む信号を分析してピッチを探索するピッチ探索装置、そのピッチ探索装置を用いたパケット消失補償装置、それらの方法、プログラム及びその記録媒体に関する。
インターネットをはじめとするパケット通信網を用いて音声を送受信する利用が増えている。IP電話もその一例である。図7に、パケット通信網5を用いた音声通信システム7を例示する。音声通信システム7は、音声を符号化及びパケット化して送信するパケット送信部4、例えばインターネット等のパケット通信網5、音声パケットを復号化して音声を出力するパケット受信部6を備える。
送信側のパケット送信部4は、入力音声をフレームと呼ばれる一定時間長の区間ごとに区切り、フレーム化された音声信号を音声符号化の手法を用いて音声符号に変換して、音声パケットとしてパケット通信網5に送信する。フレーム長としては、一般に5ms〜20msが用いられる。
受信側のパケット受信部6は、受信した音声パケットを、送信側の音声符号化手法に対応する復号手法を用いてフレーム化された音声信号に変換して、その音声を出力する。
パケット通信網5を利用した音声通信で問題となるのは、パケット通信網5を含む経路上でパケットが失われることや、制限時間内にパケットが届かなかったためにパケットが破棄されることによって起こる、パケットロスである。
パケットロスが発生した場合には、受信側のパケット受信部6でパケットロスコンシールメント(パケット消失補償)と呼ばれる手法を使って、再生音の劣化を抑える処理を行うことが一般的である。パケットロスコンシールメントの代表的な方法として、ITU-T G.711 Appendix Iに記載された方法が知られている(例えば、非特許文献1参照。)。
図8に、ITU-T G.711 Appendix Iで利用されているパケットロスコンシールメントの手法を組み込んだパケット受信部6の機能構成を例示する。
受信した音声パケットは、受信バッファ61に蓄えられる。受信バッファ61は、ゆらぎ吸収バッファとも呼ばれる。
音声復号部62は、受信バッファ61から1フレーム分の音声符号をフレーム番号順に取り出す。このとき、取り出そうとしたフレームの音声符号が正しく受信されており受信バッファ61内に格納されている場合は、取り出した音声符号を復号化して音声信号に変換して、スイッチ64に送る。取り出そうとしたフレームの音声符号がパケットロスによって受信バッファ61に格納されていない場合には、パケットロス検出部63によってそのフレームはパケットロスであると判断される。
パケットロス検出部63は、パケットロスでない場合はスイッチをA側にセットするようにスイッチ64を制御する。これにより、音声復号部62で復号された音声信号がそのまま出力音声としてパケット受信部6から出力される。一方、パケットロスである場合にはスイッチをB側にセットするようにスイッチ64を制御する。これにより、パケットロスである場合には、後述するパケットロスコンシールメント部65から出力される信号が、スイッチ64を通って、パケット受信部6から出力される。
パケットロスコンシールメント部65には、1フレーム前までの出力音声信号が入力される。入力された予め定められた過去一定時間(フレーム数)の出力音声信号が出力音声バッファ66に蓄えられる。
出力音声バッファ66に蓄積された音声信号は、ピッチ探索部67に送られる。
ピッチ探索部67は、後述する方法によりピッチを計算して、音響波形補完処理部68に送る。
音響波形補完処理部68は、出力音声バッファ66に蓄えられた直前フレームの再生音声から、ピッチ長の波形又は予め規則によって決められたピッチ長に対応する長さの波形(以下、ピッチ長の波形)を切り出し、切り出したピッチ長の波形をピッチ長の間隔で並べることによって、ロスしたフレーム部分の音声信号を生成する。
図9に、従来のピッチ探索部67におけるピッチ探索方法を示す。ここでは、一例として、フレーム長が10msであるとする。
ロスフレームの直前フレームを基準区間とする。この基準区間を、予め定められた探索範囲で順次ずらした区間のそれぞれについて、そのずらした区間の信号と、基準区間の信号との相関値を順次計算する。相関値を最大にする区間を決定して、その区間を相関最大区間とする。そして、相関最大区間と基準区間とのサンプル位置の差からピッチを求める。
ITU-T G.711 Appendix I、[online]、[平成19年6月8日検索]、インターネット<http://www.itu.int/rec/T-REC-G.711-199909-I!AppI/en>
従来のピッチ探索方法では、パケットロスが発生したフレームの直前フレームが常にピッチ探索をするための基準区間として利用されていた。
しかし、音声信号の時系列には比較的定常とみなせる部分と、非定常に変動している部分がある。パケットロスが発生したフレームの直前フレームが、たまたま非定常的に変動している部分であったり、たまたま背景雑音と重なったりした場合に、予め定めた探索範囲で、サンプル位置をずらしながら基準区間との相関値を順次計算しても、十分に高い相関値を得ることができないことがあった。ここでいう十分に高い相関値とは、全く同じ形の波形がピッチ長周期で繰り返している場合の相関値を1と定義すると、少なくとも0.6以上、好ましくは0.8以上であることをいう。
従来のピッチ探索方法では、相関値が最大となることをピッチを推定するための尺度としていることから、たまたま相関値が低くなってしまうことは、ピッチの推定を誤る原因となるという問題があった。
本発明は、ピッチを正確に推定するための技術を提供することを目的とする。また、そのピッチ推定技術を用いてパケットロスコンシールメント(パケット消失補償)による音質を上げることを目的とする。
この発明の一態様によるピッチ探索装置によれば、音響信号に同じ時間長の2つ以上の候補区間が割り当てられており、各候補区間ごとに、その各候補区間の音響信号のパワー、その各候補区間の音響信号のピーク値の絶対値、又は、その各候補区間の音響信号の絶対値の和をその各候補区間の候補区間比較尺度として計算する候補区間比較尺度計算手段と、計算された各候補区間ごとの候補区間比較尺度について、ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを付ける加重手段と、重みを付けられた候補区間比較尺度が最大である候補区間を選択して、その候補区間を基準区間とする決定手段と、決定された基準区間に基づいて、音響信号のピッチを計算するピッチ計算手段と、を備える。
また、この発明の一態様によるパケット補償装置によれば、計算された音響信号のピッチの長さの音響信号をパケットが消失したフレームの直前のフレームから切り出して、そのパケットが消失したフレームの部分に繰り返し並べる。
基準区間の候補を複数設けて、その中から定常的な1つの区間を選択して基準区間とし、この基準区間に基づきピッチを計算することにより、ピッチの推定精度を上げることができる。また、この精度の高い推定ピッチを用いることにより、パケットロスコンシールメント(パケット消失補償)による音質を上げることができる。
[第一実施形態]
図1〜5を参照して、本発明の第一実施形態によるピッチ探索装置100について説明をする。図1は、ピッチ探索装置100の機能構成を例示する図である。図1に例示するように、ピッチ探索装置100は、候補区間ごとの候補区間比較尺度を計算する候補区間比較尺度計算部1、複数の候補区間の中から1つの基準区間を決定する基準区間決定部2、基準区間に基づいてピッチを計算するピッチ計算部3を備える。
図2は候補区間比較尺度計算部1の機能構成を例示する図である。図2に例示するように、候補区間比較尺度計算部1は、音声信号をサブフレームに分割する分割部10と、サブフレームごとにサブフレーム比較尺度を計算するサブフレーム比較尺度計算部11と、各サブフレーム比較尺度から各候補区間ごとに候補区間比較尺度を計算する結合部12と備える。
図3は基準区間決定部2の機能構成を例示する図である。図3に例示するように、基準区間決定部2は、各候補区間から最も適切な基準区間を選択・決定する決定部22を備える。
図4はピッチ計算部3の機能構成を例示する図である。図4に例示するように、ピッチ計算部3は、基準区間の信号と、基準区間を所定の探索範囲でずらした区間の信号との相関値を順次計算する相関値計算部31と、相関値を最大にする相関最大区間を選択する相関最大区間決定部32と、相関最大区間と基準区間とのサンプル差を計算する差計算部33とを備える。
図5は、サブフレーム分割、基準区間の決定方法及び本発明によるピッチの計算方法の説明を補助する図である。図6は、ピッチ探索装置100の処理の流れを例示するフローチャート図である。
入力される信号は周期的な性質を有する任意の信号でよいが、ここでは、音声信号が入力される場合を例に挙げて説明をする。すなわち、音声信号のピッチを探索する場合を例に挙げて説明をする。
<ステップS1>
候補区間比較尺度計算部1(図1)は、入力された音声信号に2つ以上の候補区間を割り当てて、割り当てた各候補区間の音声信号から、各候補区間ごとに候補区間比較尺度を計算して、基準区間決定部2に送る(ステップS1)。ここで、候補区間とは、基準区間の候補である区間のことである。ステップS1は、例えば次のステップS11〜S13から構成される。また、候補区間比較尺度は、音声信号がどの程度定常的であるかを表す指標である。
≪ステップS11≫
入力された音声信号は、候補区間比較尺度計算部1の分割部10(図2)に送られる。分割部10は、音声信号を複数のサブフレームに分割する(ステップS11)。分割された各サブフレームの音声信号は、サブフレーム比較尺度計算部11に送られる。
各候補区間は、これらの分割したサブフレームから構成されることになる。具体的には、各候補区間は、1つのサブフレーム又は時間的に連続した複数のサブフレームから構成されることになる。
例えば、背景技術の欄で説明したパケットロスコンシールメントのピッチ探索部67として、本発明が用いられる場合には、ロスフレームの直前フレームを含む、ロスフレームよりも前の少なくとも1つのフレームについてサブフレームに分割する。
ここでは一例として、フレーム長が10msであり、1つのフレームを2つのサブフレームに分割する場合を例に挙げて説明をする。図5に例示するように、音声信号を分割して生じたサブフレームを、ロスフレームに近い順に、言い換えると、ピッチを探索しようとする部分に近い順に、X1,X2,X3,…とする。また、候補区間は、候補区間Aと候補区間Bの2つであり、候補区間AはサブフレームX1,X2から構成され、候補区間BはサブフレームX2,X3から構成されるとする。
≪ステップS12≫
サブフレーム比較尺度計算部11は、各サブフレームごとにサブフレーム比較尺度を計算して、結合部12に送る(ステップS12)。サブフレームの数が3つである場合には、サブフレーム比較尺度計算部11は、サブフレームX1,X2,X3のサブフレーム比較尺度P1,P2,P3をそれぞれ計算して、結合部12に送る。
ここで、サブフレーム比較尺度は、音声信号がどの程度定常的であるかを表す指標である。例えば、サブフレーム比較尺度として、各サブフレーム内の信号のパワーや、各サブフレーム内での信号のピーク値の絶対値や、各サブフレーム内の信号の絶対値の和を用いることができる。
定常区間は、一般に各サブフレーム内の信号のパワーや、各サブフレーム内での信号のピーク値の絶対値や、各サブフレーム内の信号の絶対値の和が大きく、逆に非定常区間はそれらの値が小さい。このため、これらの比較尺度を用いることにより、より少ない演算量で適した基準区間の選択を行うことができる。なお、実装上の演算量は、パワー<絶対値の和<ピーク値の絶対値、である。
なお、サブフレーム比較尺度として、サブフレーム比較尺度の値が小さければ小さいほど定常的であることを表す指標を用いてもよい。例えば、パワーの逆数や、ピーク値の絶対値の逆数、信号の絶対値の和の逆数をサブフレーム比較尺度として用いてもよい。
≪ステップS13≫
結合部12は、各候補区間を構成する各サブフレームのサブフレーム比較尺度を用いて、各候補区間の候補区間比較尺度を計算して、基準区間決定部2(図1、図3)に出力する(ステップS13)。例えば、各候補区間を構成する各サブフレームのサブフレーム比較尺度を加算することにより、各候補区間の候補区間比較尺度を計算する。音声信号がどの程度定常的であるかを表す指標であるサブフレーム比較尺度から計算されるため、候補区間比較尺度も、音声信号がどの程度定常的であるかを表す指標となる。
例えば、候補区間Aは、サブフレームX1とサブフレームX2から構成されるため、サブフレームX1のサブフレーム比較尺度P1とサブフレームX2のサブフレーム比較尺度P2とを加算することにより、候補区間Aの候補区間比較尺度(P1+P2)を求める。同様に、候補区間Bは、サブフレームX2とサブフレームX3から構成されるため、サブフレームX2のサブフレーム比較尺度P2とサブフレームX3のサブフレーム比較尺度P3とを加算することにより、候補区間Bの候補区間比較尺度(P2+P3)を求める。
候補区間が1つのサブフレームから構成される場合には、結合部12は、そのサブフレームのサブフレーム比較尺度を、その候補区間の候補区間比較尺度とする。この場合、結合部12は、サブフレーム比較尺度の加算等を行わない。
なお、単調増加関数fに、各候補区間を構成する各サブフレームのサブフレーム比較尺度を入力することにより、各候補区間の候補区間比較尺度を計算してもよい。単調増加関数fとは例えば、上記した入力値を加算する関数f(P,P,…)=ΣPの他、入力値を乗算するf(P,P,…)=P×P×…である。その他任意の単調増加関数を用いることができる。
<ステップS2>
基準区間決定部2(図1、図3)は、各候補区間の候補区間比較尺度を比較することにより、各候補区間の中から定常的な1つの候補区間を決定して、その候補区間を基準区間とする(ステップS2)。決定された基準区間に関する情報(基準区間情報)は、ピッチ計算部3(図1、図4)に出力される。
例えば、最も候補区間比較尺度が大きい候補区間を基準区間とする。例えば、候補区間Aの候補区間比較尺度(P1+P2)と候補区間比較尺度(P2+P3)を比較して、候補区間比較尺度が大きい方の候補区間を選択して、基準区間とする。
なお、サブフレーム比較尺度として、サブフレーム比較尺度の値が小さければ小さいほど定常的であることを表す指標を用いた場合には、最も候補区間比較尺度が小さい候補区間を基準区間とする。
<ステップS3>
ピッチ計算部3(図1、図4)は、基準区間決定部2が決定した基準区間に基づいて、入力音声信号のピッチを計算して出力する。ステップ3は、下記のステップS31〜S33から構成される。
≪ステップS31≫
まず、ピッチ計算部3の相関値計算部31(図4)は、予め定められた探索範囲で、決定された基準区間を順次ずらした区間のそれぞれについて、そのずらした区間の信号と、上記決定された基準区間の信号との相関値を順次計算する(ステップS31)。計算された計算値は相関最大区間決定部32に送られる。探索範囲とは、基準区間に対するずれjの範囲のことである。
例えば、候補区間Bが基準区間として選択された場合には、図5に例示する候補区間Bに対する予め定められた探索範囲Rで順次ずらした区間の信号と、基準区間の信号との相関値を順次計算する。なお、図5で例示した探索範囲Rは、基準区間である候補区間Rの最後のサンプル位置、図5においては候補区間Rの右端のサンプル位置を探索範囲Rのずれの範囲だけずらすことにより表したものである。
ここで、基準区間をずらすとは、基準区間自体をずらすことではなく、基準区間と同じ大きさの区間を基準区間の位置からずらすことを意味する。
この例において、候補区間Aが基準区間として選択された場合の処理は、図9を用いて背景技術で説明した処理と同様となる。
相関値の一例として相関値Cの計算方法について述べる。音声信号のn番目のサンプル、言い換えると第nサンプル時刻における音声信号のサンプル値をx(n)とし、基準区間の最初のサンプル(開始点)をN、最後のサンプル(終了点)をNとし、選択された探索範囲jをJ≦j≦Jとすると、相関値Cは以下の式により計算することができる。
Figure 0004928366
相関値Cに代えて下式によって定まる相関値C ,C ,C をそれぞれ用いてもよい。
Figure 0004928366
≪ステップS32≫
相関最大区間決定部32は、相関値を最大にする区間を決定して、その区間を相関最大区間とする。相関最大区間についての情報(相関最大区間情報)は、差計算部33に送られる(ステップS32)。
図5の例では、相関値を最大にする区間として相関最大区間Sが選択され、この相関最大区間Sについての情報が差計算部33に送られる。
≪ステップS33≫
差計算部33は、相関最大区間と、基準区間とのサンプル位置の差を計算してピッチ長を求める。このピッチ長をピッチとして出力する(ステップS33)。相関最大区間Sは相関最大区間情報からを特定され、基準区間は基準区間情報によって特定される。
なお、変換部331が、計算されたピッチ長の逆数を取ることにより、波長ではなく周波数でピッチを表現したものを計算して、これをピッチとして出力してもよい。
このように、基準区間の候補を複数設けて、より定常的な区間を基準区間とする。この基準区間に基づきピッチを計算することにより、ピッチの推定精度を上げることができる。
パケットロスコンシールメントでは、出力音声バッファに蓄えられた直前のフレームの再生音声から、推定されたピッチ長の波形を切り出し、ロスしたフレームにピッチ長の間隔で並べることによって音声信号を生成するため、一般にはできるかぎりロスフレームに近い部分を基準区間としてピッチ探索をする方が、ロス区間における音声品質をよくすることができる。
しかし、パケットロスが発生したフレームの直前フレームの位置が、たまたま非定常に変動している部分であったり、たまたま背景雑音と重なったり、推定されるべき本来のピッチ長が基準区間よりも長い場合には、ピッチの推定誤りが発生して再生音声の品質が劣化する場合がある。
このため、本発明によるピッチ探索装置、方法等をパケットロスコンシールメントとして用いる場合、基準区間の候補を複数設けて、より定常的な区間を基準区間として、この基準区間に基づきピッチを計算することにより、ピッチの推定誤りを少なくして、再生音声の品質を上げることができる。
[第二実施形態]
なお、図3に破線で示すように、加重計算部21を基準区間決定部2に設けてもよい。本発明の第二実施形態によるピッチ探索装置は、加重計算部21を備えている点で、第一実施形態によるピッチ探索装置と異なる。他の機能構成・処理については、第一実施形態によるピッチ探索装置100と同様である。
加重計算部21は、各候補区間ごとの候補区間比較尺度について、ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを与えて、決定部22に送る。この場合、決定部22は、重み付けされた候補区間比較尺度を最大にする候補区間を選択して、その候補区間を基準区間とする。
同一の候補比較尺度であれば、ピッチを求めたい部分に近い方がピッチを求めたい部分に波形やピッチが類似している可能性が高い。ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを与えることにより、ピッチを求めたい部分に近い区間をより優先的に基準区間として選択することができる。そして、ピッチを求めたい部分のピッチにより正確なピッチ探索を行うことができる。また、本発明によるピッチ探索装置、方法等をパケットロスコンシールメントに用いる場合には、より類似した波形を用いることができ、音声品質を良くすることができる。
例えば、加重計算部21は、g(x)=αx,0<α≦1として、ピッチを探索しようとする部分から遠い候補区間である候補区間Bの候補区間比較尺度P2+P3を関数gに入力したg(P2+P3)=α(P2+P3)を計算する。すなわち、P2+P3をα倍したものを決定部22に送る。加重計算部21は、ピッチを探索しようとする部分から近い候補区間である候補区間Aの候補区間比較尺度P1+P2については、重みを与える演算を行わない。この場合、α=0.7〜0.9程度とするとよい。
また、例えば、g’(x)=βx,1≦βとして、ピッチを探索しようとする部分から近い候補区間である候補区間Aの候補区間比較尺度P1+P2を関数g’に入力したg’(P1+P2)=β(P1+P2)を計算する。すなわち、P1+P2をβ倍したものを決定部22に送る。加重計算部21は、ピッチを探索しようとする部分から遠い候補区間である候補区間Bの候補区間比較尺度P2+P3については、重みを与える演算を行わない。この場合、β=1.1〜1.5程度とするとよい。このように、ピッチを探索しようとする部分から近い候補区間の候補区間比較尺度に大きな重みをつけることにより、ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを与えてもよい。
上述のg(x)=αx,0<α≦1、及び、g’(x)=βx,1≦βを用いた重み付けは、重み付けの一例である。その他、任意の重み付けの手法を用いることができる。重みの付け方は、実装するハードウェアの性能等を考慮して適宜定める。
なお、重みが小さ過ぎると基準区間の選択誤りの可能性、すなわち、ピッチ抽出やパケットロスコンシールメントに適さない、非定常な区間や背景雑音が重畳した区間を基準区間として選択してしまう可能性が増大する。重みに下限を設定することにより、この問題を回避することができる。逆に、重みが大き過ぎると、定常な区間であるもののピッチを求めたい部分とは類似度の低い区間を基準区間として選択してしまう可能性が増加する。重みに上限を設定することにより、この問題を回避することができる。この観点から、上記では0.7≦α≦0.9,1.1≦β≦1.5とした。しかし、重みの上限と下限は、これらの数値に限られない。すなわち、重みの上限と下限は、要求される精度やハードウェアの性能等の諸事情を考慮して適宜定める。
候補区間が3つ以上ある場合の重み付けの例について説明する。候補区間を、ピッチを求めたい部分から近い順に候補区間A1,A2,…とし、それらの候補区間比較尺度をP1,P2,…とする。この場合、0<α≦1として、αi−1・Pi(i=1,2,…)を計算することにより、各候補区間Aiの重み付き候補区間尺度を求める。
なお、図3において破線で示す加重計算部21に代えて、決定部22に一点鎖線で示す加重計算部221を設けてもよい。決定部22は、例えばバブルソート等のソートアルゴリズムによって、候補区間比較尺度を最大にする候補区間を求める。ソートアルゴリズムにおいては、複数の候補区間比較尺度の中の2つの候補区間比較尺度を比較する処理を繰り返すことによって最終的に候補区間比較尺度を最大にする候補区間を求める。決定部22がこの2つの候補区間比較尺度を比較する処理を行う際に、加重計算部221がピッチを求めようとする部分から遠い候補区間の候補区間比較尺度に小さな重みをつける。重みの付け方の方法は、例えば、上述のg(x)=αx,0<α≦1、及び、g’(x)=βx,1≦βを用いた重み付け方法と同様である。そして、決定部22は、これらの重み付けされた候補区間比較尺度を比較して並び替える処理を繰り返すことにより、最終的に候補区間比較尺度を最大にする候補区間を求めてもよい。
[変形例等]
なお、上記実施形態では、音声信号をサブフレームに分割して、サブフレームごとのサブフレーム比較尺度から各候補区間の候補区間比較尺度を求めたが、このサブフレーム分割は必ずしも必要ではない。すなわち、ピッチ探索装置100は、サブフレームの分割を行わずに、複数の異なる候補区間を音声信号に直接割り当てて、それらの割り当てた候補区間から、パワー、ピーク値の絶対値等である候補区間比較尺度を直接計算してもよい。
なお、各候補区間に重複しているサブフレーム(以下、重複サブフレームとする。)がある場合には、各候補区間を構成する各サブフレームからその重複サブフレームを除いたサブフレームのサブフレーム比較尺度を用いて、各候補区間の候補区間比較尺度を計算してもよい。各候補区間に共通した重複サブフレームについては計算しないことにより計算量を削減することができる。
この場合には、サブフレーム比較尺度計算部11は、各候補区間を構成する各サブフレームからその重複サブフレームを除いたサブフレームのサブフレーム比較尺度を計算して、結合部12に送る。結合部12は、上記と同様にして各候補区間を構成する各サブフレームからその重複サブフレームを除いたサブフレームのサブフレーム比較尺度を用いて、各候補区間の候補区間尺度を計算する。
例えば、候補区間Aと候補区間Bは、サブフレームX2の部分で重複している。このため、重複サブフレームはX2となる。サブフレーム比較尺度計算部11は、候補区間Aを構成するサブフレームX1,X2から重複サブフレームX2を除いたX1と、候補区間Bを構成するサブフレームX2,X3から重複サブフレームX2を除いたX3とについてのサブフレーム比較尺度P1,P3を計算して、結合部12に出力する。この例では、各候補区間を構成するサブフレームから重複サブフレームを除いたサブフレームの数がそれぞれ1つである。このため、結合部12は、X1のサブフレーム比較尺度P1を候補区間Aの候補区間比較尺度とし、X3のサブフレーム比較尺度P3を候補区間Bの候補区間比較尺度とする。P1+P2とP2+P3の比較結果は、P1とP3のみを計算した結果と同じである。このため、P2については計算をしないことにより計算量を削減することができる。
本発明によるピッチ探索装置、方法等をパケット消失補償装置に用いるためには、図8に示したパケットロスコンシールメント部65のピッチ探索部67の代わりに、図1に例示したピッチ探索装置100を用いればよい。この場合、ピッチ探索部67の代わりにピッチ探索装置100を用いたパケットロスコンシールメント部65が、パケット消失補償装置となる。ピッチ探索装置100には出力音声バッファ66から読み込んだ音声信号が入力され、ピッチ探索装置100が計算したピッチは音響波形補完処理部68に出力される。ピッチ探索部67の代わりにピッチ探索装置100を用いた場合の、パケットロスコンシールメント部65(パケット消失補償装置)及びパケット受信部6の機能構成・処理は、背景技術及び図1に記載したものと同様であるため説明を省略する。
上記実施形態の説明では、音声信号のピッチを探索する場合を例に挙げて説明をしたが、本発明によるピッチ探索装置、方法、プログラム及びその記録媒体は、周期的な成分を含む任意の信号に適用することができる。すなわち、音声信号、楽音信号等を含む音響信号を本発明に適用してもよい。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
本発明の一実施形態であるピッチ探索装置100の機能構成を例示する図。 候補区間比較尺度計算部1の機能構成を例示する図。 基準区間決定部2の機能構成を例示する図。 ピッチ計算部3の機能構成を例示する図。 サブフレーム分割、基準区間の決定方法及び本発明によるピッチの計算方法の説明を補助する図。 ピッチ探索装置100の処理の流れを例示するフローチャート図。 音声通信システム7の機能構成を例示する図。 パケット受信部6の機能構成を例示する図。 背景技術によるピッチの計算方法の説明を補助する図。
符号の説明
1 候補区間比較尺度計算部
2 基準区間決定部
3 ピッチ計算部
4 パケット送信部
5 パケット通信網
6 パケット受信部
7 音声通信システム
10 分割部
11 サブフレーム比較尺度計算部
12 結合部
21 加重計算部
22 決定部
31 相関値計算部
32 相関最大区間決定部
33 差計算部
61 受信バッファ
62 音声復号部
63 パケットロス検出部
64 スイッチ
65 パケットロスコンシールメント部
66 出力音声バッファ
67 ピッチ探索部
68 音響波形補完処理部
100 ピッチ探索装置
221 加重計算部
331 変換部

Claims (12)

  1. 音響信号に同じ時間長の2つ以上の候補区間割り当てられており、
    各候補区間ごとに、その各候補区間の音響信号のパワー、その各候補区間の音響信号のピーク値の絶対値、又は、その各候補区間の音響信号の絶対値の和をその各候補区間の候補区間比較尺度として計算する候補区間比較尺度計算手段と、
    上記計算された各候補区間ごとの候補区間比較尺度について、ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを付ける加重手段と、
    上記重みを付けられた候補区間比較尺度が最大である候補区間を選択して、その候補区間を基準区間とする決定手段と、
    上記決定された基準区間に基づいて、上記音響信号のピッチを計算するピッチ計算手段と、
    を備えるピッチ探索装置。
  2. 請求項1に記載のピッチ探索装置において、
    上記各候補区間は時間的に連続した同じ数のサブフレームで構成されており、
    上記候補区間比較尺度計算手段は、
    各サブフレームごとに、その各サブフレームの音響信号のパワー、その各サブフレームの音響信号のピーク値の絶対値、又は、その各サブフレームの音響信号の絶対値の和をサブフレーム比較尺度として計算するサブフレーム比較尺度計算手段と、
    各候補区間ごとに、その各候補区間を構成するサブフレームのサブフレーム比較尺度の和を計算して、その各候補区間の候補区間比較尺度とする結合手段と、
    で構成されることを特徴とするピッチ探索装置。
  3. 請求項2に記載のピッチ探索装置において、
    上記結合手段は、候補区間に同じ時間区間が含まれる場合には、各候補区間を構成するサブフレームから上記同じ時間区間のサブフレームを除いたサブフレームのサブフレーム比較尺度の和を計算して、その各候補区間の候補区間比較尺度とする、
    ものであることを特徴とするピッチ探索装置。
  4. 請求項1から3の何れかに記載のピッチ探索装置において、
    上記ピッチ計算手段は
    決定手段により決定された基準区間の音響信号の最初のサンプル番号をN 、最後のサンプル番号をN とし、上記音響信号の第nサンプル時刻におけるサンプル値をx(n)としたとき、上記基準区間の上記音響信号系列{x(N ),・・・,x(N )}と、上記基準区間とjサンプルずれた区間の上記音響信号系列{x(N −j),・・・,x(N −j)}と、の相互相関値をJ 11 ≦j≦J 12 の各jについて計算する相関値計算手段と、
    上記計算された上記相互相関値のうちの最大値を与えるjピッチの長さとし、上記ピッチの長さをピッチとするサンプル差計算手段と、
    を含む、
    ことを特徴とするピッチ探索装置。
  5. 音響信号に同じ時間長の2つ以上の候補区間割り当てられており、
    候補区間比較尺度計算手段が、各候補区間ごとに、その各候補区間の音響信号のパワー、その各候補区間の音響信号のピーク値の絶対値、又は、その各候補区間の音響信号の絶対値の和をその各候補区間の候補区間比較尺度として計算する候補区間比較尺度計算ステップ、
    加重手段が、上記計算された各候補区間ごとの候補区間比較尺度について、ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを付ける加重ステップと、
    決定手段が、上記重みを付けられた候補区間比較尺度が最大である候補区間を選択して、その候補区間を基準区間とする決定ステップと、
    ピッチ計算手段が、上記決定された基準区間に基づいて、上記音響信号のピッチを計算するピッチ計算ステップと、
    を有するピッチ探索方法。
  6. 請求項5に記載のピッチ探索方法において、
    上記各候補区間は時間的に連続した同じ数のサブフレームで構成されており、
    上記候補区間比較尺度計算ステップは、
    サブフレーム比較尺度計算手段が、各サブフレームごとに、その各サブフレームの音響信号のパワー、その各サブフレームの音響信号のピーク値の絶対値、又は、その各サブフレームの音響信号の絶対値の和をサブフレーム比較尺度として計算するサブフレーム比較尺度計算ステップと、
    結合手段が、各候補区間ごとに、その各候補区間を構成するサブフレームのサブフレーム比較尺度の和を計算して、その各候補区間の候補区間比較尺度とする結合ステップと、
    で構成されることを特徴とするピッチ探索方法。
  7. 請求項1からの何れかに記載のピッチ探索装置の各手段としてコンピュータを機能させるためのピッチ探索プログラム。
  8. 請求項に記載のピッチ探索プログラムを記録したコンピュータ読み取り可能な記録媒体。
  9. 請求項1からの何れかに記載のピッチ探索装置を備え、
    さらに、上記計算されたピッチの長さの音響信号をパケットが消失したフレームの直前のフレームから切り出して、そのパケットが消失したフレームの部分に繰り返し並べる音響波形補完処理手段を備える、
    ことを特徴とするパケット消失補償装置。
  10. 請求項5又は6に記載のピッチ探索方法の各ステップを有し、
    さらに、音響波形補完処理手段が、上記計算されたピッチの長さの音響信号をパケットが消失したフレームの直前のフレームから切り出して、そのパケットが消失したフレームの部分に繰り返し並べる音響波形補完処理ステップを有する、
    ことを特徴とするパケット消失補償方法。
  11. 請求項に記載のパケット消失補償装置の各手段としてコンピュータを機能させるためのパケット消失補償プログラム。
  12. 請求項1に記載のパケット消失補償プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007166882A 2007-06-25 2007-06-25 ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体 Active JP4928366B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007166882A JP4928366B2 (ja) 2007-06-25 2007-06-25 ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007166882A JP4928366B2 (ja) 2007-06-25 2007-06-25 ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体

Publications (2)

Publication Number Publication Date
JP2009003387A JP2009003387A (ja) 2009-01-08
JP4928366B2 true JP4928366B2 (ja) 2012-05-09

Family

ID=40319785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007166882A Active JP4928366B2 (ja) 2007-06-25 2007-06-25 ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体

Country Status (1)

Country Link
JP (1) JP4928366B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101666521B1 (ko) * 2010-01-08 2016-10-14 삼성전자 주식회사 입력 신호의 피치 주기 검출 방법 및 그 장치
JP5637379B2 (ja) * 2010-11-26 2014-12-10 ソニー株式会社 復号装置、復号方法、およびプログラム
AU2014283393A1 (en) * 2013-06-21 2016-02-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation
AU2014283389B2 (en) 2013-06-21 2017-10-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization
CN104240715B (zh) * 2013-06-21 2017-08-25 华为技术有限公司 用于恢复丢失数据的方法和设备
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0351900A (ja) * 1989-07-20 1991-03-06 Fujitsu Ltd エラー処理方式
JP4134961B2 (ja) * 1996-11-20 2008-08-20 ヤマハ株式会社 音信号分析装置及び方法
JP3435310B2 (ja) * 1997-06-12 2003-08-11 株式会社東芝 音声符号化方法および装置

Also Published As

Publication number Publication date
JP2009003387A (ja) 2009-01-08

Similar Documents

Publication Publication Date Title
JP4928366B2 (ja) ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
US6704702B2 (en) Speech encoding method, apparatus and program
JP2776050B2 (ja) 音声符号化方式
RU2713605C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
JP6151411B2 (ja) 音声符号化装置および方法、並びに、音声復号装置および方法
JPH08263099A (ja) 符号化装置
KR20090083070A (ko) 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
JP2007279444A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JPH04270398A (ja) 音声符号化方式
JP3478209B2 (ja) 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
JP4658852B2 (ja) 適応ブロック長符号化装置、その方法、プログラム及び記録媒体
JP4108317B2 (ja) 符号変換方法及び装置とプログラム並びに記憶媒体
JPH08179795A (ja) 音声のピッチラグ符号化方法および装置
JP4658853B2 (ja) 適応ブロック長符号化装置、その方法、プログラム及び記録媒体
JP3435310B2 (ja) 音声符号化方法および装置
JP2800599B2 (ja) 基本周期符号化装置
JP4928367B2 (ja) パケット受信装置及び方法
JP4691079B2 (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
JP4580622B2 (ja) 広帯域音声符号化方法及び広帯域音声符号化装置
EP4372739A1 (en) Sound signal downmixing method, sound signal encoding method, sound signal downmixing device, sound signal encoding device, and program
JP2019039946A (ja) モデル学習装置、音声区間検出装置、それらの方法およびプログラム
JPH0844398A (ja) 音声符号化装置
JP3315956B2 (ja) 音声符号化装置及び音声符号化方法
JP3068689B2 (ja) 音声符号化方法
JP5768450B2 (ja) 騒音推定装置及び騒音推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4928366

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350