JP6589404B2 - 音響信号の符号化装置 - Google Patents

音響信号の符号化装置 Download PDF

Info

Publication number
JP6589404B2
JP6589404B2 JP2015121870A JP2015121870A JP6589404B2 JP 6589404 B2 JP6589404 B2 JP 6589404B2 JP 2015121870 A JP2015121870 A JP 2015121870A JP 2015121870 A JP2015121870 A JP 2015121870A JP 6589404 B2 JP6589404 B2 JP 6589404B2
Authority
JP
Japan
Prior art keywords
spectrum
intensity
unit section
frequency
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015121870A
Other languages
English (en)
Other versions
JP2016028269A (ja
Inventor
茂出木 敏雄
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2015121870A priority Critical patent/JP6589404B2/ja
Publication of JP2016028269A publication Critical patent/JP2016028269A/ja
Application granted granted Critical
Publication of JP6589404B2 publication Critical patent/JP6589404B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

本発明は、音響信号の符号化技術に関し、特に、MIDI形式等の符号コードに符号化するのに好適な符号化技術に関する。
従来、MIDI音源を用いて音響信号を再生することを可能とするため、音響信号をMIDI符号等の符号コードに変換することが行われている(特許文献1〜4参照)。MIDI音源では、32和音など限定された周波数で再生されるため、符号化の際には、限定された数の周波数を選択して符号化することが必要となる。出願人も、音響信号から限定された数の周波数を選択して符号化する技術について提案している(特許文献1、4参照)。
特に、特許文献4に記載の技術においては、解析対象のサンプルを時間方向に増大(信号波形の時間方向への拡大)させて時間分解能を高めることが行われている。
特開2002−41037号公報 特許第4061070号公報 特許第4156268号公報 特開2012−181304号公報
しかしながら、上記特許文献4に記載の技術では、サンプル数を増大させて解析するため、処理負荷が増加するという問題がある。また、連続する単位区間において重複する周波数成分が含まれるため、時間分解能が十分でなく、再現される音が明瞭でないという問題がある。
そこで、本発明は、限定された数の周波数で再生される音源を用いて音を再現する際に、時間分解能を向上させて、音をより明瞭に再現することが可能な音響信号の符号化装置を提供することを課題とする。
上記課題を解決するため、本発明第1の態様では、所定のサンプリング周波数でデジタル化された時系列のサンプル列として与えられる音響信号を符号化するための符号化装置であって、
前記サンプル列に対して、所定数T個のサンプルで構成される単位区間を、隣接する単位区間と時間軸方向に前記T個より少ない所定数のサンプルを重複させながら設定する区間設定手段と、
前記単位区間に対して、解析対象とする少なくともN種類の各周波数f(n)について周波数解析を行い、所定の選出条件を満たす単位区間である選出単位区間に対するスペクトル強度を算出するスペクトル算出手段と、
前記N種類の周波数ごとに、対象とする選出単位区間(q−1)に対して算出されたスペクトル強度(E2(q−1,n))と、当該選出単位区間(q−1)と一部が重複する所定区間に対して算出されたスペクトル強度(E2(q´,n))との相乗平均値(E2´(q−1,n))を算出し、前記対象とする選出単位区間に対して算出されたスペクトル強度(E2(q−1,n))に対して、前記相乗平均値(E2´(q−1,n))に基づいて補正を行い、重複する選出単位区間の影響を減少させた補正スペクトル強度(E2´´(q−1,n))を算出するスペクトル補正手段と、
前記選出単位区間の補正スペクトル強度に基づいて強度値を定義した、所定の形式の符号コードを生成する符号化手段と、
を有することを特徴とする音響信号の符号化装置を提供する。
本発明第1の態様によれば、単位区間に対して、N種類の各周波数f(n)について周波数解析を行い、所定の選出条件を満たす単位区間である選出単位区間に対するスペクトル強度を算出し、N種類の周波数ごとに、対象とする選出単位区間に対して算出されたスペクトル強度と、選出単位区間と一部が重複する所定区間に対して算出されたスペクトル強度との相乗平均値を算出し、対象とする選出単位区間に対して算出されたスペクトル強度に対して、相乗平均値に基づいて補正を行い、重複する選出単位区間の影響を減少させた補正スペクトル強度を算出し、選出単位区間の補正スペクトル強度に基づいて強度値を定義した、所定の形式の符号コードを生成するようにしたので、音響信号を、32和音などの限定された周波数で再生される音源(例えばMIDI音源)を用いてより明瞭に再現することが可能となる。
また、本発明第2の態様では、本発明第1の態様において、前記スペクトル補正手段は、前記対象とする選出単位区間(q−1)の直後の選出単位区間(q)と重複させずに連続するように、前記直後の選出単位区間(q)よりTサンプルだけ前方にずらしたT個のサンプルで構成される隣接単位区間(q´)を前記一部が重複する所定区間として前記相乗平均値(E2´(q−1,n))を算出し、単位区間の解析サンプル数(T(n))を、前記対象とする選出単位区間(q−1)と後続の選出単位区間(q)との時間差に対応するサンプル数((P(q)−P(q−1))・W)で除した値を(P(q)は選出単位区間qに対応する単位区間におけるインデックス番号)、前記相乗平均値に乗じることにより、前記対象とする選出単位区間(q−1)に対して算出されたスペクトル強度を補正するようにしていることを特徴とする。
本発明第2の態様によれば、対象とする選出単位区間の直後の選出単位区間と重複させずに連続するように、直後の単位区間よりTサンプルだけ前方にずらしたT個のサンプルで構成される隣接単位区間のスペクトル強度と、対象とする選出単位区間のスペクトル強度の相乗平均値に対して、単位区間の解析サンプル数を、対象とする選出単位区間と後続の選出単位区間との時間差に対応するサンプル数で除した値を、乗じることにより、対象とする選出単位区間に対して算出されたスペクトル強度を補正するようにしたので、対象とする選出単位区間における、直後の選出単位区間と重複しない部分を強調した周波数成分を大きく反映させることになる。このため、結果として、連続する選出単位区間において重複する周波数成分を、相対的に減少させることができ、時間分解能を向上させることが可能となる。
また、本発明第3の態様では、本発明第1の態様において、前記スペクトル補正手段は、前記一部が重複する所定区間として前記対象とする選出単位区間(q−1)の直後の選出単位区間(q)を用い、単位区間の解析サンプル数(T(n) )から、選出単位区間(q−1)と後続の選出単位区間(q)との時間差に対応するサンプル数((P(q)−P(q−1))・W)を減算したものを、前記相乗平均値(E2´(q−1,n))に乗じた後、元のスペクトル強度(E2(q−1,n))と単位区間の解析サンプル数(T(n))を乗じたものから減算する演算を行い、当該演算の結果を、選出単位区間(q−1)と後続の選出単位区間(q)との時間差に対応するサンプル数((P(q)−P(q−1))・W)で除した値に基づいて前記対象とする選出単位区間(q−1)に対して算出されたスペクトル強度を補正するようにしていることを特徴とする。
本発明第3の態様によれば、一部が重複する所定区間として対象とする選出単位区間の直後の選出単位区間を用い、単位区間の解析サンプル数から、選出単位区間と後続の選出単位区間との時間差に対応するサンプル数を減算したものを、相乗平均値に乗じた後、元のスペクトル強度と単位区間の解析サンプル数を乗じたものから減算する演算を行い、当該演算の結果を、選出単位区間と後続の選出単位区間との時間差に対応するサンプル数で除した値に基づいて対象とする選出単位区間に対して算出されたスペクトル強度を補正するようにしたので、対象とする選出単位区間と直後の選出単位区間の重複部分の成分を直接除去し、連続する選出単位区間において重複する周波数成分を減少させることができ、時間分解能を向上させることが可能となる。
また、本発明第4の態様では、
所定のサンプリング周波数でデジタル化された時系列のサンプル列として与えられる音響信号を符号化するための符号化装置であって、
前記サンプル列に対して、所定数T個のサンプルで構成される単位区間を、隣接する単位区間と時間軸方向に前記T個より少ない所定数のサンプルを重複させながら設定する区間設定手段と、
前記単位区間に対して、解析対象とする少なくともN種類の各周波数について周波数解析を行い、所定の選出条件を満たす単位区間である選出単位区間に対するスペクトル強度を算出するスペクトル算出手段と、
前記N種類の周波数ごとに、対象とする選出単位区間に対して算出されたスペクトル強度と、前記対象とする選出単位区間(q−1)の直後の選出単位区間(q)と重複させずに連続するように前記直後の選出単位区間よりTサンプルだけ前方にずらしたT個のサンプルで構成される隣接単位区間(q´)に対して算出されたスペクトル強度との相乗平均値(E2´(q−1,n))を算出し、単位区間の解析サンプル数(T(n))を、前記対象とする選出単位区間(q−1)と後続の選出単位区間(q)との時間差に対応するサンプル数((P(q)−P(q−1))・W)で除した値を、前記相乗平均値に乗じることにより、前記対象とする選出単位区間(q−1)に対して算出されたスペクトル強度を補正し、重複する選出単位区間の影響を減少させた補正スペクトル強度を算出するスペクトル補正手段と、
前記選出単位区間の補正スペクトル強度に基づいて強度値を定義した、所定の形式の符号コードを生成する符号化手段と、
を有することを特徴とする音響信号の符号化装置を提供する。
本発明第4の態様によれば、本発明第2の態様と同様、対象とする選出単位区間における、直後の選出単位区間と重複しない部分を強調した周波数成分を大きく反映させることになる。このため、結果として、連続する選出単位区間において重複する周波数成分を、相対的に減少させることができ、時間分解能を向上させることが可能となる。
また、本発明第5の態様では、
所定のサンプリング周波数でデジタル化された時系列のサンプル列として与えられる音響信号を符号化するための符号化装置であって、
前記サンプル列に対して、所定数T個のサンプルで構成される単位区間を、隣接する単位区間と時間軸方向に前記T個より少ない所定数のサンプルを重複させながら設定する区間設定手段と、
前記単位区間に対して、解析対象とする少なくともN種類の各周波数について周波数解析を行い、所定の選出条件を満たす単位区間である選出単位区間に対するスペクトル強度を算出するスペクトル算出手段と、
前記N種類の周波数ごとに、対象とする選出単位区間に対して算出されたスペクトル強度と、前記対象とする選出単位区間(q−1)の直後の選出単位区間(q)に対して算出されたスペクトル強度との相乗平均値(E2´(q−1,n))を算出し、単位区間の解析サンプル数(T(n))から、対象とする選出単位区間(q−1)と後続の選出単位区間(q)との時間差に対応するサンプル数((P(q)−P(q−1))・W)を減算したものを、前記相乗平均値に乗じた後、元のスペクトル強度(E2(q−1,n))と単位区間の解析サンプル数(T(n))を乗じたものから減算する演算を行い、当該演算の結果を、選出単位区間(q−1)と後続の選出単位区間(q)との時間差に対応するサンプル数((P(q)−P(q−1))・W)で除した値に基づいて前記対象とする選出単位区間に対して算出されたスペクトル強度を補正し、重複する選出単位区間の影響を減少させた補正スペクトル強度を算出するスペクトル補正手段と、
前記選出単位区間の補正スペクトル強度に基づいて強度値を定義した、所定の形式の符号コードを生成する符号化手段と、
を有することを特徴とする音響信号の符号化装置を提供する。
本発明第5の態様によれば、本発明第3の態様と同様、対象とする選出単位区間と直後の選出単位区間の重複部分の成分を直接除去し、連続する選出単位区間において重複する周波数成分を減少させることができ、時間分解能を向上させることが可能となる。
また、本発明第6の態様では、本発明第1から第5のいずれかの態様において、前記スペクトル算出手段は、
個々の単位区間ごとに、解析対象とする少なくともN種類の各周波数f(n)について、周波数解析を行うことにより、p番目の単位区間pに対して、前記N種類の周波数f(n)に対応した第1のスペクトル強度E1(p,n)を算出する第1のスペクトル算出手段と、
対象とする単位区間pの直前に位置する単位区間p−1における第1のスペクトル強度E1(p−1,n)との対応する周波数ごとの変化に基づく評価値が、所定のしきい値より大きいことを前記選出条件とし、前記対象とする単位区間pを選出単位区間q(q≦p)として選出し、少なくとも前記N種類の各周波数f(n)について、前記第1のスペクトル算出手段における周波数解析に比較して高精度な周波数解析を行うことにより、前記N種類の周波数に対応した第2のスペクトル強度E2(q,n)を、前記選出単位区間に対するスペクトル強度として算出する第2のスペクトル算出手段と、
を有することを特徴とする。
本発明第6の態様によれば、設定された各単位区間に対して簡易な第1の周波数解析を行い、その強度が直前の単位区間と比較して所定の基準以上に大きい場合に、選出単位区間として選出し、その選出単位区間に対してより高精度な第2の周波数解析を行って、得られた解析結果を基に符号コードを生成するようにしたので、固定間隔で音響信号全体に渡って情報を解析しつつ、特徴的な部分のみを符号化することになるため、和音を含む音響信号や、音声信号の周波数変化をより適切に解析することが可能となる。
また、本発明第7の態様では、本発明第6の態様において、
前記符号化手段は、隣接する2つの選出単位区間q−1と選出単位区間qに対して、後続の選出単位区間qにおける対象周波数f(n)に対応する前記第2のスペクトル強度E2(q,n)から、直前の選出単位区間q−1における前記N種類の周波数のうち前記対象周波数と同周波数f(n)、1つ低い周波数f(n−1)、1つ高い周波数f(n+1)にそれぞれ対応する前記第2のスペクトル強度E2(q−1,n)、E2(q−1,n−1)、E2(q−1,n+1)のいずれかを減じた減算値を、前記後続の選出単位区間qの第2のスペクトル強度E2(q,n)と前記直前の選出単位区間q−1の第2のスペクトル強度E2(q−1,n)、E2(q−1,n−1)、E2(q−1,n+1)のいずれかとの和である加算値で除した値が所定のしきい値(Ldif)未満で、かつ前記直前の選出単位区間q−1の第2のスペクトル強度E2(q−1,n)、E2(q−1,n−1)、E2(q−1,n+1)のいずれか、および前記後続の選出単位区間qの第2のスペクトル強度E2(q,n)が所定のしきい値(Lmin)より大きい場合、前記選出単位区間qを選出単位区間q−1に連結することを特徴とする。
本発明第7の態様によれば、符号コードを生成する際、隣接する2つの選出単位区間のうち、後続の選出単位区間とその直前の選出単位区間の強度の差が所定のしきい値未満で、後続の選出単位区間の強度とその直前の選出単位区間の強度がともに所定のしきい値より大きい場合に、隣接する2つの選出単位区間を連結するようにしたので、適切に音成分を連結することが可能になる。
また、本発明第8の態様では、本発明第7の態様において、前記第1のスペクトル算出手段および第2のスペクトル算出手段はN種類の各周波数f(n)を主周波数とし、隣接する主周波数を超えない範囲でM種類の副周波数f(n,m)を設定し、前記第1のスペクトル強度E1(p,n)および第2のスペクトル強度E2(q,n)として、前記M種類の副周波数の中で最も大きい強度を示す副周波数に対応する強度値を算出し、
前記符号化手段は、前記第2のスペクトル強度E2(q,n)を決定する副周波数と、前記第2のスペクトル強度E2(q−1,n)、E2(q−1,n−1)、E2(q−1,n+1)を決定する副周波数のいずれかとの差が所定のしきい値(Ndif)未満という条件をさらに満たした場合に、前記後続の選出単位区間qを直前の選出単位区間q−1を連結することを特徴とする。
本発明第8の態様によれば、解析する周波数の間隔を微細に設定することにより、より詳細な周波数解析が可能となり、さらに、音成分の連結条件として、後続の選出単位区間とその直前の選出単位区間の副周波数との差がしきい値未満であることを追加したので、より精度の高い解析結果に基づいて音成分を連結することが可能となる。
また、本発明第9の態様では、本発明第8の態様において、
前記直前の選出単位区間q−1が、既に他の選出単位区間と連結されている場合、前記直前の選出単位区間q−1が連結されている先頭の選出単位区間をqoとし、
前記符号化手段は、前記第2のスペクトル強度E2(q,n)を決定する副周波数と前記第2のスペクトル強度E2(qo,n)、E2(qo,n−1)、E2(qo,n+1)を決定する副周波数のいずれか1つとの差が所定のしきい値(Nadif)未満という条件をさらに満たした場合に限り、前記後続の選出単位区間qを直前の選出単位区間q−1に連結することを特徴とする。
本発明第9の態様によれば、さらに、音成分の連結条件として、前方の選出単位区間が、既に他の選出単位区間と連結されている場合、後続の選出単位区間とその直前の選出単位区間が連結されている先頭の選出単位区間の副周波数との差がしきい値未満であることを追加したので、隣接する選出単位区間どうしでは副周波数が緩やかに変化する程度であっても、先頭の選出単位区間からは累積して周波数が大きく異なる場合において、後続の選出単位区間を誤って連結することを防ぎ、より精度の高い音成分の連結を実現することが可能となる。
また、本発明第10の態様では、本発明第7から第9のいずれかの態様において、
前記符号化手段は、前記選出単位区間の連結に基づいて補正された符号コードを含む生成される符号コードの先頭時刻から先頭時刻に時間差を加えた終了時刻までを時間区間とすると、ある時刻tにおいて、所定の個数以上の符号コードの時間区間が重複する場合、前記重複する全ての符号コードに対して、先頭時刻から前記時刻tまでの経過時間に基づいて当該符号コードの強度値を補正した変動強度値(Vc(h,t))を算出し、変動強度値が最も小さい符号コードの時間差を当該符号コードの先頭時刻から前記時刻tまでの経過時間になるよう補正するようにしていることを特徴とする。
本発明第10の態様によれば、前記選出単位区間の連結に基づいて補正された符号コードを含む生成される符号コードの先頭時刻から先頭時刻に時間差を加えた終了時刻までを時間区間とすると、ある時刻tにおいて、所定の個数以上の符号コードの時間区間が重複する場合、前記重複する全ての符号コードに対して、先頭時刻から前記時刻tまでの経過時間に基づいて当該符号コードの強度値を補正した変動強度値を算出し、変動強度値が最も小さい符号コードの時間差を当該符号コードの先頭時刻から前記時刻tまでの経過時間になるよう補正するようにしたので、連結された音成分の減衰を考慮して、同時発音可能な数に収まるように音成分の数を制限することが可能となる。
また、本発明第11の態様では、本発明第6から第10のいずれかの態様において、前記第1のスペクトル算出手段は、前記単位区間の区間信号の構成要素となるべきN種類の要素信号を、各々当該周波数f(n)の周期の整数倍に対応し、前記単位区間のサンプル数Tに最も近いT(n)個のサンプルとして準備し、
前記N個の各周波数f(n)に対応する要素信号と、それぞれ対応する前記単位区間pのT(n)個のサンプルで構成される区間信号との相関演算を行うことにより、第1のスペクトル強度E1(p,n)を算出するものであり、
前記第2のスペクトル算出手段は、
前記N個の各周波数f(n)に対応する要素信号と、それぞれ対応する前記選出単位区間qのT(n)個のサンプルで構成される区間信号との相関演算を行い、相関値が最も高い周波数f(nmax)に対応する要素信号を調和信号として選出し、
前記選出された調和信号と当該調和信号について得られた相関値との積で与えられるT(nmax)個のサンプルを含有信号とし、当該含有信号を前記区間信号から減じることにより、T(nmax)個のサンプルで構成される差分信号を算出し、
前記T(nmax)個のサンプルを反映させ更新されたT(n)個のサンプルを新たな区間信号として、前記調和信号の選出および差分信号の算出を実行して新たな含有信号および差分信号を得る処理を繰り返し行うことによりN個の含有信号を求め、求められた含有信号の相関値に基づいて、前記N種類の周波数に対応した第2のスペクトル強度E2(q,n)を算出することを特徴とする。
本発明第11の態様によれば、全ての単位区間に対する第1のスペクトル算出を、簡易な離散フーリエ変換により行い、選出単位区間に対する第2のスペクトル算出を高精度な一般化調和解析により行うようにしたので、全ての単位区間の解析結果を参考にしつつ、選出単位区間の情報を高精度に得ることを、全体として効率的に行うことが可能となる。
また、本発明第12の態様では、本発明第6から第11のいずれかの態様において、 前記第1のスペクトル算出手段は、
直前の単位区間p−1における各周波数f(n)に対応する直前相関演算結果に対し、前記直前の単位区間p−1における先頭Wサンプルに対応する相関演算を行い、各周波数ごとの相関値を前記直前相関演算結果より減算するとともに、前記単位区間pにおける最後尾Wサンプルに対応する相関演算を行い、各周波数ごとの相関値を前記直前相関演算結果に加算することにより、前記単位区間pにおける各周波数f(n)に対応する相関演算結果を取得し、当該相関演算結果に基づいて前記第1のスペクトル強度E1(p,n)を算出することを特徴とする。
本発明第12の態様によれば、第1のスペクトル算出における各単位区間に対する簡易な相関演算を行う際、直前の単位区間に対して行われた相関演算結果を利用し、直前相関演算結果の先頭部分を除去するとともに、当該単位区間の最後尾に対する相関演算を行って、その結果を直前相関演算結果に加算するようにしたので、直前の単位区間の相関演算結果の大部分を流用することができ、全ての単位区間に対する演算処理を高速化することが可能となる。
また、本発明第13の態様では、本発明第1から第12のいずれかの態様において、前記スペクトル算出手段は、
前記N種類の各周波数f(n)に対して、整数kを用いてf(n)/kなる所定数の低域周波数を定義し、前記低域周波数f(n)/kに対応するスペクトル強度が存在する場合、前記低域周波数f(n)/kに対応するスペクトル強度に基づいて前記N種類の各周波数f(n)に対応するスペクトル強度を所定の割合だけ減衰させるように補正を行い、倍音補正されたスペクトル強度を作成することを特徴とする。
本発明第13の態様によれば、N種類の各周波数f(n)に対して、整数kを用いてf(n)/kなる所定数の低域周波数を定義し、低域周波数f(n)/kに対応するスペクトル強度が存在する場合、低域周波数f(n)/kに対応するスペクトル強度に基づいてf(n)に対応するスペクトル強度を所定の割合だけ減衰させるように補正を行い、倍音補正されたスペクトル強度を作成するようにしたので、音響信号を、倍音が除去された状態で、より明瞭に再現することが可能となる。
本発明によれば、限定された数の周波数で再生される音源を用いて音を再現する際に、時間分解能を向上させて、音をより明瞭に再現することが可能となるという効果を有する。
本実施形態における音響信号の符号化装置のハードウェア構成図である。 本実施形態における音響信号の符号化装置の機能ブロック図である。 本実施形態に係る音響信号の符号化装置の処理動作を示すフローチャートである。 本実施形態の選出単位区間選出の概念を示す図である。 本実施形態における単位区間と解析範囲の関係を示す図である。 本実施形態における単位区間の解析処理の様子を示す図である。 音響信号から抽出した単位区間におけるサンプル列と、調和信号の対応関係を示す図である。 図3のS9における単音成分補正の第1の手法を示すフローチャートである。 単音成分補正の第1の手法における単位区間同士の関係を示す図である。 図3のS9における単音成分補正の第2の手法を示すフローチャートである。 単音成分補正の第2の手法における単位区間同士の関係を示す図である。 男声のアナウンス音声の音響信号波形を示す図である。 図12に示した音響信号を、従来方式で符号化した符号データを示す図である。 図12に示した音響信号を、本発明に係る音響信号の符号化装置で符号化した符号データを示す図である。 女声のアナウンス音声の音響信号波形を示す図である。 図15に示した音響信号を、従来方式で符号化した符号データを示す図である。 図15に示した音響信号を、本発明に係る音響信号の符号化装置で符号化した符号データを示す図である。
以下、本発明の好適な実施形態について、図面を参照して詳細に説明する。
<1.装置構成>
図1は、本発明の一実施形態における音響信号の符号化装置のハードウェア構成図である。本実施形態に係る音響信号の符号化装置は、汎用のコンピュータで実現することができ、図1に示すように、CPU(Central Processing Unit)1と、コンピュータのメインメモリであるRAM(Random Access Memory)2と、CPU1が実行するプログラムやデータを記憶するためのハードディスク、フラッシュメモリ等の大容量の記憶装置3と、キーボード、マウス等のキー入力I/F(インターフェース)4と、外部デバイス(データ記憶媒体)とデータ通信するためのデータ入出力I/F5と、液晶ディスプレイ等の表示デバイスである表示部6と、を備え、互いにバスを介して接続されている。
図2は、本実施形態に係る音響信号の符号化装置の構成を示す機能ブロック図である。図2において、10は区間設定手段、20はスペクトル算出手段、30はスペクトル補正手段、40は符号化手段、50は記憶手段、51は音響信号記憶部、52は符号コード記憶部である。
区間設定手段10は、音響信号から所定数のサンプルを1単位区間として読み込む機能を有している。スペクトル算出手段20は、区間設定手段10が音響信号から読み込んだサンプルを単位区間ごとにフーリエ変換等により周波数解析して周波数次元の複素数のスペクトル強度を算出する機能を有している。スペクトル算出手段20は、2種類の周波数解析を実行するものであり、第1のスペクトル強度を算出する第1のスペクトル算出手段、第2のスペクトル強度を算出する第2のスペクトル算出手段を含む。スペクトル補正手段30は、スペクトル算出手段20により算出されたスペクトル強度を補正して補正スペクトル強度を算出する機能を有している。符号化手段40は、算出された補正スペクトル強度を所定の符号コードに符号化する機能を有している。
記憶手段50は、音響信号を記憶した音響信号記憶部51と、符号コードを記憶する符号コード記憶部52を有しており、その他処理に必要な各種情報を記憶するものである。
図2に示した各構成手段は、現実には図1に示したように、コンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。
図1の記憶装置3には、CPU1を動作させ、コンピュータを、音響信号の符号化装置として機能させるための専用のプログラムが実装されている。この専用のプログラムを実行することにより、CPU1は、区間設定手段10、スペクトル算出手段20、スペクトル補正手段30、符号化手段40、記憶手段50としての機能を実現することになる。また、記憶装置3は、処理に必要な様々なデータを記憶する。
<2.処理動作>
図3は、本実施形態に係る音響信号の符号化装置の処理動作を示すフローチャートである。まず、区間設定手段10が、処理対象であるデジタル音響信号を、音響信号記憶部51から読み込む(ステップS1)。デジタル音響信号は、アナログ音響信号を所定のサンプリング周波数、量子化ビット数でサンプリングしたものであり、本実施形態では、サンプリング周波数44.1kHz、量子化ビット数16ビットでサンプリングした場合を例にとって以下説明していく。サンプリング周波数44.1kHzでサンプリングした場合、デジタル音響信号は、1秒間に44100個のサンプル(信号強度値)を有するサンプル列(サンプルの配列:強度配列)として構成されることになる。
音響信号の符号化装置は、続くステップS2〜S5において、所定の区間に対して周波数解析を行う。本実施形態では、単位区間を設定した後、所定の選出条件を満たす単位区間を選出単位区間として選出することにより、周波数解析の対象とする区間の設定を行う。
本実施形態では、特許文献4と同様、図4に示すように、固定間隔で単位区間を設定し、各単位区間に対して離散フーリエ変換を実行して解析結果を得る。そして、その解析結果を直前の単位区間と比較して、所定の条件を満たす場合に、選出単位区間として選出する。図4の例では、単位区間1、5、6がそれぞれ選出単位区間1、2、3として選出されている。そして、選出単位区間に対して一般化調和解析を実行して解析結果としてスペクトル強度を得る。
具体的には、まず、区間設定手段10が、時系列のサンプル列上に単位区間を設定する(ステップS2)。単位区間長(=サンプル数)Tは、サンプリング周波数との関係で設定されるが、サンプリング周波数が44.1kHzの場合、低域部まで忠実に解析するためには、4096サンプル以上必要である。しかし、本実施形態では、時間分解能を高めるため、1単位区間のサンプル数T=1024として単位区間を設定している。1単位区間のサンプル数を、基準とする4096より減らすことにより、単位区間が短い時間間隔で設定されるため、この単位区間単位で解析を行うことにより時間分解能が高まる。1単位区間のサンプル数を減らすと、低域部を忠実に解析することは難しくなるが、低域部に周波数成分が少ない音声や、音楽であってもあまり低域部が表現されていないものについては、十分な解析を行うことができる。
単位区間の設定は、特許文献1、3、4に開示されているように、デジタル音響信号の先頭から順次サンプルを抽出することにより行われる。単位区間は、全てのサンプルを漏らさず設定し、好ましくは、連続する単位区間においてサンプルが重複するように設定する。本実施形態では、各単位区間の先頭の間隔(シフト幅という)を固定値で設定する。すなわち、重複させるサンプル数を一定として設定する。本実施形態では、シフト幅W=16の固定値とする。これにより、T=1024の場合、先頭の単位区間をj=0〜1023、2番目の単位区間をj=16〜1039、3番目の単位区間をj=32〜1055というように、1008個のサンプルを重複させながら、設定することになる。そして、各サンプルの値x(j)を各単位区間p(pは0以上の整数)ごとの値x(p,i)(0≦i≦T−1)と表現する。
次に、スペクトル算出手段20が、設定された各単位区間を対象として第1の周波数解析である離散フーリエ変換を実行し、各単位区間のスペクトル強度を算出する(ステップS3)。すなわち、ステップS3においては、2種類の周波数解析を行うスペクトル算出手段20が有する第1のスペクトル算出手段が、第1のスペクトル強度を算出する。各単位区間のスペクトル強度の算出は、特許文献1〜3に開示されているように、MIDIのノートナンバーnに対応する128種類の解析周波数f(n)=440・2(n-69)/12の要素信号(要素関数)を基本にした離散フーリエ変換により、128個の成分を抽出することにより行う。“128種類”“128個”というのは一例であり、例えば、MIDI規格の場合、ノートナンバーn=0〜127の範囲に対応するが、グランドピアノを再現するための規格音域は、ノートナンバーn=21〜108の範囲である。したがって、この場合、88種類の解析周波数を用いて88個の成分を抽出することになる。
ノートナンバーnに対応して解析周波数を設定した場合、周波数が高くなるにつれ、ノートナンバー間の周波数間隔が広くなるため、特に、nが60を超えると解析精度が低下してしまう。そこで、本実施形態では、特許文献3に開示したように、ノートナンバー間をM個の微分音(副周波数)に分割した128M種類の解析周波数f(n,m)=440・2(n-69+m/M)/12の要素信号を用いて解析を行い、128M個の成分を抽出する。後述するステップS11の符号コード作成処理においてピッチベンド符号の付加など特殊な符号化を行わない限り、各ノートナンバーにおけるM個の微分音の情報は不要であるため、M個の微分音の成分の最大値を当該ノートナンバーにおける成分として代表させ、結果的に128個の成分を抽出する。
スペクトル算出手段20による具体的な処理手順としては、各単位区間pごとに、まず、ノートナンバー分の強度値の配列E1(p,n)(0≦n≦127)と副周波数配列S(p,n)を設定し、初期値を全て0とする。続いて、0≦n≦127および0≦m≦M−1に対して以下の〔数式1〕に従った処理を実行し、E1(p,n,m)を最大にする(nmax,mmax)を求める。
〔数式1〕
A(p,n,m)=(1/T(n))・Σi=0,T(n)-1x(p,i)・ sin(2πf(n,m)(i+pW)/fs)
B(p,n,m)=(1/T(n))・Σi=0,T(n)-1x(p,i) ・cos(2πf(n,m)(i+pW)/fs)
E1(p,n,m)={A(p,n,m)}2+{B(p,n,m)}2
上記〔数式1〕においてT(n)は解析フレーム長であり、要素信号(要素関数)の1周期が単位区間長T以下の場合、単位区間長Tを超えない範囲で要素信号の周期の最大の整数倍になるようにT(n)=g×fs/f(n,m)で設定する。ただし、要素信号の1周期が単位区間長Tより大きい場合、T(n)=Tで与え、A(p,n,m)=B(p,n,m)=0に設定する。なお、gは1以上の整数値、fsはサンプリング周波数(例えば、44.1kHz)である。
上記〔数式1〕に従った処理を各単位区間に対して実行し、A(p,n,m)、B(p,n,m)、E1(p,n,m)を求めることも可能である。ここで、本実施形態における単位区間と解析範囲の関係を図5に示す。図5において、上端の波形は原音響信号、下端の波形は要素信号をそれぞれ模式的に示したものである。図5の例では、対象とする単位区間である対象単位区間と、その直前の単位区間である直前単位区間のみを示してあるが、それぞれの相関計算範囲は、矩形の横方向の長さになる。本実施形態では、相関計算範囲である単位区間長Tを1024サンプル、シフト幅Wを16サンプルとしているため、重複部分が非常に大きい。そこで、本実施形態では、重複部分については、直前単位区間における解析結果を利用することにより、解析処理の効率化を図っている。
本実施形態における単位区間の解析処理の様子を図6に示す。図6に示すように、対象単位区間における解析結果を得る際に、直前単位区間の重複部分を利用する。具体的には、対象単位区間と重複しない直前単位区間の先頭部分を削除し、直前単位区間と重複しない対象単位区間の最後尾部分のみ、相関演算を行って追加する。従って、単位区間内全体に渡って相関演算を行うのは、先頭の単位区間(p=0)に対してだけということになる。
p≧1の場合、すなわち、2番目以降の単位区間pについて処理する場合、直前の単位区間(p−1)についてのA(p−1,n,m)、B(p−1,n,m)が既に算出されている。本実施形態では、A(p−1,n,m)、B(p−1,n,m)を用いて、以下の〔数式2〕に従った処理を実行することにより、単位区間pについてのA(p,n,m) 、B(p,n,m)を算出する。
〔数式2〕
A(p,n,m)=A(p−1,n,m) −(1/W)・Σi=0,W-1x(p−1,i) ・sin(2πf(n,m)(i+(p−1)W)/fs)+(1/W)・Σi=T(n)-W,T(n)-1x(p,i)・ sin(2πf(n,m)(i+pW)/fs)
B(p,n,m)=B(p−1,n,m) −(1/W)・Σi=0,W-1x(p−1,i) ・cos(2πf(n,m)(i+(p−1)W)/fs)+(1/W)・Σi=T(n)-W,T(n)-1x(p,i)・ cos(2πf(n,m)(i+pW)/fs)
E1(p,n,m)={A(p,n,m)}2+{B(p,n,m)}2
続いて、ノートナンバーnごとに、0≦m≦M−1の範囲で、E(p,n,m)を最大にする(p,n,mmax)を求め、E1(p,n)=E1(p,n,mmax)、S(p,n)=mmaxとする処理を行う。そして、算出されたE1(p,n)、S(p,n)をメモリ(RAM2、記憶装置3等)に一時保存する。メモリに一時保存されたE1(p,n)、S(p,n)は、後述する単音成分連結処理において用いる。
次に、スペクトル算出手段20は、単位区間pにおいて算出されたスペクトル強度E1(p,n)と、直前区間(p−1)において算出されたスペクトル強度E1(p−1,n)との変化の評価を行う(ステップS4)。具体的には、まず、以下の〔数式3〕に従った処理を実行することにより、単位区間pの直前区間(p−1)との変化評価値dE(p−1,p)を算出する。
〔数式3〕
dE(p−1,p)=(100/N)・Σn=0,N-1{(E1(p,n)−E1(p−1,n))/(E1(p,n)+E1(p−1,n))}
上記〔数式3〕において、{}内の分子(E1(p,n)−E1(p−1,n))は差分値であるため、負値となる場合もある。これは、音が大きくなる部分は変化評価値に反映させるが、音が小さくなる部分は変化評価値に反映させないようにするためである。
そして、得られた変化評価値dE(p−1,p)が、所定のしきい値(例えば〔数式3〕のように“100”に正規化している場合“40”)未満である場合は、p←p+1としてS2に戻り、次の単位区間pの設定を行う。
一方、得られた変化評価値dE(p−1,p)が、所定のしきい値以上である場合は、スペクトル算出手段20は、その単位区間pを選出単位区間qとして選出し、選出単位区間qについて第2の周波数解析である一般化調和解析を実行し、各選出単位区間のスペクトルを算出する(ステップS5)。すなわち、ステップS5においては、2種類の周波数解析を行うスペクトル算出手段20が有する第2のスペクトル算出手段が、第2のスペクトル強度を算出する。qの値は最初に選出された選出単位区間を0とし、以降は選出されるごとに1ずつ加算した値を与える。
具体的には、まず、S3において設定されたE1(p,n)が最大になるE1(p,nmax)を求める。すなわち、0≦n≦127の全てのnのうち、E1(p,n)が最大になるnの値をnmaxとして求めるとともに、そのときのE1(p,n)をE1(p,nmax)として求める。これは、上記〔数式1〕の処理を全てのnに対して実行し、算出されたn個のE1(p,n)のうち最大のものを選択することにより行われる。さらに、求めたnmaxを用いて、mmax=S(p,nmax)と設定する。
そして、得られたnmax、mmaxを用いて以下の〔数式4〕に従った処理を実行することにより、A(p,nmax,mmax)、B(p,nmax,mmax)を算出する。〔数式4〕に従った処理を実行するに際し、まず、単位区間pはq番目に選出された選出単位区間qであるとした場合に、インデックス番号P(q)=pと設定し、選出単位区間qにおいてノートナンバー分の相関強度配列E2(q,n)を定義し、初期値を全て0未満の値(例えば−1)に設定しておく。
〔数式4〕
A(p,nmax,mmax)=(1/T(nmax))・Σi=0,T(nmax)-1x(p,i)・ sin(2πf(nmax,mmax)i/fs)
B(p,nmax,mmax)=(1/T(nmax))・Σi=0,T(nmax)-1x(p,i) ・cos(2πf(nmax,mmax)i/fs)
E2(q,nmax)={A(p,nmax,mmax)}2+{B(p,nmax,mmax)}2
そして、算出されたA(p,nmax,mmax)、B(p,nmax,mmax)を用いて、以下の〔数式5〕に従った処理を実行することにより、単位区間p内のサンプル(p,i)の値x(p,i)を0≦i≦T(nmax)−1に渡って更新する。
〔数式5〕
x(p,i)←x(p,i)−A(p,nmax,mmax) ・sin(2πf(nmax,mmax)i/fs)−B(p,nmax,mmax) ・cos(2πf(nmax,mmax)i/fs)
〔数式5〕の処理は、元の音響信号から含有信号を除去する処理である。含有成分を除去した後の音響信号に対して、さらに処理したnmaxの値以外のnを対象としてE2(q,n)が最大になる新たなE2(q,nmax)を求め、その新たなnmaxを用いて、〔数式4〕〔数式5〕に従った処理を実行する。この結果、さらに含有信号が音響信号から除去される。スペクトル算出手段20は、このような処理を128個全てのnに対して実行し、E2(q,n)を得る。
本実施形態では、処理負荷を軽減するため、Mの値については、ノートナンバーに基づいて可変に設定し、例えば解析する周波数間隔が100Hz程度になるようにしている。そして、ノートナンバー60以下は分割せずM=1にする。また、精度は若干落ちるが、スペクトル強度E1(p,n)を決定するための〔数式1〕の処理でS(p,n)を決定し、スペクトル強度E2(q,n)を決定するための〔数式4〕の処理は、m=S(p,n)に固定して行い、微分音解析を省略するようにしても良い。また、〔数式4〕の処理で、既に同一ノートナンバーに対して副周波数が異なる信号成分が複数回に渡って解析される可能性があるが、E2(q,n)に既に値がセットされている場合は、E1(p,n)の最大値の選定候補から除外するようにしても良い。
ここで、単位区間における解析フレーム(解析対象サンプル)の設定について説明する。なお、以下の説明は上述の選出単位区間においても同様に適用される。図7は、音響信号から抽出した単位区間における区間信号であるサンプル列と調和信号の対応関係を示す図である。このうち、図7(a)は、音響信号から抽出した単位区間における区間信号であるサンプル列である。各サンプルにおけるサンプル値(例えば1024個)を結ぶことにより、図7(a)に示すような波形状で示される。128個の調和信号のうち、図7(b)に示すような1周期が単位区間長T以下の高音部の解析調和信号と相関演算を行う際、および単位区間より選出された調和信号である含有信号を減算する際には、調和信号の1周期が単位区間長Tを超えない範囲まで周期を整数倍(図7(b)では5倍)した長さを解析サンプル数T(n)とし、単位区間の先頭からサンプルT(n)個を抽出して、解析フレームとする。調和信号の1周期が単位区間長Tより大きい場合、上述のように、無条件にA(p,n,m)=B(p,n,m)=0に設定する。
各選出単位区間qについて解析サンプル数を変化させながら周波数解析を行い、スペクトル(128個の周波数成分)が算出されたら、スペクトル算出手段20は、各選出単位区間qにおける解析結果に対して倍音成分の補正を行う(ステップS6)。具体的には、〔数式4〕〔数式5〕に従った処理を実行して得られた0≦n≦127の全てのE2(q,n)に対して、2,3,4,5,6,7,8,9,10分の1の周波数に対応する9個のノートナンバー・オフセットテーブルNo(k)(整数k=2,・・・,10)を定義する。No(k)の具体例は、No(k)={12,19,24,28,31,34,46,38,40}である。そして、以下の〔数式6〕に従った処理を実行することにより、各選出単位区間qにおけるE2(q,n)を0≦n≦127に渡って更新する。
〔数式6〕
E2(q,n)←E2(q,n)−Σk=2,10{E2(q,n)・E2(q,n−No(k))}1/2・γ
上記〔数式6〕に従った処理の結果、E2(q,n)<0となった場合には、E2(q,n)=0に設定する。なお、ステップS6における倍音成分の補正は、対象となる音響信号が音声でない場合には、省略してもよい。
各選出単位区間qについて倍音成分の補正が行われたら、符号化手段40が、個々の選出単位区間ごとに、得られたスペクトルに基づいて、N種類の各周波数に対応して、各周波数を特定可能な周波数情報と、各々に対応するスペクトル強度、および当該選出単位区間の開始と終了を特定可能な時間情報で構成される単音成分を作成する(ステップS7)。具体的には、算出したスペクトルに、各ノートナンバーnの時刻、音長の情報を追加し、[開始時刻,音長,主周波数n,副周波数S(P(q),n),強度E2(q,n)]で構成される単音成分を作成する。「開始時刻」としては選出単位区間の先頭の時刻を、デジタル音響信号全体において特定できる情報であれば良く、本実施形態では、単位区間の先頭サンプル(i=0)に付されたデジタル音響信号全体におけるサンプル番号(絶対サンプルアドレス:jに対応)を記録している。この絶対サンプルアドレスをサンプリング周波数(44100)で除算することにより、音響信号先頭からの時刻が得られる。音長は、本実施形態では選出単位区間ごとに可変で与えられることを特徴とし、直後に後続する一般化調和解析を行った選出単位区間の開始時刻までの差分(後続する選出単位区間の開始時刻−当該選出単位区間の開始時刻)で与えられる。すなわち、音長は{P(q)−P(q−1)}・Wで定義される。直後に後続する選出単位区間が存在しない場合(最終の選出単位区間である場合)、単位区間のシフト幅Wを音長として与える。
各選出単位区間qについて単音成分が作成されたら、符号化手段40は、選出単位区間qに対する連結条件パラメータC(q,n)を算出する(ステップS8)。連結条件パラメータC(q,n)は、直前の選出単位区間q−1との連結可否の判定を行うためのものであり、C(q,n)={0,1,2,3}のいずれかの値をとる。C(q,n)=0は、“連結不可”であることを示し、C(q,n)=1は、“同一ノートナンバーとの単音成分と連結可能”であることを示し、C(q,n)=2は、“選出単位区間q−1のノートナンバーn−1の単音成分と連結可能”であることを示し、C(q,n)=3は、“選出単位区間q−1のノートナンバーn+1の単音成分と連結可能”であることを示す。
選出単位区間q−1において周波数解析されたノートナンバーnの単音成分を[時刻P(q−1)・W,主周波数n,副周波数S(P(q−1), n),強度E2(q−1, n) ,連結条件パラメータC(q−1,n)]とし、選出単位区間qにおいて周波数解析されたノートナンバーnの単音成分を[時刻P(q)・W,主周波数n,副周波数S(P(q), n),強度E2(q, n),連結条件パラメータC(q,n)]とする。時間的に隣接するこれら2つの単音成分に対して、ノートナンバーnに対して上下±1の変移を考慮し、副周波数を考慮した、隣接する選出単位区間同士の周波数の差が所定値Ndif未満で、双方の強度が所定のしきい値Lminより大きく、かつ双方の強度の和に対する強度の差の比率が所定値Ldif未満である場合、両者の連続性が認められるため連結可能と判定する。具体的には、以下の〔数式7〕に従った条件を満たす場合に、連結条件パラメータC(q,n)=1に設定する。
〔数式7〕
|S(P(q),n)−S(P(q−1),n)|<Ndif、かつ、
E2(q−1,n)>Lmin、かつ、E2(q,n)>Lmin、かつ、
{E2(q,n)−E2(q−1,n)}/{E2(q,n)+E2(q−1,n)}<Ldif
そして、〔数式7〕に従った条件の判定後、さらに以下の〔数式8〕または〔数式9〕に従った条件を満たす場合に、連結条件パラメータC(q,n)=2に設定する。
〔数式8〕
|S(P(q),n)−S(P(q−1),n−1)−M|<Ndif、かつ、
E2(q−1,n−1)>Lmin、かつ、E2(q,n)>Lmin、かつ、
{E2(q,n)−E2(q−1,n−1)}/{E2(q,n)+E2(q−1,n−1)}<Ldif、かつ、
C(q,n)=0
〔数式9〕
|E2(q,n)−E2(q−1,n−1)|/{E2(q,n)+E2(q−1,n−1)}<|E2(q,n)−E2(q−1,n)|/{E2(q,n)+E2(q−1,n)}、かつ、
C(q,n)=1
そして、〔数式8〕および〔数式9〕に従った条件の判定後、さらに以下の〔数式10〕〔数式11〕〔数式12〕のいずれか一つ以上に従った条件を満たす場合に、連結条件パラメータC(q,n)=3に設定する。
〔数式10〕
|S(P(q),n)−S(P(q−1),n+1)+M|<Ndif、かつ、
E2(q−1,n+1)>Lmin、かつ、E2(q,n)>Lmin、かつ、
{E2(q,n)−E2(q−1,n+1)}/{E2(q,n)+E2(q−1,n+1)}<Ldif、かつ、
C(q,n)=0
〔数式11〕
|E2(q,n)−E2(q−1,n+1)|/{E2(q,n)+E2(q−1,n+1)}<|E2(q,n)−E2(q−1,n)|/{E2(q,n)+E2(q−1,n)}、かつ、
C(q,n)=1
〔数式12〕
|E2(q,n)−E2(q−1,n+1)|/{E2(q,n)+E2(q−1,n+1)}<|E2(q,n)−E2(q−1,n−1)|/{E2(q,n)+E2(q−1,n−1)}、かつ、
C(q,n)=2
連結条件としての具体的なしきい値は、本実施形態では、Ldif=10[単位:128段階ベロシティ換算]、Lmin=1[単位:128段階ベロシティ換算]、Ndif=4/25[単位:ノートナンバー換算]としている。連結処理は、符号コードへの変換前に行うものであるため、各しきい値は、ノートナンバー、ベロシティに換算したものである。
上記〔数式7〕から〔数式12〕のうち、必須条件となるのは、〔数式7〕〔数式8〕〔数式10〕のそれぞれ第2式〜第4式である。すなわち、単音成分がそれぞれLminより大きく、差分がLdifより小さい場合である。この場合、副周波数を用いた周波数解析を行う必要がないため、少ない処理負荷で連結処理を行うことができる。
さらに上記〔数式7〕から〔数式12〕のうち、追加条件として、〔数式7〕〔数式8〕〔数式10〕のそれぞれ第1式がある。〔数式7〕〔数式8〕〔数式10〕のそれぞれ第1式のように、後続の選出単位区間とその直前の単位区間の副周波数との差がしきい値未満であることを追加することにより、より精度の高い解析結果に基づいて音成分を連結することが可能となる。
選出単位区間qに対する連結条件パラメータC(q,n)が算出されたら、スペクトル補正手段30が、単音成分の補正処理を行う(ステップS9)。単音成分の補正処理は、選出単位区間q−1における選出単位区間qとの重複成分を削減することにより行う。ステップS9における単音成分の補正処理には、2通りの手法がある。まず、第1の手法について図8のフローチャートを用いて説明する。まず、スペクトル補正手段30は、選出単位区間q−1の音長を確認する(ステップS21)。選出単位区間q−1の音長は、後続の選出単位区間qと重ならない部分であるので、{P(q)−P(q−1)}・Wとして算出される。この音長{P(q)−P(q−1)}・Wが選出単位区間q−1の単位区間長であるサンプル数T以上であるか否かを判定する。{P(q)−P(q−1)}・Wが選出単位区間qの単位区間長であるサンプル数T以上である場合は、選出単位区間q−1と選出単位区間qが1サンプルも重複していないことを意味するので、選出単位区間q−1に対して重複成分の削減は行わない。
{P(q)−P(q−1)}・Wが選出単位区間q−1の区間長であるサンプル数Tより小さい場合は、選出単位区間q−1と選出単位区間qが少なくとも1サンプル以上重複していることを意味するので、重複成分の削減を行うことになる。この場合、まず、スペクトル補正手段30は、隣接単位区間q´を設定する(ステップS22)。隣接単位区間q´とは、選出単位区間qの直前に設定される単位区間であり、選出単位区間q−1と1サンプル以上重複することになる。すなわち、隣接単位区間q´の先頭のサンプルは、選出単位区間qよりTサンプル前であり、隣接単位区間q´の最後のサンプルは、選出単位区間qの先頭のサンプルの直前となる。
ここで、選出単位区間q−1、選出単位区間q、隣接単位区間q´の関係を図9に示す。図9において、横方向が時間軸であり、図面右方向に進むにつれて時間が進むように設定されている。P(q−1)・Wは、選出単位区間q−1の開始時刻、P(q)・Wは、選出単位区間qの開始時刻、P(q)・W−Tは、隣接単位区間q´の開始時刻である。解析サンプル数T(n)は、周波数nの場合の解析サンプル数である。選出単位区間q、隣接単位区間q´において網掛けを施した箇所は、選出単位区間q、隣接単位区間q´の周波数nにおける解析対象サンプルの重複部分である。
続いて、スペクトル補正手段30は、設定された隣接単位区間q´に対して、一般化調和解析を実行する(ステップS23)。具体的には、隣接単位区間q´に対してステップS5において実行されたのと同様な手法により一般化調和解析を実行し、解析結果としてスペクトル強度E2(q´,n)を得る。
次に、スペクトル補正手段30は、各選出単位区間qにおけるスペクトル強度に対して倍音成分の除去を行う(ステップS24)。具体的には、隣接単位区間q´におけるスペクトル強度E2(q´,n)に対して、ステップS6において実行されたのと同様な手法により倍音成分の補正を実行する。なお、ステップS24における倍音成分の補正は、対象となる音響信号が音声でない場合には、省略してもよい。
次に、スペクトル補正手段30は、隣接単位区間q´における解析結果であるスペクトル強度E2(q´,n)と選出単位区間q−1における解析結果であるスペクトル強度E2(q−1,n)の相乗平均値を算出する(ステップS25)。具体的には、以下の〔数式13〕に従った処理を実行することにより、相乗平均値E2´(q−1,n)を算出する。
〔数式13〕
E2´(q−1,n)=[E2(q−1,n)・E2(q´,n) ]1/2
次に、スペクトル補正手段30は、算出された相乗平均値を、単位区間の解析サンプル数を、選出単位区間q−1の音長に相当するサンプル数で除した値を用いて補正する(ステップS26)。具体的には、以下の〔数式14〕に従った処理を実行することにより、補正スペクトル強度E2´´(q−1,n)を算出する。
〔数式14〕
E2´´(q−1,n)=E2´(q−1,n)・[T(n)/{(P(q)−P(q−1))・W}]1/2
上記〔数式14〕では、[]内において、単位区間の解析サンプル数T(n)を、選出単位区間q−1の音長に相当するサンプル数(P(q)−P(q−1))・Wで除している。すなわち、[]内は、単位区間の解析サンプル数T(n)の、選出単位区間q−1の音長に相当するサンプル数(P(q)−P(q−1))・Wに対する比率となっている。音長に相当するサンプル数(P(q)−P(q−1))・Wとは、選出単位区間q−1と後続の選出単位区間qとの時間差に対応するサンプル数である。上記〔数式14〕においては、この比率の1/2乗を相乗平均値E2´(q−1,n)に乗じている。上記比率を1/2乗するのは、相乗平均値の乗数のオーダーと合わせるためである。これにより、選出単位区間q−1の正味の周波数成分として、選出単位区間qとの重複成分を削減した補正スペクトル強度E2´´(q−1,n)が得られる。すなわち、対象とする選出単位区間q−1における、直後の選出単位区間qと重複しない部分を強調した周波数成分を大きく反映させているため、連続する選出単位区間q−1と選出単位区間qにおいて重複する周波数成分を、相対的に減少させることができ、時間分解能を向上させた補正スペクトル強度E2´´(q−1,n)が得られる。
次に、スペクトル補正手段30は、正味の周波数成分が算出された選出単位区間q−1について、連結条件パラメータC(q,n)を再算出する(ステップS27)。具体的には、上記ステップS8における連結条件パラメータC(q,n)の算出処理と同様の処理を再度実行し、ステップS8において算出済みの連結条件パラメータC(q,n)と置き換える。
次に、ステップS9における重複成分の補正の第2の手法について図10のフローチャートを用いて説明する。まず、スペクトル補正手段30は、選出単位区間q−1の音長を確認する(ステップS31)。具体的には、第1の手法のステップS21と同様な処理を行うことにより選出単位区間q−1の音長を確認する。そして、第1の手法と同様、選出単位区間q−1の音長{P(q)−P(q−1)}・Wが選出単位区間qの区間長であるサンプル数T以上である場合は、選出単位区間q−1と選出単位区間qが1サンプルも重複していないことを意味するので、選出単位区間q−1に対して重複成分の補正は行わない。
{P(q)−P(q−1)}・Wが選出単位区間qの区間長であるサンプル数Tより小さい場合は、選出単位区間q−1と選出単位区間qが少なくとも1サンプル以上重複していることを意味するので、重複成分の補正を行うことになる。
ここで、選出単位区間q−1、選出単位区間qの関係を図11に示す。図11において、横方向が時間軸であり、図面右方向に進むにつれて時間が進むように設定されている。図9と同様、P(q−1)・Wは選出単位区間q−1の開始時刻、P(q)・Wは選出単位区間qの開始時刻である。解析サンプル数T(n)は、周波数nの場合の解析サンプル数である。選出単位区間q−1と選出単位区間qの重複部分の長さである重複長は、T(n)−{(P(q)−P(q−1)}・Wである。
ステップS31において、{P(q)−P(q−1)}・Wが選出単位区間qの単位区間長であるサンプル数Tより小さい場合、スペクトル補正手段30は、まず、選出単位区間q−1における解析結果であるスペクトル強度E2(q−1,n)と選出単位区間qにおける解析結果であるスペクトル強度E2(q,n)の相乗平均値を算出する(ステップS32)。具体的には、以下の〔数式15〕に従った処理を実行することにより、相乗平均値E2´(q−1,n)を算出する。
〔数式15〕
E2´(q−1,n)=[E2(q−1,n)4・E2(q,n) 41/2
上記〔数式15〕では、[]内において、強度値E2(q−1,n)、強度値E2(q,n)をそれぞれ4乗したもの同士を乗じている。
次に、スペクトル補正手段30は、ステップS32において算出された相乗平均値に対して、重複部分に応じた補正を行う(ステップS33)。具体的には、以下の〔数式16〕に従った処理を実行することにより、補正スペクトル強度E2´´(q−1,n)を算出する。
〔数式16〕
E2´´(q−1,n)=[E2(q−1,n)・T(n)−E2´(q−1,n)・{T(n)−(P(q)−P(q−1))・W}]/{(P(q)−P(q−1))・W}1/4
上記〔数式16〕では、[]内において、単位区間の解析サンプル数T(n)から、選出単位区間q−1の音長に相当するサンプル数(P(q)−P(q−1))・Wを減算したものを、相乗平均値E2´(q−1,n)に乗じた後、元のスペクトル強度E2(q−1,n)と単位区間の解析サンプル数T(n)を乗じたものから減算している。音長に相当するサンプル数(P(q)−P(q−1))・Wとは、上述のように、選出単位区間q−1と後続の選出単位区間qとの時間差に対応するサンプル数である。これにより、選出単位区間q−1の正味の周波数成分として補正スペクトル強度E2´´(q−1,n)が得られる。すなわち、対象とする選出単位区間q−1と直後の選出単位区間qの重複部分の成分を直接除去し、選出単位区間q−1における重複する周波数成分を減少させることができ、時間分解能を向上させた補正スペクトル強度E2´´(q−1,n)が得られる。
次に、スペクトル補正手段30は、正味の周波数成分が算出された選出単位区間q−1について、連結条件パラメータC(q,n)を再算出する(ステップS34)。具体的には、第1の手法におけるステップS27と同様、上記ステップS8における連結条件パラメータC(q,n)の算出処理と同様の処理を再度実行し、ステップS8において算出済みの連結条件パラメータC(q,n)と置き換える。
第1、第2の手法のいずれかにより重複成分の削減を行ったら、次に、連続する選出単位区間において単音成分を連結(統合)する処理を行う(ステップS10)。具体的には、前方の選出単位区間における連結条件パラメータC(q,n)の値に従って2つの単音成分を連結する。
具体的には、まず、選出単位区間qにおいて周波数解析されたノートナンバーnの単音成分を[開始時刻P(q)・W,音長P(q+1)・W−P(q)・W,主周波数n,副周波数S(P(q), n),強度E2(q, n) ,連結条件パラメータC(q,n)]とし、選出単位区間qoの単音成分を起点にr番目(qo<r<q)の単音成分まで連結された音成分を[開始時刻P(qo)・W,音長P(r+1)・W−P(qo)・W,主周波数n,副周波数S(P(qo), n),強度E2(qo, n),連結条件パラメータC(qo,n)]とする。そして、選出単位区間qの単音成分と、選出単位区間qoの単音成分を起点にr番目の単音成分まで連結された音成分が、以下の〔数式17〕〔数式18〕〔数式19〕のいずれかに示した条件を満たす場合に、単音成分の連結を行う。
〔数式17〕
C(q,n)=1、かつ、
|P(q)・W−P(r+1)・W|<Tmax、かつ、
|S(P(q),n)−S(P(qo),n)|<Nadif
〔数式18〕
C(q,n)=2、かつ、
|P(q)・W−P(r+1)・W|<Tmax、かつ、
|S(P(q),n)−S(P(qo),n−1)−M|<Nadif
〔数式19〕
C(q,n)=3、かつ、
|P(q)・W−P(r+1)・W|<Tmax、かつ、
|S(P(q),n)−S(P(qo),n+1)+M|<Nadif
連結条件としての具体的なしきい値は、本実施形態では、Tmax=T/2=512[単位:サンプル数換算]、Nadif=8/25[単位:ノートナンバー換算]としている。
上記〔数式17〕〔数式18〕〔数式19〕は、上記〔数式7〕から〔数式12〕に、追加的に加えられる条件となる。条件を追加する程精度は高くなるが、処理負荷も高くなる。したがって、〔数式17〕〔数式18〕〔数式19〕の条件を判定するか否かについては、事前に設定しておくことが可能である。
上記〔数式17〕〔数式18〕〔数式19〕はそれぞれ3条件を有するが、2条件目は、全て共通であり、選出単位区間qの発音開始時刻P(q)・Wと、選出単位区間qoの単音成分を起点にr番目の単音成分まで連結された音成分の発音終了時刻P(r+1)・Wの差の絶対値が所定時間Tmax未満であることを条件としている。
上記〔数式17〕に示した条件を満たした場合は、選出単位区間qの主周波数nに対応する単音成分は、選出単位区間qoの単音成分を起点にr番目の単音成分まで連結された主周波数nの音成分と連結される。上記〔数式18〕に示した条件を満たした場合は、選出単位区間qの主周波数nに対応する単音成分は、選出単位区間qoの単音成分を起点にr番目の単音成分まで連結された主周波数n−1の音成分と連結される。上記〔数式19〕に示した条件を満たした場合は、選出単位区間qの主周波数nに対応する単音成分は、選出単位区間qoの単音成分を起点にr番目の単音成分まで連結された主周波数n+1の音成分と連結される。
連結後の音成分の主周波数,副周波数,強度は、強度が大きい方の各値を採用する。すなわち、強度E2(q, n)>E2(qo, n)の場合、選出単位区間qの各値を採用し、強度E2(q, n)≦E2(qo, n)の場合、選出単位区間qoの単音成分を起点にr番目の単音成分まで連結された音成分の中で最大の強度を与える各値を採用する。時間長は双方の和、すなわち、選出単位区間qの時間長(P(q+1)・W−P(q)・W)+選出単位区間qoの単音成分を起点にr番目の単音成分まで連結された主周波数n+1の音成分の時間長(P(r+1)・W−P(qo)・W)で与えられる。ステップS10における連結処理の結果、連結処理されなかった単音成分はそのまま残ることになる。
同一または上下1ノートナンバーまでの連結処理は、上記〔数式17〕〔数式18〕〔数式19〕のいずれかも満たさず、不連続と判定されるまで後続する複数の単音成分に対して繰り返し行われる。そして、最終的に連結完了した連結音成分は、単音成分と同様、[開始時刻P(qo)・W,音長P(r+1)W−P(qo)・W,主周波数n,副周波数S(P(qo),n),強度E2(qo,n)]で構成され、このうち音長が単音成分より大きい値を有することになる。連結処理により、単音成分と連結音成分が混在することになるが、以降これらをまとめて音成分と呼ぶことにする。なお、ステップS10における連結処理については、実行した方が、長音の音符で表現することになり、符号量が少なくなりMIDI音源で円滑で自然な演奏が行われるようになるため、一般に望ましいが、ピッチベンド符号の付加などが行われないと、逆にビブラートなど音の微妙な時間的変化が消失するためMIDI音源で不自然に聞こえる場合もあるため、必ずしも必須ではない。ステップS10における連結処理を行わない場合、全てが短い音符として表現されることになる。
ステップS10の連結処理を終えたら、最終的に得られた[開始時刻P(qo)W,音長P(r+1)・W−P(qo)・W,主周波数n,副周波数S(P(q),n),強度E2(qo,n)]の音成分を、符号コードに変換する(ステップS11)。符号コードの形式としては、周波数情報と、各周波数に対応するスペクトル強度、および単位区間の開始と終了を特定可能な時間情報を有するものであれば、どのような形式のものであっても良いが、本実施形態では、MIDI形式に変換する。MIDIでは、発音開始と発音終了を別のイベントとして発生するため、本実施形態では、1つの音成分を2つのMIDIノートイベントに変換する。具体的には、「開始時刻」で、ノートナンバーnのノートオンイベントを発行し、ベロシティ値は強度E2(qo,n)の最大値をEmaxとして、128・{E2(qo,n)/Emax}1/4で与える。時刻については、Standard MIDI Fileでは、直前イベントとの相対時刻(デルタタイム)で与える必要があり、その時刻単位は任意の整数値で定義でき、例えば、1/1536[秒]の単位に変換して与える。そして、絶対時刻が「開始時刻」+「音長」で特定される終了時刻で(デルタタイムでは「音長」で与えられる終了時刻で)、ノートナンバーnのノートオフイベントを発行する。この際、音長には、0以上1以下の実数を乗じる。これは、使用するMIDI音源の音色にも依存するが、MIDI音源の余韻を考慮して早めにノートオフ指示をするためである。音長をそのまま用いてもMIDI音源の処理上問題はないが、発音の際、後続音と部分的に重なる場合がある。
ステップS11の符号コード変換処理を終えたら、次に、符号コードに対して調整処理を行う(ステップS12)。例えば、符号コードとしてMIDI符号に変換する際、MIDI音源で処理可能な同時発音数についても考慮するため、同時発音数の調整を行う必要がある。MIDI音源で処理可能な同時発音数が32である場合、時間軸方向に発音期間中(ノートオン状態)のノートイベントの個数を連続的にカウントし、同時に32個を超えるノートイベントが存在する箇所が見つかった場合は、ノートオン時のベロシティ値に対してノートオン時刻からの経過時間で補正した補正ベロシティ値を算出し、補正ベロシティ値で優先度を評価し、指定和音数以下になるよう優先度の低いノートイベント対を強制的にノートオフさせる補正処理を行う。この際、ベロシティ値またはデュレーション値のいずれかが所定の下限値より低い場合、優先度に関係なく削除する処理も行う。
なお、h番目のノートイベントEv(h)のノートオン時刻をEv(h).time、ベロシティ値をEv(h).velocityとすると、時刻tにおけるノートイベントEv(h)の補正ベロシティ値Vc(h,t)は、以下の〔数式20〕に従った処理を実行することにより算出される。
〔数式20〕
Vc(h,t)=Ev(h).velocity・exp{(t−Ev(h).time)・τ}
上記〔数式20〕において、τは補正係数であり、例えば−1/1536が与えられる。
さらに、符号コードで処理可能なビットレートについても考慮するため、ビットレートの調整を行う。MIDI符号に変換する場合、時間軸方向に、例えば1秒間隔にノートイベント対の個数をカウントし、各々の符号コードのデータ量を平均5バイト(40ビット)とし、MIDI音源で処理可能な最大ビットレートを9000[bps(ビット/秒)]とすると、1秒間あたりイベント数が9000/40=225個を超えている区間が見つかった場合は、その区間に存在するノートオンまたはノートオフイベントと各々対になるノートオフまたはノートオンイベントを近傍区間内で探索し、各ノートイベント対のベロシティ値とデュレーション値(ノートオフ時刻−ノートオン時刻)の積(エネルギー値)で優先度を評価し、指定イベント個数(この場合“225”)以下になるように優先度の低い(エネルギー値の小さい)ノートイベント対を局所的に削除する処理を行う。この際、ベロシティ値またはデュレーション値のいずれかが所定の下限値より低い場合、優先度に関係なく削除する処理も行う。
<3.処理例>
本発明に係る音響信号の符号化装置により得られたMIDI形式の符号データについて、図12〜図17を用いて説明する。図12は、男声のアナウンス音声をサンプリング周波数44.1kHz、量子化ビット数16ビットでサンプリングしたデジタルの音響信号の波形を示す図である。図12において、横軸が時間軸であり、縦軸が振幅値である。図12に示した音響信号を、特許文献4に示した従来方式を基本としてMIDI形式で符号化した符号データの例、本発明に係る音響信号の符号化装置によりMIDI形式で符号化した符号データの例を、それぞれ図13、図14に示す。図14は前述の重複成分の補正の第2の手法を適用した結果であるが、第1の手法を適用した結果も図14と見かけ上の差異は殆ど無い。図13においては、サンプルの時間軸方向への拡大を4倍としている。図14においては、図13との比較のため、単位区間のサンプル数を上記実施形態のように、単位区間T=1024サンプルとして、基本となる4096サンプルにした場合に比べて4倍拡大相当としている。図13、図14においては、いずれも横軸が時間軸であり、配置されている矩形の位置は縦軸がノートナンバー(周波数)、矩形の横方向の幅が音長、矩形の縦方向の幅がベロシティ(強度値)である。
図13と図14を比較すると、図14に示した本発明では、図13に示した従来方式に比べて、矩形の縦方向の幅の変化が大きい。これは、音の強弱のコントラストが大きいことを示している。また、図14に示した本発明では、図13に示した従来方式に比べて、矩形の横方向の幅が狭い。これは、1つの音の発音時間が短いことを示している。したがって、本発明では、従来方式に比べて、音の強弱のコントラストが大きく、発音時間が短いため、音がより明瞭に再現されることになる。一方、従来方式では、1つの音の発音時間が長いため、若干エコーがかかったような状態になる。
図15は、女声のアナウンス音声をサンプリング周波数44.1kHz、量子化ビット数16ビットでサンプリングしたデジタルの音響信号の波形を示す図である。図15においては、図12と同様、横軸が時間軸であり、縦軸が振幅値である。図15に示した音響信号を、特許文献4に示した従来方式を基本としてMIDI形式で符号化した符号データの例、本発明に係る音響信号の符号化装置によりMIDI形式で符号化した符号データの例を、それぞれ図16、図17に示す。図17は前述の重複成分の補正の第2の手法を適用した結果であるが、第1の手法を適用した結果も図17と見かけ上の差異は殆ど無い。図16においても、図13と同様、サンプルの時間軸方向への拡大を4倍としている。図17においては、図16との比較のため、単位区間のサンプル数を上記実施形態のように、単位区間T=1024サンプルとして、基本となる4096サンプルにした場合に比べて4倍拡大相当としている。図16、図17においては、図13、図14と同様、いずれも横軸が時間軸であり、配置されている矩形の位置は縦軸がノートナンバー(周波数)、矩形の横方向の幅が音長、矩形の縦方向の幅がベロシティ(強度値)である。
図16と図17を比較すると、図17に示した本発明では、図16に示した従来方式に比べて、矩形の縦方向の幅の変化が大きい。これは、音の強弱のコントラストが大きいことを示している。また、図17に示した本発明では、図16に示した従来方式に比べて、矩形の横方向の幅が狭い。これは、1つの音の発音時間が短いことを示している。したがって、本発明では、従来方式に比べて、音の強弱のコントラストが大きく、発音時間が短いため、音がより明瞭に再現されることになる。一方、従来方式では、1つの音の発音時間が長いため、若干エコーがかかったような状態になる。
以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、ノートナンバー間をM個の微分音(副周波数)を用いて解析を行うようにしたが、微分音を用いず、ノートナンバーに対応したN種類の周波数のみで解析するようにしても良い。この場合、解析精度は若干落ちるが、解析対象の周波数の数が減るため、処理負荷は軽減される。微分音を用いない場合、ステップS10の単音成分の連結処理の判断において、〔数式8〕、〔数式10〕では、いずれも1行目の式は判断しないことになる。
また、上記実施形態では、スペクトルの算出(周波数解析)を第1のスペクトル算出と第2のスペクトル算出に分け、第1のスペクトル算出の結果、所定の条件を満たした選出単位区間に対して第2のスペクトル算出を実行するようにしたが、各単位区間を全て選出単位区間として、特許文献1〜3に開示されているような公知の周波数解析を実行してスペクトル算出を行うようにしても良い。
1・・・CPU
2・・・RAM
3・・・記憶装置
4・・・キー入力I/F
5・・・データ入出力I/F
6・・・表示部
10・・・区間設定手段
20・・・スペクトル算出手段
30・・・スペクトル補正手段
40・・・符号化手段
50・・・記憶手段
51・・・音響信号記憶部
52・・・符号コード記憶部

Claims (14)

  1. 所定のサンプリング周波数でデジタル化された時系列のサンプル列として与えられる音響信号を符号化するための符号化装置であって、
    前記サンプル列に対して、所定数T個のサンプルで構成される単位区間を、隣接する単位区間と時間軸方向に前記T個より少ない所定数のサンプルを重複させながら設定する区間設定手段と、
    前記単位区間に対して、解析対象とする少なくともN種類の各周波数について周波数解析を行い、所定の選出条件を満たす単位区間である選出単位区間に対するスペクトル強度を算出するスペクトル算出手段と、
    前記N種類の周波数ごとに、対象とする選出単位区間に対して算出されたスペクトル強度と、当該選出単位区間と一部が重複する所定区間に対して算出されたスペクトル強度との相乗平均値を算出し、前記対象とする選出単位区間に対して算出されたスペクトル強度に対して、前記相乗平均値に基づいて補正を行い、重複する選出単位区間の影響を減少させた補正スペクトル強度を算出するスペクトル補正手段と、
    前記選出単位区間の補正スペクトル強度に基づいて強度値を定義した、所定の形式の符号コードを生成する符号化手段と、
    を有することを特徴とする音響信号の符号化装置。
  2. 前記スペクトル補正手段は、前記対象とする選出単位区間の直後の選出単位区間と重複させずに連続するように、前記直後の選出単位区間よりTサンプルだけ前方にずらしたT個のサンプルで構成される隣接単位区間を前記一部が重複する所定区間として前記相乗平均値を算出し、単位区間の解析サンプル数を、前記対象とする選出単位区間と後続の選出単位区間との時間差に対応するサンプル数で除した値を、前記相乗平均値に乗じることにより、前記対象とする選出単位区間に対して算出されたスペクトル強度を補正するようにしていることを特徴とする請求項1に記載の音響信号の符号化装置。
  3. 前記スペクトル補正手段は、前記一部が重複する所定区間として前記対象とする選出単位区間の直後の選出単位区間を用い、単位区間の解析サンプル数から、対象とする選出単位区間と後続の選出単位区間との時間差に対応するサンプル数を減算したものを、前記相乗平均値に乗じた後、元のスペクトル強度と単位区間の解析サンプル数を乗じたものから減算する演算を行い、当該演算の結果を、選出単位区間と後続の選出単位区間との時間差に対応するサンプル数で除した値に基づいて前記対象とする選出単位区間に対して算出されたスペクトル強度を補正するようにしていることを特徴とする請求項1に記載の音響信号の符号化装置。
  4. 所定のサンプリング周波数でデジタル化された時系列のサンプル列として与えられる音響信号を符号化するための符号化装置であって、
    前記サンプル列に対して、所定数T個のサンプルで構成される単位区間を、隣接する単位区間と時間軸方向に前記T個より少ない所定数のサンプルを重複させながら設定する区間設定手段と、
    前記単位区間に対して、解析対象とする少なくともN種類の各周波数について周波数解析を行い、所定の選出条件を満たす単位区間である選出単位区間に対するスペクトル強度を算出するスペクトル算出手段と、
    前記N種類の周波数ごとに、対象とする選出単位区間に対して算出されたスペクトル強度と、前記対象とする選出単位区間の直後の選出単位区間と重複させずに連続するように前記直後の選出単位区間よりTサンプルだけ前方にずらしたT個のサンプルで構成される隣接単位区間に対して算出されたスペクトル強度との相乗平均値を算出し、単位区間の解析サンプル数を、前記対象とする選出単位区間と後続の選出単位区間との時間差に対応するサンプル数で除した値を、前記相乗平均値に乗じることにより、前記対象とする選出単位区間に対して算出されたスペクトル強度を補正し、重複する選出単位区間の影響を減少させた補正スペクトル強度を算出するスペクトル補正手段と、
    前記選出単位区間の補正スペクトル強度に基づいて強度値を定義した、所定の形式の符号コードを生成する符号化手段と、
    を有することを特徴とする音響信号の符号化装置。
  5. 所定のサンプリング周波数でデジタル化された時系列のサンプル列として与えられる音響信号を符号化するための符号化装置であって、
    前記サンプル列に対して、所定数T個のサンプルで構成される単位区間を、隣接する単位区間と時間軸方向に前記T個より少ない所定数のサンプルを重複させながら設定する区間設定手段と、
    前記単位区間に対して、解析対象とする少なくともN種類の各周波数について周波数解析を行い、所定の選出条件を満たす単位区間である選出単位区間に対するスペクトル強度を算出するスペクトル算出手段と、
    前記N種類の周波数ごとに、対象とする選出単位区間に対して算出されたスペクトル強度と、前記対象とする選出単位区間の直後の選出単位区間に対して算出されたスペクトル強度との相乗平均値を算出し、単位区間の解析サンプル数から、対象とする選出単位区間と後続の選出単位区間との時間差に対応するサンプル数を減算したものを、前記相乗平均値に乗じた後、元のスペクトル強度と単位区間の解析サンプル数を乗じたものから減算する演算を行い、当該演算の結果を、選出単位区間と後続の選出単位区間との時間差に対応するサンプル数で除した値に基づいて前記対象とする選出単位区間に対して算出されたスペクトル強度を補正し、重複する選出単位区間の影響を減少させた補正スペクトル強度を算出するスペクトル補正手段と、
    前記選出単位区間の補正スペクトル強度に基づいて強度値を定義した、所定の形式の符号コードを生成する符号化手段と、
    を有することを特徴とする音響信号の符号化装置。
  6. 前記スペクトル算出手段は、
    個々の単位区間ごとに、解析対象とする少なくともN種類の各周波数f(n)について周波数解析を行うことにより、p番目の単位区間pに対して、前記N種類の周波数f(n)に対応した第1のスペクトル強度E1(p,n)を算出する第1のスペクトル算出手段と、
    前記単位区間pに対して直前に位置する単位区間p−1における第1のスペクトル強度E1(p−1,n)との対応する周波数ごとの変化に基づく評価値が、所定のしきい値より大きいことを前記選出条件とし、当該単位区間pをq(q≦p)番目の選出単位区間qとして選出し、少なくとも前記N種類の各周波数f(n)について、前記第1のスペクトル算出手段における周波数解析に比較して高精度な周波数解析を行うことにより、前記N種類の周波数f(n)に対応した第2のスペクトル強度E2(q,n)を、前記選出単位区間に対するスペクトル強度として算出する第2のスペクトル算出手段と、
    を有することを特徴とする請求項1から請求項5のいずれか一項に記載の音響信号の符号化装置。
  7. 前記符号化手段は、隣接する2つの選出単位区間q−1と選出単位区間qに対して、後続の選出単位区間qにおける対象周波数f(n)に対応する前記第2のスペクトル強度E2(q,n)から、直前の選出単位区間q−1における前記N種類の周波数のうち前記対象周波数と同周波数f(n)、1つ低い周波数f(n−1)、1つ高い周波数f(n+1)にそれぞれ対応する前記第2のスペクトル強度E2(q−1,n)、E2(q−1,n−1)、E2(q−1,n+1)のいずれかを減じた減算値を、前記後続の選出単位区間qの第2のスペクトル強度E2(q,n)と前記直前の選出単位区間q−1の第2のスペクトル強度E2(q−1,n)、E2(q−1,n−1)、E2(q−1,n+1)のいずれかとの和である加算値で除した値が所定のしきい値未満で、かつ前記直前の選出単位区間q−1の第2のスペクトル強度E2(q−1,n)、E2(q−1,n−1)、E2(q−1,n+1)のいずれか、および前記後続の選出単位区間qの第2のスペクトル強度E2(q,n)が所定のしきい値より大きい場合、前記選出単位区間qを選出単位区間q−1に連結することを特徴とする請求項6に記載の音響信号の符号化装置。
  8. 前記第1のスペクトル算出手段および第2のスペクトル算出手段はN種類の各周波数f(n)を主周波数とし、隣接する主周波数を超えない範囲でM種類の副周波数f(n,m)を設定し、前記第1のスペクトル強度E1(p,n)および第2のスペクトル強度E2(q,n)として、前記M種類の副周波数の中で最も大きい強度を示す副周波数に対応する強度値を算出し、
    前記符号化手段は、前記第2のスペクトル強度E2(q,n)を決定する副周波数と、
    前記第2のスペクトル強度E2(q−1,n)、E2(q−1,n−1)、E2(q−1,n+1)を決定する副周波数のいずれか1つとの差が所定のしきい値未満という条件をさらに満たした場合に、前記後続の選出単位区間qを直前の選出単位区間q−1に連結することを特徴とする請求項7に記載の音響信号の符号化装置。
  9. 前記直前の選出単位区間q−1が、既に他の選出単位区間と連結されている場合、前記直前の選出単位区間q−1が連結されている先頭の選出単位区間をqoとし、
    前記符号化手段は、前記第2のスペクトル強度E2(q,n)を決定する副周波数と前記第2のスペクトル強度E2(qo,n)、E2(qo,n−1)、E2(qo,n+1)を決定する副周波数のいずれか1つとの差が所定のしきい値未満という条件をさらに満たした場合に、前記後続の選出単位区間qを直前の選出単位区間q−1に連結することを特徴とする請求項8に記載の音響信号の符号化装置。
  10. 前記符号化手段は、前記選出単位区間の連結に基づいて補正された符号コードを含む生成される符号コードの先頭時刻から先頭時刻に時間差を加えた終了時刻までを時間区間とすると、ある時刻tにおいて、所定の個数以上の符号コードの時間区間が重複する場合、前記重複する全ての符号コードに対して、先頭時刻から前記時刻tまでの経過時間に基づいて当該符号コードの強度値を補正した変動強度値を算出し、変動強度値が最も小さい符号コードの時間差を当該符号コードの先頭時刻から前記時刻tまでの経過時間になるよう補正するようにしていることを特徴とする請求項7から請求項9のいずれか一項に記載の音響信号の符号化装置。
  11. 前記第1のスペクトル算出手段は、前記単位区間の区間信号の構成要素となるべきN種類の要素信号を、各々当該周波数f(n)の周期の整数倍に対応し、前記単位区間のサンプル数Tに最も近いT(n)個のサンプルとして準備し、
    前記N種類の各周波数f(n)に対応する要素信号と、それぞれ対応する前記単位区間pのT(n)個のサンプルで構成される区間信号との相関演算を行うことにより、第1のスペクトル強度E1(p,n)を算出するものであり、
    前記第2のスペクトル算出手段は、
    前記N種類の各周波数f(n)に対応する要素信号と、それぞれ対応する前記選出単位区間qのT(n)個のサンプルで構成される区間信号との相関演算を行い、相関値が最も高い周波数f(nmax)に対応する要素信号を調和信号として選出し、
    前記選出された調和信号と当該調和信号について得られた相関値との積で与えられるT(nmax)個のサンプルを含有信号とし、当該含有信号を前記区間信号から減じることにより、T(nmax)個のサンプルで構成される差分信号を算出し、
    前記T(nmax)個のサンプルを反映させ更新されたT(n)個のサンプルを新たな区間信号として、前記調和信号の選出および差分信号の算出を実行して新たな含有信号および差分信号を得る処理を繰り返し行うことによりN種類の含有信号を求め、求められた含有信号の相関値に基づいて、前記N種類の周波数に対応した第2のスペクトル強度E2(q,n)を算出することを特徴とする請求項6から請求項10のいずれか一項に記載の音響信号の符号化装置。
  12. 前記第1のスペクトル算出手段は、
    直前の単位区間p−1における各周波数f(n)に対応する直前相関演算結果に対し、
    前記直前の単位区間p−1における先頭Wサンプルに対応する相関演算を行い、各周波数ごとの相関値を前記直前相関演算結果より減算するとともに、前記単位区間pにおける最後尾Wサンプルに対応する相関演算を行い、各周波数ごとの相関値を前記直前相関演算結果に加算することにより、前記単位区間pにおける各周波数f(n)に対応する相関演算結果を取得し、当該相関演算結果に基づいて前記第1のスペクトル強度E1(p,n)を算出することを特徴とする請求項6から請求項11のいずれか一項に記載の音響信号の符号化装置。
  13. 前記スペクトル算出手段は、
    前記N種類の各周波数f(n)に対して、整数kを用いてf(n)/kなる所定数の低域周波数を定義し、当該低域周波数f(n)/kに対応するスペクトル強度が存在する場合、前記低域周波数f(n)/kに対応するスペクトル強度に基づいて周波数f(n)に対応するスペクトル強度を所定の割合だけ減衰させるように補正を行い、倍音補正されたスペクトル強度を作成することを特徴とする請求項1から請求項12のいずれか一項に記載の音響信号の符号化装置。
  14. 請求項1から請求項13のいずれか一項に記載の音響信号の符号化装置としてコンピュータを機能させるためのプログラム。

JP2015121870A 2014-07-10 2015-06-17 音響信号の符号化装置 Expired - Fee Related JP6589404B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015121870A JP6589404B2 (ja) 2014-07-10 2015-06-17 音響信号の符号化装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014141954 2014-07-10
JP2014141954 2014-07-10
JP2015121870A JP6589404B2 (ja) 2014-07-10 2015-06-17 音響信号の符号化装置

Publications (2)

Publication Number Publication Date
JP2016028269A JP2016028269A (ja) 2016-02-25
JP6589404B2 true JP6589404B2 (ja) 2019-10-16

Family

ID=55360724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015121870A Expired - Fee Related JP6589404B2 (ja) 2014-07-10 2015-06-17 音響信号の符号化装置

Country Status (1)

Country Link
JP (1) JP6589404B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6950180B2 (ja) * 2016-12-26 2021-10-13 カシオ計算機株式会社 楽音データ処理方法及び楽音データ処理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6047863B2 (ja) * 2011-07-13 2016-12-21 大日本印刷株式会社 音響信号の符号化方法および装置

Also Published As

Publication number Publication date
JP2016028269A (ja) 2016-02-25

Similar Documents

Publication Publication Date Title
JP2906970B2 (ja) サウンドの分析及び合成方法並びに装置
JP5846043B2 (ja) 音声処理装置
JP6589404B2 (ja) 音響信号の符号化装置
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
JPH0777979A (ja) 音声制御音響変調装置
JPWO2008010413A1 (ja) 音声合成装置、方法、およびプログラム
JP6047863B2 (ja) 音響信号の符号化方法および装置
JP5552794B2 (ja) 音響信号の符号化方法および装置
JP5163606B2 (ja) 音声分析合成装置、及びプログラム
Penttinen et al. Acoustic guitar plucking point estimation in real time
JP5732910B2 (ja) 音響信号の符号化方法および装置
JP5609280B2 (ja) 音響信号の符号化方法および装置
JP4513556B2 (ja) 音声分析合成装置、及びプログラム
JP2002049399A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP2001282246A (ja) 波形データ時間伸張圧縮装置
JP5533021B2 (ja) 音響信号の符号化方法および装置
CN113178183B (zh) 音效处理方法、装置、存储介质和计算设备
JP3779058B2 (ja) 音源システム
JP5211437B2 (ja) 音声処理装置およびプログラム
JP3304709B2 (ja) 楽音信号分析方法
JP2766648B2 (ja) 高調波係数抽出装置、高調波係数合成装置、高調波係数抽出方法及び高調波係数合成方法
JP2003241777A (ja) 楽音のフォルマント抽出方法、記録媒体及び楽音のフォルマント抽出装置
JP2689709B2 (ja) 電子楽器
JP4156268B2 (ja) 時系列信号の周波数解析方法および音響信号の符号化方法
JP3226255B2 (ja) 楽音合成システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190902

R150 Certificate of patent or registration of utility model

Ref document number: 6589404

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees