JP7056340B2

JP7056340B2 - 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置

Info

Publication number: JP7056340B2
Application number: JP2018076734A
Authority: JP
Inventors: 晃釜野; 政直鈴木; 信之鷲尾; 洋平岸
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2022-04-19
Anticipated expiration: 2038-04-12
Also published as: JP2019184867A; US11081120B2; US20190318753A1

Description

本発明は、符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置に関する。

生活空間において音声で操作が可能な音声サービスが増えつつある。しかしながら、生活空間に存在する様々な音声が、音声サービスの基礎である音声認識において誤認識の原因となり、ユーザエクスペリエンスを低下させる。生活空間に存在する音声がユーザの肉声と誤認識され、意図しないサービスが行われる可能性が存在するためである。

例えば、音声によるユーザ認証を行う音声サービスにおいて、録音音声で認証を行わせることを意図して、ユーザの肉声の代わりに録音音声が再生される場合、無音区間において、再生開始時点から有音開始時点までの間で、音信号の音圧の増加が検出される。無音区間において、録音音声の再生開始時点から暗騒音が重畳されるためである。録音音声で認証が行われることを防止するために、当該暗騒音の重畳による音信号の音圧の増加に基づいて、録音音声であることを判定する技術が存在する。

特開２００７－２６４５０７号公報

生活空間では、テレビまたはラジオから出力される放送音が存在することが多いが、放送音である場合、音が連続して再生されるため、ユーザ認証のために再生が開始される録音音声と異なり、暗騒音の重畳による音信号の音圧の増加を検出することは困難である。したがって、上記技術では、放送音、即ち、符号化音と肉声とを区別することが困難である、という問題がある。

本発明は、１つの側面として、符号化音の判定精度を向上させることを目的とする。

１つの実施形態では、音信号から算出される周波数に対応する音信号の強さを示す情報を取得し、周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる音信号の強さの相違の有無に基づいて、音信号が符号化音であるか否かを判定する処理を行う。

１つの側面として、符号化音の判定精度を向上させることが可能となる。

符号化音判定装置の要部機能を例示する。符号化音判定装置を含む環境を例示する。周波数帯域単位エッジ度算出部の要部機能を例示する。肉声のパワースペクトルを例示する。符号化音のパワースペクトルを例示する。符号化音のパワースペクトルと所定周波数帯域単位とを例示する。符号化音判定装置のハードウェア構成を例示する。第１及び第２実施形態の符号化音判定処理の流れを示すフローチャートを例示する。過去平均パワー算出処理の流れを示すフローチャートを例示する。エッジ度算出処理の流れを示すフローチャートを例示する。符号化音のパワースペクトルを例示する。符号化音のパワースペクトルを例示する。符号化音のパワースペクトルを例示する。符号化音のパワースペクトルを例示する。符号化音の周波数サンプル単位のΔパワーを例示する。符号化音の隣接する所定周波数帯域単位のエッジ度を例示する。スケールファクタバンドの各々の境界位置を例示する。第３実施形態の符号化音判定処理の流れを示すフローチャートを例示する。符号化音の境界周波数付近のパワースペクトル及び偽の境界周波数付近のパワースペクトルを例示する。符号化音の隣接する所定周波数帯域単位のエッジ度を例示する。肉声の隣接する所定周波数帯域単位のエッジ度を例示する。複数のスケールファクタバンドテーブルを例示する。第４実施形態の符号化音判定処理の流れを示すフローチャートを例示する。第５実施形態の符号化音判定処理の流れを示すフローチャートを例示する。第６実施形態の符号化音判定処理の流れを示すフローチャートを例示する。録音音声を判定する関連技術を説明するための音圧の変動を例示する。録音音声を判定する関連技術を説明するための音圧の変動を例示する。録音音声を判定する関連技術を説明するための音圧の変動を例示する。

［第１実施形態］
以下、図面を参照して第１実施形態の一例を詳細に説明する。

図１Ａに、符号化音判定装置１０の要部機能を例示する。符号化音判定装置１０は、取得部の一例である時間周波数変換部１３、判定部の一例である周波数帯域単位エッジ度算出部１４、及び、符号化音判定部１５を含む。

時間周波数変換部１３は、取得した音を音信号に変換するマイクロフォン（以下、マイクという。）２０に接続され、所定時間分の音信号のパワーを読み込み、音信号のパワーを時間周波数変換し、音信号の周波数とパワーとの関係を求める。音信号のパワーは、音信号の強さの一例である。所定時間分の音信号とは、例えば、１フレーム分の音信号である。音信号の強さは、例えば、音信号の音圧の絶対値であってもよい。

１フレームは、例えば、サンプリング周波数が４８［ｋＨｚ］である場合、１０２４サンプルであるとすると、約２１．３［ｍｓ］である。しかしながら、１フレームは、サンプリング周波数及び符号化条件などに応じて、例えば、１０～５０［ｍｓ］であってよい。複数のフレームの音信号を時間周波数変換することで、時間と、周波数及びパワーとの関係が求められる。

周波数帯域単位エッジ度算出部１４は、図２に例示するように、過去平均パワー算出部１４Ａ及び隣接周波数帯域パワー比算出部１４Ｂを含む。過去平均パワー算出部１４Ａは、現フレームから過去の所定数フレーム分の音信号のパワーの平均値を周波数サンプル毎に算出する。詳細には、過去平均パワー算出部１４Ａは、フレーム毎かつ周波数サンプル毎に音信号のパワーＰ_ｔ，ｋを算出する。ｔは、フレーム番号を表し、ｋは周波数サンプル番号を表す。

過去平均パワー算出部１４Ａは、過去Ｍフレーム分のパワーＰ_ｔ，ｋの平均値を、（１）式を使用して算出する。Ｍはフレームの所定数を表す。過去Ｍフレーム分のパワーＰ_ｔ，ｋの平均値は、時間方向平均値の一例である。

所定フレーム数Ｍは、例えば、５フレームである。しかしながら、例えば、レスポンスタイムに応じて、所定フレーム数Ｍは１フレームであってもよいし、２～４、または６フレーム以上であってもよい。

隣接周波数帯域パワー比算出部１４Ｂは、周波数サンプル毎に算出されたパワーの平均値に基づいて、所定周波数帯域単位毎のパワーの平均値を算出し、隣接する所定周波数帯域単位のパワーの平均値の比の対数をエッジ度として算出する。所定周波数帯域単位は、所定周波数帯域の一例である。エッジとは、周波数方向で音信号の強さが急に変化している箇所であり、エッジ度は、周波数方向で音信号の強さが変化する程度を表す。エッジ度は、周波数方向に隣接する所定周波数帯域単位の強さの平均の相違を表す値の一例である。

隣接周波数帯域パワー比算出部１４Ｂは、（１）式で算出した音信号のパワーの平均値を、（２）式に示すように、所定数Ｆｃの周波数サンプル分ずつ加算して所定数Ｆｃで除算することで、所定周波数帯域単位毎のパワーの平均値を算出する。ｎは所定周波数帯域単位の各々を表す番号であり、０以上の整数である。

隣接周波数帯域パワー比算出部１４Ｂは、隣接する所定周波数帯域単位の音信号のパワーの平均値の相違であるエッジ度Ｅ_ｎを、（３）式を使用して算出する。

（３）式では、エッジ度Ｅ_ｎは、隣接する所定周波数帯域単位の音信号のパワーの平均値の相違が小さくなるほど０に近い値となる。しかしながら、例えば、エッジ度Ｅ_ｎを、（４）式を使用して算出してもよい。

エッジ度は、隣接する所定周波数帯域単位の音信号のパワーの平均値の比の対数で表される。なお、エッジ度は、音信号のパワーの平均値の対数から音信号のパワーの平均値の対数を減算した値で表されてもよい。

符号化音判定部１５は、周波数帯域単位エッジ度算出部１４で算出したエッジ度に基づいて、音信号が符号化音であるか否か判定し、判定結果を出力する。判定結果は、例えば、スマートスピーカなどの音声で操作される音声操作装置などに入力される。

図１Ｂは、符号化音判定装置１０を含む環境を例示する。符号化音判定装置１０は、例えば、テレビ１２などの放送音即ち、符号化音を出力する機器が存在し、ユーザがスマートスピーカ１１などの音声操作装置に対して発声することが期待される環境で使用される。符号化音判定装置１０と、スマートスピーカ１１とは、有線または無線によって接続され、符号化音判定装置１０から出力される判定結果は、当該接続を介して、スマートスピーカ１１に入力される。

図３に、肉声の音信号のパワースペクトルを例示し、図４に、符号化音の音信号のパワースペクトルを例示する。図３及び図４において、縦軸は周波数を表し、横軸は時間を表す。パワーは、大きいほど白に近い明るい色で表され、小さいほど黒に近い暗い色で表される。

音信号の符号化では、所定のビットレート内に情報量を低減するために境界周波数以上の高域の音信号を抑制する。したがって、図４に例示する符号化音では、境界周波数を示す破線より高域には、音信号が存在しない。一方、図３に例示する肉声では、音信号が存在しなくなる境界周波数が存在しない。

図５は、符号化音のパワースペクトルと所定周波数帯域単位との関係を例示する。符号化音では、境界周波数を表す破線の下の所定周波数帯域単位ＳＢ_ｄの音信号のパワーの平均値と、破線の上の所定周波数帯域単位ＳＢ_ｕの音信号のパワーの平均値との相違が、他の隣接する所定周波数帯域単位の音信号のパワーの平均値の相違よりも大きくなる。

符号化音判定部１５は、例えば、（３）式で算出されるＥ_ｎの何れかが第１所定値の一例である閾値を超える場合に、音信号が符号化音であると判定する。

なお、（３）式及び（４）式は、例示であり、隣接する所定周波数帯域単位のパワーの平均値の比の対数ではなく、隣接する所定周波数帯域単位のパワーの平均値の比であってもよい。また、隣接する所定周波数帯域単位のパワーの平均値の比に代えて、隣接する所定周波数帯域単位の音信号のパワーの平均値の差であってもよい。音信号が符号化音であるか否か判定するための閾値は、隣接する所定周波数帯域単位の音信号のパワーの平均値の相違を算出する式に応じて適切な値を設定する。

図６に符号化音判定装置１０のハードウェア構成を例示する。符号化音判定装置１０は、ハードウェアであるプロセッサの一例であるＣＰＵ（Central Processing Unit）５１、一次記憶部５２、二次記憶部５３、及び、外部インターフェイス５４を含む。

ＣＰＵ５１、一次記憶部５２、二次記憶部５３、及び外部インターフェイス５４は、バス５９を介して相互に接続されている。

一次記憶部５２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。二次記憶部５３は、例えば、ＨＤＤ（Hard Disk Drive）、又はＳＳＤ（Solid State Drive）などの不揮発性のメモリである。

二次記憶部５３は、プログラム格納領域５３Ａ及びデータ格納領域５３Ｂを含む。プログラム格納領域５３Ａは、一例として、符号化音判定処理をＣＰＵ５１に実行させるための符号化音判定プログラムなどのプログラムを記憶している。データ格納領域５３Ｂは、マイク２０で取得された音に対応する音信号、符号化音判定処理において一時的に生成される中間データ、などを記憶する。

ＣＰＵ５１は、プログラム格納領域５３Ａから符号化音判定プログラムを読み出して一次記憶部５２に展開する。ＣＰＵ５１は、符号化音判定プログラムを実行することで、図１の時間周波数変換部１３、周波数帯域単位エッジ度算出部１４、及び符号化音判定部１５として動作する。なお、符号化音判定プログラムなどのプログラムは、ＤＶＤ（Digital Versatile Disc）などの非一時的記録媒体に記憶され、記録媒体読込装置を介して読み込まれ、一次記憶部５２に展開されてもよい。

外部インターフェイス５４には、外部装置が接続され、外部インターフェイス５４は、外部装置とＣＰＵ５１との間の各種情報の送受信を司る。例えば、符号化音判定装置１０は、外部インターフェイス５４を介して、音を取得するマイク２０と接続されている。しかしながら、マイク２０は符号化音判定装置１０に内蔵されていてもよい。

例えば、符号化音判定装置１０は、外部インターフェイス５４を介して、音を発生するスピーカ２９と接続されている。スピーカ２９は、例えば、判定結果、即ち、音声が符号化音であるか否かを、音声、または、アラーム音などで報知してもよい。また、スピーカ２９は、音声操作装置の一例であるスマートスピーカ１１であってもよく、スマートスピーカ１１は、音声が符号化音であるか否かを示す判定結果に基づいて、音声操作を行うか否かを決定してもよい。スピーカ２９は符号化音判定装置１０に内蔵されていてもよい。

次に、符号化音判定装置１０の作用について説明する。図７に、符号化音判定装置１０で行われる符号化音判定処理の流れを示すフローチャートを例示する。ＣＰＵ５１は、ステップ１０１で、１フレーム分の音信号を読み込む。ＣＰＵ５１は、ステップ１０２で、音信号を時間周波数変換する。時間周波数変換は、例えば、ＦＦＴ（Fast Fourier Transformation）であってよい。

ＣＰＵ５１は、ステップ１０３で、フレーム番号ｔの音信号の周波数サンプル番号ｋ毎の音信号のパワーＰ_ｔ，ｋを算出する。フレーム番号ｔには現在のフレームのフレーム番号が設定され、周波数サンプル番号ｋは０から１ずつ加算される。ＣＰＵ５１は、ステップ１０４で、ステップ１０１で読み込まれたフレームの数が所定フレーム数Ｍを超えているか判定する。ステップ１０４の判定が否定された場合、即ち、フレームの数が所定フレーム数Ｍを超えていない場合、ＣＰＵ５１はステップ１０１に戻る。

ステップ１０４の判定が肯定された場合、即ち、フレームの数が所定フレーム数Ｍを超えた場合、ＣＰＵ５１は、ステップ１０５で、過去Ｍフレーム分のパワーの平均値を算出し、ステップ１０６で、エッジ度を算出する。ステップ１０５及びステップ１０６については、後述する。ＣＰＵ５１は、ステップ１０７で、算出したエッジ度に基づいて、音信号が符号化音であるか否か判定する。図７の符号化音判定処理は、所定回数、繰り返されてもよい。

図８に、図７のステップ１０５の過去平均パワー算出処理の流れを示すフローチャートを例示する。ＣＰＵ５１は、ステップ１１１で、現在のフレームのフレーム番号ｔからのフレーム位置を表す変数ｉ及び周波数サンプル番号を表す変数ｋに０をセットする。ＣＰＵ５１は、ステップ１１２で、変数ｋの値が周波数サンプル数Ｎ未満であるか否か判定する。周波数サンプル数Ｎは、サンプリング周波数が４８［ｋＨｚ］で、１フレーム１０２４サンプル（約２１．３［ｍｓ］）である場合、５１２である。

ステップ１１２の判定が否定された場合、即ち、変数ｋの値がＮ以上である場合、ＣＰＵ５１は過去平均パワー算出処理を終了する。ステップ１１２の判定が肯定された場合、即ち、変数ｋの値がＮ未満である場合、ＣＰＵ５１は、ステップ１１３で、変数ｉの値が所定フレーム数Ｍ未満であるか否か判定する。

ステップ１１３の判定が肯定された場合、即ち、変数ｉの値が所定フレーム数Ｍ未満である場合、ＣＰＵ５１は、ステップ１１４で、ｔ－ｉ番目のフレームの周波数サンプル番号がｋであるパワーが累積されるように加算する。ＣＰＵ５１は、ステップ１１５で、変数ｉの値に１を加算し、ステップ１１３に戻る。即ち、ステップ１１３～ステップ１１５において、周波数サンプル番号がｋである音信号のパワーがＭフレーム分累積される。

ステップ１１３の判定が否定された場合、ＣＰＵ５１は、ステップ１１６で、（１）式に例示するように、Ｍフレーム分累積された周波数サンプル番号がｋであるパワーを所定フレーム数Ｍで除算することで、周波数サンプル毎のパワーの平均値を算出する。ステップ１１３の判定が否定された場合とは、変数ｉの値がＭ以上である場合である。ＣＰＵ５１は、ステップ１１７で、変数ｋの値に１を加算し、ステップ１１２に戻る。

図９は、図７のステップ１０６のエッジ度算出処理の流れを示すフローチャートを例示する。ＣＰＵ５１は、ステップ１２１で、所定周波数帯域単位の番号を表す変数ｎに１を設定する。ＣＰＵ５１は、ステップ１２２で、変数ｎの値がＬ未満であるか否か判定する。Ｌは、所定周波数帯域単位の総数を表す値である。ステップ１２２の判定が否定された場合、即ち、変数ｎの値がＬ以上である場合、ＣＰＵ５１はエッジ度算出処理を終了する。

ステップ１２２の判定が肯定された場合、即ち、変数ｎの値がＬ未満である場合、ＣＰＵ５１は、ステップ１２３で、隣接する所定周波数帯域単位のエッジ度を算出する。詳細には、（２）式で例示するように、ｎ番目及びｎ＋１番目の所定周波数帯域単位のパワーの平均値を算出し、（３）式で例示するように、ｎ番目及びｎ＋１番目の周波数帯域の比の対数を算出する。ＣＰＵ５１は、ステップ１２４で、変数ｎの値に１を加算して、ステップ１２２に戻る。

符号化音では境界周波数以上の音信号のパワーが抑制されているが、境界周波数は、音信号を符号化する際の符号化の種類、即ち、使用するエンコーダの種類または符号化条件などによって異なる。図１０及び図１１に異なるエンコーダで符号化した音信号のパワースペクトルを例示する。図１０のエンコーダＡで符号化された音信号では、破線ＳＵＰＡが境界周波数を表し、図１１のエンコーダＢで符号化された音信号では、破線ＳＵＰＢが境界周波数を表す。

第１実施形態のように、複数の周波数サンプルを含む所定周波数帯域単位ではなく、隣接する単一の周波数サンプルでエッジ度を求めても、符号化音であれば、境界周波数で閾値を超えるエッジ度が現れる。図１３は、図１２でパワースペクトルを例示する符号化音に破線の矩形で例示する１フレームにおける音信号のパワーと周波数との関係を例示する。図１３の縦軸はパワーを表し、横軸は周波数を表す。

図１４は、図１３で隣接する単一の周波数サンプルのパワーの差であるΔパワーと周波数との関係を例示する。図１４の縦軸はΔパワーを表し、横軸は周波数を表す。図１４に例示されるように、ΔパワーＥＢはΔパワーＥＡより大きい。ΔパワーＥＢは図１３のパワーＥＢＰに対応し、ΔパワーＥＡは図１３のパワーＥＡＰに対応する。

図１３のパワーＥＢＰ及びＥＡＰの前後の周波数におけるパワーから明らかなように、境界周波数に対応するΔパワーはＥＡであり、ΔパワーＥＢは境界周波数に対応するΔパワーではない。即ち、隣接する単一の周波数サンプル単位でエッジ度を求めると、偽の境界周波数を検出することで、誤判定が生じる虞がある。

第１実施形態では、エッジ度として隣接する所定周波数帯域単位のパワーの平均値の相違を表す値を算出する。図１５は、エッジ度と所定周波数帯域単位との関係を例示する。図１５の縦軸はエッジ度を表し、横軸は所定周波数帯域単位の番号を表す。図１５では、境界周波数付近で隣接する所定周波数帯域単位のエッジ度だけが破線で表される閾値を超える。

図１３に例示されるように、偽の境界周波数付近では、瞬間的にパワーが減少した後、すぐに元のパワーまで戻る。エッジ度として周波数方向に隣接する所定周波数帯域単位のパワーの平均値の相違を表す値を使用することで、周波数方向のパワーの変化が平滑化され、偽の境界周波数付近のエッジ度が抑圧される。したがって、偽の境界周波数付近で隣接する所定周波数帯域単位のエッジ度は閾値を超えない。これにより、偽の境界周波数を境界周波数であると判定する誤判定が生じる虞を低減することができる。

第１実施形態では、音信号から算出される周波数に対応する音信号の強さを示す情報を取得し、周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる音信号の強さの相違の有無に基づいて、音信号が符号化音であるか否かを判定する処理を行う。

符号化音では、境界周波数以上の音信号が抑制されているため、境界周波数の上下で隣接する所定周波数帯域単位の強さの平均値は、他の隣接する所定周波数帯域単位の強さの平均値より大きい。これにより、第１実施形態では、符号化音が放送音などの継続的に再生される音であっても符号化音であることを判定することが可能となり、符号化音の判定精度を向上させることができる。

また、第１実施形態では、短時間、例えば、１［ｓ］以下の音信号で、符号化音を判定することができる。

［第２実施形態］
以下、図面を参照して第２実施形態の一例を詳細に説明する。第１実施形態と同様の構成及び作用については、同様の参照符号を使用して説明を省略する。

第２実施形態では、図５に例示する所定周波数帯域単位が、スケールファクタバンド（以下、ＳＦＢ（Scale Factor Band））の各々に対応するように定められる点で、第１実施形態と異なる。ＳＦＢは、量子化誤差と聴覚特性との関係により幅及び境界位置が決定されるサブバンドであり、テレビ及びラジオなどの放送音では、符号化の規格で定義されている。

図１６に、ＳＦＢの境界位置ＳｌとＳＦＢ番号ｌとの関係を表すグラフを例示する。縦軸は周波数のサンプル番号で表されるＳＦＢの境界位置Ｓｌを表し、横軸はＳＦＢ番号を表す。Ｓｌ及びｌは０以上の整数である。放送音は、ＡＡＣ－ＬＣ（Advanced Audio Coding - Low Complexity）で符号化され、ＳＦＢは規格ＩＳＯ（International Organization for Standardization）／ＩＥＣ（International Electrotechnical Commission）１３８１８－７で定められている。例えば、ＡＡＣ－ＬＣ符号化で、サンプリング周波数が４８［ｋＨｚ］である場合、ＳＦＢの数は４９個である。

第２実施形態では、（５）式に示すように、（１）式で算出した音信号のパワーの平均値をＳＦＢ毎に加算してＳＦＢに含まれる周波数サンプル数で除算することで、ＳＦＢ毎のパワーの平均値を算出する。また、（６）式に示すように、隣接するＳＦＢの音信号のパワーの平均値の相違であるエッジ度ＥＴ_ｌを算出する。

放送音の符号化は、ＳＦＢの境界位置で帯域制限するため、境界周波数は隣接するＳＦＢの境界位置に存在する。したがって、所定周波数帯域単位が、ＳＦＢの各々に対応するように定めることで、境界周波数上下で隣接する周波数帯域単位のパワーの相違であるエッジ度が強調され、境界周波数以外で隣接する周波数帯域単位のパワーの相違であるエッジ度は抑制される。これにより、第２実施形態では、偽の境界周波数を境界周波数であると誤判定する虞が低減され、符号化音の判定精度をより向上させることができる。

［第３実施形態］
以下、図面を参照して第３実施形態の一例を詳細に説明する。第１実施形態または第２実施形態と同様の構成及び作用については同様の参照符号を使用して説明を省略する。

第３実施形態では、閾値を超えるエッジ度が、同一の周波数帯域境界で長期間継続する場合、符号化音であると判定する点で、第１または第２実施形態と異なる。長期間とは、例えば、０．５［ｓ］である。

図１７に、第３実施形態の流れを示すフローチャートを例示する。ＣＰＵ５１は、ステップ２０１で、エッジ度が閾値を超えない処理回数をカウントする変数ｍ２に０をセットする。ＣＰＵ５１は、ステップ２０２で、エッジ度が閾値を超える処理回数をカウントする変数ｍ１に０をセットする。

ＣＰＵ５１は、ステップ２０３で、変数ｍ１の値が所定値Ｔｃ１未満であるか否かを判定する。ステップ２０３の判定が肯定された場合、即ち、変数ｍ１の値が所定値Ｔｃ１未満である場合、ＣＰＵ５１は、ステップ２０４で、変数ｍ２の値が所定値Ｔｃ２未満であるか否か判定する。

ステップ２０４の判定が肯定された場合、即ち、変数ｍ２の値が所定値Ｔｃ２未満である場合、ＣＰＵ５１は、ステップ２０５に進む。ステップ２０５～ステップ２１０は、図７のステップ１０１～１０６と同様であるため、説明を省略する。

ＣＰＵ５１は、ステップ２１１で、隣接する所定周波数帯域単位のパワーの平均値の相違、即ち、エッジ度の何れかが閾値を越えるか否か判定する。変数ｍ１の値が１以上である場合、ステップ２１１では、前回の処理でエッジ度が閾値を越えると判定された周波数帯域境界と同一の周波数帯域境界のエッジ度が閾値を越えるか否か判定する。変数ｍ１の値が１以上である場合とは、前回の符号化音判定処理で、何れかの周波数帯域境界のエッジ度が閾値を超えると判定されていた場合である。

ステップ２１１の判定が肯定された場合、ＣＰＵ５１は、ステップ２１２で、変数の値ｍ１に１を加算し、ステップ２０３に戻る。ステップ２１１の判定が否定された場合、ＣＰＵ５１は、ステップ２１３で、変数ｍ２の値に１を加算し、ステップ２０２に戻る。

ステップ２０３の判定が否定された場合、または、ステップ２０４の判定が否定された場合、ＣＰＵ５１は、ステップ２１４で、符号化音判定を行い、符号化音判定処理を終了する。即ち、変数ｍ１の値が所定値Ｔｃ１以上である場合、または、変数ｍ２の値が所定値Ｔｃ２以上である場合、ステップ２１４に進む。ステップ２１４では、変数ｍ１の値が所定値Ｔｃ１以上である場合、音信号が符号化音であると判定し、変数ｍ２の値が所定値Ｔｃ２以上である場合、音信号は符号化音ではないと判定し、符号化音判定処理を終了する。

第３実施形態は、第１実施形態に適用されてもよいし、第２実施形態に適用されてもよい。

図１８は、境界周波数付近の音信号のパワーＥＣＰ、及び、偽境界周波数付近の音信号のパワーＥＤＰを例示する。図１９Ａは、図１８のパワースペクトルに対応する図であり、エッジ度、周波数、及び時間の関係を例示し、縦軸はエッジ度、横軸は周波数、紙面手前から奥に向かう軸は時間を表す。

境界周波数付近のパワーＥＣＰに対応するエッジＥＣは時間方向に長期間ほぼ同様の大きなエッジ度を保ち、偽境界周波数付近のパワーＥＤＰに対応するエッジＥＤは時間方向に瞬間的に大きなエッジ度を示す。即ち、境界周波数付近のパワーＥＣＰに対応するエッジＥＣは、例えば、０．５［ｓ］以上、ほぼ同様の大きなエッジ度を保ち、偽境界周波数付近のパワーＥＤＰに対応するエッジＥＤは、例えば、０．１～０．２［ｓ］しか大きなエッジ度を示さない。

図１９Ｂは、肉声のエッジ度、周波数、及び時間の関係を例示する。図１９Ｂでは、図１９Ａと異なり、長期間ほぼ同様に保たれている大きなエッジ度は存在していない。一方、上記したように、境界周波数付近の音信号のパワーに対応するエッジは時間方向に長期間ほぼ同様の大きなエッジ度を保つ。したがって、第３実施形態では、閾値を超えるエッジ度が、同一の周波数帯域境界で長期間継続する場合、符号化音であると判定する。

これにより、第３実施形態では、偽境界周波数を境界周波数であると誤判定する虞を低減することが可能となり、符号化音の判定制度を向上させることができる。

［第４実施形態］
以下、図面を参照して、第４実施形態の一例を詳細に説明する。第１～第３実施形態と同様の構成及び作用については同様の参照符号を使用して説明を省略する。

第４実施形態は、音信号の符号化の種類が複数存在し、何れの符号化の種類で音信号が符号化されているか不明な場合に対応する。第４実施形態では、図２０に例示するように、想定される複数種類の符号化の各々に対応するＳＦＢテーブル１～Ｕを予め二次記憶部５３のデータ格納領域５３Ｂに用意し、ＳＦＢテーブル１～Ｕを使用して、エッジ度を算出する。

Ｕは２以上の整数であり、使用するＳＦＢテーブルの総数を表す。ＳＦＢテーブル１～Ｕの各々には、符号化の種類１～Ｕの各々で定められたＳＦＢの境界位置とＳＦＢの番号とが対応付けて記憶されている。

第４実施形態では、（７）式に示すように、（１）式で算出した音信号のパワーの平均値をＳＦＢテーブル１～Ｕの各々のＳＦＢ毎に加算してＳＦＢに含まれる周波数サンプル数で除算することで、ＳＦＢテーブル毎かつＳＦＢ毎のパワーの平均値を算出する。また、（８）式に示すように、隣接するＳＦＢの音信号のパワーの平均値の相違であるエッジ度ＥＶ_ｂ，ｌを算出する。ｂは１～Ｕの整数であり、ＳＦＢテーブルの番号を表す。

図２１に、第４実施形態の処理の流れを示すフローチャートを例示する。ステップ３０１～３０５は、図７のステップ１０１～１０５と同様であるため、説明を省略する。ＣＰＵ５１は、ステップ３０６で、ＳＦＢテーブルの番号を表す変数ｂに０をセットする。ＣＰＵ５１は、ステップ３０７で、変数ｂの値がＳＦＢテーブルの総数を表す値Ｕ未満であるか否か判定する。

ステップ３０７の判定が肯定された場合、ＣＰＵ５１は、ステップ３０８で、変数ｂの値に１を加算し、ステップ３０９で、（７）式及び（８）式を使用して、隣接するＳＦＢのエッジ度を算出し、ステップ３０７に戻る。ステップ３０７の判定が否定された場合、即ち、変数ｂの値がＵ以上である場合、ＣＰＵ５１は、ステップ３１０に進む。ステップ３０７～３０９で、ＳＦＢテーブル１～Ｕの各々の全ての隣接するＳＦＢのエッジ度が算出される。

ＣＰＵ５１は、ステップ３１０で、エッジ度の何れかが所定値を超えた場合、音信号が符号化音であると判定する。図２１の符号化音判定処理は、所定回数、繰り返されてもよい。

第４実施形態には、第２実施形態、第３実施形態、または、第２実施形態と第３実施形態の組み合わせを適用することができる。

第４実施形態では、符号化の種類が複数存在し、所定周波数帯域単位は、複数の符号化の種類の各々のＳＦＢの各々に対応するように定められる。

これにより、第４実施形態では、複数種類の符号化の何れで音信号の符号化が行われている場合でも、隣接するＳＦＢの境界に存在するエッジのエッジ度を強調し、ＳＦＢの境界以外に存在するエッジを抑圧する。したがって、本実施形態では、偽の境界周波数を境界周波数であると誤判定する可能性を低減し、符号化音の判定精度を向上させることができる。

［第５実施形態］
以下、図面を参照して、第５実施形態の一例を詳細に説明する。第１～第４実施形態と同様の構成及び作用については同様の参照符号を使用して説明を省略する。

第５実施形態では、隣接する所定周波数帯域単位のエッジ度が処理閾値を超えると、符号音判定の繰り返しを開始し、隣接する所定周波数帯域単位のエッジ度が処理閾値以下である状態が継続すると符号音判定の繰り返しを終了する。

図２２は、第５実施形態の処理の流れを示すフローチャートを例示する。ステップ４０１～ステップ４０６は、図７のステップ１０１～１０６と同様であるため、説明を省略する。ＣＰＵ５１は、ステップ４０７で、隣接する周波数帯域のエッジ度の何れかが処理閾値を越えるか否か判定する。この処理閾値は、第２所定値の一例であり、符号化音判定に使用される閾値と同じ値であってもよいし、異なる値であってもよい。ステップ４０７の判定が否定されると、即ち、全てのエッジ度が処理閾値以下である場合、ＣＰＵ５１は、ステップ４０１に戻る。

ステップ４０７の判定が肯定されると、即ち、エッジ度の何れかが処理閾値を超える場合、ＣＰＵ５１は、ステップ４０８で、符号化音判定を行う。ステップ４０８は、図７のステップ１０７と同様であるため、説明を省略する。ＣＰＵ５１は、ステップ４０９で、エッジ度が処理閾値以下である回数をカウントする変数ｍ３に０をセットする。

ステップ４１０～ステップ４１５は、図７のステップ１０１～ステップ１０６と同様であるため、説明を省略する。ステップ４１６では、ステップ４０８で、エッジ度が閾値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域単位のエッジ度が閾値を超える場合、符号化音であると判定する。

ＣＰＵ５１は、ステップ４１７で、ステップ４０８で、エッジ度が閾値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域単位のエッジ度が処理閾値を越えるか否か判定する。ステップ４１７の判定が肯定されると、即ち、エッジ度が処理閾値を超える場合、ＣＰＵ５１はステップ４０９に戻る。

ステップ４１７の判定が否定されると、即ち、エッジ度が処理閾値以下である場合、ＣＰＵ５１は、ステップ４１８で、変数ｍ３に１を加算し、ステップ４１９で、変数ｍ３の値が所定値Ｔｃ３未満であるか否か判定する。ステップ４１９の判定が肯定される場合、即ち、変数ｍ３の値が所定値Ｔｃ３未満である場合、ＣＰＵ５１は、ステップ４１０に戻る。

ステップ４１９の判定が否定されると、即ち、変数ｍ３の値が所定値Ｔｃ３以上である場合、ＣＰＵ５１は、符号化音判定処理を終了する。

なお、ステップ４０７では、何れかのエッジ度が閾値を超えた場合に限定されず、同一の周波数帯域境界で隣接する所定周波数帯域単位のエッジ度が処理閾値を超える頻度が所定の頻度を超えた場合に、ステップ４０８に進むようにしてもよい。

また、ステップ４１７～４１９では、エッジ度が処理閾値以下である回数が所定値以上である場合に、符号化音判定処理を終了する。しかしながら、同一の周波数帯域境界で隣接する所定周波数帯域単位のエッジ度が処理閾値を超える頻度が所定の頻度以下である場合に、符号化音判定処理を終了するようにしてもよい。

第５実施形態は、第１～第４実施形態の何れか、第１実施形態と第３実施形態との組み合わせ、第２実施形態と第３実施形態との組み合わせ、第２実施形態～第４実施形態の組み合わせに適用可能である。

第５実施形態では、隣接する所定周波数帯域単位のエッジ度の何れかが処理閾値を超えると、符号音判定の繰り返しを開始し、エッジ度が処理閾値以下である回数が所定値以上である場合に符号音判定の繰り返しを終了する。

これにより、第５実施形態では、テレビまたはラジオなどの符号化音を出力する機器が稼動している間、符号化音判定を繰り返すことができる。

［第６実施形態］
以下、図面を参照して、第６実施形態の一例を詳細に説明する。第１～第５実施形態と同様の構成及び作用については同様の参照符号を使用して説明を省略する。

第６実施形態では、信号対雑音比（以下、ＳＮＲ（Signal to Noise Ratio）という。）が閾値を超える場合に、符号化音判定を行い、ＳＮＲが閾値以下である場合、符号化音判定を行わない。

図２３に、第６実施形態の処理の流れを示すフローチャートを例示する。ステップ５０１は、図７のステップ１０１と同様であるため、説明を省略する。ＣＰＵ５１は、ステップ５０２で音信号と背景雑音との比であるＳＮＲを既存の方法で算出し、ステップ５０３でＳＮＲが第３所定値の一例である閾値を超えるか否か判定する。ステップ５０３の判定が否定された場合、即ち、ＳＮＲが閾値以下である場合、ＣＰＵ５１は、符号化音判定処理を終了する。

ステップ５０３の判定が肯定された場合、即ち、ＳＮＲが閾値を超えた場合、ＣＰＵ５１は、ステップ５０４に進む。ステップ５０４～５０９は、図７のステップ１０２～１０７と同様であるため、説明を省略する。ＣＰＵ５１は、ステップ５０４～５０９を実行した後、符号化音判定処理を終了する。図２３の符号化音判定処理は、所定回数、繰り返されてもよい。

第６実施形態は、第１～第５実施形態の何れか、第１実施形態と第３実施形態との組み合わせ、第１実施形態、第３実施形態、及び第５実施形態の組み合わせに適用可能である。第６実施形態は、また、第２実施形態と第３実施形態との組み合わせ、第２実施形態～第４実施形態の組み合わせ、第２実施形態～第５実施形態の組み合わせに適用可能である。

第６実施形態では、音信号のＳＮＲが閾値を超えた場合、符号化音判定を行い、ＳＮＲが閾値以下である場合、符号化音判定を行わない。ＳＮＲが大きい場合、音信号に対して背景雑音が小さく、エッジの検出が容易であるためであり、一方、ＳＮＲが小さい場合、音信号に対して背景雑音が大きく、エッジの検出が困難であるためである。第６実施形態では、エッジの検出が容易である場合に符号化音判定を行うことで、エッジが誤検出される虞を低減し、符号化音の判定精度を向上させることができる。

なお、図７、図８、図９、図１７、図２１、図２２、及び、図２３のフローチャートは一例であり、処理の順序は、これらのフローチャートに示された処理の順序に限定されない。

第１～第６実施形態において、符号化音判定装置１０は、図１に例示するように、音信号が符号化音であるか否かを示す判定結果を出力する。判定結果は、例えば、スマートスピーカなどの音声で操作される音声操作装置に入力される。

判定結果が、音信号が符号化音であることを示す場合、音声操作装置は、テレビまたはラジオなどの符号化音を出力する装置の音量を下げるよう、図６に例示するスピーカ２９などの音声出力装置を介して音声で報知する。報知は、ディスプレイなどの文字または画像出力装置を介して、文字または画像で行われてもよい。この場合、音声操作装置は、音声認識などの音声操作に付随する処理は行わない。

符号化音判定装置１０の判定結果を受け取る装置は、音声操作装置に限定されず、例えば、音声でユーザ認証を行う音声認証装置であってもよい。判定結果が、音信号が符号化音であることを示す場合、音声認証装置は、音声出力装置、文字出力装置、または画像出力装置を介して、認証に使用された音が不適切であることを音声、文字、または画像で報知する。この場合、音声認証装置は、発話区間の検出などの音声認証に付随する処理は行わない。

また、符号化音判定装置１０の判定結果を受け取る装置が、例えば、独居者などの安全確認を行う安全確認システムである場合、判定結果が、音信号が符号化音であることを示す場合、テレビまたはラジオなどの符号化音を出力する装置が稼動されていると判定する。安全確認システムは、当該判定結果に基づいて、ユーザに異常がないか否かの判定を行い、音声出力装置、文字出力装置、または画像出力装置を介して、ユーザの状態を、音声、文字、または画像で、例えば、システムの管理者に報知する。

符号化音判定装置１０の判定結果は、二次記憶部５３のデータ格納領域５３Ｂに、例えば、時間と対応付けて蓄積されてもよい。また、符号化音判定装置１０の判定結果は、外部インターフェイス５４を介して接続される外部記憶装置に、例えば、時間と対応付けて蓄積されてもよい。

［関連技術］
録音音声で認証が行われることを防止するために、暗騒音の重畳による、無音区間における音信号の音圧の増加に基づいて、録音音声であることを判定する関連技術が存在する。

図２４に例示するように、肉声では、無音区間Ｔ０～Ｔ２の音信号の音圧は増加しない。一方、図２５に例示するように、無音区間Ｔ０～Ｔ２で録音音声の再生を開始した場合、録音音声の暗騒音が重畳されることで、録音音声の再生開始時Ｔ１～有音区間開始時Ｔ２までの音圧が増加する。関連技術では、この無音区間の音圧の増加に基づいて、肉声であるか録音音声であるかを判定する。

しかしながら、図２６に例示するように、継続的に再生される放送音では、放送音の再生が継続されているＴ１１以降に開始する無音区間Ｔ２１～Ｔ２２、及びＴ３１～Ｔ３２では、当初から暗騒音が重畳されているため、音圧の増加は検出されない。したがって、継続的に再生される放送音である場合、関連技術を使用して、肉声であるか否かを判定することは困難である。

本実施形態では、隣接する所定周波数帯域単位のエッジ度を使用して符号化音であるか否かを判定している。エッジ度は、例えば、図４に例示されるように、時間方向に定常的な特徴量であるため、継続的に再生される放送音であっても、肉声であるか否か、即ち、符号化音であるか否か判定することができる。

以上の各実施形態に関し、更に以下の付記を開示する。

（付記１）
音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得し、
周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行う、
符号化音判定処理をコンピュータに実行させるためのプログラム。
（付記２）
前記音信号の強さの相違を表す値は、前記所定周波数帯域の前記音信号のパワーを所定数のフレーム分加算し、前記所定数で除算した時間方向平均値を算出し、前記所定周波数帯域に含まれる周波数単位の前記時間方向平均値を加算し、前記所定周波数帯域に含まれる前記周波数単位の数で除算することで算出される、
付記１の符号化音判定処理をコンピュータに実行させるためのプログラム。
（付記３）
前記所定周波数帯域が、音信号の符号化の種類によって定められるスケールファクタバンドの各々に対応するように定められる、
付記１または付記２のプログラム。
（付記４）
前記符号化の種類が複数存在し、
前記所定周波数帯域が、複数の前記符号化の種類の各々のスケールファクタバンドの各々に対応するように定められる、
付記３のプログラム。
（付記５）
同一の周波数帯域境界で隣接する所定周波数帯域の音信号の強さの相違を表す値が、所定時間以上、第１所定値を超える場合、前記音信号は符号化音であると判定する、
付記１～付記４の何れかのプログラム。
（付記６）
隣接する所定周波数帯域の音信号の強さの相違を表す値が第２所定値を超えた後、前記値が前記第２所定値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域の強さを表す値が、所定回数以上、前記第２所定値以下になるまで、前記音信号が符号化音であるか否か判定する処理を繰り返す、
付記１～付記５の何れかのプログラム。
（付記７）
前記音信号の信号対雑音比が第３所定値を超えた場合、前記音信号が符号化音であるか否か判定する処理を行う、
付記１～付記５の何れかのプログラム。
（付記８）
コンピュータが、
音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得し、
周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行う、
符号化音判定方法。
（付記９）
前記音信号の強さの相違を表す値は、前記所定周波数帯域の前記音信号のパワーを所定数のフレーム分加算し、前記所定数で除算した時間方向平均値を算出し、前記所定周波数帯域に含まれる周波数単位の前記時間方向平均値を加算し、前記所定周波数帯域に含まれる前記周波数単位の数で除算することで算出される、
付記８の符号化音判定方法。
（付記１０）
前記所定周波数帯域が、音信号の符号化の種類によって定められるスケールファクタバンドの各々に対応するように定められる、
付記８または付記９の符号化音判定方法。
（付記１１）
前記符号化の種類が複数存在し、
前記所定周波数帯域が、複数の前記符号化の種類の各々のスケールファクタバンドの各々に対応するように定められる、
付記１０の符号化音判定方法。
（付記１２）
同一の周波数帯域境界で隣接する所定周波数帯域の音信号の強さの相違を表す値が、所定時間以上、第１所定値を超える場合、前記音信号は符号化音であると判定する、
付記８～付記１１の何れかの符号化音判定方法。
（付記１３）
隣接する所定周波数帯域の音信号の強さの相違を表す値が第２所定値を超えた後、前記値が前記第２所定値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域の強さを表す値が、所定回数以上、前記第２所定値以下になるまで、前記音信号が符号化音であるか否か判定する処理を繰り返す、
付記８～付記１２の何れかの符号化音判定方法。
（付記１４）
前記音信号の信号対雑音比が第３所定値を超えた場合、前記音信号が符号化音であるか否か判定する処理を行う、
付記８～付記１２の何れかの符号化音判定方法。
（付記１５）
音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得する取得部と、
周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行う判定部と、
を含む符号化音判定装置。
（付記１６）
前記所定周波数帯域が、音信号の符号化の種類によって定められるスケールファクタバンドの各々に対応するように定められる、
付記１５の符号化音判定装置。
（付記１７）
前記符号化の種類が複数存在し、
前記所定周波数帯域が、複数の前記符号化の種類の各々のスケールファクタバンドの各々に対応するように定められる、
付記１６の符号化音判定装置。
（付記１８）
同一の周波数帯域境界で隣接する所定周波数帯域の音信号の強さの相違を表す値が、所定時間以上、第１所定値を超える場合、前記音信号は符号化音であると判定する、
付記１５～付記１７の何れかの符号化音判定装置。
（付記１９）
前記判定部は、隣接する所定周波数帯域の音信号の強さの相違を表す値が第２所定値を超えた後、前記値が前記第２所定値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域の強さを表す値が、所定回数以上、前記第２所定値以下になるまで、前記音信号が符号化音であるか否か判定する処理を繰り返す、
付記１５～付記１８の何れかの符号化音判定装置。
（付記２０）
前記判定部は、前記音信号の信号対雑音比が第３所定値を超えた場合、前記音信号が符号化音であるか否か判定する処理を行う、
付記１５～付記１９の何れかの符号化音判定装置。

１０符号音判定装置
１４周波数帯域単位エッジ度算出部
１５符号化音判定部
５１ＣＰＵ
５２一次記憶部
５３二次記憶部

Claims

音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得し、
周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行い、
前記音信号の強さの相違を表す値は、前記所定周波数帯域の前記音信号のパワーを所定数のフレーム分加算し、前記所定数で除算した時間方向平均値を算出し、前記所定周波数帯域に含まれる周波数単位の前記時間方向平均値を加算し、前記所定周波数帯域に含まれる前記周波数単位の数で除算することで算出される、
符号化音判定処理をコンピュータに実行させるためのプログラム。
前記所定周波数帯域が、音信号の符号化の種類によって定められるスケールファクタバンドの各々に対応するように定められる、
請求項１に記載のプログラム。
前記符号化の種類が複数存在し、
前記所定周波数帯域が、複数の前記符号化の種類の各々のスケールファクタバンドの各々に対応するように定められる、
請求項２に記載のプログラム。
同一の周波数帯域境界で隣接する所定周波数帯域の音信号の強さの相違を表す値が、所定時間以上、第１所定値を超える場合、前記音信号は符号化音であると判定する、
請求項１～請求項３の何れか１項に記載のプログラム。
隣接する所定周波数帯域の音信号の強さの相違を表す値が第２所定値を超えた後、前記値が前記第２所定値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域の強さの相違を表す値が、所定回数以上、前記第２所定値以下になるまで、前記音信号が符号化音であるか否か判定する処理を繰り返す、
請求項１～請求項４の何れか１項に記載のプログラム。
前記音信号の信号対雑音比が第３所定値を超えた場合、前記音信号が符号化音であるか否か判定する処理を行う、
請求項１～請求項４の何れか１項に記載のプログラム。
コンピュータが、
音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得し、
周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行い、
前記音信号の強さの相違を表す値は、前記所定周波数帯域の前記音信号のパワーを所定数のフレーム分加算し、前記所定数で除算した時間方向平均値を算出し、前記所定周波数帯域に含まれる周波数単位の前記時間方向平均値を加算し、前記所定周波数帯域に含まれる前記周波数単位の数で除算することで算出される、
符号化音判定方法。
音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得する取得部と、
周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行う判定部と、
を含み、
前記音信号の強さの相違を表す値は、前記所定周波数帯域の前記音信号のパワーを所定数のフレーム分加算し、前記所定数で除算した時間方向平均値を算出し、前記所定周波数帯域に含まれる周波数単位の前記時間方向平均値を加算し、前記所定周波数帯域に含まれる前記周波数単位の数で除算することで算出される、
符号化音判定装置。