JP7056340B2 - 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置 - Google Patents

符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置 Download PDF

Info

Publication number
JP7056340B2
JP7056340B2 JP2018076734A JP2018076734A JP7056340B2 JP 7056340 B2 JP7056340 B2 JP 7056340B2 JP 2018076734 A JP2018076734 A JP 2018076734A JP 2018076734 A JP2018076734 A JP 2018076734A JP 7056340 B2 JP7056340 B2 JP 7056340B2
Authority
JP
Japan
Prior art keywords
sound
sound signal
predetermined
frequency band
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018076734A
Other languages
English (en)
Other versions
JP2019184867A (ja
Inventor
晃 釜野
政直 鈴木
信之 鷲尾
洋平 岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018076734A priority Critical patent/JP7056340B2/ja
Priority to US16/361,534 priority patent/US11081120B2/en
Publication of JP2019184867A publication Critical patent/JP2019184867A/ja
Application granted granted Critical
Publication of JP7056340B2 publication Critical patent/JP7056340B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/316User authentication by observing the pattern of computer usage, e.g. typical user behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Description

本発明は、符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置に関する。
生活空間において音声で操作が可能な音声サービスが増えつつある。しかしながら、生活空間に存在する様々な音声が、音声サービスの基礎である音声認識において誤認識の原因となり、ユーザエクスペリエンスを低下させる。生活空間に存在する音声がユーザの肉声と誤認識され、意図しないサービスが行われる可能性が存在するためである。
例えば、音声によるユーザ認証を行う音声サービスにおいて、録音音声で認証を行わせることを意図して、ユーザの肉声の代わりに録音音声が再生される場合、無音区間において、再生開始時点から有音開始時点までの間で、音信号の音圧の増加が検出される。無音区間において、録音音声の再生開始時点から暗騒音が重畳されるためである。録音音声で認証が行われることを防止するために、当該暗騒音の重畳による音信号の音圧の増加に基づいて、録音音声であることを判定する技術が存在する。
特開2007-264507号公報
生活空間では、テレビまたはラジオから出力される放送音が存在することが多いが、放送音である場合、音が連続して再生されるため、ユーザ認証のために再生が開始される録音音声と異なり、暗騒音の重畳による音信号の音圧の増加を検出することは困難である。したがって、上記技術では、放送音、即ち、符号化音と肉声とを区別することが困難である、という問題がある。
本発明は、1つの側面として、符号化音の判定精度を向上させることを目的とする。
1つの実施形態では、音信号から算出される周波数に対応する音信号の強さを示す情報を取得し、周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる音信号の強さの相違の有無に基づいて、音信号が符号化音であるか否かを判定する処理を行う。
1つの側面として、符号化音の判定精度を向上させることが可能となる。
符号化音判定装置の要部機能を例示する。 符号化音判定装置を含む環境を例示する。 周波数帯域単位エッジ度算出部の要部機能を例示する。 肉声のパワースペクトルを例示する。 符号化音のパワースペクトルを例示する。 符号化音のパワースペクトルと所定周波数帯域単位とを例示する。 符号化音判定装置のハードウェア構成を例示する。 第1及び第2実施形態の符号化音判定処理の流れを示すフローチャートを例示する。 過去平均パワー算出処理の流れを示すフローチャートを例示する。 エッジ度算出処理の流れを示すフローチャートを例示する。 符号化音のパワースペクトルを例示する。 符号化音のパワースペクトルを例示する。 符号化音のパワースペクトルを例示する。 符号化音のパワースペクトルを例示する。 符号化音の周波数サンプル単位のΔパワーを例示する。 符号化音の隣接する所定周波数帯域単位のエッジ度を例示する。 スケールファクタバンドの各々の境界位置を例示する。 第3実施形態の符号化音判定処理の流れを示すフローチャートを例示する。 符号化音の境界周波数付近のパワースペクトル及び偽の境界周波数付近のパワースペクトルを例示する。 符号化音の隣接する所定周波数帯域単位のエッジ度を例示する。 肉声の隣接する所定周波数帯域単位のエッジ度を例示する。 複数のスケールファクタバンドテーブルを例示する。 第4実施形態の符号化音判定処理の流れを示すフローチャートを例示する。 第5実施形態の符号化音判定処理の流れを示すフローチャートを例示する。 第6実施形態の符号化音判定処理の流れを示すフローチャートを例示する。 録音音声を判定する関連技術を説明するための音圧の変動を例示する。 録音音声を判定する関連技術を説明するための音圧の変動を例示する。 録音音声を判定する関連技術を説明するための音圧の変動を例示する。
[第1実施形態]
以下、図面を参照して第1実施形態の一例を詳細に説明する。
図1Aに、符号化音判定装置10の要部機能を例示する。符号化音判定装置10は、取得部の一例である時間周波数変換部13、判定部の一例である周波数帯域単位エッジ度算出部14、及び、符号化音判定部15を含む。
時間周波数変換部13は、取得した音を音信号に変換するマイクロフォン(以下、マイクという。)20に接続され、所定時間分の音信号のパワーを読み込み、音信号のパワーを時間周波数変換し、音信号の周波数とパワーとの関係を求める。音信号のパワーは、音信号の強さの一例である。所定時間分の音信号とは、例えば、1フレーム分の音信号である。音信号の強さは、例えば、音信号の音圧の絶対値であってもよい。
1フレームは、例えば、サンプリング周波数が48[kHz]である場合、1024サンプルであるとすると、約21.3[ms]である。しかしながら、1フレームは、サンプリング周波数及び符号化条件などに応じて、例えば、10~50[ms]であってよい。複数のフレームの音信号を時間周波数変換することで、時間と、周波数及びパワーとの関係が求められる。
周波数帯域単位エッジ度算出部14は、図2に例示するように、過去平均パワー算出部14A及び隣接周波数帯域パワー比算出部14Bを含む。過去平均パワー算出部14Aは、現フレームから過去の所定数フレーム分の音信号のパワーの平均値を周波数サンプル毎に算出する。詳細には、過去平均パワー算出部14Aは、フレーム毎かつ周波数サンプル毎に音信号のパワーPt,kを算出する。tは、フレーム番号を表し、kは周波数サンプル番号を表す。
過去平均パワー算出部14Aは、過去Mフレーム分のパワーPt,kの平均値を、(1)式を使用して算出する。Mはフレームの所定数を表す。過去Mフレーム分のパワーPt,kの平均値は、時間方向平均値の一例である。
Figure 0007056340000001

所定フレーム数Mは、例えば、5フレームである。しかしながら、例えば、レスポンスタイムに応じて、所定フレーム数Mは1フレームであってもよいし、2~4、または6フレーム以上であってもよい。
隣接周波数帯域パワー比算出部14Bは、周波数サンプル毎に算出されたパワーの平均値に基づいて、所定周波数帯域単位毎のパワーの平均値を算出し、隣接する所定周波数帯域単位のパワーの平均値の比の対数をエッジ度として算出する。所定周波数帯域単位は、所定周波数帯域の一例である。エッジとは、周波数方向で音信号の強さが急に変化している箇所であり、エッジ度は、周波数方向で音信号の強さが変化する程度を表す。エッジ度は、周波数方向に隣接する所定周波数帯域単位の強さの平均の相違を表す値の一例である。
隣接周波数帯域パワー比算出部14Bは、(1)式で算出した音信号のパワーの平均値を、(2)式に示すように、所定数Fcの周波数サンプル分ずつ加算して所定数Fcで除算することで、所定周波数帯域単位毎のパワーの平均値を算出する。nは所定周波数帯域単位の各々を表す番号であり、0以上の整数である。
Figure 0007056340000002
隣接周波数帯域パワー比算出部14Bは、隣接する所定周波数帯域単位の音信号のパワーの平均値の相違であるエッジ度Eを、(3)式を使用して算出する。
Figure 0007056340000003
(3)式では、エッジ度Eは、隣接する所定周波数帯域単位の音信号のパワーの平均値の相違が小さくなるほど0に近い値となる。しかしながら、例えば、エッジ度Eを、(4)式を使用して算出してもよい。
Figure 0007056340000004
エッジ度は、隣接する所定周波数帯域単位の音信号のパワーの平均値の比の対数で表される。なお、エッジ度は、音信号のパワーの平均値の対数から音信号のパワーの平均値の対数を減算した値で表されてもよい。
符号化音判定部15は、周波数帯域単位エッジ度算出部14で算出したエッジ度に基づいて、音信号が符号化音であるか否か判定し、判定結果を出力する。判定結果は、例えば、スマートスピーカなどの音声で操作される音声操作装置などに入力される。
図1Bは、符号化音判定装置10を含む環境を例示する。符号化音判定装置10は、例えば、テレビ12などの放送音即ち、符号化音を出力する機器が存在し、ユーザがスマートスピーカ11などの音声操作装置に対して発声することが期待される環境で使用される。符号化音判定装置10と、スマートスピーカ11とは、有線または無線によって接続され、符号化音判定装置10から出力される判定結果は、当該接続を介して、スマートスピーカ11に入力される。
図3に、肉声の音信号のパワースペクトルを例示し、図4に、符号化音の音信号のパワースペクトルを例示する。図3及び図4において、縦軸は周波数を表し、横軸は時間を表す。パワーは、大きいほど白に近い明るい色で表され、小さいほど黒に近い暗い色で表される。
音信号の符号化では、所定のビットレート内に情報量を低減するために境界周波数以上の高域の音信号を抑制する。したがって、図4に例示する符号化音では、境界周波数を示す破線より高域には、音信号が存在しない。一方、図3に例示する肉声では、音信号が存在しなくなる境界周波数が存在しない。
図5は、符号化音のパワースペクトルと所定周波数帯域単位との関係を例示する。符号化音では、境界周波数を表す破線の下の所定周波数帯域単位SBの音信号のパワーの平均値と、破線の上の所定周波数帯域単位SBの音信号のパワーの平均値との相違が、他の隣接する所定周波数帯域単位の音信号のパワーの平均値の相違よりも大きくなる。
符号化音判定部15は、例えば、(3)式で算出されるEの何れかが第1所定値の一例である閾値を超える場合に、音信号が符号化音であると判定する。
なお、(3)式及び(4)式は、例示であり、隣接する所定周波数帯域単位のパワーの平均値の比の対数ではなく、隣接する所定周波数帯域単位のパワーの平均値の比であってもよい。また、隣接する所定周波数帯域単位のパワーの平均値の比に代えて、隣接する所定周波数帯域単位の音信号のパワーの平均値の差であってもよい。音信号が符号化音であるか否か判定するための閾値は、隣接する所定周波数帯域単位の音信号のパワーの平均値の相違を算出する式に応じて適切な値を設定する。
図6に符号化音判定装置10のハードウェア構成を例示する。符号化音判定装置10は、ハードウェアであるプロセッサの一例であるCPU(Central Processing Unit)51、一次記憶部52、二次記憶部53、及び、外部インターフェイス54を含む。
CPU51、一次記憶部52、二次記憶部53、及び外部インターフェイス54は、バス59を介して相互に接続されている。
一次記憶部52は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部53は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。
二次記憶部53は、プログラム格納領域53A及びデータ格納領域53Bを含む。プログラム格納領域53Aは、一例として、符号化音判定処理をCPU51に実行させるための符号化音判定プログラムなどのプログラムを記憶している。データ格納領域53Bは、マイク20で取得された音に対応する音信号、符号化音判定処理において一時的に生成される中間データ、などを記憶する。
CPU51は、プログラム格納領域53Aから符号化音判定プログラムを読み出して一次記憶部52に展開する。CPU51は、符号化音判定プログラムを実行することで、図1の時間周波数変換部13、周波数帯域単位エッジ度算出部14、及び符号化音判定部15として動作する。なお、符号化音判定プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して読み込まれ、一次記憶部52に展開されてもよい。
外部インターフェイス54には、外部装置が接続され、外部インターフェイス54は、外部装置とCPU51との間の各種情報の送受信を司る。例えば、符号化音判定装置10は、外部インターフェイス54を介して、音を取得するマイク20と接続されている。しかしながら、マイク20は符号化音判定装置10に内蔵されていてもよい。
例えば、符号化音判定装置10は、外部インターフェイス54を介して、音を発生するスピーカ29と接続されている。スピーカ29は、例えば、判定結果、即ち、音声が符号化音であるか否かを、音声、または、アラーム音などで報知してもよい。また、スピーカ29は、音声操作装置の一例であるスマートスピーカ11であってもよく、スマートスピーカ11は、音声が符号化音であるか否かを示す判定結果に基づいて、音声操作を行うか否かを決定してもよい。スピーカ29は符号化音判定装置10に内蔵されていてもよい。
次に、符号化音判定装置10の作用について説明する。図7に、符号化音判定装置10で行われる符号化音判定処理の流れを示すフローチャートを例示する。CPU51は、ステップ101で、1フレーム分の音信号を読み込む。CPU51は、ステップ102で、音信号を時間周波数変換する。時間周波数変換は、例えば、FFT(Fast Fourier Transformation)であってよい。
CPU51は、ステップ103で、フレーム番号tの音信号の周波数サンプル番号k毎の音信号のパワーPt,kを算出する。フレーム番号tには現在のフレームのフレーム番号が設定され、周波数サンプル番号kは0から1ずつ加算される。CPU51は、ステップ104で、ステップ101で読み込まれたフレームの数が所定フレーム数Mを超えているか判定する。ステップ104の判定が否定された場合、即ち、フレームの数が所定フレーム数Mを超えていない場合、CPU51はステップ101に戻る。
ステップ104の判定が肯定された場合、即ち、フレームの数が所定フレーム数Mを超えた場合、CPU51は、ステップ105で、過去Mフレーム分のパワーの平均値を算出し、ステップ106で、エッジ度を算出する。ステップ105及びステップ106については、後述する。CPU51は、ステップ107で、算出したエッジ度に基づいて、音信号が符号化音であるか否か判定する。図7の符号化音判定処理は、所定回数、繰り返されてもよい。
図8に、図7のステップ105の過去平均パワー算出処理の流れを示すフローチャートを例示する。CPU51は、ステップ111で、現在のフレームのフレーム番号tからのフレーム位置を表す変数i及び周波数サンプル番号を表す変数kに0をセットする。CPU51は、ステップ112で、変数kの値が周波数サンプル数N未満であるか否か判定する。周波数サンプル数Nは、サンプリング周波数が48[kHz]で、1フレーム1024サンプル(約21.3[ms])である場合、512である。
ステップ112の判定が否定された場合、即ち、変数kの値がN以上である場合、CPU51は過去平均パワー算出処理を終了する。ステップ112の判定が肯定された場合、即ち、変数kの値がN未満である場合、CPU51は、ステップ113で、変数iの値が所定フレーム数M未満であるか否か判定する。
ステップ113の判定が肯定された場合、即ち、変数iの値が所定フレーム数M未満である場合、CPU51は、ステップ114で、t-i番目のフレームの周波数サンプル番号がkであるパワーが累積されるように加算する。CPU51は、ステップ115で、変数iの値に1を加算し、ステップ113に戻る。即ち、ステップ113~ステップ115において、周波数サンプル番号がkである音信号のパワーがMフレーム分累積される。
ステップ113の判定が否定された場合、CPU51は、ステップ116で、(1)式に例示するように、Mフレーム分累積された周波数サンプル番号がkであるパワーを所定フレーム数Mで除算することで、周波数サンプル毎のパワーの平均値を算出する。ステップ113の判定が否定された場合とは、変数iの値がM以上である場合である。CPU51は、ステップ117で、変数kの値に1を加算し、ステップ112に戻る。
図9は、図7のステップ106のエッジ度算出処理の流れを示すフローチャートを例示する。CPU51は、ステップ121で、所定周波数帯域単位の番号を表す変数nに1を設定する。CPU51は、ステップ122で、変数nの値がL未満であるか否か判定する。Lは、所定周波数帯域単位の総数を表す値である。ステップ122の判定が否定された場合、即ち、変数nの値がL以上である場合、CPU51はエッジ度算出処理を終了する。
ステップ122の判定が肯定された場合、即ち、変数nの値がL未満である場合、CPU51は、ステップ123で、隣接する所定周波数帯域単位のエッジ度を算出する。詳細には、(2)式で例示するように、n番目及びn+1番目の所定周波数帯域単位のパワーの平均値を算出し、(3)式で例示するように、n番目及びn+1番目の周波数帯域の比の対数を算出する。CPU51は、ステップ124で、変数nの値に1を加算して、ステップ122に戻る。
符号化音では境界周波数以上の音信号のパワーが抑制されているが、境界周波数は、音信号を符号化する際の符号化の種類、即ち、使用するエンコーダの種類または符号化条件などによって異なる。図10及び図11に異なるエンコーダで符号化した音信号のパワースペクトルを例示する。図10のエンコーダAで符号化された音信号では、破線SUPAが境界周波数を表し、図11のエンコーダBで符号化された音信号では、破線SUPBが境界周波数を表す。
第1実施形態のように、複数の周波数サンプルを含む所定周波数帯域単位ではなく、隣接する単一の周波数サンプルでエッジ度を求めても、符号化音であれば、境界周波数で閾値を超えるエッジ度が現れる。図13は、図12でパワースペクトルを例示する符号化音に破線の矩形で例示する1フレームにおける音信号のパワーと周波数との関係を例示する。図13の縦軸はパワーを表し、横軸は周波数を表す。
図14は、図13で隣接する単一の周波数サンプルのパワーの差であるΔパワーと周波数との関係を例示する。図14の縦軸はΔパワーを表し、横軸は周波数を表す。図14に例示されるように、ΔパワーEBはΔパワーEAより大きい。ΔパワーEBは図13のパワーEBPに対応し、ΔパワーEAは図13のパワーEAPに対応する。
図13のパワーEBP及びEAPの前後の周波数におけるパワーから明らかなように、境界周波数に対応するΔパワーはEAであり、ΔパワーEBは境界周波数に対応するΔパワーではない。即ち、隣接する単一の周波数サンプル単位でエッジ度を求めると、偽の境界周波数を検出することで、誤判定が生じる虞がある。
第1実施形態では、エッジ度として隣接する所定周波数帯域単位のパワーの平均値の相違を表す値を算出する。図15は、エッジ度と所定周波数帯域単位との関係を例示する。図15の縦軸はエッジ度を表し、横軸は所定周波数帯域単位の番号を表す。図15では、境界周波数付近で隣接する所定周波数帯域単位のエッジ度だけが破線で表される閾値を超える。
図13に例示されるように、偽の境界周波数付近では、瞬間的にパワーが減少した後、すぐに元のパワーまで戻る。エッジ度として周波数方向に隣接する所定周波数帯域単位のパワーの平均値の相違を表す値を使用することで、周波数方向のパワーの変化が平滑化され、偽の境界周波数付近のエッジ度が抑圧される。したがって、偽の境界周波数付近で隣接する所定周波数帯域単位のエッジ度は閾値を超えない。これにより、偽の境界周波数を境界周波数であると判定する誤判定が生じる虞を低減することができる。
第1実施形態では、音信号から算出される周波数に対応する音信号の強さを示す情報を取得し、周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる音信号の強さの相違の有無に基づいて、音信号が符号化音であるか否かを判定する処理を行う。
符号化音では、境界周波数以上の音信号が抑制されているため、境界周波数の上下で隣接する所定周波数帯域単位の強さの平均値は、他の隣接する所定周波数帯域単位の強さの平均値より大きい。これにより、第1実施形態では、符号化音が放送音などの継続的に再生される音であっても符号化音であることを判定することが可能となり、符号化音の判定精度を向上させることができる。
また、第1実施形態では、短時間、例えば、1[s]以下の音信号で、符号化音を判定することができる。
[第2実施形態]
以下、図面を参照して第2実施形態の一例を詳細に説明する。第1実施形態と同様の構成及び作用については、同様の参照符号を使用して説明を省略する。
第2実施形態では、図5に例示する所定周波数帯域単位が、スケールファクタバンド(以下、SFB(Scale Factor Band))の各々に対応するように定められる点で、第1実施形態と異なる。SFBは、量子化誤差と聴覚特性との関係により幅及び境界位置が決定されるサブバンドであり、テレビ及びラジオなどの放送音では、符号化の規格で定義されている。
図16に、SFBの境界位置SlとSFB番号lとの関係を表すグラフを例示する。縦軸は周波数のサンプル番号で表されるSFBの境界位置Slを表し、横軸はSFB番号を表す。Sl及びlは0以上の整数である。放送音は、AAC-LC(Advanced Audio Coding - Low Complexity)で符号化され、SFBは規格ISO(International Organization for Standardization)/IEC(International Electrotechnical Commission) 13818-7で定められている。例えば、AAC-LC符号化で、サンプリング周波数が48[kHz]である場合、SFBの数は49個である。
第2実施形態では、(5)式に示すように、(1)式で算出した音信号のパワーの平均値をSFB毎に加算してSFBに含まれる周波数サンプル数で除算することで、SFB毎のパワーの平均値を算出する。また、(6)式に示すように、隣接するSFBの音信号のパワーの平均値の相違であるエッジ度ETを算出する。
Figure 0007056340000005
放送音の符号化は、SFBの境界位置で帯域制限するため、境界周波数は隣接するSFBの境界位置に存在する。したがって、所定周波数帯域単位が、SFBの各々に対応するように定めることで、境界周波数上下で隣接する周波数帯域単位のパワーの相違であるエッジ度が強調され、境界周波数以外で隣接する周波数帯域単位のパワーの相違であるエッジ度は抑制される。これにより、第2実施形態では、偽の境界周波数を境界周波数であると誤判定する虞が低減され、符号化音の判定精度をより向上させることができる。
[第3実施形態]
以下、図面を参照して第3実施形態の一例を詳細に説明する。第1実施形態または第2実施形態と同様の構成及び作用については同様の参照符号を使用して説明を省略する。
第3実施形態では、閾値を超えるエッジ度が、同一の周波数帯域境界で長期間継続する場合、符号化音であると判定する点で、第1または第2実施形態と異なる。長期間とは、例えば、0.5[s]である。
図17に、第3実施形態の流れを示すフローチャートを例示する。CPU51は、ステップ201で、エッジ度が閾値を超えない処理回数をカウントする変数m2に0をセットする。CPU51は、ステップ202で、エッジ度が閾値を超える処理回数をカウントする変数m1に0をセットする。
CPU51は、ステップ203で、変数m1の値が所定値Tc1未満であるか否かを判定する。ステップ203の判定が肯定された場合、即ち、変数m1の値が所定値Tc1未満である場合、CPU51は、ステップ204で、変数m2の値が所定値Tc2未満であるか否か判定する。
ステップ204の判定が肯定された場合、即ち、変数m2の値が所定値Tc2未満である場合、CPU51は、ステップ205に進む。ステップ205~ステップ210は、図7のステップ101~106と同様であるため、説明を省略する。
CPU51は、ステップ211で、隣接する所定周波数帯域単位のパワーの平均値の相違、即ち、エッジ度の何れかが閾値を越えるか否か判定する。変数m1の値が1以上である場合、ステップ211では、前回の処理でエッジ度が閾値を越えると判定された周波数帯域境界と同一の周波数帯域境界のエッジ度が閾値を越えるか否か判定する。変数m1の値が1以上である場合とは、前回の符号化音判定処理で、何れかの周波数帯域境界のエッジ度が閾値を超えると判定されていた場合である。
ステップ211の判定が肯定された場合、CPU51は、ステップ212で、変数の値m1に1を加算し、ステップ203に戻る。ステップ211の判定が否定された場合、CPU51は、ステップ213で、変数m2の値に1を加算し、ステップ202に戻る。
ステップ203の判定が否定された場合、または、ステップ204の判定が否定された場合、CPU51は、ステップ214で、符号化音判定を行い、符号化音判定処理を終了する。即ち、変数m1の値が所定値Tc1以上である場合、または、変数m2の値が所定値Tc2以上である場合、ステップ214に進む。ステップ214では、変数m1の値が所定値Tc1以上である場合、音信号が符号化音であると判定し、変数m2の値が所定値Tc2以上である場合、音信号は符号化音ではないと判定し、符号化音判定処理を終了する。
第3実施形態は、第1実施形態に適用されてもよいし、第2実施形態に適用されてもよい。
図18は、境界周波数付近の音信号のパワーECP、及び、偽境界周波数付近の音信号のパワーEDPを例示する。図19Aは、図18のパワースペクトルに対応する図であり、エッジ度、周波数、及び時間の関係を例示し、縦軸はエッジ度、横軸は周波数、紙面手前から奥に向かう軸は時間を表す。
境界周波数付近のパワーECPに対応するエッジECは時間方向に長期間ほぼ同様の大きなエッジ度を保ち、偽境界周波数付近のパワーEDPに対応するエッジEDは時間方向に瞬間的に大きなエッジ度を示す。即ち、境界周波数付近のパワーECPに対応するエッジECは、例えば、0.5[s]以上、ほぼ同様の大きなエッジ度を保ち、偽境界周波数付近のパワーEDPに対応するエッジEDは、例えば、0.1~0.2[s]しか大きなエッジ度を示さない。
図19Bは、肉声のエッジ度、周波数、及び時間の関係を例示する。図19Bでは、図19Aと異なり、長期間ほぼ同様に保たれている大きなエッジ度は存在していない。一方、上記したように、境界周波数付近の音信号のパワーに対応するエッジは時間方向に長期間ほぼ同様の大きなエッジ度を保つ。したがって、第3実施形態では、閾値を超えるエッジ度が、同一の周波数帯域境界で長期間継続する場合、符号化音であると判定する。
これにより、第3実施形態では、偽境界周波数を境界周波数であると誤判定する虞を低減することが可能となり、符号化音の判定制度を向上させることができる。
[第4実施形態]
以下、図面を参照して、第4実施形態の一例を詳細に説明する。第1~第3実施形態と同様の構成及び作用については同様の参照符号を使用して説明を省略する。
第4実施形態は、音信号の符号化の種類が複数存在し、何れの符号化の種類で音信号が符号化されているか不明な場合に対応する。第4実施形態では、図20に例示するように、想定される複数種類の符号化の各々に対応するSFBテーブル1~Uを予め二次記憶部53のデータ格納領域53Bに用意し、SFBテーブル1~Uを使用して、エッジ度を算出する。
Uは2以上の整数であり、使用するSFBテーブルの総数を表す。SFBテーブル1~Uの各々には、符号化の種類1~Uの各々で定められたSFBの境界位置とSFBの番号とが対応付けて記憶されている。
第4実施形態では、(7)式に示すように、(1)式で算出した音信号のパワーの平均値をSFBテーブル1~Uの各々のSFB毎に加算してSFBに含まれる周波数サンプル数で除算することで、SFBテーブル毎かつSFB毎のパワーの平均値を算出する。また、(8)式に示すように、隣接するSFBの音信号のパワーの平均値の相違であるエッジ度EVb,lを算出する。bは1~Uの整数であり、SFBテーブルの番号を表す。
Figure 0007056340000006
図21に、第4実施形態の処理の流れを示すフローチャートを例示する。ステップ301~305は、図7のステップ101~105と同様であるため、説明を省略する。CPU51は、ステップ306で、SFBテーブルの番号を表す変数bに0をセットする。CPU51は、ステップ307で、変数bの値がSFBテーブルの総数を表す値U未満であるか否か判定する。
ステップ307の判定が肯定された場合、CPU51は、ステップ308で、変数bの値に1を加算し、ステップ309で、(7)式及び(8)式を使用して、隣接するSFBのエッジ度を算出し、ステップ307に戻る。ステップ307の判定が否定された場合、即ち、変数bの値がU以上である場合、CPU51は、ステップ310に進む。ステップ307~309で、SFBテーブル1~Uの各々の全ての隣接するSFBのエッジ度が算出される。
CPU51は、ステップ310で、エッジ度の何れかが所定値を超えた場合、音信号が符号化音であると判定する。図21の符号化音判定処理は、所定回数、繰り返されてもよい。
第4実施形態には、第2実施形態、第3実施形態、または、第2実施形態と第3実施形態の組み合わせを適用することができる。
第4実施形態では、符号化の種類が複数存在し、所定周波数帯域単位は、複数の符号化の種類の各々のSFBの各々に対応するように定められる。
これにより、第4実施形態では、複数種類の符号化の何れで音信号の符号化が行われている場合でも、隣接するSFBの境界に存在するエッジのエッジ度を強調し、SFBの境界以外に存在するエッジを抑圧する。したがって、本実施形態では、偽の境界周波数を境界周波数であると誤判定する可能性を低減し、符号化音の判定精度を向上させることができる。
[第5実施形態]
以下、図面を参照して、第5実施形態の一例を詳細に説明する。第1~第4実施形態と同様の構成及び作用については同様の参照符号を使用して説明を省略する。
第5実施形態では、隣接する所定周波数帯域単位のエッジ度が処理閾値を超えると、符号音判定の繰り返しを開始し、隣接する所定周波数帯域単位のエッジ度が処理閾値以下である状態が継続すると符号音判定の繰り返しを終了する。
図22は、第5実施形態の処理の流れを示すフローチャートを例示する。ステップ401~ステップ406は、図7のステップ101~106と同様であるため、説明を省略する。CPU51は、ステップ407で、隣接する周波数帯域のエッジ度の何れかが処理閾値を越えるか否か判定する。この処理閾値は、第2所定値の一例であり、符号化音判定に使用される閾値と同じ値であってもよいし、異なる値であってもよい。ステップ407の判定が否定されると、即ち、全てのエッジ度が処理閾値以下である場合、CPU51は、ステップ401に戻る。
ステップ407の判定が肯定されると、即ち、エッジ度の何れかが処理閾値を超える場合、CPU51は、ステップ408で、符号化音判定を行う。ステップ408は、図7のステップ107と同様であるため、説明を省略する。CPU51は、ステップ409で、エッジ度が処理閾値以下である回数をカウントする変数m3に0をセットする。
ステップ410~ステップ415は、図7のステップ101~ステップ106と同様であるため、説明を省略する。ステップ416では、ステップ408で、エッジ度が閾値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域単位のエッジ度が閾値を超える場合、符号化音であると判定する。
CPU51は、ステップ417で、ステップ408で、エッジ度が閾値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域単位のエッジ度が処理閾値を越えるか否か判定する。ステップ417の判定が肯定されると、即ち、エッジ度が処理閾値を超える場合、CPU51はステップ409に戻る。
ステップ417の判定が否定されると、即ち、エッジ度が処理閾値以下である場合、CPU51は、ステップ418で、変数m3に1を加算し、ステップ419で、変数m3の値が所定値Tc3未満であるか否か判定する。ステップ419の判定が肯定される場合、即ち、変数m3の値が所定値Tc3未満である場合、CPU51は、ステップ410に戻る。
ステップ419の判定が否定されると、即ち、変数m3の値が所定値Tc3以上である場合、CPU51は、符号化音判定処理を終了する。
なお、ステップ407では、何れかのエッジ度が閾値を超えた場合に限定されず、同一の周波数帯域境界で隣接する所定周波数帯域単位のエッジ度が処理閾値を超える頻度が所定の頻度を超えた場合に、ステップ408に進むようにしてもよい。
また、ステップ417~419では、エッジ度が処理閾値以下である回数が所定値以上である場合に、符号化音判定処理を終了する。しかしながら、同一の周波数帯域境界で隣接する所定周波数帯域単位のエッジ度が処理閾値を超える頻度が所定の頻度以下である場合に、符号化音判定処理を終了するようにしてもよい。
第5実施形態は、第1~第4実施形態の何れか、第1実施形態と第3実施形態との組み合わせ、第2実施形態と第3実施形態との組み合わせ、第2実施形態~第4実施形態の組み合わせに適用可能である。
第5実施形態では、隣接する所定周波数帯域単位のエッジ度の何れかが処理閾値を超えると、符号音判定の繰り返しを開始し、エッジ度が処理閾値以下である回数が所定値以上である場合に符号音判定の繰り返しを終了する。
これにより、第5実施形態では、テレビまたはラジオなどの符号化音を出力する機器が稼動している間、符号化音判定を繰り返すことができる。
[第6実施形態]
以下、図面を参照して、第6実施形態の一例を詳細に説明する。第1~第5実施形態と同様の構成及び作用については同様の参照符号を使用して説明を省略する。
第6実施形態では、信号対雑音比(以下、SNR(Signal to Noise Ratio)という。)が閾値を超える場合に、符号化音判定を行い、SNRが閾値以下である場合、符号化音判定を行わない。
図23に、第6実施形態の処理の流れを示すフローチャートを例示する。ステップ501は、図7のステップ101と同様であるため、説明を省略する。CPU51は、ステップ502で音信号と背景雑音との比であるSNRを既存の方法で算出し、ステップ503でSNRが第3所定値の一例である閾値を超えるか否か判定する。ステップ503の判定が否定された場合、即ち、SNRが閾値以下である場合、CPU51は、符号化音判定処理を終了する。
ステップ503の判定が肯定された場合、即ち、SNRが閾値を超えた場合、CPU51は、ステップ504に進む。ステップ504~509は、図7のステップ102~107と同様であるため、説明を省略する。CPU51は、ステップ504~509を実行した後、符号化音判定処理を終了する。図23の符号化音判定処理は、所定回数、繰り返されてもよい。
第6実施形態は、第1~第5実施形態の何れか、第1実施形態と第3実施形態との組み合わせ、第1実施形態、第3実施形態、及び第5実施形態の組み合わせに適用可能である。第6実施形態は、また、第2実施形態と第3実施形態との組み合わせ、第2実施形態~第4実施形態の組み合わせ、第2実施形態~第5実施形態の組み合わせに適用可能である。
第6実施形態では、音信号のSNRが閾値を超えた場合、符号化音判定を行い、SNRが閾値以下である場合、符号化音判定を行わない。SNRが大きい場合、音信号に対して背景雑音が小さく、エッジの検出が容易であるためであり、一方、SNRが小さい場合、音信号に対して背景雑音が大きく、エッジの検出が困難であるためである。第6実施形態では、エッジの検出が容易である場合に符号化音判定を行うことで、エッジが誤検出される虞を低減し、符号化音の判定精度を向上させることができる。
なお、図7、図8、図9、図17、図21、図22、及び、図23のフローチャートは一例であり、処理の順序は、これらのフローチャートに示された処理の順序に限定されない。
第1~第6実施形態において、符号化音判定装置10は、図1に例示するように、音信号が符号化音であるか否かを示す判定結果を出力する。判定結果は、例えば、スマートスピーカなどの音声で操作される音声操作装置に入力される。
判定結果が、音信号が符号化音であることを示す場合、音声操作装置は、テレビまたはラジオなどの符号化音を出力する装置の音量を下げるよう、図6に例示するスピーカ29などの音声出力装置を介して音声で報知する。報知は、ディスプレイなどの文字または画像出力装置を介して、文字または画像で行われてもよい。この場合、音声操作装置は、音声認識などの音声操作に付随する処理は行わない。
符号化音判定装置10の判定結果を受け取る装置は、音声操作装置に限定されず、例えば、音声でユーザ認証を行う音声認証装置であってもよい。判定結果が、音信号が符号化音であることを示す場合、音声認証装置は、音声出力装置、文字出力装置、または画像出力装置を介して、認証に使用された音が不適切であることを音声、文字、または画像で報知する。この場合、音声認証装置は、発話区間の検出などの音声認証に付随する処理は行わない。
また、符号化音判定装置10の判定結果を受け取る装置が、例えば、独居者などの安全確認を行う安全確認システムである場合、判定結果が、音信号が符号化音であることを示す場合、テレビまたはラジオなどの符号化音を出力する装置が稼動されていると判定する。安全確認システムは、当該判定結果に基づいて、ユーザに異常がないか否かの判定を行い、音声出力装置、文字出力装置、または画像出力装置を介して、ユーザの状態を、音声、文字、または画像で、例えば、システムの管理者に報知する。
符号化音判定装置10の判定結果は、二次記憶部53のデータ格納領域53Bに、例えば、時間と対応付けて蓄積されてもよい。また、符号化音判定装置10の判定結果は、外部インターフェイス54を介して接続される外部記憶装置に、例えば、時間と対応付けて蓄積されてもよい。
[関連技術]
録音音声で認証が行われることを防止するために、暗騒音の重畳による、無音区間における音信号の音圧の増加に基づいて、録音音声であることを判定する関連技術が存在する。
図24に例示するように、肉声では、無音区間T0~T2の音信号の音圧は増加しない。一方、図25に例示するように、無音区間T0~T2で録音音声の再生を開始した場合、録音音声の暗騒音が重畳されることで、録音音声の再生開始時T1~有音区間開始時T2までの音圧が増加する。関連技術では、この無音区間の音圧の増加に基づいて、肉声であるか録音音声であるかを判定する。
しかしながら、図26に例示するように、継続的に再生される放送音では、放送音の再生が継続されているT11以降に開始する無音区間T21~T22、及びT31~T32では、当初から暗騒音が重畳されているため、音圧の増加は検出されない。したがって、継続的に再生される放送音である場合、関連技術を使用して、肉声であるか否かを判定することは困難である。
本実施形態では、隣接する所定周波数帯域単位のエッジ度を使用して符号化音であるか否かを判定している。エッジ度は、例えば、図4に例示されるように、時間方向に定常的な特徴量であるため、継続的に再生される放送音であっても、肉声であるか否か、即ち、符号化音であるか否か判定することができる。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得し、
周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行う、
符号化音判定処理をコンピュータに実行させるためのプログラム。
(付記2)
前記音信号の強さの相違を表す値は、前記所定周波数帯域の前記音信号のパワーを所定数のフレーム分加算し、前記所定数で除算した時間方向平均値を算出し、前記所定周波数帯域に含まれる周波数単位の前記時間方向平均値を加算し、前記所定周波数帯域に含まれる前記周波数単位の数で除算することで算出される、
付記1の符号化音判定処理をコンピュータに実行させるためのプログラム。
(付記3)
前記所定周波数帯域が、音信号の符号化の種類によって定められるスケールファクタバンドの各々に対応するように定められる、
付記1または付記2のプログラム。
(付記4)
前記符号化の種類が複数存在し、
前記所定周波数帯域が、複数の前記符号化の種類の各々のスケールファクタバンドの各々に対応するように定められる、
付記3のプログラム。
(付記5)
同一の周波数帯域境界で隣接する所定周波数帯域の音信号の強さの相違を表す値が、所定時間以上、第1所定値を超える場合、前記音信号は符号化音であると判定する、
付記1~付記4の何れかのプログラム。
(付記6)
隣接する所定周波数帯域の音信号の強さの相違を表す値が第2所定値を超えた後、前記値が前記第2所定値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域の強さを表す値が、所定回数以上、前記第2所定値以下になるまで、前記音信号が符号化音であるか否か判定する処理を繰り返す、
付記1~付記5の何れかのプログラム。
(付記7)
前記音信号の信号対雑音比が第3所定値を超えた場合、前記音信号が符号化音であるか否か判定する処理を行う、
付記1~付記5の何れかのプログラム。
(付記8)
コンピュータが、
音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得し、
周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行う、
符号化音判定方法。
(付記9)
前記音信号の強さの相違を表す値は、前記所定周波数帯域の前記音信号のパワーを所定数のフレーム分加算し、前記所定数で除算した時間方向平均値を算出し、前記所定周波数帯域に含まれる周波数単位の前記時間方向平均値を加算し、前記所定周波数帯域に含まれる前記周波数単位の数で除算することで算出される、
付記8の符号化音判定方法。
(付記10)
前記所定周波数帯域が、音信号の符号化の種類によって定められるスケールファクタバンドの各々に対応するように定められる、
付記8または付記9の符号化音判定方法。
(付記11)
前記符号化の種類が複数存在し、
前記所定周波数帯域が、複数の前記符号化の種類の各々のスケールファクタバンドの各々に対応するように定められる、
付記10の符号化音判定方法。
(付記12)
同一の周波数帯域境界で隣接する所定周波数帯域の音信号の強さの相違を表す値が、所定時間以上、第1所定値を超える場合、前記音信号は符号化音であると判定する、
付記8~付記11の何れかの符号化音判定方法。
(付記13)
隣接する所定周波数帯域の音信号の強さの相違を表す値が第2所定値を超えた後、前記値が前記第2所定値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域の強さを表す値が、所定回数以上、前記第2所定値以下になるまで、前記音信号が符号化音であるか否か判定する処理を繰り返す、
付記8~付記12の何れかの符号化音判定方法。
(付記14)
前記音信号の信号対雑音比が第3所定値を超えた場合、前記音信号が符号化音であるか否か判定する処理を行う、
付記8~付記12の何れかの符号化音判定方法。
(付記15)
音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得する取得部と、
周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行う判定部と、
を含む符号化音判定装置。
(付記16)
前記所定周波数帯域が、音信号の符号化の種類によって定められるスケールファクタバンドの各々に対応するように定められる、
付記15の符号化音判定装置。
(付記17)
前記符号化の種類が複数存在し、
前記所定周波数帯域が、複数の前記符号化の種類の各々のスケールファクタバンドの各々に対応するように定められる、
付記16の符号化音判定装置。
(付記18)
同一の周波数帯域境界で隣接する所定周波数帯域の音信号の強さの相違を表す値が、所定時間以上、第1所定値を超える場合、前記音信号は符号化音であると判定する、
付記15~付記17の何れかの符号化音判定装置。
(付記19)
前記判定部は、隣接する所定周波数帯域の音信号の強さの相違を表す値が第2所定値を超えた後、前記値が前記第2所定値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域の強さを表す値が、所定回数以上、前記第2所定値以下になるまで、前記音信号が符号化音であるか否か判定する処理を繰り返す、
付記15~付記18の何れかの符号化音判定装置。
(付記20)
前記判定部は、前記音信号の信号対雑音比が第3所定値を超えた場合、前記音信号が符号化音であるか否か判定する処理を行う、
付記15~付記19の何れかの符号化音判定装置。
10 符号音判定装置
14 周波数帯域単位エッジ度算出部
15 符号化音判定部
51 CPU
52 一次記憶部
53 二次記憶部

Claims (8)

  1. 音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得し、
    周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行い、
    前記音信号の強さの相違を表す値は、前記所定周波数帯域の前記音信号のパワーを所定数のフレーム分加算し、前記所定数で除算した時間方向平均値を算出し、前記所定周波数帯域に含まれる周波数単位の前記時間方向平均値を加算し、前記所定周波数帯域に含まれる前記周波数単位の数で除算することで算出される、
    符号化音判定処理をコンピュータに実行させるためのプログラム。
  2. 前記所定周波数帯域が、音信号の符号化の種類によって定められるスケールファクタバンドの各々に対応するように定められる、
    請求項1に記載のプログラム。
  3. 前記符号化の種類が複数存在し、
    前記所定周波数帯域が、複数の前記符号化の種類の各々のスケールファクタバンドの各々に対応するように定められる、
    請求項に記載のプログラム。
  4. 同一の周波数帯域境界で隣接する所定周波数帯域の音信号の強さの相違を表す値が、所定時間以上、第1所定値を超える場合、前記音信号は符号化音であると判定する、
    請求項1~請求項の何れか1項に記載のプログラム。
  5. 隣接する所定周波数帯域の音信号の強さの相違を表す値が第2所定値を超えた後、前記値が前記第2所定値を超えた周波数帯域境界と同一の周波数帯域境界で隣接する所定周波数帯域の強さの相違を表す値が、所定回数以上、前記第2所定値以下になるまで、前記音信号が符号化音であるか否か判定する処理を繰り返す、
    請求項1~請求項の何れか1項に記載のプログラム。
  6. 前記音信号の信号対雑音比が第3所定値を超えた場合、前記音信号が符号化音であるか否か判定する処理を行う、
    請求項1~請求項の何れか1項に記載のプログラム。
  7. コンピュータが、
    音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得し、
    周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行い、
    前記音信号の強さの相違を表す値は、前記所定周波数帯域の前記音信号のパワーを所定数のフレーム分加算し、前記所定数で除算した時間方向平均値を算出し、前記所定周波数帯域に含まれる周波数単位の前記時間方向平均値を加算し、前記所定周波数帯域に含まれる前記周波数単位の数で除算することで算出される、
    符号化音判定方法。
  8. 音信号から算出される周波数に対応する前記音信号の強さを示す情報を取得する取得部と、
    周波数方向に隣接する所定周波数帯域間における、所定の閾値以上となる前記音信号の強さの相違の有無に基づいて、前記音信号が符号化音であるか否かを判定する処理を行う判定部と、
    を含み、
    前記音信号の強さの相違を表す値は、前記所定周波数帯域の前記音信号のパワーを所定数のフレーム分加算し、前記所定数で除算した時間方向平均値を算出し、前記所定周波数帯域に含まれる周波数単位の前記時間方向平均値を加算し、前記所定周波数帯域に含まれる前記周波数単位の数で除算することで算出される、
    符号化音判定装置。
JP2018076734A 2018-04-12 2018-04-12 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置 Active JP7056340B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018076734A JP7056340B2 (ja) 2018-04-12 2018-04-12 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置
US16/361,534 US11081120B2 (en) 2018-04-12 2019-03-22 Encoded-sound determination method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018076734A JP7056340B2 (ja) 2018-04-12 2018-04-12 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置

Publications (2)

Publication Number Publication Date
JP2019184867A JP2019184867A (ja) 2019-10-24
JP7056340B2 true JP7056340B2 (ja) 2022-04-19

Family

ID=68161899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018076734A Active JP7056340B2 (ja) 2018-04-12 2018-04-12 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置

Country Status (2)

Country Link
US (1) US11081120B2 (ja)
JP (1) JP7056340B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001285523A (ja) 2000-03-28 2001-10-12 Kddi Corp 呼判別装置
JP2010277023A (ja) 2009-06-01 2010-12-09 Nippon Hoso Kyokai <Nhk> 電話音声区間検出装置およびそのプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58180600U (ja) * 1982-05-26 1983-12-02 オムロン株式会社 音声識別装置
JP4573792B2 (ja) 2006-03-29 2010-11-04 富士通株式会社 ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム
CA2871268C (en) 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
JP5201053B2 (ja) 2009-03-31 2013-06-05 沖電気工業株式会社 合成音声判別装置、方法及びプログラム
CN104143341B (zh) * 2013-05-23 2015-10-21 腾讯科技(深圳)有限公司 爆音检测方法和装置
KR20160148009A (ko) * 2014-07-04 2016-12-23 인텔 코포레이션 자동 화자 검증 시스템에서의 리플레이 공격 검출
US10468032B2 (en) * 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling
US10692490B2 (en) * 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
KR102127126B1 (ko) * 2018-08-03 2020-06-26 엘지전자 주식회사 음성 판독 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001285523A (ja) 2000-03-28 2001-10-12 Kddi Corp 呼判別装置
JP2010277023A (ja) 2009-06-01 2010-12-09 Nippon Hoso Kyokai <Nhk> 電話音声区間検出装置およびそのプログラム

Also Published As

Publication number Publication date
JP2019184867A (ja) 2019-10-24
US11081120B2 (en) 2021-08-03
US20190318753A1 (en) 2019-10-17

Similar Documents

Publication Publication Date Title
JP3762579B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP6769299B2 (ja) オーディオ符号化装置およびオーディオ符号化方法
JP6290429B2 (ja) 音声処理システム
JP5439586B2 (ja) 低複雑度の聴覚イベント境界検出
US9330682B2 (en) Apparatus and method for discriminating speech, and computer readable medium
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
JP7201721B2 (ja) 相関分離フィルタの適応制御のための方法および装置
RU2734288C1 (ru) Устройство и способ для разложения звукового сигнала с использованием переменного порогового значения
KR102517285B1 (ko) 오디오 신호를 처리하기 위한 장치 및 방법
JP4021124B2 (ja) デジタル音響信号符号化装置、方法及び記録媒体
JP2005227782A (ja) 有声音および無声音の検出装置、並びにその方法
CN110114828B (zh) 使用比率作为分离特征来分解音频信号的装置和方法
US20150071463A1 (en) Method and apparatus for filtering an audio signal
JP5694745B2 (ja) 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
JP7056340B2 (ja) 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置
JP7316093B2 (ja) 音声雑音除去装置及びプログラム
EP2739067A2 (en) Audio processing device and method
JP4739023B2 (ja) デジタル音声信号におけるクリッキングノイズ検出
CN115668368A (zh) 执行动态范围控制的方法和单元
CN110168639B (zh) 数据编码检测
JP6235725B2 (ja) マルチ・チャンネル・オーディオ信号分類器
JP6765124B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP3753956B2 (ja) 符号化装置
JP2023545197A (ja) オーディオ帯域幅検出およびオーディオコーデックにおけるオーディオ帯域幅切り替えのための方法およびデバイス
KR101195599B1 (ko) 잡음 처리 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220321

R150 Certificate of patent or registration of utility model

Ref document number: 7056340

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150