JP6392414B2 - オーディオ信号分類方法及び装置 - Google Patents
オーディオ信号分類方法及び装置 Download PDFInfo
- Publication number
- JP6392414B2 JP6392414B2 JP2017117505A JP2017117505A JP6392414B2 JP 6392414 B2 JP6392414 B2 JP 6392414B2 JP 2017117505 A JP2017117505 A JP 2017117505A JP 2017117505 A JP2017117505 A JP 2017117505A JP 6392414 B2 JP6392414 B2 JP 6392414B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency spectrum
- frame
- audio frame
- current audio
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 132
- 238000000034 method Methods 0.000 title claims description 100
- 238000001228 spectrum Methods 0.000 claims description 713
- 230000000694 effects Effects 0.000 claims description 47
- 238000004364 calculation method Methods 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 16
- 101150014198 epsP gene Proteins 0.000 claims description 8
- 239000000872 buffer Substances 0.000 description 50
- 230000004907 flux Effects 0.000 description 40
- 238000009527 percussion Methods 0.000 description 31
- 230000007774 longterm Effects 0.000 description 28
- 230000008569 process Effects 0.000 description 24
- 230000003595 spectral effect Effects 0.000 description 22
- 239000012634 fragment Substances 0.000 description 19
- 230000008859 change Effects 0.000 description 15
- 238000005070 sampling Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrophonic Musical Instruments (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Television Receiver Circuits (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
現在オーディオフレームのボイス活性にしたがって、現在オーディオフレームの周波数スペクトル変動を得て該周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するべきかどうかを決定するステップであって、周波数スペクトル変動がオーディオ信号の周波数スペクトルのエネルギー変動を示す、ステップと、
オーディオフレームがパーカッションミュージックであるかどうかにしたがって又は履歴オーディオフレームの活性にしたがって周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動を更新するステップと、
周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の統計値にしたがって現在オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するステップとを含む。
現在オーディオフレームが活性フレームである場合に、現在オーディオフレームの周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するステップを含む。
現在オーディオフレームが活性フレームであるとともに現在オーディオフレームと該現在オーディオフレームの履歴フレームとを備える複数の連続するフレームのいずれもがエネルギー攻撃に属さない場合に、オーディオフレームの周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するステップを含む。
現在オーディオフレームがパーカッションミュージックに属する場合に、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の値を変更するステップを含む。
現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、前のオーディオフレームが不活性フレームであることが決定されれば、現在オーディオフレームの周波数スペクトル変動を除く周波数スペクトル変動メモリ内に記憶される他の周波数スペクトル変動のデータを無効データに変更するステップ、又は、
現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、現在オーディオフレームの前の3つの連続する履歴フレームが全て活性フレームではないことが決定されれば、現在オーディオフレームの周波数スペクトル変動を第1の値に変更するステップ、又は、
現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、履歴分類結果がミュージック信号であり且つ現在オーディオフレームの周波数スペクトル変動が第2の値よりも大きいことが決定されれば、現在オーディオフレームの周波数スペクトル変動を第2の値に変更するステップを含み、第2の値は第1の値よりも大きい。
周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の平均値を得るステップと、
周波数スペクトル変動の有効データの得られた平均値がミュージック分類条件を満たすときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類するステップとを含む。
現在オーディオフレームの周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を得るステップであって、周波数スペクトル高周波帯域ピーキネスは、現在オーディオフレームの周波数スペクトルの高周波帯域におけるピーキネス又はエネルギー尖鋭度を示し、周波数スペクトル相関度は、現在オーディオフレームの信号調和構造の隣接するフレーム間の安定性を示し、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示す、ステップと、
現在オーディオフレームのボイス活性にしたがって、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配をメモリに記憶するべきかどうかを決定するステップとを更に含み、
周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動のデータの一部又は全部の統計値にしたがってオーディオフレームを分類する前記ステップは、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得るステップと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類するステップとを含む。
現在オーディオフレームのボイス活性にしたがって現在オーディオフレームの周波数スペクトル変動を得て記憶するべきかどうかを決定する記憶決定ユニットであって、周波数スペクトル変動がオーディオ信号の周波数スペクトルのエネルギー変動を示す、記憶決定ユニットと、
周波数スペクトル変動が記憶される必要があるという結果を記憶決定ユニットが出力するときに周波数スペクトル変動を記憶するメモリと、
スピーチフレームがパーカッションミュージックであるかどうかにしたがって又は履歴オーディオフレームの活性にしたがってメモリに記憶される周波数スペクトル変動を更新する更新ユニットと、
メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の統計値にしたがって現在オーディオフレームをスピーチフレーム又はミュージックフレームとして分類する分類ユニットとを含む。
現在オーディオフレームが活性フレームであるとともに現在オーディオフレームの前の3つの連続するフレームが全て活性フレームではない場合に、現在オーディオフレームの周波数スペクトル変動を第1の値に変更する、或いは、
現在オーディオフレームが活性フレームであるとともに履歴分類結果がミュージック信号であり且つ現在オーディオフレームの周波数スペクトル変動が第2の値よりも大きい場合に、現在オーディオフレームの周波数スペクトル変動を第2の値に変更するように構成され、この場合、第2の値は第1の値よりも大きい。
メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の平均値を得る計算ユニットと、
周波数スペクトル変動の有効データの平均値とミュージック分類条件とを比較して、周波数スペクトル変動の有効データの平均値がミュージック分類条件を満たすときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
現在オーディオフレームの周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、有声化パラメータ、及び、線形予測残留エネルギー勾配を取得するパラメータ取得ユニットを更に含み、周波数スペクトル高周波帯域ピーキネスは、現在オーディオフレームの周波数スペクトルの高周波帯域におけるピーキネス又はエネルギー尖鋭度を示し、周波数スペクトル相関度は、現在オーディオフレームの信号調和構造の隣接するフレーム間の安定性を示し、有声化パラメータは、現在オーディオフレームとピッチ期間の前の信号との間の時間領域相関度を示し、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示し、
記憶決定ユニットは、現在オーディオフレームのボイス活性にしたがって、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配をメモリに記憶するべきかどうかを決定するように更に構成され、
記憶ユニットは、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配が記憶される必要があるという結果を記憶決定ユニットが出力するときに周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶するように更に構成され、
分類ユニットは、具体的には、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成される。
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニットと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
入力オーディオ信号に関してフレーム分割処理を行うステップと、
現在オーディオフレームの線形予測残留エネルギー勾配を得るステップであって、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示す、ステップと、
線形予測残留エネルギー勾配をメモリに記憶するステップと、
メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類するステップとを含む。
現在オーディオフレームのボイス活性にしたがって、線形予測残留エネルギー勾配をメモリ内に記憶するべきかどうかを決定するとともに、線形予測残留エネルギー勾配が記憶される必要があると決定されるときに線形予測残留エネルギー勾配をメモリに記憶するステップを更に含む。
予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、予測残留エネルギー勾配のデータの一部の分散がミュージック分類閾値を下回るときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ現在オーディオフレームをスピーチフレームとして分類するステップを含む。
現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を得て、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を対応するメモリに記憶するステップを更に含み、
メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類する前記ステップは、
記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するステップを含み、有効データの統計値とは、メモリに記憶される有効データに関して計算作業が行われた後に得られるデータ値のことである。
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得るステップと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームがスピーチフレームとして分類するステップとを含む。
現在オーディオフレームの周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを得るとともに、周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを対応するメモリ内に記憶するステップを更に含み、
メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類する前記ステップは、記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得るステップと、
線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するステップとを含み、統計値とは、メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである。
記憶された線形予測残留エネルギー勾配の分散を得るステップと、
記憶された周波数スペクトル音量の平均値を得るステップと
を含み、線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類する前記ステップは、現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、
線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、
周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、
低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、
さもなければ、現在オーディオフレームをスピーチフレームとして分類するステップを含む。
以下の式にしたがって現在オーディオフレームの線形予測残留エネルギー勾配を取得するステップを含み
0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量を計数して、その量を周波数スペクトル音量として使用するステップと、
0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量に対する0〜4kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量の比率を計算して、その比率を低周波帯域における周波数スペクトル音量の比率として使用するステップとを含む。
入力オーディオ信号に関してフレーム分割処理を行うフレーム分割ユニットと、
現在オーディオフレームの線形予測残留エネルギー勾配を取得するパラメータ取得ユニットであって、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示す、パラメータ取得ユニットと、
線形予測残留エネルギー勾配を記憶する記憶ユニットと、
メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類する分類ユニットとを含む。
現在オーディオフレームのボイス活性にしたがって線形予測残留エネルギー勾配をメモリに記憶するべきかどうかを決定する記憶決定ユニットを更に含み、
記憶ユニットは、具体的には、線形予測残留エネルギー勾配が記憶される必要があることを記憶決定ユニットが決定するときに線形予測残留エネルギー勾配をメモリに記憶するように構成される。
分類ユニットは、具体的には、予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、予測残留エネルギー勾配のデータの一部の分散がミュージック分類閾値を下回るときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ現在オーディオフレームをスピーチフレームとして分類するように構成される。
分類ユニットは、具体的には、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、有効データの統計値とは、メモリに記憶される有効データに関して計算作業が行われた後に得られるデータ値のことである。
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニットと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
分類ユニットは、具体的に、記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得て、線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、有効データの統計値とは、メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである。
記憶された線形予測残留エネルギー勾配の有効データの分散と記憶された周波数スペクトル音量の平均値とを得る計算ユニットと、
現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
Cx(i)=rel2(i)+img2(i)
であり、また、rel(i)及びimg(i)は、i番目の周波数ビンのFFT係数の実数部分及び虚数部分をそれぞれ示す。現在オーディオフレームの周波数スペクトルC(i)は、2つのサブフレームの周波数スペクトルを平均化することによって得られる。ここで、
現在オーディオフレームの前の3つの連続するフレームが全て活性フレーム(vad_flag=1)である場合には、以下の条件が満たされるかどうかがチェックされる:
ここで、mode_movは、信号分類における履歴的な最終分類結果の長期移動平均を示し、mode_mov>0.9は、信号がミュージック信号であることを示し、また、スピーチ特性がflux内で生じる可能性を減らして分類を決定する安定性を高めるために、fluxは、オーディオ信号の履歴分類結果にしたがって制限される。
lp_speech=0.99・lp_speech−1+0.01・etot。
周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の平均値を得ることを含み、また、
周波数スペクトル変動の有効データの得られた平均値がミュージック分類条件を満たすときには、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する。
C’(i)=C(i)−floor(i)
であり、ここで、floor(i)は、入力オーディオフレームの周波数スペクトルのスペクトルフロアを示し、ここで、i=0,1,…,127であり、また、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類することを含む。
予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、予測残留エネルギー勾配のデータの一部の分散がミュージック分類閾値を下回るときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ現在オーディオフレームをスピーチフレームとして分類することを含む。
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を得るとともに、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類することを含む。
記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得て、
線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類することであり、この場合、統計値とは、メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである。
現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、
線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、
周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、
低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、
さもなければ、現在オーディオフレームをスピーチフレームとして分類することを含む。
0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量を計数して、その量を周波数スペクトル音量として使用すること、
及び、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量に対する0〜4kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量の比率を計算して、その比率を低周波帯域における周波数スペクトル音量の比率として使用することを含む。一実施形態では、所定値が50である。
現在オーディオフレームのボイス活性にしたがって、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配をメモリ内に記憶するべきかどうかを決定し、また、現在オーディオフレームが活性フレームである場合には、パラメータを記憶し、そうでない場合には、パラメータの記憶を省くことを更に含む。
現在オーディオフレームがパーカッションミュージックであるかどうかにしたがって、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動を更新することを更に含んでもよい。一実施形態では、現在オーディオフレームがパーカッションミュージックであれば、周波数スペクトル変動メモリ内の有効周波数スペクトル変動値がミュージック閾値以下の値に変更され、この場合、オーディオフレームの周波数スペクトル変動がミュージッ閾値を下回るときには、オーディオがミュージックフレームとして分類される。一実施形態では、現在オーディオフレームがパーカッションミュージックであれば、周波数スペクトル変動メモリ内の有効周波数スペクトル変動値が5にリセットされる。
現在オーディオフレームの履歴フレームの活性にしたがってメモリ内の周波数スペクトル変動を更新することを更に含んでもよい。一実施形態では、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、前のオーディオフレームが不活性フレームであることが決定されれば、現在オーディオフレームの周波数スペクトル変動を除く周波数スペクトル変動メモリ内に記憶される他の周波数スペクトル変動のデータが無効データへと変更される。他の実施形態では、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、現在オーディオフレームの前の3つの連続するフレームが全て活性フレームでないことが決定されれば、現在オーディオフレームの周波数スペクトル変動が第1の値に変更される。第1の値がスピーチ閾値であってもよく、この場合、オーディオフレームの周波数スペクトル変動がスピーチ閾値よりも大きいときには、オーディオがスピーチフレームとして分類される。他の実施形態では、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、履歴フレームの分類結果がミュージックフレームであり、現在オーディオフレームの周波数スペクトル変動が第2の値よりも大きいことが決定されれば、現在オーディオフレームの周波数スペクトル変動が第2の値に変更され、この場合、第2の値は第1の値よりも大きい。
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得ることを含み、また、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類することを含む。
現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、
線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、
周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、
低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、
さもなければ、現在オーディオフレームをスピーチフレームとして分類することを含む。
入力オーディオ信号を分類するように構成され、また、装置は、現在オーディオフレームのボイス活性にしたがって現在オーディオフレームの周波数スペクトル変動を得て記憶するべきかどうかを決定する記憶決定ユニット1301であって、周波数スペクトル変動がオーディオ信号の周波数スペクトルのエネルギー変動を示す、記憶決定ユニット1301と、
周波数スペクトル変動が記憶される必要があるという結果を記憶決定ユニットが出力するときに周波数スペクトル変動を記憶するメモリ1302と、
スピーチフレームがパーカッションミュージックであるかどうかにしたがって又は履歴オーディオフレームの活性にしたがってメモリに記憶される周波数スペクトル変動を更新する更新ユニット1304と、
メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の統計値にしたがって現在オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するとともに、周波数スペクトル変動の有効データの統計値がスピーチ分類条件を満たすときに現在オーディオフレームをスピーチフレームとして分類する、或いは、周波数スペクトル変動の有効データの統計値がミュージック分類条件を満たすときに現在オーディオフレームをミュージックフレームとして分類する分類ユニット1303とを含む。
メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の平均値を得る計算ユニット1401と、
周波数スペクトル変動の有効データの平均値とミュージック分類条件とを比較して、周波数スペクトル変動の有効データの平均値がミュージック分類条件を満たすときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニット1402とを含む。
現在オーディオフレームの周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を取得するパラメータ取得ユニットを更に含み、ここで、周波数スペクトル高周波帯域ピーキネスは、現在オーディオフレームの周波数スペクトルの高周波帯域におけるピーキネス又はエネルギー尖鋭度を示し、周波数スペクトル相関度は、現在オーディオフレームの信号調和構造の隣接するフレーム間の安定性を示し、また、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示し、この場合、
記憶決定ユニットは、現在オーディオフレームのボイス活性にしたがって、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶するべきかどうかを決定するように更に構成され、
記憶ユニットは、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配が記憶される必要があるという結果を記憶決定ユニットが出力するときに、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶するように更に構成され、
分類ユニットは、具体的には、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するとともに、周波数スペクトル変動の有効データの統計値がスピーチ分類条件を満たすときに現在オーディオフレームをスピーチフレームとして分類し、或いは、周波数スペクトル変動の有効データの統計値がミュージック分類条件を満たすときに現在オーディオフレームをミュージックフレームとして分類するように構成される。
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニットと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
入力オーディオ信号に関してフレーム分割処理を行うフレーム分割ユニット1501と、
現在オーディオフレームの線形予測残留エネルギー勾配を取得するパラメータ取得ユニット1502であって、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示す、パラメータ取得ユニット1502と、
線形予測残留エネルギー勾配を記憶する記憶ユニット1503と、
メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類する分類ユニット1504とを含む。
現在オーディオフレームのボイス活性にしたがって線形予測残留エネルギー勾配をメモリに記憶するべきかどうかを決定する記憶決定ユニット1505を更に含み、
この場合、記憶ユニット1503は、具体的には、線形予測残留エネルギー勾配が記憶される必要があることを記憶決定ユニットが決定するときに線形予測残留エネルギー勾配をメモリに記憶するように構成される。
分類ユニットは、具体的には、予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、予測残留エネルギー勾配のデータの一部の分散がミュージック分類閾値を下回るときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ現在オーディオフレームをスピーチフレームとして分類するように構成される。
分類ユニットは、具体的には、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、この場合、有効データの統計値とは、メモリに記憶される有効データに関して計算作業が行われた後に得られるデータ値のことである。
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニット1701と、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニット1702とを含む。
分類ユニットは、具体的に、記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得て、線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、この場合、有効データの統計値とは、メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである。
記憶された線形予測残留エネルギー勾配の有効データの分散と記憶された周波数スペクトル音量の平均値とを得る計算ユニットと、
現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
入力オーディオ信号に関してフレーム分割処理を行うフレーム分割ユニットと、
現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を取得するパラメータ取得ユニットであって、周波数スペクトル変動がオーディオ信号の周波数スペクトルのエネルギー変動を示し、周波数スペクトル高周波帯域ピーキネスが、現在オーディオフレームの周波数スペクトルの高周波帯域におけるピーキネス又はエネルギー尖鋭度を示し、周波数スペクトル相関度が、現在オーディオフレームの信号調和構造の隣接するフレーム間の安定性を示し、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示す、パラメータ取得ユニットと、
周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶する記憶ユニットと、
記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類する分類ユニットであって、有効データの統計値とは、メモリ内に記憶される有効データに関して計算作業が行われた後に得られるデータ値のことであり、計算作業が、平均値を得るための演算、分散を得るための演算等を含んでもよい、分類ユニットとを含む。
現在オーディオフレームのボイス活性にしたがって、現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶するべきかどうかを決定する記憶決定ユニットを更に含んでもよく、また、
記憶ユニットは、具体的には、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配が記憶される必要があるという結果を記憶決定ユニットが出力するときに、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶するように更に構成される。
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニットと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
スピーチフレームがパーカッションミュージックであるかどうかにしたがって又は履歴オーディオフレームの活性にしたがってメモリに記憶される周波数スペクトル変動を更新する更新ユニットを更に含んでもよい。一実施形態において、更新ユニットは、具体的には、現在オーディオフレームがパーカッションミュージックに属する場合に、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の値を変更するように構成される。他の実施形態において、更新ユニットは、具体的には、現在オーディオフレームが活性フレームであるとともに前のオーディオフレームが不活性フレームである場合に、現在オーディオフレームの周波数スペクトル変動を除くメモリ内に記憶される他の周波数スペクトル変動のデータを無効データに変更する、或いは、現在オーディオフレームが活性フレームであるとともに現在オーディオフレームの前の3つの連続するフレームが全て活性フレームではない場合に、現在オーディオフレームの周波数スペクトル変動を第1の値に変更する、或いは、現在オーディオフレームが活性フレームであるとともに履歴分類結果がミュージック信号であり且つ現在オーディオフレームの周波数スペクトル変動が第2の値よりも大きい場合に、現在オーディオフレームの周波数スペクトル変動を第2の値に変更するように構成され、この場合、第2の値は第1の値よりも大きい。
入力オーディオ信号に関してフレーム分割処理を行うフレーム分割ユニットと、
現在オーディオフレームの線形予測残留エネルギー勾配及び周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを取得するパラメータ取得ユニットであって、線形予測残留エネルギー勾配epsP_tiltは、線形予測次数が増大するにつれて入力オーディオ信号の線形予測残留エネルギーが変化する度合いを示し、周波数スペクトル音量Ntonalは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量を示し、低周波帯域における周波数スペクトル音量の比率ratio_Ntonal_lfは周波数スペクトル音量に対する低周波帯域音量の比率を示し、特定の計算に関しては前述の実施形態の説明を参照されたい、パラメータ取得ユニットと、
線形予測残留エネルギー勾配、周波数スペクトル音量、及び、低周波帯域における周波数スペクトル音量の比率を記憶する記憶ユニットと、
記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得て、線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類する分類ユニットであって、有効データの統計値とは、メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである、分類ユニットとを含む。
記憶された線形予測残留エネルギー勾配の有効データの分散と記憶された周波数スペクトル音量の平均値とを得る計算ユニットと、
現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
1302 メモリ
1303 分類ユニット
1304 更新ユニット
1401 計算ユニット
1402 決定ユニット
1501 フレーム分割ユニット
1502 パラメータ取得ユニット
1503 記憶ユニット
1504 分類ユニット
1505 記憶決定ユニット
1701 計算ユニット
1702 決定ユニット
1900 装置
1910 プロセッサ
1920 メモリ
Claims (18)
- 入力オーディオ信号に関してフレーム分割処理を行うステップと、
現在オーディオフレームの線形予測残留エネルギー勾配を得るステップであって、前記線形予測残留エネルギー勾配は、線形予測次数が増大するにつれて前記オーディオ信号の線形予測残留エネルギーが変化する度合いを示す、ステップと、
前記線形予測残留エネルギー勾配をメモリに記憶するステップと、前記メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがって前記オーディオフレームを分類するステップと
を備える、オーディオ信号分類方法。 - 前記線形予測残留エネルギー勾配を前記メモリに記憶する前に、前記方法は、
前記現在オーディオフレームのボイス活性にしたがって、前記線形予測残留エネルギー勾配を前記メモリ内に記憶するべきかどうかを決定するとともに、前記線形予測残留エネルギー勾配が記憶される必要があると決定されるときに前記線形予測残留エネルギー勾配を前記メモリに記憶するステップ
を更に備える請求項1に記載の方法。 - 前記予測残留エネルギー勾配のデータの一部の統計値は、前記予測残留エネルギー勾配のデータの一部の分散であり、前記メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがって前記オーディオフレームを分類する前記ステップは、
予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、前記予測残留エネルギー勾配のデータの一部の分散が前記ミュージック分類閾値を下回るときに前記現在オーディオフレームをミュージックフレームとして分類し、そうでなければ前記現在オーディオフレームをスピーチフレームとして分類するステップを備える請求項1又は2に記載の方法。 - 前記現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を得て、前記周波数スペクトル変動、前記周波数スペクトル高周波帯域ピーキネス、及び、前記周波数スペクトル相関度を対応するメモリに記憶するステップを更に備え、
前記メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがって前記オーディオフレームを分類する前記ステップは、
記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがって前記オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するステップを備え、前記有効データの統計値とは、前記メモリに記憶される有効データに関して計算作業が行われた後に得られるデータ値のことである請求項1又は2に記載の方法。 - 記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがって前記オーディオフレームをスピーチフレーム又はミュージックフレームとして分類する前記ステップは、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得るステップと、
以下の条件、すなわち、前記周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、前記周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、前記周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、前記線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、前記現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、前記現在オーディオフレームがスピーチフレームとして分類するステップとを備える請求項4に記載の方法。 - 前記現在オーディオフレームの周波数スペクトル音量と低周波帯域における前記周波数スペクトル音量の比率とを得るとともに、前記周波数スペクトル音量と前記低周波帯域における周波数スペクトル音量の比率とを対応するメモリ内に記憶するステップを更に備え、
前記メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがって前記オーディオフレームを分類する前記ステップは、
記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得るステップと、
前記線形予測残留エネルギー勾配の統計値、前記周波数スペクトル音量の統計値、及び、前記低周波帯域における周波数スペクトル音量の比率にしたがって前記オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するステップとを備え、前記統計値とは、前記メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである請求項1又は2に記載の方法。 - 記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得る前記ステップは、
記憶された線形予測残留エネルギー勾配の分散を得るステップと、
記憶された周波数スペクトル音量の平均値を得るステップと
を備え、
線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類する前記ステップは、
前記現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、
前記線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、
前記周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、
前記低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、前記現在オーディオフレームをミュージックフレームとして分類し、
さもなければ、前記現在オーディオフレームをスピーチフレームとして分類するステップを備える請求項6に記載の方法。 - 前記現在オーディオフレームの周波数スペクトル音量と低周波帯域における前記周波数スペクトル音量の比率とを得る前記ステップは、
0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量を計数して、その量を前記周波数スペクトル音量として使用するステップと、
0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量に対する0〜4kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量の比率を計算して、その比率を前記低周波帯域における周波数スペクトル音量の比率として使用するステップと
を備える請求項6又は7に記載の方法。 - 信号分類装置であって、該装置は、入力オーディオ信号を分類するように構成され、前記装置は、
入力オーディオ信号に関してフレーム分割処理を行うフレーム分割ユニットと、
現在オーディオフレームの線形予測残留エネルギー勾配を取得するパラメータ取得ユニットであって、前記線形予測残留エネルギー勾配は、線形予測次数が増大するにつれて前記オーディオ信号の線形予測残留エネルギーが変化する度合いを示す、パラメータ取得ユニットと、
前記線形予測残留エネルギー勾配を記憶する記憶ユニットと、メモリ内の前記予測残留エネルギー勾配のデータの一部の統計値にしたがって前記オーディオフレームを分類する分類ユニットと
を備える、信号分類装置。 - 前記現在オーディオフレームのボイス活性にしたがって前記線形予測残留エネルギー勾配を前記メモリに記憶するべきかどうかを決定する記憶決定ユニットを更に備え、
前記記憶ユニットは、具体的には、前記線形予測残留エネルギー勾配が記憶される必要があることを前記記憶決定ユニットが決定するときに前記線形予測残留エネルギー勾配を前記メモリに記憶するように構成される請求項10に記載の装置。 - 前記予測残留エネルギー勾配のデータの一部の統計値は、前記予測残留エネルギー勾配のデータの一部の分散であり、
前記分類ユニットは、具体的には、前記予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、前記予測残留エネルギー勾配のデータの一部の分散が前記ミュージック分類閾値を下回るときに前記現在オーディオフレームをミュージックフレームとして分類し、そうでなければ前記現在オーディオフレームをスピーチフレームとして分類するように構成される請求項10又は11に記載の装置。 - 前記パラメータ取得ユニットは、前記現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を得て、前記周波数スペクトル変動、前記周波数スペクトル高周波帯域ピーキネス、及び、前記周波数スペクトル相関度を対応するメモリに記憶するように更に構成され、
前記分類ユニットは、具体的には、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、前記有効データの統計値にしたがって前記オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、前記有効データの統計値とは、前記メモリに記憶される有効データに関して計算作業が行われた後に得られるデータ値のことである、請求項10又は11に記載の装置。 - 前記分類ユニットは、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニットと、
以下の条件、すなわち、前記周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、前記周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、前記周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、前記線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、前記現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、前記現在オーディオフレームをスピーチフレームとして分類する決定ユニットと
を備える、請求項13に記載の装置。 - 前記パラメータ取得ユニットは、前記現在オーディオフレームの周波数スペクトル音量と低周波帯域における前記周波数スペクトル音量の比率とを得るとともに、前記周波数スペクトル音量と前記低周波帯域における周波数スペクトル音量の比率とをメモリ内に記憶するように更に構成され、
前記分類ユニットは、具体的に、記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得て、前記線形予測残留エネルギー勾配の統計値、前記周波数スペクトル音量の統計値、及び、前記低周波帯域における周波数スペクトル音量の比率にしたがって前記オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、有効データの統計値とは、前記メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである請求項10又は11に記載の装置。 - 前記分類ユニットは、
記憶された線形予測残留エネルギー勾配の有効データの分散と記憶された周波数スペクトル音量の平均値とを得る計算ユニットと、
前記現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、前記線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、前記周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、前記低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、前記現在オーディオフレームをミュージックフレームとして分類し、さもなければ、前記現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを備える請求項15に記載の装置。 - 前記パラメータ取得ユニットは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量を計数して、その量を前記周波数スペクトル音量として使用するように構成され、前記パラメータ取得ユニットは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量に対する0〜4kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量の比率を計算して、その比率を低周波帯域における周波数スペクトル音量の比率として使用するように構成される請求項15又は16に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310339218.5A CN104347067B (zh) | 2013-08-06 | 2013-08-06 | 一种音频信号分类方法和装置 |
CN201310339218.5 | 2013-08-06 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016532192A Division JP6162900B2 (ja) | 2013-08-06 | 2013-09-26 | オーディオ信号分類方法及び装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018155739A Division JP6752255B2 (ja) | 2013-08-06 | 2018-08-22 | オーディオ信号分類方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017187793A JP2017187793A (ja) | 2017-10-12 |
JP6392414B2 true JP6392414B2 (ja) | 2018-09-19 |
Family
ID=52460591
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016532192A Active JP6162900B2 (ja) | 2013-08-06 | 2013-09-26 | オーディオ信号分類方法及び装置 |
JP2017117505A Active JP6392414B2 (ja) | 2013-08-06 | 2017-06-15 | オーディオ信号分類方法及び装置 |
JP2018155739A Active JP6752255B2 (ja) | 2013-08-06 | 2018-08-22 | オーディオ信号分類方法及び装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016532192A Active JP6162900B2 (ja) | 2013-08-06 | 2013-09-26 | オーディオ信号分類方法及び装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018155739A Active JP6752255B2 (ja) | 2013-08-06 | 2018-08-22 | オーディオ信号分類方法及び装置 |
Country Status (15)
Country | Link |
---|---|
US (5) | US10090003B2 (ja) |
EP (4) | EP4057284A3 (ja) |
JP (3) | JP6162900B2 (ja) |
KR (4) | KR101946513B1 (ja) |
CN (3) | CN104347067B (ja) |
AU (3) | AU2013397685B2 (ja) |
BR (1) | BR112016002409B1 (ja) |
ES (3) | ES2769267T3 (ja) |
HK (1) | HK1219169A1 (ja) |
HU (1) | HUE035388T2 (ja) |
MX (1) | MX353300B (ja) |
MY (1) | MY173561A (ja) |
PT (3) | PT3324409T (ja) |
SG (2) | SG10201700588UA (ja) |
WO (1) | WO2015018121A1 (ja) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104347067B (zh) | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
KR101621774B1 (ko) * | 2014-01-24 | 2016-05-19 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
WO2015111772A1 (ko) * | 2014-01-24 | 2015-07-30 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
KR101621766B1 (ko) | 2014-01-28 | 2016-06-01 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
KR101621780B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101621797B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101569343B1 (ko) | 2014-03-28 | 2015-11-30 | 숭실대학교산학협력단 | 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
RU2665916C2 (ru) * | 2014-07-29 | 2018-09-04 | Телефонактиеболагет Лм Эрикссон (Пабл) | Оценивание фонового шума в аудиосигналах |
TWI576834B (zh) * | 2015-03-02 | 2017-04-01 | 聯詠科技股份有限公司 | 聲頻訊號的雜訊偵測方法與裝置 |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
TWI569263B (zh) * | 2015-04-30 | 2017-02-01 | 智原科技股份有限公司 | 聲頻訊號的訊號擷取方法與裝置 |
EP3340238B1 (en) * | 2015-05-25 | 2020-07-22 | Guangzhou Kugou Computer Technology Co., Ltd. | Method and device for audio processing |
US9965685B2 (en) | 2015-06-12 | 2018-05-08 | Google Llc | Method and system for detecting an audio event for smart home devices |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
CN106571150B (zh) * | 2015-10-12 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种识别音乐中的人声的方法和系统 |
US10902043B2 (en) | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
US9852745B1 (en) | 2016-06-24 | 2017-12-26 | Microsoft Technology Licensing, Llc | Analyzing changes in vocal power within music content using frequency spectrums |
EP3309777A1 (en) * | 2016-10-13 | 2018-04-18 | Thomson Licensing | Device and method for audio frame processing |
GB201617408D0 (en) | 2016-10-13 | 2016-11-30 | Asio Ltd | A method and system for acoustic communication of data |
GB201617409D0 (en) * | 2016-10-13 | 2016-11-30 | Asio Ltd | A method and system for acoustic communication of data |
CN107221334B (zh) * | 2016-11-01 | 2020-12-29 | 武汉大学深圳研究院 | 一种音频带宽扩展的方法及扩展装置 |
GB201704636D0 (en) | 2017-03-23 | 2017-05-10 | Asio Ltd | A method and system for authenticating a device |
GB2565751B (en) | 2017-06-15 | 2022-05-04 | Sonos Experience Ltd | A method and system for triggering events |
CN114898761A (zh) | 2017-08-10 | 2022-08-12 | 华为技术有限公司 | 立体声信号编解码方法及装置 |
US10586529B2 (en) * | 2017-09-14 | 2020-03-10 | International Business Machines Corporation | Processing of speech signal |
EP3701528B1 (en) | 2017-11-02 | 2023-03-15 | Huawei Technologies Co., Ltd. | Segmentation-based feature extraction for acoustic scene classification |
CN107886956B (zh) * | 2017-11-13 | 2020-12-11 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及计算机存储介质 |
GB2570634A (en) | 2017-12-20 | 2019-08-07 | Asio Ltd | A method and system for improved acoustic transmission of data |
CN108501003A (zh) * | 2018-05-08 | 2018-09-07 | 国网安徽省电力有限公司芜湖供电公司 | 一种应用于变电站智能巡检机器人的声音识别系统和方法 |
CN108830162B (zh) * | 2018-05-21 | 2022-02-08 | 西华大学 | 无线电频谱监测数据中的时序模式序列提取方法及存储方法 |
US11240609B2 (en) * | 2018-06-22 | 2022-02-01 | Semiconductor Components Industries, Llc | Music classifier and related methods |
US10692490B2 (en) * | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
CN108986843B (zh) * | 2018-08-10 | 2020-12-11 | 杭州网易云音乐科技有限公司 | 音频数据处理方法及装置、介质和计算设备 |
EP3836482A4 (en) | 2018-10-19 | 2022-05-04 | Nippon Telegraph And Telephone Corporation | AUTHENTICATION AUTHORIZATION SYSTEM, INFORMATION PROCESSING DEVICE, DEVICE, AUTHENTICATION AUTHORIZATION METHOD AND PROGRAM |
US11342002B1 (en) * | 2018-12-05 | 2022-05-24 | Amazon Technologies, Inc. | Caption timestamp predictor |
CN109360585A (zh) * | 2018-12-19 | 2019-02-19 | 晶晨半导体(上海)股份有限公司 | 一种语音激活检测方法 |
US12118987B2 (en) | 2019-04-18 | 2024-10-15 | Dolby Laboratories Licensing Corporation | Dialog detector |
CN110097895B (zh) * | 2019-05-14 | 2021-03-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种纯音乐检测方法、装置及存储介质 |
KR20220042165A (ko) * | 2019-08-01 | 2022-04-04 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 공분산 평활화를 위한 시스템 및 방법 |
CN110600060B (zh) * | 2019-09-27 | 2021-10-22 | 云知声智能科技股份有限公司 | 一种硬件音频主动探测hvad系统 |
KR102155743B1 (ko) * | 2019-10-07 | 2020-09-14 | 견두헌 | 대표음량을 적용한 컨텐츠 음량 조절 시스템 및 그 방법 |
CN113162837B (zh) * | 2020-01-07 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 语音消息的处理方法、装置、设备及存储介质 |
CA3170065A1 (en) * | 2020-04-16 | 2021-10-21 | Vladimir Malenovsky | Method and device for speech/music classification and core encoder selection in a sound codec |
US11988784B2 (en) | 2020-08-31 | 2024-05-21 | Sonos, Inc. | Detecting an audio signal with a microphone to determine presence of a playback device |
CN112331233B (zh) * | 2020-10-27 | 2024-07-23 | 郑州捷安高科股份有限公司 | 听觉信号识别方法、装置、设备及存储介质 |
CN112509601B (zh) * | 2020-11-18 | 2022-09-06 | 中电海康集团有限公司 | 一种音符起始点检测方法及系统 |
US20220157334A1 (en) * | 2020-11-19 | 2022-05-19 | Cirrus Logic International Semiconductor Ltd. | Detection of live speech |
CN112201271B (zh) * | 2020-11-30 | 2021-02-26 | 全时云商务服务股份有限公司 | 一种基于vad的语音状态统计方法、系统和可读存储介质 |
CN113192488B (zh) * | 2021-04-06 | 2022-05-06 | 青岛信芯微电子科技股份有限公司 | 一种语音处理方法及装置 |
CN113593602B (zh) * | 2021-07-19 | 2023-12-05 | 深圳市雷鸟网络传媒有限公司 | 一种音频处理方法、装置、电子设备和存储介质 |
CN113689861B (zh) * | 2021-08-10 | 2024-02-27 | 上海淇玥信息技术有限公司 | 一种单声道通话录音的智能分轨方法、装置和系统 |
KR102481362B1 (ko) * | 2021-11-22 | 2022-12-27 | 주식회사 코클 | 음향 데이터의 인식 정확도를 향상시키기 위한 방법, 장치 및 프로그램 |
CN114283841B (zh) * | 2021-12-20 | 2023-06-06 | 天翼爱音乐文化科技有限公司 | 一种音频分类方法、系统、装置及存储介质 |
CN117147966B (zh) * | 2023-08-30 | 2024-05-07 | 中国人民解放军军事科学院系统工程研究院 | 一种电磁频谱信号能量异常检测方法 |
Family Cites Families (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
JP3700890B2 (ja) * | 1997-07-09 | 2005-09-28 | ソニー株式会社 | 信号識別装置及び信号識別方法 |
ATE302991T1 (de) * | 1998-01-22 | 2005-09-15 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen |
US6901362B1 (en) | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
JP4201471B2 (ja) | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
JP4696418B2 (ja) | 2001-07-25 | 2011-06-08 | ソニー株式会社 | 情報検出装置及び方法 |
US6785645B2 (en) | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
CN1703736A (zh) | 2002-10-11 | 2005-11-30 | 诺基亚有限公司 | 用于源控制可变比特率宽带语音编码的方法和装置 |
KR100841096B1 (ko) * | 2002-10-14 | 2008-06-25 | 리얼네트웍스아시아퍼시픽 주식회사 | 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법 |
US7232948B2 (en) * | 2003-07-24 | 2007-06-19 | Hewlett-Packard Development Company, L.P. | System and method for automatic classification of music |
US20050159942A1 (en) * | 2004-01-15 | 2005-07-21 | Manoj Singhal | Classification of speech and music using linear predictive coding coefficients |
CN1815550A (zh) * | 2005-02-01 | 2006-08-09 | 松下电器产业株式会社 | 可识别环境中的语音与非语音的方法及系统 |
US20070083365A1 (en) | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
JP4738213B2 (ja) * | 2006-03-09 | 2011-08-03 | 富士通株式会社 | 利得調整方法及び利得調整装置 |
TWI312982B (en) * | 2006-05-22 | 2009-08-01 | Nat Cheng Kung Universit | Audio signal segmentation algorithm |
US20080033583A1 (en) * | 2006-08-03 | 2008-02-07 | Broadcom Corporation | Robust Speech/Music Classification for Audio Signals |
CN100483509C (zh) | 2006-12-05 | 2009-04-29 | 华为技术有限公司 | 声音信号分类方法和装置 |
KR100883656B1 (ko) | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
US8849432B2 (en) | 2007-05-31 | 2014-09-30 | Adobe Systems Incorporated | Acoustic pattern identification using spectral characteristics to synchronize audio and/or video |
CN101320559B (zh) * | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
US8990073B2 (en) * | 2007-06-22 | 2015-03-24 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
CN101393741A (zh) * | 2007-09-19 | 2009-03-25 | 中兴通讯股份有限公司 | 一种宽带音频编解码器中的音频信号分类装置及分类方法 |
CN101221766B (zh) * | 2008-01-23 | 2011-01-05 | 清华大学 | 音频编码器切换的方法 |
US8401845B2 (en) | 2008-03-05 | 2013-03-19 | Voiceage Corporation | System and method for enhancing a decoded tonal sound signal |
CN101546557B (zh) * | 2008-03-28 | 2011-03-23 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类器参数更新方法 |
CN101546556B (zh) * | 2008-03-28 | 2011-03-23 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类系统 |
WO2010001393A1 (en) * | 2008-06-30 | 2010-01-07 | Waves Audio Ltd. | Apparatus and method for classification and segmentation of audio content, based on the audio signal |
KR101380297B1 (ko) * | 2008-07-11 | 2014-04-02 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법 |
US8380498B2 (en) | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
US9037474B2 (en) | 2008-09-06 | 2015-05-19 | Huawei Technologies Co., Ltd. | Method for classifying audio signal into fast signal or slow signal |
CN101615395B (zh) | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
CN101847412B (zh) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | 音频信号的分类方法及装置 |
FR2944640A1 (fr) * | 2009-04-17 | 2010-10-22 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. |
JP5356527B2 (ja) * | 2009-09-19 | 2013-12-04 | 株式会社東芝 | 信号分類装置 |
CN102044246B (zh) * | 2009-10-15 | 2012-05-23 | 华为技术有限公司 | 一种音频信号检测方法和装置 |
CN102714034B (zh) * | 2009-10-15 | 2014-06-04 | 华为技术有限公司 | 信号处理的方法、装置和系统 |
CN102044244B (zh) * | 2009-10-15 | 2011-11-16 | 华为技术有限公司 | 信号分类方法和装置 |
CN102044243B (zh) * | 2009-10-15 | 2012-08-29 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
JP5651945B2 (ja) * | 2009-12-04 | 2015-01-14 | ヤマハ株式会社 | 音響処理装置 |
CN102098057B (zh) * | 2009-12-11 | 2015-03-18 | 华为技术有限公司 | 一种量化编解码方法和装置 |
US8473287B2 (en) * | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
CN101944362B (zh) * | 2010-09-14 | 2012-05-30 | 北京大学 | 一种基于整形小波变换的音频无损压缩编码、解码方法 |
CN102413324A (zh) * | 2010-09-20 | 2012-04-11 | 联合信源数字音视频技术(北京)有限公司 | 预编码码表优化方法与预编码方法 |
CN102446504B (zh) * | 2010-10-08 | 2013-10-09 | 华为技术有限公司 | 语音/音乐识别方法及装置 |
RU2010152225A (ru) * | 2010-12-20 | 2012-06-27 | ЭлЭсАй Корпорейшн (US) | Обнаружение музыки с использованием анализа спектральных пиков |
EP3493205B1 (en) * | 2010-12-24 | 2020-12-23 | Huawei Technologies Co., Ltd. | Method and apparatus for adaptively detecting a voice activity in an input audio signal |
CN102971789B (zh) * | 2010-12-24 | 2015-04-15 | 华为技术有限公司 | 用于执行话音活动检测的方法和设备 |
EP2494545A4 (en) * | 2010-12-24 | 2012-11-21 | Huawei Tech Co Ltd | METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES |
US8990074B2 (en) * | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
CN102982804B (zh) * | 2011-09-02 | 2017-05-03 | 杜比实验室特许公司 | 音频分类方法和系统 |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
CN103021405A (zh) * | 2012-12-05 | 2013-04-03 | 渤海大学 | 基于music和调制谱滤波的语音信号动态特征提取方法 |
JP5277355B1 (ja) * | 2013-02-08 | 2013-08-28 | リオン株式会社 | 信号処理装置及び補聴器並びに信号処理方法 |
US9984706B2 (en) * | 2013-08-01 | 2018-05-29 | Verint Systems Ltd. | Voice activity detection using a soft decision mechanism |
CN104347067B (zh) * | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US9620105B2 (en) * | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
JP6521855B2 (ja) | 2015-12-25 | 2019-05-29 | 富士フイルム株式会社 | 磁気テープおよび磁気テープ装置 |
-
2013
- 2013-08-06 CN CN201310339218.5A patent/CN104347067B/zh active Active
- 2013-08-06 CN CN201610860627.3A patent/CN106409313B/zh active Active
- 2013-08-06 CN CN201610867997.XA patent/CN106409310B/zh active Active
- 2013-09-26 BR BR112016002409-5A patent/BR112016002409B1/pt active IP Right Grant
- 2013-09-26 ES ES17160982T patent/ES2769267T3/es active Active
- 2013-09-26 HU HUE13891232A patent/HUE035388T2/en unknown
- 2013-09-26 ES ES19189062T patent/ES2909183T3/es active Active
- 2013-09-26 MY MYPI2016700430A patent/MY173561A/en unknown
- 2013-09-26 ES ES13891232.4T patent/ES2629172T3/es active Active
- 2013-09-26 EP EP21213287.2A patent/EP4057284A3/en active Pending
- 2013-09-26 EP EP19189062.3A patent/EP3667665B1/en active Active
- 2013-09-26 KR KR1020177034564A patent/KR101946513B1/ko active IP Right Grant
- 2013-09-26 PT PT171609829T patent/PT3324409T/pt unknown
- 2013-09-26 KR KR1020207002653A patent/KR102296680B1/ko active IP Right Grant
- 2013-09-26 JP JP2016532192A patent/JP6162900B2/ja active Active
- 2013-09-26 SG SG10201700588UA patent/SG10201700588UA/en unknown
- 2013-09-26 AU AU2013397685A patent/AU2013397685B2/en active Active
- 2013-09-26 EP EP13891232.4A patent/EP3029673B1/en active Active
- 2013-09-26 EP EP17160982.9A patent/EP3324409B1/en active Active
- 2013-09-26 KR KR1020197003316A patent/KR102072780B1/ko active IP Right Grant
- 2013-09-26 PT PT191890623T patent/PT3667665T/pt unknown
- 2013-09-26 KR KR1020167006075A patent/KR101805577B1/ko not_active Application Discontinuation
- 2013-09-26 MX MX2016001656A patent/MX353300B/es active IP Right Grant
- 2013-09-26 WO PCT/CN2013/084252 patent/WO2015018121A1/zh active Application Filing
- 2013-09-26 PT PT138912324T patent/PT3029673T/pt unknown
- 2013-09-26 SG SG11201600880SA patent/SG11201600880SA/en unknown
-
2016
- 2016-02-05 US US15/017,075 patent/US10090003B2/en active Active
- 2016-06-21 HK HK16107115.7A patent/HK1219169A1/zh unknown
-
2017
- 2017-06-15 JP JP2017117505A patent/JP6392414B2/ja active Active
- 2017-09-14 AU AU2017228659A patent/AU2017228659B2/en active Active
-
2018
- 2018-08-09 AU AU2018214113A patent/AU2018214113B2/en active Active
- 2018-08-22 JP JP2018155739A patent/JP6752255B2/ja active Active
- 2018-08-22 US US16/108,668 patent/US10529361B2/en active Active
-
2019
- 2019-12-20 US US16/723,584 patent/US11289113B2/en active Active
-
2022
- 2022-03-11 US US17/692,640 patent/US11756576B2/en active Active
-
2023
- 2023-07-27 US US18/360,675 patent/US20240029757A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6392414B2 (ja) | オーディオ信号分類方法及び装置 | |
US8874440B2 (en) | Apparatus and method for detecting speech | |
JP5905608B2 (ja) | 背景雑音の存在下でのボイスアクティビティ検出 | |
BR112013026333A2 (pt) | classificação de sinal de áudio baseada em quadro | |
JP2014507681A (ja) | 帯域幅を拡張する方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170718 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180723 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6392414 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |