HUE035388T2 - Audiójel osztályozó eljárás és készülék - Google Patents
Audiójel osztályozó eljárás és készülék Download PDFInfo
- Publication number
- HUE035388T2 HUE035388T2 HUE13891232A HUE13891232A HUE035388T2 HU E035388 T2 HUE035388 T2 HU E035388T2 HU E13891232 A HUE13891232 A HU E13891232A HU E13891232 A HUE13891232 A HU E13891232A HU E035388 T2 HUE035388 T2 HU E035388T2
- Authority
- HU
- Hungary
- Prior art keywords
- frequency spectrum
- frame
- audio frame
- current audio
- fluctuation
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims description 130
- 238000000034 method Methods 0.000 title claims description 88
- 238000001228 spectrum Methods 0.000 claims description 764
- 230000015654 memory Effects 0.000 claims description 163
- 230000000694 effects Effects 0.000 claims description 59
- 230000008859 change Effects 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims 1
- 238000007906 compression Methods 0.000 claims 1
- 239000000872 buffer Substances 0.000 description 50
- 230000004907 flux Effects 0.000 description 37
- 230000008569 process Effects 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 101150014198 epsP gene Proteins 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001154 acute effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- VJYFKVYYMZPMAB-UHFFFAOYSA-N ethoprophos Chemical compound CCCSP(=O)(OCC)SCCC VJYFKVYYMZPMAB-UHFFFAOYSA-N 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 229940116024 aftera Drugs 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 235000021183 entrée Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrophonic Musical Instruments (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Television Receiver Circuits (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Claims (8)
- Audiojei osztályozd eljárás és kèszüiêk Szabadalmi igénypontok1, Audiójel osztályozó eijárás, amely tartalmazza: egy aktuális audíó ketet hang aktivitása szerint annak meghtJtározásót (löl), hogy meg kell-e kapni az aktuális audio- keret frekvenciaspektrum fluktuációját és a frekvenciaspektrum fluktuációt el kell-e tárolni egy frekvenciaspektrum fluktuáció memóriában, ahol a frekvenciaspektrum fluktuáció egy audiójel frekvencia.-spektrumának energia fluktuációját jelöli; attól függően, hogy at audio keret perkusszív zene-e, a frekvenciaspektrum fluktuáció memóriában tárolt frekvenciaspektrum fluktuációk frissítését (Î02); és 32 aktuális adatkeret osztályozását (.103) beszéd keretként vagy zene keretként, a frekvenciaspektrum fluktuáció memóriában tárolt frekvenciaspektrum fluktuáció egy részének vagy összes hatékony adatának statisztikája szerint.
- 2, Az 1. igénypont szerinti eljárás, ahol annak a meghatározása, hogy egy aktuális audió keret hang aktivitása szerint meg keil-e a kapni az aktuális audio keret frekvenciaspektrum fluktuációját és a frekvenciaspektrum fluktuációt el kell-e tárolni egy frekvenciaspektrum fluktuáció memóriában, tartalmazza: ha az aktuális audió keret egy aktív keret, úgy az aktuális audió keret frekvenciaspektrum fluktuációjának eltárolását a frekvenciaspektrum fluktuáció memóriában,
- 3, Az 1, igénypont szerinti eljárás, aboi annak a meghatározása, hogy egy aktuális audió keret hang aktivitása szerint meg keli-e a kapni az aktuális audió keret frekvenciaspektrum fluktuációját és a frekvenciaspektrum fluktuációt el kell-e tárolni egy frekvenciaspektrum fluktuáció memóriában, tartalmazza: ha az aktuális audió keret egy aktív audió keret és az aktuális audíö keret nem tartozik egy energiarohamhoz, az aktuális audio keret frekvenciaspektrum fluktuációjának eltárolását a frekvenciaspektrum fluktuáció memóriában.
- 4, Az .1. igénypont szerinti eljárás, ahol annak a meghatározása, hogy egy aktuális audio keret hang aktivitása szerint meg kell-e a kapni az aktuális audio keret frekvenciaspektrum fluktuációját és a frekvenciaspektrum fluktuációt el kell-e tárolni egy frekvenciaspektrum fluktuáció memóriában, tartalmazza: ha az aktív audió keret egy aktív audió keret és egyetlen egymás után következő keret sem tartalmazza az aktuális audio keretet és az aktuális audio keret egy történeti kerete egy energiarohamhoz tartozik, az aktuális audió keret frekvenciaspektrum fluktuációjának eltárolását a frekvenciaspektrum fluktuáció memóriában.
- 5, Az 1-4. igénypontok bármelyike szerinti eljárás, ahol attól függően, hogy az aktuális audió keret perkusszív zene-e, a frekvenciaspektrum fluktuáció tárolóban tárolt frekvenciaspektrum fluktuációk frissítése tartalmazza: ha az aktuális audiö keret perkusszív zenéhez tartozik, a frekvenciaspektrum fluktuáció memóriában tarolt frekvenciaspektrum fluktuáció értékek módosítását. δ. Az í-S. igénypontok bármelyike szerinti eljárás, ahoi a frekvenciaspektrum fluktuáció memóriában táróit frekvenciaspektrum fluktuációk hatékony adatai egy részének vagy egészének e statisztikája szerint az az osztályozás, hogy az aktuális sudló keret: egy beszéd keret vagy egy zene keret., tartalmazza: a frekvenciaspektrum fluktuáció memóriában táróit frekvenciaspektrum fluktuációk hatékony adatai egy részének vagy egészének egy átlagos értekének a megszerzését; és ha a frekvenciaspektrum fluktuációk hatékony adatának megszerzett átlagos értéke kielégít egy zene osztályozási feltételt, úgy az aktuális audió keret osztályozását zene keretként, egyébként az aktuális audió keret osztályozását beszéd keretként,
- 7, Az i-5. igénypontok bármelyike szerinti eíjárás, ameiy tartalmazza továbbá; egy frekvenciaspektrum nagyfrekvenciás sávi csúcsosság-tartalmának, egy frekvenciaspektrum korrelációs mértéknek, és az aktuális audió keret maradék energia dőlés lineáris előrebecslésének megkapását, áltól a frekvenciaspektrum nagyfrekvenciás sávi csúcsosság-tartaiom csúcsokat vagy energia csúcsokat jelent az aktuális audió keret egy frekvenciaspektrumának egy nagyfrekvenciás sávjában; a frekvenciaspektrum korrelációs mérték az aktuális audio keret egy jei harmonikus struktúrájának szomszédos keretei közötti stabilitást jelenti; és a maradék energia dőlés lineáris előrebecslése egy olyan mértéket jelent, amekkorára az audiójel lineáris előrebecslést maradék energiája megváltozik, ahogy a lineáris előrebecslést sorrend nő; és az aktuális audió keret hang aktivitása szerint annak meghatározását, hogy el keli-e tárolni a frekvenciaspektrum nagyfrekvenciás sáv csúcsosságot, a frekvenciaspektrum korreláfilós mértéket és a lineáris"előrebecslést maradék energia dőlést egy memóriában, aho! az audió keret frekvenciaspektrum fluktuáció memóriában táróit frekvenciaspektrum fluktuációk hatékony adatat egy részének vagy egészének a statisztikája szerinti osztályozása tartalmazza: a tárolt frekvenciaspektrum fluktuációk hatékony adatai átlagos értékének, a tárolt frekvenciaspektrum nagy-frekvenciás .sás' csúcsosság hatékony adatai átlagos értékének, a tárolt frekvenciaspektrum korrelációs mértékek hatékony adata átlagos értékének, és a tároh lineáris előrebecslés! maradék energia dőlések hatékony értéke varianciájánsk megkapását külön-köiön; és ha a következő feltételek közül egy teljesül, úgy az aktuális audió keret osztályozását zene keretként; egyébként az aktuális audió keret osztályozását beszéd keretként; a frekvenciaspektrum fiuktuációk hatékony adatának átlagos értéke kisebb, mint egy első küszöbérték; vagy a frekvenciaspektrum nagyfrekvenciás sáv csúcsosság hatékony adatának az átlagos értéke nagyobb, mint egy második küszöbérték; vagy a frekvenciaspektrum korrelációs mérték hatékony adatának átlagos értéke nagyobb, mint egy harmadik küszöbérték; vagy a lineáris eiőrebecslési maradék energia dőlések hatékony adatának varfanctája kisebb, mint egy negyedik küszöbérték,
- 8. Audioiéi osztttlyozö berendezés, ahol a berendezés úgy van konfigurálva, hogy bemeneti audiójelet osztályozzon, és tartalmaz: tároiás meghatározó egységes (1301),. ameiy úgy van konfigurálva, hogy egy aktuális audió keret hang aktivitása szerint meghatározza., hogy meg keíl-e kapni az aktuális audio keres frekvenciaspektrum fluktuációját és a frekvenciaspektrum fluktuációt el kell-e tárolni egy frekvenciaspektrum fluktuáció memóriában, aho! a frekvenciaspektrum íiuktuáció egy audiójei frekvenciaspektrumának energia fluktuációját jelöíi; memóriát (1302), amely úgy van konfigurálva, hogy tárolja a frekvenciaspektrum fluktuációt, ha a tárolás meghatározó egység olyan eredményt ad ki, hogy a frekvenciaspektrum fluktuációt el kell tárolni; frissitőegységet (1304), amely úgy van konfigurálva, hogy attól függően, hogy az audió keret perkusszív zene-e, frissítse a frekvenciaspektrum fluktuáció memóriában tárolt frekvenciaspektrum fluktuációkat; és osztályozó egységet (1303), amely úgy van konfigurálva, hogy az aktuális adatkeretet beszéd keretként vagy zene keretként osztályozza a frekvenciaspektrum fluktuáció memóriában táróit frekvenciaspektrum fluktuáció egy részének vagy összes hatékony adatának statisztikája szerint, §, A 8, igénypont szerinti berendezés, ahol a tárolás meghatározó egység kifejezetten úgy van konfigurálva, hogy: ha az került meghatározásra, hogy az aktuális audio keret egy aktiv keret, olyan eredményi adjon ki, hogy az aktuális audió keret frekvenciaspektrum fluktuációját e! keíí táróink 10, A 8. igénypont szerinti berendezés, ahoi a tárolás meghatározó egység kifejezetten úgy van konfigurálva, hogy; ha az kerüit meghatározásra, hogy az aktuális audió keret egy aktív audió keret és az aktuáiis audio keret nem tartozik egy energiarohamhoz, olyan eredményt adjon ki, hogy az aktuális audió keret frekvenciaspektrum fluktuációját el keli tárolni. 11, A 3. igénypont szerinti berendezés, ahoi a tárolás meghatározó egység kifejezetten úgy van konfigurálva, hogy: ha az került meghatározásra, hogy az aktuális audió keret egy aktiv keret, és több egymást követő keret egyike sem tartalmazza az aktuális áudió keretet, és az aktuális audió keret egy történeti kerete egy energiarohamhoz tartozik, olyan eredményt adjon ki, hogy az aktuális audio keret frekvenciaspektrum fluktuációját el kei! tárolni. 12, A 8-l.f. igénypont szerinti berendezés, aho! a frlssítoegység kifejezetten úgy van konfigurálva, hogy ha az aktuális audió keret perkusszív zenéhez tartozik, módosítsa a frekvenciaspektrum fluktuáció memóriában táróit frekvenciaspektrum fluktuációk értékeit, 13, A 8-12. igénypont szerinti berendezés, ahol az osztályozó egység tartalmaz: egy számolóegységet, ameiy úgy van konfigurálva, hogy megkapja a memóriában táróit frekvenciaspektrum fluktuációk hatékony adatai egy részének vagy egészének átíagos értékér; és egy meghatározó egységet, amely úgy van konfigurálva, hogy összehasonlítsa a frekvenciaspektrum fluktuációk hatékony adatának átlagos értékét egy zene osztályozási feltéteíiel; és ha a frekvenciaspektrum fluktuációk hatékony adatának átlagos értéke kielégíti a zene osztályozás feltételt, az aktuális audio keretet zene keretként osztályozza; egyébként az aktuális audió keretet beszéd keretként osztályozza.
- 14, A S-12. igénypont szerinti berendezés, amely tartalmaz továbbá;. paraméter megszerző egységet, amely úgy van konfigurálva, hogy megkapjon egy frekvenciaspektrum nagy-frekvenciás sáv csúcsosságot, egy frekvenciaspektrum korrelációs mértéket, egy hangzás paramétert, és az aktuális audio keret lineáris eiőrebecsiési maradék energia dőlését, ahol a frekvenciaspektrum nagyfrekvenciás sávi csúcsosságtartalom csúcsokat vagy energia csúcsokat jelent az aktuális audió keret egy frekvenciaspektrumának egy nagyfrekvenciás sávjában; a frekvenciaspektrum korrelációs mérték az aktuális audió keret egy jel harmonikus struktúrájának szomszédos keretei közötti stabilitást jelenti; és á maradék energia dőiés lineáris előrebecslése egy olyan mértéket jelent, amekkorára az audiójef lineáris eiőrebecsiési maradék energiája megváltozik, ahogy 3 iineáris eiőrebecsiési sorrend nő; ahol a tárolás meghatározó egység továbbá úgy van konfigurálva, hogy az aktuális audió keret hang aktivitása alapján meghatározza, hogy el kell-e tárölni a frekvenciaspektrum nagyfrekvenciás sáv csúcsosságot, a frekvenciaspektrum korrelációs mértéket és a iineáris eiőrebecsiési maradvány energia dőlést memóriákban; à memória úgy van továbbá konfigurálva, hogy; ha a tárolás meghatározó egység olyan eredményt ad ki, hogy a frekvenciaspektrum nagyfrekvenciás sáv csúcsosságot, a frekvenciaspektrum korrelációs mértéket, és a lineáris eiőrebecsiési maradék energia dőlést el kell tárolni, úgy a frekvenciaspektrum nagyfrekvenciás sáv csúcsosságoi, a frekvenciaspektrum korrelációs mértéket és a iineáris eiőrebecsiési maradék energia dőlést eltárolja; és az osztályozó egység kifejezetten úgy vsn konfigurálva, bogy megkapja a tárolt frekvenciaspektrum fluktuációk hatékony adatainak statisztikáit, a tárolt frekvenciaspektrum nagyfrekvenciás sáv csúcsosság hatékony adatainak statisztikáit, a tárolt frekvenciaspektrum korrelációs mértékek hatékony adatainak statisztikáit, és a tárolt lineáris eiőrebecsiési maradék energia dőiések hatékony adatainak statisztikáit, és az audió keretet beszéd keretként vagy zene keretként osztályozza a hatékony adatok statisztikái alapján, 15. A 14, igénypont szerinti berendezés, ahol az osztályozó egység tartalmaz: egy számolóegységet, ameiy úgy van konfigurálva, hogy megkapja a tárolt frekvenciaspektrum fluktuációk hatékony adatainak átlagos értekét, a tárolt frekvenciaspektrum nagyfrekvenciás sáv csúcsosság hatékony adatainak adagos értékét, a tárolt frekvenciaspektrum korrelációs mérték hatékony adatainak átlagos értékét, és a táróit iineáris eiőrebecsiési maradék energia dőiések hatékony adatainak átlagos értékét, és a táróit linearis eiőrebecsiési maradék energia dőiések hatékony adatainak varianciáját, kúlön-külön; és egy meghatározó egységet, amely úgy van konfigurálva, hogy: ha a kővetkező feltételek egyike teljesül, osztályozza az aktuális audió keretet zene keretként; egyébként az aktuális audio keretet beszéd keretként osztályozza; a frekvenciaspektrum fluktuációk hatékony adatának átlagos érteke kisebb, mint egy első küszöbérték; vagy a frekvenciaspektrum nagyfrekvenciás sáv csúcsosság hatékony adatának az átlagos értéke nagyobb, mint egy második küszöbérték; vagy 3 frekvenciaspektrum korrelációs mérték hatékony adatának átlagos értéke nagyobb, mint egy harmadik küszöbérték; vagy a lineáris eiörebecslésí maradék energia dőíések hatékony adatának varíancíájs kisebb, mint egy negyedik küszöbérték.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310339218.5A CN104347067B (zh) | 2013-08-06 | 2013-08-06 | 一种音频信号分类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
HUE035388T2 true HUE035388T2 (hu) | 2018-05-02 |
Family
ID=52460591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
HUE13891232A HUE035388T2 (hu) | 2013-08-06 | 2013-09-26 | Audiójel osztályozó eljárás és készülék |
Country Status (15)
Country | Link |
---|---|
US (5) | US10090003B2 (hu) |
EP (4) | EP4057284A3 (hu) |
JP (3) | JP6162900B2 (hu) |
KR (4) | KR101946513B1 (hu) |
CN (3) | CN104347067B (hu) |
AU (3) | AU2013397685B2 (hu) |
BR (1) | BR112016002409B1 (hu) |
ES (3) | ES2769267T3 (hu) |
HK (1) | HK1219169A1 (hu) |
HU (1) | HUE035388T2 (hu) |
MX (1) | MX353300B (hu) |
MY (1) | MY173561A (hu) |
PT (3) | PT3324409T (hu) |
SG (2) | SG10201700588UA (hu) |
WO (1) | WO2015018121A1 (hu) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104347067B (zh) | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
KR101621774B1 (ko) * | 2014-01-24 | 2016-05-19 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
WO2015111772A1 (ko) * | 2014-01-24 | 2015-07-30 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
KR101621766B1 (ko) | 2014-01-28 | 2016-06-01 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
KR101621780B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101621797B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101569343B1 (ko) | 2014-03-28 | 2015-11-30 | 숭실대학교산학협력단 | 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
RU2665916C2 (ru) * | 2014-07-29 | 2018-09-04 | Телефонактиеболагет Лм Эрикссон (Пабл) | Оценивание фонового шума в аудиосигналах |
TWI576834B (zh) * | 2015-03-02 | 2017-04-01 | 聯詠科技股份有限公司 | 聲頻訊號的雜訊偵測方法與裝置 |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
TWI569263B (zh) * | 2015-04-30 | 2017-02-01 | 智原科技股份有限公司 | 聲頻訊號的訊號擷取方法與裝置 |
EP3340238B1 (en) * | 2015-05-25 | 2020-07-22 | Guangzhou Kugou Computer Technology Co., Ltd. | Method and device for audio processing |
US9965685B2 (en) | 2015-06-12 | 2018-05-08 | Google Llc | Method and system for detecting an audio event for smart home devices |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
CN106571150B (zh) * | 2015-10-12 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种识别音乐中的人声的方法和系统 |
US10902043B2 (en) | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
US9852745B1 (en) | 2016-06-24 | 2017-12-26 | Microsoft Technology Licensing, Llc | Analyzing changes in vocal power within music content using frequency spectrums |
EP3309777A1 (en) * | 2016-10-13 | 2018-04-18 | Thomson Licensing | Device and method for audio frame processing |
GB201617408D0 (en) | 2016-10-13 | 2016-11-30 | Asio Ltd | A method and system for acoustic communication of data |
GB201617409D0 (en) * | 2016-10-13 | 2016-11-30 | Asio Ltd | A method and system for acoustic communication of data |
CN107221334B (zh) * | 2016-11-01 | 2020-12-29 | 武汉大学深圳研究院 | 一种音频带宽扩展的方法及扩展装置 |
GB201704636D0 (en) | 2017-03-23 | 2017-05-10 | Asio Ltd | A method and system for authenticating a device |
GB2565751B (en) | 2017-06-15 | 2022-05-04 | Sonos Experience Ltd | A method and system for triggering events |
CN114898761A (zh) | 2017-08-10 | 2022-08-12 | 华为技术有限公司 | 立体声信号编解码方法及装置 |
US10586529B2 (en) * | 2017-09-14 | 2020-03-10 | International Business Machines Corporation | Processing of speech signal |
EP3701528B1 (en) | 2017-11-02 | 2023-03-15 | Huawei Technologies Co., Ltd. | Segmentation-based feature extraction for acoustic scene classification |
CN107886956B (zh) * | 2017-11-13 | 2020-12-11 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及计算机存储介质 |
GB2570634A (en) | 2017-12-20 | 2019-08-07 | Asio Ltd | A method and system for improved acoustic transmission of data |
CN108501003A (zh) * | 2018-05-08 | 2018-09-07 | 国网安徽省电力有限公司芜湖供电公司 | 一种应用于变电站智能巡检机器人的声音识别系统和方法 |
CN108830162B (zh) * | 2018-05-21 | 2022-02-08 | 西华大学 | 无线电频谱监测数据中的时序模式序列提取方法及存储方法 |
US11240609B2 (en) * | 2018-06-22 | 2022-02-01 | Semiconductor Components Industries, Llc | Music classifier and related methods |
US10692490B2 (en) * | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
CN108986843B (zh) * | 2018-08-10 | 2020-12-11 | 杭州网易云音乐科技有限公司 | 音频数据处理方法及装置、介质和计算设备 |
EP3836482A4 (en) | 2018-10-19 | 2022-05-04 | Nippon Telegraph And Telephone Corporation | AUTHENTICATION AUTHORIZATION SYSTEM, INFORMATION PROCESSING DEVICE, DEVICE, AUTHENTICATION AUTHORIZATION METHOD AND PROGRAM |
US11342002B1 (en) * | 2018-12-05 | 2022-05-24 | Amazon Technologies, Inc. | Caption timestamp predictor |
CN109360585A (zh) * | 2018-12-19 | 2019-02-19 | 晶晨半导体(上海)股份有限公司 | 一种语音激活检测方法 |
US12118987B2 (en) | 2019-04-18 | 2024-10-15 | Dolby Laboratories Licensing Corporation | Dialog detector |
CN110097895B (zh) * | 2019-05-14 | 2021-03-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种纯音乐检测方法、装置及存储介质 |
KR20220042165A (ko) * | 2019-08-01 | 2022-04-04 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 공분산 평활화를 위한 시스템 및 방법 |
CN110600060B (zh) * | 2019-09-27 | 2021-10-22 | 云知声智能科技股份有限公司 | 一种硬件音频主动探测hvad系统 |
KR102155743B1 (ko) * | 2019-10-07 | 2020-09-14 | 견두헌 | 대표음량을 적용한 컨텐츠 음량 조절 시스템 및 그 방법 |
CN113162837B (zh) * | 2020-01-07 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 语音消息的处理方法、装置、设备及存储介质 |
CA3170065A1 (en) * | 2020-04-16 | 2021-10-21 | Vladimir Malenovsky | Method and device for speech/music classification and core encoder selection in a sound codec |
US11988784B2 (en) | 2020-08-31 | 2024-05-21 | Sonos, Inc. | Detecting an audio signal with a microphone to determine presence of a playback device |
CN112331233B (zh) * | 2020-10-27 | 2024-07-23 | 郑州捷安高科股份有限公司 | 听觉信号识别方法、装置、设备及存储介质 |
CN112509601B (zh) * | 2020-11-18 | 2022-09-06 | 中电海康集团有限公司 | 一种音符起始点检测方法及系统 |
US20220157334A1 (en) * | 2020-11-19 | 2022-05-19 | Cirrus Logic International Semiconductor Ltd. | Detection of live speech |
CN112201271B (zh) * | 2020-11-30 | 2021-02-26 | 全时云商务服务股份有限公司 | 一种基于vad的语音状态统计方法、系统和可读存储介质 |
CN113192488B (zh) * | 2021-04-06 | 2022-05-06 | 青岛信芯微电子科技股份有限公司 | 一种语音处理方法及装置 |
CN113593602B (zh) * | 2021-07-19 | 2023-12-05 | 深圳市雷鸟网络传媒有限公司 | 一种音频处理方法、装置、电子设备和存储介质 |
CN113689861B (zh) * | 2021-08-10 | 2024-02-27 | 上海淇玥信息技术有限公司 | 一种单声道通话录音的智能分轨方法、装置和系统 |
KR102481362B1 (ko) * | 2021-11-22 | 2022-12-27 | 주식회사 코클 | 음향 데이터의 인식 정확도를 향상시키기 위한 방법, 장치 및 프로그램 |
CN114283841B (zh) * | 2021-12-20 | 2023-06-06 | 天翼爱音乐文化科技有限公司 | 一种音频分类方法、系统、装置及存储介质 |
CN117147966B (zh) * | 2023-08-30 | 2024-05-07 | 中国人民解放军军事科学院系统工程研究院 | 一种电磁频谱信号能量异常检测方法 |
Family Cites Families (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
JP3700890B2 (ja) * | 1997-07-09 | 2005-09-28 | ソニー株式会社 | 信号識別装置及び信号識別方法 |
ATE302991T1 (de) * | 1998-01-22 | 2005-09-15 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen |
US6901362B1 (en) | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
JP4201471B2 (ja) | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
JP4696418B2 (ja) | 2001-07-25 | 2011-06-08 | ソニー株式会社 | 情報検出装置及び方法 |
US6785645B2 (en) | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
CN1703736A (zh) | 2002-10-11 | 2005-11-30 | 诺基亚有限公司 | 用于源控制可变比特率宽带语音编码的方法和装置 |
KR100841096B1 (ko) * | 2002-10-14 | 2008-06-25 | 리얼네트웍스아시아퍼시픽 주식회사 | 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법 |
US7232948B2 (en) * | 2003-07-24 | 2007-06-19 | Hewlett-Packard Development Company, L.P. | System and method for automatic classification of music |
US20050159942A1 (en) * | 2004-01-15 | 2005-07-21 | Manoj Singhal | Classification of speech and music using linear predictive coding coefficients |
CN1815550A (zh) * | 2005-02-01 | 2006-08-09 | 松下电器产业株式会社 | 可识别环境中的语音与非语音的方法及系统 |
US20070083365A1 (en) | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
JP4738213B2 (ja) * | 2006-03-09 | 2011-08-03 | 富士通株式会社 | 利得調整方法及び利得調整装置 |
TWI312982B (en) * | 2006-05-22 | 2009-08-01 | Nat Cheng Kung Universit | Audio signal segmentation algorithm |
US20080033583A1 (en) * | 2006-08-03 | 2008-02-07 | Broadcom Corporation | Robust Speech/Music Classification for Audio Signals |
CN100483509C (zh) | 2006-12-05 | 2009-04-29 | 华为技术有限公司 | 声音信号分类方法和装置 |
KR100883656B1 (ko) | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
US8849432B2 (en) | 2007-05-31 | 2014-09-30 | Adobe Systems Incorporated | Acoustic pattern identification using spectral characteristics to synchronize audio and/or video |
CN101320559B (zh) * | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
US8990073B2 (en) * | 2007-06-22 | 2015-03-24 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
CN101393741A (zh) * | 2007-09-19 | 2009-03-25 | 中兴通讯股份有限公司 | 一种宽带音频编解码器中的音频信号分类装置及分类方法 |
CN101221766B (zh) * | 2008-01-23 | 2011-01-05 | 清华大学 | 音频编码器切换的方法 |
US8401845B2 (en) | 2008-03-05 | 2013-03-19 | Voiceage Corporation | System and method for enhancing a decoded tonal sound signal |
CN101546557B (zh) * | 2008-03-28 | 2011-03-23 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类器参数更新方法 |
CN101546556B (zh) * | 2008-03-28 | 2011-03-23 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类系统 |
WO2010001393A1 (en) * | 2008-06-30 | 2010-01-07 | Waves Audio Ltd. | Apparatus and method for classification and segmentation of audio content, based on the audio signal |
KR101380297B1 (ko) * | 2008-07-11 | 2014-04-02 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법 |
US8380498B2 (en) | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
US9037474B2 (en) | 2008-09-06 | 2015-05-19 | Huawei Technologies Co., Ltd. | Method for classifying audio signal into fast signal or slow signal |
CN101615395B (zh) | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
CN101847412B (zh) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | 音频信号的分类方法及装置 |
FR2944640A1 (fr) * | 2009-04-17 | 2010-10-22 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. |
JP5356527B2 (ja) * | 2009-09-19 | 2013-12-04 | 株式会社東芝 | 信号分類装置 |
CN102044246B (zh) * | 2009-10-15 | 2012-05-23 | 华为技术有限公司 | 一种音频信号检测方法和装置 |
CN102714034B (zh) * | 2009-10-15 | 2014-06-04 | 华为技术有限公司 | 信号处理的方法、装置和系统 |
CN102044244B (zh) * | 2009-10-15 | 2011-11-16 | 华为技术有限公司 | 信号分类方法和装置 |
CN102044243B (zh) * | 2009-10-15 | 2012-08-29 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
JP5651945B2 (ja) * | 2009-12-04 | 2015-01-14 | ヤマハ株式会社 | 音響処理装置 |
CN102098057B (zh) * | 2009-12-11 | 2015-03-18 | 华为技术有限公司 | 一种量化编解码方法和装置 |
US8473287B2 (en) * | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
CN101944362B (zh) * | 2010-09-14 | 2012-05-30 | 北京大学 | 一种基于整形小波变换的音频无损压缩编码、解码方法 |
CN102413324A (zh) * | 2010-09-20 | 2012-04-11 | 联合信源数字音视频技术(北京)有限公司 | 预编码码表优化方法与预编码方法 |
CN102446504B (zh) * | 2010-10-08 | 2013-10-09 | 华为技术有限公司 | 语音/音乐识别方法及装置 |
RU2010152225A (ru) * | 2010-12-20 | 2012-06-27 | ЭлЭсАй Корпорейшн (US) | Обнаружение музыки с использованием анализа спектральных пиков |
EP3493205B1 (en) * | 2010-12-24 | 2020-12-23 | Huawei Technologies Co., Ltd. | Method and apparatus for adaptively detecting a voice activity in an input audio signal |
CN102971789B (zh) * | 2010-12-24 | 2015-04-15 | 华为技术有限公司 | 用于执行话音活动检测的方法和设备 |
EP2494545A4 (en) * | 2010-12-24 | 2012-11-21 | Huawei Tech Co Ltd | METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES |
US8990074B2 (en) * | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
CN102982804B (zh) * | 2011-09-02 | 2017-05-03 | 杜比实验室特许公司 | 音频分类方法和系统 |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
CN103021405A (zh) * | 2012-12-05 | 2013-04-03 | 渤海大学 | 基于music和调制谱滤波的语音信号动态特征提取方法 |
JP5277355B1 (ja) * | 2013-02-08 | 2013-08-28 | リオン株式会社 | 信号処理装置及び補聴器並びに信号処理方法 |
US9984706B2 (en) * | 2013-08-01 | 2018-05-29 | Verint Systems Ltd. | Voice activity detection using a soft decision mechanism |
CN104347067B (zh) * | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US9620105B2 (en) * | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
JP6521855B2 (ja) | 2015-12-25 | 2019-05-29 | 富士フイルム株式会社 | 磁気テープおよび磁気テープ装置 |
-
2013
- 2013-08-06 CN CN201310339218.5A patent/CN104347067B/zh active Active
- 2013-08-06 CN CN201610860627.3A patent/CN106409313B/zh active Active
- 2013-08-06 CN CN201610867997.XA patent/CN106409310B/zh active Active
- 2013-09-26 BR BR112016002409-5A patent/BR112016002409B1/pt active IP Right Grant
- 2013-09-26 ES ES17160982T patent/ES2769267T3/es active Active
- 2013-09-26 HU HUE13891232A patent/HUE035388T2/hu unknown
- 2013-09-26 ES ES19189062T patent/ES2909183T3/es active Active
- 2013-09-26 MY MYPI2016700430A patent/MY173561A/en unknown
- 2013-09-26 ES ES13891232.4T patent/ES2629172T3/es active Active
- 2013-09-26 EP EP21213287.2A patent/EP4057284A3/en active Pending
- 2013-09-26 EP EP19189062.3A patent/EP3667665B1/en active Active
- 2013-09-26 KR KR1020177034564A patent/KR101946513B1/ko active IP Right Grant
- 2013-09-26 PT PT171609829T patent/PT3324409T/pt unknown
- 2013-09-26 KR KR1020207002653A patent/KR102296680B1/ko active IP Right Grant
- 2013-09-26 JP JP2016532192A patent/JP6162900B2/ja active Active
- 2013-09-26 SG SG10201700588UA patent/SG10201700588UA/en unknown
- 2013-09-26 AU AU2013397685A patent/AU2013397685B2/en active Active
- 2013-09-26 EP EP13891232.4A patent/EP3029673B1/en active Active
- 2013-09-26 EP EP17160982.9A patent/EP3324409B1/en active Active
- 2013-09-26 KR KR1020197003316A patent/KR102072780B1/ko active IP Right Grant
- 2013-09-26 PT PT191890623T patent/PT3667665T/pt unknown
- 2013-09-26 KR KR1020167006075A patent/KR101805577B1/ko not_active Application Discontinuation
- 2013-09-26 MX MX2016001656A patent/MX353300B/es active IP Right Grant
- 2013-09-26 WO PCT/CN2013/084252 patent/WO2015018121A1/zh active Application Filing
- 2013-09-26 PT PT138912324T patent/PT3029673T/pt unknown
- 2013-09-26 SG SG11201600880SA patent/SG11201600880SA/en unknown
-
2016
- 2016-02-05 US US15/017,075 patent/US10090003B2/en active Active
- 2016-06-21 HK HK16107115.7A patent/HK1219169A1/zh unknown
-
2017
- 2017-06-15 JP JP2017117505A patent/JP6392414B2/ja active Active
- 2017-09-14 AU AU2017228659A patent/AU2017228659B2/en active Active
-
2018
- 2018-08-09 AU AU2018214113A patent/AU2018214113B2/en active Active
- 2018-08-22 JP JP2018155739A patent/JP6752255B2/ja active Active
- 2018-08-22 US US16/108,668 patent/US10529361B2/en active Active
-
2019
- 2019-12-20 US US16/723,584 patent/US11289113B2/en active Active
-
2022
- 2022-03-11 US US17/692,640 patent/US11756576B2/en active Active
-
2023
- 2023-07-27 US US18/360,675 patent/US20240029757A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
HUE035388T2 (hu) | Audiójel osztályozó eljárás és készülék | |
JP2019531494A (ja) | 音声品質評価方法及び装置 | |
JP2024036349A (ja) | 遅延推定方法および遅延推定装置 | |
JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP5639273B2 (ja) | ピッチサイクルエネルギーを判断し、励起信号をスケーリングすること | |
CN115346549A (zh) | 一种基于深度学习的音频带宽扩展方法、系统及编码方法 | |
JP2023079258A (ja) | 音抽出システム及び音抽出方法 | |
CN118248152A (zh) | 一种基于语音的身份识别方法及相关设备 |