JP4797342B2 - オーディオデータを自動的に認識する方法及び装置 - Google Patents
オーディオデータを自動的に認識する方法及び装置 Download PDFInfo
- Publication number
- JP4797342B2 JP4797342B2 JP2004208915A JP2004208915A JP4797342B2 JP 4797342 B2 JP4797342 B2 JP 4797342B2 JP 2004208915 A JP2004208915 A JP 2004208915A JP 2004208915 A JP2004208915 A JP 2004208915A JP 4797342 B2 JP4797342 B2 JP 4797342B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- ica
- audio file
- data
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 50
- 238000012880 independent component analysis Methods 0.000 claims description 74
- 230000006870 function Effects 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 3
- 238000000638 solvent extraction Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 23
- 238000012549 training Methods 0.000 description 14
- 101001081606 Homo sapiens Islet cell autoantigen 1 Proteins 0.000 description 8
- 102100027640 Islet cell autoantigen 1 Human genes 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Analysis (AREA)
Description
1)プリエンファシス:オーディオ信号を、その信号対雑音比を改善するために処理する。
2)窓掛け(windowing):連続的なオーディオデータを、25msのフレームであって、互いに10msの部分がオーバラップしたフレームに分割する。オーディオデータをフレームに分割した後、個々のフレームを、各フレームの端にある信号の不連続性を最小限にするために、ハミング窓を用いて処理する。
3)高速フーリエ変換(Fast Fourier Transform:FFT)を用いて、オーディオデータの各フレームを、時間領域から周波数領域に変換する。
4)「メル尺度フィルタバンク(Mel Scale Filter Bank)」処理:メル尺度を用いて信号のスペクトルをメル伸縮スペクトル(Mel-warped spectrum)に変換する。これは、フーリエ変換した信号を、1組の帯域通過フィルタに通すことによって、データの著しい損失なしに実行される。フィルタバンクは、三角形状の帯域通過周波数特性を有する。これは、周波数領域においては不均一であるが、メル伸縮スペクトルの中では均一に分布する。
5)その後、各メルスペクトル係数の対数を取ることにより、周波数が1000Hz以上の係数は縮小され、低い周波数の係数は強調される。
6)最後に、対数メルスペクトル係数を、離散コサイン変換(DCT)を用いて時間領域へ変換して、メル周波数ケプストラム係数(MFCC)を得る。
Claims (11)
- 複数のオーディオファイル中で第1のオーディオファイルを識別し、該第1のオーディオファイルから導出されたオーディオデータのセグメントを用いるオーディオファイル識別方法において、
(a)上記オーディオデータのセグメントから抽出されたオーディオ特徴によって観察ベクトルを生成するステップと、
(b)上記観察ベクトルを用いて、上記第1のオーディオファイルを認識するステップとを有し、
上記オーディオ特徴は、上記オーディオデータのセグメントの独立成分分析(ICA分析)によって得られたICA特徴と、上記オーディオデータのセグメントを周波数領域に変換し、メル尺度フィルタバンクを適用し、且つ、メル尺度フィルタバンクの出力にICA分析を適用することによって得られたICA−MFCC特徴との少なくとも1つを含んでいることを特徴とするオーディオファイル識別方法。 - 上記ICA分析は、
上記オーディオデータ又はメルスペクトルデータからICA基底関数及び重み関数を計算するステップと、
上記基底関数と重み関数を用いて上記オーディオデータ又はメルスペクトルデータをICA領域に変換して、ICA係数を得るステップとを含むことを特徴とする請求項1記載のオーディオファイル識別方法。 - 上記オーディオ特徴は上記ICA特徴を含み、上記ICA特徴を計算するステップは、
上記オーディオデータをプリエンファシスして、該オーディオデータのSNRを向上させるステップと、
上記プリエンファシスされたデータを窓掛けするステップと、
上記窓掛けされたデータを上記ICA基底関数及び重み関数でICA変換して、上記ICA特徴を得るステップとを含むことを特徴とする請求項2記載のオーディオファイル識別方法。 - 上記オーディオ特徴は上記ICA-MFCC特徴を含み、該ICA-MFCC特徴は、
上記オーディオデータを前処理して、該オーディオデータをプリエンファシスし且つ窓掛けするステップと、
上記前処理されたオーディオデータを時間領域から周波数領域に変換するステップと、
上記変換されたオーディオデータを1組のメル尺度フィルタに通して、上記メルスペクトルデータを得るステップと、
上記メルスペクトルデータをICA処理して第1のMFCC特徴としてICA係数を得るステップとによって得られることを特徴とする請求項2記載のオーディオファイル識別方法。 - 上記ICA基底関数及び重み関数を計算するステップは、
上記オーディオデータ又はメルスペクトルデータを区分して、区分された信号を得るステップと、
上記区分された信号をPCAアルゴリズムによって無相関にして、無相関信号を得るステップと、
上記無相関信号を高速ICAアルゴリズムによってICA学習して、当該ICA基底関数及び重み関数を得るステップとを含むことを特徴とする請求項4記載のオーディオファイル識別方法。 - 上記オーディオ特徴は、上記オーディオセグメントを周波数領域に変換し、メル尺度フィルタバンクを適用し、且つ、対数処理を適用せずに、該メル尺度フィルタバンク信号の出力を時間領域に変換することによって得られたMFCC特徴を更に含むことを特徴とする請求項1乃至5のいずれか1項記載のオーディオファイル識別方法。
- 上記第1のオーディオファイルを認識するステップは、目標オーディオファイル毎のHMMモデルを含むデータベース内で、目標オーディオファイルが与えられると、得られる観察ベクトルの確率が最大であるHMMを決定にすることにより行われることを特徴とする請求項1記載のオーディオファイル識別方法。
- 複数のオーディオファイルの中から、第1のオーディオファイルから導出されたオーディオデータのセグメントに基づき、該第1のオーディオファイルを識別するオーディオファイル識別装置において、
(a)上記オーディオデータのセグメントから抽出されたオーディオ特徴によって観察ベクトルを生成する手段と、
(b)上記観察ベクトルを用いて、上記第1のオーディオファイルを認識する識別手段とを備え、
上記オーディオ特徴は、
(i)上記オーディオデータセグメントを独立成分分析手段(ICA分析手段)へ渡すことにより得られたICA特徴と、
(ii)上記オーディオセグメントを高速フーリエ変換を用いて周波数領域に変換し、メル尺度フィルタバンクを適用し、該メル尺度フィルタバンクの出力をICA分析方法へ渡すことによって得られたICA-MFCC特徴との少なくとも1つを含むことを特徴とするオーディオファイル識別装置。 - 上記ICA分析手段は、
上記オーディオデータ又はメルスペクトルデータからICA基底関数及び重み関数を計算する手段と、
上記オーディオデータ又はメルスペクトルデータを、上記基底関数及び重み関数を用いてICA領域に変換して、ICA係数を得る手段とを備えることを特徴とする請求項8記載のオーディオファイル識別装置。 - 上記オーディオ特徴は、上記オーディオセグメントを周波数領域に変換し、メル尺度フィルタバンクを適用し、且つ、対数のステップを適用せずに、該時間領域へメル尺度フィルタバンク信号の出力を変換することによって得られたMFCC特徴を更に含むことを特徴とする請求項8又は請求項9記載のオーディオファイル識別装置。
- 上記識別手段は、
各目標オーディオファイル毎のHMMモデルを含むデータベースと、
上記目標オーディオファイルが与えられると、上記データベース中で、得られる観察ベクトルの確率が最大であるHMMを決定する手段とを備えることを特徴とする請求項8記載のオーディオファイル識別装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SG200304014-4A SG140445A1 (en) | 2003-07-28 | 2003-07-28 | Method and apparatus for automatically recognizing audio data |
SG200304014-4 | 2003-07-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005049859A JP2005049859A (ja) | 2005-02-24 |
JP4797342B2 true JP4797342B2 (ja) | 2011-10-19 |
Family
ID=34102177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004208915A Expired - Fee Related JP4797342B2 (ja) | 2003-07-28 | 2004-07-15 | オーディオデータを自動的に認識する方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8140329B2 (ja) |
JP (1) | JP4797342B2 (ja) |
SG (1) | SG140445A1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101125753B1 (ko) * | 2003-08-29 | 2012-03-27 | 소니 주식회사 | 송신 장치 및 송신 방법 |
KR100678770B1 (ko) * | 2005-08-24 | 2007-02-02 | 한양대학교 산학협력단 | 궤환 신호 제거 기능을 구비한 보청기 |
US9123350B2 (en) * | 2005-12-14 | 2015-09-01 | Panasonic Intellectual Property Management Co., Ltd. | Method and system for extracting audio features from an encoded bitstream for audio classification |
US7565334B2 (en) * | 2006-11-17 | 2009-07-21 | Honda Motor Co., Ltd. | Fully bayesian linear regression |
US8340437B2 (en) * | 2007-05-29 | 2012-12-25 | University Of Iowa Research Foundation | Methods and systems for determining optimal features for classifying patterns or objects in images |
PA8847501A1 (es) * | 2008-11-03 | 2010-06-28 | Telefonica Sa | Metodo y sistema de identificacion en tiempo real de un anuncio audiovisual en un flujo de datos |
GB2466242B (en) * | 2008-12-15 | 2013-01-02 | Audio Analytic Ltd | Sound identification systems |
WO2012078636A1 (en) | 2010-12-07 | 2012-06-14 | University Of Iowa Research Foundation | Optimal, user-friendly, object background separation |
WO2012100221A1 (en) | 2011-01-20 | 2012-07-26 | University Of Iowa Research Foundation | Automated determination of arteriovenous ratio in images of blood vessels |
EP2707872A2 (en) * | 2011-05-12 | 2014-03-19 | Johnson Controls Technology Company | Adaptive voice recognition systems and methods |
WO2013165614A1 (en) | 2012-05-04 | 2013-11-07 | University Of Iowa Research Foundation | Automated assessment of glaucoma loss from optical coherence tomography |
WO2014143891A1 (en) | 2013-03-15 | 2014-09-18 | University Of Iowa Research Foundation | Automated separation of binary overlapping trees |
JP6085538B2 (ja) * | 2013-09-02 | 2017-02-22 | 本田技研工業株式会社 | 音響認識装置、音響認識方法、及び音響認識プログラム |
US20150220629A1 (en) * | 2014-01-31 | 2015-08-06 | Darren Nolf | Sound Melody as Web Search Query |
US10410355B2 (en) | 2014-03-21 | 2019-09-10 | U.S. Department Of Veterans Affairs | Methods and systems for image analysis using non-euclidean deformed graphs |
CN104183245A (zh) * | 2014-09-04 | 2014-12-03 | 福建星网视易信息系统有限公司 | 一种演唱者音色相似的歌星推荐方法与装置 |
US10115194B2 (en) | 2015-04-06 | 2018-10-30 | IDx, LLC | Systems and methods for feature detection in retinal images |
CN106328152B (zh) * | 2015-06-30 | 2020-01-31 | 芋头科技(杭州)有限公司 | 一种室内噪声污染自动识别监测系统 |
CN106919662B (zh) * | 2017-02-14 | 2021-08-31 | 复旦大学 | 一种音乐识别方法及系统 |
CN106992012A (zh) * | 2017-03-24 | 2017-07-28 | 联想(北京)有限公司 | 语音处理方法及电子设备 |
CN110622155A (zh) | 2017-10-03 | 2019-12-27 | 谷歌有限责任公司 | 将音乐识别为特定歌曲 |
US10249293B1 (en) | 2018-06-11 | 2019-04-02 | Capital One Services, Llc | Listening devices for obtaining metrics from ambient noise |
CN109584888A (zh) * | 2019-01-16 | 2019-04-05 | 上海大学 | 基于机器学习的鸣笛识别方法 |
CN111061909B (zh) * | 2019-11-22 | 2023-11-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种伴奏分类方法和装置 |
CN113223511B (zh) * | 2020-01-21 | 2024-04-16 | 珠海市煊扬科技有限公司 | 用于语音识别的音频处理装置 |
CN111816205B (zh) * | 2020-07-09 | 2023-06-20 | 中国人民解放军战略支援部队航天工程大学 | 一种基于飞机音频的机型智能识别方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3002204B2 (ja) * | 1989-03-13 | 2000-01-24 | 株式会社東芝 | 時系列信号認識装置 |
JPH0743598B2 (ja) * | 1992-06-25 | 1995-05-15 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識方法 |
US5781880A (en) * | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
US5918223A (en) | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US5953700A (en) * | 1997-06-11 | 1999-09-14 | International Business Machines Corporation | Portable acoustic interface for remote access to automatic speech/speaker recognition server |
US6327343B1 (en) * | 1998-01-16 | 2001-12-04 | International Business Machines Corporation | System and methods for automatic call and data transfer processing |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
US20010044719A1 (en) * | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
EP1079615A3 (en) * | 1999-08-26 | 2002-09-25 | Matsushita Electric Industrial Co., Ltd. | System for identifying and adapting a TV-user profile by means of speech technology |
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
DE10047724A1 (de) * | 2000-09-27 | 2002-04-11 | Philips Corp Intellectual Pty | Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern |
US20030046071A1 (en) * | 2001-09-06 | 2003-03-06 | International Business Machines Corporation | Voice recognition apparatus and method |
US20040167767A1 (en) * | 2003-02-25 | 2004-08-26 | Ziyou Xiong | Method and system for extracting sports highlights from audio signals |
-
2003
- 2003-07-28 SG SG200304014-4A patent/SG140445A1/en unknown
-
2004
- 2004-04-05 US US10/818,625 patent/US8140329B2/en not_active Expired - Fee Related
- 2004-07-15 JP JP2004208915A patent/JP4797342B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
SG140445A1 (en) | 2008-03-28 |
JP2005049859A (ja) | 2005-02-24 |
US8140329B2 (en) | 2012-03-20 |
US20050027514A1 (en) | 2005-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4797342B2 (ja) | オーディオデータを自動的に認識する方法及び装置 | |
Ittichaichareon et al. | Speech recognition using MFCC | |
El-Moneim et al. | Text-independent speaker recognition using LSTM-RNN and speech enhancement | |
Agrawal et al. | Novel TEO-based Gammatone features for environmental sound classification | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
KR100745976B1 (ko) | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 | |
CN109584904B (zh) | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 | |
CN102486920A (zh) | 音频事件检测方法和装置 | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
Sharma et al. | On the Importance of Audio-Source Separation for Singer Identification in Polyphonic Music. | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Jeyalakshmi et al. | HMM and K-NN based automatic musical instrument recognition | |
JP7156084B2 (ja) | 音信号処理プログラム、音信号処理方法及び音信号処理装置 | |
Zhang et al. | Deep scattering spectra with deep neural networks for acoustic scene classification tasks | |
KR102231369B1 (ko) | 고래 소리 재생 방법 및 고래 소리 재생 장치 | |
JP3046029B2 (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
TW202226220A (zh) | 聲音訊號處理評估方法及裝置 | |
Kingsbury et al. | Improving ASR performance for reverberant speech | |
JPWO2020049687A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
KR102669692B1 (ko) | 생물학적 소리에 기반한 합성 음성 탐지 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
KR102300599B1 (ko) | 가중치를 이용한 음성 신호의 스트레스 판별 방법 및 그를 위한 장치 | |
Nesar et al. | Audio Event Recognition in Noisy Environments using Power Spectral Density and Dimensionality Reduction | |
Ismail et al. | Kamrupi dialect identification using GMM | |
JP7159767B2 (ja) | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 | |
Marupaka et al. | Comparison of classification results obtained by using cyclostationary features, MFCC, proposed algorithm and development of an environmental sound classification system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100824 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101229 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110705 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110718 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140812 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140812 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |