JP3913772B2 - 音識別装置 - Google Patents
音識別装置 Download PDFInfo
- Publication number
- JP3913772B2 JP3913772B2 JP2006534532A JP2006534532A JP3913772B2 JP 3913772 B2 JP3913772 B2 JP 3913772B2 JP 2006534532 A JP2006534532 A JP 2006534532A JP 2006534532 A JP2006534532 A JP 2006534532A JP 3913772 B2 JP3913772 B2 JP 3913772B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- likelihood
- reliability
- frame
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000001186 cumulative effect Effects 0.000 claims description 170
- 238000004364 calculation method Methods 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 43
- 238000007476 Maximum Likelihood Methods 0.000 claims description 18
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 15
- 230000002159 abnormal effect Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 241000269400 Sirenidae Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図3は、本発明の実施の形態1における音識別装置の構成図である。
図14は、本発明の実施の形態2の音識別装置の構成図である。図14において、図3と同じ構成要素については同じ符号を用い、説明を省略する。実施の形態1では、フレーム尤度に基づきフレーム単位の音情報信頼度を利用した方法であったが、本実施の形態では、累積尤度を用いて、フレーム信頼度を算出し、これを利用して、頻度情報を算出する。
図20は、本発明の実施の形態3の音識別装置の構成図である。図20において、図3および図14と同じ構成要素については同じ符号を用い、説明を省略する。本実施の形態では、音特徴量自身の信頼度を用いて、音特徴量自身のモデルごとの信頼度を算出しこれを利用して、頻度情報を算出する。さらに、出力情報として信頼度情報も出力を行う。
102 フレーム尤度算出部
103 累積尤度算出部
104 音種別候補判定部
105 音種別区間決定部
106 音種別頻度算出部
107 フレーム信頼度判定部
108 累積尤度出力単位時間決定部
109 フレーム信頼度判定部
110 フレーム信頼度判定部
111 音種別候補信頼度判定部
Claims (12)
- 入力音信号の種別を識別する音識別装置であって、
入力音信号を複数のフレームに分割し、フレームごとに音特徴量を抽出するフレーム音特徴量抽出部と、
各音モデルに対する各フレームの音特徴量のフレーム尤度を算出するフレーム尤度算出部と、
前記音特徴量または前記音特徴量より導出される値に基づいて、前記フレーム尤度を累積するか否かを示す指標である信頼度を判定する信頼度判定部と、
前記信頼度が所定値よりも高い場合は短く、前記信頼度が所定値よりも低い場合は長くなるように、累積尤度出力単位時間を決定する累積尤度出力単位時間決定部と、
前記複数の音モデルの各々について、前記累積尤度出力単位時間に含まれるフレームの前記フレーム尤度を累積した累積尤度を算出する累積尤度算出部と、
前記累積尤度が最尤となる音モデルに対応する音種別を前記累積尤度出力単位時間ごとに決定する音種別候補判定部と、
前記音種別候補判定部で決定された音種別の頻度を所定の識別時間単位で累積して算出する音種別頻度算出部と、
前記音種別頻度算出部で算出された音種別の頻度に基づいて、前記入力音信号の音種別および当該音種別の時間的区間を決定する音種別区間決定部とを備える
ことを特徴とする音識別装置。 - 前記信頼度判定部は、前記フレーム尤度算出部で算出された各フレームの音特徴量の各音モデルに対するフレーム尤度に基づいて、前記信頼度を判定する
ことを特徴とする請求項1に記載の音識別装置。 - 前記信頼度判定部は、前記フレーム尤度のフレーム間での変動値に基づいて、前記信頼度を判定する
ことを特徴とする請求項2に記載の音識別装置。 - 前記信頼度判定部は、前記複数の音モデルに対するフレーム尤度のうちの最大値と最小値との差に基づいて、前記信頼度を判定する
ことを特徴とする請求項2に記載の音識別装置。 - 前記累積尤度算出手段は、前記信頼度が所定の閾値よりも小さいフレームに対しては前記フレーム尤度を累積しない
ことを特徴とする請求項2に記載の音識別装置。 - 前記信頼度判定部は、前記累積尤度算出部で算出された前記累積尤度に基づいて、前記信頼度を判定する
ことを特徴とする請求項1に記載の音識別装置。 - 前記信頼度判定部は、前記複数の音モデルに対する前記累積尤度のうちの最大値または最小値から所定差内に含まれる前記累積尤度の音モデルの個数と、前記累積尤度の変動値に基づいて、前記信頼度を判定する
ことを特徴とする請求項6に記載の音識別装置。 - 前記信頼度判定部は、前記累積尤度算出部で算出された前記音モデルごとの累積尤度に基づいて、前記信頼度を判定する
ことを特徴とする請求項1に記載の音識別装置。 - 前記信頼度判定部は、前記フレーム音特徴量抽出部で抽出される音特徴量に基づいて、
前記信頼度を判定する
ことを特徴とする請求項1に記載の音識別装置。 - さらに、前記信頼度に基づいて、識別単位時間を決定する識別単位時間決定部を備え、
前記音種別頻度算出部では、前記識別単位時間に含まれる音種別の頻度を算出する
ことを特徴とする請求項1に記載の音識別装置。 - 入力音信号の種別を識別する音識別方法であって、
入力音信号を複数のフレームに分割し、フレームごとに音特徴量を抽出し、
各音モデルに対する各フレームの音特徴量のフレーム尤度を算出し、
前記音特徴量または前記音特徴量より導出される値に基づいて、前記フレーム尤度を累積するか否かを示す指標である信頼度を判定し、
前記信頼度が所定値よりも高い場合は短く、前記信頼度が所定値よりも低い場合は長くなるように、累積尤度出力単位時間を決定し、
前記複数の音モデルの各々について、前記累積尤度出力単位時間に含まれるフレームの前記フレーム尤度を累積した累積尤度を算出し、
前記累積尤度が最尤となる音モデルに対応する音種別を前記累積尤度出力単位時間ごとに決定し、
前記音種別候補判定部で決定された音種別の頻度を所定の識別時間単位で累積して算出し、
前記音種別頻度算出部で算出された音種別の頻度に基づいて、前記入力音信号の音種別および当該音種別の時間的区間を決定する
ことを特徴とする音識別方法。 - 入力音信号の種別を識別する音識別方法のプログラムであって、
入力音信号を複数のフレームに分割し、フレームごとに音特徴量を抽出するステップと、
各音モデルに対する各フレームの音特徴量のフレーム尤度を算出するステップと、
前記音特徴量または前記音特徴量より導出される値に基づいて、前記フレーム尤度を累積するか否かを示す指標である信頼度を判定するステップと、
前記信頼度が所定値よりも高い場合は短く、前記信頼度が所定値よりも低い場合は長くなるように、累積尤度出力単位時間を決定するステップと、
前記複数の音モデルの各々について、前記累積尤度出力単位時間に含まれるフレームの前記フレーム尤度を累積した累積尤度を算出するステップと、
前記累積尤度が最尤となる音モデルに対応する音種別を前記累積尤度出力単位時間ごとに決定するステップと、
前記音種別候補判定部で決定された音種別の頻度を所定の識別時間単位で累積して算出するステップと、
前記音種別頻度算出部で算出された音種別の頻度に基づいて、前記入力音信号の音種別および当該音種別の時間的区間を決定するステップとをコンピュータに実行させる
ことを特徴とするプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005243325 | 2005-08-24 | ||
JP2005243325 | 2005-08-24 | ||
PCT/JP2006/315463 WO2007023660A1 (ja) | 2005-08-24 | 2006-08-04 | 音識別装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP3913772B2 true JP3913772B2 (ja) | 2007-05-09 |
JPWO2007023660A1 JPWO2007023660A1 (ja) | 2009-03-26 |
Family
ID=37771411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006534532A Expired - Fee Related JP3913772B2 (ja) | 2005-08-24 | 2006-08-04 | 音識別装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7473838B2 (ja) |
JP (1) | JP3913772B2 (ja) |
WO (1) | WO2007023660A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006080149A1 (ja) * | 2005-01-25 | 2006-08-03 | Matsushita Electric Industrial Co., Ltd. | 音復元装置および音復元方法 |
WO2007023660A1 (ja) * | 2005-08-24 | 2007-03-01 | Matsushita Electric Industrial Co., Ltd. | 音識別装置 |
ES2539813T3 (es) * | 2007-02-01 | 2015-07-06 | Museami, Inc. | Transcripción de música |
US7838755B2 (en) * | 2007-02-14 | 2010-11-23 | Museami, Inc. | Music-based search engine |
WO2009103023A2 (en) | 2008-02-13 | 2009-08-20 | Museami, Inc. | Music score deconstruction |
JP4743228B2 (ja) * | 2008-05-22 | 2011-08-10 | 三菱電機株式会社 | デジタル音声信号解析方法、その装置、及び映像音声記録装置 |
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
JP2011013383A (ja) * | 2009-06-30 | 2011-01-20 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
US20110054890A1 (en) * | 2009-08-25 | 2011-03-03 | Nokia Corporation | Apparatus and method for audio mapping |
WO2011044848A1 (zh) * | 2009-10-15 | 2011-04-21 | 华为技术有限公司 | 信号处理的方法、装置和系统 |
US20130317821A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Sparse signal detection with mismatched models |
KR102505719B1 (ko) * | 2016-08-12 | 2023-03-03 | 삼성전자주식회사 | 음성 인식이 가능한 디스플레이 장치 및 방법 |
GB2580937B (en) * | 2019-01-31 | 2022-07-13 | Sony Interactive Entertainment Europe Ltd | Method and system for generating audio-visual content from video game footage |
JP7250329B2 (ja) * | 2019-06-24 | 2023-04-03 | 日本キャステム株式会社 | 報知音検出装置および報知音検出方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3102385A1 (de) * | 1981-01-24 | 1982-09-02 | Blaupunkt-Werke Gmbh, 3200 Hildesheim | Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern |
JPH0635495A (ja) * | 1992-07-16 | 1994-02-10 | Ricoh Co Ltd | 音声認識装置 |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
JP4438144B2 (ja) | 1999-11-11 | 2010-03-24 | ソニー株式会社 | 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置 |
AU2002346116A1 (en) * | 2001-07-20 | 2003-03-03 | Gracenote, Inc. | Automatic identification of sound recordings |
US8321427B2 (en) * | 2002-10-31 | 2012-11-27 | Promptu Systems Corporation | Method and apparatus for generation and augmentation of search terms from external and internal sources |
JP4348970B2 (ja) | 2003-03-06 | 2009-10-21 | ソニー株式会社 | 情報検出装置及び方法、並びにプログラム |
WO2007023660A1 (ja) * | 2005-08-24 | 2007-03-01 | Matsushita Electric Industrial Co., Ltd. | 音識別装置 |
KR100770896B1 (ko) * | 2006-03-07 | 2007-10-26 | 삼성전자주식회사 | 음성 신호에서 음소를 인식하는 방법 및 그 시스템 |
-
2006
- 2006-08-04 WO PCT/JP2006/315463 patent/WO2007023660A1/ja active Application Filing
- 2006-08-04 JP JP2006534532A patent/JP3913772B2/ja not_active Expired - Fee Related
-
2007
- 2007-04-09 US US11/783,376 patent/US7473838B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US7473838B2 (en) | 2009-01-06 |
WO2007023660A1 (ja) | 2007-03-01 |
JPWO2007023660A1 (ja) | 2009-03-26 |
US20070192099A1 (en) | 2007-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3913772B2 (ja) | 音識別装置 | |
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
Lu et al. | A robust audio classification and segmentation method | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
JP3744934B2 (ja) | 音響区間検出方法および装置 | |
US8838452B2 (en) | Effective audio segmentation and classification | |
Ellis et al. | Classifying soundtracks with audio texture features | |
JP5088050B2 (ja) | 音声処理装置およびプログラム | |
JPH0990974A (ja) | 信号処理方法 | |
Socoró et al. | Development of an Anomalous Noise Event Detection Algorithm for dynamic road traffic noise mapping | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
CN108538312B (zh) | 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 | |
Huijbregts et al. | Robust speech/non-speech classification in heterogeneous multimedia content | |
Wu et al. | Multiple change-point audio segmentation and classification using an MDL-based Gaussian model | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
Huijbregts et al. | Filtering the unknown: Speech activity detection in heterogeneous video collections | |
Ghaemmaghami et al. | Noise robust voice activity detection using normal probability testing and time-domain histogram analysis | |
JP2008058876A (ja) | 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体 | |
Beritelli et al. | Adaptive V/UV speech detection based on acoustic noise estimation and classification | |
Zeng et al. | Adaptive context recognition based on audio signal | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
JP2019029861A (ja) | 音響信号処理装置、方法及びプログラム | |
JP2019028301A (ja) | 音響信号処理装置、方法及びプログラム | |
JP5136621B2 (ja) | 情報検索装置及び方法 | |
Ogura et al. | X-vector based voice activity detection for multi-genre broadcast speech-to-text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20070122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070131 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3913772 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100209 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110209 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120209 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130209 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130209 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140209 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |