JP5599064B2 - 音認識装置および音認識方法 - Google Patents
音認識装置および音認識方法 Download PDFInfo
- Publication number
- JP5599064B2 JP5599064B2 JP2010286678A JP2010286678A JP5599064B2 JP 5599064 B2 JP5599064 B2 JP 5599064B2 JP 2010286678 A JP2010286678 A JP 2010286678A JP 2010286678 A JP2010286678 A JP 2010286678A JP 5599064 B2 JP5599064 B2 JP 5599064B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- recognition
- target sound
- likelihood
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 33
- 239000000284 extract Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 46
- 230000006870 function Effects 0.000 description 27
- 238000012544 monitoring process Methods 0.000 description 26
- 239000011521 glass Substances 0.000 description 17
- 238000006243 chemical reaction Methods 0.000 description 13
- 230000002159 abnormal effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000005856 abnormality Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000012806 monitoring device Methods 0.000 description 5
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000000919 ceramic Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 229910052782 aluminium Inorganic materials 0.000 description 2
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 2
- 229910052742 iron Inorganic materials 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 239000002023 wood Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Description
N :HMMにより出力された認識結果の数
i :尤度が高いものから示された認識結果の順番(1≦i≦N)
Score(i) :上位i番目の尤度(スコア)
Spos(i,j) :上位i番目の中でj番目のラベルの認識開始位置
Epos(i,j) :上位i番目の中でj番目のラベルの認識終了位置
Label(i,j) :上位i番目の認識結果の中でj番目のラベル
NLabels(i) :上位i番目の認識結果のラベル数
C :認識結果が属する認識モデルを識別するための識別値
Q(C):信頼度
α :経験的に決定する補正係数(0<α<1)
ここで、値Cは、例えばガラス破壊音、セラミック破壊音などの認識モデル名を用いることができる。また、式(2)において、集合I={i|Label(i,2)=C}は、条件Label(i,2)を満たす対象だけを集めた値iの集合を集合Iとすることを意味する。値j=2となっているのは、図3の例で、値j=2番目のラベルが認識結果となっているためである。式(2)において、分母は、分類上の全ての認識モデルの出現確率の総和を示し、分子は、分類上の認識モデルCの出現確率を示す。
P(Q,R=Object|I=Object) …(3)
P(Q,R=Object|I=NotObject) …(4)
P(Q,R=NotObject|I=Object) …(5)
P(Q,R=NotObject|I=NotObject) …(6)
P(Q|I=Object,R=Object)=25 …(11)
P(Q|I=NotObject,R=Object)=3 …(12)
P(R=Object|I=Object)=71 …(13)
P(R=Object|I=NotObject)=4 …(14)
LObject=(25×71)/(25×71+3×4)=0.99 …(15)
よって、認識結果が目的音であった場合の正解率が99%と求められる。
P(Q|I=NotObject,R=NotObject)=22 …(19)
P(Q|I=Object,R=NotObject)=2200 …(20)
P(R=NotObject|I=NotObject)=96 …(21)
P(R=NotObject|I=Object)=29 …(22)
LObject=(22×96)/(22×96+2200×29)=0.03 …(23)
よって、認識結果が目的音であった場合の正解率が3%と求められる。
上述の実施形態による認識結果および正解率を示す情報を、監視センタなどにおいて監視映像上に表示させることができる。これにより、画像監視員による状況把握を補助することができる。また、観測音を記録しておき、正解率が所定以下の場合に記録した観測音を監視員が実際に聴いて再確認するように構成することもできる。
11 HMM認識処理部
12 認識モデル記憶部
13 信頼度算出部
14 正解率算出部
15 正解率情報記憶部
16 警報出力処理部
20 音響データ
30 警報出力
31 注意喚起出力
Claims (8)
- 目的音から特徴量を抽出して作成した第1の認識モデルと、非目的音から特徴量を抽出して作成した第2の認識モデルとを予め記憶する認識モデル記憶手段と、
観測音から特徴量を抽出して、隠れマルコフモデルを用いて、観測音から抽出した特徴量の前記第1の認識モデルおよび前記第2の認識モデルに対する尤度と、該観測音が前記目的音および前記非目的音のうち何れであるかを示す認識結果とを求める認識手段と、
前記認識結果が示す認識モデルに対応する前記尤度を用いて該認識結果の信頼度を算出する信頼度算出手段と、
前記認識結果と前記信頼度とを用いて、該認識結果が正しい確率を示す正解率を、該観測音が前記目的音であると仮定した場合の該仮定に対する尤度と、前記観測音が前記非目的音であると仮定した場合の該仮定に対する尤度とを用いて算出する正解率算出手段と、
前記認識結果と前記正解率とに基づき、前記認識結果が前記目的音を示し、且つ、前記正解率が第1の閾値以下の場合と、前記認識結果が前記非目的音を示し、且つ、前記正解率が第2の閾値以下の場合とにおいて、前記観測音が前記目的音および前記非目的音の何れにも属さない未知音であることを示す情報を出力する出力手段と
を有する
ことを特徴とする音認識装置。 - 前記正解率算出手段は、
前記認識手段に求められた認識結果が目的音を示す場合に、
観測音が目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第1の尤度と、観測音が非目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第2の尤度とを求め、
該第1の尤度と該第2の尤度の和に対する前記第1の尤度の比を、前記正解率として算出し、
前記認識手段に求められた認識結果が非目的音を示す場合に、
観測音が目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第3の尤度と、観測音が非目的音であると仮定した場合の該認識結果と該認識結果の信頼度との第4の尤度とを求め、
該第3の尤度と該第4の尤度との和に対する該第4の尤度の比を、前記正解率として算出する
ことを特徴とする請求項1に記載の音認識装置。 - 前記正解率算出手段は、
予め求めた、前記認識手段で求められた認識結果が目的音である場合に観測音が目的音である確率と、予め求めた、目的音を隠れマルコフモデルで認識した際の認識結果が該目的音を示すと仮定した場合の信頼度の度数分布から推定される確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第1の尤度とし、
予め求めた、前記認識手段で求められた認識結果が目的音である場合に観測音が非目的音である確率と、予め求めた、非目的音を隠れマルコフモデルで認識した際の認識結果が目的音を示すと仮定した場合の信頼度の度数分布から推定される確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第2の尤度とし、
予め求めた、前記認識手段で求められた認識結果が目的音である場合に観測音が非目的音である確率と、予め求めた、目的音を隠れマルコフモデルで認識した際の認識結果が非目的音を示すと仮定した場合の信頼度の度数分布から推定する確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第3の尤度とし、
予め求めた、前記認識手段で求められた認識結果が非目的音である場合に観測音が非目的音である確率と、予め求めた、非目的音を隠れマルコフモデルで認識した際の認識結果が該非目的音を示すと仮定した場合の信頼度の度数分布から推定する確率密度関数の、前記信頼度算出手段で算出された信頼度における値との積を前記第4の尤度とする
ことを特徴とする請求項2に記載の音認識装置。 - 前記信頼度算出手段は、
前記認識手段で求められた、前記第1の認識モデルの尤度と前記第2の認識モデルの尤度との和に対する、該第1の認識モデルおよび該第2の認識モデルのうち前記識別結果が含まれる認識モデルの尤度の比を、前記信頼度として算出する
ことを特徴とする請求項1乃至請求項3の何れか1項に記載の音認識装置。 - 目的音および非目的音それぞれに対して隠れマルコフモデルを用いて予め求めた信頼度と正解率とを対応付けて記憶する正解率情報記憶手段をさらに有し、
前記正解率算出手段は、
前記信頼度算出手段で算出された信頼度に対応する正解率を、前記正解率情報記憶手段に記憶された信頼度と正解率との対応関係に基づき求める
ことを特徴とする請求項1乃至請求項4の何れか1項に記載の音認識装置。 - 前記出力手段は、
前記認識結果が前記第1の認識モデルを示し、且つ、前記正解率が第1の閾値を超える場合に、前記観測音が前記目的音であることを示す情報を出力する
ことを特徴とする請求項1乃至請求項5の何れか1項に記載の音認識装置。 - 前記出力手段は、
前記認識結果が前記第2の認識モデルを示し、且つ、前記正解率が第2の閾値を超える場合に、前記観測音が前記非目的音であることを示す情報を出力する
ことを特徴とする請求項1乃至請求項6の何れか1項に記載の音認識装置。 - 音声認識装置で実行される音声認識方法であって、
前記音声認識装置は、
目的音から特徴量を抽出して作成した第1の認識モデルと、非目的音から特徴量を抽出して作成した第2の認識モデルとを予め記憶する認識モデル記憶手段を備え、
認識手段が、観測音から特徴量を抽出して、隠れマルコフモデルを用いて、観測音から抽出した特徴量の前記第1の認識モデルおよび前記第2の認識モデルに対する尤度と、該観測音が前記目的音および前記非目的音のうち何れであるかを示す認識結果とを求める認識ステップと、
信頼度算出手段が、前記認識結果が示す認識モデルに対応する前記尤度を用いて該認識結果の信頼度を算出する信頼度算出ステップと、
正解率算出手段が、前記認識結果と前記信頼度とを用いて、該認識結果が正しい確率を示す正解率を、該観測音が前記目的音であると仮定した場合の該仮定に対する尤度と、前記観測音が前記非目的音であると仮定した場合の該仮定に対する尤度とを用いて算出する正解率算出ステップと、
出力手段が、前記認識結果と前記正解率とに基づき、前記認識結果が前記目的音を示し、且つ、前記正解率が第1の閾値以下の場合と、前記認識結果が前記非目的音を示し、且つ、前記正解率が第2の閾値以下の場合とにおいて、前記観測音が前記目的音および前記非目的音の何れにも属さない未知音であることを示す情報を出力する出力ステップと
を有する
ことを特徴とする音認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010286678A JP5599064B2 (ja) | 2010-12-22 | 2010-12-22 | 音認識装置および音認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010286678A JP5599064B2 (ja) | 2010-12-22 | 2010-12-22 | 音認識装置および音認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012133226A JP2012133226A (ja) | 2012-07-12 |
JP5599064B2 true JP5599064B2 (ja) | 2014-10-01 |
Family
ID=46648877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010286678A Active JP5599064B2 (ja) | 2010-12-22 | 2010-12-22 | 音認識装置および音認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5599064B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5776332B2 (ja) * | 2011-05-27 | 2015-09-09 | 富士通株式会社 | 地図処理方法及びプログラム、並びにロボットシステム |
JP6085538B2 (ja) | 2013-09-02 | 2017-02-22 | 本田技研工業株式会社 | 音響認識装置、音響認識方法、及び音響認識プログラム |
GB201510957D0 (en) * | 2015-06-22 | 2015-08-05 | Ge Aviat Systems Group Ltd | Systems and Methods For Verification And Anomaly Detection |
WO2020071400A1 (ja) * | 2018-10-02 | 2020-04-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報提供方法、音響機器の制御方法及び情報処理装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02257374A (ja) * | 1989-03-30 | 1990-10-18 | Hitachi Metals Ltd | パターン認識方法 |
JPH05197385A (ja) * | 1992-01-20 | 1993-08-06 | Sanyo Electric Co Ltd | 音声認識装置 |
JP3523949B2 (ja) * | 1995-11-29 | 2004-04-26 | 株式会社リコー | 音声認識装置及び音声認識方法 |
JP3456444B2 (ja) * | 1999-05-10 | 2003-10-14 | 日本電気株式会社 | 音声判定装置及び方法並びに記録媒体 |
JP2002245185A (ja) * | 2001-02-15 | 2002-08-30 | Omron Corp | 情報提供方法およびシステム |
JP2006039616A (ja) * | 2004-07-22 | 2006-02-09 | Advanced Telecommunication Research Institute International | 機械翻訳の出力仮説の選択装置、コンピュータプログラムおよびコンピュータ |
KR100631608B1 (ko) * | 2004-11-25 | 2006-10-09 | 엘지전자 주식회사 | 음성 판별 방법 |
US8050929B2 (en) * | 2007-08-24 | 2011-11-01 | Robert Bosch Gmbh | Method and system of optimal selection strategy for statistical classifications in dialog systems |
-
2010
- 2010-12-22 JP JP2010286678A patent/JP5599064B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012133226A (ja) | 2012-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8938404B2 (en) | System and method for detecting abnormal audio events | |
Ntalampiras et al. | On acoustic surveillance of hazardous situations | |
JP4242422B2 (ja) | 突発事象の記録・解析システム | |
JP2012048689A (ja) | 異常検知装置 | |
JP5599064B2 (ja) | 音認識装置および音認識方法 | |
JP3913772B2 (ja) | 音識別装置 | |
Droghini et al. | A Combined One‐Class SVM and Template‐Matching Approach for User‐Aided Human Fall Detection by Means of Floor Acoustic Features | |
US20150269940A1 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
CN106683333B (zh) | 设备安全检测方法及装置 | |
JP6087542B2 (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
JP2012181280A (ja) | 音処理装置および音処理方法 | |
Wan et al. | Recognition of potential danger to buried pipelines based on sounds | |
CN114596591A (zh) | 一种语音识别触发的服务人员手势规范识别及检测方法 | |
JP6148150B2 (ja) | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 | |
JP5627962B2 (ja) | 異常検知装置 | |
JP6239826B2 (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
JP2008146054A (ja) | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 | |
JP2008097361A (ja) | 異常監視装置 | |
CN105989854A (zh) | 冲击声检测装置和冲击声检测方法 | |
JP2013225248A (ja) | 音識別システム、音識別装置、音識別方法およびプログラム | |
EP2864969A1 (en) | Method of classifying glass break sounds in an audio signal | |
JP5081035B2 (ja) | 犯罪リスク評価装置及び犯罪リスク評価プログラム | |
WO2023026437A1 (ja) | 監視装置、監視システム、監視方法、及びプログラムが格納された非一時的なコンピュータ可読媒体 | |
JP5619529B2 (ja) | 悲鳴検知装置 | |
EP3309777A1 (en) | Device and method for audio frame processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20131017 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140715 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140808 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5599064 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |