JP5647455B2 - 音声に含まれる吸気音を検出する装置、方法、及びプログラム - Google Patents
音声に含まれる吸気音を検出する装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5647455B2 JP5647455B2 JP2010171278A JP2010171278A JP5647455B2 JP 5647455 B2 JP5647455 B2 JP 5647455B2 JP 2010171278 A JP2010171278 A JP 2010171278A JP 2010171278 A JP2010171278 A JP 2010171278A JP 5647455 B2 JP5647455 B2 JP 5647455B2
- Authority
- JP
- Japan
- Prior art keywords
- intake sound
- sound
- candidate
- intake
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
(1)発話区間開始時刻<t<発話区間開始時刻+n秒、F(t)=1
(2)発話区間開始時刻+n秒<t<発話区間終了時刻−m秒、F(t)=0
(3)発話区間終了時刻−m秒<t<発話区間終了時刻、F(t)=2
ここで、tは吸気音候補の出現位置を示し、n及びmの値は例えば1秒である。
Claims (11)
- 音声に含まれる吸気音を検出する装置であって、
入力された音声信号に対し発話が行われている区間である発話区間を検出する発話区間検出手段と、
吸気音及び非吸気音のそれぞれについて音響モデルを格納する音響モデル格納手段と、
入力された前記音声信号について、前記吸気音及び非吸気音の各音響モデルを参照して、吸気音候補を決定する吸気音候補決定手段と、
前記吸気音候補の特徴ベクトルを抽出する特徴量抽出手段であって、前記吸気音候補単体の情報である単体情報を前記特徴ベクトルの1要素として抽出する単体情報抽出手段と、前記吸気音候補を含む前記発話区間との関係、該吸気音候補の前後の吸気音候補との関係又はその両方に関する前記吸気音候補のコンテキスト情報を、前記特徴ベクトルの他の1要素として抽出するコンテキスト情報抽出手段とを含む前記特徴量抽出手段と、
前記吸気音候補を、該吸気音候補の前記特徴ベクトルに基づき、吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を格納する分類基準情報格納手段と、
前記吸気音候補の前記特徴ベクトルを入力し、前記吸気音候補を前記分類基準情報に基づき吸気音と非吸気音のいずれか一方に分類する分類手段と
を含む、装置。 - 前記コンテキスト情報抽出手段が抽出する前記吸気音候補のコンテキスト情報は、前記発話区間内における前記吸気音候補の時間的な位置を示す情報を含む、請求項1に記載の装置。
- 前記コンテキスト情報抽出手段が抽出する前記吸気音候補のコンテキスト情報は、前記吸気音候補と、該吸気音候補に先行する又は該吸気音候補の後続の吸気音候補との時間間隔を示す情報を更に含む、請求項2に記載の装置。
- 前記コンテキスト情報抽出手段が抽出する前記吸気音候補のコンテキスト情報は、前記発話区間内の吸気音候補の個数を示す情報を更に含む、請求項3に記載の装置。
- 前記吸気音候補の時間的な位置に関する情報は、前記吸気音候補が前記発話区間内において、発話開始直後の位置、発話終了直前の位置、及びそれ以外の位置のいずれに位置するかを示す情報である、請求項4に記載の装置。
- 前記単体情報抽出手段により抽出される単体情報は、該吸気音候補の零交差数、パワー、及び吸気行動に伴い吸気音前後に観測される無音区間に関する情報のうちの少なくとも1つを含む、請求項4に記載の装置。
- 学習用の音声信号を入力として前記吸気音候補決定手段により求められた学習用の吸気音候補に対して前記単体情報抽出手段により抽出された単体情報と、前記学習用の吸気音候補に対して前記コンテキスト情報抽出手段により求められたコンテキスト情報と、吸気音又は非吸気音のいずれであるかを示す、前記学習用の音声信号のフレームごとのラベル情報とを用いて、前記学習用の前記吸気音候補の前記コンテキスト情報と前記単体情報とを素性とした機械学習により、前記学習用の吸気音候補を吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を求める学習手段を更に含む、請求項4に記載の装置。
- 前記機械学習は、サポートベクターマシーン、ニューラルネットワーク、条件付確率場、最近傍識別器のうちの1による機械学習である、請求項7に記載の装置。
- 前記音響モデルは、ガウス混合モデル(GaussianMixture Model)又はラプラス分布である、請求項4に記載の装置。
- 音声に含まれる吸気音をコンピュータによって検出する方法であって、
入力された音声信号に対し発話が行われている区間である発話区間を検出するステップと、
吸気音及び非吸気音のそれぞれについて音響モデルを記憶する音響モデル記憶装置から各音響モデルを読み出すステップと、
入力された前記音声信号について、前記吸気音及び非吸気音の各音響モデルを参照して、吸気音候補を決定するステップと、
前記吸気音候補に対し、前記吸気音候補単体の情報である単体情報を、前記吸気音候補の特徴ベクトルの1要素として抽出するステップと、
前記吸気音候補に対し、該吸気音候補を含む発話区間との関係、該吸気音候補の前後の吸気音候補との関係、又はその両方に関する前記吸気音候補のコンテキスト情報を、前記特徴ベクトルの他の1要素として抽出するステップと、
前記吸気音候補を、該吸気音候補の前記特徴ベクトルに基づき、吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を記憶する分類基準情報記憶装置から前記分類基準情報を読み出すステップと、
前記吸気音候補の前記特徴ベクトルを入力し、前記吸気音候補を前記分類基準情報に基づき吸気音と非吸気音のいずれか一方に分類するステップと
を含む、方法。 - コンピュータによって音声に含まれる吸気音を検出するためのプログラムであって、該プログラムは、前記コンピュータに、
入力された音声信号に対し発話が行われている区間である発話区間を検出するステップと、
吸気音及び非吸気音のそれぞれについて音響モデルを記憶する音響モデル記憶装置から各音響モデルを読み出すステップと、
入力された前記音声信号について、前記吸気音及び非吸気音の各音響モデルを参照して、吸気音候補を決定するステップと、
前記吸気音候補に対し、前記吸気音候補単体の情報である単体情報を、前記吸気音候補の特徴ベクトルの1要素として抽出するステップと、
前記吸気音候補に対し、該吸気音候補を含む発話区間との関係、該吸気音候補の前後の吸気音候補との関係、又はその両方に関する前記吸気音候補のコンテキスト情報を、前記特徴ベクトルの他の1要素として抽出するステップと、
前記吸気音候補を、該吸気音候補の前記特徴ベクトルに基づき、吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を記憶する分類基準情報記憶装置から前記分類基準情報を読み出すステップと、
前記吸気音候補の前記特徴ベクトルを入力し、前記吸気音候補を前記分類基準情報に基づき吸気音と非吸気音のいずれか一方に分類するステップと
を実行させる、前記プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010171278A JP5647455B2 (ja) | 2010-07-30 | 2010-07-30 | 音声に含まれる吸気音を検出する装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010171278A JP5647455B2 (ja) | 2010-07-30 | 2010-07-30 | 音声に含まれる吸気音を検出する装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012032557A JP2012032557A (ja) | 2012-02-16 |
JP5647455B2 true JP5647455B2 (ja) | 2014-12-24 |
Family
ID=45846040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010171278A Expired - Fee Related JP5647455B2 (ja) | 2010-07-30 | 2010-07-30 | 音声に含まれる吸気音を検出する装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5647455B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6392950B1 (ja) * | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | 検出装置、検出方法、および検出プログラム |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
US10762897B2 (en) | 2016-08-12 | 2020-09-01 | Samsung Electronics Co., Ltd. | Method and display device for recognizing voice |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3613206A4 (en) * | 2017-06-09 | 2020-10-21 | Microsoft Technology Licensing, LLC | SILENT VOICE INPUT |
CN107729918B (zh) * | 2017-09-15 | 2024-03-19 | 电子科技大学 | 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法 |
EP4099321A4 (en) * | 2020-01-31 | 2023-05-24 | Sony Group Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60225271A (ja) * | 1984-04-20 | 1985-11-09 | Sharp Corp | 音声入力仮名漢字変換装置 |
JPH06130993A (ja) * | 1992-10-22 | 1994-05-13 | Nippondenso Co Ltd | セグメンテーション及び音素の大分類認識法 |
JP4030162B2 (ja) * | 1997-11-04 | 2008-01-09 | 富士通株式会社 | 息検出機能付情報処理装置及び息検出による画像表示制御方法 |
US7139701B2 (en) * | 2004-06-30 | 2006-11-21 | Motorola, Inc. | Method for detecting and attenuating inhalation noise in a communication system |
-
2010
- 2010-07-30 JP JP2010171278A patent/JP5647455B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10762897B2 (en) | 2016-08-12 | 2020-09-01 | Samsung Electronics Co., Ltd. | Method and display device for recognizing voice |
JP6392950B1 (ja) * | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | 検出装置、検出方法、および検出プログラム |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
Also Published As
Publication number | Publication date |
---|---|
JP2012032557A (ja) | 2012-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zelinka et al. | Impact of vocal effort variability on automatic speech recognition | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US9196247B2 (en) | Voice recognition method and voice recognition apparatus | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
US8326610B2 (en) | Producing phonitos based on feature vectors | |
JP5647455B2 (ja) | 音声に含まれる吸気音を検出する装置、方法、及びプログラム | |
EP1675102A2 (en) | Method for extracting feature vectors for speech recognition | |
US20060206326A1 (en) | Speech recognition method | |
Fukuda et al. | Detecting breathing sounds in realistic Japanese telephone conversations and its application to automatic speech recognition | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
WO2018173270A1 (ja) | 音声認識装置および音声認識方法 | |
JP5385876B2 (ja) | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 | |
KR101022519B1 (ko) | 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 | |
CN114303186A (zh) | 用于在语音合成中适配人类说话者嵌入的系统和方法 | |
An et al. | Detecting laughter and filled pauses using syllable-based features. | |
Këpuska | Wake-up-word speech recognition | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
JP5342629B2 (ja) | 男女声識別方法、男女声識別装置及びプログラム | |
JP2745562B2 (ja) | ノイズ適応形音声認識装置 | |
JPH06110488A (ja) | 音声検出方法および音声検出装置 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP2006010739A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130402 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140715 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141001 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141021 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141107 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5647455 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |