JP4729927B2 - 音声検出装置、自動撮像装置、および音声検出方法 - Google Patents
音声検出装置、自動撮像装置、および音声検出方法 Download PDFInfo
- Publication number
- JP4729927B2 JP4729927B2 JP2005003761A JP2005003761A JP4729927B2 JP 4729927 B2 JP4729927 B2 JP 4729927B2 JP 2005003761 A JP2005003761 A JP 2005003761A JP 2005003761 A JP2005003761 A JP 2005003761A JP 4729927 B2 JP4729927 B2 JP 4729927B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- determination
- noise level
- voice
- human voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 135
- 238000003384 imaging method Methods 0.000 title claims description 7
- 230000005236 sound signal Effects 0.000 claims description 51
- 238000000605 extraction Methods 0.000 claims 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 17
- 230000005484 gravity Effects 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 239000006185 dispersion Substances 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000010255 response to auditory stimulus Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Studio Devices (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
図4は、調波構造検出部42の内部構成例を示す図である。
周波数重心演算部43では、FFT回路41からのパワースペクトルの入力を受けて、以下の式(1)により周波数重心cを算出する。ただし、周波数fの信号成分のパワーをp(f)と表す。
S/N比検出部44では、メモリに記憶されたノイズレベルPnsの値を基準として、比較的大きい入力音を検出したときに音声の入力を検出する。具体的には、FFT回路41からのパワースペクトルを基に入力音のパワー値Pinを算出する。そして、そのパワー値Pinとメモリ内のノイズレベルPnsの値との比(Pin/Pns)をS/N比として算出し、S/N比が所定のしきい値を超えた場合に判定フラグF13をHレベルとする。
定常ノイズの中には、周波数帯域が人の声に近く、かつ調波構造を持つものも存在する。このため、このようなノイズが入力された場合には、調波構造検出部42や周波数重心演算部43を用いた判定でも、人の声と誤判定されてしまう可能性がある。分散演算部46は、このようなノイズの誤判定を防止するために設けられている。
Claims (7)
- 入力音信号を基に人の声の入力の有無を検出する音声検出装置において、
前記入力音信号から調波構造を持つ信号成分を検出した場合に、人の声が入力されたと判定する第1の判定手段と、
前記入力音信号の周波数重心が所定の周波数範囲内である場合に、人の声が入力されたと判定する第2の判定手段と、
ノイズレベルを記憶するノイズレベル記憶手段と、
前記ノイズレベル記憶手段に記憶されたノイズレベルに対する前記入力音信号のパワーの比が所定のしきい値を超えた場合に、人の声が入力されたと判定する第3の判定手段と、
前記第2の判定手段により現在からそれ以前の一定期間に算出された周波数重心の分散を算出し、算出した分散の値が所定のしきい値以下の場合に人の声が入力されていないと判定する第4の判定手段と、
前記第1〜第3の判定手段の判定結果に基づいて人の声の入力の有無を最終的に判定する最終判定手段と、
前記最終判定手段により人の声が入力されていないと判定された場合、および、前記第4の判定手段により人の声が入力されていないと判定された場合に、前記ノイズレベル記憶手段に記憶されたノイズレベルを現在の前記入力音信号のパワーを用いて更新するノイズレベル更新手段と、
を有することを特徴とする音声検出装置。 - 前記第1の判定手段は、
前記入力音信号から調波構造を持つ信号成分を抽出する抽出手段と、
抽出された前記信号成分のパワーと、前記入力音信号のうちの少なくとも非調波成分のパワーとを比較して、前記信号成分のパワー比が所定のしきい値を超えた場合に人の声が入力されたと判定する比較手段と、
を具備することを特徴とする請求項1記載の音声検出装置。 - 前記抽出手段は、
前記入力音信号のうち基本周波数の信号成分およびその倍音成分をそれぞれ通過させ、それぞれ異なる前記基本周波数が設定された複数のフィルタと、
前記各フィルタの出力信号のうち最大パワーのものを選択する選択手段と、
を具備することを特徴とする請求項2記載の音声検出装置。 - 前記ノイズレベル更新手段は、前記ノイズレベル記憶手段に記憶されたノイズレベルと、現在の前記入力音信号のパワーとを所定の比で合成することで、ノイズレベルを更新することを特徴とする請求項1記載の音声検出装置。
- 前記最終判定手段は、前記第1〜第3の判定手段のすべてが人の声が入力されたと判定したとき、最終的に人の声が入力されたと判定することを特徴とする請求項1記載の音声検出装置。
- 発言者の方向を自動的にカメラで撮像する自動撮像装置において、
複数の収音手段と、
前記収音手段からの入力音信号から発言者の方向を検出する方向検出手段と、
前記入力音信号から調波構造を持つ信号成分を検出した場合に、人の声が入力されたと判定する第1の判定手段、
前記入力音信号の周波数重心が所定の周波数範囲内である場合に、人の声が入力されたと判定する第2の判定手段、
ノイズレベルを記憶するノイズレベル記憶手段、
前記ノイズレベル記憶手段に記憶されたノイズレベルに対する前記入力音信号のパワーの比が所定のしきい値を超えた場合に、人の声が入力されたと判定する第3の判定手段、
前記第2の判定手段により現在からそれ以前の一定期間に算出された周波数重心の分散を算出し、算出した分散の値が所定のしきい値以下の場合に人の声が入力されていないと判定する第4の判定手段、
前記第1〜第3の判定手段の判定結果に基づいて人の声の入力の有無を最終的に判定する最終判定手段、
および、前記最終判定手段により人の声が入力されていないと判定された場合、および、前記第4の判定手段により人の声が入力されていないと判定された場合に、前記ノイズレベル記憶手段に記憶されたノイズレベルを現在の前記入力音信号のパワーを用いて更新するノイズレベル更新手段、
を備えた音声検出手段と、
前記方向検出手段および前記音声検出手段の各検出結果に応じて、前記カメラの撮像方向を変化させる駆動手段と、
を有することを特徴とする自動撮像装置。 - 入力音信号を基に人の声の入力の有無を検出するための音声検出方法において、
第1の判定手段が、前記入力音信号から調波構造を持つ信号成分を検出した場合に、人の声が入力されたと判定する第1の判定ステップと、
第2の判定手段が、前記入力音信号の周波数重心が所定の周波数範囲内である場合に、人の声が入力されたと判定する第2の判定ステップと、
第3の判定手段が、ノイズレベル記憶手段に記憶されたノイズレベルに対する前記入力音信号のパワーの比が所定のしきい値を超えた場合に、人の声が入力されたと判定する第3の判定ステップと、
第4の判定手段が、前記第2の判定ステップで現在からそれ以前の一定期間に算出された周波数重心の分散を算出し、算出した分散の値が所定のしきい値以下の場合に人の声が入力されていないと判定する第4の判定ステップと、
最終判定手段が、前記第1〜第3の判定ステップによる判定結果に基づいて人の声の入力の有無を最終的に判定する最終判定ステップと、
ノイズレベル更新手段が、前記最終判定ステップにより人の声が入力されていないと判定された場合、および、前記第4の判定ステップにより人の声が入力されていないと判定された場合に、前記ノイズレベル記憶手段に記憶されたノイズレベルを現在の前記入力音信号のパワーを用いて更新するノイズレベル更新ステップと、
を含むことを特徴とする音声検出方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005003761A JP4729927B2 (ja) | 2005-01-11 | 2005-01-11 | 音声検出装置、自動撮像装置、および音声検出方法 |
US11/319,470 US20060195316A1 (en) | 2005-01-11 | 2005-12-29 | Voice detecting apparatus, automatic image pickup apparatus, and voice detecting method |
CN2006100036723A CN1805008B (zh) | 2005-01-11 | 2006-01-11 | 语音检测装置、自动图像拾取装置和语音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005003761A JP4729927B2 (ja) | 2005-01-11 | 2005-01-11 | 音声検出装置、自動撮像装置、および音声検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006194959A JP2006194959A (ja) | 2006-07-27 |
JP4729927B2 true JP4729927B2 (ja) | 2011-07-20 |
Family
ID=36801110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005003761A Expired - Fee Related JP4729927B2 (ja) | 2005-01-11 | 2005-01-11 | 音声検出装置、自動撮像装置、および音声検出方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20060195316A1 (ja) |
JP (1) | JP4729927B2 (ja) |
CN (1) | CN1805008B (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4407538B2 (ja) * | 2005-03-03 | 2010-02-03 | ヤマハ株式会社 | マイクロフォンアレー用信号処理装置およびマイクロフォンアレーシステム |
JP4910568B2 (ja) * | 2006-08-25 | 2012-04-04 | 株式会社日立製作所 | 紙擦れ音除去装置 |
JP4690973B2 (ja) * | 2006-09-05 | 2011-06-01 | 日本電信電話株式会社 | 信号区間推定装置、方法、プログラム及びその記録媒体 |
JP4854533B2 (ja) * | 2007-01-30 | 2012-01-18 | 富士通株式会社 | 音響判定方法、音響判定装置及びコンピュータプログラム |
JP4871191B2 (ja) * | 2007-04-09 | 2012-02-08 | 日本電信電話株式会社 | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
US20090043577A1 (en) * | 2007-08-10 | 2009-02-12 | Ditech Networks, Inc. | Signal presence detection using bi-directional communication data |
EP2116999B1 (en) | 2007-09-11 | 2015-04-08 | Panasonic Corporation | Sound determination device, sound determination method and program therefor |
JP2008102538A (ja) * | 2007-11-09 | 2008-05-01 | Sony Corp | 記憶再生装置及び記憶再生装置の制御方法 |
WO2010038386A1 (ja) * | 2008-09-30 | 2010-04-08 | パナソニック株式会社 | 音判定装置、音検知装置及び音判定方法 |
JP4545233B2 (ja) * | 2008-09-30 | 2010-09-15 | パナソニック株式会社 | 音判定装置、音判定方法、及び、音判定プログラム |
JP5271734B2 (ja) * | 2009-01-30 | 2013-08-21 | セコム株式会社 | 話者方向推定装置 |
WO2011055410A1 (ja) * | 2009-11-06 | 2011-05-12 | 株式会社 東芝 | 音声認識装置 |
US20120157865A1 (en) * | 2010-12-20 | 2012-06-21 | Yosef Stein | Adaptive ecg wandering correction |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
CN103096017B (zh) * | 2011-10-31 | 2016-07-06 | 鸿富锦精密工业(深圳)有限公司 | 计算机操控权控制方法及系统 |
JP5898515B2 (ja) * | 2012-02-15 | 2016-04-06 | ルネサスエレクトロニクス株式会社 | 半導体装置及び音声通信装置 |
DE102013111784B4 (de) * | 2013-10-25 | 2019-11-14 | Intel IP Corporation | Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren |
CN104200810B (zh) * | 2014-08-29 | 2017-07-18 | 无锡中感微电子股份有限公司 | 自动增益控制装置及方法 |
CN106328169B (zh) * | 2015-06-26 | 2018-12-11 | 中兴通讯股份有限公司 | 一种激活音修正帧数的获取方法、激活音检测方法和装置 |
US20170026764A1 (en) * | 2015-07-23 | 2017-01-26 | Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America | Automatic car audio volume control to aid passenger conversation |
CN111292758B (zh) * | 2019-03-12 | 2022-10-25 | 展讯通信(上海)有限公司 | 语音活动检测方法及装置、可读存储介质 |
JP7404664B2 (ja) * | 2019-06-07 | 2023-12-26 | ヤマハ株式会社 | 音声処理装置及び音声処理方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5479560A (en) * | 1992-10-30 | 1995-12-26 | Technology Research Association Of Medical And Welfare Apparatus | Formant detecting device and speech processing apparatus |
IN184794B (ja) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
US5508734A (en) * | 1994-07-27 | 1996-04-16 | International Business Machines Corporation | Method and apparatus for hemispheric imaging which emphasizes peripheral content |
JPH0934495A (ja) * | 1995-07-21 | 1997-02-07 | Hitachi Ltd | 有音検出方式 |
FR2761848B1 (fr) * | 1997-04-04 | 2004-09-17 | Parrot Sa | Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile |
US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
JP2000066691A (ja) * | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
US6377915B1 (en) * | 1999-03-17 | 2002-04-23 | Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. | Speech decoding using mix ratio table |
JP2000267699A (ja) * | 1999-03-19 | 2000-09-29 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置 |
EP1096471B1 (en) * | 1999-10-29 | 2004-09-22 | Telefonaktiebolaget LM Ericsson (publ) | Method and means for a robust feature extraction for speech recognition |
JP3929686B2 (ja) * | 2000-08-14 | 2007-06-13 | 松下電器産業株式会社 | 音声スイッチング装置およびその方法 |
JP2002135642A (ja) * | 2000-10-24 | 2002-05-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声翻訳システム |
JP2002169599A (ja) * | 2000-11-30 | 2002-06-14 | Toshiba Corp | ノイズ抑制方法及び電子機器 |
JP2003029790A (ja) * | 2001-07-13 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 音声符号化装置及び音声復号化装置 |
JP3867627B2 (ja) * | 2002-06-26 | 2007-01-10 | ソニー株式会社 | 観客状況推定装置と観客状況推定方法および観客状況推定プログラム |
KR100527002B1 (ko) * | 2003-02-26 | 2005-11-08 | 한국전자통신연구원 | 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법 |
JP2004264418A (ja) * | 2003-02-28 | 2004-09-24 | Casio Comput Co Ltd | カメラ装置、及びカメラ装置の起動方法、プログラム |
US7567900B2 (en) * | 2003-06-11 | 2009-07-28 | Panasonic Corporation | Harmonic structure based acoustic speech interval detection method and device |
JP4497911B2 (ja) * | 2003-12-16 | 2010-07-07 | キヤノン株式会社 | 信号検出装置および方法、ならびにプログラム |
-
2005
- 2005-01-11 JP JP2005003761A patent/JP4729927B2/ja not_active Expired - Fee Related
- 2005-12-29 US US11/319,470 patent/US20060195316A1/en not_active Abandoned
-
2006
- 2006-01-11 CN CN2006100036723A patent/CN1805008B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006194959A (ja) | 2006-07-27 |
CN1805008A (zh) | 2006-07-19 |
US20060195316A1 (en) | 2006-08-31 |
CN1805008B (zh) | 2010-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4729927B2 (ja) | 音声検出装置、自動撮像装置、および音声検出方法 | |
JP4952698B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP4796309B2 (ja) | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 | |
JP4847022B2 (ja) | 発声内容認識装置 | |
US8564681B2 (en) | Method, apparatus, and computer-readable storage medium for capturing an image in response to a sound | |
JPH06332492A (ja) | 音声検出方法および検出装置 | |
CN105049802B (zh) | 一种语音识别执法记录仪及其识别方法 | |
JP2010112995A (ja) | 通話音声処理装置、通話音声処理方法およびプログラム | |
CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
JPH0792988A (ja) | 音声検出装置と映像切り替え装置 | |
JPH0431898A (ja) | 音声雑音分離装置 | |
US20200251120A1 (en) | Method and system for individualized signal processing of an audio signal of a hearing device | |
JP3434215B2 (ja) | 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体 | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
JPH11249693A (ja) | 収音装置 | |
JP3211398B2 (ja) | テレビ会議用発言音声検出装置 | |
JP3838159B2 (ja) | 音声認識対話装置およびプログラム | |
WO2020250828A1 (ja) | 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム | |
JP2002034092A (ja) | 収音装置 | |
JP2000310993A (ja) | 音声検出装置 | |
JP2001067098A (ja) | 人物検出方法と人物検出機能搭載装置 | |
US12051412B2 (en) | Control device, system, and control method | |
JP2017116876A (ja) | 話者認識装置、判別値生成方法及びプログラム | |
US20220114447A1 (en) | Adaptive tuning parameters for a classification neural network | |
CN113228170B (zh) | 信息处理装置及非易失性存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100805 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110404 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140428 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140428 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |