JP2008152125A - 発話検出装置及び発話検出方法 - Google Patents
発話検出装置及び発話検出方法 Download PDFInfo
- Publication number
- JP2008152125A JP2008152125A JP2006341568A JP2006341568A JP2008152125A JP 2008152125 A JP2008152125 A JP 2008152125A JP 2006341568 A JP2006341568 A JP 2006341568A JP 2006341568 A JP2006341568 A JP 2006341568A JP 2008152125 A JP2008152125 A JP 2008152125A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- deformation amount
- derived
- deriving
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 238000003384 imaging method Methods 0.000 claims description 45
- 238000000034 method Methods 0.000 description 24
- 230000005236 sound signal Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】カメラ12により、話者の唇を含んだ画像を連続的に撮像すると共に、マイク14により話者が発話した音声を集音し、画像処理部18により、連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいてカメラ12から話者までの距離及びカメラ12に対する話者の顔の向きを導出し、閾値決定部20により、導出した距離が所定範囲内で且つ導出された顔の向きがカメラ12に対して所定角度範囲内であると共にマイク14により集音した音声の強度が所定レベル以上である場合に導出した変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、発話区間検出部22により、決定した閾値を用いて導出した変形量から発話区間を検出する。
【選択図】図1
Description
。
θMIN<θ かつ θ<θMAX ・・・(2)
φMIN<φ かつ φ<φMAX ・・・(3)
p>P0 ・・・(5)
ie<Ie ・・・(6)
ただし、0<α<1
12 カメラ
14 マイク
16 マイク
18 画像処理部
20 閾値決定部
22 発話区間判別部
24 音声認識部
Claims (5)
- 話者の唇を含んだ画像を連続的に撮像する撮像手段と、
前記話者が発話した音声を集音する音声集音手段と、
前記撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出する変形量導出手段と、
前記撮像手段により撮像された画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出する話者状態導出手段と、
前記話者状態導出手段により導出された前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に前記音声集音手段により集音された前記音声の強度が所定レベル以上である場合に、前記変形量導出手段によって導出された変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定する決定手段と、
前記決定手段により決定された閾値を用いて前記変形量導出手段により導出された変形量から発話区間を検出する検出手段と、
を備えた発話検出装置。 - 周囲の騒音を集音する騒音集音手段をさらに備え、
前記決定手段は、さらに前記騒音集音手段により集音された前記騒音の強度が予め定められたレベル未満である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
請求項1記載の発話検出装置。 - 前記音声集音手段により集音された音声の音声認識を行って認識精度を示す精度情報を出力する音声認識手段をさらに備え、
前記決定手段は、さらに前記音声認識手段より出力された前記精度情報により示される認識精度が予め定められた精度以上である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
請求項1又は請求項2記載の発話検出装置。 - 前記音声集音手段は、2つ以上のマイクにより構成され、
各マイクにより集音された音声情報に基づいて前記撮像手段に対する音源の方向を推定する音源推定手段と、
前記撮像手段により撮像された画像に基づいて当該撮像手段に対する前記話者の方向を導出する話者方向導出手段と、をさらに備え、
前記決定手段は、さらに前記音源推定手段により推定された音源の方向と前記話者方向導出手段により導出された話者の方向の差が所定範囲内である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
請求項1乃至請求項3の何れか1項記載の発話検出装置。 - 話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に前記話者が発話した音声を集音し、
連続的に撮像した前記画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出し、
導出した前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に集音した前記音声の強度が所定レベル以上である場合に導出した変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、
決定した前記閾値を用いて導出した前記変形量から発話区間を検出する
発話検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006341568A JP4715738B2 (ja) | 2006-12-19 | 2006-12-19 | 発話検出装置及び発話検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006341568A JP4715738B2 (ja) | 2006-12-19 | 2006-12-19 | 発話検出装置及び発話検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008152125A true JP2008152125A (ja) | 2008-07-03 |
JP4715738B2 JP4715738B2 (ja) | 2011-07-06 |
Family
ID=39654327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006341568A Expired - Fee Related JP4715738B2 (ja) | 2006-12-19 | 2006-12-19 | 発話検出装置及び発話検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4715738B2 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010098546A2 (ko) * | 2009-02-27 | 2010-09-02 | 고려대학교 산학협력단 | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 |
JP2012014394A (ja) * | 2010-06-30 | 2012-01-19 | Nippon Hoso Kyokai <Nhk> | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 |
JP2016033530A (ja) * | 2014-07-30 | 2016-03-10 | 株式会社東芝 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
WO2016098228A1 (ja) * | 2014-12-18 | 2016-06-23 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2017031860A1 (zh) * | 2015-08-24 | 2017-03-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能交互设备控制方法及系统 |
CN108154140A (zh) * | 2018-01-22 | 2018-06-12 | 北京百度网讯科技有限公司 | 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 |
CN110634505A (zh) * | 2018-06-21 | 2019-12-31 | 卡西欧计算机株式会社 | 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人 |
JP2020003783A (ja) * | 2018-06-21 | 2020-01-09 | カシオ計算機株式会社 | 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット |
JP2021021749A (ja) * | 2019-07-24 | 2021-02-18 | 富士通株式会社 | 検出プログラム、検出方法、検出装置 |
CN112578338A (zh) * | 2019-09-27 | 2021-03-30 | 阿里巴巴集团控股有限公司 | 声源定位方法、装置、设备及存储介质 |
CN112581981A (zh) * | 2020-11-04 | 2021-03-30 | 北京百度网讯科技有限公司 | 人机交互方法、装置、计算机设备和存储介质 |
CN113194333A (zh) * | 2021-03-01 | 2021-07-30 | 招商银行股份有限公司 | 视频剪辑方法、装置、设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844385A (ja) * | 1994-08-02 | 1996-02-16 | Sanyo Electric Co Ltd | 雑音区間検出装置 |
JP2000338987A (ja) * | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム |
JP2005276230A (ja) * | 2005-04-18 | 2005-10-06 | Toshiba Corp | 画像認識装置 |
JP2006039267A (ja) * | 2004-07-28 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
JP2006208751A (ja) * | 2005-01-28 | 2006-08-10 | Kyocera Corp | 発声内容認識装置 |
-
2006
- 2006-12-19 JP JP2006341568A patent/JP4715738B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844385A (ja) * | 1994-08-02 | 1996-02-16 | Sanyo Electric Co Ltd | 雑音区間検出装置 |
JP2000338987A (ja) * | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム |
JP2006039267A (ja) * | 2004-07-28 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
JP2006208751A (ja) * | 2005-01-28 | 2006-08-10 | Kyocera Corp | 発声内容認識装置 |
JP2005276230A (ja) * | 2005-04-18 | 2005-10-06 | Toshiba Corp | 画像認識装置 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9431029B2 (en) | 2009-02-27 | 2016-08-30 | Korea University Industrial & Academic Collaboration Foundation | Method for detecting voice section from time-space by using audio and video information and apparatus thereof |
WO2010098546A3 (ko) * | 2009-02-27 | 2010-10-21 | 고려대학교 산학협력단 | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 |
KR101041039B1 (ko) * | 2009-02-27 | 2011-06-14 | 고려대학교 산학협력단 | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 |
WO2010098546A2 (ko) * | 2009-02-27 | 2010-09-02 | 고려대학교 산학협력단 | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 |
JP2012014394A (ja) * | 2010-06-30 | 2012-01-19 | Nippon Hoso Kyokai <Nhk> | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 |
JP2016033530A (ja) * | 2014-07-30 | 2016-03-10 | 株式会社東芝 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
WO2016098228A1 (ja) * | 2014-12-18 | 2016-06-23 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
JPWO2016098228A1 (ja) * | 2014-12-18 | 2017-04-27 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
CN107004405A (zh) * | 2014-12-18 | 2017-08-01 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
WO2017031860A1 (zh) * | 2015-08-24 | 2017-03-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能交互设备控制方法及系统 |
CN108154140A (zh) * | 2018-01-22 | 2018-06-12 | 北京百度网讯科技有限公司 | 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 |
JP2019128938A (ja) * | 2018-01-22 | 2019-08-01 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体 |
US10810413B2 (en) | 2018-01-22 | 2020-10-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Wakeup method, apparatus and device based on lip reading, and computer readable medium |
CN110634505A (zh) * | 2018-06-21 | 2019-12-31 | 卡西欧计算机株式会社 | 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人 |
JP2020003783A (ja) * | 2018-06-21 | 2020-01-09 | カシオ計算機株式会社 | 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット |
JP7351105B2 (ja) | 2018-06-21 | 2023-09-27 | カシオ計算機株式会社 | 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット |
JP2021021749A (ja) * | 2019-07-24 | 2021-02-18 | 富士通株式会社 | 検出プログラム、検出方法、検出装置 |
JP7331523B2 (ja) | 2019-07-24 | 2023-08-23 | 富士通株式会社 | 検出プログラム、検出方法、検出装置 |
CN112578338A (zh) * | 2019-09-27 | 2021-03-30 | 阿里巴巴集团控股有限公司 | 声源定位方法、装置、设备及存储介质 |
CN112578338B (zh) * | 2019-09-27 | 2024-05-14 | 阿里巴巴集团控股有限公司 | 声源定位方法、装置、设备及存储介质 |
CN112581981A (zh) * | 2020-11-04 | 2021-03-30 | 北京百度网讯科技有限公司 | 人机交互方法、装置、计算机设备和存储介质 |
CN112581981B (zh) * | 2020-11-04 | 2023-11-03 | 北京百度网讯科技有限公司 | 人机交互方法、装置、计算机设备和存储介质 |
CN113194333A (zh) * | 2021-03-01 | 2021-07-30 | 招商银行股份有限公司 | 视频剪辑方法、装置、设备及计算机可读存储介质 |
CN113194333B (zh) * | 2021-03-01 | 2023-05-16 | 招商银行股份有限公司 | 视频剪辑方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4715738B2 (ja) | 2011-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4715738B2 (ja) | 発話検出装置及び発話検出方法 | |
US6185529B1 (en) | Speech recognition aided by lateral profile image | |
JP4847022B2 (ja) | 発声内容認識装置 | |
US9595259B2 (en) | Sound source-separating device and sound source-separating method | |
KR100820141B1 (ko) | 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템 | |
JP4204541B2 (ja) | 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム | |
JP6230726B2 (ja) | 音声認識装置および音声認識方法 | |
JP4286860B2 (ja) | 動作内容判定装置 | |
JP2007156493A (ja) | 音声区間検出装置及び方法並びに音声認識システム | |
CN107221324B (zh) | 语音处理方法及装置 | |
JP4825552B2 (ja) | 音声認識装置、周波数スペクトル取得装置および音声認識方法 | |
JP2011191423A (ja) | 発話認識装置、発話認識方法 | |
JP2006251266A (ja) | 視聴覚連携認識方法および装置 | |
JP2011101110A (ja) | 撮像装置 | |
CN110750152A (zh) | 一种基于唇部动作的人机交互方法和系统 | |
CN111933136A (zh) | 一种辅助语音识别控制方法和装置 | |
JP2012242609A (ja) | 音声認識装置、ロボット、及び音声認識方法 | |
WO2020250828A1 (ja) | 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム | |
JP2014060491A (ja) | 視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム | |
JP2005165887A (ja) | 単語認識装置 | |
Yoshinaga et al. | Audio-visual speech recognition using new lip features extracted from side-face images | |
JP2019049829A (ja) | 目的区間判別装置、モデル学習装置、及びプログラム | |
KR20170052082A (ko) | 적외선 검출 기반 음성인식 방법 및 장치 | |
JP4017748B2 (ja) | 発話速度計測システム、方法および記録媒体 | |
JP5465166B2 (ja) | 発声内容認識装置および発声内容認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090703 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20091111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110314 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4715738 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140408 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |