JP2018087838A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2018087838A JP2018087838A JP2016229749A JP2016229749A JP2018087838A JP 2018087838 A JP2018087838 A JP 2018087838A JP 2016229749 A JP2016229749 A JP 2016229749A JP 2016229749 A JP2016229749 A JP 2016229749A JP 2018087838 A JP2018087838 A JP 2018087838A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- subject
- filter
- image
- detection unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Eye Examination Apparatus (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えていることにより、同時に複数の利用者が利用する環境でも、音声による指示を正確に認識できる機能を提供することができる。
以下、実施の形態1に関わる音声認識装置を、図を参照しながら説明する。図1は、この発明の実施の形態1による音声認識装置100を示すブロック図である。同図において、音声認識装置100は、マイク(集音部)2、音声認識フィルタ3、声紋フィルタ4、優先度判定部5、指示内容認識部6などから構成されている。対象者1の音声は、マイク(集音部)2から収録する。音声認識フィルタ3は、マイク2によって収録された、音声を
含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。
た対象者の音声データのみを、優先度判定部5に出力する。
や非利用者の音声)を、操作入力として誤認識することを防ぐことができる。且つ、実施
の形態1に係わる音声認識装置は、複数の利用者が同時に発話した場合でも、より重要な処理を優先させることができる効果が得られる。
本発明の実施の形態2に係わる音声認識装置について、図を参照しながら以下に説明する。図2は、この発明の実施の形態2による音声認識装置を示すブロック図である。図2において、音声認識装置100は、マイク(集音部)2、音声認識フィルタ3、声紋フィルタ4、優先度判定部5、指示内容認識部6、カメラ7、顔検出部8、唇部検出部9、発話期間認識部10などから構成されている。カメラ7は、対象者1の画像を収録する。対象者1の音声は、マイク(集音部)2から収録する。音声認識フィルタ3は、マイク2によって収録された、音声を含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。
の対象者1を撮影し、その撮影した対象者の動画像を顔検出部8に出力する。顔検出部8は、カメラ7から入力された対象者の動画像からすべての顔部画像を切り出し、唇部検出部9に出力する。唇部検出部9は、顔検出部8から入力された顔部画像から唇部分を切り出し、発話期間認識部10に出力する。発話期間認識部10は、対象者の発話期間を認識するために、唇の動きから対象者の発話の開始と終了を検出し、検出結果を声紋フィルタ4に出力する。
次に、本発明の実施の形態3に係わる音声認識装置について、図を参照しながら以下に説明する。図3は、この発明の実施の形態3による音声認識装置を示すブロック図である。同図において、音声認識装置100は、マイク(集音部)2、音声認識フィルタ3、声紋フィルタ4、優先度判定部5、指示内容認識部6、カメラ7、顔検出部8、唇部検出部9、発話期間認識部10、目部検出部11、視線推定部12などから構成されている。カメラ7は、対象者1の画像を収録する。対象者1の音声は、マイク(集音部)2から収録する。音声認識フィルタ3は、マイク2によって収録された、音声を含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。
の開始と終了を認識する。
次に、本発明の実施の形態4に係わる音声認識装置について、図を参照しながら以下に説明する。図4は、この発明の実施の形態4による音声認識装置を示すブロック図である。同図において、音声認識装置100は、マイク(集音部)2、音声認識フィルタ3、声紋フィルタ4、優先度判定部5、指示内容認識部6、カメラ7、動作検出部13、発話開始認識部14などから構成されている。カメラ7は、対象者1の画像を収録する。対象者1の音声は、マイク(集音部)2から収録する。音声認識フィルタ3は、マイク2によって収録された、音声を含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。
チャー)を検出し、この検出された動作に対応する動作データを出力する。発話開始認識
部14は、動作データを解析し、動作検出部13で検出された動作から、予め登録された発話開始動作(ジェスチャー)を抽出し、対象者の発話の開始を認識する。例えば、対象者が手を挙げる動作を行った場合、発話開始認識部14は、対象者が発話開始動作を行ったと認識する。
次に、本発明の実施の形態5に係わる音声認識装置について、図を参照しながら以下に説明する。実施の形態5に係わる音声認識装置は、実施の形態3に係わる音声認識装置における対象者の視線を推定する機能と、実施の形態4に係わる音声認識装置における発話期間を認識する機能とを併せ持つ音声認識装置である。
チャー)を検出する。発話開始認識部14は、動作検出部13で検出された動作から、予
め登録された発話開始動作(ジェスチャー)を検出し、対象者の発話の開始を認識する。例えば、対象者が手を挙げた場合、発話開始動作であると認識する。声紋フィルタ4は、発話期間認識部10と音声認識フィルタ3と発話開始認識部14で特定されたすべての音声の利用者を識別し、利用者の音声のみを通過させる。
識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする。
唇部検出部、10 発話期間認識部、11 目部検出部、12 視線推定部、13 動作検出部、14 発話開始認識部
Claims (5)
- 環境音を収録するマイクと、
前記マイクで収録された環境音の中から、音声に対応した周波数を有する音を選別する音声認識フィルタと、
前記音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、
前記声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、
前記優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えている音声認識装置。 - 対象者の画像を収録するカメラと、
前記カメラで収録された対象者の画像から対象者の顔部分を検出し、この検出された対象者の顔部分に対応する対象者の顔部画像を切り出す顔検出部と、
前記顔検出部で切り出された対象者の顔部画像から対象者の唇部分を検出し、この検出された対象者の唇部分に対応する対象者の唇部画像を出力する唇部検出部と、
前記唇部検出部から出力された対象者の唇部画像から、対象者の発話期間を認識する発話期間認識部と、をさらに備え、
前記声紋フィルタは、前記発話期間認識部で認識された対象者の発話期間を取り入れて、前記音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項1に記載の音声認識装置。 - 前記顔検出部で切り出された対象者の顔部画像から対象者の目部分を検出し、この検出された対象者の目部分に対応する対象者の目画像を出力する目部検出部と、
前記目部検出部から出力された対象者の目画像から対象者の視線を推定し、この推定された視線から、対象者が音声認識装置の利用者かどうかを判断する視線推定部と、をさらに備え、
前記声紋フィルタは、前記視線推定部で利用者と判断された対象者を対象にして、前記音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項2に記載の音声認識装置。 - 対象者の画像を収録するカメラと、
前記カメラで収録された対象者の画像から、対象者の動作を検出し、この検出された対象者の動作に対応する動作データを出力する動作検出部と、
前記動作検出部から出力された対象者の動作データから、予め登録されている発話開始動作を抽出し、この抽出された対象者の発話開始動作から対象者の発話開始時期を認識する発話開始認識部と、をさらに備え、
前記声紋フィルタは、前記発話開始認識部で認識された対象者の発話開始時期を取り入れて、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項1に記載の音声認識装置。 - カメラで収録された対象者の画像から対象者の顔部分を検出し、この検出された対象者の顔部分に対応する対象者の顔部画像を切り出す顔検出部と、
前記顔検出部で切り出された対象者の顔部画像から対象者の目部分を検出し、この検出された対象者の目部分に対応する対象者の目画像を出力する目部検出部と、
前記目部検出部から出力された対象者の目画像から対象者の視線を推定し、この推定された視線から、対象者が音声認識装置の利用者かどうかを判断する視線推定部と、をさらに備え、
前記声紋フィルタは、前記視線推定部で利用者と判断された対象者を対象にして、音声認
識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項4に記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016229749A JP2018087838A (ja) | 2016-11-28 | 2016-11-28 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016229749A JP2018087838A (ja) | 2016-11-28 | 2016-11-28 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018087838A true JP2018087838A (ja) | 2018-06-07 |
Family
ID=62492931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016229749A Pending JP2018087838A (ja) | 2016-11-28 | 2016-11-28 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018087838A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108962260A (zh) * | 2018-06-25 | 2018-12-07 | 福来宝电子(深圳)有限公司 | 一种多人命令语音识别方法、系统及存储介质 |
CN110047493A (zh) * | 2019-03-13 | 2019-07-23 | 深圳市酷开网络科技有限公司 | 基于声纹识别优先级的控制方法、装置及存储介质 |
KR102446676B1 (ko) * | 2022-05-02 | 2022-09-26 | (주) 아하 | AI와 IoT 기능을 융합하여 음성인식과 원격제어를 처리하는 스마트테이블 및 그 동작방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000338987A (ja) * | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム |
JP2003111157A (ja) * | 2001-09-28 | 2003-04-11 | Toshiba Corp | 統合コントローラ、機器制御方法及び機器制御プログラム |
JP2014083658A (ja) * | 2012-10-25 | 2014-05-12 | Panasonic Corp | 音声エージェント装置、及びその制御方法 |
JP2014153663A (ja) * | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
-
2016
- 2016-11-28 JP JP2016229749A patent/JP2018087838A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000338987A (ja) * | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム |
JP2003111157A (ja) * | 2001-09-28 | 2003-04-11 | Toshiba Corp | 統合コントローラ、機器制御方法及び機器制御プログラム |
JP2014083658A (ja) * | 2012-10-25 | 2014-05-12 | Panasonic Corp | 音声エージェント装置、及びその制御方法 |
JP2014153663A (ja) * | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108962260A (zh) * | 2018-06-25 | 2018-12-07 | 福来宝电子(深圳)有限公司 | 一种多人命令语音识别方法、系统及存储介质 |
CN110047493A (zh) * | 2019-03-13 | 2019-07-23 | 深圳市酷开网络科技有限公司 | 基于声纹识别优先级的控制方法、装置及存储介质 |
KR102446676B1 (ko) * | 2022-05-02 | 2022-09-26 | (주) 아하 | AI와 IoT 기능을 융합하여 음성인식과 원격제어를 처리하는 스마트테이블 및 그 동작방법 |
KR102460576B1 (ko) * | 2022-05-02 | 2022-10-28 | (주) 아하 | AI와 IoT 기능을 융합한 음성인식에 기반하여 사용자의 권한을 설정하고 원격제어를 처리하는 스마트테이블 및 그 동작방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9595259B2 (en) | Sound source-separating device and sound source-separating method | |
US9293133B2 (en) | Improving voice communication over a network | |
KR101501183B1 (ko) | 단일 및 다수 발언자용 이중 모드 agc | |
US8892424B2 (en) | Audio analysis terminal and system for emotion estimation of a conversation that discriminates utterance of a user and another person | |
US8635066B2 (en) | Camera-assisted noise cancellation and speech recognition | |
KR101610151B1 (ko) | 개인음향모델을 이용한 음성 인식장치 및 방법 | |
CN113874936A (zh) | 用于优化分布式系统中的用户偏好的定制输出 | |
JP2019531538A5 (ja) | ||
TW201606760A (zh) | 從音頻訊號的即時情緒辨識 | |
CN113906503A (zh) | 处理来自分布式设备的重叠语音 | |
JP2014153663A (ja) | 音声認識装置、および音声認識方法、並びにプログラム | |
JP2018169494A (ja) | 発話意図推定装置および発話意図推定方法 | |
US9779755B1 (en) | Techniques for decreasing echo and transmission periods for audio communication sessions | |
CN109558788B (zh) | 静默语音输入辨识方法、计算装置和计算机可读介质 | |
US9165182B2 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
JP5849761B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
JP2018087838A (ja) | 音声認識装置 | |
US20180158462A1 (en) | Speaker identification | |
KR20220041891A (ko) | 얼굴 정보를 데이터베이스에 입력하는 방법 및 설치 | |
KR20210066774A (ko) | 멀티모달 기반 사용자 구별 방법 및 장치 | |
JP7032284B2 (ja) | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 | |
KR20140093459A (ko) | 자동 통역 방법 | |
JP2015177490A (ja) | 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム | |
KR20140114283A (ko) | 정보 처리 장치 | |
JP2018055155A (ja) | 音声対話装置および音声対話方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190827 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190920 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200212 |