JP2018087838A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2018087838A
JP2018087838A JP2016229749A JP2016229749A JP2018087838A JP 2018087838 A JP2018087838 A JP 2018087838A JP 2016229749 A JP2016229749 A JP 2016229749A JP 2016229749 A JP2016229749 A JP 2016229749A JP 2018087838 A JP2018087838 A JP 2018087838A
Authority
JP
Japan
Prior art keywords
voice
subject
filter
image
detection unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016229749A
Other languages
English (en)
Inventor
一貴 吉田
Kazutaka Yoshida
一貴 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2016229749A priority Critical patent/JP2018087838A/ja
Publication of JP2018087838A publication Critical patent/JP2018087838A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Eye Examination Apparatus (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】同時に複数の利用者が利用する環境でも、音声による指示を正確に認識できる機能を備えた音声認識装置を提供することを目的とする。【解決手段】音声認識装置は、環境音を収録するマイクと、マイクで収録された環境音の中から、音声に対応した周波数を有する音を選別する音声認識フィルタと、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えている。【選択図】図1

Description

本発明は、音声認識装置に関するものである。より詳細には、本発明は、同定率がよく、かつ誤動作の少ない音声認識装置に関するものである。
プラント監視制御システムなどでは、キー操作の代わりに、音声認識を用いる音声入力システム、話者同定装置などが用いられている。音声認識装置または話者同定装置は、音声認識の同時利用があった場合に、優先度の高い発話者の指示のみを認識する(例えば、特許文献1から4を参照)。この発明は、複数の音声認識利用者がいる環境下で、同定率がよく、かつ誤動作の少ない音声認識装置を提案するものである。
音声認識装置として、主に音声とカメラによる画像を組み合わせることで、話者同定を行う方法が提案されている。例えば、特開2000−338987号公報に係わる発明は、音声と唇部画像の時系列データを組み合わせている。複数の発話者や環境音が存在する環境下において、音声認識装置の利用者の音声を抽出し、操作内容を認識する方法が開示されている。
また、特開2001−67098号公報に係わる発明では、カメラの画像から、話者の顔の向きを推定している。このことにより、音声認識装置の利用者かどうかを判定する方法を提案している。
特開2000-338987号公報 特開2000-347692号公報 特開2001-67098号公報 特開2012-14394号公報
音声認識装置を同時に複数の利用者が利用する場合、その中からどの指示を実行するのか、あるいはしないのかを判定することは、困難である。そこで、この発明では、音声認識装置を同時に複数の利用者が利用する環境でも、音声による指示を正確に認識できる機能を備えた音声認識装置を提供することを目的とする。
本発明に係わる音声認識装置は、環境音を収録するマイクと、マイクで収録された環境音の中から、音声に対応した周波数を有する音を選別する音声認識フィルタと、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えている。
本発明に係わる音声認識装置は、環境音を収録するマイクと、マイクで収録された環境音の中から、音声に対応した周波数を有する音を選別する音声認識フィルタと、音声認識
フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えていることにより、同時に複数の利用者が利用する環境でも、音声による指示を正確に認識できる機能を提供することができる。
本発明の実施の形態1に係わる音声認識装置の構成を示すブロック図である。 本発明の実施の形態2に係わる音声認識装置の構成を示すブロック図である。 本発明の実施の形態3に係わる音声認識装置の構成を示すブロック図である。 本発明の実施の形態4に係わる音声認識装置の構成を示すブロック図である。 本発明の実施の形態5に係わる音声認識装置の構成を示すブロック図である。
本発明の実施の形態に係わる音声認識装置について、図を参照しながら以下に説明する。なお、各図において、同一または同様の構成部分については同じ符号を付しており、対応する各構成部のサイズや縮尺はそれぞれ独立している。例えば構成の一部を変更した断面図の間で、変更されていない同一構成部分を図示する際に、同一構成部分のサイズや縮尺が異なっている場合もある。また、音声認識装置のみを記載し、他の部分については省略している。
実施の形態1.
以下、実施の形態1に関わる音声認識装置を、図を参照しながら説明する。図1は、この発明の実施の形態1による音声認識装置100を示すブロック図である。同図において、音声認識装置100は、マイク(集音部)2、音声認識フィルタ3、声紋フィルタ4、優先度判定部5、指示内容認識部6などから構成されている。対象者1の音声は、マイク(集音部)2から収録する。音声認識フィルタ3は、マイク2によって収録された、音声を
含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。
本発明では、予め音声認識装置100の利用者の音声と優先度を登録している。声紋フィルタ4は、音声認識フィルタ3で検出されたすべての音声を識別し、音声認識装置の登録利用者の音声(音声データ)のみを通過させる。優先度判定部5は、声紋フィルタ4で登録利用者として識別された各音声の優先度を判定する。指示内容認識部6は、優先度判定部5で最も優先度の高いと判定された登録利用者の音声を解析して、指示内容を認識する。優先度には、例えば、登録利用者の職制が使われる。
次に、本実施の形態に係わる音声認識装置の動作について説明する。マイク2は、環境音を収録し、収録した音データを音声認識フィルタ3に出力する。音声認識フィルタ3は、周波数の音声帯域フィルタであり、マイク2を通じて入力された収録音データから音声に対応した周波数を有する音声データのみを通過させ、声紋フィルタ4に出力する。声紋フィルタ4は、声紋認証により、音声認識フィルタ3で検出された音声データから対象者(発話者)を同定する。声紋フィルタ4で、発話者が特定できなかった音声は、非利用者(第三者)の音声と判断され、破棄する。さらに、声紋フィルタ4は、登録利用者と判断し
た対象者の音声データのみを、優先度判定部5に出力する。
優先度判定部5は、予め決められている登録利用者の優先度と、声紋フィルタ4から入力された登録利用者の音声データから各音声データの優先度を判定し、最も優先度が高いと判定された音声データのみを指示内容認識部6に出力する。指示内容認識部6は、優先度判定部5から入力された音声データを解析して、発話者(登録利用者)がどのような操作を促すものかを認識する。指示内容認識部6において、入力音声が操作入力と認識されなかった場合、優先度判定部5に優先度が次点となる音声の出力を促してもよい。
したがって、本実施の形態に係わる音声認識装置は、環境音を収録するマイクと、マイクで収録された環境音の中から、音声に対応した周波数を有する音を選別する音声認識フィルタと、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えている。
この発明では、予め利用者の音声と優先度を登録し、複数の利用者の音声を声紋認証により個人を識別している。優先度の高い利用者の指示を優先することで、音声認識装置を同時に複数の利用者が利用する環境でも、音声による指示を正確に認識できる。この実施の形態1に係わる音声認識装置によれば、音声認識装置の利用者の音声以外の音(環境音
や非利用者の音声)を、操作入力として誤認識することを防ぐことができる。且つ、実施
の形態1に係わる音声認識装置は、複数の利用者が同時に発話した場合でも、より重要な処理を優先させることができる効果が得られる。
実施の形態2.
本発明の実施の形態2に係わる音声認識装置について、図を参照しながら以下に説明する。図2は、この発明の実施の形態2による音声認識装置を示すブロック図である。図2において、音声認識装置100は、マイク(集音部)2、音声認識フィルタ3、声紋フィルタ4、優先度判定部5、指示内容認識部6、カメラ7、顔検出部8、唇部検出部9、発話期間認識部10などから構成されている。カメラ7は、対象者1の画像を収録する。対象者1の音声は、マイク(集音部)2から収録する。音声認識フィルタ3は、マイク2によって収録された、音声を含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。
本発明では、予め音声認識装置100の利用者の音声と優先度を登録している。声紋フィルタ4は、音声認識フィルタ3で検出されたすべての音声を識別し、音声認識装置の登録利用者の音声(音声データ)のみを通過させる。優先度判定部5は、声紋フィルタ4で登録利用者として識別された各音声の優先度を判定する。指示内容認識部6は、優先度判定部5で最も優先度の高いと判定された登録利用者の音声を解析して、指示内容を認識する。優先度には、例えば、登録利用者の職制が使われる。
顔検出部8は、カメラ7で収録された対象者の画像から顔部分を検出し、対象者の顔部画像を切り出す。唇部検出部9は、顔検出部8で切り出された顔部画像から唇部分を検出し、対象者の唇部画像を出力する。発話期間認識部10は、唇部検出部9で検出した対象者の唇部画像から唇の動きを検出し、対象者の発話の開始と終了を認識する。このことにより、発話期間認識部10は、対象者の発話期間を検出する。声紋フィルタ4は、発話期間認識部10と音声認識フィルタ3で特定されたすべての音声の利用者を識別し、利用者の音声のみを通過させる。
次に、本実施の形態に係わる音声認識装置の動作について説明する。カメラ7は、複数
の対象者1を撮影し、その撮影した対象者の動画像を顔検出部8に出力する。顔検出部8は、カメラ7から入力された対象者の動画像からすべての顔部画像を切り出し、唇部検出部9に出力する。唇部検出部9は、顔検出部8から入力された顔部画像から唇部分を切り出し、発話期間認識部10に出力する。発話期間認識部10は、対象者の発話期間を認識するために、唇の動きから対象者の発話の開始と終了を検出し、検出結果を声紋フィルタ4に出力する。
声紋フィルタ4は、音声認識フィルタ3から入力された音声データを、発話期間認識部10から入力された発話期間と組み合わせて音声指示データとする。音声データの取得時刻と発話期間が一致しない場合は、非利用者(第三者)の音声と判断され、破棄する。さらに、声紋フィルタ4は、声紋認証により、音声指示データの話者を同定し、登録されている対象者の音声のみを優先度判定部5に出力する。
したがって、本実施の形態に係わる音声認識装置は、対象者の画像を収録するカメラと、カメラで収録された対象者の画像から対象者の顔部分を検出し、この検出された対象者の顔部分に対応する対象者の顔部画像を切り出す顔検出部と、顔検出部で切り出された対象者の顔部画像から対象者の唇部分を検出し、この検出された対象者の唇部分に対応する対象者の唇部画像を出力する唇部検出部と、唇部検出部から出力された対象者の唇部画像から、対象者の発話期間を認識する発話期間認識部と、をさらに備え、声紋フィルタは、発話期間認識部で認識された対象者の発話期間を取り入れて、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする。
以上のように、この実施の形態2に係わる音声認識装置によれば、実施の形態1に係わる音声認識装置に発話期間を認識する機能を追加している。このことにより音声認識装置内で扱われる音声データをシンプルにすることができる。さらに、実施の形態2に係わる音声認識装置は、実施の形態1に係わる音声認識装置の効果に加え、指示内容の認識精度を上げる効果が得られる。
実施の形態3.
次に、本発明の実施の形態3に係わる音声認識装置について、図を参照しながら以下に説明する。図3は、この発明の実施の形態3による音声認識装置を示すブロック図である。同図において、音声認識装置100は、マイク(集音部)2、音声認識フィルタ3、声紋フィルタ4、優先度判定部5、指示内容認識部6、カメラ7、顔検出部8、唇部検出部9、発話期間認識部10、目部検出部11、視線推定部12などから構成されている。カメラ7は、対象者1の画像を収録する。対象者1の音声は、マイク(集音部)2から収録する。音声認識フィルタ3は、マイク2によって収録された、音声を含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。
本発明では、予め音声認識装置100の利用者の音声と優先度を登録している。声紋フィルタ4は、音声認識フィルタ3で検出されたすべての音声を識別し、音声認識装置の登録利用者の音声(音声データ)のみを通過させる。優先度判定部5は、声紋フィルタ4で登録利用者として識別された各音声の優先度を判定する。指示内容認識部6は、優先度判定部5で最も優先度の高いと判定された登録利用者の音声を解析して、指示内容を認識する。優先度には、例えば、登録利用者の職制が使われる。
顔検出部8は、カメラ7で収録された対象者の画像から顔部分を検出し、対象者の顔部画像を切り出す。唇部検出部9は、顔検出部8で切り出された顔部画像から唇部分を検出し、対象者の唇部画像を出力する。発話期間認識部10は、対象者の発話期間を認識するために、唇部検出部9で検出した対象者の唇部画像から唇の動きを検出し、対象者の発話
の開始と終了を認識する。
目部検出部11は、顔検出部8で切り出された顔部画像から目部分を検出する。視線推定部12は、目部検出部11で検出した目画像から対象者の視線を推定し、音声認識装置の利用者かどうかを判断する。声紋フィルタ4は、発話期間認識部10と音声認識フィルタ3と視線推定部12で特定されたすべての音声の利用者を識別し、登録利用者の音声のみを通過させる。
次に、本実施の形態に係わる音声認識装置の動作について説明する。顔検出部8は、カメラ7から入力された動画像からすべての顔部画像を切り出し、唇部検出部9と目部検出部11に出力する。目部検出部11は、顔検出部8から入力された顔部画像から目部分を切り出し、視線推定部12に対象者の目部画像を出力する。視線推定部12は、目部検出部11から入力された対象者の目部画像からすべての対象者の視線を推定し、対象者が音声認識装置の利用者かどうかを判断し、判断結果を声紋フィルタ4に出力する。ただし、目部画像と唇部画像は、顔部画像により紐づいており、且つ声紋フィルタ4で音声データと唇部画像の動きも紐づくため、目部画像と音声データも紐づいている。
声紋フィルタ4は、音声認識フィルタ3から入力された音声データを、発話期間認識部10から入力された発話期間と組み合わせて音声指示データとする。音声データの取得時刻と発話期間が一致しない場合は、非利用者(第三者)の音声と判断され、破棄する。さらに、声紋フィルタ4は、声紋認証により、音声指示データの話者を同定し、登録されている対象者の音声のみを優先度判定部5に出力する。
したがって、本実施の形態に係わる音声認識装置は、顔検出部で切り出された対象者の顔部画像から対象者の目部分を検出し、この検出された対象者の目部分に対応する対象者の目画像を出力する目部検出部と、目部検出部から出力された対象者の目画像から対象者の視線を推定し、この推定された視線から、対象者が音声認識装置の利用者かどうかを判断する視線推定部と、をさらに備え、声紋フィルタは、視線推定部で利用者と判断された対象者を対象にして、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする。
以上のように、この実施の形態3に係わる音声認識装置によれば、実施の形態2に係わる音声認識装置に対象者の視線を推定する機能を追加している。このことにより、実施の形態3に係わる音声認識装置は、複数の対象者から利用者の候補を予め絞ることができる。さらに、実施の形態3に係わる音声認識装置は、実施の形態2に係わる音声認識装置の効果に加え、話者同定をより正確にできる効果が得られる。
実施の形態4.
次に、本発明の実施の形態4に係わる音声認識装置について、図を参照しながら以下に説明する。図4は、この発明の実施の形態4による音声認識装置を示すブロック図である。同図において、音声認識装置100は、マイク(集音部)2、音声認識フィルタ3、声紋フィルタ4、優先度判定部5、指示内容認識部6、カメラ7、動作検出部13、発話開始認識部14などから構成されている。カメラ7は、対象者1の画像を収録する。対象者1の音声は、マイク(集音部)2から収録する。音声認識フィルタ3は、マイク2によって収録された、音声を含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。
本発明では、予め音声認識装置100の利用者の音声と優先度を登録している。声紋フィルタ4は、音声認識フィルタ3で検出されたすべての音声を識別し、音声認識装置の登録利用者の音声(音声データ)のみを通過させる。優先度判定部5は、声紋フィルタ4で登録利用者として識別された各音声の優先度を判定する。指示内容認識部6は、優先度判定部5で最も優先度の高いと判定された登録利用者の音声を解析して、指示内容を認識する。優先度には、例えば、登録利用者の職制が使われる。
動作検出部13は、カメラ7で収録された対象者の動画像から、対象者の動作(ジェス
チャー)を検出し、この検出された動作に対応する動作データを出力する。発話開始認識
部14は、動作データを解析し、動作検出部13で検出された動作から、予め登録された発話開始動作(ジェスチャー)を抽出し、対象者の発話の開始を認識する。例えば、対象者が手を挙げる動作を行った場合、発話開始認識部14は、対象者が発話開始動作を行ったと認識する。
次に、本実施の形態に係わる音声認識装置の動作について説明する。動作検出部13は、カメラ7から入力された動画像から対象者の動作を検出し、発話開始認識部14に出力する。発話開始認識部14は、入力された動画像の動作が予め登録された発話開始動作であるかどうかを判断する。発話開始動作であった場合、発話開始認識部14は、「発話開始」を声紋フィルタ4に出力する。
声紋フィルタ4は、音声認識フィルタ3から入力された音声データを、発話開始認識部14から入力された発話開始時期と組み合わせて音声指示データとする。音声データの取得時刻と発話開始時期が一致しない場合は、非利用者(第三者)の音声と判断され、破棄する。さらに、声紋フィルタ4は、声紋認証により、音声指示データの話者を同定し、登録されている対象者の音声のみを優先度判定部5に出力する。
したがって、本実施の形態に係わる音声認識装置は、対象者の画像を収録するカメラと、カメラで収録された対象者の画像から、対象者の動作を検出し、この検出された対象者の動作に対応する動作データを出力する動作検出部と、動作検出部から出力された対象者の動作データから、予め登録されている発話開始動作を抽出し、この抽出された対象者の発話開始動作から対象者の発話開始時期を認識する発話開始認識部と、をさらに備え、声紋フィルタは、発話開始認識部で認識された対象者の発話開始時期を取り入れて、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする。
以上のように、この実施の形態4に係わる音声認識装置によれば、実施の形態1に係わる音声認識装置に、発話開始を認識する機能を追加している。このことにより、実施の形態4に係わる音声認識装置は、実施の形態1に係わる音声認識装置の効果に加え、指示内容の認識精度を上げる効果が得られる。
実施の形態5.
次に、本発明の実施の形態5に係わる音声認識装置について、図を参照しながら以下に説明する。実施の形態5に係わる音声認識装置は、実施の形態3に係わる音声認識装置における対象者の視線を推定する機能と、実施の形態4に係わる音声認識装置における発話期間を認識する機能とを併せ持つ音声認識装置である。
図5は、この発明の実施の形態5による音声認識装置を示すブロック図である。同図において、音声認識装置100は、マイク(集音部)2、音声認識フィルタ3、声紋フィルタ4、優先度判定部5、指示内容認識部6、カメラ7、顔検出部8、目部検出部11、視線推定部12、動作検出部13、発話開始認識部14などから構成されている。カメラ7は、対象者1の画像を収録する。対象者1の音声は、マイク(集音部)2から収録する。音声認識フィルタ3は、マイク2によって収録された、音声を含む環境音から、音声に対応した周波数を有する音声データを選別して、通過させる。
本発明では、予め音声認識装置100の利用者の音声と優先度を登録している。声紋フィルタ4は、音声認識フィルタ3で検出されたすべての音声を識別し、音声認識装置の登録利用者の音声(音声データ)のみを通過させる。優先度判定部5は、声紋フィルタ4で登録利用者として識別された各音声の優先度を判定する。指示内容認識部6は、優先度判定部5で最も優先度の高いと判定された登録利用者の音声を解析して、指示内容を認識する。優先度には、例えば、登録利用者の職制が使われる。
顔検出部8は、カメラ7で収録された対象者の画像から顔部分を検出し、対象者の顔部画像を切り出す。目部検出部11は、顔検出部8で切り出された顔部画像から目部分を検出する。視線推定部12は、目部検出部11で検出した目画像から対象者の視線を推定し、対象者が音声認識装置の利用者かどうかを判断する。
動作検出部13は、カメラ7で収録された対象者の動画像から、対象者の動作(ジェス
チャー)を検出する。発話開始認識部14は、動作検出部13で検出された動作から、予
め登録された発話開始動作(ジェスチャー)を検出し、対象者の発話の開始を認識する。例えば、対象者が手を挙げた場合、発話開始動作であると認識する。声紋フィルタ4は、発話期間認識部10と音声認識フィルタ3と発話開始認識部14で特定されたすべての音声の利用者を識別し、利用者の音声のみを通過させる。
次に、本実施の形態に係わる音声認識装置の動作について説明する。カメラ7は、複数の対象者1を撮影し、その撮影した動画像を顔検出部8と動作検出部に13出力する。顔検出部8は、カメラ7から入力された動画像からすべての顔部画像を切り出し、目部検出部11に出力する。目部検出部11は、顔検出部8から入力された顔部画像から目部分を切り出し、視線推定部12に対象者の目部画像を出力する。視線推定部12は、目部検出部11から入力された対象者の目部画像からすべての対象者の視線を推定し、対象者が音声認識装置の利用者かどうかを判断し、判断結果を声紋フィルタ4に出力する。ただし、目部画像と動作データは、顔部画像により紐づいており、且つ声紋フィルタ4で音声データと目部画像の動きも紐づくため、動作データと音声データも紐づいている。
動作検出部13は、カメラ7から入力された動画像から対象者の動作を検出し、発話開始認識部14に出力する。発話開始認識部14は、入力された動画像の動作が予め登録された発話開始動作であるかどうかを判断する。発話開始動作であった場合、発話開始認識部14は、「発話開始」を声紋フィルタ4に出力する。声紋フィルタ4は、声紋認証により、音声指示データの話者を同定し、登録されている対象者の音声を優先度判定部5に出力する。
声紋フィルタ4は、音声認識フィルタ3から入力された音声データを、発話開始認識部14から入力された発話開始時期と組み合わせて音声指示データとする。音声データの取得時刻と発話開始時期が一致しない場合は、非利用者(第三者)の音声と判断され、破棄する。さらに、声紋フィルタ4は、視線推定部12から入力された利用者判定の判断結果に従い、音声認識装置の利用者と判断された音声データのみを優先度判定部5に出力する。
したがって、本実施の形態に係わる音声認識装置は、カメラで収録された対象者の画像から対象者の顔部分を検出し、この検出された対象者の顔部分に対応する対象者の顔部画像を切り出す顔検出部と、顔検出部で切り出された対象者の顔部画像から対象者の目部分を検出し、この検出された対象者の目部分に対応する対象者の目画像を出力する目部検出部と、目部検出部から出力された対象者の目画像から対象者の視線を推定し、この推定された視線から、対象者が音声認識装置の利用者かどうかを判断する視線推定部と、をさらに備え、声紋フィルタは、視線推定部で利用者と判断された対象者を対象にして、音声認
識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする。
以上のように、この実施の形態5に係わる音声認識装置によれば、実施の形態4に係わる音声認識装置に対象者の視線を推定する機能を追加している。このことにより、複数の対象者から利用者の候補を予め絞ることができる。さらに、実施の形態5に係わる音声認識装置は、実施の形態2の効果に加え、話者同定をより正確にでき、且つ対象者の動作から発話開始を認識する機能を追加することで、指示内容の認識精度を上げる効果が得られる。
本願に係わる音声認識装置は、環境音から発話を検出したい複数の対象者の音声を抽出する音声抽出手段と、上記音声抽出手段により抽出された音声の声紋認証手段と、上記声紋認証手段により認証された音声のうち優先度の高い対象者を判定する優先発話者判定手段と、上記優先発話者判定手段により選択された優先度の最も高い音声の指示内容を認識する手段を備えている。
また、本願に係わる音声認識装置は、発話を検出したい複数の対象者の画像を撮影するカメラと、上記カメラにより撮影された画像から複数の対象者の顔を検出する顔検出手段と、上記顔検出手段により切り出された顔部画像から、唇を検出する唇部検出手段と、上記唇部検出手段により検出された唇部画像から複数の対象者の発話開始から終了を認識する手段を備えている。
また、本願に係わる音声認識装置は、顔検出手段により切り出された顔部画像から、目を検出する目部検出手段と、上記目部検出手段により検出された目部画像から対象者の視線を推定することで、発話者が音声認識の利用者かどうかを判定することを特徴としている。
また、本願に係わる音声認識装置は、発話を検出したい複数の対象者の画像を撮影するカメラと、上記カメラにより撮影された画像から対象者の発話開始の動作(ジェスチャー)を検出する発話開始動作検出機能を備えている。
なお、本発明は、その発明の範囲内において、実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。
100 音声認識装置、1 対象者、2 マイク(集音部)、3 音声認識フィルタ、4 声紋フィルタ、5 優先度判定部、6 指示内容認識部、7 カメラ、8 顔検出部、9
唇部検出部、10 発話期間認識部、11 目部検出部、12 視線推定部、13 動作検出部、14 発話開始認識部

Claims (5)

  1. 環境音を収録するマイクと、
    前記マイクで収録された環境音の中から、音声に対応した周波数を有する音を選別する音声認識フィルタと、
    前記音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択する声紋フィルタと、
    前記声紋フィルタで選択された登録利用者の音声に対し、優先度を判定する優先度判定部と、
    前記優先度判定部で最も優先度が高いと判定された登録利用者の音声を解析し、この登録利用者の音声の指示内容を認識する指示内容認識部と、を備えている音声認識装置。
  2. 対象者の画像を収録するカメラと、
    前記カメラで収録された対象者の画像から対象者の顔部分を検出し、この検出された対象者の顔部分に対応する対象者の顔部画像を切り出す顔検出部と、
    前記顔検出部で切り出された対象者の顔部画像から対象者の唇部分を検出し、この検出された対象者の唇部分に対応する対象者の唇部画像を出力する唇部検出部と、
    前記唇部検出部から出力された対象者の唇部画像から、対象者の発話期間を認識する発話期間認識部と、をさらに備え、
    前記声紋フィルタは、前記発話期間認識部で認識された対象者の発話期間を取り入れて、前記音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項1に記載の音声認識装置。
  3. 前記顔検出部で切り出された対象者の顔部画像から対象者の目部分を検出し、この検出された対象者の目部分に対応する対象者の目画像を出力する目部検出部と、
    前記目部検出部から出力された対象者の目画像から対象者の視線を推定し、この推定された視線から、対象者が音声認識装置の利用者かどうかを判断する視線推定部と、をさらに備え、
    前記声紋フィルタは、前記視線推定部で利用者と判断された対象者を対象にして、前記音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項2に記載の音声認識装置。
  4. 対象者の画像を収録するカメラと、
    前記カメラで収録された対象者の画像から、対象者の動作を検出し、この検出された対象者の動作に対応する動作データを出力する動作検出部と、
    前記動作検出部から出力された対象者の動作データから、予め登録されている発話開始動作を抽出し、この抽出された対象者の発話開始動作から対象者の発話開始時期を認識する発話開始認識部と、をさらに備え、
    前記声紋フィルタは、前記発話開始認識部で認識された対象者の発話開始時期を取り入れて、音声認識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項1に記載の音声認識装置。
  5. カメラで収録された対象者の画像から対象者の顔部分を検出し、この検出された対象者の顔部分に対応する対象者の顔部画像を切り出す顔検出部と、
    前記顔検出部で切り出された対象者の顔部画像から対象者の目部分を検出し、この検出された対象者の目部分に対応する対象者の目画像を出力する目部検出部と、
    前記目部検出部から出力された対象者の目画像から対象者の視線を推定し、この推定された視線から、対象者が音声認識装置の利用者かどうかを判断する視線推定部と、をさらに備え、
    前記声紋フィルタは、前記視線推定部で利用者と判断された対象者を対象にして、音声認
    識フィルタで選別された音声に対応した周波数を有する音の中から、登録利用者の音声を選択することを特徴とする請求項4に記載の音声認識装置。
JP2016229749A 2016-11-28 2016-11-28 音声認識装置 Pending JP2018087838A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016229749A JP2018087838A (ja) 2016-11-28 2016-11-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016229749A JP2018087838A (ja) 2016-11-28 2016-11-28 音声認識装置

Publications (1)

Publication Number Publication Date
JP2018087838A true JP2018087838A (ja) 2018-06-07

Family

ID=62492931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016229749A Pending JP2018087838A (ja) 2016-11-28 2016-11-28 音声認識装置

Country Status (1)

Country Link
JP (1) JP2018087838A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108962260A (zh) * 2018-06-25 2018-12-07 福来宝电子(深圳)有限公司 一种多人命令语音识别方法、系统及存储介质
CN110047493A (zh) * 2019-03-13 2019-07-23 深圳市酷开网络科技有限公司 基于声纹识别优先级的控制方法、装置及存储介质
KR102446676B1 (ko) * 2022-05-02 2022-09-26 (주) 아하 AI와 IoT 기능을 융합하여 음성인식과 원격제어를 처리하는 스마트테이블 및 그 동작방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000338987A (ja) * 1999-05-28 2000-12-08 Mitsubishi Electric Corp 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
JP2003111157A (ja) * 2001-09-28 2003-04-11 Toshiba Corp 統合コントローラ、機器制御方法及び機器制御プログラム
JP2014083658A (ja) * 2012-10-25 2014-05-12 Panasonic Corp 音声エージェント装置、及びその制御方法
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000338987A (ja) * 1999-05-28 2000-12-08 Mitsubishi Electric Corp 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
JP2003111157A (ja) * 2001-09-28 2003-04-11 Toshiba Corp 統合コントローラ、機器制御方法及び機器制御プログラム
JP2014083658A (ja) * 2012-10-25 2014-05-12 Panasonic Corp 音声エージェント装置、及びその制御方法
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108962260A (zh) * 2018-06-25 2018-12-07 福来宝电子(深圳)有限公司 一种多人命令语音识别方法、系统及存储介质
CN110047493A (zh) * 2019-03-13 2019-07-23 深圳市酷开网络科技有限公司 基于声纹识别优先级的控制方法、装置及存储介质
KR102446676B1 (ko) * 2022-05-02 2022-09-26 (주) 아하 AI와 IoT 기능을 융합하여 음성인식과 원격제어를 처리하는 스마트테이블 및 그 동작방법
KR102460576B1 (ko) * 2022-05-02 2022-10-28 (주) 아하 AI와 IoT 기능을 융합한 음성인식에 기반하여 사용자의 권한을 설정하고 원격제어를 처리하는 스마트테이블 및 그 동작방법

Similar Documents

Publication Publication Date Title
US9595259B2 (en) Sound source-separating device and sound source-separating method
US9293133B2 (en) Improving voice communication over a network
KR101501183B1 (ko) 단일 및 다수 발언자용 이중 모드 agc
US8892424B2 (en) Audio analysis terminal and system for emotion estimation of a conversation that discriminates utterance of a user and another person
US8635066B2 (en) Camera-assisted noise cancellation and speech recognition
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
CN113874936A (zh) 用于优化分布式系统中的用户偏好的定制输出
JP2019531538A5 (ja)
TW201606760A (zh) 從音頻訊號的即時情緒辨識
CN113906503A (zh) 处理来自分布式设备的重叠语音
JP2014153663A (ja) 音声認識装置、および音声認識方法、並びにプログラム
JP2018169494A (ja) 発話意図推定装置および発話意図推定方法
US9779755B1 (en) Techniques for decreasing echo and transmission periods for audio communication sessions
CN109558788B (zh) 静默语音输入辨识方法、计算装置和计算机可读介质
US9165182B2 (en) Method and apparatus for using face detection information to improve speaker segmentation
JP5849761B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP2018087838A (ja) 音声認識装置
US20180158462A1 (en) Speaker identification
KR20220041891A (ko) 얼굴 정보를 데이터베이스에 입력하는 방법 및 설치
KR20210066774A (ko) 멀티모달 기반 사용자 구별 방법 및 장치
JP7032284B2 (ja) ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法
KR20140093459A (ko) 자동 통역 방법
JP2015177490A (ja) 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム
KR20140114283A (ko) 정보 처리 장치
JP2018055155A (ja) 音声対話装置および音声対話方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190920

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200212