JP2014153663A - 音声認識装置、および音声認識方法、並びにプログラム - Google Patents

音声認識装置、および音声認識方法、並びにプログラム Download PDF

Info

Publication number
JP2014153663A
JP2014153663A JP2013025501A JP2013025501A JP2014153663A JP 2014153663 A JP2014153663 A JP 2014153663A JP 2013025501 A JP2013025501 A JP 2013025501A JP 2013025501 A JP2013025501 A JP 2013025501A JP 2014153663 A JP2014153663 A JP 2014153663A
Authority
JP
Japan
Prior art keywords
information
sound source
voice
source direction
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013025501A
Other languages
English (en)
Inventor
Keiichi Yamada
敬一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2013025501A priority Critical patent/JP2014153663A/ja
Priority to US14/650,700 priority patent/US20150331490A1/en
Priority to EP14705583.4A priority patent/EP2956940B1/en
Priority to PCT/JP2014/000602 priority patent/WO2014125791A1/en
Publication of JP2014153663A publication Critical patent/JP2014153663A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】音源方向と音声区間の解析に基づく精度の高い音声認識処理を実現する装置、方法を提供する。
【解決手段】画像情報、および音声情報を入力する情報入力部と、情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、音源方向・音声区間決定部は、音声区間の開始時間と音源方向情報の取得処理と、音声区間の終了時間と音源方向情報の取得処理を、異なる情報の解析処理によって実行する。さらに、異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する。
【選択図】図3

Description

本開示は、音声認識装置、および音声認識方法、並びにプログラムに関する。さらに詳細には音声情報と画像情報を利用して音声区間や音源方向を求めて音声認識を行なう音声認識装置、および音声認識方法、並びにプログラムに関する。
音声認識処理は、例えばマイクで取得した人の発話内容を解析する処理である。例えば、携帯端末やテレビなどの情報処理装置に音声認識処理部を設けると、これらの装置に対してユーザが発した言葉(ユーザ発話)を解析し、発話に基づく処理を実行させることが可能となる。
しかし、マイクの取得音には音声認識の対象となるユーザの音声のみならず、様々な雑音(ノイズや環境音、あるいは妨害音等とよばれる)が含まれる。マイクが取得した雑音の含まれる取得音の中から、特定ユーザが発した言葉のみを抽出して解析する処理は、ノイズが大きいほど困難となる。現状の音声認識装置は、ノイズの多い環境下では十分な音声認識精度を実現できないという問題がある。
マイクから取得した音情報のみを用いる一般的な音声認識装置は、周囲の環境音、すなわち雑音のレベルが大きい場合、目的とする音声を抽出して正しく認識することが困難になる。
このような問題を解決するため、特定方向の音のみを選択するビームフォーミング処理や、反響音を識別して反響音を削減するエコーキャンセル処理等を利用してノイズ低減を行なう方法についても提案されている。しかし、ノイズ低減処理にも限界があり、既存のノイズ低減を利用した構成では十分なレベルの音声認識精度を実現することはできない。
この問題を解決する手法の1つとして、マイクの取得音のみではなく画像情報を適用した処理が提案されている。
例えば特許文献1(特開2012−3326号公報)は、カメラで撮影した画像から、ユーザの口の動き、すなわち口唇動作を検出して、口唇動作に基づいて、ユーザの発話区間を判断し、この発話区間内のマイク取得音のみを選択して解析することで、音声認識における認識精度を向上させる構成を開示している。
しかし、例えば、ガムを噛んでいるように発話と無関係な動きを行なっている場合には、口唇動作に基づく正確な発話区間を判断することが困難となるという問題がある。
さらに、例えば携帯端末等のようにユーザが手に持って操作する装置の場合、携帯端末の入力部、例えば、タッチパネルのスイッチを操作して発話開始および発話終了のタイミングを入力する構成も提案されている。この処理を行なえば、必要な音声区間のみを確実に判断することが可能となる。
しかし、ユーザ操作に基づく音声区間判定処理は、ユーザが操作可能な端末を手に持ち、端末のスイッチを直接操作可能な場合には利用可能であるが、装置とユーザが離れている場合などには利用できないという問題がある。
特開2012−3326号公報 特開2006−72163号公報
本件は、例えば上記問題点に鑑みてなされたものであり、ノイズ音の多い環境下においても、目的とするユーザの発話区間等を正確に判断して精度の高い音声認識を実現する音声認識装置、および音声認識方法、並びにプログラムを提供することを目的とする。
本開示の第1の側面は、
画像情報、および音声情報を入力する情報入力部と、
前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部は、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識装置にある。
さらに、本開示の音声認識装置の一実施態様において、前記異なる情報の少なくとも一方は画像情報であり、前記音源方向・音声区間決定部は、画像に基づいて、音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する。
さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、前記情報入力部の入力画像から取得される口唇領域画像を利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する。
さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、前記情報入力部の入力画像から取得される発話者の手の動きを示すジェスチャ、または手の形状変化であるポスチャを利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する。
さらに、本開示の音声認識装置の一実施態様において、前記異なる情報の少なくとも一方は画像情報、他方は音声情報であり、前記音源方向・音声区間決定部は、画像情報に基づいて得られた音源方向と、音声情報に基づいて得られた音源情報との一致度を判定する。
さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有していないと判定した場合、さらに、画像から得られる発話者の顔方向または視線方向が、予め規定した許容範囲内にあるか否かを判定し、許容範囲内である場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する。
さらに、本開示の音声認識装置の一実施態様において、前記異なる情報の少なくとも一方には、画像解析によって得られる発話者の明示的な合図が含まれる。
さらに、本開示の音声認識装置の一実施態様において、前記異なる情報の少なくとも一方には、入力部を介した発話者の明示的な入力情報が含まれる。
さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、さらに、音声区間内に入力部を介するユーザ操作情報の入力が検出された場合に、該音声区間の音声を音声認識対象として選択する処理を行なう。
さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、さらに、発話者が予め定めた特定領域を見ているか否かを判定し、見ていると判定した場合に、検出した音声区間の音声を音声認識対象として選択する処理を行なう。
さらに、本開示の音声認識装置の一実施態様において、前記音源方向・音声区間決定部は、画像解析によって得られる顔識別情報を適用して、顔識別結果に基づいて、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象とするか否かの判定を行なう。
さらに、本開示の第2の側面は、
音声情報および画像情報を取得する情報入力部を備えた情報処理装置と、
前記情報処理装置とネットワーク接続されたサーバを有し、
前記サーバは、
前記情報処理装置から、前記情報入力部の取得した音声情報および画像情報を入力し、入力情報に基づく音声認識処理を実行して音声認識結果を前記情報処理装置に出力する構成であり、
前記サーバは、
音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部は、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識処理システムにある。
さらに、本開示の第3の側面は、
音声認識装置において実行する音声認識方法であり、
前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部において、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識方法にある。
さらに、本開示の第4の側面は、
音声認識装置において音声認識処理を実行させるプログラムであり、
前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記プログラムは、前記音源方向・音声区間決定部に、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行させ、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行させるプログラムにある。
なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
本開示のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本開示の一実施例の構成によれば、音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
具体的には、本開示の音声認識装置は、画像情報、および音声情報を入力する情報入力部と、情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有する。
音源方向・音声区間決定部は、音声区間の開始時間と音源方向情報の取得処理と、音声区間の終了時間と音源方向情報の取得処理を、異なる情報の解析処理によって実行する。さらに、異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する。
これらの構成により、音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
音声認識処理を行う場合の具体的環境の一例について説明する図である。 複数のマイクロフォンと、カメラを有する情報入力部の構成例について説明する図である。 本開示の一実施例に係る音声認識装置の構成例を説明する図である。 マイクロフォン・アレイを利用した音源方向の解析処理例について説明する図である。 音源方向と音声区間の検出処理について説明する図である。 音声を利用した音声認識処理の一般的シーケンスについて説明するフローチャートを示す図である。 顔方向推定部114の実行する顔方向判定処理と、視線方向推定部115の実行する視線方向判定処理の一例について説明する図である。 ポスチャ認識部119の検出するポスチャ情報123と、ジェスチャ認識部120の検出するジェスチャ情報124を利用した発話区間の判定例について説明する図である。 ポスチャ認識部119の検出するポスチャ情報123と、ジェスチャ認識部120の検出するジェスチャ情報124を利用した発話区間の判定例について説明する図である。 ポスチャ認識部119の検出するポスチャ情報123と、ジェスチャ認識部120の検出するジェスチャ情報124を利用した発話区間の判定例について説明する図である。 本開示の音声認識装置の実行する音声区間(発話区間)の判定処理態様について説明する図である。 本開示の音声認識装置の実行する音源方向と音声区間の決定処理シーケンスについて説明するフローチャートを示す図である。 画像を適用した音源方向判定処理例について説明する図である。 図13のフローにおけるステップS206で実行する音源方向と音声区間の決定処理の詳細について説明するフローチャートを示す図である。 音源と推定されるユーザの顔方向または視線方向が予め規定した範囲内にあるか否かを判定する処理について説明する図である。 音源と推定されるユーザの顔方向または視線方向が予め規定した範囲内にあるか否かを判定する処理について説明する図である。 図13のフローにおけるステップS206で実行する音源方向と音声区間の決定処理の詳細について説明するフローチャートを示す図である。 ユーザが、予め規定した特定位置を見ているか否かを識別して発話区間等の判定を行なう実施例について説明する図である。 ユーザが、予め規定した特定位置を見ているか否かを識別して発話区間等の判定を行なう実施例について説明する図である。 ユーザが、予め規定した特定位置を見ているか否かを識別して発話区間等の判定を行なう実施例について説明するフローチャートを示す図である。 図20のフローにおけるステップS509で実行する音源方向および音声区間の決定処理の詳細について説明するフローチャートを示す図である。 顔識別処理を行なう音声認識装置の構成例について説明する図である。 クラウド型の処理を行なう実施例について説明する図である。 様々な方式に従った音源方向、音声区間決定処理を適用した場合の音声認識の正解率を示すデータについて説明する図である。
以下、図面を参照しながら音声認識装置、および音声認識方法、並びにプログラムの詳細について説明する。
以下、以下に示す項目に従って処理の詳細について説明する。
1.本開示の音声認識装置の構成と処理の概要について
2.本開示の音声認識装置の一実施例の構成と処理について
3.音源方向と音声区間の決定処理例について
3−1.音源方向と音声区間の決定処理例1
3−2.音源方向と音声区間の決定処理例2
4.ユーザが特定位置を見ていることを識別して処理を行なう実施例
5.顔識別処理を行なう構成について
6.その他の実施例について
6−1.クラウド型の処理を行なう実施例について
6−2.操作部の操作に基づく音声区間検出処理を行なう実施例について
7.画像データを利用した音声認識率の向上について
8.本開示の構成のまとめ
以下、上記項目に従って説明する。
[1.本開示の音声認識装置の構成と処理の概要について]
まず、本開示の音声認識装置の構成と処理の概要について説明する。
図1は、本開示の音声認識装置の一つの利用例を示す図である。本開示の音声認識装置は、様々な機器に組み込んで利用可能である。具体的には、例えばテレビ、携帯端末、DVDプレーヤ、その他の様々な機器として実現可能である。
図1に示す例において、音声認識装置10はテレビであり、テレビの中に音声認識を実行する音声認識処理部が内蔵されている。
図1に示すように音声認識装置10は、情報入力部20を備えている。情報入力部20は、音声入力部として複数のマイクロフォンからなるマイクロフォン・アレイを有し、さらに、画像入力部として動画像を撮影するカメラ(撮像部)を有している。
図1に示すように音声認識装置10であるテレビの前には、テレビ鑑賞者であるユーザ31〜34がいる。これらのユーザは発話によって、テレビに対する様々な処理要求を行なう。
例えばユーザ31がテレビに対して、
「チャンネルを4チャンネルに変更して」
上記の発話を行なうと、テレビである音声認識装置10がユーザ31の発話を解析し、解析情報をテレビの制御を行なう制御部に出力し、制御部の制御の下でテレビのチャンネル変更処理を実行する。
音声認識装置10は、マイクとカメラから構成される情報入力部20の入力した情報を利用して目的音を選択して音声解析を実行する。
なお、情報入力部20のマイクが取得する音には、音声認識対象となる目的音の他、様々なノイズ(環境音)が含まれる。
音声認識装置10は、マイクの取得したノイズを含む音から、目的音を選択して、目的音の解析、すなわち音声認識を実行し発話内容を取得する。
様々な雑音の含まれる観測された音声信号から、音声認識対象となる目的音を抽出するために、目的音の音源方向や音声区間を判定する処理が重要となる。この処理に、情報入力部20の入力した画像情報や音声情報が利用される。
情報入力部20の一構成例を図2に示す。図2に示すように、情報入力部20は、画像情報を取得する撮像部であるカメラ21と、水平方向に並んだ複数のマイクロフォンから構成されるマイクロフォン・アレイ22を有する。
マイクロフォン・アレイ22を構成するマイクの各々は、取得音の音源方向に応じた位相差を持つ音を取得する。音声認識装置10の音声処理部は、各マイクの取得音の位相差を解析して、各音の音源方向を解析する。
カメラ21は、例えばビデオカメラでありテレビの前方の画像を取得する。音声認識装置10の画像処理部は、取得画像の解析を行い、画像に含まれる人領域や顔領域を識別し、さらに人の手の動きや形状変化、さらに口領域の動きである口唇画像の解析等を行い、音声認識に利用する情報を取得する。
[2.本開示の音声認識装置の一実施例の構成と処理について]
次に、図3以下を参照して、本開示の音声認識装置の一実施例の構成と処理について説明する。
図3は、本開示の音声認識装置10の一構成例を示すブロック図である。
図3に示すように、音声認識装置10は、画像処理部110、音声処理部130を有する。
図3に示す画像処理部110の画像入力部111は、図2に示す情報入力部10のカメラ21、あるいはカメラ21の撮影画像を入力する入力部である。なお、入力画像は動画像である。
また、図3に示す音声処理部130の音声入力部131は、図2に示す情報入力部10のマイクロフォン・アレイ22、あるいは、マイクロフォン・アレイ22を構成する各マイクからマイクの取得音を入力する入力部である。
音声処理部130の音声入力部131の取得音は、複数の異なる位置に配置された複数のマイクの取得音である。音源方向推定部132は、この複数マイクの取得音に基づいて音源方向を推定する。
先に図2を参照して説明したように、マイクロフォン・アレイ22を構成するマイクの各々は、取得音の音源方向に応じた位相差を持つ音を取得する。音源方向推定部132は、複数のマイクが取得した位相差を持つ複数の音信号に基づいて音源方向を推定する。
例えば図4に示すように、異なる位置に配置した複数のマイクロフォン1〜4からなるマイクロフォン・アレイ201が、特定方向にある音源202からの音を取得する。マイクロフォン・アレイ201の各マイクに対する音源202からの音の到達時間は少しずつ、ずれることになる。図に示す例では、マイクロフォン1に時間t6で到達した音は、マイクロフォン4には時間t7で到達する。
このように、各マイクロフォンは音源方向に応じて位相差を持った音信号を取得する。この位相差は、音源方向に応じて異なるものとなり、各マイクロフォンの取得した音声信号の位相差を解析することで、音源方向を求めることができる。
なお、このような音源方向解析処理については、例えば特許文献2(特開2006−72163号公報)に記載されている。
なお、本実施例において、音源方向は、図4に示すようにマイクロフォン・アレイのマイクロフォン配列方向に対する垂直ライン203となす角度θによって示すものとする。すなわち、図4に示す垂直方向ライン203に対する角度θを音源方向θ204とする。
音声処理部130の音源方向推定部132は、このように、マイクロフォン・アレイからの音を入力する音声入力部131を介して入力する複数の異なる位置に配置された複数のマイクの取得音に基づいて、音源方向を推定する。
図3に示す音声処理部130の音声区間検出部133は、音源方向推定部132によって推定された特定の音源方向からの音声開始時間と音声終了時間を判定する。
この処理に際しては、マイクロフォン・アレイを構成する複数のマイクロフォンによって取得された位相差を持つ特定音源方向からの入力音の各々に対して、位相差に応じた遅延を付与して、各マイクロフォンの取得音の位相を揃えて各観測信号を総和する処理を行なう。
この処理によって目的音の強調処理が実行される。すなわち、この観測信号総和処理によって特定音源方向の音のみが強調され、その他の周囲の環境音の音レベルを低減させることが可能となる。
音声区間検出部133は、このように複数のマイクロフォンの観測信号の加算信号を用いて、音声レベルの立ち上がり位置を音声区間開始時間と判定し、音声レベルの立下り位置を音声区間終了時間とする音声区間判定処理を行なう。
これら、音声処理部130の音源方向推定部132と音声区間検出部133の処理によって、例えば、図5に示すような解析データを取得することができる。
図5に示す解析データは以下の通りである。
音源方向=0.40radian
音声区間(開始時刻)=5.34sec
音声区間(終了時刻)=6.80sec
音源方向(θ)は、図5を参照して説明したように、マイクロフォン・アレイのマイク配列方向に対する垂直ラインとなす角度(θ)である。
音声区間は、音源方向からの音声の発話区間の開始時刻と終了時刻を示す情報である。
図5に示す例では、
発話開始を示す音声開始時刻が5.34sec、
発話終了を示す音声終了時刻が、6.80sec、
である。なお、測定開始時刻を0とした設定である。
音声信号のみを利用した音声認識処理は従来から利用されている。すなわち、図3に示す画像処理部110を利用せず、音声処理部130のみを利用した音声認識処理を実行するシステムは従来から存在する。
本開示の構成における特徴の1つである画像処理部110を利用した音声認識処理の説明の前に、まず、この音声処理部130のみを利用した一般的な音声認識処理シーケンスについて、図6に示すフローチャートを参照して説明する。
まず、ステップS101において、音源方向を推定する。
この処理は、図3に示す音源方向推定部132において実行される処理であり、例えば、先に図4を参照して説明した処理に従って実行する処理である。
次に、ステップS102において、音声区間を検出する。この処理は、図3に示す音声区間検出部133の実行する処理である。
前述したように、音声区間検出部133は、マイクロフォン・アレイを構成する複数のマイクロフォンによって取得された位相差を持つ特定音源方向からの入力音の各々に対して、位相差に応じた遅延を付与して、各マイクロフォンの取得音の位相を揃えて各観測信号を総和する処理を行なう。この処理によって目的音の強調信号を取得し、強調信号の音声レベルの立ち上がり位置を音声区間開始時間と判定し、音声レベルの立下り位置を音声区間終了時間とする音声区間判定処理を行なう。
次に、ステップS103において、音源波形を抽出する。この処理は、図3に示す音源抽出部135の処理となる。
なお、図6に示すフローは、音声のみを利用した音声認識処理例であり、図3に示す画像処理部110からの入力信号を利用した音源方向・音声区間決定部134の処理は省略した例である。
音声信号のみを利用した処理の場合、図3に示す音声処理部130の音源抽出部135は、図3に示す音声処理部130の音源方向推定部132の推定した音源方向と、音声区間検出部133の検出した音声区間情報のみを利用して、音源抽出処理を実行する。
音源抽出部135は、図6に示すステップS103の音源波形抽出処理を実行する。この音源波形は、音源方向推定部132の推定した音源方向と、音声区間検出部133の検出した音声区間情報に基づいて選択された音声信号を解析対象として周波数レベルの変化等を解析する処理であり、音声認識処理において従来から行われている処理である。
次に、ステップS104において、音声認識処理を実行する。この処理は、図3に示す音声認識部135において実行する処理である。
音声認識部135は、予め登録された様々な発話における周波数変化パターンを登録した辞書データを有する。音声認識部135はこの辞書データを利用し、音源抽出部135が取得音に基づいて解析した取得音の周波数変化パターン等を辞書データと照合し、一致度の高い辞書登録データを選択する。音声認識部136は、選択した辞書データに登録された言葉を発話内容として判定する。
マイクロフォンを利用して取得した音声のみを利用した音声認識を行なう場合のシーケンスは、ほぼこの図6に示すフローに従った処理となる。
しかし、音声のみを利用した処理においては、音源方向の判定や音声区間の解析精度に限界がある。特に目的とする音以外のノイズ(環境音)のレベルが高い場合、音源方向や音声区間の判定精度が低下してしまい、結果として十分な音声認識処理が行えなくなるという問題がある。
本開示の構成は、このような問題を解決するため、図3に示すように画像処理部110を設け、画像処理部110において取得した情報を音声処理部130内の音源方向・音声区間決定部134に出力する構成としている。
音源方向・音声区間決定部134は、音声処理部130の音源方向推定部132の推定した音源方向情報と、音声区間検出部133の検出した音声区間情報に加え、画像処理部110の解析情報を利用して、音源方向と音声区間を決定する処理を行なう。
このように、本開示の音声認識装置では、音声のみならず、画像解析結果を利用して音源方向と音声区間を決定することで、精度の高い音源方向と音声区間を判定することを可能とし、結果として、高精度な音声認識を実現する。
以下、図3に示す音声認識装置の画像処理部110を利用した音声認識処理について説明する。
本開示の音声認識装置における画像処理部110は、図2を参照して説明した情報入力部20の撮像部であるカメラ21の取得した画像を図3に示す画像入力部111が入力し、入力画像を顔領域検出部112と、人領域検出部113に出力する。
なお、カメラ21は動画像を撮影し、連続した撮影された画像フレームを順次出力する。
図3に示す顔領域検出部112は、入力画像の各画像フレームから人の顔領域を検出する。また、人領域検出部113は、入力画像の各画像フレームから人の領域を検出する。これらの領域検出処理は、既存の技術を利用して実行可能な処理である。
例えば、顔領域検出部112は、予め登録された顔の特徴を示す形状データや輝度データからなる顔パターン情報を保持する。顔領域検出部112は、この顔パターン情報を参照情報として、画像フレーム中の画像領域から登録パターンに類似した領域を検出する処理を実行して、画像中の顔領域を検出する。
同様に、人域検出部113も、予め登録された人の特徴を示す形状データや輝度データからなる人パターンを参照情報として、画像フレーム中の画像領域から登録パターンに類似した領域を検出する処理を実行して、画像中の人領域を検出する。
なお、人領域検出部113の実行する人領域検出処理は、人の上半身領域のみの検出処理としてもよい。
顔領域検出部112の顔領域検出情報は、各画像フレームの画像情報とともに、顔方向推定部114と、口唇領域検出部116に入力される。
顔方向推定部114は、顔領域検出部112の検出した画像フレーム中の顔領域に含まれる顔が、図2に示す情報入力部20のカメラ21に対してどの方向を向いているかを判定する。
顔方向推定部114は、顔領域検出部112の検出した顔領域から、目の位置や口の位置など、顔の各パーツの位置を判定し、これらの顔パーツの位置関係に基づいて、顔の向いている方向を推定する。
さらに、顔方向推定部114の推定した顔方向推定情報が視線方向推定部115に出力される。
視線方向推定部115は、顔方向推定部114の推定した顔方向推定情報に基づいて、顔領域に含まれる顔の視線方向を推定する。
顔方向推定部114の推定した顔方向情報、または視線方向推定部115の推定した視線方向情報の少なくともいずれか、あるいは両者の情報からなる顔/視線方向情報121は、音源方向・音声区間決定部134に出力される。
なお、視線方向推定部115を省略し、顔方向情報のみを生成して音源方向・音声区間決定部134に出力する構成としてもよい。また、視線方向推定部115の生成した視線方向情報のみを音源方向・音声区間決定部134に出力する構成としてもよい。
顔方向推定部114の実行する顔方向判定処理と、視線方向推定部115の実行する視線方向判定処理の一例について、図7を参照して説明する。
図7には、
(a)顔方向、視線方向がカメラに対して正面方向であると判定する例
(b)顔方向、視線方向がカメラに対して横方向であると判定する例
これらの2つの例を示している。
顔方向推定部114と視線方向推定部115は、図7に示すように、顔領域に含まれる顔パーツの位置関係に基づいて顔の向きを判定し、顔の向きの方向を視線方向と判定する。
これらの判定処理によって生成された顔方向または視線方向の少なくともいずれかの情報を含む顔/視線方向情報121が、音源方向・音声区間決定部134に出力される。
口唇領域検出部116は、顔領域検出部112の検出した各画像フレーム中の顔領域に含まれる顔の中の口の領域、すなわち口唇領域を検出する。例えば予めメモリに登録された口唇形状パターンを参照情報として、顔領域検出部112の検出した画像フレーム中の顔領域から、登録パターンに類似した領域を口唇領域として検出する。
口唇領域検出部116の検出した口唇領域情報は、口唇動作ベース検出部117に出力される。
口唇動作ベース検出部117は、口唇領域の動きに基づいて、発話区間を推定する。すなわち、口の動きに基づいて、発話を開始した時間(音声区間開始時間)と、発話を終了した時間(音声区間終了時間)を判定する。この判定情報を、口唇動作ベース検出情報122として、音源方向・音声区間決定部134に出力する。
なお、口唇動作に基づく発話区間の解析処理については、例えば特開2012−3326号公報に記載されており、口唇動作ベース検出部117は、例えばこの特開2012−3326号公報に記載された処理を行なって発話区間を判定する。
手領域検出部118は、人領域検出部113の検出した画像フレーム中の人領域に含まれる手の領域を検出する。
発話者には、予め発話開始や発話終了時に実行すべき手のアクションを通知しておく。例えば発話開始時点でグーチョキパーの「パー」を提示する。発話終了時点で「グー」を提示するといった設定である。
手領域検出部118は、この設定情報に従い、発話開始や発話終了を示す手の形状が検出されたか否かを判定する。
手領域検出部118は、例えば予めメモリに登録された手の形状パターンを参照情報として、人領域検出部113の検出した画像フレーム中の人領域から、登録パターンに類似した領域を手領域として検出する。
手領域検出部118の検出した手領域情報は、ポスチャ認識部119と、ジェスチャ認識部120に出力される。
ポスチャ認識部119は、手領域検出部118の検出した連続する画像フレームにおける手領域の姿勢(ポスチャ)を解析し、予め登録された手の姿勢(ポスチャ)が検出されたか否かの判定を行なう。
具体的には、例えば登録姿勢情報としてグーチョキパーの「パー」の登録姿勢(ポスチャ)情報を設定した場合、ポスチャ認識部119は、手領域に含まれる手による「パー」の姿勢を検出する処理を行なう。この検出情報をポスチャ情報123として、音源方向・音声区間決定部134に出力する。
登録情報は、予めユーザに通知された登録情報であり、ユーザは、発話を行なう場合に、この登録された姿勢(ポスチャ)をとる。
なお、具体的な登録姿勢情報の設定例としては、例えば以下のような設定がある。
(1)発話区間の開始時点で「パー」を示す。
(2)発話区間の開始時点で「パー」を示し、終了時点で「パー」を閉じ、「グー」を示す。
(3)発話区間のいずれかの時点で、「パー」を示す。
例えば、上記(1)〜(3)のいずれかの姿勢(ポスチャ)情報を登録情報として設定し、ユーザに通知するものとする。ユーザは登録情報に従って発話タイミングに併せて所定のアクションを行う。音声認識装置は、このアクションに応じて発話区間を検出することが可能となる。
一方、ジェスチャ認識部120は、手領域検出部118の検出した連続する画像フレームにおける手領域の動さ(ジェスチャ)を解析し、予め登録された手の動き(ジェスチャ)が検出されたか否かの判定を行なう。
なお、ここで、ポスチャは手の姿勢、ジェスチャは、手の動作である。
具体的には、例えば登録ジェスチャ情報として、手を挙げるという動作(ジェスチャ)情報を設定した場合、ジェスチャ認識部120は、連続画像フレームの手領域を解析して手を挙げる動作(ジェスチャ)を検出する処理を行なう。この検出情報をジェスチャ情報124として、音源方向・音声区間決定部134に出力する。
登録情報は、予めユーザに通知された登録情報であり、ユーザは、発話を行なう場合に、この登録された動作(ジェスチャ)を行なう。
具体的な登録姿勢情報の設定例としては、例えば以下のような設定がある。
(1)発話区間の開始時点で手を挙げる。
(2)発話区間の開始時点で手を挙げて、終了時点で手を降ろす。
(3)発話区間のいずれかの時点で、手を挙げる。
例えば、上記(1)〜(3)のいずれかの動作(ジェスチャ)情報を登録情報として設定し、ユーザに通知するものとする。ユーザは登録情報に従って発話タイミングに併せて所定のアクションを行う。音声認識装置は、このアクションに応じて発話区間を検出することが可能となる。
ポスチャ認識部119の検出するポスチャ情報123と、ジェスチャ認識部120の検出するジェスチャ情報124を利用した発話区間の判定例について、図8〜図10を参照して説明する。
図8には、情報入力部20のカメラ21の撮影した時間(t1)〜(t4)の連続撮影画像を示している。各画像のユーザは、以下の状態にある。
(t1)手を降ろして閉じている(グー)状態。
(t2)手を挙げて開いている(パー)状態。
(t3)手を挙げて開いている(パー)状態。
(t4)手を降ろして閉じている(グー)状態。
すなわち、ユーザは、手を降ろして閉じた(グー)状態から、手を挙げて開き(パー)、その後、再度、降ろして閉じる(グー)という動作を行なっている。
この動作期間に発話を行なっている。
図8に示す例では、
発話開始時間=t2、
発話終了時間=t4、
であり、
発話区間は、t2〜t4である。
図8に示す例は、
音声認識装置のメモリに登録された登録姿勢(ポスチャ)情報の設定が、
(1)発話区間の開始時点で「パー」を示す。
上記の設定とした例である。ポスチャ認識部119は、ユーザの手によって「パー」が検出された時間(t2)をポスチャ情報123として、音源方向・音声区間決定部134に出力する。
また、音声認識装置のメモリに登録された登録動作(ジェスチャ)情報の設定が、
(1)発話区間の開始時点で手を挙げる。
上記の設定とした例である。ジェスチャ認識部120は、ユーザの手が挙げられたことを検出された時間(t2)をジェスチャ情報124として、音源方向・音声区間決定部134に出力する。
音源方向・音声区間決定部134は、これらのポスチャ情報123、またはジェスチャ情報に従って、時間(t2)を発話開始時間として識別することが可能となる。
図9は、図8と同様、時間(t1)〜(t4)の連続撮影画像を示している。各画像のユーザは、以下の状態にある。
(t1)手を降ろして閉じている(グー)状態。
(t2)手を挙げて開いている(パー)状態。
(t3)手を挙げて開いている(パー)状態。
(t4)手を降ろして閉じている(グー)状態。
すなわち、ユーザは、手を降ろして閉じた(グー)状態から、手を挙げて開き(パー)、その後、再度、降ろして閉じる(グー)という動作を行なっている。
この動作期間に発話を行なっている。
図9に示す例も、図8に示す例と同様、
発話開始時間=t2、
発話終了時間=t4、
であり、
発話区間は、t2〜t4である。
図9に示す例は、
音声認識装置のメモリに登録された登録姿勢(ポスチャ)情報の設定が、
(2)発話区間の開始時点で「パー」を示し、終了時点で「パー」を閉じる。
上記の設定とした例である。ポスチャ認識部119は、ユーザの手によって「パー」が検出された時間(t2)と、「パー」が閉じられた時間(t4)をポスチャ情報123として、音源方向・音声区間決定部134に出力する。
また、音声認識装置のメモリに登録された登録動作(ジェスチャ)情報の設定が、
(2)発話区間の開始時点で手を挙げて、終了時点で手を降ろす。
上記の設定とした例である。ジェスチャ認識部120は、ユーザの手が挙げられた時間(t2)と降ろした時間(t4)をジェスチャ情報124として、音源方向・音声区間決定部134に出力する。
音源方向・音声区間決定部134は、これらのポスチャ情報123、またはジェスチャ情報に従って、時間(t2)を発話開始時間と識別し、さらに時間(t4)を発話終了時間として識別することが可能となる。
図10も、図8、図9と同様、時間(t1)〜(t4)の連続撮影画像を示している。各画像のユーザは、以下の状態にある。
(t1)手を降ろして閉じている(グー)状態。
(t2)手を挙げて閉じている(グー)状態。
(t3)手を挙げて開いている(パー)状態。
(t4)手を降ろして閉じている(グー)状態。
すなわち、ユーザは、手を降ろして閉じた状態(グー)から、手を挙げて開き(パー)、その後、再度、降ろして閉じる(グー)という動作を行なっている。
この動作期間に発話を行なっている。
図10に示す例も、図8、図9に示す例と同様、
発話開始時間=t2、
発話終了時間=t4、
であり、
発話区間は、t2〜t4である。
図10に示す例は、
音声認識装置のメモリに登録された登録姿勢(ポスチャ)情報の設定が、
(2)発話区間のいずれかの時点で「パー」を示す。
上記の設定とした例である。ポスチャ認識部119は、ユーザの手によって「パー」が検出された時間(t3)をポスチャ情報123として、音源方向・音声区間決定部134に出力する。
また、音声認識装置のメモリに登録された登録動作(ジェスチャ)情報の設定が、
(2)発話区間のいずれかの時点で手を挙げる。
上記の設定とした例である。ジェスチャ認識部120は、ユーザの手が挙げられた時間(t2)をジェスチャ情報124として、音源方向・音声区間決定部134に出力する。
音源方向・音声区間決定部134は、これらのポスチャ情報123、またはジェスチャ情報に従って、時間(t2)を発話区間内の時間として識別することが可能となる。
本開示の音声認識装置の実行する処理の特徴の1つは、音声区間(発話区間)の判定処理に複数の異なる情報を適用可能としたことであり、さらに、音声区間の開始位置(時間)と音声区間の終了位置(時間)を異なる情報に基づいて判定する点にある。
本開示の音声認識装置の実行する音声区間(発話区間)の判定処理態様について、図11を参照して説明する。
図11は、本開示の音声認識装置が音声区間検出処理のために取得する情報の種類と、各情報の利用例を示している。すなわち、
(1)音声区間検出に適用する情報の種類
(2)音声区間検出における利用情報の組み合わせ例
これらの一覧を示している。
なお、音声区間検出処理は、図3に示す音源方向・音声区間決定部134において実行する処理である。
図11の(1)音声区間検出に適用する情報の種類に示すように、
本開示の音声認識装置は、音声区間の検出に適用する情報として、以下の情報を利用可能な構成を持つ。
(A)ポスチャまたはジェスチャ情報
(B)口唇動作情報
(C)音声情報
図3に示す音声処理部130内の音源方向・音声区間決定部134は、これらの各情報を選択的に利用して、音声区間を決定する。
(A)ポスチャまたはジェスチャ情報は、図3に示す装置構成において示す画像処理部110内のポスチャ認識部119の生成するポスチャ情報123と、ジェスチャ認識部120の生成するジェスチャ情報124に対応する情報である。
(B)口唇動作情報は、図3に示す画像処理部110内の口唇動作ベース検出部117の生成する口唇動作ベース検出情報122に対応する情報である。
(C)音声情報は、図3に示す音声処理部130内の音声区間検出部133の生成する音声区間情報に対応する情報である。
図3に示す音声処理部130内の音源方向・音声区間決定部134は、これらの各情報を選択的に利用して、音声区間を決定する。
具体的な情報利用例を示したのが、図11(2)音声区間検出における利用情報の組み合わせ例である。具体的には、例えば、以下のような情報の組み合わせで、音声区間検出を実行する。
(セット1)
音声区間の開始位置(時間)判定に(A)ポスチャまたはジェスチャ情報を適用し、
音声区間の終了位置(時間)判定に(B)口唇動作情報を適用する。
(セット2)
音声区間の開始位置(時間)判定に(A)ポスチャまたはジェスチャ情報を適用し、
音声区間の終了位置(時間)判定に(C)音声情報を適用する。
(セット3)
音声区間の開始位置(時間)判定に(B)口唇動作情報を適用し、
音声区間の終了位置(時間)判定に(C)音声情報を適用する。
このように、本開示の音声認識装置は、音声区間開始位置の判定と音声区間終了位置の判定に適用する情報を異なる情報としている。
なお、図11(2)に示す例は、一部の例であり、この他の組み合わせも可能であり、さらに、例えば音声区間の開始位置や終了位置の判定に複数の情報を併せて適用する構成としてもよい。
例えば、音声区間開始位置の判定に(A)ポスチャまたはジェスチャ情報と(C)音声情報の2つの情報を適用し、音声区間終了位置の判定に(B)口唇動作情報と(C)音声情報の2つの情報を適用する設定等、様々な情報の組み合わせとした設定としてもよい。
次に、図12に示すフローチャートを参照して本開示の音声認識装置の実行する音源方向と音声区間の決定処理シーケンスについて説明する。
この図12に示す処理は、図3に示す画像処理部110と音声処理部130を有する音声認識装置が実行する処理である。
なお、この処理は、例えばプログラム実行機能を持つCPU等を有するデータ処理部の制御の下で図12に示すフローに従った処理シーケンスを記録したプログラムをメモリから読み出して実行することが可能である。
図12に示す処理フローに示す各ステップの処理について、順次説明する。
(ステップS201)
まず、ステップS201において、音声情報に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図3に示す音声処理部130の音源方向推定部132と、音声区間検出部133の実行する処理である。
この処理は、先に図4〜図6を参照して説明した音声のみに基づく音源方向と音声区間の検出処理に相当する。
(ステップS202)
ステップS202において、ポスチャ認識結果またはジェスチャ認識結果に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図3に示す画像処理部110のポスチャ認識部119の生成するポスチャ情報123、またはジェスチャ認識部120の生成するジェスチャ情報124に基づいて音源方向・音声区間決定部134が音源方向と音声区間を検出する処理である。
この処理は、先に図8〜図10を参照して説明したポスチャ情報またはジェスチャ情報を適用した音源方向と音声区間の検出処理に相当する。
なお、音源方向については、ポスチャまたはジェスチャを検出したユーザの画像位置に基づいて決定する。
この画像を適用した音源方向判定処理例について、図13を参照して説明する。
図13は、音声認識装置を備えたテレビに対して、3つの異なる位置(a)〜(c)にユーザが位置する場合に、情報入力部のカメラの撮影した画像、すなわち撮影画像a〜cの例を示している。
各撮影画像a〜cに示すユーザは、ポスチャまたはジェスチャの検出されたユーザである。
ユーザが図13に示す(a)の位置、すなわち、テレビから見て左側の位置にいるときは、撮影画像aに示すように、ユーザは撮影画像aの左側に出力される。
この撮影画像aのように、画像中の左側にユーザが検出された場合は、音源方向は、テレビ(音声認識装置)の左前方であると判定することができる。
このように、音源方向・音声区間決定部134は、撮影画像を取得し、撮影画像内のユーザ表示位置に基づいて音源方向を判定する。なお、ユーザは、ポスチャまたはジェスチャの検出されたユーザである。
ユーザが図13に示す(b)の位置、すなわち、テレビから見て中央の位置にいるときは、撮影画像bに示すように、ユーザは撮影画像bの中央に出力される。
この撮影画像bのように、画像中の中央にユーザが検出された場合は、音源方向は、テレビ(音声認識装置)の正面前方向であると判定することができる。
このように、音源方向・音声区間決定部134は、撮影画像を取得し、撮影画像内のユーザ表示位置に基づいて音源方向を判定する。なお、ユーザは、ポスチャまたはジェスチャの検出されたユーザである。
さらに、ユーザが図13に示す(c)の位置、すなわち、テレビから見て右側の位置にいるときは、撮影画像cに示すように、ユーザは撮影画像cの右側に出力される。
この撮影画像cのように、画像中の右側にユーザが検出された場合は、音源方向は、テレビ(音声認識装置)の右前方であると判定することができる。
このように、音源方向・音声区間決定部134は、撮影画像を取得し、撮影画像内のユーザ表示位置に基づいて音源方向を判定する。なお、ユーザは、ポスチャまたはジェスチャの検出されたユーザである。
このようにして、音源方向・音声区間決定部134は、撮影画像に基づいて、ポスチャまたはジェスチャを検出したユーザの位置を判断し、画像に基づいて音源方向を決定することができる。
(ステップS203)
ステップS203において、口唇動作に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図3に示す画像処理部110の口唇動作ベース検出部117の生成する口唇動作ベース検出情報122の生成処理に相当する。
先に説明したように、口唇動作ベース検出部117は、口唇領域の動きに基づいて、発話区間を推定する。すなわち、口の動きに基づいて、発話を開始した時間(音声区間開始時間)と、発話を終了した時間(音声区間終了時間)を判定する。この判定情報を、口唇動作ベース検出情報122として、音源方向・音声区間決定部134に出力する。なお、前述したように、口唇動作に基づく発話区間の解析処理については、例えば特開2012−3326号公報に記載されており、口唇動作ベース検出部117は、例えばこの特開2012−3326号公報に記載された処理を適用する。
また、音源方向については、口唇動作検出したユーザの画像位置に基づいて決定する。この画像を適用した音源方向判定処理は、図13を参照して説明した処理と同様の処理である。
ただし、このステップS203の処理を適用する場合、図13に示す各撮影画像a〜cに示すユーザは、口唇動作の検出されたユーザである。
なお、基本的に、図12に示すフローのステップS201〜S203の処理の各々は、いずれも、
(a)音声区間開始位置情報と音源方向情報、
(b)音声区間終了位置情報と音源方向情報、
これらの情報の組み合わせのいずれかの情報セットを生成して、音源方向・音声区間決定部134に出力する処理として実行される。
なお、ステップS201〜S203の処理は、いずれも図3に示す音源方向・音声区間決定部134を利用して実行される。音源方向・音声区間決定部134は、音声区間出力部133や、画像処理部110の各処理部からの出力される情報を入力した順に、順次、処理を実行する。
(ステップS204)
ステップS204において、顔方向または視線方向を推定する。この処理は、図3に示す画像処理部110の顔方向推定部114と視線方向推定部115の実行する処理であり、図3に示す顔/視線方向情報121の生成処理に相当する。
先に図7を参照して説明した通り、顔方向推定部114と視線方向推定部115は、図7に示すように、顔領域に含まれる顔パーツの位置関係に基づいて顔の向きを判定し、顔の向きの方向を視線方向と判定する。
これらの判定処理によって生成された顔方向または視線方向の少なくともいずれかの情報を含む顔/視線方向情報121が、音源方向・音声区間決定部134に出力される。
(ステップS205)
次のステップS205の処理は、図3に示す音声処理部130内の音源方向・音声区間決定部134において実行する処理である。
図3に示すように、音源方向・音声区間決定部134は、以下の情報を入力する。
(1)音声処理部130内の音源方向推定部132と音声区間検出部133の生成した音声に基づく音源方向と音声区間情報(=ステップS201における検出情報)、
(2)画像処理部110内のポスチヤ認識部119の生成するポスチャ情報123と、ジェスチャ認識部120の生成するジェスチャ情報124(=ステップS202における検出情報)、
(3)画像処理部110内の口唇動作ベース検出部117の生成する口唇動作ベース検出情報122(=ステップS203における検出情報)、
(4)画像処理部110内の顔方向推定部114と視線方向推定部115の生成する顔/視線方向情報121(=ステップS204における検出情報)、
音源方向・音声区間決定部134は、上記(1)〜(4)の情報を入力する。
ただし、これらの情報は、各処理部において検出処理に成功した場合にのみ、その検出タイミングで各処理部から音源方向・音声区間決定部134に出力される。
すなわち、上記(1)〜(4)の各検出情報は、同一のタイミングで一斉に音源方向・音声区間決定部134に対して出力されるものではなく、各処理部の検出処理に成功した時点で、個別に出力される。
具体的には、例えば、いずれかの処理部において音声区間開始位置の検出に成功した場合に、その音声区間開始位置情報がその処理部から音源方向・音声区間決定部134に出力される。
また、いずれかの処理部において、音声区間終了位置の検出に成功した場合に、その音声区間終了位置情報がその処理部から音源方向・音声区間決定部134に出力される。
なお、前述したように、基本的に図12に示すフローのステップS201〜S203の処理に際しては、
(a)音声区間開始位置情報と音源方向情報、
(b)音声区間終了位置情報と音源方向情報、
これらの情報の組み合わせのいずれかを生成して、音源方向・音声区間決定部134に出力する処理を行なう。
ステップS204の処理においては、顔方向または視線方向の少なくともいずれかの検出に成功した場合に、顔方向情報または視線方向情報の少なくともいずれかの情報が、音源方向・音声区間決定部134に出される。
ステップS205において、音源方向・音声区間決定部134は、まず、各処理部からの入力情報が、
(a)音声区間開始位置情報と音源方向情報、
(b)音声区間終了位置情報と音源方向情報、
これら(a),(b)のいずれかの情報を含むか否かを判定する。
入力情報中に上記(a),(b)のいずれかの情報を含むと判定した場合は、ステップS206に進み、(a),(b)いずれの情報も含まない場合は、ステップS201〜S204の検出処理に戻り、情報入力を待機する。
(ステップS206)
ステップS205において、音源方向・音声区間決定部134は、各処理部からの入力情報に、
(a)音声区間開始位置情報と音源方向情報、
(b)音声区間終了位置情報と音源方向情報、
これら(a),(b)のいずれかの情報を含むと判定すると、ステップS206において、入力情報の種類に応じて音声認識対象とする音源方向と音声区間を決定する処理を行なう。
すなわち、音源方向・音声区間決定部134は、まず、入力した情報が、
(a)音声区間開始位置情報と音源方向情報、または、
(b)音声区間終了位置情報と音源方向情報、
これら(a),(b)いずれかの情報を含むことを確認する。
次に、入力情報である上記(a)、または(b)の情報が、
(1)音声情報
(2)ポスチャ情報またはジェスチャ情報
(3)口唇動作
これらのいずれの情報に基づいて取得されたかを確認する。
さらに、この確認結果に基づいて、音声認識対象とする音源方向と音声区間を決定する処理を行なう。
このステップS206の処理の詳細については、図14以下を参照して後段で詳細に説明する。
(ステップS207)
ステップS207の処理は、音源方向・音声区間決定部134において、音源方向と音声区間が決定されたか否かを判定する処理である。
この場合の音源方向と音声区間とは、音声認識処理対象とする音源方向と、音声区間であり、音声区間には、「音声区間開始位置」と、「音声区間終了位置」の双方を含む。
なお、ステップS207において、音源方向と音声区間が決定された場合、決定されたことをユーザに対して通知する処理を行なってもよい、
例えば決定されたことを示す音を、スピーカを介して出力する、あるいは決定されたことを示すアイコン等の画像を表示部に出力するといった処理を行なってもよい。
また、本開示の処理では、ステップS201〜S203の各処理において、それぞれ異なる検出手段によって、音源方向、音声区間の検出を実行する。これらの各種の検出処理が実行されて検出結果が得られた場合にユーザに通知する構成としてもよい。すなわち、どの検出方法によって、音源方向、音声区間の検出がなされたかを区別可能な音やアイコンを出力する構成として、ユーザに音源方向、音声区間が、どの方法によって検出されたかを示す通知を行なう構成としてもよい。
[3.音源方向と音声区間の決定処理例について]
次に、図12に示すフローチャートにおけるステップS206の処理の詳細シーケンスについて説明する。
この処理の詳細シーケンスの2つの例について、図14に示すフローチャートと、図17に示すフローチャートを参照して説明する。
図12に示すフローのステップS206の処理は、図3に示す音源方向・音声区間決定部134の実行する処理である。
このステップS206の処理は、音源方向と音声区間の検出に適用した情報が、
(1)音声情報
(2)ポスチャ情報またはジェスチャ情報
(3)口唇動作
上記(1)〜(3)のいずれの情報に基づいて取得されたかを考慮して音声認識対象とする音源方向と音声区間を決定する処理である。
図14に示すフローは、音声区間の開始位置情報が、「ポスチャ情報またはジェスチャ情報」に基づいて取得された場合の詳細処理シーケンスを説明するフローである。
また、図17に示すフローは、音声区間の開始位置情報が、「口唇動作情報」に基づいて取得された場合の詳細処理シーケンスを説明するフローである。
[3−1.音源方向と音声区間の決定処理例1]
まず、図14に示すフローチャートに従って、音声区間の開始位置情報が、「ポスチャ情報またはジェスチャ情報」に基づいて取得された場合の詳細処理シーケンスについて説明する。
(ステップS301)
まず、ステップS301において、図3に示す音源方向・音声区間決定部134は、入力した検出情報が、図3に示す音声認識装置のポスチャ認識部119の生成したポスチャ情報123かジェスチャ認識部120の生成したジェスチャ情報124であるか、あるいはその他の情報であるかを判定する。
入力検出情報が、「ポスチャ情報またはジェスチャ情報」である場合は、ステップS302に進む。
一方、入力検出情報が、「ポスチャ情報またはジェスチャ情報」でない場合は、ステップS304に進む。
(ステップS302)
音源方向・音声区間決定部134に入力した情報が「ポスチャ情報またはジェスチャ情報」である場合は、音源方向・音声区間決定部134は、さらに、ステップS302において、入力検出情報に音声区間開始位置(時間)情報が含まれるか否かを判定する。
入力検出情報に音声区間開始位置(時間)情報が含まれる場合は、ステップS303に進む。
一方、入力検出情報に音声区間開始位置(時間)情報が含まれない場合は、ステップS301に戻る。
(ステップS303)
入力検出情報に音声区間開始位置(時間)情報が含まれる場合は、音源方向・音声区間決定部134は、ステップS303において、入力情報である「ポスチャ情報またはジェスチャ情報」に基づいて取得される「音声区間の開始位置(時間)情報」と、「音源方向情報」をメモリに格納する。
なお、この「ポスチャ情報またはジェスチャ情報」に基づいて取得される「音声区間開始位置(時間)情報」と、「音源方向情報」を[検出情報A]とする。
すなわち、[検出情報A]は、以下の情報である。
[検出情報A=ポスチャ情報またはジェスチャ情報ベースの音声区間開始位置(時間)情報と音源方向情報]
(ステップS304)
ステップS301において、音源方向・音声区間決定部134に入力した情報が「ポスチャ情報またはジェスチャ情報」でないと判定した場合は、音源方向・音声区間決定部134は、ステップS304において、入力した検出情報が、図3に示す音声認識装置の口唇動作ベース検出部117の生成した口唇動作ベース検出情報122であるか、あるいはその他の情報であるかを判定する。
入力検出情報が、「口唇動作ベース検出情報」である場合は、ステップS306に進む。
一方、入力検出情報が、「口唇動作ベース検出情報」でない場合は、ステップS305に進む。
(ステップS305)
ステップS304において、音源方向・音声区間決定部134に入力した検出情報が、「口唇動作ベース検出情報」でないと判定した場合は、音源方向・音声区間決定部134は、ステップS305において、入力した検出情報が、図3に示す音声認識装置の音声処理部130の音声区間検出部133の生成した「音声ベースの検出情報」であるか、あるいはその他の情報であるかを判定する。
入力検出情報が、音声区間検出部133の生成した「音声ベースの検出情報」である場合は、ステップS306に進む。
一方、入力検出情報が、音声区間検出部133の生成した「音声ベースの検出情報」でない場合は、ステップS301に戻る。
(ステップS306)
次に、音源方向・音声区間決定部134は、ステップS306において、音源方向・音声区間決定部134に入力した検出情報から得られた検出音声区間情報に音声区間終了位置(時間)が含まれ、かつ、メモリに、[検出情報A]、すなわち、
[検出情報A=ポスチャ情報またはジェスチャ情報ベースの音声区間開始位置(時間)情報と音源方向情報]
この[検出情報A]が格納済みであるか否かを判定する。
なお、ステップS306に進む条件は、
(a)ステップS301の判定がNo、
(b)ステップS304またはステップS305の判定がYes、
上記(a),(b)の条件が満足された場合のみである。
すなわち、
(a)ステップS301の判定がNo=検出された音声区間情報が「ポスチャまたはジェスチャ情報」に基づくものでない。
(b)ステップS304またはステップS305の判定がYes=検出された音声区間情報が「口唇動作情報」、または「音声情報」に基づくものである。
これらの2つの条件を満たす場合である。
ステップS306では、以下の2つの条件を満たすか否かを判定することになる。
(条件1)ステップS304またはステップS305においてYesと判定された「口唇動作情報」、または「音声情報」によって検出された音声区間情報が音声区間終了位置(時間)を示すものであること。
(条件2)すでに、メモリに、以下の[検出情報A]が格納されていること、
[検出情報A=ポスチャ情報またはジェスチャ情報ベースの音声区間開始位置(時間)情報と音源方向情報]
すなわち、
音声区間開始位置情報として、「ポスチャまたはジェスチャ情報」に基づく情報が取得されてメモリに格納済みであり、
音声区間終了位置情報として、「口唇動作情報」、または「音声情報」に基づく情報が得られたこと、
これらが確認された場合に、ステップS306の判定がYesとなる。
これらの条件の確認処理は、音声区間開始位置と終了位置の適用情報の組み合わせ(セット)が、先に図11(2)を参照して説明した、(セット1)、または(セット2)、これらのいずれかに対応することの確認処理に相当する。
すなわち、
(セット1)
音声区間の開始位置(時間)判定に(A)ポスチャまたはジェスチャ情報を適用し、
音声区間の終了位置(時間)判定に(B)口唇動作情報を適用したセット。
(セット2)
音声区間の開始位置(時間)判定に(A)ポスチャまたはジェスチャ情報を適用し、
音声区間の終了位置(時間)判定に(C)音声情報を適用したセット。
これらのいずれかに対応することの確認処理に相当する。
ステップS306において、上記条件を満足すると判定した場合は、ステップS307に進み、満足しないと判定した場合は、ステップS301に戻る。
(ステップS307)
ステップS307において、音源方向・音声区間決定部134は、以下の判定処理を実行する。
(a)音声区間終了位置情報とともに取得した音源方向情報
(b)音声区間開始位置情報とともに取得した音源方向情報、
これら2つの音源方向情報が一致するか否かを判定する。
一致した場合は、ステップS309に進み、不一致の場合はステップS308に進む。
なお、一致判定は、完全一致のみならず、予め設定した誤差、例えば、先に図4、図5を参照して説明した音源方向を示す角度(θ)に対して10%程度の誤差範囲であれば一致であると判定する処理を行なう。
このステップS307の判定処理は、
「ポスチャまたはジェスチャ情報」に基づく音声開始位置情報に併せて取得した音源方向情報と、
「口唇動作情報」、または「音声情報」に基づく音声終了位置情報に併せて取得した音源方向情報が一致するか否かを判定する処理である。
すなわち、全く異なる情報を適用して得られた音声区間開始位置(時間)と、音声区間終了位置(時間)の2つの異なるタイミングで得られた音源方向が一致するか否かを確認するものである。
一致した場合は、その音声区間は、特定の1人のユーザによって発せられた発話である可能性が高く、音声認識対象として選択すべき音声区間であると判定し、ステップS309に進む。
一方、ステップS307において、これら2つの音源方向が不一致であると判定した場合は、ステップS308に進む。これは、異なる情報を適用して得られた音声区間開始位置(時間)と、音声区間終了位置(時間)の2つの異なるタイミングで得られた音源方向が不一致の場合である。このような音声区間は、同一発話者による発話に対応する正しい音声区間でない可能性があり、さらに、以下のステップS308の処理を行なって、音声認識対象とするか否かの最終判断を行なう、
(ステップS308)
ステップS308は、ステップS307において、音声区間開始位置の検出処理に際して検出された音源方向と、音声区間終了位置の検出に際して検出された音源方向が一致していないと判定された場合に実行される処理である。
ステップS308では、顔方向または視線方向が予め規定した範囲内にあるか否かを判定する。
この処理は、図3に示す画像処理部110内の顔方向判定部114、視線方向判定部115の生成する顔/視線方向情報121に基づいて実行する処理である。
音源方向・音声区間決定部134は、解析対象としている音声区間内、あるいはその音声区間に最も近い時間に取得された顔/視線方向情報121を用いて、解析対象とする音声の音源と推定されるユーザの顔方向または視線方向が予め規定した範囲内にあるか否かを判定する。
この判定処理例について、図15、図16を参照して説明する。
図15は、判定対象とするユーザの顔方向または視線方向が水平方向に変化した場合の例を示した図である。
また、図16は、判定対象とするユーザの顔方向または視線方向が垂直方向に変化した場合の例を示した図である。
まず、図15を参照して、判定対象とするユーザの顔方向または視線方向が水平方向に変化した場合の例について説明する。
図15には、以下の2つの例を示している。
(a)顔方向(または視線方向)が予め規定した規定範囲内の場合
(b)顔方向(または視線方向)が予め規定した規定範囲外の場合
規定範囲は、例えば、図に示すように音声認識装置を持つテレビに対するユーザの顔(視線)の向いている角度によって規定される。
ユーザの顔方向または視線方向が、テレビに対して垂直方向(正面向き)から所定の範囲にある場合に顔方向または視線方向が規定範囲内であると判定する。
図には、テレビに設置された情報入力部のカメラによって撮影された画像の例を示している。
(a)に示す例は、顔方向(または視線方向)が規定範囲内の場合であり、カメラの撮影画像には、正面向きのユーザが撮影されている。
一方、(b)に示す例は、顔方向(または視線方向)が規定範囲外の場合であり、カメラの撮影画像には、横向きのユーザが撮影されている。
規定範囲情報は、予め設定されメモリに格納された情報であり、音源方向・音声区間決定部134は、顔方向推定部114、視線方向推定部115の生成した顔/視線方向情報121を入力して、規定範囲情報と比較し、ユーザの顔方向または視線方向が規定範囲内であるか規定範囲外であるかを判定する。
図16は、判定対象とするユーザの顔方向または視線方向が垂直方向に変化した場合の例を示している。。
図16にも、図15と同様、以下の2つの例を示している。
(a)顔方向(または視線方向)が規定範囲内の場合
(b)顔方向(または視線方向)が規定範囲外の場合
規定範囲は、図に示すように、音声認識装置を持つテレビに対するユーザの顔(視線)の向いている角度によって規定される。
ユーザの顔方向または視線方向が、テレビに対して垂直方向(正面向き)から所定の範囲にある場合に顔方向または視線方向が規定範囲内であると判定する。
図16にも、図15と同様、テレビに設置された情報入力部のカメラによって撮影された画像の例を示している。
(a)に示す例は、顔方向(または視線方向)が規定範囲内の場合であり、カメラの撮影画像には、正面向きのユーザが撮影されている。
一方、(b)に示す例は、顔方向(または視線方向)が規定範囲外の場合であり、カメラの撮影画像には、下向きのユーザが撮影されている。
図15、図16に示すように、規定範囲情報は、水平方向のみならず、垂直方向についても考慮した三次元的な情報である。
この三次元的規定範囲情報は、予め設定されメモリに格納された情報である。
音源方向・音声区間決定部134は、顔方向推定部114、視線方向推定部115の生成した顔/視線方向情報121を入力して、規定範囲情報との比較を三次元的に実行し、ユーザの顔方向または視線方向が水平方向、垂直方向ともに規定範囲内であるか規定範囲外であるかを判定する。
音源方向・音声区間決定部134は、ステップS308において、ユーザの顔方向または視線方向が水平方向、垂直方向ともに規定範囲内であると判定した場合は、ステップS309に進む。
この場合、音声区間が検出された音声情報が音声認識対象として選択されることになる。
一方、規定範囲外であると判定した場合は、ステップS308における判定はNoとなり、ステップS301に戻る。
この場合、音声区間が検出された音声情報は音声認識対象として選択されず破棄されることになる。
(ステップS309)
このステップS309は、取得した音声区間情報と音源方向情報を持つ音声を音声認識対象として決定する処理である。
この音声認識対象としての決定は、以下のいずれかの条件を満足する場合に実行される。
(条件1)ステップS307の判定がYes、すなわち音声区間開始位置検出時の音源方向と音声区間終了位置検出時の音源方向が一致した場合。
(条件2)上記の音源方向が不一致と判定されたが、顔方向または視線方向が規定範囲内であると判定された場合。
音源方向・音声区間決定部134は、上記条件1または2のいずれかを満足する場合、取得した音声区間情報と音源方向情報を持つ音声を音声認識対象として決定する。
この決定処理において決定した音声情報が、図3に示す音声処理部130内の音源抽出部135に出力され、音源抽出処理が実行される。さらに、音源抽出結果が音声認識部136に出力され音声認識処理が実行されることになる。
[3−2.音源方向と音声区間の決定処理例2]
次に、図12に示すフローのステップS206の処理のもう1つの処理例について図17に示すフローチャートを参照して説明する。
前述したように、図12に示すフローのステップS206の処理は、音源方向と音声区間の検出に適用した情報が、
(1)音声情報
(2)ポスチャ情報またはジェスチャ情報
(3)口唇動作
上記(1)〜(3)のいずれの情報に基づいて取得されたかを考慮して音声認識対象とする音源方向と音声区間を決定する処理である。
図17に示すフローチャートは、音声区間の開始位置情報が、「口唇動作情報」に基づいて取得された場合の詳細処理を示すフローチャートである。
以下、このフローの各ステップの処理について、順次、説明する。
(ステップS401)
まず、ステップS401において、図3に示す音源方向・音声区間決定部134は、入力した検出情報が、図3に示す音声認識装置の口唇動作ベース検出部117の生成した口唇動作ベース検出情報122であるか、あるいはその他の情報であるかを判定する。
入力検出情報が、「口唇動作情報」である場合は、ステップS402に進む。
一方、入力検出情報が、「口唇動作情報」でない場合は、ステップS404に進む。
(ステップS402)
音源方向・音声区間決定部134に入力した情報が「口唇動作情報」である場合は、音源方向・音声区間決定部134は、さらに、ステップS402において、入力検出情報に音声区間開始位置(時間)情報が含まれるか否かを判定する。
入力検出情報に音声区間開始位置(時間)情報が含まれる場合は、ステップS403に進む。
一方、入力検出情報に音声区間開始位置(時間)情報が含まれない場合は、ステップS401に戻る。
(ステップS403)
入力検出情報に音声区間開始位置(時間)情報が含まれる場合は、音源方向・音声区間決定部134は、ステップS403において、入力情報である「口唇動作情報」に基づいて取得される「音声区間の開始位置(時間)情報」と、「音源方向情報」をメモリに格納する。
なお、この「口唇動作情報」に基づいて取得される「音声区間開始位置(時間)情報」と、「音源方向情報」を[検出情報B]とする。
すなわち、[検出情報B]は、以下の情報である。
[検出情報B=口唇動作情報ベースの音声区間開始位置(時間)情報と音源方向情報]
(ステップS404)
ステップS401において、音源方向・音声区間決定部134に入力した情報が「口唇動作情報」でないと判定した場合は、音源方向・音声区間決定部134は、ステップS404において、入力した検出情報が、図3に示す音声認識装置の音声処理部130の音声区間検出部133の生成した「音声ベースの検出情報」であるか、あるいはその他の情報であるかを判定する。
入力検出情報が、音声区間検出部133の生成した「音声ベースの検出情報」である場合は、ステップS405に進む。
一方、入力検出情報が、音声区間検出部133の生成した「音声ベースの検出情報」でない場合は、ステップS401に戻る。
(ステップS405)
次に、音源方向・音声区間決定部134は、ステップS405において、音源方向・音声区間決定部134に入力した検出情報から得られた検出音声区間情報に音声区間終了位置(時間)が含まれ、かつ、メモリに、[検出情報B]、すなわち、
[検出情報B=口唇動作情報ベースの音声区間開始位置(時間)情報と音源方向情報]
この[検出情報B]が格納済みであるか否かを判定する。
なお、ステップS405に進む条件は、
(a)ステップS401の判定がNo、
(b)ステップS404の判定がYes、
上記(a),(b)の条件が満足された場合のみである。
すなわち、
(a)ステップS401の判定がNo=検出された音声区間情報が「口唇動作情報」に基づくものでない。
(b)ステップS404の判定がYes=検出された音声区間情報が「音声情報」に基づくものである。
これらの2つの条件を満たす場合である。
ステップS405では、以下の2つの条件を満たすか否かを判定することになる。
(条件1)ステップS404においてYesと判定された「音声情報」によって検出された音声区間情報が音声区間終了位置(時間)を示すものであること。
(条件2)すでに、メモリに、以下の[検出情報B]が格納されていること、
[検出情報B=口唇動作情報ベースの音声区間開始位置(時間)情報と音源方向情報]
すなわち、
音声区間開始位置情報として、「口唇動作情報」に基づく情報が取得されてメモリに格納済みであり、
音声区間終了位置情報として、「音声情報」に基づく情報が得られたこと、
これらが確認された場合に、ステップS405の判定がYesとなる。
これらの条件の確認処理は、音声区間開始位置と終了位置の適用情報の組み合わせ(セット)が、先に図11(2)を参照して説明した(セット3)に対応することの確認処理に相当する。すなわち、
(セット3)
音声区間の開始位置(時間)判定に(B)口唇動作情報を適用し、
音声区間の終了位置(時間)判定に(C)音声情報を適用したセットに対応することの確認処理に相当する。
ステップS405において、上記条件を満足すると判定した場合は、ステップS406に進み、満足しないと判定した場合は、ステップS401に戻る。
(ステップS406)
ステップS406において、音源方向・音声区間決定部134は、以下の判定処理を実行する。
(a)音声区間終了位置情報とともに取得した音源方向情報
(b)音声区間開始位置情報とともに取得した音源方向情報、
これら2つの音源方向情報が一致するか否かを判定する。
一致した場合は、ステップS408に進み、不一致の場合はステップS407に進む。
なお、一致判定は、完全一致のみならず、予め設定した誤差、例えば、先に図4、図5を参照して説明した音源方向を示す角度(θ)に対して10%程度の誤差範囲であれば一致であると判定する処理を行なう。
このステップS406の判定処理は、
「口唇動作情報」に基づく音声開始位置情報に併せて取得した音源方向情報と、
「音声情報」に基づく音声終了位置情報に併せて取得した音源方向情報が一致するか否かを判定する処理である。
すなわち、全く異なる情報を適用して得られた音声区間開始位置(時間)と、音声区間終了位置(時間)の2つの異なるタイミングで得られた音源方向が一致するか否かを確認するものである。
一致した場合は、その音声区間は、特定の1人のユーザによって発せられた発話である可能性が高く、音声認識対象として選択すべき音声区間であると判定し、ステップS408に進む。
一方、ステップS406において、これら2つの音源方向が不一致であると判定した場合は、ステップS407に進む。これは、異なる情報を適用して得られた音声区間開始位置(時間)と、音声区間終了位置(時間)の2つの異なるタイミングで得られた音源方向が不一致の場合である。このような音声区間は、同一発話者による発話に対応する正しい音声区間でない可能性があり、さらに、以下のステップS407の処理を行なって、音声認識対象とするか否かの最終判断を行なう、
(ステップS407)
ステップS407は、ステップS406において、音声区間開始位置の検出処理に際して検出された音源方向と、音声区間終了位置の検出に際して検出された音源方向が一致していないと判定された場合に実行される処理である。
ステップS407では、顔方向または視線方向が予め規定した範囲内にあるか否かを判定する。
この処理は、図3に示す画像処理部110内の顔方向判定部114、視線方向判定部115の生成する顔/視線方向情報121に基づいて実行する処理である。
音源方向・音声区間決定部134は、解析対象としている音声区間内、あるいはその音声区間に最も近い時間に取得された顔/視線方向情報121を用いて、解析対象とする音声の音源と推定されるユーザの顔方向または視線方向が予め規定した範囲内にあるか否かを判定する。
この判定処理は、図14に示すフローのステップS308の処理と同様の処理であり、先に図15、図16を参照して説明した処理と同じである。
音源方向・音声区間決定部134は、ステップS407において、ユーザの顔方向または視線方向が水平方向、垂直方向ともに規定範囲内であると判定した場合は、ステップS408に進む。
この場合、音声区間が検出された音声情報が音声認識対象として選択されることになる。
一方、規定範囲外であると判定した場合は、ステップS407の判定はNoとなり、ステップS401に戻る。
この場合、音声区間が検出された音声情報は音声認識対象として選択されず破棄されることになる。
(ステップS408)
このステップS408は、取得した音声区間情報と音源方向情報を持つ音声を音声認識対象として決定する処理である。
この音声認識対象としての決定は、以下のいずれかの条件を満足する場合に実行される。
(条件1)ステップS406の判定がYes、すなわち音声区間開始位置検出時の音源方向と音声区間終了位置検出時の音源方向が一致した場合。
(条件2)上記の音源方向が不一致と判定されたが、顔方向または視線方向が規定範囲内であると判定された場合。
音源方向・音声区間決定部134は、上記条件1または2のいずれかを満足する場合、取得した音声区間情報と音源方向情報を持つ音声を音声認識対象として決定する。
この決定処理において決定した音声情報が、図3に示す音声処理部130内の音源抽出部135に出力され、音源抽出処理が実行される。さらに、音源抽出結果が音声認識部136に出力され音声認識処理が実行されることになる。
[4.ユーザが特定位置を見ていることを識別して処理を行なう実施例]
次に、ユーザが、予め規定した特定位置を見ているか否かを識別して処理を行なう実施例について説明する。
この処理は、例えば上述の実施例で説明したユーザの手の形状や動きであるポスチャやジェスチャを実行することなく、ユーザが、予め規定した特定位置を見ているか否かを識別して発話区間等の判定を行なう実施例である。
具体的には、例えば、図18に示すように、音声認識装置10がテレビである場合、テレビの画面の一部領域を特定位置301として設定する。ユーザ(発話者)がこの特定位置301を見ているか否かを判断する。特定位置301を見ている状態で発話を行なっていると判定した場合は、その発話を音声認識対象とする。
一方、発話が検出されても、その発話期間において、ユーザ(発話者)が、特定位置301を見ていないと判定した場合は、その発話を音声認識対象とせず、棄却する。
このような処理を行なうことで、ユーザは手を挙げる動作や、手の形状をパーとするといった特別なアクションを行なうことなく、音声認識装置に対して、音声認識対象とする発話を正しく判定させることが可能となる。
なお、ユーザが特定の位置を見ているかどうかの判定は、図2に示す情報入力部20のカメラ21の撮影画像に基づいて実行する。具体的には、図3に示す画像処理部110内の顔方向推定部114、あるいは視線方向推定部115の生成する顔または視線方向推定情報に基づいて実行することができる。
すなわち、画像情報から得られるユーザ位置と顔方向の推定結果から、ユーザがどこを見ているかを推定する。例えば、図18を参照して説明したように、テレビ画面の右端下側といった特定位置301を見ているか否かを判定する。
なお、図18に示す例では、特定位置301をテレビ画面の一部としているが、テレビ画面の全てを特定位置として設定し、テレビの画面をみているか否かを判定し、判定結果に応じて音声認識処理を実行するか否かを判定する設定としてもよい。
ユーザ(発話者)が特定位置を見ているか否かの判定は、カメラの撮影画像に基づいて実行される。この具体例について、図19を参照して説明する。
図19は、図18を参照して説明したように、テレビの右下領域に特定位置を設定した場合の例であり、以下の各図を示している。
(a1)テレビとユーザを横から見た図、
(a2)テレビとユーザを上から身だ図、
(a3)カメラ撮影画像の例
ユーザが特定位置を見ている場合、カメラの撮影画像は、図19(a3)のような画像となる。
ユーザが特定位置を見ているか否かは、例えば、図に示すように、音声認識装置を持つテレビに対するユーザの位置や顔(視線)の向いている角度によって判定可能である。これらは、撮影画像の解析によって取得可能となる。
図19に示すように、ユーザが特定位置を見ているか否かは、水平方向のみならず、垂直方向についても考慮した三次元的な情報の解析が必用となる。この三次元的規定範囲情報は、予め設定されメモリに格納された情報である。
音源方向・音声区間決定部134は、顔方向推定部114、視線方向推定部115の生成した顔/視線方向情報121を入力して、規定範囲情報との比較を三次元的に実行し、ユーザの顔方向または視線方向が水平方向、垂直方向ともに、特定位置を見ていると判定できる範囲内であるか否かを判定する。
なお、音声認識対象とするか否かの判定態様としては様々な態様がある。例えば、以下のような設定である。
(1)発話期間としての音声区間、すなわち発話開始時点から発話終了時点までの全ての時間、特定位置を見ている場合にのみ、音声認識対象とする。
(2)発話期間としての音声区間、すなわち発話開始時点から発話終了時点までの時間中、一瞬でも特定位置を見ていると判断された場合、音声認識対象とする。
(3)発話期間としての音声区間、すなわち発話開始時点から発話終了時点までの時間中、予め規定した時間、例えば2秒以上継続して特定位置を見ていると判断された場合、音声認識対象とする。
例えば、このような様々な設定が可能である。
なお、このように、ユーザが特定の位置を見ていることを利用する実施例では、ポスチャやジェスチャといった特定の所作や動作を行う必要がないため、ユーザ負担を軽減することが可能となる。
本実施例の処理シーケンスについて、図20、図21に示すフローチャートを参照て説明する。
図20は、本実施例の音声認識装置の実行する音源方向と音声区間の決定処理シーケンスを説明するフローチャートである。先に説明した実施例における図12のフローチャートに対応する。
この図20に示す処理は、図3に示す画像処理部110と音声処理部130を有する音声認識装置が実行する処理である。
なお、この処理は、例えばプログラム実行機能を持つCPU等を有するデータ処理部の制御の下で図20に示すフローに従った処理シーケンスを記録したプログラムをメモリから読み出して実行することが可能である。
図20に示す処理フローに示す各ステップの処理について、順次説明する。
(ステップS501)
まず、ステップS501において、音声情報に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図3に示す音声処理部130の音源方向推定部132と、音声区間検出部133の実行する処理である。
この処理は、先に図4〜図6を参照して説明した音声のみに基づく音源方向と音声区間の検出処理に相当する。
(ステップS502)
ステップS502において、ポスチャ認識結果またはジェスチャ認識結果に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図3に示す画像処理部110のポスチャ認識部119の生成するポスチャ情報123、またはジェスチャ認識部120の生成するジェスチャ情報124に基づいて音源方向・音声区間決定部134が音源方向と音声区間を検出する処理である。
この処理は、先に図8〜図10を参照して説明したポスチャ情報またはジェスチャ情報を適用した音源方向と音声区間の検出処理に相当する。
具体例は、例えば、先に図13を参照して説明した処理となる。
なお、本実施例では、このステップS502の処理は省略することが可能である。
省略した場合、図3の手領域検出部118も削除可能である。
(ステップS503)
ステップS503において、口唇動作に基づく音源方向と音声区間の検出処理を行なう。
この処理は、図3に示す画像処理部110の口唇動作ベース検出部117の生成する口唇動作ベース検出情報122の生成処理に相当する。
先に説明したように、口唇動作ベース検出部117は、口唇領域の動きに基づいて、発話区間を推定する。すなわち、口の動きに基づいて、発話を開始した時間(音声区間開始時間)と、発話を終了した時間(音声区間終了時間)を判定する。この判定情報を、口唇動作ベース検出情報122として、音源方向・音声区間決定部134に出力する。
なお、基本的に、図20に示すフローのステップS501〜S503の処理の各々は、いずれも、
(a)音声区間開始位置情報と音源方向情報、
(b)音声区間終了位置情報と音源方向情報、
これらの情報の組み合わせのいずれかの情報セットを生成して、音源方向・音声区間決定部134に出力する処理として実行される。
なお、ステップS501〜S503の処理は、いずれも図3に示す音源方向・音声区間決定部134を利用して実行される。音源方向・音声区間決定部134は、音声区間出力部133や、画像処理部110の各処理部からの出力される情報を入力した順に、順次、処理を実行する。
(ステップS504)
ステップS504において、顔方向または視線方向を推定する。この処理は、図3に示す画像処理部110の顔方向推定部114と視線方向推定部115の実行する処理であり、図3に示す顔/視線方向情報121の生成処理に相当する。
先に図7を参照して説明した通り、顔方向推定部114と視線方向推定部115は、図7に示すように、顔領域に含まれる顔パーツの位置関係に基づいて顔の向きを判定し、顔の向きの方向を視線方向と判定する。
これらの判定処理によって生成された顔方向または視線方向の少なくともいずれかの情報を含む顔/視線方向情報121が、音源方向・音声区間決定部134に出力される。
(ステップS505)
ステップS505は、本実施例特有の処理である。ユーザ(発話者)が、予め規定した特定位置を見ているか否かを判定する処理である。すなわち、例えば、図18、図19を参照して説明したようにテレビの一部領域に設定した特定位置301を見ているか否かを判定する。
なお、判定基準は、前述したように様々な設定が可能である。例えば所定時間継続して特定位置を見ていたと判定されれば、ステップS505の判定はYesとなり、ステップS506に進む。一方、所定時間継続して特定位置を見ていないと判定されれば、ステップS505の判定はNoとなり、ステップS507に進む。
なお、特定位置を見ているか否かの判定は、顔方向や視線方向の解析情報に基づいて実行する。
(ステップS506)
ステップS505において、ユーザ(発話者)が、予め規定した特定位置を見ていると判定した場合、ステップS506において、音声認識が可能であることをユーザに通知する。
例えばテレビの表示部の一部にメッセージを表示する。あるいはチャイム等の音声出力を行なって通知する。
(ステップS507)
一方、ステップS505において、ユーザ(発話者)が、予め規定した特定位置を見ていないと判定した場合、ステップS507において、音声認識が行われないことをユーザに通知する。
この処理も、例えばテレビの表示部の一部にメッセージを表示する。あるいはチャイム等の音声出力を行なって通知する。
(ステップS508)
次のステップS508の処理は、図3に示す音声処理部130内の音源方向・音声区間決定部134において実行する処理である。
図3に示すように、音源方向・音声区間決定部134は、以下の情報を入力する。
(1)音声処理部130内の音源方向推定部132と音声区間検出部133の生成した音声に基づく音源方向と音声区間情報(=ステップS501における検出情報)、
(2)画像処理部110内のポスチヤ認識部119の生成するポスチャ情報123と、ジェスチャ認識部120の生成するジェスチャ情報124(=ステップS502における検出情報)、
(3)画像処理部110内の口唇動作ベース検出部117の生成する口唇動作ベース検出情報122(=ステップS503における検出情報)、
(4)画像処理部110内の顔方向推定部114と視線方向推定部115の生成する顔/視線方向情報121(=ステップS504における検出情報)、
音源方向・音声区間決定部134は、上記(1)〜(4)の情報を入力する。
なお、本実施例では、前述したように、上記(2)の情報は省略可能である。
上記各情報は、各処理部において検出処理に成功した場合にのみ、その検出タイミングで各処理部から音源方向・音声区間決定部134に出力される。
なお、先に図12のフローを参照して説明したと同様、基本的に図20に示すフローのステップS501〜S503の処理に際しては、
(a)音声区間開始位置情報と音源方向情報、
(b)音声区間終了位置情報と音源方向情報、
これらの情報の組み合わせのいずれかを生成して、音源方向・音声区間決定部134に出力する処理を行なう。
ステップS504の処理においては、顔方向または視線方向の少なくともいずれかの検出に成功した場合に、顔方向情報または視線方向情報の少なくともいずれかの情報が、音源方向・音声区間決定部134に出される。
ステップS508では、以下の2つの条件が満足するか否かを判定する。
(条件1)ユーザ(発話者)が特定位置を見ていたと判定された。
(条件2)音声区間開始位置情報と音源方向情報、または音声区間終了位置情報と音源方向情報のいずれかの情報セットが取得された。
ステップS508において、上記(条件1)、(条件2)のいずれも満足すると判定した場合は、ステップS509に進む。
一方、上記(条件1)、(条件2)の少なくともいずれかの条件を満足しないと判定した場合は、ステップS501〜S504の検出処理に戻り、情報入力を待機する。
(ステップS509)
ステップS508において、上記(条件1)、(条件2)のいずれも満足すると判定した場合は、ステップS509において、音声認識対象とする音源方向と音声区間を決定する処理を行なう。
このステップS509の処理の詳細については、図21を参照して後段で詳細に説明する。
(ステップS510)
ステップS510の処理は、音源方向・音声区間決定部134において、音源方向と音声区間が決定されたか否かを判定する処理である。
この場合の音源方向と音声区間とは、音声認識処理対象とする音源方向と、音声区間であり、音声区間には、「音声区間開始位置」と、「音声区間終了位置」の双方を含む。
次に、図20のフローのステップS509の処理の詳細処理例について図21に示すフローチャートを参照して説明する。
図21に示すフローのステップS509の処理は、ステップS508において、以下の2つの条件を満足する場合に行われる処理である。
(条件1)ユーザ(発話者)が特定位置を見ていたと判定された。
(条件2)音声区間開始位置情報と音源方向情報、または音声区間終了位置情報と音源方向情報のいずれかの情報セットが取得された。
ステップS509の処理は、これらの(条件1)、(条件2)のいずれも満足すると判定した場合に行われる処理であり、音声認識対象とする音源方向と音声区間を決定する処理である。
以下、図21を参照して、このステップS509の詳細シーケンスについて説明する。
(ステップS601)
まず、ステップS601において、図3に示す音源方向・音声区間決定部134は、入力した検出情報が、図3に示す音声認識装置の口唇動作ベース検出部117の生成した口唇動作ベース検出情報122であるか、あるいはその他の情報であるかを判定する。
入力検出情報が、「口唇動作情報」である場合は、ステップS602に進む。
一方、入力検出情報が、「口唇動作情報」でない場合は、ステップS605に進む。
(ステップS602)
音源方向・音声区間決定部134に入力した情報が「口唇動作情報」である場合は、音源方向・音声区間決定部134は、さらに、ステップS602において、入力検出情報に、
音声区間開始位置(時間)情報と、
音声区間終了位置(時間)情報、
これらの2つの情報が含まれるか否かを判定する。
入力検出情報に音声区間開始位置(時間)情報と、音声区間終了位置(時間)情報の両情報が含まれる場合は、ステップS608に進み、取得された音声区間情報を音声認識対象に設定する。
一方、入力検出情報に音声区間開始位置(時間)情報と、音声区間終了位置(時間)情報の少なくとも一方の情報が含まれない場合は、ステップS603に進む。
(ステップS603)
音源方向・音声区間決定部134に入力した情報が「口唇動作情報」であり、入力検出情報に音声区間開始位置(時間)情報と、音声区間終了位置(時間)情報の少なくとも一方の情報が含まれない場合は、ステップS603において、入力検出情報に音声区間開始位置(時間)情報が含まれるか否かを判定する。
入力検出情報に音声区間開始位置(時間)情報が含まれる場合は、ステップS604に進む。
一方、入力検出情報に音声区間開始位置(時間)情報が含まれない場合は、ステップS601に戻る。
(ステップS604)
入力検出情報に音声区間開始位置(時間)情報が含まれる場合は、音源方向・音声区間決定部134は、ステップS604において、入力情報である「口唇動作情報」に基づいて取得される「音声区間の開始位置(時間)情報」と、「音源方向情報」をメモリに格納する。
なお、この「口唇動作情報」に基づいて取得される「音声区間開始位置(時間)情報」と、「音源方向情報」を[検出情報C]とする。
すなわち、[検出情報C]は、以下の情報である。
[検出情報C=口唇動作情報ベースの音声区間開始位置(時間)情報と音源方向情報]
(ステップS605)
ステップS601において、音源方向・音声区間決定部134に入力した情報が「口唇動作情報」でないと判定した場合は、音源方向・音声区間決定部134は、ステップS605において、入力した検出情報が、図3に示す音声認識装置の音声処理部130の音声区間検出部133の生成した「音声ベースの検出情報」であるか、あるいはその他の情報であるかを判定する。
入力検出情報が、音声区間検出部133の生成した「音声ベースの検出情報」である場合は、ステップS606に進む。
一方、入力検出情報が、音声区間検出部133の生成した「音声ベースの検出情報」でない場合は、ステップS601に戻る。
(ステップS606)
次に、音源方向・音声区間決定部134は、ステップS606において、音源方向・音声区間決定部134に入力した検出情報から得られた検出音声区間情報に音声区間終了位置(時間)が含まれ、かつ、メモリに、[検出情報C]、すなわち、
[検出情報C=口唇動作情報ベースの音声区間開始位置(時間)情報と音源方向情報]
この[検出情報C]が格納済みであるか否かを判定する。
なお、ステップS606に進む条件は、
(a)ステップS601の判定がNo、
(b)ステップS605の判定がYes、
上記(a),(b)の条件が満足された場合のみである。
すなわち、
(a)ステップS601の判定がNo=検出された音声区間情報が「口唇動作情報」に基づくものでない。
(b)ステップS605の判定がYes=検出された音声区間情報が「音声情報」に基づくものである。
これらの2つの条件を満たす場合である。
ステップS606では、以下の2つの条件を満たすか否かを判定することになる。
(条件1)ステップS605においてYesと判定された「音声情報」によって検出された音声区間情報が音声区間終了位置(時間)を示すものであること。
(条件2)すでに、メモリに、以下の[検出情報C]が格納されていること、
[検出情報C=口唇動作情報ベースの音声区間開始位置(時間)情報と音源方向情報]
すなわち、
音声区間開始位置情報として、「口唇動作情報」に基づく情報が取得されてメモリに格納済みであり、
音声区間終了位置情報として、「音声情報」に基づく情報が得られたこと、
これらが確認された場合に、ステップS606の判定がYesとなる。
これらの条件の確認処理は、音声区間開始位置と終了位置の適用情報の組み合わせ(セット)が、先に図11(2)を参照して説明した(セット3)、すなわち、
(セット3)
音声区間の開始位置(時間)判定に(B)口唇動作情報を適用し、
音声区間の終了位置(時間)判定に(C)音声情報を適用。
このセットに対応することの確認処理に相当する。
なお、本実施例では、この条件の他に、ユーザ(発話者)が特定位置を見ていたことが確認済みであることが、処理を行なう条件として追加されている。
ステップS606において、上記条件を満足すると判定した場合は、ステップS607に進み、満足しないと判定した場合は、ステップS601に戻る。
(ステップS607)
ステップS607において、音源方向・音声区間決定部134は、以下の判定処理を実行する。
(a)音声区間終了位置情報とともに取得した音源方向情報
(b)音声区間開始位置情報とともに取得した音源方向情報、
これら2つの音源方向情報が一致するか否かを判定する。
一致した場合は、ステップS608に進み、不一致の場合はステップS601に戻る。
なお、一致判定は、完全一致のみならず、予め設定した誤差、例えば、先に図4、図5を参照して説明した音源方向を示す角度(θ)に対して10%程度の誤差範囲であれば一致であると判定する処理を行なう。
このステップS607の判定処理は、
「口唇動作情報」に基づく音声開始位置情報に併せて取得した音源方向情報と、
「音声情報」に基づく音声終了位置情報に併せて取得した音源方向情報が一致するか否かを判定する処理である。
すなわち、全く異なる情報を適用して得られた音声区間開始位置(時間)と、音声区間終了位置(時間)の2つの異なるタイミングで得られた音源方向が一致するか否かを確認するものである。
一致した場合は、その音声区間は、特定の1人のユーザによって発せられた発話である可能性が高く、音声認識対象として選択すべき音声区間であると判定し、ステップS608に進む。
一方、ステップS607において、これら2つの音源方向が不一致であると判定した場合は、異なる情報を適用して得られた音声区間開始位置(時間)と、音声区間終了位置(時間)の2つの異なるタイミングで得られた音源方向が不一致の場合である。このような音声区間は、同一発話者による発話に対応する正しい音声区間でない可能性があり、音声認識対象に設定せず、ステップS601に戻る。
(ステップS608)
このステップS608は、取得した音声区間情報と音源方向情報を持つ音声を音声認識対象として決定する処理である。
この音声認識対象としての決定は、以下の条件を満足する場合に実行される。
(条件1)ステップS406の判定がYes、すなわち音声区間開始位置検出時の音源方向と音声区間終了位置検出時の音源方向が一致した場合。
音源方向・音声区間決定部134は、上記条件1を満足する場合、取得した音声区間情報と音源方向情報を持つ音声を音声認識対象として決定する。
この決定処理において決定した音声情報が、図3に示す音声処理部130内の音源抽出部135に出力され、音源抽出処理が実行される。さらに、音源抽出結果が音声認識部136に出力され音声認識処理が実行されることになる。
本実施例では、音声認識対象とするか否かについて、ユーザが特定の位置を見ているか否かの判定情報を利用する構成としている。ユーザは、音声認識の必要性を判定させるために、ポスチャやジェスチャといった特定の所作や動作を行う必要がなくなり、ユーザ負担を軽減することが可能となる。
[5.顔識別処理を行なう構成について]
上述した実施例では、発話者が誰であるかについては考慮することなく処理を行なっていた。
すなわち発話者の特定処理として、例えば、
(1)Aさんの発話、
(2)Bさんの発話、
(3)Cさんの発話、
このように発話者が誰であるかを識別して、識別結果に応じて処理を行なう構成とはしていなかった。
上述の各実施例に対して、顔識別処理を追加し、顔識別情報を用いて、その後の処理を変更する構成も可能である。
このように顔識別処理を行なう音声認識装置の構成例を図22に示す。
図22に示す音声認識装置500は、画像処理部510と、音声処理部530を有する。本実施例の音声認識装置500は、先に図3を参照して説明した音声認識装置10とほぼ同様の構成を有するが、画像処理部510内に顔識別部501を有する点が異なる。その他の構成は、図3に示す音声認識装置10と同様の構成である。
ビデオカメラ等によって構成される画像入力部111から入力する画像が顔領域検出部112に出力され、顔領域検出部112が、入力画像から顔領域を検出する。
顔領域検出部の検出した顔領域情報が、撮影画像とともに顔識別部501に入力される。
顔識別部501は、顔領域検出部112の検出した顔領域にある顔がだれの顔であるかを判定する。
顔識別部501のアクセス可能なメモリには、予め登録された顔パターン情報が格納されている。この登録情報は、ユーザ各々の識別子と、顔パターンなどの顔特徴情報とを対応付けて登録したデータである。すなわち、
Aさんの顔特徴情報、
Bさんの顔特徴情報、
Cさんの顔特徴情報、

このように各ユーザの顔特徴情報がメモリに格納されている。
顔識別部501は、顔領域検出部112の検出した顔領域にある顔の特徴と、メモリに格納された各ユーザの登録済み特徴情報を対比し、顔領域検出部112の検出した顔領域にある顔の特徴と最も類似度の高い登録済み特徴情報を選択する。
選択した登録済み特徴情報に対応付けられたユーザを、撮影画像の顔領域の顔を持つユーザであると判定し、このユーザ情報を顔識別情報502として、音源方向・音声区間決定部134に出力する。
音源方向・音声区間決定部134は、音源方向と音声区間の特定を行うとともに、顔識別情報502を適用して、発話を行なったユーザを特定する。
その後、予め設定した期間は、その特定ユーザの発話であるか否かを判定し、特定ユーザの発話であることが確認された場合にのみ、音声認識対象として選択する。
このような処理を実行することが可能となる。
あるいは、予め音声認識装置500に対して、音声認識対象とするユーザを登録しておく。例えばユーザAの発話のみを音声認識対象とし、その他のユーザの発話については、音声情報が取得されても音声認識対象としない設定として事前登録する。すなわち、予め「発話受理許容ユーザ」をメモリに登録する。
音源方向・音声区間決定部134は、音源方向、音声区間の決定された各発話について、顔識別部501の生成する顔識別情報502を適用して、メモリに登録された「発話受理許容ユーザ」の発話であるか否かを判定する。「発話受理許容ユーザ」の発話である場合にのみ、後段処理、すなわち音声認識処理を実行する。「発話受理許容ユーザ」以外の発話である場合には、音声認識を実行しない設定とする。
このような設定とすれば、数多くの人が会話するような環境でも、特定のユーザの発をのみを確実に選択して、音声認識対象データを絞り込んで処理を行なうことが可能となる。
また、複数のユーザに対応する処理優先度を予め設定して、優先度に従った処理を行なう構成としてもよい。例えば、ユーザA〜Cについて、
ユーザA:処理優先度=高
ユーザB:処理優先度=中
ユーザC:処理優先度=低
このような処理優先度を予め、メモリに登録する。
このような設定の下、音声認識対象となる複数の発話が検出された場合、上記の優先度に応じて、処理順を決定して、優先度の高いユーザの発話を先に処理する設定とする。
[6.その他の実施例について]
次に、上述した実施例の複数の変形例について説明する。
[6−1.クラウド型の処理を行なう実施例について]
上述した実施例では、例えば図1を参照して説明したように、音声認識装置10がテレビに付属し、テレビ内の音声認識部が処理を行なう実施例として説明した。
しかし、例えば音声認識を必要とするテレビ等の装置をネットワーク接続して、ネットワークによって接続されたサーバにおいて音声認識処理を実行し、実行した結果をテレビ等の装置に送信する構成としてもよい。
すなわち、図23に示すように、テレビ等の情報処理装置600とサーバ700とを、インターネット等のネットワークを介して接続した構成とする。
テレビ等の情報処理装置600には、先に図2を参照して説明したカメラとマイクを有する情報入力部601が設けられている。
情報入力部601が取得した画像および音声情報がネットワークを介してサーバ700に送信される。
サーバ700は、ネットワークを介して受信した情報を適用した音声認識を実行し、音声認識結果を情報処理装置600に送信する。
情報処理装置600は受信した音声認識結果に応じた処理、例えばチャンネル変更等の処理を行なう。
このように、データ処理をサーバにおいて実行するクラウド型の処理構成としてもよい。
なお、この場合、サーバ700は、図2や図23を参照して説明した構成を有する設定となる。
このような構成とすることで、ユーザ側のテレビ等の装置は、音声認識処理を実行するハードやソフトを実装する必要がなく、装置の大型化やコストアップを避けることが可能となる。
[6−2.操作部の操作に基づく音声区間検出処理を行なう実施例について]
上述した実施例では、音声認識装置に対する入力部に対するユーザの入力によって音声区間の開始位置や終了位置を明示する構成を含まないものとして説明した。
しかし、例えばテレビのリモコンに音声区間の開始や終了を入力する入力部を設け、ユーザ(発話者)が、この入力部を操作する構成を利用してもよい。
例えば発話開始タイミングに併せてリモコンの入力部を操作して、発話開始位置情報を音声認識装置としてのテレビに入力する。
あるいは、発話終了タイミングに併せてリモコンの入力部を操作して、発話終了位置情報を音声認識装置としてのテレビに入力する。
このような処理を上述の実施例に組み合わせて利用することで、さらに精度を高めた音声認識処理が実現される。
また、音声区間の開始位置や終了位置は、上述図の実施例に従った処理によって判定し、さらに、音声区間の開始位置から終了位置までの期間内に、発話者からのリモコン等の入力部からの操作情報が入力された場合に、音声認識対象として選択するといった処理としてもよい。
このような処理を行なえば、ユーザの明示的な要求があった場合にのみ、音声認識を実行する構成とすることが可能となる。
[7.画像データを利用した音声認識率の向上について]
上述したように、本開示の音声認識装置は、音声情報のみならず、画像データを利用して音源方向や音声区間の判別処理を行なう構成としている。
画像データを利用することで、精度の高い音声認識を行なうものである。
図24に画像データを利用することによる音声認識率の向上が実現されることの実験データを示す。
図24は、横軸に音声認識正解率、縦軸に周囲雑音の音量(Volumeレベル)を示したグラフである。
音声認識正解率は、0.0〜1.0の範囲であり、0.0は0%、1.0は100%の正解率であることを示している。
周囲雑音のレベルは、ボリューム16〜32の範囲に設定している。ボリューム16が、雑音レベルが低く、ボリューム32が、雑音レベルが高いことを意味している。
図には、
(a)音声のみを利用した音源方向と音声区間検出に基づく音声認識処理、
(b)口唇動作のみを利用した音源方向と音声区間検出に基づく音声認識処理、
(c)ポスチャまたはジェスチャのみを利用した音源方向と音声区間検出に基づく音声認識処理、
これらの3種類の音源方向と音声区間の検出処理を実行した場合の音声認識正解率を対比して示している。
ボリュームレベルが16〜32いずれの場合も、音声認識正解率は、
(c)ポスチャまたはジェスチャを利用した処理が最も高く、次が、(b)口唇動作を利用した処理、最下位が(a)音声のみを利用した処理となっている。
また、周囲雑音レベルが高い場合、(c)音声のみを利用した音声認識正解率は極端に低下するが、(b)口唇動作、または(c)ポスチャまたはジェスチャを利用した構成では、音声認識正解率が極端に低下することなく、いずれの場合も、0.5以上の音声認識正解率が維持されている。
このように、(b)口唇動作や、(c)ポスチャまたはジェスチャを利用した音源方向、音声区間の検出を実行することで、雑音の高い環境下での音声認識処理の精度を高めることができる。
[8.本開示の構成のまとめ]
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、本明細書において開示した技術は、以下のような構成をとることができる。
(1) 画像情報、および音声情報を入力する情報入力部と、
前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部は、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識装置。
(2)前記異なる情報の少なくとも一方は画像情報であり、前記音源方向・音声区間決定部は、画像に基づいて、音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する前記(1)に記載の音声認識装置。
(3)前記音源方向・音声区間決定部は、前記情報入力部の入力画像から取得される口唇領域画像を利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する前記(1)または(2)に記載の音声認識装置。
(4)前記音源方向・音声区間決定部は、前記情報入力部の入力画像から取得される発話者の手の動きを示すジェスチャ、または手の形状変化であるポスチャを利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する前記(1)〜(3)いずれかに記載の音声認識装置。
(5)前記異なる情報の少なくとも一方は画像情報、他方は音声情報であり、前記音源方向・音声区間決定部は、画像情報に基づいて得られた音源方向と、音声情報に基づいて得られた音源情報との一致度を判定する前記(1)〜(4)いずれかに記載の音声認識装置。
(6)前記音源方向・音声区間決定部は、前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有していないと判定した場合、さらに、画像から得られる発話者の顔方向または視線方向が、予め規定した許容範囲内にあるか否かを判定し、許容範囲内である場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する前記(1)〜(5)いずれかに記載の音声認識装置。
(7)前記異なる情報の少なくとも一方には、画像解析によって得られる発話者の明示的な合図が含まれる前記(1)〜(6)いずれかに記載の音声認識装置。
(8)前記異なる情報の少なくとも一方には、入力部を介した発話者の明示的な入力情報が含まれる前記(1)〜(7)いずれかに記載の音声認識装置。
(9)前記音源方向・音声区間決定部は、さらに、音声区間内に入力部を介するユーザ操作情報の入力が検出された場合に、該音声区間の音声を音声認識対象として選択する処理を行なう前記(1)〜(8)いずれかに記載の音声認識装置。
(10)前記音源方向・音声区間決定部は、さらに、発話者が予め定めた特定領域を見ているか否かを判定し、見ていると判定した場合に、検出した音声区間の音声を音声認識対象として選択する処理を行なう前記(1)〜(9)いずれかに記載の音声認識装置。
(11)前記音源方向・音声区間決定部は、画像解析によって得られる顔識別情報を適用して、顔識別結果に基づいて、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象とするか否かの判定を行なう前記(1)〜(10)いずれかに記載の音声認識装置。
(12) 音声情報および画像情報を取得する情報入力部を備えた情報処理装置と、
前記情報処理装置とネットワーク接続されたサーバを有し、
前記サーバは、
前記情報処理装置から、前記情報入力部の取得した音声情報および画像情報を入力し、入力情報に基づく音声認識処理を実行して音声認識結果を前記情報処理装置に出力する構成であり、
前記サーバは、
音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部は、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識処理システム。
(13) 音声認識装置において実行する音声認識方法であり、
前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記音源方向・音声区間決定部において、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行し、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識方法。
(14)音声認識装置において音声認識処理を実行させるプログラムであり、
前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
前記プログラムは、前記音源方向・音声区間決定部に、
音声区間の開始時間と音源方向情報の取得処理と、
音声区間の終了時間と音源方向情報の取得処理を、
異なる情報の解析処理によって実行させ、
前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行させるプログラム。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本開示の一実施例の構成によれば、音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
具体的には、本開示の音声認識装置は、画像情報、および音声情報を入力する情報入力部と、情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有する。
音源方向・音声区間決定部は、音声区間の開始時間と音源方向情報の取得処理と、音声区間の終了時間と音源方向情報の取得処理を、異なる情報の解析処理によって実行する。さらに、異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する。
これらの構成により、音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
10 音声認識装置
20 情報入力部
21 カメラ
22 マイクロフォン・アレイ
110 画像処理部
111 画像入力部
112 顔領域検出部
113 人領域検出部
114 顔方向推定部
115 視線方向推定部
116 口唇領域検出部
117 口唇動作ベース検出部
118 手領域検出部
119 ポスチャ認識部
120 ジェスチャ認識部
121 顔/視線方向情報
122 口唇動作ベース検出情報
123 ポスチャ情報
124 ジェスチャ情報
130 音声処理部
131 音声入力部
132 音源方向推定部
133 音声区間検出部
134 音源方向・音声区間決定部
135 音源抽出部
136 音声認識部
500 音声認識装置
501 顔識別部
502 顔識別情報
510 画像処理部
530 音声処理部
600 情報処理装置
700 サーバ

Claims (14)

  1. 画像情報、および音声情報を入力する情報入力部と、
    前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
    前記音源方向・音声区間決定部は、
    音声区間の開始時間と音源方向情報の取得処理と、
    音声区間の終了時間と音源方向情報の取得処理を、
    異なる情報の解析処理によって実行し、
    前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識装置。
  2. 前記異なる情報の少なくとも一方は画像情報であり、
    前記音源方向・音声区間決定部は、
    画像に基づいて、音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する請求項1に記載の音声認識装置。
  3. 前記音源方向・音声区間決定部は、
    前記情報入力部の入力画像から取得される口唇領域画像を利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する請求項1に記載の音声認識装置。
  4. 前記音源方向・音声区間決定部は、
    前記情報入力部の入力画像から取得される発話者の手の動きを示すジェスチャ、または手の形状変化であるポスチャを利用して音声区間の開始時間と音源方向情報、または、音声区間の終了時間と音源方向情報の取得処理を実行する請求項1に記載の音声認識装置。
  5. 前記異なる情報の少なくとも一方は画像情報、他方は音声情報であり、
    前記音源方向・音声区間決定部は、
    画像情報に基づいて得られた音源方向と、音声情報に基づいて得られた音源情報との一致度を判定する請求項1に記載の音声認識装置。
  6. 前記音源方向・音声区間決定部は、
    前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有していないと判定した場合、さらに、
    画像から得られる発話者の顔方向または視線方向が、予め規定した許容範囲内にあるか否かを判定し、許容範囲内である場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する請求項1に記載の音声認識装置。
  7. 前記異なる情報の少なくとも一方には、画像解析によって得られる発話者の明示的な合図が含まれる請求項1に記載の音声認識装置。
  8. 前記異なる情報の少なくとも一方には、入力部を介した発話者の明示的な入力情報が含まれる請求項1に記載の音声認識装置。
  9. 前記音源方向・音声区間決定部は、
    さらに、音声区間内に入力部を介するユーザ操作情報の入力が検出された場合に、該音声区間の音声を音声認識対象として選択する処理を行なう請求項1に記載の音声認識装置。
  10. 前記音源方向・音声区間決定部は、
    さらに、発話者が予め定めた特定領域を見ているか否かを判定し、見ていると判定した場合に、検出した音声区間の音声を音声認識対象として選択する処理を行なう請求項1に記載の音声認識装置。
  11. 前記音源方向・音声区間決定部は、
    画像解析によって得られる顔識別情報を適用して、顔識別結果に基づいて、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象とするか否かの判定を行なう請求項1に記載の音声認識装置。
  12. 音声情報および画像情報を取得する情報入力部を備えた情報処理装置と、
    前記情報処理装置とネットワーク接続されたサーバを有し、
    前記サーバは、
    前記情報処理装置から、前記情報入力部の取得した音声情報および画像情報を入力し、入力情報に基づく音声認識処理を実行して音声認識結果を前記情報処理装置に出力する構成であり、
    前記サーバは、
    音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
    前記音源方向・音声区間決定部は、
    音声区間の開始時間と音源方向情報の取得処理と、
    音声区間の終了時間と音源方向情報の取得処理を、
    異なる情報の解析処理によって実行し、
    前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識処理システム。
  13. 音声認識装置において実行する音声認識方法であり、
    前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
    前記音源方向・音声区間決定部において、
    音声区間の開始時間と音源方向情報の取得処理と、
    音声区間の終了時間と音源方向情報の取得処理を、
    異なる情報の解析処理によって実行し、
    前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行する音声認識方法。
  14. 音声認識装置において音声認識処理を実行させるプログラムであり、
    前記音声認識装置は、画像情報、および音声情報を入力する情報入力部と、前記情報入力部の入力情報の解析処理を実行して音源方向と音声区間を検出する音源方向・音声区間決定部を有し、
    前記プログラムは、前記音源方向・音声区間決定部に、
    音声区間の開始時間と音源方向情報の取得処理と、
    音声区間の終了時間と音源方向情報の取得処理を、
    異なる情報の解析処理によって実行させ、
    前記異なる情報の解析処理によって得られた音源方向情報の一致度を判定し、予め設定した許容範囲内の一致度を有する場合に、前記異なる情報の解析処理によって得られた音声区間の音声情報を音声認識対象として決定する処理を実行させるプログラム。
JP2013025501A 2013-02-13 2013-02-13 音声認識装置、および音声認識方法、並びにプログラム Pending JP2014153663A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013025501A JP2014153663A (ja) 2013-02-13 2013-02-13 音声認識装置、および音声認識方法、並びにプログラム
US14/650,700 US20150331490A1 (en) 2013-02-13 2014-02-05 Voice recognition device, voice recognition method, and program
EP14705583.4A EP2956940B1 (en) 2013-02-13 2014-02-05 Voice recognition device, voice recognition method, and program
PCT/JP2014/000602 WO2014125791A1 (en) 2013-02-13 2014-02-05 Voice recognition device, voice recognition method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013025501A JP2014153663A (ja) 2013-02-13 2013-02-13 音声認識装置、および音声認識方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2014153663A true JP2014153663A (ja) 2014-08-25

Family

ID=50150741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013025501A Pending JP2014153663A (ja) 2013-02-13 2013-02-13 音声認識装置、および音声認識方法、並びにプログラム

Country Status (4)

Country Link
US (1) US20150331490A1 (ja)
EP (1) EP2956940B1 (ja)
JP (1) JP2014153663A (ja)
WO (1) WO2014125791A1 (ja)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016103710A1 (ja) * 2014-12-26 2016-06-30 アイシン精機株式会社 音声処理装置
JP2017054065A (ja) * 2015-09-11 2017-03-16 株式会社Nttドコモ 対話装置および対話プログラム
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
US9825773B2 (en) 2015-06-18 2017-11-21 Panasonic Intellectual Property Corporation Of America Device control by speech commands with microphone and camera to acquire line-of-sight information
JP2018087838A (ja) * 2016-11-28 2018-06-07 三菱電機株式会社 音声認識装置
WO2018193878A1 (en) 2017-04-21 2018-10-25 Sony Corporation Information processing device, reception device, and information processing method
WO2018211983A1 (en) 2017-05-16 2018-11-22 Sony Corporation Speech enhancement for speech recognition applications in broadcasting environments
JP2018194810A (ja) * 2017-05-15 2018-12-06 ネイバー コーポレーションNAVER Corporation デバイス制御方法及び電子機器
JP2019015773A (ja) * 2017-07-04 2019-01-31 富士ゼロックス株式会社 情報処理装置およびプログラム
KR20190039777A (ko) * 2016-08-16 2019-04-15 구글 엘엘씨 제스처로 활성화되는 원격 제어기
WO2019093123A1 (ja) * 2017-11-07 2019-05-16 ソニー株式会社 情報処理装置および電子機器
WO2019181218A1 (ja) * 2018-03-19 2019-09-26 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2019188393A1 (ja) 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、送信装置、及び送信方法
WO2019188269A1 (ja) 2018-03-27 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、送信装置、及び送信方法
WO2019235229A1 (ja) * 2018-06-06 2019-12-12 ソニー株式会社 情報処理装置および方法、並びにプログラム
US10531189B2 (en) 2018-05-11 2020-01-07 Fujitsu Limited Method for utterance direction determination, apparatus for utterance direction determination, non-transitory computer-readable storage medium for storing program
WO2020021861A1 (ja) * 2018-07-26 2020-01-30 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US10665249B2 (en) 2017-06-23 2020-05-26 Casio Computer Co., Ltd. Sound source separation for robot from target voice direction and noise voice direction
JP2020140473A (ja) * 2019-02-28 2020-09-03 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、音声認識方法、及び音声認識プログラム
US10910001B2 (en) 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium
WO2021054152A1 (ja) * 2019-09-18 2021-03-25 ソニー株式会社 信号処理装置および方法、並びにプログラム
US10984790B2 (en) 2017-11-30 2021-04-20 Samsung Electronics Co., Ltd. Method of providing service based on location of sound source and speech recognition device therefor
JPWO2019239667A1 (ja) * 2018-06-12 2021-07-08 パナソニックIpマネジメント株式会社 収音装置、収音方法、及びプログラム
US11941322B2 (en) 2018-12-27 2024-03-26 Saturn Licensing Llc Display control device for selecting item on basis of speech

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713389B2 (en) 2014-02-07 2020-07-14 Lenovo (Singapore) Pte. Ltd. Control input filtering
US9823748B2 (en) * 2014-02-07 2017-11-21 Lenovo (Singapore) Pte. Ltd. Control input handling
KR102288060B1 (ko) * 2014-08-06 2021-08-10 삼성전자 주식회사 피사체의 소리를 수신하는 방법 및 이를 구현하는 전자장치
US9626001B2 (en) 2014-11-13 2017-04-18 International Business Machines Corporation Speech recognition candidate selection based on non-acoustic input
US9881610B2 (en) * 2014-11-13 2018-01-30 International Business Machines Corporation Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
TWI564791B (zh) * 2015-05-19 2017-01-01 卡訊電子股份有限公司 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體
US10370118B1 (en) 2015-10-31 2019-08-06 Simon Saito Nielsen Lighting apparatus for remote controlled device
US10963063B2 (en) * 2015-12-18 2021-03-30 Sony Corporation Information processing apparatus, information processing method, and program
JP6436427B2 (ja) * 2016-03-25 2018-12-12 パナソニックIpマネジメント株式会社 収音装置
US11404056B1 (en) 2016-06-30 2022-08-02 Snap Inc. Remoteless control of drone behavior
KR102562287B1 (ko) * 2016-10-14 2023-08-02 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 신호 처리 방법
KR20180085931A (ko) 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
CN107239139B (zh) * 2017-05-18 2018-03-16 刘国华 基于正视的人机交互方法与系统
US10224033B1 (en) * 2017-09-05 2019-03-05 Motorola Solutions, Inc. Associating a user voice query with head direction
US11348265B1 (en) 2017-09-15 2022-05-31 Snap Inc. Computing a point cloud from stitched images
US11753142B1 (en) 2017-09-29 2023-09-12 Snap Inc. Noise modulation for unmanned aerial vehicles
US11531357B1 (en) 2017-10-05 2022-12-20 Snap Inc. Spatial vector-based drone control
EP3698359A1 (en) * 2017-10-18 2020-08-26 Soapbox Labs Ltd. Methods and systems for speech detection
EP3602272B1 (en) * 2017-11-06 2023-11-22 Google LLC Methods and systems for attending to a presenting user
CN109767774A (zh) 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
DE102017011498B4 (de) * 2017-12-13 2022-08-18 Mercedes-Benz Group AG Verfahren zum Betreiben eines Assistenzsystems und ein Assistenzsystem für einen Kraftwagen
FR3075427A1 (fr) * 2017-12-18 2019-06-21 Orange Assistant vocal
US11822346B1 (en) 2018-03-06 2023-11-21 Snap Inc. Systems and methods for estimating user intent to launch autonomous aerial vehicle
US11422692B2 (en) * 2018-09-28 2022-08-23 Apple Inc. System and method of controlling devices using motion gestures
US10789952B2 (en) 2018-12-20 2020-09-29 Microsoft Technology Licensing, Llc Voice command execution from auxiliary input
KR102393876B1 (ko) * 2019-02-06 2022-05-02 구글 엘엘씨 클라이언트-컴퓨팅된 콘텐츠 메타데이터에 기반한 음성 질의 QoS
US12071228B1 (en) * 2019-03-28 2024-08-27 Snap Inc. Drone with propeller guard configured as an airfoil
CN110096154A (zh) * 2019-05-08 2019-08-06 北京百度网讯科技有限公司 用于处理信息的方法及装置
KR20210009596A (ko) * 2019-07-17 2021-01-27 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
CN110517685B (zh) * 2019-09-25 2021-10-08 深圳追一科技有限公司 语音识别方法、装置、电子设备及存储介质
US11289089B1 (en) * 2020-06-23 2022-03-29 Amazon Technologies, Inc. Audio based projector control
TWI756966B (zh) * 2020-12-04 2022-03-01 緯創資通股份有限公司 視訊裝置與其操作方法
WO2022146169A1 (en) 2020-12-30 2022-07-07 Ringcentral, Inc., (A Delaware Corporation) System and method for noise cancellation
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
US20230319391A1 (en) * 2022-03-22 2023-10-05 Lenovo (Singapore) Pte. Ltd. Video activation based upon detection of user action
US11972521B2 (en) 2022-08-31 2024-04-30 Snap Inc. Multisensorial presentation of volumetric content
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6351222B1 (en) * 1998-10-30 2002-02-26 Ati International Srl Method and apparatus for receiving an input by an entertainment device
JP4624577B2 (ja) * 2001-02-23 2011-02-02 富士通株式会社 複数のセンサによるヒューマンインタフェースシステム
JP2006072163A (ja) 2004-09-06 2006-03-16 Hitachi Ltd 妨害音抑圧装置
DE102004000043A1 (de) * 2004-11-17 2006-05-24 Siemens Ag Verfahren zur selektiven Aufnahme eines Schallsignals
US7438414B2 (en) * 2005-07-28 2008-10-21 Outland Research, Llc Gaze discriminating electronic control apparatus, system, method and computer program product
US8972902B2 (en) * 2008-08-22 2015-03-03 Northrop Grumman Systems Corporation Compound gesture recognition
US20090017910A1 (en) * 2007-06-22 2009-01-15 Broadcom Corporation Position and motion tracking of an object
US9268404B2 (en) * 2010-01-08 2016-02-23 Microsoft Technology Licensing, Llc Application gesture interpretation
US8635066B2 (en) * 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
JP2012003326A (ja) 2010-06-14 2012-01-05 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US9274744B2 (en) * 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
JP5960796B2 (ja) * 2011-03-29 2016-08-02 クアルコム,インコーポレイテッド ローカルマルチユーザ共同作業のためのモジュール式のモバイル接続ピコプロジェクタ
RU2455676C2 (ru) * 2011-07-04 2012-07-10 Общество с ограниченной ответственностью "ТРИДИВИ" Способ управления устройством с помощью жестов и 3d-сенсор для его осуществления
JP2013046151A (ja) * 2011-08-23 2013-03-04 Ricoh Co Ltd プロジェクタ、投影システム及び情報検索表示方法
JP2013106315A (ja) * 2011-11-16 2013-05-30 Toshiba Corp 情報端末、家電機器、情報処理方法および情報処理プログラム
US9183807B2 (en) * 2011-12-07 2015-11-10 Microsoft Technology Licensing, Llc Displaying virtual data as printed content
US10013053B2 (en) * 2012-01-04 2018-07-03 Tobii Ab System for gaze interaction

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016126022A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
WO2016103710A1 (ja) * 2014-12-26 2016-06-30 アイシン精機株式会社 音声処理装置
US9825773B2 (en) 2015-06-18 2017-11-21 Panasonic Intellectual Property Corporation Of America Device control by speech commands with microphone and camera to acquire line-of-sight information
JP2017054065A (ja) * 2015-09-11 2017-03-16 株式会社Nttドコモ 対話装置および対話プログラム
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
JP2019528526A (ja) * 2016-08-16 2019-10-10 グーグル エルエルシー ジェスチャによりアクティブ化されるリモートコントロール
KR20190039777A (ko) * 2016-08-16 2019-04-15 구글 엘엘씨 제스처로 활성화되는 원격 제어기
KR102258710B1 (ko) 2016-08-16 2021-06-01 구글 엘엘씨 제스처로 활성화되는 원격 제어기
JP2018087838A (ja) * 2016-11-28 2018-06-07 三菱電機株式会社 音声認識装置
WO2018193878A1 (en) 2017-04-21 2018-10-25 Sony Corporation Information processing device, reception device, and information processing method
US11676595B2 (en) 2017-04-21 2023-06-13 Saturn Licensing Llc Information processing device, reception device, and information processing method
KR20190141569A (ko) 2017-04-21 2019-12-24 소니 주식회사 정보 처리 디바이스, 수신 디바이스, 및 정보 처리 방법
JP2018194810A (ja) * 2017-05-15 2018-12-06 ネイバー コーポレーションNAVER Corporation デバイス制御方法及び電子機器
US11227620B2 (en) 2017-05-16 2022-01-18 Saturn Licensing Llc Information processing apparatus and information processing method
WO2018211983A1 (en) 2017-05-16 2018-11-22 Sony Corporation Speech enhancement for speech recognition applications in broadcasting environments
US10665249B2 (en) 2017-06-23 2020-05-26 Casio Computer Co., Ltd. Sound source separation for robot from target voice direction and noise voice direction
US11682392B2 (en) 2017-07-04 2023-06-20 Fujifilm Business Innovation Corp. Information processing apparatus
JP7056020B2 (ja) 2017-07-04 2022-04-19 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
JP2019015773A (ja) * 2017-07-04 2019-01-31 富士ゼロックス株式会社 情報処理装置およびプログラム
WO2019093123A1 (ja) * 2017-11-07 2019-05-16 ソニー株式会社 情報処理装置および電子機器
US10984790B2 (en) 2017-11-30 2021-04-20 Samsung Electronics Co., Ltd. Method of providing service based on location of sound source and speech recognition device therefor
US10910001B2 (en) 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium
WO2019181218A1 (ja) * 2018-03-19 2019-09-26 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR20200135343A (ko) 2018-03-27 2020-12-02 소니 주식회사 정보 처리 장치, 정보 처리 방법, 송신 장치, 및 송신 방법
WO2019188269A1 (ja) 2018-03-27 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、送信装置、及び送信方法
US11343588B2 (en) 2018-03-27 2022-05-24 Saturn Licensing Llc Information processing apparatus, information processing method, transmission apparatus, and transmission method
KR20200136382A (ko) 2018-03-29 2020-12-07 소니 주식회사 정보 처리 장치, 정보 처리 방법, 송신 장치, 및 송신 방법
US11930248B2 (en) 2018-03-29 2024-03-12 Saturn Licensing Llc Information processing apparatus, information processing method, transmission apparatus, and transmission method
US11438650B2 (en) 2018-03-29 2022-09-06 Saturn Licensing Llc Information processing apparatus, information processing method, transmission apparatus, and transmission method
WO2019188393A1 (ja) 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、送信装置、及び送信方法
US10531189B2 (en) 2018-05-11 2020-01-07 Fujitsu Limited Method for utterance direction determination, apparatus for utterance direction determination, non-transitory computer-readable storage medium for storing program
WO2019235229A1 (ja) * 2018-06-06 2019-12-12 ソニー株式会社 情報処理装置および方法、並びにプログラム
JPWO2019239667A1 (ja) * 2018-06-12 2021-07-08 パナソニックIpマネジメント株式会社 収音装置、収音方法、及びプログラム
JP7370014B2 (ja) 2018-06-12 2023-10-27 パナソニックIpマネジメント株式会社 収音装置、収音方法、及びプログラム
JPWO2020021861A1 (ja) * 2018-07-26 2021-08-19 ソニーグループ株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US11657821B2 (en) 2018-07-26 2023-05-23 Sony Corporation Information processing apparatus, information processing system, and information processing method to execute voice response corresponding to a situation of a user
WO2020021861A1 (ja) * 2018-07-26 2020-01-30 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US11941322B2 (en) 2018-12-27 2024-03-26 Saturn Licensing Llc Display control device for selecting item on basis of speech
JP2020140473A (ja) * 2019-02-28 2020-09-03 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、音声認識方法、及び音声認識プログラム
WO2021054152A1 (ja) * 2019-09-18 2021-03-25 ソニー株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
WO2014125791A1 (en) 2014-08-21
EP2956940A1 (en) 2015-12-23
US20150331490A1 (en) 2015-11-19
EP2956940B1 (en) 2019-04-03

Similar Documents

Publication Publication Date Title
JP2014153663A (ja) 音声認識装置、および音声認識方法、並びにプログラム
EP3791390B1 (en) Voice identification enrollment
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
US9899025B2 (en) Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
US11462213B2 (en) Information processing apparatus, information processing method, and program
KR101749100B1 (ko) 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
JP2011203992A (ja) 情報処理装置、情報処理方法、およびプログラム
EP3956883A1 (en) Identifying input for speech recognition engine
JP4992218B2 (ja) 情報処理装置および方法、並びにプログラム
JP6562790B2 (ja) 対話装置および対話プログラム
JP5700963B2 (ja) 情報処理装置およびその制御方法
JP3838159B2 (ja) 音声認識対話装置およびプログラム
Thermos et al. Audio-visual speech activity detection in a two-speaker scenario incorporating depth information from a profile or frontal view
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2019181218A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR20140093459A (ko) 자동 통역 방법
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2015177490A (ja) 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム
JP2015022357A (ja) 情報処理システム、情報処理方法および情報処理装置
JP2016091324A (ja) 発話検知装置、発話検知プログラムおよび発話検知方法
US20210193152A1 (en) Correlating Audio Signals For Authentication
JP2020154269A (ja) 複数人対話システムおよび複数人対話方法