JP2017138476A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2017138476A
JP2017138476A JP2016019193A JP2016019193A JP2017138476A JP 2017138476 A JP2017138476 A JP 2017138476A JP 2016019193 A JP2016019193 A JP 2016019193A JP 2016019193 A JP2016019193 A JP 2016019193A JP 2017138476 A JP2017138476 A JP 2017138476A
Authority
JP
Japan
Prior art keywords
state
information processing
user
peripheral device
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016019193A
Other languages
English (en)
Inventor
麗子 桐原
Reiko Kirihara
麗子 桐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2016019193A priority Critical patent/JP2017138476A/ja
Priority to US16/070,360 priority patent/US20190019513A1/en
Priority to DE112016006351.2T priority patent/DE112016006351T5/de
Priority to EP16889418.6A priority patent/EP3413303B1/en
Priority to CN201680080421.7A priority patent/CN108604447B/zh
Priority to PCT/JP2016/087190 priority patent/WO2017134935A1/ja
Publication of JP2017138476A publication Critical patent/JP2017138476A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Abstract

【課題】ユーザの周辺に他の音源が存在する場合であっても、音声認識精度を向上させることが可能な、情報処理装置、情報処理方法及びプログラムを提供する。【解決手段】情報処理装置は、雑音の音源となり得る他の装置の状態を検知する状態検知部と、前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の音量レベルを低下させ、出力する雑音がより小さくなるような動作モードに変更させる状態制御部と、を備える。【選択図】図3

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
近年、音声認識技術を用いた音声入力システムが用いられている。ユーザが音声により入力を行う際、ユーザ周辺の雑音(音声による入力において、当該音声以外の音)によって音声の認識が困難となる場合がある。例えば、ユーザ周辺の雑音が大きい場合、ユーザはより大きな声で発話しないと、ユーザの音声が認識されない恐れがある。ここで、雑音の音源がテレビやスピーカ等、ユーザにより音量を操作可能な装置である場合には、ユーザが当該装置を操作して音量を低下させることでより高精度に音声認識が可能となる。
音量の調整に関して、ユーザの音声が入力される装置と同一の装置が出力する音の音量を自動で調整する技術がある。例えば下記特許文献1には、複数ユーザがそれぞれヘッドフォンを装着している場合でも会話をスムーズに行えるように、ユーザの音声を検出して自動で音量調整を行うテレビ受像機が開示されている。
特開2008−72558号公報
しかし、音声認識を行う装置とユーザ周辺の音の音源とが同一の装置とは限らないため、上記のような音量調整に関する技術を音声認識技術に適用したとしても、十分な音声認識精度が得られない恐れがあった。
そこで、本開示では、ユーザの周辺に他の音源が存在する場合であっても、音声認識精度を向上させることが可能な、新規かつ改良された情報処理装置、情報処理方法、及びプログラムを提案する。
本開示によれば、雑音の音源となり得る他の装置の状態を検知する状態検知部と、前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する状態制御部と、を備える情報処理装置が提供される。
また、本開示によれば、雑音の音源となり得る他の装置の状態を検知することと、前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御することと、を含む情報処理方法が提供される。
また、本開示によれば、コンピュータに、雑音の音源となり得る他の装置の状態を検知する機能と、前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する機能と、を実現させるための、プログラムが提供される。
以上説明したように本開示によれば、ユーザの周辺に他の音源が存在する場合であっても、音声認識精度を向上させることが可能である。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の第一の実施形態に係る音声認識システムの概要を説明するための説明図である。 同実施形態に係る音声認識システムの構成例を示す説明図である。 同実施形態に係る情報処理装置1の構成例を示す説明図である。 同実施形態による情報処理装置1の動作例を示すフローチャートである。 変形例による情報処理装置1の動作例を示すフローチャートである。 本開示の第二の実施形態に係る情報処理装置の構成例を示す説明図である。 同実施形態による情報処理装置2の動作例を示すフローチャートである。 本開示の第三の実施形態に係る情報処理装置の構成例を示す説明図である。 周辺装置7の位置とユーザの位置とに基づく周辺装置7の抽出例を示す説明図である。 周辺装置7の位置とユーザの位置とに基づく周辺装置7の抽出例を示す説明図である。 同実施形態による情報処理装置3の動作例を示すフローチャートである。 ハードウェア構成例を示す説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の要素の各々を特に区別する必要がない場合、同一符号のみを付する。
なお、説明は以下の順序で行うものとする。
<<1.第一の実施形態>>
<1−1.第一の実施形態の概要>
<1−2.第一の実施形態の構成例>
<1−3.第一の実施形態の動作例>
<1−4.第一の実施形態の効果>
<1−5.第一の実施形態の変形例>
<<2.第二の実施形態>>
<2−1.第二の実施形態の構成例>
<2−2.第二の実施形態の動作例>
<2−3.第二の実施形態の効果>
<2−4.第二の実施形態の補足>
<<3.第三の実施形態>>
<3−1.第三の実施形態の構成例>
<3−2.第三の実施形態の動作例>
<3−3.第三の実施形態の効果>
<3−4.第二の実施形態の補足>
<<4.ハードウェア構成例>>
<<5.むすび>>
<<1.第一の実施形態>>
<1−1.第一の実施形態の概要>
まず、図1を参照しながら本開示の第一の実施形態の概要を説明する。図1は本開示の第一の実施形態に係る音声認識システムの概要を説明するための説明図である。図1に示す情報処理装置1は、ユーザの発話に対して音声認識・意味解析を行い、音声または表示による応答を行うことが可能な音声UIエージェント機能を有する。なお、図1において、シーンT1はユーザU1と情報処理装置1に対して発話していない非対話中の音声認識システムの例を、シーンT2はユーザU1が情報処理装置1に対して発話している対話中の音声認識システムの例を示している。
情報処理装置1の外観は特に限定しないが、例えば図1に示すような円柱形状であってもよく、部屋の床やテーブルの上等に設置される。また、情報処理装置1には、LED(Light Emitting Diode)等の発光素子により形成された発光部18が側面の水平方向中央領域を囲むよう帯状に設けられている。情報処理装置1は、発光部18の全体を光らせたり、一部を光らせたりすることで、ユーザに対して情報処理装置1の状態を知らせることが可能である。例えば情報処理装置1は、ユーザと対話している際は発光部18においてユーザの方向すなわち発話者方向を一部光らせることで、図1のシーンT2に示すように対話中のユーザU1に視線を向けているように見せることができる。また、情報処理装置1は、応答生成中やデータ検索中は発光部18で光が側面上を回っているように制御することで、処理中であることをユーザに知らせることができる。また、情報処理装置1は、例えば図1のシーンT2に示すように壁80に画像を投影して表示する機能を有し、音声による応答出力の他、表示による応答出力が可能である。
図1のシーンT1に示すように、ユーザU1が情報処理装置1に対して発話していない時、例えば情報処理装置1の周辺に存在するテレビ受像機71、及びオーディオ機器72は大きな音量で音楽を出力している。
ここで、図1のシーンT1に示すようにテレビ受像機71、及びオーディオ機器72が大きな音量で音楽を出力する状態において、ユーザU1が発話すると、当該音楽が音声認識における雑音となり、情報処理装置1による音声認識精度が低下する恐れがある。なお、本開示において、雑音とは、例えば音声入力、または音声認識における、当該音声以外の音を意味する。
そこで、本開示の第一の実施形態に係る音声認識システムでは、ユーザの発話予測に基づいて、音声認識における雑音の出力に係る周辺装置の状態を制御することで、音声認識精度を向上することを可能とする。
具体的には、図1のシーンT2に示すように、ユーザU1が情報処理装置1に対して発話することが予測されると、テレビ受像機71、及びオーディオ機器72が出力する音楽の音量は、図1のシーンT1に示す例と比較して小さくなるように制御される。係る構成により、情報処理装置1による音声認識はテレビ受像機71、及びオーディオ機器72が出力する雑音(音楽)の影響を受け難くなり、認識精度が向上する。その結果、情報処理装置1は、ユーザU1の発話62を正しく認識して、図1のシーンT2に示すように音声による応答64や表示による応答81を出力することが可能となる。
このように、本実施形態による音声認識システムでは、例えばユーザの発話が予測されると、雑音の出力に係る装置の音量が小さくなるように制御することで、音声認識精度を向上させることが可能である。
以上、本開示による音声認識システムの概要について説明した。なお、情報処理装置1の形状は図1に示す円柱形状に限定されず、例えば立方体、球体、多面体等であってもよい。続いて、本開示の第一の実施形態による情報処理システムと情報処理装置1の構成例について順次説明する。
<1−2.第一の実施形態の構成例>
(音声認識システムの構成例)
図2は本開示の第一の実施形態に係る音声認識システムの構成例を示す説明図である。図2に示すように、本実施形態に係る音声認識システムは、情報処理装置1、周辺装置7、及び通信網9を含む。
情報処理装置1は、図1を参照して説明したように、ユーザの発話に対して音声認識・意味解析を行い、音声または画像による応答を行う機能を有する。また、情報処理装置1は、図2に示すように通信網9を介して周辺装置7と接続され、ユーザの発話予測に基づいて周辺装置7の状態を制御する。なお、図2では情報処理装置1が通信網9を介して周辺装置7と接続される例を説明したが、情報処理装置1と周辺装置7は、直接接続されてもよい。また、情報処理装置1の詳細な構成については図3を参照して後述する。
通信網9を介して情報処理装置1と接続される周辺装置7は、情報処理装置1の周辺に存在し、音を出力する装置である。周辺装置7は、例えば図2に示すようにテレビ受像機71、またはオーディオ機器72(例えばスピーカ、ミニ・コンポーネント・システム等)のように、音楽や音声等の音を出力する機能を有する装置を含んでもよい。また、周辺装置7は、空気調和機器73(例えば換気扇、エア・コンディショナー、空気清浄器等)、掃除機74、PC(Personal Computer)75のように、当該装置の動作に伴う駆動音(動作音)を出力する(発生させる)装置を含んでもよい。なお、本技術に係る周辺装置7は図2に示した例に限定されず、音を出力し得る多様な装置を含んでもよい。また、以下において、周辺装置7に含まれる少なくとも1以上の装置のことを周辺装置7と呼ぶ場合がある。
周辺装置7は、通信網9を介して情報処理装置1に、周辺装置7が何をすることが可能なのかを示すケイパビリティ情報、及び周辺装置7の状態を示す状態情報を送信してもよい。ケイパビリティ情報は、例えば、周辺装置7が如何なる動作(例えば音の出力、送風、換気等)を実行可能であるか、如何なる状態をとり得るか、または如何なる状態情報を送信可能であるか(または送信不可能であるか)等の情報を含んでもよい。また、状態情報は、現在の周辺装置7に関する、音量レベル、動作モード(例えばスタンバイモード、静音モード、通常モード)、電源スイッチの状態(ON/OFF)、またはその他の動作に係る設定値等の情報を含んでもよい。なお、周辺装置7は、情報処理装置1からケイパビリティ情報または状態情報の送信要求を受信した際に、要求されたケイパビリティ情報または状態情報を送信してもよい。
また、周辺装置7は、通信網9を介して情報処理装置1から状態制御信号を受信し、状態を制御される。周辺装置7が情報処理装置1により制御される状態は、例えば上述した音量レベル、動作モード、または電源のON/OFF等を含んでもよい。
なお、情報処理装置1と周辺装置7との間の距離は、例えば音の届く範囲内であり、周辺装置7が出力する音は、情報処理装置1が有するマイクロフォンにより収音されて、情報処理装置1による音声認識における雑音となり得る。以下では、音楽、音声、及び駆動音等の区別をすることなく、周辺装置7が出力する音を雑音と呼ぶ場合がある。また、周辺装置7を雑音の音源となり得る他の装置、または雑音の出力に係る装置と呼ぶ場合がある。
通信網9は、通信網9に接続されている装置、またはシステムから送信される情報の有線、または無線の伝送路である。本実施形態において、通信網9に接続される情報処理装置1と周辺装置7との間の距離は、上述したように音の届く範囲内であるため、例えば、通信網9はEthernet(登録商標)を含む各種のLAN(Local Area Network)であってもよい。なお、通信網9はLANに限定されず、通信網9は、インターネット、電話回線網、衛星通信網等の公衆回線網や、WAN(Wide Area Network)等を含んでもよい。また、通信網9は、IP−VPN(Internet Protocol−Virtual Private Network)等の専用回線網を含んでもよい。
(情報処理装置の構成例)
以上、本実施形態に係る音声認識システムの構成を説明した。続いて、図3を参照して、本実施形態に係る音声認識システムが備える情報処理装置1の構成例を説明する。図3は、本実施形態に係る情報処理装置1の構成例を示す説明図である。
図3に示すように、情報処理装置1は、制御部10、通信部11、収音部12、スピーカ13、カメラ14、測距センサ15、投影部16、記憶部17、及び発光部18を有する。
制御部10は、情報処理装置1の各構成を制御する。また、本実施形態による制御部10は、図3に示すように、発話予測部101、音声認識部102、意味解析部103、状態検知部104、状態制御部105、及び出力制御部106としても機能する。
発話予測部101は、ユーザの発話予測(例えば、ユーザがこれから発話しようとしていることの予測)を行う。また、発話予測部101は、ユーザの発話が予測された場合に、ユーザの発話が予測されたことを音声認識部102、状態検知部104、及び状態制御部105に通知してもよい。発話予測部101によるユーザの発話予測は、多様な方法で行われ得る。
例えば、発話予測部101は、後述する収音部12により収音されたユーザの音声から、後述する音声認識部102が所定の起動ワード(例えば、「Hello Agent」等)を検出した場合に、ユーザの発話を予測してもよい。また、発話予測部101は、情報処理装置1が有する音声入力ボタン(不図示)がユーザによって押下されたことを検出した場合に、ユーザの発話を予測してもよい。また、発話予測部101は、後述するカメラ14や測距センサ15により得られたデータに基づいて、ユーザが手を振っていることを検出した場合に、ユーザの発話を予測してもよい。また、発話予測部101は、後述するカメラ14や測距センサ15により得られたデータ、または収音部12により収音された音に基づいて、ユーザが手を叩いたことを検出した場合にユーザの発話を予測してもよい。なお、発話予測部101によるユーザの発話予測は上記に限定されず、多様な方法でユーザの発話が予測されてよい。
音声認識部102は、後述する収音部12により収音されたユーザの音声を認識し、文字列への変換を行い、発話テキストを取得する。また、音声認識部102の音声の特徴に基づいて声を出している人を識別したり、音声の発生源、すなわち発話者の方向を推定したりすることも可能である。
また、音声認識部102は、取得した発話テキストに所定の起動ワードが含まれている場合に、当該起動ワードが検出されたことを発話予測部101に通知する。なお、音声認識部102は、起動ワードを、他の発話テキストと比較して雑音に対してより頑強に検出してもよい。
意味解析部103は、音声認識部102により取得された発話テキストに対して自然言語処理等を用いて意味解析を行う。意味解析部103による意味解析の結果は、出力制御部106に提供される。
状態検知部104は、雑音の音源となり得る周辺装置7(他の装置)の状態を検知し、検知結果を状態制御部105に提供する。例えば状態検知部104は、収音に基づいて周辺装置7の状態を検知する。収音に基づく周辺装置7の状態の検知は、例えば、後述する収音部12により収音された周辺音(情報処理装置1周辺の雑音)の大きさ(音圧レベル)を特定することであってもよい。また、状態検知部104は、検知結果として、特定した周辺音の大きさを状態制御部105に提供してもよい。
また、状態検知部104は、通信に基づいて周辺装置7の状態を検知してもよい。通信に基づく周辺装置7の状態の検知は、例えば、後述する通信部11を制御して周辺装置7にケイパビリティ情報と状態情報の送信要求を送信し、周辺装置7から通信部11を介してケイパビリティ情報と状態情報を取得することであってもよい。また、状態検知部104は、ケイパビリティ情報と状態情報を検知結果として、状態制御部105に提供してもよい。
状態制御部105は、状態検知部104による検知結果と、発話予測部101によるユーザの発話予測に基づいて、周辺装置7(他の装置)の状態を制御する。例えば、状態制御部105は、発話予測部101がユーザの発話を予測し、かつ状態検知部104による検知結果としての周辺音の大きさが所定の閾値より大きい場合に、周辺装置7が出力する雑音がより小さくなるように、周辺装置7の状態を制御してもよい。
また、状態制御部105による周辺装置7の状態制御は多様な方法で行われてもよい。また、状態制御部105による周辺装置7の状態制御の方法は、通信部11を介して、または記憶部17から取得される周辺装置7のケイパビリティ情報に基づいて決定されてもよい。
例えば、状態制御部105は、周辺装置7のケイパビリティ情報に基づき、周辺装置7が音量レベルを通信により制御可能な装置であると判定した場合、周辺装置7の音量レベルを低下させ、または上昇させるように、周辺装置7の状態を制御してもよい。係る場合、例えば状態制御部105は、周辺装置7の音量レベルを低下させる、または上昇させる制御信号を生成し、通信部11を制御して当該制御信号を周辺装置7へ送信させてもよい。
また、状態制御部105は、周辺装置7のケイパビリティ情報に基づき、周辺装置7が動作モードを通信により制御可能な装置であると判定した場合、周辺装置7の動作モードを変更させることで、周辺装置7の状態を制御してもよい。係る場合、例えば、状態制御部105は、周辺装置7の出力する雑音がより小さくなるような動作モードに動作モードを変更させる制御信号を生成し、通信部11を制御して当該制御信号を周辺装置7へ送信させてもよい。なお、例えば周辺装置7がスタンバイモード、静音モード、通常モードの3つの動作モードのいずれかで動作する場合、スタンバイモード、静音モード、通常モードの順で周辺装置7が出力する雑音が大きくなり得る。
また、状態制御部105は、周辺装置7のケイパビリティ情報に基づき、周辺装置7が動作に係る設定値を通信により制御可能であると判定した場合、周辺装置7の動作に係る設定値を変更させることで、周辺装置7の状態を制御してもよい。周辺装置7の動作に係る設定値は、例えば風量の強弱、回転数、消費電力等を含んでもよい。係る場合、例えば、状態制御部105は、周辺装置7の動作に係る設定値を、周辺装置7の出力する雑音がより小さくなるような設定値に変更させる制御信号を生成し、通信部11を制御して当該制御信号を周辺装置7へ送信させてもよい。
また、状態制御部105は、周辺装置7のケイパビリティ情報に基づき、周辺装置7が電源のON/OFFを通信により制御可能な装置であると判定した場合、周辺装置7の電源をONまたはOFFに変更させる制御信号を生成し、通信部11を制御して当該制御信号を周辺装置7へ送信させてもよい。なお、状態制御部105は、周辺装置7のケイパビリティ情報等に基づいて、周辺装置7の電源をOFFにすべきか否かを判定してもよい。例えば、状態制御部105は、周辺装置7の電源をOFFにすべきではない、と判定した場合、上述した他の状態制御方法で、周辺装置7の状態制御を行ってもよい。また、状態制御部105は、電源の制御よりも、上述した他の状態制御方法を優先して、周辺装置7の状態制御を行ってもよい。係る構成によれば、周辺装置7は動作を完全に停止することなく制御されやすくなるため、ユーザは周辺装置7の停止による違和感や不都合を受け難くなる。
また、状態制御部105は、状態検知部104から取得した周辺装置の状態情報を記憶部17に記憶させた後に、周辺装置7が出力する雑音がより小さくなるように、周辺装置7の状態を制御してもよい。また、状態制御部105は、ユーザの発話が終了した場合に、記憶部17に記憶される周辺装置7の状態情報に基づいて、周辺装置7の状態が記憶部17に記憶された時点の状態に戻るように周辺装置7の状態を制御してもよい。周辺装置の状態制御例については、後に図4を参照して詳細に説明する。
出力制御部106は、意味解析部103から提供される意味解析結果に応じて、ユーザの発話に対する応答や、ユーザが求める動作に係る出力を制御する。例えば、ユーザの発話が「明日の天気」を求めるものである場合、ネットワーク上の天気予報サーバから、「明日の天気」に関する情報を取得し、スピーカ13、投影部16、または発光部18を制御して、取得した情報を出力させる。
通信部11は、外部装置とデータの送受信を行う。例えば通信部11は、通信網9と接続し、周辺装置7への送信、または周辺装置7からの受信を行う。例えば、通信部11は、ケイパビリティ情報、及び状態情報の送信要求を周辺装置7へ送信する。また、通信部11は、周辺装置7から、ケイパビリティ情報、及び状態情報を受信する。また通信部11は、状態制御部105により生成される制御信号を周辺装置7へ送信する。また、通信部11は、通信網9、または他の通信網を介して、不図示の所定サーバと接続し、出力制御部106による出力制御に必要な情報を受信する。
収音部12は、周辺の音声を収音し、音声信号として制御部10に出力する機能を有する。また、収音部12は、例えば1または複数のマイクロフォンにより実現されてもよい。
スピーカ13は、出力制御部106の制御に従って音声信号を音声に変換して出力する機能を有する。
カメラ14は、情報処理装置1に設けられた撮像レンズにより周辺を撮像し、撮像画像を制御部10に出力する機能を有する。また、カメラ14は、例えば360度カメラまたは広角カメラ等により実現されてもよい。
測距センサ15は、情報処理装置1とユーザやユーザの周辺に居る人物との距離を測定する機能を有する。測距センサ15は、例えば光センサ(発光・受光タイミングの位相差情報に基づいて対象物までの距離を測定するセンサ)により実現される。
投影部16は、表示装置の一例であって、壁やスクリーンに画像を(拡大して)投影することで表示する機能を有する。
記憶部17は、情報処理装置1の各構成が機能するためのプログラムやパラメータを記憶する。また、記憶部17は、周辺装置7に関する情報を記憶する。例えば、周辺装置7に関する情報には、通信網9に接続された周辺装置7に接続するための情報やケイパビリティ情報、状態情報等が含まれてもよい。
発光部18は、LED等の発光素子により実現され、全灯、一部点灯、点滅、または点灯位置の制御等が可能である。例えば発光部18は、制御部10の制御にしたがって音声認識部102により認識された発話者の方向を一部点灯することで、発話者の方向に視線を向けているように見せることができる。
以上、本実施形態による情報処理装置1の構成について具体的に説明した。なお、図3に示す情報処理装置1の構成は一例であって、本実施形態はこれに限定されない。例えば、情報処理装置1は、周辺環境に関する情報を取得するために、IR(infrared:赤外線)カメラ、深度カメラ、ステレオカメラ、または人感センサ等をさらに備えていてもよい。また、情報処理装置1は、ユーザインタフェースとして、タッチパネルディスプレイや物理ボタン等をさらに備えていてもよい。また、情報処理装置1に設けられる収音部12、スピーカ13、カメラ14、及び発光部18等の設置位置は特に限定されない。また、本実施形態による制御部10の各機能は、通信部11を介して接続される他の情報処理装置が有してもよい。
<1−3.第一の実施形態の動作例>
続いて、本実施形態による情報処理装置1の動作例について、図4を参照して説明する。
図4は、本実施形態による情報処理装置1の動作例を示すフローチャートである。図4に示すように、まず制御部10は、ユーザが発話しようとしているか否かを判定する発話予測処理を行う(S110)。ステップS110の発話予測処理は、ユーザの発話が予測されるまで繰り返される。
ユーザの発話が予測された場合(ステップS110においてYES)、情報処理装置1は、周辺音を測定する(S120)。例えば収音部12により収音された音声信号に基づいて、状態検知部104が周辺音の大きさを特定することで、周辺音が測定されてもよい。
続いて、状態制御部105は、ステップS120で測定された周辺音が大きいか否かを判定する(S130)。例えば、状態制御部105は、ステップS120で測定された周辺音と所定の閾値を比較することでステップS130の判定を行ってもよい。
周辺音が大きいと判定された場合(ステップS130においてYES)、状態制御部105は、状態検知部104を介して周辺装置7から通信に基づいて取得した周辺装置7の状態情報を記憶部17に記憶させる(S140)。
続いて、状態制御部105は、周辺装置7の状態を制御する(S150)。例えば、状態制御部105は、状態制御可能なすべての周辺装置7に対して、音量レベルを所定値低下させる制御信号を生成して、通信部11に送信させてもよい。また、状態制御部105は、ステップS140で取得した周辺装置7のケイパビリティ情報と状態情報に基づいて、周辺装置7の各々に対して、周辺音(雑音)が小さくなるような制御信号を生成して、通信部11に送信させてもよい。
続いて、情報処理装置1は、ユーザの音声入力を受け付け、音声認識処理を行う(S160)。ステップS170において、制御部10は、例えば発話無音期間が所定時間(例えば10秒)以上継続した場合に、ユーザの発話が終了したと判定し、発話が終了するまでステップS160の音声認識処理を継続する。
ユーザの発話が終了したと判定された場合(S170においてYES)、音声認識部102の認識結果(発話テキスト)に基づいて意味解析部103が意味解析処理を行い、意味解析結果に応じて出力制御部106が投影部16や発光部18を制御する(S180)。
最後に、状態制御部105は、ステップS140において記憶部17に記憶された周辺装置7の状態情報に基づいて、周辺装置7の状態をステップS140時点の状態に戻すように状態制御を行う(S190)。例えば、状態制御部105は、周辺装置7の各々に対して、ステップS140時点の周辺装置7の状態に状態を変更させるような制御信号を生成し、通信部11に送信させてもよい。
以上説明した一連の処理(S110〜S190)は、例えば一連の処理が終わるごとに繰り返されてもよい。
<1−4.第一の実施形態の効果>
以上説明したように、本開示の第一の実施形態によれば、ユーザの発話が予測されると、情報処理装置1の周辺音(雑音)の大きさが測定され、周辺音が大きい場合に、周辺音を小さくさせるように、雑音の音源となり得る周辺装置7の状態が制御される。係る構成により、ユーザの周辺に他の音源が存在する場合であっても、ユーザが発話した際の、音声認識精度を向上させることが可能となる。また、情報処理装置1がユーザの発話に対応して音声による応答を出力する場合、周辺音が小さくなることで、ユーザは情報処理装置1が出力する音声による応答を、より聞き取りやすくなる。
<1−5.第一の実施形態の変形例>
以上、本開示の第一の実施形態を説明した。以下では、本開示の第一の実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で本開示の第一の実施形態に適用されてもよいし、組み合わせで本開示の第一の実施形態に適用されてもよい。また、各変形例は、本開示の第一の実施形態で説明した構成に代えて適用されてもよいし、本開示の第一の実施形態で説明した構成に対して追加的に適用されてもよい。
(変形例1)
上記動作例では、図4に示すステップS150における雑音を低減させるための周辺装置7の状態制御処理が、一回だけ行われる例を説明したが、本実施形態は係る例に限定されない。変形例1として、情報処理装置1は、雑音を低減させるために周辺装置7の状態を複数回制御してもよい。
図5は本変形例による情報処理装置1の動作例を示すフローチャートである。図5に示す各ステップの処理は、図4に示す同一のステップ番号を有する各ステップの処理と同様であるため、説明を省略する。図5に示す動作例では、図4に示す動作例と異なり、周辺装置7の状態制御処理(S150)の後にステップS120に戻り、再度周辺音の測定(S120)と周辺音の大きさに関する判定(S130)が行われる。そして、周辺音が大きいと再度判定された場合(S130においてYES)、周辺装置の状態の記憶(S140)と、周辺装置7の状態制御処理(S150)が再度行われる。
係る動作により、周辺音が十分に小さくなるまで、周辺装置の状態制御処理を繰り返すことが可能となり、ステップS160以降の音声認識処理と意味解析処理の精度がより向上する。
なお、雑音を低減させるために周辺装置7の状態を複数回制御する方法は上記に限定されない。例えば、状態制御部105は、ユーザの発話に基づく音声認識または意味解析結果に基づいて、雑音を低減させるために周辺装置7の状態を複数回制御してもよい。
例えば、ステップS160において、ユーザが発話しているにも関わらず、音声認識処理に失敗した(発話テキストが取得できない)場合に、周辺装置7の状態制御が再度行われてもよい。なお、ユーザが発話していることは、例えば、カメラ14により取得される映像に含まれるユーザの口の動きに基づいて検出されてもよい。
また、ステップS180において、発話テキストからの意味解析に失敗した(意味解析結果が取得できない)場合に、周辺装置7の状態制御が再度行われてもよい。
(変形例2)
上記では、状態制御部105が周辺装置7の状態情報を取得して、記憶部17に記憶させる例を説明したが、本実施形態は係る例に限定されない。変形例2として、状態制御部105は、周辺装置7の状態情報の代わりに、状態制御に係る制御信号におけるパラメータを記憶させてもよい。
例えば、図4のステップS150において、状態制御部105が、周辺装置7に対して、音量レベルを所定値低下させる制御信号を生成する場合、当該パラメータは、当該所定値であってもよい。また、係る場合、図4のステップS190において、状態制御部105は、記憶部17に記憶された当該所定値(パラメータ)だけ、音量レベルを上昇させる制御信号を生成して、通信部11に送信させてもよい。係る構成によれば、例えば周辺装置7の機能制限等により、通信による周辺装置7の状態情報の取得が不可能な場合であっても、周辺装置7の状態を図4のステップS140時点の状態に戻すことが可能となる。
<<2.第二の実施形態>>
以上、本開示の第一の実施形態、及び変形例を説明した。続いて、本開示の第二の実施形態を説明する。上記で説明した第一の実施形態では、周辺音の大きさに基づいて、情報処理装置1が制御可能なすべての周辺装置7が制御対象であった。これに対し、第二の実施形態による情報処理装置は、通信により取得される周辺装置7の各々の状態情報に基づいて、制御対象となる周辺装置7を抽出し、抽出された周辺装置7の状態を制御する。
<2−1.第二の実施形態の構成例>
図6は、本開示の第二の実施形態に係る情報処理装置の構成例を示す説明図である。図6に示すように、本実施形態に係る情報処理装置2は、制御部20の機能構成が図3の制御部10の機能構成と一部異なる点で、図3の情報処理装置1と異なる。なお、図6に示す各構成のうち、図3に示した各構成と実質的に同様の構成については同一の符号を付してあるため、説明を省略する。以下では、本実施形態に係る制御部20が有する状態検知部204、及び状態制御部205としての機能について説明する。
(状態検知部204)
本実施形態に係る状態検知部204は、第一の実施形態で説明した状態検知部104と同様に、雑音の音源となり得る周辺装置7(他の装置)の状態を検知する。例えば、状態検知部204は、状態検知部104と同様に、通信に基づいて周辺装置7の状態を検知し、また、通信部11を介して周辺装置7のケイパビリティ情報と状態情報を取得する。また、状態検知部204は、ケイパビリティ情報と状態情報を検知結果として、状態制御部205に提供してもよい。
なお、本実施形態に係る状態検知部204は、第一の実施形態で説明したような、収音に基づいて周辺装置7の状態を検知する機能を有しなくてもよいし、有してもよい。
(状態制御部205)
本実施形態に係る状態制御部205は、第一の実施形態で説明した状態制御部105と同様に、状態検知部204による検知結果と、発話予測部101によるユーザの発話予測に基づいて、周辺装置7(他の装置)の状態を制御する。本実施形態に係る状態制御部205は、第一の実施形態に係る状態制御部105と異なり、複数の周辺装置7から、周辺装置7の状態に基づいて、状態の制御を行う周辺装置7を抽出する機能を有する。例えば、本実施形態に係る状態制御部205は、発話予測部101がユーザの発話を予測した場合に、周辺装置7の状態情報に基づく所定の条件を満たす周辺装置7を抽出し、抽出された周辺装置7の状態を制御する。
例えば、周辺装置7の状態情報に基づく所定の条件は、現在の音量レベルが所定の閾値以上である、という条件であってもよい。また、周辺装置7の状態情報に基づく所定の条件は、周辺装置7の動作モードが、所定の動作モードである、という条件であってもよい。また、周辺装置7の状態情報に基づく所定の条件は、周辺装置7の動作に係る所定設定値の大きさが、所定の閾値以上である、という条件であってもよい。
係る構成により、例えば、より大きな雑音を出力しているであろう周辺装置7の状態を優先的、または効率的に制御することが可能となる。また、より大きな雑音を出力しているであろう周辺装置7の状態のみを変更し、より小さな雑音を出力しているであろう周辺装置7の状態を変更しないことで、ユーザは違和感を受け難いという効果が得られる。
また、本実施形態に係る状態制御部205は、上記により抽出された周辺装置7の状態情報を記憶部17に記憶させてもよい。
なお、本実施形態に係る状態制御部205のその他の機能(周辺装置7の状態制御方法、及び状態制御方法の決定)は、第一の実施形態で説明した状態制御部105の機能と同様であるため、詳細な説明を省略する。
<2−2.第二の実施形態の動作例>
以上、本開示の第二の実施形態による情報処理装置2の構成例について説明した。続いて、続いて、本実施形態による情報処理装置2の動作例について、図7を参照して説明する。
図7は、本実施形態による情報処理装置2の動作例を示すフローチャートである。まず制御部20は、図4を参照して説明したステップS110と同様に、ユーザの発話が予測されるまで発話予測処理を繰り返し行う(S210)。
ユーザの発話が予測された場合(ステップS210においてYES)、状態検知部204は、周辺装置7にケイパビリティ情報と状態情報の送信要求を送信し、周辺装置7からケイパビリティ情報と状態情報を受信する(S220)。
続いて、状態制御部205は、周辺装置7のうち、状態情報に基づく条件を満たす周辺装置7を抽出する(S230)。状態情報に基づく条件は、例えば上述したいずれか一つの条件であってもよい。さらに、状態制御部205は、抽出された周辺装置7の状態情報を記憶部17に記憶させる(S240)。
続いて、状態制御部205は、抽出された周辺装置7の状態を制御する(S250)。例えば、状態制御部205は、ステップS220で受信された周辺装置7のケイパビリティ情報と状態情報に基づいて、抽出された周辺装置7の各々に対して、周辺音(雑音)が小さくなるような制御信号を生成して、通信部11に送信させてもよい。
以降の、図7に示すステップS260〜290の処理は、図4を参照して説明したステップS160〜190の処理と同様であるため、説明を省略する。
<2−3.第二の実施形態の効果>
以上説明したように、本開示の第二の実施形態によれば、ユーザの発話が予測されると、情報処理装置2周辺の周辺装置7の状態情報が取得され、状態情報に基づいて抽出された周辺装置7が出力する雑音が小さくなるように、状態制御が行われる。係る構成により、ユーザの周辺に他の音源が存在する場合であっても、ユーザが発話した際の、音声認識精度を向上させることが可能となる。さらに、本開示の第二の実施形態によれば、状態を変更させる周辺装置7を抽出して状態制御を行うことで、ユーザは違和感を受け難いという効果が得られる。
<2−4.第二の実施形態の補足>
なお、上記では状態検知部204は、第一の実施形態で説明したような、収音に基づいた周辺装置7の状態検知機能を有しなくてもよい例を説明したが、本実施形態は係る例に限定されない。例えば、状態検知部204が収音に基づく状態検知機能を有して周辺音を測定し、状態制御部205は周辺音が大きいと判定された場合に、状態を変更させる周辺装置7を抽出して状態制御を行ってもよい。
また、第一の実施形態において説明した各変形例を第二の実施形態に適用することも可能である。
<<3.第三の実施形態>>
以上、本開示の第一の実施形態、及び第二の実施形態を説明した。続いて、本開示の第三の実施形態を説明する。第三の実施形態による情報処理装置は、さらに周辺装置7の位置に基づいて、周辺装置7の状態を制御する。
<3−1.第三の実施形態の構成例>
図8は、本開示の第三の実施形態に係る情報処理装置の構成例を示す説明図である。図8に示す各構成のうち、図4、図6に示した各構成と実質的に同様の構成については同一の符号を付してあるため、説明を省略する。以下では、本実施形態に係る情報処理装置2が備える制御部30、及び記憶部37について説明する。
(制御部30)
本実施形態に係る制御部30は、情報処理装置3の各構成を制御する。また、本実施形態に係る制御部30は、図8に示すように発話予測部301、音声認識部302、意味解析部103、状態検知部204、状態制御部305、及び出力制御部106としても機能する。これら機能のうち、意味解析部103、及び出力制御部106の機能は、第一の実施形態に係る意味解析部103、及び出力制御部106の機能と、状態検知部204の機能は第二の実施形態に係る状態検知部204の機能とそれぞれ同様であるため、説明を省略する。
本実施形態に係る発話予測部301は、第一の実施形態で説明した発話予測部101と同様に、ユーザの発話予測を行う。本実施形態に係る発話予測部301は、発話予測部101の機能に加え、ユーザの発話が予測された場合に、ユーザの発話が予測されたことを後述するユーザ位置取得部308に通知する機能を有する。
本実施形態に係る音声認識部302は、第一の実施形態で説明した音声認識部102と同様に、ユーザの音声を認識し、文字列への変換を行い、発話テキストを取得する。本実施形態に係る音声認識部302は、後述する音源分離部309が収音部12により取得された音声から分離して取得したユーザの音声を入力として、音声を認識する点が第一の実施形態で説明した音声認識部102と異なる。係る構成により、より音声認識精度を向上させることが可能である。
状態制御部305は、第一の実施形態で説明した状態制御部105と同様に、状態検知部204による検知結果と、発話予測部301によるユーザの発話予測に基づいて、周辺装置7(他の装置)の状態を制御する。本実施形態に係る状態制御部305は、第一の実施形態に係る状態制御部105の機能に加え、さらに周辺装置7の位置に基づいて、周辺装置7の状態を制御する機能を有する。周辺装置7の位置に関する情報は、例えば後述する記憶部37に記憶されていてもよい。
例えば、本実施形態に係る状態制御部305は、発話予測部101がユーザの発話を予測した場合に、周辺装置7の位置に基づく所定の条件を満たす周辺装置7を抽出し、抽出された周辺装置7の状態を制御する。状態制御部305が周辺装置7の位置に基づいて周辺装置7を抽出し、抽出された周辺装置7の状態を制御する例について、以下にいくつか説明する。
例えば、状態制御部305は、収音に基づいて特定される雑音発生領域内に存在する周辺装置7を抽出し、抽出された状態を制御してもよい。雑音発生領域の情報は、後述する音場解析部307から提供されてもよく、状態制御部305は、雑音発生領域の情報と周辺装置7の位置の情報を対応付けて、雑音発生領域内に存在する周辺装置7を抽出してもよい。
係る構成により、例えば、より大きな雑音を出力しているであろう周辺装置7の状態を優先的、または効率的に制御することが可能となる。また、より大きな雑音を出力しているであろう周辺装置7の状態のみを変更し、より小さな雑音を出力しているであろう周辺装置7の状態を変更しないことで、ユーザは違和感を受け難いという効果が得られる。
また、状態制御部305は、周辺装置7の位置とユーザの位置とに基づいて、周辺装置7の状態を制御してもよい。ユーザの位置は、後述するユーザ位置取得部308から状態制御部305に提供されてもよい。図9A,Bは周辺装置7の位置とユーザの位置とに基づく周辺装置7の抽出例を示す説明図である。図9A、Bに示すように、情報処理装置3の周辺には、周辺装置7A〜Fと、ユーザU3が存在している。
例えば、状態制御部305は、図9Aに示すように収音部12の位置を基準として、ユーザの位置と略同一方向に存在する周辺装置7を抽出し、抽出された周辺装置7の状態を制御してもよい。状態制御部305は、情報処理装置3が有する収音部12(不図示)の位置を中心として、ユーザU3の位置を含むような角度範囲D1を、収音部12の位置を基準として、ユーザの位置と略同一方向であるとみなしてもよい。また、状態制御部305は、角度範囲D1内に存在する周辺装置7Bを、収音部12の位置と、ユーザの位置を基準として、ユーザの位置と略同一方向に存在する周辺装置7として抽出してもよい。なお、角度範囲D1の大きさは、例えば予め設定された所定の大きさであってもよいし、ユーザU3の顔、または全身等が含まれるように動的に設定されてもよい。
係る構成によれば、収音部12の位置を基準として、ユーザの位置と略同一方向に存在する周辺装置7が出力する雑音を低減させるように周辺装置7の状態を効率的に制御することが可能となる。他の方向から収音部12に向かう音声と比較して、ユーザの位置と略同一方向から収音部12に向かう音声は、後述する音源分離部309にとってユーザの音声と分離することが、困難である。したがって、係る構成により、音源分離精度が向上し、結果として音声認識精度も向上する。
また、状態制御部305は、図9Bに示すように、ユーザの位置の近傍に存在する周辺装置7を抽出し、抽出された周辺装置7の状態を制御してもよい。状態制御部305は、例えば図9Bに示すユーザU3から所定距離の範囲内に存在する周辺装置7Cを、ユーザU3の位置の近傍に存在する周辺装置7として抽出してもよい。また、状態制御部305は、図9Bに示すユーザU3から最も近い位置に存在する周辺装置7Cを、ユーザU3の位置の近傍に存在する周辺装置7として抽出してもよい。
係る構成によれば、ユーザに近い周辺装置7から出力される雑音を効率的に低減させることが出来るため、ユーザはより発話し易くなる。
なお、状態制御部305による周辺装置7の位置に基づく周辺装置7を抽出方法は、上記に限定されない。例えば、状態制御部305は、収音部12の近傍に存在する周辺装置7を抽出し、抽出された周辺装置7の状態を制御してもよい。また、状態制御部305は、上述した抽出方法を組み合わせて、周辺装置7を抽出してもよい。
音場解析部307は、収音部12により収音された音声に基づいて、情報処理装置3の周辺の音場(音波の存在する空間、領域)を解析する。例えば、音場解析部307は、収音部12が有する複数のマイクロフォンの各々から取得される音声に基づき、音場を解析する。音場の解析結果は、音源分離部309に提供されてもよい。また、音場解析部307は、収音部12を基準として、音圧レベルの大きい方向を特定し、当該方向を中心とした所定角度範囲に含まれる領域を、雑音発生領域として、状態制御部305に提供してもよい。
ユーザ位置取得部308は、カメラ14、及び測距センサ15から取得されるデータに基づいて、ユーザの位置を取得する。例えばユーザ位置取得部308は、顔検出、顔認識技術等を用いて、カメラ14により取得される画像からユーザを検出し、測距センサ15から取得されるデータと対応付けることで、ユーザの位置を取得してもよい。ユーザ位置取得部は、取得したユーザ位置を状態制御部305、及び音源分離部309に提供する。
音源分離部309は、音場解析部307による音場解析結果と、ユーザの位置に基づいて、ユーザの音声を分離して取得する。音源分離部309は例えば、ビームフォーミング法に基づいて雑音とユーザの音声とを分離してもよい。音源分離部309により分離されたユーザの音声は、音声認識部302に提供される。
(記憶部37)
記憶部37は、第一の実施形態で説明した記憶部17と同様に情報処理装置3の各構成が機能するためのプログラムやパラメータを記憶する。記憶部37は、記憶部17が記憶する情報に加え、情報処理装置3の周辺の地図情報を記憶する。また、記憶部37は、記憶部17が記憶する情報に加え、周辺装置7の位置の情報を、周辺装置7に関する情報としてさらに記憶する。なお、記憶部17が記憶する周辺装置7の位置の情報は、例えば情報処理装置を基準とした相対位置の情報であってもよいし、情報処理装置3の周辺の地図情報における周辺装置7の位置の情報であってもよい。
なお、情報処理装置3の周辺の地図情報は、ユーザにより情報処理装置3に入力されてもよいし、カメラ14や測距センサ15等の情報に基づいて、情報処理装置3が取得してもよい。また、周辺装置7の位置の情報は、ユーザにより情報処理装置3に入力されてもよいし、周辺装置7から取得されてもよい。
<3−2.第三の実施形態の動作例>
以上、本開示の第三の実施形態による情報処理装置3の構成例について説明した。続いて、続いて、本実施形態による情報処理装置3の動作例について、図10を参照して説明する。
図10は、本実施形態による情報処理装置3の動作例を示すフローチャートである。まず制御部30は、図4を参照して説明したステップS110と同様に、ユーザの発話が予測されるまで発話予測処理を繰り返し行う(S310)。
ユーザの発話が予測された場合(ステップS310においてYES)、ユーザ位置取得部308は、ユーザの位置を取得する(S315)。続いて、状態検知部204は、周辺装置7にケイパビリティ情報と状態情報の送信要求を送信し、周辺装置7からケイパビリティ情報と状態情報を受信する(S320)。また、状態制御部305は、記憶部37から周辺装置7の位置を取得する(S325)。
続いて、状態制御部305は、取得された周辺装置7の位置に基づく条件を満たす周辺装置7を抽出する(S330)。状態制御部305は、上述したいずれかの方法により、周辺装置7の位置、または周辺装置7の位置とユーザの位置に基づいて、周辺装置7を抽出してもよい。
続いて、状態制御部305は、抽出された周辺装置7の状態情報を記憶部37に記憶させる(S340)。さらに、状態制御部305は、抽出された周辺装置7の状態を制御する(S350)。例えば、状態制御部305は、ステップS320で受信された周辺装置7のケイパビリティ情報と状態情報に基づいて、抽出された周辺装置7の各々に対して、周辺音(雑音)が小さくなるような制御信号を生成して、通信部11に送信させてもよい。
以降の、図10に示すステップS360〜390の処理は、図4を参照して説明したステップS160〜190の処理と同様であるため、説明を省略する。
<3−3.第三の実施形態の効果>
以上説明したように、本開示の第三の実施形態によれば、ユーザの発話が予測されると、情報処理装置3周辺の周辺装置7の位置との状態情報が取得され、状態情報に基づいて抽出された周辺装置7が出力する雑音が小さくなるように、状態制御が行われる。係る構成により、ユーザの周辺に他の音源が存在する場合であっても、ユーザが発話した際の、音声認識精度を向上させることが可能となる。さらに、本開示の第三の実施形態によれば、周辺装置の位置に基づいて、状態を変更させる周辺装置7を抽出して状態制御を行うことで、より効率的に周辺装置7の状態制御を行うことが可能である。
<3−4.第三の実施形態の補足>
なお、上記では周辺装置7の位置に基づいて制御対象の抽出を行う例を説明したが、さらに、第二の実施形態で説明したような周辺装置7の状態に基づく制御対象の抽出が組み合わされて、行われてもよい。
また、周辺装置7の位置に基づいて、制御量(例えば音量レベルを低下させる大きさ)が動的に設定されてもよい。例えば、ユーザにより近い周辺装置7の音量レベルをより小さくさせるように制御量が設定されてもよい。上記のような周辺装置7の位置に基づく制御量の設定は、周辺装置7の位置に基づく制御対象の抽出と組み合わされて行われてもよい。
また、第一の実施形態において説明した各変形例を第三の実施形態に適用することも可能である。
<<4.ハードウェア構成例>>
以上、本開示の各実施形態を説明した。上述した発話予測処理、状態検知処理、状態制御処理、音声認識処理、意味解析処理等の情報処理は、ソフトウェアと、情報処理装置1〜3との協働により実現される。以下では、本実施形態に係る情報処理装置である情報処理装置1〜3のハードウェア構成例として、情報処理装置1000のハードウェア構成例について説明する。
図11は、情報処理装置1000のハードウェア構成の一例を示す説明図である。図11に示したように、情報処理装置1000は、CPU(Central Processing Unit)1001と、ROM(Read Only Memory)1002と、RAM(Random Access Memory)1003と、入力装置1004と、出力装置1005と、ストレージ装置1006と、撮像装置1007と、通信装置1008とを備える。
CPU1001は、演算処理装置及び制御装置として機能し、各種プログラムに従って情報処理装置1000内の動作全般を制御する。また、CPU1001は、マイクロプロセッサであってもよい。ROM1002は、CPU1001が使用するプログラムや演算パラメータ等を記憶する。RAM1003は、CPU1001の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバスにより相互に接続されている。主に、CPU1001、ROM1002及びRAM1003とソフトウェアとの協働により、制御部10、制御部20、制御部30の機能が実現される。
入力装置1004は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU1001に出力する入力制御回路等から構成されている。情報処理装置1000のユーザは、該入力装置1004を操作することにより、情報処理装置1000に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置1005は、例えば、液晶ディスプレイ(LCD)装置、OLED装置、シースルーディスプレイ、及びランプ等の表示装置を含む。さらに、出力装置1005は、スピーカ及びヘッドホン等の音声出力装置を含む。例えば、表示装置は、撮像された画像や生成された画像等を表示する。一方、音声出力装置は、音声データ等を音声に変換して出力する。出力装置1005は、例えば図3を参照して説明したスピーカ13、投影部16、発光部18に対応する。
ストレージ装置1006は、データ格納用の装置である。ストレージ装置1006は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置及び記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置1006は、CPU1001が実行するプログラムや各種データを格納する。ストレージ装置1006は、図3を参照して説明した記憶部17に対応する。
撮像装置1007は、光を集光する撮影レンズ及びズームレンズ等の撮像光学系、及びCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)等の信号変換素子を備える。撮像光学系は、被写体から発せられる光を集光して信号変換部に被写体像を形成し、信号変換素子は、形成された被写体像を電気的な画像信号に変換する。撮像装置1007は、図3を参照して説明したカメラ14に対応する。
通信装置1008は、例えば、通信網に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置1008は、無線LAN(Local Area Network)対応通信装置、LTE(Long Term Evolution)対応通信装置、有線による通信を行うワイヤー通信装置、またはブルートゥース通信装置を含んでもよい。通信装置1008は、例えば図3を参照して説明した通信部11に対応する。
<<5.むすび>>
以上、説明したように、本開示の実施形態によれば、ユーザの周辺に他の音源が存在する場合であっても、音声認識精度を向上させることが可能である。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態における各ステップは、必ずしもフローチャート図として記載された順序に沿って時系列に処理する必要はない。例えば、上記実施形態の処理における各ステップは、フローチャート図として記載した順序と異なる順序で処理されても、並列的に処理されてもよい。例えば、第三の実施形態では、周辺装置の状態を検知(取得)した後に所定の条件を満たす周辺装置を抽出する例を説明したが、所定の条件を満たす周辺装置を抽出した後に、抽出された周辺装置の状態を検知してもよい。
また、上記実施形態によれば、CPU1001、ROM1002、及びRAM1003などのハードウェアを、上述した情報処理装置1〜3の各構成と同様の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
雑音の音源となり得る他の装置の状態を検知する状態検知部と、
前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する状態制御部と、
を備える情報処理装置。
(2)
前記状態検知部は、収音に基づいて前記他の装置の状態を検知する、前記(1)に記載の情報処理装置。
(3)
前記状態検知部は、通信に基づいて前記他の装置の状態を検知する、前記(1)または(2)に記載の情報処理装置。
(4)
前記状態制御部は、前記他の装置の音量レベルを低下させる、前記(1)〜(3)のいずれか一項に記載の情報処理装置。
(5)
前記状態制御部は、前記他の装置の動作モードを変更させる、前記(1)〜(4)のいずれか一項に記載の情報処理装置。
(6)
前記状態制御部は、複数の前記他の装置から、前記他の装置の状態に基づいて抽出された前記他の装置の状態を制御する、前記(1)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記状態制御部は、さらに前記他の装置の位置に基づいて、前記他の装置の状態を制御する、前記(1)〜(6)のいずれか一項に記載の情報処理装置。
(8)
前記状態制御部は、収音に基づいて特定される雑音発生領域内に存在する他の装置の状態を制御する、前記(7)に記載の情報処理装置。
(9)
前記状態制御部は、さらに前記ユーザの位置に基づいて、前記他の装置の状態を制御する、前記(7)または(8)に記載の情報処理装置。
(10)
前記状態制御部は、収音部の位置を基準として、前記ユーザの位置と略同一方向に存在する他の装置の状態を制御する、前記(9)に記載の情報処理装置。
(11)
前記収音部により取得される音声から、前記ユーザの音声を分離して取得する、音源分離部をさらに備える、前記(10)に記載の情報処理装置。
(12)
前記状態制御部は、前記ユーザの位置の近傍に存在する他の装置の状態を制御する、前記(9)〜(11)のいずれか一項に記載の情報処理装置。
(13)
前記状態制御部は、さらに前記ユーザの発話に基づく音声認識結果に基づいて、前記他の装置の状態を制御する、前記(1)〜(12)のいずれか一項に記載の情報処理装置。
(14)
前記状態制御部は、さらに前記ユーザの発話に基づく意味解析結果に基づいて、前記他の装置の状態を制御する、前記(1)〜(13)のいずれか一項に記載の情報処理装置。
(15)
雑音の音源となり得る他の装置の状態を検知することと、
前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御することと、
を含む情報処理方法。
(16)
コンピュータに、
雑音の音源となり得る他の装置の状態を検知する機能と、
前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する機能と、
を実現させるための、プログラム。
1 情報処理装置
7 周辺装置
9 通信網
10 制御部
11 通信部
12 収音部
13 スピーカ
14 カメラ
15 測距センサ
16 投影部
17 記憶部
18 発光部
101 発話予測部
102 音声認識部
103 意味解析部
104 状態検知部
105 状態制御部
106 出力制御部
307 音場解析部
308 ユーザ位置取得部
309 音源分離部

Claims (16)

  1. 雑音の音源となり得る他の装置の状態を検知する状態検知部と、
    前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する状態制御部と、
    を備える情報処理装置。
  2. 前記状態検知部は、収音に基づいて前記他の装置の状態を検知する、請求項1に記載の情報処理装置。
  3. 前記状態検知部は、通信に基づいて前記他の装置の状態を検知する、請求項1に記載の情報処理装置。
  4. 前記状態制御部は、前記他の装置の音量レベルを低下させる、請求項1に記載の情報処理装置。
  5. 前記状態制御部は、前記他の装置の動作モードを変更させる、請求項1に記載の情報処理装置。
  6. 前記状態制御部は、複数の前記他の装置から、前記他の装置の状態に基づいて抽出された前記他の装置の状態を制御する、請求項1に記載の情報処理装置。
  7. 前記状態制御部は、さらに前記他の装置の位置に基づいて、前記他の装置の状態を制御する、請求項1に記載の情報処理装置。
  8. 前記状態制御部は、収音に基づいて特定される雑音発生領域内に存在する他の装置の状態を制御する、請求項7に記載の情報処理装置。
  9. 前記状態制御部は、さらに前記ユーザの位置に基づいて、前記他の装置の状態を制御する、請求項7に記載の情報処理装置。
  10. 前記状態制御部は、収音部の位置を基準として、前記ユーザの位置と略同一方向に存在する他の装置の状態を制御する、請求項9に記載の情報処理装置。
  11. 前記収音部により取得される音声から、前記ユーザの音声を分離して取得する、音源分離部をさらに備える、請求項10に記載の情報処理装置。
  12. 前記状態制御部は、前記ユーザの位置の近傍に存在する他の装置の状態を制御する、請求項9に記載の情報処理装置。
  13. 前記状態制御部は、さらに前記ユーザの発話に基づく音声認識結果に基づいて、前記他の装置の状態を制御する、請求項1に記載の情報処理装置。
  14. 前記状態制御部は、さらに前記ユーザの発話に基づく意味解析結果に基づいて、前記他の装置の状態を制御する、請求項1に記載の情報処理装置。
  15. 雑音の音源となり得る他の装置の状態を検知することと、
    前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御することと、
    を含む情報処理方法。
  16. コンピュータに、
    雑音の音源となり得る他の装置の状態を検知する機能と、
    前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する機能と、
    を実現させるための、プログラム。
JP2016019193A 2016-02-03 2016-02-03 情報処理装置、情報処理方法、及びプログラム Pending JP2017138476A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2016019193A JP2017138476A (ja) 2016-02-03 2016-02-03 情報処理装置、情報処理方法、及びプログラム
US16/070,360 US20190019513A1 (en) 2016-02-03 2016-12-14 Information processing device, information processing method, and program
DE112016006351.2T DE112016006351T5 (de) 2016-02-03 2016-12-14 Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
EP16889418.6A EP3413303B1 (en) 2016-02-03 2016-12-14 Information processing device, information processing method, and program
CN201680080421.7A CN108604447B (zh) 2016-02-03 2016-12-14 信息处理装置、信息处理方法和程序
PCT/JP2016/087190 WO2017134935A1 (ja) 2016-02-03 2016-12-14 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016019193A JP2017138476A (ja) 2016-02-03 2016-02-03 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2017138476A true JP2017138476A (ja) 2017-08-10

Family

ID=59499551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016019193A Pending JP2017138476A (ja) 2016-02-03 2016-02-03 情報処理装置、情報処理方法、及びプログラム

Country Status (6)

Country Link
US (1) US20190019513A1 (ja)
EP (1) EP3413303B1 (ja)
JP (1) JP2017138476A (ja)
CN (1) CN108604447B (ja)
DE (1) DE112016006351T5 (ja)
WO (1) WO2017134935A1 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019026313A1 (ja) 2017-08-02 2019-02-07 パナソニックIpマネジメント株式会社 情報処理装置、音声認識システム、及び、情報処理方法
JP2019128384A (ja) * 2018-01-22 2019-08-01 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
WO2019147034A1 (ko) * 2018-01-24 2019-08-01 삼성전자 주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
JP2019145000A (ja) * 2018-02-23 2019-08-29 パナソニックIpマネジメント株式会社 移動ロボット、およびロボットシステム
KR20200058354A (ko) * 2020-05-20 2020-05-27 삼성전자주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
WO2020129421A1 (ja) 2018-12-19 2020-06-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2020203067A1 (ja) 2019-03-29 2020-10-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN111801729A (zh) * 2018-01-03 2020-10-20 通用电子有限公司 用于引导控制设备中的语音输入的装置、系统和方法
JP2021521497A (ja) * 2018-05-04 2021-08-26 グーグル エルエルシーGoogle LLC 検出された口運動および/または注視に基づく自動化アシスタントの適応
WO2021234839A1 (ja) * 2020-05-20 2021-11-25 三菱電機株式会社 対話予兆検知装置、および、対話予兆検知方法
US11237794B2 (en) 2016-02-18 2022-02-01 Sony Corporation Information processing device and information processing method
JP2022120020A (ja) * 2021-06-08 2022-08-17 阿波▲羅▼智▲聯▼(北京)科技有限公司 マルチサウンドゾーン音声ウェイクアップ・認識方法及び装置、電子機器、記憶媒体、コンピュータプログラム
US11493992B2 (en) 2018-05-04 2022-11-08 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
US11500609B2 (en) 2019-07-23 2022-11-15 Samsung Electronics Co., Ltd. Audio signal control based on noise associated with state information received from an external device
US11688417B2 (en) 2018-05-04 2023-06-27 Google Llc Hot-word free adaptation of automated assistant function(s)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10930276B2 (en) 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
CN108489001A (zh) * 2018-04-26 2018-09-04 英飞凌(深圳)智慧科技有限公司 提高语音识别率的净化器控制方法及装置
CN111933130A (zh) * 2019-04-24 2020-11-13 阿里巴巴集团控股有限公司 语音识别方法、装置及系统
CN110556101A (zh) * 2019-07-30 2019-12-10 珠海格力电器股份有限公司 语音控制方法、装置、计算机设备和存储介质
JP2021107699A (ja) * 2019-12-27 2021-07-29 アイリスオーヤマ株式会社 送風機
JP2021117296A (ja) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム
CN112233673A (zh) * 2020-10-10 2021-01-15 广东美的厨房电器制造有限公司 厨房系统的控制方法、厨房系统和计算机可读存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
JP2000181500A (ja) * 1998-12-15 2000-06-30 Equos Research Co Ltd 音声認識装置及びエ―ジェント装置
US6606280B1 (en) * 1999-02-22 2003-08-12 Hewlett-Packard Development Company Voice-operated remote control
DE10002321C2 (de) * 2000-01-20 2002-11-14 Micronas Munich Gmbh Sprachgesteuerte Vorrichtung und System mit einer derartigen sprachgesteuerten Vorrichtung
US6728679B1 (en) * 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
JP4100309B2 (ja) * 2003-09-17 2008-06-11 株式会社ノーリツ 温水システム
US6926199B2 (en) * 2003-11-25 2005-08-09 Segwave, Inc. Method and apparatus for storing personalized computing device setting information and user session information to enable a user to transport such settings between computing devices
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
JP4602301B2 (ja) 2006-09-15 2010-12-22 シャープ株式会社 テレビ受像機
US8983640B2 (en) * 2009-06-26 2015-03-17 Intel Corporation Controlling audio players using environmental audio analysis
JP2012025270A (ja) * 2010-07-23 2012-02-09 Denso Corp 車両用の音量制御装置および音量制御装置用のプログラム
KR101590332B1 (ko) * 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
US8655307B1 (en) * 2012-10-26 2014-02-18 Lookout, Inc. System and method for developing, updating, and using user device behavioral context models to modify user, device, and application state, settings and behavior for enhanced user security
US8977555B2 (en) * 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
US9813808B1 (en) * 2013-03-14 2017-11-07 Amazon Technologies, Inc. Adaptive directional audio enhancement and selection
JP6466844B2 (ja) * 2013-08-29 2019-02-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器制御方法及び機器制御システム
JP6375521B2 (ja) * 2014-03-28 2018-08-22 パナソニックIpマネジメント株式会社 音声検索装置、音声検索方法、および表示装置
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
KR102047500B1 (ko) * 2014-11-27 2019-11-21 삼성전자주식회사 사용자의 할일 목록을 제공하는 시스템 및 방법
US9729118B2 (en) * 2015-07-24 2017-08-08 Sonos, Inc. Loudness matching
US9484030B1 (en) * 2015-12-02 2016-11-01 Amazon Technologies, Inc. Audio triggered commands
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11237794B2 (en) 2016-02-18 2022-02-01 Sony Corporation Information processing device and information processing method
WO2019026314A1 (ja) 2017-08-02 2019-02-07 パナソニックIpマネジメント株式会社 情報処理装置、音声認識システム、及び、情報処理方法
WO2019026313A1 (ja) 2017-08-02 2019-02-07 パナソニックIpマネジメント株式会社 情報処理装置、音声認識システム、及び、情報処理方法
US11145311B2 (en) 2017-08-02 2021-10-12 Panasonic Intellectual Property Management Co., Ltd. Information processing apparatus that transmits a speech signal to a speech recognition server triggered by an activation word other than defined activation words, speech recognition system including the information processing apparatus, and information processing method
US10803872B2 (en) 2017-08-02 2020-10-13 Panasonic Intellectual Property Management Co., Ltd. Information processing apparatus for transmitting speech signals selectively to a plurality of speech recognition servers, speech recognition system including the information processing apparatus, and information processing method
CN111801729A (zh) * 2018-01-03 2020-10-20 通用电子有限公司 用于引导控制设备中的语音输入的装置、系统和方法
JP2019128384A (ja) * 2018-01-22 2019-08-01 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
WO2019147034A1 (ko) * 2018-01-24 2019-08-01 삼성전자 주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
KR20190090281A (ko) * 2018-01-24 2019-08-01 삼성전자주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
US11656837B2 (en) 2018-01-24 2023-05-23 Samsung Electronics Co., Ltd. Electronic device for controlling sound and operation method therefor
KR102115222B1 (ko) * 2018-01-24 2020-05-27 삼성전자주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
JP2019145000A (ja) * 2018-02-23 2019-08-29 パナソニックIpマネジメント株式会社 移動ロボット、およびロボットシステム
JP2021521497A (ja) * 2018-05-04 2021-08-26 グーグル エルエルシーGoogle LLC 検出された口運動および/または注視に基づく自動化アシスタントの適応
US11493992B2 (en) 2018-05-04 2022-11-08 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
US11614794B2 (en) 2018-05-04 2023-03-28 Google Llc Adapting automated assistant based on detected mouth movement and/or gaze
US11688417B2 (en) 2018-05-04 2023-06-27 Google Llc Hot-word free adaptation of automated assistant function(s)
WO2020129421A1 (ja) 2018-12-19 2020-06-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2020203067A1 (ja) 2019-03-29 2020-10-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US11500609B2 (en) 2019-07-23 2022-11-15 Samsung Electronics Co., Ltd. Audio signal control based on noise associated with state information received from an external device
KR102168812B1 (ko) 2020-05-20 2020-10-22 삼성전자주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
WO2021234839A1 (ja) * 2020-05-20 2021-11-25 三菱電機株式会社 対話予兆検知装置、および、対話予兆検知方法
KR20200058354A (ko) * 2020-05-20 2020-05-27 삼성전자주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
JP2022120020A (ja) * 2021-06-08 2022-08-17 阿波▲羅▼智▲聯▼(北京)科技有限公司 マルチサウンドゾーン音声ウェイクアップ・認識方法及び装置、電子機器、記憶媒体、コンピュータプログラム

Also Published As

Publication number Publication date
CN108604447A (zh) 2018-09-28
EP3413303B1 (en) 2020-07-08
CN108604447B (zh) 2019-09-24
DE112016006351T5 (de) 2018-10-18
EP3413303A1 (en) 2018-12-12
US20190019513A1 (en) 2019-01-17
WO2017134935A1 (ja) 2017-08-10
EP3413303A4 (en) 2018-12-12

Similar Documents

Publication Publication Date Title
WO2017134935A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6669162B2 (ja) 情報処理装置、制御方法、およびプログラム
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
US10776070B2 (en) Information processing device, control method, and program
US20200092625A1 (en) Smart device cover
JP6516585B2 (ja) 制御装置、その方法及びプログラム
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2013080015A (ja) 音声認識装置および音声認識方法
JP2019518985A (ja) 分散したマイクロホンからの音声の処理
WO2017168936A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US10089980B2 (en) Sound reproduction method, speech dialogue device, and recording medium
WO2019077897A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2017175442A1 (ja) 情報処理装置、および情報処理方法
WO2016157993A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6678315B2 (ja) 音声再生方法、音声対話装置及び音声対話プログラム
JP2015194766A (ja) 音声認識装置および音声認識方法
CN112866480B (zh) 信息处理方法、装置、电子设备及存储介质
US11170754B2 (en) Information processor, information processing method, and program
JP2017182275A (ja) 情報処理装置、情報処理方法、及びプログラム
KR20210155505A (ko) 이동 가능한 전자장치 및 그 제어방법
WO2018173404A1 (ja) 情報処理装置および情報処理方法
WO2019187543A1 (ja) 情報処理装置および情報処理方法
JP2015222910A (ja) 照明装置および記録媒体