JP6725006B2 - 制御装置および機器制御システム - Google Patents
制御装置および機器制御システム Download PDFInfo
- Publication number
- JP6725006B2 JP6725006B2 JP2018553628A JP2018553628A JP6725006B2 JP 6725006 B2 JP6725006 B2 JP 6725006B2 JP 2018553628 A JP2018553628 A JP 2018553628A JP 2018553628 A JP2018553628 A JP 2018553628A JP 6725006 B2 JP6725006 B2 JP 6725006B2
- Authority
- JP
- Japan
- Prior art keywords
- control
- voice information
- information
- voice
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 23
- 238000010586 diagram Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 14
- 230000003287 optical effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
- H04M2201/405—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition involving speaker-dependent recognition
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Selective Calling Equipment (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明は、制御装置および機器制御システムに関する。
ユーザが発話した音声を音声認識することにより制御対象機器(TVやオーディオ機器等)を制御する機器制御システムが知られている。このような機器制御システムでは、音声認識処理を実行する音声認識サーバを用いて、ユーザが発話した音声から制御対象機器を動作させるための制御コマンドを生成している。
上述のような音声認識サーバを用いた機器制御を行う場合、制御対象となる制御対象機器の指定、その制御内容をユーザが逐一発話しなくてはならない。そこで、ユーザが制御対象機器の指定や制御内容をすべて発話しなくても制御対象機器を制御することができれば、ユーザにとって利便性が向上すると考えられる。例えば、いつも同じ制御対象機器を動作させる場合に制御対象機器の指定を省略できれば、ユーザの発話量を減らすことができユーザの利便性が向上する。また、ユーザが発話できない状況において発話せずに制御対象機器を動作させることができればユーザの利便性が向上する。
上記課題を解決するために、本発明の目的は、音声認識サーバを用いた機器制御を行う制御装置および機器制御システムであって、ユーザが制御内容をすべて発話しなくても制御対象機器を制御することのできる制御装置および機器制御システムを提供することにある。
上記課題を解決するために、本発明に係る制御装置は、ユーザによる制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、を含む。
また、本発明に係る機器制御システムは、第1制御装置と、第2制御装置と、制御対象機器と、を含む機器制御システムであって、前記第1制御装置は、ユーザによる前記制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、を含み、前記第2制御装置は、前記音声認識サーバで実行された音声認識処理の認識結果に基づいて、前記制御対象機器を動作させるための制御コマンドを生成する制御コマンド生成部と、前記制御コマンドに従って前記制御対象機器を制御する機器制御部と、を含む。
本発明によれば、音声認識サーバを用いた機器制御を行う制御装置および機器制御システムにおいて、ユーザが制御内容をすべて発話しなくても制御対象機器を制御することが可能となる。
以下、本発明の実施形態について図面を参照しながら説明する。図面では同一または同等の要素に同一の符号を付し、重複する説明を省略する。
[第1実施形態]
図1は、本発明の第1実施形態に係る機器制御システム1の全体構成の一例を示す図である。図1に示すように、第1実施形態に係る機器制御システム1は、第1制御装置10と、第2制御装置20と、音声認識サーバ30と、制御対象機器40(制御対象機器40A、制御対象機器40B)と、を含んで構成されている。第1制御装置10と、第2制御装置20と、音声認識サーバ30と、制御対象機器40とは、LANやインターネットなどの通信手段に接続されており、互いに通信されるようになっている。
図1は、本発明の第1実施形態に係る機器制御システム1の全体構成の一例を示す図である。図1に示すように、第1実施形態に係る機器制御システム1は、第1制御装置10と、第2制御装置20と、音声認識サーバ30と、制御対象機器40(制御対象機器40A、制御対象機器40B)と、を含んで構成されている。第1制御装置10と、第2制御装置20と、音声認識サーバ30と、制御対象機器40とは、LANやインターネットなどの通信手段に接続されており、互いに通信されるようになっている。
第1制御装置10(本発明の制御装置の一例に相当)は、制御対象機器40を制御するためのユーザからの各種指示を受け付ける装置であって、例えば、スマートフォン、タブレット、パーソナルコンピュータ等によって実現される。なお、第1制御装置10は、このような汎用装置に限定されず、専用装置として実現されてもよい。第1制御装置10は、第1制御装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである制御部、ROMやRAM等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部、ユーザによる操作入力を受け付ける操作部と、ユーザが発する音声を集音するマイクロホンユニットなどである集音部などを含んでいる。
第2制御装置20は、制御対象機器40を制御するための装置であって、例えば、クラウドサーバ等によって実現される。第2制御装置20は、第2制御装置20にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである制御部、ROMやRAM等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部などを含んでいる。
音声認識サーバ30は、音声認識処理を実行する装置であって、例えば、クラウドサーバ等によって実現される。音声認識サーバ30にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである制御部、ROMやRAM等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部などを含んでいる。
制御対象機器40は、ユーザが制御する対象となる機器である。制御対象機器40は、例えば、オーディオ機器またはオーディオビジュアル機器であり、ユーザからの指示に応じてコンテンツ(音声や映像)の再生等を行う。なお、制御対象機器40は、オーディオ機器またはオーディオビジュアル機器に限定されず、照明機器等他の用途に用いられる機器であってもよい。なお、図1では、2つの制御対象機器40(制御対象機器40A、制御対象機器40)が含まれているが、3つ以上の制御対象機器40が含まれていてもよいし、1つの制御対象機器40が含まれていてもよい。
図2は、第1実施形態に係る第1制御装置10と、第2制御装置20と、音声認識サーバ30とにより実行される機能の一例を示す機能ブロック図である。図2に示すように、第1実施形態に係る第1制御装置10は、機能的に、ユーザ指示取得部21と、制御音声情報生成部23と、制御音声情報出力部25と、補助音声情報記憶部26と、を含んで構成されている。これらの機能は、第1制御装置10の記憶部に記憶されたプログラムを制御部が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、通信ネットワークを介して提供されてもよい。補助音声情報記憶部26は、第1制御装置10の記憶部により実現される。なお、補助音声情報記憶部26は、外部の記憶装置により実現されてもよい。
また、第1実施形態に係る第2制御装置20は、機能的に、制御コマンド生成部27と、機器制御部28を含んで構成されている。これらの機能は、第2制御装置20の記憶部に記憶されたプログラムを制御部が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、通信ネットワークを介して提供されてもよい。
また、第1実施形態に係る音声認識サーバ30は、機能的に、音声認識処理部31を含んで構成されている。この機能は、音声認識サーバ30の記憶部に記憶されたプログラムを制御部が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、通信ネットワークを介して提供されてもよい。
第1制御装置10のユーザ指示取得部21は、ユーザによるユーザ指示を取得する。具体的には、ユーザ指示取得部21は、ユーザによる制御対象機器40を制御するためのユーザ指示を取得する。第1実施形態では、ユーザが第1制御装置10の集音部に対して発話することで、ユーザ指示取得部21はユーザの発話した音声(以下、発話音声情報とする)をユーザ指示として取得する。以下、第1実施形態におけるユーザ指示は、発話音声情報として説明する。
第1制御装置10の制御音声情報生成部23は、ユーザ指示取得部21が取得したユーザ指示に応じて、制御対象機器40に対する制御内容を示す音声情報である制御音声情報を生成する。具体的には、制御音声情報生成部23は、ユーザ指示取得部21がユーザ指示を取得することで、制御対象機器40に対する制御内容を示す制御音声情報を生成する。制御音声情報は、音声認識処理が可能な音声情報から構成されており、ユーザ指示とは異なる情報である補助音声情報を含んでいる。補助音声情報は、予め補助音声情報記憶部26に記憶されている。なお、ユーザ指示取得部21がユーザ指示を取得する毎に、予め定められた補助音声情報が生成されてもよい。
ここで、一般的に、音声認識により制御対象機器40を制御するためには、ユーザは、制御対象機器40を特定する情報と、制御対象機器40の動作を示す情報と、を含むユーザ指示を出す必要がある。したがって、例えばリビングにあるオーディオ機器でプレイリスト1を再生したい場合には、ユーザは「リビングでプレイリスト1を再生」と発話することとなる。この例では、「リビングで」が制御対象機器40を特定する情報となり、「プレイリスト1を再生」が制御対象機器40の動作を示す情報となる。ここで、ユーザが常にリビングにあるオーディオ機器を使用している場合には、「リビングで」の発話を省略したり、ユーザが常にプレイリスト1を再生する場合には、「プレイリスト1を」の発話を省略したりできれば、ユーザにとって利便性が向上する。このように、ユーザ指示の少なくとも一部を省略することができれば、ユーザにとって利便性が向上する。この点、第1実施形態においては、ユーザ指示の一部を省略可能な構成としている。以下、ユーザが「リビングで」といった制御対象機器40を特定する情報の発話を省略する場合を例にして説明するが、制御対象機器40の動作を示す情報の発話を省略する場合にも同様に適用できる。
ユーザ指示の一部を省略可能にするため、第1実施形態に係る第1制御装置10の制御音声情報生成部23は、発話音声情報に、補助音声情報を付加した制御音声情報を生成している。補助音声情報は、予め補助音声情報記憶部26に記憶された音声情報である。制御音声情報生成部23は、補助音声情報記憶部26から補助音声情報を取得して発話音声情報に付加する。補助音声情報記憶部26に記憶されている補助音声情報は、予めユーザが発話した音声情報であってもよいし、予め音声合成により生成した音声情報であってもよい。例えば、ユーザが制御対象機器40を特定する情報の発話を省略する場合には、制御対象機器40を特定する音声情報(ここでは、「リビングで」とする)を補助音声情報として補助音声情報記憶部26に記憶しておく。そして、ユーザが「プレイリスト1を再生」と発話すると、発話音声情報「プレイリスト1を再生」に、補助音声情報「リビングで」が付加された制御音声情報「プレイリスト1を再生リビングで」が生成される。つまり、ユーザが発話を省略した制御対象機器40を特定する情報が、補助音声情報として発話音声情報に付加される。
ここで、補助音声情報として、「リビングで」といった制御対象機器40が設置されている場所を示す場所情報を用いているが、この例に限定されず、制御対象機器40を一意に特定できる情報であればよい。例えば、制御対象機器40を一意に識別できる機器識別情報(MACアドレス、機器番号等)や、制御対象機器40の所有者を示すユーザ情報であってもよい。
また、補助音声情報記憶部26には、複数の補助音声情報が記憶されていてもよい。具体的には、複数のユーザそれぞれに対応する複数の補助音声情報が記憶されていてもよい。この場合、制御音声情報生成部23は、ユーザ指示を行ったユーザを特定し、特定したユーザに対応する補助音声情報を取得してもよい。ユーザの特定方法としては、発話音声情報の音声認識によりユーザを特定してもよいし、ユーザにシステムへのログイン操作を行わせることでユーザを特定してもよい。
また、補助音声情報は、予め補助音声情報記憶部26に記憶されている例に限定されず、制御音声情報生成部23が、ユーザ指示に応じて音声合成により生成してもよい。この場合、ユーザ指示に応じて生成される補助音声情報が定められており、上述の例でいえば、ユーザ指示を取得すると、制御音声情報生成部23は補助音声情報「リビングで」を生成する。なお、制御音声情報生成部23が、ユーザ指示を行ったユーザを特定し、特定したユーザに対応する補助音声情報を生成してもよい。
第1制御装置10の制御音声情報出力部25は、制御音声情報生成部23が生成した制御音声情報を、音声認識処理を実行する音声認識サーバ30へ出力する。
音声認識サーバ30の音声認識処理部31は、第1制御装置10から出力された制御音声情報に対して音声認識処理を実行する。そして、音声認識処理部31は、音声認識処理を実行した認識結果を第2制御装置20へ出力する。ここで、認識結果は、制御音声情報を音声認識により文字列に変換したテキスト情報とする。なお、認識結果は、テキスト情報に限定されず、第2制御装置20がその内容を認識できる形態であればよい。
第2制御装置20の制御コマンド生成部27は、音声認識サーバ30において実行された音声認識の認識結果に基づいて、制御対象機器40と制御内容とを特定する。そして、特定した制御対象機器40を、特定した制御内容で動作させるための制御コマンドを生成する。制御コマンドは、特定した制御対象機器40で処理可能な形式で生成される。例えば、制御音声情報「プレイリスト1を再生リビングで」を音声認識して得られた認識文字列「プレイリスト1を再生リビングで」から、制御対象機器40と、制御内容とを特定する。ここで、第2制御装置20には、制御対象機器40ごとに、制御対象機器40に対応する単語(場所、機器番号、ユーザ名など)を関連付けた、関連付け情報が予め記憶されていることとする。図3は、第1実施形態に係る関連付け情報の一例を示す図である。制御コマンド生成部27は、図3に示すような関連付け情報を参照することで、認識文字列に含まれる単語から制御対象機器40を特定することができる。例えば、制御コマンド生成部27は、認識文字列に含まれる単語「リビングで」から機器Aを特定することができる。また、制御コマンド生成部27は、公知の自然言語処理を用いて、認識文字列から制御内容を特定することができる。
第2制御装置20の機器制御部28は、制御コマンドに従って制御対象機器40を制御する。具体的には、機器制御部28は、特定した制御対象機器40に対して制御コマンドを送信する。そして、制御対象機器40は、第2制御装置20から送信された制御コマンドに従って処理を実行する。なお、制御対象機器40が第2制御装置20に対して制御コマンドの取得要求を送信してもよい。そして、第2制御装置20が、取得要求に応じて制御対象機器40に対して制御コマンドを送信してもよい。
なお、音声認識サーバ30が、音声認識処理により制御対象機器40と制御内容とを特定し、特定した情報を認識結果として第2制御装置20へ出力してもよい。
第1実施形態では、音声認識サーバ30において音声認識を行うため、第1制御装置10では、ユーザ指示を取得した段階でユーザ指示の具体的内容まで把握することはできない。したがって、制御音声情報生成部23は、ユーザが発話した内容によらず、予め定められた補助音声情報を発話音声情報に付加するだけである。例えばユーザが「ベッドルームでプレイリスト1を再生」と発話した場合には、制御音声情報生成部23は、発話音声情報「ベッドルームでプレイリスト1を再生」に、補助音声情報「リビングで」を付加した制御音声情報「ベッドルームでプレイリスト1を再生リビングで」を生成することとなる。このような制御音声情報を音声認識して得られる認識文字列を解析すると、制御の対象となる制御対象機器40が複数特定されてしまい、ベッドルームの機器Bで再生するのか、リビングの機器Aで再生するのか、判別できない。そこで、制御の対象となる制御対象機器40が複数特定される場合にも1の制御対象機器40を特定できるように、発話音声情報に対して補助音声情報を付加する位置が定められていることとする。具体的には、制御音声情報生成部23は、発話音声情報の先頭または末尾に補助音声情報を付加する。そして、制御音声情報生成部23が発話音声情報の末尾に補助音声情報を付加する場合には、制御コマンド生成部27は、制御音声情報を音声認識して得られる認識文字列において、最先に出現する制御対象機器40に対応する単語から制御対象機器40を特定する。また、制御音声情報生成部23が発話音声情報の先頭に補助音声情報を付加する場合には、制御コマンド生成部27は、制御音声情報を音声認識して得られる認識文字列において、最後に出現する制御対象機器40に対応する単語から制御対象機器40を特定する。これにより、制御の対象となる制御対象機器40が複数特定される場合にも1の制御対象機器40を特定することができる。さらには、ユーザが発話した内容を優先して制御対象機器40を特定することができる。
なお、制御音声情報生成部23が発話音声情報の末尾に補助音声情報を付加する場合に、制御コマンド生成部27は、制御音声情報を音声認識して得られる文字列において、最後に出現する制御対象機器40を制御対象として特定してもよい。また、制御音声情報生成部23が発話音声情報の先頭に補助音声情報を付加する場合に、制御コマンド生成部27は、制御音声情報を音声認識して得られる文字列において、最先に出現する制御対象機器40を制御対象として特定してもよい。これにより、補助音声情報の内容を優先して制御対象機器40を特定することができる。
なお、第1制御装置10において発話音声情報の音声認識を行えてもよい。この場合、制御音声情報生成部23が、発話音声情報に対して音声認識を行うことにより、発話音声情報に制御対象機器40を特定可能な情報が含まれるか否かを判断する判断部を含んでいてもよい。そして、発話音声情報に制御対象機器40を特定可能な情報が含まれないと判断された場合に、制御音声情報生成部23は、発話音声情報に補助音声情報を付加して制御音声情報を生成してもよい。これにより、制御音声情報を音声認識して得られる認識文字列の解析において、制御対象となる制御対象機器40が複数特定されることを防ぐことができる。
ここで、第1実施形態に係る機器制御システム1が実行する処理の一例を図4のシーケンス図を用いて説明する。
第1制御装置10のユーザ指示取得部21は、ユーザからのユーザ指示(第1実施形態においては発話音声情報)を取得する(S101)。
第1制御装置10の制御音声情報生成部23は、S101において取得したユーザ指示に応じて制御音声情報を生成する(S102)。第1実施形態においては、S101において取得した発話音声情報に、補助音声情報を付加した制御音声情報を生成する。
第1制御装置10の制御音声情報出力部25は、S102において生成された制御音声情報を音声認識サーバ30へ出力する(S103)。
音声認識サーバ30の音声認識処理部31は、第1制御装置10から出力された制御音声情報に対して音声認識処理を実行し、その認識結果を第2制御装置20へ出力する(S104)。
第2制御装置20の制御コマンド生成部27は、音声認識サーバ30から出力された認識結果に基づいて、制御対象となる制御対象機器40を特定し、当該制御対象機器40を動作させるための制御コマンドを生成する(S105)。
第2制御装置20の機器制御部28は、S105において生成された制御コマンドを、特定した制御対象機器40に対して送信する(S106)。
制御対象機器40は、第2制御装置20から送信された制御コマンドに従って処理を実行する(S107)。
[第2実施形態]
第2実施形態では、ユーザ指示取得部21が、ユーザによる操作部に対する操作をユーザ指示として受け付ける場合について説明する。第2実施形態に係る機器制御システム1の全体構成は、図1に示した第1実施形態に係る構成と同一であるため、重複する説明は省略する。
第2実施形態では、ユーザ指示取得部21が、ユーザによる操作部に対する操作をユーザ指示として受け付ける場合について説明する。第2実施形態に係る機器制御システム1の全体構成は、図1に示した第1実施形態に係る構成と同一であるため、重複する説明は省略する。
図5は、第2実施形態の第1の例に係る第1制御装置10と、第2制御装置20と、音声認識サーバ30と、により実行される機能の一例を示す機能ブロック図である。第2実施形態の第1の例に係る機能ブロック図は、図2に示した第1実施形態に係る機能ブロック図とは、第1制御装置10の構成に差異がある点を除けば、同一のものである。従って、第1実施形態と同等の構成には同符号を付し、重複する説明は省略する。
第2実施形態の第1の例では、ユーザ指示取得部21は、ユーザが第1制御装置10の操作部に対して操作を行うことで、ユーザによる操作部に対する操作を示す情報(以下、操作指示情報)をユーザ指示として受け付ける。以下、第2実施形態におけるユーザ指示は、操作指示情報として説明する。例えば、第1制御装置10の操作部として1以上のボタンが設けられている場合は、ユーザがいずれかのボタンを押下することで、ユーザ指示取得部21が押下されたボタンを示す操作指示情報を受け付ける。なお、第1制御装置10の操作部はボタンに限定されず、表示部に備えられるタッチパネルであってもよい。また、第1制御装置10とは別体の携帯機器(例えば、スマートフォンとする)を用いて第1制御装置10を遠隔操作してもよい。この場合は、スマートフォンでアプリケーションを実行することにより、図6に示すように操作指示画面60が表示部に表示される。図6は、第1制御装置10の表示部に表示される操作指示画面60の一例を示す図である。操作指示画面60は、ユーザからの操作を受け付ける項目画像62(例えば、プリセット1、プリセット2、プリセット3)を含んでいる。項目画像62は、第1制御装置10のボタンに対応付けられている。そして、ユーザが、項目画像62に対してタップ等の操作を行うことで、ユーザ指示取得部21が操作対象となった項目画像62を示す操作指示情報を受け付ける。なお、第1制御装置10が表示を有する装置(例えば、スマートフォン)の場合は、図6に示したような操作指示画面60を用いて、ユーザが操作を行えばよい。
第2実施形態の第1の例では、制御音声情報生成部23は、操作指示情報に対応し、予め記憶部に記憶されている補助音声情報に基づいて制御音声情報を生成する。図7は、第2実施形態に係る補助音声情報記憶部26の一例を示す図である。第2実施形態に係る補助音声情報記憶部26では、図7に示すように、操作指示情報と、補助音声情報と、が対応付けられて管理されている。制御音声情報生成部23は、図7に示す補助音声情報記憶部26から、ユーザ指示取得部21が取得した操作指示情報に対応付けられている補助音声情報を取得して制御音声情報を生成する。言い換えれば、制御音声情報生成部23は、ユーザ指示取得部21が取得した操作指示情報に対応付けられている補助音声情報を制御音声情報とする。なお、制御音声情報生成部23は、操作指示情報に対応付けられている補助音声情報を再生して再度録音したものを制御音声情報として生成してもよい。このように、制御音声情報生成部23が予め記憶されている補助音声情報をそのまま制御音声情報とすることで、ユーザの発話がなくても音声認識サーバ30を用いた音声認識による機器制御を行うことが可能となる。
図5において補助音声情報は、第1制御装置10の補助音声情報記憶部26に記憶されているが、この例に限定されず、補助音声情報は、第1制御装置10とは別体の携帯機器(スマートフォン等)に記憶されてもよい。補助音声情報が携帯機器に記憶されている場合は、携帯機器から第1制御装置10へ補助音声情報を送信し、第1制御装置10が受信した補助音声情報を制御音声情報として音声認識サーバ30へ出力すればよい。また、補助音声情報は、他のクラウドサーバに記憶されてもよい。補助音声情報が他のクラウドサーバに記憶されている場合も、第1制御装置10がクラウドサーバから補助音声情報を取得してから、音声認識サーバ30へ出力すればよい。
第1制御装置10の制御音声情報出力部25は、制御音声情報生成部23が生成した制御音声情報を、音声認識処理を実行する音声認識サーバ30へ出力する。第2実施形態では、第1制御装置10は、制御音声情報出力部25が出力した制御音声情報が示す音声情報を履歴情報記憶部29に保持しておく。第1制御装置10は、制御音声情報を出力した時刻に対応付けて制御音声情報が示す音声情報を保持することで、制御音声情報の使用履歴を示す履歴情報を生成する。なお、制御音声情報出力部25が出力した制御音声情報のうち、音声認識サーバ30の音声認識処理部31で音声認識処理が成功した制御音声情報を履歴情報として保持してもよい。これにより音声認識処理が成功する音声情報のみを履歴情報として保持しておくことができる。
ここで、第1制御装置10の制御音声情報生成部23は、履歴情報に保持されている音声情報に基づいて制御音声情報を生成してもよい。例えば、スマートフォン等の表示部に履歴情報を表示し、ユーザが履歴情報のいずれかを選択することで、第1制御装置10のユーザ指示取得部21が選択された履歴情報を操作指示情報として取得してもよい。そして、第1制御装置10の制御音声情報生成部23は、履歴情報記憶部29からユーザが選択した履歴情報に対応する音声情報を取得して制御音声情報を生成してもよい。履歴情報から制御音声情報を生成することで、一度音声認識処理が成功した音声情報を制御音声情報とすることができるため、音声認識処理の失敗が生じにくくなる。
図7に示す補助音声情報記憶部26で管理される補助音声情報は、第1制御装置10の補助音声情報登録部15により登録される。具体的には、補助音声情報登録部15は、第1制御装置10に設けられているボタンに対応付けて補助音声情報を登録する。ボタンが複数ある場合は、複数のボタンそれぞれに対応付けて補助音声情報を登録する。例えば、ユーザが第1制御装置10のボタンを長押しし、当該ボタンに登録したい制御内容を発話することで、補助音声情報登録部15が、当該ボタンを示す情報(例えば、プリセット1)と、発話した制御内容を示す音声情報(例えば、「リビングでプレイリスト1を再生」)とを対応付けて補助音声情報記憶部26に登録する。ここで、プリセット1に既に補助音声情報が対応付けられている場合は、補助音声情報登録部15は、最新の補助音声情報で上書きして登録する。また、ユーザが第1制御装置10のボタンを長押しすることで履歴情報を呼び出してもよい。そして、ユーザが履歴情報から音声情報を選択することで、補助音声情報登録部15が、当該ボタンを示す情報と、履歴情報から選択した音声情報とを対応付けて補助音声情報記憶部26に登録してもよい。また、第1制御装置10と相互に通信可能な第1制御装置10とは別体の携帯機器(スマートフォン等)を用いて、第1制御装置10に設けられているボタンに対応付けて補助音声情報を登録してもよい。
また、補助音声情報登録部15は、履歴情報から補助音声情報を登録してもよい。具体的には、履歴情報を参照し、ユーザが登録したい音声情報を選択した後に、対応付ける操作指示情報を選択することで、補助音声情報登録部15が、当該操作指示情報と履歴情報から選択した音声情報とを対応付けて補助音声情報記憶部26に登録してもよい。
また、第1制御装置10をスマートフォン等により遠隔操作する場合や、第1制御装置10がスマートフォン等である場合は、スマートフォンで実行するアプリケーション上で登録を行うことができる。例えば、図5に示した操作指示画面において、ユーザが項目画像を長押しし、当該項目画像に登録したい制御内容を発話することで、補助音声情報登録部15が、当該項目画像を示す情報(例えば、プリセット2)と、発話した制御内容を示す音声情報(例えば、「ベッドルームで電源OFF」)とを対応付けて補助音声情報記憶部26に登録する。ここで、プリセット2に既に補助音声情報が対応付けられている場合は、補助音声情報登録部15は、最新の補助音声情報を上書きして登録する。また、ユーザが項目画像を長押しすることで履歴情報を呼び出してもよい。そして、ユーザが履歴情報から音声情報を選択することで、補助音声情報登録部15が、当該項目画像を示す情報と、履歴情報から選択した音声情報とを対応付けて補助音声情報記憶部26に登録してもよい。また、図6に示した操作指示画面における項目画像の名称(プリセット1、プリセット2、プリセット3)は、ユーザが任意に変更することができる。また名称を変更する際に、登録されている音声情報を再生させ内容を聞いて確認しながら名称を変更しても良い。
次に、第2実施形態の第2の例では、第1制御装置10は制御音声情報生成部23を含まない。図8は、第2実施形態の第2の例に係る第1制御装置10と、第2制御装置20と、音声認識サーバ30と、により実行される機能の一例を示す機能ブロック図である。第2実施形態の第2の例に係る機能ブロック図は、図5に示した第2実施形態の第1の例に係る機能ブロック図とは、第1制御装置10の構成に差異がある点を除けば、同一のものである。従って、第2実施形態の第1の例と同等の構成には同符号を付し、重複する説明は省略する。
第2実施形態の第2の例では、第1制御装置10の制御音声情報出力部25は、補助音声情報記憶部26から、ユーザ指示取得部21が取得した操作指示情報に対応付けられている補助音声情報を取得する。そして、制御音声情報出力部25は、補助音声情報記憶部26から取得した補助音声情報を音声認識サーバ30へ出力する。つまり、制御音声情報出力部25は、補助音声情報記憶部26に記憶されている補助音声情報をそのまま制御音声情報として音声認識サーバ30へ出力する。また、制御音声情報出力部25は、履歴情報記憶部29から取得した音声情報をそのまま制御音声情報として音声認識サーバ30へ出力してもよい。このように、制御音声情報出力部25が予め記憶されている補助音声情報をそのまま制御音声情報として出力することで、ユーザの発話がなくても音声認識サーバ30を用いた音声認識による機器制御を行うことが可能となる。
ここで、第2実施形態の第2の例に係る機器制御システム1が実行する処理の一例を図9のシーケンス図を用いて説明する。
第1制御装置10の補助音声情報登録部15は、補助音声情報を補助音声情報記憶部26に登録する(S201)。
第1制御装置10のユーザ指示取得部21は、ユーザからのユーザ指示(第2実施形態においては操作指示情報)を取得する(S202)。
第1制御装置10の制御音声情報出力部25は、補助音声情報記憶部26から、S202において取得した操作指示情報に対応する補助音声情報を取得して、音声認識サーバ30へ出力する(S203)。
音声認識サーバ30の音声認識処理部31は、第1制御装置10から出力された制御音声情報に対して音声認識処理を実行し、その認識結果を第2制御装置20へ出力する(S204)。
第2制御装置20の制御コマンド生成部27は、音声認識サーバ30から出力された認識結果に基づいて、制御対象となる制御対象機器40を特定し、当該制御対象機器40を動作させるための制御コマンドを生成する(S205)。
第2制御装置20の機器制御部28は、S105において生成された制御コマンドを、特定した制御対象機器40に対して送信する(S206)。
制御対象機器40は、第2制御装置20から送信された制御コマンドに従って処理を実行する(S207)。
このように、第2実施形態では、第1制御装置10の操作部、アプリケーションの項目画像といった操作指示情報に対応付けて補助音声情報を予め登録しておくことで、ユーザはボタン操作をするだけで発話することなく制御対象機器40を制御することが可能となる。これにより、ノイズの多い環境、声を発することができない環境や、制御対象機器40が遠くにある場合でも、音声認識サーバを用いた音声認識による機器制御を実行することができる。
特に、クラウドサーバである第2制御装置20および音声認識サーバ30を介して、第1制御装置10とは異なる機器に対する制御を行う場合や、タイマー制御、スケジュールが定められた制御を行う場合に、予め登録した補助音声情報を用いて制御することは有効である。第2制御装置20および音声認識サーバ30を介して機器を制御する場合、制御コマンドは第2制御装置20から対象の機器に対してだけ送信されるため、第1制御装置10は自装置とは異なる機器に対する制御コマンドを保持することができない。したがって、第1制御装置10から自装置とは異なる機器を制御する場合には、制御コマンドを用いた制御をすることができないため、登録した補助音声情報を用いて制御することが有効である。
また、タイマー制御を行う場合や、スケジュールが定められた制御を行う場合には、制御指示が複雑になるため登録した補助音声情報を用いて制御することが有効である。例えば、「部屋の明かりをオフしてから、30分後にテレビの電源ONにして、チャンネルを2chに変更し、徐々に音量をあげる」といった時間情報が対応付けられた複数の動作を示す情報を含むユーザ指示(スケジュールが定められたユーザ指示)を、第1制御装置10が1つの制御コマンドとして出力することは難しい。ここで、複数の動作は、1の制御対象機器40における動作であってもよいし、複数の制御対象機器40における動作であってもよい。しかし、第2制御装置20および音声認識サーバ30では、上述のようなスケジュールが定められたユーザ指示を音声情報として取得すれば、音声認識処理を実行することにより、定められたスケジュールに従って制御コマンドを各機器に送信することができる。したがって、時間情報が対応付けられた複数の動作を示す情報を含み、スケジュールが定められた制御を示す補助音声情報を予め登録しておくことで、本来第1制御装置10からは指示できないような複雑なユーザ指示を容易に行うことが可能となる。
また、第2制御装置20または音声認識サーバ30の機能を指定するようなユーザ指示(例えば、「天気に応じた音楽を再生する」)も、第1制御装置10が制御コマンドとして出力することは難しいため、補助音声情報として予め登録しておくことが有効である。
また、複雑な制御指示であっても、ユーザは発話するだけで補助音声情報として登録することができるのでユーザにとって利便性が高い。そして、登録された補助音声情報は、再生するだけでその制御内容を確認することができるので、制御内容の表示が難しい制御コマンドと比較してユーザにとって利便性が高い。
なお、本発明は、上述の実施形態に限定されるものではない。
例えば、第1実施形態において、第1制御装置10は、ローカルサーバやクラウドサーバとして実現されてもよい。この場合、第1制御装置10とは別体の、ユーザ指示を受け付ける受付装置50が用いられる。図8は、第1実施形態に係る第1制御装置10と、第2制御装置20と、音声認識サーバ30と、受付装置50とにより実行される機能の一例を示す機能ブロック図である。図8に示すように、受付装置50は、ユーザからのユーザ指示を受け付けるユーザ指示受付部51を含んで構成されている。ユーザ指示受付部51が、ユーザによるユーザ指示を受け付けると、ユーザ指示は第1制御装置10へ送信される。第1制御装置10のユーザ指示取得部21は、受付装置50から送信されたユーザ指示を取得する。
また、第2実施形態において、第1制御装置10は、ローカルサーバやクラウドサーバとして実現されてもよい。この場合、第1制御装置10とは別体の、ユーザ指示を受け付ける受付装置50が用いられる。図9は、第2実施形態に係る第1制御装置10と、第2制御装置20と、音声認識サーバ30と、受付装置50とにより実行される機能の一例を示す機能ブロック図である。図9に示すように、受付装置50は、ユーザからのユーザ指示を受け付けるユーザ指示受付部51と、補助音声情報登録部15とを含んで構成されている。ユーザ指示受付部51が、ユーザによるユーザ指示を受け付けると、ユーザ指示は第1制御装置10へ送信される。第1制御装置10のユーザ指示取得部21は、受付装置50から送信されたユーザ指示を取得する。
また、上述の第1実施形態および第2実施形態では、第2制御装置20と音声認識サーバ30とが別体の装置である例を示したが、第2制御装置20と音声認識サーバ30とが一体の装置であってもよい。
また、上述の第1実施形態では、制御対象機器40を特定する情報や、制御対象機器40の動作を示す情報を補助音声情報としたが、この例に限定されない。例えば、補助音声情報は、ユーザが発話した方向を示す角度情報や、ユーザを識別するためのユーザ識別情報等であってもよい。そして、ユーザが発話下方向を示す角度情報を付加した制御音声情報が生成された場合は、当該角度情報に基づいて制御対象機器40を制御することができる。例えば、制御対象機器40に備えられるスピーカを角度情報に基づいてユーザが発話した方向に向けることができる。ユーザ識別情報を付加した制御音声情報が生成された場合は、ユーザ識別情報の音声認識結果に応じて制御対象機器40を制御することができる。例えば、ユーザ識別情報によりユーザ識別が成功した場合は、制御対象機器40にユーザ識別が成功したユーザ名を表示したり、ユーザ識別が成功したことを示すLED点灯をしたりすることができる。
Claims (13)
- ユーザによる制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、
前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、
前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、
を含む制御装置。 - 前記ユーザ指示は、前記ユーザが発話した音声である発話音声情報であり、
前記制御音声情報生成部は、前記発話音声情報に前記補助音声情報を付加した前記制御音声情報を生成する、
請求項1に記載の制御装置。 - 前記制御音声情報は、前記発話音声情報の先頭または末尾に前記補助音声情報を付加して生成される、
請求項2に記載の制御装置。 - 前記発話音声情報に前記制御対象機器を特定可能な情報が含まれるか否かを判断する判断部、をさらに含み、
前記判断部が前記発話音声情報に前記制御対象機器を特定可能な情報が含まれないと判断した場合に、前記生成部は前記発話音声情報に前記補助音声情報を付加した前記制御音声情報を生成する、
請求項2または3に記載の制御装置。 - 前記補助音声情報は、前記制御対象機器を一意に特定する情報である、
請求項1から4のいずれか一項に記載の制御装置。 - 前記補助音声情報は、前記制御対象機器の動作を示す情報である、
請求項1から4のいずれか一項に記載の制御装置。 - 前記ユーザ指示は、前記ユーザによる操作部に対する操作を示す操作指示情報であり、
前記制御音声情報生成部は、前記操作指示情報に対応し、予め記憶部に記憶されている前記補助音声情報に基づいて前記制御音声情報を生成する、
請求項1に記載の制御装置。 - 前記操作指示情報と、前記補助音声情報とを対応付けて前記記憶部に登録する補助音声情報登録部、をさらに含む、
請求項7に記載の制御装置。 - 制御音声情報出力部が出力した制御音声情報を示す音声情報を保持する履歴情報記憶部、をさらに含み、
前記制御音声情報生成部は、前記履歴情報記憶部に保持されている音声情報に基づいて前記制御音声情報を生成する、
請求項7に記載の制御装置。 - 前記補助音声情報は、時間情報が対応付けられた複数の動作を示す情報を含む、
請求項7から9のいずれか一項に記載の制御装置。 - 前記制御音声情報が音声認識処理されることにより得られた制御コマンドに従って前記制御対象機器を制御する機器制御部、をさらに含む、
請求項1から8のいずれか一項に記載の制御装置。 - 前記制御対象機器は、オーディオ機器である、
請求項1から11のいずれか一項に記載の制御装置。 - 第1制御装置と、第2制御装置と、制御対象機器と、を含む機器制御システムであって、
前記第1制御装置は、
ユーザによる前記制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、
前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、
前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、を含み、
前記第2制御装置は、
前記音声認識サーバで実行された音声認識処理の認識結果に基づいて、前記制御対象機器を動作させるための制御コマンドを生成する制御コマンド生成部と、
前記制御コマンドに従って前記制御対象機器を制御する機器制御部と、を含む、
機器制御システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/085976 WO2018100743A1 (ja) | 2016-12-02 | 2016-12-02 | 制御装置および機器制御システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018100743A1 JPWO2018100743A1 (ja) | 2019-08-08 |
JP6725006B2 true JP6725006B2 (ja) | 2020-07-15 |
Family
ID=62242023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018553628A Active JP6725006B2 (ja) | 2016-12-02 | 2016-12-02 | 制御装置および機器制御システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180182399A1 (ja) |
JP (1) | JP6725006B2 (ja) |
WO (1) | WO2018100743A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6760394B2 (ja) | 2016-12-02 | 2020-09-23 | ヤマハ株式会社 | コンテンツ再生機器、収音機器、及びコンテンツ再生システム |
KR102471493B1 (ko) * | 2017-10-17 | 2022-11-29 | 삼성전자주식회사 | 전자 장치 및 음성 인식 방법 |
JP6962158B2 (ja) | 2017-12-01 | 2021-11-05 | ヤマハ株式会社 | 機器制御システム、機器制御方法、及びプログラム |
JP7192208B2 (ja) * | 2017-12-01 | 2022-12-20 | ヤマハ株式会社 | 機器制御システム、デバイス、プログラム、及び機器制御方法 |
JP7067082B2 (ja) | 2018-01-24 | 2022-05-16 | ヤマハ株式会社 | 機器制御システム、機器制御方法、及びプログラム |
US10803864B2 (en) | 2018-05-07 | 2020-10-13 | Spotify Ab | Voice recognition system for use with a personal media streaming appliance |
US11308947B2 (en) * | 2018-05-07 | 2022-04-19 | Spotify Ab | Voice recognition system for use with a personal media streaming appliance |
CN110956961A (zh) * | 2018-09-27 | 2020-04-03 | 中强光电股份有限公司 | 智能语音系统及利用智能语音系统控制投影机的方法 |
JP2022028094A (ja) * | 2018-12-21 | 2022-02-15 | ソニーグループ株式会社 | 情報処理装置、制御方法、情報処理端末、情報処理方法 |
US11869494B2 (en) * | 2019-01-10 | 2024-01-09 | International Business Machines Corporation | Vowel based generation of phonetically distinguishable words |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS53166306U (ja) * | 1978-06-08 | 1978-12-26 | ||
JPH01318444A (ja) * | 1988-06-20 | 1989-12-22 | Canon Inc | 自動ダイヤル装置 |
JP2002315069A (ja) * | 2001-04-17 | 2002-10-25 | Misawa Homes Co Ltd | 遠隔制御装置 |
US7995768B2 (en) * | 2005-01-27 | 2011-08-09 | Yamaha Corporation | Sound reinforcement system |
US8243950B2 (en) * | 2005-11-02 | 2012-08-14 | Yamaha Corporation | Teleconferencing apparatus with virtual point source production |
US20110054894A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Speech recognition through the collection of contact information in mobile dictation application |
US8290780B2 (en) * | 2009-06-24 | 2012-10-16 | International Business Machines Corporation | Dynamically extending the speech prompts of a multimodal application |
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US20130089300A1 (en) * | 2011-10-05 | 2013-04-11 | General Instrument Corporation | Method and Apparatus for Providing Voice Metadata |
CN103077165A (zh) * | 2012-12-31 | 2013-05-01 | 威盛电子股份有限公司 | 自然语言对话方法及其系统 |
CN103020047A (zh) * | 2012-12-31 | 2013-04-03 | 威盛电子股份有限公司 | 修正语音应答的方法及自然语言对话系统 |
US9779752B2 (en) * | 2014-10-31 | 2017-10-03 | At&T Intellectual Property I, L.P. | Acoustic enhancement by leveraging metadata to mitigate the impact of noisy environments |
US9811314B2 (en) * | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
-
2016
- 2016-12-02 JP JP2018553628A patent/JP6725006B2/ja active Active
- 2016-12-02 WO PCT/JP2016/085976 patent/WO2018100743A1/ja active Application Filing
-
2018
- 2018-02-23 US US15/903,436 patent/US20180182399A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2018100743A1 (ja) | 2018-06-07 |
JPWO2018100743A1 (ja) | 2019-08-08 |
US20180182399A1 (en) | 2018-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6725006B2 (ja) | 制御装置および機器制御システム | |
US11488591B1 (en) | Altering audio to improve automatic speech recognition | |
KR102304052B1 (ko) | 디스플레이 장치 및 그의 동작 방법 | |
US11170774B2 (en) | Virtual assistant device | |
EP2826261B1 (en) | Spatial audio signal filtering | |
WO2020079941A1 (ja) | 情報処理装置及び情報処理方法、並びにコンピュータプログラム | |
JP7406874B2 (ja) | 電子機器、その制御方法、およびそのプログラム | |
WO2019239656A1 (ja) | 情報処理装置および情報処理方法 | |
KR20220037819A (ko) | 복수의 기동어를 인식하는 인공 지능 장치 및 그 방법 | |
JP2010109898A (ja) | 撮影制御装置、撮影制御方法及びプログラム | |
JP6624476B2 (ja) | 翻訳装置および翻訳システム | |
WO2016103465A1 (ja) | 音声認識システム | |
JP7417272B2 (ja) | 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム | |
US10438582B1 (en) | Associating identifiers with audio signals | |
JP6568351B2 (ja) | カラオケシステム、プログラム及びカラオケ音声再生方法 | |
US10592204B2 (en) | User interface device and method, and sound-enabled operation system | |
KR102472921B1 (ko) | 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치 | |
Panek et al. | Challenges in adopting speech control for assistive robots | |
JP7331645B2 (ja) | 情報提供方法および通信システム | |
US9037467B2 (en) | Speech effects | |
JP2015187738A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
WO2018100742A1 (ja) | コンテンツ再生機器、コンテンツ再生システム、及びコンテンツ再生機器の制御方法 | |
JP2020061046A (ja) | 音声操作装置、音声操作方法、コンピュータプログラムおよび音声操作システム | |
JP2019179081A (ja) | 会議支援装置、会議支援制御方法およびプログラム | |
JP7471979B2 (ja) | 会議支援システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200608 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6725006 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |