JP6700338B2 - 情報処理装置、情報処理方法、情報処理プログラム - Google Patents

情報処理装置、情報処理方法、情報処理プログラム Download PDF

Info

Publication number
JP6700338B2
JP6700338B2 JP2018116467A JP2018116467A JP6700338B2 JP 6700338 B2 JP6700338 B2 JP 6700338B2 JP 2018116467 A JP2018116467 A JP 2018116467A JP 2018116467 A JP2018116467 A JP 2018116467A JP 6700338 B2 JP6700338 B2 JP 6700338B2
Authority
JP
Japan
Prior art keywords
environment
user
information
information processing
instruction input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018116467A
Other languages
English (en)
Other versions
JP2019219886A (ja
Inventor
祐介 松下
祐介 松下
亮大 河村
亮大 河村
悦子 坂本
悦子 坂本
愛絵 広沢
愛絵 広沢
裕人 中井
裕人 中井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2018116467A priority Critical patent/JP6700338B2/ja
Publication of JP2019219886A publication Critical patent/JP2019219886A/ja
Application granted granted Critical
Publication of JP6700338B2 publication Critical patent/JP6700338B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ユーザからの音声指示に基づいて制御を行う情報処理装置、情報処理方法、及び、情報処理プログラムに関する。
従来、人工知能を利用した機器の開発が目覚ましい。その中には、ユーザからの音声による指示に従って、指示された内容を実行する機器がある。例えば、ユーザからの音声による指示に従って、音楽を再生したり、アラームを実行したり、計算をしたり、他の機器(例えば、照明装置)の制御を行ったりするスマートスピーカーが存在する。特許文献1には、ユーザが置かれている環境として、ユーザの現在位置及び現在時刻に基づいて、ユーザに音声入力を促す文を表示する端末装置が開示されている。
特許6154489号公報
ところで、ユーザからの音声による指示は、その時々の状況やユーザの心持ちによっては、別の指示を意図していることがある。しかしながら、上述の特許文献1に記載のような端末装置においては、ユーザからの指示に対して、画一的な処理しか行うことができず、フレキシビリティが低いという問題があった。
そこで、本発明は上記問題に鑑みて成されたものであり、ユーザによる音声入力の意図をくんだ処理を行う情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。
上記課題を解決するために、本発明の一態様に係る情報処理装置は、ユーザからの音声による指示入力を受け付ける受付部と、ユーザの周囲の環境を特定可能な環境情報を取得する環境情報取得部と、環境情報に応じて、指示入力に対して実行すべき制御内容を推定する推定部と、推定部が推定した制御内容を実行する実行部と、を備える。
上記課題を解決するために、本発明の一態様に係る情報処理方法は、ユーザからの音声による指示入力を受け付ける受付ステップと、ユーザの周囲の環境を特定可能な環境情報を取得する環境情報取得ステップと、環境情報に応じて、指示入力に対して実行すべき制御内容を推定する推定ステップと、推定ステップにおいて推定した制御内容を実行する実行ステップと、をコンピュータが実行する。
上記課題を解決するために、本発明の一態様に係る情報処理プログラムは、コンピュータに、ユーザからの音声による指示入力を受け付ける受付機能と、ユーザの周囲の環境を特定可能な環境情報を取得する環境情報取得機能と、環境情報に応じて、指示入力に対して実行すべき制御内容を推定する推定機能と、推定機能が推定した制御内容を実行する実行機能と、を実現させる。
上記情報処理装置において、情報処理装置は、指示入力の内容を示す情報と、環境を示す情報とから、実行すべき制御内容を導出可能な制御モデルを記憶する記憶部を更に備え、推定部は、制御モデルを用いて、制御内容を推定することとしてもよい。
上記情報処理装置において、環境情報取得部は、ユーザの周囲の音声を収集するマイクが集音した音声を、環境情報として取得するものであり、推定部は、音声に基づいてユーザの周囲の環境を推定し、推定した環境に応じて、指示入力に対して実行すべき制御内容を推定することとしてもよい。
上記情報処理装置において、マイクは、集音する方向が定められた指向性マイクであり、指向性マイクは、所定の位置に周囲に向けて指向性が向くように複数配置されており、推定部は、指向性マイク各々が集音した音声に基づいて、各音声の音源の位置を推定し、ユーザの周囲の音声の音源の位置に基づいて、ユーザの周囲の環境を推定することとしてもよい。
上記情報処理装置において、受付部は、マイクを介して、ユーザからの音声による指示入力を受け付け、推定部は、ユーザの位置を推定し、推定したユーザの位置に応じて、指示入力に対して実行すべき制御内容を推定することとしてもよい。
上記情報処理装置において、推定部は、環境情報に応じて、指示入力に対して実行すべき制御内容が異なった制御内容を推定することとしてもよい。
上記情報処理装置において、情報処理装置は、スピーカーを備え、実行部は、スピーカーを制御するものであって、環境情報に応じて、推定した環境に応じた音声を出力することとしてもよい。
上記情報処理装置において、実行部は、環境情報に応じて、他の機器を制御するものであることとしてもよい。
本発明の一態様に係る情報処理装置は、ユーザの周辺の環境を特定可能な情報を取得し、その情報を用いて、ユーザの指示入力を解釈して、制御を行うので、ユーザの意図を組んだ処理を行うことができる。したがって、ユーザにとって、ユーザからの音声指示入力に対してフレキシビリティに富んだ処理を行うことができる情報処理装置を提供することができる。
通信システムの構成例を示す図である。 情報処理装置の構成例を示すブロック図である。 スピーカーの構成例を示すブロック図である。 制御モデルの構成例を示すデータ概念図である。 情報処理装置の機器制御時の動作を示すフローチャートである。
<実施形態>
本発明の第1の実施形態について、図面を参照しながら説明する。
本発明に係る情報処理装置100は、ユーザ10の周囲の音声を取得して解析することで、ユーザ10の状況を解析し、ユーザ10からの音声による指示入力を、その状況に応じた解釈をして、指示入力の内容に対応する制御を実行する装置である。
情報処理装置100は、ユーザ10の周囲の環境を特定可能な環境情報を取得し、取得するとともに、ユーザ10からの音声による指示入力を受け付ける。情報処理装置100は、指示された内容を解析し、環境情報に応じて指示入力に対して実行すべき制御内容を推定して実行する。これにより、情報処理装置100は、ユーザ10からの指示に対して、環境に応じた解釈を行ったうえでの制御を行うので、同じ命令であってもフレキシビリティに富んだ対応をとることができる。情報処理装置100は、どのような態様で実現されてもよく、スマートスピーカーのようなスピーカーであったり、単なるコンピュータシステムやサーバ装置であったり、ロボットであったりしてもよい。即ち、情報処理装置100は、単体のコンピュータシステムとして成立してもよいし、スマートスピーカーやロボット等の機器に内蔵されてもよい。また、情報処理装置100は、スマートスピーカーやロボットを制御するための制御装置であってもよい。
以下、このような情報処理装置100について説明する。
(システム構成)
図1に、情報処理装置100を含む通信システム1の概要を示す。通信システム1は、ユーザ10の周囲の環境を特定可能な情報として、ユーザ10の周囲の音声を利用する。通信システム1は、ユーザ10からの音声による指示及びユーザ10の周囲の音声を収集する機器として、スピーカー装置200を含む。スピーカー装置200は、マイクを内蔵しており、周囲の音声を逐次集音し、集音して得られる音声データを情報処理装置100に送信する。情報処理装置100は、音声データを受信し、受信した音声データからユーザ10の指示を抽出するとともに、ユーザ10の周囲の環境を推定し、推定した環境に応じた制御であって、ユーザ10から指定された制御を行う。
また、通信システム1は、ユーザ10の指示に基づく制御の対象となり得る各種の機器を含むこととしてよい。機器としては、各種の家電を用いることができ、例えば、照明装置、空調装置、スピーカー、テレビ、給湯装置、電動ブラインド、電動カーテン、…などがある。図1には、一例として、ミニコンポ30、照明装置40が示されている。
図1に示すように、情報処理装置100は、ネットワーク300を介して、スピーカー装置200と接続されている。また、情報処理装置100は、各種の機器(家電)と接続されていてよく、情報処理装置100は、各機器を制御可能に構成されていてもよい。制御可能に構成されているとは、情報処理装置100が各機器を遠隔制御できるように各機器の制御権を有していることを意味する。
情報処理装置100は、スピーカー装置200が取得した音声データを、ネットワーク300を介して受信する。情報処理装置100は、受信した音声データに基づいて、ユーザ10の状況(環境)を推定するとともに、ユーザからの音声による指示の内容を解釈する。そして、推定した状況(環境)に応じて、ユーザ10の意図や状況に応じた制御を行う。ここで情報処理装置100が実行する制御とは、自装置の制御の他、他の機器を制御するための信号を出力することまで含んでよい。図1の例では、ユーザ10が「音楽かけて」と指示した場合の例を示している。従来であれば、このような指示を受けた場合、何らかの音楽を再生することになる。一方で、図1では、従来とは異なり、情報処理装置100は、ミニコンポ30から音楽が流れているという状況を推定し、スピーカー装置200に、再生をする前に、「他に音楽かかっているようです。再生しますか?」と、再生をしてもよいか問い合わせを行うという処理を実行させた例を示している。
ネットワーク300は、情報処理装置100と各種の機器との間を相互に接続させるためのネットワークであり、例えば、無線ネットワークや有線ネットワークである。具体的には、ネットワーク300は、ワイヤレスLAN(wireless LAN:WLAN)や広域ネットワーク(wide area network:WAN)、ISDNs(integrated service digital networks)、無線LANs、LTE(long term evolution)、LTE−Advanced、第4世代(4G)、第5世代(5G)、CDMA(code division multiple access)、WCDMA(登録商標)、イーサネット(登録商標)などである。
また、ネットワーク300は、これらの例に限られず、例えば、公衆交換電話網(Public Switched Telephone Network:PSTN)やブルートゥース(Bluetooth(登録商標))、ブルートゥースローエナジー(Bluetooth Low Energy)、光回線、ADSL(Asymmetric Digital Subscriber Line)回線、衛星通信網などであってもよく、どのようなネットワークであってもよい。ネットワーク300は、ユーザ10の住居に備えられる場合には、ホームネットワークと呼称されることもある。
また、ネットワーク300、例えば、NB−IoT(Narrow Band IoT)や、eMTC(enhanced Machine Type Communication)であってもよい。なお、NB−IoTやeMTCは、IoT向けの無線通信方式であり、低コスト、低消費電力で長距離通信が可能なネットワークである。
また、ネットワーク300は、これらの組み合わせであってもよい。また、ネットワーク300は、これらの例を組み合わせた複数の異なるネットワークを含むものであってもよい。例えば、ネットワーク300は、LTEによる無線ネットワークと、閉域網であるイントラネットなどの有線ネットワークとを含むものであってもよい。
(情報処理装置の構成例)
図2は、情報処理装置100の構成例を示すブロック図である。図2に示すように、情報処理装置100は、例えば、受信部110と、記憶部120と、制御部130と、送信部140と、を備える。
受信部110は、ネットワーク300を介して、スピーカー装置200から音声データを受信する通信インターフェースである。受信部110は、ユーザからの音声による指示入力を示す音声データや、ユーザの周囲の環境を特定可能な情報としての音声データを受信する。受信部110は、音声データを受信すると、制御部130に伝達する。なお、受信部110は、スピーカー装置200以外の装置からユーザの環境を特定可能な情報を受信できるように構成されてもよい。例えば、ユーザのいる家屋の家電の稼働状況を示す情報や、各種のセンサによるセンシングデータを受信する。受信部110は、これらの情報を環境推定部132に伝達し、環境推定部132は、これらの情報をユーザの状況を推定するために用いることとしてもよい。
記憶部120は、情報処理装置100が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。記憶部120は、例えば、HDD、SSD、フラッシュメモリなど各種の記憶媒体により実現される。なお、情報処理装置100は、プログラムを記憶部120に記憶し、当該プログラムを実行して、制御部130が、制御部130に含まれる各機能部としての処理を実行してもよい。このプログラムは、情報処理装置100に、制御部130が実行する各機能を実現させる。記憶部120は、受信した受信した音声データに基づいてユーザからの指示内容を推定するための音声解析を行う音声解析プログラムや、音声データに基づいてユーザ10の状況(環境)を推定する環境推定プログラムを記憶している。また、記憶部120は、推定したユーザ10の状況とユーザからの音声による指示入力から、実行すべき制御を推定するために用いる制御モデル121を記憶している。制御モデル121の詳細については、後述する。また、記憶部120は、音の種別からユーザの置かれている環境を推定するための環境推定モデルを記憶している。環境推定モデルは、音声のサンプルと、その音声が示す状況とを対応付けた情報である。
制御部130は、情報処理装置100の各部を制御するものであり、例えば、中央処理装置(CPU)やマイクロプロセッサ、ASIC、FPGAなどであってもよい。なお、制御部130は、これらの例に限られず、どのようなものであってもよい。
制御部130は、音声処理部131と、環境推定部132と、指示推定部133と、制御推定部134と、実行部135と、を含む。
音声処理部131は、受信部110から伝達された音声データを解析する機能を有する。音声処理部131は、伝達された音声データから、ユーザの指示が含まれる音声データと、含まれない音声データとに分離する。ここで、音声データは所定時間長の音声データであり、その中で人の声が含まれる部分と含まれない部分とに分けることとしてもよいし、複数の同じ状況の音を集音した音声データを複数受け付けていた場合には、それらの音声データの中でユーザの声が含まれているものと含まれていないものとに分けることとしてもよい。そして、音声処理部131は、ユーザの指示が含まれる音声データを指示推定部133に伝達し、ユーザの指示が含まれていない音声データを環境推定部132に伝達する。
環境推定部132は、伝達された音声データから、ユーザの周囲の環境を推定する。環境推定部132は、記憶部120に記憶されている環境推定モデルを用いて、ユーザの周囲の環境を推定する。一例として、環境推定部132は、伝達された音声データが、環境推定モデルが保持する音声データと一定以上相関する音声データに対応付けられたユーザの環境を特定することで、ユーザの周囲の環境を推定する。環境推定部132は、推定したユーザの環境を示す情報を制御推定部134に伝達する。
指示推定部133は、伝達された音声データから、ユーザの指示を推定する。指示推定部133は、例えば、既存の音声認識技術を利用して、ユーザの音声による指示をテキストデータに変換し、制御推定部134に伝達する。
制御推定部134は、指示推定部133から伝達されたユーザの指示入力の内容と、環境推定部132から伝達されたユーザの周囲の環境を示す情報とに基づいて、実行すべき制御内容を推定する。制御推定部134は、ユーザの指示入力の内容と、ユーザの周囲の環境を示す情報とを入力として、制御モデル121を用いて、実行すべき制御内容を推定する。制御推定部134は、推定した制御内容を、実行部135に伝達する。
実行部135は、制御推定部134から伝達された制御内容を実行する。即ち、伝達された制御内容に基づいて、制御対象の機器に対して、実行する処理内容を示す制御信号を生成し、送信部140に送信させる。
送信部140は、制御部130(実行部135)からの指示に従って、各種の機器(スピーカー装置200や家電など)に制御信号を送信する機能を有する通信インターフェースである。
以上が、情報処理装置100の構成例である。
(スピーカーの構成例)
図3は、スピーカー装置200の構成例を示すブロック図である。図3に示すように、スピーカー装置200は、受信部210と、記憶部220と、スピーカー230と、マイク240と、送信部250と、を備える。
受信部210は、情報処理装置100から制御信号(音声データ)を受信する通信インターフェースである。受信部210は、受信した制御信号(音声データ)をスピーカー230に伝達する。
記憶部220は、スピーカー装置200が動作する上で必要とする各種のプログラムやデータを記憶する機能を有する。記憶部220は、例えば、HDD、SSD、フラッシュメモリなど各種の記憶媒体により実現される。なお、スピーカー装置200は、プログラムを記憶部220に記憶し、当該プログラムを実行して、図示しない制御部が、スピーカー装置200として実現すべき機能を実現することとしてよい。記憶部220は、マイク240が集音した音声データを記憶する。
スピーカー230は、情報処理装置100から送信されて受信した制御信号(音声データ)を再生する機能を有する。
マイク240は、スピーカー装置200の周囲の音声を集音する機能を有する。マイク240は、1つのマイクロフォンで構成されてもよいし、複数のマイクロフォンで構成されていてもよい。また、マイクロフォンは、集音の方向が限定された指向性のものであってもよい。マイク240は、集音した音声を示す音声データを、記憶部220に記憶する。
送信部250は、記憶部220に記憶されている音声データを、情報処理装置100に送信する機能を有する通信インターフェースである。送信部250は、記憶部220に記憶されている音声データを逐次、情報処理装置100に送信することとしてもよいし、ユーザからの音声による指示入力があったと検出できた場合に、その前後の所定長分の音声データを送信することとしてもよい。
以上が、スピーカー装置200の構成例である。
(制御モデル121の構成例)
次に、制御モデル121の一例を、図4を用いて説明する。図4は、制御モデル121のデータ概念図である。図4に示すように、制御モデル121は、環境条件401と、制御機器402と、制御内容403とが対応付けられた情報である。
環境条件401は、ユーザ10からの指示の内容と、その際のユーザの周囲の環境の内容とを示す情報であり、対応する制御内容を実行するための条件を示す情報である。
制御機器402は、対応する環境条件401が満たされた場合に、制御の対象となる機器を示す情報である。制御機器402には、制御の対象となる機器は複数含まれていてもよい。
制御内容403は、対応する環境条件401が満たされた場合に、対応する制御機器402において実行する制御の内容を示す情報である。制御内容403には、複数の制御内容が含まれていてもよい。また、対応する制御機器402に複数の機器が設定されている場合であって、制御内容403にも複数の制御内容が記載されている場合には、どの機器がどの制御内容を実行するかが規定される。
図4の例で言えば、例えば、指示推定部133が推定したユーザの指示内容が「音楽かけて」であって、環境推定部132が推定したユーザの環境が、「周囲は静か」であると推定された場合には、制御推定部134は、制御機器402として、「スピーカー装置200」を選択し、「静かな音楽を流す」ことを実行すべき制御として推定することになる。また、あるいは、指示推定部133が推定したユーザの指示内容が「音楽かけて」であって、環境推定部132が推定したユーザの環境が、「音楽を検知している」状況であると推定された場合には、制御推定部134は、制御機器402として、「スピーカー装置200」を選択し、「「他に音楽がかかっているようです。再生しますか?」と問い合わせをする音声を出力させる」ことを実行すべき制御として推定することになる。
なお、図4は、あくまで制御モデル121の一例に過ぎない。制御モデル121は、様々な環境条件(ユーザの指示入力内容と、ユーザの周囲の環境との組み合わせ)を入力として、制御の対象となる機器と、その機器における制御内容を導出できるデータであれば、どのようなデータであってもよく、その他の一例としては、機械学習(深層学習を含む)における推定モデルを用いることができる。また、図4に示す環境条件401、制御機器402、制御内容403もまた、一例に過ぎず、図4に示した内容以外の条件に基づいて、何らかの機器が、何らかの制御を行うこととしてよいことは言うまでもない。
(情報処理装置100の動作例)
図5は、情報処理装置100の動作であって、機器の制御を行う際の動作を示すフローチャートである。
図5に示すように、情報処理装置100の受信部110は、スピーカー装置200から音声データを受信する(ステップS501)。受信部110は、受信した音声データを、音声処理部131に伝達する。音声処理部131は、伝達された音声データから、ユーザの指示入力が含まれると推定される音声データと、ユーザの指示入力が含まれていないと推定される音声データとに分離する。そして、音声処理部131は、ユーザの指示入力が含まれると推定される音声データを指示推定部133に伝達し、ユーザの指示入力が含まれていないと推定される音声データを環境推定部132に伝達する。
指示推定部133は、伝達された音声データを解析し、ユーザの指示入力の内容を推定する(ステップS502)。指示推定部133は、推定したユーザの指示入力の内容を制御推定部134に伝達する。
また、環境推定部132は、伝達された音声データを解析し、ユーザの周囲の環境を推定する(ステップS503)。環境推定部132は、推定したユーザの環境を示す情報を制御推定部134に伝達する。なお、ステップS502とステップS503の制御の処理順序は、前後してもよいし、並列に実行されてもよい。
制御推定部134は、ユーザからの指示入力の内容を示す情報と、ユーザの環境を示す情報とを入力として、制御モデル121を用いて実行すべき制御内容を推定する(ステップS504)。即ち、制御推定部134は、伝達されたユーザからの指示入力の内容を示す情報と、ユーザの環境を示す情報とに一致する環境条件401が制御モデル121にあるか否かを探索する。そして、条件に合致する環境条件401があった場合に、対応する制御機器402と制御内容403とを実行すべき制御内容として推定する。制御推定部134は、推定した制御内容を示す情報を実行部135に伝達する。
実行部135は、制御推定部134から伝達された制御内容を示す情報に基づいて、制御対象の機器に対する制御内容を実行させるための制御信号を生成する。そして、実行部135は、生成した制御信号を、送信部140に送信させて(ステップS505)処理を終了する。
これにより、情報処理装置100は、ユーザからの音声による指示入力があった場合に、ユーザの置かれている環境に応じて、指示の内容の解釈を異ならせた制御を行うことができるので、フレキシビリティに富んだ応答が可能な情報処理装置100を提供することができる。言い換えれば、状況適応性の高い情報処理装置100を提供することができる。
(制御具体例)
以下には、スピーカー装置200が集音した音声データに基づいて、情報処理装置100が実行する処理について具体的に説明する。
(例1)
まず、情報処理装置100は、音声データを解析したことにより、以下の情報(a1)、(a2)を得たとする。
(a1)「音楽かけて」とのユーザからの指示入力あり。
(a2)ユーザの周囲の状況は静かである。
このような場合、情報処理装置100は、制御モデル121の環境条件401を参照して、対応する制御機器402、制御内容403を特定する。これらの条件に対して、例えば、制御推定部134は、実行すべき制御内容として、静かな音楽をかける(再生する)という処理を実行する。即ち、情報処理装置100は、静かな環境に対しては、静かな音楽を流すことが状況に適していると判断して実行することができる。したがって、情報処理装置100は、ユーザが置かれている状況にふさわしく、ユーザからの指示に沿った制御を実現することができる。
(例2)
まず、情報処理装置100は、音声データを解析したことにより、以下の情報(b1)、(b2)を得たとする。
(b1)「音楽かけて」とのユーザからの指示入力あり。
(b2)ユーザの周囲の状況として音楽が検知できる。
このような場合、情報処理装置100は、制御モデル121の環境条件401を参照して、対応する制御機器402、制御内容403を特定する。これらの条件に対して、例えば、制御推定部134は、実行すべき制御内容として、音楽を再生してもよいか問い合わせをするという処理を実行する。即ち、情報処理装置100は、音楽が既に再生されている状況下で別の音楽を再生するのは、耳障りになる(不協和音を生む可能性がある)ので、その確認をとることで、ユーザに不快感を与える可能性を低減することができる。
(例1)と(例2)とを比較すれば理解できるように、ユーザの「音楽かけて」という同じ内容の指示に対して、情報処理装置100は、異なった対応をとることができる。即ち、情報処理装置100は、ユーザの置かれている環境に即した形で、ユーザの指示にしたがった制御を実現することができる。よって、ユーザの指示に対してフレキシビリティに富んだ対応を実現することができる情報処理装置100を提供することができる。
(例3)
まず、情報処理装置100は、音声データを解析したことにより、以下の情報(c1)、(c2)、(c3)を得たとする。
(c1)「電気消して」とのユーザからの指示入力あり。
(c2)ユーザが居る部屋の電気がついている。
(c3)誰もいない部屋の電気がついている。
このような場合、情報処理装置100は、制御モデル121の環境条件401を参照して、対応する制御機器402、制御内容403を特定する。これらの条件に対して、例えば、制御推定部134は、実行すべき制御内容として、ユーザがいない部屋の照明装置を消灯するという処理を行ってもよい。こうすることで、ユーザからの指示にしたがって、不要な電気を消灯することができるとともに、ユーザがいる空間では消灯しないようにすることができる。
(例4)
まず、情報処理装置100は、音声データを解析したことにより、以下の情報(d1)、(d2)、(d3)を得たとする。
(d1)「テレビの音消して」とのユーザからの指示入力あり。
(d2)電話の音が検知できている。
(d3)テレビを視聴している他のユーザがいる(指示を出したユーザとは別のユーザの声が聞こえる)。
このような場合、情報処理装置100は、制御モデル121の環境条件401を参照して、対応する制御機器402、制御内容403を特定する。これらの条件に対して、例えば、制御推定部134は、実行すべき制御内容として、テレビの音量を下げるという処理を行う。指示を出したユーザは、電話の邪魔になると判断してテレビの音を消すという指示を出したのに対し、情報処理装置100は、テレビを視聴している他のユーザがいると判断した場合には、他のユーザがテレビの内容を把握できるように、かつ、指示を出したユーザの電話の邪魔にならないように、テレビの音を消すのではなくボリュームを下げるという処理を行って、双方のユーザにとって好ましい処理を実現することができる。
以上に説明したように、情報処理装置100は、ユーザの指示に対して、ユーザの環境に応じた処理を実行することができる。即ち、情報処理装置100は、同じ指示であっても、ユーザの環境が異なれば、別の制御を実行することができるようになるので、フレキシビリティに富んだ対応が可能な情報処理装置100を提供することができる。
(補足)
上記実施形態に係る装置は、上記実施形態に限定されるものではなく、他の手法により実現されてもよいことは言うまでもない。以下、各種変形例について説明する。
(1)上記実施形態においては、制御の内容を実行する情報処理装置100と、ユーザ10の周囲の環境に係る情報を取得する機器としてのスピーカー装置200とが別の装置である例を説明した。しかし、両装置は、1つの装置で実現されてもよい。即ち、スピーカー装置200が、情報処理装置100が保持する機能も備えることとしてよい。この場合、スピーカー装置200と情報処理装置100との間で通信を行う必要がなくなり、通信遅延による発生し得る制御の遅延を抑制することができる。
また、スピーカー装置200は、情報処理装置100が有する機能の一部のみを実行できるように、情報処理装置100の一部の機能部を有することとしてもよい。例えば、スピーカー装置200は、音声処理部131の機能を保持してもよく、例えば、複数の指向性マイクで取得した音声データの中からユーザの指示の声が含まれる音声を特定(フィルタリング)し、ユーザの指示を含む音声データと、指示を含まない(ユーザの周囲の環境音の)音声データと、が区別できるように、情報処理装置100に送信することとしてもよい。
(2)上記実施の形態において、スピーカー装置200は、音声データを逐次送信することとしているが、これはその限りではない。スピーカー装置200はユーザからの指示入力があったタイミングにおいてのみ、その音声データと周囲の音を示す音声データとを送信することとしてよい。これを実現するために、スピーカー装置200自身は逐次音声を集音するが、その際に、ユーザからの音声による指示入力があるか否かを検知する検知部を備えてもよい。例えば、人の音声の周波数領域に音があるか否かに基づいてユーザからの指示入力があるか否かを検知し、あると判定した場合に、スピーカー装置200は、その前後の所定時間長の音声データを情報処理装置100に送信することとしてよい。
また、情報処理装置100は、ユーザの指示入力に対してユーザの環境を特定する音声データとして、指示入力があった時間帯を含む所定期間長の音声データを用いることとしてもよいし、指示入力があった所定時間前までの所定時間長の音声データを用いることとしてもよいし、指示入力があった所定時間後の所定時間長の音声データを用いることとしてもよい。いずれの態様を採用するかは、情報処理装置100及びスピーカー装置200に予めユーザが設定しておくこととしてよい。指示入力があった時間帯を含む所定時間長の音声データを用いる場合には、ジャストタイムの制御を実現することができる。また、指示入力があった所定時間前までの所定時間長の音声データを用いる場合には、先にユーザの置かれている環境を特定することができるのでユーザの周囲の環境の特定に時間を要することなく、すぐにユーザの指示内容を実行できる。また、指示入力があった所定時間後の所定時間長の音声データを用いる場合には、ユーザの指示入力の解析やユーザの周囲の環境の推定に時間を要する場合や音声データの送信遅延がある場合に、その遅延を考慮した制御、即ち、実際の制御を行う際にユーザが置かれている状況に応じた制御を行うことができる。
(3)上記実施の形態においては、詳細は示していないが、情報処理装置100は、ユーザの状況を推定するにあたって、音声データの各種の音源の位置を加味した制御を行うこととしてよい。この場合の位置とは、音声を集音するスピーカー装置200が設置されている場所から見た音源の位置となる。そして、音声データの各種の音源の位置を加味した制御とは、ユーザの環境の推定を更に詳細に行うためのものであり、例えば、スピーカー装置200から見てX度の方角から、ユーザの指示があった場合であって、Y度の方角からテレビの音声があることが検知できたとする。このとき、環境推定部132は、X度とY度との間に所定閾値以上の開きがある場合には、指示を出したユーザは、テレビからは離れた位置にいて、テレビはついているもののユーザはテレビを見ていないという状況であると推定することができる。逆にX度とY度が所定閾値以内になっている場合には、ユーザはテレビの近くでテレビを視聴しているという状況を推定することもできる。
また、あるいは、ユーザの指示がX度の方角から来た場合に、Y度の方角から水音が聞こえる、あるいは、Z度の方角から掃除機の稼働音が聞こえるという情報を得た場合には、指示を出したユーザの他にもユーザが存在するという環境を推定することができる。このように、音の発生源の位置に基づいて、ユーザの環境を推定することができる。また、ユーザの指示があったときのユーザの位置を特定して、制御に活用することもできる。即ち、ユーザの方角を特定することで、家屋内でユーザがどこにいるのかを特定することができるとともに、その裏返しで、ユーザが存在しない場所を特定することもできる。
これにより、情報処理装置100は、ユーザの状況の推定において、より細やかな情報を得たうえでの制御を実現できるので、制御により大きな多様性を持たせることができる。
(4)本開示の各実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。記憶媒体は、HDDやSDDなどの任意の適切な記憶媒体、またはこれらの2つ以上の適切な組合せを含むことができる。記憶媒体は、揮発性、不揮発性、または揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイスまたは媒体であってもよい。
なお、情報処理装置100は、例えば、記憶媒体に記憶されたプログラムを読み出し、読み出したプログラムを実行することによって、各実施形態に示す複数の機能部の機能を実現することができる。また、当該プログラムは、任意の伝送媒体(通信ネットワークや放送波等)を介して、情報処理装置100に提供されてもよい。情報処理装置100は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現する。
なお、当該プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective―C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。
情報処理装置100における処理の少なくとも一部は、1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、情報処理装置100の各機能部は、上記実施形態に示した機能を実現する1または複数の回路によって実現されてもよく、1の回路により複数の機能部の機能が実現されることとしてもよい。
(5)本開示の実施形態を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。また、各実施形態に示す構成を適宜組み合わせることとしてもよい。
100 情報処理装置
110 受信部
120 記憶部
130 制御部
131 音声処理部
132 環境推定部
133 指示推定部
134 制御推定部
135 実行部
140 送信部

Claims (10)

  1. ユーザからの音声による指示入力を受け付ける受付部と、
    ユーザの周囲の環境を特定可能な情報であって、ユーザの所在位置および周囲の機器の稼働状況を含む環境情報を取得する環境情報取得部と、
    前記環境情報に応じて、前記指示入力に対して実行すべき制御内容を推定する推定部と、
    前記推定部が推定した制御内容を実行する実行部と、を備え、
    前記推定部は、前記環境情報が第1の環境を示す場合に、前記指示入力で示される指示に従った前記制御内容を推定し、前記環境情報が前記第1の環境とは異なる第2の環境を示す場合に、前記指示入力で示される指示とは異なる制御内容を推定する情報処理装置。
  2. 前記情報処理装置は、前記指示入力の内容を示す情報と、環境を示す情報とから、実行すべき制御内容を導出可能な制御モデルを記憶する記憶部を更に備え、
    前記推定部は、前記制御モデルを用いて、前記制御内容を推定する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記環境情報取得部は、ユーザの周囲の音声を収集するマイクが集音した音声を、前記環境情報として取得するものであり、
    前記推定部は、前記音声に基づいて前記ユーザの周囲の環境を推定し、推定した環境に応じて、前記指示入力に対して実行すべき制御内容を推定する
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記マイクは、集音する方向が定められた指向性マイクであり、
    前記指向性マイクは、所定の位置に周囲に向けて前記指向性が向くように複数配置されており、
    前記推定部は、前記指向性マイク各々が集音した音声に基づいて、各音声の音源の位置を推定し、前記ユーザの周囲の音声の音源の位置に基づいて、前記ユーザの周囲の環境を推定する
    ことを特徴とする請求項3に記載の情報処理装置。
  5. 前記受付部は、前記マイクを介して、前記ユーザからの音声による指示入力を受け付け、
    前記推定部は、前記ユーザの位置を推定し、推定したユーザの位置に応じて、前記指示入力に対して実行すべき制御内容を推定する
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記推定部は、前記環境情報に応じて、前記指示入力に対して実行すべき制御内容が異なった制御内容を推定する
    ことを特徴とする請求項1〜5のいずれか一項に記載の情報処理装置。
  7. 前記情報処理装置は、スピーカーを備え、
    前記実行部は、前記スピーカーを制御するものであって、前記環境情報に応じて、推定した環境に応じた音声を出力する
    ことを特徴とする請求項1〜6のいずれか一項に記載の情報処理装置。
  8. 前記実行部は、前記環境情報に応じて、他の機器を制御するものである
    ことを特徴とする請求項1〜6のいずれか一項に記載の情報処理装置。
  9. コンピュータが、
    ユーザからの音声による指示入力を受け付ける受付ステップと、
    ユーザの周囲の環境を特定可能な情報であって、ユーザの所在位置および周囲の機器の稼働状況を含む環境情報を取得する環境情報取得ステップと、
    前記環境情報に応じて、前記指示入力に対して実行すべき制御内容を推定する推定ステップと、
    前記推定ステップにおいて推定した制御内容を実行する実行ステップと、を実行し、
    前記推定ステップは、前記環境情報が第1の環境を示す場合に、前記指示入力で示される指示に従った前記制御内容を推定し、前記環境情報が前記第1の環境とは異なる第2の環境を示す場合に、前記指示入力で示される指示とは異なる制御内容を推定する情報処理方法。
  10. コンピュータに、
    ユーザからの音声による指示入力を受け付ける受付機能と、
    ユーザの周囲の環境を特定可能な情報であって、ユーザの所在位置および周囲の機器の稼働状況を含む環境情報を取得する環境情報取得機能と、
    前記環境情報に応じて、前記指示入力に対して実行すべき制御内容を推定する推定機能と、
    前記推定機能が推定した制御内容を実行する実行機能と、を実現させ、
    前記推定機能は、前記環境情報が第1の環境を示す場合に、前記指示入力で示される指示に従った前記制御内容を推定し、前記環境情報が前記第1の環境とは異なる第2の環境を示す場合に、前記指示入力で示される指示とは異なる制御内容を推定する情報処理プログラム。
JP2018116467A 2018-06-19 2018-06-19 情報処理装置、情報処理方法、情報処理プログラム Active JP6700338B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018116467A JP6700338B2 (ja) 2018-06-19 2018-06-19 情報処理装置、情報処理方法、情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018116467A JP6700338B2 (ja) 2018-06-19 2018-06-19 情報処理装置、情報処理方法、情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2019219886A JP2019219886A (ja) 2019-12-26
JP6700338B2 true JP6700338B2 (ja) 2020-05-27

Family

ID=69096791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018116467A Active JP6700338B2 (ja) 2018-06-19 2018-06-19 情報処理装置、情報処理方法、情報処理プログラム

Country Status (1)

Country Link
JP (1) JP6700338B2 (ja)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009186553A (ja) * 2008-02-04 2009-08-20 Brother Ind Ltd 背面カメラ付きプロジェクタ
JP4982807B2 (ja) * 2008-03-06 2012-07-25 独立行政法人産業技術総合研究所 操作方法およびそのための操作装置、プログラム
JP5866504B2 (ja) * 2012-12-27 2016-02-17 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理方法
JP6482911B2 (ja) * 2014-07-01 2019-03-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器制御方法および電気機器
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
WO2016157658A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP6516585B2 (ja) * 2015-06-24 2019-05-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
CN105242556A (zh) * 2015-10-28 2016-01-13 小米科技有限责任公司 智能设备的语音控制方法、装置、控制设备及智能设备
JP2017109575A (ja) * 2015-12-15 2017-06-22 富士通テン株式会社 移動体における窓ガラスの光透過率制御装置及び制御方法
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム

Also Published As

Publication number Publication date
JP2019219886A (ja) 2019-12-26

Similar Documents

Publication Publication Date Title
CN107135443B (zh) 一种信号处理方法及电子设备
JP6489563B2 (ja) 音量調節方法、システム、デバイス及びプログラム
CN109240111B (zh) 智能家居控制方法、装置、系统及智能网关
CN111149369B (zh) 头戴式受话器耳上状态检测
JP6660808B2 (ja) 音声出力制御装置、電子機器、および音声出力制御装置の制御方法
JP2019518985A (ja) 分散したマイクロホンからの音声の処理
CN103970081B (zh) 智能家居控制方法、装置和系统
EP2846328A1 (en) Method and apparatus of detection of events
CN109284080B (zh) 音效调整方法、装置、电子设备以及存储介质
JP6552381B2 (ja) 制御装置、制御システムおよびプログラム
CN109473095A (zh) 一种智能家居控制系统及控制方法
CN104837157B (zh) 音箱添加方法、装置、移动终端和智能音箱
US20160110155A1 (en) Communication terminal, home network system, and control method thereof
KR101671760B1 (ko) 멀티모달 정보를 기반으로 상황 인지 기능을 수행하여 사용자 인터페이스와 사용자 경험을 스스로 학습하고 개선하는 셋톱박스, 촬영 장치, 그리고 이를 이용한 방법 및 컴퓨터 판독 가능한 기록 매체
CN109920419A (zh) 语音控制方法和装置、电子设备及计算机可读介质
CN109473097A (zh) 一种智能语音设备及其控制方法
CN107147982A (zh) 构造来在通信系统中运行的助听器
CN112838967B (zh) 主控设备、智能家居及其控制装置、控制系统及控制方法
CN106375809B (zh) 一种音量调节方法、装置及存储介质
CN113228710A (zh) 听力装置中的声源分离及相关方法
JP6700338B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム
US11405735B2 (en) System and method for dynamically adjusting settings of audio output devices to reduce noise in adjacent spaces
JP6638026B2 (ja) 環境制御装置、環境設定方法及び環境設定プログラム
US20220122600A1 (en) Information processing device and information processing method
JP6748678B2 (ja) 情報処理装置、情報処理システム、制御プログラム、情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200430

R150 Certificate of patent or registration of utility model

Ref document number: 6700338

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250