JP6748678B2 - 情報処理装置、情報処理システム、制御プログラム、情報処理方法 - Google Patents

情報処理装置、情報処理システム、制御プログラム、情報処理方法 Download PDF

Info

Publication number
JP6748678B2
JP6748678B2 JP2018148237A JP2018148237A JP6748678B2 JP 6748678 B2 JP6748678 B2 JP 6748678B2 JP 2018148237 A JP2018148237 A JP 2018148237A JP 2018148237 A JP2018148237 A JP 2018148237A JP 6748678 B2 JP6748678 B2 JP 6748678B2
Authority
JP
Japan
Prior art keywords
user
noise
information processing
control
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018148237A
Other languages
English (en)
Other versions
JP2020024276A (ja
Inventor
達郎 五十嵐
達郎 五十嵐
大樹 坂内
大樹 坂内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2018148237A priority Critical patent/JP6748678B2/ja
Publication of JP2020024276A publication Critical patent/JP2020024276A/ja
Application granted granted Critical
Publication of JP6748678B2 publication Critical patent/JP6748678B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、情報処理装置、情報処理システム、制御プログラム、情報処理方法に関する。
従来、人工知能を利用した機器の開発が目覚ましい。その中には、ユーザからの音声による指示に従って、指示された内容を実行する機器がある。
例えば、特許文献1には、ユーザからの音声による指示に従って、音楽を再生したり、アラームを実行したり、計算をしたり、他の機器(例えば、照明装置)の制御を行ったりする情報処理装置(スマートスピーカー)が開示されている。
特開2017−068243号公報
しかしながら従来の情報処理装置では、周辺で騒音が発生すると、情報処理装置からの発話をユーザが聞き取りにくくなるおそれがあった。
そこで、本発明は上記問題に鑑みてなされたものであり、周囲で騒音が発生しても、ユーザが情報処理装置からの発話を聞き取りにくくなるのを抑えることができる情報処理装置を提供することを目的とする。
上記課題を解決するために、本発明の一態様に係る情報処理装置は、ユーザと自然言語により対話可能な情報処理装置であって、ユーザからの発話音声および周囲の音を検出する音声検出部と、ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話部と、ユーザが発話を聞き取ることを阻害するような騒音を音声検出部が検出した場合に、騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定部と、制御対象を制御する制御部と、を備えている。
また、発話部は、発話音声から変換されたユーザ発話データに基づいて、発話音声への返事に相当するように生成されたロボット発話データを発話してもよい。
また、特定部は、騒音となる音を自ら発生する家電機器を、制御対象のうちの一つとして特定し、制御部は、家電機器が発生する音の音量を小さくすることで、発話部からの発話へのユーザの聞き取りに対して、騒音が与える影響を小さくしてもよい。
また、騒音となる音を自ら発生する家電機器の音を、音源データとして予め記憶している記憶部を備え、特定部は、騒音と、音源データと、の比較を行い、騒音に相当する家電機器を特定することで、制御対象を特定してもよい。
特定部は、騒音が、ユーザに到達するのを遮る遮音部材を、制御対象のうちの一つとして特定し、制御部は、遮音部材を、ユーザと、騒音を発生する騒音発生源と、の間に移動させることで、発話部からの発話へのユーザの聞き取りに対して、騒音が与える影響を小さくしてもよい。
遮音部材は、ドア、窓、又はカーテン等の室内に配置された家具であってもよい。
音声検出部は、騒音が検出される方向を特定し、特定部は、音声検出部により特定された騒音の方向に基づいて、制御対象を特定してもよい。
制御部は、騒音の音量が第1閾値以下となるように、制御対象を制御してもよい。
制御部は、騒音の音量が第1閾値以下となった際に、制御対象を制御前の状態に復元してもよい。
特定部は、発話部を制御対象のうちの一つとして特定し、制御部は、発話部の音量を大きくすることで、発話部からの発話へのユーザの聞き取りに対して、騒音が与える影響を小さくしてもよい。
特定部は、発話部を制御対象のうちの一つとして特定し、制御部は、発話部による発話を一時的に中断することで、発話部からの発話へのユーザの聞き取りに対して、騒音が与える影響を小さくしてもよい。
制御部は、騒音の音量が第2閾値以上であるときに、発話部による発話を一時的に中断するとともに、他の制御対象を制御することで、騒音の音量が第2閾値よりも小さい第3閾値以下になった際に、発話部による発話を再開してもよい。
また、上記課題を解決するために、本発明の一態様に係る情報処理システムは、ユーザと自然言語により対話可能な情報処理装置とともに用いられる情報処理システムであって、ユーザからの発話音声データおよび周囲の音データを取得して処理する音声処理部と、ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して出力する音声データ出力部と、ユーザが発話を聞き取ることを阻害するような騒音を音声処理部が検出した場合に、騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定部と、制御対象を制御する制御部と、を備えている。
また、上記課題を解決するために、本発明の一態様に係る制御プログラムは、ユーザと自然言語により対話可能な情報処理システムの制御プログラムであって、コンピュータに、ユーザからの発話音声および周囲の音を検出する音声検出機能と、ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話機能と、ユーザが発話を聞き取ることを阻害するような騒音を音声検出機能が検出した場合に、騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定機能と、を実現させる。
また、上記課題を解決するために、本発明の一態様に係る情報処理方法は、ユーザと自然言語により対話可能な情報処理方法であって、コンピュータが、ユーザからの発話音声および周囲の音を検出する音声検出ステップと、ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話ステップと、ユーザが発話を聞き取ることを阻害するような騒音を音声検出ステップにおいて検出した場合に、騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定ステップと、と、制御対象を制御する制御ステップと、を実行する。
本発明の情報処理装置では、音声検出部と、発話部と、特定部と、制御部と、を備えている。このため、音声検出部が騒音を検出した際に、特定部が制御対象を特定し、制御部が制御対象を制御する。これにより、発話部からの発話へのユーザの聞き取りに対して、騒音が与える影響を小さくすることができる。
このようにして、周囲で騒音が発生しても、ユーザが情報処理装置からの発話を聞き取りにくくなるのを抑えることができる。
通情報処理システムの構成例を示す図である。 スピーカーの構成例を示すブロック図である。 情報処理装置の構成例を示すブロック図である。 騒音の音量の変化と、制御部の制御とを示す図である。 処理部における処理フローを示す図である。
<実施形態>
本発明の第1の実施形態について、図面を参照しながら説明する。
本発明に係る情報処理装置100は、ユーザ10の周囲の音声を取得して解析することで、ユーザ10の状況を解析し、ユーザ10からの音声による指示入力を、その状況に応じた解釈をして、指示入力の内容に対応する制御を実行する装置である。情報処理装置100は、ユーザ10と自然言語により対話可能となっている。
図1に、情報処理装置100と、情報処理装置100が接続されたネットワーク300と、を有する情報処理システム1の概要を示す。情報処理システム1は、ユーザ10の周囲の環境を特定可能な情報として、ユーザ10の周囲の音声を利用する。
情報処理装置100は、情報処理サーバ150と、スマートスピーカー200と、を備えている。
情報処理装置100は、音声データを受信し、受信した音声データからユーザ10の指示を抽出するとともに、ユーザ10の周囲の環境を推定し、推定した環境に応じた制御であって、ユーザ10から指定された制御を行う。
また、情報処理システム1は、ユーザ10の指示に基づく制御の対象となり得る各種の機器を含むこととしてよい。機器としては、各種の家電を用いることができ、例えば、照明装置、空調装置、スピーカー、テレビ、給湯装置、電動ブラインド、電動カーテン、…などがある。図1には、一例として、音楽プレーヤー30、照明装置40、テレビ50、電動ドア60、電動窓70が示されている。
図1に示すように、情報処理サーバ150は、ネットワーク300を介して、スマートスピーカー200と接続されている。また、情報処理サーバ150は、各種の機器(家電)と接続されていてよく、情報処理サーバ150は、各機器を制御可能に構成されていてもよい。制御可能に構成されているとは、情報処理サーバ150が各機器を遠隔制御できるように各機器の制御権を有していることを意味する。
情報処理サーバ150は、スマートスピーカー200が取得した音声データを、ネットワーク300を介して受信する。情報処理サーバ150は、受信した音声データに基づいて、ユーザ10の状況(環境)を推定するとともに、ユーザ10からの音声による指示の内容を解釈する。そして、推定した状況(環境)に応じて、ユーザ10の意図や状況に応じた制御を行う。ここで情報処理サーバ150が実行する制御とは、自装置の制御の他、他の機器を制御するための信号を出力することまで含んでよい。図1の例では、ユーザ10が「明日の東京の天気は?」と指示した場合の例を示している。これに対して、天気予報サーバに確認をして回答をする例を示している。
ネットワーク300は、情報処理装置100と各種の機器との間を相互に接続させるためのネットワークであり、例えば、無線ネットワークや有線ネットワークである。具体的には、ネットワーク300は、ワイヤレスLAN(wireless LAN:WLAN)や広域ネットワーク(wide area network:WAN)、ISDNs(integrated service digital networks)、無線LANs、LTE(long term evolution)、LTE−Advanced、第4世代(4G)、第5世代(5G)、CDMA(code division multiple access)、WCDMA(登録商標)、イーサネット(登録商標)などである。
また、ネットワーク300は、これらの例に限られず、例えば、公衆交換電話網(Public Switched Telephone Network:PSTN)やブルートゥース(Bluetooth(登録商標))、ブルートゥースローエナジー(Bluetooth Low Energy)、光回線、ADSL(Asymmetric Digital Subscriber Line)回線、衛星通信網などであってもよく、どのようなネットワークであってもよい。ネットワーク300は、ユーザ10の住居に備えられる場合には、ホームネットワークと呼称されることもある。
また、ネットワーク300、例えば、NB−IoT(Narrow Band IoT)や、eMTC(enhanced Machine Type Communication)であってもよい。なお、NB−IoTやeMTCは、IoT向けの無線通信方式であり、低コスト、低消費電力で長距離通信が可能なネットワークである。
また、ネットワーク300は、これらの組み合わせであってもよい。また、ネットワーク300は、これらの例を組み合わせた複数の異なるネットワークを含むものであってもよい。例えば、ネットワーク300は、LTEによる無線ネットワークと、閉域網であるイントラネットなどの有線ネットワークとを含むものであってもよい。
(スマートスピーカー200の構成例)
図2は、スマートスピーカー200の構成例を示すブロック図である。図2に示すように、スマートスピーカー200は、受信部210と、記憶部220と、スピーカー230と、マイク240と、送信部250と、を備える。
受信部210は、情報処理サーバ150から制御信号(音声データ)を受信する通信インターフェースである。受信部210は、受信した制御信号(音声データ)をスピーカー230に伝達する。
記憶部220は、スマートスピーカー200が動作する上で必要とする各種のプログラムやデータを記憶する機能を有する。記憶部220は、例えば、HDD、SSD、フラッシュメモリなど各種の記憶媒体により実現される。なお、スマートスピーカー200は、プログラムを記憶部220に記憶し、当該プログラムを実行して、図示しない制御部が、スマートスピーカー200として実現すべき機能を実現することとしてよい。記憶部220は、マイク240が集音した音声データを記憶する。また、記憶部220は、騒音となる音を自ら発生する家電機器の音を、音源データとして予め記憶している。
スピーカー230は、情報処理サーバ150から送信されて受信した制御信号(音声データ)を再生する発話部としての機能を有する。スピーカー230は、ユーザ10に向けて発話するために生成されたロボット発話データを、音声データに変換して発話する。
マイク240は、ユーザ10からの発話音声および周囲の音を検出する音声検出部としての機能を有する。すなわち、マイク240は、スマートスピーカー200の周囲の音声を集音し、集音して得られる音声データを、情報処理サーバ150の発話データ生成部136に送信する。
マイク240は、1つのマイクロフォンで構成されてもよいし、複数のマイクロフォンで構成されていてもよい。また、マイクロフォンは、集音の方向が限定された指向性のものであってもよい。
マイク240は、音が検出される方向を特定することができる。このため、ユーザ10の方向や、騒音が発生する騒音発生部の方向を特定することができる。マイク240は、集音した音声を示す音声データを、記憶部220に記憶する。ここで、騒音発生部としては、例えば部屋の話し声、宅外で行われている工事の音、宅外を通過する緊急車両のサイレン等、どのような態様のものであってもよい。
送信部250は、記憶部220に記憶されている音声データを、情報処理サーバ150に送信する機能を有する通信インターフェースである。送信部250は、記憶部220に記憶されている音声データを逐次、情報処理サーバ150に送信することとしてもよいし、ユーザ10からの音声による指示入力があったと検出できた場合に、その前後の所定長分の音声データを送信することとしてもよい。
(情報処理サーバ150)
図3は、情報処理サーバ150の構成例を示すブロック図である。図3に示すように、情報処理サーバ150は、例えば、受信部110と、記憶部120と、処理部130と、送信部140と、を備える。
受信部110は、ネットワーク300を介して、スマートスピーカー200から音声データを受信する通信インターフェースである。受信部110は、ユーザ10からの音声による指示入力を示す音声データや、ユーザ10の周囲の環境を特定可能な情報としての音声データを受信する。受信部110は、音声データを受信すると、処理部130に伝達する。なお、受信部110は、スマートスピーカー200以外の装置からユーザ10の環境を特定可能な情報を受信できるように構成されてもよい。例えば、ユーザ10のいる家屋の家電の稼働状況を示す情報や、各種のセンサによるセンシングデータを受信する。受信部110は、これらの情報を環境推定部132に伝達し、環境推定部132は、これらの情報をユーザ10の状況を推定するために用いることとしてもよい。
記憶部120は、情報処理サーバ150が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。記憶部120は、例えば、HDD、SSD、フラッシュメモリなど各種の記憶媒体により実現される。
なお、情報処理サーバ150は、プログラムを記憶部120に記憶し、当該プログラムを実行して、処理部130が、処理部130に含まれる各機能部としての処理を実行してもよい。このプログラムは、情報処理サーバ150に、処理部130が実行する各機能を実現させる。
各機能とは、後述する音声検出機能、発話機能、特定機能、および制御機能を含んでいる。
記憶部120は、受信した音声データに基づいてユーザ10からの指示内容を推定するための音声解析を行う音声解析プログラムや、音声データに基づいてユーザ10の状況(環境)を推定する環境推定プログラムを記憶している。
また、記憶部120は、推定したユーザ10の状況とユーザ10からの音声による指示入力から、実行すべき制御を推定するために用いる制御モデル121を記憶している。また、記憶部120は、音の種別からユーザ10の置かれている環境を推定するための環境推定モデルを記憶している。環境推定モデルは、各種の機器の音および位置関係のデータであり、音の方向や大きさから、音を発生している機器を特定するためのモデルである。
処理部130は、情報処理サーバ150の各部を制御するものであり、例えば、中央処理装置(CPU)やマイクロプロセッサ、ASIC、FPGAなどであってもよい。なお、処理部130は、これらの例に限られず、どのようなものであってもよい。
処理部130は、音声処理部131と、環境推定部132と、指示推定部133と、制御推定部134と、実行部135と、発話データ生成部136と、を備えている。
音声処理部131は、受信部110から伝達された音声データを解析する機能を有する。音声処理部131は、伝達された音声データから、ユーザ10の指示が含まれる音声データと、含まれない音声データとに分離する。また、音声処理部131は、検出した音の音量を計測する。
ここで、音声データは所定時間長の音声データであり、その中で人の声が含まれる部分と含まれない部分とに分けることとしてもよいし、複数の同じ状況の音を集音した音声データを複数受け付けていた場合には、それらの音声データの中でユーザ10の声が含まれているものと含まれていないものとに分けることとしてもよい。そして、音声処理部131は、ユーザ10の指示が含まれる音声データを指示推定部133に伝達し、ユーザ10の指示が含まれていない音声データと音量値とを環境推定部132に伝達する。
環境推定部132は、伝達された音声データから、ユーザ10の周囲の環境を推定する。環境推定部132は、記憶部120に記憶されている環境推定モデルを用いて、ユーザ10の周囲の機器のうち、音を発生している機器を特定する。
環境推定部132は、推定したユーザ10の環境を示す情報を制御推定部134に伝達する。
指示推定部133は、伝達された音声データから、ユーザ10の指示を推定する。指示推定部133は、例えば、既存の音声認識技術を利用して、ユーザ10の音声による指示をテキストデータに変換し、制御推定部134に伝達する。
制御推定部134は、指示推定部133から伝達されたユーザ10の指示入力の内容と、環境推定部132から伝達されたユーザ10の周囲の環境を示す情報とに基づいて、実行すべき制御内容を推定する。制御推定部134は、ユーザ10の指示入力の内容と、ユーザ10の周囲の環境を示す情報とを入力として、制御モデル121を用いて、実行すべき制御内容を推定する。制御推定部134は、推定した制御内容を、実行部135に伝達する。
実行部135は、制御推定部134から伝達された制御内容を実行する。即ち、伝達された制御内容に基づいて、制御対象の機器に対して、実行する処理内容を示す制御信号を生成し、送信部140に送信させる。図1の例では、実行部135は外部の天気予報サーバから翌日の東京における天気の情報を確認する。
発話データ生成部136は、ユーザ10に向けて発話するロボット発話データを生成する。ロボット発話データは、発話音声から変換されたユーザ発話データに基づいて、発話音声への返事に相当するように生成される。
そして本実施形態では、情報処理サーバ150は、特定部137と制御部138とを備えている。
特定部137は、マイク(音声検出部)240が、ユーザ10がスピーカー(発話部)230の発話を聞き取ることを阻害するような騒音を検出した場合に、制御対象を特定する。制御対象とは、騒音がユーザ10に与える影響を小さくすることができる機器や器材を指す。
ここで、騒音が与える影響を小さくするとは、騒音の音量を小さくすること、騒音がユーザ10に届きにくくすること、又はスピーカー230の音量を大きくすることにより、ユーザ10がスピーカー230の発話を聞き取りやすくすることを意味している。
特定部137は、騒音となる音を自ら発生する家電機器を制御対象のうちの一つとして特定する。このような家電機器としては、例えば図1の例では、音楽プレーヤー30やテレビ50等があげられる。
また、騒音となる音を自ら発生する家電機器とは、機能として音を発生するものに限られず、稼働することで音を発生するような機器、例えば冷蔵庫や空調機器等でも良い。
特定部137は、騒音と、予め記憶部120が記憶している音源データと、の比較を行い、騒音に相当する家電機器を特定することで、制御対象を特定する。また、特定部137は、マイク240により検出された騒音の方向に基づいて、制御対象を特定する。
また、特定部137は、騒音が、ユーザ10に到達するのを遮る遮音部材を、制御対象のうちの一つとして特定することができる。
このような遮音部材としては、図1に示すような電動ドア60、電動窓70、又は図示しない電動カーテン等の室内に配置された家具である。なお、電動カーテンに代えて、電動ブラインドや電動パーテーションを遮音部材としてもよい。
また、特定部137は、スピーカー230を制御対象のうちの一つとして特定することができる。すなわち、特定部137が特定する制御対象は一つであってもよいし、複数であってもよい。
制御部138は、制御対象を制御する。制御部138による制御の具体的態様について、図4を参照して以下に説明する。この説明では、図4における縦軸に示す騒音の音量とは、マイク240が感じる騒音の音量である場合について説明する。なお、図4における縦軸に示す騒音の音量は、騒音発生源400が発生する騒音の音量であってもよい。
制御部138は、制御対象が騒音となる音を自ら発生する家電機器である場合には、騒音の音量が第1閾値T1以下となるように、制御対象を制御する。すなわち、テレビ50や音楽プレーヤー30の音量を下げたり、冷蔵庫や空調機器の出力を下げたりすることで、スピーカー230からの発話へのユーザ10の聞き取りに対して、騒音が与える影響を小さくする。
そして制御部138は、騒音の音量が第1閾値T1以下となった際に、制御対象を制御前の状態に復元する。すなわち、テレビ50や音楽プレーヤー30の音量を元に戻したり、冷蔵庫や空調機器の出力を戻したりすることができる。
一方、制御対象が遮音部材である場合には、制御部138は、遮音部材を、ユーザ10と、騒音を発生する騒音発生源400と、の間に移動させて、騒音が、ユーザ10に到達するのを遮る。すなわち、ドア、窓、又はカーテン等を閉めることで、騒音発生源400からの騒音が、スピーカー230からの発話へのユーザ10の聞き取りに対して、騒音が与える影響を小さくする。
そして制御部138は、騒音の音量が第1閾値T1以下となった際に、制御対象を制御前の状態に復元する。すなわち、ドア、窓、又はカーテン等を開けることで、元の状態に戻す。
さらに制御対象がスピーカー230である場合には、制御部138は、スピーカー230の音量を大きくする。これにより、スピーカー230からの発話へのユーザ10の聞き取りに対して、騒音が与える影響を相対的に小さくする。
そして制御部138は、騒音の音量が第1閾値T1以下となった際に、制御対象を制御前の状態に復元する。すなわち、スピーカー230の音量の大きさは元の状態に戻す。
また、制御部138における制御の他の態様として、制御対象がスピーカー230である場合に、制御部138は、スピーカー230による発話を一時的に中断する。これにより、スピーカー230からの発話へのユーザ10の聞き取りに対して、騒音が与える影響を小さくすることもできる。
この場合には、制御部138は、騒音の音量が第2閾値T2以上であるときに、スピーカー230による発話を一時的に中断する。そして、他の制御対象を制御することで、騒音の音量が第2閾値T2よりも小さい第3閾値T3以下になった際に、スピーカー230による発話を再開する。
すなわち、図1および図4に示すように、例えば特定部137が、制御対象として電動窓70とスピーカー230とを特定し、屋外からの騒音が第1閾値T1よりも大きい場合に、制御部138が電動窓70を閉める。
この際、騒音の音量が、スピーカー230からの発話をユーザ10が聞きとることが困難な第2閾値T2以上である場合には、スピーカー230からの発話を中断する。そして、騒音の音量が、スピーカー230からの発話をユーザ10が聞きとることが可能な第3閾値T3以下になった場合に、スピーカー230からの発話を再開する。そして、騒音発生源400がなくなり、屋外からの騒音が第1閾値T1以下になった際に、窓を開けて元の状態に戻す。
なお、上述した制御部138による閾値の判定動作についてはあくまで一例であり、任意に設定することができる。
例えば、騒音の音量が第2閾値T2以上の時間が、一定以上続いた場合にはじめて、制御部138が制御を開始するようにしてもよい。また、騒音の音量の一定時間内における積分値が、所定の閾値以上となった場合に、制御部138が適切な制御を行うようにしてもよい。
また、制御部138が、制御対象を制御しても騒音の音量が第1閾値T1以下にならなかった場合に、制御がうまくいかない旨や、制御対象である音を自ら発生する家電機器の音量を下げることなく、継続して再生する旨をユーザ10に通知してもよい。
ユーザ10への通知方法としては、例えばスマートスピーカー200のスピーカー230により、その旨を発話させてもよいし、例えばテレビ50のディスプレイにその旨の文章を表示してもよい。
送信部(音声データ出力部)140は、処理部130(実行部135)からの指示に従って、各種の機器(スマートスピーカー200や家電など)に制御信号を送信する機能を有する通信インターフェースである。
次に、情報処理サーバ150における処理部130の処理フローについて図5を用いて説明する。
図5に示すように、まず、マイク240が、周囲の音を検出する(S501)。次に、音声処理部131が、検出した音からユーザ10の発話音声を解析する(S502)。また、音声処理部131は、検出した音から騒音を解析する。(S503)。なお、発話音声の解析の前に、騒音の解析を行ってもよいし、二つを同時に行ってもよい。
次に、制御推定部134は、ユーザ10からの指示内容に基づいて、解析したユーザ10の状況と、制御内容を推定する(S504)。そして、実行部135は、推定した制御内容を実行する(S505)。
次に、制御推定部134は、騒音の音量が第1閾値T1以上であるかどうかを判定する(S506)。そして、騒音の音量が第1閾値T1よりも小さい場合(S506のNO)には、処理を終了する。一方、騒音の音量が第1閾値T1以上の場合(S506のYES)には、特定部137が制御対象を特定する(S507)。そして、制御部138が制御対象を制御する(S508)。
次に、制御推定部134は、騒音の音量が第2閾値T2以上であるかどうかを判定する(S509)。ここで、図4に示すように、第2閾値T2は、第1閾値T1よりも大きくなっている。そして、騒音の音量が第2閾値T2以上の場合(S509のYES)には、スピーカー230の発話を中断する。(S510)。一方、騒音の音量が第2閾値T2よりも小さい場合(S509のNO)には、スピーカー230の発話が終了しているかどうかを判定する。(S513)
次に、S510として、スピーカー230の発話を中断したのちに、制御推定部134は、騒音の音量が第3閾値T3以下であるかどうかを判定する(S511)。ここで、図4に示すように、第3閾値T3は、第2閾値T2よりも小さくて、第1閾値T1よりも大きくなっている。そして、騒音の音量が第3閾値T3よりも大きい場合(S511のNO)には、特定部137がさらに制御対象を特定する(S507)。一方、騒音の音量が第3閾値T3以下の場合(S511のYES)には、制御部138がスピーカー230の発話を再開する(S512)。
その後、制御推定部134は、スピーカー230の発話が終了しているかどうかを判定する(S513)。S513において、スピーカー230の発話が終了していない場合(S513のNO)には、再度、騒音の音量が第2閾値T2以上かどうかを判定する(S509)。一方、スピーカー230の発話が終了している場合(S513のYES)には、制御は終了する。
以上説明したように、本実施形態に係る情報処理装置100によれば、マイク(音声検出部)240と、スピーカー(発話部)230と、特定部137と、制御部138と、を備えている。このため、マイク240が騒音を検出した際に、特定部137が制御対象を特定し、制御部138が制御対象を制御する。これにより、スピーカー230からの発話へのユーザ10の聞き取りに対して、騒音が与える影響を小さくすることができる。
このようにして、周囲で騒音が発生しても、ユーザ10が情報処理装置100からの発話を聞き取りにくくなるのを抑えることができる。
また、スピーカー230が、ユーザ10からの発話音声から変換されたユーザ発話データに基づいて生成され、発話音声への返事に相当するロボット発話データを発話するので、ユーザ10が自然言語により対話することで、情報処理装置100の利便性を確保することができる。
また、特定部137が、騒音と、予め記憶している音源データと、の比較を行い、騒音の種類を判別するので、複数の家電機器から騒音となる音が発生しているときに、最も効果的に騒音を抑えることができる家電機器を、制御対象として的確に特定することができる。
また、制御部138が、家電機器が発生する音の音量を小さくすることができるので、家電機器が発生する音を直接的に小さくすることで、確実に騒音の音量を小さくすることができる。
また、制御部138が、遮音部材を、ユーザ10と騒音発生源400との間に移動させるので、例えば宅外からの騒音に対しても、効果的にその影響を抑えることができる。
また、マイク240は、騒音が検出される方向を特定し、特定部137が、マイク240により特定された騒音の方向に基づいて、制御対象を特定する。このため、マイク240に対して騒音が位置する方向を正確に把握することが可能になり、制御部138による制御対象の制御を精度よく行うことができる。
また、制御部138が、騒音の音量が第1閾値T1以下となるように制御対象を制御して、騒音の音量が第1閾値T1以下となった際に、制御対象を制御前の状態に復元する。このため、確実に騒音の影響を抑えることができるとともに、騒音の影響が小さくなった場合には、元の状態に復元することができる。
また、制御部138が、スピーカー230を制御対象として、スピーカー230の音量を大きくすることができるので、ユーザ10がスピーカー230からの発話を聞き取りやすくすることができる。
また、制御部138が、スピーカー230によるスピーカー230を一時的に中断することができるので、例えば騒音の音量が著しく大きい場合等に、スピーカー230からの発話の内容を聞き漏らすことを抑えることができる。
また、制御部138が、騒音の音量が第2閾値T2以上であるときに、スピーカー230による発話を一時的に中断するとともに、騒音の音量が第2閾値T2よりも小さい第3閾値T3以下になった際に、スピーカー230による発話を再開する。このため、騒音の音量がある程度小さくなったときにスピーカー230からの発話を再開することができ、スピーカー230からの発話を滞りなく行うことができる。
上記実施形態に係る装置は、上記実施形態に限定されるものではなく、他の手法により実現されてもよいことは言うまでもない。以下、各種変形例について説明する。
情報処理装置100は、どのような態様で実現されてもよい。すなわち、上述した実施形態のように、機能の一部がスマートスピーカー200に内蔵されていてもよいし、機能の全部がスマートスピーカー200に内蔵されていてもよい。
また、上記記実施形態においては、制御の内容を実行する情報処理サーバ150と、ユーザ10の周囲の環境に係る情報を取得する機器としてのスマートスピーカー200と、が別の装置である例を説明した。しかし、両装置は、1つの装置で実現されてもよい。
即ち、スマートスピーカー200が、情報処理サーバ150が保持する機能も備えることとしてよい。この場合、スマートスピーカー200と情報処理サーバ150との間で通信を行う必要がなくなり、通信遅延による発生し得る制御の遅延を抑制することができる。
また、情報処理サーバ150は、単なるコンピュータシステムやサーバ装置であったり、ロボットであったりしてもよい。即ち、情報処理サーバ150は、単体のコンピュータシステムとして成立してもよいし、スマートスピーカー200やロボット等の機器に内蔵されてもよい。また、情報処理サーバ150は、スマートスピーカー200やロボットを制御するための制御装置であってもよい。
また、スマートスピーカー200は、情報処理サーバ150が有する機能の一部のみを実行できるように、情報処理サーバ150の一部の機能部を有することとしてもよい。例えば、スマートスピーカー200は、音声処理部131の機能を保持してもよく、例えば、複数の指向性マイクで取得した音声データの中からユーザ10の指示の声が含まれる音声を特定(フィルタリング)し、ユーザ10の指示を含む音声データと、指示を含まない(ユーザ10の周囲の環境音の)音声データと、が区別できるように、情報処理サーバ150に送信することとしてもよい。
また、上記実施形態において、スマートスピーカー200は、音声データを逐次送信することとしているが、これはその限りではない。スマートスピーカー200はユーザ10からの指示入力があったタイミングにおいてのみ、その音声データと周囲の音を示す音声データとを送信することとしてよい。これを実現するために、スマートスピーカー200自身は逐次音声を集音するが、その際に、ユーザ10からの音声による指示入力があるか否かを検知する検知部を備えてもよい。例えば、人の音声の周波数領域に音があるか否かに基づいてユーザ10からの指示入力があるか否かを検知し、あると判定した場合に、スマートスピーカー200は、その前後の所定時間長の音声データを情報処理サーバ150に送信することとしてよい。
また、上記実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。記憶媒体は、HDDやSDDなどの任意の適切な記憶媒体、またはこれらの2つ以上の適切な組合せを含むことができる。記憶媒体は、揮発性、不揮発性、または揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイスまたは媒体であってもよい。
なお、情報処理装置100は、例えば、記憶媒体に記憶されたプログラムを読み出し、読み出したプログラムを実行することによって、各実施形態に示す複数の機能部の機能を実現することができる。また、当該プログラムは、任意の伝送媒体(通信ネットワークや放送波等)を介して、情報処理装置100に提供されてもよい。情報処理装置100は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現する。
なお、当該プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective―C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。
情報処理装置100における処理の少なくとも一部は、1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、情報処理装置100の各機能部は、上記実施形態に示した機能を実現する1または複数の回路によって実現されてもよく、1の回路により複数の機能部の機能が実現されることとしてもよい。
また、本開示の実施形態を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。また、各実施形態に示す構成を適宜組み合わせることとしてもよい。
1 情報処理システム
100 情報処理装置
130 処理部
137 特定部
138 制御部
200 スマートスピーカー
240 マイク(音声検出部)
230 スピーカー(発話部)

Claims (11)

  1. ユーザと自然言語により対話可能な情報処理装置であって、
    ユーザからの発話音声および周囲の音を検出する音声検出部と、
    ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話部と、
    ユーザが前記発話を聞き取ることを阻害するような騒音を前記音声検出部が検出した場合に、前記騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定部と、
    前記制御対象を制御する制御部と、
    前記騒音となる音を自ら発生する家電機器の音を、音源データとして予め記憶している記憶部と、を備え、
    前記特定部は、前記騒音と、前記音源データと、の比較を行い、前記騒音に相当する前記家電機器を特定することで、前記制御対象を特定する情報処理装置。
  2. ユーザと自然言語により対話可能な情報処理装置であって、
    ユーザからの発話音声および周囲の音を検出する音声検出部と、
    ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話部と、
    ユーザが前記発話を聞き取ることを阻害するような騒音を前記音声検出部が検出した場合に、前記騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定部と、
    前記制御対象を制御する制御部と、を備え、
    前記特定部は、前記騒音が、ユーザに到達するのを遮る遮音部材を、前記制御対象のうちの一つとして特定し、
    前記制御部は、前記遮音部材を、ユーザと、前記騒音を発生する騒音発生源と、の間に移動させることで、前記発話部からの発話へのユーザの聞き取りに対して、前記騒音が与える影響を小さくする情報処理装置。
  3. 前記遮音部材は、ドア、窓、又はカーテン等の室内に配置された家具であることを特徴とする請求項2に記載の情報処理装置。
  4. 前記音声検出部は、前記騒音が検出される方向を特定し、
    前記特定部は、前記音声検出部により特定された前記騒音の方向に基づいて、前記制御対象を特定することを特徴とする請求項3に記載の情報処理装置。
  5. ユーザと自然言語により対話可能な情報処理装置であって、
    ユーザからの発話音声および周囲の音を検出する音声検出部と、
    ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話部と、
    ユーザが前記発話を聞き取ることを阻害するような騒音を前記音声検出部が検出した場合に、前記騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定部と、
    前記制御対象を制御する制御部と、を備え、
    前記制御部は、前記騒音の音量が第1閾値以下となるように、前記制御対象を制御する情報処理装置。
  6. ユーザと自然言語により対話可能な情報処理装置であって、
    ユーザからの発話音声および周囲の音を検出する音声検出部と、
    ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話部と、
    ユーザが前記発話を聞き取ることを阻害するような騒音を前記音声検出部が検出した場合に、前記騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定部と、
    前記制御対象を制御する制御部と、を備えて、
    前記制御部は、前記騒音の音量が第1閾値以下となった際に、前記制御対象を制御前の状態に復元する情報処理装置。
  7. ユーザと自然言語により対話可能な情報処理システムの制御プログラムであって、
    コンピュータに、
    ユーザからの発話音声および周囲の音を検出する音声検出機能と、
    ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話機能と、
    ユーザが前記発話を聞き取ることを阻害するような騒音を前記音声検出機能が検出した場合に、前記騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定機能と、
    前記制御対象を制御する制御機能と、
    前記騒音となる音を自ら発生する家電機器の音を、音源データとして予め記憶している記憶機能と、を実現させ、
    前記特定機能では、前記騒音と、前記音源データと、の比較を行い、前記騒音に相当する前記家電機器を特定することで、前記制御対象を特定する情報処理システムの制御プログラム。
  8. ユーザと自然言語により対話可能な情報処理システムの制御プログラムであって、
    コンピュータに、
    ユーザからの発話音声および周囲の音を検出する音声検出機能と、
    ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話機能と、
    ユーザが前記発話を聞き取ることを阻害するような騒音を前記音声検出機能が検出した場合に、前記騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定機能と、
    前記制御対象を制御する制御機能と、を実現させ、
    前記特定機能では、前記騒音が、ユーザに到達するのを遮る遮音部材を、前記制御対象のうちの一つとして特定し、
    前記制御機能では、前記遮音部材を、ユーザと、前記騒音を発生する騒音発生源と、の間に移動させることで、前記発話機能による発話へのユーザの聞き取りに対して、前記騒音が与える影響を小さくする情報処理システムの制御プログラム。
  9. ユーザと自然言語により対話可能な情報処理システムの制御プログラムであって、
    コンピュータに、
    ユーザからの発話音声および周囲の音を検出する音声検出機能と、
    ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話機能と、
    ユーザが前記発話を聞き取ることを阻害するような騒音を前記音声検出機能が検出した場合に、前記騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定機能と、
    前記制御対象を制御する制御機能と、を実現させ、
    前記制御機能では、前記騒音の音量が第1閾値以下となるように、前記制御対象を制御する情報処理システムの制御プログラム。
  10. ユーザと自然言語により対話可能な情報処理システムの制御プログラムであって、
    コンピュータに、
    ユーザからの発話音声および周囲の音を検出する音声検出機能と、
    ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話機能と、
    ユーザが前記発話を聞き取ることを阻害するような騒音を前記音声検出機能が検出した場合に、前記騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定機能と、
    前記制御対象を制御する制御機能と、を実現させ、
    前記制御機能では、前記騒音の音量が第1閾値以下となった際に、前記制御対象を制御前の状態に復元する情報処理システムの制御プログラム。
  11. ユーザと自然言語により対話可能な情報処理システムにおける情報処理方法であって、
    コンピュータが、
    ユーザからの発話音声および周囲の音を検出する音声検出ステップと、
    ユーザに向けて発話するために生成されたロボット発話データを、音声データに変換して発話する発話ステップと、
    ユーザが前記発話を聞き取ることを阻害するような騒音を前記音声検出ステップにおいて検出した場合に、前記騒音がユーザに与える影響を小さくすることができる制御対象を特定する特定ステップと、
    前記制御対象を制御する制御ステップと、を実行し、
    前記ステップでは、前記騒音の音量が第1閾値以下となるように、前記制御対象を制御する情報処理システムにおける情報処理方法。
JP2018148237A 2018-08-07 2018-08-07 情報処理装置、情報処理システム、制御プログラム、情報処理方法 Active JP6748678B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018148237A JP6748678B2 (ja) 2018-08-07 2018-08-07 情報処理装置、情報処理システム、制御プログラム、情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018148237A JP6748678B2 (ja) 2018-08-07 2018-08-07 情報処理装置、情報処理システム、制御プログラム、情報処理方法

Publications (2)

Publication Number Publication Date
JP2020024276A JP2020024276A (ja) 2020-02-13
JP6748678B2 true JP6748678B2 (ja) 2020-09-02

Family

ID=69618594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018148237A Active JP6748678B2 (ja) 2018-08-07 2018-08-07 情報処理装置、情報処理システム、制御プログラム、情報処理方法

Country Status (1)

Country Link
JP (1) JP6748678B2 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2839192B2 (ja) * 1989-02-10 1998-12-16 株式会社リコー 音声合成装置
JP2000181500A (ja) * 1998-12-15 2000-06-30 Equos Research Co Ltd 音声認識装置及びエ―ジェント装置
JP3804569B2 (ja) * 2002-04-12 2006-08-02 ブラザー工業株式会社 文章読み上げ装置、文章読み上げ方法、及びプログラム
JP2006311433A (ja) * 2005-05-02 2006-11-09 Alpine Electronics Inc 雑音低減装置、ハンズフリー装置及び雑音低減方法
JP6660808B2 (ja) * 2016-05-13 2020-03-11 シャープ株式会社 音声出力制御装置、電子機器、および音声出力制御装置の制御方法
WO2017217286A1 (ja) * 2016-06-15 2017-12-21 コニカミノルタ株式会社 通話機器およびケアサポートシステム
CN106356073B (zh) * 2016-09-26 2020-06-02 海尔优家智能科技(北京)有限公司 一种消除噪音的方法及装置
CN107040638B (zh) * 2017-06-08 2019-08-20 维沃移动通信有限公司 一种噪音的处理方法及移动终端

Also Published As

Publication number Publication date
JP2020024276A (ja) 2020-02-13

Similar Documents

Publication Publication Date Title
CN110268470B (zh) 音频设备滤波器修改
US10672387B2 (en) Systems and methods for recognizing user speech
CN107465974B (zh) 声音信号检测器
US20170330566A1 (en) Distributed Volume Control for Speech Recognition
JP6660808B2 (ja) 音声出力制御装置、電子機器、および音声出力制御装置の制御方法
KR20200021093A (ko) 리플레이 공격의 검출
EP2846328A1 (en) Method and apparatus of detection of events
JP2017138476A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2019204074A (ja) 音声対話方法、装置及びシステム
CN109920419B (zh) 语音控制方法和装置、电子设备及计算机可读介质
KR102633176B1 (ko) 환경 잡음 보상 시스템에서 에러를 감소시키기 위한 방법
JP2017082507A (ja) 制御装置、制御システムおよびプログラム
US20220366908A1 (en) Information processing apparatus and information processing method
US11405735B2 (en) System and method for dynamically adjusting settings of audio output devices to reduce noise in adjacent spaces
JP6748678B2 (ja) 情報処理装置、情報処理システム、制御プログラム、情報処理方法
US11823551B2 (en) Detecting disturbing sound
US11081128B2 (en) Signal processing apparatus and method, and program
JP6700338B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム
Mayer IoT architecture for home automation by speech control aimed to assist people with mobility restrictions
WO2020194367A1 (ja) 制御装置、機器制御システム、制御方法及びプログラム
CN108322852B (zh) 一种智能音箱的语音播放方法、装置及存储介质
JP2020153642A (ja) 空気調和機、空調制御システム、制御方法及びプログラム
RU2818982C2 (ru) Управление акустической эхокомпенсацией для распределенных аудиоустройств
JP6899358B2 (ja) 宅内管理システム、宅内管理プログラム、および宅内管理方法
JP5449230B2 (ja) 遠隔地間コミュニケーション装置、遠隔地間コミュニケーション方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191230

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200807

R150 Certificate of patent or registration of utility model

Ref document number: 6748678

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250