JP2018049143A - 音声取得システムおよび音声取得方法 - Google Patents

音声取得システムおよび音声取得方法 Download PDF

Info

Publication number
JP2018049143A
JP2018049143A JP2016184189A JP2016184189A JP2018049143A JP 2018049143 A JP2018049143 A JP 2018049143A JP 2016184189 A JP2016184189 A JP 2016184189A JP 2016184189 A JP2016184189 A JP 2016184189A JP 2018049143 A JP2018049143 A JP 2018049143A
Authority
JP
Japan
Prior art keywords
moving body
sound
robot
microphone
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016184189A
Other languages
English (en)
Other versions
JP6520878B2 (ja
Inventor
洋平 脇阪
Yohei Wakisaka
洋平 脇阪
整 山田
Hitoshi Yamada
整 山田
智哉 高谷
Tomoya Takatani
智哉 高谷
生聖 渡部
Seisho Watabe
生聖 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016184189A priority Critical patent/JP6520878B2/ja
Priority to US15/704,681 priority patent/US10381003B2/en
Publication of JP2018049143A publication Critical patent/JP2018049143A/ja
Application granted granted Critical
Publication of JP6520878B2 publication Critical patent/JP6520878B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0255Control of position or course in two dimensions specially adapted to land vehicles using acoustic signals, e.g. ultra-sonic singals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Otolaryngology (AREA)
  • Manipulator (AREA)
  • Quality & Reliability (AREA)

Abstract

【課題】音源から発せられた音を精度よく分離する音声取得システムを提供する。
【解決手段】一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体と、いずれかの前記移動体の近傍にある音源の数を推定する音源数推定手段と、前記移動体の位置を制御する制御手段と、を含み、前記制御手段は、第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御し、前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得する。
【選択図】図1

Description

本発明は、移動体に搭載されたマイクを用いて音声を取得する技術に関する。
近年、音声によって人と対話をすることによって様々な情報を提供するロボットが開発されている。このような対話ロボットは、人と一対一で対話を行うことを前提としたものが多く、一般的に、複数人を同時に対話の相手とすることを苦手とする。これは、声を発した相手を区別できないといった理由による。
この問題を解決する発明として、特許文献1に記載の発明がある。当該発明は、複数のマイクを用いて音声を取得したうえで、目的とする音源から発せられた音のみを抽出することを特徴としている。このような技術を対話ロボットに適用することで、複数の対話相手がそれぞれ発した音声を個別に識別できるようになる。
特開2014−219467号公報
しかし、特許文献1に記載の技術では、複数のマイクを用いて目的とする音声を抽出しているため、識別対象の音源がマイクの数よりも多くなると、音源に対する位置検出精度が低下し、目的の音声を正しく抽出できなくなるおそれがある。すなわち、設計時に決められた人数よりも多くの人と対話を行おうとすると精度が低下するという問題がある。
本発明は上記の課題を考慮してなされたものであり、音源から発せられた音を精度よく分離する音声取得システムを提供することを目的とする。
本発明に係る音声取得システムは、
一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体と、いずれかの前記移動体の近傍にある音源の数を推定する音源数推定手段と、前記移動体の位置を制御する制御手段と、を含み、前記制御手段は、第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御し、前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得することを特徴とする。
本発明における移動体は、マイクを有し、自律的に音源の周囲を移動可能であるという特徴を持つ。当該移動体は、コミュニケーションロボットなどであってもよいし、マイクそのものであってもよい。また、音源とは、典型的には人間であるが、ロボットであってもよい。移動体は、マイクによって音声を取得する機能を有している。
音源数推定手段は、移動体の近傍にある音源の数を推定する手段である。音源数推定手段は、例えば、カメラやセンサなどの手段によって、音源の数を推定する。
第一の移動体の近傍に音源が多く集中していると、第一の移動体に搭載された限られた数のマイクでは、「複数の音源から発せられた音声を分離できない」、「対象の音源以外から発せられた音声を抑制する処理が行えない」といった不都合が生じるおそれがある。
そこで、制御手段が、第一の移動体の近傍にある音源の数に基づいて、第二の移動体の位置を制御したうえで、第一の移動体と第二の移動体の双方が有するマイクを用いて音声を取得する。かかる構成によると、複数の音源から音声を取得するのに必要なマイクの数を確保することができる。
なお、音源数推定手段および制御手段は、移動体から独立して設けられていてもよいし、移動体に内蔵されていてもよい。制御手段が移動体に内蔵されている場合、第一の移動体が有する制御手段が、第二の移動体が有する制御手段に対してリクエストを送信することで、第二の移動体の位置を制御する。
また、前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して、複数の音源から発せられた音を音源ごとに分離することを特徴としてもよい。
本発明は、複数の音源から発せられた音を分離して処理するシステムに好適に適用することができる。分離とは、目的とする音源から発せられた音声のみを抽出するものであってもよいし、目的とする音源以外から発せられた音声を抑制するものであってもよい。
音声の分離は、例えば、単純に一つの音源に一つの移動体を接近させることで行ってもよいし、複数の移動体が有する複数のマイクを用いて音声信号を取得し、当該信号に対して演算を行うことで行ってもよい。また、統計学的アプローチによって行ってもよい。
また、前記音源数推定手段が推定した、第一の移動体の近傍に存在する音源の数が所定の数よりも多い場合に、前記制御手段は、第二の移動体を前記第一の移動体の近傍へ移動させることを特徴としてもよい。
また、前記所定の数は、前記第一の移動体に搭載された数のマイクでは、前記第一の移動体の近傍に存在する複数の音源から発せられた音を所定の精度で分離できない数であることを特徴としてもよい。
第一の移動体の近傍に存在する音源の数が所定の数よりも多い場合、音源から発せられた音を分離する際の精度が低下する場合がある。そこで、第一の移動体の近傍に第二の移動体を呼び寄せる。これにより、必要な数のマイクを確保することができ、音声分離の精度を確保することができる。
また、前記制御手段は、前記第一の移動体に搭載されているマイクの数または配置に関する情報に基づいて、前記複数の音源から発せられた音を所定の精度で分離できるか否かを判定することを特徴としてもよい。
音源から発せられた音をどの程度の精度で分離できるかは、マイクの数や配置によって変わる。例えば、複数のマイクが同一の高さに配置されている場合、音源の高さを推定することができない。よって、マイクの数または配置についての情報に基づいて、所定の精度が得られるか否かを判定するようにしてもよい。
また、前記所定の数は、前記第一の移動体に搭載されているマイクの数よりも多い数であることを特徴としてもよい。
一般的に、マイクの数よりも音源の数が多くなると、音源の位置を特定する際の精度が低下するためである。
また、本発明に係る移動体は、
一つ以上のマイクを有し、音源の周囲を移動可能な移動体であって、近傍にある音源の数を推定する音源数推定手段と、前記近傍にある前記音源の数に基づいて、他の移動体の位置を制御する制御手段と、自己が有するマイクと、前記他の移動体が有するマイクの双
方を利用して音声を取得する音声取得手段と、を有することを特徴とする。
なお、本発明は、上記手段の少なくとも一部を含む音声取得システムや移動体として特定することができる。また、前記音声取得システムや移動体が行う音声取得方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
本発明によれば、音源から発せられた音を精度よく分離する音声取得システムを提供することができる。
第一の実施形態に係る音声対話システムのシステム構成図である。 ロボット10の外観図である。 他のロボットに対する支援要請を説明する図である。 第一の実施形態においてロボットが実行する処理のフローチャートである。 第一の実施形態においてロボットが実行する処理のフローチャートである。 他のロボットに送信される支援要請を説明する図である。 第二の実施形態に係るロボットのシステム構成図である。 第三の実施形態に係る音声対話システムのシステム構成図である。
(第一の実施形態)
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、複数のロボットと二台のサーバから構成され、当該ロボットがサーバと通信を行うことで、自然言語によってユーザと対話を行うシステムである。
<システム構成>
図1は、本実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10、音声認識サーバ20、応答生成サーバ30を含んで構成される。なお、図1には示していないが、本実施形態に係る音声対話システムは、複数のロボット10を含んで構成することができる。
まず、ロボット10について説明する。
ロボット10は、外部から音声を取得する機能と、当該音声を認識した結果に基づいて、入力された音声に対する応答となる文章(以下、応答文)を取得する機能と、当該応答文を音声によって出力する機能を有するロボットである。ロボット10は、例えば、コミュニケーションロボットであるが、必ずしもキャラクターの形をしている必要はない。例えば、ロボットに組み込むことができる汎用のコンピュータであってもよい。本実施形態では、移動可能な複数のロボット10がフィールド上に配置され、任意のユーザと対話できる形態を例に説明を行う。
ロボット10は、近距離通信部11、通信部12、音声入出力部13、応答取得部14、支援要請部15、カメラ16、動作制御部17を含んで構成される。
近距離通信部11は、ロボット10同士で無線通信を行う手段である。第一の実施形態では、近距離通信部11は、Bluetooth(登録商標)接続を利用した通信を行う。第一の実施形態では、近距離通信部11を用いて複数のロボット10間における情報交換を実現する。
通信部12は、通信回線(例えば無線LAN)を介してネットワークにアクセスすることで、後述する音声認識サーバ20および応答生成サーバ30との通信を行う手段である。
音声入出力部13は、音声を入出力する手段である。具体的には、図2(A)に示したような単一の内蔵マイクを用いて、音声を電気信号(以下、音声データ)に変換する。取得した音声データは、音声認識サーバ20へ送信され、音声認識処理が行われる。
また、音声入出力部13は、内蔵されたスピーカを用いて、後述する応答取得部14から送信された音声データを音声に変換する。
応答取得部14は、応答生成サーバ30を用いて、入力された音声に対する応答文を取得し、音声データに変換する手段である。具体的には、音声認識サーバ20から送信されたテキスト(音声認識の結果得られるテキスト)を応答生成サーバ30へ送信し、応答文を取得する処理と、音声合成によって当該応答文を音声データに変換する処理を実行する。
支援要請部15は、自ロボットの近傍に複数の音源が存在することを判定し、他のロボット10に対して支援を要請する手段である。
これについて、図3を参照しながら説明する。本実施形態に係るロボット10は、複数の音源から到来する音声を分離する機能は有していない。例えば、図3のように、ユーザAとユーザBがロボット10Aの近傍に存在する場合、それぞれが発した音声を区別することができない。
そこで、本実施形態では、ロボット10(支援要請部15)が、カメラ16を用いて自ロボットの周囲を撮影し、音源の数(すなわちユーザの数)を判定したうえで、音源の数が2つ以上であった場合に、近距離無線通信によって他のロボット10に支援を要請する。これにより、他のロボット10が、協働して音声の取得を行うべく呼び寄せられる。
例えば、ロボット10Aが、ロボット10Bに対して、『ユーザBの近傍に移動して、ユーザBが発した音声を取得する』よう要請したものとする。すると、これに応じて、ロボット10Bが符号301で示した位置まで移動して、音声の取得を行い、取得した音声データをロボット10Aに送信する。すなわち、ロボット10AがユーザAから音声を取得し、ロボット10BがユーザBから音声を取得するという役割分担がなされる。
それぞれのロボットは、直近に存在するユーザの発話を主に取得できる程度のマイクゲインで音声の取得を行う。なお、ロボット10Aは、自己が取得した音声データをユーザAの音声、ロボット10Bから取得した音声データをユーザBの音声として扱い、それぞれ応答文の生成を行う。
カメラ16は、ロボット10の周辺を撮像し、可視光像を取得するカメラである。本実施形態では、支援要請部15が、取得した画像から人の顔を検出し、検出した顔の数に基づいてロボット10の周辺に存在するユーザの数を判定する。なお、本実施形態ではカメラを例示したが、ロボット10の周辺に存在するユーザの数を判定できれば、他の手段(センサ等)を用いてもよい。
動作制御部17は、ロボット10を移動させる制御を行う手段である。具体的には、不図示の駆動手段を用いてロボットをX−Y平面上で移動させる。これにより、ロボット10がフィールド上の任意の位置に移動することができる。
音声認識サーバ20は、音声の認識に特化したサーバ装置であり、通信部21、音声認
識部22からなる。
通信部21が有する機能は、前述した通信部12と同様であるため、詳細な説明は省略する。
音声認識部22は、取得した音声データに対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部22には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。音声認識の結果得られたテキストは、応答取得部14を経由して、応答生成サーバ30に送信される。
応答生成サーバ30は、応答文の生成に特化したサーバ装置であり、通信部31、応答生成部32からなる。
通信部31が有する機能は、前述した通信部12と同様であるため、詳細な説明は省略する。
応答生成部32は、音声認識サーバ20が生成したテキスト(すなわち、ユーザが行った発話の内容)に基づいて、応答となる文章(応答文)を生成する手段である。応答生成部32は、例えば、予め記憶された対話シナリオ(対話辞書)に基づいて応答文を生成してもよい。応答生成部32が生成した応答文は、応答取得部14にテキスト形式で送信され、その後、合成音声によってユーザに向けて出力される。
音声認識サーバ20および応答生成サーバ30は、いずれもCPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
<処理フローチャート>
次に、ロボット10が行う具体的な処理の内容について説明する。図4は、ロボット10が実行する処理を示したフローチャートである。
まず、ステップS11で、支援要請部15が、カメラ16を介して画像を取得する。本実施形態では、ロボットの正面のみを撮像範囲とする画像を取得するが、撮像範囲はこれ以外であってもよい。
次に、ステップS12で、支援要請部15が、取得した画像に基づいて、自ロボットの正面にいる人の数をカウントする。例えば、取得した画像から人の顔を検出する処理を行い、得られた顔の数に基づいて人数を判定する。
次に、ステップS13で、カウントされた人の数を判定する。この結果、カウントされた人の数が0人であった場合(すなわち、画像中に人が存在していなかった場合)、処理はステップS11に戻る。
カウントされた人の数が1人であった場合、ステップS14に遷移し、当該ユーザとの対話を実施する。
ここで、ステップS14で行う処理について詳しく説明する。図5は、ステップS14で行う処理を詳しく示したフローチャート図である。
まず、ステップS141で、音声入出力部13がマイクを通して対話相手であるユーザから音声を取得する。取得した音声は音声データに変換され、通信部12および通信部21を介して音声認識サーバ20へ送信される。なお、この際、ロボット10を、対話相手
となるユーザの近くに移動させてもよい。例えば、動作制御部17が、ステップS11で取得した画像に基づいてユーザの位置を認識し、当該ユーザの近傍にロボットを移動させる制御を行ってもよい。
音声認識サーバ20に送信された音声データは、音声認識部22によってテキストに変換され、変換が完了次第、通信部21および通信部12を介して応答取得部14へ送信される(ステップS142)。
次に、ステップS143で、応答取得部14が、音声認識サーバ20から送信されたテキストを応答生成サーバ30に送信する。そして、応答生成部32が、送信されたテキストに基づいて応答文を生成し、生成された応答文を応答取得部14へ送信する(ステップS144)。最後に、応答取得部14が、音声合成によって応答文を音声データに変換し、音声入出力部13を介して出力する(ステップS145)。
次に、ステップS13でカウントされた人の数が二人以上であった場合について説明する。カウントされた人の数が二人以上であった場合、自ロボットのみでは、それぞれが発した音声を分離することができない。そこで、支援要請部15が、近距離通信部11を介して、周辺に存在する他のロボット10に対して支援要請を送信する(ステップS15)。図6(A)は、近距離無線通信によって送信される支援要請の内容を例示した図である。本実施形態では、自ロボットのID(識別子)、検出した人数、必要な支援数(必要なマイクの数)、およびターゲットとなる音源の位置情報を周囲のロボットに対して送信する。
なお、ターゲット位置情報は、当該支援要請を受信したロボットの移動先を表す情報として利用される。ターゲット位置情報は、例えば、自ロボットの位置情報と、ステップS11で取得した画像に基づいて生成してもよいし、他の手段によって特定した音源の位置に基づいて生成してもよい。
ステップS15で送信された支援要請は、他のロボットによって受信される。当該支援要請を受信した他のロボットが複数ある場合、当該複数のロボット間で協議を行い、「必要な支援数」に示されている台数ぶんのロボットを選定する。例えば、ターゲットとなる音源に最も近い順に、支援を行うロボットを選定してもよい。
そして、選定されたロボットが、ターゲット位置情報に従って移動する(ステップS16)。図3の例の場合、ユーザBの近傍である地点301までロボット10Bが移動する。
そして、ステップS17で、ステップS14と同様に、ユーザとの対話を実施する。ステップS17における処理は、図5に示した処理と類似するが、支援中のロボット(本例の場合、ロボット10B)によって取得された音声データが、支援を受けるロボット(本例の場合、ロボット10A)に送信されるという点が相違する。また、支援を受けるロボットが、受信した音声データに基づいて、対話処理をユーザごとに平行して進めるという点が相違する。すなわち、図5に示した処理が、対話を行うユーザ(本例の場合、ユーザAおよびユーザB)ごとに実行される。
なお、ステップS16を実行してもなおマイクの数が不足する場合、再度ステップS15に遷移し、再度支援要請を生成して送信してもよい。
以上説明したように、第一の実施形態に係る音声対話システムは、ロボットに搭載されたマイクの数が不足し、複数のユーザが発した音声が分離できない場合に、他のロボットに支援を要請し、当該他のロボットが有するマイクを追加で利用して対話を行う。かかる構成によると、一台のマイクを持つロボットが二人以上のユーザと同時に対話することが
可能になる。
(第二の実施形態)
第一の実施形態では、各ロボットがマイクを一台ずつ有しており、ユーザ一人に対して一台のロボットが付くことで音源の分離を行った。これに対し、第二の実施形態は、各ロボットが複数のマイクを有している実施形態である。
図7は、第二の実施形態に係るロボット10のシステム構成図である。第二の実施形態に係るロボット10は、音源分離部18を有しているという点において、第一の実施形態に係るロボット10と相違する。
また、音声入出力部13が、図2(B)に示したようなマイクアレイ(点線で図示)を有しており、それぞれのマイクから音声データを取得できるという点において、第一の実施形態に係るロボット10と相違する。
音源分離部18は、音声入出力部13が取得した音声(すなわち、マイクアレイによって取得した多チャンネル音声)から、対話相手である複数のユーザがそれぞれ発した音声を抽出する手段である。
音源分離部18は、音声入出力部13が有しているマイクアレイから得た信号を解析し、ロボットに対するユーザの位置を推定したうえで、当該位置から到来する音声のみを抽出する。それぞれのマイクから得られた信号を一旦記録して演算することで、音源の方向や距離を算出することができる。また、目的とする音源以外から到来する音声を抑圧することで、対象とするユーザが発した音声のみを抽出することができる。
マイクアレイを用いた音源位置の推定方法や、特定の位置にある音源から到来した音声のみを抽出する(当該音源以外から到来する音を抑圧する)方法については公知であるため、ここでは詳細な説明は省略する。
なお、マイクは二次元的に配置されてもよいし、三次元的に配置されてもよい。三次元的に配置することで、高さ(Z軸)方向の位置を検出することが可能になる。
第二の実施形態では、一台のロボット10が三つのマイクを有しているため、平面上における音源の位置を推定することができる。また、推定した位置に基づいて、音源の分離を行うことができる。しかし、音源の数が多くなると、音源の位置を推定する精度が低下し、音声の分離精度が低下する場合がある。
これに対応するため、第二の実施形態では、ロボット10が有する支援要請部15が、所定の精度を得るためのマイクの数が不足していることを判定し、他のロボットに支援要請を行う。なお、所定の精度が得られるか否かは、自ロボットが有する複数のマイクの配置に関する情報に基づいて判断してもよい。
第二の実施形態においても、第一の実施形態と同様に、支援を行うロボットから、支援を受けるロボットに音声データが送信される。そして、支援を受けるロボットが、受信した音声データをさらに用いて音源の位置推定ならびに音声の分離処理を行う。
なお、第二の実施形態で送信する支援要請は、図6(A)に示したものであってもよいが、自ロボットが有するマイクに関する情報をさらに追加してもよい。例えば、支援要請に、自ロボットが有しているマイクの数、マイクの取り付け角度、マイクの高さなどを含ませ、受信した他のロボットに、支援の可否(所定の精度を実現するため、自ロボットが支援可能であるか否か)を判断させてもよい。
(第三の実施形態)
第一および第二の実施形態では、フィールド上に配置されたロボット10がユーザとの
対話を行った。これに対し、第三の実施形態は、フィールド上を移動する複数のマイクを利用して、固定された対話装置40がユーザとの対話を行う実施形態である。
図8は、第三の実施形態に係る音声対話システムの構成図である。
移動マイク50は、第一の実施形態におけるロボット10から、自律的に移動するための機能を省いたマイク装置であり、通信部51、音声入出力部52、動作制御部53を有する。
通信部51は、前述した通信部12と同様の機能を有する手段である。また、音声入出力部52は、前述した音声入出力部13と同様の機能を有する手段である。また、動作制御部53は、前述した動作制御部17と同様の機能を有する手段である。
対話装置40は、通信部41、制御部42、カメラ43からなるサーバ装置である。対話装置40も、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。
通信部41が有する機能は、前述した通信部12と同様であるため、詳細な説明は省略する。
制御部42は、移動マイク50からネットワーク経由で音声データを取得し、当該取得した音声データを用いてユーザと対話する機能を有する手段である。また、制御部42は、移動マイク50の位置を制御する機能を有する。詳細な処理については後述する。
カメラ43は、フィールドを俯瞰する位置に設置された、可視光像を取得するカメラである。なお、本実施形態ではカメラを例示したが、ユーザの数および位置を判定できれば、センサ等の手段を用いてもよい。
第三の実施形態では、制御部42が、カメラ43を介して画像を取得し、当該画像に基づいてユーザの数を判定したうえで、音源の分離を十分な精度で行えるだけのマイクが存在するか否かを判定する。この結果、音源の分離が行えない、あるいは、音源の分離精度を確保することができないと判定した場合、フィールド上にある移動マイク50に対して、位置を制御する命令(すなわち、音源であるユーザの近傍に移動する命令)を送信する。なお、所定の精度が得られるか否かは、各移動マイク50に搭載されているマイクの数や、マイクの配置に関する情報に基づいて判断してもよい。
図6(B)は、第三の実施形態における支援要請のフォーマットを表した図である。第三の実施形態では、移動させるマイク(移動マイク50)のIDと、移動先が記載されている。すなわち、宛先を指定して支援要請が送信される。なお、ターゲット位置情報は、例えば、カメラ43が取得した画像に基づいて生成してもよいし、他の手段によって特定した音源の位置に基づいて生成してもよい。
第三の実施形態によると、全体を俯瞰する位置にカメラを配置できるため、ユーザの数をより正確に判定することができる。また、移動するマイクを、ロボットの自律判断ではなく対話装置40が決定するため、計画性の高い移動を行うことができる。
(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、カメラによって音源の位置を判定したが、音源が人間ではなくロボットであるような場合、音源自らが対話相手となるロボット10や、対話装置40に対して位置を通知するようにしてもよい。
10・・・ロボット
11・・・近距離通信部
12,21,31・・・通信部
13・・・音声入出力部
14・・・応答取得部
15・・・支援要請部
16・・・カメラ
20・・・音声認識サーバ
22・・・音声認識部
30・・・応答生成サーバ
32・・・応答生成部

Claims (8)

  1. 一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体と、
    いずれかの前記移動体の近傍にある音源の数を推定する音源数推定手段と、
    前記移動体の位置を制御する制御手段と、を含み、
    前記制御手段は、第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御し、
    前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得する、
    音声取得システム。
  2. 前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して、複数の音源から発せられた音を音源ごとに分離する、
    請求項1に記載の音声取得システム。
  3. 前記音源数推定手段が推定した、第一の移動体の近傍に存在する音源の数が所定の数よりも多い場合に、
    前記制御手段は、第二の移動体を前記第一の移動体の近傍へ移動させる、
    請求項2に記載の音声取得システム。
  4. 前記所定の数は、前記第一の移動体に搭載された数のマイクでは、前記第一の移動体の近傍に存在する複数の音源から発せられた音を所定の精度で分離できない数である、
    請求項3に記載の音声取得システム。
  5. 前記制御手段は、前記第一の移動体に搭載されているマイクの数または配置に関する情報に基づいて、前記複数の音源から発せられた音を所定の精度で分離できるか否かを判定する、
    請求項4に記載の音声取得システム。
  6. 前記所定の数は、前記第一の移動体に搭載されているマイクの数よりも多い数である、
    請求項3に記載の音声取得システム。
  7. 一つ以上のマイクを有し、音源の周囲を移動可能な移動体であって、
    近傍にある音源の数を推定する音源数推定手段と、
    前記近傍にある前記音源の数に基づいて、他の移動体の位置を制御する制御手段と、
    自己が有するマイクと、前記他の移動体が有するマイクの双方を利用して音声を取得する音声取得手段と、
    を有する、移動体。
  8. 一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体を用いて音声を取得する音声取得方法であって、
    いずれかの前記移動体の近傍にある音源の数を推定する音源数推定ステップと、
    第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御する制御ステップと、
    前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得する音声取得ステップと、
    を含む、音声取得方法。
JP2016184189A 2016-09-21 2016-09-21 音声取得システムおよび音声取得方法 Active JP6520878B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016184189A JP6520878B2 (ja) 2016-09-21 2016-09-21 音声取得システムおよび音声取得方法
US15/704,681 US10381003B2 (en) 2016-09-21 2017-09-14 Voice acquisition system and voice acquisition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016184189A JP6520878B2 (ja) 2016-09-21 2016-09-21 音声取得システムおよび音声取得方法

Publications (2)

Publication Number Publication Date
JP2018049143A true JP2018049143A (ja) 2018-03-29
JP6520878B2 JP6520878B2 (ja) 2019-05-29

Family

ID=61621279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016184189A Active JP6520878B2 (ja) 2016-09-21 2016-09-21 音声取得システムおよび音声取得方法

Country Status (2)

Country Link
US (1) US10381003B2 (ja)
JP (1) JP6520878B2 (ja)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN109754814B (zh) * 2017-11-08 2023-07-28 阿里巴巴集团控股有限公司 一种声音处理方法、交互设备
US10777198B2 (en) * 2017-11-24 2020-09-15 Electronics And Telecommunications Research Institute Apparatus for determining speech properties and motion properties of interactive robot and method thereof
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) * 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
CN110310657B (zh) * 2019-07-10 2022-02-08 北京猎户星空科技有限公司 一种音频数据处理方法及装置
CN110534105B (zh) * 2019-07-24 2021-10-15 珠海格力电器股份有限公司 一种语音控制方法及装置
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111443717B (zh) * 2020-04-24 2021-07-06 南京硅基智能科技有限公司 一种基于语音识别控制的巡检机器人系统
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
JP2022119582A (ja) * 2021-02-04 2022-08-17 株式会社日立エルジーデータストレージ 音声取得装置および音声取得方法
CN114446300B (zh) * 2022-02-17 2023-03-24 北京百度网讯科技有限公司 多音区识别方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005057549A1 (ja) * 2003-12-12 2005-06-23 Nec Corporation 情報処理システム、情報処理方法および情報処理用プログラム
JP2010156741A (ja) * 2008-12-26 2010-07-15 Yamaha Corp サービス提供装置
WO2014087495A1 (ja) * 2012-12-05 2014-06-12 株式会社日立製作所 音声対話ロボット、音声対話ロボットシステム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9445193B2 (en) * 2008-07-31 2016-09-13 Nokia Technologies Oy Electronic device directional audio capture
US9412375B2 (en) * 2012-11-14 2016-08-09 Qualcomm Incorporated Methods and apparatuses for representing a sound field in a physical space
US9065971B2 (en) * 2012-12-19 2015-06-23 Microsoft Technology Licensing, Llc Video and audio tagging for active speaker detection
JP2014219467A (ja) 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005057549A1 (ja) * 2003-12-12 2005-06-23 Nec Corporation 情報処理システム、情報処理方法および情報処理用プログラム
JP2010156741A (ja) * 2008-12-26 2010-07-15 Yamaha Corp サービス提供装置
WO2014087495A1 (ja) * 2012-12-05 2014-06-12 株式会社日立製作所 音声対話ロボット、音声対話ロボットシステム

Also Published As

Publication number Publication date
US20180082686A1 (en) 2018-03-22
JP6520878B2 (ja) 2019-05-29
US10381003B2 (en) 2019-08-13

Similar Documents

Publication Publication Date Title
JP6520878B2 (ja) 音声取得システムおよび音声取得方法
JP6402748B2 (ja) 音声対話装置および発話制御方法
JP4718987B2 (ja) インターフェース装置およびそれを備えた移動ロボット
JP6465077B2 (ja) 音声対話装置および音声対話方法
US10276164B2 (en) Multi-speaker speech recognition correction system
US9547306B2 (en) State and context dependent voice based interface for an unmanned vehicle or robot
JP4204541B2 (ja) 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
KR101834546B1 (ko) 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
US10431241B2 (en) Speech enhancement method and apparatus for same
JP4825552B2 (ja) 音声認識装置、周波数スペクトル取得装置および音声認識方法
WO2009111884A1 (en) Speech understanding method and system
JP2020046478A (ja) ロボットシステム
KR102374054B1 (ko) 음성 인식 방법 및 이에 사용되는 장치
JP2018169473A (ja) 音声処理装置、音声処理方法及びプログラム
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6723907B2 (ja) 言語認識システム、言語認識方法、及び言語認識プログラム
JP2008052178A (ja) 音声認識装置と音声認識方法
JP2018075657A (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
WO2020079918A1 (ja) 情報処理装置及び情報処理方法
JP2001188551A (ja) 情報処理装置および方法、並びに記録媒体
JP2018055155A (ja) 音声対話装置および音声対話方法
JP5610283B2 (ja) 外部機器制御装置、その外部機器制御方法及びプログラム
WO2021206679A1 (en) Audio-visual multi-speacer speech separation
JP2016163230A (ja) 音声解析装置、音声解析システムおよびプログラム
JP6680125B2 (ja) ロボットおよび音声対話方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190415

R151 Written notification of patent or utility model registration

Ref document number: 6520878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151