JP2018049143A - 音声取得システムおよび音声取得方法 - Google Patents
音声取得システムおよび音声取得方法 Download PDFInfo
- Publication number
- JP2018049143A JP2018049143A JP2016184189A JP2016184189A JP2018049143A JP 2018049143 A JP2018049143 A JP 2018049143A JP 2016184189 A JP2016184189 A JP 2016184189A JP 2016184189 A JP2016184189 A JP 2016184189A JP 2018049143 A JP2018049143 A JP 2018049143A
- Authority
- JP
- Japan
- Prior art keywords
- moving body
- sound
- robot
- microphone
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 21
- 230000004044 response Effects 0.000 description 41
- 238000004891 communication Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000000926 separation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/003—Controls for manipulators by means of an audio-responsive input
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0255—Control of position or course in two dimensions specially adapted to land vehicles using acoustic signals, e.g. ultra-sonic singals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/028—Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Otolaryngology (AREA)
- Manipulator (AREA)
- Quality & Reliability (AREA)
Abstract
【解決手段】一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体と、いずれかの前記移動体の近傍にある音源の数を推定する音源数推定手段と、前記移動体の位置を制御する制御手段と、を含み、前記制御手段は、第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御し、前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得する。
【選択図】図1
Description
一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体と、いずれかの前記移動体の近傍にある音源の数を推定する音源数推定手段と、前記移動体の位置を制御する制御手段と、を含み、前記制御手段は、第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御し、前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得することを特徴とする。
音源数推定手段は、移動体の近傍にある音源の数を推定する手段である。音源数推定手段は、例えば、カメラやセンサなどの手段によって、音源の数を推定する。
そこで、制御手段が、第一の移動体の近傍にある音源の数に基づいて、第二の移動体の位置を制御したうえで、第一の移動体と第二の移動体の双方が有するマイクを用いて音声を取得する。かかる構成によると、複数の音源から音声を取得するのに必要なマイクの数を確保することができる。
なお、音源数推定手段および制御手段は、移動体から独立して設けられていてもよいし、移動体に内蔵されていてもよい。制御手段が移動体に内蔵されている場合、第一の移動体が有する制御手段が、第二の移動体が有する制御手段に対してリクエストを送信することで、第二の移動体の位置を制御する。
音声の分離は、例えば、単純に一つの音源に一つの移動体を接近させることで行ってもよいし、複数の移動体が有する複数のマイクを用いて音声信号を取得し、当該信号に対して演算を行うことで行ってもよい。また、統計学的アプローチによって行ってもよい。
また、前記所定の数は、前記第一の移動体に搭載された数のマイクでは、前記第一の移動体の近傍に存在する複数の音源から発せられた音を所定の精度で分離できない数であることを特徴としてもよい。
一つ以上のマイクを有し、音源の周囲を移動可能な移動体であって、近傍にある音源の数を推定する音源数推定手段と、前記近傍にある前記音源の数に基づいて、他の移動体の位置を制御する制御手段と、自己が有するマイクと、前記他の移動体が有するマイクの双
方を利用して音声を取得する音声取得手段と、を有することを特徴とする。
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、複数のロボットと二台のサーバから構成され、当該ロボットがサーバと通信を行うことで、自然言語によってユーザと対話を行うシステムである。
図1は、本実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10、音声認識サーバ20、応答生成サーバ30を含んで構成される。なお、図1には示していないが、本実施形態に係る音声対話システムは、複数のロボット10を含んで構成することができる。
ロボット10は、外部から音声を取得する機能と、当該音声を認識した結果に基づいて、入力された音声に対する応答となる文章(以下、応答文)を取得する機能と、当該応答文を音声によって出力する機能を有するロボットである。ロボット10は、例えば、コミュニケーションロボットであるが、必ずしもキャラクターの形をしている必要はない。例えば、ロボットに組み込むことができる汎用のコンピュータであってもよい。本実施形態では、移動可能な複数のロボット10がフィールド上に配置され、任意のユーザと対話できる形態を例に説明を行う。
また、音声入出力部13は、内蔵されたスピーカを用いて、後述する応答取得部14から送信された音声データを音声に変換する。
これについて、図3を参照しながら説明する。本実施形態に係るロボット10は、複数の音源から到来する音声を分離する機能は有していない。例えば、図3のように、ユーザAとユーザBがロボット10Aの近傍に存在する場合、それぞれが発した音声を区別することができない。
それぞれのロボットは、直近に存在するユーザの発話を主に取得できる程度のマイクゲインで音声の取得を行う。なお、ロボット10Aは、自己が取得した音声データをユーザAの音声、ロボット10Bから取得した音声データをユーザBの音声として扱い、それぞれ応答文の生成を行う。
識部22からなる。
通信部21が有する機能は、前述した通信部12と同様であるため、詳細な説明は省略する。
通信部31が有する機能は、前述した通信部12と同様であるため、詳細な説明は省略する。
次に、ロボット10が行う具体的な処理の内容について説明する。図4は、ロボット10が実行する処理を示したフローチャートである。
まず、ステップS11で、支援要請部15が、カメラ16を介して画像を取得する。本実施形態では、ロボットの正面のみを撮像範囲とする画像を取得するが、撮像範囲はこれ以外であってもよい。
次に、ステップS12で、支援要請部15が、取得した画像に基づいて、自ロボットの正面にいる人の数をカウントする。例えば、取得した画像から人の顔を検出する処理を行い、得られた顔の数に基づいて人数を判定する。
カウントされた人の数が1人であった場合、ステップS14に遷移し、当該ユーザとの対話を実施する。
となるユーザの近くに移動させてもよい。例えば、動作制御部17が、ステップS11で取得した画像に基づいてユーザの位置を認識し、当該ユーザの近傍にロボットを移動させる制御を行ってもよい。
なお、ターゲット位置情報は、当該支援要請を受信したロボットの移動先を表す情報として利用される。ターゲット位置情報は、例えば、自ロボットの位置情報と、ステップS11で取得した画像に基づいて生成してもよいし、他の手段によって特定した音源の位置に基づいて生成してもよい。
そして、選定されたロボットが、ターゲット位置情報に従って移動する(ステップS16)。図3の例の場合、ユーザBの近傍である地点301までロボット10Bが移動する。
可能になる。
第一の実施形態では、各ロボットがマイクを一台ずつ有しており、ユーザ一人に対して一台のロボットが付くことで音源の分離を行った。これに対し、第二の実施形態は、各ロボットが複数のマイクを有している実施形態である。
また、音声入出力部13が、図2(B)に示したようなマイクアレイ(点線で図示)を有しており、それぞれのマイクから音声データを取得できるという点において、第一の実施形態に係るロボット10と相違する。
音源分離部18は、音声入出力部13が有しているマイクアレイから得た信号を解析し、ロボットに対するユーザの位置を推定したうえで、当該位置から到来する音声のみを抽出する。それぞれのマイクから得られた信号を一旦記録して演算することで、音源の方向や距離を算出することができる。また、目的とする音源以外から到来する音声を抑圧することで、対象とするユーザが発した音声のみを抽出することができる。
なお、マイクは二次元的に配置されてもよいし、三次元的に配置されてもよい。三次元的に配置することで、高さ(Z軸)方向の位置を検出することが可能になる。
これに対応するため、第二の実施形態では、ロボット10が有する支援要請部15が、所定の精度を得るためのマイクの数が不足していることを判定し、他のロボットに支援要請を行う。なお、所定の精度が得られるか否かは、自ロボットが有する複数のマイクの配置に関する情報に基づいて判断してもよい。
第一および第二の実施形態では、フィールド上に配置されたロボット10がユーザとの
対話を行った。これに対し、第三の実施形態は、フィールド上を移動する複数のマイクを利用して、固定された対話装置40がユーザとの対話を行う実施形態である。
移動マイク50は、第一の実施形態におけるロボット10から、自律的に移動するための機能を省いたマイク装置であり、通信部51、音声入出力部52、動作制御部53を有する。
通信部41が有する機能は、前述した通信部12と同様であるため、詳細な説明は省略する。
カメラ43は、フィールドを俯瞰する位置に設置された、可視光像を取得するカメラである。なお、本実施形態ではカメラを例示したが、ユーザの数および位置を判定できれば、センサ等の手段を用いてもよい。
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、カメラによって音源の位置を判定したが、音源が人間ではなくロボットであるような場合、音源自らが対話相手となるロボット10や、対話装置40に対して位置を通知するようにしてもよい。
11・・・近距離通信部
12,21,31・・・通信部
13・・・音声入出力部
14・・・応答取得部
15・・・支援要請部
16・・・カメラ
20・・・音声認識サーバ
22・・・音声認識部
30・・・応答生成サーバ
32・・・応答生成部
Claims (8)
- 一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体と、
いずれかの前記移動体の近傍にある音源の数を推定する音源数推定手段と、
前記移動体の位置を制御する制御手段と、を含み、
前記制御手段は、第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御し、
前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得する、
音声取得システム。 - 前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して、複数の音源から発せられた音を音源ごとに分離する、
請求項1に記載の音声取得システム。 - 前記音源数推定手段が推定した、第一の移動体の近傍に存在する音源の数が所定の数よりも多い場合に、
前記制御手段は、第二の移動体を前記第一の移動体の近傍へ移動させる、
請求項2に記載の音声取得システム。 - 前記所定の数は、前記第一の移動体に搭載された数のマイクでは、前記第一の移動体の近傍に存在する複数の音源から発せられた音を所定の精度で分離できない数である、
請求項3に記載の音声取得システム。 - 前記制御手段は、前記第一の移動体に搭載されているマイクの数または配置に関する情報に基づいて、前記複数の音源から発せられた音を所定の精度で分離できるか否かを判定する、
請求項4に記載の音声取得システム。 - 前記所定の数は、前記第一の移動体に搭載されているマイクの数よりも多い数である、
請求項3に記載の音声取得システム。 - 一つ以上のマイクを有し、音源の周囲を移動可能な移動体であって、
近傍にある音源の数を推定する音源数推定手段と、
前記近傍にある前記音源の数に基づいて、他の移動体の位置を制御する制御手段と、
自己が有するマイクと、前記他の移動体が有するマイクの双方を利用して音声を取得する音声取得手段と、
を有する、移動体。 - 一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体を用いて音声を取得する音声取得方法であって、
いずれかの前記移動体の近傍にある音源の数を推定する音源数推定ステップと、
第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御する制御ステップと、
前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得する音声取得ステップと、
を含む、音声取得方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016184189A JP6520878B2 (ja) | 2016-09-21 | 2016-09-21 | 音声取得システムおよび音声取得方法 |
US15/704,681 US10381003B2 (en) | 2016-09-21 | 2017-09-14 | Voice acquisition system and voice acquisition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016184189A JP6520878B2 (ja) | 2016-09-21 | 2016-09-21 | 音声取得システムおよび音声取得方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018049143A true JP2018049143A (ja) | 2018-03-29 |
JP6520878B2 JP6520878B2 (ja) | 2019-05-29 |
Family
ID=61621279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016184189A Active JP6520878B2 (ja) | 2016-09-21 | 2016-09-21 | 音声取得システムおよび音声取得方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10381003B2 (ja) |
JP (1) | JP6520878B2 (ja) |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
CN109754814B (zh) * | 2017-11-08 | 2023-07-28 | 阿里巴巴集团控股有限公司 | 一种声音处理方法、交互设备 |
US10777198B2 (en) * | 2017-11-24 | 2020-09-15 | Electronics And Telecommunications Research Institute | Apparatus for determining speech properties and motion properties of interactive robot and method thereof |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) * | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
CN110310657B (zh) * | 2019-07-10 | 2022-02-08 | 北京猎户星空科技有限公司 | 一种音频数据处理方法及装置 |
CN110534105B (zh) * | 2019-07-24 | 2021-10-15 | 珠海格力电器股份有限公司 | 一种语音控制方法及装置 |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111443717B (zh) * | 2020-04-24 | 2021-07-06 | 南京硅基智能科技有限公司 | 一种基于语音识别控制的巡检机器人系统 |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
JP2022119582A (ja) * | 2021-02-04 | 2022-08-17 | 株式会社日立エルジーデータストレージ | 音声取得装置および音声取得方法 |
CN114446300B (zh) * | 2022-02-17 | 2023-03-24 | 北京百度网讯科技有限公司 | 多音区识别方法、装置、设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005057549A1 (ja) * | 2003-12-12 | 2005-06-23 | Nec Corporation | 情報処理システム、情報処理方法および情報処理用プログラム |
JP2010156741A (ja) * | 2008-12-26 | 2010-07-15 | Yamaha Corp | サービス提供装置 |
WO2014087495A1 (ja) * | 2012-12-05 | 2014-06-12 | 株式会社日立製作所 | 音声対話ロボット、音声対話ロボットシステム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9445193B2 (en) * | 2008-07-31 | 2016-09-13 | Nokia Technologies Oy | Electronic device directional audio capture |
US9412375B2 (en) * | 2012-11-14 | 2016-08-09 | Qualcomm Incorporated | Methods and apparatuses for representing a sound field in a physical space |
US9065971B2 (en) * | 2012-12-19 | 2015-06-23 | Microsoft Technology Licensing, Llc | Video and audio tagging for active speaker detection |
JP2014219467A (ja) | 2013-05-02 | 2014-11-20 | ソニー株式会社 | 音信号処理装置、および音信号処理方法、並びにプログラム |
-
2016
- 2016-09-21 JP JP2016184189A patent/JP6520878B2/ja active Active
-
2017
- 2017-09-14 US US15/704,681 patent/US10381003B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005057549A1 (ja) * | 2003-12-12 | 2005-06-23 | Nec Corporation | 情報処理システム、情報処理方法および情報処理用プログラム |
JP2010156741A (ja) * | 2008-12-26 | 2010-07-15 | Yamaha Corp | サービス提供装置 |
WO2014087495A1 (ja) * | 2012-12-05 | 2014-06-12 | 株式会社日立製作所 | 音声対話ロボット、音声対話ロボットシステム |
Also Published As
Publication number | Publication date |
---|---|
US20180082686A1 (en) | 2018-03-22 |
JP6520878B2 (ja) | 2019-05-29 |
US10381003B2 (en) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6520878B2 (ja) | 音声取得システムおよび音声取得方法 | |
JP6402748B2 (ja) | 音声対話装置および発話制御方法 | |
JP4718987B2 (ja) | インターフェース装置およびそれを備えた移動ロボット | |
JP6465077B2 (ja) | 音声対話装置および音声対話方法 | |
US10276164B2 (en) | Multi-speaker speech recognition correction system | |
US9547306B2 (en) | State and context dependent voice based interface for an unmanned vehicle or robot | |
JP4204541B2 (ja) | 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム | |
KR101834546B1 (ko) | 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법 | |
US10431241B2 (en) | Speech enhancement method and apparatus for same | |
JP4825552B2 (ja) | 音声認識装置、周波数スペクトル取得装置および音声認識方法 | |
WO2009111884A1 (en) | Speech understanding method and system | |
JP2020046478A (ja) | ロボットシステム | |
KR102374054B1 (ko) | 음성 인식 방법 및 이에 사용되는 장치 | |
JP2018169473A (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP6723907B2 (ja) | 言語認識システム、言語認識方法、及び言語認識プログラム | |
JP2008052178A (ja) | 音声認識装置と音声認識方法 | |
JP2018075657A (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
WO2020079918A1 (ja) | 情報処理装置及び情報処理方法 | |
JP2001188551A (ja) | 情報処理装置および方法、並びに記録媒体 | |
JP2018055155A (ja) | 音声対話装置および音声対話方法 | |
JP5610283B2 (ja) | 外部機器制御装置、その外部機器制御方法及びプログラム | |
WO2021206679A1 (en) | Audio-visual multi-speacer speech separation | |
JP2016163230A (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP6680125B2 (ja) | ロボットおよび音声対話方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180925 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190415 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6520878 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |